USP - Curso de Física-Matemática

Universidade de São Paulo
Departamento de Fı́sica Matemática
2006
Curso de Fı́sica-Matemática
João Carlos Alves Barata
Versão de 23 de maio de 2006
Estas notas ou sua versão mais recente podem ser encontradas no seguinte endereço WWW:
http://denebola.if.usp.br/∼jbarata/Notas de aula
Índice
Prefácio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
Notação e Advertências . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
I Capı́tulos Introdutórios 21
1 Noções Básicas 22
1.1 Conjuntos, Relações e Funções . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
1.1.1 Relações e Funções . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
1.1.2 Relações de Ordem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
1.1.3 Cardinalidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
1.1.4 Ínfimos e Supremos de Famı́lias de Conjuntos . . . . . . . . . . . . . . . . . . . 44
1.2 Estruturas Algébricas Básicas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
1.2.1 Semi-grupos, Monóides e Grupos . . . . . . . . . . . . . . . . . . . . . . . . . . 49
1.2.2 Corpos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
1.2.3 Espaços Vetoriais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
1.2.4 Anéis, Álgebras e Módulos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
1.2.5 Mais sobre Anéis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
1.2.6 Ações e Representações . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
1.2.7 Morfismos, Homomorfismos, Epimorfismos, Isomorfismos, Monomorfismos, En-
domorfismos e Automorfismos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
1.3 Cosets, Sub-Grupos Normais e o Grupo Quociente. O Centro de um Grupo . . . . . . . 73
1.3.1 Cosets . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
1.3.2 Subgrupos Normais e o Grupo Quociente . . . . . . . . . . . . . . . . . . . . . . 75
1.3.3 O Centro de um Grupo. Centralizadores e Normalizadores . . . . . . . . . . . . 77
1.4 O Produto Direto e o Produto Semi-Direto de Grupos . . . . . . . . . . . . . . . . . . . 78
1.5 Somas Diretas e Produtos Tensoriais . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82
1.5.1 Discussão Informal Preliminar . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82
1.5.2 Grupos Gerados por Conjuntos. Grupos Gerados por Relações . . . . . . . . . . 84
1.5.3 Somas Diretas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86
1.5.4 Produtos Tensoriais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
1.5.5 Produtos Diretos e Somas Diretas Arbitrários . . . . . . . . . . . . . . . . . . . 88
1.5.6 Módulos e Derivações . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
2
3/1461
1.6 Tópicos especiais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90

1.6.1 O Grupo de Grothendieck . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90
1.6.2 Grupóides . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92
1.6.3 Quatérnions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94
2 Espaços Vetoriais 100

2.1 Espaços Vetoriais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100
2.1.1 Sub-Espaços e Espaços Quocientes . . . . . . . . . . . . . . . . . . . . . . . . . 100
2.1.2 Bases Algébricas de um Espaço Vetorial . . . . . . . . . . . . . . . . . . . . . . 102
2.1.3 O Dual Algébrico de um Espaço Vetorial . . . . . . . . . . . . . . . . . . . . . 107
2.2 Formas Lineares, Sesquilineares e Produtos Escalares em Espaços Vetoriais . . . . . . . 114
2.2.1 Formas Multilineares . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114
2.2.2 Formas Sesquilineares e as Desigualdades de Cauchy-Schwarz e Minkowski . . . 119
2.2.3 Produtos Escalares . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123
2.2.4 Exemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126
2.3 Normas em Espaços Vetoriais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 128
2.4 Formas Bilineares e Sesquilineares em Espaços de Dimensão Finita . . . . . . . . . . . 135
2.5 Estruturas Complexas sobre Espaços Vetoriais Reais . . . . . . . . . . . . . . . . . . . . 140
Apêndices . . . . . . . . . . . . . . . . . . . . . . 149
2.A Prova do Teorema de Fréchet, von Neumann e Jordan . . . . . . . . . . . . . . . . . . . 149
II Tópicos de Álgebra Linear 153
3 Tópicos de Álgebra Linear. I 154

3.1 Propriedades Básicas de Determinantes e Inversas de Matrizes . . . . . . . . . . . . . . 155
3.2 Noções Básicas sobre o Espectro de uma Matriz . . . . . . . . . . . . . . . . . . . . . . 163
3.2.1 O Traço de uma Matriz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 169
3.3 Polinômios de Matrizes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 171
3.3.1 O Teorema de Hamilton-Cayley . . . . . . . . . . . . . . . . . . . . . . . . . . . 173
3.4 Matrizes Diagonalizáveis e o Teorema Espectral . . . . . . . . . . . . . . . . . . . . . . 178
3.4.1 Diagonalização Simultânea de Matrizes . . . . . . . . . . . . . . . . . . . . . . . 192
3.5 Matrizes Auto-adjuntas, Normais e Unitárias . . . . . . . . . . . . . . . . . . . . . . . . 196
3.5.1 Matrizes Positivas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 203
3.6 Matrizes Triangulares . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 206
4/1461
3.7 O Teorema de Decomposição de Jordan e a Forma Canônica de Matrizes . . . . . . . . 207

3.7.1 Resultados Preparatórios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 208
3.7.2 O Teorema da Decomposição de Jordan . . . . . . . . . . . . . . . . . . . . . . 214
3.7.3 Matrizes Nilpotentes e sua Representação Canônica . . . . . . . . . . . . . . . . 217
3.7.4 A Forma Canônica de Matrizes . . . . . . . . . . . . . . . . . . . . . . . . . . . 221
3.8 Algumas Representações Especiais de Matrizes . . . . . . . . . . . . . . . . . . . . . . . 223
3.8.1 A Decomposição Polar de Matrizes . . . . . . . . . . . . . . . . . . . . . . . . . 223
3.8.2 O Teorema da Triangularização de Schur . . . . . . . . . . . . . . . . . . . . . . 226
3.8.3 A Decomposição QR e a Decomposição de Iwasawa (“KAN”) . . . . . . . . . . 228
3.9 Propriedades Especiais de Determinantes . . . . . . . . . . . . . . . . . . . . . . . . . . 231
3.9.1 Expansão do Polinômio Caracterı́stico . . . . . . . . . . . . . . . . . . . . . . . 231
3.9.2 A Desigualdade de Hadamard . . . . . . . . . . . . . . . . . . . . . . . . . . . . 232
3.10 Exercı́cios Adicionais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 235
4 Tópicos de Álgebra Linear. II 238

4.1 Uma Topologia Métrica em Mat (C, n) . . . . . . . . . . . . . . . . . . . . . . . . . . . 239
4.2 Exponenciais, Logaritmos e Funções Analı́ticas de Matrizes . . . . . . . . . . . . . . . . 244
4.2.1 A Exponenciação de Matrizes e os Grupos GL(C, n) e GL(R, n) . . . . . . . . 252
4.3 A Fórmula de Lie-Trotter e a Fórmula do Comutador . . . . . . . . . . . . . . . . . . . 255
4.4 Aplicações Lineares em Mat (C, n) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 258
4.5 A Fórmula de Baker, Campbell e Hausdorff . . . . . . . . . . . . . . . . . . . . . . . . 264
4.6 A Fórmula de Duhamel e Algumas de suas Conseqüências . . . . . . . . . . . . . . . . 270
III Equações Diferenciais 275
5 Equações Diferenciais Ordinárias. Uma Introdução 276

5.1 Definição e Alguns Exemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 277
5.1.1 Equações Diferenciais Ordinárias Lineares . . . . . . . . . . . . . . . . . . . . . 279
5.1.2 Equações Ordinárias de Segunda Ordem. Exemplos de Interesse . . . . . . . . . 283
5.2 Sistemas de Equações Diferenciais Ordinárias . . . . . . . . . . . . . . . . . . . . . . . 285
5.3 Discussão sobre Problemas de Valor Inicial . . . . . . . . . . . . . . . . . . . . . . . . . 290
5.3.1 Problemas de Valor Inicial. Patologias e Exemplos a se Ter em Mente . . . . . . 293
5.3.2 Teoremas de Existência e Unicidade de Soluções . . . . . . . . . . . . . . . . . . 296
5.3.3 Soluções Globais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 298
5/1461
5.3.4 Dependência Contı́nua de Condições Iniciais e de Parâmetros . . . . . . . . . . . 300
6 Alguns Métodos de Resolução de Equações Diferenciais Ordinárias 302

6.1 Solução de Equações Ordinárias Lineares de Primeira Ordem . . . . . . . . . . . . . . . 302
6.2 As Equações de Bernoulli e de Riccati . . . . . . . . . . . . . . . . . . . . . . . . . . . . 303
6.3 Integração de Equações Separáveis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 306
6.4 O Método de Variação de Constantes . . . . . . . . . . . . . . . . . . . . . . . . . . . . 307
6.5 O Método de Substituição de Prüfer . . . . . . . . . . . . . . . . . . . . . . . . . . . . 309
6.6 O Método de Inversão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 311
6.7 Solução de Equações Exatas e o Método dos Fatores Integrantes . . . . . . . . . . . . . 312
6.8 Soluções das Equações de D’Alembert-Lagrange e Clairaut . . . . . . . . . . . . . . . . 317
7 Sistemas de Equações Diferenciais Ordinárias Lineares 322

7.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 323
7.2 Unicidade e Existência de Soluções . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 324
7.2.1 Unicidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 324
7.2.2 Existência. A Série de Dyson . . . . . . . . . . . . . . . . . . . . . . . . . . . . 327
7.2.3 Propriedades de D(s, t) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 332
7.3 Equações com Coeficientes Constantes . . . . . . . . . . . . . . . . . . . . . . . . . . . 336
7.3.1 Alguns Exemplos e Aplicações . . . . . . . . . . . . . . . . . . . . . . . . . . . . 338
7.4 Teoria de Perturbações de Sistemas Lineares . . . . . . . . . . . . . . . . . . . . . . . . 343
7.5 Mais sobre a Série de Dyson. Produtos de Tempo Ordenado . . . . . . . . . . . . . . . 346
7.6 Sistemas de Equações Diferenciais Lineares no Plano Complexo . . . . . . . . . . . . . 349
7.6.1 O Caso Analı́tico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 350
7.6.2 Resolução por Séries de Potências . . . . . . . . . . . . . . . . . . . . . . . . . . 356
7.6.3 Sistemas com Pontos Singulares. Monodromia . . . . . . . . . . . . . . . . . . . 358
7.6.4 Sistemas com Pontos Singulares Simples . . . . . . . . . . . . . . . . . . . . . . 368
7.7 Sistemas Provenientes de EDOs de Ordem m . . . . . . . . . . . . . . . . . . . . . . . . 373
7.7.1 Pontos Singulares Simples em EDO’s de Ordem m . . . . . . . . . . . . . . . . . 374
7.7.2 Singularidades no Infinito . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 378
7.7.3 Alguns Exemplos de Interesse . . . . . . . . . . . . . . . . . . . . . . . . . . . . 380
7.8 Equações Fuchsianas. Sı́mbolos de Riemann . . . . . . . . . . . . . . . . . . . . . . . . 386
7.8.1 Equações Fuchsianas de Primeira Ordem . . . . . . . . . . . . . . . . . . . . . . 386
7.8.2 Equações Fuchsianas de Segunda Ordem . . . . . . . . . . . . . . . . . . . . . . 391
6/1461
7.8.3 Sı́mbolos de Riemann. Simetrias de Equações Fuchsianas de Segunda Ordem . . 398

8 Soluções de Equações Diferenciais Ordinárias Lineares no Plano Complexo 410

8.1 Soluções em Séries de Potências para Equações Regulares . . . . . . . . . . . . . . . . . 412
8.1.1 A Equação do Oscilador Harmônico Simples . . . . . . . . . . . . . . . . . . . . 412
8.1.2 A Equação de Legendre . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 414
8.1.3 A Equação de Hermite . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 417
8.1.4 A Equação de Airy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 420
8.1.5 A Equação de Chebyshev . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 423
8.1.6 O Caso de Equações Regulares Gerais . . . . . . . . . . . . . . . . . . . . . . . . 426
8.2 Solução de Equações Singulares Regulares. O Método de Frobenius . . . . . . . . . . . 428
8.2.1 Equações Singulares Regulares. O Caso Geral . . . . . . . . . . . . . . . . . . . 432
8.2.2 A Equação de Euler Revisitada . . . . . . . . . . . . . . . . . . . . . . . . . . . 441
8.2.3 A Equação de Bessel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 444
8.2.4 Equações Relacionadas à de Bessel. A Equação de Bessel Esférica . . . . . . . . 456
8.2.5 Equações Relacionadas à de Bessel. A Equação de Bessel Modificada . . . . . . 459
8.2.6 A Equação de Laguerre . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 460
8.2.7 A Equação Hipergeométrica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 462
8.2.8 A Equação Hipergeométrica Confluente . . . . . . . . . . . . . . . . . . . . . . . 466
8.3 Algumas Equações Associadas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 469
8.3.1 A Equação de Legendre Associada . . . . . . . . . . . . . . . . . . . . . . . . . 470
8.3.2 A Equação de Laguerre Associada . . . . . . . . . . . . . . . . . . . . . . . . . . 472
8.4 A Função Gama. Definição e Propriedades . . . . . . . . . . . . . . . . . . . . . . . . . 473
Apêndices . . . . . . . . . . . . . . . . . . . . . . 493
8.A Prova da Proposição 8.1. Justificando os Polinômios de Legendre . . . . . . . . . . . . 493
8.B Provando (8.14) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 495
8.C Justificando os Polinômios de Hermite . . . . . . . . . . . . . . . . . . . . . . . . . . . 497
8.D Provando (8.20) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 499
8.E Porque λ deve ser um Inteiro Positivo na Equação de Laguerre . . . . . . . . . . . . . . 500
9 Propriedades de Algumas Funções Especiais 503

9.1 Discussão Preliminar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 504
7/1461
9.1.1 Definições e Considerações Preliminares . . . . . . . . . . . . . . . . . . . . . . . 504

9.1.2 Relações de Ortogonalidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 507
9.1.3 Fórmulas de Rodrigues . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 509
9.1.4 Funções Geratrizes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 511
9.2 Propriedades de Algumas Funções Especiais . . . . . . . . . . . . . . . . . . . . . . . . 521
9.2.1 Propriedades dos Polinômios de Legendre . . . . . . . . . . . . . . . . . . . . . . 521
9.2.2 Propriedades dos Polinômios de Legendre Associados. Harmônicas Esféricas . . 527
9.2.3 Propriedades dos Polinômios de Hermite . . . . . . . . . . . . . . . . . . . . . . 537
9.2.4 Propriedades dos Polinômios de Laguerre . . . . . . . . . . . . . . . . . . . . . . 540
9.2.5 Propriedades dos Polinômios de Laguerre Associados . . . . . . . . . . . . . . . 544
9.2.6 Propriedades das Funções de Bessel . . . . . . . . . . . . . . . . . . . . . . . . . 548
9.2.7 Propriedades das Funções de Bessel Esféricas . . . . . . . . . . . . . . . . . . . . 566
9.3 Completeza de Algumas Famı́lias de Funções . . . . . . . . . . . . . . . . . . . . . . . . 569
9.3.1 Completeza de Polinômios Ortogonais em Intervalos Compactos . . . . . . . . . 570
9.3.2 Completeza de Polinômios de Hermite . . . . . . . . . . . . . . . . . . . . . . . 572
9.3.3 Completeza dos Polinômios Trigonométricos . . . . . . . . . . . . . . . . . . . . 574
Apêndices . . . . . . . . . . . . . . . . . . . . . . 581
9.A Provando (9.57) à Força Bruta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 581
10 Alguns Problemas Selecionados de Interesse Fı́sico 583

10.1 As Equações de Helmholtz e de Laplace . . . . . . . . . . . . . . . . . . . . . . . . . . . 583
10.1.1 Problemas em Duas Dimensões em Coordenadas Polares . . . . . . . . . . . . . 585
10.1.2 Problemas em Três Dimensões em Coordenadas Esféricas . . . . . . . . . . . . . 588
10.2 O Problema da Corda Vibrante . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 593
10.2.1 Corda Vibrante Homogênea . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 593
10.2.2 O Problema da Corda Homogênea Pendurada . . . . . . . . . . . . . . . . . . . 596
10.2.3 Corda Vibrante Não-Homogênea . . . . . . . . . . . . . . . . . . . . . . . . . . . 599
10.2.4 O Problema da Membrana Retangular Homogênea . . . . . . . . . . . . . . . . 603
10.3 O Problema da Membrana Circular Homogênea . . . . . . . . . . . . . . . . . . . . . . 605
10.4 O Oscilador Harmônico na Mecânica Quântica e a Equação de Hermite . . . . . . . . . 608
10.5 O Átomo de Hidrogênio e a Equação de Laguerre Associada . . . . . . . . . . . . . . . 610
10.6 Propagação de Ondas em Tanques Cilı́ndricos . . . . . . . . . . . . . . . . . . . . . . . 613
8/1461
11 Rudimentos da Teoria das Equações Diferenciais Parciais 632

11.1 Definições, Notações e Alguns Exemplos . . . . . . . . . . . . . . . . . . . . . . . . . . 633
11.1.1 Alguma Classificação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 640
11.2 O Método de Separação de Variáveis . . . . . . . . . . . . . . . . . . . . . . . . . . . . 641
11.2.1 O Método de Separação de Variáveis. Caso de Equações Lineares . . . . . . . . 642
11.2.2 O Método de Separação de Variáveis. Caso de Equações Não-Lineares . . . . . . 646
11.3 O Método das Caracterı́sticas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 648
11.3.1 Exemplos de Aplicação do Método das Caracterı́sticas . . . . . . . . . . . . . . 654
11.3.2 Caracterı́sticas. Comentários Adicionais . . . . . . . . . . . . . . . . . . . . . . 669
11.4 Unicidade de Soluções de Equações Diferenciais Parciais . . . . . . . . . . . . . . . . . 671
11.4.1 Casos Simples. Discussão Preliminar . . . . . . . . . . . . . . . . . . . . . . . . 671
11.4.2 Unicidade de Soluções. Generalizações . . . . . . . . . . . . . . . . . . . . . . . 678
12 Introdução ao Problema de Sturm-Liouville 688

12.1 Comentários Iniciais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 689
12.2 O Problema de Sturm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 694
12.2.1 Resolvendo o Problema de Sturm. A Função de Green . . . . . . . . . . . . . . 695
12.2.2 O Teorema de Green . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 697
12.3 O Problema de Sturm-Liouville . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 700
12.4 Propriedades Básicas dos Auto-Valores e Auto-funções de Problemas de Sturm-Liouville 702
12.4.1 Realidade dos Auto-Valores. Ortogonalidade de Auto-funções . . . . . . . . . . 702
12.4.2 A Simplicidade dos Auto-Valores . . . . . . . . . . . . . . . . . . . . . . . . . . 705
12.4.3 Condições Suficientes para a Positividade dos Auto-Valores . . . . . . . . . . . . 707
12.5 A Equação Integral de Fredholm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 710
12.6 Uma Aplicação do Problema de Sturm-Liouville . . . . . . . . . . . . . . . . . . . . . . 714
12.7 Comentários Finais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 718
12.7.1 O Problema de Sturm-Liouville Singular . . . . . . . . . . . . . . . . . . . . . . 718
Apêndices . . . . . . . . . . . . . . . . . . . . . . 725
12.A Prova do Teorema 12.1. Existência e Unicidade . . . . . . . . . . . . . . . . . . . . . . 725
12.B Prova da Proposição 12.1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 726
12.C Comentário Sobre o Determinante Wronskiano . . . . . . . . . . . . . . . . . . . . . . . 730
12.D Ausência de Auto-Valores em um Problema Singular . . . . . . . . . . . . . . . . . . . 731
9/1461
12.E Demonstração do Teorema 12.3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 732

12.F Prova da Desigualdade (12.E.22) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 736
13 Alguns Resultados sobre Equações Integrais 738

13.1 Descrição . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 739
13.2 O Método dos Determinantes de Fredholm . . . . . . . . . . . . . . . . . . . . . . . . . 741
13.2.1 A Equação Integral de Fredholm Linear Não-Homogênea . . . . . . . . . . . . . 741
13.2.2 A Equação Integral de Fredholm Linear Homogênea . . . . . . . . . . . . . . . . 746
Apêndices . . . . . . . . . . . . . . . . . . . . . . 750
13.A Obtendo os Determinantes de Fredholm . . . . . . . . . . . . . . . . . . . . . . . . . . . 750
IV Grupos 757
14 Grupos. Alguns Exemplos 758

14.1 O Grupo de Permutações . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 759
14.1.1 Ciclos, Transposições e Transposições Elementares . . . . . . . . . . . . . . . . . 760
14.2 Alguns Grupos Matriciais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 766
14.2.1 Os Grupos GL(n) e SL(n) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 766
14.2.2 O Grupo de Borel e o Grupo de Heisenberg . . . . . . . . . . . . . . . . . . . . 769
14.2.3 Grupos Associados a Formas Bilineares e Sesquilineares . . . . . . . . . . . . . . 777
14.2.4 Os Grupos Ortogonais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 779
14.2.5 Os Grupos Unitários . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 780
14.3 Os Grupos SO(2), SO(3), SU(2) e SL(C, 2) . . . . . . . . . . . . . . . . . . . . . . . . 782
14.3.1 Os Grupos SO(2), O(2), SO(1, 1) e O(1, 1) . . . . . . . . . . . . . . . . . . . . . 782
14.3.2 O Grupo SO(3) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 786
14.3.3 O Grupo SU(2) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 795
14.3.4 A Relação entre SO(3) e SU(2) . . . . . . . . . . . . . . . . . . . . . . . . . . . 798
14.3.5 O Grupo SL(C, 2) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 801
14.4 Generalidades sobre os grupos SU(n) e SO(n) . . . . . . . . . . . . . . . . . . . . . . . 803
14.4.1 Os Grupos SU(n) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 803
14.4.2 O Grupo SU(3) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 806
14.4.3 Os Grupos SO(n) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 807
14.5 O Grupo Afim e o Grupo Euclidiano . . . . . . . . . . . . . . . . . . . . . . . . . . . . 813
10/1461
14.6 O Grupo de Lorentz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 819

14.6.1 O Espaço-Tempo, a Noção de Intervalo e a Estrutura Causal . . . . . . . . . . . 819
14.6.2 A Invariância do Intervalo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 826
14.6.3 O Grupo de Lorentz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 828
14.6.4 Alguns Sub-Grupos do Grupo de Lorentz . . . . . . . . . . . . . . . . . . . . . . 830
14.6.5 A Estrutura do Grupo de Lorentz . . . . . . . . . . . . . . . . . . . . . . . . . . 834
14.6.6 Os Geradores do Grupo de Lorentz . . . . . . . . . . . . . . . . . . . . . . . . . 839
14.7 O Grupo de Poincaré . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 844
14.8 SL(C, 2) e o Grupo de Lorentz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 849
Apêndices . . . . . . . . . . . . . . . . . . . . . . 858
14.A Prova do Teorema 14.8 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 858
14.B Um Isomorfismo entre SL(C, 2)/{1, −1} e L↑+ . . . . . . . . . . . . . . . . . . . . . . . 871
15 Grupos de Lie e Álgebras de Lie. Uma Breve Introdução 880

15.1 Variedades e Grupos de Lie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 881
15.2 Breves Considerações sobre Grupos Topológicos . . . . . . . . . . . . . . . . . . . . . . 883
15.3 Grupos de Lie Matriciais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 886
15.3.1 Uma Topologia Métrica em GL(C, n) . . . . . . . . . . . . . . . . . . . . . . . . 886
15.3.2 O Grupo de Lie GL(C, n) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 887
15.3.3 Sub-Grupos Uniparamétricos e seus Geradores . . . . . . . . . . . . . . . . . . . 890
15.3.4 Sub-Grupos Uniparamétricos e Álgebras de Lie . . . . . . . . . . . . . . . . . . 894
15.3.5 Subgrupos Fechados de GL(C, n) . . . . . . . . . . . . . . . . . . . . . . . . . . 899
15.4 A Relação entre Grupos de Lie Matriciais e suas Álgebras de Lie . . . . . . . . . . . . . 903
15.4.1 Álgebras de Lie Nilpotentes, Solúveis, Simples e Semi-Simples . . . . . . . . . . 904
15.4.2 Questões sobre a Exponenciação de Álgebras de Lie . . . . . . . . . . . . . . . . 907
15.4.3 Alguns Exemplos Especiais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 910
16 Uma Breve Introdução à Teoria das Representações de Grupos 917

16.1 Representações de Grupos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 917
16.2 Representações Irredutı́veis de SO(3) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 924
16.3 A Medida de Haar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 928
16.4 Representações de Grupos Compactos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 930
16.5 O Teorema de Peter-Weyl . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 931
11/1461
V Topologia Geral, Teoria da Medida e Integração 938
17 Espaços Métricos 939

17.1 Métricas e Espaços Métricos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 941
17.2 Topologia de Espaços Métricos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 956
17.3 Pseudo-Métricas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 960
17.4 Espaços de Banach e de Hilbert . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 962
17.4.1 Espaços de Seqüências . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 964
Apêndices . . . . . . . . . . . . . . . . . . . . . . 978
17.A Algumas Desigualdades Básicas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 978
17.B Números reais e p-ádicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 980
17.C Aproximações para π . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 987
18 O Teorema do Ponto Fixo de Banach e Algumas de Suas Conseqüências 994

18.1 O Teorema de Ponto Fixo de Banach . . . . . . . . . . . . . . . . . . . . . . . . . . . . 995
18.1.1 Generalizações do Teorema de Ponto Fixo de Banach . . . . . . . . . . . . . . . 997
18.2 Aplicação a Equações Numéricas. O Método de Newton . . . . . . . . . . . . . . . . . . 1001
18.3 Aplicação às Equações Integrais de Fredholm e de Volterra . . . . . . . . . . . . . . . . 1005
18.4 Aplicações à Teoria das Equações Diferenciais Ordinárias . . . . . . . . . . . . . . . . . 1014
18.4.1 O Teorema de Picard-Lindelöf . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1014
18.4.2 Generalizando o Teorema de Picard-Lindelöf. Soluções Globais . . . . . . . . . . 1019
18.4.3 Um Teorema de Comparação de Soluções de EDO’s . . . . . . . . . . . . . . . . 1020
18.5 O Teorema da Função Implı́cita e o Teorema da Função Inversa . . . . . . . . . . . . . 1024
18.5.1 O Teorema da Função Implı́cita . . . . . . . . . . . . . . . . . . . . . . . . . . . 1024
18.5.2 O Teorema da Função Inversa . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1029
Apêndices . . . . . . . . . . . . . . . . . . . . . . 1030
18.A O Lema de Grönwall . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1030
19 Espaços Topológicos e Espaços Mensuráveis. Definições e Propriedades Básicas 1031

19.1 Definições, Propriedades Elementares e Exemplos . . . . . . . . . . . . . . . . . . . . . 1032
19.2 Algumas Construções Especiais e Exemplos . . . . . . . . . . . . . . . . . . . . . . . . 1038
19.2.1 Topologias e σ-álgebras Geradas . . . . . . . . . . . . . . . . . . . . . . . . . . . 1038
19.2.2 Bases de Espaços Topológicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1042
19.2.3 Topologias e σ-álgebras Induzidas . . . . . . . . . . . . . . . . . . . . . . . . . . 1044
12/1461
19.2.4 Topologias e σ-álgebras Produto . . . . . . . . . . . . . . . . . . . . . . . . . . . 1047

19.3 Interior e Fecho de Conjuntos em Espaços Topológicos . . . . . . . . . . . . . . . . . . 1047
19.3.1 Fecho de Conjuntos em Espaços Métricos . . . . . . . . . . . . . . . . . . . . . . 1053
19.4 Espaços Topológicos Separáveis e Segundo-Contáveis . . . . . . . . . . . . . . . . . . . 1054
20 Medidas 1058
20.1 O Problema da Teoria da Medida . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1058
20.2 Medidas de Conjuntos. Definição, Exemplos e Propriedades Básicas . . . . . . . . . . . 1061
20.3 Construindo Medidas. A Medida Exterior e o Teorema de Caratheodory . . . . . . . . 1065
21 A Medida de Lebesgue 1074

21.1 A Construção da Medida de Lebesgue . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1074
21.1.1 A σ-álgebra de Borel em R e a Medida de Borel-Lebesgue . . . . . . . . . . . . 1077
21.1.2 A Medida Produto e a Medida de Lebesgue em Rn . . . . . . . . . . . . . . . . 1080
21.2 Conjuntos de Cantor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1081
21.3 Bases de Hamel e a Medida de Lebesgue . . . . . . . . . . . . . . . . . . . . . . . . . . 1093
22 Continuidade e Convergência em Espaços Topológicos 1098

22.1 Primeiras Definições . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1098
22.2 Espaços Hausdorff . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1100
22.3 Reticulados e o Caso de Espaços Topológicos Gerais . . . . . . . . . . . . . . . . . . . . 1102
22.3.1 Reticulados em Espaços Métricos . . . . . . . . . . . . . . . . . . . . . . . . . . 1105
22.4 O Limite do Ínfimo e o Limite do Supremo . . . . . . . . . . . . . . . . . . . . . . . . . 1106
22.5 Continuidade de Funções em Espaços Topológicos . . . . . . . . . . . . . . . . . . . . . 1111
22.5.1 Outras Caracterizações do Conceito de Continuidade em Espaços Topológicos . 1114
22.5.2 Continuidade e Convergência . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1116
23 Elementos da Teoria da Integração 1119

23.1 Comentários Preliminares . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1120
23.2 A Integração no Sentido de Riemann . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1122
23.2.1 A Integral de Riemann Imprópria . . . . . . . . . . . . . . . . . . . . . . . . . . 1131
23.2.2 Diferenciação e Integração em Espaços de Banach . . . . . . . . . . . . . . . . . 1133
23.3 A Integração no Sentido de Lebesgue . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1139
23.3.1 Funções Mensuráveis e Funções Simples . . . . . . . . . . . . . . . . . . . . . . . 1139
23.3.2 A Integral de Lebesgue. Integração em Espaços Mensuráveis . . . . . . . . . . . 1145
13/1461
23.3.3 A Integral de Lebesgue e sua Relação com a de Riemann . . . . . . . . . . . . . 1155

23.3.4 Teoremas Básicos sobre Integração e Convergência . . . . . . . . . . . . . . . . . 1158
23.3.5 Alguns Resultados de Interesse . . . . . . . . . . . . . . . . . . . . . . . . . . . 1162
23.4 Os Espaços Lp e Lp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1164
23.4.1 As Desigualdades de Hölder e de Minkowski . . . . . . . . . . . . . . . . . . . . 1167
23.4.2 O Teorema de Riesz-Fischer. Completeza . . . . . . . . . . . . . . . . . . . . . . 1171
Apêndices . . . . . . . . . . . . . . . . . . . . . . 1172
23.A Demonstração da Proposição 23.3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1172
23.B Caracterizações e Propriedades de Funções Mensuráveis . . . . . . . . . . . . . . . . . . 1173
23.C Prova do Lema 23.3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1179
23.D Demonstração de (23.22) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1180
23.E A Equivalência das Definições (23.23) e (23.24) . . . . . . . . . . . . . . . . . . . . . . 1181
23.F Prova do Teorema da Convergência Monótona . . . . . . . . . . . . . . . . . . . . . . . 1183
23.G Prova do Lema de Fatou . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1184
23.H Prova do Teorema da Convergência Dominada . . . . . . . . . . . . . . . . . . . . . . . 1185
23.I Prova dos Teoremas 23.2 e 23.3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1186
23.J Prova das Desigualdades de Hölder e Minkowski . . . . . . . . . . . . . . . . . . . . . . 1189
23.K Prova do Teorema de Riesz-Fischer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1191
24 Alguns Tópicos Especiais em Topologia e Análise 1194

24.1 Uma Coletânea de Definições . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1194
24.2 Compacidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1200
24.2.1 Compacidade. Definições e Propriedades em Espaços Topológicos Gerais . . . . 1200
24.2.2 Compacidade em Espaços Hausdorff . . . . . . . . . . . . . . . . . . . . . . . . . 1205
24.2.3 Compacidade em Espaços Métricos . . . . . . . . . . . . . . . . . . . . . . . . . 1206
24.2.4 Compacidade em Rn . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1215
24.3 A Noção de Topologia Fraca . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1217
24.4 A Topologia Produto de Espaços Topológicos . . . . . . . . . . . . . . . . . . . . . . . 1219
24.5 O Teorema da Categoria de Baire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1220
VI Análise Funcional 1222
25 Noções Básicas Sobre Espaços de Hilbert 1223

25.1 Aspectos Topológicos Básicos de Espaços de Hilbert . . . . . . . . . . . . . . . . . . . . 1224
14/1461
25.2 Aspectos Geométricos Básicos de Espaços de Hilbert . . . . . . . . . . . . . . . . . . . 1225

25.2.1 Bases Ortonormais Completas em Espaços de Hilbert . . . . . . . . . . . . . . . 1230
25.3 Funcionais Lineares e o Dual Topológico de um Espaço de Hilbert . . . . . . . . . . . . 1244
25.3.1 O Teorema da Representação de Riesz . . . . . . . . . . . . . . . . . . . . . . . 1245
26 Operadores Lineares Limitados em Espaços de Banach e de Hilbert 1248

26.1 Operadores Lineares em Espaços Vetoriais Normados . . . . . . . . . . . . . . . . . . . 1250
26.1.1 Espaços de Banach de Operadores . . . . . . . . . . . . . . . . . . . . . . . . . . 1254
26.1.2 O Dual Topológico de um Espaço de Banach . . . . . . . . . . . . . . . . . . . . 1258
26.1.3 O Teorema de Hahn-Banach e Algumas Conseqüências do Mesmo . . . . . . . . 1263
26.1.4 O Teorema de Banach-Steinhaus ou Princı́pio de Limitação Uniforme . . . . . . 1270
26.1.5 O Teorema da Aplicação Aberta e o Teorema do Gráfico Fechado . . . . . . . . 1271
26.2 Operadores Limitados em Espaços de Hilbert . . . . . . . . . . . . . . . . . . . . . . . 1279
26.2.1 O Adjunto de um Operador em um Espaço de Hilbert . . . . . . . . . . . . . . . 1281
26.3 Álgebras de Banach e Álgebras C∗ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1289
26.3.1 Álgebras de Banach . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1289
26.3.2 A Inversa de Operadores Limitados . . . . . . . . . . . . . . . . . . . . . . . . . 1292
26.3.3 O Espectro de Operadores em Álgebras de Banach . . . . . . . . . . . . . . . . 1298
26.3.4 O Homomorfismo de Gelfand em Álgebras C∗ . . . . . . . . . . . . . . . . . . . 1308
26.3.5 Raı́zes Quadradas de Operadores em Álgebras de Banach . . . . . . . . . . . . . 1310
26.3.6 Elementos Positivos de Álgebras C∗ . . . . . . . . . . . . . . . . . . . . . . . . . 1312
26.3.7 O Lema da Raiz Quadrada em espaços de Hilbert. A Decomposição Polar . . . 1315
26.4 Um Pouco sobre Estados e Representações de Álgebras C∗ . . . . . . . . . . . . . . . . 1320
26.5 O Espectro de Operadores em Espaços de Banach . . . . . . . . . . . . . . . . . . . . . 1329
26.6 Operadores Compactos em Espaços de Banach e de Hilbert . . . . . . . . . . . . . . . . 1339
26.6.1 O Teorema Espectral para Operadores Compactos Auto-adjuntos . . . . . . . . 1352
26.7 O Teorema Espectral para Operadores Limitados Auto-adjuntos em Espaços de Hilbert 1360
26.7.1 O Cálculo Funcional Contı́nuo e o Homomorfismo de Gelfand . . . . . . . . . . 1360
26.7.2 Generalizando o Cálculo Funcional Contı́nuo. As Medidas Espectrais . . . . . . 1362
26.7.3 Medidas com Valores em Projeções Ortogonais . . . . . . . . . . . . . . . . . . . 1372
26.7.4 Os Projetores Espectrais e o Teorema Espectral . . . . . . . . . . . . . . . . . . 1377
26.7.5 A Relevância do Teorema Espectral para a Fı́sica Quântica (um pouco de Fı́sica,
finalmente) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1381
26.A Prova do Teorema 26.18 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1390
15/1461
27 Alguns Métodos de Aproximação de Funções 1394

27.1 Aproximação de Funções Contı́nuas por Polinômios . . . . . . . . . . . . . . . . . . . . 1394
27.2 Aproximação por Polinômios Trigonométricos . . . . . . . . . . . . . . . . . . . . . . . 1400
27.2.1 Preliminares . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1401
27.2.2 Polinômios Trigonométricos e Funções Contı́nuas e Periódicas . . . . . . . . . . 1407
27.2.3 Convergência de Séries de Fourier . . . . . . . . . . . . . . . . . . . . . . . . . . 1410
27.2.4 Revisitando a Aproximação Uniforme de Funções Contı́nuas por Polinômios Tri-
gonométricos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1416
28 Noções de Estruturas Algébricas 1420

28.1 Álgebras Universais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1421
28.2 Ação de Uma Álgebra Universal sobre uma Outra Álgebra Universal (*) . . . . . . . . 1428
29 O Limite Indutivo de Álgebras 1433
Bibliografia 1442
Índice Remissivo 1451

16/1461
Prefácio
A intenção básica destas Notas é fornecer a estudantes de Fı́sica noções matemáticas impor-
tantes para uma melhor compreensão de desenvolvimentos modernos da Fı́sica Teórica e da
Matemática.
De modo geral o texto é de leitura auto-suficiente, mas vez por outra algum estudo complementar
é sugerido. Estas Notas, porém, não são substituto à leitura dos bons livros sobre os assuntos aqui
tratados. Entretanto, procuramos apresentar (muitas vezes em exercı́cios!) o maior número possı́vel
de exemplos e contra-exemplos para as várias situações tratadas de modo a motivar melhor definições
e resultados, o que é menos comum em textos com tratamentos mais sistemáticos. Parte do material
pode ser encontrada em diversas fontes, citadas na bibliografia, mas a apresentação e sua ordem são
próprias. Há também nestas Notas demonstrações do próprio autor de resultados conhecidos que são,
por alguma razão, dificilmente encontradas na literatura.
Fazemos notar que estas notas estão ainda sendo trabalhadas e alguns capı́tulos e seções podem
vir a ser alterados, corrigidos ou acrescidos de material. Além disso, novos capı́tulos serão escritos. O
material já presente é, porém, útil a todos aqueles que queiram iniciar-se nos assuntos aqui expostos.
Versões atualizadas serão colocadas na “rede” (no endereço acima indicado) sempre que possı́vel.
O autor agradece a todos os que apresentarem sugestões. Fabulosas somas em dinheiro são ofere-
cidas a todos aqueles que encontrarem erros no texto. Entre os já aquinhoados encontram-se os Srs.
Matheus Grasselli, Alexandre T. Baraviera, Marcos V. Travaglia, Daniel Augusto Cortez, Djogo F. C.
Patrão, Cléber de Mico Muramoto, Katiúscia Nadyne Cassemiro, Urbano Lopes França Junior, Gus-
tavo Barbagallo de Oliveira, Priscila Vieira Franco Gondeck, Darielder Jesus Ribeiro, Daniel Augusto
Turolla Vanzella, Leonardo Fernandes Dias da Motta, Krishnamurti José de Andrade, Pedro Tavares
Paes Lopes, Diego Cortegoso Assêncio, Fleury José de Oliveira Filho, Paulo Henrique Reimberg, Fabı́ola
Diacenco Xavier e Márcio André Prieto Aparı́cio Lopez aos quais somos muito gratos por correções e
sugestões.
As Seções 14.B, página 871, e 18.4.1, página 1014, foram originalmente escritas por Daniel Augusto
Cortez. A Seção 10.6, página 613, foi originalmente escrita por André M. Timpanaro, Fleury J. Oliveira
e Paulo H. Reimberg. A eles dedicamos agradecimentos especiais.
João Carlos Alves Barata São Paulo, 23 de maio de 2006.

Departamento de Fı́sica Matemática
17/1461
“O comportamento de um fı́sico em relação à Matemática é similar a de um ladrão inteligente em

relação ao código penal: ele estuda apenas o suficiente para evitar punições”.
I. M. Gelfand (1913-).
“A mente não é um vaso a ser repleto, mas uma tocha a ser acesa”.
Plutarco (46?-120).
“Talvez eu não tenha tido êxito em fazer as coisas difı́ceis tornarem-se fáceis, mas pelo menos eu nunca
fiz um assunto fácil tornar-se difı́cil”.
F. G. Tricomi (1897-1978).
“In science, self-satisfaction is death. Personal self-satisfaction is the death of the scientist. Collective
self-satisfaction is the death of the research. It is restlessness, anxiety, dissatisfaction, agony of mind
that nourish science”.
Jacques Lucien Monod (1910-1976), in New Scientist, 1976.
“Não existe nenhuma categoria da Ciência à qual se possa dar o nome de Ciência Aplicada. O que
existe são a Ciência e as aplicações da Ciência, intimamente ligadas, como frutos à árvore que os
gerou”.
Louis Pasteur (1822-1895), in “Pourquoi la France n’a pas trouvé d’hommes supérieurs au moment du
péril”, Revue Scientifique (Paris, 1871).
18/1461
Notação e Advertências
Para facilitar a consulta e a leitura, listamos aqui sem muitos comentários um pouco da notação
que empregaremos nestas Notas.
Se z é um número complexo denotaremos seu complexo conjugado por z. A notação z ∗ (mais

comum em textos de Fı́sica) pode ocorrer mais raramente.
O sı́mbolo A := B ou B =: A denota que A é definido pela expressão B. O sı́mbolo A ≡ B indica

que A e B são duas notações distintas para o mesmo objeto.
Se x = (x1 , . . . , xn ) e y = (y1 , . . . , yn ) são vetores reais com n componentes (ou seja, elementos
de Rn ) então definimos
hx, yiR := x1 y1 + · · · + xn yn .
Trata-se do produto escalar usual em Rn .
Se x = (x1 , . . . , xn ) e y = (y1 , . . . , yn ) são vetores complexos com n componentes (ou seja,

elementos de Cn ) então definimos
hx, yiC := x1 y1 + · · · + xn yn .
Trata-se do produto escalar usual em Cn .
Se x = (x1 , . . . , xn ) e y = (y1 , . . . , yn ) são vetores complexos com n componentes (ou seja,

elementos de Cn ) então definimos
hx, yiR := x1 y1 + · · · + xn yn .
Trata-se de uma forma bilinear em Cn .
Mat(R, n) ou Mat(n, R) designa o conjunto de todas as matrizes reais n × n. Mat(C, n) ou

Mat(n, C) designa o conjunto de todas as matrizes complexas n × n.
Se A é um elemento de Mat(R, n) ou de Mat(C, n), então T

A designa a matriz transposta de
T
A, ou seja, a matriz cujos elementos de matriz ij são A ij = Aji .
Se A é um operador linear em um espaço vetorial complexo (com um certo produto escalar),

seu adjunto é denotado por A∗ . Em textos de Fı́sica é mais comum denotá-lo por A† , mas não
usaremos isso aqui.
Assim, se A ∈ Mat(C, n), então A∗ será a adjunta de A (em relação ao produto escalar usual,
acima). O elemento de matriz ij de A∗ será (A∗ )ij = Aji.
Denotaremos o operador identidade agindo em um espaço vetorial (a matriz identidade, agindo

em um espaço vetorial de dimensão finita) pelo sı́mbolo 1. Esse sı́mbolo também representará a
unidade de uma álgebra.
19/1461
Designaremos um produto escalar entre dois vetores u e v sempre por hu, vi e nunca por (u, v),
para não causar confusão com a notação para par ordenado. Outra notação possı́vel é aquela
empregada freqüentemente em textos de Mecânica Quântica: hu | vi, mas faremos raramente uso
dessa notação.
Ainda sobre produtos escalares, seguiremos sempre a convenção dos textos de Fı́sica: um produto
escalar em um espaço vetorial sobre os complexos é linear em relação ao segundo argumento e
antilinear em relação ao primeiro. Assim, se α e β são números complexos, teremos hαu, βvi =
αβhu, vi. Textos de Matemática adotam por vezes a convenção oposta (ou mesmo ambas!).
Sobre o emprego das palavras função, aplicação, mapeamento, mapa, funcional, operador, operação,
produto e forma, que por vezes causam perplexidade em estudantes, remetemos ao comentário à
página 25.
Dado um conjunto X 6= ∅, denota-se por P(X) a coleção de todos os sub-conjuntos de X. P(X)

é denominado o conjunto das partes de X.
A topologia usual da reta real R será denotada aqui por τR .
A σ-álgebra de Borel de R será (quase sempre) denotada aqui por M[τR ].
A σ-álgebra dos sub-conjuntos de R mensuráveis por Lebesgue será (quase sempre) denotada
aqui por MµL .
Para x ∈ R, o sı́mbolo ⌊x⌋ designa o maior inteiro menor ou igual a x. O sı́mbolo ⌈x⌉ designa o
menor inteiro maior ou igual a x.
Há ainda nestas Notas um problema não totalmente sanado quanto ao conjunto dos números
naturais N. Em algumas seções adotou-se 0 ∈ N, ou seja, N = {0, 1, 2, 3, . . .} em outras,
adotou-se 0 6∈ N, ou seja, N = {1, 2, 3, . . .}. Esperamos que isso seja definitivamente corrigido
futuramente. Por ora, pedimos atenção ao leitor.
O sı́mbolo 2 indica o fim de um enunciado. O sı́mbolo indica o fim de uma demonstração. O

sı́mbolo 6 indica o fim do enunciado de um exercı́cio. O sı́mbolo ◊ indica o fim do enunciado de
um exemplo.
B(X) designa o conjunto de operadores limitados agindo em um espaço de Banach X. B(H)

designa o conjunto de operadores limitados agindo em um espaço de Hilbert H.
C(L) designa o conjunto de todas as funções contı́nuas (reais ou complexas, dependendo do caso),
definidas em L (na topologia que se estiver considerando em L).
B(L) designa a coleção de todos os conjuntos Borelianos de L (em relação à topologia que se
estiver considerando em L). Bl (L) designa a coleção de todas as funções Borelianas (reais ou
complexas, dependendo do caso), definidas em L.
O domı́nio de um operador T (agindo em um espaço de Banach ou de Hilbert) será denotado

por D(T ) ou por Dom(T ). A imagem (“range”) de T será denotada por R(T ) ou por Ran (T )
ou, mais raramente, por Im (T ), mas essa última notação pode causar confusão com a da parte
20/1461
imaginária de um número complexo ou mesmo com a da parte imaginária de um operador agindo

em um espaço de Hilbert: Im (T ) := 2i1 (T − T ∗ ).
As noções de propriedade válida quase em toda parte e de propriedade genérica são definidas nas
páginas 1080 e 1196, respectivamente.
• Intervalos
Ainda não introduzimos os números reais nem a relação de ordem entre eles mas, como essas noções
são conhecidas, vamos colocar aqui uma palavra sobre a nomenclatura usada para descrever intervalos
da reta real. Para a < b ∈ R o conjunto
(a, b) = {x ∈ R, com a < x < b}
é dito ser um intervalo aberto. Para a ≤ b ∈ R o conjunto
[a, b] = {x ∈ R, com a ≤ x ≤ b}
é dito ser um intervalo fechado. Para a < b ∈ R os conjuntos
[a, b) = {x ∈ R, com a ≤ x < b}
e
(a, b] = {x ∈ R, com a < x ≤ b}
são ditos ser intervalos semi-abertos (ou semi-fechados).
É importante dizer que a nomenclatura “aberto” ou “fechado” acima é usada independentemente
da topologia usada em R (a noção de topologia será introduzida adiante).
Parte I
Capı́tulos Introdutórios
21
Capı́tulo 1
Noções Básicas
Conteúdo
1.1 Conjuntos, Relações e Funções . . . . . . . . . . . . . . . . . . . . . . . . . 23
1.1.1 Relações e Funções . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
1.1.2 Relações de Ordem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
1.1.3 Cardinalidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
1.1.4 Ínfimos e Supremos de Famı́lias de Conjuntos . . . . . . . . . . . . . . . . . . 44
1.2 Estruturas Algébricas Básicas . . . . . . . . . . . . . . . . . . . . . . . . . 47
1.2.1 Semi-grupos, Monóides e Grupos . . . . . . . . . . . . . . . . . . . . . . . . . 49
1.2.2 Corpos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
1.2.3 Espaços Vetoriais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
1.2.4 Anéis, Álgebras e Módulos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
1.2.5 Mais sobre Anéis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
1.2.6 Ações e Representações . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
1.2.7 Morfismos, Homomorfismos, Epimorfismos, Isomorfismos, Monomorfismos, En-
domorfismos e Automorfismos . . . . . . . . . . . . . . . . . . . . . . . . . . 71
1.3 Cosets, Sub-Grupos Normais e o Grupo Quociente. O Centro de um
Grupo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
1.3.1 Cosets . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
1.3.2 Subgrupos Normais e o Grupo Quociente . . . . . . . . . . . . . . . . . . . . 75
1.3.3 O Centro de um Grupo. Centralizadores e Normalizadores . . . . . . . . . . . 77
1.4 O Produto Direto e o Produto Semi-Direto de Grupos . . . . . . . . . . . 78
1.5 Somas Diretas e Produtos Tensoriais . . . . . . . . . . . . . . . . . . . . . . 82
1.5.1 Discussão Informal Preliminar . . . . . . . . . . . . . . . . . . . . . . . . . . 82
1.5.2 Grupos Gerados por Conjuntos. Grupos Gerados por Relações . . . . . . . . 84
1.5.3 Somas Diretas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86
1.5.4 Produtos Tensoriais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
1.5.5 Produtos Diretos e Somas Diretas Arbitrários . . . . . . . . . . . . . . . . . . 88
1.5.6 Módulos e Derivações . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
1.6 Tópicos especiais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90
1.6.1 O Grupo de Grothendieck . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90
1.6.2 Grupóides . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92
1.6.3 Quatérnions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94
22
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 1 23/1461
E ste capı́tulo introdutório pretende (re)apresentar ao leitor uma série de noções matemáticas
básicas abrangendo rudimentos da teoria (“ingênua”) dos conjuntos e algumas estruturas
algébricas. O objetivo não é um tratamento extensivo dos diversos assuntos, já que vários
deles serão desenvolvidos em capı́tulos futuros. Trata-se quase de um guia de consulta onde
são apresentadas, junto com exemplos simples, várias noções e definições básicas que utilizaremos. O
estudante deve retornar a este capı́tulo sempre que necessário.
1.1 Conjuntos, Relações e Funções

Partiremos do pressuposto de serem familiares as noções básicas envolvendo conjuntos, como a noção
de conjunto vazio ∅, a noção de pertinência x ∈ C, de união de dois conjuntos A ∪ B e de interseção
de dois conjuntos A ∩ B.
Para A, B ⊂ X denotamos por A \ B a chamada diferença entre os conjuntos A e B, a saber
n o
A \ B := x ∈ X tal que x ∈ A mas x 6∈ B . (1.1)
Por vezes usa-se a notação A − B para A \ B. Para A ⊂ X denota-se por Ac o chamado complemento
de A em relação a X: Ac := X \ A. Note-se que ao usar-se o sı́mbolo Ac deve estar subentendido qual
o conjunto X ao qual o complemento se refere. É fácil ver que se A, B ⊂ X então A \ B = B c ∩ A.
Vale também (Ac )c = A e A ∩ B = A \ B c = B \ Ac para todos A, B ⊂ X.
Dizemos que um conjunto B ⊂ A é um subconjunto próprio de A se A \ B 6= ∅, ou seja, se todo
elemento de B for elemento de A mas houver elementos em A que não pertencem a B.
Se A e B são conjuntos e A ∩ B = ∅ então A ∪ B é dita ser uma união disjunta de A e B.
Se X é um conjunto denota-se por P(X) a coleção de todos os subconjuntos de X. P(X) é por
vezes chamado de conjunto das partes de X. Por convenção adota-se sempre que ∅ ∈ P(X). Assim,
dizer que A ⊂ X equivale a dizer A ∈ P(X).
Por A△B denota-se a chamada diferença simétrica entre A e B:
A△B := (A ∪ B) \ (A ∩ B) . (1.2)
E. 1.1 Exercı́cio. Mostre que A△B = B△A e que (A△B)△C = A△(B△C). 6
• Pares ordenados
Um conceito básico importante em Matemática é o de par ordenado. O conceito de par ordenado

(a, b) formado por dois elementos genéricos a, b ∈ X é intuitivo. Pela intuição, entende-se como par
ordenado uma lista de dois elementos sendo que um deles assume a posição de “primeiro” elemento
da lista (no caso, a) e o outro a de “segundo” (no caso, b). Formalmente define-se (a, b) como sendo
o conjunto {a, {b}}. Esta definição formal corresponde à intuição pois, no conjunto C = {a, {b}}, há
uma distinção entre o papel de a e de b, dado que a é um elemento do conjunto C, enquanto que b
é um elemento de um subconjunto de C, a saber do conjunto C \ {a}. Apesar de existir a definição
formal acima, recomenda-se ao estudante fiar-se inicialmente na intuição por trás do conceito.
Dados dois conjuntos A e B definimos por A × B o conjunto de todos os pares ordenados (a, b)
sendo a ∈ A e b ∈ B. O conjunto A × B é chamado de produto Cartesiano1 de A e B. Note que, em
geral, A × B 6= B × A (por quê?).
Mais adiante apresentaremos generalizações das noções de acima.
1.1.1 Relações e Funções
• Relações
Sejam A e B conjuntos e seja o produto Cartesiano A × B. Um subconjunto de A × B é dito ser

uma relação binária, ou simplesmente relação entre A e B.
Exemplo. Seja A o conjunto de homens vivos e B o conjunto de mulheres vivas e seja R ⊂ A × B
o conjunto R := {(a, b), a é irmão de b}. R representa uma relação (de irmandade) entre homens e
mulheres.
Outros exemplos virão abaixo.
Dada uma relação G ⊂ A × B entre conjuntos A e B há duas noções importantes associadas: a de
domı́nio da relação e a de imagem da relação. Define-se por domı́nio de G o conjunto
n o
Dom(G) := a ∈ A tal que (a, b) ∈ G para algum b ∈ B . (1.3)
Define-se por imagem de G o conjunto

n o
Im(G) := b ∈ B tal que (a, b) ∈ G para algum a ∈ A . (1.4)
Note-se que Dom(G) ⊂ A e que Im(G) ⊂ B.
• Funções
Este é talvez o mais importante exemplo de relação. Sejam A e B conjuntos e F uma relação entre
A e B. Então, a relação F é dita ser uma função de A em B se Dom(F ) = A e se (a, b) ∈ F e
(a, b′ ) ∈ F só for possı́vel caso b = b′ . Em outras palavras, a cada elemento a de A a função associa um
e apenas um elemento b de B que faz o papel de segundo elemento do par ordenado (a, b). Este segundo
elemento associado pela função F ao elemento a, é mais conveniente denotá-lo por F (a). Assim, uma
função é o conjunto de pares {(a, F (a)) ∈ A × B, a ∈ A}. Freqüentemente denotamos uma função F
de A em B por F : A → B.
• Aplicações, mapeamentos, mapas, funcionais, operadores, operações, produtos etc.

1
Assim chamado em honra a René Descartes (1596-1650). O adjetivo Cartesiano provem da latinização de seu nome
como Cartesius.
Muito freqüentemente usam-se as palavras aplicação, mapeamento, mapa, funcional, operador,

operação, produto, transformação, forma, e talvez ainda outras, para designar certos tipos de funções
entre conjuntos. Essa abundância de palavras causa freqüentemente confusão e mesmo perplexidade
em estudantes recém-iniciados mas, em essência, todos esses objetos são funções, no sentido abstrato
que definimos acima.
O que difere seu uso é por vezes a tradição de certas áreas e os tipos de conjuntos que as funções
têm como domı́nio e imagem. A palavra “função”, propriamente, é mais freqüentemente empregada
quando se trata de funções numéricas, por exemplo de R em R ou de C em C. A palavra “funcional”2
é freqüentemente empregada quando se trata de funções que levam vetores ou funções numéricas em
números. Um exemplo deR funcional é a função que leva funções reais contı́nuas f nas suas integrais
1
no intervalo [0, 1]: f 7→ 0 f (x)dx. A palavra “operador” tipicamente designa funções lineares entre
espaços vetoriais (como, por exemplo, as matrizes, que são funções lineares entre espaços vetoriais de
dimensão finita). “Produtos” ou “operações” freqüentemente designam funções de C × C em C, para
um conjunto C não-vazio qualquer, ou seja, funções de duas variáveis em um conjunto C, assumindo
valores no próprio conjunto C. A palavra “forma” por vezes designa certas funções bi-lineares de
V × V em R ou C, sendo V um espaço vetorial. As palavras “aplicação”, “mapa” e “mapeamento” são
freqüentemente empregadas para designar funções em áreas como Topologia, Geometria Diferencial ou
Sistemas Dinâmicos.
Certas palavras são empregadas para designar certas funções com propriedades especiais. Um
“homeomorfismo”, por exemplo, é uma função bijetora entre dois espaços topológicos que seja contı́nua
e cuja inversa seja também contı́nua. Um “difeomorfismo” é um homeomorfismo entre duas variedades
diferenciáveis que seja infinitamente diferenciável. Há ainda vários outros “morfismos”, como discutido
na Seção 1.2.7, à página 71.
Em verdade, é conveniente dispormos por vezes de uma certa variedade de palavras diferentes
simplesmente para evitarmos o emprego monótono e descolorido da palavra “função”. Com um pouco
de ironia, lembremos por fim a definição circular de Edward Teller: “An intelectual is someone who
thinks the same things and uses the same words as other intelectuals”.
• Imagens e pré-imagens de funções
Seja f : X → Y uma função. Se A ⊂ X, definimos

n o
f (A) := y ∈ Y | y = f (x) para algum x ∈ A .
Se B ⊂ Y , definimos n o
−1
f (B) := x ∈ X| f (x) ∈ B .
f (A) é dita ser a imagem de A por f e f −1 (B) é dita ser a pré-imagem de B por f .
O uso do sı́mbolo f −1 para designar pré-imagem f −1 (B) de um conjunto B é uma escolha infeliz
(mas universalmente aceita), pois pode causar confusão com a noção de função inversa de f , que pode
não estar definida. O estudante deve estar atento.
• Funções sobrejetoras, injetoras e bijetoras

2
A palavra “funcional” foi empregada pela primeira vez na Matemática por Jacques Salomon Hadamard (1865-1963).
Uma função F : A → B é dita ser sobrejetora se Im(F ) = B. Uma função F : A → B é dita

ser injetora ou injetiva se a cada b ∈ Im(F ) existir um e somente um elemento a ∈ Dom(F ) tal que
(a, b) ∈ F . Uma função que for sobrejetora e injetora é dita ser bijetora.
Seja uma função bijetora F ⊂ A × B. Então, a relação F −1 ⊂ B × A dada por
n o
−1
F = (b, a) tal que (a, b) ∈ F
é, em verdade, uma função denominada função inversa de F . É claro que (F −1 )−1 = F .
• Famı́lias de conjuntos
Seja X um conjunto não-vazio. Uma coleção F não-vazia de sub-conjuntos de X é por vezes dita
ser uma famı́lia de conjuntos. Se F for uma famı́lia de conjuntos e existirem um conjunto não-vazio I
e uma função bijetora f : I → F, então dizemos que a famı́lia F é indexada por I e os elementos de I
são denominados ı́ndices. Se λ é um ı́ndice, designaremos sua imagem pela função f simplesmente por
Aλ ∈ F.
Uma indexação de uma coleção F não-vazia de sub-conjuntos de X sempre existe: podemos tomar
I = F e f a função identidade.
• Operações básicas com famı́lias de conjuntos
Sejam X e I conjuntos arbitrários não-vazios e seja associado a cada α ∈ I um sub-conjunto Aα de

X. O conjunto I será freqüentemente denominado conjunto ou famı́lia de ı́ndices. Vamos introduzir
alguma notação a ser usada em todas estas Notas. Definimos
[ n o
Aα := x ∈ X tal que x ∈ Aα para algum α ∈ I (1.5)
α∈I
e \ n o
Aα := x ∈ X tal que x ∈ Aα para todo α ∈ I . (1.6)
α∈I
As definições acima implicam as importantes propriedades descritas na proposição que segue, cuja
demonstração deixamos como exercı́cio.
Proposição 1.1 Sejam B ⊂ X, X não-vazio, e {Aα ⊂ X, α ∈ I} uma coleção arbitrária de subcon-
juntos de X. Então valem as seguintes relações:
! !
[ \ \ [
B\ Aα = (B \ Aα ) , B\ Aα = (B \ Aα ) , (1.7)
α∈I α∈I α∈I α∈I
! !
\ \ [ [
Aα \B = (Aα \ B) , Aα \B = (Aα \ B) , (1.8)
! !
\ \ [ [
B∪ Aα = (B ∪ Aα ) , B∩ Aα = (B ∩ Aα ) , (1.9)
! !
[ [ \ \
B∪ Aα = (B ∪ Aα ) , B∩ Aα = (B ∩ Aα ) . (1.10)
As relações, (1.7) implicam

!c !c
[ \ \ [
Aα = (Aα )c , Aα = (Aα )c . (1.11)
• Propriedades elementares de funções
As seguintes proposições são importantes e freqüentemente usadas:

Proposição 1.2 Seja f : X → Y uma função e seja Λ um conjunto de ı́ndices. Se Aλ ⊂ X para todo
λ ∈ Λ, então !
[ [
f Aλ = f (Aλ ) , (1.12)
λ∈Λ λ∈Λ
mas !
\ \
f Aλ ⊂ f (Aλ ) . (1.13)
λ∈Λ λ∈Λ
Se Bλ ⊂ Y para todo λ ∈ Λ, então

!
[ [
f −1 Bλ = f −1 (Bλ ) , (1.14)
λ∈Λ λ∈Λ
e !
\ \
f −1 Bλ = f −1 (Bλ ) . (1.15)
λ∈Λ λ∈Λ
2
A demonstração é elementar e é deixada como exercı́cio.

T T
EmT(1.13) não se pode provar a igualdade entre f λ∈Λ Aλ e λ∈Λ f (Aλ ) e a razão é a seguinte:
se y ∈ λ∈Λ f (Aλ ) então y T ∈ f (Aλ ) para todo λ ∈ Λ. Assim, em cada Aλ existe um xλ com y = f (xλ ).
Mas pode ocorrer que em λ∈Λ Aλ não exista nenhum elemento x com y = f (x). O seguinte exemplo
ilustra isso. Seja f (x) = x2 definida em [−1, 1]. Tomemos A1 = [−1, 0], A2 = [0, 1]. Então,
f (A1 ) = [0, 1] e f (A2 ) = [0, 1]. Portanto, f (A1 ) ∩ f (A2 ) = [0, 1]. Porém, f (A1 ∩ A2 ) = f ({0}) = {0}.
apesar disso, vale o seguinte:
Proposição 1.3 Se f : X → Y é injetora então, se Aλ ⊂ X para todo λ ∈ Λ, vale
!
\ \
f Aλ = f (Aλ ) . (1.16)
λ∈Λ λ∈Λ

Em relação às operações de complemento e diferença de conjuntos temos o seguinte:
Proposição 1.4 Se f : X → Y é uma função e B, C ⊂ Y , então
c
f −1 (B c ) = f −1 (B) ,
f −1 (B \ C) = f −1 (B) \ f −1 (C) .
Aqui, B c = Y \ B. Fora isso, se f : X → Y é uma função injetora e sobrejetora e A, B ⊂ X, então
f (Ac ) = (f (A))c ,
f (A \ B) = f (A) \ f (B) .
Aqui, Ac = X \ A. 2
• A união disjunta de uma famı́lia arbitrária de conjuntos
Sejam, como acima, um conjunto I (não necessariamente finito ou contável) e Ai , i ∈ I, conjuntos

indexados por elementos de I. Os conjuntos Ai podem eventualmente possuir elementos comuns, ou
seja, pode haver elementos x que comparecem
S em vários conjuntos Ai . Porém, quando formamos a
união usual dos conjuntos Ai , ou seja, i∈I Ai , cada elemento x comparece apenas uma vez, mesmo que
pertença a vários Ai ’s. Por vezes estamos interessados em formar um outro tipo de união de conjuntos
onde essa possı́vel multiplicidade de cada elemento x possa ser levada em conta. A definição abaixo é,
para tal, das mais adequadas.
G
Definimos a união disjunta da famı́lia de conjuntos Ai como sendo o conjunto, denotado por Ai ,
i∈I
dado pela união de todos os pares ordenados (a, i) com i ∈ I, a ∈ Ai , ou seja,
G [ [
Ai := (a, i) .
i∈I i∈I a∈Ai
Uniões disjuntas desempenham um papel em várias áreas da Matemática. Na Geometria Diferencial,

por exemplo, o chamado fibrado tangente de uma variedade diferenciável é definido como a união
disjunta dos espaços tangentes à variedade.
• Extensões de funções
Seja F : A → B uma função e suponha que A seja subconjunto de um outro conjunto A′ . Uma
função G : A′ → B é dita ser uma extensão de F se F e G coincidirem na parte comum de seus
domı́nios, que vem a ser o conjunto A, ou seja, se G(a) = F (a) para todo a ∈ A.
Se lembrarmos que uma função F : A → B é um subconjunto de A×B e que uma função G : A′ → B

é um subconjunto de A′ × B e se notarmos que A × B ⊂ A′ × B caso A ⊂ A′ , então uma definição
alternativa de extensão seria seguinte: uma função G é uma extensão de uma função F se F ⊂ G,
ambas entendidas como subconjuntos de A′ × B.
E. 1.2 Exercı́cio. Verifique a equivalência dessas duas definições do conceito de extensão de funções. 6
Como veremos, o conceito de extensão de funções é freqüentemente empregado na teoria dos ope-
radores lineares em espaços de Hilbert.
• O Produto Cartesiano de uma famı́lia arbitrária de conjuntos
Já discutimos o conceito de produto Cartesiano de dois conjuntos A e B: A × B e com ele introdu-
zimos a noção de função. De posse dessa noção podemos, com vistas a uma generalização, apresentar
uma outra visão do conceito de produto Cartesiano de dois conjuntos, a saber, podemos dizer que A×B
é o conjunto de todas as funções f : {1, 2} → A ∪ B tais que f (1) ∈ A e f (2) ∈ B. A idéia é dizer que
cada par ordenado (a, b) com a ∈ A e b ∈ B é uma função onde o primeiro membro do par é a imagem
de 1 (por ser o primeiro) e o segundo a imagem de 2 (por ser o segundo). Essa idéia permite definir pro-
dutos Cartesianos de um número finito n de conjuntos A1 , A2 , . . . , An denotado por A1 × A2 × . . . × An
n
[
como sendo o conjunto de todas as funções f : {1, 2, . . . , n} → Aj satisfazendo f (j) ∈ Aj para todo
j=1
n
[
j ∈ {1, . . . , n}. A função f tem, por assim dizer, o papel de ordenar os elementos de Aj tomando-se
j=1
sucessivamente um elemento de cada Ai por vez. O produto Cartesiano A1 × A2 × . . . × An é assim
entendido como o conjunto formado por todas as ênuplas ordenadas (a1 , . . . , an ) com ai ∈ Ai .
Essa idéia pode ser generalizada ainda mais. Sejam I um conjunto não-vazio (não necessariamente
finito ou contável) e Ai , i ∈ I, conjuntos não-vazios indexados por elementos de I. Definimos então o
produto Cartesiano da famı́lia de conjuntos {Ai , i ∈ I}, denotado por
Y
Ai
i∈I
[
como sendo o conjunto de todas as funções f : I → Aj tais que f (x) ∈ Ax para todo x ∈ I. O
j∈I
Axioma da Escolha (página
Q 29) consiste na afirmação (ou melhor dizendo, na suposição, já que se trata
de um axioma) que i∈I Ai é não-vazio.
Se por ventura todos os conjuntos Ai forem idênticos então denota-se o produto Cartesiano acima
por AI . Assim, AI denota o conjunto de todas as funções de I em A.
Desta forma N × N e N{1, 2} são duas notações distintas para o mesmo objeto, que também é
denotado simplesmente por N2 , como se sabe. Genericamente Nd designa N{1,...,d} para d ∈ N, d > 0.
• O Axioma da escolha
O Axioma da Escolha consiste na seguinte afirmativa:

Seja As , s ∈ I, uma famı́lia de conjuntos não-vazios, onde I é um conjunto arbitrário (não-vazio)

de ı́ndices. Então, podemos construir um conjunto A tomando (“escolhendo”)[ um elemento as de cada
conjunto As . Em termos mais técnicos, o axioma diz que há funções F : I → As tais que F (s) ∈ As
Q s∈I
para todo s ∈ I, ou seja, o produto Cartesiano s∈I As é não vazio3.
A primeira vista esse axioma parece constituir-se de uma obviedade. Sucede, porém, que, sobretudo
pelo fato de o conjunto I de ı́ndices ser arbitrário (podendo ser até um conjunto infinito e não-contável),
a afirmativa que o mesmo contém não pode ser derivada de princı́pios mais básicos. O axioma faz uma
afirmação de existência (de uma função como a F , ou de um conjunto como A formado por elementos
escolhidos de cada As ) que, geralmente, não pode ser demonstrada construtivamente, ou seja, por
exibição explı́cita de uma tal função F ou de um conjunto A.
Faremos uso explı́cito do Axioma da Escolha adiante quando exibirmos exemplos de conjuntos não-
mensuráveis. O Axioma da Escolha foi originalmente formulado por Zermelo4 em 1904 como parte da
sua demonstração do chamado Princı́po do Bom-Ordenamento, Teorema 1.1, página 36. Vide [55].
Uma tı́pica situação na qual se faz uso do Axioma da Escolha ocorre quando são dados um conjunto
X e uma uma relação de equivalência E em X e constrói-se um conjunto A ⊂ X tomando-se um
representante de cada classe de equivalência de X por E.
Nem sempre é possı́vel exibir explicitamente os elementos de A, mas assumimos (via Axioma da
Escolha) que um tal conjunto existe. Para ter-se em mente um caso onde uma tal situação ocorre,
tome-se o exemplo dado em (1.18), página 31 e construa-se um conjunto tomando um elemento de
cada classe de equivalência lá descrita. Tal conjunto desempenha um papel na teoria da medida. Vide
Capı́tulo 20, página 1058, em particular a Seção 20.1.
• Relações de equivalência
Outro tipo importante de relação é formado pelas chamadas relações de equivalência. Uma relação
E ⊂ A × A é dita ser uma relação de equivalência em um conjunto não-vazio A se os seguintes quesitos
forem satisfeitos:
1. (a, a) ∈ E para todo a ∈ A.
2. (a, b) ∈ E implica que (b, a) ∈ E.
3. (a, b) ∈ E e (b, c) ∈ E implicam que (a, c) ∈ E.
Se o par (a, b) pertence a uma relação de equivalência E então a e b são ditos serem equivalentes
E
segundo E. Quase sempre usa-se a notação a ∼ b, ou simplesmente a ∼ b, para indicar que dois
elementos são equivalentes segundo uma relação de equivalência dada.
Seja A um conjunto e E ⊂ A × A uma relação de equivalência em A. Para cada a ∈ A podemos
definir o conjunto
E(a) := {a′ ∈ A tal que (a, a′ ) ∈ E} . (1.17)
3
Q
Para a definição do produto Cartesiano s∈I As , vide página 29.
4
Ernst Friedrich Ferdinand Zermelo (1871-1953).
Esse conjunto é chamado de classe de equivalência de a (pela relação de equivalência E).
E. 1.3 Exercı́cio. Seja A um conjunto e E ⊂ A × A é uma relação de equivalência em A. Suponha que

a, b ∈ A e que a ∼ b segundo E. Prove que E(a) = E(b). 6
E. 1.4 Exercı́cio importante. Prove que se A é um conjunto e E ⊂ A × A é uma relação de equivalência

em A então A é a união disjunta de classes de equivalência de seus elementos. 6
E. 1.5 Exercı́cio. Seja o conjunto dos números reais R e seja a relação W ⊂ R × R definida por
n o
W := (x, y) ∈ R × R tal que x − y ∈ Q , (1.18)
onde Q é o conjunto dos números racionais. Prove que W é uma relação de equivalência. 6
• Relações de compatibilidade
Seja P um conjunto. Uma relação de compatibilidade em P é um conjunto C ⊂ P × P com as

seguintes propriedades:
1. Se γ e γ ′ são tais que (γ, γ ′ ) ∈ C, então (γ ′ , γ) ∈ C.

2. Para todo γ ∈ P vale (γ, γ) 6∈ C.
Para uma dada relação de compatibilidade C denotamos γ ∼C γ ′ caso (γ, γ ′ ) ∈ C e dizemos que
γ e γ ′ são C-compatı́veis. Caso contrário, denotamos γ 6∼C γ ′ se (γ, γ ′ ) 6∈ C e dizemos que γ e γ ′ são
C-incompatı́veis.
Se uma dada relação C é subentendida, denotamos simplesmente γ ∼ γ ′ caso (γ, γ ′ ) ∈ C e dizemos
simplesmente que γ e γ ′ são compatı́veis.
Relações de compatibilidade são importantes na Mecânica Estatı́stica, especialmente nas chamadas
expansões de polı́meros e de “clusters”.
Exemplo. Seja X um conjunto não-vazio e P = P(X) \ {∅}, a coleção de todos os subconjuntos
não-vazios de X. Uma relação de compatibilidade em P é a seguinte: A ∼ B ⇐⇒ A ∩ B = ∅.
Verifique.
1.1.2 Relações de Ordem

Seja X um conjunto não-vazio. Uma relação R ⊂ X × X é dita ser uma relação de ordem parcial em
X, ou simplesmente uma relação de ordem em X, se as seguintes condições forem satisfeitas:
1. Para todo a ∈ X tem-se que (a, a) ∈ R.
2. Se (a, b) ∈ R e (b, a) ∈ R então forçosamente a = b.

3. Se (a, b) ∈ R e (b, c) ∈ R então (a, c) ∈ R.
Se X possui uma ordem parcial R, X é chamado de conjunto parcialmente ordenado por R. Em

textos matemáticos em lı́ngua inglesa, conjuntos parcialmente ordenados são freqüêntemente denomi-
nados posets (de “partially ordered sets”). A noção de conjunto parcialmente ordenado foi introduzida
por Hausdorff5
Exemplo. Seja X um conjunto e P(X) a coleção de todos os sub-conjuntos de X. Podemos estabe-
lecer em P(X) uma relação R do seguinte tipo: para A, B ⊂ X tem-se (A, B) ∈ R se A ⊂ B. Como
exercı́cio deixamos ao estudante mostrar que esta é uma relação de ordem parcial de acordo com a
definição acima. Este exemplo ilustra também por que chamar tal relação de ordem de “parcial”. A
razão é que nem todo par (A, B) é elemento de R pois, para dois conjuntos A e B arbitrários, nem
sempre vale que A ⊂ B ou que B ⊂ A (por exemplo se A ∩ B = ∅).
Em função da analogia com essa relação de ordem usual dos números reais é costume, dada uma
relação de ordem R qualquer, indicar que (a, b) ∈ R através da notação a b. Por vezes, o sı́mbolo
≤ é também usado, mas tentaremos empregá-lo apenas para denotar a relação de ordem usual entre
números reais. Usando o sı́mbolo as condições definidoras de uma relação de ordem se escrevem
como
1. Para todo a ∈ X tem-se que a a.
2. Se a b e b a então forçosamente a = b.
3. Se a b e b c então a c.
Também denota-se a relação a b por b a.
• Relações de ordem total
Outro conceito importante é o de relação de ordem total. Uma ordem parcial R em um conjunto X
é dita ser uma relação de ordem total se para todo a, b ∈ X tem-se que (a, b) ∈ R ou que (b, a) ∈ R.
Se X possui uma relação de ordem total R então X é dito ser totalmente ordenado ou linearmente
ordenado. Assim, se X é um conjunto dotado de uma relação de ordem parcial, dizemos que um
sub-conjunto A ⊂ X é linearmente ordenado se a b ou b a para todo a, b ∈ A.
• Exemplos
Exemplo. Seja R o conjunto de números reais e a relação de ordem (x, y) ∈ R se x − y for um

número negativo ou nulo (ou seja, se x ≤ y). Mostre que essa é uma relação de ordem total em R.
Contra-exemplo. Seja C um conjunto não-vazio qualquer. Então, P(C) é ordenado pela inclusão de
conjuntos: A B se e somente se A ⊂ B. Porém P(C) não é linearmente ordenado pois se A ∩ B = ∅
não podemos dizer que A B nem que B A.
E. 1.6 Exercı́cio. Você consegue construir uma relação de ordem em R2 ou em R3 ? E uma relação de
ordem total? 6
5
Felix Hausdorff (1868-1942). Hausdorff foi um dos criadores da Topologia e da moderna Teoria dos Conjuntos.
Perseguido pelo nacional-socialismo, suicidou-se em 1942 para evitar ser enviado a um campo de concentração.
• Mais exemplos
Seja o conjunto dos números naturais N. Podemos estabelecer em N a relação de ordem usual onde
dizemos que x ≤ y se x − y for um número negativo ou nulo. Esta relação é uma relação de ordem
total. O leitor não deve pensar que essa é a única relação de ordem total existente em N. Um outro
exemplo é o seguinte.
Vamos estabelecer uma relação de ordem em N que denotaremos pelo sı́mbolo p−i . Sejam a,
b ∈ N. Se a e b forem pares dizemos que a p−i b se a ≤ b. Se a e b forem ı́mpares dizemos que a p−i b
se a ≤ b. Se a é par e b é ı́mpar então dizemos sempre que a p−i b.
E. 1.7 Exercı́cio. Mostre que a relação p−i estabelece uma relação de ordem total em N. 6
Um exemplo análogo pode ser construı́do em R. Vamos estabelecer uma relação de ordem em R
que denotaremos pelo sı́mbolo r−i . Sejam x, y ∈ R. Se x e y forem racionais dizemos que x r−i y se
x ≤ y. Se x e y forem irracionais dizemos que x r−i y se x ≤ y. Se x é racional e y é irracional então
dizemos sempre que x r−i y.
E. 1.8 Exercı́cio. Mostre que a relação r−i estabelece uma relação de ordem total em R. 6
• Ordem lexicográfica
É possı́vel estabelecer uma relação de ordem total em R2 da seguinte forma: dizemos que (x1 , x2 ) L
(y1 , y2 ) se x1 < y1 ou se x1 = y1 e x2 ≤ y2 . Essa relação de ordem é denominada relação de ordem
lexicográfica de R2 .
Essa definição pode ser facilmente generalizada. Seja X um conjunto totalmente ordenado por uma
relação de ordem total X . Então, X n pode ser totalmente ordenado dizendo-se (x1 , . . . , xn ) L
(y1 , . . . , yn ) se houver um j ∈ {1, . . . , n}, tal que xi = yi para todo i < j e xj X yj .
S∞Seja nX um conjunto totalmente ordenado por uma relação de ordem total X e seja Seja X =
n=1 X . Podemos estabelecer em X uma ordem total X, também denominada lexicográfica, da
seguinte maneira. Sejam m, n ∈ N e p = min{m, n}. Então, dizemos (x1 , . . . , xm ) X (y1 , . . . , yn ) se
(x1 , . . . , xp ) L (y1 , . . . , yp ) no sentido dado no parágrafo anterior, ou se (x1 , . . . , xp ) = (y1 , . . . , yp ),
mas m < n.
E. 1.9 Exercı́cio. Por que essas relações de ordem são denominadas “lexicográficas”? Pense na maneira
como palavras (de tamanho arbitrário!) são ordenadas em um dicionário. 6
Podemos ainda estender a definição de ordem lexicográfica. Seja X um conjunto totalmente orde-
nado por uma relação de ordem total X e seja Y um conjunto totalmente ordenado por uma relação
de ordem total Y . Então, X Y pode ser parcialmente ordenado dizendo-se X Y ∋ x L y ∈ X Y se
houver um j ∈ Y , tal que x(i) = y(i) para todo i Y j e x(j) X y(j).
Exemplo. Sejam f, g, duas funções de R em R. Dizemos que f L g se existir y ∈ R tal que
f (x) = g(x) para todo x < y mas f (y) ≤ g(y). Lembrando que o conjunto de todas as funções de R
em R é RR , vê-se que essa definição coincide com a dada acima.
• Conjuntos dirigidos
Um conjunto I é dito ser um conjunto dirigido (“directed set”) se for dotado de uma relação de
ordem parcial, que denotaremos por “”, e se for dotado da seguinte propriedade: para quaisquer dois
elementos a e b de I existe pelo menos um terceiro elemento c ∈ I tal que a c e b c.
Exemplo. R é um conjunto dirigido com a relação de ordem usual.
Exemplo. R é um conjunto dirigido com a relação de ordem r−i definida acima.
Exemplo. Seja o conjunto Rn , n = 1, 2, . . ., e seja I o conjunto de todos os abertos limitados de Rn
(um conjunto é limitado se for subconjunto de alguma bola aberta de raio finito centrada na origem).
Mostre que I é um conjunto dirigido pela relação de ordem de inclusão: A B se A ⊂ B. Note que
essa relação de ordem não é uma relação de ordem total.
Contra-Exemplo. Seja X um conjunto não-vazio e seja I = P(X) \ {X}, ou seja, I é a coleção
de todos os subconjuntos de X, exceto o próprio X. Podemos ter em I uma relação de ordem (de
inclusão) dizendo que A B se A ⊆ B. Notemos, porém, que I não é um conjunto dirigido pois
para A ∈ I, A 6= ∅ temos X \ A ∈ I mas não existe em I nenhum conjunto que contenha A e X \ A
simultaneamente como subconjuntos.
Exemplo. Causalidade de Einstein. Seja M4 o espaço-tempo quadri-dimensional de Minkowski e
sejam E0 = (t0 , x0 , y0 , z0 ) e E1 = (t1 , x1 , y1 , z1 ) dois eventos em M4 . Dizemos que o evento E0 precede
causalmente o evento E1 , (em notação simbólica E0 Einstein E1 ), se t0 ≤ t1 e se
c2 (t1 − t0 )2 − (x1 − x0 )2 − (y1 − y0 )2 − (z1 − z0 )2 ≥ 0 ,
onde c é a velocidade da luz.
E. 1.10 Exercı́cio. Mostre que Einstein é uma relação de ordem em M4 e que M4 é um conjunto dirigido
por essa relação. 6
• Reticulados e seqüências
Seja I um conjunto dirigido com respeito à uma relação de ordem parcial . Se M é um conjunto
não-vazio, uma função f : I → M é denominada uma reticulado em M baseada no conjunto dirigido I
com respeito a ou, simplesmente, um reticulado6 em M.
Uma seqüência em M é um reticulado baseada em N, que é um conjunto dirigido com respeito à
ordem usual dos naturais, ou seja, é uma função f : N → M.
A noção de reticulado é importante, por exemplo, no estudo de funções contı́nuas em espaços
topológicos gerais e na definição da noção de convergência (vide Capı́tulo 22, página 1098).
Se f : N → M é uma seqüência em M, os elementos f (n) de sua imagem são freqüentemente
denotados por uma notação com ı́ndices: fn . É também comum denotar-se a própria seqüência por
{fn , n ∈ N} ou por {fn }n∈N , que, estritamente falando, representam a imagem de f em M.
• Máximos e mı́nimos
6
Alguns autores preferem usar a palavra rede em lugar de reticulado.
Se X é um conjunto dotado de uma relação de ordem parcial (que denotamos por ) diz-se que
um elemento z ∈ X é um máximo de X se x z para todo x ∈ X. Se z e z ′ são máximos de X então,
por hipótese, valem ambas as relações z z ′ e z ′ z, o que implica z = z ′ . Assim, se X possuir um
máximo ele é único, e é denotado por max(X).
Se A ⊂ X, a relação de ordem parcial em X induz uma relação de ordem parcial em A. Com essa
relação, podemos definir max(A), se existir, como o elemento de A tal que a max(A) para todo
a ∈ A. Note que, por definição, max A ∈ A.
Analogamente, um elemento a é dito ser um mı́nimo de X se a x para todo x ∈ X. Se a e a′
são mı́nimos de X então, por hipótese, valem ambas as relações a a′ e a′ a, o que implica a = a′ .
Assim, se X possuir um mı́nimo ele é único, e é denotado por min(X).
• Elementos maximais e minimais
Seja X um conjunto dotado de uma relação de ordem parcial (que denotamos por ).
Um elemento z ∈ X é dito ser um elemento maximal se não existir x ∈ X, x 6= z tal que z x.
Um elemento a ∈ X é dito ser um elemento minimal se não existir x ∈ X, x 6= a tal que x a.
Os elementos maximais e minimais de um conjunto parcialmente ordenado X, se exitirem, não são
necessariamente únicos, como mostra o seguinte exemplo.
E. 1.11 Exercı́cio-Exemplo. Considere no plano R2 o quadrado fechado Q = [0, 1] × [0, 1], ou seja, os
elementos de Q são pares ordenados (x, y) ∈ R2 com 0 ≤ x ≤ 1 e 0 ≤ y ≤ 1. Estabelecemos em Q
uma relação de ordem (parcial!) da seguinte forma: (x, y) (x′ , y ′) se x = x′ e se y ≤ y ′. Em palavras,
(x, y) (x′ , y ′) se ambos os pontos estiverem em uma mesma linha vertical, mas (x, y) estiver mais baixo
que (x′ , y ′). Cheque que isso é, de fato, uma relação de ordem, mas que não é uma ordem total, pois não
se pode comparar pontos que estão em linhas verticais diferentes.
Com essa definição convença-se que todos os elementos da forma (x, 1) são maximais. Porém, se x
for diferente de x′ , não se pode nem dizer que (x, 1) (x′ , 1) nem que (x′ , 1) (x, 1). Igualmente,
convença-se que todos os elementos da forma (x, 0) são minimais.
Note também que para a existência de elementos maximais é importante que Q contenha pontos na aresta
de cima e (com coordenada y = 1), analogamente, para a existência de elementos minimais é importante
que Q contenha pontos aresta de baixo (com coordenada y = 0). Por exemplo, se você definir a mesma
relação de ordem no quadrado aberto (0, 1) × (0, 1) não há mais elementos maximais ou minimais. 6
Se um conjunto não-vazio e parcialmente ordenado X possuir um único elemento maximal, este

elemento é denominado o maior elemento de X. Reciprocamente, se um conjunto não-vazio e parcial-
mente ordenado X possuir um único elemento minimal, este elemento é denominado o menor elemento
de X.
• Conjuntos bem-ordenados
Um conjunto X dotado de uma relação parcial de ordem é dito ser um conjunto bem-ordenado
se todo subconjunto A não vazio de X tem um elemento mı́nimo em A.
E. 1.12 Exercı́cio. Mostre que todo conjunto bem-ordenado segundo uma relação parcial de ordem é
também totalmente ordenado segundo a mesma relação. 6
E. 1.13 Exercı́cio. A recı́proca não é, entretanto, verdadeira. Mostre que R é totalmente ordenado pela
relação usual de ordem entre números reais, mas não é um conjunto bem-ordenado. 6
E. 1.14 Exercı́cio. Mostre que o conjunto dos números naturais N é bem-ordenado. 6
A importância de conjuntos bem-ordenados é que a eles se aplica uma generalização do bem-

conhecido método de indução matemática, muito empregado em demonstrações de teoremas, deno-
minada princı́pio de indução transfinita. O estudante interessado encontrará em [55] uma excelente
referência introdutória. Nesta mesma referência o estudante interessado encontrará uma demonstração
do seguinte e importante resultado, devido a Zermelo7 :
Teorema 1.1 (Teorema do Bom-Ordenamento) Se X é um conjunto não-vazio então é possı́vel
encontrar uma relação de ordem em X tal que X é bem-ordenado por essa relação. 2
Incidentalmente, o Teorema 1.1 junto com a afirmação do Exercı́cio E. 1.12 informam que todo
conjunto não-vazio possui ao menos uma relação de ordem total.
• Majorantes e minorantes
Seja X um conjunto dotado de uma ordem parcial denotada por e seja A ⊂ X. Se existe t ∈ X
tal que a t para todo a ∈ A dizemos que t é um majorante de A, ou um limitante superior8 de A.
Analogamente, se existe h ∈ X tal que h a para todo a ∈ A dizemos que h é um minorante de A
ou um limitante inferior9 de A.
• Conjuntos limitados
Seja X um conjunto dotado de uma ordem parcial denotada por . Um conjunto A ⊂ X que tenha
pelo menos um majorante é dito ser um conjunto limitado superiormente. Um conjunto A ⊂ X que
tenha pelo menos um minorante é dito ser um conjunto limitado inferiormente.
• Ínfimo e supremo
Seja X um conjunto dotado de uma ordem parcial denotada por e seja A ⊂ X.

O mı́nimo do conjunto de majorantes de A, se existir, é dito ser o supremo de A e é indicado por
sup(A). Note que o supremo de A, se existir, é único, por ser o mı́nimo de um conjunto. Assim, s ∈ X
é dito ser o supremo de A se for um majorante de A e se s t para todo t que seja majorante de A.
7
Ernst Friedrich Ferdinand Zermelo (1871-1953).
8
A expressão “limite superior” é também usada na literatura, mas deve ser evitada para não causar confusão com a
noção de limite.
9
A expressão “limite inferior” é também usada na literatura, mas deve ser evitada para não causar confusão com a
noção de limite.
Note que o supremo de um conjunto A ⊂ X não é necessariamente um elemento de A, ao contrário do

que ocorre com o máximo de A (caso exista).
O máximo do conjunto dos minorantes de A, se existir, é dito ser o ı́nfimo de A e é indicado por
inf(A). Note que o ı́nfimo de A, se existir, é único, por ser o máximo de um conjunto. Assim, i é o
ı́nfimo de A se for um minorante de A e se h i para todo h que seja minorante de A. Note que o
ı́nfimo de um conjunto A ⊂ X não é necessariamente um elemento de A, ao contrário do que ocorre
com o mı́nimo de A (caso exista).
É interessante notar o seguinte. Dado um conjunto X dotado de uma ordem parcial poderı́amos nos
perguntar se todo subconjunto limitado superiormente de X possui um supremo ou, analogamente, se
todo subconjunto de X limitado inferiormente possui um ı́nfimo. A validade ou não dessas propriedades
depende de X e da relação de ordem em questão. Por exemplo, para X = Q, o conjunto dos racionais
com a relação de ordem usual, verifica-se que a propriedade não é valida. Tomemos A = {x ∈ Q, x2 <
2}. Claramente esse conjunto é limitado inferior e superiormente mas não possui nem supremo nem
ı́nfimo (por quê?). Para X = N e X ∈ R (com as relações de ordem usuais) a propriedade é, porém,
válida.
E. 1.15 Exercı́cio. Tome X = R com a relação de ordem usual. Mostre que inf((−1, 1)) = −1 e que
sup((−1, 1)) = 1. Note que −1 e 1 não são elementos de (−1, 1). 6
E. 1.16 Exercı́cio. Suponha que A e B sejam dois sub-conjuntos de um conjunto X dotado de uma
ordem total e que inf(A) e inf(B) existam. Mostre então que
inf(A ∪ B) = min{inf(A), inf(B)} .
6
E. 1.17 Exercı́cio. Suponha que A e B sejam dois sub-conjuntos de um conjunto X dotado de uma
ordem total e que sup(A) e sup(B) existam. Mostre então que
sup(A ∪ B) = max{sup(A), sup(B)} .
6
• O Lema de Zorn
Uma das afirmativas fundamentais de toda a Matemática usual é o seguinte resultado, conhecido
como lema de Zorn, em homenagem a um dos seus formuladores10 :
Lema 1.1 (Lema de Kuratowski-Zorn) Seja X um conjunto não-vazio e uma relação de ordem
parcial em X. Suponha que todo sub-conjunto linearmente ordenado de X tenha pelo menos um majo-
rante em X. Então, todo sub-conjunto linearmente ordenado de X tem algum majorante em X que é
também um elemento maximal de X. Implicitamente isso está dizendo que, sob as hipóteses, X possui
ao menos um elemento maximal. 2
10
Max August Zorn (1906-1993). Em verdade, o Lema de Zorn foi primeiramente descoberto por Kazimierz Kuratowski
(1896-1980). O trabalho de Kuratowski data de 1922 e o de Zorn de 1935.
Para uma demonstração do Lema de Zorn, vide, por exemplo, [55].
E. 1.18 Exercı́cio. Verifique que se X = [0, 1] é ordenado pela relação de ordem usual todo sub-conjunto
de X tem um majorante em X e que 1 é um desses possı́veis majorantes. Verifique que 1 é um elemento
maximal de X. 6
E. 1.19 Exercı́cio. Verifique que se X = [0, 1) é linearmente ordenado pela relação de ordem usual e
nem todo sub-conjunto de X tem um majorante em X (tente, por exemplo, sub-conjuntos do tipo [a, 1)
com 0 ≤ a < 1). Verifique que X não tem um elemento maximal. 6
E. 1.20 Exercı́cio. Cheque se as hipóteses do Lema de Zorn são satisfeitas ou não nos quadrados abertos
e fechados do Exemplo E. 1.11, página 35. 6
O Lema de Zorn é “equivalente” ao chamado Axioma da Escolha (vide página 29), ou seja, admitir
um como verdadeiro leva a demonstrar a validade do segundo. Essa equivalência não será provada
aqui (vide, por exemplo, [55]). Toda a Matemática usual é fundada na aceitação de um ou de outro
como verdadeiro e, em princı́pio, uma nova Matemática pode ser construı́da (com resultados distintos
dos da Matemática usual) se esses dois axiomas forem substituı́dos por um terceiro inequivalente. A
relevância de tais Matemáticas em Fı́sica é uma questão em aberto.
1.1.3 Cardinalidade
• A noção de cardinalidade de conjuntos
Seja K uma coleção de conjuntos. Dados dois conjuntos A e B da coleção K, dizemos que A e
B são equivalentes se houver uma função bijetora de A sobre B, ou seja, se houver uma função com
domı́nio igual a A e imagem igual a B tal que a cada elemento b ∈ B existe um único elemento a ∈ A
com f (a) = b.
E. 1.21 Exercı́cio. Mostre que essa é uma relação de equivalência entre os conjuntos da coleção K. 6
Para dois conjuntos que são equivalentes no sentido acima diz-se também que os mesmos têm a
mesma cardinalidade. Ou seja, dois conjuntos têm a mesma cardinalidade se e somente se houver uma
função bijetora entre eles.
Um conjunto A é dito ter n elementos (para um número natural n) se for equivalente ao conjunto
{1, . . . , n}.
Nota. Esta última definição pressupõe que o conceito de número natural já seja conhecido. Outra construção mais simples em termos de
pressupostos é feita de modo informal como segue: diz-se que um conjunto tem um elemento se for equivalente ao conjunto {∅}; que um
conjunto tem dois elementos se for equivalente ao conjunto {∅, {∅}}; que tem três elementos se for equivalente ao conjunto {∅, {∅, {∅}}} e assim
por diante. Em verdade essa construção permite produzir uma definição do conceito de número natural: o número “um” é, grosseiramente
falando, o nome dado à classe de equivalência formada pelos conjuntos equivalentes ao conjunto {∅}; o número “dois” é o nome dado à classe
de equivalência do conjunto {∅, {∅}}; o número “três” é nome dado à classe de equivalência do conjunto {∅, {∅, {∅}}} e assim por diante.
Aliás, o número “zero” é o nome dado à classe de equivalência de ∅. O números naturais seriam então o conjunto de todas as classes de
equivalência construı́das dessa forma. Esta definição11 do conceito de número natural, devida a von Neumann12 , pressupõe apenas conhecidos
conceitos primitivos como os de conjuntos, classes de equivalência e de conjunto vazio. O leitor poderá encontrar uma discussão extensa sobre
a definição de números naturais em [139, 103, 55].
Diz-se que um conjunto A é finito se tiver a cardinalidade de {1, . . . , n} para algum n ∈ N. A é

dito ser infinito se não for finito.
E. 1.22 Exercı́cio. Seja A um conjunto finito com n elementos. Mostre que P(A) tem 2n elementos. 6
• Conjuntos contáveis
Um conjunto A é dito ser contável se for finito ou se tiver a cardinalidade do conjunto dos números
naturais, ou seja, se for finito ou se existir uma função bijetora f : N → A cujo domı́nio é N e cuja
imagem é todo A.
Nota. Por vezes conjuntos contáveis que não são finitos são chamados de conjuntos enumeráveis. Não
há, infelizmente, unidade nessa nomenclatura mas empregá-la-emos aqui se vier a ser necessário.
Vamos agora provar alguns teoremas fundamentais sobre conjuntos contáveis (cuja importância,
apesar da aparente simplicidade dos enunciados, não pode ser subestimada pois seu alcance estende-se
por toda a Matemática, em particular, por muito do que veremos no restante do curso).
Precisamos da seguinte proposição:
Proposição 1.5 Um conjunto é contável se e somente se for equivalente a um subconjunto de N. 2
Prova. Por definição todo conjunto contável A (finito ou não) é equivalente a algum subconjunto de N
(no pior dos casos ao próprio N).
Provemos então a recı́proca. Seja A equivalente a um subconjunto Z de N. Se Z for finito A
também o será e portanto contável. Suponhamos então que Z não é finito. Vamos construir uma
função bijetora F : N → Z. A mesma é definida da seguinte forma
F (1) = min Z,
n o
F (n) = min Z \ F (1), F (2), . . . , F (n − 1) para n = 2, 3, . . . .
É fácil ver que F é bijetora e que sua imagem é Z (faça isso). Assim, Z é enumerável e, portanto, A
também o é.
Esta proposição tem uma conseqüência simples:

Proposição 1.6 Se A é um conjunto contável e B ⊂ A então B é contável. 2
11
J. von Neumann “Zur Einführung transfiniten Zahlen”, Acta Szeged 1, 199-208 (1923).
12
János von Neumann (1903-1957). Von Neumann também adotou os nomes de Johann von Neumann e John von
Neumann.
Prova. Se A é contável e B ⊂ A então B é equivalente a um subconjunto de N e, portanto, pela

proposição anterior, B é contável.
Chegamos a um importante resultado:

Proposição 1.7 O produto Cartesiano N × N é contável. 2
Prova. Seja a função G : N × N → N dada por G(a, b) = 2a 3b . A imagem dessa função é um

subconjunto próprio de N mas essa função é bijetora: a cada elemento z de sua imagem há um e
somente um par (a, b) de números naturais tais que 2a 3b = z (por quê?). Assim, fica provado pela
Proposição 1.5 que N × N é contável.
Note que, como N × N não é finito (por quê?) é um conjunto enumerável.

A Proposição 1.7 tem uma conseqüência de grande importância:
Teorema 1.2 O conjunto Q+ dos números racionais positivos é um conjunto contável. 2
Prova. Todo racional positivo é da forma p/q, onde p e q ∈ N são irredutı́veis ou primos entre si (ou
seja, não há “cancelamentos” que permitam escrever p/q = a/b com a < p e b < q). Assim, há uma
correspondência um-a-um entre Q+ e o subconjunto de N × N formado por todos os pares (p, q) onde p
e q são primos entre si. Como N × N é contável, a Proposição 1.6 diz então que Q+ é também contável.
E. 1.23 Exercı́cio. Prove que o conjunto dos números inteiros Z e o conjunto dos números racionais Q
são conjuntos contáveis. 6
Um fato também importante é que há conjuntos de números que não são contáveis. O exemplo
mais importante é o dos números reais.
Teorema 1.3 O conjunto dos números reais não é contável. 2
Prova. Para provar isso basta mostrar que há um subconjunto de R que não é contável. Considere o
conjunto U de todos os números reais do intervalo [0, 1) tais que apenas os dı́gitos 0 ou 1 aparecem
em sua representação decimal. Por exemplo, números como 0, 001101 ou 0, 1 ou 0 ou 0, 1011 ou
1/9 = 0, 11111 . . . são elementos de U. De modo mais preciso, U é o subconjunto do intervalo [0, 1)
formado por todos os números u que podem ser escritos da forma
X∞
dn (u)
u = ,
n=1
10n
onde dn (u) ∈ {0, 1} para todo n ≥ 1. dn (u) é o n-ésimo dı́gito do número u na base decimal. Note
que dois elementos u e v de U são iguais se e somente se dn (u) = dn (v) para todo n (prove isso!).
Vamos provar que U não é um conjunto contável. Para isso vamos supor o oposto, ou seja, que U
é contável e veremos que essa hipótese leva a um absurdo. Vamos supor que haja uma função bijetora
f : N → U cuja imagem é U. Considere o número real a definido por
X∞
1 − dn (f (n))
a = n
.
n=1
10
Como 1 − dn (f (n)) é igual a 0 ou a 1 (por que?), segue obviamente que a é um elemento de U.

Entretanto, é fácil ver que a não faz parte da imagem da função f . Para ver isso note que se a fosse
um elemento da imagem de f haveria um inteiro m tal que f (m) = a. Mas isso significa então que o
m-ésimo dı́gito de a seria dm (a) = dm (f (m)). Mas pela definição do próprio a, o seu m-ésimo dı́gito é
1 − dm (f (m)). Assim, terı́amos que dm (f (m)) = 1 − dm (f (m)) o que não é possı́vel.
Concluı́mos então que a é um elemento de U mas não pode ser um elemento da imagem da função f .
Isso é uma contradição, pois supomos justamente que a imagem da f era todo o conjunto U. Portanto,
U não é contável e, assim, R também não o é.
Nota. É fácil ver que, em verdade, poderı́amos substituir a base decimal, usada na representação do
conjunto U acima, por qualquer base b ∈ N com b > 2. Ou seja, se considerarmos o conjunto Ub de
todos os reais u do intervalo [0, 1] representáveis na base b, b ∈ N, b > 2, da forma
X∞
dn (u)
u = n
.
n=1
b
onde dn (u) ∈ {0, 1}, então, repetindo o que fizemos acima, verı́amos que Ub não é contável. Claramente
U = U10 .
Nota. O caso da base binária b = 2 foi excluı́do da última nota pois nele não vale a unicidade da
representação dos elementos de U2 na forma
X∞
dn (u)
u = .
n=1
2n
onde dn (u) ∈ {0, 1}. Para ver isso, faça o exercı́cio seguinte.
E. 1.24 Exercı́cio. Mostre que na base binária 0, 1 e 0, 01111111 . . . representam o mesmo número, a
saber, o número 1/2. Sugestão: use a fórmula da progressão geométrica infinita para calcular quanto vale
0, 01111111 . . .. 6
Nota. Os conjuntos Ub , b > 2, são exemplos de uma classe de conjuntos chamados de conjuntos
de Cantor13 . Tornaremos a reencontrar tais conjuntos quando falarmos de Teoria da Medida (vide
Capı́tulo 21, especialmente Seção 21.2, página 1081.).
Ainda sobre os números reais, tem-se também o seguinte fato, que para referência futura formulamos
como uma proposição.
13
Georg Ferdinand Ludwig Philipp Cantor (1845-1918).
Proposição 1.8 R e R2 têm a mesma cardinalidade. 2
Prova. É suficiente mostrar que (0, 1) e (0, 1) × (0, 1) têm a mesma cardinalidade, pois a função
x → (1 + tanh(x))/2 é uma bijeção de R em (0, 1). Fixemos para cada x ∈ (0, 1) uma representação
decimal x = 0, d1d2 d3 . . . com dn ∈ {0, . . . , 9}. Seja F : (0, 1) → (0, 1) × (0, 1) definida por
F (0, d1d2 d3 d4 . . .) := ( 0, d1d3 d5 d7 . . . , 0, d2 d4 d6 d8 . . . ) .
F é bijetora e F −1 : (0, 1) × (0, 1) → (0, 1) é dada por
F −1 (( 0, a1 a2 a3 a4 . . . , 0, b1 b2 b3 b4 . . . )) = 0, a1 b1 a2 b2 a3 b3 a4 b4 . . . .
Finalizamos com um outro teorema de grande importância:

[
Teorema 1.4 Se Ci , i ∈ N, são conjuntos contáveis então C = Ci também o é. 2
i∈N
Prova. Se cada Ci é contável então para cada i ∈ N há uma função bijetora gi : N → Ci cuja imagem
é Ci . Defina-se então a função G : (N × N) → C dada por G(a, b) = ga (b). Esta função não é, em
geral, bijetora, pois podem existir elementos comuns entre conjuntos Ci e Cj com i 6= j e terı́amos
gi (m) = gj (n) para algum n e m. Entretanto, a imagem de G é C.
Considere então em N × N a seguinte relação de equivalência: o par (a, b) é equivalente ao par
(c, d) se e somente se ga (b) = gc (d). O conjunto N × N pode ser então, como já observamos, escrito
como a união disjunta de suas classes de equivalência pela relação acima. Construamos então um
subconjunto K de N×N tomando-se um e somente um elemento de cada classe de equivalência escolhido
arbitrariamente (usamos aqui o Axioma da Escolha para afirmar que tal construção é possı́vel).
Defina agora a função H : K → C dada por H(a, b) = ga (b) para (a, b) ∈ K. Pela própria
construção do conjunto K essa função H é bijetora e sua imagem é C. Como K é um subconjunto de
N × N que é contável, temos que K também o é e, portanto, C é contável.
• Números reais algébricos e transcendentes
Na reta real diz-se que um número x é um número algébrico se x for raiz de um polinômio do tipo
P (t) = a0 + a1 t + a2 t2 + · · · + an tn ,
para algum n ∈ N, onde os coeficientes a0 , . . . , an são números racionais. Um tal polinômio é dito ser
um polinômio racional.
√ racional p − qt. Há também

Todo número racional p/q é também algébrico pois é raiz do polinômio
muitos números irracionais que são algébricos. Por exemplo, o número 2 é raiz do polinômio racional
−2 + t2 e, portanto, é algébrico. Os números reais que não são algébricos são chamados de números
transcendentes.
E. 1.25 Exercı́cio. Prove que o conjunto de todos os números algébricos da reta real é um conjunto
contável. Use para tal o fato de que os racionais formam um conjunto contável. 6
O exercı́cio anterior pode ser usado para concluir que existem números transcendentes (que não
são raiz de nenhum polinômio racional) pois os reais, como sabemos, não são contáveis enquanto,
segundo o exercı́cio, os algébricos o são. Deve, portanto, haver uma coleção não-contável de números
transcendentes na reta real.
Historicamente, a existência de números transcendentes foi estabelecida (por outros argumentos)
por Liouville14 em 1851. Em 1874, Cantor15 demonstrou a afirmação do exercı́cio acima, provando que
o conjunto de todos os números algébricos da reta real é um conjunto contável.
E. 1.26 Exercı́cio. Seja A0 = Q e A1 o conjunto dos números algébricos, definidos como o conjunto de
todos os zeros reais de polinômios com coeficientes racionais. Definimos A2 como o conjunto de todos os
zeros reais de polinômios com coeficientes em A1 . Sucessivamente, definimos An , n ≥
S∞1 como o conjunto
de todos os zeros reais de polinômios com coeficientes em An−1 . Seja também A = n=0 An . Mostre que
todos os An e A são conjuntos contáveis e, portanto, subconjuntos próprios de R. 6
• Os números e e π são irracionais e transcendentes
Sabe-se que os números e e π são irracionais e transcendentes.

As provas de que e e e2 são irracionais foram primeiramente obtidas por Euler16 em 1737. Uma
prova que e é irracional pode ser encontrada nestas Notas à página 946 ou, por exemplo, em [138] ou
[58].
A prova de que π é irracional não é tão simples quanto a de que e é irracional. A demonstração de
que π é irracional foi primeiramente obtida por Lambert17 em 1768 e consistiu em provar que se r é
um número racional não-nulo então nem er nem tan(r) podem ser racionais. Como tan(π/4) = 1, que
é racional, segue que π/4 deve ser irracional.
A demonstração de que e é transcendente foi obtida pela primeira vez por Hermite18 em 1873.
A demonstração de que π é transcendente foi obtida pela primeira vez por Lindemann19 em 1882.
Um fato de grande interesse é que provar que π é algébrico seria equivalente20 a resolver o célebre
problema da quadratura do cı́rculo, que consiste em achar um método através do qual, “apenas com
régua e compasso” constrói-se um quadrado cuja área é igual a de um cı́rculo de raio 1. √ Tal seria
possı́vel caso houvessem meios de se construir um segmento de reta cujo comprimento seja π. Esse
problema clássico da geometria Euclidiana ficou em aberto por cerca de dois mil anos (!), tendo sido
14
Joseph Liouville (1809-1882).
15
16
Leonhard Euler (1707-1783).
17
Johann Heinrich Lambert (1728-1777).
18
Charles Hermite (1822-1901). A prova original da transcendência de e encontra-se em Comptes rendus, 77, 18-24
(1873).
19
Carl Louis Ferdinand von Lindemann (1852-1939). A prova original da transcendência de π encontra-se em Math.
Ann. 20, 213-225 (1882).
20
Para uma bela discussão sobre isso, vide [32].
resolvido negativamente em 1882 por Lindemann quando este provou, justamente, que π não é um
número algébrico, concluindo assim a impossibilidade da construção proposta.
Para provas de que e é transcendente vide, por exemplo, [138] ou [58]. Para provas que π é irracional
e transcendente e para uma série de outros resultados congêneres, vide [58].
• Produtos Cartesianos e contabilidade
É interessante notar que produtos Cartesianos contáveis de conjuntos contáveis não são, geralmente,
conjuntos contáveis. Considere como exemplo o produto Cartesiano
Y
K := {0, 1} = {0, 1}N ,
i∈N
que é denominado espaço de Cantor21 . Podemos mostrar que K não é contável. Cada elemento de K
é uma função d : N → {0, 1}. Podemos assim associar univocamente a cada d o número real
∞
X d(n)
n=1
10n
que é um elemento do conjunto U ⊂ R definido acima. Por outro lado, todo elemento de U pode ser
escrito assim para um único d ∈ K. Assim, K e U têm a mesma cardinalidade e, portanto, K não é
contável pois U, como já vimos, não o é.
E. 1.27 Exercı́cio. Mostre que todos os conjuntos Ub , definidos acima, com b > 2, tem a mesma
cardinalidade de K (e, portanto, a mesma cardinalidade entre si). 6
1.1.4 Ínfimos e Supremos de Famı́lias de Conjuntos

Seja I um conjunto arbitrário de ı́ndices e {Ai , i ∈ I}\
uma coleção de conjuntos indexados por
elementos de I. Chama-se por vezes o conjunto inf Ai := Ai de ı́nfimo da coleção {Ai , i ∈ I} e o
i∈I
[ i∈I
conjunto sup Ai := Ai de supremo da coleção {Ai , i ∈ I}.
i∈I
i∈I
Essas noções S
coincidem com as noções de ı́nfimo e supremo apresentadas à página 36 se conside-
rarmos em X = i∈I Ai a relação de ordem definida pela inclusão de conjuntos: se A, B ⊂ X dizemos
que A B se A ⊂ B.
E. 1.28 Exercı́cio. Mostre isso. 6
• Limites do ı́nfimo e limites do supremo de famı́lias contáveis de conjuntos
Seja {An , n ∈ N} uma coleção contável de subconjuntos de um conjunto não-vazio X. Define-se

um conjunto chamado de limite do ı́nfimo da coleção, denotado por limAn , como sendo o conjunto
21
dado por
∞ \
[ ∞
limAn := Ak .
n=1 k=n
O chamado limite do supremo da coleção, denotado por limAn , é o conjunto definido por
∞ [
\ ∞
limAn := Ak .
n=1 k=n
Se considerarmos a relação de ordem entreTconjuntos definida pela inclusão de conjuntos, é de

se notar que a seqüência de conjuntos Bn := ∞ k=n Ak , n ∈ N, está ordenada de forma crescente
(ou seja, B
S∞ n B m se n ≤ m) e limAn é seu supremo. Analogamente, a seqüência de conjuntos
Cn := k=n Ak , n ∈ N, está ordenada de forma decrescente (ou seja, Cn Cm se n ≥ m) e limAn é
seu ı́nfimo.
E. 1.29 Exercı́cio. Justifique a seguinte afirmativa: limAn é o conjunto de todos os pontos x de X que
pertencem a todos os conjuntos An exceto a no máximo um número finito deles. Dizemos, nesse caso, que
x pertence a quase todos os An ’s). 6
E. 1.30 Exercı́cio. Justifique a seguinte afirmativa: limAn é o conjunto de todos os pontos x de X que
pertencem a um número infinito de conjuntos An . Dizemos, nesse caso, que x pertence freqüentemente aos
An ’s). 6
Proposição 1.9 Seja {An , n ∈ N} uma coleção contável de subconjuntos de um conjunto não-vazio
X. Então, c
(limAn )c = limAcn e limAn = limAcn .
2
Prova. A prova é uma aplicação imediata das definições e das relações (1.11) da Proposição 1.1, página
26.
Proposição 1.10 Seja {An , n ∈ N} uma coleção contável de subconjuntos de um conjunto não-vazio
X. Então,
limAn ⊂ limAn .
2
Prova. A prova é imediata pelos Exercı́cios E. 1.29 e E. 1.30, pois se x ∈ X é tal que x pertence a todos
os conjuntos An exceto a no máximo um número finito deles (isto é, se x ∈ limAn ), então x pertence a
um número infinito de conjuntos An (isto é, x ∈ limAn ).
Uma outra prova mais formal é a seguinte. Tem-se

c
(limAn ) ∩ limAn = (limAn ) ∩ (limAcn )
∞ \
∞
! ∞ \
∞
!
[ [
= Ak ∩ Ack′
n=1 k=n n′ =1 k ′ =n′
∞ [
∞ ∞
! ∞
!
Prop. 1.1
[ \ \
= Ak ∩ Ack′ .
n=1 n′ =1 k=n k ′ =n′
∞
! ∞
!
\ \
Agora, para cada par n, n′ tem-se Ak ∩ Ack′ = ∅, pois essa intersecção é um subconjunto
k=n k ′ =n′
de conjuntos
c como Ak ∩ Ack com k ≥ n e k ≥ n′ e, evidentemente, Ak ∩ Ack = ∅. Assim, (limAn ) ∩
limAn = ∅, o que implica limAn ⊂ limAn .
• Convergência de seqüências de conjuntos
Chegamos a uma definição importante: dizemos que uma coleção contável de conjuntos {An , n ∈ N}
converge a um conjunto A se
limAn = limAn = A.
Se uma coleção contável de conjuntos {An , n ∈ N} converge a um conjunto A, então A é dito ser o
n→∞
limite de An , e escrevemos, como usualmente, A = lim An , ou ainda An −→ A.
n→∞
E. 1.31 Exercı́cio. Justifique a seguinte afirmativa: lim An só existe se não há pontos x ∈ X que,
n→∞
simultaneamente, pertençam a infinitos conjuntos An e não pertençam a infinitos conjuntos An . 6
Uma seqüência An de conjuntos é dita ser crescente, ou expansiva, se An ⊂ An+1 para todo n. Uma
seqüência An de conjuntos é dita ser decrescente, ou contrativa, se An+1 ⊂ An para todo n.
Proposição 1.11 Se uma seqüência An de conjuntos for crescente ou decrescente então lim An existe.
Se An é crescente, vale
[∞
lim An = Ak .
k=1
Se An é decrescente, vale
∞
\
lim An = Ak .
k=1
2
∞
\ ∞ \
[ ∞
Prova. Seja An uma seqüência crescente de conjuntos. Então, Ak = An . Logo, limAn = Ak =
k=n n=1 k=n
∞
[ ∞
[ ∞
[
An . Por outro lado, pelo fato de An ser crescente vale também que Ak = Ak . Logo,
n=1 k=n k=1
∞ [
\ ∞ ∞ [
\ ∞ ∞
[
limAn = Ak = Ak = Ak . Com isso, estabeleceu-se que limAn = limAn e, portanto,
n=1 k=n n=1 k=1 k=1
∞
[
limAn existe e vale limAn = Ak .
k=1
A prova para o caso de seqüências decrescentes é análoga (faça-a!).
Os exercı́cios que seguem ilustram os conceitos de acima.
E. 1.32 Exercı́cio. Seja a famı́lia contável de subconjuntos de R dada por An = [0, 10] se n for par e
An = [0, 5] se n for ı́mpar. Determine limAn e limAn e limn→∞ An se este existir. 6
E. 1.33 Exercı́cio. Seja a famı́lia contável de subconjuntos de R dada por An = [0, 1] se n for par e
An = [2, 3] se n for ı́mpar. Determine limAn e limAn e lim An , se este existir. 6
n→∞
E. 1.34 Exercı́cio. Seja a famı́lia contável de subconjuntos de R dada por

1 1
An = − , 1+
n+1 n+1
com n ∈ N. Determine limAn , limAn e lim An , se este existir. 6

n→∞
E. 1.35 Exercı́cio. Seja a famı́lia contável de subconjuntos de R dada por

1 1
An = , 1−
n+2 n+2
com n ∈ N. Determine limAn , limAn e lim An , se este existir. 6

n→∞
E. 1.36 Exercı́cio. Crie seus próprios exemplos de famı́lias contáveis An de subconjuntos de R e estude
seus limAn , limAn e lim An , se este existir. 6
n→∞
1.2 Estruturas Algébricas Básicas

Ainda atentos ao caráter introdutório apresentaremos aqui definições e exemplos das estruturas algébricas
mais comuns.
• Operações e relações
Sejam C e I dois conjuntos não-vazios e consideremos o produto Cartesiano C I (o conceito de

produto Cartesiano de conjuntos foi definido à página 29). Uma função f : C I → C é por vezes dita
ser uma operação sobre C. Se I é um conjunto finito, f é dita ser uma operação finitária sobre C.
Um conjunto R ⊂ C I é dito ser uma relação em C. Se I é um conjunto finito, R é dito ser uma
relação finitária em C.
• Funções finitárias
Sejam C e I dois conjuntos e consideremos funções f : C I → C. Se I é um conjunto finito

f : C I → C é dita ser uma função finitária sobre C ou operação finitária sobre C. Sem perda de
generalidade consideraremos aqui funções finitárias do tipo f : C n → C para algum n ∈ N. Se f é uma
função finitária para um dado n, f é dita ser uma função n-ária sobre C. Um exemplo de uma função
não finitária seria uma função do tipo f : C N → C que a cada seqüência em C associa um elemento de
C.
Funções 2-árias serão chamadas aqui de funções binárias e funções 1-árias são chamadas de funções
unárias. Funções unárias e binárias são as de maior relevência.
Por vezes iremos falar também de funções 0-árias sobre C, que consistem em funções f : {∅} → C.
Uma tal função tem por imagem simplesmente um√elemento fixo de C. Exemplos de funções 0-árias
sobre R seriam f (∅) = 1 ou f (∅) = 0 ou f (∅) = 2. Freqüentemente denotamos tais funções pelo
elemento
√ de C por ela associado. Nos três exemplos acima, poderı́amos denotar as funções por 1, 0 ou
2, respectivamente.
• Magmas
Um conjunto C dotado de uma relação binária C ×C → C é dito ser um magma. Essa nomenclatura
foi introduzida por Bourbaki22 mas não é, porém, universalmente empregada.
• Relações finitárias
Há uma nomenclatura análoga para o caso de relações. Sejam C e I dois conjuntos e consideremos
relações R ⊂ C I . Se I é um conjunto finito R é dita ser uma relação finitária sobre C. Sem perda
de generalidade consideraremos aqui relações finitárias do tipo R ⊂ C n para algum n ∈ N. Se R é
uma relação finitária para um dado n, R é dita ser uma relação n-ária sobre C. Para o caso n = 1 as
relações são também chamadas de unárias e para o caso n = 2 são ditas binárias. Relações binárias
foram estudadas à página 24.
• Estruturas
Seja C um conjunto, F uma coleção de operações (não necessariamente finitárias) sobre C e seja
R uma coleção de relações (não necessariamente finitárias) em C. A tripla hC, F, Ri é dita ser uma
estrutura sobre C. Note-se que tanto F quanto R podem ser vazias.
Dado que operações sobre um conjunto C também são relações sobre C, a definição de estrutura
acima poderia ser simplificada. É porém conveniente mantê-la como está, pois funções são de im-
22
Nicolas Bourbaki. Nome coletivo adotado por um grupo de importantes matemáticos franceses, nascido por volta
de 1935, que teve grande, mas declinante, influência na estruturação e sistematização da Matemática ao longo do século
XX. O grupo Bourbaki sofreu diversas crı́ticas pelo seu abstracionismo, considerado em certos cı́rculos como excessivo e
mesmo estéril.
portância especial.
Uma estrutura hC, Fi é dita ser uma estrutura algébrica e uma estrutura hC, Ri é dita ser uma
estrutura relacional.
• Tipos de operações e de relações
Ainda um comentário sobre a nomenclatura.

Sejam C e I conjuntos e seja α : C I → C uma operação sobre o conjunto C. A cardinalidade de I
é dita ser o tipo da operação α. Assim, uma função n-ária é também dita ser de tipo n. Analogamente,
se R ⊂ C I é uma relação em C a cardinalidade de I é dita ser o tipo da relação R.
• Comentário sobre a notação
Antes de prosseguirmos, façamos uma observação sobre a notação que é costumeiramente adotada,
especialmente quando se trata de funções binárias.
Dado um conjunto C e uma função binária denotada por um sı́mbolo φ, a imagem de um par
(a, b) ∈ C 2 é comummente denotada por φ(a, b). É muito prático, por vezes, usar uma outra notação
e denotar φ(a, b) por a φ b. Essa notação é denominada mesofixa. Um exemplo claro desse uso está
na função soma, denotada pelo sı́mbolo + : C2 → C de dois números complexos. Denotamos +(z, w)
por z + w. Outro exemplo está na função produto · : C2 → C de dois números complexos. Denotamos
·(z, w) por z · w.
Essa notação será usada adiante para outras funções binárias além das funções soma e produto de
números ou matrizes.
Funções unárias também têm por vezes uma notação especial, freqüentemente do tipo exponencial.
Tal é o caso da operação que associa a cada elemento de um grupo à sua inversa, g 7→ g −1, ou o
caso da operação que associa a cada conjunto o seu complementar A 7→ Ac . Ou ainda o caso da
transposição de matrizes M 7→ M T , da conjugação de números complexos z 7→ z ∗ para o que usa-se
também sabidamente a notação z 7→ z.
1.2.1 Semi-grupos, Monóides e Grupos

Nesta seção introduziremos algumas noções algébricas de grande importância.
• Quase-grupos e loops
Um quase-grupo é um conjunto Q, dotado de uma operação binária Q × Q → Q, denotada por “·”,

tal que para todo par a e b ∈ Q existem x e y ∈ Q, únicos, satisfazendo x · a = b e a · y = b.
Em palavras, um quase-grupo é uma estrutura onde a “divisão”, à esquerda e à direita, é sempre
possı́vel.
Um loop L é um quase-grupo com elemento neutro, ou seja, é um quase-grupo no qual existe um
elemento e, denominado identidade, tal que a · e = e · a = a para todo a ∈ L.
O elemento neutro de um loop é sempre único, pois se e′ é também um elemento neutro, segue que
e′ = e′ · e = e.
Em um loop, todo elemento possui uma única inversa à direita e uma única inversa à esquerda (não
necessariamente iguais). Ou seja, para cada a ∈ L existem um único elemento em L que denotamos
por a−1
l , denominado inverso à esquerda de a, tal que al
−1
· a = e e um único elemento em L que
denotamos por ar , denominado inverso à direita de a, tal que a · a−1
−1
r = e. A existência e unicidade
de tais elementos é conseqüência da propriedade definidora de quase-grupo.
• Semi-grupos
Um semi-grupo é um conjunto não-vazio S dotado de uma operação binária S × S → S denotada

por “·” e denominada produto tal que a seguinte propriedade é satisfeita.
1. Associatividade. Para todos a, b e c ∈ S vale (a · b) · c = a · (b · c).
• Monóides
Um monóide é um conjunto não-vazio M dotado de uma operação binária M × M → M denotada

por “·” e denominada produto tal que as seguintes propriedades são satisfeitas.
1. Associatividade. Para todos a, b e c ∈ M vale (a · b) · c = a · (b · c).
2. Elemento neutro. Existe um (único!) elemento e ∈ M, denominado elemento neutro, tal que
g · e = e · g = g para todo g ∈ M.
Observação: A unicidade do elemento neutro é garantida pela observação que se houvesse e′ ∈ M

tal que g · e′ = e′ · g = g para todo g ∈ M terı́amos e′ = e′ · e = e.
• Grupos
Uma das noções mais fundamentais de toda a Matemática é a de grupo. Um grupo é um conjunto
não-vazio G dotado de uma operação binária G × G → G denotada por “·” e denominada produto e de
uma operação unária G → G (bijetora) denominada inversa, denotada pelo expoente “−1 ”, tais que as
seguintes propriedades são satisfeitas.
1. Associatividade. Para todos a, b e c ∈ G vale (a · b) · c = a · (b · c).
2. Elemento neutro. Existe um (único!) elemento e ∈ G, denominado elemento neutro, tal que
g · e = e · g = g para todo g ∈ G.
3. Inversa. Para cada g ∈ G existe um (único!) elemento h ∈ G tal que g · h = h · g = e. Esse

elemento é denominado a inversa de g e denotado por g −1 .
Observações elementares:
1. A unicidade do elemento neutro é garantida pela observação que se houvesse e′ tal que g · e′ =
e′ · g = g para todo g ∈ G terı́amos e′ = e′ · e = e.
2. Analogamente se estabelece a unicidade da inversa, pois se g, h ∈ G são tais que h · g = g · h = e,

teremos, usando a associatividade, g −1 = g −1 · e = g −1 · (g · h) = (g −1 · g) · h = e · h = h.
3. A função G ∋ g 7→ g −1 ∈ G, que associa cada elemento de G à sua inversa, é um exemplo de uma

função unária.
4. Como e · e = e, segue que e−1 = e.
5. Para todo g ∈ G vale (g −1 )−1 = g pois, usando a associatividade,
(g −1 )−1 = ( g −1 )−1 · e = (g −1)−1 · (g −1 · g) = ((g −1)−1 · g −1) · g = e · g = g .
6. Todo grupo é, trivialmente, um quase-grupo, um loop, um semi-grupo e um monóide.
Um grupo é dito ser comutativo ou Abeliano23 se a· b = b· a para todos a, b ∈ G. Essa nomenclatura

se aplica também a semi-grupos e monóides.
É evidente que todo grupo é um monóide e que todo monóide é um semi-grupo.
Existe uma construção canônica devida a Grothendieck, que discutimos à página 90, que permite
construir um grupo Abeliano a partir de um semi-grupo Abeliano dado. Essa construção é importante
em várias áreas da Matemática. O leitor interessado poderá passar sem perda à discussão da página
90.
• Exemplos simples
1. O conjunto S = {1, 2, 3, . . .} é um semi-grupo em relação à operação de soma usual. O conjunto

M = {0, 1, 2, 3, . . .} é um monóide em relação à operação de soma usual, sendo o elemento
neutro e = 0. O conjunto G = Z = {. . . , −2, −1, 0, 1, 2, . . .} é um grupo em relação à
operação de soma usual, sendo o elemento neutro e = 0 e a inversa n−1 = −n.
2. R dotado da operação de multiplicação usual é um monóide onde o elemento neutro é o número

1. Não é um grupo, pois 0 não tem inversa multiplicativa.
3. O conjunto {x ∈ R, x > 0} é um semi-grupo Abeliano em relação à operação de soma, mas não

é um monóide.
4. O conjunto R+ = {x ∈ R, x ≥ 0} é um monóide Abeliano em relação à operação de soma mas

não um grupo.
5. O conjunto dos números inteiros Z é um grupo Abeliano em relação à operação usual de soma
de números inteiros. Esse grupo é comummente denotado por (Z, +), para lembrar o conjunto
considerado (no caso, Z) e a operação considerada nesse conjunto (no caso, +) .
6. O conjunto dos números racionais Q é um grupo Abeliano em relação à operação usual de soma
de números racionais. Esse grupo é comummente denotado por (Q, +).
23
Niels Henrik Abel (1802-1829).
7. O conjunto Q \ {0} = {r ∈ Q, r 6= 0} é um grupo Abeliano em relação à operação usual de

produto de números racionais. Esse grupo é comummente denotado por (Q, ·).
8. O conjunto dos números reais R é um grupo Abeliano em relação à operação usual de soma de
números reais. Esse grupo é comummente denotado por (R, +).
9. O conjunto dos números complexos C é um grupo Abeliano em relação à operação usual de soma
de números complexos. Esse grupo é comummente denotado por (C, +).
10. O conjunto R \ {0} = {x ∈ R, x 6= 0} é um grupo Abeliano em relação à operação usual de

produto de números reais. Esse grupo é comummente denotado por (R, ·).
11. O conjunto C \ {0} = {z ∈ C, z 6= 0} é um grupo Abeliano em relação à operação usual de

produto de números complexos. Esse grupo é comummente denotado por (C, ·).
12. Mat(C, n), o conjunto das matrizes complexas n × n com o produto usual de matrizes é apenas
um monóide.
13. Mat(C, n), o conjunto das matrizes complexas n × n é um grupo em relação à operação de soma
de matrizes.
14. O conjunto GL(R, n) de todas as matrizes reais n × n com determinante não-nulo (e, portanto,
invertı́veis) é um grupo em relação a operação de produto usual de matrizes. GL(R, n) é não-
Abeliano se n > 1.
15. O conjunto GL(C, n) de todas as matrizes complexas n × n com determinante não-nulo (e,
portanto, invertı́veis) é um grupo em relação a operação de produto usual de matrizes. GL(C, n)
é não-Abeliano se n > 1.
16. O conjunto GL(Q, n) de todas as matrizes racionais n×n com determinante não-nulo (e, portanto,
invertı́veis) é um grupo não-Abeliano (se n > 1) em relação a operação de produto usual de
matrizes. O conjunto GL(Z, n) de todas as matrizes inteiras n × n com determinante não-nulo
(e, portanto, invertı́veis) é um monoide não-Abeliano (se n > 1) em relação a operação de produto
usual de matrizes. Não é um grupo pois a inversa de uma matriz invertı́vel com entradas inteiras
não é sempre uma matriz com entradas inteiras.
17. O conjunto SL(C, n) de todas as matrizes complexas n × n com determinante igual a 1 (e,
portanto, invertı́veis) é um grupo não-Abeliano (se n > 1) em relação a operação de produto
usual de matrizes. O mesmo é verdadeiro para SL(R, n), SL(Q, n) e SL(Z, n), as matrizes reais,
racionais ou inteiras, respectivamente, com determinante igual a 1.
18. Seja X um conjunto não-vazio. Então P(X) é um grupo Abeliano em relação à operação de
diferença simétrica A△B, A, B ∈ X, definida em (1.2), página 23. De fato, o Exercı́cio E. 1.1,
página 23, garante associatividade e comutatividade, o elemento neutro é o conjunto vazio ∅ e
para todo A ∈ P(X) tem-se A−1 = A. Verifique!
19. Outro exemplo importante é o seguinte. Seja C um conjunto não-vazio e tomemos S = C C , o

conjunto de todas as funções de C em C. Então, S é um monóide com o produto formado pela
composição de funções: f ◦ g, e onde o elemento neutro é a função identidade id(s) = s, ∀s ∈ C.
O sub-conjunto de C C formado pelas funções bijetoras de C em C é um grupo não-Abeliano,

onde o produto é a composição de funções, o elemento neutro é a função identidade e o elemento
inverso de uma função f : C → C é a função inversa f −1 . Esse grupo é denominado grupo de
permutações do conjunto C e denotado por P erm(C).
E. 1.37 Exercı́cio. Em caso de dúvida, prove todas as afirmações acima. 6
• Sub-grupos
Seja G um grupo em relação a uma operação “·” e cujo elemento neutro seja e. Um subconjunto
H de G é dito ser um sub-grupo de G se for também por si só um grupo em relação à mesma operação,
ou seja, se
1. e ∈ H,
2. h1 · h2 ∈ H para todos h1 ∈ H e h2 ∈ H,
3. h−1 ∈ H para todo h ∈ H.
Todo grupo G sempre possui pelo menos dois sub-grupos: o próprio G e o conjunto {e} formado
apenas pelo elemento neutro de G.
É fácil verificar que (Z, +) e (Q, +) são sub-grupos de (R, +). É fácil ver que SL(R, n), o
conjunto de todas as matrizes reais n × n com determinante igual a 1, é um sub-grupo de GL(R, n).
Idem para SL(C, n) em relação a GL(C, n).
• Os grupos Zn
O bem conhecido algoritmo de Euclides24 afirma que, dado n ∈ N, n > 0, então todo número inteiro
z pode ser escrito de maneira única na forma z = qn + r, onde q ∈ Z e r ∈ {0, 1, . . . , n − 1}.
O número r é denominado resto da divisão de z por n e é também denotado por r = z mod n.
Seja n um inteiro positivo maior ou igual a 2 e seja o conjunto {0, 1, . . . , n − 1}. Vamos definir
uma operação binária em {0, 1, . . . , n − 1}, denominada soma e denotada pelo sı́mbolo “+”, da
seguinte forma:
α + β = [α + β] mod n
para todos α, β ∈ {0, 1, . . . , n − 1}. Acima [α + β] representa a soma usual de números inteiros em
Z.
E. 1.38 Exercı́cio. Prove que a operação de soma definida acima é uma operação binária de {0, 1, . . . , n−
1} e mostre que a mesma é associativa, comutativa e tem 0 como elemento neutro. 6
E. 1.39 Exercı́cio. Para cada a ∈ {0, 1, . . . , n − 1}, defina a−1 = (n − a) mod n. Mostre que
a−1 ∈ {0, 1, . . . , n − 1} e que a + a−1 = 0. 6
24
Euclides de Alexandria (≈ 325 A.C, ≈ 265 A.C.).
Os dois exercı́cios acima provam que {0, 1, . . . , n − 1} é um grupo Abeliano em relação à operação
de soma definida acima. Esse grupo é denominado grupo Zn , ou Z(n).
• R+ estendido
O conjunto R+ = {x ∈ R, x ≥ 0} é um semi-grupo Abeliano em relação à operação de soma e

em relação à operação de produto e vale ainda a propriedade distributiva a(b + c) = ab + ac. R+ é
também, sabidamente, um conjunto linearmente ordenado pela relação de ordem usual.
Vamos abaixo descrever um outro conjunto linearmente ordenado que contém R+ e é também um
semi-grupo Abeliano em relação à operação de soma e em relação à operação de produto e vale ainda
a propriedade distributiva.
Definimos um conjunto, que denotaremos por R+ , juntando a R+ um conjunto formado por um
elemento, elemento esse que denotaremos provisoriamente por ω, com ω 6∈ R+ , para o qual certas
relações algébricas serão definidas. Seja R+ = R+ ∪ {ω} e definimos as operações de soma e produto
em R+ da seguinte forma: se a e b são elementos de R+ suas soma e produto são definidos como
usualmente. Fora isso, valem
1. a + ω = ω + a = ω, para todo a ∈ R+ .
2. ω + ω = ω.
3. aω = ωa = ω, para todo a ∈ R+ , a 6= 0.
4. 0ω = ω0 = 0.
5. ωω = ω.
E. 1.40 Exercı́cio. Verifique que R+ é um semi-grupo Abeliano (em verdade, um monoide abeliano)
em relação à operação de soma e em relação à operação de produto definidas acima e que vale ainda a
propriedade distributiva. 6
R+ é linearmente ordenado tomando-se em R+ a relação de ordem usual e fixando-se a < ω para

todo a ∈ R+ .
É bastante claro que na definição abstrata acima o objeto representado pelo sı́mbolo ω desempenha o
papel formalmente desempenhado por um número infinito positivo. A construção das relações algébricas
acima prescinde, porém, dessa noção, pois ω pode ser qualquer objeto (fora de R+ ).
Com um certo abuso de linguagem, é costume, substituir o sı́mbolo ω pelo sı́mbolo ∞, dando
a entender que ω representa algo como um número infinito positivo. É comum também denotar-se
R+ = [0, ∞].
E. 1.41 Exercı́cio. Que problemas surgem quando se tenta estender a construção acima para o conjunto
R de todos os reais? 6
1.2.2 Corpos
Um corpo25 é um conjunto não-vazio C dotado de duas operações binárias, denotadas por + e ·,
denominadas soma e produto, respectivamente, satisfazendo o seguinte: para α, β e γ ∈ C quaisquer,
valem
1. A operação de soma tem as seguintes propriedades:
(a) Comutatividade: α + β = β + α
(b) Associatividade: α + (β + γ) = (α + β) + γ
(c) Elemento neutro: existe um elemento 0 ∈ C, chamado de zero, tal que α + 0 = α para todo
α ∈ C.
(d) Inversa: para cada α ∈ C existe um único elemento denotado por β com a propriedade
α + β = 0. Esse elemento é mais comummente denotado por −α.
2. A operação de produto tem as seguintes propriedades:
(a) Comutatividade: α · β = β · α
(b) Associatividade: α · (β · γ) = (α · β) · γ
(c) Elemento neutro: existe um elemento 1 ∈ C, chamado de unidade, tal que α · 1 = α para
todo α ∈ C.
(d) Inversa: para cada α ∈ C, α 6= 0, existe um único elemento denotado por β com a proprie-
dade α · β = 1. Esse elemento é mais comummente denotado por α−1 .
3. Distributividade: o produto é distributivo em relação à adição: α · (β + γ) = α · β + α · γ.
Note-se que corpos são grupos comutativos em relação à operação de soma e monóides comutativos
em relação à operação de produto. A distributividade é a única propriedade listada acima que relaciona
essas operações.
Os elementos de um corpo são por vezes denominados escalares.
Exemplos. É fácil verificar que Q, R e C são corpos em relação às operações usuais de soma e
produto. O conjunto das matrizes n × n para qualquer n ≥ 2 com o produto usual de matrizes não é
um corpo pois, entre outras razões, o produto não é comutativo.
Em um corpo C sempre vale que α · 0 = 0 para todo α ∈ C. De fato, como 0 = 0 + 0, segue que
α · 0 = α · (0 + 0) = α · 0 + α · 0 .
Somando-se a ambos os lados o elemento inverso −α · 0 teremos
α · 0 + (−α · 0) = α · 0 + α · 0 + (−α · 0) ,
25
Em inglês a palavra empregada é field. A expressão em português provavelmente provem do francês corp ou do
alemão Körper.
ou seja,
0 = α·0+0 = α·0 ,
como querı́amos provar. Pela comutatividade do produto vale também 0 · α = 0 para todo α ∈ C.
Vamos exibir outros exemplos menos triviais de corpos.
√
• Os corpos Q( p), com p primo
√
E. 1.42 Exercı́cio. Mostre que o conjunto de todos os números reais da forma a + b 2, com a e b
racionais, é um corpo. 6
√
O corpo do exemplo acima é denotado por Q( 2).
E. 1.43 Exercı́cio. Seja p um número primo. Mostre que o conjunto de todos os números reais da forma
√
a + b p, com a e b racionais, é um corpo. 6
√
O corpo do exemplo acima é denotado por Q( p).
√
E. 1.44 Exercı́cio. Mostre que o conjunto de todos os números reais da forma a + b 2 com a e b inteiros
não é um corpo. 6
• Os corpos Zp , com p primo
O bem conhecido algoritmo de Euclides26 afirma que, dado n ∈ N, n > 0, então todo número inteiro
z pode ser escrito de maneira única na forma z = qn + r, onde q ∈ Z e r ∈ {0, 1, . . . , n − 1}.
O número r é denominado resto da divisão de z por n e é também denotado por r = z mod n.
Seja n um inteiro positivo maior ou igual a 2 e seja Zn o conjunto {0, 1, . . . , n − 1}. Vamos definir
operações de soma e produto em Zn da seguinte forma:
α + β = [α + β] mod n e α · β = [αβ] mod n .
Acima [α + β] e [αβ] são a soma e o produto usuais em Z.

Temos o seguinte teorema:
Teorema 1.5 O conjunto Zn é um corpo com as operações acima definidas se e somente se n for um
número primo. 2
Prova. As operações de soma e produto definidas acima são automaticamente comutativas, associativas
e distributivas (por que?). Fora isso sempre vale que −α = n − α para todo α ∈ Zn . Resta-nos estudar
a existência de elementos inversos α−1 . Vamos supor que Zn seja um corpo. Então, a ∈ {2, . . . , n − 1}
tem uma inversa em Zn , ou seja, um número b ∈ {1, . . . , n − 1} tal que a · b = 1. Lembrando a
26
definição de produto em Zn , isso significa que existe um inteiro r tal que ab = rn + 1. Mas isso implica
1 n
b− = r .
a a
Como o lado esquerdo não é um número inteiro, o lado direito também não pode ser. Isso diz então que
n/a não pode ser inteiro para nenhum a ∈ {2, . . . , n − 1}, ou seja, n não tem divisores e é, portanto,
um primo. Resta-nos mostrar que Zp é efetivamente um corpo quando p é primo, o que agora se reduz
a mostrar que para todo a ∈ Zp existe um elemento inverso.
Para apresentar a demonstração, recordemos três conceitos da teoria de números. 1. Sejam dois
números inteiros f e g, dizemos que f divide g se g/f ∈ Z. Se f divide g, denotamos esse fato por
f |g. 2. Sejam dois números inteiros f e g. O máximo divisor comum de f e g, denotado mdc(f, g) é
o maior inteiro m tal que m|f e m|g. 3. Dois números inteiros f e g são ditos ser primos entre si se
mdc(f, g) = 1.
A demonstração da existência de inverso em Zp será apresentada em partes. Vamos primeiro
demonstrar a seguinte afirmativa.
Lema 1.2 Se f e g são dois números inteiros quaisquer então existem inteiros k ′ e l′ tais que
mdc(f, g) = k ′ f + l′ g .
Prova. Seja m = mdc(f, g). Seja M o conjunto de todos os números positivos que sejam da forma
kf + lg com k e l inteiros. Seja m′ o menor elemento de M. Note que como os elementos de M são
positivos, esse menor elemento existe. Claramente
m′ = k ′ f + l′ g (1.19)
para algum k ′ e l′ . Como, por definição, m|f e m|g, segue que m|m′ , o que só é possı́vel se
m′ ≥ m. (1.20)
Vamos agora demonstrar por contradição que m′ |f . Se isso não fosse verdade, existiriam (pelo algoritmo
de Euclides) inteiros α e β com
0 < β < m′ (1.21)
tal que
f = αm′ + β .
Usando (1.19) isso diz que
β = f − α(k ′ f + l′ g) = (1 − αk ′ )f + (−αl′ )g .
Mas, como β > 0 isso diz que β ∈ M. Logo, β ≥ m′ , contradizendo (1.21). Logo m′ |f . De maneira
totalmente análoga prova-se que m′ |g. Portanto m′ ≤ mdc(f, g) = m. Lembrando que havı́amos
provado (1.20), segue que m = m′ e, portanto m = k ′ f + l′ g, demonstrando o Lema.
Corolário 1.1 Se f e g são dois números inteiros primos entre si então existem inteiros k ′ e l′ tais
que
1 = k ′ f + l′ g .
2
Prova. Pela definição, como f e g são dois números inteiros primos entre si segue que mdc(f, g) = 1.
Para finalmente demonstrarmos a existência de inverso em Zp , com p primo, seja a ∈ {1, . . . , p−1}.
É óbvio que a e p são primos entre si (por que?). Assim, pelo corolário, existem inteiros r e s com
1 = sa − rp .
Isso diz que sa = rp + 1. Logo, definindo b ∈ Zp como sendo b = s mod p teremos
ba = (s mod p)a = (rp + 1) mod p = 1 ,
ou seja, b = a−1 , completando a demonstração.
• Caracterı́stica de um corpo
Seja C um corpo e 1 sua unidade. Para um número natural n definimos n · 1 = |1 + ·{z · · + 1}.
n vezes
Define-se a caracterı́stica de C como sendo o menor número natural não-nulo n tal que n · 1 = 0.
Se um tal número não existir, diz-se que o corpo tem caracterı́stica zero.
√
Exemplos. Q, R, C, Q( 2) têm caracterı́stica zero. Zp , p primo, tem caracterı́stica p. Mostre isso.
E. 1.45 Exercı́cio. Mostre que a caracterı́stica de um corpo é ou igual a zero ou é um número primo.
Sugestão: Mostre primeiro que (nm) · 1 = (n · 1)(m · 1) para quaisquer números naturais n e m. Use então
o fato que todo natural pode ser decomposto em um produto de fatores primos e use o fato que, em um
corpo, se a · b = 0 então ou a ou b ou ambos são zero (ou seja, todo corpo é um anel de integridade: não
tem divisores de zero). 6
1.2.3 Espaços Vetoriais

Um espaço vetorial V sobre um corpo K é um conjunto de elementos chamados vetores dotado de uma
operação “+”: V × V → V denominada soma e também de um produto por escalares “·”: K × V → V
com as seguintes propriedades:
1. A cada par u, v ∈ V de vetores é associado um elemento u + v ∈ V , denominado soma de u e v,

(a) A soma é comutativa:

u+v =v+u
para todos u, v ∈ V ,
(b) A soma é associativa:
u + (v + w) = (u + v) + w
para todos u, v, w ∈ V ,
(c) Existe um único vetor denotado por 0, denominado vetor nulo, tal que
u+0=u
para todo u ∈ V ,
(d) A cada u ∈ V existe associado um único vetor denotado por −u tal que
u + (−u) = 0.
2. A cada par α ∈ K, u ∈ V existe associado um vetor denotado por α · u ∈ V , denominado produto

de u por α, de forma que
(a) O produto por escalares é associativo:
α · (β · u) = (αβ) · u,
para todos α, β ∈ K e u ∈ V , onde αβ é o produto de α por β em K,

(b) 1 · u = u para todo u ∈ V , onde 1 é a unidade de K,
(c) O produto por escalares é distributivo em relação à soma de vetores:
α · (u + v) = α · u + α · v,
para todo α ∈ K e todos u, v ∈ V ,

(d) O produto por escalares é distributivo em relação à soma de escalares:
(α + β) · u = α · u + β · u,
para todos α, β ∈ K e todo u ∈ V .
Note-se que espaços vetoriais são grupos comutativos em relação à operação de soma.
E. 1.46 Exercı́cio. Mostre usando os postulados acima que 0 · u = 0 para todo u ∈ V , onde, permitindo-
nos um certo abuso de linguagem, o 0 do lado esquerdo representa o zero do corpo K e o do lado direito o
vetor nulo de V . 6
Nomenclatura. Os elementos de um corpo sobre os quais um espaço vetorial se constitui são

freqüentemente denominados escalares.
Notação. É freqüente omitir-se o sı́mbolo “·” de produto por escalares quando nenhuma confusão é
possı́vel.
Anti-exemplo. Tomemos o conjunto dos reais com a operação de soma usual, um corpo Zp com p
primo e o produto Zp × R → R, α · x, α ∈ Zp e x ∈ R dada pelo produto usual em R. Essa estrutura
não forma um espaço vetorial. A regra distributiva
(α + β) · x = α · x + β · x
não é satisfeita para todo α, β ∈ Zp . Acima, α · x é o produto usual em R.
É quase desnecessário mencionar o quão importantes espaços vetoriais são no contexto da Fı́sica,
onde, porém, quase somente espaços vetoriais sobre o corpo dos reais ou dos complexos aparecem.
Discutiremos mais aspectos básicos da teoria dos espaços vetoriais na Seção 2.1, página 100.
1.2.4 Anéis, Álgebras e Módulos
• Anéis
Um anel é um conjunto A dotado de duas operações binárias denotadas por “+” e “·” e denominadas
soma e produto, respectivamente, tais que A é um grupo Abeliano em relação à operação de soma e
um semi-grupo em relação à operação de produto. Por fim, a operação de produto é distributiva em
relação à soma: para quaisquer a, b e c ∈ A valem a · (b + c) = a · b + a · c e (a + b) · c = a · c + b · c.
Como usual, denotamos por −a a inversa aditiva do elemento a de um anel.
Se 0 é o elemento neutro de um anel A em relação à operação de soma, então a · 0 = 0 pois, como
0 = 0 + 0, tem-se pela propriedade distributiva a · 0 = a · 0 + a · 0, que implica 0 = a · 0 − (a · 0) =
a · 0 + a · 0 − (a · 0) = a · 0.
• Álgebras
Uma álgebra é um espaço vetorial V sobre um corpo K dotado de uma operação de produto binária
“·” dita produto da álgebra, de modo que as seguintes propriedades são satisfeitas
1. O produto da álgebra é distributivo em relação a soma vetorial: para todos a, b e c ∈ V valem
a · (b + c) = a · b + a · c e (a + b) · c = a · c + b · c .
2. O produto por escalares comuta com o produto da álgebra e é distributivo em relação a ele: para
todos a, b ∈ V e α ∈ K vale
α(a · b) = (αa) · b = a · (αb) .

Uma álgebra V é dita ser uma álgebra comutativa ou uma álgebra Abeliana27 se para todos a, b ∈ V
tivermos
a · b = b · a.
Uma álgebra V é dita ser uma álgebra associativa se para todos a, b e c ∈ V tivermos
a · (b · c) = (a · b) · c .
Álgebras associativas são anéis.

Alguns exemplos elementares de anéis e álgebras:
1. O conjunto Mat (C, n) das matrizes complexas n × n é uma álgebra complexa, associativa e não-
comutativa (se n > 1) em relação à soma e ao produto usuais de matrizes. O conjunto Mat (Z, n)
das matrizes inteiras n × n é um anel (não-comutativo, se n > 1) em relação à soma e ao produto
usuais de matrizes.
2. O conjunto Mat (Q, n) das matrizes racionais n × n é um anel (não-comutativo, se n > 1) em
relação à soma e ao produto usuais de matrizes. É também uma álgebra em relação ao corpo dos
racionais Q.
3. O conjunto Pol(C) de todos os polinômios em uma variável complexa com coeficientes complexos
é uma álgebra complexa, associativa e Abeliana em relação à soma e ao produto usuais de
polinômios. O conjunto Pol(Z) de todos os polinômios em uma variável complexa com coeficientes
inteiros é um anel Abeliano em relação à soma e ao produto usuais de polinômios.
4. O conjunto Pol(Q) de todos os polinômios em uma variável complexa com coeficientes racionais é
um anel Abeliano em relação à soma e ao produto usuais de polinômios. É também uma álgebra
associativa e Abeliana em relação ao corpo dos racionais Q.
E. 1.47 Exercı́cio. Em caso de dúvida, justifique as afirmações de acima. 6
Notação. Se A é uma álgebra associativa, podemos sem ambigüidade denotar o produto de dois de
seus elementos a, b ∈ A simplesmente por ab. Pela mesma razão, em uma álgebra associativa produtos
triplos como a(bc) e (ab)c podem ser escritos sem ambigüidade como abc.
Devemos dizer que há muitas álgebras importantes encontradas na Fı́sica que não são nem comuta-
tivas nem associativas. Por exemplo, a álgebra do produto vetorial em R3 não é nem comutativa nem
associativa. Dentre as álgebras não-associativas destacam-se pela sua importância as álgebras de Lie.
• Álgebras de Lie
Uma classe especialmente importante de álgebras não-comutativas e não-associativas é formada

pelas chamadas álgebras de Lie.
Uma álgebra L (sobre um corpo K) é dita ser uma álgebra de Lie28 se seu produto, além das
propriedades 1 e 2 da página 60, satisfizer
27
28
Marius Sophus Lie (1842-1899).
1. Anti-comutatividade. Para todos a, b ∈ L vale a · b = −b · a.
2. Identidade de Jacobi29 . Para todos a, b e c ∈ L vale
a · (b · c) + c · (a · b) + b · (c · a) = 0 . (1.22)
Por razões históricas o produto de dois elementos de uma álgebra de Lie é denotado pelo sı́mbolo
[a, b] em lugar de a · b.
Seja A uma álgebra associativa. Podemos associar a A uma álgebra de Lie definindo o produto
[a, b] = ab − ba, denominado comutador de a e b ∈ A. A anti-comutatividade desse produto é óbvia e
a identidade de Jacobi segue do fato que
[a, [b, c]] + [c, [a, b]] + [b, [c, a]]
= a(bc − cb) − (bc − cb)a + c(ab − ba) − (ab − ba)c + b(ca − ac) − (ca − ac)b
= abc − acb − bca + cba + cab − cba − abc + bac + bca − bac − cab + acb
= 0,
como facilmente se constata.
• Exemplos básicos de álgebras de Lie
Todos os exemplos aqui exibidos são relevantes na teoria dos grupos de Lie.
E. 1.48 Exercı́cio. Mostre que R3 dotado do produto vetorial usual é uma álgebra de Lie. 6
E. 1.49 Exercı́cio. Mostre que Mat (R, n) (ou Mat (C, n)), o conjunto de todas as matrizes n × n reais
(complexas) é uma álgebra de Lie com relação ao produto [A, B] = AB − BA. 6
E. 1.50 Exercı́cio. Mostre que o subconjunto de Mat (R, n) (ou de Mat (C, n)) formado pelas matrizes
com traço nulo é uma álgebra de Lie com relação ao produto [A, B] = AB − BA. 6
E. 1.51 Exercı́cio. Mostre que o subconjunto de Mat (R, n) (ou de Mat (C, n)) formado pelas matrizes
anti-simétricas, ou seja, tais que AT = −A, é uma álgebra de Lie com relação ao produto [A, B] =
AB − BA. 6
E. 1.52 Exercı́cio. Mostre que o subconjunto de Mat (C, n) formado pelas matrizes anti-autoadjuntas,
ou seja, tais que A∗ = −A, é uma álgebra de Lie (sobre o corpo dos reais!) com relação ao produto
[A, B] = AB − BA. 6
29
Carl Gustav Jacob Jacobi (1804-1851).
E. 1.53 Exercı́cio. Conclua igualmente que o subconjunto de Mat (C, n) formado pelas matrizes anti-
autoadjuntas, ou seja, tais que A∗ = −A, e de traço nulo (Tr(A) = 0) é uma álgebra de Lie (sobre o corpo
dos reais!) com relação ao produto [A, B] = AB − BA. 6
E. 1.54 Exercı́cio. Fixada uma matriz B ∈ Mat (R, n), mostre que o subconjunto de Mat (R, n)
formado pelas matrizes A com a propriedade AB = −BAT é uma álgebra de Lie real com relação ao
produto [A, B] = AB − BA. 6
E. 1.55 Exercı́cio. Fixada uma matriz B ∈ Mat (C, n), mostre que o subconjunto de Mat (C, n)
formado pelas matrizes A com a propriedade AB = −BA∗ é uma álgebra de Lie real com relação ao
produto [A, B] = AB − BA. 6
Tratemos agora de exibir um exemplo básico de uma álgebra de Lie de dimensão infinita.
• Colchetes de Poisson
Sejam f (p, q) e g(p, q), com f : R2 → R e g : R2 → R, duas funções reais, infinitamente

diferenciáveis, de duas variáveis reais p e q. Definimos os colchetes de Poisson30 de f e g, denotados
por {f, g}, por
∂f ∂g ∂f ∂g
{f, g} := − .
∂p ∂q ∂q ∂p
É claro que {f, g} é igualmente uma função infinitamente diferenciável de p e q.
Os colchetes de Poisson satisfazem as seguintes propriedades: para quaisquer funções f, g e h como
acima, valem
1. Linearidade: {f, αg + βh} = α{f, g} + β{f, h} para quaisquer α, β ∈ R. Analogamente

{αf + βg, h} = α{f, h} + β{g, h}.
2. Anti-simetria: {f, g} = −{g, f }.
3. Identidade de Jacobi31 : {f, {g, h}} + {h, {f, g}} + {g, {h, f }} = 0.
4. Identidade de Leibniz32 : {f, gh} = {f, g}h + g{f, h}.
E. 1.56 Exercı́cio importante. Verifique a validade das quatro propriedades acima. 6
As propriedades 1 e 2 e 3 indicam que o conjunto das funções R2 → R infinitamente diferenciáveis

é uma álgebra de Lie com o produto definido pelos colchetes de Poisson. Trata-se de uma álgebra de
Lie de dimensão infinita.
A definição acima dos colchetes de Poisson pode ser facilmente generalizada para variedades dife-
renciáveis de dimensão par, mas não trataremos disso aqui por ora. Os colchetes de Poisson desempe-
nham um papel importante na Mecânica Clássica.
30
Siméon Denis Poisson (1781-1840).
31
Carl Gustav Jacob Jacobi (1804-1851).
32
Gottfried Wilhelm von Leibniz (1646-1716).
E. 1.57 Exercı́cio. Mostre que matrizes A, B, C de Mat (R, n) (ou de Mat (C, n)) também satisfazem
uma identidade de Leibniz: [A, BC] = [A, B]C + B[A, C]. Em verdade, essa identidade é válida em
qualquer álgebra associativa. Mostre isso também (a prova é idêntica ao caso de matrizes). 6
Outra classe de álgebras não-associativas de interesse é formada pelas álgebras de Jordan.
• Álgebras de Jordan
Uma álgebra não-associativa J sobre um corpo K é dita ser uma álgebra de Jordan33 se seu produto
satisfizer
1. Comutatividade. Para todos a, b ∈ J vale a · b = b · a.
2. Identidade de Jordan. Para todos a, b ∈ J vale
(a · a) · (a · b) = a · ((a · a) · b) . (1.23)
Como a identidade de Jordan é trivialmente satisfeita por uma álgebra associativa, alguns autores
aceitam a inclusão das álgebras associativas dentre as de Jordan (desde que sejam também comutativas,
naturalmente). De qualquer forma, dada uma álgebra associativa (não-necessariamente comutativa) é
sempre possivel definir um produto que faz dela uma álgebra de Jordan.
De fato, se A é uma álgebra associativa (não-necessariamente comutativa) sobre R ou C34 , cujo
produto denotamos por ab, o produto
1
a·b = (ab + ba)
2
faz de A uma álgebra de Jordan.
E. 1.58 Exercı́cio. Verifique que esse produto é comutativo (trivial) e satisfaz a identidade de Jordan.
Verifique também que esse produto não é, em geral, associativo se A não for Abeliana. Esse produto é
denominado produto de Jordan. 6
As álgebras de Jordan surgiram da tentativa de definir produtos de observáveis na Mecânica

Quântica (representados por operadores auto-adjuntos) que definissem novamente observáveis. O se-
guinte exercı́cio deve tornar isso claro.
E. 1.59 Exercı́cio. Verifique que a coleção das matrizes auto-adjuntas de Mat (C, n) forma uma álgebra
de Jordan para o produto de Jordan acima. 6
• Módulos
Seja A um anel. Um A-módulo à esquerda é um grupo Abeliano M (cujo produto, seguindo a

convenção, denotaremos por “+”) dotado de uma função A × M → M que a cada par a ∈ A, m ∈ M
33
Ernst Pascual Jordan (1902–1980) foi um dos fundadores da Mecânica Quântica.
34
Ou, mais genericamente, sobre qualquer corpo que não tenha caracterı́stica 2.
associa um elemento de M denotado por a · m com as seguintes propriedades: para todos a, b ∈ A e

todos m, n ∈ M
1. a · (m + n) = a · m + a · n,
2. (a + b) · m = a · m + b · m,
3. a · (b · m) = (ab) · m,
4. Se A possuir uma identidade e (i.e., um elemento neutro para o produto), então e · m = m.
Seja A um anel. Um A-módulo à direita é um grupo Abeliano M dotado de uma função M ×A → M

que a cada par a ∈ A, m ∈ M associa um elemento de M denotado por m · a com as seguintes
propriedades: para todos a, b ∈ A e todos m, n ∈ M
1. (m + n) · a = m · a + n · a,
2. m · (a + b) = m · a + m · b,
3. (m · b) · a = m · (ba),
4. Se A possuir uma identidade e, então m · e = m.
Sejam A e B dois anéis. Um bimódulo em relação a A e B é um grupo Abeliano M dotado de

duas funções A × M → M e M × B → M que a cada a ∈ A, b ∈ B e m ∈ M associam elementos de
M denotados por a · m e m · b, respectivamente, de modo que M seja um A-módulo à esquerda e um
B-módulo à direita e de modo que valha
1. a · (m · b) = (a · m) · b para todos a ∈ A, b ∈ B, m ∈ M.
1.2.5 Mais sobre Anéis

Apresentaremos em seqüência uma série de definições após as quais discutiremos exemplos relevantes.
• Anéis com unidade
Um anel com unidade é um anel R com a propriedade de existir em R um elemento 1, chamado de

unidade, com 1 6= 0, tal que a · 1 = 1 · a = a para todo a ∈ R.
• Anéis sem divisores de zero
Dado um anel R um elemento não-nulo a ∈ R é dito ser um divisor de zero se existir pelo menos
um b ∈ R com b 6= 0 tal que a · b = 0 ou b · a = 0.
Se em um dado anel a relação a · b = 0 só for possı́vel se a = 0 ou b = 0 ou ambos, então esse anel
é dito ser um anel sem divisores de zero.
Exemplos. C e R são anéis sem divisores de zero (com os produtos e somas usuais), mas os anéis
Mat(n, C), n > 1, têm divisores de zero (com o produto e soma usuais), pois tem-se, por exemplo,

1 0 0 0 0 0
= .
0 0 0 1 0 0
E. 1.60 Exercı́cio. Mostre que em Z4 tem-se 2 · 2 = 0, ou seja, 2 é um divisor de zero. Há outros
divisores de zero? 6
E. 1.61 Exercı́cio. Mostre que em Zn existem divisores de zero caso n não seja um número primo. 6
• Anéis de integridade
Um anel comutativo (ou seja, cujo produto é comutativo), com unidade e sem divisores de zero é
dito ser um anel de integridade ou também um domı́nio de integridade.
Para a relação entre anéis de integridade e corpos, vide adiante.
• Anéis de divisão
Um anel R é dito ser um anel de divisão se possuir uma unidade multiplicativa 1, i.e., um elemento
tal que para todo a ∈ R vale a · 1 = 1 · a = a e se para todo a ∈ R, a 6= 0, existir uma inversa
multiplicativa em R, ou seja, um elemento denotado por a−1 tal que a · a−1 = a−1 · a = 1.
E. 1.62 Exercı́cio importante. Mostre que um anel de divisão não pode possuir divisores de zero. Por-
tanto, todo anel de divisão comutativo é também um anel de integridade. 6
Exemplos. Com as definições usuais R, C e Q são anéis de divisão mas Z não o é (falha a existência
da inversa multiplicativa). Mat(n, C), com n > 1, também não é um anel de divisão com as definições
usuais pois nem toda a matriz não-nula é invertı́vel.
Outro exemplo de anel de divisão (não comutativo!) são os quatérnions, que serão discutidos à
página 94.
• Álgebras de divisão
Uma álgebra A é dita ser uma álgebra de divisão se possuir uma unidade multiplicativa 1, i.e., um
elemento tal que para todo a ∈ A vale a · 1 = 1 · a = a e se para todo a ∈ A, a 6= 0, existir uma inversa
multiplicativa em A, ou seja, um elemento denotado por a−1 tal que a · a−1 = a−1 · a = 1.
• Corpos
Todo anel de divisão cujo produto “·” é comutativo é um corpo (verifique!).
• Corpos não-comutativos
Como a única distinção entre as definições de corpos e de anéis de divisão é que para os primeiros a
comutatividade do produto é requerida, diz-se também por vezes que anéis de divisão não-comutativos
são corpos não-comutativos.
• Corpos e anéis de integridade
É bem claro pelas definições que todo corpo é também um anel de integridade. A reciproca é
parcialmente válida:
Teorema 1.6 Todo anel de integridade finito é um corpo. 2
Prova. Se A é um anel de integridade, tudo que precisamos é mostrar que todo elemento não-nulo de
A é invertı́vel. Seja a um elemento de A \ {0}. Definamos a aplicação α : A \ {0} → A dada por
α(y) = ay .
Note que, como A é um anel de integridade o lado direito é não nulo pois nem a nem y o são. Assim,
α é, em verdade, uma aplicação de A \ {0} em A \ {0} e, como tal, é injetora, pois se ay = az, segue
que a(y − z) = 0, o que só é possı́vel se y = z, pois A é um anel de integridade e a 6= 0. Agora,
uma aplicação injetora de um conjunto finito em si mesmo tem necessariamente que ser sobrejetora
(por que?). Assim, α é uma bijeção de A \ {0} sobre si mesmo. Como 1 ∈ A \ {0}, segue que existe
y ∈ A \ {0} tal que ay = 1, ou seja, a tem uma inversa. Como a é um elemento arbitrário de A \ {0},
segue que todo elemento de A \ {0} tem inversa e, portanto, A é um corpo.
Anéis de integridade infinitos não são necessariamente corpos:

Anti-exemplo. Um exemplo de um anel de integridade que não é um corpo é o conjunto de todos
os polinômios de C em C com o produto e soma usuais. Em verdade, os únicos polinômios que têm
inverso multiplicativo são os polinômios constantes não-nulos.
• Anéis de divisão finitos
O seguinte teorema, originalmente devido a Wedderburn35 , é bastante supreendente por mostrar

uma insuspeita relação entre a cardinalidade de um anel de divisão e a natureza de seu produto
Teorema 1.7 Todo anel de divisão finito é comutativo. 2
Assim, pelas observações feitas acima concluı́-se:

Corolário 1.2 Todo anel de divisão finito é um corpo. 2
A prova do Teorema 1.7 não será apresentada aqui. Uma demonstração elegante, devida a Witt36 ,
pode ser encontrada na magnı́fica referência [2].
35
Joseph Henry Maclagen Wedderburn (1882-1948). O trabalho original de Wedderburn é: J. H. M. Wedderburn, “A
theorem on finite algebras”, Trans. Amer. Math. Soc. 6, 349-352 (1905). Esse trabalho contém três demonstrações do
Teorema 1.7.
36
Ernst Witt (1911-1991). O trabalho original de Witt é “Über die Kommutativität endlicher Schiefköerper”. Abh.
Math. Sem. Univ. Hamburg, 8, 413 (1931).
1.2.6 Ações e Representações
• Ações
indexAções
Seja M um conjunto não-vazio e G um grupo. Uma função α : G × M → M é dita ser uma ação à
esquerda de G sobre M se as seguintes condições forem satisfeitas:
1. Para todo g ∈ G a função α(g, ·) : M → M é bijetora37 .

2. Se e é a identidade de G então α(e, ·) : M → M é a função identidade: α(e, x) = x para todo
x ∈ M.
3. Para todos g, h ∈ G e todo x ∈ M vale
α(g, α(h, x)) = α(gh, x) . (1.24)
Uma função β : G × M → M é dita ser uma ação à direita de G sobre M se as seguintes condições
forem satisfeitas
1. Para todo g ∈ G a função β(g, ·) : M → M é bijetora.

2. Se e é a identidade de G então β(e, ·) : M → M é a função identidade: β(e, x) = x para todo
x ∈ M.
3. Para todos g, h ∈ G e todo x ∈ M vale
β(g, β(h, x)) = β(hg, x) . (1.25)
Note-se que a distinção básica entre (1.24) e (1.25) é a ordem do produto no grupo. Se G é Abeliano
não há distinção entre uma ação à direita ou à esquerda.
E. 1.63 Exercı́cio. Seja α : G × M → M uma ação à esquerda de um grupo G em um conjunto M.

Mostre que β : G × M → M definida por β(g, x) = α(g −1 , x) é uma ação à direita de G em M. 6
É freqüente encontrar-se outras notações para designar ações de grupos em conjuntos. Uma ação à
esquerda α(g, x) é freqüentemente denotada por αg (x), de modo que a relação (1.24) fica αg (αh (x)) =
αgh (x). Para uma ação à direita, (1.25) fica βg (βh (x)) = βhg (x).
Talvez a notação mais conveniente seja denotar uma ação à esquerda α(g, x) simplesmente por g · x
ou apenas gx. A relação (1.24) fica g(hx) = (gh)x. Para uma ação à direita β(g, x) a notação fica x · g,
ou apenas xg, de modo que (1.25) fica (xh)g = x(hg). Essa notação justifica o uso da nomenclatura à
direita ou à esquerda para classificar as ações.
Seja F uma coleção de funções bijetoras de um conjunto M em si mesmo. Uma ação α : G×M → M
é dita ser uma ação de G em M pela famı́lia F se para todo g ∈ G as funções α(g, ·) : M → M forem
elementos do conjunto F.
37
Para g ∈ G fixo, α(g, ·) : M → M denota a função M ∋ m 7→ α(g, m) ∈ M , ou seja, a função que a cada m ∈ M
associa α(g, m) ∈ M .
E. 1.64 Exercı́cio. Seja G = SO(n) o grupo de todas as matrizes reais n × n ortogonais (ou seja, tais
que RT = R−1 , onde RT denota a transposta de R). Seja M o conjunto de todas as matrizes reais n × n
simétricas (ou seja, tais que AT = A). Mostre que αR (A) := RART , com R ∈ SO(n) e A ∈ M, é uma
ação à esquerda de G em M. Com as mesmas definições, mostre que βR (A) := RT AR é uma ação à direita
de G em M.
Sugestão. O único ponto que poderia ser difı́cil para alguns seria mostrar que, para cada R fixo, αR é
bijetora, ou seja, é sobrejetora e injetora. Para mostrar que αR é sobrejetora, note que se A é uma matriz
simétrica qualquer, podemos trivialmente escrever A = R(RT AR)RT , mostrando que A = αR (B), onde
B = RT AR é simétrica. Para provar que αR é injetora note que, se RA1 RT = RA2 RT , segue facilmente,
multiplicando-se por RT à esquerda e por R à direita, que A1 = A2 . 6
E. 1.65 Exercı́cio. Seja G = SU(n) o grupo de todas as matrizes complexas n × n unitárias (ou seja,
tais que U ∗ = U −1 , onde U ∗ denota a adjunta de U: U ∗ = U T ). Seja M o conjunto de todas as matrizes
complexas n × n Hermitianas (ou seja, tais que A∗ = A). Mostre que αU (A) := UAU ∗ , com U ∈ SU(n)
e A ∈ M, é uma ação à esquerda de G em M. Com as mesmas definições, mostre que βU (A) := U ∗ AU é
uma ação à direita de G em M. 6
• Órbita de uma ação
Seja G um grupo e α : G × M → M uma ação (à esquerda ou à direita) de G sobre um conjunto

não-vazio M. Para m ∈ M, definimos a órbita de m pela ação α como sendo o conjunto Orbα (m) :=
{αg (m), g ∈ G} ⊂ M.
Claro está que para todo m ∈ M vale m ∈ Orbα (m).
E. 1.66 Exercı́cio. Mostre que para todo m ∈ M vale a afirmação que para todo m′ ∈ Orbα (m) tem-se
Orbα (m′ ) = Orbα (m). 6
E. 1.67 Exercı́cio. Conclúa que se existe m ∈ M tal que Orbα (m) = M, então Orbα (m′ ) = M para
todo m′ ∈ M. 6
• Transitividade e espaços homogêneos
O fato descrito no Exercı́cio E. 1.67 conduz naturalmente às seguintes definições:

Seja G um grupo e α : G × M → M uma ação (à esquerda ou à direita) de G sobre um conjunto
não-vazio M. Dizemos que α age transitivamente em M se existir m ∈ M tal que {αg (m), g ∈ G} = M.
Em palavras, α age transitivamente em M se existir pelo menos um elemento de M cuja órbita é todo
M. Pelo Exercı́cio E. 1.66, se um elemento de M possui essa propriedade, então todos a possuem.
Se uma ação α age transitivamente em M dizemos que M é um espaço homogêneo do grupo G pela
a ação α, ou simplesmente um espaço homogêneo do grupo G.
• Representações de grupos
Uma representação de um grupo é uma ação a esquerda do mesmo em um espaço vetorial pela
famı́lia das aplicações lineares invertı́veis agindo nesse espaço vetorial.
Sejam G um grupo e V um espaço vetorial sobre um corpo K. Uma representação de G em V é
uma função π : G × V → V tal que para todo g ∈ G as funções π(g, ·) : V → V sejam lineares e
bijetivas e satisfazem π(e, v) = v e π(g, π(h, v)) = π(gh, v) para todos g, h ∈ G e todo v ∈ V .
Devido à linearidade é conveniente denotar π(g, v) por π(g)v. Uma representação satisfaz assim:
1. Para todo g ∈ G, π(g) é uma aplicação linear bijetora de V em V :
π(g)(αu + βv) = απ(g)u + βπ(g)v
para todos α, β ∈ K e todos u, v ∈ V .
2. π(e) = 1, o operador identidade em V .
3. Para todos g, h ∈ G vale

π(g)π(h) = π(gh).
• Representações de álgebras
Seja A uma álgebra sobre um corpo K e V um espaço vetorial sobre o mesmo corpo. Uma repre-
sentação de A em V é uma famı́lia de funções lineares de V em V , {π(a), a ∈ A}, satisfazendo
1. Para todo a ∈ A, π(a) : V → V é uma aplicação linear, ou seja
π(a)(αu + βv) = απ(a)u + βπ(a)v
para todos α, β ∈ K e todos u, v ∈ V .
2. Para todos α, β ∈ K e todos a, b ∈ A vale
π(αa + βb) = απ(a) + βπ(b) .
3. Para todos a, b ∈ A
π(ab) = π(a)π(b) .
Uma representação π de uma álgebra A em um espaço vetorial V é dita ser uma representação fiel
se π(a) = 0 só ocorrer para a = 0.
Uma representação π de uma álgebra A em um espaço vetorial V é dita ser uma representação
não-degenerada se π(a)v = 0 para todo a ∈ A só ocorrer para v = 0.
1.2.7 Morfismos, Homomorfismos, Epimorfismos, Isomorfismos, Mono-

morfismos, Endomorfismos e Automorfismos
Dos radicais gregos hómos: semelhante, igual; mónos: um, sozinho; epi: sobre; ı́sos: semelhante, igual; endon: para dentro, dentro; autós:
próprio, mesmo e morphé: forma.
Nesta seção nos limitaremos a listar algumas definições básicas que serão usadas e desenvolvidas no
restante do texto, onde também exemplos serão apresentados. A pretensão não é a de desenvolver os
assuntos, mas de apresentar as definições para referência futura.
Em termos informais um morfismo entre duas estruturas de um mesmo tipo (dois grupos, dois
espaços vetoriais, duas álgebras, dois anéis etc.) é uma função entre as mesmas que respeita as operações
de produto lá definidas.
• Morfismos em grupos
indexMorfismos em grupos
Dados dois grupos G e H, com unidades eG e eH , respectivamente, uma função φ : G → H é dita
ser um homomorfismo ou morfismo de grupos se φ(eG ) = eH e se φ(a · b) = φ(a) · φ(b) para todos
a, b ∈ G.
Dados dois grupos G e H, com unidades eG e eH , respectivamente, uma função φ : G → H é dita
ser um anti-homomorfismo se φ(eG ) = eH e se φ(a · b) = φ(b) · φ(a) para todos a, b ∈ G. Por exemplo,
a aplicação φ : G → G tal que φ(g) = g −1 é um anti-homomorfismo (verifique).
Um homomorfismo φ : G → H entre dois grupos é dito ser um monomorfismo se for injetivo.
Um homomorfismo φ : G → H entre dois grupos é dito ser um epimorfismo se for sobrejetor.
Um homomorfismo φ : G → H entre dois grupos é dito ser um isomorfismo se for bijetor, em cujo
caso a aplicação inversa φ−1 : H → G é também um homomorfismo.
Se dois grupos G e H forem tais que exista um isomorfismo φ entre ambos dizemos que G e H são
isomorfos (por φ) e denotamos esse fato por G ≃φ H, ou simplesmente por G ≃ H.
E. 1.68 Exercı́cio importante. Mostre que a relação de isomorfia entre grupos é uma relação de equi-
valência. 6
Um homomorfismo ρ de um grupo G em si mesmo ρ : G → G é dito ser um endomorfismo de G.

Um isomorfismo α de um grupo G em si mesmo α : G → G é dito ser um automorfismo de G.
Um exemplo básico de automorfismo é o seguinte: seja g ∈ G fixo. Definimos αg : G → G por
αg (a) = g −1 ag para todo a ∈ G.
E. 1.69 Exercı́cio. Mostre que para cada g ∈ G fixo, αg é um homomorfismo e que sua inversa é αg−1 .
6
Um automorfismo de um grupo G é dito ser um automorfismo interno se for da forma αg para

algum g ∈ G.
Muitas das definições apresentadas acima têm seus análogos em outras estruturas, como espaços
vetoriais, álgebras, anéis, módulos etc. Trataremos de alguns casos.
• Morfismos em espaços vetoriais
Sejam U e V dois espaços vetoriais sobre o mesmo corpo K. Uma função φ : U → V é dita ser um
homomorfismo ou morfismo de espaços vetoriais se φ(α1 u1 + α2 u2 ) = α1 φ(u1 ) + α2 φ(u2 ) para todos
α1 , α2 ∈ K e todos u1, u2 ∈ U.
Sejam U e V dois espaços vetoriais sobre o mesmo corpo K. Uma função φ : U → V é dita ser um
isomorfismo de espaços vetoriais se for um morfismo de espaços vetoriais, e se for bijetora.
Se dois espaços vetoriais U e V sobre o mesmo corpo forem tais que exista um isomorfismo φ entre
ambos dizemos que U e V são isomorfos (por φ) e denotamos esse fato por U ≃φ V , ou simplesmente
por U ≃ V .
E. 1.70 Exercı́cio importante. Mostre que a relação de isomorfia entre espaços vetoriais é uma relação
de equivalência. 6
Em espaços vetoriais os conceitos de mono-, endo- e e automorfismo não são muito empregados.
Em verdade, morfismos de espaços vetoriais são mais freqüentemente denominados operadores lineares
ou aplicações lineares, como matrizes, por exemplo.
No caso de espaços vetoriais sobre o corpo dos complexos existem também os conceitos de anti-
homomorfismo, anti-isomorfismo etc. Sejam U e V dois espaços vetoriais sobre C. Uma função φ :
U → V é dita ser um anti-homomorfismo ou anti-morfismo de espaços vetoriais se φ(α1 u1 + α2 u2 ) =
α1 φ(u1 )+α2φ(u2 ) para todos α1 , α2 ∈ C e todos u1 , u2 ∈ U. O conceito de anti-isomorfismo é análogo.
• Morfismos em álgebras
indexMorfismos em álgebras
Sejam A e B duas álgebras (sobre o mesmo corpo K, como espaços vetoriais). Uma função φ :
A → B é dita ser um homomorfismo ou morfismo de álgebras se for um morfismo de espaços vetoriais
(ou seja φ(α1 a1 + α2 a2 ) = α1 φ(a1 ) + α2 φ(a2 ) para todos α1 , α2 ∈ K e todos a1 , a2 ∈ A) e se
φ(a1 · a2 ) = φ(a1 ) · φ(a2 ) para todos a1 , a2 ∈ A.
Sejam A e B duas álgebras sobre o mesmo corpo K. Uma função φ : A → B é dita ser um
isomorfismo de álgebras se for um morfismo de álgebras e se for bijetora.
Se duas álgebras A e B sobre o mesmo corpo forem tais que exista um isomorfismo φ entre ambos
dizemos que A e B são isomorfas (por φ) e denotamos esse fato por A ≃φ B, ou simplesmente por
A ≃ B.
E. 1.71 Exercı́cio importante. Mostre que a relação de isomorfia entre álgebras é uma relação de equi-
valência. 6
Um morfismo de álgebra ρ de uma álgebra A em si mesma ρ : A → A é dito ser um endomorfismo

de A.
1.3 Cosets, Sub-Grupos Normais e o Grupo Quociente. O

Centro de um Grupo
1.3.1 Cosets
• Cosets à esquerda, ou “left cosets”
Seja G um grupo e H um sub-grupo de G. Podemos definir em G uma relação de equivalência, que

denotaremos por ∼H l (o sub-ı́ndice “l” denotando “left”) dizendo que dois elementos x e y de G são
equivalentes se x−1 y ∈ H. Representaremos por x ∼H l y o fato de x e y serem equivalentes no sentido
acima.
E. 1.72 Exercı́cio importante. Verifique que a definição acima corresponde de fato a uma relação de
equivalência. 6
Denotemos por (G/H)l a coleção das classes de equivalência de G pela relação ∼H

l . O conjunto
(G/H)l é denominado coset à esquerda de G por H, ou left coset de G por H.
Seja [·]l a aplicação G → (G/H)l que associa a cada elemento de G a classe de equivalência a qual
o elemento pertence. A aplicação [·]l é denominada aplicação quociente à esquerda associada a H.
Note-se que [·]l é sobrejetora mas, em geral, não é injetora, pois se g ′ ∼H ′
l g então [g ]l = [g]l . Com isso,
os elementos de (G/H)l poderão ser denotados por [g]l com g ∈ G, o que freqüentemente faremos.
Podemos identificar [g]l com o conjunto gH = {gh, h ∈ H} ⊂ G. De fato, g ′ ∈ gH se e somente se
existe h ∈ H tal que g ′ = gh e, portanto, se e somente se g −1 g ′ ∈ H, ou seja, se e somente se g ∼H ′
l g.
• Cosets à direita, ou “right cosets”
Seja G um grupo e H um sub-grupo de G. Podemos definir em G uma relação de equivalência, que

denotaremos por ∼H r (o sub-ı́ndice “r” denotando “right”) dizendo que dois elementos x e y de G são
−1
equivalentes se xy ∈ H. Representaremos por x ∼H r y o fato de x e y serem equivalentes no sentido
acima.
E. 1.73 Exercı́cio importante. Verifique que a definição acima corresponde de fato a uma relação de
equivalência. 6
Denotemos por (G/H)r a coleção das classes de equivalência de G pela relação ∼H

r . O conjunto
(G/H)r é denominado coset à direita de G por H, ou right coset de G por H.
Seja [·]r a aplicação G → (G/H)r que associa a cada elemento de G a classe de equivalência a qual o
elemento pertence. A aplicação [·]r é denominada aplicação quociente à direita associada a H. Note-se
que [·]r é sobrejetora mas, em geral, não é injetora, pois se g ′ ∼H ′
r g então [g ]r = [g]r . Com isso, os
elementos de (G/H)r poderão ser denotados por [g]r com g ∈ G, o que freqüentemente faremos.
Podemos identificar [g]r com o conjunto Hg = {hg, h ∈ H} ⊂ G. De fato, g ′ ∈ Hg se e somente se
existe h ∈ H tal que g ′ = hg e, portanto, se e somente se g ′ g −1 ∈ H, ou seja, se e somente se g ′ ∼H
r g.
Doravante, denotaremos ∼H H
l simplesmente por ∼l e ∼r por ∼r , ficando o subgrupo H subentendido.
• Ação à esquerda de G sobre (G/H)l
É sempre possı́vel definir uma ação à esquerda de G sobre o coset à esquerda (G/H)l , a qual age
transitivamente em (G/H)l (vide definição à página 69). Isso faz de (G/H)l um espaço homogêneo de
G (vide definição à página 69).
Seja G um grupo, H um sub-grupo de G e seja o coset à esquerda (G/H)l , definido acima. Defina
α : G × (G/H)l → (G/H)l tal que G × (G/H)l ∋ (g, [f ]l ) 7→ αg ([f ]l ) := [gf ]l ∈ (G/H)l .
Então, α define uma ação à esquerda de G sobre (G/H)l . De fato, tem-se que
1. Para cada g ∈ G, αg : (G/H)l → (G/H)l é bijetora, pois se existem f1 , f2 ∈ G tais que

[gf1 ]l = [gf2]l , então gf1 ∼l gf2 , ou seja, (gf1 )−1 (gf2 ) ∈ H, ou seja, (f1 )−1 f2 ∈ H. Isso estabelece
que f1 ∼l f2 , ou seja, que [f1 ]l = [f2 ]l , provando que αg : (G/H)l → (G/H)l é injetora. Note-se
que αg : (G/H)l → (G/H)l é sobrejetora, pois αg ([g −1f ]l ) = [f ]l e variando f em G, [f ]l varre
todo (G/H)l .
2. Para a identidade e ∈ G, αe ([f ]l ) = [ef ]l = [f ]l para todo f ∈ G, provando que αe : (G/H)l →
(G/H)l é a aplicação identidade.
3. Para todos g, h ∈ G vale αg (αh ([f ]l )) = αg ([hf ]l ) = [ghf ]l = αgh ([f ]l ) para qualquer f ∈ G.
Isso provou que α : G × (G/H)l → (G/H)l é uma ação à esquerda de G em (G/H)l .

Não é difı́cil ver que a ação α age transitivamente em (G/H)l . De fato, se e é a unidade de G, então
αg ([e]l ) = [g]l e variando g por todo G a imagem [g]l varre todo (G/H)l .
• Ação à direita de G sobre (G/H)r
É sempre possı́vel definir uma ação à direita de G sobre o coset à direita (G/H)r , a qual age
transitivamente em (G/H)r (vide definição à página 69). Isso faz de (G/H)r um espaço homogêneo de
G (vide definição à página 69).
Seja G um grupo, H um sub-grupo de G e seja o coset à direita (G/H)r , definido acima. Defina
β : G × (G/H)r → (G/H)r tal que G × (G/H)r ∋ (g, [f ]r ) 7→ βg ([f ]r ) := [f g]r ∈ (G/H)r .
Então, β define uma ação à direita de G sobre (G/H)r . De fato, tem-se que
1. Para cada g ∈ G, βg : (G/H)r → (G/H)r é bijetora, pois se existem f1 , f2 ∈ G tais que

[f1 g]r = [f2 g]r , então f1 g ∼r f2 g, ou seja, (f1 g)(f2 g)−1 ∈ H, ou seja, f1 (f2 )−1 ∈ H. Isso
estabelece que f1 ∼r f2 , ou seja, que [f1 ]r = [f2 ]r , provando que βg : (G/H)r → (G/H)r é
injetora. Note-se que βg : (G/H)r → (G/H)r é sobrejetora, pois βg (f [g −1]r ) = [f ]r e variando f
em G, [f ]r varre todo (G/H)r .
2. Para a identidade e ∈ G, βe ([f ]r ) = [f e]r = [f ]r para todo f ∈ G, provando que βe : (G/H)r →
(G/H)r é a aplicação identidade.
3. Para todos g, h ∈ G vale βg (βh ([f ]r )) = βg ([f h]r ) = [f hg]r = βhg ([f ]r ) para qualquer f ∈ G.
Isso provou que β : G × (G/H)r → (G/H)r é uma ação à direita de G em (G/H)r .

Não é difı́cil ver que a ação β age transitivamente em (G/H)r . De fato, se e é a unidade de G,
então αg ([e]r ) = [g]r e variando g por todo G a imagem [g]r varre todo (G/H)r .
Os cosets (G/H)l e (G/H)r podem ser identificados e transformados em grupos se uma certa
hipótese for feita sobre o sub-grupo H e sua relação com G. Esse é nosso assunto na Seção 1.3.2.
1.3.2 Subgrupos Normais e o Grupo Quociente
• Sub-Grupos normais
Seja G um grupo. Um subgrupo N de G é dito ser um subgrupo normal se gng −1 ∈ N para todo
g ∈ G e todo n ∈ N. Se N é um sub-grupo normal de G denotamos esse fato escrevendo N G.
Observe que todo sub-grupo de um grupo Abeliano G é normal.
E. 1.74 Exercı́cio. Sejam G e H dois grupos e ϕ : G → H um homomorfismo. Mostre que Ran (ϕ) :=
{ϕ(g)| g ∈ G} é um sub-grupo de H. 6
E. 1.75 Exercı́cio importante. Sejam G e H dois grupos e ϕ : G → H um homomorfismo. Seja eH a

unidade de H. Mostre que Ker (ϕ) := {g ∈ G| ϕ(g) = eH } é um sub-grupo normal de G. 6
Nota sobre a nomenclatura dos dois exercı́cios acima. O sı́mbolo Ran provém da palavra inglesa “range” (“alcance”, em português) e é
freqüentemente empregado como sinônimo da imagem de uma função ou aplicação. O sı́mbolo Ker provem do inglês “kernel” (“núcleo” ou
“caroço”, em português).
• Cosets por subgrupos normais
Nesse contexto, a seguinte proposição é fundamental.

Proposição 1.12 Seja G um grupo e seja N um sub-grupo de G. Então, uma condição necessária e
suficiente para que possamos identificar (G/N)l com (G/N)r , ou seja, para que tenhamos [g]l = [g]r
para todo g ∈ G, é que N G, ou seja, que N seja um sub-grupo normal de G. 2
Prova. Por definição, g ′ ∈ [g]l se e somente existe n ∈ N tal que g −1g ′ = n, o que é verdade se e
somente se g ′g −1 = gng −1. Mas g ′ ∈ [g]r se e somente se g ′ g −1 ∈ N. Assim [g]l = [g]r para todo g ∈ G
se e somente se gng −1 ∈ N para todo g ∈ G e n ∈ N, o que é verdade se somente se N é um subgrupo
normal de G.
Com isso, caso N G, definimos [g] := [g]l = [g]r para todo g ∈ G e definimos o coset de G por N
por G/N := (G/N)l = (G/N)r , ou seja, G/N = {[g], g ∈ G}.
Advertência. O leitor deve ser advertido aqui que, infelizmente, é comum na literatura denotar o
coset à esquerda (G/H)l por G/H, mesmo quando H não é normal (vide, por exemplo, [132] ou [61],
entre outros). Evitaremos fazer isso, pois isso pode levar a uma confusão de conceitos.
• Ações à direita e à esquerda sobre o coset por um subgrupo normal
Se H é um subgrupo qualquer de G, definimos páginas acima uma ação transitiva à esquerda

α : G × (G/H)l → (G/H)l e uma ação transitiva à direita β : G × (G/H)r → (G/H)r . Fica claro
pela Proposição 1.12 que se N G, podemos definir tanto
α : G × (G/N) → G/N tal que G × (G/N) ∋ (g, [f ]) 7→ αg ([f ]) := [gf ] ∈ G/N
como uma ação à esquerda de G sobre G/N quanto
β : G × (G/N) → G/N tal que G × (G/N) ∋ (g, [f ]) 7→ βg ([f ]) := [f g] ∈ G/N
como uma ação à direita de G sobre G/N. Ambas as ações agem transitivamente.
• O grupo quociente de G por N
Sub-grupos normais são importantes, pois com eles podemos fazer da coleção de classes de equi-
valência G/N um grupo, denominado grupo quociente de G por N. A construção é a seguinte.
Seja N G. Podemos fazer de G/N um grupo definindo o produto como [g]N [h]N = [gh]N . É
muito fácil ver que, se esta expressão está bem definida, ela de fato representa um produto associativo
na coleção de classes de equivalência G/N. O elemento neutro seria a classe [e]N , onde e é a identidade
de g. Por fim, [g]−1 −1
N = [g ]N . O ponto não trivial é mostrar que a definição de produto como
[g]N [h]N = [gh]N faz sentido, ou seja, é independente dos elementos tomados nas classes de g e h. Para
isso precisaremos que N seja normal.
O que temos de fazer é mostrar que se g ′ ∼N g e h′ ∼N h então g ′h′ ∼N gh, ou seja, precisamos
mostrar que se g ′ g −1 ∈ N e h′ h−1 ∈ N então g ′ h′ (gh)−1 ∈ N. Mas, de fato, tem-se que
g ′ h′ (gh)−1 = g ′h′ h−1 g −1 = (g ′ g −1)[g(h′ h−1 )g −1] .
Agora, por hipótese, h′ h−1 ∈ N. Daı́, como N é normal (é aqui que essa hipótese entra pela primeira
vez), g(h′ h−1 )g −1 ∈ N. Como, também pela hipótese, g ′ g −1 ∈ N e N é um sub-grupo, concluı́mos que
g ′ h′ (gh)−1 ∈ N, ou seja, g ′h′ ∼N gh. Assim [g]N [h]N = [gh]N está bem definido e faz das classes G/N
um grupo. Esse grupo é denominado de grupo quociente de G por N.
A noção de grupo quociente é muito importante na teoria de grupos e iremos explorar algumas das
aplicações nessas notas. Adiante usarêmo-la para construir a noção de produto tensorial e soma direta
de vários objetos, tais como grupos, álgebras etc. A noção de grupo quociente é importante por permitir
estudar a relação de certos grupos entre si. Mais adiante, por exemplo, mostraremos que o grupo SO(3)
é isomorfo ao grupo SU(2)/{1, −1}, um resultado de direto interesse fı́sico na Mecânica Quântica. A
noção de grupo quociente é também muito importante em problemas combinatórios envolvendo grupos,
mas não falaremos disso aqui. Para uma discussão mais ampla, vide [131], [132] ou [108].
1.3.3 O Centro de um Grupo. Centralizadores e Normalizadores
• O centro de um grupo
Seja G um grupo. O conjunto dos elementos de G que têm a propriedade de comutarem com todos
os elementos de G é denominado o centro do grupo G e é freqüentemente denotado por38 Z(G). Em
sı́mbolos:
Z(G) := {h ∈ G| hg = gh para todo g ∈ G} .
Note que Z(G) nunca é um conjunto vazio, pois o elemento neutro de G sempre pertence e Z(G).
Em alguns grupos, porém, esse pode ser o único elemento de Z(G). Esse é o caso, por exemplo, do
grupo de permutações de n elementos (por que?).
E. 1.76 Exercı́cio. Mostre que Z(G) é sempre um subgrupo Abeliano de G. 6
É elementar constatar que para qualquer grupo G, seu centro Z(G) é um subgrupo normal de G.
É igualmente elementar constatar que se G é Abeliano então Z(G) = G.
• Centralizadores e normalizadores
Seja G um grupo e F um sub-conjunto não vazio de G.

Dado um elemento h ∈ G, denotamos por hF h−1 o conjunto de todos os elementos de G que sejam
da forma hf h−1 para algum f ∈ F , ou seja, hF h−1 := {hf h−1 , f ∈ F }.
O chamado normalizador de F (em G), denotado por N(F, G) (ou simplesmente por N(F ), quando
G é subentendido), é o conjunto de todos os elementos g ∈ G tais que gF g −1 = F .
O chamado centralizador de F (em G), denotado por C(F, G) (ou simplesmente por C(F ), quando
G é subentendido), é o conjunto de todos os elementos de G que comutam com todos os elementos de
F:
C(F, G) := {g ∈ G| gf = f g para todo f ∈ F } .
E. 1.77 Exercı́cio. Mostre que o centralizador de F ⊂ G é um sub-grupo de G. 6
E. 1.78 Exercı́cio. Se F ⊂ G, mostre que o normalizador N(F ) ≡ N(F, G) de F em G é um sub-grupo

de G. Mostre que se F é um subgrupo de G então F é normal em relação a N(F ) (ou seja, F N(F )) e
que se H é um subgrupo de G tal que F é normal em relação a H (ou seja, F H), então H ⊂ N(F ) e,
portanto, N(F ) é o maior subgrupo de G em relação ao qual F é normal. 6
• O centro de GL(C, n)
Como exercı́cio vamos determinar o centro de GL(C, n). Se A ∈ Z(GL(C, n)) então AB = BA
para toda B ∈ GL(C, n). Tomemos, em particular, uma matriz B da forma B = 1 + E a, b , onde E a, b ,
com a, b ∈ {1, . . . , n}, é a matriz cujo elemento ij é nulo a menos que i = a e que j = b, em cujo
38
O emprego da letra Z provavelmente provem da palavra alemã “Zentrum”.
caso (E a, b )ij = 1. Em sı́mbolos, (E a, b )ij = δia δjb . (Antes de prosseguir, convença-se que 1 + E a, b ∈
GL(C, n), notando que det(1 + E a, b ) 6= 0). Agora, como AB = BA, segue que AE a, b = E a, b A. Pela
regra de produto de matrizes, isso significa
n
X n
X
a, b a, b
(AE )ij = Aik (E )kj = Aik δka δjb = Aia δjb
k=1 k=1
q
n
X n
X
(E a, b A)ij = (E a, b )ik Akj = δia δkb Akj = Abj δia .
k=1 k=1
Assim, Aia δjb = Abj δia . Tomando-se j = b, concluı́mos Aia = Abb δia . Como a e b são arbitrários,
concluı́mos dessa igualdade que Abb = λ, constante independente de b. Daı́, Aia = λδia , o que significa
que A = λ1. Como det(A) 6= 0, devemos ter λ 6= 0.
Para futura referência expressamos nossas conclusões na forma de uma proposição:
Proposição 1.13 O centro do grupo GL(C, n), ou seja, Z(GL(C, n)), coincide com o conjunto de
todas as matrizes da forma λ1, com λ 6= 0, ou seja, é o conjunto das matrizes não-nulas que são
múltiplos da unidade. Em sı́mbolos,
Z(GL(C, n)) = {λ1, λ ∈ C, λ 6= 0} .
Como conseqüência podemos afirmar que se uma matriz A ∈ Mat (C, n) comuta com todas as demais
matrizes de Mat (C, n) então A = λ1 para algum λ ∈ C. 2
E. 1.79 Exercı́cio. Mostre que o centro de SL(C, n) é o conjunto de todas as matrizes da forma λ1,
com λ ∈ C satisfazendo λn = 1. Mostre que esse grupo é isomorfo ao grupo Zn . 6
E. 1.80 Exercı́cio. Mostre que o centro de SL(R, n) é o conjunto de todas as matrizes da forma λ1, com
λ ∈ R satisfazendo λn = 1. Esse grupo é {1} quando n é ı́mpar e {1, −1} quando n é par. (Lembre-se
que SL(R, n) é formado apenas por matrizes reais). 6
1.4 O Produto Direto e o Produto Semi-Direto de Grupos

Vamos aqui descrever dois procedimentos importantes que permitem construir um grupo a partir de
dois outros grupos dados.
Sejam G e H dois grupos, cujas identidades são eG e eH , respectivamente. É por vezes muito
importante fazer do produto Cartesiano G × H um grupo.
• O produto direto de grupos

A maneira mais fácil é definir o produto de dois pares ordenados (g1 , h1 ), (g2 , h2 ), com g1 , g2 ∈ G
e h1 , h2 ∈ H, por
(g1 , h1 ) · (g2 , h2 ) := (g1 g2 , h1 h2 ) .
O leitor pode facilmente se convencer que esse produto é associativo, que (eG , eH ) é o elemento neutro
e que (g, h)−1 = (g −1 , h−1 ).
Isso faz de G × H um grupo, denominado produto direto de G e H. Esse grupo é por vezes denotado
por G ⊗ H.
E. 1.81 Exercı́cio. Mostre que G ⊗ H e H ⊗ G são isomorfos. 6
A definição acima pode ser amplamente generalizada. Seja Gs ,Qs ∈ Λ, uma coleção de grupos
indexados por s ∈ Λ. ConsideremosSo produto Cartesiano G := s∈Λ Gs , definido como sendo a
Λ → s∈Λ Gs , com f (s) ∈ Gs . Então, podemos fazer de G um grupo
coleção de todasQas funções f :Q
definindo para f
s∈Λ 1 (s) , s∈Λ f2 (s) ∈ G o produto
! ! !
Y Y Y
f1 (s) · f2 (s) = f1 (s)f2 (s) .
s∈Λ s∈Λ s∈Λ
Como facilmente se vê, esse produto faz de G um grupo, denominado produto direto da coleção de
grupos Gs , s ∈ Λ.
• O Produto semi-direto de grupos
Dados dois grupos G e H há uma outra maneira de fazer de G × H um grupo além do produto
direto. Para tal é necessário que exista uma ação de G em H por automorfismos de H. Expliquemos
melhor isso.
Lembremos que um automorfismo α de um grupo H é um isomorfismo de H em si mesmo α : H →
H. Uma ação (à esquerda) de G sobre H por automorfismos é um função α : G × H → H tal que a
cada par (g, h) ∈ G × H associa um elemento denotado por αg (h) de H de tal forma que as seguintes
condições sejam satisfeitas:
1. Para todo g ∈ G, a função αg (·) : H → H é um automorfismo de H, ou seja, αg (h)αg (h′ ) =

αg (hh′ ), sendo que αg (·) : H → H é bijetora com (αg )−1 = αg−1 .
2. Para todo h ∈ H vale αeG (h) = h.
3. Para todo h ∈ H vale αg (αg′ (h)) = αgg′ (h) para quaisquer g, g ′ ∈ G.
Acima eG e eH são as unidades de G e H, respectivamente.
E. 1.82 Exercı́cio-exemplo. Um exemplo importante é o seguinte. Seja N G. Então, com n ∈ N,

αg (n) := gng −1 define uma ação (à esquerda) de G sobre N por automorfismos. Verifique! 6
Pela definição geral, tem-se pelas propriedades 1, 2 e 3 acima que para quaisquer g ∈ G e h ∈ H
αg (eH )h = αg (eH )αg (αg−1 (h)) = αg (eH αg−1 (h)) = αg (αg−1 (h)) = h ,
o que implica αg (eH ) = eH para todo g ∈ G.

Se G e H são grupos e α : G × H → H é uma ação à esquerda de G sobre H por automorfismos,
então podemos definir em G×H um produto de dois pares ordenados (g1 , h1 ), (g2 , h2 ), com g1 , g2 ∈ G
e h1 , h2 ∈ H, por
(g1 , h1 ) · (g2 , h2 ) := (g1 g2 , h1 αg1 (h2 )) .
E. 1.83 Exercı́cio importante. Mostre que esse produto é associativo, que (eG , eH ) é a unidade e que
para quaisquer g ∈ G, h ∈ H tem-se (g, h)−1 = (g −1 , αg−1 (h−1 )). 6
Com isso G × H adquire a estrutura de um grupo, denominado produto semi-direto de G por H

pelo automorfismo α : G × H → H, ou simplesmente produto semi-direto de G por H quando um
automorfismo α : G × H → H especı́fico é subentendido. Na literatura, o produto semi-direto de G
por H é denotado de várias formas: por G ×α H, por G ⊗α H, por Gsα H, ou por por GsH quando
um automorfismo α : G × H → H especı́fico é subentendido. Nestas notas adotaremos as duas últimas
formas.
• Exemplos
I. Seja G um grupo e N G. Então, para g1 , g2 ∈ G e n1 , n2 ∈ N o produto
(g1 , n1 ) · (g2 , n2 ) := (g1 g2 , n1 g1 n2 g1−1)
define o grupo GsN, produto semi-direto de um grupo G por um sub-grupo normal N através do
automorfismo natural.
II. Considere o grupo G, formado por todos os números reais não-nulos com o produto dado pela
multiplicação usual e o grupo H, formado por todos os reais com o produto dado pela soma: G =
(R \ {0}, ·) e H = (R, +).
Para todo a ∈ R \ {0} e x ∈ R definimos α : G × H → H por αa (x) := ax. Para cada a ∈ G, tem-se
que αa é bijetora, com inversa dada por α1/a . Fora isso, αa (x) + αa (y) = ax+ ay = a(x+ y) = αa (x+ y).
Assim, αa é um automorfismo (condição 1. da definição acima). Fora isso, para todo x ∈ H, α1 (x) = x
(condição 2.). Por fim, para todo x ∈ H, αa (αb (x)) = abx = αab (x), para quaisquer a, b ∈ G (condição
3.). Concluı́mos que α é uma ação à esquerda de G sobre H por automorfismos.
Assim, fazemos de G × H um grupo Gsα H com o produto
(a, x) · (b, y) := (ab, x + ay) .
O elemento neutro é o par (1, 0) e (a, x)−1 = (1/a, −x/a).

Para interpretar o que esse grupo Gsα H significa, vamos definir uma ação39 Γ de Gsα H sobre o
conjunto R da seguinte forma. Para (a, x) ∈ Gsα H e z ∈ R, definimos
Γ((a, x), z) := az + x .
Para verificar que isso é uma ação notemos as seguintes propriedades: i. para cada (a, x) fixo
Γ((a, x), z) é uma função bijetora de R em R (lembre-se que a 6= 0). ii. Para todo z ∈ R,
39
O conceito de ação de um grupo em um conjunto foi definido à página 68.
Γ((1, 0), z) = z.
iii. Γ((a, x), Γ((b, y), z)) = Γ((a, x), bz + y) = a(bz + y) + x = abz + (x + ay)
= Γ((ab, x + ay), z) = Γ((a, x) · (b, y), z) .
Isso mostrou que Γ é uma ação de Gsα H sobre o conjunto R. Como vemos, a ação de um elemento
(a, x) consiste em uma combinação de uma multiplicação por a 6= 0 seguida por uma translação por
x ∈ R. Isso exibe o significado geométrico do grupo Gsα H. Vamos a um outro exemplo semelhante.
III. Considere o conjunto de todas as operações do espaço tridimensional que envolvem rotações e
translações. Por exemplo, considere-se a operação na qual cada vetor ~x é primeiramente rodado por
uma matriz de rotação R ∈ SO(3) e em seguida é transladado por um vetor ~x0 :
~x 7→ R~x + ~x0 . (1.26)
A composição de duas de tais operações conduz à transformação ~x 7→ R′ (R~x + ~x0 ) + ~x′0 , ou seja,
~x 7→ (R′ R)~x + ~x′0 + R′~x0 . (1.27)
O espaço vetorial R3 é naturalmente um grupo Abeliano em relação à adição de vetores. Se R ∈

SO(3), αR (~x0 ) := R~x0 define uma ação por automorfismos de SO(3) sobre R3 . A expressão (1.27)
inspira a definição do produto semi-direto SO(3)sα R3 por
(R′ , ~x′0 ) · (R, ~x0 ) = (R′ R, ~x′0 + R′~x0 ) .
E. 1.84 Exercı́cio. Verifique que a transformação (1.26) define uma ação à esquerda do grupo SO(3)sα R3
sobre o conjunto R3 . 6
Definição. Os grupos En := SO(n)sα Rn são denominados grupos Euclidianos4041 .

IV. Seja V um espaço vetorial (e, como tal, um grupo Abeliano em relação à soma de vetores) e seja
Aut(V ) a coleção de todas as aplicações lineares bijetoras de V em V .
Por exemplo V = Rn e Aut(Rn ) é o conjunto de todas as matrizes reais n × n invertı́veis.
Então, fazemos de Aut(V ) × V um grupo, definindo
(A, v) · (B, u) := (AB, v + Au) .
Esse grupo é por vezes denominado grupo afim do espaço vetorial V .

Observação. O caso V = R corresponde exatamente ao exemplo II, acima.
Mencionamos, por fim, que o grupo de Poincaré, introduzido à página 829, é também um exemplo
de um grupo definido como um produto semi-direto de dois grupos, a saber, o produto semi-direto do
grupo das transformações de Lorentz com grupo das translações no espaço-tempo.
40
41
Para alguns autores, os grupos Euclidianos são os grupos O(n)sα Rn .
1.5 Somas Diretas e Produtos Tensoriais
1.5.1 Discussão Informal Preliminar

Nesta seção apresentaremos duas maneiras distintas de construir grupos Abelianos a partir de dois
grupos Abelianos dados, que são o chamado produto tensorial de dois grupos e a chamada soma direta
de dois grupos. As construções precisas (especialmente a do produto tensorial) são um tanto elaboradas,
mas as idéias por trás delas são simples, de modo que tentaremos primeiramente apresentá-las de modo
elementar para depois (a partir da Seção 1.5.2) nos dedicarmos à sua definição precisa.
Essas construções prestam-se também a definir o produto tensorial e a soma direta de espaços
vetoriais (sobre um mesmo corpo), o que também discutiremos.
Na Seção 1.5.5 serão apresentadas mais generalizações envolvendo (uma coleção arbitrária) de grupos
não necessariamente Abelianos.
Um comentário pertinente (destinado aos estudantes mais avançados) é que as construções de
produto tensorial e soma direta de espaços vetoriais que apresentaremos adiante correspondem às noções
de produto tensorial e soma direta algébricos. Isso significa que outras estruturas, como uma topologia,
ou propriedades, como completeza, não são necessariamente herdadas pela construção. Assim, por
exemplo, o produto tensorial algébrico de dois espaços de Banach não é necessariamente um espaço de
Banach. Para tal é necessário introduzir um completamento extra, que pode não ser único.
• A noção de soma direta de dois grupos
Sejam A e B dois grupos Abelianos, com identidades eA e eB (e cujas operações de produto de-
notaremos ambas pelo mesmo sı́mbolo “+”). Desejamos encontrar uma maneira de fazer do produto
Cartesiano A × B um grupo também. Uma maneira de fazer isso é definir a “soma” de dois pares
ordenados (a, b), (a′ , b′ ) ∈ A × B por
(a, b) + (a′ , b′ ) := (a + a′ , b + b′ ) . (1.28)
O leitor pode facilmente constatar que essa operação é uma operação binária de A × B em si mesmo,
que ela é associativa, que tem por elemento neutro o par (eA , eB ) e que para cada (a, b) ∈ A × B
a inversa é (a, b)−1 = (−a, −b), onde −a é o elemento inverso de a em A, e analogamente para −b.
Portanto, com esse produto, A × B é um grupo.
Com essa estrutura, facilmente se verifica que A × B torna-se um grupo Abeliano, denominado
soma direta de A e B ou produto direto de A e B 42 e denotado pelo sı́mbolo A ⊕ B. Com essa estrutura
de grupo em mente, os pares ordenados (a, b) são freqüentemente denotados pelo sı́mbolo a ⊕ b.
• A noção de soma direta de dois espaços vetoriais
Sejam U e V dois espaços vetoriais em relação a um mesmo corpo que, sem perda de generalidade,
consideraremos doravante como sendo o corpo dos complexos. U e V são dois grupos Abelianos em
relação às respectivas operações de soma de vetores. Assim, pela construção acima, podemos definir o
42
A distinção entre produto direto e soma direta só se faz quando uma coleção não-finita de grupos é envolvida. Vide
Seção 1.5.5.
grupo U ⊕ V . Esse objeto ainda não tem uma estrutura de espaço vetorial (sobre os complexos), pois
não dissemos como definir o produto de um elemento de U ⊕ V por um escalar α ∈ C. Isso é feito da
seguinte forma, para u ∈ U, v ∈ V , define-se α(u ⊕ v) por
α(u ⊕ v) := (αu) ⊕ (αv) . (1.29)
E. 1.85 Exercı́cio. Constate que, com essa definição, U ⊕V torna-se um espaço vetorial, ou seja, verifique
que são válidos os postulados da definição formal de espaço vetorial dados à página 58. 6
Esse espaço vetorial que denotaremos por U ⊕C V , é denominado soma direta dos espaços U e V
ou produto direto43 de U e V .
• A noção de produto tensorial de dois grupos
A definição de produto tensorial de dois grupos Abelianos A e B, que denotaremos por A ⊗ B,

é distinta da de soma direta. A idéia básica, porém, é a mesma, ou seja, tentar fazer do produto
Cartesiano A × B um grupo, mas a regra de produto é muito diferente daquela dada em (1.28). Em
primeiro lugar, os elementos de A ⊗ B são somas formais finitas de pares ordenados de A × B como
(a, b) + (a′ , b′ ) ,
mas não impomos a relação (1.28). O que realmente entendemos por “soma formal” será explicado
adiante, quando definirmos o conceito de grupo Abeliano livremente gerado por um conjunto, uma
noção muito simples. Por ora fiquemos apenas com a noção intuitiva. Para dar a A ⊗ B uma estrutura
de grupo, desejamos impor algumas condições às somas formais acima. Primeiramente impomos que
(a, b) + (a′ , b′ ) = (a′ , b′ ) + (a, b) ,
para todos a, a′ ∈ A, b, b′ ∈ B. Em segundo lugar, impomos que
(a + a′ , b) = (a, b) + (a′ , b)
e que
(a, b + b′ ) = (a, b) + (a, b′ )
para todos a, a′ ∈ A, b, b′ ∈ B. O estudante deve notar que essas imposições são mais limitadas que
aquelas de (1.28). Note também que as imposições acima são inspiradas na bem-conhecida propriedade
de transitividade de produtos e somas de números reais ou complexos: (x+x′ )y = xy +x′ y e x(y +y ′) =
xy + xy ′ .
E. 1.86 Exercı́cio. Mostre que com as regras de soma dadas acima todos os pares (eA , b) e (a, eB )
são identificados entre si e com o elemento neutro da operação de soma de pares ordenados. Fora isso, o
elemento inverso de um par (a, b) é (−a, b) = (a, −b). Mostre que, com isso, A ⊗ B é um grupo Abeliano,
denominado Produto Tensorial dos Grupos Abelianos A e B. 6
43
A distinção entre produto direto e soma direta só se faz quando uma coleção não-finita de espaços vetoriais é
envolvida. Vide Seção 1.5.5.
Com essa estrutura de grupo em mente, os pares ordenados (a, b) são freqüentemente denotados
pelo sı́mbolo a ⊗ b.
• A noção de produto tensorial de dois espaços vetoriais
Sejam U e V dois espaços vetoriais em relação a um mesmo corpo que, sem perda de generalidade,
consideraremos doravante como sendo o corpo dos complexos. U e V são dois grupos Abelianos em
relação às respectivas operações de soma de vetores. Assim, pela construção acima, podemos definir o
grupo U ⊗ V . Esse objeto ainda não tem uma estrutura de espaço vetorial (sobre os complexos), pois
não dissemos como definir o produto de um elemento de U ⊗ V por um escalar α ∈ C. Isso é feito da
seguinte forma, para u ∈ U, v ∈ V , define-se α(u ⊗ v) impondo
α(u ⊗ v) := (αu) ⊗ (v) = (u) ⊗ (αv) . (1.30)
O estudante deve comparar essa regra de produto por escalares com a regra 1.29.
Para elementos de U ⊗ V que sejam somas finitas, como por exemplo u ⊗ v + u′ ⊗ v ′ , impomos
α (u ⊗ v + u′ ⊗ v ′ ) := α (u ⊗ v) + α (u′ ⊗ v ′ )
= (αu) ⊗ v + (αu′ ) ⊗ v ′ = u ⊗ (αv) + u′ ⊗ (αv ′ ) .
E. 1.87 Exercı́cio. Constate que, com essa definição, U ⊗V torna-se um espaço vetorial, ou seja, verifique
que são válidos os postulados da definição formal de espaço vetorial dados à página 58. 6
Esse espaço vetorial que denotaremos por U ⊗C V , é denominado produto tensorial dos espaços U
e V.
Vamos agora tentar formalizar as noções que apresentamos acima, apresentando suas definições
matemáticas precisas. O leitor que acredita ter entendido o que apresentamos acima pode dispensar-se
de ler o restante da presente seção.
1.5.2 Grupos Gerados por Conjuntos. Grupos Gerados por Relações
• Suporte de uma função
Seja f : X → G uma função de um conjunto não-vazio X em um grupo G. O suporte de f , denotado

por supp (f ), é o conjunto de todos os pontos x ∈ X tais que f (x) 6= e, onde e é a unidade de G:
supp (f ) := {x ∈ X| f (x) 6= e}. Uma função f : X → G é dita ser de suporte finito se seu suporte for
um conjunto finito.
• Grupo Abeliano livremente gerado por um conjunto

Uma noção importante que usaremos adiante é a de grupo Abeliano livremente gerado por um
conjunto X. Seja X um conjunto. Seja F (X) a coleção de todas as funções de suporte finito de X
em Z. É fácil ver que F (X) tem naturalmente uma estrutura de grupo Abeliano, definindo, para f ,
f ′ ∈ F (X) o produto de f e f ′ como sendo o elemento f f ′ = (f + f ′ ) de F (X) dado por
(f + f ′ )(x) = f (x) + f ′ (x) . (1.31)
para todo x ∈ X. É claro que esse (f + f ′ ) tem suporte finito. O elemento neutro e de F (X) é
claramente a função identicamente nula. Pelo fato de F (X) ter essa estrutura natural de grupo F (X)
é denominado grupo Abeliano livremente gerado pelo conjunto X.
Para x ∈ X vamos denotar por δx a função caracterı́stica de x:

1, se y = x
δx (y) := . (1.32)
0, se y 6= x
Claramente δx ∈ F (X). Dado que cada f ∈ F (X) tem suporte finito, pode-se escrevê-lo da forma
N
X
f = an δxn , (1.33)
n=1
para valores de N e dos an ’s dependentes de f , com {x1 , . . . , xN } = supp f e com ai ∈ Z para

i = 1, . . . , N.
Com um flagrante abuso de linguagem é costume escrever (1.33) da forma
N
X
f = an xn , (1.34)
n=1
onde fica, por assim dizer, subentendido que aqui os xn ’s representam não os elementos de X mas sim
suas funções caracterı́sticas (X pode ser um conjunto qualquer, de modo que operações como soma de
elementos de X ou multiplicação de elementos de X por um inteiro podem não serem sequer definidas).
É fácil verificar que F (X) é um grupo Abeliano livre (daı́ seu nome), o que quer dizer que não há em
F (X) nenhuma relação não trivial entre seus elementos, a não ser aquela que lhe confere Abelianidade:
f f ′ f −1 f ′ −1 = e.
• Relações e grupos gerados módulo relações
Vamos passar agora a uma construção muito importante, a de grupo Abeliano livremente gerado
por um conjunto módulo relações. Vamos apresentar essa construção de forma bem geral.
Seja J um conjunto (em princı́pio arbitrário) de ı́ndices e sejam então, para cada j ∈ J, elementos
de F (X) dados por
n(j)
X
rj = αj, i xj, i , (1.35)
i=1
onde, para cada j ∈ J, n(j) ∈ N e, para todo j ∈ J e i ∈ {1, . . . , n(j)}, tem-se αj, i ∈ Z e xj, i ∈ X com
xj, i 6= xj, i′ se i 6= i′ . Denotamos R := {rj , j ∈ J}. Os elementos de R serão chamados “relações”.
Seja então R o subgrupo de F (X) formado por todos os elementos de F (X) que são combinações
lineares finitas de rj ’s com coeficientes em Z:
s ∈ R ⇐⇒ s = s1 rj1 + · · · + sm rjm , (1.36)

para certos si ∈ Z e m ∈ N, que dependem de s. R é dito ser o subgrupo de F (X) gerado pelos rj ’s.
Por ser um subgrupo de um grupo Abeliano, R é normal. Assim, podemos definir o grupo Abeliano
livremente gerado por X, módulo as relações R como sendo o grupo F (X)/R. Note-se que [R]R = e,
o que equivale a dizer que os elementos de R são identificados como zero (daı́ serem chamados de
“relações”, pois refletem identidades que não existiam em F (X) e que estão sendo agora impostas em
F (X)/R).
Vamos ilustrar as definições e construções acima apresentando as definições de soma direta e produto
tensorial de dois grupos Abelianos e, em seguida, de dois espaços vetoriais. As definições de acima são
particularmente relevantes para o conceito de produto tensorial.
1.5.3 Somas Diretas
• A soma direta de dois grupos Abelianos
Sejam A e B dois grupos Abelianos cujo produto de grupo denotaremos aditivamente: com o
sı́mbolo +. Seja X = A × B. Seja em F (X) = F (A × B) o conjunto R de relações dado por
R := {r ∈ F (X)| r = (a + a′ , b + b′ ) − (a, b) − (a′ , b′ ), com a, a′ ∈ A e b, b′ ∈ B} . (1.37)
Seja R = R(A × B) o subgrupo de F (A × B) gerado por R. Chegamos assim à definição do grupo
Abeliano A ⊕ B, a soma direta de A e B, que é definido como A ⊕ B := F (A × B)/R(A × B).
Notação. Para a ∈ A e b ∈ B denotaremos por a ⊕ b o elemento de A ⊕ B que corresponde (na notação

discutida acima) à função δ(a, b) .
• A soma direta de dois espaços vetoriais
Sejam U e V dois espaços vetoriais (sobre C). Como U e V são dois grupos Abelianos, o grupo
Abeliano U ⊕ V está definido pelo procedimento acima. Isso, entretanto, ainda não faz de U ⊕ V um
espaço vetorial.
Para isso é preciso definir o produto de um escalar por um elemento de U ⊕ V . Definimos então o
produto de um escalar α ∈ C por um elemento u ⊕ v ∈ U ⊗ V como sendo o elemento (αu) ⊕ (αv), ou
seja,
α(u ⊕ v) := (αu) ⊕ (αv) .
É fácil constatar que, com essa definição, U ⊕C V torna-se um espaço vetorial (vide a definição formal
de espaço vetorial à página 58), que denotaremos por U ⊕C V . O assim definido espaço vetorial U ⊕C V
é denominado a soma direta dos espaços vetoriais U e V sobre o corpo C.
1.5.4 Produtos Tensoriais

A definição de produtos tensoriais é mais delicada e faz uso mais forte do conceito de grupo livremente
gerado por um conjunto.
• O produto tensorial de dois grupos Abelianos
Sejam A e B dois grupos Abelianos cujo produto de grupo denotaremos aditivamente: com o
sı́mbolo +. Seja X = A × B. Seja em F (X) = F (A × B) o conjunto R de relações dado por
R := {r ∈ F (X)| r = (a + a′ , b) − (a, b) − (a′ , b)
ou r = (a, b + b′ ) − (a, b) − (a, b′ ), com a, a′ ∈ A e b, b′ ∈ B} . (1.38)
Seja R = R(A × B) o subgrupo de F (A × B) gerado por R. Chegamos assim à definição do grupo

Abeliano A ⊗ B, o produto tensorial de A e B, que é definido como A ⊗ B := F (A × B)/R(A × B).
Notação. Para a ∈ A e b ∈ B denotaremos por a ⊗ b o elemento de A ⊗ B que corresponde (na notação

discutida acima) à função δ(a, b) .
• O produto tensorial de dois espaços vetoriais
Sejam U e V dois espaços vetoriais (sobre C). Como U e V são dois grupos Abelianos, o grupo
Abeliano U ⊗ V está definido pelo procedimento da última sub-seção. Isso, entretanto, ainda não faz
de U ⊗ V um espaço vetorial. Para isso tomemos X = U ⊗ V e consideremos o sub-espaço de F (X)
definido por
R := {r ∈ F (U ⊗ V )| r = (αu) ⊗ v − u ⊗ (αv), com α ∈ C, u ∈ U, v ∈ V } . (1.39)
Como antes, seja R = R(U ⊗ V ) o subgrupo gerado por R. Definimos agora um novo grupo Abeliano
U ⊗C V como U ⊗C V := F (U ⊗ V )/R(U ⊗ V ).
U ⊗C V é por ora apenas mais um grupo Abeliano, mas podemos adicionar-lhe uma estrutura de
espaço vetorial da seguinte forma.
Primeiramente é preciso definir o produto de um escalar por um elemento de U ⊗C V . Para elementos
da forma u ⊗C v com u ∈ U e v ∈ V , definimos então o produto α(u ⊗C v), para α ∈ C por
α(u ⊗C v) := (αu) ⊗C v = u ⊗C (αv) .
A última igualdade segue da definição de U ⊗C V .

Os demais elementos de U ⊗C V são da forma de combinações lineares finitas com coeficientes
inteiros de elementos como u ⊗C v, ou seja, são da forma
n
X
ck (uk ⊗C vk )
k=1
para algum n > 0 e ck ∈ Z. Para os mesmos definimos

n
! n
X X
α ck (uk ⊗C vk ) := ck α (uk ⊗C vk )
k=1 k=1
n
X n
X
= ck (αuk ) ⊗C vk = ck uk ⊗C (αvk ) .
k=1 k=1
É fácil constatar que, com essa definição, U ⊗C V torna-se um espaço vetorial (vide a definição
formal de espaço vetorial à página 58), que também denotaremos por U ⊗C V . O assim definido espaço
vetorial U ⊗C V é denominado produto tensorial dos espaços vetoriais U e V sobre o corpo C.
• O produto tensorial de dois módulos sobre uma álgebra associativa
Vamos aqui a uma definição que nos será importante. Sejam M e N dois bimódulos sobre uma
álgebra associativa A, ambos supostos serem espaços vetoriais sobre o corpo dos complexos. Conforme a
sub-seção anterior podemos definir o espaço vetorial M ⊗C N. Entretanto, em muitos casos é necessário
definir um outro tipo de produto tensorial entre M e N.
Para tal seja X = M ⊗C N e definamos em F (X) o conjunto de relações
R := {r ∈ F (X)| r = (ma) ⊗C n − m ⊗C (an), com a ∈ A, m ∈ M, n ∈ N} . (1.40)
Definamos então R = R(M ⊗C N) como o subgrupo gerado por R e o produto tensorial
M ⊗A N := F (M ⊗C N)/R(M ⊗C N) . (1.41)
Podemos fazer de M ⊗A N um módulo, digamos à direita, sobre A tomando o produto
a · (m ⊗A n) := (ma) ⊗A n = m ⊗A (an) . (1.42)
Faremos uso freqüente desse produto tensorial adiante. O mais importante para nós será a identi-
dade (ma) ⊗A n = m ⊗A (an) válida em todo M ⊗A N para todo a ∈ A.
1.5.5 Produtos Diretos e Somas Diretas Arbitrários

Aqui apresentaremos as definições de produtos diretos e somas diretas de coleções arbitrárias de grupos
(não necessariamente Abelianos) e de espaços vetoriais.
• Produto direto e soma direta de coleções arbitrárias de grupos
Seja J um conjunto arbitrário de ı́ndices e G := {Gi , i ∈ J} uma coleção de grupos. Seja

o produto Cartesiano G := ×i∈J Gi . Podemos fazer de G um grupo definindo o produto de dois
elementos G ∋ g = ×a∈J ga , G ∋ h = ×b∈J hb como g · h = ×a∈J (ga ha ). Com essa estrutura G é dito
Y
ser o produto direto dos grupos Gi , i ∈ J e será denotado por Gp = Gi .
i∈J
Gp possui um subgrupo importante, aquele formado por elementos ×a∈J ga ∈ Gp onde apenas um
número finito de ga ’s é distinto da identidade ea doM
respectivo grupo Ga . Esse subgrupo é dito ser a
soma direta dos Gi ’s , i ∈ J e é denotado por Gs = Gi .
i∈J
• Soma direta de coleções arbitrárias de espaços vetoriais
Se {Vi , i ∈ J} é uma coleção de espaços vetoriais que, em particular,

L são grupos Abelianos, cai
definida, pelo apresentado na sub-seção anterior, a soma direta Vs := i∈J Vi , definida primeiramente
como grupo Abeliano. Vs pode ser feito um espaço vetorial definindo-se, para um escalar genérico α ∈ C,
α · (×a∈J va ) := ×a∈J (αva ), (1.43)
para todo ×a∈J va ∈ Vs .

Um caso especial que irá nos interessar é o seguinte: seja M um bimódulo sobre uma álgebra
associativa A e tomemos J = N e Vn = M ⊗A n ≡ M ⊗A · · · ⊗A M . O exposto acima permite definir a
| {z }
M n vezes
soma direta M ⊗A n .
n∈N
1.5.6 Módulos e Derivações

Seja A uma álgebra sobre C com identidade e e seja M um bimódulo sobre A. Uma aplicação linear
δ : A → M é dita ser uma derivação de A em M se satisfaz a regra de Leibniz44 :
δ(ab) = aδ(b) + δ(a)b , (1.44)
para todos a, b ∈ A.
Vamos a alguns exemplos.
Exemplo 1. Seja A uma álgebra sobre C com unidade e e M = A ⊗C A com os seguintes produtos
de bimódulo:
a · (b ⊗ c) := (ab) ⊗ c, (1.45)
(b ⊗ c) · a := b ⊗ (ca) . (1.46)
Deixa-se ao leitor verificar a associatividade dos produtos de bimódulo nesse caso. Defina-se
δ(a) := a ⊗ e − e ⊗ a . (1.47)
Deixa-se ao leitor verificar a validade da regra de Leibniz nesse exemplo. Note-se também que, por
essa definição, δ(e) = 0.
44
Exemplo 2. Seja A uma álgebra sobre C com unidade e e M = A ⊗C A com os seguintes produtos
de bimódulo:
a · (b ⊗ c) := (ab) ⊗ c , (1.48)
(b ⊗ c) · a := b ⊗ (ca) − (bc) ⊗ a . (1.49)
Deixa-se ao leitor verificar a associatividade dos produtos de bimódulo nesse caso. Defina-se
δ(a) := e ⊗ a . (1.50)
Deixa-se ao leitor verificar a validade da regra de Leibniz nesse exemplo. Note-se também que, por
essa definição, δ(e) = e ⊗ e 6= 0.
Exemplo 3. Exemplo importante de derivações pode ser visto em álgebras de Lie. Seja A uma
álgebra de Lie vista como um bimódulo sobre si mesma. Seja z um elemento fixo da álgebra e seja a
aplicação dz : A → A dada por dz (a) = [z, a]. É fácil verificar (faça!) usando a identidade de Jacobi
(1.22) que
dz ([a, b]) = [dz (a), b] + [a, dz (b)]
para todo a, b ∈ A. Assim, tem-se que a cada z ∈ A é associada uma derivação dz .
1.6 Tópicos especiais

Esta seção é formada por alguns assuntos independentes que, embora relevantes, não se enquadram na
exposição introdutória que pretendı́amos ter nas seções anteriores.
1.6.1 O Grupo de Grothendieck

Vamos aqui descrever uma construção que permite obter um grupo Abeliano a partir de um semi-grupo
Abeliano dado. Um grupo construı́do por esse procedimento é chamado de grupo de Grothendieck45
associado ao semi-grupo Abeliano em questão. Grupos de Grothendieck desempenham um papel im-
portante em várias áreas da Matemática, como por exemplo na chamada K-teoria.
Seja um semi-grupo Abeliano S (não necessariamente dotado de um elemento neutro) cujo produto
denotamos pelo sı́mbolo +.
Consideremos em primeiro lugar o produto Cartesiano S × S e vamos introduzir lá uma relação de
equivalência da seguinte forma: dois pares (a, b) e (a′ , b′ ) ∈ S × S são equivalentes, (a, b) ∼ (a′ , b′ ),
se existir pelo menos um elemento p ∈ S tal que
a + b′ + p = a′ + b + p . (1.51)
Vamos mostrar que isso define de fato uma relação de equivalência. Em primeiro lugar é claro que
(a, b) ∼ (a, b) para qualquer par (a, b) ∈ S 2 = S × S, dado que aqui, para verificar (1.51), basta tomar
45
Alexander Grothendieck (1928-).
qualquer elemento p ∈ S. Em segundo lugar é evidente que se (a, b) ∼ (a′ , b′ ) então (a′ , b′ ) ∼ (a, b).
Finalmente, vamos mostrar que se (a, b) ∼ (c, d) e (c, d) ∼ (e, f ) então (a, b) ∼ (e, f ). Por hipótese
existem p e p′ ∈ S tais que
a+d+p = b+c+p e c + f + p ′ = d + e + p′ .
Daqui extraı́mos que
(a + d + p) + (c + f + p′ ) = (b + c + p) + (d + e + p′ ) ,
ou seja, que
a + f + p′′ = b + e + p′′ ,
onde p′′ = d + c + p + p′ . Essa relação diz precisamente que (a, b) ∼ (e, f ), completando a prova de
que temos assim uma relação de equivalência em S 2 .
Vamos considerar agora o conjunto K(S) := S 2 / ∼ de todas as classes de equivalência definidas
acima. Como é usual, denotaremos por [(a, b)] a classe à qual pertence o par (a, b) ∈ S 2 . Vamos
construir em K(S) uma estrutura de grupo Abeliano, cujo produto também denotaremos por +. Dadas
duas classes [(a, b)] e [(c, d)] definimos
[(a, b)] + [(c, d)] := [(a + c, b + d)] .
Note-se que por essa definição tem-se (verifique!)
[(a, b)] + [(c, d)] = [(c, d)] + [(a, b)]
para todo a, b, c, d ∈ S, pelo fato de a operação de soma ser Abeliana em S.
A primeira coisa a fazer é mostrar que essa definição independe dos elementos tomados nas classes.
Para isto basta provar que se (a′ , b′ ) ∼ (a, b) então (a + c, b + d) ∼ (a′ + c, b′ + d). Se (a′ , b′ ) ∼ (a, b)
então existe p ∈ S tal que
a + b′ + p = a′ + b + p .
Somando-se c + d a ambos os lados tiramos
(a + c) + (b′ + d) + p = (a′ + c) + (b + d) + p
que é precisamente a afirmativa que (a + c, b + d) ∼ (a′ + c, b′ + d).
É igualmente fácil verificar que para quaisquer x, y ∈ S tem-se que (x, x) ∼ (y, y) e que, portanto,
[(x, x)] = [(y, y)]. Vamos provar que há em K(S) um elemento neutro. Este é precisamente a classe
e := [(x, x)] com x ∈ S arbitrário. Note-se que, para qualquer par (a, b) ∈ S 2 teremos
[(a, b)] + [(x, x)] = [(a + x, b + x)] = [(a, b)] ,
pois (a + x + b) + p = (b + x + a) + p para qualquer p ∈ S.
Falta-nos provar a associatividade do produto e a existência de uma inversa para cada elemento de
K(S). Para a associatividade, notemos que

[(a, b)] + [(c, d)] + [(e, f )] := [(a, b)] + [(c + e, d + f )] = [(a + c + e, b + d + f )] ,

[(a, b)] + [(c, d)] + [(e, f )] := [(a + c, b + d)] + [(e, f )] = [(a + c + e, b + d + f )] .
Para provar a existência de inversa notemos que para cada par (a, b) ∈ S 2 podemos tomar [(a, b)]−1 :=
[(b, a)] pois
[(a, b)] + [(a, b)]−1 = [(a, b)] + [(b, a)] = [(a + b, a + b)] = e .
Isso mostrou que K(S) tem uma estrutura de grupo Abeliano. Este é o chamado grupo de Grothen-
dieck associado ao semi-grupo Abeliano S.
Como de costume, denotaremos [(a, b)]−1 por −[(a, b)]. Assim, −[(a, b)] = [(b, a)].
E. 1.88 Exercı́cio. Seja o monóide Abeliano N dos números naturais contendo o 0 com a soma usual.
Mostre que K(N) ≃ Z. 6
O exercı́cio acima indica a possibilidade de se definir os números inteiros a partir dos naturais.
Os inteiros seriam, por definição, o grupo de Grothendieck do monóide Abeliano dos naturais com a
operação de soma usual.
E. 1.89 Exercı́cio. Seja o monóide Abeliano N1 dos números naturais maiores ou iguais a 1 com o produto
dado pela multiplicação usual. Mostre que K(N1 ) ≃ Q+ , o grupo dos racionais positivos (sem o zero) com
o produto dado pela multiplicação usual. 6
O exercı́cio acima indica a possibilidade de se definir os números racionais positivos a partir dos
naturais. Os racionais seriam, por definição, o grupo de Grothendieck do monóide Abeliano dos naturais
com a operação de produto usual.
Para cada elemento a de um monóide Abeliano M podemos associar um elemento de K(M) por
M ∋ a 7→ [a] := [(a, 0)] ∈ K(M). É fácil ver que todo elemento [(a, b)] de K(M) pode ser escrito da
forma [(a, b)] = [a]−[b] e que [a]−[b] = [a′ ]−[b′ ] se e somente se existir p ∈ M com a+b′ +p = a′ +b+p.
E. 1.90 Exercı́cio. Aplique a construção de Grothendieck para o semi-grupo R+ , definido à página 54.
Mostre que o grupo assim obtido possui apenas um elemento. 6
1.6.2 Grupóides
Um grupóide é definido da seguinte forma. É dado um conjunto C e um subconjunto C0 ⊂ C, o qual
é a imagem de duas funções unárias p e c (chamadas de “partida” e “chegada”), ou seja, p : C → C0 ,
c : C → C0 . Os elementos de C0 são pontos fixos de p e de c, ou seja,
c(α) = α e p(α) = α
para todo α ∈ C0 (aqui denotaremos os elementos de C por letras gregas).

Define-se em C × C um subconjunto (ou seja, uma relação em C), que denotaremos por RC , da
seguinte forma:
RC := {(α, β) ∈ C 2 | p(α) = c(β)} .
É também dada uma função binária RC → C, que denotaremos por “·” e que denominaremos
“produto”, a qual satisfaz as seguintes hipóteses:
1. Associatividade: α · (β · γ) = (α · β) · γ sempre que os produtos estejam definidos, ou seja, se

(β, γ), (α, β · γ), (α, β) e (α · β, γ) forem todos elementos de RC
2. Para todo (α, β) ∈ RC temos p(α · β) = p(β).
3. Para todo (α, β) ∈ RC temos c(α · β) = c(α).
4. Para todo α ∈ C temos α · p(α) = α.
5. Para todo α ∈ C temos c(α) · α = α.
Fora isso, existe para cada α ∈ C uma assim chamada inversa bilateral α−1 ∈ C a qual satisfaz
α · α−1 = c(α) e α−1 · α = p(α). Note que, por essa definição, tem-se que, para todo α0 ∈ C0 ,
α0 · α0−1 = α0−1 · α0 = α0 .
Estes ingredientes definem um grupóide. Note-se que um grupóide não necessariamente contém um
“elemento neutro” (vide exemplos).
Exemplo. Caminhos. Este exemplo é um protótipo da definição de grupóide acima, ou seja, aquela
possivelmente foi criada tendo o mesmo como exemplo-guia.
Seja I o intervalo fechado [0, 1] e vamos considerar o conjunto C de todas as funções contı́nuas de
I em um espaço topológico Hausdorff qualquer (por exemplo R2 ). Um elemento γ de C é uma curva
orientada contı́nua em R2 que tem um ponto de partida γ(0) e um ponto de chegada γ(1).
Podemos introduzir uma relação de equivalência em C da seguinte forma: duas curvas α e β ∈ C
são equivalentes (α ∼ β) se existir uma bijeção contı́nua b : I → I com b(0) = 0, b(1) = 1, tal que
α = β ◦ b. Vamos denominar por C as classes de equivalência de C pela relação de equivalência acima:
C := C/ ∼.
O conjunto C0 é o subconjunto de C formado pelas classes de equivalência de curvas constantes:
[α] ∈ C0 ⇐⇒ α(t) = α(t′ ), ∀t, t′ ∈ I.
Definimos as funções unárias p e c da seguinte forma: p([γ]) é a classe de equivalência da curva
constante que a todo t ∈ I associa o ponto γ(0) de R2 , o ponto de partida de γ; c([γ]) é a classe de
equivalência da curva constante que a todo t ∈ I associa o ponto γ(1) de R2 , o ponto de chegada de γ.
Dados dois elementos em C queremos agora definir o seu produto. A idéia a ser seguida é que o
produto de duas curvas é definido apenas quando o ponto de chegada da primeira coincide com o ponto
de partida da segunda e resulta em uma curva única unindo o ponto de partida da primeira com o
ponto de chegada da última. Matematicamente isso é feito definindo-se o produto [β] · [α] como sendo
a classe de equivalência da curva β ∗ α definida pela composição

α(2t), para 0 ≤ t ≤ 1/2
β ∗ α(t) := .
β(2t − 1), para 1/2 < t ≤ 1
Claramente β ∗ α só é um elemento de C (ou seja, uma curva contı́nua) se α(1) = β(0).
Por fim a inversa bilateral de [α] é definida como sendo a classe [α−1 ], onde α−1 (t) = α(1 − t).
Deixamos para o leitor como exercı́cio mostrar que a estrutura definida acima é a de um grupóide.
Notemos que para a composição ∗ acima não vale a associatividade: (α ∗ β) ∗ γ 6= α ∗ (β ∗ γ), se
ambos os lados estiverem definidos (por que?). No entanto, as curvas (α ∗ β) ∗ γ e α ∗ (β ∗ γ) são
equivalentes no sentido da definição acima e de tal forma que para o produto “·” definido nas classes
C vale a associatividade [α] · ([β] · [γ]) = ([α] · [β]) · [γ], se ambos os lados estiverem definidos (por
que?). Essa é a razão de termos feito a construção nas classes C e não diretamente em C. Esse fato
já deve ser familiar ao leitor que conheça o conceito de grupo de homotopia de espaços topológicos.
O grupóide apresentado acima e o grupo de homotopia são, aliás, fortemente aparentados e ao leitor
sugere-se pensar sobre qual a conexão entre ambos.
Exemplo. Relações de equivalência. Seja K um conjunto no qual haja uma relação de equivalência
R ⊂ K × K. Tomamos C = R e C0 = {(x, x), x ∈ K} ⊂ R. Definimos
1. p((x, y)) := (x, x), ∀x, y ∈ K com x ∼ y.
2. c((x, y)) := (y, y), ∀x, y ∈ K com x ∼ y.

3. Produto: (x, y) · (y, z) := (x, z), ∀x, y, z ∈ K com x ∼ y ∼ z.
4. Inversa bilateral: (x, y)−1 := (y, x).
É fácil de se verificar (faça-o) que a estrutura assim definida é a de um grupóide.
1.6.3 Quatérnions
Vamos nesta seção tratar brevemente de um tipo de álgebra que possui algumas aplicações interessantes
na teoria de grupos e outros lugares, a chamada álgebra dos quatérnions.
Dado um espaço vetorial como R2 há várias maneiras de definir no mesmo um produto de modo a
fazer do mesmo uma álgebra. Por exemplo, podemos definir em R2 o produto
(x1 , x2 ) · (y1 , y2 ) = (x1 y1 , x2 y2 ) , (1.52)
que é associativo e comutativo, como também o produto
(x1 , x2 ) · (y1, y2 ) = (x1 y1 − x2 y2 , x1 y2 + x2 y2 ) , (1.53)
que é igualmente associativo e comutativo (Exercı́cio. Verifique).

O produto (1.52) faz de R2 uma álgebra isomorfa a R ⊗ R, ou seja, a duas cópias da álgebra usual
dos números reais. O produto (1.53) faz de R2 uma álgebra isomorfa à dos números complexos C. (Em
verdade, os números complexos são definidos como sendo a álgebra R2 com o produto (1.53)!).
Em R3 podemos definir igualmente vários tipos de produtos, tais como o produto
(x1 , x2 , x3 ) · (y1 , y2 , y3 ) = (x1 y1 , x2 y2 , x3 y3 ) , (1.54)
que é igualmente associativo e comutativo; o produto
(x1 , x2 , x3 ) · (y1 , y2 , y3 ) = (x1 y1 , x2 y2 − x3 y3 , x2 y3 + x3 y2 ) , (1.55)
também associativo e comutativo ou ainda um produto como
(x1 , x2 , x3 ) · (y1 , y2 , y3 ) = (x2 y3 − x3 y2 , x3 y1 − x1 y3 , x1 y2 − x2 y1 ) , (1.56)

que não é nem associativo nem comutativo. O produto (1.54) faz de R3 uma álgebra isomorfa a
R ⊗ R ⊗ R (três cópias da álgebra dos reais). O produto (1.55) faz de R3 uma álgebra isomorfa a R ⊗ C
e o produto (1.56) é o bem conhecido produto vetorial.
O que se pode então fazer em R4 ? Naturalmente poder-se-ia definir em R4 várias álgebras imitando
o que fizemos acima. Por exemplo, com o produto
(x1 , x2 , x3 , x4 ) · (y1 , y2 , y3 , y4 ) = (x1 y1 , x2 y2 , x3 y3 , x4 y4 ) , (1.57)
R4 torna-se uma álgebra associativa e comutativa isomorfa a R ⊗ R ⊗ R ⊗ R. Com o produto
(x1 , x2 , x3 , x4 ) · (y1 , y2 , y3 , y4 ) = (x1 y1 − x2 y2 , x1 y2 + x2 y1 , x3 y3 − x4 y4 , x3 y4 + x4 y3 ) , (1.58)
R4 torna-se uma álgebra associativa e comutativa isomorfa a C ⊗ C. Com o produto
(x1 , x2 , x3 , x4 ) · (y1 , y2 , y3 , y4 ) = (x2 y3 − x3 y2 , x3 y1 − x1 y3 , x1 y2 − x2 y1 , x4 y4 ) (1.59)
R4 torna-se uma álgebra não-associativa e não-comutativa isomorfa a R3 ⊗ R, com o produto vetorial

na componente R3 .
Há também outros produtos que são meras variantes das listadas acima (ache algumas). Existe,
porém, um outro produto não trivial, denominado produto quaterniônico, que faz de R4 uma álgebra
associativa mas não-comutativa e com unidade. Esse produto foi descoberto por W. R. Hamilton46 . A
história da descoberta desse produto em R4 , feita em 16 de outubro 1843, numa tentativa de generalizar
a álgebra dos números complexos para mais que duas dimensões, é muito interessante e representou
um marco na história da Álgebra por ser o primeiro exemplo de uma álgebra associativa mas não-
comutativa (a descoberta de Hamilton antecede a introdução da álgebra das matrizes e a introdução
do produto vetorial). Esse produto é o seguinte:
(x0 , x1 , x2 , x3 ) · (y0 , y1 , y2 , y3 ) =
(x0 y0 −x1 y1 −x2 y2 −x3 y3 , x0 y1 +y0 x1 +x2 y3 −x3 y2 , x0 y2 +y0x2 +x3 y1 −x1 y3 , x0 y3 +y0x3 +x1 y2 −x2 y1 ) .
(1.60)
E. 1.91 Exercı́cio. Mostre que o produto acima é associativo. 6
O espaço vetorial R4 dotado do produto acima é denominado álgebra dos quatérnions ou álgebra
quaterniônica e é denotada freqüentemente por H (em honra a Hamilton). A álgebra H é associativa
mas não é comutativa. H tem uma unidade, a saber, o vetor (1, 0, 0, 0) ∈ R4 .
E. 1.92 Exercı́cio. Mostre que H não é uma álgebra comutativa. 6
E. 1.93 Exercı́cio. Mostre que (1, 0, 0, 0) é a unidade de H. 6

46
William Rowan Hamilton (1805-1865). W. R. Hamilton foi também o inventor do chamado formalismo Hamiltoniano
da Mecânica Clássica.
Há uma maneira melhor de representar o produto quaterniônico que a expressão (1.60). Vamos
escrever os vetores da base canônica de R4 como
e0 = (1, 0, 0, 0) , e1 = (0, 1, 0, 0) , e2 = (0, 0, 1, 0) , e3 = (0, 0, 0, 1) ,
de modo que todo x ∈ R4 pode ser escrito na forma x = x0 e0 + x1 e1 + x2 e2 + x3 e3 . O produto

quaterniônico pode então ser definido pelo produto dos elementos da base canônica, que segue as
seguintes regras:
1. e0 é a unidade da álgebra: x · e0 = e0 · x = x para todo x ∈ R4 .
2. (e1 )2 = (e2 )2 = (e3 )2 = −e0 .
3. ei ej = −ej ei para todo i 6= j com i, j = 1, 2, 3.
4. e1 e2 = e3 , e2 e3 = e1 e e3 e1 = e2 .
E. 1.94 Exercı́cio. Verifique que essas regras reproduzem perfeitamente (1.60). 6
Além de ser de manipulação mais simples, essas regras permitem representar a álgebra quaterniônica
de um modo talvez mais familiar, a saber, em termos de certas matrizes complexas 2 × 2.
• Quatérnions e álgebras de matrizes 2 × 2
Sejam a e b dois números complexos e seja M(a, b) a matriz

a b
M(a, b) = ,
−b a
onde z é o complexo conjugado de z ∈ C. É fácil de se ver que o conjunto de todas as matrizes dessa
forma é uma álgebra:
M(a, b)M(c, d) = M(ac − bd, ad + bc) .
E. 1.95 Exercı́cio. Verifique! 6
Existe um isomorfismo entre a álgebra dos quatérnions e essa álgebra de matrizes 2 × 2. Basta
associar (bijetivamente!) a cada quádrupla (x0 , x1 , x2 , x3 ) a matriz M(x0 − ix3 , x2 + ix1 ):
 
x0 − ix3 x2 + ix1
x = (x0 , x1 , x2 , x3 ) ←→   =: M(x) . (1.61)
−x2 + ix1 x0 + ix3
É fácil verificar então (faça!) que o produto quaterniônico é respeitado por essa associação:
M(x)M(y) = M(x · y) ,
onde, acima, x · y é o produto quaterniônico de x e y ∈ R4 .

Note-se que por essa associação tem-se
M(x) = M(x0 e0 + x1 e1 + x2 e2 + x3 e3 ) = x0 M(e0 ) + x1 M(e1 ) + x2 M(e2 ) + x3 M(e3 ),
com
M(e0 ) = 1, M(e1 ) = iσ1 , M(e2 ) = iσ2 , M(e3 ) = −iσ3 ,
onde

1 0 0 1 0 −i 1 0
1 = , σ1 = , σ2 = e σ3 = ,
0 1 1 0 i 0 0 −1
as três últimas sendo as chamadas matrizes de Pauli47 , que satisfazem
1. (σ1 )2 = (σ2 )2 = (σ3 )2 = 1,
2. σi σj = −σj σi para todo i 6= j e
3. σ1 σ2 = iσ3 , σ2 σ3 = iσ1 , σ3 σ1 = iσ2 .
E. 1.96 Exercı́cio. Verifique essas propriedades. 6
• Sub-álgebras Abelianas
H possui algumas sub-álgebras Abelianas.

E. 1.97 Exercı́cio. Mostre que H1 := {x ∈ R4 , x = x0 e0 + x1 e1 = (x0 , x1 , 0, 0)} é uma sub-álgebra
Abeliana de H que é isomorfa à álgebra C dos complexos. 6
E. 1.98 Exercı́cio. Mostre o mesmo para H2 := {x ∈ R4 , x = x0 e0 + x2 e2 = (x0 , 0, x2 , 0)} e

H3 := {x ∈ R4 , x = x0 e0 + x3 e3 = (x0 , 0, 0, x3 )}. 6
E. 1.99 Exercı́cio. Será possı́vel fazer de R4 um espaço vetorial complexo? Seja α ∈ C e considere para
x ∈ R4 o produto do escalar α pelo vetor x definido por
α · x = (Re(α)e0 + Im(α)e1 ) · x ,
onde o produto do lado direito é o o produto quaterniônico. Mostre que isso faz de R4 um espaço vetorial
sobre o corpo dos complexos. Para isto verifique as propriedades definidoras de um espaço vetorial listadas
à página 58. 6
E. 1.100 Exercı́cio. No exercı́cio anterior há outros produtos do escalar α pelo vetor x que podem ser
considerados:
α · x = (Re(α)e0 + Im(α)e2 ) · x ,
47
Wolfgang Ernst Pauli (1900-1958).
ou
α · x = (Re(α)e0 + Im(α)e3 ) · x ,
ou mesmo
α · x = x · (Re(α)e0 + Im(α)e1 )
etc. Mostre que todos esses seis produtos de escalares α ∈ C por vetores x ∈ R4 fazem de R4 um espaço
vetorial sobre o corpo dos complexos. 6
• H é um anel de divisão
É fácil ver que a álgebra dos quatérnions é um anel de divisão (vide página 66), ou seja, todo
x ∈ R4 , x 6= 0, tem uma inversa em relação ao produto quaterniônico. Do isomorfismo M definido em
(1.61) acima vê-se que
det(M(x)) = det (M(x0 + ix1 , x2 + ix3 )) = (x0 )2 + (x1 )2 + (x2 )2 + (x3 )2
e, portanto, M(x) tem uma matriz inversa sempre que x 6= 0.

De fato, definindo-se para x = x0 e0 + x1 e1 + x2 e2 + x3 e3 ∈ R4 o conjugado quaterniônico
x = x0 e0 − x1 e1 − x2 e2 − x3 e3
e do fato facilmente constatável que48
x · x = (x0 )2 + (x1 )2 + (x2 )2 + (x3 )2 ∈ R
é fácil ver que para x 6= 0 tem-se

−1 1
x = x ∈ R4 ,
x·x
ou seja x−1 · x = x · x−1 = e0 .
E. 1.101 Exercı́cio. Verifique. 6
Note que por H ser um anel de divisão, H não tem divisores de zero: x · y = 0 se e somente se x = 0
ou y = 0.
• Norma quaterniônica
Em uma álgebra A uma função N : A → R+ que satisfaça
N(a · b) = N(a)N(b)
para todo a, b ∈ A e N(a) = 0 ⇐⇒ a = 0 é dita ser uma norma algébrica.

48
Com um abuso de linguagem identificamos aqui ((x0 )2 +(x1 )2 +(x2 )2 +(x3 )2 )e0 ∈ R4 com (x0 )2 +(x1 )2 +(x2 )2 +(x3 )2 ∈
R.
Em R e C tem-se a norma algébrica N(z) = |z|, o módulo ou valor absoluto de z. H também possui
uma norma algébrica. Para x ∈ R4 a expressão
N(x) = x · x
define49 uma norma algébrica em H.
E. 1.102 Exercı́cio. Verifique que a mesma satisfaz N(x · y) = N(x)N(y). 6
Há um teorema devido a Hurwitz50 que afirma que há apenas quatro álgebras que são álgebras de
divisão51 e possuem uma norma algébrica: R, C, H e a chamada álgebra dos octônions, da qual não
falaremos aqui. Esta última, por sinal, não é associativa.
A álgebra H possui várias outras propriedades interessantes, mas vamos encerrar aqui nossa ex-
posição introdutória. O leitor interessado poderá encontrar mais sobre H nos bons livros de álgebra,
especialmente nos mais antigos.
49
Vide nota de rodapé 48, página 98.
50
Adolf Hurwitz (1859-1919).
51
Vide definição à página 66
Capı́tulo 2
Espaços Vetoriais
Conteúdo
2.1 Espaços Vetoriais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100
2.1.1 Sub-Espaços e Espaços Quocientes . . . . . . . . . . . . . . . . . . . . . . . . 100
2.1.2 Bases Algébricas de um Espaço Vetorial . . . . . . . . . . . . . . . . . . . . . 102
2.1.3 O Dual Algébrico de um Espaço Vetorial . . . . . . . . . . . . . . . . . . . . 107
2.2 Formas Lineares, Sesquilineares e Produtos Escalares em Espaços Veto-
riais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114
2.2.1 Formas Multilineares . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114
2.2.2 Formas Sesquilineares e as Desigualdades de Cauchy-Schwarz e Minkowski . . 119
2.2.3 Produtos Escalares . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123
2.2.4 Exemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126
2.3 Normas em Espaços Vetoriais . . . . . . . . . . . . . . . . . . . . . . . . . . 128
2.4 Formas Bilineares e Sesquilineares em Espaços de Dimensão Finita . . . 135
2.5 Estruturas Complexas sobre Espaços Vetoriais Reais . . . . . . . . . . . . 140
Apêndices . . . . . . . . . . . . . . . . . . . . 149
2.A Prova do Teorema de Fréchet, von Neumann e Jordan . . . . . . . . . . . 149
A noção de espaço vetorial que introduzimos na Seção 1.2.3, página 58, é da maior importância
na Fı́sica e na Matemática. Neste capı́tulo vamos estudá-la com mais detalhe. Particular
atenção será dada às noções de forma multilinear, forma sesquilinear, produto escalar e norma
em espaços vetoriais. As importantes desigualdades de Cauchy-Schwarz e de Minkowski
serão demonstradas com bastante generalidade. Este capı́tulo trata quase exclusivamente de aspéctos
“algébricos” de espaços vetoriais, pondo de lado aspéctos topológicos, os quais serão discutidos em
capı́tulos futuros.
2.1 Espaços Vetoriais
2.1.1 Sub-Espaços e Espaços Quocientes
• Sub-espaços
Seja V um espaço vetorial sobre um corpo K. Um subconjunto W de V é dito ser um sub-espaço

de V (sobre o mesmo corpo K) se para todo α, β ∈ K e todo u, v ∈ W valer que αu + βv ∈ W . É
evidente que um sub-espaço de um espaço vetorial é por si só um espaço vetorial.
100
• Quocientes
Se W é um sub-espaço de um espaço vetorial V sobre um corpo K, então é possı́vel definir em V

uma relação de equivalência EW ⊂ V × V da seguinte forma: dizemos que (u, v) ∈ V × V pertence a
EW se u − v ∈ W .
E. 2.1 Exercı́cio. Mostre que isso de fato define uma relação de equivalência em V . 6
Seguindo a notação usual denotaremos também essa relação de equivalência pelo sı́mbolo ∼W :
u ∼W v se u − v ∈ W .
Denotemos por V /W o conjunto das classes de equivalência de V pela relação EW . Denotaremos
por [u] ∈ V /W a classe de equivalência que contém o vetor u ∈ V .
Com esses ingredientes podemos transformar V /W em um espaço vetorial sobre K. Isso se dá
definindo em V /W uma soma e um produto por escalares. O vetor nulo será a classe de equivalência
[0] que contém o vetor 0. Como subconjunto de V , a classe [0], aliás, vem a ser o conjunto W (por
que?).
Se [u] e [v] são as classes de equivalência que contêm os elementos u e v, respectivamente, de V ,
então definimos
[u] + [v] = [u + v].
E. 2.2 Exercı́cio. Mostre que essa definição é coerente, no sentido que independe dos representantes (u
e v) escolhidos nas classes. 6
E. 2.3 Exercı́cio. Mostre que essa operação de soma é comutativa e associativa. 6
E. 2.4 Exercı́cio. Mostre que [u] + [0] = [u] para todo u ∈ V . 6
Analogamente, a operação de multiplicação por escalares é definida por
α[u] = [αu],
para todo u ∈ V .
E. 2.5 Exercı́cio. Mostre que essa definição é coerente, no sentido que independe do representante u
escolhido na classe. 6
E. 2.6 Exercı́cio. Mostre que o conjunto V /W é, portanto, um espaço vetorial sobre o corpo K com as
operações definidas acima. 6
O espaço vetorial V /W assim obtido é denominado espaço quociente de V por W .

2.1.2 Bases Algébricas de um Espaço Vetorial
• Dependência linear
Um conjunto finito u1 , . . . , un ∈ V de vetores é dito ser linearmente dependente se existir um

conjunto de escalares α1 , . . . , αn ∈ V , nem todos nulos, tais que
α1 u1 + · · · + αn un = 0.
Um conjunto arbitrário de vetores é dito ser linearmente independente se não possuir nenhum sub-
conjunto finito que seja linearmente dependente.
• Combinações lineares
Para um conjunto finito de vetores {u1 , . . . , un } ⊂ V e de escalares {α1 , . . . , αn } ⊂ K, uma

expressão como
α1 u1 + · · · + αn un
é dita ser uma combinação linear dos vetores u1 , . . . , un .
• Varredura linear
Seja C ⊂ V um conjunto de vetores. A varredura linear (“linear span”) de C, denotado por span (C)
é o conjunto de todos os vetores de V que podem ser escritos como uma combinação linear finita de
elementos de C.
• Bases algébricas em espaços vetoriais
Aqui I designa um conjunto arbitrário não-vazio de ı́ndices.

Uma base algébrica1 em um espaço vetorial V é um conjunto B = {bi , i ∈ I} de vetores linearmente
independentes tais que span (B) = V e tais que qualquer vetor u de V pode ser escrito de modo único
como uma combinação linear finita de elementos de B.
Se B é uma base algébrica, então para cada u ∈ V existem univocamente definidos α1 , . . . , αn ∈ K
e i1 , . . . , in ∈ I tais que:
u = α1 bi1 + · · · + αn bin .
Os seguintes teoremas podem ser demonstrados com uso do Lema de Zorn (omitiremos as demons-
trações aqui. Vide, por exemplo, [65]).
Teorema 2.1 Todo espaço vetorial V possui uma base algébrica, exceto o espaço vetorial trivial V =
{0}. 2
Teorema 2.2 Dado um espaço vetorial V (não-trivial), todas as bases algébricas em V têm a mesma
cardinalidade. 2
1
Também denominada “base de Hamel”. Georg Hamel (1877-1954).
• Dimensão algébrica
Um espaço vetorial é dito ser de dimensão algébrica finita se possuir uma base algébrica finita. Se
um espaço vetorial V tem dimensão algébrica finita, sua dimensão algébrica, ou simplesmente dimensão
é definida como sendo o número de elementos de sua base.
Nem todo espaço vetorial tem uma base algébrica finita (vide exemplos abaixo). De modo geral,
se um espaço vetorial possui uma base algébrica, sua dimensão algébrica é definida como sendo a
cardinalidade de suas bases algébricas (pelo Teorema 2.2 acima são todas iguais).
Exemplo 1. V = Cn sobre o corpo dos complexos ou V = Rn sobre o corpo dos reais. Tais são bem
conhecidos exemplos-protótipo de espaços vetoriais de dimensão finita (= n).
Seja P = conjunto de todos os polinômios de uma variável real com coeficientes complexos: Pn (t) ∈
P,
Pn (t) = an tn + · · · + a1 t + a0
com t ∈ R, ai ∈ C, é dito ser um polinômio de grau n se an 6= 0.
Exemplo 2. V = P sobre o corpo dos complexos. Este é claramente um espaço vetorial de dimensão
infinita. V possui uma base algébrica, a saber, o conjunto de todos os polinômios da forma bn = tn ,
n = 0, 1, 2, . . ..
Exemplo 3. V = R sobre o corpo dos reais. O conjunto dos reais sobre o corpo dos reais é também
um espaço vetorial de dimensão 1, a saber, uma possı́vel base é formada pelo elemento 1: B = {1}, já
que, obviamente, qualquer elemento x ∈ R pode ser escrito como x = x · 1, com x no corpo dos reais.
Esse exemplo pode parecer banal, e de fato o é, mas leva a um anti-exemplo curioso que mostra
que a dimensão algébrica de um espaço vetorial é também fortemente dependente do corpo de escalares
utilizado.
Exemplo 4. V = R sobre o corpo dos racionais.
A surpresa aqui é que este não é um espaço vetorial de dimensão algébrica finita: não existe um
conjunto finito {x1 , . . . , xm } de números reais tais que todo x ∈ R possa ser escrito como
x = r1 x1 + · · · + rm xm ,
onde os números ri são racionais. A razão é que, como Q é um conjunto contável, a coleção de números
que se deixam escrever como o lado direito é uma coleção contável (tem a mesma cardinalidade de
Qm ). O conjunto R, porém, não é contável.
Um resultado um tanto surpreendente diz, porém, que esse espaço vetorial possui uma base algébrica,
ou seja, existe um conjunto H ⊂ R tal que para cada x ∈ R existe um conjunto finito h1 , . . . , hn
de elementos de H e um conjunto finito de racionais r1 , . . . , rn tais que x = r1 h1 + · · · + rn hn . A
demonstração da existência de uma tal base faz uso do Lema de Zorn e pode ser encontrada em [20]
ou [22]. Essa base é denominada base de Hamel de R.
Uma conseqüência curiosa da existência de bases de Hamel em R será discutida no tópico que se
inicia à página 104.
Outros exemplos menos dramáticos que mostram a dependência da dimensão com o corpo utilizado
são os seguintes: sejam V1 = C sobre o corpo dos complexos e V2 = C sobre o corpo dos reais. V1 tem
dimensão 1, mas V2 tem dimensão 2.
Mais adiante faremos uso do seguinte resultado:

Teorema 2.3 Se em um espaço vetorial V existir um conjunto {v1 , . . . , vn } de n vetores linearmente
independentes, então a dimensão algébrica de V é maior ou igual a n. 2
Prova. A demonstração é feita por absurdo. Suponhamos que haja uma base B = {b1 , . . . , bk } em V
com k < n. Então podemos escrever
v1 = α1 b1 + · · · + αk bk .
pois B é uma base. Nem todos os αi podem ser nulos. Supondo que αk seja um elemento não-nulo,
podemos escrever
bk = (αk )−1 (v1 − α1 b1 − · · · − αk−1 bk−1 ) (2.1)
Analogamente, temos que
v2 = β1 b1 + · · · + βk bk
e, usando (2.1), podemos escrever
v2 = γ1 b1 + · · · + γk−1bk−1 + λ1 v1 .
Os γi não podem ser todos nulos, pois de outra forma terı́amos v2 = λ1 v1 , contrariando a hipótese
de os vi ’s serem linearmente independentes. Suponhamos que γk−1 seja o elemento não-nulo, podemos
escrever bk−1 como uma combinação linear envolvendo {b1 , . . . , bk−2 } e os vetores v1 e v2 . Prosseguindo,
concluiremos após k passos que
vk+1 = λ′1 v1 + · · · + λ′k vk ,
contrariando a hipótese de que os vi ’s são linearmente independentes.
• Automorfismos descontı́nuos do grupo (R, +)
Nota para os estudantes mais avançados.

Neste tópico usaremos as bases de Hamel da reta real para ilustrar uma patologia cuja existência
é por vezes mencionada na teoria de grupos, a saber, a existência de automorfismos descontı́nuos do
grupo (R, +).
Considere-se a equação f (x + y) = f (x) + f (y) para todo x, y ∈ R. Podemos nos perguntar:
que funções f : R → R podem satisfazê-la? É bastante claro que funções do tipo f (x) = cx, com
c constante real, satisfazem f (x + y) = f (x) + f (y) para todo x, y ∈ R. Fora isso, f (x) = cx são
contı́nuas e são bijeções de R em R (a menos que c = 0).
Serão essas as únicas funções com a propriedade f (x + y) = f (x) + f (y) para todo x, y ∈ R? Será
que há outras funções com essa propriedade e que não sejam contı́nuas? Será que há outras funções com
essa propriedade, não-contı́nuas, e que também sejam bijeções de R em R? A resposta a essa última
pergunta é muito curiosa e conduz a uma classe de funções cuja existência ilustra algumas dificuldades
encontradas na teoria de grupos.
Provemos em primeiro lugar a seguinte afirmação:
Proposição 2.1 Se f : R → R satisfizer f (x + y) = f (x) + f (y) para todo x, y ∈ R e f for contı́nua

em toda reta real R, então f é da forma f (x) = cx para algum c, constante real. 2
Historicamente esse pequeno resultado é devido a Cauchy2 .
Prova. Seja f contı́nua satisfazendo f (x + y) = f (x) + f (y) para todo x, y ∈ R e f : R → R. É claro

que, tomando x = y = 0 tem-se f (0) = f (0 + 0) = 2f (0) e, portanto f (0) = 0. Segue facilmente daı́
que 0 = f (0) = f (x + (−x)) = f (x) + f (−x) e, portanto f (−x) = −f (x) para todo x ∈ R.
Seja agora p inteiro positivo e x real, ambos arbitrários. Teremos que f (px) = f ((p − 1)x + x) =
f ((p − 1)x) + f (x) = f ((p − 2)x) + 2f (x) etc. Repetindo p vezes esse proceder, concluı́mos que
f (px) = pf (x). Como f (−x) = −f (x), essa relação vale para p negativo também. Seja agora q
inteiro, não-nulo. Então, pelo que acabamos de provar, f (1) = f (q/q) = qf (1/q) e concluı́mos que
f (1/q) = f (1)/q. Se então tivermos um número racional r da forma r = p/q, com p inteiro e q inteiro
não-nulo, teremos que f (r) = f (p/q) = pf (1/q) = (p/q)f (1) = rf (1). Finalizamos a prova evocando
a continuidade de f e o fato que todo x real pode ser aproximado por um número racional: seja
x ∈ R e rn , n ∈ N, uma seqüência de números racionais que coverge a x, i.e., x = limn→∞ rn . Então
f (x) = f (limn→∞ rn ) = limn→∞ f (rn ) = (limn→∞ rn ) f (1) = xf (1). Na segunda igualdade usamos a
hipótese (crucial!) que f é contı́nua em toda parte. Denotando f (1) = c a afirmação está provada.
Com esse resultado em mãos podemos nos perguntar: haverá funções não-contı́nuas que satisfazem
f (x + y) = f (x) + f (y)? Talvez surpreendentemente, a resposta é positiva. Não só há funções não
contı́nuas com essa propriedade, mas há dentre elas funções bijetoras de R em R. Funções com tais
caracterı́sticas um tanto patológicas podem ser construı́das com o uso das assim chamadas bases de
Hamel da reta real. Detalhemos.
Seja o espaço vetorial V dos números reais sob o corpo dos racionais. Como consideramos páginas
acima, esse espaço vetorial tem dimensão algébrica infinita, mas existe uma base H ⊂ R de V , não-
contável, denominada base de Hamel, tal que todo elemento x de R pode ser escrito como combinação
linear finita (única!) por racionais de elementos de H, ou seja, para todo x ∈ R existe um n (que
depende de x), racionais r1 , . . . , rn (que dependem de x) e elementos h1 , . . . , hn de H (que também
dependem de x) tais que x pode ser escrita (de forma única!) como x = r1 h1 + · · · + rn hn . Denomina-
remos essa expressão a decomposição de x em H.
Notemos que se x e y são números reais e x = r1 h1 + · · · + rn hn e y = r1′ h′1 + · · · + rm ′
h′m são suas
decomposições em H, então a decomposição de x + y é r1 h1 + · · · + rn hn + r1′ h′1 + · · · + rm′
h′m .
Vamos definir uma função f : R → R, da seguinte forma. Primeiramente fixamos seus valores
nos elementos de H tomando, para cada h ∈ H, f (h) := fh ∈ R, onde os números fh são escolhidos
arbitrariamente. Em segundo lugar, para qualquer x ∈ R, e cuja decomposição em H seja x =
r1 h1 + · · · + rn hn , definimos f (x) := r1 f (h1 ) + · · · + rn f (hn ) = r1 fh1 + · · · + rn fhn . Assim, se x e y são
números reais e x = r1 h1 + · · · + rn hn e y = r1′ h′1 + · · · + rm ′
h′m são suas decomposições em H, teremos
f (x + y) = r1 fh1 + · · · + rn fhn + r1′ fh′1 + · · · + rm
′
fh′m = f (x) + f (y).
O leitor pode convencer-se que há, para cada base de Hamel H, infinitas funções desse tipo (devido
à arbitrariedade da escolha dos fh ’s) e que todas são descontı́nuas, exceto se escolhermos fh = ch para
todo h ∈ H, com uma constante c fixa.
2
Augustin Louis Cauchy (1789-1857).
Espertamente, podemos tomar f como uma bijeção de H em H, ou seja, podemos escolher3 fh ∈ H

para todo h ∈ H e de modo que para todo h ∈ H exista um g ∈ H único tal que fg = h. Uma situação
trivial dessas é aquela na qual f é a identidade quando restrita a H: fh = h para todo h ∈ H, mas
outras escolhas são também possı́veis. Se f for uma bijeção de H em H, é fácil de se ver que imagem
de f no domı́nio R é toda a reta real R (mostre isso)!
Além disso, uma tal f , bijetora enquanto função de H em H, é igualmente bijetora como função
de R em R. Mostremos isso. Sejam x e y ∈ R com decomposições x = r1 h1 + · · · + rn hn e y =
s1 g1 + · · · + sm gm com rj , sk ∈ Q e hj , gk ∈ H e suponhamos que f (x) = f (y). Isso significa que
r1 fh1 + · · · + rn fhn = s1 fg1 + · · · + sm fgm . Como cada fhj e cada fgk é elemento de H, essa igualdade
só é possı́vel se m = n, se fhj = fgπ(j) e se rj = sπ(j) para todo j = 1, . . . , n, onde π é um elemento do
grupo de permutações de n elementos (ou seja, é uma bijeção de {1, . . . , n} em si mesmo). Como f é
uma bijeção de H em si mesmo, segue que hj = gπ(j) para todo j = 1, . . . , n. Assim,
n
X n
X n
X
x = rj hj = sπ(j) gπ(j) = sj g j = y
j=1 j=1 j=1
e, portanto, f : R → R é bijetora.
Uma função que satisfaça f (x + y) = f (x) + f (y) para todo x, y ∈ R e f : R → R representa um
endomorfismo do grupo (R, +). O que aprendemos no último parágrafo pode ser expresso na linguagem
da teoria de grupos como a afirmação que existem automorfismos de (R, +) que não são contı́nuos.
Esse fato ilustra algumas situações patológicas que são por vezes encontradas ou mencionadas no
estudo de grupos contı́nuos. Com o uso de funções f desse tipo é possı́vel, por exemplo, construir
sub-grupos uniparamétricos não-contı́nuos de um grupo de Lie dado ou representações não-contı́nuas
de tais sub-grupos.
Assim, por exemplo, se A é uma matriz real n × n antisimétrica, então O(t) = exp(tA), t ∈ R é um
subgrupo uniparamétrico contı́nuo de SO(n), pois O(0) = 1 e O(t)O(t′ ) = O(t+t′ ) para todos t, t′ ∈ R,
sendo os elementos de matriz de O(t) funções contı́nuas de t. Se agora definirmos P (t) = exp(f (t)A),
t ∈ R, para uma função f : R → R, patológica como acima (ou seja, satisfazendo f (x+y) = f (x)+f (y)
para todo x, y ∈ R, bijetora mas descontı́nua), ainda teremos P (0) = 1 e P (t)P (t′ ) = P (t + t′ ) para
todos t, t′ ∈ R, mas os elementos de matriz de P (t) não são funções contı́nuas de t.
• Bases topológicas em espaços vetoriais
Nota para os estudantes mais avançados.

O conceito de base algébrica não deve ser confundido com o de base topológica, conceito esse per-
tencente ao contexto dos espaços vetoriais topológicos:
Uma base topológica em um espaço vetorial topológico V é um conjunto B = {bi , i ∈ I} de vetores
linearmente independentes tais que span (B) é um conjunto denso em V , ou seja, o fecho de span (B)
é V .
Uma base topológica é dita ser base topológica completa se não possuir nenhum subconjunto próprio
que também seja uma base topológica.
3
Que tal é possı́vel é garantido pelo axioma da escolha −→ Exercı́cio.
A dimensão topológica de um espaço vetorial é então definida como sendo a cardinalidade das bases
topológicas completas de V .
Para ilustrar como os conceitos de base algébrica e base topológica são diferentes, consideremos
novamente o seguinte Exemplo 4 acima:
Exemplo 5. V = R sobre o corpo dos racionais, com a topologia usual sobre R, tem uma base
topológica completa de dimensão finita: B = {1}. De fato, o conjunto {r · 1, r ∈ Q} é denso em R.
Esse espaço vetorial possui então uma dimensão topológica igual a um.
Definição. Um espaço vetorial topológico sobre o corpo dos reais ou dos complexos é dito ser separável
se possuir uma base topológica contável.
2.1.3 O Dual Algébrico de um Espaço Vetorial

Seja V um espaço vetorial sobre um corpo K (por exemplo, o corpo C). Uma aplicação l : V → K,
definida sobre todo V , é dita ser um funcional linear se
l(αx + βy) = αl(x) + βl(y)
para todo x, y ∈ V e todo α, β ∈ K.
E. 2.7 Exercı́cio. Mostre que, de acordo com a definição acima, vale para qualquer funcional linear l que
l(0) = 0. 6
O conjunto de todos os funcionais lineares de V em K é denominado espaço dual algébrico de V e

denotado V ′ . O conjunto V ′ é feito um espaço vetorial (sobre K), através da seguinte relação:
(αl + βm)(x) := l(αx) + m(βx),
para todo l e m ∈ V ′ ; α, β ∈ K e todo x ∈ V . O vetor nulo de V ′ é o funcional linear que associa

trivialmente todo vetor de V a zero: l(x) = 0, ∀x ∈ V .
O seguinte teorema é verdadeiro e será implicitamente usado várias vezes no que segue. Sua de-
monstração é, como veremos, elementar mas instrutiva.
Teorema 2.4 Seja um espaço vetorial V sobre um corpo K. Se um vetor v tem a propriedade que
l(v) = 0 para todo l ∈ V ′ então v = 0. 2
Prova. Seja B uma base algébrica em V . Para cada elemento b ∈ B podemos associar um funcional
linear lb , definido da seguinte forma. Como todo w ∈ V pode ser escrito como uma combinação linear
finita de elementos de B, podemos sempre escrever
w = wb b + w ′ ,
onde w ′ é uma combinação linear finita de elementos de B \ {b} e wb ∈ K. (É claro que wb = 0 caso b
não compareça na decomposição de w em uma soma finita de elementos de B).
Definimos então
lb (w) = wb ,
para todo vetor w ∈ V . É um exercı́cio simples mostrar que, para cada b ∈ B, a aplicação lb : V → K
dada acima é um funcional linear.
Seja então v um vetor como no enunciado do teorema. Se l(v) = 0 para todo l ∈ V ′ , vale obvi-
amente que lb (v) = 0 para todo b ∈ B. Isso, porém, trivialmente implica que v = 0, completando a
demonstração.
Notação. Para x ∈ V e l ∈ V ′ é muito freqüente, e graficamente conveniente, usar-se a notação hl, xi

em lugar de l(x).
Se A e B são espaços vetoriais e A ⊂ B então B ′ ⊂ A′ .
E. 2.9 Exercı́cio. Justifique essa última afirmativa. 6
• O dual topológico de um espaço vetorial
Seja V um espaço vetorial topológico. O conjunto de todos os funcionais lineares contı́nuos sobre
V é dito ser o dual topológico de V . O dual topológico será denotado neste texto por V † . Note-se que
V † ⊂ V ′.
• Exemplos de funcionais lineares
Exemplo 1. Seja V = Cn , sobre o corpo dos complexos. Seja a1 , . . . , an um conjunto fixo de

números complexos. Para qualquer vetor z = (z1 , . . . , zn ) ∈ Cn defina-se
l(z) = a1 z1 + · · · + an zn .
Então l é um funcional linear em Cn .
Em verdade, é possı́vel demonstrar a recı́proca: em Cn todo funcional linear é da forma acima

para algum conjunto {a1 , . . . , an }. Essa afirmativa é um caso particular de um teorema importante
conhecido como “Lema de Riesz”, que será demonstrado no contexto mais geral dos chamados espaços
de Hilbert, dos quais Cn é um exemplo.
Seja P o conjunto de todos os polinômios de uma variável real com coeficientes complexos: Pn (t) ∈ P,
Pn (t) = an tn + · · · + a1 t + a0
com t ∈ R, ai ∈ C, é dito ser um polinômio de grau n se an 6= 0. O conjunto P é claramente um espaço
vetorial sobre os complexos.
Exemplo 2. Para cada t0 ∈ R e p ∈ P,
l(p) = p(t0 )
é um funcional linear em P.
Esse exemplo pode ser generalizado:

Exemplo 3. Sejam t1 , . . . , tn ∈ R, distintos, e a1 , . . . , an números complexos. Para todo p ∈ P,
definamos
l(p) = a1 p(t1 ) + · · · + an p(tn ) .
Então l é um funcional linear em P.
O último exemplo pode ser fortemente generalizado nos dois exemplos que seguem.
Exemplo 3. Seja (a, b) um intervalo finito de R e h uma função complexa integrável nesse intervalo
Rb
(ou seja, a |h(t)|dt ≤ ∞). Então,
Z b
l(p) = h(t) p(t) dt
a
está definida para todo p ∈ P e define um funcional linear em P.
E. 2.13 Exercı́cio. Justifique as duas últimas afirmativas. 6

2
Exemplo 4. Seja a função g(x) = e−x . Então
Z ∞
l(p) = g(t) p(t) dt .
−∞
está definida para todo p ∈ P e define um funcional linear em P.
E. 2.14 Exercı́cio. Justifique as duas últimas afirmativas. 6
• A Relação entre V e V ′
Vamos aqui discutir o fato que sempre existe uma maneira (não-canônica, vide abaixo) de associar
vetores de um espaço vetorial V com elementos de seu dual algébrico V ′ .
Seja V um espaço vetorial sobre um corpo K e B ⊂ V uma base algébrica em V . Seja FB a coleção
de todas as funções de B em K. Afirmamos que existe uma bijeção de FB sobre V ′ , ou seja, esses dois
conjuntos podem ser identificados nesse sentido.
Para tal, seja f ∈ FB . Definimos uma aplicação I : FB → V ′ da seguinte forma. Como todo x ∈ V
pode ser escrito como uma combinação linear finita de elementos de B, digamos, x = α1 bi1 +· · ·+αn bin ,
escrevemos
I(f )(x) = α1 f (bi1 ) + · · · + αn f (bin ) .
I(f ) é um funcional linear pois, se escrevemos y = αn+1 bin+1 + · · · + αn+m bin+m , teremos
I(f )(x + y) = α1 f (bi1 ) + · · · + αn+m f (bin+m )
= α1 f (bi1 ) + · · · + αn f (bin ) + αn+1 f (bin+1 ) + · · · + αn+m f (bin+m )
= I(f )(x) + I(f )(y) . (2.2)
Isso então mostrou que I(f ) é de fato um elemento de V ′ para cada f ∈ FB . Vamos mostrar o reverso:
que a cada elemento l de V ′ há um elemento gl de FB associado e que I(gl ) = l. Seja novamente
x = α1 bi1 + · · · + αn bin ∈ V e seja l um elemento de V ′ . Tem-se
l(x) = α1 l(bi1 ) + · · · + αn l(bin ) .
Definimos então gl : B → K por

gl (b) = l(b)
para todo b ∈ K. Pela definição
I(gl )(x) = α1 gl (bi1 ) + · · · + αn gl (bin ) = α1 l(bi1 ) + · · · + αn l(bin ) = l(x) (2.3)
para todo x ∈ V . Logo I(gl ) = l como querı́amos.

A aplicação I : FB → V ′ é, portanto, uma bijeção entre esses dois conjuntos. Notemos, porém, que
essa bijeção não é canônica no sentido que a mesma depende da base adotada. Se trocarmos B por
outra base a bijeção altera-se.
De posse desses fatos podemos entender a relação entre V e V ′ da seguinte forma. Seja o subconjunto
GB de FB formado por todas as funções que assumem valores não-nulos (no corpo K) apenas para um
conjunto finito de B, ou seja, para g ∈ GB existe um conjunto finito Bg = {b1 , . . . , bn } ⊂ B tal que g
é não-nula nos elementos de Bg , mas é nula em B \ Bg .
Os conjuntos GB e V podem ser identificados no seguinte sentido. Afirmamos que existe uma bijeção
J : GB → V . Tal é fácil de ver se lembrarmos que os elementos de V podem ser escritos como uma
combinação linear finita de elementos de B. De fato, para g ∈ GB definimos
J(g) = g(b1 )b1 + · · · + g(bn )bn ∈ V
onde {b1 , . . . , bn } = Bg . Reciprocamente, se x ∈ V e x = α1 bi1 + · · · + αn bin , definimos gx ∈ GB por
gx (bia ) = αa , a = 1, . . . , n
e
gx (b) = 0 ,
se b 6∈ {bi1 , . . . , bin }. É fácil ver então que
J(gx ) = g(bi1 )bi1 + · · · + g(bin )bin = α1 bi1 + · · · + αn bin = x , (2.4)
o que mostra que J é bijetora. Notemos novamente que essa bijeção também não é canônica, no sentido
que a mesma depende da base adotada. Se trocarmos B por outra base a bijeção altera-se.
E. 2.15 Exercı́cio importante. Mostre agora que J −1 : V → Gb é linear, ou seja, J −1 (αx + βy) =
αJ −1 (x) + βJ −1 (y) para todos x, y ∈ V e todos α, β ∈ K. 6
Juntando o discutido acima, concluı́mos que φ1 = I ◦ J −1 é uma aplicação linear injetora de V em

′
V . A mesma, porém, não é “natural”, pois depende da base algébrica B escolhida.
Assim, fixada uma base B em V há uma maneira de associar todos os elementos de V com elementos
do seu dual algébrico. Notemos porém que pode haver elementos de V ′ aos quais não correspondem tais
identificações, ou seja, a imagem de φ1 = I ◦ J −1 é tipicamente (especialmente em dimensão infinita)
um subconjunto próprio de V ′ .
Exemplo. Seja P o espaço vetorial dos polinômios em R definido acima. Seja T = {ti ∈ R, i ∈ N},
um conjunto contável de pontos distintos da reta real e seja q(t) = q0 + q1 t + · · · + qn tn , polinômio.
Definamos lq ∈ V ′ por
lq (p) = q0 p(t0 ) + q1 p(t1 ) + · · · + qn p(tn ) .
E. 2.16 Exercı́cio. Mostre que a aplicação P ∋ q → lq ∈ V ′ é linear e injetora. 6
E. 2.17 Exercı́cio. Será que com o conjunto T fixado todo elemento de V ′ seria da forma lq para algum
q?. Pense. Inspire-se nos exemplos 3 e 4 da página 109. O que acontece para conjuntos T diferentes? 6
Comentário. Mais interessante que a relação entre V e V ′ , é a relação de V com o dual algébrico de
V ′ , o chamado bi-dual algébrico de V e denotado por (V ′ )′ , assunto que discutiremos agora. A razão
é que, ao contrário do que tipicamente ocorre entre V e V ′ , há sempre uma aplicação linear injetora
entre V e (V ′ )′ que é natural, ou seja, independente de escolhas de bases.
Outro interesse na relação entre V e (V ′ )′ reside no fato que a mesma revela-nos, como veremos,
uma profunda distinção entre espaços vetoriais de dimensão finita e infinita.
• O Bi-dual algébrico de um espaço vetorial
Se V é um espaço vetorial sobre um corpo K já observamos que V ′ é também um espaço vetorial
sobre o mesmo corpo. Assim, V ′ tem também seu dual algébrico que é denominado bi-dual algébrico
de V .
O bi-dual algébrico de um espaço vetorial V é o espaço (V ′ )′ . Como vimos nas páginas anteriores,
existe pelo menos uma aplicação linear injetiva de V em V ′ . Chamemos esta aplicação de φ1 . Ana-
logamente, existe pelo menos uma aplicação linear injetiva φ2 de V ′ em (V ′ )′ . A composição φ2 ◦ φ1
fornece uma aplicação linear injetiva de V em (V ′ )′ . Como φ1 e φ2 dependem de escolhas de base, a
composição φ2 ◦ φ1 também depende, não sendo, assim, natural.
Ao contrário do que ocorre na relação entre V e V ′ , podemos sempre encontrar uma aplicação
linear injetiva de V em (V ′ )′ que é natural: independente de base. Vamos denotá-la por λ. Definimos
λ : V → (V ′ )′ da seguinte forma: para x ∈ V , λ(x) é o elemento de (V ′ )′ que associa a cada l ∈ V ′ o
valor l(x):
λ(x)(l) = l(x) .
E. 2.18 Exercı́cio. Mostre que λ : V → (V ′ )′ é linear. 6
E. 2.19 Exercı́cio. Mostre que λ : V → (V ′ )′ é injetora. Sugestão: use o Teorema 2.4, enunciado e
demonstrado na página 107. 6
É transparente pela definição de λ que a mesma é independente de bases e, portanto, “natural”. A

relação entre x ∈ V e um elemento de (V ′ )′ mostrada acima é tão direta que quase poderı́amos dizer que
V é um subconjunto de (V ′ )′ : V ⊂ (V ′ )′ . Alguns autores, abusando um pouco da linguagem, chegam
mesmo a escrever uma tal relação de inclusão. Mais correta, no entanto é a relação λ(V ) ⊂ (V ′ )′ .
Poderı́amos nesse momento nos perguntar: quando podemos eventualmente ter λ(V ) = (V ′ )′ ? Para
o caso de espaços vetoriais sobre o corpo dos reais ou dos complexos resposta é simples e um tanto
surpreendente e se expressa no seguinte teorema.
Teorema 2.5 Seja V um espaço vetorial sobre o corpo dos reais ou dos complexos. Então λ(V ) = (V ′ )′
se e somente se V é um espaço vetorial de dimensão finita. 2
Este teorema revela uma importante distinção entre espaços de dimensão finita e infinita. Em
dimensão finita todos os funcionais lineares do dual algébrico de V ′ são da forma λ(x) para algum
vetor x. Em dimensão infinita, porém, há certamente elementos em (V ′ )′ que não são dessa forma.
Assim, ao tomarmos duais duplos em dimensão infinita sempre obtemos espaços vetoriais “maiores”, o
que não ocorre em dimensão finita.
Prova. Seja V um espaço vetorial sobre um corpo K = C ou R.

Caso de dimensão finita. Vamos em primeiro lugar supor que V é de dimensão finita e denotemos
por dim V sua dimensão. Seja também B = {b1 , . . . , bn } uma base de V . É claro que o número de
elementos de B é n = dim V .
É fácil mostrar que o conjunto {λ(b1 ), . . . , λ(bn )} é linearmente independente em (V ′ )′ . De fato, se
existirem escalares αi tais que
α1 λ(b1 ) + · · · + αn λ(bn ) = 0 ,
ou seja,
λ(α1 b1 + · · · + αn bn ) = 0
terı́amos para todo l ∈ V ′
λ(w)(l) = l(w) = 0 ,
onde w = α1 b1 + · · · + α1 bn . Isso, porém, implica w = 0 (pelo Teorema 2.4, página 107), o que implica
α1 = · · · = αn = 0.
Isso claramente diz que dim (V ′ )′ ≥ dim V . Afirmamos que a igualdade só se dá se λ(V ) = (V ′ )′ .
De fato, se λ(V ) = (V ′ )′ então todo elemento de (V ′ )′ é da forma
λ(α1 b1 + · · · + αn bn ) = α1 λ(b1 ) + · · · + αn λ(bn )
e, portanto {λ(b1 ), . . . , λ(bn )} é uma base em (V ′ )′ e dim (V ′ )′ = dim V . Se, por outro lado, λ(V ) é um
subconjunto próprio de (V ′ )′ , existem elementos v ′′ ∈ (V ′ )′ tais que v ′′ − α1 λ(b1 ) − · · · − αn λ(bn ) 6= 0
para todos αi ∈ K. Portanto, {v ′′ , λ(b1 ), . . . , λ(bn )} é um conjunto de n + 1 vetores linearmente

independentes. Logo dim (V ′ )′ > n = dim V , pelo Teorema 2.3, página 104.
Vamos então mostrar que obrigatoriamente tem-se que dim (V ′ )′ = dim V , provando o teorema.
Como vimos quando discutimos a relação entre V e V ′ à página 109, V ′ é equivalente ao conjunto
FB de todas as funções de B em K, enquanto que V é equivalente ao conjunto GB formado por todas
as funções que assumem valores não-nulos (no corpo K) apenas para um conjunto finito de B. Como
B tem um número finito de elementos, sucede GB = FB (por que?). Logo V e V ′ são equivalentes:
existe uma bijeção linear ϕ1 entre ambos.
A aplicação ϕ1 leva a base B em uma base ϕ1 (B) em V ′ . Para ver isso, notemos que todo elemento
l ∈ V ′ é da forma l = ϕ1 (v), para algum v ∈ V . Como todo v ∈ V é da forma v = α1 b1 +· · ·+αn bn , segue
que todo elemento l ∈ V ′ é da forma α1 ϕ1 (b1 )+· · ·+αn ϕ1 (bn ). Como ϕ1 é bijetora, {ϕ1 (b1 ), . . . , ϕ1 (bn )}
é um conjunto de vetores linearmente independentes pois se existirem escalares β1 , . . . , βn tais que
β1 ϕ1 (b1 ) + · · · + βn ϕ1 (bn ) = 0
terı́amos ϕ1 (β1 b1 + · · · + βn bn ) = 0 o que implica β1 b1 + · · · + βn bn = 0, pois ϕ1 é bijetora. Isso porém

implica β1 = · · · = βn = 0, pois {b1 , . . . , bn } é uma base. Assim, ϕ1 (B) = {ϕ1 (b1 ), . . . , ϕ1 (bn )} é uma
base em V ′ e, portanto, dim V ′ = n = dim V .
Analogamente, tem-se que V ′ e (V ′ )′ são equivalentes e, portanto, existe uma bijeção linear ϕ2 entre
ambos que leva a base ϕ1 (B) em uma base ϕ2 ◦ ϕ1 (B) em (V ′ )′ . Portanto, dim V ′ = dim (V ′ )′ .
Logo dim V = dim V ′ = dim (V ′ )′ , como querı́amos provar.
Caso de dimensão infinita. No caso de dimensão infinita desejamos mostrar que sempre há elementos
em (V ′ )′ que não são da forma λ(x) para algum x ∈ V .
Abaixo K é o corpo dos reais ou dos complexos.
Vamos primeiro delinear a estratégia a ser seguida. Seja B uma base em V (fixa daqui por diante).
Como sabemos, existe uma aplicação linear bijetora φ : FB → V ′ . Uma função s : B → K, s ∈ FB
é dita ser limitada se existir um M > 0 tal que |s(b)| < M para todo b ∈ B. Seja LB o conjunto de
todas as funções limitadas de B em K. É claro que LB ⊂ FB . Vamos mostrar o seguinte: não existe
nenhum vetor não-nulo v ∈ V com a propriedade que
λ(v)(β) = 0 ,
para todo β ∈ φ(LB ). Seja v = α1 b1 + · · · + αm bm um tal vetor para o qual λ(v)(β) = 0. Isso significa
que para todo β ∈ φ(LB )
0 = λ(v)(β) = β(v) = α1 β(b1 ) + · · · + αm β(bm ) .
Tomemos funcionais βi ’s da forma

1, se b = bi
βi (b) =
0, de outra forma
para i = 1, . . . , m. Como todo βi é um elemento de φ(LB ) (por que?), terı́amos 0 = βi (v) = αi para
todo i, o que implica v = 0.
A conclusão é que nenhum elemento de (V ′ )′ que seja da forma λ(v) para algum v ∈ V não-nulo
pode anular todos os elementos de φ(LB ) ⊂ V ′ . A estratégia que seguiremos será a de exibir um
elemento de (V ′ )′ que tem precisamente a propriedade de anular todos os elementos de φ(LB ). Um tal
elemento não pode pertencer, portanto, a λ(V ), o que mostra que λ(V ) é um subconjunto próprio de
(V ′ )′ no caso de dimensão infinita.
Seja u ∈ V ′ \ φ(LB ) e U o sub-espaço de V ′ gerado por u. Todo elemento l ∈ V ′ pode ser escrito
de modo único na forma
l = au + y ,
onde a ∈ K e y pertence ao sub-espaço complementar de U. Definamos α(l) = a. É claro que α ∈ (V ′ )′
e que α aniquila todo elemento de φ(LB ), pois estes pertencem ao sub-espaço complementar de U (por
que?). Assim, α ∈ (V ′ )′ mas α 6∈ λ(V ).
2.2 Formas Lineares, Sesquilineares e Produtos Escalares em

Espaços Vetoriais
2.2.1 Formas Multilineares

Seja V um espaço vetorial sobre um corpo K (por exemplo, os reais ou os complexos) e n um número
inteiro positivo. Uma n-forma multilinear4 em V é uma função ω : V n → K que seja linear em cada um
dos seus argumentos, ou seja, para todo α, β ∈ K, todos v1 , . . . , vn ∈ V , vi′ ∈ V e todo i = 1, . . . , n
vale
ω (v1 , . . . , vi−1 , (αvi + βvi′ ), vi+1 , . . . , vn ) =
αω (v1 , . . . , vi−1 , vi , vi+1 , . . . , vn ) + βω (v1 , . . . , vi−1 , vi′ , vi+1 , . . . , vn ) . (2.5)
O seguinte fato importante é conseqüência imediata da definição acima: se ω é uma n-forma mul-
tilinear então
ω (v1 , . . . , vi−1 , 0, vi+1 , . . . , vn ) = 0
para todo i, ou seja, se um dos argumentos é o vetor nulo a forma se anula.
E. 2.20 Exercı́cio. Prove isso. Sugestão: o que acontece se escolhermos α = β = 0? 6
Um fato importante é o seguinte: o conjunto de todas as n-formas lineares em um espaço vetorial

V sobre um corpo K é igualmente um espaço vetorial sobre K. Para tal procede-se da seguinte forma:
para duas n-formas lineares ω1 e ω2 e dois escalares α1 , α2 ∈ K define-se a combinação linear α1 ω1 +α2 ω2
como sendo a n-forma linear que a toda n-upla de vetores v1 , . . . , vn ∈ V associa
(α1 ω1 + α2 ω2 )(v1 , . . . , vn ) = α1 ω1 (v1 , . . . , vn ) + α2 ω2 (v1 , . . . , vn ) .
4
Também chamada n-forma linear ou simplesmente n-forma.
E. 2.21 Exercı́cio. Complete os detalhes da prova que o conjunto de todas as n-formas lineares em um
espaço vetorial V sobre um corpo K forma um espaço vetorial sobre K. 6
• Formas bilineares
De particular interesse é o caso n = 2, em cujo caso as formas são denominadas formas bilineares:
uma forma bilinear é uma função ω : V 2 → K que seja linear em cada um dos seus dois argumentos,
ou seja, para todo α, β ∈ K, todos u, v, w ∈ V , valem
ω(u, (αv + βw)) = αω(u, v) + βω(u, w) ,
ω((αu + βv), w) = αω(u, w) + βω(v, w) .
Um exemplo básico importante é o seguinte. Seja V = Rn o espaço vetorial (sobre o corpo dos
reais) formado por n-uplas de números reais: V = {x = (x1 , . . . , xn ), xi ∈ R}. Uma forma bilinear
em V é dada por
X n
hx, yiR = xk yk . (2.6)
k=1
Outro exemplo é
ωA (x, y) = hx, AyiR ,
onde A é uma matriz n × n real qualquer.
• Formas bilineares não-degeneradas
Uma forma bilinear ω é dita ser uma forma bilinear não-degenerada se satisfizer a seguinte condição:
se para todo vetor v valer ω(v, u) = 0, então u = 0.
• Formas bilineares não-singulares
Seja V um espaço vetorial e ω uma forma bilinear em V . Para u ∈ V fixo a aplicação lu (v) = ω(u, v)
é um funcional linear em V , ou seja, um elemento do espaço dual V ′ . Se a aplicação l : V → V ′ que
associa cada u ∈ V ao funcional linear lu acima for um isomorfismo de espaços vetoriais a forma bilinear
ω é dita ser uma forma bilinear não-singular.
Há vários outros tipos de formas multilineares que são importantes, como por exemplo as chamadas
formas multilineares alternantes e, dentre estas as formas simpléticas.
• Formas alternantes
Uma n-forma linear ω em um espaço vetorial V sobre um corpo K é dita ser uma forma alternante
(ou uma forma anti-simétrica) se satisfizer
ω (v1 , . . . , vi−1 , vi , vi+1 , vi+2 , . . . , vn ) = −ω (v1 , . . . , vi−1 , vi+1 , vi , vi+2 , . . . , vn ) (2.7)
para todos os vetores v1 , . . . , vn ∈ V e todo i = 1, . . . , n − 1. Em palavras, quando trocamos de
lugar dois argumentos vizinhos quaisquer a forma troca de sinal.
Deve ser bem claro que essa definição equivale à seguinte afirmação: se ω é uma n-forma linear
alternante, então para todo π ∈ Sn , o grupo de permutações de n elementos, vale

ω vπ(1) , . . . , vπ(n) = (sinalπ) ω (v1 , . . . , vn ) , (2.8)
para todos os vetores v1 , . . . , vn ∈ V , onde sinalπ é o sinal da permutação π (definido à página 764).
E. 2.22 Exercı́cio. Está claro? 6
Nomenclatura. Se ω é n-forma linear alternante, n é dito ser o grau de ω.

O conjunto de todas as n-formas lineares alternantes em um espaço vetorial V sobre um corpo K é
igualmente um espaço vetorial sobre K: para duas n-formas lineares alternantes ω1 e ω2 e dois escalares
α1 , α2 ∈ K define-se a combinação linear α1 ω1 + α2 ω2 como sendo a n-forma linear que a toda n-upla
de vetores v1 , . . . , vn ∈ V associa
(α1 ω1 + α2 ω2 )(v1 , . . . , vn ) = α1 ω1 (v1 , . . . , vn ) + α2 ω2 (v1 , . . . , vn ) .
É fácil constatar que a n-forma linear assim definida é também alternante.
E. 2.23 Exercı́cio. Complete os detalhes da prova que o conjunto de todas as n-formas lineares alternantes
em um espaço vetorial V sobre um corpo K forma um espaço vetorial sobre K. 6
• Formas simpléticas
Formas bilineares alternantes não-degeneradas são denominadas formas simpléticas5. Formas sim-
pléticas são importantes em algumas áreas da Fı́sica, como por exemplo na mecânica clássica e no
estudo de métodos de quantização.
Assim, uma forma simplética em um espaço vetorial V sobre um corpo K é uma forma bilinear
para a qual
ω(u, v) = −ω(v, u)
para todos os vetores u, v ∈ V e tal que se ω(u, v) = 0 para todo v, então u = 0.
Um exemplo básico importante no caso do espaço vetorial V = Rn e que, como veremos na Seção
2.4, é o caso geral é o seguinte:
ωA (x, y) = hx, AyiR ,
onde A é uma matriz n × n real anti-simétrica, ou seja, que satisfaz AT = −A, o que equivale a dizer
que seus elementos de matriz satisfazem Aij = −Aji . Fora isso, pela condição de não-degenerescência
A tem que ser invertı́vel, pois se hx, AyiR = 0 para todo y, então hAT x, yiR = 0 para todo y, o
que só é possı́vel se AT x = 0. Isso implicaria que det(A) = det(AT ) = 0. Uma conseqüência do
fato de A ter de ser invertı́vel é que n tem que ser par. De fato, a condição AT = −A diz que
det(A) = det(−AT ) = (−1)n det(AT ) = (−1)n det(A). Portanto, se n é ı́mpar terı́amos det(A) = 0.
• Algumas propriedades básicas de formas lineares alternantes

5
Do grego symplektikós: que serve para ligar, trançado, enlaçado.
É evidente pela definição que se ω é uma n-forma alternante então ω (v1 , . . . , vn ) = 0 caso haja
vi = vj para algum par i 6= j. Em particular, para formas simpléticas ω(u, u) = 0 para todo u ∈ V .
E. 2.24 Exercı́cio. A propriedade mencionada no último parágrafo é equivalente à definição de forma

linear alternante: se ω é uma n-forma linear e ω (v1 , . . . , vn ) = 0 sempre que vi = vj para algum par i 6= j,
então ω é alternante. Prove isso. Sugestão: para i 6= j defina a forma bilinear ωij (vi , vj ) := ω (v1 , . . . , vn )
onde todos os vetores v1 , . . . , vn estão fixos exceto vi e vj . Usando agora que ωij (x + y, x + y) = 0,
mostre que ωij (vi , vj ) = −ωij (vj , vi ) para todo vi e vj . A afirmação principal segue disso (por que?). 6
A seguinte proposição sobre formas lineares alternantes é importante:

Proposição 2.2 Se ω é uma n-forma linear alternante e v1 , . . . , vn são vetores linearmente dependentes,
então
ω (v1 , . . . , vn ) = 0 .
2
E. 2.25 Exercı́cio. Prove isso. 6
• Formas alternantes maximais
A Proposição 2.2 tem uma conseqüência imediata: se V é um espaço vetorial de dimensão n e ω é

uma forma linear alternante de ordem m > n, então ω = 0.
E. 2.26 Exercı́cio. Por quê? 6
Assim, em um espaço de dimensão n o grau máximo de uma forma alternante é n. Formas alternan-
tes de grau máximo são ditas formas alternantes maximais. Vamos mais adiante estudar como são essas
formas maximais, mas antes, precisamos discutir alguns fatos importantes sobre formas alternantes em
espaços de dimensão finita.
Em um espaço vetorial V de dimensão n o espaço vetorial das formas alternantes maximais é
unidimensional. Para ver isso notemos o seguinte. Seja {b1 , . . . , bn } uma base em V . Sejam agora ω1
e ω2 duas formas alternantes maximais em V e seja x1 , . . . , xn uma n-upla de vetores de V . Como
{b1 , . . . , bn } é uma base, podemos sempre escrever
n
X
xi = αij bj ,
j=1
para todo i = 1, . . . , n. Assim,

n
X n
X
ω1 (x1 , . . . , xn ) = ··· α1j1 · · · αnjn ω1 (bj1 , . . . , bjn )
j1 =1 jn =1
e, analogamente,
n
X n
X
ω2 (x1 , . . . , xn ) = ··· α1j1 · · · αnjn ω2 (bj1 , . . . , bjn ) .
j1 =1 jn =1
Ocorre que ω1 (bj1 , . . . , bjn ) é zero caso ocorram dois ı́ndices jk iguais. Por isso, podemos reescrever
as expressões acima da seguinte forma:
X
ω1 (x1 , . . . , xn ) = α1j(1) · · · αnj(n) ω1 (bj(1) , . . . , bj(n) )
j∈Sn
e, analogamente, X
ω2 (x1 , . . . , xn ) = α1j(1) · · · αnj(n) ω2 (bj(1) , . . . , bj(n) ) ,
j∈Sn
onde, acima, Sn é o conjunto de todas as bijeções de {1, . . . , n} em si mesmo (o chamado grupo de

permutações de n elementos).
E. 2.27 Exercı́cio. Justifique. 6
Como ω1 é uma forma alternante maximal, tem-se que

ω1 (bj(1) , . . . , bj(n) ) = sinal(j) ω1 (b1 , . . . , bn ) .
Assim, !
X
ω1 (x1 , . . . , xn ) = α1j(1) · · · αnj(n) sinal(j) ω1 (b1 , . . . , bn )
j∈Sn
e, analogamente,
!
X
ω2 (x1 , . . . , xn ) = α1j(1) · · · αnj(n) sinal(j) ω2 (b1 , . . . , bn ) .
j∈Sn
Como se vê nessas últimas expressões, ω1 (x1 , . . . , xn ) e ω2 (x1 , . . . , xn ) diferem apenas pelos fatores
ω1 (b1 , . . . , bn ) e ω2 (b1 , . . . , bn ), respectivamente. Como esses fatores são apenas números (elementos
do corpo K), são proporcionais um ao outro. Isso prova então que ω1 (x1 , . . . , xn ) e ω2 (x1 , . . . , xn )
são proporcionais um ao outro para toda n-upla x1 , . . . , xn e isso era o que querı́amos provar.
Com as observações acima chegamos ao importante conceito de forma determinante.
• A forma determinante
Como observamos acima, todas as n-formas lineares alternantes maximais de um espaço vetorial
V de dimensão n são proporcionais umas às outras. Assim, o conhecimento de uma forma alternante
maximal determina todas as outras.
A forma determinante6 ωdet em um espaço vetorial V de dimensão n é a n-forma linear alternante
maximal tal que ωdet (b1 , . . . , bn ) = 1 no caso em que {b1 , . . . , bn } é a base canônica de V :
     
1 0 0
0 1 0
     
     
b1 = 0 , b2 = 0 , . . . , bn =  ...  .
 ..   ..   
. . 0
0 0 1
6
Também chamada de forma volume, pois em R3 , ωdet (x1 , x2 , x3 ) é igual ao volume do paralelepı́pedo descrito pelos
vetores x1 , x2 , x3 .
Assim, X
ωdet (x1 , . . . , xn ) = α1j(1) · · · αnj(n) sinal(j) ,
j∈Sn
onde αij é a j-ésima componente do vetor xi na base canônica.

Como observamos, todas as outras n-formas lineares alternantes maximais de V são proporcionais
a ωdet .
• Determinante de matrizes
Sejam a1 , . . . , an vetores, representados na base canônica por vetores-coluna

 
αi1
 .. 
ai =  .  .
αin
hh ii
Denotamos por a1 , . . . , an a matriz n × n construı́da de forma que sua a-ésima coluna seja o
vetor-coluna xa , ou seja  
hh ii α 11 · · · α n1
 ..  .
a1 , . . . , an =  ... ..
. . 
α1n · · · αnn
hh ii
É evidente que toda matriz A ∈ Mat (C, n) pode ser escrita na forma A = a1 , . . . , an para
algum conjunto de vetores a1 , . . . , an que representam suas colunas.
Define-se então o determinante da matriz A como sendo
det(A) := ωdet (a1 , . . . , an ) , (2.9)
ou seja, X
det(A) = α1j(1) · · · αnj(n) sinal(j) . (2.10)
j∈Sn
Cremos que o conceito de determinante de matrizes e suas propriedades básicas sejam bem conhe-
cidos do estudante que tenha uma formação básica em Cálculo e Álgebra Linear, mas as mesmas serão
(re)apresentadas e deduzidas na Seção 3.1, página 155. Vide, em particular, o Teorema 3.1, página
157.
2.2.2 Formas Sesquilineares e as Desigualdades de Cauchy-Schwarz e Min-

kowski
• Formas sesquilineares. Definições
Seja V um espaço vetorial complexo. Uma forma sesquilinear7 é uma função ω : V × V → C que
satisfaz as seguintes propriedades:
7
Do radical grego sesqui: um e meio.
1. Linearidade em relação à segunda variável:
ω(u, αv + βw) = αω(u, v) + βω(u, w) ,
para todos os vetores u, v e w e para todos os números complexos α e β.
2. Anti-linearidade em relação à primeira variável:
ω(αu + βv, w) = αω(u, w) + βω(v, w) ,
para todos os vetores u, v e w e para todos os números complexos α e β.
É imediato pela definição que toda forma sesquilinear ω se anula no vetor nulo, ou seja,
ω(u, 0) = ω(0, u) = 0 ,
para todo vetor u.
Uma forma sesquilinear é dita ser uma forma sesquilinear Hermitiana se satisfizer:
3. Simetria por conjugação complexa:
ω(u, v) = ω(v, u) ,
para todos os vetores u e v.

Uma forma sesquilinear é dita ser uma forma sesquilinear positiva se satisfizer
4. Positividade. Para todo u ∈ V ,

ω(u, u) ≥ 0 .
Abaixo (Teorema 2.6, página 121) provaremos que toda forma sesquilinear positiva é automatica-
mente Hermitiana. Lá provaremos também que se ω é uma forma sesquilinear positiva então vale
que |ω(u, v)|2 ≤ ω(u, u) ω(v, v) para todos os vetores u e v. Essa desigualdade é conhecida como
Desigualdade de Cauchy-Schwarz.
Uma forma sesquilinear é dita ser uma forma sesquilinear não-degenerada se satisfizer:
5. Não-degenerescência. Se um vetor u é tal que vale ω(u, v) = 0 para todo vetor v, então u = 0.
Nomenclatura. Uma forma sesquilinear que não é não-degenerada é dita ser degenerada.
• Formas sesquilineares não-singulares
Seja V um espaço vetorial e ω uma forma sesquilinear em V . Para u ∈ V fixo a aplicação lu (v) =
ω(u, v) é um funcional linear em V , ou seja, um elemento do espaço dual V ′ . Se a aplicação anti-linear
l : V → V ′ que associa cada u ∈ V ao funcional linear lu acima for um anti-isomorfismo8 de espaços

vetoriais a forma sesquilinear ω é dita ser uma forma sesquilinear não-singular.
• A desigualdade de Cauchy-Schwarz
De importância fundamental na teoria das formas sesquilineares é o seguinte teorema, que apresenta-
nos a importante desigualdade de Cauchy9 -Schwarz10 .
Teorema 2.6 Se ω é uma forma sesquilinear positiva, então é também Hermitiana, ou seja,
ω(u, v) = ω(v, u) ,
para todos os vetores u e v. Fora isso, vale a desigualdade de Cauchy-Schwarz: para todos os vetores
u e v,
|ω(u, v)|2 ≤ ω(u, u) ω(v, v) . (2.11)
Por fim, se ω é uma forma sesquilinear positiva e não-degenerada então ω(u, u) = 0 se e somente se
u = 0. 2
Prova. Faremos uso do fato que, para qualquer número complexo λ e quaisquer vetores u e v vale, pela
hipótese de positividade,
ω(u + λv, u + λv) ≥ 0 .
Escrevendo-se explicitamente o lado esquerdo temos a desigualdade
|λ|2 ω(v, v) + λ ω(u, v) + λ ω(v, u) + ω(u, u) ≥ 0 .
E. 2.29 Exercı́cio. Verifique isso. 6
Vamos agora escrever λ na forma λ = x + iy, onde x é a parte real de λ e y sua parte imaginária.
A última expressão fica
f (x, y) := (x2 + y 2 )ω(v, v) + (x + iy)ω(u, v) + (x − iy)ω(v, u) + ω(u, u) ≥ 0 .
Vamos decompor ω(u, v) e ω(v, u) nas suas partes reais e imaginárias, escrevendo
ω(u, v) = α + iβ e ω(v, u) = γ + iδ , (2.12)
onde α, β, γ e δ ∈ R. Ficamos com
f (x, y) = (x2 + y 2)ω(v, v) + (xα − yβ) + i(xβ + yα) + (xγ + yδ) + i(xδ − yγ) + ω(u, u) ≥ 0 . (2.13)
8
Definido à página 72.
9
10
Karl Herman Amandus Schwarz (1843-1921).
Como f (x, y) tem que ser real (e ≥ 0) segue que a parte imaginária da expressão acima deve ser nula
e, como ω(v, v) e ω(u, u) são reais, devemos ter
0 = (xβ + yα) + (xδ − yγ) = x(β + δ) + y(α − γ) .
Como isso deve valer para todos x, y ∈ R, segue que β = −δ e α = γ. Comparando com (2.12), isso
diz que
ω(u, v) = ω(v, u),
provando que ω é Hermitiano.
Com as relações β = −δ e α = γ a expressão (2.13) fica
f (x, y) = (x2 + y 2 )ω(v, v) + 2(xα − yβ) + ω(u, u) . (2.14)
Vamos agora considerar dois casos: um onde ω(v, v) = 0 e outro onde ω(v, v) 6= 0. No primeiro
f (x, y) = 2(xα − yβ) + ω(u, u) .
Assim, como ω(u, u) ≥ 0 pela positividade, a condição f (x, y) ≥ 0 é possı́vel para todos x e y ∈ R
se e somente se α = β = 0, ou seja, se e somente se ω(u, v) = 0 para todo u. Aqui a desigualdade de
Cauchy-Schwarz (2.11) é trivialmente satisfeita, pois ambos os lados são iguais a zero.
Passemos ao caso ω(v, v) 6= 0. Resta-nos provar a desigualdade de Cauchy-Schwarz (2.11) para
esse caso. Podemos reescrever o lado direito de (2.14) como
" 2 2 # 2
α β α + β2
f (x, y) = ω(v, v) x + + y− + ω(u, u) − .
ω(v, v) ω(v, v) ω(v, v)
Daı́, constatamos que f (x, y) ≥ 0 para todos x e y ∈ R se e somente se

2
α + β2
ω(u, u) − ≥ 0,
ω(v, v)
ou seja, se e somente se
ω(u, u)ω(v, v) ≥ α2 + β 2 .
O lado direito é, porém, |ω(u, v)|2 , e a última desigualdade significa
|ω(u, v)|2 ≤ ω(u, u)ω(v, v) ,
que é a desigualdade de Cauchy-Schwarz que querı́amos demonstrar.

Finalmente, se ω é uma forma sesquilinear positiva e não-degenerada e um certo vetor u é tal que
ω(u, u) = 0, segue pela desigualdade de Cauchy-Schwarz que ω(u, v) = 0 para todo v, o que implica
u = 0, pois ω é não-degenerada.
• A desigualdade de Minkowski
A desigualdade de Cauchy-Schwarz tem uma conseqüência de certa importância, a chamada desi-

gualdade de Minkowski11 : Se ω é uma forma sesquilinear positiva (em particular, se ω é um produto
escalar) então, para todos os vetores u e v, vale
ω(u − v, u − v)1/2 ≤ ω(u, u)1/2 + ω(v, v)1/2 . (2.15)
A demonstração é simples:
ω(u − v, u − v) = ω(u, u) − ω(u, v) − ω(v, u) + ω(v, v)
= ω(u, u) − 2Re (ω(u, v)) + ω(v, v)
≤ ω(u, u) + 2 |ω(u, v)| + ω(v, v)
≤ ω(u, u) + 2ω(u, u)1/2 ω(v, v)1/2 + ω(v, v)

2
= ω(u, u)1/2 + ω(v, v)1/2 ,
que é o que se queria demonstrar. Acima, na passagem da primeira para a segunda linha usamos a
Hermiticidade de ω e na passagem da terceira para a quarta linha, usamos a desigualdade de Cauchy-
Schwarz, ambos esses fatos sendo conseqüência do Teorema 2.6, página 121.
2.2.3 Produtos Escalares
• Produtos internos ou produtos escalares
Uma forma sesquilinear positiva ω é dita ser um produto escalar ou produto interno se satisfizer:
6. ω(u, u) = 0 se e somente se u = 0.
A proposição seguinte apresenta uma definição alternativa de produto escalar.

Proposição 2.3 Uma forma sesquilinear positiva é um produto escalar se e somente se for não-
degenerada. 2
Prova. Se ω é um produto escalar, então se u é tal que ω(u, v) = 0 para todo v, vale em particular
(tomando v = u) que ω(u, u) = 0 e, portanto, u = 0. Assim, todo o produto escalar é não-degenerado.
Reciprocamente, pelo Teorema 2.6, página 121, se ω é uma forma sesquilinear positiva e não-degenerada,
então vale automaticamente que ω(u, u) = 0 se e somente se u = 0
• Notações para produtos escalares

11
Hermann Minkowski (1864-1909).
Seguindo a convenção, denotaremos freqüentemente produtos escalares de dois vetores u e v não

por ω(u, v) mas por hu, vi. É freqüente também denotar um produto escalar de dois vetores u e v por
(u, v). Essa notação pode causar confusão com a de par ordenado e por isso a evitamos. Em textos
de Fı́sica é comum encontrar também a chamada notação de Dirac para produtos escalares: hu|vi. Por
diversas razões não compartilhamos do entusiasmo de alguns com essa notação e também a evitamos.
• Detalhando a definição de produto escalar
Como o conceito de produto escalar é muito importante, vamos detalhá-lo um pouco mais antes de
passarmos a exemplos.
Um produto escalar ou produto interno em um espaço vetorial V sobre o corpo dos complexos é
uma função V × V → C, denotada por hu, vi, para u, v ∈ V , com as seguintes propriedades:
1. O produto escalar é linear na segunda variável:
hu, αv + βwi = αhu, vi + βhu, wi
para todos u, v e w ∈ V e todos α, β ∈ C.
2. O produto escalar é anti-linear na primeira variável:
hαu + βv, wi = αhu, wi + βhv, wi
para todos u, v e w ∈ V e todos α, β ∈ C, onde α é o complexo conjugado de α ∈ C.
3. Conjugação complexa:
hu, vi = hv, ui
para todos u, v ∈ V .
4. Para todo u ∈ V
h0, ui = hu, 0i = 0 .
5. Positividade. Para todo vetor u não-nulo
hu, ui > 0 .
Nota. Alguns postulados da definição de produto escalar acima são redundantes, pois nem todos são
independentes. Nós os listamos apenas para ressaltar sua relevância individual. Por exemplo, o item
2 segue de 1 e 3 (por que?). O item 4 segue de 1 e 2 (por que?). Os itens 1, 2 e 5 implicam o item 3
(como veremos no Teorema 2.6). Independentes são apenas 1, 2 e 5 ou 1, 3 e 5.
Para um produto escalar de dois vetores vale a seguinte e importantı́ssima desigualdade, conhecida
como Desigualdade de Cauchy-Schwarz:
|hu, vi|2 ≤ |hu, ui||hv, vi| .
A demonstração (mais geral) é apresentada no Teorema 2.6, página 121.

Advertência. Em livros de Matemática definição de produto escalar é por vezes apresentada de forma
que se tenha linearidade na primeira variável e anti-linearidade na segunda variável. A convenção que
adotamos é oposta e é seguida, felizmente, por 100% dos textos de Fı́sica.
• Formas sesquilineares positivas e produtos escalares
Se V é um espaço vetorial dotado de uma forma sesquilinear positiva ω, existe uma maneira canônica
de construir a partir de V e ω um outro espaço vetorial dotado de um produto escalar.
Seja ω uma forma sesquilinear positiva em um espaço vetorial V . Então, existe um espaço vetorial
Ṽ , um produto escalar ω̃ e uma aplicação linear sobrejetora E : V → Ṽ tais que
ω̃(E(u), E(v)) = ω(u, v)
e que E(u) = 0 em Ṽ caso ω(u, u) = 0.

Para a mencionada construção, notemos em primeiro lugar que o conjunto de todos os vetores u
com a propriedade que ω(u, u) = 0 formam um sub-espaço de V . De fato, se u e v são dois vetores
desse tipo, teremos que
ω(αu + βv, αu + βv) = |α|2ω(u, u) + αβω(u, v) + αβω(v, u) + |β|2ω(v, v) = 0 ,
pois ω(u, u) = ω(v, v) = 0, por hipótese, e pois ω(v, u) = ω(u, v) = 0 em função da condição de
ω ser positivo (pela desigualdade de Cauchy-Schwarz). Vamos denominar esse sub-espaço por Z. O
espaço vetorial quociente Ṽ = V /Z (vide a construção da página 101) tem as propriedades desejadas.
A aplicação E : V → Ṽ é a aplicação que associa cada elemento de v de V à sua classe de equivalência
[v]: E : V ∋ v 7→ [v] ∈ Ṽ . Definimos então ω̃ por
ω̃([u], [v]) = ω(u, v) .
É um exercı́cio simples (faça) mostrar que essa definição de fato independe dos representantes, no caso
u e v, tomados nas classes [u] e [v].
E. 2.32 Exercı́cio. Mostre que ω̃ é de fato um produto escalar em Ṽ . 6
• Produtos escalares e formas simpléticas reais
Seja V um espaço vetorial complexo dotado de um produto escalar h·, ·i. Então, a expressão
ω(u, v) := Im(hu, vi) ,
u, v ∈ V , define uma forma simplética real em V . As condições de antisimetria (ω(u, v) = −ω(v, u))
e de linearidade por combinações lineares com escalares reais são elementares de se constatar. Que
ω é não-degenerada, segue do fato que se ω(u, v) = 0 para todo u valeria, tomando u = −iv, 0 =
Im(h − iv, vi) = hv, vi, o que implica v = 0.
Na Seção 2.5, página 140, veremos que, sob hipóteses adequadas, toda forma simplética real é a
parte imaginária de um produto escalar em um espaço complexo.
2.2.4 Exemplos
Para ilustrar os conceitos apresentados acima, passemos a alguns exemplos.
• Exemplos de formas sesquilineares e produtos escalares
Exemplo 2.1 Seja V = Cn . Um exemplo de produto escalar é dado pelo produto escalar usual:
n
X
ω(u, v) = hu, viC := uk vk , (2.16)
k=1
onde u = (u1 , . . . , un ) e v = (v1 , . . . , vn ). ◊

Exemplo 2.2 Seja V = Cn . Um exemplo de produto escalar é dado por
ω(u, v) = hAu, AviC ,
onde u = (u1 , . . . , un ), v = (v1 , . . . , vn ) e onde A é uma matriz n × n invertı́vel. ◊

Exemplo 2.3 Exemplo de uma forma sesquilinear Hermitiana que não é positiva. Seja V = Cn e seja
ω dado por
X n
ω(u, v) = hu, AviC = uk Akl vl ,
k, l=1
onde A é uma matriz n × n auto-adjunta, ou seja, seus elementos de matriz satisfazem Akl = Alk .
A assim definida ω é uma forma sesquilinear Hermitiana, mas em geral pode não ser positiva. Um
0 −i
caso concreto é o seguinte. Tomemos V = C2 e A = . Então, é fácil ver que ω(u, u) =
i 0
hu, AuiC = i(u1 u2 − u1 u2 ) = −2Im(u1 u2 ), que pode ser negativo ou mesmo nulo. Assim, essa ω não é
positiva. É fácil ver, porém, que essa ω é não-degenerada (mostre isso!). ◊
Exemplo 2.4 Exemplo de uma forma sesquilinear que não é Hermitiana. Seja V = Cn e seja dado
por
X n
ω(u, v) = hu, AviC = uk Akl vl ,
k, l=1
onde A é uma matriz n × n que não é auto-adjunta, ou seja, Akl 6= Alk para pelo menos um elemento
de matriz Akl . A assim definida ω é uma forma sesquilinear,
mas em geral pode não ser Hermitiana.
0 1
Um caso concreto é o seguinte. Tomemos V = C2 e A = . Então, é fácil ver que
0 0
ω(u, v) = hu, AviC = u1 v2 ,
enquanto que ω(v, u) = v1 u2 . Logo, ω(u, v) e ω(v, u) podem ser distintos e ω não é Hermitiana. Fora
isso, essa ω também não é positiva e é degenerada (mostre isso!). ◊
Exemplo 2.5 Exemplo de uma forma sesquilinear positiva mas que não é um produto escalar. Seja
V = Cn e seja ω dado por
ω(u, v) = hAu , AviC
onde A é uma matriz n × n não-invertı́vel. Então, existe u0 não-nulo tal que Au0 = 0. Daı́, segue que
ω(u0 , v) = hAu0 , AviC = 0 para todo v e, portanto, ω é degenerada e ω(u0, u0 ) = 0.

2 1 0
Um caso concreto é o seguinte. Tomemos V = C e A = . Note que A não é invertı́vel
0 0
b 0
(por que?). Aqui temos que ω(u, v) = u1 v1 . Note que todo vetor da forma u = é tal que
u2
Aub = 0 e, portanto ω(ub, v) = 0 para todo v. ◊
Na Seção 2.4, página 135, mostraremos como é a forma geral de formas bilineares, sesquilineares
e produtos escalares nos espaços de dimensão finita Rn e Cn . Tratemos agora de dois exemplos em
espaços vetoriais de dimensão infinita.
Exemplo 2.6 Seja V = C([a, b]) o espaço vetorial das funções contı́nuas complexas de um intervalo
fechado [a, b] da reta real (a < b). Seja p uma função contı́nua estritamente positiva definida em [a, b],
ou seja, p(x) > 0 para todo x ∈ [a, b]. Então, a expressão
Z b
ω(f, g) = f (x)g(x) p(x)dx ,
a
para funções f e g de V define um produto escalar em V (justifique!). ◊

Exemplo 2.7 Seja V = C([0, 1]) o espaço vetorial das funções contı́nuas complexas de um intervalo
fechado [0, 1] da reta real. Seja p uma função tal que p é contı́nua e estritamente positiva no intervalo
[0, 1/2) e identicamente nula no intervalo [1/2, 1]. Então, a expressão
Z 1
ω(f, g) = f (x)g(x) p(x)dx ,
0
para funções f e g de V define uma forma sesquilinear positiva em V , que não é um produto escalar
(justifique!). ◊
Exemplo 2.8 Considere o espaço vetorial Cn e o produto escalar usual: ω(u, v) = hu, viC =
P n
i=1 ui vi . A desigualdade de Cauchy-Schwarz implica
2 ! !
Xn n
X n
X

uivi ≤ |uj |2 |vk |2 . (2.17)

i=1 j=1 k=1
E. 2.33 Exercı́cio. Considere o espaço vetorial das funções contı́nuas no intervalo [0, 1] e o produto
R1
escalar ω(f, g) = 0 f (x)g(x) dx. Tomando as funções f (x) = x e g(x) = ex , use a desigualdade de
√
Cauchy-Schwarz para mostrar que e ≥ 7. 6
E. 2.34 Exercı́cio. Tente livremente obter outras desigualdades interessantes do mesmo estilo usando
esse método. 6
2.3 Normas em Espaços Vetoriais

Aqui trataremos exclusivamente de espaços vetoriais sobre o corpo dos complexos.
• Normas
Uma norma é uma função V → R usualmente denotada por k · k, com as seguintes propriedades.
1. Para todo v ∈ V tem-se kvk ≥ 0.
2. kvk = 0 se e somente se v for o vetor nulo: v = 0.
3. Para qualquer α ∈ C e qualquer v ∈ V tem-se kαvk = |α|kvk.
4. Para quaisquer vetores u e v ∈ V tem-se ku + vk ≤ kuk + kvk.
Por 3 e 4, vale que

kαu + βvk ≤ |α|kuk + |β|kvk
para quaisquer α, β ∈ C e quaisquer vetores u e v ∈ V .
Nota. As quatro condições acima, em verdade, não são logicamente independentes e listamo-as devido
à sua importância individual. Assim, por exemplo, a condição de positividade 1 segue das condições 4
e 3. Isso será mostrado logo abaixo (página 130) quando falarmos de semi-normas. Note também que,
pelo item 3 acima, tem-se k0k = 0 (tome α = 0).
Nota. A condição 4, acima, é de particular importância e é denominada desigualdade triangular.

Um espaço vetorial pode ter várias normas. Vide exemplos abaixo.
• Exemplos de normas em espaços vetoriais
Seja Cn = {(z1 , . . . , zn ), com z1 , . . . , zn ∈ C}, n ≥ 1, o espaço vetorial das n-uplas de números

complexos. Para z = (z1 , . . . , zn ) ∈ Cn , a expressão
n
X
kzk1 := |zk | (2.18)
k=1
define uma norma em Cn , denominada norma ℓ1 . Verifique! A expressão
kzk∞ := max{|z1 |, . . . , |zn |} (2.19)
também define uma norma em Cn . Verifique!

A norma (2.18) pode ser generalizada. Para cada p ∈ R, p ≥ 1, a expressão
" n # p1
X
kzkp := |zk |p (2.20)
k=1
também define uma norma em Cn , denominada norma ℓp . A única dificuldade em provar isso reside
em demonstrar a desigualdade triangular kz + wkp ≤ kzkp + kwkp para quaisquer z, w ∈ Cn . Isso será
feito com mais generalidade (para espaços de seqüências) na Seção 17.4.1, página 964 (vide expressão
(17.26) do Teorema 17.2, página 968).
Seja C([a, b], C) o espaço vetorial das funções complexas contı́nuas definidas no intervalo [a, b] ⊂ R.
A expressão Z b
kf k1 := |f (x)| dx , (2.21)
a
f ∈ C([a, b], C), define uma norma em C([a, b], C), denominada norma L1 . Verifique! A expressão
kf k∞ := sup |f (x)| , (2.22)

x∈[a, b]
f ∈ C([a, b], C), também define uma norma em C([a, b], C), denominada norma do supremo.
Verifique!
A norma (2.21) pode ser generalizada. Para cada p ∈ R, p ≥ 1, a expressão
Z b p1
kf kp := |f (x)|p dx , (2.23)
a
f ∈ C([a, b], C), define uma norma em C([a, b], C), denominada norma Lp . A única dificuldade em
provar isso reside em demonstrar a desigualdade triangular kf + gkp ≤ kf kp + kgkp para quaisquer
f, g ∈ C([a, b], C). Isso será feito com mais generalidade (para funções em espaços mensuráveis) na
Seção 23.4.1, página 1167. Vide expressão (23.41) do Teorema 23.7, página 1167.
• Equivalência de normas
Definição. Duas normas k · k1 e k · k2 em um espaço vetorial V são ditas equivalentes se existirem duas
constantes positivas c1 e c2 , com 0 < c1 ≤ c2 , tais que
c1 kvk1 ≤ kvk2 ≤ c2 kvk1
para todo vetor v ∈ V . A importância da noção de equivalência de normas se manifesta no fato que
duas normas equivalentes geram a mesma topologia métrica.
E. 2.35 Exercı́cio. Mostre que a relação de equivalência entre normas é uma relação de equivalência. 6
E. 2.36 Exercı́cio. Mostre que as normas k · k1 e k · k∞ do espaço Cn , definidas em (2.18) e (2.19),

respectivamente, são equivalentes. 6
Tem-se o seguinte teorema, cuja demonstração pode ser encontrada, por exemplo, em [156]:
Teorema 2.7 Em um espaço vetorial de dimensão finita sobre C ou R todas as normas são equiva-
lentes. 2
A afirmação desse teorema é freqüentemente falsa em espaços de dimensão infinita. Isso é atestado
no Exercı́cio E. 2.37.
E. 2.37 Exercı́cio. As normas k · k1 e k · k∞ do espaço C([a, b], C), definidas em (2.21) e (2.22),
respectivamente, não são equivalentes. É fácil ver que kf k1 ≤ (b − a)kf k∞ para toda f ∈ C([a, b], C)
(faça!). Seja, porém, a famı́lia de funções fα (x) = e−α(x−a) ∈ C([a, b], C) com α > 0. É fácil ver
que kfα k∞ = 1 e kfα k1 = α1 (1 − e−α(b−a) ) (faça!). Mostre que não existe nenhuma constante c tal que
kfα k∞ ≤ ckfα k1 para todo α > 0. 6
• Semi-Normas
Uma semi-norma é uma função V → R usualmente denotada por k·k, com as seguintes propriedades.
1. Para todo v ∈ V tem-se kvk ≥ 0.
2. Para qualquer α ∈ C e qualquer v ∈ V tem-se kαvk = |α|kvk.
3. Para quaisquer vetores u e v ∈ V tem-se ku + vk ≤ kuk + kvk.
Note-se que, pelo item 2, vale para uma semi-norma que k0k = 0. É evidente pelas definições que
toda norma é uma semi-norma. A diferença entre norma e semi-norma é que para uma semi-norma a
relação kvk = 0 não necessariamente implica v = 0.
Para uma semi-norma (ou norma) vale a desigualdade

kak ≥ ka − bk − kbk , (2.24)
para quaisquer a, b ∈ V . Como faremos uso da mesma no futuro, vamos apresentar sua demonstração
aqui, que é uma conseqüência direta da desigualdade triangular.
A desigualdade triangular diz-nos que
ka − bk ≤ kak + kbk (2.25)
e que
kbk = ka − (a − b)k ≤ kak + ka − bk . (2.26)
De (2.25) segue que
kak ≥ ka − bk − kbk
e de (2.26) que
kak ≥ −(ka − bk − kbk).
Quando dois números reais x e y são tais que x ≥ y e x ≥ −y então x ≥ |y|. Assim, as duas últimas
desigualdades dizem que

kak ≥ ka − bk − kbk ,
que é o que querı́amos provar.
Essa desigualdade diz, incidentalmente, que kak ≥ 0 para todo vetor de V . Isso mostra que o item
1 da definição de semi-norma e de norma é supérfluo.
Note-se também que se fizermos em (2.24) as substituições a → a − b, b → −b, obtemos

kak − kbk ≤ ka − bk , (2.27)
para quaisquer a, b ∈ V . Essa desigualdade será empregada algumas vezes neste texto.
• Equivalência entre semi-normas
Há uma noção de equivalência entre semi-normas que é idêntica à de equivalência entre normas.
• A norma associada a um produto escalar
Se ω é um produto escalar em um espaço vetorial V existe associada a ω uma norma k · kω dada

por
kvkω = ω(v, v)1/2 ,
v ∈V.
E. 2.38 Exercı́cio. Mostre que os postulados da definição de norma são de fato satisfeitos. 6
• Invariância de normas associadas a produtos escalares
Se uma norma em um espaço vetorial V é produzida por um produto escalar, como acima, existe
naturalmente um grupo de transformações lineares de V em V que mantem essa norma invariante.
Esse grupo é discutido
pna Seção 14.2.3, página 777. Por exemplo, a chamada norma Euclidiana de Rn ,
definida por kxk = hx, xiR para x ∈ Rn , é invariante pelo grupo O(n) das matrizes ortogonais, ou
seja, das matrizes R, reais n × n, que satisfazem RT R = 1. Isso significa que kRxk = kxk para toda
R ∈ O(n). O grupo O(n) e seus amigos são discutidos na Seção 14.2.4, página 779 e seguintes.
• A desigualdade triangular
Talvez a principal conseqüência da desigualdade de Minkowski (2.15) seja a seguinte. Vamos supor
que ω seja um produto escalar. Então podemos definir12 uma métrica ou distância entre dois vetores
a e b por
dω (a, b) := ka − bkω = ω(a − b, a − b)1/2 .
Como ω é um produto escalar, segue que dω (a, b) = 0 se e somente se a = b (por que?). É também
claro que dω (a, b) = dω (b, a) (por que?). Fora isso, segue da desigualdade de Minkowski que para
quaisquer vetores a, b e c vale
dω (a, b) ≤ dω (a, c) + dω (c, b).
12
As noções de métrica e de espaços métricos serão discutidas no Capı́tulo 17.
Para ver isso, note que

dω (a, b) = ω(a − b, a − b)1/2
= ω((a − c) − (b − c), (a − c) − (b − c))1/2
≤ ω(a − c, a − c)1/2 + ω(b − c, b − c)1/2
= dω (a, c) + dω (c, b) .
Acima, na passagem da segunda à terceira linha, usamos a desigualdade de Minkowski com u = a − b
e v = b − c.
A desigualdade dω (a, b) ≤ dω (a, c) + dω (c, b) é importante no estudo de propriedades topológicas
de espaços vetoriais e é denominada desigualdade triangular (pergunta ao estudante: de onde vem esse
nome?).
Note que a desigualdade triangular vale também se ω não for um produto escalar, mas apenas uma
forma sesquilinear positiva (por que?). Nesse caso é também verdade que dω (a, b) = dω (b, a), porém,
não é mais verdade que dω (a, b) = 0 se e somente se a = b e, por isso, dω é dita ser uma pseudo-métrica.
• Norma e produto escalar
Se um espaço vetorial V possuir um produto

p escalar então, como observamos, é possı́vel definir nele
uma norma da seguinte forma: kuk = hu, ui, u ∈ V .
A norma assim definida possui duas propriedades importantes que mencionamos aqui: a identidade
do paralelogramo e a identidade de polarização.
Identidade do paralelogramo: Para todos os vetores u, v ∈ V vale
ku + vk2 + ku − vk2 = 2kuk2 + 2kvk2 . (2.28)
Prova. Tem-se simplesmente pelas definições que

ku + vk2 = hu + v, u + vi = kuk2 + hu, vi + hv, ui + kvk2
e
ku − vk2 = hu − v, u − vi = kuk2 − hu, vi − hv, ui + kvk2 .
Somando-se ambas tem-se o resultado desejado.
E. 2.39 Exercı́cio. Por que (2.28) é chamada “identidade do paralelogramo”? 6
E. 2.40 Exercı́cio. Usando a identidade do paralelogramo demonstre a identidade de Apolônio13 :

2
1 (x + y)
kz − xk + kz − yk = kx − yk + 2
2 2 2
z− ,
2 2
válida para todos os vetores x, y, z ∈ V . 6
13
Apolônio de Perga (ci. 261 A.C. – ci. 190 A.C.).
Identidade de polarização: Para todos os vetores u, v de um espaço vetorial complexo V vale

3
1 X −n
hu, vi = i ku + in vk2 , (2.29)
4 n=0
3
1X n
hu, vi = i ku + i−n vk2 , (2.30)
4 n=0
ou seja,
4hu, vi = ku + vk2 − ku − vk2 − iku + ivk2 + iku − ivk2 .
Prova. Exercı́cio. Expanda o lado direito e verifique a igualdade.
E. 2.41 Exercı́cio. Por que essa relação é chamada “identidade de polarização”? 6
Notemos que, com a definição dada acima de norma associada a um produto escalar, a desigualdade
de Cauchy-Schwarz fica
|hu, vi| ≤ kukkvk .
• A identidade de polarização
A identidade de polarização mencionada acima é um caso especial de uma outra ligeiramente mais
geral, também denominada identidade de polarização. Seja A um operador linear em um espaço vetorial
V sobre os complexos e sejam u e v elementos de seu domı́nio. Então vale que
3
1 X −n
hu, Avi = i h(u + in v), A(u + in v)i , (2.31)
4 n=0
3
1X n
hu, Avi = i h(u + i−n v), A(u + i−n v)i , (2.32)
4 n=0
E. 2.42 Exercı́cio. Mostre isso. Sugestão: expanda o lado direito das igualdades acima e constate as
igualdades. 6
Tomando-se A como o operador identidade reobtem-se as identidades (2.29)-(2.30).

A relação (2.31) mostra que se para um operador linear A conhecermos todas as quantidades
hψ, Aψi para todos os vetores ψ ∈ V , então conhecemos também todas as quantidades hu, Avi para
todos u, v ∈ V .
Para a fı́sica quântica a identidade de polarização (2.31) diz que se A for um observável (operador
auto-adjunto), então o conhecimento de todos os valores esperados de A, ou seja, das quantidades
hψ, Aψi com kψk = 1 e dos produtos escalares hu, vi para vetores com kuk = kvk = 1, fixa todas as
probabilidades de transição |hu, Avi|2 , pois
3
1 X −n
hu, Avi = i hψn , Aψn i (2 + in hu, vi + i−n hv, ui) , (2.33)
4 n=0
onde
1 1
ψn = n
(u + in v) = p (u + in v) .
ku + i vk n −n
2 + i hu, vi + i hv, ui
• Uma conseqüência da identidade de polarização
A relação (2.31) permite-nos facilmente provar a seguinte afirmação, freqüentemente empregada:

Proposição 2.4 Se um operador linear A agindo em um espaço vetorial complexo V satisfaz hu, Aui =
0 para todo vetor u ∈ V então A = 0. 2
Para matrizes reais em espaços vetoriais reais não vale uma afirmativa tão forte. Por exemplo,
se V = Rn e A for uma matriz anti-simétrica, ou seja AT = −A, então vale automaticamente que
Xn
hx, AxiR = xa Aab xb = 0, pois Aab = −Aba para todo x ∈ Rn . Porém, A pode ser não-nula.
a, b=1
Todavia, para matrizes simétricas vale o seguinte:

Proposição 2.5 Seja M ∈ Mat (R, n) uma matriz simétrica (ou seja, tal que M T = M) para a qual
valha que hx, MxiR = 0 para todo x ∈ Rn . Então M = 0. 2
Prova. Se M é uma matriz simétrica, é fácil verificar que para quaisquer vetores u e v ∈ Rn tem-se
1
hu, MviR = [h(u + v), M(u + v)iR − h(u − v), M(u − v)iR ] .
4
(Para provar isso expanda o lado direito e use que hu, MviR = hv, MuiR , pois M é simétrica). Logo,
da hipótese sobre M, segue que hu, MviR = 0 para todos u e v ∈ Rn e, portanto, M = 0
• Obtendo produtos escalares a partir de normas
Nas últimas páginas vimos que podemos obter uma norma a partir de um produto escalar e que
essa norma satisfaz a identidade do paralelogramo, expressão (2.28). Podemos nos perguntar: se uma
norma for dada em um espaço vetorial complexo, seria possı́vel obter um produto escalar a partir dessa
norma?
A resposta a essa questão é fornecida por um teorema devido a Fréchet14 , von Neumann15 e Jordan16 ,
teorema esse sugerido pela identidade de polarização, expressão (2.29), página 133.
Teorema 2.8 (Teorema de Fréchet, von Neumann e Jordan) Seja V um espaço vetorial com-
plexo, normado com norma k · k e vamos supor que essa norma satisfaça a identidade do paralelogramo
ka + bk2 + ka − bk2 = 2kak2 + 2kbk2 (2.34)

14
Maurice Renés Fréchet (1878-1973).
15
János von Neumann (1903-1957). Von Neumann também adotou os nomes de Johann von Neumann e John von
Neumann.
16
Ernst Pascual Jordan (1902–1980).
para todos a, b ∈ V . Defina-se, para u, v ∈ V ,

3
1 X −n
ω(u, v) := i ku + in vk2 . (2.35)
4 n=0
Então, ω é um produto escalar em V .

Com essa definição, vale ω(u, u) = kuk2 para todo u ∈ V e, portanto, a norma associada ao produto
escalar ω é a própria norma k · k. Com isso, reconhecemos que (2.35) coincide com a identidade de
polarização para o produto escalar ω.
Concluı́-se, então, que uma norma é associada a um produto escalar se e somente se satisfizer a
identidade do paralelogramo. 2
A demonstração do Teorema de Fréchet, von Neumann e Jordan encontra-se no Apêndice 2.A,

página 149. Vide também [155] ou [83] para outras demonstrações essencialmente idênticas.
A demonstração do Teorema 2.8 é engenhosa e a principal dificuldade consiste em demonstrar que
(2.35) é uma forma sesquilinear, um fato um tanto surpreendente se observarmos que o lado direito
de (2.35) contém uma soma de normas, que não são sequer funções lineares, satisfazendo apenas
kαuk = |α| kuk e kαu + βvk ≤ |α| kuk + |β| kvk para todos α, β ∈ C e todos u, v ∈ V .
Mencionemos, por fim, que nem toda norma satisfaz a identidade do paralelogramo e, portanto,
nem toda norma é associada a um produto escalar e, assim, nem sempre é possı́vel definir um produto
escalar a partir de uma norma. Os Exercı́cios E. 2.43 e E. 2.44, servem como exemplo de tais situações.
E. 2.43 Exercı́cio. Seja o espaço vetorial V = C([0, 1], C) das funções contı́nuas do intervalo [0, 1]
assumindo valores complexos e seja a norma kf k∞ = supx∈[0, 1] |f (x)|. Mostre que a identidade do pa-
ralelogramo não é satisfeita para as funções f (x) = x e g(x) = 1, x ∈ [0, 1], que são elementos de V .
6
E. 2.44 Exercı́cio. Seja o espaço vetorial V = Cn , com n ≥ 2. Para a = (a1 , . . . , an ) ∈ Cn a expressão

kakp := [|a1 |p + · · · + |an |p ]1/p , define uma norma em V = Cn , caso p ≥ 1. Mostre que essa norma viola
a identidade do paralelogramo para todo p 6= 2. Para tal considere os vetores u = (1, 0, 0, . . . , 0) e
v = (0, 1, 0, . . . , 0). A norma k · kp será discutida com mais detalhe no Capı́tulo 17. 6
2.4 Formas Bilineares e Sesquilineares em Espaços de Di-

mensão Finita
É possı́vel estabelecer a forma geral de uma forma bilinear ou sesquilinear em certos espaços vetoriais,
como os espaços de dimensão finita Rn ou Cn . É o que discutiremos nesta seção.
Faremos uso do chamado Teorema da Representação de Riesz, que afirma o seguinte.
Teorema 2.9 (Teorema da Representação de Riesz) Seja l um funcional linear contı́nuo em um
espaço de Hilbert H (com um produto escalar h·, ·iH). Então existe φ ∈ H, único, tal que
l(x) = hφ, xiH, ∀x ∈ H .
A demonstração desse importante teorema pode ser encontrada na Seção 25.3.1, página 1245. No-
temos que esse teorema se aplica aos espaços vetoriais Rn ou Cn , pois os mesmos são espaços de Hilbert
em relação aos produtos escalares h·, ·iR e h·, ·iC , respectivamente, definidos em (2.6) e (2.16) (páginas
115 e 126).
• Continuidade
Vamos provar a seguinte afirmação: toda forma bilinear em Rn é contı́nua (em ambas as variáveis),
o mesmo valendo para formas bilineares ou sesquilineares em Cn .
Vamos provar a afirmação para as formas sesquilineares em Cn . Os outros casos são idênticos. Seja
ω uma forma sesquilinear em Cn . Para vetores x, y ∈ Cn , y 6= 0, escrevemos
ω(x, y) = kyk ω(x, y/kyk) , (2.36)

p
onde kyk = hy, yiC . Notemos então que se v é um vetor de norma igual a 1 e {b1 , . . . , bn } é uma
base ortonormal em Cn então v = v1 b1 + · · · + vn bn com |vj | ≤ 1. Assim,
ω(x, v) = v1 ω(x, b1 ) + · · · + vn ω(x, bn )
e, portanto,
|ω(x, v)| ≤ |ω(x, b1 )| + · · · + |ω(x, bn )|
Para cada x fixo o lado direito é uma constante Kx e não depende de v. Aplicando isso a (2.36),
teremos
|ω(x, y)| ≤ kykKx .
Isso mostra que
lim |ω(x, y)| = 0
y→0
para todo x fixo. Como ω(x, y) é linear na segunda variável, segue que
lim ω(x, y) = ω(x, y0 ) ,

y→y0
para todo y0 ∈ Cn , provando a continuidade de ω na segunda variável. A prova para a primeira variável
é idêntica. Os casos em que ω é bilinear em Rn ou em Cn é análogo.
• Formas sesquilineares em Cn
Seja ω uma forma sesquilinear em Cn . Então, pelo que acabamos de ver, para cada x ∈ Cn
lx : Cn → C, lx (y) = ω(x, y)
é um funcional linear e contı́nuo. Pelo Teorema da Representação de Riesz existe um único vetor
ηx ∈ Cn tal que lx (y) = hηx , yiC para todo y ∈ Cn , ou seja,
ω(x, y) = hηx , yiC .
Seja A a função que a cada x ∈ Cn associa o (único!) vetor ηx com a propriedade acima: A(x) = ηx .
Tem-se,
ω(x, y) = hA(x), yiC . (2.37)
Afirmamos que A é um operador linear, ou seja, A(α1 x1 + α2 x2 ) = α1 A(x1 ) + α2 A(x2 ) para todos
os números complexos α1 e α2 e todos os vetores x1 e x2 . De fato, por (2.37),
hA(α1 x1 + α2 x2 ), yiC = ω(α1x1 + α2 x2 , y)
= α1 ω(x1 , y) + α2 ω(x2 , y)
= α1 hA(x1 ), yiC + α2 hA(x2 ), yiC
= hα1 A(x1 ) + α2 A(x2 ), yiC .
Assim, para todo y ∈ Cn tem-se
h [A(α1 x1 + α2 x2 ) − α1 A(x1 ) − α2 A(x2 )] , yiC = 0 ,
o que implica
A(α1 x1 + α2 x2 ) = α1 A(x1 ) + α2 A(x2 ) ,
que é o que querı́amos provar. Assim, A é em verdade um operador linear. Resumimos esses fatos no
seguinte teorema:
Teorema 2.10 Para toda forma sesquilinear ω em Cn existe uma matriz n × n complexa Aω tal que
ω(x, y) = hAω x, yiC ,
para todos x, y ∈ Cn . 2
Esse teorema estabelece assim a forma geral das formas sesquilineares em Cn .
• Formas bilineares em Rn
Seja ω uma forma bilinear em Rn . Então, para cada x ∈ Rn
lx : Rn → R : lx (y) = ω(x, y)
é um funcional linear e contı́nuo. Pelo Teorema da Representação de Riesz existe um único vetor
ηx ∈ Rn tal que lx (y) = hηx , yiR , ou seja,
ω(x, y) = hηx , yiR .

Seja A a função que a cada x ∈ Rn associa o (único!) vetor ηx com a propriedade acima: A(x) = ηx .
De maneira análoga ao que fizemos acima podemos provar que A é um operador linear, ou seja, uma
matriz n × n real e ω(x, y) = hAx, yiR .
Resumimos esses fatos no seguinte teorema:
Teorema 2.11 Para toda forma bilinear ω em Rn existe uma matriz n × n real Aω tal que
ω(x, y) = hAω x, yiR ,
para todos x, y ∈ Rn . 2
Esse teorema estabelece assim a forma geral das formas bilineares em Rn .
• Formas bilineares em Cn
Seja ω uma forma bilinear em Cn . Então

ωs (x, y) = ω(x, y)
define uma forma sesquilinear em Cn , onde x = (x1 , . . . , xn ) para x = (x1 , . . . , xn ) ∈ Cn . Pelo que
provamos acima, portanto, existe uma matriz complexa Aω tal que
ωs (x, y) = hAω x, yiC ,
para todos x, y ∈ Cn , ou seja,
ω(x, y) = hAω x, yiC ,
para todos x, y ∈ Cn .
Note que isso também diz que
ω(x, y) = hAω x, yiR ,
onde Aω é o complexo conjugado da matriz Aω .
Resumimos esses fatos no seguinte teorema:
Teorema 2.12 Para toda forma bilinear ω em Cn existe uma matriz n × n complexa Aω tal que
ω(x, y) = hAω x, yiR
para todos x, y ∈ Cn . 2
Esse teorema estabelece assim a forma geral das formas bilineares em Cn .
• Formas simpléticas
Se ω é uma forma bilinear alternante em Rn ou Cn , ou seja, ω é bilinear e ω(x, y) = −ω(y, x),

então ω é da forma ω(x, y) = hA x, yiR onde A é uma matriz anti-simétrica, ou seja, AT = −A. De
fato, como hx, yiR = hy, xiR e como ω(x, y) = −ω(y, x), segue que
hA x, yiR = −hA y, xiR = −h y, AT xiR = −hAT x, yiR .
Como isso vale para todo x, y ∈ Rn (ou Cn ), tem-se AT = −A.

Isso determina a forma geral de uma forma bilinear alternante em Rn ou Cn .
Se ω é uma forma simplética, ou seja, ω é uma forma bilinear alternante não-degenerada, então A
tem que ser também invertı́vel. De fato, se hAx, yiR = 0 para todo y, então Ax = 0. Se A é invertı́vel
isso só é possı́vel se x = 0.
Uma conseqüência do fato de A ter de ser invertı́vel é que n tem que ser par. De fato, a condição
AT = −A diz que det(A) = det(−AT ) = (−1)n det(AT ) = (−1)n det(A). Portanto, se n é ı́mpar
terı́amos det(A) = 0.
A conclusão é que formas simpléticas só ocorrem nos espaços de dimensão finita Rn ou Cn se a
dimensão n for par, e nesse caso, têm a forma ω(x, y) = hAx, yiR , onde A é invertı́vel e satisfaz
AT = −A.
• Formas sesquilineares Hermitianas em Cn
Se ω é uma forma sesquilinear Hermitiana em Cn , tem-se ω(x, y) = ω(y, x). Se A é a matriz tal
que hAx, yiC = ω(x, y), então
hAx, yiC = hAy, xiC = hx, AyiC = hA∗ x, yiC ,
onde A∗ := AT é a adjunta de A. Como a última relação vale para todo x, y ∈ Cn , tem-se A = A∗ , ou

seja, A é uma matriz auto-adjunta.
Portanto, a forma geral de uma forma sesquilinear Hermitiana em Cn é hAx, yiC , onde A é uma
matriz auto-adjunta.
• Produtos escalares em Cn
Se ω é um produto escalar em Cn , ω é sesquilinear Hermitiana e ω(x, x) > 0 se x 6= 0. Se A é a

matriz tal que hAx, yiC = ω(x, y), então
hAx, xiC > 0 (2.38)
se x 6= 0. Uma conseqüência disso é o seguinte: se vi é um dos autovetores de A com autovalor λi ,

então λi > 0. De fato, tomando x = vi em (2.38), teremos17 0 < hAvi , vi iC = λi hvi , vi iC , o que implica
λi > 0. Esse fato, em particular, nos diz que A é invertı́vel (pois o determinante de A é o produto de
seus autovalores).
Outra conseqüência dessas observações é a seguinte. É bem sabido que os autovetores vi de uma
matriz auto-adjunta A podem ser escolhidos de modo a formar uma √ base ortonormal (vide Teorema
3.13, página 200). Vamos definir uma matriz B de modo que Bvi = λi vi para todos os autovetores
vi de A. Isso define a ação de B nos vetores de uma base e, portanto, B fica definida em toda parte18 .
É fácil provar que B assim definida é também auto-adjunta, B ∗ = B, e que B 2 = A. Claramente
B é também invertı́vel e tem autovalores > 0.
17
Lembre-se que os autovalores de uma matriz auto-adjunta são sempre números reais.
18
Para o estudante mais avançado: aqui poderı́amos usar também o teorema espectral, Teorema 3.5.
E. 2.45 Exercı́cio. Mostre esses fatos. 6
Disso concluı́mos que

ω(x, y) = hAx, yiC = hBx, ByiC .
Em resumo, se ω é um produto escalar em Cn então existe uma (única) matriz auto-adjunta Bω ,

invertı́vel e com autovalores > 0 tal que
ω(x, y) = hBω x, Bω yiC
para todo x, y ∈ Cn .
2.5 Estruturas Complexas sobre Espaços Vetoriais Reais

Seja V um espaço vetorial real. Em V está, portanto, definido um produto por escalares reais: x v ∈ V ,
onde x ∈ R e v ∈ V . Sob certas circunstâncias é possı́vel transformar V em um espaço vetorial complexo
definindo um produto por escalares complexos: z · v ∈ V para z ∈ C e v ∈ V . Também sob hipóteses,
um produto escalar complexo pode ser definido em V .
Suponha que exista um operador linear J : V → V , agindo em V , com a propriedade J 2 = −1,
onde 1 denota o operador identidade. Se z ∈ C é da forma z = x + iy com x, y ∈ R, defina-se em V o
produto por escalares complexos por
(x + iy) · v := xv + yJv . (2.39)
As seguintes propriedades poder ser facilmente verificadas como exercı́cio:
1. O produto por escalares complexos (2.39) é associativo:
α · (β · u) = (αβ) · u ,
para todos α, β ∈ C e u ∈ V , onde αβ é o produto de α por β em C,
2. 1 · u = u para todo u ∈ V .
3. O produto por escalares complexos (2.39) é distributivo em relação à soma de vetores:
α · (u + v) = α · u + α · v ,
para todo α ∈ C e todos u, v ∈ V .
4. O produto por escalares complexos (2.39) é distributivo em relação à soma de escalares:
(α + β) · u = α · u + β · u ,
para todos α, β ∈ C e todo u ∈ V .

Portanto, pela definição da Seção 1.2.3, página 58, V é um espaço vetorial complexo com o produto
definido acima. Vamos denotar por VJ esse espaço vetorial complexo, para não confundı́-lo com V , que
é um espaço vetorial real. Note que os vetores de V e de VJ são os mesmos, mas V e VJ representam
estruturas diferentes. VJ é dito ser uma estrutura complexa sobre o espaço vetorial real V .
Uma questão de grande interesse, especialmente no contexto das chamadas álgebras CAR e CCR
(vide [18]) que descrevem as álgebras de comutação e anticomutação canônicas da Mecânica Quântica
e das Teorias Quânticas de Campos (que descrevem modelos fermiônicos19 e bosônicos20 ), é saber se
é possivel introduzir um produto escalar complexo no espaço complexo VJ . Como veremos no que
segue, tal é possivel se houver em V uma forma simplética real ou um produto escalar real satisfazendo
certas hipóteses. Desenvolveremos primeiro as idéias gerais e apresentaremos exemplos posteriormente,
à página 144.
• Formas simpléticas reais e produtos escalares reais
Para mostrar como construir produtos escalares complexos no espaço complexo VJ precisamos do
seguinte resultado preparatório, que tem interesse por si só, por estabelecer uma relação entre formas
simpléticas21 reais e produtos escalares reais.
Lema 2.1 Seja V um espaço vetorial real e suponha que exista um operador linear J : V → V
satisfazendo J 2 = −1. Valem as seguintes afirmações
I. Se ε : V × V → R é um produto escalar real em V satisfazendo
ε(Ju, v) = −ε(u, Jv)
para todos u , v ∈ V , então σ : V × V → R definida para todos u, v ∈ V por
σ(u, v) := ε(Ju, v) = −ε(u, Jv) (2.40)
é uma forma simplética real e satisfaz
(a) σ(Ju, v) = −σ(u, Jv) para todos u , v ∈ V ,

(b) σ(u, Ju) ≥ 0 para todo u ∈ V .
II. Se σ : V × V → R é uma forma simplética real em V satisfazendo

(b) σ(u, Ju) ≥ 0 para todo u ∈ V ,
então ε : V × V → R definida para todos u, v ∈ V por
ε(u, v) := σ(u, Jv) = −σ(Ju, v) (2.41)
é um produto escalar real e satisfaz

19
Enrico Fermi (1901-1954).
20
Satyendra Nath Bose (1894-1974).
21
Para a definição, vide página 116.
(a) ε(Ju, v) = −ε(u, Jv) para todos u , v ∈ V .
Prova da parte I. Pelas hipóteses, ε é um produto escalar real e, portanto, é uma forma bilinear real,
positiva, simétrica e não-degenerada. Que σ definida em (2.40) é uma forma bilinear é evidente. Para
todos u, v ∈ V tem-se
simetria
σ(u, v) = ε(Ju, v) = −ε(u, Jv) = −ε(Jv, u) = −σ(v, u) ,
provando que σ é uma forma alternante. Se σ(u, v) = 0 para todo v ∈ V , então ε(Ju, v) = 0 para
todo v ∈ V . Mas como ε é não-degenerada, segue que Ju = 0, o que implica u = 0, pois J 2 = −1. Isso
provou que σ é não degenerada e, portanto, é uma forma simplética. Note-se agora que
σ(u, Jv) = ε(Ju, Jv) = −ε(u, J 2 v) = ε(u, v) = −σ(Ju, v) .
Por fim, σ(u, Ju) = ε(Ju, Ju) ≥ 0, pois ε é um produto escalar. Pelo mesmo motivo, ε(Ju, Ju) = 0
se e somente se Ju = 0. Como J 2 = −1, isso implica u = 0. Isso provou as afirmações da parte I.
Prova da parte II. Pelas hipóteses, σ é uma forma simplética real e, portanto, é uma forma bilinear real,
alternante e não-degenerada. Que ε definida em (2.41) é uma forma bilinear é evidente. Para todos
u, v ∈ V tem-se
alternância
ε(u, v) = σ(u, Jv) = −σ(Ju, v) = σ(v, Ju) = ε(v, u) ,
provando que ε é uma forma simétrica. Se ε(u, v) = 0 para todo v ∈ V , então σ(u, Jv) = 0 para todo
v ∈ V . Mas como σ é não-degenerada, segue que u = 0, provando que ε é uma forma não-degenerada.
Para todo u tem-se também ε(u, u) = σ(u, Ju) ≥ 0, por hipótese, provando que ε é uma forma
positiva. Assim, pela Proposição 2.3, página 123, ε é um produto escalar. Note-se agora que, por
definição, ε(u, v) = −σ(Ju, v) para todos u , v ∈ V . Disso segue que σ(u, v) = ε(Ju, v) e que
ε(u, Jv) = −σ(Ju, Jv) = σ(u, J 2 v) = −σ(u, v) = −ε(Ju, v) .
Isso provou as afirmações da parte II.
• Produtos escalares complexos sobre estruturas complexas
A proposição que segue mostra como se pode construir em VJ um produto escalar complexo se for
fornecida uma forma simplética real ou um produto escalar real em V satisfazendo certas hipóteses.
Proposição 2.6 Suponhamos que V seja um espaço vetorial real e que exista J : V → V , um operador
linear em V , satisfazendo J 2 = −1. Então valem as seguintes afirmações:
A. Se existir uma forma simplética real σ : V × V → R satisfazendo

(b) σ(u, Ju) ≥ 0 para todo u ∈ V 22 ,
então, V × V ∋ (u, v) 7→ hu, viJ, σ ∈ C definida por
hu, viJ, σ := σ(u, Jv) + iσ(u, v)
para todos u, v ∈ V , é um produto escalar complexo sobre a estrutura complexa VJ .
B. Se existir um produto escalar real ε : V × V → R satisfazendo
(a) ε(Ju, v) = −ε(u, Jv) para todos u , v ∈ V ,
então, V × V ∋ (u, v) 7→ hu, viJ, ε ∈ C definida por
hu, viJ, ε := ε(u, v) + iε(Ju, v)
para todos u, v ∈ V , é um produto escalar complexo sobre a estrutura complexa VJ .
Prova. Mostremos em primeiro lugar que as hipóteses das partes A e B são equivalentes. Pelo Lema 2.1,
página 141, a existência de uma forma simplética real σ satisfazendo as hipóteses da parte A implica
a existência de um produto escalar real ε dado por ε(u, v) := σ(u, Jv) = −σ(Ju, v) satisfazendo as
hipóteses da parte B, sendo que, por essa definição de ε,
σ(u, Jv) + iσ(u, v) = ε(u, v) + iε(Ju, v) . (2.42)
Reciprocamente, também pelo Lema 2.1, página 141, a existência de um produto escalar real ε sa-
tisfazendo as hipóteses da parte B implica a existência de uma forma simplética real σ dada por
σ(u, v) := ε(Ju, v) = −ε(u, Jv) satisfazendo as hipóteses da parte A, sendo que, por essa definição
de σ, a igualdade (2.42) é também válida. Assim, é suficiente provarmos, digamos, a parte A.
Prova da parte A. É evidente que para quaisquer u, v, w ∈ V valem
h(u + v), wiJ, σ = hu, wiJ, σ + hv, wiJ, σ , hu, (v + w)iJ, σ = hu, viJ, σ + hu, wiJ, σ .
Além disso,
hv, uiJ, σ = σ(v, Ju) + iσ(v, u) = −σ(Ju, v) − iσ(u, v) = σ(u, Jv) − iσ(u, v) = hu, viJ, σ .
(2.43)
22
Em [18] essa última condição não é mencionada, mas ela é necessária.
Para x, y ∈ R tem-se também
hu, (x + iy) · viJ, σ = hu, xv + yJviJ, σ
= hu, xviJ, σ + hu, yJviJ, σ
= σ(u, xJv) + iσ(u, xv) + σ(u, yJ 2 v) + iσ(u, yJv)
J 2 =−1
= σ(u, xJv) + iσ(u, xv) + σ(u, −yv) + iσ(u, yJv)

= x σ(u, Jv) + iσ(u, v) + iy σ(u, Jv) + iσ(u, v)
= (x + iy)hu, viJ, σ .
Pela propriedade (2.43), isso implica também h(x + iy) · u, viJ, σ = (x − iy)hu, viJ, σ , mostrando que
h·, ·iJ, σ é uma forma sesquilinear.
Pelas hipóteses, tem-se hu, uiJ, σ = σ(u, Ju) ≥ 0, mostrando que h·, ·iJ, σ é positiva. Se 0 =
hu, viJ, σ = σ(u, Jv) + iσ(u, v) para todo u, segue que σ(u, v) = 0 para todo u, o que implica que
v = 0, pois σ é não-degenerada (pela nossa definição de forma simplética). Isso mostrou que h·, ·iJ, σ
é não-degenerada. Assim, h·, ·iJ, σ é uma forma sesquilinear positiva e não-degenerada e pelo Teorema
2.6, página 121, segue que hu, uiJ, σ = 0 se e somente se u = 0. Isso mostrou que h·, ·iJ, σ é um produto
escalar complexo em VJ .
• Exemplos
Vamos primeiramente estudar o caso de espaços de dimensão finita. Vale a seguinte proposição:
Proposição 2.7 Um espaço vetorial real V de dimensão finita admite uma estrutura complexa (não
necessariamente única) se e somente se tiver dimensão par. 2
Prova. Se J é um operador linear agindo no espaço vetorial real de dimensão finita V , podemos
representá-lo como uma matriz. Se J 2 = −1 então, tomando-se o determinante de ambos os lados,
temos (det(J))2 = (−1)n , onde n é a dimensão de V . Como o lado esquerdo é positivo, n tem que
ser par. Reciprocamente, vamos supor que V tenha dimensão par, digamos 2m. Desejamos mostrar
que existe um operador linear agindo em V satisfazendo J 2 = −1. Uma possı́vel escolha é a seguinte.
Como V tem dimensão par podemos encontrar dois subespaços V1 e V2 , ambos de dimensão m, com
V = V1 ⊕ V2 . Como V1 e V2 têm a mesma dimensão, são isomorfos, e existe um operador linear
A : V1 → V2 que é bijetivo (o Exemplo 2.9, abaixo, deixará isso mais claro. Um tal operador não é
necessariamente único, mas isso não representa um problema). Todo elemento v ∈ V pode ser escrito
da forma v = v1 ⊕ v2 com v1 ∈ V1 e v2 ∈ V2 . Podemos definir Jv = J(v1 ⊕ v2 ) := (−Av2 ) ⊕ (Av1 ). É
trivial, então, verificar que J 2 = −1, como desejado.
Exemplo 2.9 Seja V um espaço vetorial real de dimensão 2m. Em alguma base, podemos representar
v ∈ V na forma de um vetor-coluna:
   
v1 −vm+1
 ..   .. 
 .   . 
   
 vm   −v2m 
v =   . Defina-se, então, Jv :=   , (2.44)
vm+1   v1 
 .   . 
 ..   .. 
v2m vm
ou seja, em forma matricial, na mesma base,

0m −1m
J =
1m 0m
sendo 0m e 1m matrizes m × m. É elementar verificar que J 2 = −12m , como desejado.
A escolha de J indicada acima dependeu de uma particular decomposição de V em dois sub-
espaços de dimensão m. Há várias outras decomposições possı́veis, que fornecem outros operadores J
e, portanto, outras estruturas complexas. Permanecendo no exemplo acima, é fácil ver que, se x, y ∈ R,
então o produto por escalares complexos fica
     
v1 v1 xv1 − yvm+1
 ..   ..   .. 
 .   .   . 
     
 vm   vm   xvm − yv2m 
(x + iy) ·   := (x + yJ)   =   . (2.45)
vm+1  vm+1  xvm+1 + yv1 
 .   .   .. 
 ..   ..   . 
v2m v2m xv2m + yvm
Seguindo ainda o exemplo de (2.44) e (2.45) para V = R2m , vamos ilustrar a Proposição 2.6 e
produto escalar complexo para (R2m )J . Adotemos para ε o produto escalar usual:
2m
X
ε(u, v) := uk vk = u1 v1 + · · · + u2m v2m .
k=1
Temos que
ε(Ju, v) = −um+1 v1 − · · · − u2m vm + u1 vm+1 + · · · + um v2m
e que
ε(u, Jv) = −u1 vm+1 − · · · − um v2m + um v1 + · · · + u2m vm
Logo ε(Ju, v) = −ε(u, Jv) e podemos aplicar a Proposição 2.6, obtendo em (R2m )J o produto escalar
hu, viJ, ε = ε(u, v) + iε(Ju, v)

= u1 v1 + · · · + u2m v2m + i − um+1 v1 − · · · − u2m vm + u1 vm+1 + · · · + um v2m
= u1 (v1 + ivm+1 ) + · · · + um (vm + iv2m ) + um+1 (vm+1 − iv1 ) + · · · u2m (v2m − ivm )
= (u1 + ium+1 )(v1 + ivm+1 ) + · · · + (um + iu2m )(vm + iv2m ) .

E. 2.46 Exercı́cio. Verifique que hu, λ · viJ, ε = λhu, viJ, ε para todo λ ∈ C. 6
Entendemos, assim, que a estrutura complexa que estudamos consiste nesse caso em identificar
bijetivamente R2m e Cm por
 
v1  
 ..  v1 + ivm+1
 .   
   
 v   .. 
R2m ∋  m  ←→  .  ∈ Cm
vm+1   
 .   
 .. 
vm + iv2m
v2m
e adotar em Cm o produto escalar complexo h·, ·iC usual (definido à página 18). ◊
Vejamos como as idéias de acima podem ser generalizadas e de modo a incluir espaços de dimensão
infinita.
Exemplo 2.10 Se V é um espaço vetorial real de (dimensão finita ou não) é sempre possı́vel encontrar
um operador linear J satisfazendo J 2 = −1 se V possuir dois subespaços V1 e V2 com V = V1 ⊕ V2
e tais que existe A : V1 → V2 , linear e bijetora (em dimensão finita isso requer que V1 e V2 tenham a
mesma dimensão e, portanto, que V tenha dimensão par, como mencionado na Proposição 2.7). De
fato, para v ∈ V da forma v = v1 ⊕ v2 com v1 ∈ V1 e v2 ∈ V2 , definindo Jv := (−A−1 v2 ) ⊕ (Av1 ) é fácil
constatar que J 2 = −1.
Para um tal J o produto por um escalar complexo λ = x + iy, com x, y ∈ R, fica definido por

λ·(v1 ⊕v2 ) := (x+yJ)(v1 ⊕v2 ) = x(v1 ⊕v2 )+y (−A−1 v2 ) ⊕ (Av1 ) = (xv1 −yA−1v2 )⊕(xv2 +yAv1) .
Se V é um espaço de Hilbert real separável com uma base {φk , k ∈ N}, podemos tomar V1 e V2
como os espaço gerados por {φk , k ∈ N, k par} e {φk , k ∈ N, k ı́mpar}, respectivamente. Uma
possı́vel escolha para a bijeção linear A : V1 → V2 seria
∞
! ∞
X X
A a2m φ2m = a2m φ2m+1 ,
m=0 m=0
para a qual !
∞
X ∞
X
A−1 a2m+1 φ2m+1 = a2m+1 φ2m ,
m=0 m=0
ou seja, em termos de elementos da base, Aφ2m = φ2m+1 e A−1 φ2m+1 = φ2m para todo m ≥ 0. Com
essa definição, terı́amos
" ∞ ! ∞
!# " ∞
! ∞
!#
X X X X
J a2m φ2m ⊕ a2m+1 φ2m+1 = − a2m+1 φ2m ⊕ a2m φ2m+1 .
m=0 m=0 m=0 m=0
O produto com escalares complexos λ = x + iy, com x, y ∈ R, fica definido por

∞ ∞
! ∞
!
X X X
(x + iy) · am φm = (xa2m − ya2m+1 )φ2m ⊕ (xa2m+1 + ya2m )φ2m+1 .
m=0 m=0 m=0
Para um tal J o produto por um escalar complexo λ = x + iy com x, y ∈ R fica definido por

λ·(v1 ⊕v2 ) := (x+yJ)(v1 ⊕v2 ) = x(v1 ⊕v2 )+y (−A−1 v2 ) ⊕ (Av1 ) = (xv1 −yA−1v2 )⊕(xv2 +yAv1) .
∞
X ∞
X ∞
X
Para α, β ∈ V da forma α = αm φm , β = βm φm e ε(α, β) := αm βm , o produto escalar
m=0 m=0 m=0
real usual, constatamos que
∞
X ∞
X ∞
X ∞
X
ε(α, Jβ) = − α2m β2m+1 + α2m+1 β2m e que ε(Jα, β) = − α2m+1 β2m + α2m β2m+1 .
m=0 m=0 m=0 m=0
Assim, ε(α, Jβ) = −ε(Jα, β) e pela parte B da Proposição 2.6, página 142, hα, βiJ, ε := ε(α, β) +
iε(Jα, β) é um produto escalar complexo. Explicitamente, tem-se
∞
X
hα, βiJ, ε = (α2m + iα2m+1 )(β2m + iβ2m+1 ) .
m=0
E. 2.47 Exercı́cio. Verifique! Verifique também que hα, λ · βiJ, ε = λhα, βiJ, ε para todo λ ∈ C. 6
A forma simplética real associada a ε pela parte I do Lema 2.1, página 141, é
∞
X ∞
X
σ(α, β) = −ε(α, Jβ) = α2m β2m+1 − α2m+1 β2m .
m=0 m=0
◊
Exemplo 2.11 Uma situação que não se deve deixar de comentar é a seguinte. Se V é um espaço
vetorial complexo com um produto escalar complexo h·, ·i, V é naturalmente também um espaço
vetorial real, sendo que, como comentamos à página 125, σ(u, v) := Im(hu, vi) u, v ∈ V , define
uma forma simplética real em V . Definindo em V o operador linear Ju = iu, tem-se J 2 = −1. A
multiplicação por escalares complexos não apresenta novidades: para x, y ∈ R e u ∈ V vale, pela
definição, (x + iy) · u = xu + yJu = (x + iy)u.
É fácil constatar que σ(u, Jv) = Im(hu, ivi) = −Im(hiu, vi) = −σ(Ju, v) e que σ(u, Ju) =
Im(hu, iui) = hu, ui ≥ 0. Assim, pela parte A da Proposição 2.6, página 142, hu, viJ, σ := σ(u, Jv) +
iσ(u, v) é um produto escalar complexo em V . No entanto, é facil ver que nesse caso hu, viJ, σ =
Im(hu, ivi) + iIm(hu, vi) = Re(hu, vi) + iIm(hu, vi) = hu, vi.
O produto escalar real ε associado a σ pela parte II do Lema 2.1, página 141, é
ε(u, v) = σ(u, Jv) = Im(hu, ivi) = Re(hu, vi) .
É interessante notar também que se tivéssemos adotado Ju = −iu, u ∈ V , terı́amos ainda para
σ(u, v) = Im(hu, vi) que σ(u, Jv) = −σ(Ju, v). Porém, σ(u, Ju) = −hu, ui ≤ 0, violando a
condição de positividade. ◊
Exemplo 2.12 Uma situação um pouco diferente é a seguinte. Seja V um espaço vetorial complexo
dotado de um produto escalar complexo h·, ·i. Sejam V1 e V2 dois sub-espaços ortogonais de V
(ortogonais segundo o produto escalar h·, ·i). Encarando V como um espaço real, definamos o operador
linear J : V → V por J(v1 ⊕ v2 ) = i(v1 ⊕ (−v2 )), onde v1 ∈ V1 e v2 ∈ V2 . É claro que J 2 = −1. A
multiplicação por escalares complexos x + iy, com x, y ∈ R, fica
(x + iy) · (v1 ⊕ v2 ) = x(v1 ⊕ v2 ) + yJ(v1 ⊕ v2 ) = ((x + iy)v1 ) ⊕ ((x − iy)v2 ) ,
ou seja, λ · (v1 ⊕ v2 ) = (λv1 ) ⊕ (λv2 ), para todos λ ∈ C, v1 ∈ V1 e v2 ∈ V2 .

É também fácil constatar que para o produto escalar real ε(u, v) = Re(hu, vi) vale a relação
ε(u, Jv) = −ε(Ju, v) (para isso é essencial que V1 e V2 sejam ortogonais segundo h·, ·i).
O forma simplética real σ associada a ε pela parte I do Lema 2.1, página 141, é, tomando u = u1 ⊕u2 ,
v = v1 ⊕ v2 , com u1 , v1 ∈ V1 e u2 , v2 ∈ V2 ,
σ(u, v) := ε(Ju, v) = Im (hu1 , v1 i) − Im (hu2 , v2 i) ,
como facilmente se verifica.

Pela parte B da Proposição 2.6, página 142, hu, viJ, ε := ε(u, v) + iε(Ju, v) é um produto escalar
complexo. Por essa definição, tem-se, tomando u = u1 ⊕ u2 , v = v1 ⊕ v2 , com u1 , v1 ∈ V1 e u2 , v2 ∈ V2 ,
hu, viJ, ε = h(u1 ⊕ u2 ), (v1 ⊕ v2 )iJ, ε
= Re(hu1 , v1 i) + Re(hu2 , v2 i) + i (Re(hiu1 , v1 i) + Re(h − iu2 , v2 i))
= Re(hu1 , v1 i) + Re(hu2 , v2 i) + iIm(hu1 , v1 i) − iIm(hu2 , v2 i)
= hu1 , v1 i + hu2 , v2 i .
E. 2.48 Exercı́cio. Verifique também que hu, λ · viJ, ε = λhu, viJ, ε para todo λ ∈ C. 6
◊
Apêndices
2.A Prova do Teorema de Fréchet, von Neumann e Jordan
Nesta Seção apresentamos a demonstração do Teorema de Fréchet, von Neumann e Jordan, Teorema
2.8, página 134.
Vamos supor que k·k seja uma norma em um espaço vetorial complexo V e que satisfaça a identidade
do paralelogramo
ka + bk2 + ka − bk2 = 2kak2 + 2kbk2 (2.A.1)
para todos a, b ∈ V . Defina-se, para u, v ∈ V ,
3
1 X −n
ω(u, v) := i ku + in vk2 ,
4 n=0
ou seja, escrevendo os termos da soma explicitamente,

1h i
ω(u, v) := ku + vk2 − ku − vk2 − i ku + ivk2 − ku − ivk2 . (2.A.2)
4
Vale a propriedade Hermitiana
ω(u, v) = ω(v, u) (2.A.3)
para todos u, v ∈ V pois, como kak = k − ak e kak = kiak para todo a ∈ V , segue que
1h i
ω(u, v) = ku + vk2 − ku − vk2 + i ku + ivk2 − ku − ivk2
4
1h i
= kv + uk2 − kv − uk2 + i kiu − vk2 − kiu + vk2
4
1h i
= kv + uk2 − kv − uk2 − i kv + iuk2 − kv − iuk2
4
= ω(v, u) .
É importante observar que, por (2.A.2),

1h 2 2

2 2
i
ω(u, u) := k2uk − ku − uk − i k(1 + i)uk − k(1 − i)uk = kuk2 ,
4
já que, do fato que |1 + i| = |1 − i|, segue pelas propriedades definidoras de uma norma que k(1 + i)uk =
|1 + i| kuk = |1 − i| kuk = k(1 − i)uk.
Assim, estabelecemos que para todo u ∈ V vale ω(u, u) = kuk2, o que implica, pelas propriedades
definidoras de uma norma, que ω(u, u) ≥ 0, sendo que ω(u, u) = 0 se e somente se u = 0.
Para provar que ω é um produto escalar, resta-nos provar que ω é uma forma sesquilinear. Como
ω ter a propriedade Hermitiana (2.A.3), é suficiente provar que ω é linear na segunda variável. De
fato, esse é o único ponto não-trivial da demonstração do Teorema 2.8 e o único em que a identidade
do paralelogramo é usada. O leitor verá que a demonstração de que ω é linear na segunda variável é
engenhosa, sendo feita, sucessivamente, primeiro para números inteiros, depois para racionais, depois
para números reais e, por fim, para números complexos.
Definindo-se, para u, v ∈ V ,
f (u, v) := ku + vk2 − ku − vk2 , (2.A.4)
podemos escrever, por (2.A.2),

1h i
ω(u, v) := f (u, v) − if (u, iv) . (2.A.5)
4
Segue facilmente da definição (2.A.4) que
f (u, v) = f (v, u) , (2.A.6)
f (u, −v) = −f (u, v) , (2.A.7)
f (u, 0) = 0 . (2.A.8)
A seguinte proposição é fundamental para a prova de que ω é uma forma sesquilinear e em sua de-
monstração é feito uso da identidade do paralelogramo.
Proposição 2.8 Para todos u, v e w ∈ V vale
f (u, v + w) = f (u, v) + f (u, w) . (2.A.9)
Por (2.A.6), segue que f (u + v, w) = f (u, w) + f (v, w), também para todos u, v e w ∈ V . 2
Prova. Precisamos apenas provar (2.A.9), o que é feito com uso da identidade do paralelogramo (2.A.1).
Por (2.A.1) com a = u + v e b = w, vê-se que
ku + v + wk2 = 2ku + vk2 + 2kwk2 − ku + v − wk2 .
Trocando-se v → −v e w → −w, segue disso que
ku − v − wk2 = 2ku − vk2 + 2kwk2 − ku − v + wk2 .
Logo, como f (u, v + w) = ku + v + wk2 − ku − v − wk2 , segue que
f (u, v + w) = 2ku + vk2 − 2ku − vk2 + ku − v + wk2 − ku + v − wk2 .
Assim, provamos que

f (u, v + w) = 2f (u, v) + f (u, w − v) . (2.A.10)
Trocando v ↔ w, isso fica f (u, v + w) = 2f (u, w) + f (u, v − w) e, por (2.A.7), concluı́mos que vale
também
f (u, v + w) = 2f (u, w) − f (u, w − v) (2.A.11)
Somando (2.A.10) e (2.A.11), obtemos f (u, v + w) = f (u, v) + f (u, w), que é o que querı́amos.
Tomando v = w, (2.A.9) implica que f (u, 2v) = 2f (u, v). Vamos assumir que para algum n ∈ N,
n ≥ 1, valha f (u, nv) = nf (u, v). Isso é verdadeiro para n = 0 (por (2.A.8)) e n = 1 (trivialmente) e
vale também, como vimos, para n = 2. Então,
(2.A.9)
f (u, (n + 1)v) = f (u, v + nv) = f (u, v) + f (u, nv)
hipótese
= f (u, v) + nf (u, v) = (n + 1)f (u, v) .
Com isso, provamos por indução que
f (u, nv) = nf (u, v) (2.A.12)
para todo n ∈ N e todos u, v ∈ V . Substituindo v por n1 v, com n 6= 0, isso está também dizendo que

1 1
f u, v = f (u, v) , (2.A.13)
n n
também para todo n ∈ N, n 6= 0, e todos u, v ∈ V . Assim, se p e q são inteiros positivos q 6= 0, vale

p (2.A.12) 1 (2.A.13) p
f u, v = pf u, v = f (u, v) .
q q q
Por (2.A.7) e por (2.A.8), segue disso que
f (u, rv) = rf (u, v) (2.A.14)
para todo r ∈ Q e todos u, v ∈ V .

Seja x ∈ R e seja rk , k ∈ N, uma seqüência de números racionais tal que lim rk = x. Então,
k→∞
usando a desigualdade (2.24), página 130, com a = (rk − x)v e b = −u − xv, tem-se que

ku + rk vk − ku + xvk ≤ k(rk − x)vk = |rk − x| kvk

e como lim |rk − x| = 0, segue que lim ku + rk vk − ku + xvk = 0, ou seja,
k→∞ k→∞

lim ku + rk vk = ku + xvk = u + lim rk v .
k→∞ k→∞
Isso implica imediatamente que

lim f (u, rk v) = f u, lim rk v (2.A.15)
k→∞ k→∞
e, portanto, provamos que

f (u, xv) = xf (u, v) , (2.A.16)
para todo x ∈ R e todos u, v ∈ V , pois

(2.A.15) (2.A.14)
f (u, xv) = f u, lim rk v = lim f (u, rk v) = lim rk f (u, v) = xf (u, v) .
k→∞ k→∞ k→∞
Sejam agora x, y ∈ R. Tem-se, pelo exposto acima,

(2.A.9) (2.A.16)
f (u, (x + iy)v) = f (u, xv + iyv) = f (u, xv) + f (u, iyv) = xf (u, v) + yf (u, iv) . (2.A.17)
Por (2.A.5), segue que

1h i
ω(u, (x + iy)v) = f (u, (x + iy)v) − if (u, (x + iy)iv)
4
(2.A.17) 1 h i
= xf (u, v) + yf (u, iv) − i xf (u, iv) + yf (u, −v)
4
(2.A.7) 1 h i
= xf (u, v) + yf (u, iv) − i xf (u, iv) − yf (u, v)
4
1h i 1h i
= x f (u, v) − if (u, iv) + iy f (u, v) − if (u, iv)
4 4
= (x + iy)ω(u, v) .
Com isso, provamos que para todo z ∈ C e todos u, v ∈ V vale
ω(u, zv) = zω(u, v) .
Pela propriedade Hermitiana (2.A.3), segue também que ω(zu, v) = zω(u, v). Isso estabeleceu que ω
é uma forma sesquilinear. Assim, a prova do Teorema 2.8 está completa.
Parte II
Tópicos de Álgebra Linear
153
Capı́tulo 3
Tópicos de Álgebra Linear. I
Conteúdo
3.1 Propriedades Básicas de Determinantes e Inversas de Matrizes . . . . . . 155
3.2 Noções Básicas sobre o Espectro de uma Matriz . . . . . . . . . . . . . . . 163
3.2.1 O Traço de uma Matriz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 169
3.3 Polinômios de Matrizes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 171
3.3.1 O Teorema de Hamilton-Cayley . . . . . . . . . . . . . . . . . . . . . . . . . . 173
3.4 Matrizes Diagonalizáveis e o Teorema Espectral . . . . . . . . . . . . . . . 178
3.4.1 Diagonalização Simultânea de Matrizes . . . . . . . . . . . . . . . . . . . . . 192
3.5 Matrizes Auto-adjuntas, Normais e Unitárias . . . . . . . . . . . . . . . . 196
3.5.1 Matrizes Positivas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 203
3.6 Matrizes Triangulares . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 206
3.7 O Teorema de Decomposição de Jordan e a Forma Canônica de Matrizes 207
3.7.1 Resultados Preparatórios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 208
3.7.2 O Teorema da Decomposição de Jordan . . . . . . . . . . . . . . . . . . . . . 214
3.7.3 Matrizes Nilpotentes e sua Representação Canônica . . . . . . . . . . . . . . 217
3.7.4 A Forma Canônica de Matrizes . . . . . . . . . . . . . . . . . . . . . . . . . . 221
3.8 Algumas Representações Especiais de Matrizes . . . . . . . . . . . . . . . 223
3.8.1 A Decomposição Polar de Matrizes . . . . . . . . . . . . . . . . . . . . . . . . 223
3.8.2 O Teorema da Triangularização de Schur . . . . . . . . . . . . . . . . . . . . 226
3.8.3 A Decomposição QR e a Decomposição de Iwasawa (“KAN”) . . . . . . . . . 228
3.9 Propriedades Especiais de Determinantes . . . . . . . . . . . . . . . . . . . 231
3.9.1 Expansão do Polinômio Caracterı́stico . . . . . . . . . . . . . . . . . . . . . . 231
3.9.2 A Desigualdade de Hadamard . . . . . . . . . . . . . . . . . . . . . . . . . . . 232
3.10 Exercı́cios Adicionais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 235
O principal objetivo deste capı́tulo é apresentar a demonstração do Teorema Espectral para

matrizes diagonalizáveis, em particular, para matrizes auto-adjuntas (resultado de grande
relevância para a Mecânica Quântica) e a demonstração do Teorema de Decomposição de
Jordan para matrizes gerais. Sempre trabalharemos no contexto de espaços vetoriais de
dimensão finita Cn sobre o corpo dos complexos. A leitura deste capı́tulo pressupõe que alguns conceitos
básicos de Álgebra Linear, tais como o conceito de matriz, de determinante de uma matriz, suas
propriedades e métodos de cálculo, sejam familiares ao leitor, mas uma breve revisão é apresentada na
Seção 3.1. Este capı́tulo será continuado no Capı́tulo 4, página 238, onde outros aspectos de álgebras
de matrizes serão explorados.
154
3.1 Propriedades Básicas de Determinantes e Inversas de Ma-

trizes
A presente seção desenvolve a teoria básica de determinantes de matrizes. Sua leitura pode, provavel-
mente, ser dispensada por aqueles que julguam dispor desses conhecimentos básicos, mas a notação
que aqui introduzimos será empregada alhures. Propriedades mais avançadas de determinantes serão
estudadas na Seção 3.9, página 231.
• Alguma Notação
O conjunto de todas as matrizes m×n com entradas complexas será denotado aqui por Mat (C, m, n).
O conjunto de todas as matrizes quadradas n × n com entradas complexas será denotado simplesmente
por Mat (C, n).
Dado um conjunto de n números complexos α1 , . . . , αn , denotaremos por diag (α1 , . . . , αn ) a
matriz A ∈ Mat (C, n) cujos elementos Aij são definidos da seguinte forma:

αi , se i = j
Aij = .
0, se i 6= j
Uma tal matriz é dita ser diagonal pois apenas os elementos de sua diagonal principal são eventualmente
não-nulos. Na representação usual  
α1 · · · 0
 
A =  ... . . . ...  .
0 · · · αn
A mais popular dentre as matrizes diagonais é a matriz identidade, que denotaremos por 1 neste texto:
 
1 ··· 0
 
1 := diag (1, . . . , 1) =  ... . . . ...  .
0 ··· 1
Denotaremos por 0a, b a matriz a × b cujos elementos de matriz são todos nulos. Denotaremos por
1l a matriz identidade l × l. Por vezes, quando não houver perigo de confusão, poderemos omitir os
sub-ı́ndices e escrever 0a, b simplesmente como 0 e 1l simplesmente como 1.
Sejam x1 , . . . , xn vetores, representados na base canônica por vetores-coluna
 
xa1
 
xa =  ...  .
xan
hh ii
1 n
Denotaremos por x , . . . , x a matriz n × n construı́da de forma que sua a-ésima coluna seja o
vetor-coluna xa , ou seja  
hh ii x11 · · · xn1
 
x1 , . . . , xn =  ... . . . ...  . (3.1)
1 n
xn · · · xn
Consideranto os vetores da base canônica

     
1 0 0
0 1 0
     
0    
e1 =   , e2 = 0 , ..., en =  ...  , (3.2)
 ..   ..   
. . 0
0 0 1
é também evidente que hh ii
1 = e1 , . . . , en . (3.3)
A notação acima é útil por permitir a seguinte observação. Seja B uma matriz qualquer. Então,
hh ii hh ii
1 n 1 n
B x , ..., x = Bx , . . . , Bx . (3.4)
Essa
hh relação éii provada observando-se a regra de multiplicação de matrizes: a a-ésima coluna de
B x1 , . . . , xn é
B11 xa1 + · · · + B1n xan
.. , (3.5)
.
Bn1 xa1 +···+ Bnn xan
que vem a ser as componentes de Bxa , representado como vetor-coluna na base canônica.
Ainda sobre essa notação, vale a seguinte identidade útil, cuja demonstração (elementar) deixamos
como exercı́cio: se D = diag (d1 , . . . , dn ) é uma matriz diagonal, então
hh ii hh ii
x1 , . . . , xn D = d1 x1 , . . . , dn xn . (3.6)
Seja V um espaço vetorial dotado de um produto escalar h·, ·i. Dizemos que dois vetores u e v são
perpendiculares (em relação ao produto escalar h·, ·i) se hu, vi = 0.
Se v1 , . . . , vk são vetores em um espaço vetorial V , denotamos por [v1 , . . . , vk ] o sub-espaço gerado
pelos vetores v1 , . . . , vk , ou seja, a coleção de todos os vetores que são combinações lineares dos vetores
v1 , . . . , vk : n o
[v1 , . . . , vk ] = α1 v1 + · · · + αk vk , α1 , . . . , αk ∈ C .
Denotamos por [v1 , . . . , vk ]⊥ o subespaço de todos os vetores perpendiculares a todos os vetores

de [v1 , . . . , vk ]:
n o
⊥
[v1 , . . . , vk ] = w ∈ V | hw, (α1 v1 + · · · + αk vk )i = 0 para todos α1 , . . . , αk ∈ C .
• Propriedades básicas de determinantes de matrizes

hh ii
Seja A ∈ Mat (C, n) da forma A = a1 , . . . , an para o conjunto de vetores a1 , . . . , an que
representam suas colunas. O determinante de A, det(A), foi definido em (2.9) como
det(A) := ωdet (a1 , . . . , an ) , (3.7)
onde ωdet é a forma alternante maximal em n dimensões, normalizada de sorte que ωdet (e1 , . . . , en ) = 1.
Com isso, vale det(1) = 1. Assim, se Sn denota o conjunto de todas as bijeções de {1, . . . , n} em
si mesmo (o chamado grupo de permutações de n elementos), tem-se ωdet (ej(1) , . . . , ej(n) ) = sinal(j)
para todo j ∈ Sn e, portanto, vale a expressão (2.10):
X
det(A) = A1j(1) · · · Anj(n) sinal(j) . (3.8)
j∈Sn
O teorema a seguir reune todas as propriedades fundamentais do determinante de matrizes.

Teorema 3.1 Para toda matriz A ∈ Mat (C, n) valem:
1. det(λA) = λn det(A) para todo λ ∈ C.

2. det(A) = det AT . Conseqüentemente, o determinante de uma matriz troca de sinal quando da
permuta de duas de suas colunas ou linhas.
3. det(AB) = det(A) det(B) = det(BA) para qualquer B ∈ Mat (C, n).
4. det(A) = det(SAS −1 ) para qualquer S ∈ Mat (C, n), invertı́vel.
5. Se det(A) = 0 então A não tem inversa.

6. Se det(A) 6= 0 então A tem inversa e vale a chamada regra de Laplace1 :
1
A−1 = Cof(A)T , (3.9)
det(A)
onde Cof(A) ∈ Mat (C, n), denominada matriz dos cofatores de A, é a matriz cujos elementos
são
hh ii
Cof(A)jk = ωdet (a1 , . . . , ak−1 , ej , ak+1 , . . . , an ) = det a1 , . . . , ak−1 , ej , ak+1 , . . . , an .
(3.10)
Em palavras, Cof(A)jk é o determinante da matriz obtida substituindo a k-ésima coluna de A
pelo vetor ej . No próximo item veremos outra caracterização da matriz dos cofatores Cof(A).
Conjuntamente com o item 5, concluı́mos que A tem inversa se e somente se det(A) 6= 0.
7. Os elementos de matriz de Cof(A) são dados por
Cof(A)ij = (−1)i+j Men(A)ij ,
onde Men(A), chamada de matriz dos menores de A, é a matriz de Mat (C, n) definida de sorte
que cada elemento Men(A)ij seja o determinante da matriz (n − 1) × (n − 1) obtida eliminando-se
a i-ésima linha e a j-ésima coluna de A. Se n = 1, convenciona-se definir Men(A) = 1. Assim,
para det(A) 6= 0, a regra de Laplace escreve-se
1 (−1)i+j
A−1 ij
= Cof(A)ji = Men(A)ji . (3.11)
det(A) det(A)
1
Pierre-Simon Laplace (1749-1827).
8. Para qualquer k ∈ {1, . . . , n} valem a expansão em linhas do determinante

n
X n
X
det(A) = Akj Cof(A)kj = (−1)j+k Akj Men(A)kj (3.12)
j=1 j=1
e a expansão em colunas do determinante

n
X n
X
det(A) = Ajk Cof(A)jk = (−1)j+k Ajk Men(A)jk . (3.13)
j=1 j=1
Em (3.97), página 232, apresentaremos outra fórmula explı́cita para o cômputo da inversa de ma-
trizes baseada no Teorema de Hamilton-Cayley (Teorema 3.3, página 174).
Demonstração do Teorema 3.1. Prova de 1. Por (3.8),

X
det(λA) = (λA1j(1) ) · · · (λAnj(n) ) sinal(j) = λn det(A) .
j∈Sn
Prova de 2. Observemos a expressão (3.8). Usando o fato elementar que um produto de números com-
plexos não depende da ordem dos fatores, podemos escrever A1j(1) · · · Anj(n) = Al(1)j(l(1)) · · · Al(n)j(l(n))
para qualquer l ∈ Sn . Em particular, escolhendo l = j −1 obtemos A1j(1) · · · Anj(n) = Aj −1 (1)1 · · · Aj −1 (n)n .
Assim, por (2.10), e usando o fato que sinal(j) = sinal(j −1 ) para todo j ∈ Sn (justifique!), vale
X X
det(A) = Aj −1 (1)1 · · · Aj −1 (n)n sinal(j −1 ) = Aj −1 (1)1 · · · Aj −1 (n)n sinal(j −1 )
j∈Sn j −1 ∈Sn
X
= Aj(1)1 · · · Aj(n)n sinal(j) = det(AT ) .
j∈Sn
Quando da permuta de duas linhas ou colunas de A seu determinante troca de sinal devido à
alternância da forma ωdet . A igualdade det(A) = det AT ensina que isso também ocorre quando da
permuta de linhas.
E. 3.1 Exercı́cio. Justifique todas as passagens de acima. 6
hh ii hh ii hh ii
Prova de 3. Sejam A = a1 , . . . , an e B = b1 , . . . , bn . Temos que AB = Ab1 , . . . , Abn (vide
(3.4)). Agora,
n
X n
X n
X
(Abj )i = Aik (bj )k = (ak )i (bj )k , ou seja, Abj = (bj )k ak .
k=1 k=1 k=1
Assim,
det(AB) = ωdet (Ab1 , . . . , Abn )
n n
!
X X
= ωdet (b1 )k1 ak1 , . . . , (bn )kn akn
k1 =1 kn =1
n
X n
X
multi-linearidade
= ··· (b1 )k1 · · · (bn )kn ωdet (ak1 , . . . , akn )
k1 =1 kn =1
X
= (b1 )k(1) · · · (bn )k(n) ωdet ak(1) , . . . , ak(n)
k∈Sn
X
= (b1 )k(1) · · · (bn )k(n) sinal(k) ωdet (a1 , . . . , an )
k∈Sn
!
X
= (b1 )k(1) · · · (bn )k(n) sinal(k) det(A)
k∈Sn
= det(B) det(A) .
Acima, na passagem da terceira para a quarta linha usamos o fato que ωdet (ak1 , . . . , akn ) anula-se a
menos que a k1 , . . . , kn sejam distintos, o que somente ocorre se forem da forma k(1), . . . , k(n),
respectivamente, para algum k ∈ Sn . Na passagem da quarta para a quinta linha usamos que
ωdet ak(1) , . . . , ak(n) = sinal(k) ωdet (a1 , . . . , an ), pois ωdet é uma forma alternante.
Estabelecemos, portanto, que det(AB) = det(A) det(B) = det(BA).
Prova de 4. Do item 3 segue que, para quaisquer A, S ∈ Mat (C, n), com S invertı́vel, vale det(A) =
det((AS −1 )S) = det(SAS −1 ).
Prova de 5. Se det(A) = 0 então A não pode ter inversa. Se existisse A−1 terı́amos 1 = det(1) =
det(AA−1 ) = det(A) det(A−1 ) = 0, absurdo.
Prova de 6. É bastante claro que podemos escrever

n
X
ak = Ajk ej . (3.14)
j=1
Logo, para qualquer k ∈ {1, . . . , n} vale

n
X
det(A) = ωdet (a1 , . . . , ak−1 , ak , ak+1 , . . . , an ) = Ajk ωdet (a1 , . . . , ak−1 , ej , ak+1 , . . . , an ) .
j=1
Note que ej ocorre na k-ésima posição. Provamos assim que

n
X
det(A) = Ajk Cof(A)jk , (3.15)
j=1
n
X
onde a matriz Cof(A) foi definida em (3.10). Mostremos agora que para l 6= k a expressão Ajl Cof(A)jk
j=1
é nula. De fato,
n
X n
X
Ajl Cof(A)jk = Ajl ωdet (a1 , . . . , ak−1 , ej , ak+1 , . . . , an )
j=1 j=1
(3.14)
= ωdet (a1 , . . . , ak−1 , al , ak+1 , . . . , an ) = 0 ,
pois em ωdet (a1 , . . . , ak−1 , al , ak+1 , . . . , an ) o vetor al aparece na l-ésima e na k-ésima posição o que
faz ωdet anular-se, por ser uma forma alternante. Provamos, assim, que
n
X
Ajl Cof(A)jk = δkl det(A) . (3.16)
j=1
Vamos supor que det(A) 6= 0. Defina-se a matriz G = det(A)−1 Cof(A)T , cujos elementos de matriz são
Gkj = det(A)−1 Cof(A)jk . Então (3.16) diz-nos que
n
X
Gkj Ajl = δkl , ou seja, GA = 1 .
j=1
Isso significa que A é invertı́vel com A−1 = G.
Prova de 7. Observemos primeiramente que, supondo provisoriamente k > 1,
ωdet (a1 , . . . , ak−1 , ej , ak+1 , . . . , an ) = ωdet (a1 − Aj1 ej , . . . , ak−1 , ej , ak+1 , . . . , an )
devido à linearidade e ao fato que ωdet (ej , . . . , ak−1 , ej , ak+1 , . . . , an ) = 0, pelo fato de ωdet ser
alternante. Agora, a j-ésima linha do vetor-coluna a1 − Ahhj1 ej é nula. Repetindo esse argumento ii
podemos anular j-ésima linha de todas as colunas da matriz a1 , . . . , ak−1 , ej , ak+1 , . . . , an , exceto
a k-ésima coluna, sem alterar seu determinante. Um pouco de meditação nos convence que a matriz
resultante é obtida da matriz A anulando-se a k-ésima coluna e a j-ésima linha, exceto no cruzamento
das duas, onde o elemento de matriz vale 1 (elemento jk). O determinante dessa matriz é Cof(A)jk .
Pelo item 2 e pela propriedade de alternância, sabemos que o determinante de uma matriz troca
de sinal quando permutamos a posição de duas colunas ou duas linhas quaisquer. Com esse tipo de
operação podemos transportar o 1 do elemento jk até a posição nn da matriz, ao preço de realizar
n − k transposições de colunas vizinhas e n − j de linhas vizinhas, as quais alteram o determinante por
fatores (−1)n−k e (−1)n−j , respectivamente. Temos com isso que
 
0
 .. 
 A[jk] . 
Cof(A)jk = (−1)k+j det(A[jk]) com A[jk] := det   ,
 0 
0 ··· 0 1
onde A[jk] é a matriz de Mat (C, n − 1) obtida eliminando a j-ésima linha e a k-ésima coluna da matriz
A. Por (3.8), X

det A[jk] = A[jk] 1l(1) · · · A[jk] nl(n) sinal(l) .
l∈Sn
[jk]

Como A nl(n)
= δl(n), n (justifique!), segue que
X
det A[jk] = A[jk] 1l′ (1)
· · · A[jk] (n−1)l′ (n−1)
sinal(l′ )
l′ ∈Sn−1
X
= A[jk] 1l′ (1)
· · · A[jk] (n−1)l′ (n−1)
sinal(l′ )
l′ ∈Sn−1

= det A[jk] = Men(A)jk .
(Justifique por que a soma no lado direito da primeira linha acima é sobre Sn−1 e não mais sobre Sn ).
Provamos, portanto, que
Cof(A)jk = (−1)k+j Men(A)jk .
A relação (3.11) é imediata por (3.9).
Prova de 8. Eq. (3.13) é imediata por (3.15) e pelo item 7. Eq. (3.12) segue facilmente de (3.13) usando
o item 2.
• Menores e cofatores de uma matriz. Propriedades adicionais
E. 3.2 Exercı́cio. Seja Σ ∈ Mat (C, n) a matriz diagonal cujos elementos são, alternadamente +1 e −1:
Σ = diag (+1, −1, +1, . . . , (−1)n+1 ), ou seja, os elementos de matriz de Σ são Σij = (−1)i+1 δij . Mostre
que
Cof(A) = ΣMen(A)Σ−1
para toda matriz A ∈ Mat (C, n). 6
Para uma matriz M ∈ Mat (C, n), a transformação de similaridade M 7→ ΣMΣ−1 é denominada
“chessboard transformation”, pois com ela os sinais são trocados em M como alternam-se as cores das
casas em um tabuleiro de xadrez.
E. 3.3 Exercı́cio. Usando a regra de Laplace (3.9), mostre que para toda matriz A ∈ Mat (C, n) valem
as relações
Men(ΣAΣ−1 ) = ΣMen(A)Σ−1 , Cof(ΣAΣ−1 ) = ΣCof(A)Σ−1 ,
Cof(A) = Men(ΣAΣ−1 ) , Men(A) = Cof(ΣAΣ−1 ) .
6
1
Se A ∈ Mat (C, n) é invertı́vel, segue da regra de Laplace (3.9) que det(A−1 ) = det(A)n
det(Cof(A))
e, portanto,
det(Cof(A)) = det(A)n−1 . (3.17)
Do Exercı́cio E. 3.3, conclui-se também que
det(Men(A)) = det(A)n−1 . (3.18)
E. 3.4 Exercı́cio. Mostre que para toda matriz A ∈ Mat (C, n), n ≥ 2, vale
n−2
Cof Cof(A) = det(A) A.
Do Exercı́cio E. 3.3, obtem-se também

n−2
Men Men(A) = det(A) A.
Assim, para toda matriz A ∈ Mat (C, n) vale

Cof Cof(A) = Men Men(A) .

Portanto, se det(A) = 1 e n ≥ 2, vale Cof Cof(A) = Men Men(A) = A. 6
• Um resultado útil
Mais abaixo usaremos o seguinte fato:

Proposição 3.1 Seja M ∈ Mat (C, n) uma matriz da seguinte forma
 
A 0k, n−k
M =   ,
B C
onde A é uma matriz k × k, B é uma matriz (n − k) × k e C é uma matriz (n − k) × (n − k). Então
det(M) = det(A) det(C) .
Prova. O primeiro ingrediente da prova é a constatação que

    
A 0k, n−k A 0k, n−k 1k 0k, n−k
M =   =    
B C B 1n−k 0n−k, k C
   
A 0k, n−k 1k 0k, n−k 1k 0k, n−k
=     .
0n−k, k 1n−k B 1n−k 0n−k, k C

Com isso, temos pela regra do determinante de um produto de matrizes que

     
A 0k, n−k 1k 0k, n−k 1k 0k, n−k
det(M) = det   det   det   .
0n−k, k 1n−k B 1n−k 0n−k, k C
Agora, pelas regras (3.12)-(3.13) de cálculo de determinantes, é fácil constatar (faça-o!) que
   
A 0k, n−k 1k 0k, n−k
det   = det(A), det   = det(C) .
0n−k, k 1n−k 0n−k, k C
e  
1k 0k, n−k
det   = 1.
B 1n−k
Isso completa a prova.
3.2 Noções Básicas sobre o Espectro de uma Matriz
• O Espectro de uma Matriz
Seja A ∈ Mat (C, n) uma matriz n × n com entradas complexas. No estudo das propriedades de
A é de grande importância saber para quais números complexos λ a matriz λ1 − A é invertı́vel e para
quais não é. Essa questão conduz às seguintes importantes definições:
Definição. Um número complexo λ é dito ser um elemento do espectro de A ∈ Mat (C, n) se a matriz
λ1 − A não possuir uma inversa.
Definição. Um número complexo λ é dito ser um elemento do conjunto resolvente de A ∈ Mat (C, n)
se a matriz λ1 − A possuir uma inversa.
Em outras palavras, o espectro de A ∈ Mat (C, n), denotado por σ(A), é o conjunto de todos os
λ ∈ C para os quais a matriz λ1 − A não tem inversa.
O conjunto resolvente de A ∈ Mat (C, n), denotado por ρ(A), é o conjunto de todos os λ ∈ C para
os quais a matriz λ1 − A tem inversa.
É evidente que σ(A) e ρ(A) são conjuntos complementares, ou seja, σ(A) ∩ ρ(A) = ∅ mas σ(A) ∪
ρ(A) = C.
Um fato importante é que λ1 − A é não-invertı́vel se e somente se det(λ1 − A) = 0 (vide Teorema
3.1, página 157). Assim, um número complexo λ é um elemento do espectro de uma matriz A se e
somente se for tal que det(λ1 − A) = 0.
Chegamos ao importante conceito de polinômio caracterı́stico de uma matriz.
• O Polinômio Caracterı́stico de uma Matriz
Seja A ∈ Mat (C, n) uma matriz cujos elementos de matriz são Aij . Para λ ∈ C a expressão
 
λ − A11 −A12 ··· −A1n
 −A21 λ − A22 ··· −A2n 
 
det(λ1 − A) = det  .. .. .. .. 
 . . . . 
−An1 ··· · · · λ − Ann
define, como facilmente se constata pelos métodos usuais e bem conhecidos de cálculo de determinantes,
um polinômio de grau n na variável λ, com coeficientes complexos, os quais dependem dos elementos de
matriz Aij de A. Esse polinômio é denominado polinômio caracterı́stico de A e desempenha um papel
muito importante no estudo de propriedades de matrizes. O leitor poderá encontrar na Seção 3.9.1,
página 231, uma expressão mais explı́cita para o polinômio caracterı́stico em termos dos elementos de
matriz Aij de A (vide (3.96), página 232), mas por ora não precisaremos de maiores detalhes sobre esse
polinômio.
Denotaremos por vezes por pA o polinômio caracterı́stico de uma matriz A ∈ Mat (C, n). Como
todo polinômio complexo de grau n, pA possui n raı́zes, não necessariamente distintas no plano com-
plexo (teorema fundamental da álgebra). As raı́zes do polinômio caracterı́stico pA são denominadas
autovalores da matriz A. Assim, o espectro de uma matriz A coincide com o conjunto de seus auto-
valores. O estudo de autovalores de matrizes é de grande importância na Álgebra Linear e em suas
aplicações à Teoria das Equações Diferenciais, à Geometria, à Teoria dos Sistemas Dinâmicos e à Fı́sica,
especialmente à Fı́sica Quântica.
Seja A ∈ Mat (C, n) uma matriz e sejam α1 , . . . , αr , 1 ≤ r ≤ n, seus autovalores distintos, cada
qual com multiplicidade a1 , . . . , ar , respectivamente, ou seja, cada αi é uma raiz de ordem ai ∈ N do
polinômio caracterı́stico de A:
r
Y
q(λ) = det(λ1 − A) = (λ − αi )ai .
i=1
A quantidade ai é um número inteiro positivo e é denominado multiplicidade algébrica do autovalor αi .

Note-se que como o número de raı́zes de pA (contando as multiplicidades) é exatamente igual a seu
grau, segue facilmente que a seguinte relação é válida:
r
X
ai = n , (3.19)
i=1
ou seja, a soma das multiplicidades algébricas dos autovalores de uma matriz A ∈ Mat (C, n) é n.
Uma conseqüência elementar disso é a seguinte proposição útil:
Proposição 3.2 Seja A ∈ Mat (C, n) uma matriz e sejam α1 , . . . , αr , 1 ≤ r ≤ n, seus autovalores
distintos, cada qual com multiplicidade algébrica a1 , . . . , ar , respectivamente. Então
r
Y
det(A) = (αk )ak . (3.20)
k=1
2
Qr
Prova. Por definição, o polinômio caracterı́stico de A é q(λ)
Q = det(λ1−A) = ak
k=1 (λ−αk ) . Tomando
n r ak n
λ = 0 e usando (3.19), teremos que det(−A) = (−1) k=1 (αk ) . Porém, det(−A) = (−1) det(A) e
a proposição está demonstrada.
Essa proposição diz que o determinante de uma matriz é o produto de seus autovalores, incluindo
a multiplicidade algébrica.
• Matrizes Similares. Transformações de Similaridade
Duas matrizes A ∈ Mat (C, n) e B ∈ Mat (C, n) são ditas matrizes similares se existir uma matriz
invertı́vel P ∈ Mat (C, n) tal que P −1 AP = B.
Para uma matriz invertı́vel P ∈ Mat (C, n) fixa, a transformação que leva cada matriz A ∈
Mat (C, n) à matriz P −1 AP é denominada transformação de similaridade.
Sabemos que o determinante é invariante por transformações de similaridade, pois para toda matriz
A vale det(A) = det(P −1 AP ).
O determinante não é o único objeto associado a uma matriz que é invariante por transformações
de similaridade. O polinômio caracterı́stico e, portanto, o conjunto de seus autovalores (incluindo as
multiplicidades), também o é. Isso pode ser visto da seguinte forma.
Sejam A e B duas matrizes similares com B = P −1 AP para algum P . O polinômio caracterı́stico
de A é pA (λ) = det(λ1 − A) e o de B é pB (λ) = det(λ1 − B). Pela invariância do determinante vale
pA (λ) = det(λ1 −A) = det(P −1(λ1 −A)P ) = det(λ1 −P −1AP ) = det(λ1 −B) = pB (λ) . (3.21)
Assim, A e B têm o mesmo polinômio caracterı́stico e, portanto, seus autovalores são iguais, incluindo
suas multiplicidades.
• Comentário sobre Matrizes Bijetoras
Em parte do que segue estaremos implicitamente usando a seguinte proposição:

Proposição 3.3 Uma matriz A ∈ Mat (C, n) é bijetora (ou seja, é invertı́vel) se e somente se Av = 0
valer apenas para v = 0. 2
Prova. Se A é bijetora, então existe A−1 . Logo, aplicando-se A−1 à esquerda na igualdade Av = 0,
obtem-se v = 0. Vamos agora provar a recı́proca: vamos supor que Av = 0 vale apenas para v = 0 e
provar que A é injetora e sobrejetora e, portanto, bijetora.
Prova-se que A é injetora por absurdo. Se A não é injetora, então, existem vetores x e y com x 6= y
mas com Ax = Ay. Como A é linear, isso implica A(x − y) = 0. Pela hipótese que Av = 0 vale apenas
para v = 0, segue que x = y, uma contradição.
Para provarmos que A é sobrejetora procedemos da seguinte forma. Seja {b1 , . . . , bn } uma base
em Cn . Vamos primeiramente mostrar que {Ab1 , . . . , Abn } é um conjunto linearmente independente
de vetores em Cn (e, portanto, uma base em Cn ). Suponhamos que assim não o seja e que existam
números complexos α1 , . . . , αn , não todos nulos, tais que α1 Ab1 + · · · + αn Abn = 0. Pela linearidade
de A, segue que A (α1 b1 + · · · + αn bn ) = 0. Novamente, pela hipótese que Av = 0 vale apenas para
v = 0, segue que α1 b1 + · · · + αn bn = 0. Isso, porém, diz que os vetores {b1 , . . . , bn } são linearmente
dependentes, o que é absurdo.
Logo, {Ab1 , . . . , Abn } é um conjunto de n vetores linearmente independente em Cn e, portanto,
é uma base nesse espaço. Assim, qualquer x ∈ Cn pode ser escrito como uma combinação linear tal
como x = β1 Ab1 + · · · + βn Abn = A (β1 b1 + · · · + βn bn ). Isso mostra que x está na imagem de A.
Como x é arbitrário, segue que A é sobrejetora.
Um corolário evidente é o seguinte:

Corolário 3.1 Se uma matriz A ∈ Mat (C, n) não é bijetora (ou seja, se não possui inversa), então
existe um vetor não-nulo v tal que Av = 0. 2
• Autovetores
Seja λ0 um autovalor de uma matriz A. Então λ0 1 − A não tem inversa. Logo, como V = Cn é um
espaço vetorial de dimensão finita, existe pelo Corolário 3.1 acima pelo menos um vetor não-nulo v tal
que (λ0 1 − A)v = 0, ou seja, Av = λ0 v. Chegamos a mais uma importante definição:
Definição. Um vetor não-nulo v é dito ser um autovetor de uma matriz A se houver λ0 ∈ C tal que
Av = λ0 v .
Note-se que se um tal λ0 satisfaz a relação acima para algum v 6= 0 então λ0 1 − A não tem inversa.
λ0 é então um elemento do espectro de A, ou seja, um autovalor. λ0 é dito ser o autovalor associado
ao autovetor v.
Uma observação importante é a seguinte. Sejam v1 e v2 dois autovetores aos quais está associado o
mesmo autovalor, ou seja, Av1 = λ0 v1 e Av2 = λ0 v2 . Então, para quaisquer números complexos c1 e
c2 o vetor v = c1 v1 + c2 v2 também satisfaz Av = λ0 v. De fato,
Av = A(c1 v1 + c2 v2 ) = c1 Av1 + c2 Av2 = c1 λ0 v1 + c2 λ0 v2 = λ0 (c1 v1 + c2 v2 ) = λ0 v .
A conclusão a que se chega é que, para cada autovalor αi de uma matriz A, a coleção formada pelo
vetor nulo e todos os autovetores de A com autovalor αi é um subespaço vetorial. Vamos denotar esse
subespaço por E(αi) ou simplesmente Ei .
Se αi e αj são autovalores distintos de A então os sub-espaços de autovetores E(αi) e E(αj ) têm
em comum apenas o vetor nulo, ou seja, E(αi ) ∩ E(αj ) = {0}. Isso é fácil de provar, pois se w é tal
que Aw = αi w e Aw = αj w então, subtraindo-se uma relação da outra terı́amos 0 = (αi − αj )w, que
implica w = 0, já que αi 6= αj .
Essas considerações nos levam a mais um conceito importante: o de multiplicidade geométrica de
um autovalor.
• A Multiplicidade Geométrica de um Autovalor

Além do conceito de multiplicidade algébrica de um autovalor, há também o conceito de multipli-

cidade geométrica de um autovalor, do qual trataremos agora.
Como antes seja A ∈ Mat (C, n) uma matriz e sejam α1 , . . . , αr , 1 ≤ r ≤ n, seus autovalores
distintos, cada qual com multiplicidade algébrica a1 , . . . , ar , respectivamente.
Acima introduzimos os sub-espaços Ei = E(αi ), definidos como sendo os sub-espaços gerados por
todos os autovetores que têm αi como autovalor. A multiplicidade geométrica de um autovalor αi é
definida como sendo a dimensão do subespaço Ei , ou seja, como sendo o número máximo de autovetores
linearmente independentes com autovalor αi .
É importante advertir de imediato o leitor do fato que a multiplicidade algébrica e multiplicidade
geométrica de autovalores nem sempre coincidem. Isso é bem ilustrado no seguinte exemplo simples.
Seja
0 1
A = .
0 0
Seu polinômio caracterı́stico é

λ −1
pa (λ) = det(λ1 − A) = det = λ2 .
0 λ
Assim, seu (único) autovalor é 0 com multiplicidade algébrica 2. Quais os seus autovetores? São aqueles
vetores que satisfazem Av = 0. Denotando v como um vetor coluna

a
v = ,
b
a relação Av = 0 significa
0 1 a b
= = 0.
0 0 b 0
Logo b = 0 e todos os autovetores são da forma

a
v = ,
0
a ∈ C. É evidente que o subespaço gerado pelos autovetores com autovalor zero tem dimensão 1.
Assim, a multiplicidade algébrica do autovalor zero é 2 mas a sua multiplicidade geométrica é 1.
• A Multiplicidade Algébrica e a Multiplicidade Geométrica
Apesar de a multiplicidade algébrica e a multiplicidade geométrica de um autovalor nem sempre

coincidirem, há uma relação de ordem entre eles. A saber, é possı́vel mostrar que a multiplicidade
geométrica de um autovalor é sempre menor ou igual à sua multiplicidade algébrica.
Isso segue das seguintes considerações. Seja λ0 um autovalor de A ∈ Mat (C, n) e E(λ0 ) o subespaço
gerado pelos autovetores com autovalor λ0 , e cuja dimensão denotaremos por d. Vamos escolher uma
base v1 , . . . , vd , vd+1 , . . . , vn onde os primeiros d vetores são elementos de E(λ0 ). Nessa base a matriz
A tem a forma
D 0d, n−d
,
A3 A4
 
onde D é uma matriz d × d diagonal D = diag λ0 , . . . , λ0 , A4 é uma matriz (n − d) × (n − d) e

| {z }
d vezes
A3 é uma matriz (n − d) × d. Alguns segundos (minutos?) de meditação, usando pela Proposição 3.1
da página 162, nos levam a concluir que o polinômio caracterı́stico de A é dado por
det(λ1 − A) = (λ − λ0 )d det(λ1 − A4 ) .
Isso mostra que a multiplicidade algébrica de λ0 é pelo menos igual a d, sua multiplicidade geométrica.
E. 3.6 Exercı́cio. Realize a meditação sugerida acima. 6
• Matrizes Simples
O que foi exposto acima leva-nos naturalmente ao conceito de matriz simples que, como veremos
mais adiante, está intimamente ligado ao problema da diagonalizabilidade de matrizes.
Definição. Uma matriz A ∈ Mat (C, n) é dita ser uma matriz simples se cada autovalor de A tiver
uma multiplicidade algébrica igual à sua multiplicidade geométrica.
Deixamos para o leitor provar o seguinte fato: toda matriz diagonal é simples.
Adiante faremos uso da seguinte proposição.

Proposição 3.4 Se A ∈ Mat (C, n) é uma matriz simples e P ∈ Mat (C, n) é invertı́vel então P −1AP
é também simples. 2
Prova. Já vimos (página 165) que A e P −1 AP têm o mesmo polinômio caracterı́stico e, portanto,
os mesmos autovalores, incluindo suas multiplicidades algébricas. Seja λ0 um desses autovalores com
multiplicidade algébrica d e sejam v1 , . . . , vd um conjunto de d autovetores linearmente indepen-
dentes de A. Os vetores P −1 v1 , . . . , P −1vd são autovetores de P −1AP com autovalor λ0 . De fato,
(P −1 AP ) P −1 vi = P −1Avi = λ0 P −1 vi . Fora isso os d vetores P −1 v1 , . . . , P −1 vd são também linear-
mente independentes. Para ver isso, suponha houvesse constantes c1 , . . . , cd tais que
c1 P −1 v1 + · · · + cd P −1 vd = 0 .
Multiplicando-se à esquerda por P terı́amos c1 v1 + · · · + cd vd = 0. Como v1 , . . . , vd são linearmente

independentes as constantes ci têm que ser todas nulas, provando que os vetores P −1 v1 , . . . , P −1 vd
são também linearmente independentes.
Isso prova que a multiplicidade geométrica do autovalor λ0 é pelo menos igual a d. Como ela não
pode ser maior que d (página 167), conclui-se que é igual a d provando a proposição.
A seguinte proposição elementar é por vezes útil para verificar se uma matriz é simples.
Proposição 3.5 Se todos os n autovalores de uma matriz A ∈ Mat (C, n) forem distintos então A é
simples. 2
Prova. Se os autovalores de A são α1 , . . . , αn , todos distintos, então cada um tem multiplicidade

algébrica igual a 1. Forçosamente, sua multiplicidade geométrica é também igual a 1, já que a multi-
plicidade geométrica não pode ser maior que a algébrica.
Ressaltemos que a recı́proca da proposição acima não é verdadeira: uma matriz pode ser simples e
possuir autovalores com multiplicidade algébrica maior que 1.
3.2.1 O Traço de uma Matriz
• O Traço de uma Matriz
Seja A ∈ Mat (C, n), cujos elementos de matriz são Aij , i, j = 1, . . . n. Sejam λ1 , . . . , λn seus n
autovalores (não necessariamente distintos e repetidos conforme sua multiplicidade).
Definimos o traço de A como sendo a soma de seus n autovalores:
n
X
Tr(A) := λa .
a=1
Uma conclusão que se tira dessa definição é que se duas matrizes são similares, então ambas têm o
mesmo traço, ou seja, para qualquer matriz invertı́vel P e qualquer matriz A vale

Tr P −1AP = Tr(A) . (3.22)
A razão reside na observação feita acima que duas matrizes similares têm o mesmo conjunto de auto-
valores e, portanto, o mesmo traço.
Temos a seguinte e importante proposição:
Proposição 3.6 O traço de uma matriz A ∈ Mat (C, n) é igual a soma dos elementos de sua diagonal
principal, ou seja,
n
X X n
Tr(A) := λa = Aaa . (3.23)
a=1 a=1
2
Prova. A demonstração consistirá em se calcular o coeficiente de λn−1 no polinômio caracterı́stico p(λ)

de A de dois modos diferentes. O polinômio caracterı́stico de A é
 
λ − A11 −A12 · · · −A1n
 −A21 λ − A22 · · · −A2n 
 
p(λ) = det(λ1 − A) = det  .. .. . . ..  .
 . . . . 
−An1 ··· · · · λ − Ann
P
As técnicas de cálculo de determinantes nos dizem que o coeficiente de λn−1 é − ni=1 Aii . Por exemplo,
para o caso n = 2

λ − A11 −A12
p(λ) = det = λ2 − λ(A11 + A22 ) + A11 A22 − A12 A21 .
−A21 λ − A22
E. 3.8 Exercı́cio. Convença-se da veracidade da afirmativa acima para o caso de n arbitrário. Sugestão:
use a expansão em cofatores (3.12)-(3.13) ou leia a Seção 3.9.1, página 231. 6
Por outro lado, os autovalores de A, λ1 , . . . , λn , são por definição as raı́zes do polinômio carac-
terı́stico. Logo,
p(λ) = (λ − λ1 )(λ − λ2 ) · · · (λ − λn ) .
Expandindo-se essa expressão, conclui-se que o coeficiente de λn−1 é
−(λ1 + · · · + λn ) = −Tr(A) .
E. 3.9 Exercı́cio. Certo? 6
Do exposto acima, conclui-se que o coeficiente de λn−1 no polinômio caracterı́stico de A é

n
X
− Aii = −(λ1 + · · · + λn ) = −Tr(A) ,
i=1
o que termina a prova.
Essa proposição leva a duas outras propriedades igualmente importantes: a linearidade do traço e
a chamada propriedade cı́clica do traço.
Proposição 3.7 (A Linearidade do Traço) Sejam A, B ∈ Mat (C, n) e α, β ∈ C. Então
Tr(αA + βB) = αTr(A) + βTr(B) .
2
Prova. A prova é imediata por (3.23).
É curioso notar que a linearidade do traço vista acima é evidente por (3.23), mas não é nem
um pouco evidente pela definição do traço de uma matriz como soma de seus autovalores, pois os
autovalores individuais de αA + βB não são em geral combinações lineares dos autovalores de A e de
B, especialmente no caso em que A e B não comutam.
Proposição 3.8 (A Propriedade Cı́clica do Traço) Sejam A, B ∈ Mat (C, n). Então
Tr(AB) = Tr(BA) .
2
Prova. Pelo que vimos acima, tem-se

n n n
! n n
! n
X X X X X X
Tr(AB) = (AB)ii = Aij Bji = Bji Aij = (BA)jj = Tr(BA) .
i=1 i=1 j=1 j=1 i=1 j=1
Na segunda e quarta igualdades usamos a regra de produto de matrizes. Na terceira igualdade apenas
trocamos a ordem das somas.
Novamente vale aqui o comentário que a propriedade cı́clica expressa na Proposição 3.8 não é
nada evidente pela definição do traço de uma matriz como soma de seus autovalores. Os autovalores
individuais de produto de matrizes AB não são em geral iguais aos do produto BA.
Mais adiante, demonstraremos uma outra propriedade importante do traço que o relaciona com
o determinante,
a saber, provaremos que para qualquer matriz A, real ou complexa, n × n, tem-se
A Tr(A)
det e = e . Vide Proposição 4.7, página 250.
3.3 Polinômios de Matrizes
• Polinômios de Matrizes
Seja p um polinômio de grau m:

p(x) = am xm + · · · + a1 x + a0
com x ∈ C, aj ∈ C e am 6= 0. Para uma matriz A ∈ Mat (C, n) definimos o polinômio matricial p(A)
por
p(A) = am Am + · · · + a1 A + a0 1 .
Obviamente p(A) é também uma matriz n × n com entradas complexas.
Se as raı́zes do polinômio p forem α1 , . . . , αr , com multiplicidades m1 , . . . , mr , respectivamente,
então r
Y
p(x) = am (x − αj )mj ,
j=1
para todo x ∈ C. É fácil provar, então, que

r
Y
p(A) = am (A − αj 1)mj .
j=1
E. 3.10 Exercı́cio. Justifique isso. 6
E. 3.11 Exercı́cio. Mostre que se D = diag (d1 , . . . , dn ) e q é um polinômio então

q(D) = diag (q(d1 ), . . . , q(dn )) .
6
E. 3.12 Exercı́cio. Suponha que A = P −1 DP , onde D = diag (d1 , . . . , dn ). Se q é um polinômio

mostre que
q(A) = P −1 q(D)P = P −1diag (q(d1 ), . . . , q(dn )) P .
6
• O Polinômio Mı́nimo
Vamos mostrar que para cada matriz A ∈ Mat (C, n) sempre existe pelo menos um polinômio p
com a propriedade que p(A) = 0.
Para tal notemos primeiramente que Mat (C, n) é um espaço vetorial complexo de dimensão n2 .
De fato toda a matriz A ∈ Mat (C, n), cujos elementos de matriz são Aij ∈ C pode ser trivialmente
escrita na forma n Xn
X
A = Aab E ab
a=1 b=1
onde E ab ∈ Mat (C, n) são matrizes cujos elementos de matriz são (E ab )ij = δi,a δj,b, ou seja, todos os
elementos de matriz de E ab são nulos, exceto o elemento a, b, que vale 1.
Assim, vemos que as matrizes {E ab , a = 1, . . . , n, b = 1, . . . , n} formam uma base em Mat (C, n),
mostrando que Mat (C, n) é um espaço vetorial de dimensão n2 . Isto posto, temos que concluir que
qualquer conjunto de mais de n2 matrizes não-nulas em Mat (C, n) é linearmente dependente.
Se uma das matrizes Ak , k = 1, . . . , n2 , for nula, digamos Aq = 0, então p(x) = xq , tem
a propriedade que p(A) = 0, que é o que desejamos provar. Se, por outro lado, as matrizes Ak ,
k = 1, . . . , n2 , são todas não-nulas, então conjunto {1, A, A2 , . . . , An } é linearmente dependente,
2
pois possui n2 + 1 elementos. Portanto, existem constantes c0 , . . . , cn2 , nem todas nulas, tais que
c0 1 + c1 A + c2 A2 + · · · + cn2 An = 0 .
2
Como o lado esquerdo é um polinômio em A, fica provada nossa afirmação que toda matriz possui um
polinômio que a anula. Chegamos às seguintes definições:
Definição. Polinômio Mônico. Um polinômio p : R → C de grau n é dito ser um polinômio mônico

se for da forma
p(x) = xn + an−1 xn−1 + · · · + a1 x + a0 ,
ou seja, se o coeficiente do monômio de maior grau (no caso, xn ) for igual a 1. Note-se que polinômios
mônicos nunca são identicamente nulos.
Definição. Polinômio Mı́nimo de uma Matriz. Dada uma matriz A ∈ Mat (C, n), o polinômio
mı́nimo de A é o polinômio mônico de menor grau que é anulado em A, ou seja, é o polinômio não-nulo
de menor grau da forma
M(x) = xm + am−1 xm−1 + · · · + a1 x + a0
para o qual M(A) = 0.
As considerações acima mostram que um tal polinômio sempre existe e que tem grau no máximo
igual a n2 . Essa é, no entanto, uma estimativa exagerada para o grau do polinômio mı́nimo de uma
matriz A ∈ Mat (C, n) pois, como veremos abaixo, o polinômio mı́nimo de uma matriz A ∈ Mat (C, n)
tem, na verdade, grau menor ou igual a n. Isso é um corolário de um teorema conhecido como Teorema
de Hamilton-Cayley , que demonstraremos abaixo (Teorema 3.3, página 174).
Finalizamos com um teorema básico que garante a unicidade do polinômio mı́nimo e estabelece sua
relação com outros polinômios que anulam A.
Teorema 3.2 O polinômio mı́nimo M de uma matriz A ∈ Mat (C, n) é único. Fora isso se P é um
polinômio não-identicamente nulo que também se anula em A, ou seja, P (A) = 0, então P é divisı́vel
por M, ou seja, existe um polinômio F tal que P (x) = F (x)M(x) para todo x ∈ C. 2
Demonstração. Dada uma matriz A ∈ Mat (C, n), o polinômio mı́nimo de A é o polinômio de menor
grau da forma
M(x) = xm + am−1 xm−1 + · · · + a1 x + a0
para o qual M(A) = 0. Vamos supor que haja outro polinômio N da forma
N(x) = xm + bm−1 xm−1 + · · · + b1 x + b0
para o qual N(A) = 0. Subtraindo um do outro terı́amos o polinômio
(M − N)(x) = (am−1 − bm−1 )xm−1 + · · · + (a1 − b1 )x + (a0 − b0 ) ,
que tem grau menor ou igual a m − 1 e para o qual vale (M − N)(A) = M(A) − N(A) = 0 − 0 = 0.
Como, por hipótese, não há polinômios não-nulos com grau menor que o de M que anulam A, isso é
uma contradição, a menos que M = N. Isso prova a unicidade.
Seja P um polinômio não identicamente nulo para o qual valha P (A) = 0. Se p é o grau de P ,
deve-se ter p ≥ m, onde m é o grau do polinômio mı́nimo de A. Logo, pelos bem conhecidos fatos sobre
divisão de polinômios, podemos encontrar dois polinômios F e R, cujos graus são, respectivamente
p − m e r com 0 ≤ r < m, tais que
P (x) = F (x)M(x) + R(x) ,
para todo x ∈ C. Ora, isso diz que
P (A) = F (A)M(A) + R(A) .
Como P (A) = 0 e M(A) = 0, isso implica R(A) = 0. Como, porém, o grau de R é menor que m,
tem-se que R deve ser identicamente nulo. Isso completa a prova.
3.3.1 O Teorema de Hamilton-Cayley

Vamos aqui demonstrar um teorema sobre matrizes que será usado mais adiante de várias formas, em
particular no Teorema Espectral, o chamado Teorema de Hamilton2 -Cayley3 . Esse teorema fornece
2
Sir William Rowan Hamilton (1805-1865).
3
Arthur Cayley (1821-1895).
também, como veremos, um método eficiente para o cálculo da inversa de matrizes. Cayley e Hamilton
demonstraram casos particulares do teorema para matrizes 2 × 2, 3 × 3 (Cayley) e 4 × 4 (Hamilton).
A primeira demonstração geral é devida a Frobenius4 . Cayley, Hamilton e Sylvester5 estão entre os
fundadores modernos da teoria das matrizes6 .
Teorema 3.3 (Teorema de Hamilton-Cayley) Seja A ∈ Mat (C, n) e seja q(x) = det(x1 − A) o
polinômio caracterı́stico de A (e que tem grau n). Então q(A) = 0. 2
Prova. Desejamos mostrar que para todo vetor y ∈ Cn vale q(A)y = 0. Se y = 0 isso é trivial. Se y 6= 0
mas com Ay = 0 então
q(A)y = (−1)n λ1 · · · λn y ,
onde λ1 , · · · , λn são os autovalores de A. Mas a própria relação Ay = 0 indica que um dos autovalores
é igual a zero. Logo q(A)y = 0. Mais genericamente, se y 6= 0 e {y, Ay} não for um conjunto de vetores
linearmente independentes, então Ay e y são proporcionais, ou seja, existe um autovalor, digamos, λn
tal que Ay = λn y. Nesse caso também tem-se
n−1
!
Y
q(A)y = (A − λi 1) (A − λn 1)y = 0 ,
i=1
pois (A − λn 1)y = Ay − λn y = 0.
Seja então y daqui por diante um vetor fixado, não-nulo e tal que {y, Ay} é um conjunto de dois
vetores não-nulos e linearmente independentes.
Como o espaço Cn tem dimensão n, nem todos os conjuntos de vetores da forma
{y, Ay, A2 y, . . . , Aj y}
são formados por vetores não-nulos linearmente independentes. Por exemplo, se j ≥ n, o conjunto
{y, Ay, A2 y, . . . , Aj y} não pode ser formado por vetores não-nulos linearmente independentes pois
seu número excede a dimensão do espaço.
Seja k o maior número tal que {y, Ay, A2 y, . . . Ak−1 y} é um conjunto de vetores não-nulos e
linearmente independentes. É claro que 1 < k ≤ n.
É claro também, pela definição de k, que
Ak y = hk y + hk−1 Ay + · · · + h1 Ak−1 y , (3.24)
para constantes h1 , . . . , hk .
Vamos denominar z1 = Ak−1 y, z2 = Ak−2 y, . . . , zk = y, ou seja, zj = Ak−j y, j = 1, . . . , k, todos
não-nulos por hipótese. Caso k < n, escolhamos ainda vetores zk+1 , . . . , zn de modo que o conjunto
{z1 , . . . , zn } forme uma base em Cn .
4
Ferdinand Georg Frobenius (1849-1917)
5
James Joseph Sylvester (1814-1897).
6
Muitos certamente se surpreenderão em saber que Cayley e Sylvester eram originalmente advogados.
Coloquemo-nos agora a seguinte questão: qual é a forma da matriz A nessa base? No sub-espaço
gerado pelos vetores {z1 , . . . , zk } tem-se o seguinte: para i = 2, . . . , k vale Azi = zi−1 . Além disso, por
(3.24), Az1 = h1 z1 + h2 z2 + · · · + hk zk . Isso mostra que o subespaço gerado pelos vetores {z1 , . . . , zk }
é invariante pela ação de A e o operador linear A, no mesmo subespaço, tem a forma
 
h1 1 0 . . . 0 0
 .. 
 h2 0 1 . 0 0
 . .. . . . . . . .. 
 .. . . . . .
  . (3.25)
 . 
hk−2 0 0 . . 1 0
 
hk−1 0 0 . . . 0 1
hk 0 0 . . . 0 0
E. 3.14 Exercı́cio. Justifique isso. 6
Se designarmos por P o operador que realiza essa mudança de base, o operador linear A na base
{z1 , . . . , zn } tem, portanto, a forma A′ = P −1 AP , onde

′ A1 0k, n−k
A = ,
A2 A3
onde A1 é a matriz k×k definida em (3.25), A2 é uma matriz (n−k)×k e A3 é uma matriz (n−k)×(n−k).
Não nos será necessário especificar os elementos das matrizes A2 e A3 .
Outros segundos (minutos?) de meditação, usando a Proposição 3.1 da página 162, nos levam a
concluir que o polinômio caracterı́stico q pode ser escrito como
q(x) = det(x1 − A′ ) = det(x1 − A1 ) det(x1 − A3 ) .
(O estudante deve recordar-se que as matrizes A e A′ , por serem similares, têm o mesmo polinômio
caracterı́stico).
Vamos denominar qk (x) = det(x1 − A1 ) e rk (x) = det(x1 − A3 ). Claramente, q(x) = qk (x)rk (x).
Não será necessário, no que segue, calcular rk , mas precisaremos calcular qk . Como esse pequeno
resultado tem interesse independente, vamos formulá-lo como um lema, para futura referência.
Lema 3.1 Para h1 , . . . , hk ∈ C, tem-se
 
x − h1 −1 0 . . . 0 0
 . 
 −h2 x −1 . . 0 0
 . .. .. .. .. 
 .. . . . . 

qk (x) := det   = xk − (h1 xk−1 + · · · + hk−1 x + hk ) . (3.26)
. 
−hk−2 0 0 . . −1 0 
 
−hk−1 0 0 . . . x −1
−hk 0 0 ... 0 x
2
Prova. A prova é feita por indução. Para k = 2 vale

x − h1 −1
q2 (x) = det = x2 − h1 x − h2 .
−h2 x
Para k > 2, tem-se, pelas bem conhecidas regras de cálculo de determinantes,

   
x − h1 −1 0 0 x − h1 −1 0 0
 ..   .. 
 −h2 x . 0 0  −h2 x . 0 0
   
qk (x) = x det  ... .. ..
. .  + 1 det  ... .. ..
. . 
   
−hk−2 0 x −1  −hk−2 0 x −1
−hk−1 0 ... 0 x (k−1)×(k−1) −hk 0 ... 0 0 (k−1)×(k−1)
 
−1 0 . . . 0 0
 . 
 x −1 . . 0 0
 .. .. .. . 
= xqk−1 (x) + (−1)k−1+1 (−hk ) det 
 . . . .. 

 . 
0 0 . . −1 0 
0 0 . . . x −1 (k−2)×(k−2)
= xqk−1 (x) + (−1)k+1 hk (−1)k−2
= xqk−1 (x) − hk . (3.27)
E. 3.15 Exercı́cio. Complete os detalhes. 6
Assim, se pela hipótese indutiva qk−1 é da forma
qk−1 (x) = xk−1 − (h1 xk−2 + · · · + hk−2 x + hk−1 ) ,
segue de (3.27) que
qk (x) = x(xk−1 − (h1 xk−2 + · · · + hk−2 x + hk−1 )) − hk
= xk − (h1 xk−1 + · · · + hk−2 x2 + hk−1 x + hk ) , (3.28)
como querı́amos provar.
Retomando, temos que q(A)y = qk (A)rk (A)y = rk (A)qk (A)y. Sucede, porém, que qk (A)y = 0. De
fato, pelo cômputo acima,
qk (A)y = Ak y − h1 Ak−1 y − · · · − hk−2 A2 y − hk−1 Ay − hk y ,
que é igual a zero por (3.24). Logo q(A)y = 0. Como y foi escolhido arbitrário, segue que q(A) = 0,
demonstrando o Teorema de Hamilton-Cayley, Teorema 3.3.
• O Teorema de Hamilton-Cayley e a Inversa de Matrizes
O Teorema de Hamilton-Cayley fornece-nos um método de calcular a inversa de matrizes não-

singulares. De fato, se q(x) = xn + an−1 xn−1 + · · · + a1 x + a0 é o polinômio caracterı́stico de uma matriz
não-singular A, então o Teorema de Hamilton-Cayley afirma que
An + an−1 An−1 + · · · + a1 A + a0 1 = 0 ,
ou seja,
A An−1 + an−1 An−2 + · · · + a2 A + a1 1 = −a0 1 .
Isso tem por implicação
1
A−1 = − An−1 + an−1 An−2 + · · · + a2 A + a1 1 . (3.29)
a0
Vide (3.97), página 232, para uma expressão mais explı́cita.
Nota. Usando a definição de polinômio caracterı́stico q(x) = det(x1 − A), é evidente (tomando-se
x = 0) que a0 = (−1)n det(A). Assim, a0 6= 0 se e somente se A for não-singular.
Em muitos casos a fórmula (3.29) é bastante eficiente para calcular A−1 , pois a mesma envolve
poucas operações algébricas em comparação com outros métodos, o que é uma vantagem para valores
grandes de n. Compare, por exemplo, com a regra de Laplace, expressão (3.11), página 157, para o
cálculo de A−1 , que envolve o cômputo de n2 + 1 determinantes de sub-matrizes de ordem n − 1 de A.
E. 3.16 Exercı́cio. Use esse método para calcular a inversa das suas matrizes não-singulares favoritas.
6
• De volta ao polinômio mı́nimo
O Teorema 3.2, página 173, e o Teorema de Hamilton-Cayley, juntos, permitem-nos precisar algo a
respeito da forma geral do polinômio mı́nimo de uma matriz.
Se A ∈ Mat (C, n) tem r autovalores distintos α1 , . . . , αr , cada qual com multiplicidade algébrica
a1 , . . . , ar , respectivamente, então seu polinômio caracterı́stico q é da forma
r
Y
q(x) = (x − αk )ak .
k=1
Pelo Teorema de Hamilton-Cayley, q(A) = 0 e, portanto, pelo Teorema 3.2, M, o polinômio mı́nimo
de A, divide q. Logo, M deve ser da forma
s
Y
M(x) = (x − αkl )bl , (3.30)
l=1
onde s ≤ r, {αk1 , . . . , αks } ⊂ {α1 , . . . , αr } e onde 0 < bl ≤ akl para todo 1 ≤ l ≤ s. Seja agora,
porém, vm 6= 0 um autovetor de A com autovalor αm Segue do fato que M(A) = 0 que
s
Y s
Y
0 = M(A)vm = (A − αkl 1) vm =
bl
(αm − αkl )bl vm .
l=1 l=1
Q
Logo, sl=1 (αm − αkl )bl = 0 e isso implica que αm ∈ {αk1 , . . . , αks }. Como isso vale para todo
1 ≤ m ≤ r, segue que {α1 , . . . , αr } ⊂ {αk1 , . . . , αks } e, portanto, {α1 , . . . , αr } = {αk1 , . . . , αks }.
Nossa conclusão é resumida no seguinte:
Proposição 3.9 Seja A ∈ Mat (C, n) com r autovalores distintos α1 , . . . , αr ∈ C, cada qual com
multiplicidade algébrica a1 , , . . . , ar , sendo 1 ≤ r ≤ n. Então M, o polinômio mı́nimo de A, é da
forma
Yr
M(x) = (x − αk )bk , (3.31)
k=1
∀x ∈ C, onde 0 < bl ≤ al para todo 1 ≤ l ≤ r. Em particular, se A ∈ Mat (C, n) tiver exatamente n

autovalores distintos, teremos que bl = al = 1 para todo 1 ≤ l ≤ n, e
n
Y
M(x) = q(x) = (x − αk ) ,
k=1
∀x ∈ C. 2
3.4 Matrizes Diagonalizáveis e o Teorema Espectral
• Matrizes Diagonalizáveis
Vamos agora apresentar uma noção intimamente ligada à de matriz simples introduzida acima
(página 168), mas de importância maior.
Definição. Uma matriz A ∈ Mat (C, n) é dita ser uma matriz diagonalizável se existir uma matriz
invertı́vel P ∈ Mat (C, n) tal que P −1 AP é uma matriz diagonal, ou seja,
 
d1 · · · 0
 
P −1AP = D = diag (d1 , . . . , dn ) =  ... . . . ...  .
0 · · · dn
É fácil de se ver que os elementos da diagonal de D são os autovalores de A. De fato, se A é

diagonalizável por P , vale para seu polinômio caracterı́stico
p(λ) = det(λ1 − A) = det(P −1 (λ1 − A)P ) = det(λ1 − P −1AP ) = det(λ1 − D)

 
λ − d1 · · · 0
 ..  = (λ − d ) · · · (λ − d ) ,
= det  ... ..
. .  1 n
0 · · · λ − dn
o que mostra que os di são as raı́zes do polinômio caracterı́stico de A e, portanto, seus autovalores.
E. 3.17 Exercı́cio. Justifique todas as passagens acima. 6

• Diagonalização de Matrizes
O próximo teorema é fundamental no estudo de matrizes diagonalizáveis.

Teorema 3.4 Uma matriz A ∈ Mat (C, n) é diagonalizável se e somente se possuir um conjunto de
n autovetores linearmente independentes, ou seja, se e somente se o sub-espaço gerado pela coleção de
todos os autovetores de A possuir dimensão n. 2
Prova. Vamos primeiro provar que se A ∈ Mat (C, n) possui um conjunto de n autovetores linearmente
independentes então A é diagonalizável. Para tal vamos construir a matriz P que diagonaliza A.
Seja {v 1 , . . . , v n } um conjunto de n autovetores linearmente independentes de A, cujos autovalores
são {d1 , . . . , dn }, respectivamente. Vamos denotar as componentes de v i na base canônica por vji ,
hh ii
1 n
j = 1, . . . , n. Seja a matriz P definida por P = v , . . . , v , ou seja,
 
v11 · · · v1n
 
P =  ... . . . ...  .
vn1 · · · vnn
Como se vê pela construção, a a-ésima coluna de P é formada pelas componentes do vetor v a . Por
(3.4), segue que hh ii hh ii
AP = Av 1 , . . . , Av n = d1 v 1 , . . . , dn v n .
Por (3.6) vale, porém, que

  
1 n
hh ii v 1 · · · v1 d 1 · · · 0
  
d1 v 1 , . . . , dn v n =  ... . . . ...   ... . . . ...  = P D .
vn1 · · · vnn 0 · · · dn
Portanto, AP = P D. Como, por hipótese, as colunas de P são formadas por vetores linearmente
independentes, tem-se que det(P ) 6= 0 (por que?). Logo, P é invertı́vel e, portanto, P −1 AP = D, como
querı́amos demonstrar.
Vamos provar agora a afirmação recı́proca que se A é diagonalizável, então possui n autovetores
linearmente independentes. Suponha que exista P tal que
 
d1 · · · 0
 
P −1 AP = D =  ... . . . ...  .
0 · · · dn
É evidente que os vetores da base canônica

     
1 0 0
0 1 0
     
     
e1 = 0 , e2 = 0 , ..., en =  ... 
 ..   ..   
. . 0
0 0 1
são autovetores de D com Dea = da ea . Logo, v a = P ea são autovetores de A, pois
Av a = AP ea = P Dea = P (da ea ) = da P ea = da v a .
Provar que os vetores v a são linearmente independentes é fácil. Suponha que existam números com-
plexos α1 , . . . , αn tais que
α1 v 1 + · · · + αn v n = 0 .
Multiplicando-se à esquerda por P −1 terı́amos
α1 e1 + · · · + αn en = 0 .
Como os ea são obviamente linearmente independentes, segue que α1 = · · · = αn = 0, provando que os

v a são linearmente independentes.
• Matrizes Diagonalizáveis e Matrizes Simples
Vamos agora discutir a relação entre os conceitos de matriz diagonalizável e o de matriz simples,
conceito esse introduzido à página 168. Tem-se a saber o seguinte fato:
Proposição 3.10 Uma matriz A ∈ Mat (C, n) é diagonalizável se e somente se for simples, ou
seja, se e somente se a multiplicidade algébrica de cada um dos seus autovalores coincidir com sua
multiplicidade geométrica. 2
Prova. Se A é diagonalizável existe P tal que P −1 AP = D, diagonal. Como toda matriz diagonal, D é
simples. Escrevamos D na forma
 
D = diag α1 , . . . , α1 , . . . , αr , . . . , αr ,  .
| {z } | {z }
a1 vezes ar vezes
Um conjunto de n-autovetores de D linearmente independentes é fornecido pelos vetores da base

canônica:      
1 0 0
0 1 0
     
     .. 
e1 = 0 , e2 = 0 , . . . , en = . .
 ..   ..   
. . 0
0 0 1
Os vetores e1 , . . . , ea1 geram o subespaço de autovetores com autovalor α1 de D etc.

Para a matriz A, os vetores P e1 , . . . , P ea1 geram o subespaço de autovetores com autovalor α1 etc.
É claro que a dimensão desse subespaço é a1 , pois P e1 , . . . , P ea1 são linearmente independentes, já
que os vetores da base canônica e1 , . . . , ea1 o são. Como isso também vale para os demais autovalores
concluı́mos que A é simples.
Resta-nos agora mostrar que se A ∈ Mat (C, n) é simples então A é diagonalizável. Como antes,
sejam α1 , . . . , αr , 1 ≤ r ≤ n, seus autovalores distintos, cada qual com multiplicidade algébrica
a1 , . . . , ar , respectivamente, e seja E(αi ) o subespaço gerado pelos autovetores com autovalor αi .
Como A é simples, tem-se que a dimensão de E(αi ) é ai . Já observamos (página 166) que sub-espaços
E(αi ) associados a autovalores distintos têm em comum apenas o vetor nulo.Pr Assim, se em cada E(αi )
escolhermos ai vetores independentes, teremos ao todo um conjunto de i=1 ai = n autovetores (vide
(3.19)) linearmente independentes de A. Pelo Teorema 3.4, A é diagonalizável, completando a prova.
• Projetores
Uma matriz E ∈ Mat (C, n) é dita ser um projetor se satisfizer

E2 = E .
Discutiremos várias propriedades importantes de projetores adiante, especialmente de uma classe

especial de projetores denominados projetores ortogonais. Por ora, vamos mostrar duas propriedades
que usaremos logo abaixo quando discutirmos o teorema espectral.
A primeira propriedade é a afirmação que se λ é um autovalor de um projetor E então ou λ é igual
a zero ou a um. De fato se v é um autovetor associado a um autovalor λ de E, tem-se que Ev = λv e
E 2 v = λ2 v. Como E 2 = E, segue que λ2 v = λv. Logo λ(λ − 1) = 0 e, portanto, λ = 0 ou λ = 1.
A segunda propriedade é uma conseqüência da primeira: o traço de um projetor E ∈ Mat (C, n) é
um número inteiro positivo ou nulo, mas menor ou igual a n. De fato, pela definição, o traço de um
projetor E é a soma de seus autovalores. Como os mesmos valem zero ou um a soma é um inteiro
positivo ou nulo. Como há no máximo n autovalores a soma não pode exceder n. Na verdade, o único
projetor cujo traço vale exatamente n é a identidade 1 e o único projetor cujo traço vale exatamente 0
é a matriz nula (por que?).
Essas observações têm a seguinte conseqüência que usaremos adiante. Se E1 , . . . , Er são r projetores
não-nulos com a propriedade que
Xr
1 = Ea
a=1
então r ≤ n. Para ver isso, basta tomar o traço de ambos os lados dessa expressão:
r
X
Tr(1) = Tr(Ea ) . (3.32)
a=1
O lado esquerdo vale n enquanto que o lado direito é uma soma de r inteiros positivos. Obviamente
isso só é possı́vel se r ≤ n.
Uma outra observação útil é a seguinte: se E e E ′ são dois projetores satisfazendo EE ′ = E ′ E = 0,

então E + E ′ é igualmente um projetor, como facilmente se constata.
• O Teorema Espectral
O chamado Teorema Espectral é um dos mais importantes teoremas de toda a Álgebra Linear e, em
verdade, de toda Análise Funcional, já que o mesmo possui generalizações para operadores limitados
e não-limitados (auto-adjuntos) agindo em espaços de Hilbert. Dessas generalizações trataremos na
Seção 26.6.1, página 1352, para o caso dos chamados operadores compactos e na Seção 26.7, página
1360, para o caso geral de operadores limitados auto-adjuntos. Nessa versão mais geral o teorema
espectral é de importância fundamental para a interpretação probabilı́stica da Fı́sica Quântica. Vide
discussão da Seção 26.7.5, página 1381.
Teorema 3.5 (O Teorema Espectral para Matrizes) Uma matriz A ∈ Mat (C, n) é diagona-
lizável se e somente se existirem r ∈ N, 1 ≤ r ≤ n, escalares distintos α1 , . . . , αr e projetores
não-nulos distintos E1 , . . . , Er ∈ Mat (C, n) tais que
r
X
A = αa Ea , (3.33)
a=1
r
X
1 = Ea (3.34)
a=1
e
Ei Ej = δi, j Ej .
Os escalares α1 , . . . , αr vêm a ser os autovalores distintos de A. 2
Adiante demonstraremos uma versão um pouco mais detalhada desse importante teorema (Teorema
3.7, abaixo). Os projetores Ea que surgem em (3.33) são denominados projetores espectrais de A. A
decomposição (3.33) é freqüentemente denominada decomposição espectral de A. Na Proposição 3.11,
página 185 mostraremos como os projetores espectrais Ea de A podem ser expressos em termos de
polinômios em A. Na Proposição 3.12, página 185, provaremos a unicidade da decomposição espectral
de uma matriz diagonalizável.
Prova do Teorema 3.5. Se A ∈ Mat (C, n) é diagonalizável existe P ∈ Mat (C, n) tal que P −1 AP =
D = diag (λ1 , . . . , λn ), onde λ1 , . . . , λn são os autovalores de A. Como pode haver autovalores
repetidos, vamos denotar por {α1 , . . . , αr }, 1 ≤ r ≤ n, o conjunto de autovalores distintos de A.
É bem claro que podemos escrever
r
X
D = αa Ka ,
a=1
onde as matrizes Ka são todas matrizes diagonais, cujos elementos diagonais são ou 0 ou 1 e tais que
r
X
Ka = 1 . (3.35)
a=1
As matrizes Ka são simplesmente definidas de modo a terem elementos de matriz iguais a 1 nas posições
da diagonal ocupadas pelo autovalor αa em D e zero nos demais. Formalmente,

 1, se i = j e (D)ii = αa
(Ka )ij = 0, se i = j e (D)ii 6= αa .

0, se i 6= j
Por exemplo, se  
2 0 0 0
0 3 0 0
D = 
0

0 2 0
0 0 0 4
teremos      
1 0 0 0 0 0 0 0 0 0 0 0
0 0 0 0 0 1 0 0 0 0 0 0
D = 2
0  +3
  +4

 .
0 1 0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0 0 0 1
É fácil constatar que as matrizes Ka têm a seguinte propriedade:
Ka Kb = δa, b Ka . (3.36)
De fato, é evidente que (Ka )2 = Ka para todo a, pois Ka é diagonal com zeros ou uns na diagonal.
Analogamente, se a 6= b Ka Kb = 0, pois os zeros ou uns aparecem em lugares distintos das diagonais
das duas matrizes.
Como A = P DP −1, tem-se que
r
X
A = αa Ea ,
a=1
−1
onde Ea := P Ka P . É fácil agora provar que
r
X
1 = Ea
a=1
e que
Ei Ej = δi, j Ej .
De fato, por (3.35),
r r r
!
X X X
Ea = P Ka P −1 = P Ka P −1 = P 1P −1 = 1 .
a=1 a=1 a=1
Analogamente, tem-se por (3.36),
Ea Eb = P Ka P −1 P KbP −1 = P Ka Kb P −1 = δa, b P Ka P −1 = δa, b Ea .
Vamos agora provar a recı́proca. Vamos supor que A possua a representação (3.33), onde os Ea ’s
satisfazem as propriedades enunciadas.
Notemos primeiramente que para todo vetor x, os vetores Ek x ou são nulos ou são autovetores de
A. De fato, por (3.33)
Xr
AEk x = αj Ej Ek x = αk Ek x .
j=1
Logo ou Ek x = 0 ou Ek x é autovetor de A.
Como há no máximo n autovetores, o espaço por eles gerado tem dimensão menor ou igual a n.
Por (3.34), porém, vale para todo vetor x que
r
X
x = 1x = Ek x .
k=1
Para x não-nulo, alguns dos Ek x, acima, devem ser não-nulos e, portanto, autovetores de A. Assim,
todo vetor x pode ser escrito como uma combinação linear de autovetores de A, o que significa que
o espaço gerado por esses autovetores tem dimensão exatamente igual a n. Pelo teorema 3.4, A é
diagonalizável. Isso completa a demonstração.
No Teorema 3.7, página 187, apresentaremos uma segunda demonstração do Teorema Espectral
para Matrizes, a qual lança luz sobre outras condições de diagonalizabilidade de matrizes. Antes,
exploremos algumas das conseqüências do Teorema Espectral.
• O Cálculo Funcional para Matrizes Diagonalizáveis
O Teorema Espectral tem o seguinte corolário, muitas vezes conhecido como cálculo funcional.
Teorema 3.6 (Cálculo Funcional) Seja A ∈ Mat (C, n) uma matriz diagonalizável e seja
r
X
A = αa Ea .
a=1
sua decomposição espectral, de acordo com o Teorema Espectral, o Teorema 3.5. Então para qualquer
polinômio p vale
Xr
p(A) = p(αa )Ea . (3.37)
a=1
2
Prova. Tem-se, pelas propriedades dos Ea ’s,

r
X r
X r
X
2
A = αa αb Ea Eb = αa αb δa, b Ea = (αa )2 Ea .
a, b=1 a, b=1 a=1
Analogamente, mostra-se que

r
X
m
A = (αa )m Ea ,
a=1
para qualquer m ∈ N. O resto da prova é trivial.
E. 3.19 Exercı́cio. Usando (3.37) demonstre novamente o Teorema de Hamilton-Cayley (Teorema 3.3,
página 174), agora apenas para matrizes diagonalizáveis. 6
• Obtendo os projetores espectrais
O Cálculo Funcional para matrizes, Teorema 3.6, tem diversas conseqüências práticas, uma delas
sendo a seguinte proposição, que permite expressar os projetores espectrais de uma matriz A direta-
mente em termos de A.
Proposição 3.11 Seja A ∈ Mat (C, n), diagonalizável, e seja A = α1 E1 + · · · + αr Er , com os αk ’s
distintos, sua representação espectral, descrita no Teorema 3.5. Sejam os polinômios pj , j = 1, . . . , r,
definidos por
Yr
x − αl
pj (x) := . (3.38)
l=1
αj − αl
l6=j
Então,
Ej = pj (A) , ∀ j = 1, . . . , r . (3.39)
2
Prova. Pela definição dos polinômios pj , é evidente que pj (αk ) = δj, k . Logo, pelo Cálculo Funcional
para matrizes,
Xr
pj (A) = pj (αk )Ek = Ej .
k=1
• O Teorema Espectral para matrizes. Unicidade
Proposição 3.12 A representação espectral de uma matriz diagonalizável A ∈ Mat (C, n) descrita no
Teorema 3.5 é única. 2
r
X
Demonstração. Seja A ∈ Mat (C, n) diagonalizável e seja A = αk Ek a representação espectral de A
k=1
descrita no Teorema 3.5, onde αk , k = 1, . . . , r, com 1 ≤ r ≤ n são os autovalores distintos de A, Seja
Xr′
A= αk′ Ek′ uma segunda representação espectral para A, onde os αk′ ’s são distintos e onde os Ek′ ’s
k=1
r ′
X
são não-nulos e satisfazem Ej′ El′ = δj, l El′ e1= Ek′ . Por essa última propriedade segue que para
k=1
Pr′ ′
um dado vetor x 6= 0 vale x = de modo que nem todos os vetores Ek′ x são nulos. Seja Ek′ 0 x
k=1 Ek x,
P′
um desses vetores não-nulos. Tem-se que AEk′ 0 x = rk=1 αk′ Ek′ Ek′ 0 x = αk′ 0 Ek′ 0 x. Isso mostra que αk′ 0 é
um dos autovalores de A e, portanto, {α1′ , . . . , αr′ ′ } ⊂ {α1 , . . . , αr }. Isso, em particular ensina-nos

que r ′ ≤ r. Podemos sem perda de generalidade considerar que os dois conjuntos sejam ordenados de
modo que αk′ = αk para todo 1 ≤ k ≤ r ′ . Assim,
r r ′
X X
A = αk Ek = αk Ek′ . (3.40)
k=1 k=1
Sejam agora os polinômios pj , j = 1, . . . , r, definidos em (3.38), os quais satisfazem pj (αj ) = 1 e

pj (αk ) = 0 para todo k 6= j. Pelo Cálculo Funcional descrito acima, segue de (3.40) que, com 1 ≤ j ≤ r ′ ,
r r ′
X X
pj (A) = pj (αk )Ek = pj (αk )Ek′ , ∴ Ej = Ej′ .
|k=1 {z } |k=1 {z }
=Ej =Ej′
P′
(A igualdade pj (A) = rk=1 pj (αk )Ek′ segue do fato que os Ek′ ’s satisfazem as mesmas relações algébricas
que os Ek ’s e, portanto, para a representação espectral de A em termos dos Ek′ ’s vale também o Cálculo
Funcional). Lembrando que a igualdade Ej = Ej′ vale para todo 1 ≤ j ≤ r ′ , segue que
r r ′
X X
1 = Ek = Ek .
k=1 k=1
P
A última igualdade implica rk=r′+1 Ek = 0. Multiplicando por El com r ′ + 1 ≤ l ≤ r, segue que
El = 0 para todo r ′ + 1 ≤ l ≤ r. Isso só é possı́vel se r = r ′ , pois os E ′ k’s são não-nulos. Isso completa
a demonstração.
• O Teorema Espectral para matrizes. Uma segunda visita
O Teorema Espectral, Teorema 3.5, pode ser formulado de um modo mais detalhado (Teorema
3.7). A principal utilidade dessa outra formulação é a de fornecer mais informações sobre os projetores
espectrais Ea (vide expressão (3.43), abaixo). Obtem-se também nessa nova formulação mais condições
necessárias e suficientes à diagonalizabilidade e que podem ser úteis, como veremos, por exemplo, no
Teorema 3.14 provado adiante (página 191).
Teorema 3.7 (Teorema Espectral para Matrizes. Versão Detalhada) Seja A ∈ Mat (C, n).
São equivalentes as seguintes afirmações:
1. A possui n autovetores linearmente independentes, ou seja, o sub-espaço gerado pelos autovetores

de A tem dimensão n.
2. A é diagonalizável, ou seja, existe uma matriz P ∈ Mat (C, n) invertı́vel tal que P −1AP é uma
matriz diagonal diag (d1 , . . . , dn ), onde os di ’s são autovalores de A.
3. Para todo vetor x ∈ Cn e todo escalar λ ∈ C tais que (A − λ1)2 x = 0, vale que (A − λ1)x = 0.
4. Se x é um vetor não-nulo tal que (A − λ1)x = 0 para algum λ ∈ C então não existe nenhum
vetor y com a propriedade que (A − λ1)y = x.
5. Todas as raı́zes do polinômio mı́nimo de A têm multiplicidade 1.
6. Existem r ∈ N, escalares distintos α1 , . . . , αr e projetores distintos E1 , . . . , Er ∈ Mat (C, n),

denominados projetores espectrais de A, tais que
r
X
A = αa Ea .
a=1
Além disso, as matrizes Ea satisfazem

r
X
1 = Ea (3.41)
a=1
e
Ei Ej = δi, j Ej . (3.42)
Os projetores espectrais Ek do item 6, acima, podem ser expressos em termos de polinômios da matriz
A:
1
Ek = mk (A) , (3.43)
mk (αk )
para todo k, 1 ≤ k ≤ r, onde os polinômios mk são definidos por
M(x) = (x − αk )mk (x) ,
M sendo o polinômio mı́nimo de A. 2
Demonstração. A prova da equivalência será feita demonstrando-se sucessivamente as seguintes im-

plicações: 1 → 2, 2 → 3, 3 → 4, 4 → 5, 5 → 6, 6 → 1. Que 1 implica 2 já foi demonstrado no Teorema
3.4, página 179.
2 → 3. Seja D = P −1 AP diagonal. D = diag (d1 , . . . , dn ). Seja (A − λ1)2 x = 0. Segue que
P −1 (A − λ1)2 P y = 0
onde y = P −1x. Logo,

(D − λ1)2 y = 0 ,
ou seja,
(d1 − λ)2 y1 = 0
..
.
(dn − λ)2 yn = 0,
onde yj são as componentes de y:  

y1
 .. 
y =  . .
yn
Agora, é evidente que se (da − λ)2 ya = 0 então (da − λ)ya = 0. Logo
(D − λ1)y = 0 .
Usando-se y = P −1 x e multiplicando-se à direita por P , concluı́mos que
0 = P (D − λ1)P −1 x = (P DP −1 − λ1)x = (A − λ1)x ,
3 → 4. A prova é feita por contradição. Vamos supor que para algum vetor x 6= 0 exista λ ∈ C tal que
(A − λ1)x = 0. Suponhamos também que exista vetor y tal que (A − λ1)y = x. Terı́amos
(A − λ1)2 y = (A − λ1)x = 0 .
Pelo item 3 isso implica (A − λ1)y = 0. Mas isso diz que x = 0, uma contradição.
4 → 5. Seja M o polinômio mı́nimo de A, ou seja, o polinômio mônico7 de menor grau tal que M(A) = 0.
Vamos mostrar que todas as raı́zes de M têm multiplicidade 1. Vamos, por contradição, supor
que haja uma raiz, λ0 , com multiplicidade maior ou igual a 2. Terı́amos, para x ∈ C,
M(x) = p(x)(x − λ0 )2 .
Assim, M(A) = p(A)(A − λ0 1)2 = 0. Como M é, por definição, o polinômio de menor grau que
zera em A, segue que
p(A)(A − λ0 1) 6= 0 .
Assim, existe pelo menos um vetor z tal que p(A)(A − λ0 1)z 6= 0. Vamos definir um vetor x por
x := p(A)(A − λ0 1)z. Então
(A − λ0 1)x = (A − λ0 1)p(A)(A − λ0 1)z = p(A)(A − λ0 1)2 z = M(A)z = 0 ,
pois M(A) = 0. Agora, pela definição,
x = (A − λ0 1)y ,
onde y = p(A)z. Pelo item 4, porém, isso é impossı́vel.
5 → 6. Pela hipótese que as raı́zes de M são simples segue da expressão (3.31) da Proposição 3.9, página
178, que para x ∈ C,
Yr
M(x) = (x − αj ) ,
j=1
7
A definição de polinômio mônico está à página 172.
onde αj são as raı́zes de M e que coincidem com os r autovalores distintos de A. Para k = 1, . . . , r

defina-se os polinômios mk por
M(x) =: (x − αk )mk (x) ,
ou seja,
r
Y
mk (x) := (x − αj ) .
j=1
j6=k
É claro que mk (αj ) = 0 ⇐⇒ j 6= k (por que?).

Vamos agora definir mais um polinômio, g, da seguinte forma:
r
X 1
g(x) = 1 − mk (x) .
k=1
mk (αk )
Como os polinômios mk têm grau r − 1, o polinômio g tem grau menor ou igual a r − 1. Porém,
observe-se que, para todos os αj , j = 1, . . . , r, vale
r
X 1 mj (αj )
g(αj ) = 1 − mk (αj ) = 1 − = 0.
k=1
mk (αk ) mj (αj )
Assim, g tem pelo menos r raı́zes distintas! O único polinômio de grau menor ou igual a r − 1
que tem r raı́zes distintas é o polinômio nulo. Logo, concluı́mos que
r
X 1
g(x) = 1 − mk (x) ≡ 0
mk (αk )
k=1
para todo x ∈ C. Isso significa que todos os coeficientes de g são nulos. Assim, para qualquer
matriz B tem-se g(B) = 0. Para a matriz A isso diz que
r
X 1
1 = mk (A) .
k=1
mk (αk )
Definindo-se
1
Ek := mk (A) , (3.44)
mk (αk )
concluı́mos que
r
X
1 = Ek . (3.45)
k=1
Para todo k vale 0 = M(A) = (A − αk 1)mk (A), ou seja, Amk (A) = αk mk (A). Pela definição de
Ek isso significa
AEk = αk Ek .
Assim, multiplicando-se ambos os lados de (3.45) por A, segue que
r
X
A = αk Ek .
k=1
Para completar a demonstração de 6, resta-nos provar que Ei Ej = δi, j Ej .

Para i 6= j tem-se pela definição dos Ek ’s que
1
Ei Ej = mi (A)mj (A)
mi (αi )mj (αj )
  
r r
1 Y  Y 
=  (A − αk 1)  (A − αl 1)
mi (αi )mj (αj ) k=1 l=1
k6=i l6=j
 
r
" r #
1  Y  Y
=  (A − αk 1) (A − αl 1)
mi (αi )mj (αj ) k=1 l=1
k6=i, k6=j
 
r
Y
1  
=  (A − αk 1) M(A)
mi (αi )mj (αj ) k=1
k6=i, k6=j
= 0,
pois M(A) = 0. Resta-nos provar que Ej2 = Ej para todo j. Multiplicando-se ambos os lados de
(3.45) por Ej teremos
Xr
Ej = Ej Ek = Ej Ej ,
k=1
já que Ej Ek = 0 quando j 6= k. Isso completa a demonstração do item 6.
6 → 1. Notemos primeiramente que para todo vetor x, os vetores Ek x ou são nulos ou são autovetores
de A. De fato, por 6,
Xr
AEk x = αj Ej Ek x = αk Ek x .
j=1
Logo, ou Ek x = 0 ou Ek x é autovetor de A. O espaço gerado pelos autovetores de A obviamente

tem dimensão menor ou igual a n. Por (3.45), porém, vale para todo vetor x que
r
X
x = 1x = Ek x .
k=1
Assim, todo vetor x pode ser escrito como uma combinação linear de autovetores de A, o que
significa que o espaço gerado pelos autovetores tem dimensão exatamente igual a n.
Isso completa a demonstração do Teorema 3.7.
Destacamos ao leitor o fato de que a expressão (3.43) permite representar os projetores espectrais
diretamente em termos da matriz diagonalizável A.
• Diagonalizabilidade de Projetores
A proposição abaixo é uma aplicação simples do Teorema 3.7 a projetores. A mesma será usada
abaixo quando falarmos de diagonalização simultânea de matrizes.
Proposição 3.13 Seja E ∈ Mat (C, n) um projetor, ou seja, tal que E 2 = E. Então E é diagona-
lizável. 2
Prova. Seja E ∈ Mat (C, n) um projetor. Definamos E1 = E e E2 = 1 − E. Então E2 é também um

projetor, pois
(E2 )2 = (1 − E)2 = 1 − 2E + E 2 = 1 − 2E + E = 1 − E = E2 .
Tem-se também que E1 E2 = 0, pois
E1 E2 = E(1 − E) = E − E 2 = E − E = 0 .
Fora isso, é óbvio que 1 = E1 + E2 e que E = α1 E1 + α2 E2 , com α1 = 1 e α2 = 0. Ora, isso tudo

diz que E satisfaz precisamente todas as condições do item 6 do Teorema 3.7. Portanto, pelo mesmo
teorema, E é diagonalizável.
• Uma Condição Suficiente para Diagonalizabilidade
Até agora estudamos condições necessárias e suficientes para que uma matriz seja diagonalizável.
Vimos que uma matriz A ∈ Mat (C, n) é diagonalizável se e somente se for simples ou se e somente
se tiver n autovetores linearmente independentes ou se e somente se puder ser representada na forma
espectral, como em (3.33). Nem sempre, porém, é imediato verificar essas hipóteses, de modo que é
útil saber de condições mais facilmente verificáveis e que sejam pelo menos suficientes para garantir
diagonalizabilidade. Veremos abaixo que é, por exemplo, suficiente que uma matriz seja auto-adjunta
ou normal para garantir que ela seja diagonalizável.
Uma outra condição útil é aquela contida na seguinte proposição.
Proposição 3.14 Se A ∈ Mat (C, n) tem n autovalores distintos então A é diagonalizável. 2
Prova. Isso é imediato pelas Proposições 3.5 e 3.10, das páginas 169 e 180, respectivamente.
Observação. A condição mencionada na última proposição é apenas suficiente, pois há obviamente
matrizes diagonalizáveis que não têm autovalores todos distintos.
Outra forma de provar a Proposição 3.14 é a seguinte. Seja {λ1 , . . . , λn } o conjunto dos n
autovalores de A, todos distintos. O polinômio caracterı́stico de A é q(x) = (x − λ1 ) · · · (x − λn ). Como
as raı́zes de q têm, nesse caso, multiplicidade 1, segue pela Proposição 3.9, página 178, que o polinômio
mı́nimo de A, M, coincide com o polinômio caracterı́stico de A: q(x) = M(x), ∀x ∈ C. Logo, o
polinômio mı́nimo M de A tem também raı́zes com multiplicidade 1. Assim, pelo item 5 do Teorema
3.7, página 187, A é diagonalizável.
E. 3.20 Exercı́cio. Demonstre a seguinte afirmação: se os autovalores de uma matriz A são todos iguais,
então A é diagonalizável se e somente se for um múltiplo de 1. Sugestão: use o Teorema Espectral ou a
forma geral do polinômio mı́nimo (3.31). 6
Segue da afirmativa desse exercı́cio que matrizes triangulares superiores com diagonal principal
constante, ou seja, da forma
 
α A12 . . . A1(n−1) A1n
 0 α . . . A2(n−1) A2n 
 
 ..  ,
A =  ... ..
. . 
 
0 0 . . . α A(n−1)n 
0 0 ... 0 α
só são diagonalizáveis se todos os elementos acima da diagonal principal forem nulos, ou seja, se Aij = 0,
∀j > i. Naturalmente, a mesma afirmativa é válida para matrizes da forma AT , triangulares inferiores
com diagonal principal constante.
3.4.1 Diagonalização Simultânea de Matrizes

Uma matriz A ∈ Mat (C, n) é dita ser diagonalizada por uma matriz P ∈ Mat (C, n) se P −1 AP for
uma matriz diagonal.
Uma questão muito importante é saber quando duas matrizes diagonalizáveis podem ser diagona-
lizadas por uma mesma matriz P . A resposta é fornecida no próximo teorema.
Teorema 3.8 (Diagonalização Simultânea de Matrizes) Duas matrizes diagonalizáveis A e B ∈
Mat (C, n) podem ser diagonalizadas pela mesma matriz P ∈ Mat (C, n) se e somente se AB = BA,
ou seja, se e somente se comutarem entre si. 2
Prova. A parte fácil da demonstração é provar que se A e B podem ser diagonalizadas pela mesma
matriz P então A e B comutam entre si. De fato
P −1 (AB − BA)P = (P −1 AP )(P −1BP ) − (P −1 BP )(P −1AP ) = 0 ,
pois P −1 AP e P −1 BP são ambas diagonais e matrizes diagonais sempre comutam entre si (por que?).
Assim, P −1(AB − BA)P = 0 e, portanto, AB = BA.
Vamos agora passar a mostrar que se AB = BA então ambas são diagonalizáveis por uma mesma
matriz P .
Sejam α1 , . . . , αr os r autovalores distintos de A e β1 , . . . , βs os s autovalores distintos de B.
Evocando o teorema espectral, A e B podem ser escritos de acordo com suas decomposições espec-
trais como r
X
A = αi EiA
i=1
e s
X
B = βj EjB ,
j=1
onde, de acordo com (3.43),

 −1  

Y r 
 r
Y 
EiA = (αi − αk )  (A − αk 1) , i = 1, . . . , r (3.46)

 k=1 
 k=1
k6=i k6=i
e  −1  

Ys 
 s
Y 
EjB = (βj − βk )  (B − βk 1) , j = 1, . . . , s . (3.47)

 k=1 
 k=1
k6=j k6=j
Como A e B comutam entre si e como EiA e EjB , dados em (3.46)-(3.47), são polinômios em A e B,
respectivamente, segue que EiA e EjB também comutam entre si para todo i e todo j.
Com isso, vamos definir
Qi, j = EiA EjB = EjB EiA
para i = 1, . . . , r e j = 1, . . . , s.
Note-se que os Qi, j ’s são projetores pois
Q2i, j = (EiA EjB )(EiA EjB ) = (EiA )2 (EjB )2 = EiA EjB = Qi, j .
Fora isso, é fácil ver que,

Qi, j Qk, l = δi, k δj, l Qi, j . (3.48)
Note-se também que

r X
X s
1 = Qi, j , (3.49)
i=1 j=1
pois ! !
r X
X s r X
X s r
X s
X
Qi, j = EiA EjB = EiA EjB = 11 = 1 .
i=1 j=1 i=1 j=1 i=1 j=1
Afirmamos que podemos escrever

r X
X s
A = γi,A j Qi, j (3.50)
i=1 j=1
e r X
s
X
B = γi,B j Qi, j , (3.51)
i=1 j=1
onde γi,A j = αi e γi,B j = βj . De fato, com essas definições,

r X
s r X
s r
! s
!
X X X X
γi,A j Qi, j = αi EiA EjB = αi EiA EjB = A1 = A .
i=1 j=1 i=1 j=1 i=1 j=1
Para B a demonstração é análoga.

Nas relações (3.50) e (3.51) é possı́vel fazer simplificações em função do fato de que nem todos os
projetores Qi, j são não-nulos. Seja Q1 . . . , Qt a lista dos projetores Qi, j não-nulos, ou seja,
{Q1 . . . , Qt } = {Qi, j | Qi, j 6= 0, i = 1, . . . , r e j = 1, . . . , s} .
É evidente por (3.48) que os Qk ’s são projetores e que
Qk Ql = δk, l Qk .
Por (3.49), tem-se

t
X
1 = Qk (3.52)
k=1
e por (3.50) e (3.51)

t
X
A = χA
k Qk (3.53)
k=1
t
X
B = χB
k Qk (3.54)
k=1
onde as constantes χA B A B
k e χk estão relacionadas de modo óbvio com γi, j e γi, j , respectivamente.
Em (3.53) e (3.54) vemos que A e B, por serem diagonalizáveis e por comutarem entre si, têm
decomposições espectrais com os mesmos projetores espectrais. Note-se também que, pela observação
feita no tópico Projetores, à página 181 (vide equação (3.32)), tem-se 1 ≤ t ≤ n.
Vamos agora completar a demonstração que A e B podem ser diagonalizados por uma mesma matriz
invertı́vel P .
Seja Ek o subespaço dos autovetores de Qk com autovalor 1. Sub-espaços Ek ’s diferentes têm em
comum apenas o vetor nulo. De fato, se k 6= l e w é um vetor tal que Qk w = w e Ql w = w então, como
Qk Ql = 0 segue que
0 = (Qk Ql )w = Qk (Ql w) = Qk w = w .
Seja dk a dimensão do subespaço Ek e seja
u1k , . . . , udkk
um conjunto de dk vetores linearmente independentes em Ek . Notemos que dk coincide com a multiplici-

dade algébrica do autovalor 1 de Qk , pois, conforme diz a Proposição 3.13, o projetor Qk é diagonalizável
e, portanto, é uma matriz simples (Proposição 3.10).
Pt Pt
Como 1 = k=1 Qk , tem-se, tomando-se o traço, que n = k=1 dk .
Pelas definições, temos que
Ql uak = δk, l uak , (3.55)
pois Qk uak = uak e, portanto, Ql uak = Ql (Qk uak ) = (Ql Qk )uak = 0 para k 6= l.
Afirmamos que o conjunto de vetores
u11 , . . . , ud11 , u12 , . . . , ud22 , . . . u1t , . . . , udt t (3.56)
é um conjunto de n vetores linearmente independentes. De fato, suponha que existam constantes ck, j
tais que
X dk
t X
ck, j ujk = 0 .
k=i j=1
Aplicando-se à direita Ql terı́amos

dl
X
cl, j ujl = 0 ,
j=1
o que só é possı́vel se cl, j = 0 para todo j pois u1l , . . . , udl l , foram escolhidos linearmente independentes.
Como l é arbitrário, concluı́mos que cl, j = 0 para todo l e todo j, o que mostra que o conjunto de
vetores em (3.56) é linearmente independente.
Seja então a matriz P ∈ Mat (C, n) definida por
hh ii
P = u11 , . . . , ud11 , u12 , . . . , ud22 , . . . u1t , . . . , udt t .
P é invertı́vel pois o conjunto (3.56) é linearmente independente (e, portanto, det(P ) 6= 0).
Tem-se, hh ii
AP = Au11 , . . . , Aud11 , Au12 , . . . , Aud22 , . . . , Au1t , . . . , Audt t .
P
Escrevendo A = tl=1 χA
l Ql (3.53) e usando (3.55), temos
t
X
Auak = χA a A a
l Ql uk = χk uk .
l=1
Assim,
hh ii
A d1 A d1
AP = χA u
1 1
1
, . . . , χ u
1 1 , χA 1
u
2 1 , . . . , χ u
2 1 , . . . , χA 1
u
t t , . . . , χA dt
u
t t = P DA ,
onde  
DA = diag χA , . . . , χA A A A A
1 , χ2 , . . . , χ2 , . . . , χt , . . . , χt .
| 1 {z } | {z } | {z }
d1 vezes d2 vezes dt vezes
Portanto,
P −1 AP = DA .
Analogamente,
hh ii
BP = Bu11 , . . . , Bud11 , Bu12 , . . . , Bud22 , . . . Bu1t , . . . , Budt t .
Pt
Escrevendo B = l=1 χB
l Ql (3.54) temos,
hh ii
B d1 B d2
BP = χB u
1 1
1
, . . . , χ u
1 1 , χB 1
u
2 2 , . . . , χ u
2 2 , . . . , χB 1
u
t t , . . . , χB dt
u
t t = P DB ,
onde  
DB = diag χB , . . . , χB B B B B
1 , χ2 , . . . , χ2 , . . . , χt , . . . , χt .
| 1 {z } | {z } | {z }
d1 vezes d2 vezes dt vezes
Portanto,
P −1 BP = DB .
Isso provou que A e B são diagonalizáveis pela mesma matriz invertı́vel P . A demonstração do
Teorema 3.8 está completa.
3.5 Matrizes Auto-adjuntas, Normais e Unitárias
• A Adjunta de uma Matriz
Seja V um espaço vetorial dotado de um produto escalar h·, ·i e seja A : V → V um operador

linear. Um operador linear A∗ que para todos u, v ∈ V satisfaça
hu, Avi = hA∗ u, vi
é dito ser o operador adjunto de A. Em espaços vetoriais gerais não é óbvio (e nem sempre verdadeiro!)
que sempre exista o adjunto de um operador linear A dado. Há muitos casos, porém, nos quais isso
pode ser garantido8 . Aqui trataremos do caso dos espaços V = Cn com o produto escalar usual.
Sejam u = (u1 , . . . , un ) e v = (v1 , . . . , vn ) dois vetores de Cn para os quais define-se o produto
escalar usual n
X
hu, vi = uk vk .
k=1
Um operador linear A é representado (na base canônica) por uma matriz cujos elementos de matriz
são Aij , com i, j ∈ {1, . . . , n}.
É um exercı́cio simples (faça!) verificar que o operador adjunto A∗ de A é representado (na base
canônica) por uma matriz cujos elementos de matriz são (A∗ )ij = Aji, com i, j ∈ {1, . . . , n}. Ou
seja, a matriz adjunta de A é obtida (na base canônica!) transpondo-se A e tomando-se o complexo
conjugado de seus elementos.
Os seguintes fatos são importantes:
8
Tal é o caso dos chamados operadores lineares limitados agindo em espaços de Hilbert, para os quais sempre é possı́vel
garantir a existência do adjunto.
Proposição 3.15 Se A e B são dois operadores lineares agindo em Cn então

(αA + βB)∗ = αA∗ + βB ∗
para todos α, β ∈ C. Fora isso,
(AB)∗ = B ∗ A∗ .
Por fim, vale para todo A que (A∗ )∗ = A. 2
Deixamos a demonstração como exercı́cio para o leitor.

A operação Mat (C, n) ∋ A 7→ A∗ ∈ Mat (C, n) é demoninada operação de adjunção de matrizes.
Como vimos na Proposição 3.15, a operação de adjunção é anti-linear e é um anti-homomorfismo
algébrico.
• Os espectro e a operação de adjunção
Seja A ∈ Mat (C, n). Como já vimos, o espectro de A, σ(A), é o conjunto de raı́zes de seu
polinômio caracterı́stico, definido por pA (z) = det(z 1 − A), z ∈ C. Como para toda B ∈ Mat (C, n)
vale det(B ∗ ) = det(B) (por quê?), segue que pA (z) = det(z 1 − A) = det(z 1 − A∗ ) = pA∗ (z), ou seja,
pA∗ (z) = pA (z). Com isso, provamos a seguinte afirmação:
Proposição 3.16 Seja A ∈ Mat (C, n). Então, λ ∈ σ(A) se e somente se λ ∈ σ(A∗ ), ou seja, λ é um
autovalor de A se e somente se λ é um um autovalor de A∗ .
Em sı́mbolos, as afirmações acima são expressas pela igualdade σ(A) = σ(A∗ ).
• Matrizes Hermitianas, Normais e Unitárias
Vamos agora a algumas definições muito importantes.
Definição. Um operador linear em Cn é dito ser simétrico, Hermitiano ou auto-adjunto se A = A∗ ,

ou seja, se para todos u, v ∈ V satisfizer
hu, Avi = hAu, vi .
Advertência. Em espaços vetoriais de dimensão finita as noções de operador simétrico, Hermitiano

ou auto-adjunto são sinônimas. Em espaços vetoriais de dimensão infinita, porém, há uma distinção
entre essas noções relativa a problemas com o domı́nio de definição de operadores.
Definição. Um operador linear em Cn é dito ser normal se AA∗ = A∗ A. Ou seja, A é normal se comuta
com seu adjunto.
Definição. Um operador linear em Cn é dito ser unitário se A∗ A = AA∗ = 1. É claro que todo
operador unitário é normal e que um operador é unitário em Cn se e somente se A∗ = A−1 . Note que
se A é unitário então, para todos u, v ∈ V , tem-se
hAu, Avi = hu, vi .
Definição. Se A é um operador linear em Cn define-se a parte real de A por

1
Re (A) = (A + A∗ )
2
e a parte imaginária de A por
1
Im (A) = (A − A∗ ).
2i
É claro que essas definições foram inspiradas nas relações análogas para números complexos. Note
também que
A = Re (A) + iIm (A) .
É importante notar que para qualquer operador linear A em Cn sua parte real e imaginária são
ambas operadores Hermitianos: (Re (A))∗ = Re (A) e (Im (A))∗ = Im (A).
Para operadores normais tem-se a seguinte proposição, que será útil adiante e serve como caracte-
rização alternativa do conceito de operador normal.
Proposição 3.17 Um operador linear agindo em Cn é normal se e somente se sua parte real comuta
com sua parte imaginária. 2
Deixamos a demonstração (elementar) como exercı́cio para o leitor.

A importância das definições acima reside no seguinte fato, que demonstraremos adiante: matrizes
Hermitianas e matrizes normais são diagonalizáveis. Antes de tratarmos disso, vamos discutir algumas
propriedades do espectro de matrizes Hermitianas e de matrizes unitárias.
• Os Autovalores de Matrizes Hermitianas e de Matrizes Unitárias
Os seguintes teoremas têm importância fundamental para o estudo de propriedades de matrizes

Hermitianas e de matrizes unitárias.
Teorema 3.9 Os autovalores de uma matriz Hermitiana são sempre números reais. 2
6 0 um autovetor de A com autovalor λ. Como A

Prova. Seja A Hermitiana, λ um autovalor de A e v =
é Hermitiana tem-se
hv, Avi = hAv, vi .
Como v é um autovetor, o lado esquerdo vale λhv, vi e o lado direito vale λhv, vi. Logo, (λ−λ)hv, vi =
0. Como v 6= 0 isso implica λ = λ, ou seja, λ é real.

2 1
Note-se que a recı́proca desse teorema é falsa. A matriz tem autovalores reais (2 e 3) mas
0 3
não é Hermitiana.
Para matrizes unitárias temos

Teorema 3.10 Os autovalores de uma matriz unitária são sempre números complexos de módulo 1.
2
Prova. Seja A unitária, λ um autovalor de A e v 6= 0 um autovetor de A com autovalor λ. Como A é

unitária tem-se
hAv, Avi = hv, vi .
Como v é um autovetor, o lado esquerdo vale λλhv, vi. Assim, (|λ|2 − 1)hv, vi = 0. Como v 6= 0 isso
implica |λ| = 1.
• Operadores Simétricos e Unitários. Ortogonalidade de Autovetores
Teorema 3.11 Os autovetores associados a autovalores distintos de uma matriz simétrica são ortogo-
nais entre si. 2
Prova. Seja A simétrica e λ1 , λ2 dois de seus autovalores, que suporemos distintos. Seja v1 autovetor
de A com autovalor λ1 e v2 autovetor de A com autovalor λ2 . Temos, por A ser simétrico,
hv1 , Av2 i = hAv1 , v2 i .
O lado esquerdo vale λ2 hv1 , v2 i e o lado direito λ1 hv1 , v2 i (lembre-se que λ1 é real). Assim
(λ2 − λ1 )hv1 , v2 i = 0 .
Como λ2 6= λ1 , segue que hv1 , v2 i = 0, que é o que se queria provar.
Teorema 3.12 Os autovetores associados a autovalores distintos de uma matriz unitária são ortogo-
nais entre si. 2
Prova. Seja U unitária e sejam λ1 , λ2 dois de seus autovalores, sendo que suporemos λ1 6= λ2 . Seja v1
autovetor de U com autovalor λ1 e v2 autovetor de U com autovalor λ2 . Temos, por U ser unitário,
hUv1 , Uv2 i = hv1 , U ∗ Uv2 i = hv1 , v2 i .
O lado esquerdo vale λ2 λ1 hv1 , v2 i = λλ21 (lembre-se que λ1 é um número complexo de módulo 1 e,
portanto λ1 = λ−1
1 ). Assim
λ2
− 1 hv1 , v2 i = 0 .
λ1
Como λ2 6= λ1 , segue que hv1 , v2 i = 0, que é o que se queria provar.
• Projetores Ortogonais
Um operador linear E agindo em Cn é dito ser um projetor ortogonal se E 2 = E e se E ∗ = E.

Projetores ortogonais são importantes na decomposição espectral de matrizes auto-adjuntas, como
veremos.
Note-se que nem todo projetor é ortogonal. Por exemplo

1 0
E =
1 0
é um projetor (E 2 = E) mas não é ortogonal (E ∗ =
6 E). O mesmo vale para

1 0
E = .
2 0
Um exemplo importante de projetor ortogonal é representado por projetores sobre sub-espaços uni-
dimensionais gerados por vetores. Seja v um vetor cuja norma assumiremos ser 1, ou seja, kvk =
p
hv, vi = 1. Definimos o projetor Pv sobre o sub-espaço gerado por v por
Pv u := hv, ui v , (3.57)
para todo vetor u. Provemos que Pv é um projetor ortogonal. Por um lado, tem-se
Pv2 u = hv, ui Pv v = hv, ui hv, vi v = hv, ui v = Pv u ,
o que mostra que Pv2 = Pv . Por outro lado, para quaisquer vetores a e b, usando as propriedades de
linearidade, anti-linearidade e conjugação complexa do produto escalar, tem-se
ha, Pv bi = ha, hv, bi vi = hv, bi ha, vi = hha, vi v, bi = hhv, ai v, bi = hPv a, bi ,
provando que Pv∗ = Pv . Isso mostra que Pv é um projetor ortogonal.
Um fato crucial sobre projetores como Pv é o seguinte. Se u e v são dois vetores ortogonais, ou seja,
se hu, vi = 0 então Pu Pv = Pv Pu = 0. Para provar isso notemos que para qualquer vetor a vale
Pu (Pv a) = Pu (hv, ai v) = hv, ai Pu v = hv, ai hu, vi u = 0 .
O mesmo se passa para Pv (Pu a).
• Matrizes Auto-adjuntas e Diagonalizabilidade
Vamos aqui demonstrar a seguinte afirmação importante: toda matriz auto-adjunta é diagonalizável.
Uma outra demonstração (eventualmente mais simples) dessa afirmação pode ser encontrada na Seção
3.8.2, página 226. Vide Teorema 3.24, página 228.
Teorema 3.13 Se A ∈ Mat (C, n) é auto-adjunta, então A possui n autovetores mutuamente orto-
normais v1 , . . . , vn , com autovalores λ1 , . . . , λn , respectivamente, e pode ser representada na forma
espectral
A = λ1 Pv1 + · · · + λn Pvn . (3.58)
Portanto, se A é auto-adjunta, então A é diagonalizável, sendo que é possı́vel encontrar uma matriz
unitária P que diagonaliza A, ou seja, tal que P −1 AP é diagonal e P −1 = P ∗ . 2
Note-se que se α1 , . . . , αr com 1 ≤ r ≤ n são os autovalores distintos de A, então (3.58) pode ser
reescrita como A = α1 P1 + · · · + αr Pr , onde cada Pk é o projetore ortogonal dado pela soma dos Pvj ’s
de mesmo autovalor αk . A Proposição 3.12, página 185, garante a unicidade dessa representação para
A.
Prova do Teorema 3.13. A demonstração que A é diagonalizável será feita construindo-se a representação
espectral (3.58) para A. Seja λ1 um autovalor de A e v1 um autovetor de A com autovalor λ1 normalizado
de tal forma que kv1 k = 1. Vamos definir um operador A1 por
A1 = A − λ1 Pv1 .
Como A e Pv1 são auto-adjuntos e λ1 é real, segue que A1 é igualmente auto-adjunto.

Afirmamos que A1 v1 = 0 e que [v1 ]⊥ é um sub-espaço invariante por A1 . De fato,
A1 v1 = Av1 − λ1 Pv1 v1 = λ1 v1 − λ1 v1 = 0 .
Fora isso, se w ∈ [v1 ]⊥ tem-se

hA1 w, v1 i = hw, A1 v1 i = 0 ,
mostrando que A1 w é também elemento de [v1 ]⊥ .
O operador A1 restrito a [v1 ]⊥ é também auto-adjunto (por que?). Seja λ2 um de seus autovalores
com autovetor v2 ∈ [v1 ]⊥ , que escolhemos com norma 1. Seja
A2 = A1 − λ2 Pv2 = A − λ1 Pv1 − λ2 Pv2 .
Como λ2 também é real A2 é igualmente auto-adjunto. Fora isso afirmamos que A2 anula os vetores
do sub-espaço [v1 , v2 ] e mantem [v1 , v2 ]⊥ invariante. De fato,
A2 v1 = Av1 − λ1 Pv1 v1 − λ2 Pv2 v1 = λ1 v1 − λ1 v1 − λ2 hv2 , v1 iv2 = 0 ,
pois hv2 , v1 i = 0. Analogamente,
A2 v2 = A1 v2 − λ2 Pv2 v2 = λ2 v2 − λ2 v2 = 0 .
Por fim, para quaisquer α, β ∈ C e w ∈ [v1 , v2 ]⊥ tem-se
hA2 w, (αv1 + βv2 )i = hw, A2 (αv1 + βv2 )i = 0 ,

Prosseguindo indutivamente, construiremos um conjunto de vetores v1 , . . . , vn , todos com norma
1 e com va ∈ [v1 , . . . , va−1 ]⊥ e um conjunto de números reais λ1 , . . . , λn tais que
An = A − λ1 Pv1 − · · · − λn Pvn
anula-se no sub-espaço [v1 , . . . , vn ]. Ora, como estamos em um espaço de dimensão n e os vetores vk

são mutuamente ortogonais, segue que [v1 , . . . , vn ] deve ser o espaço todo, ou seja, An = 0. Provamos
então que
A = λ1 Pv1 + · · · + λn Pvn . (3.59)
Vamos provar agora que essa é a representação espectral de A. Como os vk ’s são mutuamente
ortogonais, é evidente que Pvk Pvl = δk, l Pvk . Resta-nos provar que Pv1 + · · · + Pvn = 1. Como
v1 , . . . , vn formam uma base, todo vetor x pode ser escrito como uma combinação linear
x = α1 v1 + · · · + αn vn . (3.60)
Tomando-se o produto escalar com va , e usando o fato que os vk ’s são mutuamente ortogonais, tem-se
αa = hva , xi .
Assim, (3.60) pode ser escrita como
x = hv1 , xiv1 + · · · + hvn , xivn = Pv1 x + · · · + Pvn x = (Pv1 + · · · + Pvn ) x .
Como isso vale para todo vetor x, segue que
Pv1 + · · · + Pvn = 1 .
Assim, A possui uma representação espectral como (3.33). Pelo Teorema Espectral 3.5, A é diagona-
lizável.
Por (3.59), vemos que Ava = λa va (verifique!). Logo os λa ’s são autovalores de A e os va ’s
seus autovetores. Assim, se A é auto-adjunto, podemos escontrar n autovetores de A mutuamente
ortogonais, mesmo que sejam autovetores com o mesmo autovalor. Isso generaliza o Teorema 3.11.
hh ii
Pelo que já vimos A é diagonalizada por P −1 AP , onde podemos escolher P = v 1 , . . . , v n . É
fácil verificar, porém, que P é unitária. De fato, é um exercı́cio simples (faça!) mostrar que
 
hv1 , v1 i · · · hv1 , vn i
 .. .. .. 
P ∗P =  . . .  .
hvn , v1 i · · · hvn , vn i
Como hva , vb i = δa, b , a matriz do lado direito é igual a 1, mostrando que P ∗ P = P P ∗ = 1 e que,
portanto, P é unitária.
Para concluir essa discussão, temos:

Proposição 3.18 Uma matriz A ∈ Mat (C, n) é auto-adjunta, se e somente se for diagonalizável por
uma transformação de similaridade unitária e se seus autovalores forem reais. 2
Prova. Se A ∈ Mat (C, n) é diagonalizável por uma transformação de similaridade unitária e seus
autovalores são reais, ou seja, existe P unitária e D diagonal real com P ∗ AP = D, então A = P DP ∗
e A∗ = P D ∗ P ∗ . Como D é diagonal e real, vale D ∗ = D e, portanto, A∗ = P DP ∗ = A, provando que
A é auto-adjunta. A recı́proca já foi provada acima.
• Matrizes Normais e Diagonalizabilidade
O teorema que afirma que toda matriz simétrica é diagonalizável tem a seguinte conseqüência:
Teorema 3.14 Se A ∈ Mat (C, n) é normal então A é diagonalizável. 2
Prova. Já vimos que toda matriz A pode ser escrita na forma A = Re (A)+iIm (A) onde Re (A) e Im (A)
são auto-adjuntas. Vimos também que se A é normal Re (A) e Im (A) comutam entre si (Proposição
3.17). Pelo Teorema 3.8, Re (A) e Im (A) podem ser simultaneamente diagonalizados.
Observação. Como no caso auto-adjunto, o operador que faz a diagonalização pode ser escolhido
unitário. De fato, vale uma afirmativa ainda mais forte.
Teorema 3.15 Uma matriz A ∈ Mat (C, n) é normal se e somente se for diagonalizável por um
operador unitário. 2
Prova. Resta provar apenas que se A é diagonalizável por um operador unitário P então A é normal.
Seja D = P ∗ AP . Tem-se D ∗ = P ∗ A∗ P (por que?). Assim,
A∗ A − AA∗ = P D ∗ P ∗ P DP ∗ − P DP ∗P D ∗ P ∗ = P (D ∗ D − DD ∗ )P ∗ = 0 ,
já que D ∗ e D comutam por serem diagonais (duas matrizes diagonais quaisquer sempre comutam. Por
quê?). Isso completa a prova que A é normal.
Uma outra demonstração (eventualmente mais simples) dessa afirmação pode ser encontrada na
Seção 3.8.2, página 226. Vide Teorema 3.25, página 228.
3.5.1 Matrizes Positivas

Uma matriz A ∈ Mat (C, n) é dita ser uma matriz positiva se hw, Awi ≥ 0 para todo vetor w ∈ Cn .
A seguinte proposição é relevante9 :
Proposição 3.19 Se A ∈ Mat (C, n) é positiva, então A é Hermitiana e tem autovalores não-
negativos. Reciprocamente, se A é Hermitiana e tem autovalores não-negativos, então A é positiva.
2
Prova. A expressão ω(u, v) := hu, Avi, u, v ∈ Cn , define uma forma sesquilinear que, por hipótese, é
positiva, ou seja, satisfaz ω(u, u) ≥ 0 para todo u ∈ Cn . Pelo Teorema 2.6, página 121, ω é Hermitiana,
ou seja, ω(u, v) = ω(v, u) , para todos os vetores u e v. Mas isso significa que hu, Avi = hv, Aui, ou
seja, hu, Avi = hAu, vi para todos os vetores u e v e assim provou-se que A = A∗ . Uma outra forma
de demonstrar isso usa a desigualdade de polarização. Se A é positiva então, para quaisquer vetores
9
Vários dos resultados que seguem podem ser generalizados para operadores lineares positivos agindo em espaços de
Hilbert. Vide Teorema 26.21, página 1316.
u, v ∈ Cn vale h(u + in v), A(u + in v)i ≥ 0 para todo n ∈ Z e, portanto, h(u + in v), A(u + in v)i é um
número real. Usando a identidade de polarização, eqs. (2.31)-(2.32), página 133, vale, para quaisquer
vetores u, v ∈ Cn ,
3 3
(2.31) 1 X −n 1X n
hAv, ui = hu, Avi = i h(u + in v), A(u + in v)i = i h(u + in v), A(u + in v)i
4 n=0 4 n=0
3
1 X −n n n
= i i i h(u + in v), A(u + in v)i
4 n=0
3
sesquilin. 1 X −n −n
= i hi (u + in v), Ain (u + in v)i
4 n=0
3
1 X −n
= i h(v + i−n u), A((−1)n v + in u)i
4 n=0
3
1X
= (−1)n i−n h(v + i−n u), A(v + i−n u)i
4 n=0
3
1X n (2.32)
= i h(v + i−n u), A(v + i−n u)i = hv, Aui .
4 n=0
Assim, hAv, ui = hv, Aui para todos u, v ∈ Cn , o que significa que A é Hermitiana. Portanto,
por (3.58), podemos escrever A = λ1 Pv1 + · · · + λn Pvn , onde v1 , . . . , vn são autovetores mutuamente
ortonormais de A com autovalores λ1 , . . . , λn , respectivamente. Disso segue que hvj , Avj i = λj para
todo j = 1, . . . , n. Como o lado esquerdo é ≥ 0, por hipótese, segue que λj ≥ 0 para todo j = 1, . . . , n.
Se, reciprocamente, A for auto-adjunta com autovalores não-negativos, segue de (3.58) e da definição
Xn
de Pvj em (3.57) que hw, Awi = λj |hw, vj i|2 ≥ 0, para todo w ∈ Cn , provando que A é positiva.
j=1
O seguinte corolário é imediato.

Corolário 3.2 Uma matriz A ∈ Mat (C, n) positiva se somente se existe uma matriz positiva B
(unı́voca!) tal que A = B 2 . As matrizes A e B comutam: AB = BA. 2
Demonstração. Se A = B 2 com B positiva, então, como B é auto-adjunta (pela Proposição 3.19), segue
que para todo w ∈ Cn vale hw, Awi = hw, B 2 wi = hBw, Bwi = kBwk2 ≥ 0, provando que A é
positiva. Provemos agora a recı́proca.
Se A é positiva então, como comentamos na demonstração da Proposição 3.19, A é autoadjunta
com representação espectral A = λ1 Pv1 + · · · + λn Pvn , onde v1 , . . . , vn são autovetores mutuamente
ortonormais de A com autovalores λ1 , . . . , λn , respectivamente, todos não-negativos. Defina-se a matriz

p p
B := λ1 Pv1 + · · · + λn Pvn . (3.61)
Como, pela ortonormalizade dos vj ’s, vale Pvj Pvk = δj, k Pvj , é fácil ver que B 2 = λ1 Pv1 +· · ·+λn Pvn = A.
A unicidade de B segue da unicidade da decomposição espectral, Proposição 3.12, página 185. A
igualdade (B 2 )B = B(B)2 significa AB = BA, provando que A e B comutam.
Definição. Se A é uma matriz positiva, a (única!) matriz positiva B satisfazendo B 2 = A é freqüen-

√ √ √
temente denotada por A e denominada raı́z quadrada da matriz A. Como vimos, A A = AA.
Lema √ Se A ∈ Mat (C, n) é uma matriz positiva e C ∈ Mat (C, n) satisfaz CA = AC então
√ 3.2
C A = AC. 2
Prova. Se C comuta com A, então A comuta com qualquer polinômio em A. Vimos na Proposição
3.11, página 185, que os projetores espectrais de A podem ser √
escritos como polinômios em A. Assim,
C comuta com os projetores espectrais de A e, portanto, com A, devido a (3.61).
Uma conseqüência interessante das considerações acima é a seguinte proposição:

Proposição 3.20 Toda matriz Hermitiana pode ser escrita como combinação linear de até duas ma-
trizes unitárias. Toda matriz pode ser escrita como combinação linear de até quatro matrizes unitárias.
2
Demonstração. Seja A ∈ Mat (C, n). Se A é Hermitiana (vamos supor que A 6= 0, pois de outra
forma não há o que se provar), então, para todo w ∈ Cn , o produto escalar hw A2 wi é um número
real e, pela desigualdade de Cauchy-Schwarz, |hw A2 wi| ≤ kA2 k kwk2Cn . Assim, −kA2 k kwk2Cn ≤
hw, A2 wi ≤ kA2 k kwk2Cn Logo, a matriz 1 − A2 /kA2 k é positiva, pois
p hw, (1 − A2 /kA2 k)wi = kwk2Cn −
hw, A2 wi/kA2 k ≥ kwk2Cn − kwk2Cn = 0. Conseqüentemente, 1 − A2 /kA2 k existe e é positiva e
Hermitiana. Trivialmente, podemos escrever
p s ! p s !
kA2 k A A2 kA2 k A A2
A = p +i 1− + p −i 1− . (3.62)
2 kA2 k kA2 k 2 kA2 k kA2 k
q
Agora, as matrizes √ A
2
±i 1− A2
kA2 k
são unitárias. Para ver isso, notemos que
kA k
s !∗ s !
A A2 A A2
p +i 1− = p −i 1−
kA2 k kA2 k kA2 k kA2 k
e que s ! s !
A A2 A A2
p +i 1− p −i 1− 2 = 1.
kA2 k kA2 k kA2 k kA k
q
Para provar a última igualdade basta expandir o produto e notar que, pelo Lema 3.2, A e 1− A2
kA2 k
comutam, já que A e 1 − A2

kA2 k
comutam.
Assim, vemos de (3.62) que uma matriz Hermitiana A é combinação linear de até duas unitárias,
provando a primeira parte da Proposição 3.20. Para provar a segunda parte, basta notar que se
M ∈ Mat (C, n) é uma matriz qualquer, podemos escrever

M + M∗ M − M∗
M = +i .
2 2i
Ambas as matrizes entre parênteses são Hermitianas e, portanto, podem cada uma ser escritas como
combinação linear de até duas unitárias, totalizando até quatro unitárias para M.
3.6 Matrizes Triangulares

Uma matriz S ∈ Mat (C, n) é dita ser uma matriz triangular superior se forem nulos os elementos
abaixo da diagonal principal, ou seja, se Sij = 0 sempre que i > j. Note que esses não precisam ser
necessariamente os únicos elementos nulos de S.
Uma matriz I ∈ Mat (C, n) é dita ser uma matriz triangular inferior se forem nulos os elementos
acima da diagonal principal, ou seja, se Iij = 0 sempre que i < j. Note que esses não precisam ser
necessariamente os únicos elementos nulos de I.
Proposição 3.21 Matrizes triangulares superiores possuem as seguintes propriedades:
1. A matriz identidade 1 é uma matriz triangular superior.

2. O produto de duas matrizes triangulares superiores é novamente uma matriz triangular superior.
3. O determinante de uma matriz triangular superior é o produto dos elementos da sua diagonal.
Assim, uma matriz triangular superior é invertı́vel se e somente se não tiver zeros na diagonal.
4. Se uma matriz triangular superior é invertı́vel, sua inversa é novamente uma matriz triangular
superior.
As afirmações acima permanecem verdadeiras trocando “matriz triangular superior” por “matriz tri-
angular inferior”. 2
Prova. Os três primeiros itens são elementares. Para provar o item 4, usa-se a regra de Laplace,
expressão (3.11), página 157. Como é fácil de se ver, Cof(S)ji = 0 se i > j. Logo, S −1 é triangular
superior, se existir.
As propriedades acima atestam que o conjunto das matrizes n×n triangulares superiores invertı́veis
forma um grupo, denominado por alguns autores Grupo de Borel10 de ordem n e denotado por GBn (C).
O seguinte resultado sobre matrizes triangulares superiores será usado diversas vezes adiante.
10
Armand Borel (1923-2003).
Lema 3.3 Uma matriz triangular superior S ∈ Mat (C, n) é normal (ou seja, satisfaz SS ∗ = S ∗ S) se
e somente se for diagonal. 2
Prova. Se S é diagonal, S é obviamente normal pois S ∗ é também diagonal e matrizes diagonais sempre
comutam entre si. Provaremos a recı́proca, o que será feito por indução. Para n = 1 não há o que
provar. Se n = 2, S é da forma S = ( a0 bc ), com a, b, c ∈ C. A condição SS ∗ = S ∗ S significa
2 2
|a| + |b|2 bc |a| ba
= ,
cb |c|2 ab |b|2 + |c|2
o que implica b = 0, provando que S é diagonal. Procedemos agora por indução, supondo n > 2 e que
o lema seja válido para matrizes (n − 1) × (n − 1) triangulares superiores normais. Se S ∈ Mat (C, n)
é triangular superior, S é da forma
   
b1 0
a bT  ..   .. 
S= , sendo a ∈ C , b =  .  , 0 =  .  ,
0 C
bn−1 0
ambas b e 0 com n − 1 linhas, sendo C uma matriz (n − 1) × (n − 1) triangular superior. A condição

SS ∗ = S ∗ S significa 2 2
|a| + bT b bT C ∗ |a| abT
= ,
Cb CC ∗ ab B + C ∗ C
sendo B a matriz cujos elementos são Bij = bi bj . Disso extraı́mos que bT b = 0, ou seja, |b1 |2 + · · · +
|bn−1 |2 = 0 e, portanto, b = 0. Com isso, ficamos com CC ∗ = C ∗ C, ou seja, C é normal. Como C é
triangular superior então, pela hipótese indutiva, C é diagonal. Isso, mais o fato provado que b é nulo,
implica que S é diagonal, provando o lema.
3.7 O Teorema de Decomposição de Jordan e a Forma Canônica

de Matrizes
Nas seções anteriores demonstramos condições que permitem diagonalizar certas matrizes. Nem todas
as matrizes, porém, podem ser diagonalizadas. Podemos nos perguntar, no entanto, quão próximo
podemos chegar de uma matriz diagonal.
Mostraremos nesta seção que toda matriz A pode ser levada (por uma transformação de simila-
ridade) à uma forma próxima à diagonal, denominada forma canônica de Jordan11 . Resumidamente
(a afirmação precisa será apresentada mais adiante), mostraremos que existe uma matriz P tal que
11
Marie Ennemond Camille Jordan (1838-1922). A forma canônica de matrizes foi originalmente descoberta por
Weierstrass (Karl Theodor Wilhelm Weierstrass (1815-1897)) e redescoberta por Jordan em 1870.
P −1 AP tem a seguinte forma:

 
λ1 γ 1 0 0 ··· 0 0
 0 λ2 γ 2 0 ··· 0 0 
 
 0 0 λ3 γ 3 ··· 0 0 
 
 .. 
 0 0 0 λ4 . 0 0 , (3.63)
. .. .. .. .. .. .. 
 .. . . . . . . 
 
0 0 0 0 · · · λn−1 γn−1 
0 0 0 0 ··· 0 λn
onde λ1 , . . . , λn são os autovalores de A e onde os γi valem 1 ou 0, mas que forma que a matriz
diagonal  
λ1 0 0 0 ··· 0 0
 0 λ2 0 0 ··· 0 0
 
 0 0 λ3 0 ··· 0 0
 
 .. 
 0 0 0 λ4 . 0 0 , (3.64)
. .. .. .. .. .. .. 
 .. . . . . . .
 
0 0 0 0 · · · λn−1 0 
0 0 0 0 ··· 0 λn
e a matriz supra-diagonal  
0 γ1 0 0 ··· 0 0
0 0 γ2 0 ··· 0  0
 
0 0 0 γ3 ··· 0  0
 
 .. 
0 0 0 0 . 0 0  , (3.65)
. . . . .. .. .. 
 .. .. .. .. . . . 
 
0 0 0 0 ··· 0 γn−1 
0 0 0 0 ··· 0 0
comutam entre si.
O resultado central que provaremos, e do qual as afirmativas feitas acima seguirão, diz que toda
matriz A pode ser levada por uma transformação do tipo P −1 AP a uma matriz da forma D + N, onde
D é diagonal e N é nilpotente (ou seja, tal que N q = 0 para algum q) e tais que D e N comutam:
DN = ND. Essa é a afirmativa principal do célebre “Teorema da Decomposição de Jordan”, que
demonstraremos nas páginas que seguem.
Esse Teorema da Decomposição de Jordan generaliza os teoremas sobre diagonalizabilidade de
matrizes: para matrizes diagonalizáveis tem-se simplesmente N = 0 para um P conveniente.
Antes de nos dedicarmos à demonstração desses fatos precisaremos de alguma preparação.
3.7.1 Resultados Preparatórios
• Somas Diretas de Sub-Espaços

Seja V um espaço vetorial e V1 e V2 dois de seus sub-espaços. Dizemos que V é a soma direta de V1
e V2 se todo vetor v de V puder ser escrito de modo único da forma v = v1 + v2 com v1 ∈ V1 e v2 ∈ V2 .
Se V é a soma direta de V1 e V2 escrevemos V = V1 ⊕ V2 .
• Sub-espaços Invariantes
Um subespaço E de Cn é dito ser invariante pela ação de uma matriz A, se Av ∈ E para todo v ∈ E.
Se V = V1 ⊕ V2 e tanto V1 quanto V2 são invariantes pela ação de A, escrevemos A = A1 ⊕ A2 onde
Ai é A restrita a Vi . Se escolhermos uma base em V da forma {v1 , . . . , vm , vm+1 , . . . , vn }, onde
{v1 , . . . , vm } é uma base em V1 e {vm+1 , . . . , vn } é uma base em V2 , então nessa base A terá a forma

A1 0m, n−m
A = . (3.66)
0n−m, m A2
onde A1 ∈ Mat (C, m) e A2 ∈ Mat (C, n − m).
E. 3.25 Exercı́cio. Justifique a forma (3.66). 6
A representação (3.66) é dita ser uma representação em blocos diagonais de A, os blocos sendo as
sub-matrizes A1 e A2 .
Um fato relevante que decorre imediatamente de (3.66) e da Proposição 3.1, página 162, e que
usaremos freqüentemente adiante, é que se A = A1 ⊕ A2 então
det(A) = det(A1 ) det(A2 ) .
• Operadores Nilpotentes
Seja V um espaço vetorial e N : V → V um operador linear agindo em V . O operador N é dito ser

um operador nilpotente se existir um inteiro positivo q tal que N q = 0. O menor q para o qual N q = 0
é dito ser o ı́ndice de N.
Vamos a alguns exemplos.  
0 1 0
N = 0 0 1
0 0 0
é uma matriz nilpotente de ı́ndice 3.
 
0 a c
N = 0 0 b 
0 0 0
com a 6= 0 e b 6= 0 é uma matriz nilpotente de ı́ndice 3.
  

0 0 0 0 1 0
N =  0 0 1 e N =  0 0 0
0 0 0 0 0 0
são matrizes nilpotentes de ı́ndice 2.
O seguinte fato sobre os autovalores de operadores nilpotentes será usado adiante.

Proposição 3.22 Se N ∈ Mat (C, n) é nilpotente então seus autovalores são todos nulos. Isso implica
que seu polinômio caracterı́stico é qN (x) = xn , x ∈ C. Se o ı́ndice de N é q então o polinômio mı́nimo
de N é mN (x) = xq , x ∈ C. 2
No Corolário 3.3, página 216, demonstraremos que uma matriz é nilpotente se e somente se seus
autovalores forem todos nulos.
Prova da Proposição 3.22. Se N = 0 o ı́ndice é q = 1 e tudo é trivial. Seja N 6= 0 com ı́ndice q > 1.
Seja v 6= 0 um autovetor de N com autovalor λ: Nv = λv. Isso diz que 0 = N q v = λq v. Logo λq = 0
e, obviamente, λ = 0. É claro então que qN (x) = xn . Que o polinômio mı́nimo é mN (x) = xq segue
do fato que mN (x) deve ser um divisor de qn (x) (isso segue do Teorema 3.2 junto com o Teorema de
Hamilton-Cayley, Teorema 3.3), página 174). Logo mN (x) é da forma xk para algum k ≤ n. Mas o
menor k tal que mN (N) = N k = 0 é, por definição, igual a q. Isso completa a prova.
Mais sobre matrizes nilpotentes será estudado na Seção 3.7.3 onde, em particular, discutiremos a
chamada forma canônica de matrizes nilpotentes.
• O Núcleo e a Imagem de um Operador Linear
Seja V um espaço vetorial e A : V → V um operador linear agindo em V .

O núcleo de A é definido como o conjunto de todos os vetores que são anulados por A:
N(A) = {x ∈ V | Ax = 0} .
A imagem de A é definida por
R(A) = {x ∈ V | ∃ y ∈ V tal que x = Ay} .
Afirmamos que N(A) e R(A) são dois sub-espaços de V . Note-se primeiramente que 0 ∈ N(A) e
0 ∈ R(A) (por que?). Fora isso, se x e y ∈ N(A) então, para quaisquer escalares α e β,
A(αx + βy) = αAx + βAy = 0 ,

provando que combinações lineares αx+βx′ também pertencem a N(A). Analogamente se x e x′ ∈ R(A)
então existem y e y ′ ∈ V com x = Ay, x′ = Ay ′ . Logo
αx + βx′ = A(αy + βy ′) ,
provando que combinações lineares αx + βy também pertencem a R(A).

Para um operador A fixado, e k ∈ N, vamos definir
Nk = N(Ak )
e
Rk = R(Ak ) .
Esses sub-espaços Nk e Rk são invariantes por A. De fato, se x ∈ Nk , então Ak (Ax) = A(Ak x) = A0 = 0,
mostrando que Ax ∈ Nk . Analogamente, se x ∈ Rk então x = Ak y para algum vetor y. Logo,
Ax = A(Ak y) = Ak (Ay), mostrando que Ax ∈ Rk .
Afirmamos que
Nk ⊂ Nk+1 (3.67)
e que
Rk ⊃ Rk+1 .
As demonstrações dessas afirmativas são quase banais. Se x ∈ Nk então Ak x = 0. Isso obviamente
implica Ak+1x = 0. Logo x ∈ Nk+1 e, portanto, Nk ⊂ Nk+1 . Analogamente, se x ∈ Rk+1 então existe y
tal que x = Ak+1 y. Logo x = Ak (Ay), o que diz que x ∈ Rk . Portanto Rk+1 ⊂ Rk .
Isso diz que os conjuntos Nk formam uma cadeia crescente de conjuntos:
{0} ⊂ N1 ⊂ N2 ⊂ · · · ⊂ Nk ⊂ · · · ⊂ V , (3.68)
e os Rk formam uma cadeia decrescente de conjuntos:
V ⊃ R1 ⊃ R2 ⊃ · · · ⊃ Rk ⊃ · · · ⊃ {0} . (3.69)
Consideremos a cadeia crescente (3.68). Como os conjuntos Nk são sub-espaços de V , é claro que a
cadeia não pode ser estritamente crescente se V for um espaço de dimensão finita, ou seja, deve haver
um inteiro positivo p tal que Np = Np+1. Seja p o menor número inteiro para o qual isso acontece.
Afirmamos que para todo k ≥ 1 vale Np = Np+k .
Vamos provar isso. Se x ∈ Np+k então Ap+k x = 0, ou seja, Ap+1 (Ak−1 x) = 0. Logo, Ak−1 x ∈ Np+1 .
Dado que Np = Np+1 , isso diz que Ak−1 x ∈ Np , ou seja, Ap (Ak−1 x) = 0. Isso, por sua vez, afirma que
x ∈ Np+k−1. O que fizemos então foi partir de x ∈ Np+k e concluir que x ∈ Np+k−1 . Se repetirmos
a argumentação k vezes concluiremos que x ∈ Np . Logo, Np+k ⊂ Np . Por (3.67) tem-se, porém, que
Np ⊂ Np+k e, assim, Np+k = Np .
Assim, a cadeia (3.68) tem, no caso de V ter dimensão finita, a forma
{0} ⊂ N1 ⊂ N2 ⊂ · · · ⊂ Np = Np+1 = · · · = Np+k = · · · ⊂ V . (3.70)
Como dissemos, p será daqui por diante o menor inteiro para o qual Np = Np+1 . O lema e o teorema
que seguem têm grande importância na demonstração do Teorema de Decomposição de Jordan.
Lema 3.4 Com as definições acima, Np ∩ Rp = {0}, ou seja, os sub-espaços Np e Rp têm em comum
apenas o vetor nulo. 2
Demonstração. Seja x tal que x ∈ Np e x ∈ Rp . Isso significa que Ap x = 0 e que existe y tal que
x = Ap y. Logo, A2p y = Ap x = 0, ou seja, y ∈ N2p . Pela definição de p tem-se que N2p = Np . Assim,
y ∈ Np . Logo Ap y = 0. Mas, pela própria definição de y valia que Ap y = x. Logo x = 0.
Esse lema tem a seguinte conseqüência importante.

Teorema 3.16 Com as definições acima vale que V = Np ⊕ Rp , ou seja, cada x ∈ V pode ser escrito
de modo único na forma x = xn + xr , onde xn ∈ Np e xr ∈ Rp . 2
Demonstração. Seja m a dimensão de Np e seja {u1 , . . . , um } uma base em Np . Vamos estender essa
base, incluindo vetores {vm+1 , . . . , vn } de modo que {u1 , . . . , um , vm+1 , . . . , vn } seja uma base
em V . Afirmamos que {Ap vm+1 , . . . , Ap vn } é uma base em Rp . Seja x ∈ Rp e seja y ∈ V tal que
x = Ap y. Como todo vetor de V , y pode ser escrito como combinação linear de elementos da base
{u1 , . . . , um , vm+1 , . . . , vn }:
Xm X n
y = αi ui + αi vi .
i=1 i=m+1
Logo,
m
X n
X n
X
p p
x = αi A ui + αi A vi = αi Ap vi . (3.71)
i=1 i=m+1 i=m+1
Os vetores {Ap vm+1 , . . . , Ap vn } são linearmente independentes. Isso se mostra com o seguinte argu-
mento. Se existirem escalares βm+1 , . . . , βn tais que
n
X
βi Ap vi = 0 ,
i=m+1
então terı́amos !
n
X
Ap βi vi = 0,
i=m+1
ou seja,
n
X
βi vi ∈ Np .
i=m+1
Isso implica que existem constantes γ1 , . . . , γm tais que

n
X m
X
βi vi = γi u i ,
i=m+1 i=1
pois os vetores {u1 , . . . , um } são uma base em Np . Ora, como {u1 , . . . , um , vm+1 , . . . , vn } são linear-
mente independentes, segue que os βi ’s e os γj ’s são todos nulos. Isso prova que {Ap vm+1 , . . . , Ap vn }
são linearmente independentes e, portanto, por (3.71), formam uma base em Rp .
Isso incidentalmente provou que a dimensão de Rp é n − m. Temos, portanto, que

dim (Np ) + dim (Rp ) = dim (V ) .
Para i = m + 1, . . . , n defina-se ui = Ap vi . Afirmamos que o conjunto de vetores

{u1 , . . . , um , um+1 , . . . , un } = {u1, . . . , um , Ap vm+1 , . . . , Ap vn }
é também linearmente independente e, portanto, forma uma base em V . Suponhamos que haja cons-
tantes escalares α1 , . . . , αn tais que
n m n
!
X X X
0 = αi ui = αi ui + Ap αi vi .
i=1 i=1 i=m+1
Isso implica, obviamente, !

m
X n
X
αi ui = −Ap αi vi .
i=1 i=m+1
O lado esquerdo dessa igualdade é um elemento de Np (pois u1, . . . , um são uma base em Np ), enquanto
que o lado esquerdo é obviamente um elemento da imagem de Ap , ou seja, de Rp . Contudo, já vimos
(Lema 3.4) que o único vetor que Np e Rp têm em comum é o vetor nulo. Logo,
m
X
αi ui = 0 (3.72)
i=1
e n
X
αi Ap vi = 0 . (3.73)
i=m+1
A relação (3.72) implica α1 = · · · = αm = 0, pois {u1, . . . , um } é uma base em Np . A relação (3.73)

implica αm+1 = · · · = αn = 0, pois {Ap v1 , . . . , Ap vm } é uma base em Rp . Assim, todos os αi ’s são
nulos, provando que {u1 , . . . , um , um+1 , . . . , un } = {u1 , . . . , um , Ap vm+1 , . . . , Ap vn } é um
conjunto de n vetores linearmente independentes.
Conseqüentemente, todo x ∈ V pode ser escrito na forma
n m n
!
X X X
x = αi ui = αi ui + Ap αi vi .
i=1 i=1 i=m+1
| {z } | {z }
xn ∈Np xr ∈Rp
Provar a unicidade dessa decomposição fica como exercı́cio. Isso completa a demonstração.
Uma das coisas que o teorema que acabamos de demonstrar diz é que, dado um operador A, o
espaço V pode ser decomposto em uma soma direta de dois sub-espaços, invariantes por A: um onde
A é nilpotente, Np , e outro onde A é invertı́vel, Rp . A é nilpotente em Np pois Ap x = 0 para todo
elemento x de Np . A é invertı́vel em Rp pois se x ∈ Rp é tal que Ax = 0 isso implica x ∈ N1 ⊂ Np .
Mas x só pode pertencer a Np e a Rp se for nulo. Logo, em Rp , Ax = 0 se e somente se x = 0, provando
que A é invertı́vel12 . Para referência futura formulemos essa afirmativa na forma de um teorema:
12
Lembre-se que esse argumento só funciona em espaços vetoriais V que tenham dimensão finita, o que estamos supondo
aqui.
Teorema 3.17 Se A é um operador linear não-nulo agindo em um espaço vetorial V = Cn então é

possı́vel decompor V em dois sub-espaços invariantes por A, V = S ⊕ T, de forma que A restrito a S é
nilpotente, enquanto que A restrito a T é invertı́vel. 2
Esse será o teorema básico do qual extrairemos a demonstração do Teorema de Decomposição de

Jordan.
3.7.2 O Teorema da Decomposição de Jordan

Chegamos agora ao resultado mais importante desta seção, o Teorema da Decomposição de Jordan13 ,
um importante teorema estrutural sobre matrizes de importância em vários campos, por exemplo na
teoria das equações diferenciais ordinárias. Para tais aplicações, vide Capı́tulo 7, página 322.
O Teorema da Decomposição de Jordan também tem certa relevância na Teoria de Grupos, e o
usaremos para provar que toda matriz n × n complexa invertı́vel (ou seja, todo elemento do grupo
GL(C, n)) pode ser escrita como exponencial de outra matriz (Proposição 4.11, página 252). No
Capı́tulo 4 usaremos o Teorema da Decomposição de Jordan para provar a identidade útil det(eA ) =
eTr(A) , válida para qualquer matrix n × n real ou complexa. (Proposição 4.7, página 250).
• Enunciado e Demonstração do Teorema da Decomposição de Jordan
Teorema 3.18 (Teorema da Decomposição de Jordan) Seja A um operador linear agindo no

espaço V = Cn e seja {α1 , . . . , αr } o conjunto de seus autovalores distintos. Então existem r
sub-espaços S1 , . . . , Sr tais que V = S1 ⊕ . . . ⊕ Sr e tais que cada Si é invariante por A. Ou seja,
A = A1 ⊕ . . . ⊕ Ar , onde Ai é A restrita a Si . Fora isso, cada Ai , é da forma Ai = αi 1i + Ni , onde 1i é
a matriz identidade em Si e onde Ni é nilpotente. Por fim, a dimensão si de cada subespaço Si é igual
à multiplicidade algébrica do autovalor αi . 2
Demonstração. Seja {α1 , . . . , αr } o conjunto dos autovalores distintos de A e seja ni a multiplicidade

algébrica do autovalor αi . Seja A1 = A − α1 1. Pelo Teorema 3.17, página 214, V pode ser escrito como
V = S1 ⊕ T1 , onde S1 e T1 são invariantes por A1 , sendo A1 nilpotente em S1 e invertı́vel em T1 . Assim,
A1 é da forma A1 = N1 ⊕ M1 com N1 nilpotente e M1 invertı́vel. Logo
A = α1 1 + A1 = (α1 1S1 + N1 ) ⊕ (α1 1T1 + M1 ) , (3.74)
onde 1S1 é a matriz identidade em S1 etc. Vamos mostrar que a dimensão de S1 é igual à multiplicidade
algébrica de α1 . Por (3.74) o polinômio caracterı́stico de A é
qA (λ) = det(λ1 − A) = det((λ − α1 )1S1 − N1 ) det((λ − α1 )1T1 − M1 ) .
Se qN1 denota o polinômio caracterı́stico de N1 , tem-se
det((λ − α1 )1S1 − N1 ) = qN1 (λ − α1 ) = (λ − α1 )s1 ,
13
Marie Ennemond Camille Jordan (1838-1922). A forma canônica de matrizes (que será discutida mais adiante) foi
originalmente descoberta por Weierstrass (Karl Theodor Wilhelm Weierstrass (1815-1897)) e redescoberta por Jordan
em 1870.
onde, na última igualdade, usamos a Proposição 3.22, página 210, sobre a forma do polinômio carac-
terı́stico de uma matriz nilpotente. Daı́, segue que
qA (λ) = (λ − α1 )s1 qM1 (λ − α1 ) ,
sendo qM1 o polinômio caracterı́stico de M1 . Como M1 é invertı́vel, M1 não tem o zero como autovalor.
Logo, qM1 (0) 6= 0. Portanto s1 é igual à multiplicidade de α1 como raiz de qA , ou seja, é igual a n1 , a
multiplicidade algébrica de α1 .
A idéia agora é prosseguir decompondo agora o operador α1 1T1 + M1 que aparece em (3.74) da
mesma maneira como fizermos acima com A.
Seja A′ = α1 1T1 + M1 e que age em T1 , que é um espaço de dimensão n − n1 . Definimos A2 =
A − α2 1T1 .
′
Evocando novamente o Teorema 3.17, página 214, T1 pode ser escrito como T1 = S2 ⊕ T2 , onde S2
e T2 são invariantes por A2 , sendo A2 nilpotente em S2 e invertı́vel em T2 . Assim, V = S1 ⊕ S2 ⊕ T2 .
Agindo em T1 = S2 ⊕ T2 , A2 é da forma A2 = N2 ⊕ M2 com N2 nilpotente e M2 invertı́vel. Logo
A′ = α2 1T1 + A2 = (α2 1S2 + N2 ) ⊕ (α2 1T2 + M2 ) . (3.75)
Vamos, como acima, mostrar que a dimensão de S2 é igual à multiplicidade algébrica de α2 .
Pela definição,
A = (α1 1S1 + N1 ) ⊕ A′ = (α1 1S1 + N1 ) ⊕ (α2 1S2 + N2 ) ⊕ (α2 1T2 + M2 ) .
Logo,
qA (λ) = det ((λ − α1 )1S1 − N1 ) det ((λ − α2 )1S2 − N2 ) det ((λ − α2 )1T2 − M2 ) .
Portanto, pelos mesmos argumentos usados acima,
qA (λ) = (λ − α1 )n1 (λ − α2 )s2 qM2 (λ − α2 ) .
Como M2 é invertı́vel, M2 não tem autovalor zero e, assim, qM2 (0) 6= 0. Logo, s2 = n2 . T2 é assim um
sub-espaço de dimensão n − n1 − n2 .
Prosseguindo nas mesmas linhas, após r passos chegaremos a um sub-espaço Tr de dimensão n −
n1 − · · · − nr = 0 (por (3.19), página 164). Aı́, teremos V = S1 ⊕ · · · ⊕ Sr , onde cada Si tem dimensão
ni e
A = (α1 1S1 + N1 ) ⊕ · · · ⊕ (αr 1Sr + Nr ) ,
onde os Ni ’s são todos nilpotentes. Isso completa a demonstração.
Um corolário importante do Teorema de Decomposição de Jordan é o seguinte:

Teorema 3.19 Para toda matriz A ∈ Mat (C, n) existe uma matriz invertı́vel P ∈ Mat (C, n) tal que
P −1 AP = D + N, onde D é uma matriz diagonal formada pelos autovalores de A e N é uma matriz
nilpotente e de tal forma que D e N comutam: DN = ND.
Conseqüentemente, toda matriz A ∈ Mat (C, n) pode ser escrita na forma A = Ad + An com
Ad An = An Ad , sendo Ad diagonalizável e An nilpotente, a saber, Ad = P DP −1 e An = P NP −1, com
D e N dados acima. 2
Demonstração do Teorema 3.19. O Teorema 3.18 está dizendo que, numa base conveniente, A tem a
forma de blocos diagonais
 
α1 1s1 + N1 0 ··· 0
   
A1 0 · · · 0  
 0 α2 1s2 + N2 · · · 0 
 0 A2 · · · 0   
   
A =  .. .. . . ..  =   , (3.76)
 . . . .   .. .. . . .. 
 . . . . 
0 0 · · · Ar  
 
0 0 · · · αr 1sr + Nr
ou seja,
A = D+N ,
onde  
α1 1s1 0 ··· 0  
 0 α 1 · · · 0 
 2 s2 
D =  .. .. . . ..  = diag α , . . . , α , . . . , αr , . . . , αr 
| 1 {z }1 | {z }
 . . . . 
s1 vezes sr vezes
0 0 · · · αr 1sr
e  
N1 0 · · · 0
 0 N2 · · · 0 
 
N =  .. .. . . ..  . (3.77)
 . . . . 
0 0 · · · Nr
Acima si é a dimensão do sub-espaço Si .
É fácil de se ver que N é uma matriz nilpotente, pois se o ki é o ı́ndice de Ni (ou seja, ki é o menor
inteiro positivo para o qual Niki = 0), então para k := max (k1 , . . . , kr ) tem-se
 
(N1 )k 0 ··· 0
 0 (N2 )k · · · 0 
k  
N =  .. .. . . ..  = 0 .
 . . . . 
0 0 · · · (Nr )k
Em verdade, k = max (k1 , . . . , kr ) é o ı́ndice de N (por que?).

Por fim, como cada Ni comuta com αi 1si , fica claro que D e N comutam. Isso completa a demons-
tração.
Corolário 3.3 Uma matriz M ∈ Mat (C, n) é nilpotente se e somente se todos os seus autovalores
forem nulos. 2
Prova. A Proposição 3.22, página 210, afirma que se M é nilpotente todos os seus autovalores são
nulos. O Teorema 3.19, página 215, afirma que se os autovalores de M são nulos, então existe P tal
que P −1 MP = N, nilpotente. Isso implica que M é nilpotente.
3.7.3 Matrizes Nilpotentes e sua Representação Canônica

Os teoremas que estudamos acima nesta seção revelam a importância de matrizes nilpotentes. Um fato
relevante é que elas podem ser representadas de uma forma especial, denominada forma canônica, da
qual traremos logo abaixo. Antes, alguma preparação se faz necessária.
Seja N ∈ Mat (C, n) uma matriz nilpotente de ı́ndice q, ou seja, N q = 0, mas N q−1 6= 0. Para uso
futuro, provemos o seguinte lema:
Lema 3.5 Seja N uma matriz nilpotente de ı́ndice q. Estão existe um vetor v 6= 0 tal que os q vetores
v, Nv, N 2 v, ..., N q−1 v , (3.78)
são linearmente independentes. Fora isso, o subespaço q-dimensional Jv, q := hv, Nv, N 2 v, . . . , N q−1 vi
de V gerado por esses q vetores é invariante por N. 2
Prova. Se q = 1, então N = 0 e não há nada a provar, pois a afirmação é trivialmente verdadeira para
qualquer v 6= 0. Seja então q > 1 (em cujo caso N 6= 0, trivialmente). Sabemos, por hipótese, que
a matriz N q−1 é não-nula. Isso significa que existe pelo menos um vetor v 6= 0 tal que N q−1 v 6= 0.
Fixemos um tal vetor. É imediato que os vetores Nv, N 2 v, . . . , N q−1 v são todos não-nulos pois,
se tivéssemos N j v = 0 para algum 1 ≤ j < q − 1, então, aplicando-se N q−1−j à esquerda, terı́amos
N q−1 v = 0, uma contradição.
Sejam agora α1 , . . . , αq escalares tais que
α1 v + α2 Nv + α3 N 2 v + · · · + αq N q−1 v = 0 . (3.79)
Aplicando-se N q−1 nessa igualdade e lembrando que N q = 0, concluı́mos que α1 N q−1 v = 0. Como
N q−1 v 6= 0, segue que α1 = 0 e, com isso, (3.79) fica
α2 Nv + α3 N 2 v + · · · + αq N q−1 v = 0 . (3.80)
Aplicando agora N q−2 nessa igualdade concluı́mos que α2 = 0. Prosseguindo, concluı́mos depois de
q passos que todos os escalares αj são nulos. Isso prova que os q vetores de (3.78) são linearmente
independentes.
Que o subespaço Jv, q definido acima é invariante por N é evidente pois, para quaisquer escalares
β1 , . . . , βq , tem-se

N β1 v + β2 Nv + · · · + βq N q−1 v = β1 Nv + β2 N 2 v + · · · + βq−1 N q−1 v ∈ Jv, q .
O seguinte teorema é central para o que segue.

Teorema 3.20 Se N é uma matriz nilpotente de ı́ndice q agindo em V e v um vetor com a propriedade
que N q−1 v 6= 0, então existe um subespaço K de V tal que Jv, q ∩ K = {0}, tal que V = Jv, q ⊕ K e tal
que K é também invariante por N. 2
Prova.14 A prova é feita por indução em q. Note-se que se q = 1, então N = 0 e a afirmativa é trivial,
pois podemos tomar como v qualquer vetor não-nulo, Jv, q seria o subespaço gerado por esse v e K o
subespaço complementar a v, que é trivialmente invariante por N, pois N = 0.
Vamos supor então que a afirmação seja válida para matrizes nilpotentes de ı́ndice q − 1 e provar
que a mesma é válida para matrizes nilpotentes de ı́ndice q. O que desejamos é construir um subespaço
K com as propriedades desejadas, ou seja, tal que V = Jv, q ⊕ K, sendo K invariante por N.
Seja V0 = R(N) o conjunto imagem de N. Sabemos que V0 é um subespaço de V e que é invariante
por N. Fora isso, N é nilpotente de ı́ndice q − 1 agindo em V0 (por que?)
Seja v0 = Nv ∈ V0 . É claro que N q−2 v0 = N q−1 v 6= 0. Assim, pelo Lema 3.78, o subespaço
(q − 1)-dimensional
Jv0 , q−1 = hv0 , Nv0 , . . . , N q−2 v0 i = hNv, N 2 v, . . . , N q−1 vi = JN v, q−1 ,
que é um sub-espaço de V0 , é invariante por N e, da hipótese indutiva, concluı́mos que existe um
subespaço K0 de V0 que é invariante por N tal que JN v, q−1 ∩ K0 = {0} e tal que V0 = JN v, q−1 ⊕ K0 .
Seja agora K1 := {x ∈ V | Nx ∈ K0 }. Vamos provar a seguinte afirmação:
I. Todo vetor x de V pode ser escrito na forma x = y + z onde y ∈ Jv, q e z ∈ K1 .

Para provar isso, notemos que para qualquer x ∈ V vale certamente que Nx ∈ V0 . Portanto,
como pela hipótese indutiva V0 = JN v, q−1 ⊕ K0 , podemos escrever Nx = y ′ + z ′ , com y ′ ∈ JN v, q−1
e z ′ ∈ K0 . Como y ′ ∈ JN v, q−1 , y ′ é da forma de uma combinação linear y ′ = α1 Nv + · · · +
αq−1 N q−1 v = Ny, onde y := α1 v + α2 Nv + · · · + αq−1 N q−2 v é um elemento de Jv, q . Logo,
z ′ = N(x − y). Como z ′ ∈ K0 , segue que z := x − y ∈ K1 . Assim, x = y + z, com y ∈ Jv, q e
z ∈ K1 . Isso provou I.
Note que a afirmação feita em I não significa que V = Jv, q ⊕ K1 , pois os sub-espaços Jv, q e K1
podem ter uma intersecção não-trivial. Tem-se, porém, o seguinte:
II. Jv, q ∩ K0 = {0}.

Provemos essa afirmação. Seja x ∈ Jv, q ∩ K0 . Como x ∈ Jv, q , x é da forma x = α1 v + α2 Nv +
· · · + αq N q−1 v. Logo Nx = α1 Nv + α2 N 2 v + · · · + αq−1 N q−1 v ∈ JN v, q−1 . Agora, como x ∈ K0 e,
por hipótese, K0 é invariante por N, segue que Nx ∈ K0 . Logo, Nx ∈ JN v, q−1 ∩ K0 . Todavia,
mencionamos acima que JN v, q−1 ∩ K0 = {0}. Logo, Nx = 0, ou seja, 0 = Nx = α1 Nv + α2 N 2 v +
· · · + αq−1 N q−1 v. Como os vetores Nv, . . . , N q−1 v são linearmente independentes, concluı́mos
que α1 = · · · αq−1 = 0. Logo, x = αq N q−1 v. Isso significa que x ∈ JN v, q−1 . Demonstramos,
então, que se x ∈ Jv, q ∩ K0 então x ∈ JN v, q−1 ∩ K0 mas, como JN v, q−1 ∩ K0 = {0}, segue que
x = 0. Isso conclui a prova de II.
III. K0 e Jv, q ∩ K1 , são dois sub-espaços disjuntos de K1 .

A demonstração é muito simples. É evidente que Jv, q ∩ K1 é subespaço de K1 . Como K0 é
invariante pela ação de N, segue que se x ∈ K0 então Nx ∈ K0 . Pela definição, isso diz que
x ∈ K1 e concluı́mos que K0 é um subespaço e K1 .
14
Extraı́da, com modificações, de [57].
Que K0 e Jv, q ∩ K1 são sub-espaços disjuntos, segue do fato que

II
K0 ∩ (Jv, q ∩ K1 ) = K1 ∩ (Jv, q ∩ K0 ) = K1 ∩ {0} = {0} .
A afirmação III implica que K1 = (Jv, q ∩ K1 ) ⊕ K0 ⊕ K0′ para algum subespaço K0′ de K1 (não
necessariamente único). Seja agora K := K0 ⊕ K0′ . Note que K1 = (Jv, q ∩ K1 ) ⊕ K e, portanto,
(Jv, q ∩ K1 ) ∩ K = {0} . (3.81)
Provaremos que esse K possui as propriedades desejadas, ou seja, que V = Jv, q ⊕K, sendo K invariante
por N. Isso é feito em três passos.
1. Jv, q e K são sub-espaços disjuntos, ou seja, Jv, q ∩ K = {0}, pois, como K ⊂ K1 , segue que
K = K ∩ K1 e, portanto,
(3.81)
Jv, q ∩ K = Jv, q ∩ (K ∩ K1 ) = (Jv, q ∩ K1 ) ∩ K = {0} .
2. Jv, q ⊕K contém os vetores de Jv, q e de (Jv, q ∩K1 )⊕K = K1 . Por I, isso implica que Jv, q ⊕K = V .
3. K é invariante por N, pois o fato que K ⊂ K1 , implica, pela definição de K1 , que NK ⊂ NK1 ⊂
K0 ⊂ K.
A prova do Teorema 3.20 está completa
A principal conseqüência do Teorema 3.20 é a seguinte.

Proposição 3.23 Seja N ∈ Mat (C, n) uma matriz nilpotente de ı́ndice q. Então existem
1. um inteiro positivo r, com 1 ≤ r ≤ n,
2. r números inteiros positivos n ≥ q1 ≥ q2 ≥ · · · ≥ qr ≥ 1, com q1 + · · · + qr = n,
3. r vetores v1 , . . . , vr satisfazendo N qj vj = 0 mas N qj −1 vj 6= 0, j = 1, . . . , r,
tais que
V = Jv1 , q1 ⊕ · · · ⊕ Jvr , qr .
2
Prova. Se q = 1 então N = 0. Basta tomar r = n e escolher v1 , . . . , vn uma base qualquer em V . Os

qj ’s são todos iguais a 1.
Consideremos então q > 1 com N 6= 0. Tomemos q1 = q. Pelo Teorema 3.20, existem um vetor
v1 6= 0 e um subespaço K 1 , invariante por N tais que
V = Jv1 , q1 ⊕ K 1 .
Como K 1 é invariante por N, podemos também dizer que a matriz N é nilpotente quando restrita
a K 1 (já que é nilpotente em todo V ). Denotemos por q2 o ı́ndice de N quando restrita a K 1 . É claro
que q2 ≤ q = q1 .
Assim, podemos aplicar o Teorema 3.20 para a matriz N restrita a K 1 e concluir que existe v2 6= 0
em K 1 e um subespaço K 2 de K 1 , invariante por N, tais que K 1 = Jv2 , q2 ⊕ K 2 . Note que N q2 v2 = 0,
pois v2 ∈ K 1 .
Com isso, temos
V = Jv1 , q1 ⊕ Jv2 , q2 ⊕ K 2 .
Novamente K 2 é invariante por N e, como K 2 é um sub-espaço de K 1 . O ı́ndice de N em K 2 será
q3 ≤ q2 ≤ q1 .
O espaço V tem dimensão finita. Assim, a prova se concluı́ repetindo o procedimento acima um
número finito r de vezes. Note que N qj vj = 0, pois N q1 v1 = 0, e vj ∈ K j−1 para todo j = 2, . . . , r.
Pela construção acima, é claro que q1 + · · · + qr = n, a dimensão de V , e que os n vetores
v1 , Nv1 , . . . , N q1 −1 v1 , v2 , Nv2 , . . . , N q2 −1 v2 , . . . , vr , Nvr , . . . , N qr −1 vr
são linearmente independentes e formam uma base em V . Vamos denotá-los (na ordem em que aparecem
acima) por b1 , . . . , bn .
Note agora que, pela construção, Nbj = bj+1 , para j em cada um dos conjuntos
{1, . . . , q1 − 1}, {1 + q1 , . . . , q1 + q2 − 1}, {1 + q1 + q2 , . . . , q1 + q2 + q3 − 1} ,
... {1 + q1 + · · · + qr−1 , . . . , q1 + · · · + qr − 1} , (3.82)
com l = 0, . . . , r − 1, sendo que Nbj = 0 para todo j na forma q1 + · · · + ql , l = 1, . . . , r.
E. 3.29 Exercı́cio impotante para compreender o que segue. Justifique as últimas afirmações. 6
Isso significa que na base b1 , . . . , bn os elementos de matriz de N são todos nulos exceto aqueles na
forma Nj, j+1 com j em algum dos conjuntos listados em (3.82), em cujo caso Nj, j+1 = 1. Pictoriamente,
isso diz-nos que na base b1 , . . . , bn a matriz N assume uma forma genericamente ilustrada na Figura
3.1. Essa é a denominada forma canônica da matriz nilpotente N ou representação canônica da matriz
nilpotente N, que descrevemos mais detalhadamente no que segue.
Os elementos da diagonal principal são todos nulos. Os únicos elementos não-nulos da matriz
podem estar localizados apenas na diagonal imediatamente acima da principal, ou seja, aquela diagonal
formada por elementos de matriz do tipo Nj, j+1 com j = 1, . . . , n − 1. Chamaremos essa diagonal de
primeira supra-diagonal. Os elementos da primeira supra-diagonal podem ser 0 ou 1, da forma seguinte:
a primeira supra-diagonal possuirá r fileiras. As primeiras r − 1 fileiras são formadas por qj elementos,
j = 1, . . . , n − 1, sendo os primeiros qj − 1 elementos iguais a 1 e o último igual a 0. A última fileira
terá qr − 1 elementos iguais a 1. Assim, se qr = 1, o último elemento da primeira supra-diagonal será
nulo, proveniente da (r − 1)-ésima fileira (essa é a única forma de aparecer um zero no último elemento
da primeira supra-diagonal).
0 1 (q − 1) vezes
1
} 1
0
1
(q 2 − 1) vezes 0
N =
} 1
0
0
1
1
0
0 (q r − 1) vezes
1
0 } 1
0
Figura 3.1: Forma canônica tı́pica de uma matriz nilpotente N. Os elementos da primeira supra-
diagonal podem valer 0 ou 1. Todos os demais elementos de matriz são nulos.
Note que zeros consecutivos podem ocorrer, se tivermos alguns qj ’s iguais a 1. Note também que
os elementos da primeira supra-diagonal podem ser todos nulos (o que valerá se r = n, em cujo caso
q1 = · · · = rn = 1. Isso só pode ocorrer se N = 0 e, nesse caso, q = 1) ou todos iguais a 1 (o que valerá
se r = 1, em cujo caso q1 = n).
3.7.4 A Forma Canônica de Matrizes

Finalizamos esta seção e nossa discussão sobre o Teorema da Decomposição de Jordan e suas con-
seqüências reunindo o que descobrimos até aqui.
Se A ∈ Mat (C, n) o Teorema 3.18, página 214 ensinou-nos que numa base conveniente (ou seja,
por uma transformação de similaridade P0−1AP0 ), toda matriz A tem a forma de blocos diagonais:
 
α1 1n1 + N1 0 ··· 0
   
A1 0 · · · 0  
 0 α2 1n2 + N2 ··· 0 
 0 A2 · · · 0   
−1    
P0 AP0 =  .. .. . . .  =   , (3.83)
 . . . ..   .. .. .. .. 
 . . . . 
0 0 · · · Ar  
 
0 0 · · · αr 1nr + Nr
sendo α1 , . . . , αr os autovalores distintos de A. O j-ésimo bloco é de tamanho nj × nj , sendo que nj

é a multiplicidade algébrica do autovalor αj . As matrizes Nj são nilpotentes.
Cada matriz Nj pode ser levada à sua forma canônica Njc (tal como explicado em (3.1) e no que se
lhe segue) em uma base conveniente, ou seja, por uma transformação de similaridade Pj−1Nj Pj . Assim,
definindo  
P1 0 · · · 0
 0 P2 · · · 0 
 
P =  .. .. . . ..  , (3.84)
. . . .
0 0 · · · Pr
vemos que P −1 (P0−1 AP0 )P = (P0 P )−1 A(P0 P ), sendo que, por (3.83),
 −1 
P1 (α1 1n1 + N1 ) P1 0 ··· 0
 
 
 0 P2−1 (α2 1n2 + N2 ) P1 ··· 0 
 
 
P −1 (P0−1 AP0 )P =  
 .. .. .. .. 
 . . . . 
 
 
0 0 · · · Pr−1 (αr 1nr + Nr ) Pr
 
α1 1n1 + N1c 0 ··· 0
 
 
 0 α2 1n2 + N2c · · · 0 
 
 
=   . (3.85)
 .. .. .. .. 
 . . . . 
 
 
0 0 · · · αr 1nr + Nrc
A matriz final de (3.85) é denominada forma canônica da matriz A, ou forma canônica de Jordan
da matriz A. Como dissemos, toda matriz A assume essa forma numa certa base. Devido ao fato de
todos as sub-matrizes nilpotentes Njc terem a forma canônica, os únicos elementos não-nulos da forma
canônica da matriz A podem estar ou na diagonal principal (sendo estes os autovalores de A, cada
um aparecendo em uma fileira de nj elementos), ou na primeira supra-diagonal, sendo que estes valem
apenas 0 ou 1 e seguem as regras descritas acima. Isso é ilustrado na Figura 3.2,
A Figura 3.2, mostra a forma canônica de uma matriz que possui 4 autovalores distintos α1 , α2 , α3
e α4 . A primeira supra-diagonal é formada pela seqüência de números
γ11 , . . . , γ1a , 0, γ11 , . . . , γ1b , 0, γ11 , . . . , γ1c , 0, γ11 , . . . , γ1d , (3.86)
sendo que os γij assumem apenas os valores 0 ou 1, de acordo com as regras explicadas acima quando
discutimos a forma canônica de matrizes nilpotentes. Todos os elementos fora da diagonal principal e
da primeira supradiagonal são nulos. O primeiro bloco é de dimensão (a + 1) × (a + 1), o segundo bloco
é de dimensão (b + 1) × (b + 1) etc., sendo a + 1 a multiplicidade algébrica de α1 , b + 1 a multiplicidade
algébrica de α2 etc.
É interessante notar que na primeira supra-diagonal, sempre ocorrem zeros nos pontos localizados
fora dos blocos, ou seja, nos pontos onde ocorrem transições entre dois autovalores distintos (indicados
por setas na Figura 3.2). Esses são os zeros que ocorrem explicitamente na lista (3.86).
Por fim, comentamos que a forma canônica não é exatamente única, pois é possı́vel ainda fazer
transformações de similaridade que permutem os blocos de Jordan da matriz. Além disso, dentro de
cada sub-espaço invariante (onde cada bloco age) é possı́vel fazer certas permutações dos elementos da
base, de modo a preservar a diagonal e permutar os γi ’s da primeira supradiagonal.
3.8 Algumas Representações Especiais de Matrizes

Nas seções anteriores apresentamos algumas formas especiais de representar matrizes com determinadas
caracterı́sticas, como aquelas expressas no Teorema Espectral e no Teorema de Jordan. Nesta seção
apresentaremos outras representações, relevantes em certos contextos, como a decomposição polar.
3.8.1 A Decomposição Polar de Matrizes

É bem conhecido o fato de que todo número complexo √ z pode ser escrito na forma polar z = |z|eiθ ,
onde |z| ≥ 0 e θ ∈ [−π, π). Tem-se que |z| = zz e e = z|z|−1 . Há uma afirmação análoga
iθ
válida para matrizes A ∈ Mat (C, n), a qual é muito útil, e da qual trataremos nesta seção. Antes de
enunciarmos esse resultado de forma mais precisa (o Teorema da Decomposição Polar, Teorema 3.21,
abaixo), façamos algumas observações preliminares.
Seja A ∈ Mat (C, n) e seja a matriz A∗ A. Notemos primeiramente que (A∗ A)∗ = A∗ A∗∗ = A∗ A, ou
seja, A∗ A e auto-adjunta. Pelo Teorema 3.13, página 200, é possı́vel encontrar um conjunto ortonormal
{vk , k = 1, . . . , n} de autovetores de A∗ A, com autovalores dk , k = 1, . . . , n, respectivamente, sendo
que a matriz hh ii
P := v1 , . . . , vn (3.87)
(para a notação, vide (3.1)) é unitária e diagonaliza A∗ A, ou seja, P ∗(A∗ A)P = D, sendo D a matriz
diagonal D := diag (d1 , . . . , dn ), cujos elementos da diagonal são os autovalores de A∗ A. Os autovalores
dk são todos maiores ou iguais a zero. De fato, se vk 6= 0 é um autovetor de A∗ A com autovalor dk ,
teremos dk kvk k2 = dk hvk , vk iC = hvk , Bvk iC = hvk , A∗ Avk iC = hAvk , Avk iC = kAvk k2 . Logo,
dk = kAvk k2 /kvk k2 ≥ 0.
Com esses fatos à mão, vamos definir uma matriz diagonal, que denotaremos sugestivamente por
√ √ 2
D , por D 1/2 := diag ( d1 , . . . , dn ). Tem-se que D 1/2 = D, uma propriedade óbvia15 . Note-se
1/2
∗ √
também que D 1/2 = D 1/2 , pois cada dk é real.
√
Definamos agora a matriz A∗ A, por
√
A∗ A := P D 1/2 P ∗ . (3.88)
√ √ ∗ ∗ √
∗
Essa matriz A A é auto-adjunta, pois A A = P D 1/2 P ∗ = P D 1/2 P ∗ = A∗ A. Observemos
∗
√ 2
que A∗ A = P (D 1/2 )2 P ∗ = P DP ∗ = A∗ A. Disso segue que
√ 2 2
√
det A∗ A = det A∗ A = det(A∗ A) = det(A∗ ) det(A) = det(A) det(A) = | det(A)|2 .
√ √
Provamos assim que det A∗ A = | det(A)| e, portanto, A∗ A é invertı́vel se e somente se A o for.
√
Alguns autores denotam a matriz A∗ A por |A|, por analogia com o módulo de um número com-
plexo. Podemos agora formular e demonstrar o resultado que procuramos:
Teorema 3.21 (Teorema da Decomposição Polar) Seja A ∈ Mat (C, n). Então existe uma ma-
triz unitária U ∈ Mat (C, n) tal que √
A = U A∗ A . (3.89)
Se A é invertı́vel, então U é univocamente determinada. A representação (3.89) é denominada repre-
sentação polar de A. 2
Prova. Sejam, como acima, dk , k = 1, . . . , n os autovalores de A∗ A com autovetores respectivos vk ,

k = 1, . . . , n. Sabemos pelo Teorema 3.13, página 200 que podemos escolher os vk ’s de forma que
hvk , vl iC = δk l .
Como vimos acima, os autovalores dk satisfazem dk ≥ 0. Sem perda de generalidade, vamos supô-los
ordenados de forma que dk > 0 para todo k = 1, . . . , r e dk = 0 para todo k = r + 1, . . . , n. Com essa
escolha, tem-se que
Avk = 0 para todo k = r + 1, . . . , n , (3.90)
pois de A∗ Avk = 0, segue que 0 = hvk , A∗ Avk iC = hAvk , Avk iC = kAvk k2 .
Para k = 1, . . . , r, sejam wk os vetores definidos da seguinte forma:
1
wk := √ Avk , k = 1, . . . , r . (3.91)
dk
15
√ √
Essa não é a única matriz com essa propriedades, pois qualquer matriz do tipo diag (± d1 , . . . , ± dn ), com os
sinais ± escolhidos independentemente uns dos outros, também tem como quadrado a matriz D.
É fácil ver que

1 1 dk dk
hwk , wl iC = √ hAvk , Avl iC = √ hA∗ Avk , vl iC = √ hvk , vl iC = √ δk l = δk l ,
dk dl dk dl dk dl dk dl
para todos k, l = 1, . . . , r. Assim, o conjunto de vetores {wk , k = 1, . . . , r} forma um conjunto
ortonormal. A eles podemos acrescentar um novo conjunto {wk , k = r + 1, . . . , n}, escolhido ar-
bitráriamente, de vetores ortonormais pertenentes ao complemento ortogonal do sub-espaço gerado por
{wk , k = 1, . . . , r} e construir assim, um conjunto ortonormal {wk , k = 1, . . . , n}.
Sejam agora a matriz P , definida em (3.87) e as seguintes matrizes de Mat (C, n):
hh ii
Q := w1 , . . . , wn , U := QP ∗
(para a notação, vide (3.1)). Como {vk , k = 1, . . . , n} e {wk , k = 1, . . . , n} são dois conjuntos
ortonormais, segue que P e Q são matrizes unitárias (por quê?) e, portanto, U também é unitária.
√ √
É fácil ver que AP = QD1/2 , onde D 1/2 = diag d1 , . . . , dn , De fato,
(3.87)
hh ii (3.4) hh ii
AP = A v1 , . . . , vn = Av1 , . . . , Avn
(3.90)
hh ii
= Av1 , . . . , Avr 0, . . . , 0
(3.91)
hhp p ii
= d1 w1 , . . . , dr wr 0, . . . , 0
(3.6)
hh ii
= w1 , . . . , wn D 1/2 = QD1/2 .
(3.88) √
Agora, de AP = QD1/2 , segue que A = QD1/2 P ∗ = UP D 1/2 P ∗ = U A∗ A, que é o que querı́amos
provar.
Para mostrar√ que U é univocamente
√ determinado se A for √invertı́vel, suponhamos que exista U ′
∗ ′ ∗
tal que A = U A A = U A A. Como comentamos √ acima,
√ A∗ A é invertı́vel se e somente se A
o for. Logo, se A é invertı́vel, a igualdade U A∗ A = U ′ A∗ A implica U = U ′ , estabelecendo a
unicidade. Caso A não seja invertı́vel a arbitrariedade de U reside na escolha dos vetores ortogonais
{wk , k = r + 1, . . . , n}.
O seguinte corolário é elementar:

Teorema 3.22 Seja A ∈ Mat (C, n). Então existe uma matriz unitária V ∈ Mat (C, n) tal que
√
A = AA∗ V . (3.92)
Se A é invertı́vel, então V é univocamente determinada. 2
∗ ∗
p √
Prova. Para a matriz A , (3.89) diz-nos que A = U (A∗ )∗ A∗ = U AA∗ para alguma matriz
√ 0 √ 0
unitária U0 . Como AA∗ é auto-adjunta, segue que A = AA∗ U0∗ . Identificando V = U0∗ , obtemos o
que desejamos.
O Teorema da Decomposição Polar pode ser generalizado para abranger operadores limitados agindo
em espaços de Hilbert (vide Teorema 26.22, página 1319) e mesmo para abranger operadores não-
limitados agindo em espaços de Hilbert (vide [116]).
3.8.2 O Teorema da Triangularização de Schur

O teorema que apresentamos abaixo, devido a Schur16 , é semelhante, mas não idêntico, ao Teorema de
Jordan: toda matriz de Mat (C, n) pode ser levada por uma transformação de similaridade induzida
por uma matriz unitária a uma matriz triangular superior (para a definição, vide Seção 3.6, página
206). Esse teorema é alternativamente denominado Teorema da Triangularização de Schur ou Teorema
da Decomposição de Schur. Como veremos, esse teorema pode ser usado para fornecer uma outra
demonstração (eventualmente mais simples) da diagonalizabilidade de matrizes auto-adjuntas e de
matrizes normais por matrizes unitárias.
Teorema 3.23 (Teorema da Decomposição de Schur) Seja A ∈ Mat (C, n). Então existe U ∈
Mat (C, n), unitária, e S ∈ Mat (C, n), triangular superior, tais que A = U ∗ SU. Os elementos da
diagonal de S são os autovalores de A. 2
Antes de provarmos esse teorema, mencionemos um corolário evidente:

Corolário 3.4 Seja A ∈ Mat (C, n). Então existe V ∈ Mat (C, n), unitária, e I ∈ Mat (C, n),
triangular inferior, tais que A = V ∗ IV . Os elementos da diagonal de I são os autovalores de A. 2
Prova do Corolário 3.4. Pelo Teorema 3.23, a matriz A∗ pode ser escrita da forma A∗ = V ∗ SV , com V
unitária e S triangular superior. Logo, A = V ∗ S ∗ V . Porém, S ∗ ≡ I é triangular inferior.
Também pelo Teorema 3.23, os autovalores de A∗ são os elementos diagonais de S, que são o
complexo conjugado dos elementos diagonais de S ∗ ≡ I. Mas os autovalores de A são o complexo
conjugado dos autovalores de A∗ (pela Proposição 3.16, página 197) e, portanto, são os elementos
diagonais de I.
Prova do Teorema 3.23. Comecemos observando que se A = U ∗ SU com U unitário, então A e S têm o
mesmo polinômio caracterı́stico e, portanto, os mesmos autovalores, incluindo a multiplicidade (vide a
discussão em torno de (3.21), página 165). Mas o polinômio caracterı́stico de S é pS (x) = det(x1 −S) =
Q n
k=1 (x − Skk ), pois S é triangular superior e, portanto, os autovalores de S são os elementos de sua
diagonal. Passemos à demonstração da afirmativa principal, ou seja, que A = U ∗ SU com U unitário e
S triangular superior.
16
Issai Schur (1875-1941).
Seja n ≥ 2hhe v1 um autovetorii de A com autovalor λ1 e kv1 k = 1. Seja U (1) uma matriz unitária da
(1) (1) (1)
forma U (1) = u1 , . . . , un com u1 = v1 , ou seja, cuja primeira coluna é o vetor v1 . Então,
 (1) (1)

λ1 b1 ··· bn−1
h
h i
i hh i
i  (1) (1) 
(3.4) (1) (1) (1) 0 a11 ··· a1(n−1) 
AU (1)
= Au1 , . . . , Au(1)
n = λ1 u1 , Au2 , . . . , Au(1)
n = U (1) 
 .. .. .. ..  ,

. . . . 
(1) (1)
0 a(n−1)1 · · · a(n−1)(n−1)
(1) (1)
para certos bk e akl , k, l = 1, . . . , n − 1, onde
n−1
X
(1) (1) (1) (1) (1)
Auk = bk u1 + alk ul+1 , k = 2, . . . , n . (3.93)
l=1
Para simplificar a notação, definimos

 (1)    
(1) (1) 
b1 0 a11 ··· a1(n−1)
 ..   ..   
b(1)
=  .  , 0n−1 =  .  , A(1) =  ... ..
.
..
.  ,
(1) (1) (1)
bn−1 0 a(n−1)1 · · · a(n−1)(n−1)
(0n−1 tendo n − 1 linhas) e escrevemos a identidade (3.93) como

T
(1) ∗ (1) λ1 b(1)
U AU = . (3.94)
0n−1 A(1)
Para n = 2 isso demonstra o teorema, pois afirma que

!
(1)
(1) ∗ λ1 b1
U AU (1) = (1) ,
0 a11
sendo o lado direito uma matriz triangular superior. Para n > 2 procedemos por indução. Supondo a
afirmação válida para matrizes (n − 1) × (n − 1), então existe uma matriz unitária V ∈ Mat (C, n − 1)
tal que V ∗ A(1) V = S (1) ,sendo S (1) triangular superior. Assim, definindo a matriz unitária U (2) ∈
1 0T
Mat (C, n) por U (2) := 0n−1 n−1
V
, teremos por (3.94),
∗ ∗ ∗
U (1) U (2) AU (1) U (2) = U (2) U (1) AU (1) U (2)
T
1 0Tn−1 λ1 b(1) 1 0Tn−1
=
0n−1 V∗ 0n−1 A(1) 0n−1 V
T
λ1 V T b(1)
=
0n−1 V ∗ A(1) V
T
λ1 V T b(1)
= ,
0n−1 S (1)
que é triangular superior, pois S (1) o é. Como U (1) U (2) é unitária (pois U (1) e U (2) o são), o teorema
está provado.
Comentário. Toda matriz triangular superior S pode ser escrita na forma D + N, sendo D a matriz
diagonal formada pela diagonal de S (ou seja, Dii = Sii para todo i = 1, . . . , n) e N é nilpotente (pois
é triangular superior, mas com diagonal nula). Assim, o Teorema 3.23 afirma que toda matriz A pode
ser levada à forma D + N por uma transformação de similaridade unitária. Porém, o Teorema 3.23 não
garante (nem é verdade, em geral) que D e N comutem. Assim, o Teorema 3.23 é distinto do Teorema
de Jordan, Teorema 3.19, página 215.
O Teorema 3.23 tem por corolário o seguinte teorema, já provado anteriormente por outros meios
(Teorema 3.13, página 200, e Proposição 3.18, página 202).
Teorema 3.24 Uma matriz A ∈ Mat (C, n) é auto-adjunta, se e somente se for diagonalizável por
uma transformação de similaridade unitária e se seus autovalores forem reais. 2
Prova. Pelo Teorema 3.23, existe uma matriz unitária U tal que U ∗ AU = S, sendo S triangular superior
cujos elementos diagonais são os autovalores de A. Assim, se A = A∗ , segue que S ∗ = (U ∗ AU)∗ =
U ∗ A∗ U = U ∗ AU = S. Mas para uma matriz triangular superior S, a igualdade S = S ∗ implica que S
é diagonal e os elementos da diagonal são reais.
Reciprocamente, se A ∈ Mat (C, n) é diagonalizável por uma transformação de similaridade unitária
e seus autovalores são reais, ou seja, existe U unitária e D diagonal real com U ∗ AU = D, então
A = UDU ∗ e A∗ = UD ∗ U ∗ . Como D é diagonal e real, vale D ∗ = D e, portanto, A∗ = UDU ∗ = A,
provando que A é auto-adjunta.
Pelo Teorema 3.23, se A ∈ Mat (C, n) é uma matriz normal e U ∗ AU = S, com U unitária e S
triangular superior, então S é normal (justifique!). Assim, junto com o Lema 3.3, página 207, provamos
o seguinte:
Teorema 3.25 Uma matriz A ∈ Mat (C, n) é normal se e somente se for diagonalizável por uma
transformação de similaridade unitária. 2
Essas afirmações foram demonstradas por outros meios no Teorema 3.15, página 203.
3.8.3 A Decomposição QR e a Decomposição de Iwasawa (“KAN”)

O propósito desta seção é apresentar a chamada decomposição de Iwasawa17, ou decomposição KAN 18 ,
de matrizes invertı́veis, Teorema 3.27. Esse teorema tem relação com a teoria dos grupos de Lie, como
17
Kenkichi Iwasawa (1917-1998).
18
Infelizmente não há uniformidade na literatura quanto à denominação dessa decomposição. Vamos chamá-la de
“decomposição de Iwasawa” pois a mesma é um caso particular (para o grupo GL(C, n) das matrizes complexas n × n
invertı́veis) de um teorema mais geral da teoria dos grupos de Lie, denominado Teorema da Decomposição de Iwasawa,
que afirma que todo elemento g de um grupo de Lie semi-simples pode ser escrito como produto de um elemento k de
um sub-grupo compacto maximal, por um elemento a de um subgrupo Abeliano (real) e por um elemento n de um
sub-grupo nilpotente (ou seja, cuja álgebra de Lie é nilpotente): g = kan. Em Alemão, as palavras compacto, Abeliano e
discutiremos brevemente ao final. Os dois primeiros resultados preparatórios abaixo, Proposição 3.24
e Teorema 3.26 (Decomposição QR), têm interesse por si só.
Proposição 3.24 Seja R ∈ Mat (C, n) uma matriz triangular superior cujos elementos diagonais são
não-nulos (i.e., R é invertı́vel). Então, podemos escrever R = AN, onde A ∈ Mat (C, n) é a matriz
diagonal formada com a diagonal de R: A = diag (R11 , . . . , Rnn ), e N ∈ Mat (C, n) é uma matriz
triangular superior cujos elementos diagonais são iguais a 1. 2
Prova. É fácil constatar que (abaixo m ≡ n − 1)

     R12 R1n 
R11 R12 · · · · · · R1n R11 0 · · · · · · 0 1 R11 · · · ··· R11
 .   .  .. 
 0 R22 . . R2n   0 R22 . . 0  0 1 . R2n
R22

 . .. .. .. .   . .. .. .. .   . .. 
R =  ..   ..   ... ... ..
. 
 .. . . .  =  .. . . .   .. .  .
 ..   ..  .. 
 0 . Rmm Rmn   0 . Rmm 0  0 . 1 Rmn 
Rmm
0 ··· ··· 0 Rnn 0 ··· ··· 0 Rnn 0 ··· ··· 0 1
| {z }| {z }
A N
O estudante deve comparar as afirmações do teorema a seguir com o Teorema da Decomposição

Polar, Teorema 3.21, página 224, e com o Teorema da Decomposição de Schur, Teorema 3.23, página
226.
Teorema 3.26 (Teorema da Decomposição QR) Seja M ∈ Mat (C, n) uma matriz invertı́vel.
Então M pode ser escrita na forma M = QR, onde Q ∈ Mat (C, n) é unitária e R ∈ Mat (C, n) é
triangular superior, sendo que os elementos diagonais de R são estritamente positivos.

Prova do Teorema 3.26. Seja M = m1 , . . . , mn . Como M é invertı́vel, os vetores mk , k =
1, . . . , n, são linearmente independentes, ou seja, formam uma base em Cn . Podemos, portanto, usar
o procedimento de ortogonalização de Gram19 -Schmidt20 e construir uma nova base ortonormal de
vetores qj , j = 1, . . . , n, a partir dos vetores ml , l = 1, . . . , n. Tais vetores são definidos por
j−1
X
mj − hql , mj iC ql
m1 l=1
q1 = , qj = , j = 2, . . . , n .
km1 k j−1
X

mj − hql , mj iC ql

l=1
nilpotente são “Kompakt”, “Abelsch” e “Nilpotent”, daı́ a denominação “decomposição KAN ” para essa decomposição,
denominação essa encontrada em alguns textos.
19
Jørgen Pedersen Gram (1850-1916).
20
Erhard Schmidt (1876-1959).
Como é fácil verificar, tem-se hqi , qj iC = δi j para todos i, j = 1, . . . , n. As relações acima implicam
trivialmente
j−1
j−1
X X

m1 = q1 km1 k , mj = qj mj − hql , mj iC ql + ql hql , mj iC , j = 2, . . . , n ,

l=1 l=1
relações estas que podem ser escritas em forma matricial como

 
R11 hq1 , m2 iC · · · ··· hq1 , mn iC
 
 
 .. 
 0 R22 . ··· hq2 , mn iC 
 
hh ii hh ii  
 . . . . . 

m1 , . . . , mn = q1 , . . . , qn R , onde R :=  .. .. .. .. ..  ,

 
 
 .. 
 0 . R hq , m i 
 (n−1)(n−1) n−1 n C
 
0 ··· ··· 0 Rnn
(3.95)
com
j−1
X

R11 = km1 k , Rjj = mj − hql , mj iC ql , j = 2, . . . , n .

l=1
E. 3.31 Exercı́cio. Convença-se da validade da relação (3.95). 6

Definindo Q := q1 , . . . , qn , a relação (3.95) diz-nos que M = QR, sendo R triangular superior
(como se vê) e Q unitária (pois os vetores ql , l = 1, . . . , n, são ortonormais). Isso completa a prova do
Teorema 3.26.
Chegamos assim ao importante Teorema da Decomposição de Iwasawa para matrizes invertı́veis:

Teorema 3.27 (Teorema da Decomposição de Iwasawa, ou Decomposição KAN) Seja M ∈
Mat (C, n) uma matriz invertı́vel. Então M pode ser escrita de modo único na forma M = KAN,
onde K ∈ Mat (C, n) é uma matriz unitária, A ∈ Mat (C, n) é a uma matriz diagonal, tendo elementos
diagonais estritamente positivos, e N ∈ Mat (C, n) é uma matriz triangular superior cujos elementos
diagonais são iguais a 1. 2
Prova. A afirmação que M pode ser escrita na forma M = KAN, com K, A e N com as propriedades
acima segue imediatamente da Proposição 3.24 e do Teorema 3.26, dispensando demonstração. O único
ponto a se demonstrar é a unicidade dessa decomposição.
Vamos então supor que para algum M ∈ Mat (C, n) existam K, K0 ∈ Mat (C, n), matrizes
unitárias, A, A0 ∈ Mat (C, n), matrizes diagonais, tendo elementos diagonais estritamente positivos, e
N, N0 ∈ Mat (C, n) matrizes triangulares superiores cujos elementos diagonais são iguais a 1, tais que
M = KAN = K0 A0 N0 .
Segue imediatamente disso que K0−1 K = A0 N0 N −1 A−1 . O lado esquerdo dessa igualdade é uma
matriz unitária e, portanto, normal. O lado direito é uma matriz triangular superior (pela Proposição
3.21, página 206). Pelo Lema 3.3, página 207, A0 N0 N −1 A−1 deve ser uma matriz diagonal D. Assim,
temos que K0−1 K = D e A0 N0 N −1 A−1 = D. A primeira dessas relações diz-nos que D é unitária.
A segunda diz-nos que N0 N −1 = A−1 −1
0 DA, ou seja, N0 = D0 N, onde D0 := A0 DA é diagonal (por
ser o produto de três matrizes diagonais). Agora, N e N0 são matrizes triangulares superiores cujos
elementos diagonais são iguais a 1. Portanto, a relação N0 = D0 N com D0 diagonal só é possı́vel se
D0 = 1 (de outra forma haveria elementos na diagonal de N ou de N0 diferentes de 1), estabelecendo
que N = N0 .
Provamos, assim, que A−1 0 DA = 1, ou seja, D = A0 A . Agora, A e A0 são diagonais, tendo na
−1
diagonal números reais positivos. Logo, D também é diagonal e tem na diagonal números reais positivos
e, portanto, D = D ∗ . Como D é unitária (como observado linhas acima), segue que D 2 = 1. Logo,
os elementos Dkk da diagonal de D satisfazem Dkk = ±1, para todo k = 1, . . . , n (os sinais podendo
ser distintos para k’s distintos). Agora, como A0 = DA e como A e A0 têm na diagonal números reais
positivos, não podemos ter Dkk = −1 para algum k e, portanto, D = 1. Conseqüentemente, K = K0
e A = A0 , estabelecendo a unicidade desejada.
Note o leitor que o conjunto das matrizes unitárias de Mat (C, n) forma um sub-grupo de GL(C, n)
(o grupo das matrizes complexas n × n invertı́veis). O conjunto das matrizes diagonais de Mat (C, n)
tendo elementos diagonais estritamente positivos é igualmente um sub-grupo de GL(C, n). Por fim,
o conjunto das matrizes triangulares superiores de Mat (C, n) cujos elementos diagonais são iguais
a 1 é também um sub-grupo de GL(C, n). Assim, o Teorema 3.27 afirma que cada elemento de
GL(C, n) pode ser escrito de modo único como produto de elementos de cada um desses três sub-
grupos. Esse é um caso particular de um teorema da teoria dos grupos de Lie conhecido como Teorema
da Decomposição de Iwasawa.
3.9 Propriedades Especiais de Determinantes
3.9.1 Expansão do Polinômio Caracterı́stico

P
Seja A ∈ Mat (C, n) e seja pA (λ) = det(λ1 − A) = nm=0 cm λm , λ ∈ C, seu polinômio caracterı́stico.
Desejamos obter uma fórmula explicita para os coeficientes cm em termos de determinantes de sub-
matrizes de A (vide abaixo). Vamos designar por ak a k-ésima coluna de A, de sorte que, pela notação
introduzida em (3.1), página 155, valha A = a1 , . . . , an . Recordando as definição de base canônica
(3.2) e (3.3), página 156, fica claro que pA (λ) = det λe1 − a1 , . . . , λen − an . Usando a propriedade
de multilinearidade do determinante (linearidade em relação a cada coluna), segue que
!
Xn X hh ii
pA (λ) = (−1)n−m λm det a1 , . . . , ej1 . . . , ejm . . . , an + (−1)n det(A) ,
m=1 1≤j1 <···<jm ≤n

onde, para 1 ≤ j1 < · · · < jm ≤ n, a1 , . . . , ej1 . . . , ejm . . . , an é a matriz obtida a partir da matriz
A substituindo sua jl -ésima coluna por ejl para cada l = 1, . . . , m. Note queno caso m = n, tem-se
forçosamente jl = l para cada l = 1, . . . , n e a1 , . . . , ej1 . . . , ejm . . . , an = e1 , . . . , en = 1.
Com isso, escrevemos

!
n−1
X X hh ii
pA (λ) = λn + (−1)n−m λm det a1 , . . . , ej1 . . . , ejm . . . , an + (−1)n det(A) .
m=1 1≤j1 <···<jm ≤n
Como cada vetor-coluna ejl contém 1 na jl -ésima linha, as demais linhas sendo nulas, as bem-
conhecidas regras de cálculo de determinantes ensinam-nos que, para todo m = 1, . . . , n − 1,
hh ii
det a1 , . . . , ej1 . . . , ejm . . . , an = det Aj1 , ..., jm ,
Aj1 , ..., jm sendo a matriz de Mat (C, n−m) (ou seja (n−m)×(n−m)) obtida a partir de A eliminando-lhe
as jl -ésimas linhas e colunas para todo l = 1, . . . , m. Assim, obtemos
!
n−1
X X
pA (λ) = λn + (−1)n−m λm det Aj1 , ..., jm + (−1)n det(A) , (3.96)
m=1 1≤j1 <···<jm ≤n
onde é possı́vel reconhecer os coeficientes de pA (λ).

Pelo Teorema de Hamilton-Cayley, Teorema 3.3, página 174, pA (A) = 0 e, portanto,
!
n−1
X X
An + (−1)n−m det Aj1 , ..., jm Am + (−1)n det(A)1 = 0 .
m=1 1≤j1 <···<jm ≤n
Como comentamos em (3.29), página 177, se A for invertı́vel, obtem-se disso

" ! #
1
n−1
X X
A−1 = An−1 + (−1)n−m det Aj1 , ..., jm Am−1 . (3.97)
(−1)n+1 det(A) m=1 1≤j <···<j ≤n 1 m
3.9.2 A Desigualdade de Hadamard

Vamos nesta seção demonstrar uma desigualdade para determinantes de matrizes, a qual é muito útil,
a chamada desigualdade de Hadamard21 .
Teorema 3.28 (Teorema do Determinante de Hadamard) Seja A ∈ Mat (C, n). Então,
n X
Y n
| det(A)|2 ≤ |Aij |2 , (3.98)
j=1 i=1
sendo Aij o elemento ij da matriz A. Segue disso que para toda matriz A ∈ Mat (C, n) vale
n
n/2
| det(A)| ≤ n max |Aij | . (3.99)
ij
21
Jacques Salomon Hadamard (1865-1963). A referência ao trabalho de Hadamard é: J. Hadamard, “Résolution d’une
question relativ aux déterminants”, Bull. Sci. Math. 28, 240-246 (1893).
O importante na estimativa (3.99) é o tipo de dependência em n que se tem do lado direito. Ela
será usada, por exemplo, em estimativas de convergência da série de determinantes de Fredholm na
Seção 13.2, página 741.
Prova do Teorema 3.28. A prova de (3.99) é elementar, por (3.98). Passemos à prova de (3.98).
Seja A ∈ Mat (C, n). Se A não tem inversa, então det(A) = 0 e a desigualade (3.98) é trivialmente
satisfeita, não havendo o que se provar. Vamos então supor que A tenha inversa.
Seja A o conjunto de todas as matrizes M de Mat (C, n) com a propriedade que
n
X n
X
2
|Mij | = |Aij |2
i=1 i=1
para todo j = 1, . . . , n. Claro está que A ∈ A. É também claro que A é um subconjunto compacto
2
de Mat (C, n) (visto aqui como Cn ). A função | det(M)| é contı́nua como função de M e, portanto,
assume ao menos um máximo absoluto (não necessariamente único) em A, por este ser compacto
(teorema de Weierstrass). Seja T ∈ A um desses máximos. Note-se que | det(T )| ≥ | det(A)| > 0 e,
portanto, T tem inversa.
n
X
Para todo i = 1, . . . , n vale por (3.12), página 158, que det(T ) = Tij Cof(T )ij , onde Cof(T ),
j=1
chamada de matriz dos cofatores de T , foi definida no enunciado do Teorema 3.1, página 157. Seja fixo
esse i. Pela desigualdade de Cauchy-Schwarz, vale
n
! n ! n
! n !
X X X X
| det(T )|2 ≤ |Tij |2 |Cof(T )ij |2 = |Aij |2 |Cof(T )ij |2 . (3.100)
j=1 j=1 j=1 j=1
A última igualdade sendo devida ao fato que T ∈ A.

n
X
Como é bem sabido, para o produdo escalar ha, bi := ak bk , a desigualdade de Cauchy-Schwarz
k=1
|ha, bi| ≤ kakkbk é uma igualdade se e somente se os vetores a e b forem proporcionais. Assim, tem-se
a igualdade em (3.100) se e somente se existir λi ∈ C tal que Tij = λi Cof(T )ij para todo j, ou seja, se
a i-ésima linha de T for proporcional à i-ésima linha de Cof(T ).
O ponto importante agora e notar que se se tivermos a desigualdade estrita
n
! n !
X X
| det(T )|2 < |Aij |2 |Cof(T )ij |2 , (3.101)
j=1 j=1
então T não pode maximizar o módulo de determinante entre as matrizes de A. De fato, considere a
matriz T ′ que é igual à matriz T , exceto sua i-ésima linha, que é dada por
 X n 1/2
2
 |Aij | 
 j=1 
Tij := 
′
X n
 Cof(T )ij ,

 
|Cof(T )ij |2
j=1
j = 1, . . . , n. É claro que
n
X n
X
|Tij′ |2 = |Aij |2 ,
j=1 j=1
o que mostra que T ′ ∈ A (para as demais linhas T ′ concide com T e não há o que provar, pois T ∈ A).
Xn
′
Fora isso, det(T ) = Tij′ Cof(T )ij , pois Cof(T ′ )ij = Cof(T )ij , já que T ′ e T só diferem na i-ésima
j=1
linha. Assim,
 n
X 1/2
2
 |Aij |  !1/2 !1/2
n
X n
X n
X
 j=1 
′ 
det(T ) =  n  |Cof(T )ij |2 = |Aij |2 |Cof(T )ij |2
X 
 
|Cof(T )ij |2 j=1 j=1 j=1
j=1
e concluı́mos por (3.101) que terı́amos | det(T )| < det(T ′ ), contrariando a hipótese que | det(T )| é
máximo. Assim, devemos ter a igualdade em (3.100) e, pelos comentários de acima, isso implica que
existe λi ∈ C tal que Tij = λi Cof(T )ij para todo j, ou seja, a i-ésima linha de T é proporcional à
i-ésima linha de Cof(T ). Como i é arbitrário, isso vale para todo i.
Agora, como as linhas de T são proporcionais às de Cof(T ), segue que
n
X n n
1 X 2 1 X
det(T ) = Tij Cof(T )ij = |Tij | , = |Aij |2
j=1
λi j=1 λi j=1
e pela multilineaidade do determinante, que
det(T ) = det(T ) = λ1 · · · λn det(Cof(T )) .
Dessas duas relações extraı́mos

Yn X n n n
n 1 2 det(Cof(T )) Y X
det(T ) = |Aij | = |Aij |2 .
λ1 · · · λn i=1 j=1 det(T ) i=1 j=1
Como a relação (3.17) vale para qualquer matriz invertı́vel, tem-se det(Cof(T )) = det(T )n−1 e,
n X
Y n
2
portanto, | det(T )| = |Aij |2 . Por construção, T maximiza | det(T )| em A. Como A ∈ A, segue
i=1 j=1
que
n X
Y n
| det(A)|2 ≤ |Aij |2 . (3.102)
i=1 j=1
Isso prova o teorema.

3.10 Exercı́cios Adicionais

E. 3.32 Exercı́cio. a) Determine o polinômio caracterı́stico da matriz
 
5 −2 −7
A = 0 2 − 3i −5i  .
0 0 1 − 4i
b) Verifique explicitamente a validade do Teorema de Hamilton-Cayley para a matriz A.

c) Usando o Teorema de Hamilton-Cayley calcule A−1 .
6
E. 3.33 Exercı́cio. Repita o exercı́cio anterior para as matrizes

   
2 −1 3 2 −1 3
A1 = 0 −4 + i i  , A2 = 0 −4 + i i  .
0 0 2 − 7i 0 0 2 − 7i
6
E. 3.34 Exercı́cio. Considere em Cn o seguinte produto escalar

n
X
hu, vip = ua va pa ,
a=1
onde pa > 0 para a = 1, . . . , n. Seja uma matriz A, com elementos de matriz Aij . Mostre que, com o
produto escalar h·, ·ip o elemento de matriz (A∗p )ij da adjunta A∗p da matriz A é dado por
pj
(A∗p )ij = Aji . (3.103)
pi
(Lembre-se que A∗p é definida de sorte que hu, Avip = hA∗p u, vip para todos u, v ∈ Cn ). 6
E. 3.35 Exercı́cio. Para a matriz adjunta definida em (3.103), verifique a validade das regras (A∗p )∗p = A
e (AB)∗p = B ∗p A∗p , para quaisquer matrizes A, B ∈ Mat (C, n). Calcule 1∗p . 6
E. 3.36 Exercı́cio. Mostre que para quaisquer u, v ∈ Cn vale hu, vip = hu, P viC , onde hu, viC =
Pn ∗p
n
a=1 ua va é o produto escalar usual em C e P = diag (p1 , . . . , pn ). Conclua disso que A = P −1 A∗ P ,
∗ ∗
onde A é a adjunta usual: (A )ij = Aji . 6

4 −i/2
E. 3.37 Exercı́cio. Determine os autovalores da matriz A = . Essa matriz não é auto-adjunta
2i 5
em relação ao produto escalar usual em C2 , mas possui autovalores reais. Justifique esse fato mostrando,
pelos exercı́cios anteriores, que A é auto-adjunta em relação ao produto escalar hu, vip = 2u1 v1 + u2 v2 /2.

∗p 4 −i/2
∗p
Mostre a adjunta A em relação a esse produto escalar é A = = A e constate explicitamente
2i 5
que hu, Avip = hAu, vip para todos u, v ∈ C2 . Determine os autovetores de A e constate que os mesmos
são ortogonais em relação ao produto escalar h·, ·ip . 6
1
α 1 γ1
0
a
γ1
0 α1 0
α
1
γ
2 2
0
0
b
0 γ
2
α2 0
1
α γ3
3
0
c
γ
3
0 α
0 3 0
α
4
γ1
4
0
d
γ
4
0 α
4
Figura 3.2: Forma canônica de uma matriz com 4 autovalores distintos α1 , α2 , α3 e α4 . Os γ’s
assumem apenas os valores 0 ou 1, de acordo com as regras explicadas acima. Todos os elementos fora
da diagonal principal e da primeira supradiagonal são nulos. As setas indicam zeros que ocorrem na
primera supradiagonal nos pontos onde ocorre transição entre os blocos, conseqüência do fato de esses
elementos estarem fora dos blocos.
Capı́tulo 4
Tópicos de Álgebra Linear. II
Conteúdo
4.1 Uma Topologia Métrica em Mat (C, n) . . . . . . . . . . . . . . . . . . . . . 239
4.2 Exponenciais, Logaritmos e Funções Analı́ticas de Matrizes . . . . . . . . 244
4.2.1 A Exponenciação de Matrizes e os Grupos GL(C, n) e GL(R, n) . . . . . . . 252
4.3 A Fórmula de Lie-Trotter e a Fórmula do Comutador . . . . . . . . . . . 255
4.4 Aplicações Lineares em Mat (C, n) . . . . . . . . . . . . . . . . . . . . . . . . 258
4.5 A Fórmula de Baker, Campbell e Hausdorff . . . . . . . . . . . . . . . . . 264
O
4.6 A Fórmula de Duhamel e Algumas de suas Conseqüências . . . . . . . . 270
presente capı́tulo diferencia-se do anterior por explorar aspectos mais topológicos de álgebras
de matrizes. Portanto, uma certa familiaridade com as noções básicas de espaços métricos
(vide Capı́tulo 17) é útil. Discutiremos a definição de funções analı́ticas de matrizes, em
particular, a exponencial e o logaritmo. Nosso principal objetivo, porém, é provar as seguintes
relações: para matrizes A, B ∈ Mat (C, n), valem:
Fórmula de Lie-Trotter1 : m
1 1
exp (A + B) = lim exp A exp B . (4.1)
m→∞ m m
Fórmula do comutador:
m2
1 1 1 1
exp ([A, B]) = lim exp A exp B exp − A exp − B . (4.2)
m→∞ m m m m
Série de Lie: X∞
1
exp(B)A exp(−B) = A + [B, [B, . . . , [B , A] . (4.3)
m=1
m! | {z }
m vezes
Fórmula de Baker-Campbell-Hausdorff2 (sobre a convergência, vide comentário adiante):

1 1 1
exp(A) exp(B) = exp A + B + [A, B] + [A, [A, B]] + [B, [B, A]] + · · · . (4.4)
2 12 12
Fórmula de Duhamel3:
Z 1
exp(A + B) = exp(A) + exp (1 − s)(A + B) B exp sA ds , (4.5)
0
da qual se obtem a série de Duhamel:
" Z t ∞ Z t Z t1 Z m
#
X tm−1 Y
et(A+B)
= e 1+
tA
e−t1 A t1 A
Be dt1 + ··· e−tk A Betk A
dtm · · · dt1 . (4.6)
0 m=2 0 0 0 k=1
1
Marius Sophus Lie (1842-1899). Hale Freeman Trotter (1931-).
2
Henry Frederick Baker (1866-1956). John Edward Campbell (1862-1924). Felix Hausdorff (1868-1942).
3
Jean Marie Constant Duhamel (1797-1872).
238
A série dentro da exponencial no lado direito de (4.4) é um tanto complexa, mas envolve apenas
comutadores múltiplos de A e B. A expressão completa encontra-se em (4.46), página 265. Ao contrário
das fórmulas que lhe precedem e sucedem, a fórmula de Baker-Campbell-Hausdorff não é válida para
quaisquer matrizes A e B pois, no caso geral, a convergência da série do lado direito só pode ser
estabelecida para matrizes suficientemente “pequenas”, a saber, tais que kAkC e kBkC sejam ambas
√
menores que 21 ln 2 − 22 ≈ 0, 12844 . . . (a definição da norma operatorial k · kC de matrizes será
apresentada adiante). Claro é que, nos casos felizes em que os comutatores múltiplos das matrizes A e
B se anulam a partir de uma certa ordem, a série do lado direito será finita e, portanto, convergente.
Comentamos ao leitor mais avançado que as expressões acima (e suas demonstrações abaixo) valem
não apenas para álgebras de matrizes, mas também no contexto mais geral de álgebras-∗ de Banach.
As fórmulas acima são empregadas em várias áreas da Fı́sica (como na Mecânica Quântica, na
Mecânica Estatı́stica e na Teoria Quântica de Campos) e da Matemática (como na Teoria de Grupos).
Faremos uso delas, por exemplo, nos Capı́tulos 14 e 15. Suas provas serão apresentadas, pela ordem,
na Proposição 4.12, página 255, na Proposição 4.13, página 260, no Teorema 4.1 da Seção 4.5, página
264 e na Seção 4.6, página 270. A única demonstração que se pode classificar como complexa é a da
fórmula de Baker-Campbell-Hausdorff, as demais são simples. No correr das páginas seguintes outras
identidades úteis, não listadas acima, serão obtivas.
4.1 Uma Topologia Métrica em Mat (C, n)

Discutiremos nesta seção uma topologia métrica natural em Mat (C, n) a qual usaremos na Seção 4.2
para definir certas funções analı́ticas de matrizes, tais como a exponencial e o logaritmo.
Recordando, Mat (C, n) é o conjunto de todas as matrizes complexas n×n e GL(C, n) ⊂ Mat (C, n)
é o conjunto de todas as matrizes complexas n × n invertı́veis. Como já observamos, GL(C, n) é um
grupo.
• Normas de matrizes. A norma operatorial
Seja V um espaço vetorial de dimensão finita, como Cn ou Rnp , dotado de uma norma k · kV . Para
n
C ∋ u = (u1 , . . . , un ), por exemplo, podemos adotar kukCn := |u1|2 + · · · + |un |2 . Vamos denotar
por L(V ) o conjunto de todas as aplicações lineares de V em V . É bem sabido que L(V ) é igualmente
um espaço vetorial. Por exemplo, L(Cn ) = Mat (C, n) e L(Rn ) = Mat (R, n).
Com uso da norma de V é possı́vel definir uma norma também em L(V ). Para A ∈ L(V ) define-se
kAukV
kAkL(V ) := sup .
u∈V kukV
u6=0
E. 4.1 Exercı́cio. Mostre que k · kL(V ) assim definida é, de fato, uma norma no espaço vetorial L(V ).
6
Observação. Note que

kAkL(V ) = sup kAukV .
u∈V
kukV =1
Para A ∈ L(V ), a norma kAkL(V ) definida acima é denominada norma operatorial. Como co-
mentaremos abaixo, há outras normas em L(Cn ) e L(Rn ) que não a norma operatorial, mas que são
equivalentes àquela.
Observação. É uma conseqüência imediata da definição de norma operatorial que
kAukV ≤ kAkL(V ) kukV (4.7)
para todo vetor u ∈ V .

A norma operatorial tem a seguinte propriedade importante: para A, B ∈ L(V ) quaisquer, tem-se
kABkL(V ) ≤ kAkL(V ) kBkL(V ) .
E. 4.2 Exercı́cio importante. Mostre isso. Sugestão: use (4.7). 6
Observação. Em Mat (C, n) é possı́vel provar que kA∗ kMat (C, n) = kAkMat (C, n) . Vide Teorema
26.11, página 1281.
É importante comentar que o procedimento de construção de normas em L(V ) pode ser repetido.
Como L(V ) é igualmente um espaço vetorial normado e de dimensão finita, podemos definir uma norma
em L(L(V )) (o conjunto de todas as aplicações lineares de L(V ) em L(V )) definindo para A ∈ L(L(V ))
kAAkL(V )
kAkL(L(V )) := sup .
A∈L(V ) kAkL(V )
A6=0
E assim por diante para todos os espaços de aplicações L(L(· · · L(V )) · · · ).

Vamos a um exemplo. Tomemos V = Cn , L(V ) = Mat (C, n). Seja uma matriz X ∈ Mat (C, n)
fixa. Com ela poderemos definir um elemento denotado por ad[X] de L(Mat (C, n)) por
ad[X]A := [X, A] = XA − AX, A ∈ Mat (C, n).
É evidente que ad[X] é uma aplicação linear de Mat (C, n) em Mat (C, n), ou seja, um elemento de
L(Mat (C, n)). Note-se que
kXA − AXkMat (C, n)

kad[X]kL(Mat (C, n)) = sup
A∈L(V ) kAkMat (C, n)
A6=0
kXAkMat (C, n) + kAXkMat (C, n)

≤ sup
A∈L(V ) kAkMat (C, n)
A6=0
≤ 2kXkMat (C, n) . (4.8)

Daqui para a frente denotaremos a norma operatorial de matrizes em Cn por k · kC ou simplesmente

por k · k. Além da norma operatorial, há outras normas que podem ser definidas em L(Cn ). Para
A ∈ Mat (C, n) podemos, por exemplo, definir as seguintes normas:
kAk∞ := max |Aab |, (4.9)
a, b = 1, ..., n
n X
X n
kAk1 := |Aab |, (4.10)
a=i b=1
n
n X
!1/2
X
kAk2 := |Aab |2 , (4.11)
a=i b=1
n X
n
!1/p
X
kAkp := |Aab |p , com p ≥ 1. (4.12)
a=i b=1
A expressão (4.12) generaliza (4.10) e (4.11).
E. 4.3 Exercı́cio. Mostre que (4.9)-(4.12) de fato definem normas em Mat (C, n). (Note que (4.10)-
(4.11) são casos particulares de (4.12)). Use a desigualdade de Minkowski (página 971) para (4.12). 6
E. 4.4 Exercı́cio. A norma (4.11) tem uma interpretação interessante. Mostre que,
hA, Bi = Tr (A∗ B), A, B ∈ Mat (C, n),
define um produto
pescalar em p
Mat (C, n). Mostre que (4.11) é a norma associada a esse produto escalar,
ou seja, kAk2 = hA, Ai = Tr (A∗ A). 6
Observação. É importante lembrar o Teorema 2.7, mencionado à página 129, que afirma que em
espaços vetoriais de dimensão finita todas as normas são equivalentes. Assim, em Mat (C, n) a norma
operatorial kAkC e as normas kAk∞ e kAkp com p ≥ 1 são todas equivalentes. Note-se, porém, que
a propriedade da norma operatorial kABkC ≤ kAkC kBkC não é necessariamente compartilhada por
outras normas. Em geral, tem-se kABk ≤ ckAk kBk para alguma constante c > 0.
E. 4.5 Exercı́cio. Seja D ∈ Mat (C, n) uma matriz diagonal: D = diag (d1 , . . . , dn ) com dk ∈ C.
Mostre que kDkC = max{|d1|, . . . , |dn |}, ou seja, para matrizes diagonais kDkC = kDk∞ . 6
• Equivalência entre normas matriciais
Aqui denotaremos a norma operatorial de uma matriz A por kAk.

Sejam ei , i = 1, . . . , n os vetores da base canônica de Cn , ou seja, os vetores cuja j-ésima
componente é (ei )j = δij . Se A ∈ Mat (C, n), é claro que a i-ésima componente do vetor Aej é
(Aej )i = Aij . Daı́,
Xn
kAej k2C
2
= |Aij |2 .
kej kC i=1
Logo, para todo j,

( n
)
kAvk2C kAej k2C X
kAk2 := sup ≥ max = max |Aij |2 . (4.13)
v∈Cn kvk2C j=1, ..., n kej k2
C
j=1, ..., n
i=1
v6=0
Pn
Tem-se também o seguinte. Para qualquer vetor v ∈ Cn , vale (Av)i = j=1 Aij vj . Assim, pela
desigualdade de Cauchy-Schwarz (2.17), página 127,
n
! n ! n
!
X X X
|(Av)i|2 ≤ |Aij |2 |vk |2 = |Aij |2 kvk2C .
j=1 k=1 j=1
Daı́, !
n
X n X
X n
kAvk2C = |(Av)i|2 ≤ |Aij |2 kvk2C .
i=1 i=1 j=1
Logo,
Xn X n
2 kAvk2C
kAk := sup ≤ |Aij |2 . (4.14)
v∈Cn kvk2C i=1 j=1
v6=0
n
X
Como |Aij |2 ≥ max |Aij |2 , segue de (4.13) que
i=1, ..., n
i=1
kAk2 ≥ max max |Aij |2 .

j=1, ..., n i=1, ..., n
Logo, para todo i, j vale |Aij | ≤ kAk, ou seja,
kAk∞ ≤ kAk.
De (4.14) vemos também que
X n
n X n X
X n
kAk2 ≤ |Aij |2 ≤ kAk2∞ = n2 kAk2∞ .
i=1 j=1 i=1 j=1
Concluı́mos assim que em Mat (C, n)
kAk∞ ≤ kAk ≤ nkAk∞ . (4.15)
A expressão (4.15) mostra-nos que caso tenhamos uma seqüência de matrizes Am com kAm k → 0
quando m → ∞, então cada elemento de matriz (Am )ij também converge a zero quando m → ∞. E
vice-versa: Se (Am )ij → 0 para todos ij quando m → ∞, então kAm k → 0 quando m → ∞.
Nota. Antes de prosseguirmos, comentemos também que as duas desigualdades (4.15) são optimais,
ou seja, não podem ser melhoradas para matrizes genéricas. Por exemplo, é evidente que k1k∞ = 1
e que k1k = 1. Assim, pelo menos nesse caso tem-se a igualdade na primeira desigualdade de (4.15).
Há também um caso em que se tem a igualdade na segunda desigualdade de (4.15). Considere-se a
matriz M cujos elementos de matriz são todos iguais a 1, ou seja, Mij = 1 para todos i, j. Seja o
vetor u de Cn cujas componentes são todas iguais a 1, ou seja, ui = 1 para todo i. É elementar ver
kMukC
que Mu = nu. Logo = n. Portanto, kMk ≥ n e kMk∞ = 1. Assim, kMk ≥ nkMk∞ e, da
kukC
segunda desigualdade de (4.15), concluı́mos que, nesse caso, kMk = nkMk∞ .
A desigualdade (4.14) significa que kAk ≤ kAk2 . Ao mesmo tempo, a desigualdade (4.13) mostra
que
X n X n Xn
2 2
nkAk = kAk ≥ |Aij |2 = kAk22 .
j=1 j=1 i=1
Logo, concluı́mos que em Mat (C, n)

1
√ kAk2 ≤ kAk ≤ kAk2 . (4.16)
n
E. 4.6 Exercı́cio. Mostre que em Mat (C, n)

1
kAk1 ≤ kAk ≤ nkAk1 . (4.17)
n2
n
X
Sugestão: Mostre primeiro que kAk∞ ≤ |Aij | ≤ n2 kAk∞ ou seja
i, j=1
kAk∞ ≤ kAk1 ≤ n2 kAk∞ . (4.18)
e, então, use (4.15). 6
E. 4.7 Exercı́cio. Mostre que as desigualdades (4.18) também não podem ser melhoradas. 6
Nota. As expressões (4.15), (4.16), (4.17) e (4.18) mostram-nos de modo explı́cito que em Mat (C, n)
as normas k·k, k·k∞, k·k1 e k·k2 são equivalentes (vide definição à página 129). Como já mencionamos,
em espaços de dimensão finita todas as normas matriciais são equivalentes.
A importância de se introduzir uma norma em L(V ) é que podemos dessa forma introduzir uma
noção de distância entre elementos desse conjunto, ou seja, podemos definir uma métrica em L(V )
por d(A, B) = kA − Bk. Deixamos para o leitor a tarefa de demonstrar que isso de fato define uma
métrica em L(V ). Com isso, fazemos de L(V ) um espaço dotado de uma topologia métrica. Fora
isso, o importante Teorema 26.2 demonstrado à página 1257 afirma que L(V ) será um espaço métrico
completo se V o for. Logo, como Cn e Rn são sabidamente espaços vetoriais completos, assim o serão
Mat (C, n), Mat (R, n), assim como L(Mat (C, n)) etc. É possı́vel dessa forma falar de convergência de
seqüências e séries de matrizes de Mat (C, n), Mat (R, n), assim como de elementos de L(Mat (C, n))
etc. Abaixo faremos uso repetido desse fato fundamental.
4.2 Exponenciais, Logaritmos e Funções Analı́ticas de Matri-

zes
No estudo da teoria de grupos e em outras áreas é muito conveniente definir certas funções de operadores
lineares, tais como exponenciais, logaritmos etc. Já abordamos a definição da exponenciação de matrizes
nos capı́tulos 3 e 7. Vamos aqui tentar uma abordagem mais geral.
• Séries de Potências de Matrizes
Seja A ∈ Mat (C, n) uma matriz n × n complexa e seja {am m ∈ N} uma seqüência de números
complexos. A expressão
∞
X N
X
am Am = lim am Am = a0 1 + a1 A + a2 A2 + a3 A3 + · · ·
N →∞
m=0 m=0
é dita ser uma série de potências convergente, caso o limite acima exista em Mat (C, n).
Nota. Adotaremos sempre a convenção que A0 = 1.

A seguinte proposição é fundamental:
∞
X ∞
X
m
Proposição 4.1 A séria de potências am A é convergente se |am | kAkm
C < ∞. 2
m=0 m=0
P∞
A importância dessa proposição reside no fato que m=0 |am |kAkm
C é uma série numérica e, portanto,
mais simples de lidar.
N
X
Prova. Sejam as somas parciais SN := am Am . Teremos para M < N,
m=0

X
N N
X

kSN − SM kC = am Am ≤ |am | kAkm
C.

m=M +1 C m=M +1
P PN
Agora, como a série numérica ∞m=0 |a m | kAk m
C converge, s N := m
m=0 |am | kAkC é uma seqüência de
PN m
Cauchy. Logo m=M +1 |am | kAkC pode ser feito menor que qualquer ǫ > 0 dado, desde que escolhamos
M e N grandes o suficiente. Logo SN é também uma seqüência de Cauchy no espaço métrico completo
Mat (C, n). Portanto, SN converge em Mat (C, n) quando N → ∞.
• Funções Analı́ticas de Matrizes
A Proposição 4.1 conduz à seguinte definição. Seja r > 0 e Dr = {z ∈ C| |z| < r} o disco aberto
de raio r centrado em 0 no plano complexo. Seja f : Dr → C uma função analı́tica em Dr . Como bem
sabemos, f pode ser expressa em termos de uma série de potências (série de Taylor centrada em z0 = 0):
P
f (z) = ∞ m
onde fm = f (m) (0)/m!. É bem sabido também que essa série é absolutamente
m=0 fm z ,P
convergente em Dr : ∞ m
m=0 |fm | |z| < ∞, se |z| < r. Podemos então definir
∞
X
f (A) := fm Am
m=0
para toda a matriz A com kAkC < r, pois a proposição acima garante que a série de matrizes do lado
direito converge a alguma matriz de Mat (C, n), que denotamos por f (A), fazendo uma analogia óbvia
com a função numérica f .
A seguinte proposição sobre essas funções de matrizes será freqüentemente usada no que seguirá.
Proposição 4.2 I. Sejam f e g duas funções analı́ticas no mesmo domı́nio Dr . Definamos (f +
g)(z) := f (z) + g(z) e (f g)(z) := f (z)g(z), z ∈ Dr . Então, para A ∈ Mat (C, n) com kAkC < r
teremos f (A) + g(A) = (f + g)(A) e f (A)g(A) = g(A)f (A) = (f g)(A).
II. Sejam f e g duas funções analı́ticas, com domı́nios Drf e Drg , respectivamente, e tais que a
imagem de g esteja contida no domı́nio de f . Podemos então definir f ◦ g(z) := f (g(z)). Então, para
A ∈ Mat (C, n) com kAkC < rg teremos f (g(A)) = f ◦ g(A). 2
Prova. ←→ Exercı́cio.
Note-se que a parte I da proposição acima afirma que existe um homomorfismo da álgebra das
funções analı́ticas em um domı́nio Dr ⊂ C e Mat (C, n).
Vamos mais adiante usar o seguinte resultado, que essencialmente afirma que as matrizes f (A)
definidas acima, com f analı́tica em um domı́nio Dr ⊂ C, dependem continuamente de A.
P∞ em kum domı́nio Dr ⊂ C, com f tendo a série

Proposição 4.3 Seja f função complexa analı́tica
de Taylor absolutamente convergente f (z) = k=0 fk z , |z| < r. Seja também Bm , m ∈ N, uma
seqüência de matrizes de Mat (C, n) tais que limm→∞ kBm kC = 0. Então, para todo A ∈ Mat (C, n)
com kAkC < r tem-se
lim f (A + Bm ) = f (A).
m→∞
2
Prova. Comecemos com um comentário sobre o enunciado do teorema. Para que f (A + Bm ) esteja
definido é necessário que kA + Bm kC < r. Como kA + Bm kC ≤ kAkC + kBm kC e kAkC < r, a condição
é satisfeita para m grande o suficiente, pois limm→∞ kBm kC = 0. Assim, estaremos supondo que m é
grande o suficiente de modo que kBm kC < ǫ para algum ǫ tal que kAkC + ǫ < r. Feita essa ressalva,
passemos à demonstração.
A prova da proposição segue como conseqüência das duas observações seguintes. A primeira é que
para quaisquer matrizes X, Y ∈ Mat (C, n) e qualquer k inteiro positivo tem-se a seguinte identidade
algébrica:
Xk−1
k k
X −Y = X p (X − Y ) Y k−1−p . (4.19)
p=0
Para provar isso, basta expandir a soma do lado direito e mostrar, após alguns cancelamentos, que
obtem-se o lado esquerdo (faça!).
P∞A segunda observação é que se f é analı́tica em Dr , sua

P derivada também o é. Assim, f ′ (z) =
k=0 kfk z
k−1
converge absolutamente para |z| < r, ou seja, ∞ k=0 k|fk | |z|
k−1
< ∞ sempre que |z| < r.
Assim,
∞
X
f (A + Bm ) − f (A) = fk (A + Bm )k − Ak .
k=0
Usando (4.19) com X = A + Bm e Y = A, teremos

∞
X k−1
X
f (A + Bm ) − f (A) = fk (A + Bm )p Bm Ak−1−p .
k=0 p=0
Logo,
∞
X k−1
X
kf (A + Bm ) − f (A)kC ≤ kBm kC |fk | kA + Bm kpC kAkk−1−p
C .
k=0 p=0
Agora, como dissemos, kA + Bm kC < kAkC + ǫ < r e, obviamente, kAkC < kAkC + ǫ < r. Portanto,
∞
X k−1
X ∞
X
k−1
kf (A + Bm ) − f (A)kC ≤ kBm kC |fk | (kAkC + ǫ) = kBm kC k|fk | (kAkC + ǫ)k−1 .
k=0 p=0 k=0
Como comentamos acima, a soma do lado direito é finita. Como, porém, kBm kC → 0 para m → ∞,
teremos limm→∞ kf (A + Bm ) − f (A)kC = 0, que é o que querı́amos provar.
• Exponenciais e Logaritmos de Matrizes
Com as definições apresentadas acima, podemos definir exponenciais e logaritmos de matrizes.

Temos,
∞
X
A 1 m
exp(A) ≡ e := A (4.20)
m=0
m!
para toda matriz A ∈ Mat (C, n), pois a série de Taylor da função exponencial converge absolutamente
em todo o plano complexo.
Analogamente, podemos definir
X∞
(−1)m−1 m
ln(1 + A) = A (4.21)
m=1
m
para toda matriz A ∈ Mat (C, n) com kAkC < 1, pois a série de Taylor da função ln(1 + z) converge
absolutamente em D1 .
Nota. Para kA − 1kC < 1 podemos definir ln(A) por ln(A) := ln(1 + (A − 1)).
E. 4.8 Exercı́cio. Usando a Proposição 4.2, mostre que (exp(A))m = exp(mA) para toda matriz
A ∈ Mat (C, n) e todo m ∈ Z. Mostre também que
exp(ln(1 + A)) = 1 + A
para toda matriz A ∈ Mat (C, n) com kAkC < 1 e que
ln (exp(B)) = B
para toda matriz B ∈ Mat (C, n) com k exp(B) − 1kC < 1.

Note que
X∞
1 m X∞
1

k exp(B) − 1kC = B ≤ kBkm
C = e
kBkC
− 1.
m=1 m! m=1
m!
C
Assim, a condição k exp(B) − 1kC < 1 é satisfeita se kBkC < ln 2. 6
Sobre a exponencial de matrizes temos o seguinte:

Proposição 4.4 Existe uma bola aberta Br (0) de raio r > 0 centrada em 0 em Mat (C, n) tal que
a aplicação exp : Mat (C, n) → Mat (C, n) definida acima é um homeomorfismo (em verdade, um
difeomorfismo) entre Br (0) e sua imagem, exp(Br (0)), a qual é uma vizinhança aberta da matriz
identidade 1. 2
X∞
1 m
Prova. Temos que, para todo A ∈ Mat (C, n), exp(A) − 1 = A + ϕ(A), onde ϕ(A) := A . É
m=2
m!
fácil ver que kϕ(A)k
kAk
→ 0 para kAk → 0. exp(A) − 1 é contı́nua e diferenciável em uma vizinhança de 0
(em verdade, em toda parte) e sua derivada em 0 é a identidade. A afirmação da Proposição 4.4 segue
então do bem conhecido Teorema da Aplicação Inversa (vide, por exemplo, [97]).
Junto com o último exercı́cio, isso prova a seguinte proposição:

Proposição 4.5 Para toda matriz A ∈ Mat (C, n) com kA − 1kC < 1 tem-se
exp(ln(A)) = A.
Para toda matriz B ∈ Mat (C, n) com kBkC < ln 2 tem-se
ln (exp(B)) = B. (4.22)
• Exponenciais de Matrizes. Comutatividade
Para dois números complexos z e w é bem conhecida a validade da propriedade exp(z) exp(w) =
exp(z + w) da função exponencial. Podemos nos perguntar: será essa propriedade válida também
para matrizes? A resposta é que em geral tal relação não é válida, apenas em certos casos especiais.
A questão de determinar o produto de exponenciais de matrizes tem grande importância em várias
manipulações algébricas e muito do que seguirá abordará esse problema.
Lembremos a primeiramente a seguinte proposição.
Proposição 4.6 Se A, B ∈ Mat (C, n) são duas matrizes que comutam, ou seja, AB = BA, então
eA+B = eA eB = eB eA . (4.23)
A propriedade (4.23) é familiar quando A e B são números, mas não é óbvia quando A e B são
matrizes. De fato a relação acima é geralmente falsa caso A e B sejam matrizes que não comutam.
No caso em que A e B não comutam o produto eA eB pode ser computado com uso da fórmula de
Baker-Campbell-Hausdorff, discutida na Seção 4.5, página 264.
Prova de (4.23). Pela definição
X∞ X∞
1 1
eA+B
= 1+ m
(A + B) = (A + B)m ,
m=1
m! m=0
m!
onde convencionamos que (A + B)0 = 1. Como A e B comutam, vale a regra do binômio de Newton4
X m
m m p m−p
(A + B) = AB .
p=0
p
E. 4.9 Exercı́cio. Por quê? Vale a regra do binômio de Newton no caso de A e B não comutarem?
Teste alguns exemplos. 6
Assim,
X∞ X m X∞ X m
A+B 1 m p m−p 1
e = A B = Ap B m−p .
m=0 p=0
m! p m=0 p=0
(m − p)!p!
Agora, vale a seguinte regra de mudança de ordem de somas:
∞ X
X m ∞ X
X ∞
(· · · ) = (· · · ).
m=0 p=0 p=0 m=p
Logo, !
∞ X
X ∞ X∞ ∞
X
1 1 p 1
eA+B = p m−p
AB = A B m−p .
p=0 m=p
(m − p)!p! p=0
p! m=p
(m − p)!
4
Isaac Newton (1643-1727).
Agora, com a mudança de variável l = m − p,

∞
X ∞
X
1 m−p 1 l
B = B = eB .
m=p
(m − p)! l!
l=0
Assim,
X∞
A+B 1 p B
e = A e = eA eB .
p=0
p!
Analogamente se prova que eA+B = eB eA .
Podemos nos perguntar: o que ocorre se A e B não comutarem? Há alguma maneira de calcular
exp(A + B) em termos de produtos de exp(A) e exp(B) nesse caso? A resposta a essas questões é dada
por três fórmulas muito importantes, a fórmula de Lie-Trotter, a fórmula do comutador e a fórmula de
Baker-Campbell-Hausdorff, das quais trataremos mais adiante.
• Algumas Propriedades de Funções Analı́ticas de Matrizes
Os exercı́cios seguintes, os quais são muito simples de provar, apresentam afirmativas freqüentemente
usadas sobre funções analı́ticas de matrizes.
E. 4.11 Exercı́cio. Usando a definição (4.20), mostre que

P −1 exp(A)P = exp P −1AP (4.24)
para matrizes n × n reais ou complexas A e P , sendo P invertı́vel. 6
E. 4.12 Exercı́cio. Usando a definição (4.20), mostre que

exp(A)T = exp AT e que exp(A)∗ = exp (A∗ )
para A ∈ Mat (C, n) ou A ∈ Mat (R, n). 6
Os exercı́cios acima podem ser facilmente generalizados:

∞
X
E. 4.13 Exercı́cio. Seja f (z) := fm z m uma série de potências convergente para |z| < r0 para algum
m=0
r0 > 0. Então para A ∈ Mat (C, n) com kAk < r0 tem-se
∞
!T ∞ ∞
!∗ ∞
X X m X X
m
fm A = fm AT e fm A m
= fm (A∗ )m ,
m=0 m=0 m=0 m=0
∞
X

T
ou seja, f (A) = f A T ∗ ∗
e f (A) = f (A ), onde f (z) := fm z m = f (z). Prove essas afirmativas.
m=0
Prove também que !
∞
X ∞
X
−1
m
P fm A m
P = fm P −1 AP ,
m=0 m=0
ou seja, P −1f (A)P = f (P −1 AP ). 6
Também muito útil é a afirmação contida no seguinte exercı́cio:

∞
X ∞
X
E. 4.14 Exercı́cio. Sejam f (z) = fm z m e g(z) = gm z m duas séries de potências convergentes
m=0 m=0
em |z| < r1 e |z| < r2 , respectivamente. Sejam A e B ∈ Mat (C, n) duas matrizes com kAk < r1 e
kBk < r2 tais que AB = BA. Então f (A)g(B) = g(B)f (A). Prove isso. 6
• O Determinante de Exponenciais de Matrizes
O Teorema de Decomposição de Jordan (Teorema 3.19, página 215) permite-nos demonstrar o

seguinte resultado muito útil sobre o determinante de exponenciais de matrizes.
Proposição 4.7 Seja A ∈ Mat (C, n) ou A ∈ Mat (R, n). Então vale que

det eA = eTr(A) . (4.25)
É suficiente que provemos (4.25) para matrizes complexas primeiro, pois matrizes reais podem ser
obtidas de matrizes complexas do limite quando a parte imaginária dos elementos de matriz vai a zero
e a continuidade, tanto do lado direito quanto do lado esquerdo de (4.25) em relação aos elementos de
matriz de A, garante a validade daquela expressão para matrizes reais também.
Para a prova precisamos de um lema preparatório simples.
Lema 4.1 Se D ∈ Mat (C, n) é uma matriz diagonal complexa n × n, então

det eD = eTr(D) .
Igualmente, se N ∈ Mat (C, n) é uma matriz nilpotente complexa n × n, então

det eN = eTr(N ) = 1.
Prova. A parte referente à matriz diagonal é a mais fácil. Suponhamos que D é a matriz diagonal
D = diag (d1 , . . . , dn ), sendo que os elementos da diagonal são os autovalores de D. Segue que eD

é a matriz diagonal D = diag ed1 , . . . , edn . Assim, pela Proposição 3.2, página 164, det eD =
ed1 +···+dn = eTr(D) .
Tratemos agora da parte referente à matriz nilpotente N. Iremos provar provar que se N é nilpotente
todos os autovalores de eN são iguais a 1. Pela Proposição 3.22, página 210, os autovalores de N são
todos nulos, Assim, se φ é um autovetor de N teremos eN φ = φ, ou seja, φ é autovetor de eN com
autovalor 1. Infelizmente isso não nos permite concluir diretamente que todos os demais autovetores
de eN tem a mesma propriedade, mas, como veremos, isso é verdade.
Vamos supor que o ı́ndice de N seja k, ou seja, N k+1 = 0. Assim,
Xk
1 m
eN = 1 + N .
m=1
m!
Seja ψ 6= 0 um autovetor de eN com autovalor λ e suponhamos que λ 6= 1. De eN ψ = λψ tem-se
Xk
1 m
(λ − 1)ψ = N ψ (4.26)
m=1
m!
e, assim, aplicando N k a ambos os lados, concluı́mos que
(λ − 1)N k ψ = 0,
já que no lado direito aparecem potências como N k+1 ψ, N k+2 ψ etc., todas nulas. Como λ 6= 1, devemos
ter N k ψ = 0. Retornando a (4.26), podemos reescrevê-la como
k−1
X 1 m
(λ − 1)ψ = N ψ
m=1
m!
eliminando o termo com N k ψ. Aplicando N k−1 a ambos os lados, concluı́mos que
(λ − 1)N k−1 ψ = 0,
já que no lado direito aparecem potências como N k ψ, N k+1 ψ etc., todas nulas. Como λ 6= 1, devemos
ter N k−1 ψ = 0. Prosseguindo dessa forma concluiremos por fim que Nψ = 0. Assim, eN ψ = 1ψ = ψ,
provando que λ = 1, uma contradição.
A conclusão
é que todos os autovalores de eN são iguais a 1, e pela Proposição 3.2, página 164,
det eN = 1. Notemos que, pela Proposição 3.22, página 210, os autovalores de N são todos nulos e,
assim, Tr(N) = 0. Logo, det eN = 1 = eTr(N ) . Isso completa a prova do lema.
Prova da Proposição 4.7. Pelo Teorema de Decomposição de Jordan, existe uma matriz invertı́vel
T tal que A = T −1 (D + N)T , onde D é diagonal, N é nilpotente e DN = ND. Logo,

eA = exp T −1 (D + N)T = T −1 exp(D + N)T = T −1 exp(D) exp(N)T.
Portanto,

det eA = det T −1 eD eN T = det T −1 det eD det eN det (T ) = det eD det eN ,
pois det (T −1 ) = 1/ det (T ). Assim, pelo Lema 4.1, pela Proposição 3.7 e pela propriedade (3.22),

det eA = eTr(D) eTr(N ) = eTr(D+N ) = eTr(T (D+N )T ) = eTr(A) ,
−1
completando a prova.
4.2.1 A Exponenciação de Matrizes e os Grupos GL(C, n) e GL(R, n)

Recordemos que GL(C, n) (respectivamente, GL(R, n)) designa o grupo das matrizes invertı́veis
complexas (reais) n × n. Aqui discutiremos a relação entre a exponenciação de matrizes e esses grupos.
Essa discussão terá um papel mais relevante quando tratarmos da teoria dos grupos de Lie e álgebras
de Lie nos Capı́tulos 14 e 15.
Em primeiro lugar, tem-se a seguinte proposição elementar:
Proposição 4.8 A aplicação exp definida em (4.20) é uma aplicação de Mat (C, n) em GL(C, n)
(ou, correspondentemente, de Mat (R, n) em GL(R, n)). 2
Prova. É evidente pela definição (4.20) que exp(0) = 1. Tudo o que se deseja provar é que para
qualquer A ∈ Mat (C, n) então exp(A) é invertı́vel. Ora, por (4.23), é elementar constatar que
exp(A)−1 = exp(−A).
Tem-se também o seguinte:

Proposição 4.9 Para n ≥ 2 as aplicações exp : Mat (C, n) → GL(C, n) e exp : Mat (R, n) →
GL(R, n) não são injetoras. 2
Prova. Para matrizes complexas, basta constatar que, no exemplo das matrizes diagonais na forma
D = diag (2πk1 i, . . . , 2πkn i, ) com kl ∈ Z, tem-se exp(D) = 1.

0 1
Para matrizes reais, considere-se a matriz real A(α) := αJ onde J := , α ∈ R. Como
−1 0
facilmente se vê, tem-se para m ∈ N, A(α)2m = (−1)m (α)2m 1 e A(α)2m+1 = (−1)m (α)2m+1 J. Daı́,
como facilmente se verifica por (4.20),

cos α senα
exp(A(α)) = cos(α)1 + sen(α)J = .
− senα cos α
Logo, exp(A(2πk)) = 1 para todo k ∈ Z. Assim a exponenciação de matrizes reais 2 × 2 não pode ser
injetora. É fácil, a partir desse exemplo, construir outros para matrizes reais n × n com n ≥ 2.
Agora veremos duas proposições nas quais as matrizes reais e complexas se diferenciam.
Proposição 4.10 As aplicações exp : Mat (R, n) → GL(R, n), n ≥ 1, não são sobrejetoras. 2
Proposição 4.11 As aplicações exp : Mat (C, n) → GL(C, n), n ≥ 1, são sobrejetoras. 2
Prova da Prop. 4.10. Pela Proposição 4.25, o determinante da exponencial de qualquer matriz real é
positivo. Ora, existem em GL(R, n) matrizes com determinante negativo. Logo, a exponenciação de
matrizes reais não pode ser sobrejetora.
Comentário. Sobre matrizes reais é possı́vel dizer mais que o enunciado da Proposição 4.10 e sua
prova. Em verdade, não são apenas as matrizes com determinante negativo que estão fora da imagem
da exponenciação de matrizes reais. Há algumas com determinante positivo que também estão fora.
Se M é uma matriz real invertı́vel então seus autovalores são as raı́zes do polinômio caracterı́stico
p(x) = det(x1 − M). Como M é real, esse polinômio tem coeficientes reais e, como é bem sabido, as
raı́zes de polinômios com coeficientes reais ou são números reais ou são pares de números complexos
complexo-conjugados
uns dos outros. Por exemplo, as raı́zes do polinômio caracterı́stico da matriz
0 1
são ±i. De qualquer forma, uma matriz com determinante positivo pode, digamos, ter duas
−1 0
raı́zes negativas distintas simples, como é, por exemplo, o caso da matriz
 
1 0 0
0 −1 0  . (4.27)
0 0 −2
Isso posto, estudemos os autovalores das matrizes da forma eA com A real. Esses são as raı́zes do
polinômio caracterı́stico p(x) = det(x1 − eA ). Como toda matriz real é também membro de Mat (C, n)
podemos aplicar o Teorema da Decomposição de Jordan (Teorema 3.19, página 215) e afirmar que
existe uma matriz invertı́vel complexa P tal que P −1 AP = D + N com D diagonal, N nilpotente,
DN = ND, sendo que D tem na diagonal os autovalores da matriz real A. Assim, pela propriedade
do determinante,

p(x) = det(x1 − eA ) = det P −1(x1 − eA )P = det(x1 − eD eN ).
É fácil de ver daı́5 que os autovalores de eA são os elementos da diagonal da matriz diagonal eD , que
são, como comentamos acima, exponenciais dos autovalores da matriz real A. Podemos nos perguntar:
podem os elementos da diagonal de eD serem números negativos? A resposta é sim, mas para isso é
necessário que A tenha um autovalor complexo cuja parte imaginária seja da forma (2k + 1)π, com k
inteiro. Ora, como A é real, existe pelo que comentamos acima, um outro autovalor complexo de A cuja
parte imaginária é da forma −(2k + 1)π, pois os autovalores complexos aparecem em pares complexo-
conjugados. Isso diz-nos que os autovalores negativos de eA tem multiplicidade par! Ora, isso nem
sempre é o caso para matrizes invertı́veis, como mostra o exemplo do último parágrafo. Assim, matrizes
reais com determinante positivo e com pelo menos um autovalor negativo com multiplicidade ı́mpar
não estão na imagem da exponencial de nenhuma matriz real. Tal é o caso da matriz de (4.27). Em
verdade, mesmo matrizes com determinante positivo e com autovalores negativos com multiplicidade
par podem não estar na imagem da exponencial. Tal é o caso das matrizes −1 a
0 −1 com a 6= 0 (mostre
isso).
Prova da Prop. 4.11. A Proposição 4.11 afirma que toda matriz complexa invertı́vel n × n pode ser
escrita como exponencial de outra matriz complexa n × n. Provemos isso. Seja A ∈ GL(C, n). Pelo
Teorema da Decomposição de Jordan (Teorema 3.19, página 215) existe uma matriz invertı́vel P tal que
P −1 AP = D + N com D diagonal, N nilpotente, DN = ND, sendo que D tem na diagonal principal
os autovalores da matriz A. Esse último fato diz-nos que D não tem autovalores nulos e, portanto, é
também invertı́vel.
5
Pois numa base conveniente a matriz eD eN é uma matriz triangular superior, tendo na diagonal principal os elementos
da diagonal de eD .
Podemos assim escrever D + N = D(1 + D −1 N). O que faremos agora é provar os seguintes fatos:
1. D pode ser escrita como D = eF para alguma matriz F conveniente. 2. 1 + D −1 N pode ser escrita
como 1 + D −1 N = eG para alguma matriz G conveniente. 3. Podemos escolher F e G de modo que
F G = GF . Desses três fatos concluı́mos que P −1 AP = exp(F + G) e, portanto, A = exp (M), onde
M = P (F + G)P −1. Isso prova o que desejamos.
Prova de 1. Sejam α1 , . . . , αl os autovalores distintos de D. Pelo Teorema Espectral (vide Teorema
X l
3.5, página 182, ou Teorema 3.7, página 187) podemos escrever D = αj Ej , onde as matrizes Ej
j=1
satisfazem (3.41) e (3.42) e, de acordo com (3.43), podem ser expressas como polinômios em D (um fato
1
que será usado mais abaixo): Ej = mj (α j)
mj (D). (Os polinômios mj foram definidos na demonstração
do Teorema 3.7). Seja, para cada j, um número complexo fj escolhido de forma que exp(fj ) = αj .
Encontrar tais fj ’s sempre é possı́vel pois os αj ’s são não-nulos, já que D é invertı́vel. Se definirmos
l
X
F := fj Ej
j=1
é fácil constatar por (3.41) e (3.42) que exp(F ) = D (faça!). Isso prova 1. Note que, pelo que
comentamos acima, vale
Xl
fj
F = mj (D) , (4.28)
j=1
mj (αj )
ou seja, F pode ser expressa como um polinômio em D.
Prova de 2. Como D −1 e N comutam (por que?), segue que D −1 N é nilpotente de ordem, digamos,
k+1
k, ou seja (D −1 N) = 0. Assim, para z ∈ C escolhido de modo que kzD −1 Nk < 1, o logaritmo de
1 + zD N está bem definido e vale (vide (4.21))
−1
Xk
(−z)m m
G(z) = − D −1 N . (4.29)
m=1
m
Sabemos pela Proposição 4.5 que nesse caso em que kzD −1 Nk < 1, ou seja, |z| < 1/kD −1 Nk, temos
exp(G(z)) = 1 + zD −1 N . (4.30)
Queremos agora provar que essa igualdade vale para todo z. Usando novamente o fato que as matrizes
k+1
D −1 e N comutam entre si, o fato que (D −1 N) = 0 e o fato que a soma em (4.29) é finita, teremos
k
!
X (−z)m m
exp(G(z)) = exp − D −1 N
m=1
m
k
Y
(−z)m −1
m
= exp − D N
m=1
m
k
" k
#
Y X (−1)l (−z)ml ml
= 1+ D −1 N .
m=1 l=1
l! ml
Como as somas a produtos acima são finitos (conseqüência da nilpotência de D −1 N), constatamos que
exp(G(z)) é um polinômio em z para todo z ∈ C. Ora, já verificamos acima que, quando |z| é pequeno,
exp(G(z)) é igual ao polinômio em z dado por 1 + zD −1 N. Como polinômios são funções analı́ticas
em toda parte isso implica que exp(G(z)) = 1 + zD −1 N para todo z ∈ C. Em particular, para z = 1,
o que significa que 1 + D −1 N = exp(G), onde
Xk
(−1)m+1 m
G ≡ G(1) = D −1 N . (4.31)
m=1
m
E. 4.15 Exercı́cio. Usando a definição (4.31), prove explicitamente que exp(G) = 1 + D −1 N. 6
Prova de 3. Por (4.28), F é um polinômio em D. Assim, F comuta com D −1 e com N. Logo,

por (4.31), F comuta com G. Isso é o que querı́amos provar e, assim, a prova da Proposição 4.11 está
completa.
4.3 A Fórmula de Lie-Trotter e a Fórmula do Comutador

Há duas expressões envolvendo produtos de exponenciais de matrizes que são bastante úteis. São as
fórmulas conhecidas como fórmula de Lie-Trotter6 e fórmula do comutador. A fórmula de Lie-Trotter
é importante não apenas no estudo de grupos de Lie matriciais mas também na Mecânica Estatı́stica
e na Mecânica Quântica, onde é freqüentemente empregada. A fórmula de Lie-Trotter, por exemplo, é
usada na Mecânica Estatı́stica para relacionar sistemas quânticos de spin a sistemas clássicos de spin.
Proposição 4.12 Para quaisquer matrizes A, B ∈ Mat (C, n) valem:
Fórmula de Lie-Trotter:
m
1 1
exp (A + B) = lim exp A exp B . (4.32)
m→∞ m m
Fórmula do Comutador:
m2
1 1 1 1
exp ([A, B]) = lim exp A exp B exp − A exp − B . (4.33)
m→∞ m m m m
2
6
A fórmula de Lie-Trotter foi originalmente demonstrada por Lie (Marius Sophus Lie (1842-1899)) e posteriormente
generalizada por vários autores, entre eles Trotter (Hale Freeman Trotter (1931-)) em “On the Product of Semi-Groups
of Operators”. ProcȦmer. Math. Soc. 10, 545-551 (1959). O leitor poderá encontrar várias dessas generalizações (por
exemplo para operadores auto-adjuntos não-limitados agindo em espaços de Hilbert) em [116]. O assunto é ainda hoje
objeto de pesquisa.
Prova. Vamos primeiramente provar a fórmula de Lie-Trotter7 e posteriormente passar à fórmula do

comutador. Começamos definindo, para m ∈ N,

1 1
Sm := exp A exp B ,
m m

1
Tm := exp (A + B) .
m
Note-se que (Tm )m = exp (A + B) e que tudo o que desejamos é provar que (Sm )m converge a
exp (A + B), ou seja,
lim k(Sm )m − (Tm )m kC = 0.
m→∞
Precisamos, portanto, estudar (Sm )m − (Tm )m . Para isso, é útil empregarmos a identidade algébrica
(4.19). Daquela relação e das propriedades da norma operatorial, segue que
m−1
X
m m
k(Sm ) − (Tm ) kC ≤ kSm kpC kSm − Tm kC kTm kC
m−1−p
. (4.34)
p=0
Pela definição, temos para qualquer matriz M ∈ Mat (C, n)

X ∞
1 k X∞
1

k exp (M) kC = M ≤ kMkkC = ekM kC .
k! k!
k=0 k=0 C
Assim,
1 1
kSm kC ≤
exp m A
exp
B
≤ e(kAkC +kBkC )/m
C m C
e kTm kC ≤ e(kAkC +kBkC )/m . Retornando a (4.34), teremos

m−1
X
k(Sm )m − (Tm )m kC ≤ e(kAkC +kBkC )(m−1)/m kSm − Tm kC ≤ mkSm − Tm kC e(kAkC +kBkC ) .
p=0
Na última desigualdade usamos que (m − 1)/m < 1 e que kSm − Tm kC não depende de p.
Como se vê da última expressão, tudo que que temos que fazer para provar k(Sm )m − (Tm )m kC vai
a zero quando m → ∞ é provar que kSm − Tm kC vai a zero com 1/m2 quando m cresce. Isso é feito
escrevendo as expressões explı́citas para Sm e Tm em termos da série de Taylor da função exponencial:

1 1 1
Sm − Tm = exp A exp B − exp (A + B)
m m m
" ∞
#" ∞
# " ∞
#
1 X m−k k 1 X m−k k 1 X m−k
= 1+ A+ A 1+ B+ B − 1 + (A + B) + (A + B)k .
m k=2
k! m k=2
k! m k=2
k!
7
Para a fórmula de Lie-Trotter seguiremos aqui a demonstração de [116].
Expandindo-se a última linha, e identificando os termos em 1/m, é fácil constatar que

1 1 1 1 1
Sm − Tm = 1 + A + B − 1 − (A + B) + 2 Sm = Sm ,
m m m m m2
onde Sm é uma série, um tanto complicada, mas convergente em norma e tal que limm→∞ kSm kC =
finito. Assim,
1
mkSm − Tm kC ≤ kSm kC
m
e, portanto,
lim k(Sm )m − (Tm )m kC = 0.
m→∞
Isso demonstrou a fórmula de Lie-Trotter. O estudante mais avançado pode facilmente convencer-se
que precisamente a mesma demonstração se aplica ao contexto de operadores limitados agindo em
espaços de Banach.
Para a fórmula do comutador usaremos outro procedimento. Definimos

1 1 1 1
Um := exp A exp B exp − A exp − B
m m m m
e teremos
" ∞
#" ∞
#
1 1 2 X m−k k 1 1 X m−k k
Um = 1+ A+ A + A 1+ B+ B 2
+ B
m 2m2 k=3
k! m 2m2 k=3
k!
" ∞
#" ∞
#
1 1 2 X (−m)−k k 1 1 X (−m) −k
× 1− A+ A + A 1− B+ B2 + Bk .
m 2m2 k=3
k! m 2m2 k=3
k!
Com um pouco de paciência podemos expandir o produto dos quatro fatores do lado direito e constatar
(faça!) que os termos envolvendo 1/m se cancelam e o termo proporcional a 1/m2 é AB − BA (outros
termos como (1/m2 )A2 e (1/m2 )B 2 também se cancelam. Verifique!). Ou seja, ficamos com
1 1
Um = 1 + (AB − BA) + Rm , (4.35)
m2 m3
onde m13 Rm são os termos restantes da expansão. Rm é uma expressão complicada, mas envolvendo
séries convergentes e de tal forma que limm→∞ kRm kC é finito.
Isso diz que para m grande o suficiente a norma de Um − 1 é pequena e, assim, podemos tomar o
logaritmo de Um , definido por ln(Um ) = ln(1 + (Um − 1)). Por (4.35) e pela expansão do logaritmo
teremos
ln(Um ) = ln(1 + (Um − 1))

1 1
= ln 1 + 2 (AB − BA) + 3 Rm
m m
1 1
= 2
(AB − BA) + 3 R′m ,
m m
ou seja,
1 ′
m2 ln(Um ) = [A, B] +
R , (4.36)
m m
onde R′m é novamente uma expressão complicada, mas envolvendo séries convergentes e de tal forma
que limm→∞ kR′m kC é finito. Como limm→∞ m1 R′m = 0 podemos escrever, pela Proposição 4.3,

1 ′
exp([A, B]) = lim exp [A, B] + Rm .
m→∞ m
Agora, por (4.36),

1 ′ 2 2
exp [A, B] + Rm = exp m2 ln(Um ) = (exp (ln(Um )))m = (Um )m .
m
Logo,
2
exp([A, B]) = lim (Um )m .
m→∞
Isso é o que desejávamos provar8 .
E. 4.16 Exercı́cio. Demonstre a fórmula de Lie-Trotter usando as idéias da prova da fórmula do

comutador. 6
4.4 Aplicações Lineares em Mat (C, n)

O conjunto de matrizes Mat (C, n) é naturalmente um espaço vetorial complexo de dimensão finita n2 ,
pois combinações lineares de matrizes complexas n × n são novamente matrizes complexas n × n e a
matriz nula faz o papel de vetor nulo. Como tal, há várias aplicações lineares agindo em Mat (C, n).
Vamos nesta seção exibir e estudar algumas dessas aplicações e discutir suas relações. Os resultados aos
quais chegaremos são de interesse por si só, mas nossa intenção é também a de preparar a demonstração
da fórmula de Baker-Campbell-Hausdorff.
• As Aplicações ad
Dada uma matriz X ∈ Mat (C, n) fixa podemos definir uma aplicação linear ad[X] em Mat (C, n),
ad[X] : Mat (C, n) → Mat (C, n) por
ad[X](A) := [X, A] = XA − AX.
para toda matriz A ∈ Mat (C, n).

8
O estudante pode estar curioso (ou perplexo) sobre o por quê de não finalizamos a demonstração partindo de (4.36),
2
escrevendo m2 ln(Um ) = ln((Um )m ) e tomando diretamente daı́ o limite m → ∞. A razão é que o fato de Um ser próximo
de 1 em norma não garante que (Um )m também o seja. Assim, o logaritmo de (Um )m pode não fazer sentido. Para
2 2
evitar esse transtorno lógico é mais conveniente finalizar a demonstração com uso da função exponencial de matrizes,
para a qual tais problemas de definição não ocorrem.
• As Aplicações Ad
Analogamente, seja G ∈ GL(C, n) uma matriz invertı́vel fixa. Podemos definir uma aplicação linear
Ad[G] em Mat (C, n), Ad[G] : Mat (C, n) → Mat (C, n) por
Ad[G](A) := GAG−1 .
• Definindo a Exponenciação de ad
Denotaremos por (ad[X])p ou ad[X]p a p-ésima potência de ad[X]:

ad[X]p (A) = [X, [X, . . . , [X , A].
| {z }
p vezes
Aqui, p = 1, 2, . . .. Para facilitar a notação em aplicações futuras, convencionaremos que ad[X]0 (A) =
A para toda matriz A ∈ Mat (C, n).
Dado que ad[X] é uma aplicação linear em um espaço vetorial de dimensão finita, sua exponencial
é bem definida. Definimos Exp[ad[X]] como sendo a aplicação linear no espaço das matrizes complexas
n × n, Exp[ad[X]] : Mat (C, n) → Mat (C, n) dada por
X∞ X∞
1 1
Exp[ad[X]](A) := (ad[X])m (A) := A + (ad[X])m (A),
m=0
m! m=1
m!
X∞
1
= A+ [X, [X, . . . , [X , A]
m! | {z }
m=1 m vezes
para toda A ∈ Mat (C, n). A convergência da série é automaticamente garantida pelas observações da
Seção 4.2.
• A Relação entre ad e Ad
Há uma relação elegante entre as aplicações ad e Ad, a qual se expressa na seguinte proposição:
Proposição 4.13 Seja X ∈ Mat (C, n) qualquer. Então
Ad[exp(X)] = Exp[ad[X]] , (4.37)
ou seja, para toda matriz A ∈ Mat (C, n) vale
X∞
1
exp(X)A exp(−X) = A + (ad[X])m (A), (4.38)
m=1
m!
ou seja,
X∞
1
exp(X)A exp(−X) = A + [X, [X, . . . , [X , A]
m! | {z }
m=1 m vezes
1 1
= A + [X, A] + [X, [X, A]] + [X, [X, [X, A]]] + · · · . (4.39)
2! 3!
Comentário 1. A expressão (4.38) ou (4.39) é comummente denominada série de Lie, mas alguns
autores também a denominam fórmula de Baker-Campbell-Hausdorff. Reservaremos esse nome apenas
para a expressão (4.46), adiante.
Comentário 2. As expressões (4.38) e (4.39) são empregadas de várias formas na Mecânica Quântica,
na Mecânica Estatı́stica Quântica e na Teoria Quântica de Campos, especialmente na Teoria de Per-
turbações e nas Teorias de Calibre.
Prova. Seja t ∈ R e sejam A e X matrizes complexas n × n fixas quaisquer. Definamos

X∞
tm
Γ1 (t) := Exp[ad[tX]](A) = A + (ad[X])m (A)
m=1
m!
e
Γ2 (t) := Ad[exp(tX)](A) = exp(tX)A exp(−tX).
Vamos mostrar que Γ1 (t) = Γ2 (t) para todo t provando para isso que ambas satisfazem a mesma
equação diferencial linear com a mesma condição inicial.
É trivial constatar que Γ1 (0) = Γ2 (0) = A. Pela definição tem-se
X∞
d tm−1
Γ1 (t) = (ad[X])m (A)
dt m=1
(m − 1)!
∞
!
Xtm−1
= ad[X] (ad[X])m−1 (A)
m=1
(m − 1)!
∞
!
X tm
= ad[X] (ad[X])m (A)
m=0
m!
= ad[X] (Exp[ad[tX]](A))
= ad[X](Γ1 (t)).
Em resumo, Γ1 (t) satisfaz

d
Γ1 (t) = ad[X](Γ1 (t)).
dt
d
Analogamente, calculemos Γ (t).
dt 2
Aplicando a regra de Leibniz9 ,
d d
Γ2 (t) = (exp(tX)A exp(−tX))
dt dt
= X exp(tX)A exp(−tX) − exp(tX)A exp(−tX)X
= ad[X](exp(tX)A exp(−tX))
= ad[X](Γ2 (t)).
Em resumo, Γ2 (t) satisfaz

d
Γ2 (t) = ad[X](Γ2 (t)).
dt
Constatamos assim que Γ1 (t) e Γ2 (t) satisfazem a mesma equação diferencial com a mesma condição
inicial. Pelo Teorema de existência e unicidade de soluções de sistemas de equações diferenciais lineares
com coeficientes constantes discutido na Seção 7.2, isso implica que Γ1 (t) = Γ2 (t) para todo t ∈ R e,
em particular para t = 1, que é a afirmação do teorema.
Comentário. O teorema acima e sua demonstração exemplificam uma situação não muito incomum,
onde apresenta-se um resultado que é muito difı́cil de ser provado por um procedimento mas muito
fácil de ser demonstrado por outro. Tente o leitor demonstrar a identidade (4.38) expandindo as
exponenciais do lado direito em suas séries de Taylor, ou seja, escrevendo
∞ X
X ∞
(−1)l
exp(X)A exp(−X) = X k AX l
k=0 l=0
k!l!
e reordenando as somas de modo a obter o lado esquerdo de (4.38)! Ainda que seja possı́vel provar
(4.38) dessa forma, um tal procedimento é muitı́ssimo mais complexo que aquele que empregamos, e
que faz apenas uso de um fato básico bem conhecido da teoria das equações diferenciais.
E. 4.17 Exercı́cio. Tenha a idéia certa antes de tentar resolver qualquer problema. 6
• A Aplicação Diferencial Exponencial dexp
Seja F (t) uma matriz complexa n × n cujos elementos de matriz (F (t))ij são funções diferenciáveis
em relação a t. Seja também F ′ (t) a matriz cujo elemento ij é dtd (F (t))ij . Em palavras, F ′ (t) é obtida
diferenciando cada elemento de matriz de F (t).
Vamos nos colocar o seguinte problema: como calcular dtd exp(F (t))? O estudante apressado poderia
imaginar que dtd exp(F (t)) = exp(F (t))F ′(t). Isso é, todavia, em geral falso, pois essa regra de derivação
não vale para matrizes! Isso é assim, pois a matriz F ′ (t) não necessariamente comuta com a matriz
9
F (t). Tem-se, em verdade, que para todo m = 1, 2, 3, . . .,

 
m−1
X
d d  
m
(F (t)) = F (t) · · · F (t) = F (t)k F ′ (t)F (t)m−k−1 .
dt dt | {z }
k=0
m vezes
Conseqüentemente,
X∞ Xn−1
d 1
exp(F (t)) = F (t)k F ′ (t)F (t)n−k−1. (4.40)
dt n=1
n!
k=0
Isso motiva a seguinte definição. Para X ∈ Mat (C, n) fixo, definimos uma aplicação linear
dexp[X] : Mat (C, n) → Mat (C, n), denominada aplicação diferencial exponencial, por
X∞ Xn−1
1 k
dexp[X](A) := X AX n−k−1, (4.41)
n=1 k=0
n!
para todo A ∈ Mat (C, n).
E. 4.18 Exercı́cio. Mostre que a série do lado direito está bem definida, ou seja, que é convergente para
todos X e A. 6
Com essa definição podemos, por (4.40), escrever

d
exp(F (t)) = dexp[F (t)](F ′ (t)). (4.42)
dt
Para uma expressão alternativa para a derivada da exponencial de uma matriz dependente de um
parâmetro, vide equação (4.61), página 271.
Por razões que ficarão claras adiante quando provarmos a fórmula de Baker, Campbell e Hausdorff,
é conveniente expressar dexp[X] em termos de ad[X]. Como veremos, é possı́vel fazer isso e o resultado
está expresso na Proposição 4.14 que apresentaremos e demonstraremos a seguir.
Antes, porém, duas definições. Para z ∈ C definimos a função complexa φ(z) por
X∞
1 − e−z (−1)m m
φ(z) := = z . (4.43)
z m=0
(m + 1)!
Como a série de Taylor do lado direito converge para todo z ∈ C, φ(z) é uma função inteira, ou seja, é
analı́tica em toda parte.
Pelos nossos comentários da Seção 4.2, podemos definir para todo X ∈ Mat (C, n) uma aplicação
linear Φ[X] : Mat (C, n) → Mat (C, n) dada por
Φ[X] := φ(ad[X]), (4.44)
ou seja, Φ[X] é a aplicação que a todo A ∈ Mat (C, n) associa a matriz Φ[X](A) dada por
X∞
(−1)m
Φ[X](A) = ad[X]m (A). (4.45)
m=0
(m + 1)!
Pelos comentários da Seção 4.2 a série do lado direito converge para todos X, A ∈ Mat (C, n).
Proposição 4.14 Com as definições apresentadas acima, vale para todos A, X ∈ Mat (C, n) a
expressão
dexp[X](A) = exp(X) Φ[ad[X]](A) ,
ou seja, !
X∞
(−1)m
dexp[X](A) = exp(X) ad[X]m (A) .
m=0
(m + 1)!
2
Também como comentado acima, é inútil tentar provar a proposição partindo de (4.41) e aplicando
força-bruta. A demonstração usará uma série de truques elegantes.
Prova. Vamos definir, para A, X ∈ Mat (C, n) fixas e t ∈ R,
H(t) := t dexp[tX](A).
A idéia é descobrir uma equação diferencial que H(t) satisfaz e, em seguida, resolvê-la. Note-se que,
pela definição, H(0) = 0. Como veremos, resolver a equação diferencial é tarefa relativamente fácil.
Um pouco mais trabalhoso é encontrar a equação diferencial. Para isso temos que calcular a derivada
de H(t) em relação a t.
Pela definição de H(t) e de dexp[tX](A) em (4.41), tem-se
∞ X
n−1 n
!
d d d X t
H(t) = (t dexp[tX](A)) = X k AX n−k−1
dt dt dt n=1 k=0
n!
∞ X
X n−1 X∞ X n
tn−1 k n−k−1 tn k
= X AX = X AX n−k
n=1 k=0
(n − 1)! n=0 k=0
n!
∞ X
X n ∞
X ∞ X
X n
tn k n−k tn n tn
= A+ X AX = A+ AX + X k AX n−k
n=1 k=0
n! n=1
n! n=1 k=1
n!
∞ n
! ∞ X
n ∞ X
n
X t X tn X tn
= A 1+ X n
+ k
X AX n−k
= A exp(tX) + X k AX n−k
n=1
n! n=1 k=1
n! n=1 k=1
n!
∞ X
n
!
X tn−1
= A exp(tX) + tX X k−1 AX n−k
n=1 k=1
n!
∞ X
n−1 n−1
!
X t
= A exp(tX) + tX X k AX n−k−1
n=1 k=0
n!
= A exp(tX) + X (t dexp[tX](A)) = A exp(tX) + XH(t) .

Em resumo, H(t) satisfaz a equação diferencial

d
H(t) = XH(t) + A exp(tX),
dt
com a condição inicial H(0) = 0.
Como estudamos à página 331 da Seção 7.2.2, a solução geral da equação matricial
d
M(t) = XM(t) + G(t)
dt
é Z t
M(t) = exp(tX)M(0) + exp((t − s)X)G(s)ds.
0
Assim, como H(0) = 0 e G(t) = A exp(tX), teremos

Z t
H(t) = exp((t − s)X)A exp(sX) ds
0
Z t Z t
= exp(tX) exp(−sX)A exp(sX) ds = exp(tX) Ad[exp(−sX)](A) ds
0 0
Z t Z tX∞
(4.37) (−s)m
= exp(tX) Exp[−ad[sX]](A) ds = exp(tX) ad[X]m (A) ds
0 0 m=0 m!
X∞ Z t X∞
(−1)m m m (−1)m tm+1
= exp(tX) ad[X] (A) s ds = exp(tX) ad[X]m (A)
m=0
m! 0 m=0
(m + 1)!
X∞
(−1)m tm
= t exp(tX) ad[X]m (A)
m=0
(m + 1)!
(4.45)
= t exp(tX) Φ[tX](A) .
Essa expressão vale para todo t ∈ R. Tomando t = 1, teremos H(1) = exp(X)Φ[X](A), ou seja,
dexp[X](A) = exp(X) Φ[X](A),
Reunindo todos esses resultados, estamos agora preparados para provar a fórmula de Baker, Camp-
bell e Hausdorff.
4.5 A Fórmula de Baker, Campbell e Hausdorff

A presente seção é dedicada á demonstração do seguinte teorema.
Teorema 4.1 (Fórmula de Baker-Campbell-Hausdorff)

Para A, B ∈ Mat (C, n) tais que kAkC
√
1 2
e kBkC sejam ambas menores que 2 ln 2 − 2 ≈ 0, 12844 . . ., vale
exp(A) exp(B) = exp(A ∗ B),

com
k
!
X X X (−1)k Y 1
A∗B = A+B+ ···
k, l≥0 a1 , b1 ≥0 ak , bk ≥0
l!(k + 1)(b1 + · · · + bk + 1) i=1
ai !bi !
k+l>0 a1 +b1 >0 ak +bk >0
× ad[A]a1 ad[B]b1 · · · ad[A]ak ad[B]bk ad[A]l (B). (4.46)

Os primeiros termos de (4.46) são
1 1 1
A ∗ B = A + B + [A, B] + [A, [A, B]] + [B, [B, A]] + · · · (4.47)
2 12 12
2
Comentário. A expressão (4.46) é a célebre fórmula de Baker10 , Campbell11 e Hausdorff12 , que desem-
penha um papel importante no estudo de grupos de Lie e outras áreas. Advertimos que, devido à sua
complexidade e devido à restrição quanto à norma das matrizes A e B, a fórmula de Baker-Campbell-
Hausdorff tem um escopo de aplicações relativamente limitado no que concerne a cômputos de produtos
de exponenciais. A mesma fórmula, porém, presta-se à demonstração de vários teoremas, especialmente
na teoria dos grupos de Lie. Uma situação interessante na qual a fórmula de Baker-Campbell-Hausdorff
pode ser empregada é aquela na qual comutadores de ordem suficientemente grande das matrizes A e
B se anulam, pois aı́ o lado direito de (4.46) ou (4.47) tem um número finito de termos. Tal ocorre nas
chamadas álgebras de Lie nilpotentes. O leitor que procura um exemplo simples do uso de (4.47) pode
interessar-se em ler sobre o chamado grupo de Heisenberg na Seção 14.2.2, página 769.
Prova do Teorema 4.1. A estratégia que empregaremos para provar a fórmula de Baker, Campbell
e Hausdorff é muito semelhante àquela empregada na demonstração da Proposição 4.14. Seja, para
A, B ∈ Mat (C, n) fixas tais que kAkC < ln(2)/2 e kBkC < ln(2)/2, a matriz13
G(t) := ln (exp(A) exp(tB)) , (4.48)
para t ∈ [−1, 1]. Vamos identificar uma equação diferencial satisfeita por G(t), e em seguida resolvê-la.
Comecemos procurando calcular a derivada de G(t) em relação a t. Isso é uma tarefa mais difı́cil do
que parece e procederemos de modo indireto. É conveniente calcular primeiro a derivada de exp(G(t)).
Por um lado temos que
exp(G(t)) = exp(A) exp(tB)
10
Henry Frederick Baker (1866-1956).
11
John Edward Campbell (1862-1924).
12
Felix Hausdorff (1868-1942).
13
A condição kAkC < ln(2)/2 e kBkC < ln(2)/2 garante que k exp(A) exp(tB) − 1kC < 1 para todo t ∈ [−1, 1]. Assim,
o logaritmo de exp(A) exp(tB) em (4.48) está definido.
e, portanto,
d d
exp(G(t)) = exp(A) exp(tB) = exp(A) exp(tB)B.
dt dt
Por outro tem-se, pela definição da aplicação dexp, que
d
exp(G(t)) = dexp[G(t)](G′ (t)).
dt
Portanto,
dexp[G(t)](G′ (t)) = exp(A) exp(tB)B.
Usando a Proposição 4.14 essa última igualdade pode ser escrita como
exp(G(t)) Φ[G(t)](G′ (t)) = exp(A) exp(tB)B,
o que implica que
Φ[G(t)](G′ (t)) = exp(−G(t)) exp(A) exp(tB)B = exp(−tB) exp(−A) exp(A) exp(tB)B = B.
Resumindo, tem-se
Φ[G(t)](G′ (t)) = B. (4.49)
′
A idéia que agora perseguiremos é tentar inverter essa expressão de modo a obter G (t) (que aparece
no argumento de Φ no lado esquerdo).
Para isso faremos uso do seguinte lema:
Lema 4.2 Sejam as funções complexas
1 − e−z
φ(z) := , z ∈ C,
z
já definida em (4.43) e
z ln(z)
ψ(z) := , |z − 1| < 1.
z−1
Então vale
ψ(ez )φ(z) = 1
para todo z tal que |z| < ln 2. 2
Prova. Usando a expansão em série de Taylor da função ln, podemos escrever

X (−1)k−1 ∞
ln(z) ln(1 + (z − 1))
ψ(z) := z = z = z (z − 1)k−1 . (4.50)
z−1 z−1 k=1
k
Isso mostra que ψ(z) é analı́tica na região |z − 1| < 1.

X∞
z z 1 m
Agora, se |z| < ln 2, tem-se que |e − 1| < 1, pois e − 1 = z e
m=1
m!
X∞ X∞
z 1 m 1
|e − 1| ≤ |z| < (ln 2)m = eln 2 − 1 = 1.
m=1
m! m=1
m!
Assim, ez está dentro da região onde ψ é analı́tica, onde vale que

z
z ez 1 − e−z
ψ(e )φ(z) = = 1,
ez − 1 z
O uso que faremos desse lema é o seguinte. Seja X ∈ Mat (C, n) qualquer. Por analogia com a
definição de Φ[X] em (4.44), definimos
Ψ[X] := ψ(Exp[ad[X]]) = ψ(Ad[exp(X)])
Assim,
Ψ[X]Φ[X] := ψ(Exp[ad[X]])φ(ad[X]) = id,
onde id é a aplicação identidade: id(A) := A, para toda A ∈ Mat (C, n). Portanto, aplicando Ψ[G(t)]
a (4.49), teremos
G′ (t) = Ψ[G(t)](B).
Essa é a equação diferencial procurada e que é satisfeita por G(t), com a condição inicial G(0) = A.
Para prosseguir devemos escrevê-la de forma mais conveniente.
Pela definição da aplicação Ad, é bem fácil ver que
Ad[eX eY ] = Ad[eX ]Ad[eY ].
Assim,
Ψ[G(t)] = ψ (Ad[exp(G(t)))]) = ψ (Ad[exp(A) exp(tB))])
= ψ (Ad[exp(A)] Ad[exp(tB))]) = ψ (Exp[ad[A]] Exp[ad[tB]]) .
A equação diferencial para G(t) assume, portanto, a forma
G′ (t) = ψ (Exp[ad[A]] Exp[ad[tB]]) (B), (4.51)
com G(0) = A.
Antes de passarmos à resolução dessa equação, comentemos brevemente que o lado direito de (4.51)
está bem definido desde que a norma de Exp[ad[A]] Exp[ad[tB]] seja menor que ln(2), devido à definição
de ψ. Uma conta simples, mas que omitiremos aqui, garante que isso se dá desde que kAkC e kBkC
√
1 2
sejam ambas menores que 2 ln 2 − 2 ≈ 0, 12844 . . ..
Isto posto, nossa tarefa agora é resolver (4.51), o que pode ser feito por uma simples integração.
Teremos, portanto,
Z t Z t
′
G(t) − G(0) = G (s) ds = ψ (Exp[ad[A]] Exp[ad[sB]]) (B) ds.
0 0
Tomando-se t = 1 teremos
Z 1
A B

ln e e = A+ ψ (Exp[ad[A]] Exp[ad[sB]]) (B) ds. (4.52)
0
Estando já na reta final, resta-nos calcular a integral do lado direito, o que pode ser feito com o uso
da expansão em série de ψ dada em (4.50) e um pouco de paciência. É o que faremos.
Por (4.50), teremos
ψ (Exp[ad[A]] Exp[ad[sB]]) (B)

∞
X (−1)k−1
= (Exp[ad[A]] Exp[ad[sB]]) (Exp[ad[A]] Exp[ad[sB]] − id)k−1 (B)
k=1
k
" ∞
#
X (−1)k−1
= (Exp[ad[A]] Exp[ad[sB]] − id)k−1 Exp[ad[A]] Exp[ad[sB]](B)
k=1
k
"∞ #
X (−1)k−1 k−1
= (Exp[ad[A]] Exp[ad[sB]] − id) Exp[ad[A]](B), (4.53)
k=1
k
onde, na última passagem usamos o fato óbvio que
Exp[ad[sB]](B) = Ad[exp(sB)](B) = exp(sB)B[exp(−sB) = B.
Desejamos escrever esta última expressão diretamente em termos das aplicações ad[A]] e ad[sB].
O último fator, Exp[ad[A]], é simplesmente
X∞
1
Exp[ad[A]] = ad[A]l . (4.54)
l=0
l!
Fora isso,
X∞ X ∞ X
1 1
Exp[ad[A]] Exp[ad[sB]] − id = ad[A]a ad[sB]b − id = sb ad[A]a ad[B]b .
a=0 b=0
a!b! a, b≥0
a!b!
a+b>0
Com isso,
(Exp[ad[A]] Exp[ad[sB]] − id)k−1
X X sb1 +···+sk−1
= ··· ad[A]a1 ad[B]b1 · · · ad[A]ak−1 ad[B]bk−1 . (4.55)
a1 , b1 ≥0 ak−1 , bk−1 ≥0
a1 !b1 ! · · · ak−1 !bk−1 !
a1 +b1 >0 ak−1 +bk−1 >0
Inserindo-se (4.54) e (4.55) em (4.53) tem-se
Z 1
ψ (Exp[ad[A]] Exp[ad[sB]]) (B) ds
0
Z ∞ X
∞ k−1
!
1X X X k−1 b1 +···+bk−1 Y
(−1) s 1
= ···
0 k=1 l=0 a1 , b1 ≥0 ak−1 , bk−1 ≥0
l!k i=1
ai !bi !
a1 +b1 >0 ak−1 +bk−1 >0
× ad[A]a1 ad[B]b1 · · · ad[A]ak−1 ad[B]bk−1 ad[A]l (B) ds. (4.56)

Trocando-se a integral pelas somas
Z 1
ψ (Exp[ad[A]] Exp[ad[sB]]) (B) ds
0
∞
∞ X k−1
!
X X X (−1)k−1 Y 1
= ···
k=1 l=0 a1 , b1 ≥0 ak−1 , bk−1 ≥0
l!k i=1
ai !bi !
a1 +b1 >0 ak−1 +bk−1 >0
Z 1
a1 b1 ak−1 bk−1 l
× ad[A] ad[B] · · · ad[A] ad[B] ad[A] (B) sb1 +···+bk−1 ds
0
∞ X
∞ k−1
!
X X X (−1)k−1 Y 1
= ···
k=1 l=0 a1 , b1 ≥0 ak−1 , bk−1 ≥0
l!k(b1 + · · · + bk−1 + 1) i=1
ai !bi !
a1 +b1 >0 ak−1 +bk−1 >0
× ad[A]a1 ad[B]b1 · · · ad[A]ak−1 ad[B]bk−1 ad[A]l (B)
∞ X
∞ k
!
X X X (−1)k Y 1
= ···
k=0 l=0 a1 , b1 ≥0 ak , bk ≥0
l!(k + 1)(b1 + · · · + bk + 1) i=1
ai !bi !
a1 +b1 >0 ak +bk >0
× ad[A]a1 ad[B]b1 · · · ad[A]ak ad[B]bk ad[A]l (B). (4.57)

Na última igualdade fizemos apenas a mudança de variáveis k → k + 1.

Retornando a (4.52), temos então ln eA eB = A ∗ B, onde
∞ X
∞ k
!
X X X (−1)k Y 1
A∗B = A+ ···
k=0 l=0 a1 , b1 ≥0 ak , bk ≥0
l!(k + 1)(b1 + · · · + bk + 1) i=1
ai !bi !
a1 +b1 >0 ak +bk >0
× ad[A]a1 ad[B]b1 · · · ad[A]ak ad[B]bk ad[A]l (B) (4.58)

É fácil ver que o termo com k = l = 0 nas somas do lado direito é igual a B. Com essa identificação,
finalmente chega-se a (4.46).
Como já comentamos a convergência é garantida se kAkC e kBkC forem
√
ambas menores que 21 ln 2 − 22 ≈ 0, 12844 . . ..
E. 4.20 Exercı́cio importante. Colecionando os termos com a1 + b1 + · · · + ak + bk + l ≤ 2 em (4.46),

mostre que os primeiros termos de A ∗ B são aqueles dados em (4.47), página 265. 6
Comentário. Um comentário que adiantamos é que, como discutiremos melhor no Capı́tulo 15, o
produto “∗” expresso em (4.46), define uma estrutura de grupo em sub-álgebras de Lie nilpotentes de
Mat (C, n). De fato, é possı́vel provar que “∗” é um produto associativo (pois o produto de exponenciais
de matrizes é associativo) e é fácil ver que A ∗ 0 = A e que A ∗ (−A) = 0 para toda matriz A. Com
isso, a matriz nula é o elemento neutro do grupo e −A é a inversa de A. Isso também mostra que é por
vezes possı́vel construir um produto associativo a partir de outro não-associativo, como o comutador
de matrizes.
4.6 A Fórmula de Duhamel e Algumas de suas Conseqüências

Nesta seção demonstraremos a Fórmula de Duhamel14 :
Z 1

exp(A + B) = exp(A) + exp (1 − s)(A + B) B exp sA ds , (4.59)
0
válida para quaisquer matrizes A, B ∈ Mat (C. n), e estudaremos algumas de suas conseqüências. A
demonstração é simples. Diferenciando-se es(A+B) e−sA em relação a s, tem-se

d s(A+B) −sA d s(A+B) −sA s(A+B) d −sA
e e = e e +e e
ds ds ds

s(A+B) −sA s(A+B) −sA
= e (A + B) e +e (−A) e
= es(A+B) B e−sA .
Integrando-se ambos os lados entre 0 e t, obtem-se
Z t
et(A+B) −tA
e −1 = es(A+B) B e−sA ds ,
0
de onde segue que Z t

et(A+B)
= e tA
+ es(A+B) B e−(s−t)A ds ,
0
14
Jean Marie Constant Duhamel (1797-1872).
A mudança de variável de integração s → t − s conduz a

Z t
t(A+B) tA
e = e + e(t−s)(A+B) B esA ds . (4.60)
0
Para t = 1, isso reduz-se a (4.59), que é o que querı́amos provar. De (4.60) podem ser extraı́das várias
relações úteis, que trataremos agora.
• Derivada de uma exponencial em relação a um parâmetro
Uma das conseqüências mais úteis da fórmula de Duhamel é uma relação para a derivada da ex-
ponencial de uma matriz que depende de um parâmetro. Seja A(λ) ∈ Mat (C. n) uma matriz que
depende contı́nua e diferenciavelmente de um parâmetro λ. Então vale
Z 1
d A(λ) (1−s)A(λ) d
e = e A(λ) esA(λ) ds . (4.61)
dλ 0 dλ
Essa relação tem aplicações em equações diferenciais e na Mecânica Estatı́stica, dentro e fora do
equilı́brio. Alguns autores também denominam-na fórmula de Duhamel. O leitor deve compará-la
à expressão alternativa (4.42). Passemos à demonstração.
Sendo A(λ) diferenciável, vale, para todo ǫ suficientemente pequeno,
d
A(λ + ǫ) = A(λ) + ǫ A(λ) + R(λ, ǫ), (4.62)
dλ
onde
1
lim R(λ, ǫ) = 0 . (4.63)
ǫ→0 ǫ
Tem-se, então,

d def. 1
exp(A(λ)) = lim exp(A(λ + ǫ)) − exp(A(λ))
dλ ǫ→0 ǫ

(4.62) 1 d
= lim exp A(λ) + ǫ A(λ) + R(λ, ǫ) − exp (A(λ))
ǫ→0 ǫ dλ
Z 1
(4.59) 1 A(λ) (1−s)(A(λ)+ǫ dA (λ)+R(λ, ǫ)) dA sA(λ) A(λ)
= lim e + e dλ ǫ (λ) + R(λ, ǫ) e ds − e
ǫ→0 ǫ 0 dλ
Z 1
(1−s)(A(λ)+ǫ dA (λ)+R(λ, ǫ)) dA sA(λ)
= lim e dλ (λ) e ds
ǫ→0 0 dλ
Z 1
(1−s)(A(λ)+ǫ dA (λ)+R(λ, ǫ)) 1 sA(λ)
+ lim e dλ R(λ, ǫ) e ds
ǫ→0 0 ǫ
Z 1 Z 1
(1−s)A(λ) dA sA(λ) (1−s)A(λ) 1 sA(λ)
= e (λ) e ds + e lim R(λ, ǫ) e ds
0 dλ 0 ǫ→0 ǫ
Z 1
(4.63) (1−s)A(λ) dA
= e (λ) esA(λ) ds ,
0 dλ
como querı́amos demonstrar.
• Iterando a fórmula de Duhamel
Na expressão (4.60) exponenciais do tipo eλ(A+B) aparecem em ambos os lados. Isso sugere que
podemos inserir iterativamente (4.60) dentro de si mesma de modo a obter outras expressões recorrentes,
como apresentado nas passagens auto-explicativas abaixo. Partindo de (4.60) e repetindo a iteração
duas vezes, tem-se
Z t
t(A+B) tA
e = e + e(t−s1 )(A+B) B es1 A ds1
0
Z t Z t−s1
tA (t−s1 )A (t−s1 −s2 )(A+B) s2 A
= e + e + e Be ds2 B es1 A ds1
0 0
Z t Z tZ t−s1
= e tA
+ e(t−s1 )A
Be s1 A
ds1 + e(t−s1 −s2 )(A+B) B es2 A B es1 A ds2 ds1
0 0 0
Z t
tA
= e + e(t−s1 )A B es1 A ds1 +
0
Z tZ t−s1 Z t−s1 −s2
(t−s1 −s2 )A (t−s1 −s2 −s3 )(A+B) s3 A
e + e Be ds3 B es2 A B es1 A ds2 ds1
0 0 0
Z t Z tZ t−s1
= e tA
+ e(t−s1 )A
Be s1 A
ds1 + e(t−s1 −s2 )A B es2 A B es1 A ds2 ds1
0 0 0
Z tZ t−s1 Z t−s1 −s2
+ e(t−s1 −s2 −s3 )(A+B) B es3 A B es2 A B es1 A ds3 ds2 ds1 .
0 0 0
Repetindo-se N vezes o procedimento, teremos

" Z t
et(A+B)
= e 1+
tA
e−s1 A B es1 A ds1
0
N Z tZ Z m−1
#
X t−s1 t−s1 −···−sm−1 Y
+ ··· e−(s1 +···+sm )A B esm−k A
dsm · · · ds1
m=2 0 0 0 k=0
Z tZ t−s1 Z t−s1 −···−sm m

Y
+ ··· e(t−s1 −···−sm+1 )(A+B) B esm+1−k A dsm+1 · · · ds1 ,(4.64)
0 0 0 k=0
para todo N ∈ N, N ≥ 2, sendo que convencionamos definir a produtória de matrizes da esquerda

L
Y
para a direita, ou seja, na forma Mk = M1 · · · ML (é necessário fixar uma convenção devido à
k=1
não-comutatividade do produto de matrizes). Com as mudanças de variáveis
t1 = t − s1 s1 = t − t1
t2 = t − (s1 + s2 ) s2 = t1 − t2
.. , .. ,
. .
tm = t − (s1 + · · · + sm ) sm = tm−1 − tm
podemos reescrever as integrais entre colchetes acima na forma
" Z t N Z t Z t1 Z tm−1 m−1 #
X Y
et(A+B) = 1 + et1 A B e−t1 A dt1 + ··· etm−k A B e−tm−k A dtm · · · dt1 etA
0 m=2 0 0 0 k=0
Z tZ t−s1 Z t−s1 −···−sm m

Y
(t−s1 −···−sm+1 )(A+B)

+ ··· e B esm+1−k A dsm+1 · · · ds1 . (4.65)
0 0 0 k=0
Substituindo A → A∗ e B → B ∗ na expressão acima, tomando a adjunta da expressão resultante e

usando o fato que, para qualquer matriz M ∈ Mat (C, n), vale (exp (M ∗ ))∗ = exp(M), obtem-se
" Z t N Z t Z t1 Z tm−1 Y
m
#
X
et(A+B)
= e 1+
tA
e−t1 A t1 A
B e dt1 + ··· e −tk A
Betk A
dtm · · · dt1
0 m=2 0 0 0 k=1
Z tZ Z "m+1 #
t−s1 t−s1 −···−sm Y
+ ··· esk A B e(t−s1 −···−sm+1 )(A+B) dsm+1 · · · ds1 . (4.66)
0 0 0 k=1
Para matrizes ou elementos de uma álgebra-∗ de Banach é possı́vel tomar o limite N → ∞ nas
expressões (4.64)-(4.66), como na proposição que segue.
Proposição 4.15 Sejam matrizes A, B ∈ Mat (C, n). Então,
" Z t
et(A+B) tA
= e 1+ e−s1 A B es1 A ds1
0
∞ Z tZ Z m−1
#
X t−s1 t−s1 −···−sm−1 Y
+ ··· e−(s1 +···+sm )A B esm−k A
dsm · · · ds1 , (4.67)
m=2 0 0 0 k=0
ou, equivalentemente,
" Z t ∞ Z tZ Z m
#
X t1 tm−1 Y
et(A+B)
= e 1+
tA
e−t1 A t1 A
B e dt1 + ··· e−tk A B etk A
dtm · · · dt1 , (4.68)
0 m=2 0 0 0 k=1
para todo t ∈ R, a convergência sendo uniforme para t em compactos. As expansões em série acima
são denominadas séries de Duhamel. 2
Prova. A prova consiste em mostrar que o limite N → ∞ de (4.64) ou (4.66) existe. Tomemos
provisoriamente t ∈ [−T, T ] para
algum T > 0. Para τ ∈ [−T, T ], tem-se keτ A k ≤ e|τ |kAk ≤ eT kAk .
Seja M := max eT kAk , eT kA+Bk . Tem-se
Z Z Z tm−1 Y
t t1 m

−tk A tk A
··· e Be dtm · · · dt1
0 0 0
k=1
Z tZ t1 Z tm−1 m
2m m (M 2 kBk|t|)
≤ M kBk ··· dtm · · · dt1 =
0 0 0 m!
e, analogamente,
Z Z Z t−s1 −···−sm
t t−s1 m
Y (MkBk|t|)m+1
t−(s1 +···+sm+1 )(A+B) sm+1−k A
··· e Be dsm+1 · · · ds1 ≤ M .
0 0 0 (m + 1)!
k=0
As duas desigualdades provam a convergência uniforme para t ∈ [−T, T ]. Como T é arbitrário, a

convergência se dá para todo t ∈ R.
Na Seção 7.4, página 343, apresentamos uma generalização da expressão (4.68), a chamada série de
Dyson para da teoria de perturbações (vide, em particular, a expressão (7.26)).
• Outros resultados análogos
O método de demonstração da fórmula de Duhamel apresentado acima pode ser empregado na

obtenção de outros resultados. Sejam novamente matrizes A, B ∈ Mat (C, n). Então, vale
Z t
tB
[A, e ] = e(t−s)B [A, B]esB ds . (4.69)
0
d

Para a prova, observamos que ds
e−sB AesB = e−sB [A, B]esB (justifique!). Integrando-se ambos os
lados de 0 a t, obtem-se Z t
−tB
e tB
Ae −A = e−sB [A, B]esB ds . (4.70)
0
Multiplicando-se à esquerda por etB chega-se à expressão (4.69). Expressões como (4.69) são emprega-
das na teoria de perturbações na Mecânica Quântica.
Parte III
Equações Diferenciais
275
Capı́tulo 5
Equações Diferenciais Ordinárias. Uma Introdução
Conteúdo
5.1 Definição e Alguns Exemplos . . . . . . . . . . . . . . . . . . . . . . . . . . 277
5.1.1 Equações Diferenciais Ordinárias Lineares . . . . . . . . . . . . . . . . . . . . 279
5.1.2 Equações Ordinárias de Segunda Ordem. Exemplos de Interesse . . . . . . . 283
5.2 Sistemas de Equações Diferenciais Ordinárias . . . . . . . . . . . . . . . . 285
5.3 Discussão sobre Problemas de Valor Inicial . . . . . . . . . . . . . . . . . . 290
5.3.1 Problemas de Valor Inicial. Patologias e Exemplos a se Ter em Mente . . . . 293
5.3.2 Teoremas de Existência e Unicidade de Soluções . . . . . . . . . . . . . . . . 296
5.3.3 Soluções Globais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 298
5.3.4 Dependência Contı́nua de Condições Iniciais e de Parâmetros . . . . . . . . . 300
N este capı́tulo apresentaremos uma breve introdução à teoria das equações diferenciais or-
dinárias, abordando vários assuntos que serão aprofundados em outros capı́tulos. Na Fı́sica,
equações diferenciais são representações matemáticas diretas ou indiretas de leis naturais e
não é de surpreender, portanto, o papel central que as mesmas nela desempenham. Pode-se,
sem medo de exagero, afirmar que o desenvolvimento da Fı́sica moderna pós-Newtoniana só se tornou
possı́vel quando se compreendeu a importância de se expressar as leis básicas da natureza em termos
de equações diferenciais e quando se desenvolveram métodos de resolução das mesmas. Desde o século
XVIII as equações diferenciais tornaram-se não apenas um dos principais instrumentos teóricos de
trabalho dos fı́sicos, mas a linguagem mesma pela qual as leis da Fı́sica se expressam.
Um exemplo básico é segunda lei de Newton da Mecânica Clássica, que popularmente consiste na
afirmação que para uma partı́cula de massa m (movendo-se em, digamos, em uma dimensão, do ponto
de vista de um referencial inercial) o produto de sua massa por sua aceleração é igual à força que age
sobre ela. Se y(t) é a posição da partı́cula (em um sistema de referência inercial) e a força F que age
sobre ela em um instante de tempo t depender apenas do tempo t, da posição y(t) no instante t e
da velocidade ẏ(t) no mesmo instante t, então a segunda lei de Newton assume a forma da equação
diferencial ordinária de segunda ordem
mÿ(t) = F (t, y(t), ẏ(t)) .
A Fı́sica apresenta outros exemplos de leis que se expressam em termos de equações diferenciais (parci-
ais), tais como as leis do Eletromagnetismo (equações de Maxwell), da Mecânica dos Fluidos (equações
de Euler e de Navier-Stokes), da Mecânica Quântica (equações de Schrödinger, de Klein-Gordon e de
Dirac), na Teoria da Relatividade Geral (equação de Einstein) etc.
Atualmente, o estudo das equações diferenciais e suas aplicações estende-se a outras sub-áreas da
Fı́sica, tais como a quı́mica, a biologia, a economia, finanças etc. , Para excelentes introduções, legı́veis
profundas e abrangentes, à teoria das equações diferenciais ordinárias, recomendamos [6] e [69].
276
5.1 Definição e Alguns Exemplos

Vamos iniciar nossa discussão tentando, de um modo geral e abstrato, definir o que se entende por uma
equação diferencial ordinária (que, seguindo a praxe, abreviaremos por EDO).
• Definição geral de EDOs
Em termos simples, uma equação diferencial ordinária é uma relação a ser satisfeita por uma função
de uma variável e um conjunto finito de suas derivadas. Vamos tentar formalizar essa idéia.
Seja n ≥ 1 um número natural e seja G(x1 , . . . , xn+2 ) uma função (real ou complexa) de n + 2
variáveis (reais ou complexas). Entende-se por uma equação diferencial ordinária de ordem n de uma
função (incógnita) y de uma variável t associada à função G a equação
G(t, y(t), y ′ (t), . . . , y (n) (t)) = 0 . (5.1)
Assim sendo, o número n é dito ser a ordem da equação. Como dissemos, apenas as derivadas de
uma função incógnita em relação a uma das variáveis da qual eventualmente depende ocorrem em uma
equação diferencial ordinária. Se ocorrerem derivadas em relação a várias variáves, a equação é dita ser
uma equação diferencial parcial. Equações diferenciais parciais serão discutidas em outros capı́tulos,
adiante.
Um exemplo (escolhido arbitrariamente, sem aplicação prática conhecida) seria o caso da função de
três variáveis
G(x1 , x2 , x3 ) = x21 + sen(x2 ) − 3x1 cos(x3 ) . (5.2)
A equação diferencial ordinária de primeira ordem associada a essa função seria
t2 + sen(y(t)) − 3t cos(y ′ (t)) = 0 . (5.3)
É evidente que só faz sentido associar uma equação diferencial a uma função G de n + 2 variáveis,
como acima, se a mesma possuir zeros, ou seja, se a equação algébrica G(x1 , . . . , xn+2 ) = 0 possuir
soluções (reais ou complexas, dependendo do interesse). Por exemplo, se G(x1 , x2 , x3 ) é uma função
de três variáveis reais ou complexas da forma G(x1 , x2 , x3 ) = |x1 |2 + |x2 |2 + |x3 |2 + 1 então não há
nenhuma equação diferencial associada à mesma, já que não há números reais ou complexos tais que
G(x1 , x2 , x3 ) = 0 e, portanto, a equação |t|2 + |y(t)|2 + |y ′(t)|2 + 1 = 0, ainda que possa ser escrita,
trivialmente não possui qualquer solução.
Em muitos casos a equação algébrica G(x1 , . . . , xn+2 ) = 0 permite escrever de modo único (ao
menos em uma região finita) a variável xn+2 em termos das demais:
xn+2 = F (x1 , . . . , xn+1 ) , (5.4)
onde F é alguma função de n+1 variáveis. Condições para isso são garantidas pelo importante Teorema
da Função Implı́cita (vide Seção 18.5, página 1024, ou qualquer bom livro-texto sobre funções de várias
variáveis). Nesses casos felizes, a equação diferencial para G equivale (ao menos localmente) à equação
y (n) (t) = F (t, y(t), . . . , y (n−1) (t)) . (5.5)

Nos casos em que G é tal que não permite a separação global da dependência de xn+2 como em (5.4)
a equação diferencial é dita ser uma equação diferencial implı́cita. Equações implı́citas são por vezes
difı́ceis de lidar. Trataremos da solução de algumas delas no Capı́tulo 6, página 302. Um exemplo de
uma equação implı́cita foi apresentado em (5.2)-(5.3). Outro exemplo é a equação diferencial (associada
à conservação de energia mecânica de uma partı́cula de massa m se movendo em uma dimensão sob a
ação de um potencial U):
m
(ẏ(t))2 + U(y(t)) = E ,
2
onde E é uma constante.
Daqui por diante estaremos mais freqüentemente interessados em equações diferenciais de ordem
n da forma (5.5) para alguma função de n + 1 variáveis F . Para ilustrar equações do tipo (5.5),
apresentemos mais alguns exemplos.
Exemplo 5.1 Sejam m, ρ e k constantes positivas e f uma função de uma variável. Seja G a função
de quatro variáveis
G(x1 , x2 , x3 , x4 ) = mx4 + kx2 + ρx3 − f (x1 ) .
É evidente que para a equação algébrica G(x1 , x2 , x3 , x4 ) = 0 podemos escrever
x4 = F (x1 , x2 , x3 ) ,
onde
1
F (x1 , x2 , x3 ) = − (kx2 + ρx3 − f (x1 )) .
m
A equação diferencial (de segunda ordem) associada a essa função F é ÿ(t) = F (t, y(t) ẏ(t)), ou
seja
mÿ(t) + ρẏ(t) + ky(t) = f (t) .
O estudante pode imediatamente reconhecer que se trata da equação do oscilador harmônico amortecido
submetido a uma força dependente do tempo f (t). ◊
Vamos a outros exemplos escritos diretamente em termos da função F .

Exemplo 5.2 Sejam g e l duas constantes positivas e seja F a função
g
F (x1 , x2 , x3 ) = − sen(x2 ) .
l
A equação diferencial (de segunda ordem) associada a essa função F é
g
ÿ(t) = − sen(y(t)) .
l
O estudante pode imediatamente reconhecer que se trata da equação do pêndulo simples. ◊
Exemplo 5.3 (Equação de van der Pol) Sejam µ e k constantes e
F (x1 , x2 , x3 ) = −µx3 (x22 − 1) − kx2 .
A equação diferencial (de segunda ordem) associada a essa função F é
y ′′(t) + µy ′(t)(y(t)2 − 1) + ky(t) = 0 .

Esta equação é conhecida como equação de van der Pol1 , em honra ao engenheiro que a propôs como
a equação básica para o triodo (uma espécie de “avô” do transistor). ◊
Exemplo 5.4 Sejam α e β constantes e
F (x1 , x2 ) = −αx2 + βx22 .
A equação diferencial (de primeira ordem) associada a essa função F é
y ′(t) = −αy(t) + βy(t)2 .
Essa equação aparece em vários problemas, por exemplo no estudo da evolução de populações. ◊
Vários outros exemplos serão apresentados adiante.
• A noção de solução clássica de uma EDO
Algumas palavras devem ser ditas sobre a noção de solução de uma equação diferencial ordinária.
Uma solução clássica de uma equação diferencial ordinária de ordem m em um domı́nio Ω ⊂ R ou
Ω ⊂ C (suposto conexo e de interior não-vazio) é uma função m-vezes diferenciável que satisfaz a
equação em todos os pontos do interior de Ω. Existem também outras noções de solução, como a de
solução fraca, de solução distribucional etc. Discutiremos por ora apenas as soluções clássicas e, por
isso, abusando um pouco da linguagem, nos referiremos a elas simplesmente como “soluções”, sem
pender o qualificativo “clássicas”.
5.1.1 Equações Diferenciais Ordinárias Lineares

No estudo das equações diferenciais é muito útil classificar equações que possuam certas propriedades
comuns. Uma classificação muito importante é aquela que separa as equações diferenciais em lineares
e não-lineares e as primeiras em homogêneas e não-homogêneas.
• Equações diferenciais ordinárias lineares
Seja a equação diferencial ordinária de ordem n
y (n) (t) = F (t, y(t), . . . , y (n−1) (t)) . (5.6)
Se a função F (x1 , . . . xn+1 ) for uma função linear das variáveis x2 , . . . xn+1 , então (5.6) é dita ser
linear. Em um tal caso, F (x1 , . . . xn+1 ) é da forma
F (x1 , . . . xn+1 ) = f1 (x1 ) + f2 (x1 )x2 + · · · + fn+1 (x1 )xn+1 ,
para certas funções de uma variável f1 , . . . , fn+1 .

1
Balthazar van der Pol (1889-1959). Os trabalhos originais de van der Pol sobre a equação que leva seu nome são: B.
van der Pol, Radio Rev. 1, 704-754, (1920) e B. van der Pol, “Forced oscillations in a circuit with non-linear resistance
(reception with reactive triode)”, Phil. Mag. 3, 65-80, (1927).
É fácil constatar que toda equação diferencial ordinária e linear de ordem n é da forma
y (n) (t) + an−1 (t)y (n−1) (t) + · · · + a1 (t)y ′ (t) + a0 (t)y(t) = f (t) , (5.7)
para funções reais ou complexas a0 , . . . , an−1 e f . Veremos inúmeros exemplos adiante (vide Seção
5.1.2).
Equações que não são lineares são (obviamente) ditas ser não-lineares. Exemplos são a equação do
pêndulo simples
ẍ(t) + sen(x(t)) = 0
e a de van der Pol
ÿ(t) + µẏ(t)(y(t)2 − 1) + ky(t) = 0 .
Equações não-lineares são em muitos sentidos mais “complexas” que equações lineares e têm sido ob-
jeto de intenso estudo nas últimas décadas, especialmente no que concerne ao comportamento “caótico”
observado em muitas delas. Nos capı́tulos que seguem, nossa ênfase será o desenvolvimento de métodos
de resolução de equações lineares, mas trataremos de métodos de resolução de algumas equações não-
lineares no Capı́tulo 6, página 302, e também no Capı́tulo 18 quando desenvolvermos métodos recursivos
no tratamento das equações integrais de Fredholm e de Volterra.
• Equações diferenciais ordinárias lineares a coeficientes constantes
Caso as funções a0 , . . . , an−1 em (5.7) sejam constantes, a equação (5.7) é dita ser a equação
a coeficientes constantes. Como discutiremos, há um método geral para obter soluções de equações
diferenciais ordinárias lineares a coeficientes constantes (para qualquer ordem n).
• Equações lineares homogêneas e não-homogêneas
Caso a função f seja identicamente nula, a equação (5.7) é dita ser uma equação diferencial ho-
mogênea. De outra forma, se f não for identicamente nula, equação (5.7) é dita ser uma equação
diferencial não-homogênea.
Equações lineares e homogêneas têm uma propriedade de grande importância, o chamado princı́pio
de sobreposição, do qual trataremos agora.
• O princı́pio de sobreposição para equações lineares homogêneas
Seja uma equação diferencial ordinária linear e homogênea de ordem n
y (n) (t) + an−1 (t)y (n−1) (t) + · · · + a1 (t)y ′(t) + a0 (t)y(t) = 0 . (5.8)
O chamado princı́pio de sobreposição é a afirmativa que se ya e yb são duas soluções de (5.8) então
combinações lineares arbitrárias αya + βyb são também soluções de (5.8). Aqui α e β são números reais
(k) (k)
ou complexos arbitrários. A prova é simples. A k-ésima derivada de αya + βyb é αya + βyb . Assim,
substituindo-se y por αya + βyb no lado esquerdo de (5.8), teremos
(αya + βyb )(n) + an−1 (t)(αya + βyb )(n−1) + · · · + a1 (t)(αya + βyb )′ + a0 (t)(αya + βyb) =
(n) (n−1)
(αya(n) + βyb ) + an−1 (t)(αya(n−1) + βyb ) + · · · + a1 (t)(αya′ + βyb′ ) + a0 (t)(αya + βyb) =
 
α ya(n) + an−1 (t)ya(n−1) + · · · + a1 (t)ya′ + a0 (t)ya 

| {z }
=0
 
(n) (n−1)
+ β yb + an−1 (t)yb + · · · + a1 (t)yb′ + a0 (t)yb  = 0 .
| {z }
=0
Uma conclusão importante que se extrai do princı́pio de sobreposição é que o conjunto de todas
as soluções de uma equação diferencial ordinária linear e homogênea é um espaço vetorial, real ou
complexo, dependendo do caso.
Como o estudante facilmente percebe, o princı́pio de sobreposição vale também para sistemas de
equações diferenciais ordinárias lineares e homogêneas, assim como para equações diferenciais parciais
lineares e homogêneas, tais como as equações de difusão, de onda, de Laplace, as equações de Maxwell no
vácuo, a equação de Schrödinger e muitas outras equações da Fı́sica. Nelas o princı́pio de sobreposição
é amplamente empregado.
Historicamente, o princı́pio de sobreposição era conhecido desde os primeiros estudos sobre equações
diferenciais no século XVIII, mas foi através dos trabalhos de Helmholtz2 sobre acústica que sua im-
portância foi inteiramente percebida na resolução de equações diferenciais (ordinárias e parciais) lineares
de interesse fı́sico. A influência de Helmholtz não pode ser subestimada, mesmo no que concerne a
aplicações práticas: a leitura de Helmholtz, que também inventara um dispositivo eletromecânico para
a produção artificial do som de vogais, inspirou Bell3 a realizar experiências de transmissão simultânea
de múltiplos sinais de código Morse4 em uma única linha telegráfica, empregando freqüências distintas
para cada mensagem. Tais experiências conduziram Bell em 1876 à invenção do telefone.
• O caso de equações lineares não-homogêneas
Vamos colocar a seguinte questão. Vale o princı́pio de sobreposição para equações diferenciais
ordinárias lineares não-homogêneas? Para tentar responder isso, considere-se a equação não-homogênea
y (n) (t) + an−1 (t)y (n−1) (t) + · · · + a1 (t)y ′(t) + a0 (t)y(t) = f (t) (5.9)
e sejam ya e yb duas soluções. Como acima, consideremos uma combinação linear αya + βyb e tentemos
repetir o que fizemos no caso homogêneo. Assim, substituindo-se y por αya + βyb no lado esquerdo de
2
Hermann Ludwig Ferdinand von Helmholtz (1821-1894).
3
Alexander Graham Bell (1847-1922).
4
Samuel Finley Breese Morse (1791-1872).
(5.9), teremos
(αya + βyb )(n) + an−1 (t)(αya + βyb )(n−1) + · · · + a1 (t)(αya + βyb )′ + a0 (t)(αya + βyb) =
(n) (n−1)
(αya(n) + βyb ) + an−1 (t)(αya(n−1) + βyb ) + · · · + a1 (t)(αya′ + βyb′ ) + a0 (t)(αya + βyb) =
 
 
α ya(n) + an−1 (t)ya(n−1) + · · · + a1 (t)ya′ + a0 (t)ya 
| {z }
= f (t)
 
 (n) (n−1) 
+ β yb + an−1 (t)yb + · · · + a1 (t)yb′ + a0 (t)yb  = (α + β)f (t) .
| {z }
= f (t)
O que concluı́mos é que αya + βyb somente é uma nova solução de (5.9) se α + β = 1. Portanto, se ya
e yb são soluções de (5.9) então αya + (1 − α)yb é também solução de (5.9) para qualquer α.
Vimos que o princı́pio de sobreposição para equações não-homogêneas não se dá para α e β ar-
bitrários. Não se pode mais, portanto, dizer que o conjunto de soluções de uma equação não-homogênea
como (5.9) é um espaço vetorial, mas sim um espaço convexo.
Há ainda uma outra propriedade importante satisfeita pelas soluções de equações não-homogêneas.
Seja ynh uma solução particular da equação não-homogênea (5.9) e yh solução particular da equação
homogênea (5.8), a qual difere de (5.9) apenas pelo fato de ter-se f (t) = 0. Então tem-se que
y = αyh + ynh (5.10)
é também solução da equação não-homogênea (5.9) para qualquer constante α. Para ver isso, inserimos
y = αyh + ynh no lado esquerdo de (5.9) e teremos
(αya + ynh )(n) + an−1 (t)(αyh + ynh )(n−1) + · · · + a1 (t)(αyh + ynh )′ + a0 (t)(αyh + ynh ) =
(n) (n) (n−1) (n−1)

(αyh + ynh ) + an−1 (t)(αyh + ynh ) + · · · + a1 (t)(αyh′ + ynh
′
) + a0 (t)(αyh + ynh ) =
 
(n) (n−1)
α yh + an−1 (t)yh + · · · + a1 (t)yh′ + a0 (t)yh 
| {z }
=0
 
 (n) (n−1) ′ 
+ ynh + an−1 (t)ynh + · · · + a1 (t)ynh + a0 (t)ynh  = f (t) .
| {z }
= f (t)
O que aprendemos com isso é que se tivermos uma solução particular de uma equação linear não-
homogênea obtemos uma outra solução mais geral adicionando a esta uma solução da equação linear
homogênea associada. Essa propriedade é muito útil na solução de equações não-homogêneas.
• Equações diferenciais ordinárias com retardo
Apenas por curiosidade informamos que não apenas equações diferenciais do tipo (5.1) ou (5.5)
são objeto de interesse e de pesquisa. Um outro tipo são as chamadas equações com retardo, as quais
existem em diversas formas. Uma dessas forma é a seguinte. Sejam T0 , . . . , Tn1 constantes positivas.
Uma equação com retardo (fixo) é uma equação da forma
y (n) (t) = F (t, y(t − T0 ), . . . , y (n−1) (t − Tn−1 )). (5.11)
A diferença com relação a (5.5) é que aqui y (n) no instante t não depende de y, . . . , y n−1 no mesmo
instante t, mas em instantes anteriores.
Um exemplo interessante é o seguinte. Suponha que y(t) designe a população de uma espécie de
seres vivos vivendo em um certo habitat. O número de falecimentos por causas naturais (como doenças)
no intervalo t e t+dt é tipicamente proporcional a y(t) (justifique!). Assim, se a espécie não se reproduz,
a variação dy da população no intervalo t e t + dt será dy = −αy(t)dt para uma certa constante α,
ou seja, y satisfará a equação diferencial y ′(t) = −αy(t), que é uma equação de primeira ordem sem
retardo. Agora, admitamos que a espécie se reproduz. O número de cruzamentos entre elementos da
espécie no intervalo t e t + dt é tipicamente proporcional a y(t)2 (justifique!). Se admitirmos que o
número de nascimentos no intervalo entre t e t + dt é proporcional ao de cruzamentos ocorridos em
t − T0 (descontando assim o tempo de gestação T0 ) a equação diferencial para y terá que ser modificada
para
y ′ (t) = −αy(t) + β(y(t − T0 ))2
para uma certa constante β. Esta é uma equação de primeira ordem com retardo.
Há vários outros tipos de equações com retardo, por exemplo, aquelas onde os tempos de retardo
Ti não são fixos, mas dependem de t ou mesmo de y. Tais equações aparecem no Eletromagnetismo,
onde o retardo é devido à finitude da velocidade da luz.
O estudo de equações com retardo requer outros métodos que não aqueles que discutiremos aqui e
é atualmente assunto ativo de pesquisa, encontrando aplicações mesmo fora da Fı́sica, em áreas tais
como a Epidemiologia - como o exemplo acima ilustra - onde os retardos são tipicamente conseqüência
quer de tempos de gestação quer de tempos de latência (de doenças).
5.1.2 Equações Ordinárias de Segunda Ordem. Exemplos de Interesse

Para futura referência vamos aqui listar uma série de equações diferenciais lineares de segunda ordem
de particular interesse.
1. A Equação linear de segunda ordem e homogênea (forma geral):

a(t)ÿ + b(t)ẏ + c(t)y = 0 ,
com a(t) não-identicamente nula.
2. Equação linear de segunda ordem não-homogênea (forma geral):
a(t)ÿ(t) + b(t)ẏ(t) + c(t)y(t) = f (t) ,
com a(t) e f (t) não-identicamente nulas.
3. A Equação de Euler5 :
t2 ÿ(t) + at ẏ(t) + by(t) = 0 ,
onde a e b são constantes.
4. A Equação de Hill6 :
ÿ(t) + (λ + P (t))y(t) = 0 ,
onde P (t) é uma função periódica e λ constante. Um caso particular importante é o da equação
de Mathieu:
5. A Equação de Mathieu7 :
ÿ(t) + (a + b cos(ωt))y(t) = 0 ,
com a, b e ω constantes.
6. A Equação de Bessel8:
x2 y ′′ (x) + xy ′ (x) + (x2 − ν 2 )y(x) = 0 ,
ν ∈ R.
7. A Equação de Legendre9 :
(1 − x2 )y ′′ (x) − 2xy ′ (x) + λ(λ + 1)y(x) = 0 ,
λ ∈ R, e a equação de Legendre associada
µ2
(1 − x2 )y ′′(x) − 2xy ′ (x) + λ(λ + 1)y(x) − y(x) = 0 ,
1 − x2
λ, µ ∈ R.
8. A Equação de Hermite10 :
y ′′(x) − 2xy ′ (x) + λy(x) = 0 ,
λ ∈ R.
9. A Equação de Airy11 :
y ′′ (x) − xy(x) = 0 .
10. A Equação de Laguerre12 :
xy ′′ (x) + (1 − x)y ′ (x) + λy(x) = 0 ,
λ ∈ R, e a Equação de Laguerre associada
xy ′′ + (m + 1 − x)y ′ + (n − m)y = 0 ,
m, n constantes.
5
6
George William Hill (1838-1914).
7
Emile-Léonard Mathieu (1835-1890).
8
Friedrich Wilhelm Bessel (1784-1846).
9
Adrien-Marie Legendre (1752-1833).
10
Charles Hermite (1822-1901).
11
George Biddell Airy (1801-1892).
12
Edmond Nicolas Laguerre (1834-1886).
11. A Equação de Chebyshev13:
(1 − x2 )y ′′(x) − xy ′ (x) + λ2 y(x) = 0 ,
λ ∈ R.
12. A Equação Hipergeométrica14, ou Equação de Gauss15 :
z(1 − z)y ′′ (z) + [c − (1 + a + b)z]y ′ (z) − aby(z) = 0 ,
a, b, c constantes.
13. A Equação Hipergeométrica Confluente, ou Equação de Kummer16 :
zy ′′ (z) + [c − z]y ′ (z) − ay(z) = 0 ,
a, c constantes.
O leitor interessado poderá encontrar no Capı́tulo 10, página 583, problemas fı́sicos dos quais
emergem algumas das equações listadas acima.
5.2 Sistemas de Equações Diferenciais Ordinárias

Um sistema de equações diferenciais ordinárias envolvendo m funções desconhecidas y1 , . . . , ym de
uma variável é um conjunto de equações do tipo
(n ) (n −1) (n −1)
y1 1 (t) = F1 (t; y1 , y1′ , . . . , y1 1 ; . . . ; ym , ym
′
, . . . , ym m ) ,
(n ) (n −1) (n −1)
y2 2 (t) = F2 (t; y1 , y1′ , . . . , y1 1 ; . . . ; ym , ym
′
, . . . , ym m ) ,
.. (5.12)
.
(n ) (n1 −1) (n −1)
ym m (t) = Fm (t; y1 , y1′ , . . . , y1 ′
; . . . ; ym , ym , . . . , ym m ),
onde cada Fi é uma função de um certo número de variáveis e nk são números inteiros maiores ou
iguais a 1. Para cada yj tem-se, portanto, uma equação de ordem nj , na qual comparecem também as
demais funções yk e suas derivadas de ordem até nk − 1.
Sistemas de equações diferenciais ordinárias são muito freqüentes em Fı́sica. Considere-se, por
exemplo, um sistema isolado de m partı́culas de massas Mi e coordenadas x~i , i = 1, . . . , m, interagindo
de forma que a partı́cula j exerce sobre a partı́cula i uma força F~ij (x~i − x~j ). A segunda lei de Newton
fica X
Mi x~¨i (t) = F~ij (x~i (t) − x~j (t)) ,
j6=i
i = 1, . . . , m, que é um sistema de equações diferenciais ordinárias.

13
Pafnuty Lvovich Chebyshev (1821-1894).
14
Assim denominada pois uma de suas solução envolve uma generalização da série geométrica.
15
Carl Friedrich Gauß (1777-1855).
16
Ernst Eduard Kummer (1810-1893).
• O sistema de Lotka-Volterra
Um outro exemplo de sistema de equações diferenciais é o chamado sistema de caça-presa de Lotka17

e Volterra18 , empregado no estudo de evolução de populações19 . Esse sistema é da forma
ṗ1 (t) = −α1 p1 (t) + β1 p1 (t)p2 (t)

, (5.13)
ṗ2 (t) = +α2 p2 (t) − β2 p1 (t)p2 (t)
onde αi e βi , i = 1, 2 são constantes positivas. O sistema de Lotka-Volterra descreve a evolução de duas

populações de acordo com um modelo de interação entre caça (a população p1 ) e presa (a população
p2 ).
A idéia do modelo é a seguinte: p1 representa uma população que se alimenta da população p2 . Esta,
alimenta-se de recursos do habitat. Tenha-se em mente, por exemplo, a situação onde p1 representa
uma população de raposas que se alimentam de coelhos, representados por p2 . Estes, sendo herbı́voros,
alimentam-se de plantas de seu habitat. Se as duas populações estão isoladas, p1 tende a desaparecer
(por falta de alimento) exponencialmente com uma taxa α1 . Já p2 cresce exponencialmente com uma
taxa α2 , por não ter inimigos naturais. Assim, quando as duas populações estão isoladas, suas evoluções
são descritas pelo sistema
ṗ1 (t) = −α1 p1 (t)
. (5.14)
ṗ2 (t) = +α2 p2 (t)
Postas em contato, as populações começam a interagir, e de modo que p1 tem uma chance de sobre-
vivência por se alimentar de p2 , que ganha agora um predador. As chances de sobrevivência de p1 são
proporcionais ao número de encontros entre elementos de p1 e de p2 no habitat, pois em um encontros
um elemento de p1 pode eventualmente matar um elemento de p2 e, assim, alimentar-se. Esse número
de encontros é grosseiramente proporcional ao produto das duas populações p1 p2 (por que?). Assim, a
taxa de sobrevivência de p1 deve ser acrescida de um termo como β1 p1 (t)p2 (t), enquanto que a taxa de
sobrevivência de p2 deve ser subtraı́da de um termo como β2 p1 (t)p2 (t). Esses termos levam ao sistema
de Lotka-Volterra acima. O resultado da evolução de um tal sistema é ilustrado na Figura 5.1.
Também estudado em modelos de ecologia é o modelo de competição de Lotka-Volterra, descrito
pelo sistema
ṗ1 (t) = α1 p1 (t) − β1 p1 (t)2 − γ1 p1 (t)p2 (t)
. (5.15)
ṗ2 (t) = α2 p2 (t) − β2 p2 (t)2 − γ2 p1 (t)p2 (t)
Acima βi e γi são positivos, mas αi podem ser positivos ou negativos. Na primeira equação, o termo
+α1 p1 (t) descreve o crescimento (ou decrescimento) da população p1 por consumir recursos de seu
habitat (supostamente ilimitados), se reproduzir e morrer. O termo −β1 p1 (t)2 descreve, por exemplo,
a taxa de propagação de doenças fatais entre elementos da população p1 , que é proporcional ao número
de encontros de elementos da espécie p1 com elementos da espécie p1 . Esse número é grosseiramente
proporcional a p21 (por que?). O termo −γ1 p1 (t)p2 (t) descreve a competição entre as duas espécies cujas
populações são p1 e p2 .
17
Alfred James Lotka (1880-1949).
18
Vito Volterra (1860-1940).
19
O modelo foi proposto em 1920 por Lotka para o estudo de certas reações quı́micas e em 1926 por Volterra, em uma
tentativa de modelar a evolução de populações de peixes e tubarões do mar Adriático. Para uma referência histórica,
vide V. Volterra “Leçons sur la Théorie Mathématique de la Lutte pour la Vie”. Gauthier-Villars et Cie., Paris, 1931.
Figura 5.1: A evolução do sistema de Lotka-Volterra para três condições iniciais distintas. O eixo
horizontal é a população p1 e o vertical p2 . Note que a evolução se dá em ciclos periódicos fechados,
uma caracterı́stica especial do sistema de Lotka-Volterra.
Também muito estudados20 são os modelos do tipo Lotka-Volterra com n espécies, caracterizados
pelo sistema de equações
n
X
ṗj (t) = αj pj (t) + βjk pj (t) pk (t) , j = 1, . . . , n .
k=1
Mais generalidades sobre o modelo de Lotka-Volterra e sobre outras aplicações de equações diferen-
ciais em modelos ecológicos e epidemiológicos podem ser encontradas, por exemplo, em [19] e [3]. Para
outra referência sobre o modelo de Lotka-Volterra e assuntos correlatos, vide [72].
Comparados à realidade dos sistemas biológicos os modelos apresentados acima são bastante sim-
plificados, deixando de lado vários efeitos possivelmente relevantes, tais como reprodução sexuada
(machos só se reproduzem com fêmeas, não com outros machos, fêmeas idem), imunidade ou não a
doenças por parte das populações, tempos de gestação, ausência de reprodução durante a gestação,
tempos de latência de doenças, limitação dos recursos do habitat, surgimento aleatório de mutações e
vários outros fatores. Há toda uma área de pesquisa voltada à modelagem realista de sistemas biológicos
e eco-sistemas. Alguns modelos estudados chegam a ser extremamente complexos, envolvendo dezenas
de equações e de incógnitas. Para uma referência atualizada sobre modelagem de sistemas biológicos,
vide [19] ou [72].
• Sistemas de primeira ordem

20
Para um trabalho recente, vide P. Duarte R. L. Fernandez e W. M. Oliva “Dynamics on the attractor of the Lotka-
Volterra equations”. J. Diff. Equations 149, 143-189 (1998) e referências lá citadas.
O sistema de equações diferenciais ordinárias mais básico é o de primeira ordem:

y˙1 (t) = F1 (t, y1 , . . . , ym ) ,
y˙2 (t) = F2 (t, y1 , . . . , ym ) ,
.. (5.16)
.
y˙m (t) = Fm (t, y1 , . . . , ym ) ,
onde cada Fi é uma função de m + 1 variáveis. É conveniente simplificarmos um pouco a expressão
(5.16). Introduzindo os vetores de m componentes
 
y1
 .. 
Y =  .  ∈ Rm
ym
e as funções F : Rm+1 → Rm
   
F1 (t, y1 , . . . , ym ) F1 (t, Y )
 ..   .. 
F (t, Y ) =  .  =  . 
Fm (t, y1 , . . . , ym ) Fm (t, Y )
a expressão (5.16) fica
Ẏ (t) = F (t, Y (t)) . (5.17)
Como veremos logo adiante, todo sistema de equações diferenciais ordinárias pode ser escrito como
um sistema equações diferenciais ordinárias de primeira ordem, escrito quer na forma (5.16), quer na
forma (5.17), para algum m e para alguma função F : Rm+1 → Rm .
• Sistemas lineares de primeira ordem
Muito importantes são os sistemas de m equações diferenciais ordinárias lineares de primeira ordem,
os quais têm a forma
ẏ1 (t) = a11 (t)y1 (t) + · · · + a1m (t)ym (t) + b1 (t) ,
ẏ2 (t) = a21 (t)y1 (t) + · · · + a2m (t)ym (t) + b2 (t) ,
.. (5.18)
.
ẏm (t) = am1 (t)y1 (t) + · · · + amm (t)ym (t) + bm (t) ,
para certas funções aij e bj de t.
No casos em que as funções bj acima são identicamente nulas o sistema é dito ser homogêneo. Caso
contrário, é dito ser não-homogêneo.
• Representação matricial de sistemas lineares
Como veremos, é muito conveniente escrever o sistema linear (5.18) acima em notação matricial.
De fato, definindo,
     
y1 (t) a11 (t) · · · a1m (t) b1 (t)
   ..  ,  
Y (t) =  ...  , A(t) :=  ... ..
. .  B(t) =  ...  ,
ym (t) am1 (t) · · · amm (t) bm (t)
podemos escrever o sistema (5.18) como
Ẏ (t) = A(t)Y (t) + B(t) ,
como facilmente se vê. Sistemas lineares de primeira ordem serão estudados em detalhe no Capı́tulo 7
onde, em particular, faremos uso abundante da notação matricial acima.
• Equivalência entre equações de ordem n e sistemas de EDOs
Provaremos agora um fato simples, mas de grande relevância, tanto teórica quanto em aplicações
(analı́ticas ou numéricas), a saber, que toda equação diferencial ordinária de ordem n é equivalente a
um sistema de n equações de primeira ordem.
Seja a equação diferencial ordinária de ordem n
y (n) (t) = F (t, y(t), . . . , y (n−1) (t)) . (5.19)
Definindo yk (t) := y (k−1) (t), para todo k = 1, . . . , n, teremos y1 (t) = y(t) e
ẏ1 (t) = y2 (t) ,

ẏ2 (t) = y3 (t) ,
.. (5.20)
.
ẏn−1(t) = yn (t) ,
ẏn (t) = F (t, y1 (t), . . . , yn (t)) .
Este é um sistema como (5.16), onde, aqui,
F1 (t, y1 , . . . , yn ) = y2 ,
F2 (t, y1 , . . . , yn ) = y3 ,
..
.
Fn−1 (t, y1 , . . . , yn ) = yn ,
Fn (t, y1 , . . . , yn ) = F (t, y1 (t), . . . , yn (t)) .
Isso mostra que toda equação diferencial ordinária de ordem n, como (5.19), equivale a um sistema de
n equações de primeira ordem, como (5.20).
E. 5.2 Exercı́cio importante. Seja a equação diferencial ordinária linear de ordem n
y (n) (t) + an−1 (t)y (n−1) (t) + · · · + a1 (t)y ′ (t) + a0 (t)y(t) = f (t) .
Determine o sistema linear de n equações de primeira ordem equivalente e mostre que o mesmo pode ser
escrito na forma matricial
Ẏ (t) = A(t)Y (t) + B(t) ,
onde    
y(t) 0
 y ′ (t)   0
   
 ..    ..
Y (t) :=  .  , B(t) :=   .
 (n−2)   
y (t)  0 
(n−1)
y (t) f (t)
e A(t) é a matriz n × n
 
0 1 0 0 ··· 0
 
 
 0 0 1 0 ··· 0 
 
 
 .. .. .. 
 .. .. .. 
 . . . . . . 
 
A(t) :=   .
 .. 
 0 0 0 . 1 0 
 
 
 
 0 0 0 ··· 0 1 
 
 
−a0 (t) −a1 (t) −a2 (t) ··· −an−2 (t) −an−1 (t)
Equação matriciais como a de acima serão estudadas com mais detalhe no Capı́tulo 7. 6
E. 5.3 Exercı́cio. Mostre que todo sistema de equações diferenciais ordinárias como (5.12) equivale
a um sistema de equações de primeira ordem. Sugestão: use a mesma idéia de acima, dando nomes às
(nj )
derivadas yi que aparecem no lado direito de (5.12). 6
5.3 Discussão sobre Problemas de Valor Inicial
• Problemas de valor inicial
Como é bem sabido, a solução da equação diferencial ẏ(t) = y(t) é dada por y(t) = cet, onde c é
uma constante, a qual pode ser fixada, por exemplo, prescrevendo-se o valor da função y em t = 0: y(0).
Há outros exemplos simples em que a necessidade de fixação de certos valores para a função y pode ser
vista de modo explı́cito. Considere-se a equação do oscilador harmônico simples ẍ+ω02 x = 0. A solução
geral dessa equação é x(t) = A cos(ω0 t) + B sen(ω0 t), onde A e B são duas constantes arbitrárias. Para
determiná-las é preciso fornecer duas informações extra sobre a função, por exemplo, sua posição e sua
velocidade em um instante de tempo. Se x0 e v0 forem a posição e velocidade no instante t = 0, então
é fácil constatar que A = x0 e B = v0 /ω0 . Outro par de informações é também eventualmente possı́vel.
Por exemplo, podemos fornecer posição e velocidade em outro instante de tempo que não t = 0, ou
em dois instantes de tempo distintos, um para a posição, outro para a velocidade. Em muitos casos é
possı́vel fixar a solução desejada informando apenas a posição em dois instantes de tempo distintos ou
as velocidades em dois instantes de tempo distintos.
De modo geral, para a determinação completa da solução de uma equação diferencial ordinária
de ordem n é preciso fornecer n informações sobre o valor da função e/ou suas derivadas em certos
instantes21 .
O tipo de situação mais comum para a determinação completa da solução de uma equação diferencial
ordinária de ordem n, especialmente em problemas da Mecânica, é aquele na qual são fornecidas
informações sobre a função e suas n − 1 primeiras derivadas em um único instante de tempo, digamos
t = 0. Tais problemas são conhecidos como problemas de valor inicial, ou problemas de Cauchy22 .
O exemplo do oscilador harmônico acima é um tı́pico problema de valor inicial: qual é a função que
satisfaz a equação diferencial ẍ + ω02 x = 0 e satisfaz x(0) = x0 e v(0) = v0 , para certos números x0 e v0
dados? Resposta: x(t) = x0 cos(ω0 t) + (v0 /ω0 ) sen(ω0 t).
Assim, o problema de valor inicial associado à equação de ordem n
y (n) (t) = F (t, y(t), . . . , y (n−1) (t)) .
consiste em determinar a solução dessa equação que satisfaça
y(0) = y1 , ẏ(0) = y2 , ÿ(0) = y3 , . . . , y (n−1) (0) = yn ,
para certos números dados y1 , . . . , yn , os quais são denominados condições iniciais ou dados iniciais.
Após definirmos o que se entende por problema de valor inicial, uma série de questões se coloca.
1. Todo problema de valor inicial tem solução? 2. Se tiver, é única? 3. Há condições suficientes para
garantir que uma solução exista? 4. E para que seja única? 5. E se existir solução, será ela válida
para todo t? 6. Há condições suficientes para garantir que uma solução exista para todo t? 7. Há
condições suficientes para garantir continuidade da solução em relação às condições iniciais? 8. Há
condições suficientes para garantir continuidade da solução em relação aos parâmetros que ocorrem na
equação?
Por várias razões as questões acima são muito importantes. Naturalmente, a melhor maneira de
mostrar que um problema de valor inicial tem solução é exibindo a solução. Isso, porém, nem sempre
é factı́vel, pois muitas equações são difı́ceis, ou mesmo impossı́veis, de se resolver de modo explı́cito.
Por exemplo, a equação do pêndulo simples θ̈ + gl sen(θ) = 0 tem solução para quaisquer condições
iniciais, mas essa solução não pode ser apresentada de forma fechada em termos de funções elementares
conhecidas, apenas em termos de expansões ou das chamadas funções elı́pticas. Vide, por exemplo,
[87]. (Para um tratamento da equação do pêndulo em termos de equações integrais, vide Seção 18.3,
página 1005, destas Notas). Daı́ a importância da questão 3: é muitas vezes necessário saber a priori
se uma solução existe antes de tentar encontrá-la.
Saber a priori se um problema de valor inicial tem solução e se essa solução é única pode ser
importante para justificar métodos de solução. Muitas vezes, ao encontrarmos a solução de um problema
de valor inicial perguntamo-nos se a solução encontrada é única. Por exemplo, pode-se facilmente
constatar que as funções x(t) = x0 cos(ω0 t) + (v0 /ω0 ) sen(ω0 t) são soluções da equação do oscilador
harmônico simples ẍ + ω02 x = 0 com as condições iniciais x(0) = x0 e v(0) = v0 . O que, porém, garante
que não há outras funções que também sejam solução dessa equação para essas condições iniciais? Nisso
21
Uma exceção notável é a equação de Clairaut, discutida na Seção 6.8, página 317, que possui uma solução, dita
solução singular, não depende de nenhum parâmetro livre.
22
reside a importância da questão 4: em se sabendo a priori que a solução é única (esse é o caso para a
equação do oscilador harmônico simples) não é necessário procurar outras soluções.
Equações diferenciais de interesse em Fı́sica tipicamente dependem de certos parâmetros. Por
exemplo, a equação do oscilador harmônico simples, acima, depende do parâmetro ω0 , a equação do
pêndulo simples depende de g/l. Saber se a dependência de uma solução depende continuamente
de condições iniciais ou de parâmetros é importante em aplicações, por exemplo em Fı́sica, pois em
problemas reais tais dados são freqüentemente fornecidos com imprecisões e é, portanto, importante
poder garantir que erros pequenos no conhecimento dessas grandezas têm efeitos igualmente pequenos
nas soluções (ao menos para tempos não muito afastados do instante inicial).
Comecemos por dizer que a resposta às questões 1 e 2 é negativa. Veremos exemplos logo adiante.
Uma resposta às questões 3 e 4 será apresentada na forma de dois teoremas importantes, o de Peano
(Teorema 5.1, página 296), que fornece condições suficientes para garantir existência de soluções, e o
de Picard-Lindelöf (Teorema 5.2, página 297. Vide também sua generalização para espaços de Banach,
Teorema 18.4, página 1015), que fornece condições suficientes para garantir existência e unicidade de
soluções. Mostraremos em exemplos que a resposta à questão 5 é também negativa. Uma resposta
parcial à questão 6 (que é chamado de problema da existência de soluções globais) será discutida na
Seção 5.3.3, página 298, e as demonstrações dos resultados lá apresentados encontram-se na Seção
18.4.2, página 1019. As questões 7 e 8 são discutidas à página 300 e, com mais detalhe, na Seção
18.4.3, página 1020. Vide Teorema 18.7, página 1020, sua demonstração e os comentários que se lhe
seguem. Referências para várias dessas questões são [1], [42], [26], [11] e [66].
• Problemas bem-postos
Um comentário sobre nomenclatura. Na literatura sobre a teoria das equações diferenciais (or-
dinárias ou parciais), um problema no qual se possa garantir existência, unicidade e continuidade de
soluções em relação a condições iniciais e de contorno em alguma topologia (estabilidade) é dito ser um
problema bem-posto23 .
• Outros problemas que não de valor inicial
Como já mencionamos acima, há outros problemas que não o de valor inicial. Pode-se querer fixar
a função em dois pontos, por exemplo. Problemas desse tipo são muito comuns em equações ordinárias
obtidas pelo método de separação de variáveis em problemas de equações diferenciais parciais com
certas condições de contorno. Trataremos abundantemente desse tipo de problema quando discutirmos
o Problema de Sturm-Liouville no Capı́tulo 12, página 688.
Outros problemas envolvem outros tipos de exigência sobre a solução. Por exemplo, que ela seja
finita em certos pontos, ou de quadrado integrável. Esse último caso é comummente encontrado na
Mecânica Quântica.
23
A noção de prolema bem-posto foi introduzida por Jacques Salomon Hadamard (1865-1963) ao listar propriedades
que modelos matemáticos de sistemas fı́sicos devem idealmente possuir. Jaques Hadamard: “Sur les problèmes aux
dérivées partielles et leur signification physique”. Princeton University Bulletin, 49–52 (1902).
5.3.1 Problemas de Valor Inicial. Patologias e Exemplos a se Ter em

Mente
Nesta seção listaremos alguns exemplos instrutivos de problemas de valor inicial que exibem compor-
tamento patológico, como inexistência ou não-unicidade de solução ou inexistência de solução global,
ou seja, inexistência de solução válida em toda a reta real. É instrutivo ter alguns desses exemplos em
mente. Na Seção 5.3.2, página 296, e na Seção 5.3.3, página 298, apresentaremos condições suficientes
para evitar essas patologias.
• Inexistência de solução
Exemplo 5.5 (Inexistência de solução) Considere-se o problema de valor inicial no qual procura-se a
solução da equação
1
ẏ(t) =
t
que satisfaça a condição inicial y(0) = 0. Esse problema não possui nenhuma solução. ◊
1
ẏ(t) = −
y(t)
que satisfaça a condição inicial y(0) = 0. Esse problema não possui nenhuma solução que seja real para
t > 0. ◊
solução da equação p
ẏ(t) = 1 − y(t)2
que satisfaça a condição inicial y(0) = 2. Esse problema não possui nenhuma solução real. ◊
Exemplo 5.8 (Inexistência de solução) (De [69]) Considere-se o problema de valor inicial no qual
procura-se a solução da equação
ẏ(t) = H(y(t)) ,
onde
1, y < 0
H(y) := ,
−1, y ≥ 0
com a condição inicial y(0) = 0. Esse problema não possui nenhuma solução. Para entender por que,
observe que se y(0) = 0 então, pela equação diferencial, y ′(0) = −1, o que implica y(t) é decrescente
para t próximo de 0, tornando-se negativa para t positivo próximo de 0. Mas para y negativo ẏ(t) vale
1 e y é crescente, uma contradição. ◊
ẏ(t) = 2(y(t))3/2
que satisfaça a condição inicial y(0) = 1. Esse problema não possui nenhuma solução real. ◊
• Não-unicidade de soluções
Exemplo 5.10 (Não-unicidade de soluções) Considere-se o problema de valor inicial no qual procura-
se a solução da equação
ẏ(t) = 3(y(t))2/3
que satisfaça a condição inicial y(0) = 0. Esse problema não tem solução única. Por exemplo, as
funções
y1 (t) ≡ 0 e y2 (t) = t3
ambas satisfazem a equação diferencial e y1 (0) = y2 (0) = 0. ◊
O Exemplo 5.10, acima, foi encontrado por Peano em 1890. Há várias outras soluções, como vemos
na seguinte generalização.
Exemplo 5.11 (Não-unicidade de soluções) Seja 0 < β < 1. Considere-se o problema de valor inicial
no qual procura-se a solução da equação
1
ẏ(t) = |y(t)|β
1−β
que satisfaça a condição inicial y(0) = 0. Esse problema não tem solução única: a função y(t) ≡ 0,
∀t ∈ R, assim como, para todos c1 ≤ 0, c2 ≥ 0, as funções
 1

 −(c1 − t) 1−β , t ≤ c1




yc1, c2 (t) = 0, c1 < t < c2 , (5.21)





 (t − c ) 1−β
1
2 , t ≥ c2
 1 
 −(c1 − t) 1−β , t ≤ c1  0, t < c2
yc1 (t) = , yc2 (t) = (5.22)
  1
0, t > c1 (t − c2 ) 1−β , t ≥ c2
satisfazem a equação diferencial e anulam-se em t = 0. ◊
E. 5.10 Exercı́cio. Verifique! Desenhe gráficos de várias funções yc1 , c2 (t), yc1 (t) e yc2 (t) para vários
valores de c1 ≤ 0, c2 ≥ 0. 6
• Inexistência de soluções globais
Exemplo 5.12 (Solução que só existe em um intervalo finito) A equação diferencial é aquela apre-
sentada no Exemplo 5.8, acima, com condição inicial y(0) = y0 > 0. Para −∞ < t < y0 a solução é
y(t) = y0 − t mas para t ≥ y0 surge a contradição discutida no Exemplo 5.8 e a equação diferencial não
mais possui solução. ◊
Exemplo 5.13 (Solução que diverge em tempo finito) Considere-se o problema de valor inicial no qual
procura-se a solução real da equação
ẏ(t) = y(t)2 ,
t ∈ R, que satisfaça a condição inicial y(0) = y0 ∈ R, y0 6= 0. A solução é
1
y(t) = 1 (5.23)
y0
−t
a qual diverge para t = 1/y0 . ◊
Exemplo 5.14 (Solução que diverge em tempo finito) Considere-se a equação diferencial
ẏ(t) = 1 + y(t)2 ,
t ∈ R. Sua solução é y(t) = tan(t + k), onde k é fixada por uma condição inicial. Se, por exemplo,
tomarmos y(0) = y0 , então k = arctan(y0 ). Essa solução, porém, existe apenas no intervalo aberto
(−k − π2 , −k + π2 ), pois tan(t + k) diverge nos extremos. ◊
Exemplo 5.15 (Solução que diverge em tempo finito) Considere-se uma partı́cula de massa m que se
move em uma dimensão sob a ação de um potencial repulsivo U(x) = − k4 x4 , com k > 0, com condição
inicial x(0) = 0, ẋ(0) = v0 > 0. Sua equação de movimento (a segunda lei de Newton) é
ẍ(t) − k ′ x(t)3 = 0 ,
onde k ′ = k/m. Qual o tempo que essa partı́cula leva para, partindo de x(0) = 0, chegar ao infinito?
A resposta é Z ∞
dx
T0→∞ = q ,
2 k 4
0
m
E + 4x
mv02
onde E = 2
> 0 é a energia mecânica da partı́cula. ◊
E. 5.11 Exercı́cio. Justifique a expressão dada acima para T0→∞ . 6
Para E > 0 a integral acima é finita (Justifique!). Logo, a partı́cula leva um tempo finito para chegar
ao infinito, ou seja, x(t) diverge em tempo finito. Isso mostra que a solução da equação diferencial
ẍ(t) − k ′ x(t)3 = 0, com k ′ > 0 e v0 > 0, existe apenas em um intervalo finito de valores de t.
E. 5.12 Exercı́cio. Mostre que o mesmo se passa com as equações diferenciais ẍ(t) − k ′ x(t)d = 0, para
todo d > 1, desde que k ′ > 0. O que acontece se k ′ < 0? O que acontece se k ′ > 0 mas d ≥ 1? 6
5.3.2 Teoremas de Existência e Unicidade de Soluções

Os vários exemplos dados acima não devem causar uma impressão negativa sobre problemas de valor
inicial pois, em verdade, os mesmos refletem patologias nem sempre encontradas na “prática” (entenda-
se, na Fı́sica). No caso da Mecânica, por exemplo, assim como em outras áreas da Fı́sica, pode-se
garantir existência e unicidade de solução da “maioria” dos problemas de valor inicial. Os exemplos
de acima advertem-nos, porém, da necessidade de alguns teoremas gerais que forneçam pelo menos
condições suficientes para garantir existência e/ou unicidade de problemas de valor inicial. Na teoria
das equações diferenciais ordinárias os mais importantes desses teoremas são os de Peano24 e de Picard25 -
Lindelöf26 , os quais enunciaremos agora.
Teorema 5.1 Teorema de Peano (Existência de Soluções). Seja a equação diferencial ordinária
real de primeira ordem
ẏ(t) = F (t, y(t)) (5.24)
(F sendo não-identicamente nula) com a condição inicial
y(t0) = y0 . (5.25)
com y0 ∈ R. Seja F : R2 → R contı́nua no retângulo fechado
R = { (t, y) : |t − t0 | ≤ a, |y − y0 | ≤ b } , (5.26)
com a, b > 0, sendo, portanto, limitada em R. Seja
M := max |F (t, y)| . (5.27)

(t, y)∈R
Então, o problema de valor inicial descrito pelas relações (5.24) e (5.25) apresenta pelo menos uma
solução. Além disso, essa solução existe pelo menos no intervalo fechado [t0 − β, t0 + β], onde

b
β := min a, . (5.28)
M
2
Em essência, o que esse teorema afirma é que se pode garantir a existência de soluções do problema
de valor inicial descrito pelas relações (5.24) e (5.25) se pelo menos a função F for contı́nua em um
retângulo centrado na condição inicial.
24
Giuseppe Peano (1858-1932). O Teorema de Peano data de 1886.
25
Charles Émile Picard (1856-1941).
26
Ernst Leonard Lindelöf (1870-1946). Seus trabalhos sobre existência e unicidade de soluções de equações diferenciais
ordinárias datam de 1890.
A prova desse teorema, que é baseada no importante teorema de Ascoli-Arzelà, não será apresentada
aqui e remetemos os estudantes aos bons livros (por exemplo, [42], [1], [26], [11] ou [66]).
O estudante pode (deve) verificar que os Exemplos 5.5 a 5.9, página 293, não satisfazem as condições
do Teorema de Peano, daı́ não haver solução naqueles casos.
O teorema de Peano garante condições suficientes para existência, mas não para unicidade de
solução. O estudante também pode (deve) verificar que os Exemplos 5.10 e 5.11, página 294 acima,
satisfazem as condições do teorema de Peano, mas para eles não vale a unicidade. É preciso requerer
mais da função F para ter-se unicidade da solução. Isso é obtido com o próximo teorema.
Teorema 5.2 Teorema de Picard-Lindelöf (Existência e Unicidade de Soluções). Seja a
equação diferencial ordinária real de primeira ordem
ẏ(t) = F (t, y(t)) (5.29)
(F : R2 → R sendo não-identicamente nula) com a condição inicial
y(t0) = y0 , (5.30)
com y0 ∈ R. Seja F : R2 → R contı́nua no retângulo fechado
R = { (t, y) : |t − t0 | ≤ a, |y − y0 | ≤ b } , (5.31)
com a, b > 0, sendo, portanto, limitada em R. Seja
M := max |F (t, y)| . (5.32)
(t, y)∈R
Suponha ainda que F seja Lipschitz contı́nua em R com relação ao seu segundo argumento, ou seja,
existe uma constante k (denominada constante de Lipschitz) tal que para todos (t, y), (t, v) ∈ R valha
|F (t, y) − F (t, v)| ≤ k |y − v| . (5.33)
Então, o problema de valor inicial descrito pelas relações (5.29) e (5.30) apresenta uma única solução.
Além disso, essa solução existe pelo menos no intervalo fechado [t0 − β, t0 + β], onde

b
β := min a, . (5.34)
M
Uma condição suficiente para que a condição de Lipschitz acima se cumpra é que ∂y f (t, y) exista e
seja limitada em todo R , em cujo caso a constante de Lipschitz seria dada por k := sup |∂y f (t, y)|.
(t, y)∈R
2
A prova do Teorema de Picard-Lindelöf será apresentada com bastante generalidade no Capı́tulo

18, página 994. Vide Teorema 18.4, página 1015.
É importante notar que a condição de F ser Lipschitz27 contı́nua em R com relação ao seu segundo
argumento pode ser obtida de uma condição mais forte, a saber, que a derivada parcial ∂y F (t, y) de
F em relação ao segundo argumento seja contı́nua em R. De fato, da relação
Z v
F (t, v) − F (t, u) = ∂y F (t, y) dy ,
u
27
Rudolf Otto Sigismund Lipschitz (1832-1903).

segue facilmente que F (t, v) − F (t, u) ≤ k|v − u|, onde k := max |∂y F (t, y)|, que é uma constante
(t, y)∈R
finita se ∂y F (t, y) for contı́nua em R. Assim, em essência, o que o Teorema de Picard-Lindelöf afirma
é que se pode garantir a existência e a unicidade de soluções do problema de valor inicial descrito pelas
relações (5.29) e (5.30) se pelo menos a função F e sua derivada parcial ∂y F (t, y) forem contı́nuas em
um retângulo centrado na condição inicial.
Como comentário final, afirmamos que os teoremas de Peano e Picard-Lindelöf podem ser facilmente
estendidos para sistemas de equações diferenciais de primeira ordem (em verdade, o Teorema 18.4,
página 1015, já é enunciado com essa generalidade). Como toda equação diferencial de ordem n é
equivalente a um tal sistema, essas generalizações garantem condições suficientes para existência ou
unicidade de solução de equações diferenciais ordinárias de qualquer ordem.
No caso de equações diferenciais parciais não existem teoremas tão fortes relativos à existência
e unicidade de problemas de valor inicial como há no caso de equações diferenciais ordinárias. Um
dos resultados mais importantes nessa direção, porém, é o Teorema de Cauchy-Kovalevskaya28 . Seu
enunciado e sua demonstração podem ser encontrados, por exemplo, em [30, 31].
5.3.3 Soluções Globais

Vimos nos Exemplos 5.12 a 5.15 (página 295) que há equações diferencias cujas soluções, ainda que
existam e sejam eventualmente únicas, não são globais, ou seja, não podem ser definidas em toda
reta real. A questão que naturalmente se coloca é a de encontrar condições suficientes para garantir
a existência de soluções globais. Essa é uma vasta questão e nos limitaremos aqui a apresentar o
resultado mais simples, o Teorema 5.3, abaixo. Igualmente importante é a questão de se demonstrar
que uma determinada equação diferencial não possui soluções globais (se tal puder ser o caso). Um dos
principais resultados da Teoria da Relatividade Geral e da Cosmologia, a existência do chamado “big
bang” em uma classe bastante grande de modelos para o universo, foi tratado como um problema de
não-existência de soluções globais de determinadas equações diferenciais. Vide [60].
O seguinte teorema, cuja demonstração é apresentada com mais generalidade na Seção 18.4.2, página
1019, apresenta condições suficientes para a existência de soluções globais.
Teorema 5.3 (Existência e unicidade de soluções globais) Seja F : R2 → R contı́nua em todo
R2 . Suponhamos também que para todo a > 0, a função F seja Lipschitz contı́nua em relação ao seu
segundo argumento na faixa

Fa, t0 = (t, y) ∈ R2 : |t − t0 | ≤ a , y ∈ R arbitrário ,
ou seja, para cada a > 0 existe uma constante ka (eventualmente dependente de a e denominada
constante de Lipschitz) tal que para todos (t, y), (t, v) ∈ Fa, t0 vale |F (t, y) − F (t, v)| ≤ ka |y − v|.
Então, para qualquer x0 ∈ R, o problema de valor inicial ẋ(t) = F (t, x(t)) com x(t0 ) = x0 apresenta
uma solução única válida para todo t ∈ R.
Uma condição suficiente para que a condição de Lipschitz acima se cumpra é que ∂y F (t, y) exista
em todo R2 e seja limitada em cada faixa Fa, t0 , em cujo caso as constantes de Lipschitz podem ser
escolhidas como ka := sup |∂y F (t, y)|. 2
(t, y)∈Fa, t0
28
Sofia Vasilyevna Kovalevskaya (1850-1891).
E. 5.13 Exercı́cio. Mostre que a equação diferencial não-linear ẋ = cos(x) satisfaz as condições do
Teorema 5.3 e, portanto, possui soluções globais. Mostre explicitamente, por integração, que as soluções
são dadas por x(t) = arctan ( senh(t + c)), onde c é uma constante a ser fixada pela condição inicial. Por
essa expressão explı́cita contata-se claramente que as soluções existem para todo t ∈ R. 6
E. 5.14 Exercı́cio(de [25]). Mostre que a equação diferencial não-linear
x3 et
ẋ = 2
+ t2 cos(x)
1+x
satisfaz as condições do Teorema 5.3. Sugestão: mostre que para esse caso

∂F (y 4 + 3y 2) t ∂F
(t, y) = e − t2 sen(y) e, portanto, em cada faixa Fa, t0 , (t, y) ≤ 3ea + a2 ,
∂y 2
(1 + y ) ∂y
e podemos adotar ka = 3ea + a2 para cada a > 0. 6
E. 5.15 Exercı́cio. A equação diferencial não-linear ẋ = x2 não satisfaz as condições do Teorema 5.3,
pois a condição de Lipschitz requerida não é satisfeita em nenhuma faixa Fa, t0 . Mostre isso. Com efeito,
vimos no Exemplo 5.13, da página 295 que essa equação não possui soluções globais. Vide também os
comentários da página 300 sobre esse problema. 6
E. 5.16 Exercı́cio. Faça o mesmo para o Exemplo 5.14, página 295. 6
• Comentários sobre soluções globais. O Exemplo 5.10
Analisemos agora o Exemplo 5.10, página 294 sob a luz dos Teoremas de Peano e de Picard-Lindelöf.
Aqui, F (t, y) = 3y 2/3 , t0 = 0, y0 = 0. Tomando-se um retângulo fechado centrado em (t0 , y0 ) = (0, 0),
ou seja, R = { (t, y) : |t| ≤ a, |y| ≤ b }, constata-se elementarmente que F é contı́nua e que
M := max |F (t, y)| = max 3y 2/3 = 3b2/3 .

(t, y)∈R y∈[−b, b]
Assim, o Teorema de Peano n garante o a existência de solução para o intervalo fechado [−β, β], onde
b
b1/3
β := min a, M = min a, 3 (vide (5.28)). Os valores de a e de b podem ser escolhidos arbitra-
riamente grandes, sem violar a condição de continuidade de F . Conclui-se disso que podemos tomar β
arbitrariamente grande. Assim, nesse particular exemplo, o Teorema de Peano garante-nos a existência
de uma solução global, para todo t. Isso condiz com a observação que a solução identicamente nula,
bem como as soluções (5.21) e (5.22) existem para todo t.
Por fim, é fácil verificar que a função F (t, y) = 3y 2/3 não satisfaz a condição de Lipschitz |F (t, y) −
F (t, v)| ≤ k|y − v| para nenhum k em nenhum retângulo centrado em (0, 0). Para isso observe que
se tomássemos v = 0 e y ≥ 0, a condição de Lipschitz diria que 3y 2/3 ≤ ky, ou seja, 3y −1/3 ≤ k. Mas
uma tal desigualdade é impossı́vel, pois para y → 0 o lado esquerdo diverge!
Isso justifica por que não se pode aplicar Picard-Lindelöf nesse caso (e a solução, de fato, não é
única).
• Comentários sobre soluções globais. O Exemplo 5.13
O fato de o Teorema de Peano em princı́pio garantir apenas uma região conservadora de validade
de solução, a saber o intervalo [t0 − β, t0 + β], onde β é dado pela expressão (5.28), não está em
desacordo com os exemplos: há sistemas satisfazendo as condições do Teorema de Peano para os quais
não há soluções globais, ou seja, soluções que existem para todo t ∈ R. O Exemplo 5.13, página
295, é um tal caso. Vamos reanalisá-lo sob a luz dos Teoremas de Peano e Picard-Lindelöf, estudando
particularmente o que o Teorema de Peano nos diz sobre a região de existência de solução.
É bastante claro que no Exemplo 5.13 tem-se F (t, y) = y 2 , e t0 = 0 com y0 > 0. Tomando-se
um retângulo fechado centrado em (t0 , y0 ) = (0, y0 ), ou seja, R = { (t, y) : |t| ≤ a , |y − y0 | ≤ b },
constata-se elementarmente que F é contı́nua e que
M := max |F (t, y)| = max y 2 = (y0 + b)2 .

(t, y)∈R y∈[y0 −b, y0 +b]
O Teorema de Peano n garante oa existência de solução para o intervalo fechado [−β, β], onde β :=
b
b
min a, M = min a, (y0 +b)2 . O valor de a pode ser escolhido arbitrariamente grande, sem alterar
o valor de M e sem violar a condição de continuidade de F . Conclui-se disso que podemos tomar
b
β = .
(y0 + b)2
Para qual escolha de b a constante β assume seu maior valor? É um exercı́cio fácil (faça-o!) mostrar
que o lado direito da última expressão assume seu máximo em b = y0 , em cujo caso
1
β = .
4y0
Assim, o Teorema de Peano garante existência de solução no intervalo [− 4y10 , 4y10 ]. Sabemos, porém
que a solução (5.23) existe em um intervalo maior (e que contenha t = t0 = 0), a saber (−∞, y10 ).
O que se aprende disso é que o intervalo de solução obtido pela estimativa (5.28) nem sempre é
maximal, mas nem por isso contradiz-se o fato de nesse caso não haver solução válida para todo t.
Para sabermos se a solução é única, devemos estudar as condições do Teorema de Picard-Lindelöf.
Sabemos que F (t, y) − F (t, v) = y 2 − v 2 = (y + v)(y − v) . Logo, |F (t, y) − F (t, v)| = |y + v| |y − v|
e, para y e v no intervalo [y0 − b, y0 + b], tem-se |y + v| ≤ 2(y0 + b). Assim, adotando-se k = 2(y0 + b),
vale a condição de Lipschitz
|F (t, y) − F (t, v)| ≤ k|y − v|
para todos (t, y), (t, v) ∈ R. Assim, a solução do problema do Exemplo 5.13 será única para quaisquer
a e b que se tome.
5.3.4 Dependência Contı́nua de Condições Iniciais e de Parâmetros

Conforme mencionamos na página 291, é importante determinarmos condições sob as quais a solução
de um problema de valor inicial é contı́nua em relação às condições iniciais e a parâmetros que ocorram
na equação diferencial. Essas questões são respondidas com bastante generalidade e detalhe na Seção
18.4.3, página 1020. Vide Teorema 18.7, página 1020, sua demonstração e comentários que se lhe
seguem. Os resultados encontram-se resumidos nos dois teoremas abaixo, os quais valem também para
sistemas de equações diferenciais ordinárias.
Teorema 5.4 Seja a equação diferencial ordinária real de primeira ordem ẏ(t) = F (t, y(t)) com a
condição inicial y(t0 ) = y0 , com y0 ∈ R, e suponhamos que sejam satisfeitas as condições descritas
no Teorema 5.2, página 297, de modo que se garanta a existência de uma solução única y(t, y0 ) do
problema de valor inicial em um intervalo [t0 − β, t0 + β]. Então, existe uma vizinhança J de y0 ∈ R
onde a solução y(t, y0 ) depende continuamente de y0 . Mais precisamente, existe uma constante κ > 0
e uma vizinhança T de t0 contida em [t0 − β, t0 + β] tal que vale |y(t, y0 ) − y(t, y0′ )| ≤ κ|y0 − y0′ |eκ|t−t0 |
para todo y0′ ∈ J e todo t ∈ T . 2
Teorema 5.5 Seja a equação diferencial ordinária real de primeira ordem e dependente de um parâmetro
p: ẏ(t) = F (t, y(t), p) com a condição inicial y(t0) = y0 , com y0 ∈ R, e suponhamos que sejam sa-
tisfeitas as condições descritas no Teorema 5.2, página 297, de modo que se garanta a existência de
uma solução única y(t, p) do problema de valor inicial em um intervalo [t0 − β, t0 + β]. Suponhamos
também que F seja contı́nua e continuamente diferenciável em relação a p em alguma vizinhança.
Então, y(t, p) depende continuamente de p nessa vizinhança. 2
Capı́tulo 6
Alguns Métodos de Resolução de Equações
Diferenciais Ordinárias
Conteúdo
6.1 Solução de Equações Ordinárias Lineares de Primeira Ordem . . . . . . . 302
6.2 As Equações de Bernoulli e de Riccati . . . . . . . . . . . . . . . . . . . . . 303
6.3 Integração de Equações Separáveis . . . . . . . . . . . . . . . . . . . . . . . 306
6.4 O Método de Variação de Constantes . . . . . . . . . . . . . . . . . . . . . 307
6.5 O Método de Substituição de Prüfer . . . . . . . . . . . . . . . . . . . . . . 309
6.6 O Método de Inversão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 311
6.7 Solução de Equações Exatas e o Método dos Fatores Integrantes . . . . . 312
6.8 Soluções das Equações de D’Alembert-Lagrange e Clairaut . . . . . . . . 317
O problema de encontrar de métodos de resolução de equações diferenciais ordinárias tem ca-

tivado a imaginação e instigado a engenhosidade de gerações de cientistas e matemáticos.
Muitas informações sobre o comportamento de soluções de equações diferenciais ordinárias
podem ser obtidas sem que essas soluções sejam conhecidas explicitamente, mas esse conhe-
cimento explı́cito é muitas vezes desejável, pois assim o poder de previsão de teorias e modelos torna-se
evidentemente maior. Neste capı́tulo apresentaremos algumas das diversas situações felizes nas quais
métodos de resolução de equações diferenciais ordinárias foram encontrados. Todos os métodos apresen-
tados têm sua validade e sua eficácia limitadas a certas classes de equações. No Capı́tulo 8, página 411,
desenvolveremos com bastante detalhe métodos de solução de equações lineares baseados em expansões,
a saber, o método de expansão em séries de potências e o método de Frobenius, válidos para equações
diferenciais lineares gozando de certas propriedades de analiticidade. Com o propósito de centrar a
discussão nos métodos de solução, não trataremos aqui de questões relativas à continuidade de soluções
em relação a parâmetros e condições iniciais e ao domı́nio de validade de soluções. Essas questões
são discutidas na Seção 5.3, página 290. Métodos iterativos, perturbativos ou numéricos também não
serão discutidos neste capı́tulo. Dada a profusão de métodos de solução de equações diferenciais (uma
ciência que se desenvolve já há mais de trezentos anos!), nossa apresentação será, reconhecidamente,
limitada. Para um texto introdutório sobre equações diferenciais ordinárias centrado em métodos de
solução, vide [15].
6.1 Solução de Equações Ordinárias Lineares de Primeira Or-

dem
Equações diferenciais ordinárias lineares de primeira ordem são particularmente interessantes pois, sob
hipóteses simples, é possı́vel apresentar soluções gerais para as mesmas e de modo relativamente fácil.
302
Infelizmente a mesma facilidade não é encontrada para o caso das equações diferenciais lineares de
ordem dois ou maior. Considere-se a equação diferencial ordinária linear de primeira ordem
ẏ(t) + a(t)y(t) = b(t) , (6.1)
para funções a e b : R → C, contı́nuas. Vamos mostrar como resolver uma tal equação. Para tal,
defina-se Z t
p(t) := exp a(τ )dτ .
0
Multiplicando-se (6.1) por p(t) e usando o fato que ṗ(t) = a(t)p(t), teremos
d
[p(t)y(t)] = p(t)b(t) ,
dt
donde conclui-se que
Z t Z t
1 −1

y(t) = y(0) + p(s)b(s) ds = p(t) y(0) + p(t)−1 p(s) b(s) ds . (6.2)
p(t) 0 0
Essa expressão representa a solução geral de (6.1), a qual depende do valor de y(0), a ser especificado
(condição inicial).
E. 6.2 Exercı́cio. A solução (6.2) é daR forma (5.10), pois p(t)−1 é solução da equação homogênea
t
ẏ(t) + a(t)y(t) = 0 enquanto que p(t)−1 0 b(τ )p(τ ) dτ é solução particular da equação não-homogênea
(6.1). Verifique essas afirmações. 6
Rt
Naturalmente, para o cálculo explı́cito de y é necessário calcular a integral 0 a(τ )dτ que aparece
Rt
na definição de p, assim como, numa segunda etapa, a integral 0 b(τ )p(τ )dτ . Como essas funções são
conhecidas, isso pode ser possı́vel, em princı́pio, mas nem sempre obtem-se fórmulas explı́citas para as
mencionadas integrais. Ainda assim, (6.2) representa a solução completa do problema. Na pior das
hipóteses as integrais mencionadas podem ser calculadas numericamente de modo aproximado.
A solução (6.2) de (6.1) pode ser reobtida com o método dos fatores integrantes, tal como descrito
no Exemplo 6.3, página 315.
6.2 As Equações de Bernoulli e de Riccati
• A equação de Bernoulli
Para a e b : R → C, ambas contı́nuas, a equação diferencial ordinária não-linear homogênea de

primeira ordem
ẏ(t) + a(t)y(t) + b(t)y(t)2 = 0 (6.3)
é denominada equação de Bernoulli1. Apesar desta equação ser um dos representantes mais simples
da classe das equações diferenciais não-lineares, a não-linearidade da mesma não acrescenta nenhuma
barreira à sua solubilidade, pois a simples substituição y(t) = 1/v(t) conduz à equação
v̇(t) − a(t)v(t) − b(t) = 0
que é linear e tem por solução (vide acima)

Z t
1
v(t) = v(0) + b(τ )p(τ ) dτ ,
p(t) 0
onde Z t
p(t) := exp − a(τ ) dτ .
0
Portanto, a solução geral de (6.3) é
p(t)
y(t) = Z t .
v(0) + b(τ )p(τ ) dτ
0
E. 6.4 Exercı́cio. Determine a solução geral da equação de Bernoulli generalizada
ẏ(t) + a(t)y(t) + b(t)y(t)n = 0 ,

1
n 6= 1. Sugestão: Defina v por y(t) = v(t) 1−n e proceda como acima. 6
As equações de Bernoulli são um caso particular de uma classe maior de equações diferenciais
ordinárias não-lineares, as chamadas equações de Riccati generalizadas.
• A equação de Riccati generalizada
Para a, b e c : R → C, contı́nuas, a equação diferencial ordinária não-linear não-homogênea de

primeira ordem
ẏ(t) + a(t)y(t) + b(t)y(t)2 + c(t) = 0 (6.4)
é denominada equação de Riccati2 .
Ao contrário da equação de Bernoulli, a equação de Riccati generalizada não é, em geral, solúvel.
Apenas em casos particulares há soluções mais ou menos explı́citas para as mesmas, normalmente em
termos de expansões em série, como expansões em série de potências.
Apesar de sua não-solubilidade genérica (em contraposição com a equação de Bernoulli, que é
também não-linear mas solúvel), é possı́vel obter a solução geral de (6.4) se uma solução particular sua
1
Jacob Bernoulli (1654-1705). Vide nota histórica à página 305.
2
Jacopo Francesco Riccati (1676-1754).
for conhecida. De fato, se u é uma solução particular conhecida de (6.4) então a solução geral é da
forma
y(t) = u(t) + v(t) ,
onde v obedece à equação de Bernoulli
v̇(t) + [a(t) + 2b(t)u(t)]v(t) + b(t)v(t)2 = 0 .
E. 6.5 Exercı́cio. Verifique isso, substituindo y = u + v em (6.4) e usando a hipótese que u é solução
de (6.4). 6
Assim, conhecida a função u, a solução geral da equação de Riccati generalizada é

p1 (t)
y(t) = u(t) + Z t ,
w0 − b(τ )p1 (τ ) dτ
0
onde w0 = 1/(y(0) − u(0)), para y(0) 6= u(0), é uma constante e onde

Z t
p1 (t) := exp [a(τ ) + 2b(τ )u(τ )] dτ .
0
Observemos que qualquer equação diferencial ordinária linear homogênea de segunda ordem associa-
se naturalmente a uma equação de Riccati generalizada. De fato, dada a equação
ẅ(t) + a(t)ẇ(t) + b(t)w(t) = 0 ,

Z t
com a e b : R → C contı́nuas, o Ansatz w(t) = exp y(τ )dτ conduz a
0
ẏ(t) + a(t)y(t) + y(t)2 + b(t) = 0 ,
que é uma equação de Riccati generalizada.
• Nota Histórica
A equação de Riccati generalizada deve seu nome ao matemático e conde veneziano Iacopo Francesco
Riccati (1676-1754), que estudou a equação diferencial

y ′ (x) = α y 2(x) + xn , (6.5)
com α constante e n ∈ N, em monografia publicada em 1724 sem, no entanto, resolvê-la. A equação
y ′ (x) = y 2 (x) + x2 (6.6)

fora previamente estudada por Johann Bernoulli (1667-1748) em trabalho de 1694, sem que este apre-
sentasse solução para a mesma. Jacob Bernoulli (1654-1705), que honrou com seu nome a equação (6.3),
resolvida por ele em 1696, também estudara (6.6) e encontrara em 1703 uma solução para a mesma em
termos de uma razão de série de potências, que então expressou como uma série de potências simples.
Somente em 1841 Joseph Liouville (1809-1882) demonstrou que a solução de (6.6) não pode ser expressa
em termos de funções elementares. Em notação moderna a solução geral de (6.6) é
 2 2 
x x
 AJ −3/4 + J 3/4
2 2 
y(x) = x  2 2  ,
x x 
J−1/4 − AJ1/4
2 2
onde A é uma constante e Jν são funções de Bessel de primeiro tipo e ordem ν.

Equações do tipo (6.5) são hoje denominadas simplesmente equações de Riccati. A associação
do nome de Riccati a tais equações (e não dos nomes de Johann Bernoulli ou Jacob Bernoulli) é
parcialmente devida ao fato de (6.5) ser ligeiramente mais geral que (6.6) e às referências ao trabalho
de Riccati feitas por outro Bernoulli, Daniel Bernoulli (1700-1782), que estudou as equações (6.5) em
trabalho datado de 1725. Daniel Bernoulli menciona que soluções de equações como (6.5) foram obtidas
anteriormente por Johann Bernoulli, Nicolaus Bernoulli e Nicolaus Bernoulli II. A desconsideração de
Daniel Bernoulli pela contribuição prévia de seu tio Jacob Bernoulli deve-se talvez à rivalidade deste
com seu irmão Johann Bernoulli, pai de Daniel Bernoulli, mas talvez seja meramente conseqüência do
fato de sua época não estar ainda preparada para aceitar soluções de equações diferenciais em termos
de séries infinitas. De fato, em seu trabalho, Daniel Bernoulli preocupou-se em apontar casos em que
(6.5) pode ser resolvida por séries finitas, a saber, quando n é a forma −4m/(2m ± 1), com m inteiro.
O método acima descrito de obter a solução geral da equação de Riccati generalizada a partir de
uma solução particular é devido a Leonhard Euler (1707-1783) e publicado em 1764.
Para mais notas históricas sobre as equações (6.5) e (6.6) e sua relação com as funções de Bessel,
vide por exemplo [147], Capı́tulo I.
6.3 Integração de Equações Separáveis

Entre as equações diferenciais de resolução mais simples encontram-se as chamadas equações separáveis.
Uma equação diferencial ordinária de primeira ordem é dita ser uma equação separável3 se for da forma
y ′(x) = f (x)g(y(x)) , (6.7)
para funções f e g convenientes. Consideremos a condição inicial y(x0 ) = y0 para algum x0 . Definindo,
Z x Z x
1
A(x) := ds e B(x) := f (s)ds ,
x0 g(s) x0
3
Há também uma noção de equação separável na teoria das equações diferenciais parciais (vide Seção 11.2, página
641), mas trata-se de outra coisa.
caso as integrais existam, teremos,

d 1
A(y(x)) = A′ (y(x))y ′(x) = y ′ (x) e B ′ (x) = f (x) .
dx g(y(x))
d
Logo, dx A(y(x)) = B ′ (x) e A(y(x)) = B(x) + c, c sendo uma constante. Como B(x0 ) = 0, segue que
c = A(y0 ). Se a função A possuir uma inversa em algum aberto em torno de y0 , teremos
y(x) = A−1 (B(x) + A(y0 ))
como solução de (6.7) em um aberto em torno de x0 .

É interessante notar que, pelo Teorema da Função Inversa4 , A é invertı́vel em um aberto torno de
y0 se A for contı́nua e A′ (y0 ) 6= 0. Assim, a condição g(y10 ) 6= 0 garante a existência da solução y dada
acima em uma vizinhança de x0 .
E. 6.8 Exercı́cio. Determine a solução de

3x7 − 5x2 − 1
y ′ (x) = ,
1 + y2
com y(0) = 0. 6
E. 6.9 Exercı́cio. Determine a solução de

(1 + x2 )
y ′(x) = ,
cos(y(x))
com y(0) = y0 . Estude os vários casos. 6
6.4 O Método de Variação de Constantes

Seja a equação linear não-homogênea
y ′′(x) + a(x)y ′ (x) + b(x)y(x) = f (x) , (6.8)
definida em um certo intervalo aberto I ⊂ R, com f contı́nua por partes, e vamos supor que sejam
conhecidas duas soluções independentes y1 e y2 da equação homogênea y ′′(x)+a(x)y ′(x)+b(x)y(x) = 0.
O método de variação de constantes consiste em determinar funções v1 e v2 tais que a combinação
yv (x) = v1 (x)y1 + v2 (x)y2 (x) , (6.9)
seja solução da equação não-homogênea (6.8). A denominação do método como de “variação de cons-
tantes”, uma contradição em termos, provem do fato de que, como é bem sabido, a solução geral da
equação homogênea é v1 y1 (x) + v2 y2 (x) para v1 e v2 constantes.
4
Vide Seção 18.5, página 1024, ou qualquer bom livro de Cálculo de funções de várias variáveis, por exemplo, [29, 96,
97].
Substituindo (6.9) em (6.8), e usando as hipóteses que y1′′ + ay1′ + by1 = 0 e y2′′ + ay2′ + by2 = 0,
obtem-se
[v1′ y1 + v2′ y2 ]′ + a[v1′ y1 + v2′ y2 ] + [v1′ y1′ + v2′ y2′ ] = f . (6.10)
E. 6.10 Exercı́cio. Complete os detalhes que levam à última expressão. 6
Para determinar as duas funções v1 e v2 é preciso acrescentar mais uma equação diferencial envol-
vendo ambas as funções. A escolha dessa equação extra é essencialmente arbitrária, mas uma análise
de (6.10) mostra ser muito conveniente impor a relação v1′ y1 + v2′ y2 = 0 pois a expressão v1′ y1 + v2′ y2
aparece nos dois primeiros termos. Com isso, chegamos ao sistema de equações
v1′ y1 + v2′ y2 = 0 ,
v1′ y1′ + v2′ y2′ = f ,

que são equações algébricas para v1′ e v2′ , fornecendo
y1 f y2 f
v1′ = − , v2′ = + ,
y1 y2′− y1′ y2 y1y2′ − y1′ y2
cujas soluções são
Z x Z x
y2 (s)f (s) y1 (s)f (s)
v1 (x) = − ′ ′
ds + c1 , v2 (x) = + ds + c2 ,
x0 y1 (s)y2 (s) − y1 (s)y2 (s) x0 y1 (s)y2 (s) − y1′ (s)y2 (s)
′
sendo x0 ∈ I e c1 , c2 duas constantes de integração. A expressão Wy1 , y2 (x) := y1 (x)y2′ (x) − y1′ (x)y2 (x)
é denominada determinante Wronskiano5 e não se anula pois, por hipótese, y1 e y2 são independentes.
Assim, a solução procurada yv (x) = v1 (x)y1 (x) + v2 (x)y2 (x) tem a forma
Z x
y1 (s)y2 (x) − y1 (x)y2 (s)
yv (x) = [c1 y1 (x) + c2 y2 (x)] + f (s) ds
x0 y1 (s)y2′ (s) − y1′ (s)y2(s)
Z x
y1 (s)y2 (x) − y1 (x)y2 (s)
= [c1 y1 (x) + c2 y2 (x)] + f (s) ds ,
x0 Wy1 , y2 (s)
para um ponto x0 ∈ I arbitrário e constantes arbitrárias c1 e c2 a serem fixadas por condições iniciais
em x0 . O estudante deve observar que o termo [· · · ] da última expressão acima é uma solução da
equação homogênea e o último é uma solução particular da equação não-homogênea.
Uma observação simples permite reescrever a última expressão de uma forma por vezes mais con-
veniente. Se a é contı́nua por partes, é fácil constatar que
Z s
d
Wy1 , y2 (s) exp a(τ ) dτ
ds x0
" # Z s
h i h i
′′ ′ ′′ ′
= y2 (s) + a(s)y2 (s) + b(s)y2 (s) y1 (s) − y1 (s) + a(s)y1 (s) + b(s)y1 (s) y2 (s) exp a(τ ) dτ
x0
= 0,
5
Conde Josef Hoëné de Wronski (1778-1853).
pois y1 e y2 são soluções da equação homogênea. Com isso, concluı́mos que

Z s
Wy1 , y2 (s) = Wy1 , y2 (x0 ) exp − a(τ ) dτ .
x0
Sempre podemos escolher as funções y1 e y2 de forma que satisfaçam y1 (x0 ) = 1, y1′ (x0 ) = 0, y2 (x0 ) = 0,
y2′ (x0 ) = 1. Nesse caso Wy1 , y2 (x0 ) = 1 e concluı́mos que
Z x Z s
yv (x) = [c1 y1 (x) + c2 y2 (x)] + exp a(τ ) dτ y1 (s)y2 (x) − y1 (x)y2 (s) f (s) ds .
x0 x0
Com essas escolhas, é fácil ver que yv (x0 ) = c1 e yv′ (x0 ) = c2 .

No Capı́tulo 7, página 322, o método de variação de constantes será reencontrado por outros ca-
minhos e será tratado com mais generalidade, de modo a também incluir equações de ordem n e não
apenas de segunda ordem, como fizemos acima.
6.5 O Método de Substituição de Prüfer

Esse elegante método aplica-se à solução de certas equações diferenciais ordinárias e lineares e ho-
mogêneas de segunda ordem da forma
′
p(x)y ′(x) + q(x)y(x) = 0 , (6.11)
para x ∈ [a, b] ⊂ R, sendo p contı́nua e diferenciável, p(x) > 0 e q contı́nua. O chamado método de
substituição de Prüfer6 consiste em definir duas novas funções ρ e θ por
y(x) = ρ(x) sen(θ(x)) , p(x)y ′ (x) = ρ(x) cos(θ(x)) (6.12)
e transformar o problema de resolver a equação diferencial de segunda ordem para y no problema de

resolver um sistema de duas equações diferenciais de primeira ordem para ρ e θ. Como o leitor pode
perceber, a mudança acima pode ser interpretada como a passagem a coordenadas polares no espaço de
fase bidimensional definido por (y(x), p(x)y ′(x)). Obtemos o sistema equações para ρ e θ da seguinte
forma. Em primeiro lugar, observamos que diferenciando a equação do lado esquerdo de (6.12), tem-se
y ′ (x) = ρ′ (x) sen(θ(x)) + ρ(x) cos(θ(x))θ′ (x) .
Multiplicando-se por p e usando a equação do lado direito de (6.12), obtemos
ρ′ (x)p(x) sen(θ(x)) + ρ(x)p(x) cos(θ(x))θ′ (x) = ρ(x) cos(θ(x)) .
Em segundo lugar, inserindo-se a equação do lado direito de (6.12) em (6.11), tem-se
ρ′ (x) cos(θ(x)) − ρ(x) sen(θ(x))θ′ (x) = −q(x)ρ(x) sen(θ(x)) .

6
Ernst Paul Heinz Prüfer (1896-1934). A referência para trabalho de Prüfer é H. Prüfer, “Neue Herleitung der
Sturm-Liouvilleschen Reihenentwicklung stetiger Funktionen”. Math. Ann., 95, 499-518 (1926).
Dessas duas últimas igualdades podemos facilmente obter ρ′ e θ′ :

2 1 2
′
θ (x) = q(x) sen(θ(x)) + cos(θ(x)) , (6.13)
p(x)

′ ρ(x) 1
ρ (x) = − q(x) sen(2θ(x)) , (6.14)
2 p(x)
Esse é o sistema de equações procurado. Um aspecto notável do mesmo é que a primeira equação
envolve apenas θ. Se for possı́vel resolver essa equação, obtendo a função θ(x), a solução da segunda
equação seria Z x
1 1
ρ(x) = ρ(a) exp − q(y) sen(2θ(y)) dy , (6.15)
2 a p(y)
e, pela pela primeira equação de (6.12), terı́amos a solução
Z x
1 1
y(x) = ρ(a) exp − q(y) sen(2θ(y)) dy sen(θ(x)) .
2 a p(y)
Uma feliz situação particular na qual a equação para θ pode ser resolvida facilmente é aquela na
1
qual p(x) = q(x), em cujo caso ficamos com θ′ (x) = q(x), ρ′ (x) = 0, ou seja,
Z x
θ(x) = θ(a) + q(y) dy ρ(x) = ρ(a) .
a
Assim, terı́amos pela primeira equação de (6.12) a solução geral

Z x
y(x) = c1 sen q(y) dy + c2 ,
a
para duas constantes c1 e c2 (aqui, c1 ≡ ρ(a) e c2 ≡ θ(a)).
E. 6.12 Exercı́cio. Resolva a equação do oscilador harmônico simples ẍ + ω02 x = 0 usando o método
acima. Sugestão: reescreva a equação tomando p(x) = ω0−1 e q(x) = ω0 . 6
E. 6.13 Exercı́cio. Obtenha a solução da equação

′
x−α y ′ (x) + xα y(x) = 0 ,
α ∈ R, em um intervalo (a, b). 6
• Zeros de soluções
Outro aspecto interessante do método de substituição de Prüfer reside no fato de que com a repre-
sentação de Prüfer y(x) = ρ(x) sen(θ(x)), pode-se realizar um estudo mais detalhado do zeros de y.
Algumas propriedades desses zeros são relevantes para o estudo de soluções certas equações diferenciais
de interesse.
Proposição 6.1 Seja a equação diferencial

′
p(x)y ′(x) + q(x)y(x) = 0 , (6.16)
para x ∈ [a, b] ⊂ R, sendo p e q reais, p contı́nua e diferenciável, p(x) > 0 e q contı́nua. Seja y uma
solução não-identicamente nula dessa equação e y(x) = ρ(x) sen(θ(x)) sua representação de Prüfer.
Então, um ponto ξ ∈ [a, b] é um zero de y se e somente se θ(ξ) = nπ para algum n ∈ Z. Além disso,
se y tem um zero em ξ ∈ [a, b] esse zero é simples. 2
Prova. Claro é que se θ(ξ) = nπ, então y(ξ) = ρ(ξ) sen(θ(ξ)) = 0. Reciprocamente, se y(ξ) = 0 então,
como ρ(ξ) > 0 (por (6.15)), segue que sen(θ(ξ)) = 0, o que só é possı́vel se θ(ξ) = nπ para algum
n ∈ Z.
Se ξ é um zero de y, segue por (6.12) que y ′(ξ) = ρ(ξ) cos(θ(ξ))/p(ξ) = (−1)n ρ(ξ)/p(ξ) provando
que y ′(ξ) 6= 0. Isso estabelece que ξ é um zero simples de y.
6.6 O Método de Inversão

Esse método pode ser aplicado quando a solução y de uma equação diferencial ordinária for uma função
invertı́vel em algum aberto do seu domı́nio de definição. A idéia é transformar a equação para y em
uma equação para a inversa de y, que pode eventualmente ser de resolução mais simples.
Se f é invertı́vel em um aberto A e f −1 é sua inversa, então f (f −1 (z)) = z. Supondo ambas dife-
renciáveis, a regra da cadeia diz-nos que f ′ (f −1 (z))(f −1 )′ (z) = 1 e, portanto, f ′ (f −1 (z)) = 1/(f −1 )′ (z).
diferenciando-se mais uma vez tem-se f ′′ (f −1 (z)) = −(f −1 )′′ (z)/[(f −1 )′ (z)]3 . Prosseguindo assim, é
possı́vel sucessivamente expressar todas as derivadas de f em função de derivadas de f −1 .
Com essas relações, vemos que uma equação diferencial de primeira ordem F (x, y(x), y ′(x)) = 0
transforma-se na equação
−1 1
F y (z), z, −1 ′ = 0.
(y ) (z)
e uma equação diferencial de segunda ordem F (x, y(x), y ′(x), y ′′ (x)) = 0 transforma-se na equação

−1 1 (y −1)′′ (z)
F y (z), z, −1 ′ , − −1 ′ = 0,
(y ) (z) [(y ) (z)]3
e assim analogamente para equações de ordem superior. Em alguns casos tais equações transformadas
podem ser mais fáceis de resolver que a original e a solução y pode ser obtida – ao menos localmente
– invertendo a solução y −1. Ilustraremos o método em dois exemplos.
Exemplo 6.1 Seja a equação diferencial de primeira ordem
1
y ′(x) = ,
a(y(x)) x + b(y(x)) xα
onde a e b são duas funções contı́nuas e α ∈ R. Pela transformação acima, essa equação equivale a
1 1
= , ou seja, (y −1 )′ (z) = a(z) y −1 (z) + b(z) (y −1 (z))α ,
(y −1 )′ (z) a(z) y −1 (z) + b(z) (y −1 (z))α
que se trata de uma equação de Bernoulli generalizada para y −1 . A solução de equações de Bernoulli
foi apresentada na Seção 6.2, página 303. ◊
Exemplo 6.2 Considere a equação de segunda ordem y ′′ (x) + xy(x)(y ′(x))3 = 0. Pela transformação
de acima, essa equação equivale a
3
(y −1 )′′ (z) −1 1
− −1 ′ + y (z) z = 0 ou seja, (y −1)′′ (z) − zy −1 (z) = 0 ,
[(y ) (z)]3 (y −1 )′ (z)
que se trata da equação de Airy para y −1 . A solução da equação de Airy pode ser obtida pelo método
de expansão em série de potências. Vide Seção 8.1.4, página 420. ◊
6.7 Solução de Equações Exatas e o Método dos Fatores In-

tegrantes
• Equações exatas de primeira ordem
Seja D ⊂ R2 é um domı́nio aberto e simplesmente conexo e sejam definidas em D duas funções

diferenciáveis A1 (x1 , x2 ) e A2 (x1 , x2 ). A equação diferencial
A1 (x, y(x)) + A2 (x, y(x))y ′(x) = 0 (6.17)
é dita ser uma equação exata se

∂A1 ∂A2
(x1 , x2 ) − (x1 , x2 ) = 0 (6.18)
∂x2 ∂x1
para todo (x1 , x2 ) ∈ D. Uma equação exata pode ser resolvida em termos de uma equação implı́cita
pelo método que segue.
A condição (6.18) diz-nos que o campo bidimensional A ~ = (A1 , A2 ) é irrotacional. Como D é
~
simplesmente conexo, A pode ser escrito como o gradiente de uma função U. Essa situação é análoga
ao que ocorre na Mecânica Clássica quando se lida com forças conservativas, as quais podem ser
expressas como o gradiente de um potencial.
De fato, sejam (a, b), (x1 , x2 ) ∈ D e seja C uma curva diferenciável orientada de (a, b) a (x1 , x2 )
inteiramente contida em D: C = {(w1(s), w2 (s)) ∈ D, s ∈ [0, 1]}, onde as funções w1 (s) e w2 (s) são
contı́nuas e diferenciáveis e satisfazem (w1 (0), w2 (0)) = (a, b), (w1 (1), w2 (1)) = (x1 , x2 ). Defina-se a
função U : D → R como sendo a integral de linha do campo A ~ ao longo de C do ponto (a, b) ao ponto
(x1 , x2 ):
Z (x1 , x2 ) Z (x1 , x2 )
U(x1 , x2 ) := ~ w)
A( ~ · dw
~ = A1 (w1 , w2 )dw1 + A2 (w1 , w2 )dw2
(a, b) C (a, b) C
Z
1
dw1 dw2
= A1 (w1 (s), w2 (s)) + A2 (w1 (s), w2 (s)) ds . (6.19)
0 ds ds
Como D é simplesmente conexa, o Teorema de Green e a condição (6.18) implicam que essa integral
não depende da particular curva C adotada, mas apenas dos pontos extremos (a, b) e (x1 , x2 ). Pela
definição de U é imediato que
∂U ∂U
(x1 , x2 ) = A1 (x1 , x2 ) e (x1 , x2 ) = A2 (x1 , x2 ) (6.20)
∂x1 ∂x2
em todo D. Assim, a equação (6.17) pode ser escrita como
∂U ∂U d
(x, y(x)) + (x, y(x))y ′(x) = 0, ou seja, U(x, y(x)) = 0 .
∂x1 ∂x2 dx
Dessa forma, concluı́mos que a solução da equação (6.17) é a solução da equação implı́cita
U(x, y(x)) = U0 ,
caso essa exista. Aqui U0 é uma constante. Se estivermos interessados na condição inicial y(x0) =
y0 , para (x0 , y0 ) ∈ D, teremos U0 = U(x0 , y0 ). Pelo Teorema da Função Implı́cita7 , a equação
U(x, y(x)) = U(x0 , y0 ) terá uma solução y(x) em uma vizinhança de x0 satisfazendo y(x0 ) = y0 se U
∂U
for contı́nua e diferenciável em torno de (x0 , y0 ) e se ∂x 2
(x0 , y0 ) 6= 0, ou seja, se A2 (x0 , y0 ) 6= 0.
E. 6.14 Exercı́cio. Mostre que a equação diferencial
(3x2 − y(x)2 − 7) − (ey(x) + 2xy(x) + 1)y ′(x) = 0
é exata e mostre que suas soluções são soluções da equação implı́cita
y(x) − y(x)2 + ey(x) + 7x − x3 = constante.
• Método dos Fatores Integrantes
Dada uma equação diferencial como
B1 (x, y(x)) + B2 (x, y(x))y ′(x) = 0 , (6.21)
com B1 (x1 , x2 ) e B2 (x1 , x2 ) definidas em um domı́nio D ⊂ R2 , aberto e simplesmente conexo, nem

sempre ocorre de a condição de exatidão ∂B 1
∂x2
(x1 , x2 ) − ∂B2
∂x1
(x1 , x2 ) = 0 ser satisfeita. Em alguns casos,
7
Vide Seção 18.5, página 1024, ou qualquer bom livro de Cálculo de funções de várias variáveis, por exemplo, [29, 96,
97].
porém, ao multiplicarmos a equação (6.21) por uma fator ω(x, y(x)) convenientemente escolhido, a
equação pode transformar-se em uma equação exata, a qual pode, então, ser resolvida pelo método
descrito acima. Um tal ω, se existir, será denominado fator integrante da equação (6.21).
Definindo A1 (x1 , x2 ) := ω(x1 , x2 )B1 (x1 , x2 ) A2 (x1 , x2 ) := ω(x1 , x2 )B2 (x1 , x2 ), desejamos
determinar quais funções ω tornam válida a condição (6.18), ou seja, desejamos determinar a solução
ω da equação diferencial parcial linear de primeira ordem

∂ω ∂ω ∂B1 ∂B2
B1 (x1 , x2 ) (x1 , x2 ) − B2 (x1 , x2 ) (x1 , x2 ) + ω(x1 , x2 ) (x1 , x2 ) − (x1 , x2 ) = 0 .
∂x2 ∂x1 ∂x2 ∂x1
(6.22)
Resolver essa equação pode não ser possı́vel, ou pode ser uma tarefa ainda mais difı́cil que resolver
a equação original (6.21) por outros meios. Em certos casos ela pode ser resolvida pelo método das
caracterı́sticas, do qual falaremos adiante, mas há duas situações especiais que tornam a solução simples:

1 ∂B1 ∂B2
I. (x1 , x2 ) − (x1 , x2 ) = α(x1 ), uma função apenas da variável x1 .
B2 (x1 , x2 ) ∂x2 ∂x1
Nesse caso, (6.22) fica
B1 (x1 , x2 ) ∂ω ∂ω
(x1 , x2 ) − (x1 , x2 ) + ω(x1 , x2 )α(x1 ) = 0 .
B2 (x1 , x2 ) ∂x2 ∂x1
Escolhendo ω(x1 , x2 ) = ω(x1 ), uma função apenas da variável x1 , essa equação simplifica-se para
ω ′ (x1 ) − ω(x1 )α(x1 ) = 0 ,
cuja solução é Z
x1
ω(x1 ) = c exp + α(ξ)dξ
a
sendo a e c arbitrários (sem perda, podemos escolher c = 1).

1 ∂B1 ∂B2
II. (x1 , x2 ) − (x1 , x2 ) = β(x2 ), uma função apenas da variável x2 .
B1 (x1 , x2 ) ∂x2 ∂x1
Nesse caso, (6.22) fica
∂ω B2 (x1 , x2 ) ∂ω
(x1 , x2 ) − (x1 , x2 ) + ω(x1 , x2 )β(x2 ) = 0 .
∂x2 B1 (x1 , x2 ) ∂x1
Escolhendo ω(x1 , x2 ) = ω(x2 ), uma função apenas da variável x2 , essa equação simplifica-se para
ω ′ (x2 ) + ω(x2 )β(x2 ) = 0 ,
cuja solução é Z
x2
ω(x2 ) = d exp − β(ξ)dξ
b
sendo b e d arbitrários (sem perda, podemos escolher d = 1).

Exemplo 6.3 Revisitando a equação (6.1) e reencontrando sua solução (6.2).

A equação y ′ (x)+a(x)y(x) = b(x) pode serescrita na forma (6.21) comB1 (x1 , x2 ) = a(x1 )x2 −b(x1 )
e B2 (x1 , x2 ) = 1. Tem-se aqui que B2 (x11 , x2 ) ∂B1
∂x2
(x1 , x2 ) − ∂B2
∂x1
(x1 , x2 ) = a(x1 ) e vale, portanto, a
condição do item I, acima, sendo o fator integrante dado por
Z x1
ω(x1 ) = exp a(ξ)dξ
x0
com x0 arbitrário. Assim,

Z x1 Z x1

A1 (x1 , x2 ) = exp a(ξ)dξ a(x1 )x2 − b(x1 ) e A2 (x1 , x2 ) = exp a(ξ)dξ .
x0 x0
Com Z x1 Z x1 Z χ
U(x1 , x2 ) = x2 exp a(ξ)dξ − b(χ) exp a(ξ)dξ dχ
x0 x0 x0
constata-se que
∂U ∂U
A1 (x1 , x2 ) = (x1 , x2 ) e A2 (x1 , x2 ) = (x1 , x2 ) .
∂x1 ∂x2
E. 6.15 Exercı́cio. Obtenha U calculando a integral em (6.19) para alguma curva C conveniente. 6
Pelo que vimos, a solução da equação diferencial satisfaz a equação implı́cita U(x, y(x)) = U0 ,
sendo U0 uma constante. Para uma condição inicial y(x0 ) = y0 , tem-se U0 = U(x0 , y0 ) = y0 e a
equação implı́cita U(x, y(x)) = y0 fica
Z x Z x Z χ
y(x) exp a(ξ)dξ − b(χ) exp a(ξ)dξ dχ = y0 ,
x0 x0 x0
cuja solução é
Z x Z x Z χ
y(x) = exp − a(ξ)dξ y0 + b(χ) exp a(ξ)dξ dχ ,
x0 x0 x0
que é precisamente a solução dada em (6.2), como facilmente se constata. ◊
• Equações exatas de ordem n
Veremos agora como as idéias de acima podem ser generalizadas para equações de ordem n.
Seja F (x, x0 , x1 , . . . , xn ) uma função de n + 2 variáveis que define uma equação diferencial
ordinária de ordem n:
′ (n)
F x, y(x), y (x), . . . , y (x) = 0 . (6.23)
Essa equação é dita ser uma equação diferencial exata se existir uma função diferenciável U(x, x0 , x1 , . . . , xn−
de n + 1 variáveis tal que
F (x, x0 , x1 , . . . , xn ) =
∂U ∂U ∂U
(x, x0 , x1 , . . . , xn−1 ) + x1 (x, x0 , x1 , . . . , xn−1 ) + · · · + xn (x, x0 , x1 , . . . , xn−1 ) ,
∂x ∂x0 ∂xn−1
(6.24)
então a equação (6.23) torna-se
∂U ∂U
x, y(x), y ′ (x), . . . , y (n−1) (x) + y ′(x) x, y(x), y ′ (x), . . . , y (n−1) (x)
∂x ∂x0
∂U
+ · · · + y (n) (x) x, y(x), y ′(x), . . . , y (n−1) (x) = 0 ,
∂xn−1
d
ou seja, U x, y(x), y ′(x), . . . , y (n−1) (x) = 0 e, portanto, vale
dx

U x, y(x), y ′(x), . . . , y (n−1) (x) = U0 , (6.25)
onde U0 é uma constante,

fixada pelos n “valores iniciais” y(x0 ), y ′ (x0 ), . . . , y (n−1) (x0 ), para algum
ponto x0 : U0 = U x0 , y(x0), y ′(x0 ), . . . , y (n−1) (x0 ) .
A expressão (6.25) é uma nova equação diferencial para y, mas de ordem no máximo igual a n − 1.
Assim, toda equação exata de ordem n pode ser transformada em uma equação de ordem menor, a
qual poderá eventualmente ser resolvida por algum dos métodos disponı́veis.
Claro é por (6.24) que a equação (6.23) é da forma

A1 x, y(x), y ′(x), . . . , y (n−1) (x) + A2 x, y(x), y ′ (x), . . . , y (n−1) (x) y (n) (x) = 0 , (6.26)
onde
∂U ∂U
A1 (x, x0 , x1 , . . . , xn−1 ) = (x, x0 , x1 , . . . , xn−1 ) + x1 (x, x0 , x1 , . . . , xn−1 ) (6.27)
∂x ∂x0
∂U
+ · · · + xn−1 (x, x0 , x1 , . . . , xn−1 ) ,
∂xn−2
∂U
A2 (x, x0 , x1 , . . . , xn−1 ) = (x, x0 , x1 , . . . , xn−1 ) . (6.28)
∂xn−1
As expressões (6.26)-(6.28) generalizam (6.17)-(6.20), do caso de equações exatas de ordem n = 1.

Naquele caso sabı́amos que a relação (6.18) é necessária e suficiente (caso D seja simplesmente conexo)
para garantir exatidão, ou seja, a existência de uma função U com as propriedades desejadas. No caso
n > 1, infelizmente não há modo simples de expressar as condições necessárias e suficientes para que
A1 e A2 tenham a forma dada em (6.27) e (6.28), respectivamente.
Exemplo 6.4 Seja V diferenciável e f = −V ′ . A equação diferencial de segunda ordem my ′′ (x) −

f (y(x)) = 0 não é exata, mas multiplicando-a por y ′(x), ficamos com y ′(x)(my ′′ (x) − f (y(x))) = 0, que
pode ser escrita como F (x, y(x), y ′(x), y ′′(x)) = 0 para F (x, x0 , x1 , x2 ) = x1 (mx2 − f (x0 )) e para
essa F , podemos encontrar uma função U(x, x0 , x1 ) tal que a condição de exatidão (6.24) é satisfeita.
De fato, essa função é U(x, x0 , x1 ) = m2 x21 + V (x0 ) (verifique!). A nova equação (6.25) fica nesse caso
m ′
(y (x))2 + V (y(x)) = U0 = constante.
2
O estudante pode reconhecer nisso a equação
q da conservação da energia em uma dimensão. Pode-
mos então, localmente, escrever y (x) = ± m2 (U0 − V (y(x))), cuja solução, após integração, é obtida
′
invertendo localmente Z
dy
x = ± q + constante.
2
m
(U 0 − V (y))
◊
E. 6.16 Exercı́cio. Use o procedimento descrito acima para resolver a equação do oscilador harmônico
simples my ′′ (x) + ky(x) = 0, m > 0, k > 0 6
6.8 Soluções das Equações de D’Alembert-Lagrange e Clai-

raut
Uma equação diferencial de primeira ordem da forma
xA(y ′ (x)) + B(y ′ (x)) − y(x) = 0 , (6.29)
com A e B contı́nuas e diferenciáveis, é denominada equação de D’Alembert8 ou equação de Lagrange9 .
No caso em que A(z) ≡ z, a equação é conhecida como equação de Clairaut10 :

xy ′(x) − y(x) + B(y ′(x)) = 0 . (6.30)
Diferenciando a equação (6.29) em relação a x, obtem-se

A(y ′(x)) + xA′ (y ′(x)) + B ′ (y ′(x)) y ′′ (x) − y ′(x) = 0 .
Definindo v(x) = y ′(x), isso diz que

A(v(x)) − v(x) + xA′ (v(x)) + B ′ (v(x)) v ′ (x) = 0 . (6.31)
No que segue apresentaremos soluções das equações de acima, começando com a equação de Clairaut
(6.30) e depois tratando da equação de D’Alembert-Lagrange (6.29).
8
Jean Le Rond d’Alembert (1717-1783).
9
Joseph-Louis Lagrange (1736-1813).
10
Alexis Claude Clairaut (1713-1765).
• Soluções da equação de Clairaut. A solução singular
No caso em que A(z) ≡ z (equação de Clairaut) a equação (6.31) reduz-se a

x + B ′ (v(x)) v ′ (x) = 0 . (6.32)
Há duas formas de satisfazer essa equação: a. impondo v ′ (x) = 0 ou, b. impondo x + B ′ (v(x)) = 0.
a. Impondo-se v ′ (x) = 0, tem-se y(x) = c0 x + c1 , com c0 e c1 constantes. Essas constantes, porém,

não são independentes, pois (6.30) tem que ser satisfeita. Inserindo y(x) = c0 x + c1 em (6.30)
obtem-se c1 = B(c0 ). Assim, uma solução de (6.30) é
y1 (x) ≡ y1 (x, c0 ) = c0 x + B(c0 ) ,
que depende de um parâmetro livre c0 .

b. Aqui impomos x + B ′ (v(x)) = 0, obtendo localmente v(x) = (B ′ )−1 (−x). Lembramos, porém,
que (6.30) impõe uma relação entre y e v: y(x) = xv(x) + B(v(x)). Assim, uma segunda solução
de (6.30) é dada (localmente) por
y2 (x) = x(B ′ )−1 (−x) + B((B ′ )−1 (−x)) .
O fato notável sobre a solução y2 é que a mesma não depende de nenhum parâmetro livre (que pode-
ria ser fixado, eventualmente, por uma condição inicial). Soluções desse tipo são denominadas soluções
singulares11 de equações diferenciais. Tecnicamente, a definição de solução singular é a seguinte. Uma
solução ys de uma equação diferencial ordinária de primeira ordem é dita ser uma solução singular se
for tangente a cada solução geral yg dessa equação, ou seja, se para todo x no domı́nio de definição da
equação houver uma solução geral yg tal que ys (x) = yg (x) e ys′ (x) = yg′ (x).
E. 6.17 Exercı́cio. Mostre que a solução y2 (x) = x(B ′ )−1 (−x) + B((B ′ )−1 (−x)) é tangente às soluções
y1 (x) = c0 x+ B(c0 ). Sugestão: use o fato (e prove-o!) que x(B ′ )−1 (−x) + B((B ′ )−1 (−x)) é uma primitiva
de (B ′ )−1 (−x). 6
Geometricamente, uma solução singular pode ser visualizada da seguinte forma. Desenha-se no
plano (x, y) a famı́lia de todas as curvas (x, yg (x)), x ∈ R, para todas as soluções gerais yg . A solução
singular corresponde à curva envoltória dessa famı́lia de curvas.
A equação de Clairaut, com sua solução singular, foi resolvida pelo mesmo em 1734.
Uma terceira solução de (6.31) poderia ser obtida procedendo de modo ligeiramente distinto do
que foi feito na segunda solução. Resolvendo localmente em v a equação x + B ′ (v(x)) = 0, obtem-se
v(x) = (B ′ )−1 (−x). Como v(x) = y ′(x), obtem-se aparentemente uma terceira solução por integração:
y3 (x) = C(x) + c2 , c2 sendo uma constante e C(x) sendo uma primitiva de (B ′ )−1 (−x), ou seja, tal que
C ′ (x) = (B ′ )−1 (−x). Essa solução aparenta ter um parâmetro livre e aparenta ser distinta da solução
y2 , mas isso não é verdade. É preciso ainda impor que y3 satisfaça (6.30), ou seja, devemos impor que
x(B ′ )−1 (−x) − C(x) − c2 + B((B ′ )−1 (−x)) = 0 .

11
Trata-se de uma nomenclatura infeliz, pois o a expressão “singular” é usada com vários outros significados na
literatura das equações diferenciais.
′ −1 ′ −1 ′ −1
(O leitor
deve observar que x(B ) (−x) + B((B ) (−x)) é também uma primitiva de (B ) (−x),
d
pois dx x(B ′ )−1 (−x) + B((B ′ )−1 (−x)) = (B ′ )−1 (−x) como facilmente se verifica). Daı́, devemos ter
c2 = C(x) − (x(B ′ )−1 (−x) + B((B ′ )−1 (−x))) e, portanto, y3 (x) = x(B ′ )−1 (−x) + B((B ′ )−1 (−x)), que
coincide com a solução y2 .
Exemplo 6.5 Considere a equação de Clairaut
xy ′ (x) − y(x) + (y ′(x))2 = 0 . (6.33)
Nesse caso, B(z) = z 2 , B ′ (z) = 2z e (B ′ )−1 (w) = w/2. Assim, as duas soluções encontradas acima são
y1 (x) ≡ y1 (x, c0 ) = c0 x + (c0 )2 e y2 (x) = −x2 /4, como facilmente se constata. ◊
E. 6.18 Exercı́cio. Verifique que as soluções y1 (x, c0 ) e y2 (x) dadas no exemplo acima são de fato
soluções de (6.33). Mostre explicitamente que y2 (x) = −x2 /4 é uma solução singular no sentido da
definição dada acima, ou seja, para todo x existe c0 tal que y2 (x) = y1 (x, c0 ) e y2′ (x) = y1′ (x, c0 ). Desenhe
várias das curvas (x, y1 (x, c0 )), x ∈ R, para vários valores de c0 ∈ R e visualize a curva envoltória dessa
famı́lia de curvas, a qual corresponderá à curva (x, y2 (x)), x ∈ R, da solução singular. 6
E. 6.19 Exercı́cio. Determine as soluções y1 e y2 da equação de Clairaut
xy ′ (x) − y(x) + (y ′(x))4 = 0 ,
e resolva as mesmas questões propostas no Exercı́cio E. 6.18. 6
• Soluções da equação de D’Alembert-Lagrange
Daqui por diante suporemos que A(z) 6≡ z. Como veremos, a equação (6.31) pode ser resolvida
com o uso do método dos fatores integrantes para obter uma equação exata e depois resolvê-la como
tal. Assim como (6.29), a equação (6.31) é uma equação de primeira ordem, mas a dependência em v ′
é muito mais simples. Em verdade, identificando
B1 (x, v(x)) = A(v(x)) − v(x) e B2 (x, v(x)) = xA′ (v(x)) + B ′ (v(x)) ,
ou seja, para,
B1 (x1 , x2 ) = A(x2 ) − x2 e B2 (x1 , x2 ) = x1 A′ (x2 ) + B ′ (x2 ) ,
a equação (6.31) tem a forma (6.21). A condição de exatidão (6.18) não é satisfeita (verifique!) e
desejamos saber se um fator integrante pode ser encontrado. É fácil ver que nesse caso

1 ∂B1 ∂B2 1
(x1 , x2 ) − (x1 , x2 ) = =: β(x2 ) ,
B1 (x1 , x2 ) ∂x2 ∂x1 A(x2 ) − x2
uma função apenas da variável x2 . Vale, assim, o caso II da página 314, e o fator integrante é
Z x2
1
ω(x2 ) = exp dξ .
b (A(ξ) − ξ)
Assim, definindo
Z x2
1
A1 (x1 , x2 ) := ω(x2 )B1 (x1 , x2 ) = (A(x2 ) − x2 ) exp dξ
b (A(ξ) − ξ)
Z x2
′ ′ 1
A2 (x1 , x2 ) := ω(x2 )B2 (x1 , x2 ) = (x1 A (x2 ) + B (x2 )) exp dξ
b (A(ξ) − ξ)
a equação A1 (x, v(x)) + A1 (x, v(x))v ′ (x) = 0, obtida multiplicando (6.31) por ω(v(x)), é exata. É
fácil verificar que nesse caso
Z x2 Z x2 Z χ
1 ′ 1
U(x1 , x2 ) = x1 (A(x2 ) − x2 ) exp dξ + B (χ) exp dξ dχ .
b (A(ξ) − ξ) b b (A(ξ) − ξ)
(6.34)
E. 6.20 Exercı́cio. Prove isso! 6
Assim, a solução para (6.31) é dada por U(x, v(x)) = c0 , c0 sendo uma constante. Agora, para a
obtenção das soluções desejadas de (6.29) há dois procedimentos:
a. Observa-se que a equação (6.29) pode ser lida como xA(v(x)) + B(v(x)) = y(x), que relaciona v
e y. Ao menos em princı́pio, podemos resolver essa equação para v e obter v(x) = I(x, y(x)).
Inserindo isso em U(x, v(x)) = c0 , obtemos U(x, I(x, y(x))) = c0 . Essa equação pode ser, ao
menos em princı́pio, resolvida em y para fornecer uma solução y1 (x), dependente de um parâmetro
livre c0 .
b. Resolve-se localmente a equação U(x, v(x)) = c0 para v, obtendo-se v(x) = H(x, c0 ) para alguma
função H. Observa-se que a equação (6.29) pode ser lida como y(x) = xA(v(x)) + B(v(x)), que
fornece y se v é dado. Assim, y2 (x) = xA(H(x, c0 )) + B(H(x, c0 )) é uma segunda solução de
(6.29). É de se notar que a solução y2 depende de um parâmetro livre c0 .
Um terceiro procedimento seria resolver localmente a equação R U(x, v(x)) = c0 para v, obtendo
v(x) = H(x, c0 ) para alguma função H, donde se extrai y3 (x) = H(x, c0 )dx + c1 , c1 sendo uma nova
constante. Para que se tenha uma solução de (6.29) é preciso inserir essa solução naquela equação, o
que implica y3 (x) = xA(H(x, c0 )) + B(H(x, c0 )), mostrando que essa terceira solução é idêntica à y2 .
′
Exemplo 6.6 A equação diferencial (2x + √ 1)y (x) − y(x) = 0 pode ser facilmente resolvida por in-
tegração, fornecendo a solução y0 (x) = k 2x + 1, k sendo uma constante. Para ilustrar o método
de solução desenvolvido acima, escrevemos essa equação diferencial na forma de uma equação de
D’Alembert-Lagrange:
2xy ′(x) − y(x) + y ′(x) = 0 . (6.35)
Aqui temos A(z) = 2z, B(z) = z, B ′ (z) = 1. Para a função U tem-se por (6.34) (tomamos aqui b = 1,
sem perda de generalidade)
Z x2 Z x2 Z χ
1 1
U(x1 , x2 ) = x1 x2 exp dξ + exp dξ dχ
1 ξ 1 1 ξ
Z x2
2 1 1
= x1 x2 + χ dχ = x1 + x22 − .
1 2 2
q ′
c0
2
A equação U(x, v(x)) = c0 fica, então, (2x + 1)v(x) = (com c′0 c′0 = 2c0 + 1). Assim, v(x) = ± 2x+1 .
q ′ p
c0
Assim, H(x, c′0 ) = ± 2x+1 e a solução y2 fica y2 (x) = ± c′0 (2x + 1), que coincide em forma com a
solução y0 .
Para a solução y1 começamos por notar que (6.35) diz-nos que y(x) = (2x + 1)v(x) e, portanto,
v(x) = I(x, y(x)) = p y(x)/(2x + 1). A equação U(x, I(x, y(x))) = c0 fica y(x)2 /(2x + 1) − 1 = c0 , cuja
solução é y1 (x) = ± c′0 (2x + 1), também idêntica em forma à solução y0 . O fato de as soluções y1 e y2
coincidirem decorre de (6.35) ser uma equação linear, apresentando apenas uma solução, dependente
de um parâmetro (vide Seção 6.1, página 302). ◊
Exemplo 6.7 Considere a equação diferencial
α ′
2xy ′ (x) − y(x) − (y (x))3 = 0 , (6.36)
3
α 6= 0 sendo uma constante. Essa é uma equação de D’Alembert-Lagrange com A(z) = 2z, B(z) =
− α3 z 3 , B ′ (z) = −αz 2 . Para a função U tem-se, por (6.34) (tomamos aqui b = 1, sem perda de
generalidade),
Z x2 Z x2 Z χ
1 2 1
U(x1 , x2 ) = x1 x2 exp dξ − α χ exp dξ dχ
1 ξ 1 1 ξ
Z x2
2 α
= x1 x2 − α χ3 dχ = x1 x22 − (x42 − 1) .
1 4
A equação U(x, v(x)) = c0 fica v(x)4 − 4x

α
v(x)2 − c′0 = 0 (com c′0 = − 4cα0 − 1) cujas quatro soluções são
s r
2x x2
v(x) = ± ± + (c′0 )2 .
α α2

Por (6.36), y(x) = v(x) 2x − α3 v(x)2 e, assim, obtem-se quatro soluções
r !s r
4x (−α) 4x2 2x 4x2
y2 (x) = ± ± + (c′0 )2 ± + (c′0 )2 , (6.37)
3 3 α2 α α2
sendo que os dois últimos sinais ± devem ser escolhidos iguais.

Para obter as soluções y1 é preciso primeiro resolver em v a equação de terceiro grau y(x) =
2xv(x) − α3 v(x)3 . Para soluções de equações de terceiro grau, vide, por exemplo, [138]. ◊
E. 6.21 Exercı́cio. Verifique que (6.37) é, de fato, uma solução de (6.36). 6
Capı́tulo 7
Sistemas de Equações Diferenciais Ordinárias
Lineares
Conteúdo
7.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 323
7.2 Unicidade e Existência de Soluções . . . . . . . . . . . . . . . . . . . . . . . 324
7.2.1 Unicidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 324
7.2.2 Existência. A Série de Dyson . . . . . . . . . . . . . . . . . . . . . . . . . . . 327
7.2.3 Propriedades de D(s, t) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 332
7.3 Equações com Coeficientes Constantes . . . . . . . . . . . . . . . . . . . . . 336
7.3.1 Alguns Exemplos e Aplicações . . . . . . . . . . . . . . . . . . . . . . . . . . 338
7.4 Teoria de Perturbações de Sistemas Lineares . . . . . . . . . . . . . . . . . 343
7.5 Mais sobre a Série de Dyson. Produtos de Tempo Ordenado . . . . . . . 346
7.6 Sistemas de Equações Diferenciais Lineares no Plano Complexo . . . . . 349
7.6.1 O Caso Analı́tico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 350
7.6.2 Resolução por Séries de Potências . . . . . . . . . . . . . . . . . . . . . . . . 356
7.6.3 Sistemas com Pontos Singulares. Monodromia . . . . . . . . . . . . . . . . . 358
7.6.4 Sistemas com Pontos Singulares Simples . . . . . . . . . . . . . . . . . . . . . 368
7.7 Sistemas Provenientes de EDOs de Ordem m . . . . . . . . . . . . . . . . 373
7.7.1 Pontos Singulares Simples em EDO’s de Ordem m . . . . . . . . . . . . . . . 374
7.7.2 Singularidades no Infinito . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 378
7.7.3 Alguns Exemplos de Interesse . . . . . . . . . . . . . . . . . . . . . . . . . . . 380
7.8 Equações Fuchsianas. Sı́mbolos de Riemann . . . . . . . . . . . . . . . . . 386
7.8.1 Equações Fuchsianas de Primeira Ordem . . . . . . . . . . . . . . . . . . . . 386
7.8.2 Equações Fuchsianas de Segunda Ordem . . . . . . . . . . . . . . . . . . . . . 391
7.8.3 Sı́mbolos de Riemann. Simetrias de Equações Fuchsianas de Segunda Ordem 398
I remos neste capı́tulo estudar sistemas de equações diferenciais lineares ordinárias, com par-
ticular atenção a sistemas de equações diferenciais lineares associados a equações diferenciais
lineares de ordem n. Demonstraremos alguns teoremas básicos e apresentaremos métodos de
solução, com particular destaque para a série de Dyson. Alguns exemplos de interesse fı́sico
serão discutidos com certo detalhe. Inicialmente trataremos sistemas dependentes de uma variável real
e mais adiante generalizaremos nossos resultados para sistemas dependentes de uma variável complexa.
Tal generalização é particularmente importante para o tratamento de sistemas de equações diferenciais
322
provenientes de equações diferenciais ordinárias lineares de ordem n, já que métodos de resolução de
tais equações, como o método de Frobenius, estão intimamente relacionados a propriedades analı́ticas
dos coeficientes da equação. O presente capı́tulo será continuado no Capı́tulo 8, onde discutiremos a
solução de equações diferenciais ordinárias lineares de ordem 2 utilizando o método de expansões em
série, e utilizando o método de Frobenius. Em seguida, no Capı́tulo 9, estudaremos propriedades de
algumas das soluções de maior interesse em Fı́sica.
7.1 Introdução
Seja t uma variável real, A(t) uma matriz m × m cujos elementos Aij (t), i, j = 1, . . . , m, são funções
contı́nuas (reais ou complexas) dadas de t e seja F (t) um vetor coluna
 
f1 (t)
 
F (t) =  ... 
fm (t)
onde fi (t), i = 1, . . . , m são igualmente funções contı́nuas (reais ou complexas) dadas de t.

Se Y (t) é um vetor coluna  
y1 (t)
 
Y (t) =  ... 
ym (t)
a equação diferencial
Ẏ (t) = A(t)Y (t) + F (t) (7.1)
é denominada um sistema linear de equações diferenciais de primeira ordem, cujas incógnitas são as m
funções y1 (t), . . . , ym (t).
Caso F for identicamente nula o sistema é dito ser um sistema homogêneo e, caso contrário, é dito
ser um sistema não-homogêneo.
Estaremos aqui interessados em estudar esses sistemas de equações diferenciais quando uma condição
inicial é fornecida, ou seja, quando o valor de Y (t) em um ponto t0 é especificado, tipicamente o valor
de Y (t) em t = 0: Y (0) = Y0 , com  
y10
 
Y0 =  ...  ,
0
ym
y10 , . . . ym
0
sendo constantes (reais ou complexas).
7.2 Unicidade e Existência de Soluções
7.2.1 Unicidade
Iremos mais adiante mostrar que, sob as hipóteses acima, o sistema (7.1), submetido a uma condição
inicial Y (0) = Y0 , sempre possui solução. Iremos em verdade exibir um método aproximativo para o
cálculo da solução.
Para preparar essa discussão devemos primeiramente demonstrar a unicidade da solução, ou seja,
precisamos mostrar que se houver uma função Y (t) satisfazendo Ẏ (t) = A(t)Y (t) + F (t) e Y (0) = Y0 ,
então não há outra função distinta de Y com essas propriedades. O fato de a solução ser única será de
importância quando discutirmos um método para calcular a solução.
Vamos considerar primeiro o caso mais simples onde a equação é homogênea Ẏ (t) = A(t)Y (t) e a
condição inicial é Y (0) = 0. Partiremos desse caso mais simples para poder tratar melhor depois o caso
geral. Integrando-se ambos os lados da igualdade Ẏ (t) = A(t)Y (t) entre 0 e t e usando que Y (0) = 0,
tem-se Z t
Y (t) = A(t1 )Y (t1 ) dt1 . (7.2)
0
Essa relação é uma identidade a ser satisfeita pela função Y (t) que eventualmente é solução da equação
Ẏ (t) = A(t)Y (t) com a condição inicial Y (0) = 0. Observemos que a função Y aparece no lado esquerdo
e também dentro da integral. Como a identidade acima vale para todo t, tem-se também que
Z t1
Y (t1 ) = A(t2 )Y (t2 ) dt2 .
0
Inserindo-se isso na penúltima identidade, tem-se

Z t Z t1
Y (t) = A(t1 ) A(t2 )Y (t2 ) dt2 dt1 ,
0 0
ou seja, Z tZ t1
Y (t) = A(t1 )A(t2 ) Y (t2 ) dt2 dt1 .
0 0
Repetindo-se esse procedimento n vezes chega-se à seguinte identidade:
Z t Z t1 Z tn−1
Y (t) = ··· A(t1 )A(t2 ) · · · A(tn ) Y (tn ) dtn dtn−1 · · · dt1 . (7.3)
0 0 0
Lembrando que Y (t) é um vetor cujas componentes são funções yi(t) essa última identidade significa
para a a-ésima componente
m Z tZ
X t1 Z tn−1
ya (t) = ··· (A(t1 )A(t2 ) · · · A(tn ))ab yb(tn ) dtn dtn−1 · · · dt1 . (7.4)
b=1 0 0 0
Acima, (A(t1 )A(t2 ) · · · A(tn ))ab é o elemento ab da matriz A(t1 )A(t2 ) · · · A(tn ), formada pelo produto
de n matrizes.
De acordo com a regra de produto de matrizes, (A(t1 )A(t2 ) · · · A(tn ))ab é dado por
m X
X m m
X
(A(t1 )A(t2 ) · · · A(tn ))ab = ··· Aak1 (t1 )Ak1 k2 (t2 ) · · · Akn−1 b (tn ).
k1 =1 k2 =1 kn−1 =1
A relação (7.4) fica então

m X
X m X
m m
X Z tZ t1 Z tn−1
ya (t) = ··· ··· Aak1 (t1 )Ak1 k2 (t2 ) · · · Akn−1 b (tn ) yb (tn ) dtn dtn−1 · · · dt1 .
b=1 k1 =1 k2 =1 kn−1 =1 0 0 0
Essa relação implica a seguinte desigualdade

Xm X m Xm Xm Z t Z t1 Z tn−1
|ya (t)| ≤ ··· ··· |Aak1 (t1 )| |Ak1k2 (t2 )| · · · |Akn−1 b (tn )||yb(tn )|dtn dtn−1 · · · dt1 .
b=1 k1 =1 k2 =1 kn−1 =1 0 0 0
(7.5)
Vamos agora supor (provisoriamente) que t é limitado a um intervalo [0, T ] para algum T > 0
finito. Vamos definir
α = max max |Aij (t)| (7.6)
t∈[0, T ] i, j∈{1, ..., m}
e
M = max max |yi (t)|,
t∈[0, T ] i∈{1, ..., m}
ou seja α é o máximo valor alcançado pelo módulo dos elementos de matriz Aij (t) quando t varia
no intervalo [0, T ] e M é o máximo valor alcançado pelo módulo de todas as componentes yi (t) de
Y quando t varia no intervalo [0, T ]. Note-se que as mencionadas funções são limitadas pois, por
hipótese, são contı́nuas, e o intervalo [0, T ] é finito.
Retornando a (7.5), como todos os |Aij (tk )| são menores ou iguais a α e todos os |yb (tn )| são menores
ou iguais a M, tem-se que
m X
X m X m Xm Z t Z t1 Z tn−1
|ya(t)| ≤ ··· ··· αn M dtn dtn−1 · · · dt1 . (7.7)
b=1 k1 =1 k2 =1 kn−1 =1 0 0 0
O fator αn deve-se ao fato que

|Aak1 (t1 )| |Ak1k2 (t2 )| · · · |Akn−1 b (tn )| ≤ α · · α} = αn .
| ·{z
n vezes
Claramente, vale que

Xm X m Xm Z tZ t1 Z tn−1 m X
X m m
X Z tZ t1 Z tn−1
n n
··· ··· α Mdtn · · · dt1 = α M ··· ··· dtn · · · dt1 ,
b=1 k1 =1 kn−1 =1 0 0 0 b=1 k1 =1 kn−1 =1 0 0 0
pois α e M são constantes. Fora isso, é bem fácil constatar que

Z t Z t1 Z tn−1
tn
··· dtn dtn−1 · · · dt1 = .
0 0 0 n!
E. 7.1 Exercı́cio importante. A última igualdade pode ser facilmente provada por indução. Faça-o. 6
Assim, a desigualdade (7.7) fica

m m m
n tn X X X
|ya (t)| ≤ α M ··· 1.
n! b=1 k =1 k =1
1 n−1
É evidente, agora, que

m X
X m m
X
··· 1 = mn
b=1 k1 =1 kn−1 =1
pois há n somas sucessivas, em cada uma o ı́ndice assume m valores e o somando é sempre constante
(não depende dos ı́ndices).
Concluı́mos que
(αmt)n
|ya (t)| ≤ M . (7.8)
n!
Essa desigualdade deve ser satisfeita para t ∈ [0, T ] pela a-ésima componente da solução Y da
equação Ẏ = A(t)Y (t) com condição inicial Y (0) = 0. É importante notar, porém, que o lado esquerdo
não depende de n, que é simplesmente o número de vezes que repetimos a identidade (7.2) para obter
(7.3). O que ocorre, porém, se tomarmos n → ∞? É bem sabido que para qualquer x ≥ 0 fixo tem-se
xn
lim = 0.
n→∞ n!
Assim, tomando-se em (7.8) o limite n → ∞ em ambos os lados, conclui-se que ya (t) = 0 para todo a
e todo t ∈ [0, T ]. Como T foi escolhido arbitrário, segue que ya (t) = 0 para todo t e todo a.
Em resumo, concluı́mos que se Y é solução da equação Ẏ = A(t)Y (t) com condição inicial Y (0) = 0
então Y (t) = 0 para todo t. Não há, portanto, outra solução que não a função nula para a equação
homogênea Ẏ = A(t)Y (t) com condição inicial Y (0) = 0.
O que podemos dizer do caso geral da equação Ẏ = A(t)Y (t) + F (t) com uma condição inicial
Y (0) = Y0 ? Vamos supor que Y e X são duas soluções satisfazendo a mesma condição inicial, ou seja,
Y (0) = X(0) = Y0 . Definindo Z(t) = Y (t) − X(t) tem-se Z(0) = Y (0) − X(0) = Y0 − Y0 = 0 e
Ż(t) = Ẏ (t) − Ẋ(t) = A(t)Y (t) + F (t) − (A(t)X(t) + F (t)) = A(t)(Y (t) − X(t)) = A(t)Z(t).
Assim, Z é solução da equação homogênea Ż(t) = A(t)Z(t) com a condição inicial Z(0) = 0. Pelo
que acabamos de ver, Z é identicamente nula, o que prova que Y = X.
Isso provou então que a equação Ẏ = A(t)Y (t) + F (t) com uma condição inicial Y (0) = Y0 tem
também solução única, se houver. Provaremos adiante que há uma solução e mostraremos como calculá-
la.
Finalmente, observamos que todas as conclusões apresentadas acima permanecem se a condição
inicial for fixada não em t = 0 mas num ponto t0 qualquer.
• Uma propriedade da solução das equações homogêneas

As demonstrações que apresentamos acima têm mais uma conseqüência para as soluções das equações
homogêneas Ẏ (t) = A(t)Y (t), conseqüência essa da qual faremos uso mais adiante. Tem-se, a saber,
o seguinte: a solução Y (t) de uma equação homogênea Ẏ (t) = A(t)Y (t) anula-se em um ponto t0 ,
Y (t0 ) = 0 se e somente se Y (t) for nula para todo t.
A prova disso segue da seguinte observação. Se Y (t0 ) = 0 então
Z t
Y (t) = A(t1 )Y (t1 ) dt1 .
t0
Como em (7.3), concluı́mos que

Z t Z t1 Z tn−1
Y (t) = ··· A(t1 )A(t2 ) · · · A(tn ) Y (tn ) dtn dtn−1 · · · dt1 .
t0 t0 t0
Prosseguindo como antes, concluiremos que

(αm|t − t0 |)n
|ya (t)| ≤ M , (7.9)
n!
onde
α = max max |Aij (t)|
t∈[0, T ] i, j∈{1, ..., m}
e
M = max max |yi(t)|
t∈[0, T ] i∈{1, ..., m}
o intervalo [0, T ] sendo escolhido grande o suficiente para conter t e t0 .

Tomando o limite n → ∞ em (7.9), concluı́mos que ya (t) = 0. Como isso vale para um t arbitrário,
segue que Y (t) é identicamente nula, que é o que querı́amos provar.
7.2.2 Existência. A Série de Dyson

Uma vez demonstrada a unicidade da eventual solução de uma equação como Ẏ = A(t)Y (t) + F (t)
com condição inicial Y (0) = Y0 precisamos demonstrar que a solução existe. E a melhor maneira de
demonstrar a existência de solução de uma equação diferencial é exibindo uma.
Para s e t reais, seja D(t, s) a matriz m × m definida por
∞ Z tZ
X t1 Z tn−1
D(t, s) := 1 + ··· A(t1 )A(t2 ) · · · A(tn ) dtn dtn−1 · · · dt1 . (7.10)
n=1 s s s
Seja também D(t) definida por D(t) = D(t, 0), ou seja,

∞ Z tZ
X t1 Z tn−1
D(t) = 1 + ··· A(t1 )A(t2 ) · · · A(tn ) dtn dtn−1 · · · dt1 . (7.11)
n=1 0 0 0
Algumas páginas adiante (página 335) provaremos que vale entre D(t, s) e D(t) a seguinte relação:
D(t, s) = D(t)D(s)−1.
A série do lado direito de (7.10) e (7.11) é freqüentemente denominada série de Dyson1 , denominação
esta empregada especialmente em textos sobre Mecânica Quântica e Teoria Quântica da Campos.
Afirmamos que a equação Ẏ = A(t)Y (t) + F (t) com uma condição inicial Y (0) = Y0 tem solução,
a qual é dada por Z t
Y (t) = D(t)Y0 + D(t, s)F (s) ds . (7.12)
0
A demonstração será feita provando-se que o lado direito satisfaz a equação diferencial e a condição
inicial. Como a solução é única (pelo provado acima), infere-se que não pode haver outra que não
(7.12). Note-se, em particular, que pelo dito acima, a equação homogênea Ẏ = A(t)Y (t) com condição
inicial Y (0) = Y0 tem por solução
Y (t) = D(t)Y0 .
O estudante deve ter em mente que a expressão (7.12) generaliza o método de variação de constantes
apresentado na Seção 6.4, página 307. De fato, como veremos adiante, D(t, s) é idêntica à matriz
Wronskiana das soluções linearmente independentes da equação homogênea.
Comecemos por mostrar que as séries que aparecem em (7.10) e (7.11) são convergentes, sem o que
ambas as expressões não fariam sentido. Denotando por Dab (t, s) o elemento ab da matriz D(t, s),
temos
X∞ Z t Z t1 Z tn−1
Dab (t, s) = 1ab + ··· (A(t1 )A(t2 ) · · · A(tn ))ab dtn dtn−1 · · · dt1
n=1 s s s
∞ X
X m X
m m
X Z tZ t1 Z tn−1
= δa b + ··· ··· Aak1 (t1 )Ak1 k2 (t2 ) · · · Akn−1 b (tn ) dtn · · · dt1 .
n=1 k1 =1 k2 =1 kn−1 =1 s s s
Limitando provisoriamente t e s a um intervalo finito [0, T ] e usando a definição de α dada em (7.6),

1
Freeman J. Dyson (1923-). Denominamos a série de (7.10) e (7.11) série de Dyson, pois essa nomenclatura é
comummente empregada na Mecânica Quântica e na Teoria Quântica de Campos. Dyson chegou a essa série estudando
problemas de teoria de perturbações na Teoria Quântica de Campos. Sua origem, porém, remonta pelo menos a trabalhos
de Volterra de 1890. Em Teoria Quântica de Campos aquelas séries são também denominadas “exponenciais de tempo
ordenado”.
temos
∞ X
X m m
X Z tZ t1 Z tn−1
|Dab (t, s)| ≤ 1 + ··· ··· |Aak1 (t1 )| |Ak1 k2 (t2 )| · · · Akn−1 b (tn ) dtn · · · dt1
n=1 k1 =1 kn−1 =1 s s s
∞
X m
X m
X Z tZ t1 Z tn−1
n
≤ 1+ α ··· ··· dtn · · · dt1
n=1 k1 =1 kn−1 =1 s s s
∞
X m m
|t − s|n X X
≤ 1+ αn ··· 1
n=1
n! k =1 k =1
1 n−1
∞
X |t − s|n n−1
≤ 1+ αn m
n=1
n!
1 αm|t−s|
= 1+ e −1
m
Isso mostra que, para cada elemento de matriz ab, a série do lado direito de (7.10) é absolutamente
convergente, e isso para todo s e t.
Para mostrar que (7.12) representa de fato a solução procurada, vamos mostrar que
∂
D(t, s) = A(t)D(t, s). (7.13)
∂t
Isso, em particular, diz que
d
D(t) = A(t)D(t). (7.14)
dt
De fato,
( ∞ Z tZ Z )
∂ ∂ X t1 tn−1
D(t, s) = 1+ ··· A(t1 )A(t2 ) · · · A(tn ) dtn dtn−1 · · · dt1 .
∂t ∂t n=1 s s s
( Z t Z t Z t1
d
= 1+ A(t1 ) dt1 + A(t1 )A(t2 ) dt2 dt1
dt s s s
Z tZ Z )
t1 t2
+ A(t1 )A(t2 )A(t3 ) dt3 dt2 dt1 + · · ·
s s s
Z t Z tZ t2
= 0 + A(t) + A(t)A(t2 ) dt2 + A(t)A(t2 )A(t3 ) dt3 dt2 + · · ·
s s s
Z t Z tZ t2
= A(t) 1 + A(t2 ) dt2 + A(t2 )A(t3 ) dt3 dt2 + · · ·
s s s
Z t Z tZ t1
= A(t) 1 + A(t1 ) dt1 + A(t1 )A(t2 ) dt2 dt1 + · · ·
s s s
= A(t)D(t, s),
como querı́amos provar. Acima, na passagem da quarta para a quinta linha, fizemos uma série de
mudanças de nomes das variáveis de integração, chamando t2 de t1 , t3 de t2 etc.
De maneira análoga prova-se também que
∂
D(t, s) = −D(t, s)A(s).
∂s
E. 7.2 Exercı́cio. Faça isso. 6
É também evidente pela definição (7.10) que para todo t vale D(t, t) = 1. Analogamente, vale
D(0) = 1. Retornando à equação (7.12), notemos que calculando o lado direito em t = 0 temos
Z 0
Y (0) = D(0)Y0 + D(0, s)F (s) ds = 1Y0 + 0 = Y0
0
mostrando que o lado direito de (7.12) satisfaz a condição inicial Y (0) = Y0 . Derivando o lado direito
de (7.12) em relação a t, tem-se

Z t
d d
Ẏ (t) = D(t)Y0 + D(t, s)F (s) ds
dt dt 0
Z t
∂
= A(t)D(t)Y0 + D(t, t)F (t) + D(t, s)F (s) ds
0 ∂t
Z t
= A(t)D(t)Y0 + F (t) + A(t)D(t, s)F (s) ds
0
Z t
= A(t) D(t)Y0 + D(t, s)F (s) ds + F (t).
0
= A(t)Y (t) + F (t),
provando que lado direito de (7.12) satisfaz a equação diferencial. Como a solução é única, ela deve ser
aquela dada em (7.12).
• Observações
A série de Dyson em (7.10) e (7.11) fornece a solução do sistema de equações Ẏ (t) = A(t)Y (t)+F (t)
através de (7.12). Devemos fazer notar, porém, que a série de Dyson não é o único meio de obter soluções
dessas equações. Em alguns casos particulares outros métodos podem ser mais eficazes, especialmente
se estivermos interessados em obter soluções em termos de funções conhecidas ou de expansões em
série. Tal é o caso, por exemplo, se os elementos de matriz de A(t) e F (t) são funções analı́ticas de t
ou possuem singularidades “fracas”, quando o chamado método de expansão em série de potências ou
o método de Frobenius podem ser empregados (vide para tal o Capı́tulo 8, página 411,). Em muitos
casos a série de Dyson não é útil quando se pretende obter soluções explı́citas, devido à complexidade
de se calcular explicitamente os produtos de matrizes A(t1 ) · · · A(tn ) e suas integrais.
A série de Dyson é, porém, bastante eficiente quando o interesse é obter soluções por métodos
numéricos, já que a mesma é rapidamente convergente. A série de Dyson é também muito útil quando
se tem pela frente problemas de teoria de perturbações. Isso será discutido com mais detalhe na Seção
7.4. Foi, aliás, estudando problemas de teoria de perturbações na Teoria Quântica de Campos que
Dyson chegou àquela série, inspirado provavelmente nos métodos iterativos de solução da equação
integral de Volterra (o leitor interessado pode estudar o tratamento da equação integral de Volterra
feito na Seção 18.3, página 1005, mas isso é dispensável para o que segue).
A série de Dyson possui generalizações para espaços de Hilbert e de Banach e mesmo quando A(t)
é uma famı́lia de operadores não-limitados. O leitor interessado poderá estudá-las em [117].
Um caso particular importante da solução via série de Dyson é aquele no qual a matriz A(t) é
constante, ou seja, não depende da variável t. Trataremos disso na Seção 7.3. Outras representações e
propriedades da série de Dyson são apresentadas no Apêndice 7.5, página 346.
• Equações Matriciais
Até agora estudamos equações da forma Ẏ (t) = A(t)Y (t) + F (t), com condição inicial Y (0) = Y0 ,
onde A(t) é uma matriz m × m e onde Y e F são vetores coluna com m componentes:
   
y1 (t) f1 (t)
   
Y (t) =  ...  , F (t) =  ...  .
ym (t) fm (t)
Consideremos agora a equação Ṁ(t) = A(t)M(t)+G(t), com condição inicial M(0) = M0 , onde A(t),
G(t) e M(t) são matrizes m × m, a incógnita sendo a matriz M(t). Veremos facilmente que podemos
tratar esse problema com os mesmos métodos do anterior, onde a incógnita era um vetor coluna Y de
m componentes e não uma matriz quadrada.
De fato, como toda matriz m × m, as matrizes M(t) e G(t) são da forma (para notação, vide página
155) hh ii hh ii
M(t) = M1 (t), . . . , Mm (t) , G(t) = G1 (t), . . . , Gm (t) ,
onde Mi (t) e Gi (t) são vetores coluna com m componentes, representando a i-ésima coluna das matrizes
M(t) e G(t), respectivamente.
Nessa notação a equação diferencial Ṁ(t) = A(t)M(t) + G(t) fica
hh ii hh ii hh ii
Ṁ1 (t), . . . , M˙m (t) = A(t)M1 (t), . . . , A(t)Mm (t) + G1 (t), . . . , Gm (t) ,
ou seja, tem-se um conjunto de m sistemas de equações independentes
Ṁi (t) = A(t)Mi (t) + Gi (t), i = 1, . . . , m (7.15)
do tipo que tratamos acima, onde as incógnitas são vetores coluna.

Para cada uma dessas equações vale o teorema de unicidade de soluções que provamos acima. Assim
concluı́mos que a equação matricial Ṁ(t) = A(t)M(t) + G(t), com condição inicial M(0) = M0 tem
solução única.
A solução de cada equação (7.15) é
Z t
Mi (t) = D(t)Mi (0) + D(t, s)Gi (s) ds, i = 1, . . . , m.
0
Reunindo as colunas Mi novamente na matriz M, temos

Z t
M(t) = D(t)M0 + D(t, s)G(s) ds
0
como solução única de Ṁ(t) = A(t)M(t) + G(t), com condição inicial M(0) = M0 .
7.2.3 Propriedades de D(s, t)

Consideremos novamente a equação homogênea Ẏ (t) = A(t)Y (t) com a condição inicial Y (0) = Y0 .
Sabemos que sua solução é dada por Y (t) = D(t)Y0 , onde D(t) é dada em (7.11).
Sejam ek os vetores da base canônica

     
1 0 0
0 1 0
     
     
e1 = 0 , e2 = 0 , ..., em =  ...  .
 ..   ..   
. . 0
0 0 1
Definimos
Y k (t) = D(t)ek
para k = 1, . . . , m. Cada Y k (t) é solução da equação homogênea Ẏ (t) = A(t)Y (t) com a condição
inicial Y (0) = ek .
Um vetor Y0 representando uma condição inicial genérica
 
y10
 .. 
Y0 =  .  (7.16)
0
ym
pode ser escrita na base canônica como

m
X
Y0 = yk0ek .
k=1
Assim, se Y (t) é solução da equação homogênea Ẏ (t) = A(t)Y (t) com a condição inicial Y (0) = Y0
temos que
m
X Xm
0 k
Y (t) = D(t)Y0 = yk D(t)e = yk0Y k (t). (7.17)
k=1 k=1
Em resumo, todas as soluções da equação homogênea Ẏ (t) = A(t)Y (t) podem ser escritas como com-
binações lineares das funções Y 1 (t), . . . , Y m (t), os coeficientes sendo as componentes yk0 do vetor Y0
na base canônica.
Em virtude dessas e de outras propriedades que ainda estudaremos é importante estudar as funções
Y (t). O conjunto de funções {Y 1 (t), . . . , Y m (t)} é denominado sistema fundamental ou sistema inte-
k
gral ou ainda base integral de soluções da equação Ẏ (t) = A(t)Y (t). O conceito de sistema fundamental
de soluções foi introduzido por Fuchs2 em 1866.
Importante nesse contexto é a matriz cujas colunas são formadas pelos vetores coluna Y k . Defina-se
(para a notação vide apêndice 3.1, página 155)
hh ii
W (t) = Y 1 (t), . . . , Y m (t) .
Essa matriz é denominada matriz Wronskiana3 ou matriz fundamental.

2
Lazarus Immanuel Fuchs (1833-1902).
3
Tem-se, porém, o seguinte. Pela definição Y k (t) = D(t)ek . Portanto,

hh ii hh ii hh ii
Y 1 (t), . . . , Y m (t) = D(t)e1 , . . . , D(t)em = D(t) e1 , . . . , em = D(t)1 = D(t) ,
hh ii
pois e1 , . . . , em = 1.
O fato que hh ii
1 m
D(t) = Y (t), . . . , Y (t) (7.18)
mostra que a matriz de Dyson (7.11) é idêntica à matriz Wronskiana e, portanto, podemos determinar
D(t) calculando-se os vetores Y 1 (t), . . . , Y m (t). Esse procedimento para determinar D(t) pode ser
mais fácil que calcular a série de Dyson do lado direito de (7.11).
A identidade (7.18) será também usada para outros propósitos, um deles será mostrar que D(t) é
uma matriz invertı́vel.
Vamos, de fato, mostrar que para todo t o conjunto {Y 1 (t), . . . , Y m (t)} é um conjunto de vetores
linearmente independente. Suponhamos o oposto, ou seja, que haja constantes α1 , . . . , αm nem todas
nulas, tais que
α1 Y 1 (t0 ) + · · · + αm Y m (t0 ) = 0
para algum t0 . Sabemos por (7.16)-(7.17) que a função
Y (t) = α1 Y 1 (t) + · · · + αm Y m (t)
é solução de Ẏ (t) = A(t)Y (t) com a condição inicial

 
α1
 
Y (0) = Y0 =  ...  .
αm
Pela hipótese, Y (t0 ) = 0. Pelo observado no tópico “Uma propriedade da solução das equações ho-
mogêneas” da página 327, isso implica que Y (t) = 0 para todo t. Logo α1 = · · · = αm = 0, uma
contradição que prova que os vetores {Y 1 (t), . . . , Y m (t)} devem ser linearmente independentes para
todo t.
Se os vetores {Y 1 (t),hh . . . , Y m (t)} são linearmente
ii independentes para todo t, então o determinante
da matriz Wronskiana Y 1 (t), . . . , Y m (t) nunca se anula.
O determinante hh ii
W(t) = det Y 1 (t), . . . , Y m (t)
é dito ser o Wronskiano do sistema linear homogêneo Ẏ (t) = A(t)Y (t). Como acabamos de ver W(t) 6= 0
para todo t.
Como a matriz Wronskiana é idêntica à matriz de Dyson (7.11), concluı́mos que o determinante
daquela matriz nunca se anula. Isso significa que a matriz inversa D(t)−1 existe para todo t.
• A relação entre D(t, s) e D(t)

Com o fato em mãos que existem as inversas D(t)−1 para todo t, vamos demonstrar agora a seguinte
identidade importante: para todo s e todo t vale
D(t, s) = D(t)D(s)−1 . (7.19)
A prova é simples. Seja s fixo daqui por diante. Sejam A(t) = D(t, s) e B(t) = D(t)D(s)−1 .
Queremos provar que A(t) = B(t) para todo t. Observemos que A(s) = D(s, s) = 1 e que B(s) =
D(s)D(s)−1 = 1. Logo, A e B são iguais no ponto t = s. Fora isso,
d ∂ (7.13)
A(t) = D(t, s) = A(t)D(t, s) = A(t)A(t)
dt ∂t
e
d d (7.14)
B(t) = D(t) D(s)−1 = A(t)D(t)D(s)−1 = A(t)B(t).
dt dt
Assim, A e B são iguais no ponto t = s e satisfazem a mesma equação homogênea Ṁ (t) = A(t)M(t).
Pelos teoremas de unicidade que estabelecemos, segue que A(t) = B(t) para todo t, que é o que
querı́amos provar.
Com isso, podemos escrever a solução (7.12) de Ẏ (t) = A(t)Y (t) + F (t), com a condição inicial
Y (0) = Y0 , como
Z t
Y (t) = D(t)Y0 + D(t)D(s)−1F (s) ds
0
Z t
−1
= D(t) Y0 + D(s) F (s) ds .
0
Outro fato que se pode agora provar é o seguinte. Se Y (t) é solução da equação homogênea
Ẏ (t) = A(t)Y (t) com a condição inicial Y (0) = Y0 , então para todo s e todo t
Y (t) = D(t, s)Y (s).
De fato, Y (s) = D(s)Y0 . Portanto, D(t, s)Y (s) = D(t)D(s)−1 D(s)Y0 = D(t)Y0 = Y (t).
• A regra de composição para D(t, s)
A relação (7.19) tem a seguinte conseqüência, cuja prova é agora elementar: para todos r, s e t vale
D(t, s) = D(t, r)D(r, s). (7.20)
Essa expressão é denominada regra de composição para as matrizes de Dyson D(t, s). Note que é
muito mais difı́cil prová-la usando apenas a definição (7.10)!
E. 7.3 Exercı́cio para masoquistas. Prove (7.20) usando apenas (7.10). 6
• Solução para condição inicial em instante arbitrário

Uma conseqüência das últimas observações é que se para a equação Ẏ (t) = A(t)Y (t) + F (t) for
dada uma “condição inicial” não em t = 0, mas em t = t0 , Y (t0 ) = Yt0 , a solução é então dada por
Z t
Y (t) = D(t, t0 )Yt0 + D(t, s)F (s) ds. (7.21)
t0
Mais propriedades da série de Dyson são discutidas no Apêndice 7.5, página 346.
7.3 Equações com Coeficientes Constantes

Vamos aqui estudar sistemas de equações lineares de primeira ordem com coeficientes constantes como
Ẏ (t) = AY (t) + F (t), com condição inicial Y (0) = Y0 , onde A é uma matriz constante, ou seja, seus
elementos de matriz não dependem da variável t. Esse é um caso particular do que vimos acima.
A série de Dyson nesse caso fica
∞ Z tZ
X t1 Z tn−1
D(t, s) = 1 + ··· An dtn dtn−1 · · · dt1
n=1 s s s
∞
X Z tZ t1 Z tn−1
= 1+ An
··· dtn dtn−1 · · · dt1
n=1 s s s
∞
X (t − s)n
= 1+ An .
n=1
n!
Por analogia com a bem conhecida série de Taylor da função exponencial, define-se, para uma matriz
A,
X∞
1 n
exp(A) = e A
= 1+ A . (7.22)
n=1
n!
Assim,
D(t, s) = eA(t−s)
e
D(t) = eAt .
A convergência de (7.22) já foi provada quando tratamos da convergência da série de Dyson no caso
geral.
Assim, a solução de Ẏ (t) = AY (t) + F (t), com a condição inicial Y (0) = Y0 , é dada, segundo (7.12),
por Z t
At
Y (t) = e Y0 + eA(t−s) F (s)ds.
0
O que se pode dizer sobre a dependência em t dos elementos de matriz de eAt ? Há dois casos
básicos a considerar. O primeiro é o caso em que A é diagonalizável; o segundo caso em que A não é
diagonalizável.
• Caso diagonalizável
Se A é diagonalizável então existe uma matriz P tal que P −1 AP = D onde D é uma matriz diagonal,
tendo na diagonal os autovalores de A. Assim,
∞
X tn
eAt
= 1+ An
n=1
n!
( ∞ n
)
X t
= P 1+ P −1 An P P −1
n=1
n!
( ∞ n
)
X t
= P 1+ (P −1 AP )n P −1
n=1
n!
( ∞ n
)
X t
= P 1+ Dn P −1
n=1
n!
= P eDt P −1.
Agora, se D = diag (λ1 , . . . , λm ), então eDt = diag (eλ1 t , . . . , eλm t ). É claro pela igualdade
eAt = P eDt P −1 que os elementos de matriz de eAt serão da forma
m
X

eAt ab
= ckab eλk t ,
k=1
ou seja, serão combinações lineares de exponenciais do produto de autovalores de A com t. Os coefici-

entes ckab são constantes e dados em função dos elementos de matriz de P e P −1 .
• Caso não-diagonalizável
Caso A não seja diagonalizável, o Teorema da Decomposição de Jordan (na forma do Teorema 3.19,
página 215) nos garante que existe uma matriz P tal que P −1 AP = D + N, onde: 1) D é uma matriz
diagonal, cujos elementos da diagonal são os autovalores de A; 2) N é uma matriz nilpotente com
ı́ndice, digamos, q; 3) D e N comutam.
Portanto, como D e N comutam,
exp(At) = P exp(P −1 AP t)P −1 = P exp(Dt + Nt)P −1 = P exp(Dt) exp(Nt)P −1 ,
onde aqui usamos a Proposição 4.6, da página 248. Agora,
exp(Dt) = diag (eλ1 t , . . . , eλm t )

e
∞ n q−1 n
X t X t
exp(Nt) = 1 + N n
= 1+ N n.
n=1
n! n=1
n!
Observe-se que a série do lado direito é truncada em n = q pois N q = 0, já que N é nilpotente com
ı́ndice q. Assim, eN t é uma matriz cujos elementos são polinômios em t de grau menor que q.
Fica claro, fazendo-se o produto eDt eN t , que os elementos de matriz de eAt serão agora da forma
m
X
At

e ab
= ckab (t) eλk t ,
k=1
ou seja, serão combinações lineares de exponenciais do produto de autovalores de A com t. Há, porém,
uma diferença em relação ao caso diagonalizável, a saber, os coeficientes ckab (t) não são mais constantes,
mas são agora polinômios em t de grau menor que q e são dados em função dos elementos de matriz
de P e P −1 .
7.3.1 Alguns Exemplos e Aplicações

Vamos aqui tratar um exemplo simples e bem conhecido proveniente da Mecânica Clássica e que ilustra
bem conceitos que introduzimos nas seções anteriores. Trata-se do problema do oscilador harmônico
amortecido forçado.
Como é bem sabido, esse sistema é descrito pela equação diferencial linear de segunda ordem
mẍ(t) = −kx(t) − γ ẋ(t) + f (t)
que nada mais é que a segunda lei de Newton para uma partı́cula de massa m ligada a uma mola de
constante k e se movendo em um meio (viscoso) que exerce sobre a partı́cula uma força do tipo −γv(t)
(v(t) é a velocidade da partı́cula no instante t). Fora isso age sobre a partı́cula mais uma força externa
que depende apenas do tempo: f (t). Acima m > 0, k ≥ 0 e γ ≥ 0.
Dividindo a equação acima por m, podemos escrevê-la como
ẍ(t) = −ω02 x(t) − ρẋ(t) + g(t)
onde r
k γ 1
ω0 = , ρ = , g(t) = f (t).
m m m
Podemos, por um método comummente usado, transformar essa equação de segunda ordem em um
sistema de duas equações de primeira ordem. Definindo v(t) = ẋ(t), ficamos com
ẋ(t) = v(t)
v̇(t) = −ω02 x(t) − ρv(t) + g(t) (7.23)
Isso pode ser escrito na seguinte forma matricial:
Ẏ (t) = AY (t) + F (t),

onde
x(t) 0 1 0
Y (t) = , A = , F (t) = .
v(t) −ω02 −ρ g(t)
A matriz A tem coeficientes constantes. Aprendemos nas seções anteriores que a solução dessa
equação, com uma condição inicial que fixa a posição e a velocidade da partı́cula em t = 0

x(0) x0
Y (0) = = ,
v(0) v0
é dada por Z t
At
Y (t) = e Y0 + eA(t−s) F (s) ds. (7.24)
0
Como se vê, precisamos calcular agora eAt para a matriz A dada acima.
A primeira questão que devemos nos colocar é se a matriz A é diagonalizável ou não. Seus autova-
lores são p p
−ρ + ρ2 − 4ω02 −ρ − ρ2 − 4ω02
λ1 = e λ2 = .
2 2
Os autovetores associados podem ser escolhidos na forma

 p   p 
−ρ − ρ2 − 4ω02 −ρ + ρ2 − 4ω02
 2ω02   2ω02 
v1 = 
,
 v2 = 

.

1 1

p
Como facilmente se vê, caso ρ2 − 4ω02 6= 0, ou seja, caso ρ 6= 2ω0 , a matriz A tem dois autovalores
distintos e é, portanto, diagonalizável. Se, porém, ρ = 2ω0 , tem-se v1 = v2 e a matriz A não é mais
simples e, portanto, não é diagonalizável.
Vamos tratar esses dois casos separadamente. O leitor é convidado a fazer como exercı́cio todos os
cálculos que forem deixados indicados.
• O caso ρ 6= 2ω0
hh ii
Nesse caso A é diagonalizável pela matriz P = v1 , v2 , ou seja
 √ 
−ρ+ ρ2 −4ω02
λ1 0 √0 2
P −1AP = D = =  2 ,
0 λ2 −ρ− ρ −4ω02
0 2
onde  p p 
−ρ − ρ2 − 4ω02 −ρ + ρ2 − 4ω02
hh ii  
P = v1 , v2 =  2ω02 2ω02 .
 
1 1
Calculando-se a inversa, tem-se
 p 
ω02 −ρ + ρ2 − 4ω02
− p 2 p 
 ρ − 4ω02 2 ρ2 − 4ω02 
 
P −1 =  p .
 
 ω2 ρ + ρ2 − 4ω02 
p 0 p
ρ2 − 4ω02 2 ρ2 − 4ω02
Daı́, segue que

 
λ1 t
−λ2 eλ1 t + λ1 eλ2 t eλ1 t − eλ2 t
e 0  1 .
eAt = P eDt P −1 = P P −1 = p
0 eλ2 t ρ2 − 4ω02 ω02 −eλ1 t + eλ2 t λ1 t
λ1 e λ2 t
− λ2 e
(7.25)
Alternativamente, usando as expressões (3.38)-(3.39), obtemos para A a representação espectral A =
λ1 E1 + λ2 E2 com

1 −λ2 1 1 −λ1 1
E1 = , E2 = ,
λ1 − λ2 −ω02 λ1 λ2 − λ1 −ω02 λ2
de onde, usando eAt = eλ1 t E1 + = eλ2 t E2 , obtem-se novamente a expressão (7.25).
E. 7.7 Exercı́cio. Verifique as afirmações acima. Em particular, verifique que E1 e E2 são projetores e
satisfazem E1 E2 = 0 e E1 + E2 = 1. 6
O leitor é convidado agora a escrever as fórmulas explı́citas para x(t) e v(t) que advêm de (7.24) e
(7.25). Para x(t), por exemplo, obtem-se
Z t
−ρt/2 ρx0 + 2v0 1
x(t) = e x0 cos(ω1 t) + sen(ω1 t) + e−ρ(t−s)/2 sen(ω1 (t − s))f (s) ds,
2ω1 mω1 0
onde r
ρ2
ω1 = ω02 − .
4
Essa expressão vale tanto para ω0 > ρ/2 quanto para ω0 < ρ/2. Nesse segundo caso ω1 torna-se um
número imaginário puro:
ω1 = iω2 ,
onde r
ρ2
ω2 = − ω02
4
é real. A solução para x(t) fica

Z t
−ρt/2 ρx0 + 2v0 1
x(t) = e x0 cosh(ω2 t) + senh(ω2 t) + e−ρ(t−s)/2 senh(ω2 (t − s))f (s) ds.
2ω2 mω2 0
• O caso ρ = 2ω0 > 0
Nesse caso a matriz A fica

0 1
A = 2 .
− ρ4 −ρ
A pode ser levada à sua forma de Jordan (vide Seção 3.7.4, página 221 e antecedentes) J = P −1AP ,
onde  
 ρ   ρ  4
− 1 1 0 − 2
 2   2   ρ 
 
J = 
,
 P = 

,
 P −1
=  .
ρ ρ2  2 
0 − − 0 1
2 4 ρ
Note-se que J = D + N, onde
 ρ 
− 0  
 2  0 1
D = 

, N =  .
ρ 0 0
0 −
2
É fácil verificar que D e N comutam e que N 2 = 0. Assim,
eAt = P e(D+N )t P −1 = P eDt eN t P −1 ,
sendo que
 ρt 
e− 2 0
eDt =  
− ρt
0 e 2
e  
1 t
eN t = 1 + Nt =  .
0 1
Portanto,  
ρt −ρt/2 −ρt/2
 1+ 2 e te 
 
eAt
= 

.

 ρ2 t ρt 
− e−ρt/2 1− e−ρt/2
4 2
O leitor é convidado agora a escrever as fórmulas explı́citas para x(t) e v(t) que advêm de (7.24).
Para x(t), por exemplo, obtem-se
ρ 1 Z t
−ρt/2
x(t) = e 1 + t x0 + t v0 + (t − s)e−ρ(t−s)/2 f (s) ds.
2 m 0
• O caso ρ = 0
Analisemos também o caso ρ = 0, que corresponde à ausência do termo de amortecimento −γv(t)

na equação de movimento da partı́cula. Nesse caso

0 1
A =
−ω02 0
λ1 = iω0 , λ2 = −iω0 e, por (7.25),
 1 
cos(ω0 t) sen(ω0 t)
 ω0 
eAt =  .
−ω0 sen(ω0 t) cos(ω0 t)
Z t
v0 1
x(t) = x0 cos(ω0 t) + sen(ω0 t) + sen(ω0 (t − s))f (s) ds,
ω0 mω0 0
• O caso k = 0, γ = 0. Partı́cula submetida a força externa dependente do tempo
Nesse caso, usando a notação anterior,

ẍ(t) = g(t),
ou seja,
Ẏ (t) = AY (t) + F (t)
com
0 1
A = .
0 0
A é nilpotente com A2 = 0. Logo

1 t
eAt
= 1 + At = .
0 1
Z
1 t
x(t) = (x0 + v0 t) + (t − s)f (s) ds .
m 0
f 2
Por exemplo, no caso de f ser constante, segue disso a conhecidı́ssima relação x(t) = x0 + v0 t + 2m
t.
7.4 Teoria de Perturbações de Sistemas Lineares

Existem muitos problemas, especialmente na Mecânica Clássica e na Mecânica Quântica, que têm a
seguinte estrutura. Procura-se encontrar a solução de uma equação linear homogênea Ẏ (t) = A(t)Y (t),
com a condição inicial Y (0) = Y0 , sendo que A(t) é da forma
A(t) = L + I(t)
onde L é uma matriz constante e I(t) pode depender do tempo mas é, em um sentido a ser precisado,
“pequena”. Por exemplo, I(t) pode ser da forma I(t) = λJ(t), onde λ é uma constante “pequena”.
Se I fosse zero a solução seria Y (t) = eLt Y0 . Deve-se esperar que se I for pequena a solução de
Ẏ (t) = A(t)Y (t) não deve estar muito afastada de Y (t) = eLt Y0 e a presença de I(t) deve perturbar a
solução Y (t) = eLt Y0 apenas ligeiramente. Como determinar a perturbação que I provoca? Esse tipo
de problema é muito freqüentemente encontrado em Fı́sica.
Vamos usar aqui a série de Dyson para tratar esse problema no contexto acima de sistemas lineares.
O primeiro passo consiste em definir um novo vetor coluna X(t) por
X(t) = e−Lt Y (t).
Vamos verificar qual condição inicial e qual equação diferencial X(t) obedece. Tem-se que X(0) =
Y (0) = Y0 . Fora isso
d −Lt
Ẋ(t) = e Y (t)
dt
= −Le−Lt Y (t) + e−Lt Ẏ (t)
= −Le−Lt Y (t) + e−Lt A(t)Y (t)
= −Le−Lt Y (t) + e−Lt (L + I(t))Y (t)
= e−Lt I(t)Y (t)
= e−Lt I(t)eLt X(t).
Assim, definindo-se
˜
I(t) = e−Lt I(t)eLt ,
concluı́mos que X(t) satisfaz
˜
Ẋ(t) = I(t)X(t).
Pela série de Dyson, a solução dessa equação com a condição inicial X(0) = Y0 é
(∞ Z Z Z tn−1 )
X t t1
X(t) = Y0 + ··· ˜ 1 )I(t
I(t ˜ 2 ) · · · I(t
˜ n ) dtn dtn−1 · · · dt1 Y0 .
n=1 0 0 0
Retornando a Y (t) = eLt X(t), temos

(∞ Z Z Z )
X t t1 tn−1
Lt
Y (t) = e Y0 + e Lt
··· ˜ 1 )I(t
I(t ˜ 2 ) · · · I(t
˜ n ) dtn dtn−1 · · · dt1 Y0 . (7.26)
n=1 0 0 0
De modo mais explı́cito, isso é
Y (t) = eLt Y0
(∞ Z Z Z )
X t t1 tn−1
+eLt ··· e−Lt1 I(t1 )eL(t1 −t2 ) I(t2 )eL(t2 −t3 ) · · · eL(tn−1 −tn ) I(tn )eLtn dtn · · · dt1 Y0 .
n=1 0 0 0
Vamos supor que I(t) seja da forma I(t) = λJ(t). Substituindo na última expressão obtemos a
solução expressa em termos de uma série de potências em λ:
Y (t) = eLt Y0
(∞ Z tZ Z )
X t1 tn−1
+ eLt λn ··· e−Lt1 J(t1 )eL(t1 −t2 ) J(t2 )eL(t2 −t3 ) · · · eL(tn−1 −tn ) J(tn )eLtn dtn · · · dt1 Y0
n=1 0 0 0
Z t Z t Z t1
Lt Lt −Lt1 Lt1 2 Lt −Lt1 L(t1 −t2 ) Lt2
= e Y0 +λe e J(t1 )e dt1 Y0 +λ e e J(t1 )e J(t2 )e dt2 dt1 Y0 +· · · .
0 0 0
Nessa forma é possı́vel ver as correções que o termo I(t) = λJ(t) adiciona à solução eLt Y0 quando
λ é uma constante pequena. A correção de primeira ordem em λ é
Z t
Lt −Lt1 Lt1
λe e J(t1 )e dt1 Y0 .
0
A de segunda ordem em λ é
Z t Z t1
2 Lt −Lt1 L(t1 −t2 ) Lt2
λ e e J(t1 )e J(t2 )e dt2 dt1 Y0
0 0
etc.
Todas essa expressões são empregadas em Mecânica Quântica.
• Um problema de teoria de perturbações
Consideremos o problema de uma partı́cula de massa m presa a uma mola de constante k(t) =
k0 + λk1 (t) onde λ é um número pequeno, e sem nenhuma força adicional agindo sobre a partı́cula. Ou
seja, a constante de mola tem uma pequena dependência temporal e desejamos estudar o efeito dessa
pequena perturbação sobre a solução obtida quando λ = 0, a qual é, sabidamente,
v0
x0 cos(ω0 t) + sen(ω0 t),
ω0
onde ω02 = k0 /m.

A equação de movimento é mẍ(t) = −k(t)x(t), ou seja,

2 λk1 (t)
ẍ(t) = − ω0 + x(t),
m
que em forma de um sistema de duas equações de primeira ordem fica
Ẏ (t) = A(t)Y (t),
onde
x(t)
Y (t) = ,
v(t)
e
A(t) = A + λJ(t),
com
0 1
A =
−ω02 0
e
0 0
J(t) = .
− m1 k1 (t) 0
Pelas expressões obtidas na Seção 7.4, a solução em primeira ordem em λ é

Z t
At At −At1 At1
e Y0 + λe e J(t1 )e dt1 Y0 .
0
De modo mais explı́cito, isso é igual a

 1 
cos(ω0 t)x0 + sen(ω0 t)v0
 ω0 
 +
−ω0 sen(ω0 t)x0 + cos(ω0 t)v0
 
 1  1
cos(ω0 t) sen(ω0 t) Z − sen(ω 0 t1 ) cos(ω 0 t1 )x0 + sen2 (ω0 t1 )v0 
λ  ω0 
t
 mω 0 
  k1 (t1 )   dt1 .
ω0 0  1 
−ω0 sen(ω0 t) cos(ω0 t) − cos2 (ω0 t1 )x0 + sen(ω0 t1 ) cos(ω0 t1 )v0
m
Para a posição x(t), a correção de primeira ordem em λ à solução não perturbada
1
cos(ω0 t)x0 + sen(ω0 t)v0
ω0
é " Z
t
λ 1
cos(ω0 t) k1 (t1 ) − sen(ω0 t1 ) cos(ω0 t1 )x0 + sen2 (ω0 t1 )v0 dt1
ω0 0 mω0
Z #
t
1 1
+ sen(ω0 t) k1 (t1 ) − cos2 (ω0 t1 )x0 + sen(ω0 t1 ) cos(ω0 t1 )v0 dt1 .
ω0 0 m
O cálculo explı́cito dessas integrais depende da forma de k1 (t).
O leitor é convidado nesse momento a ler nos bons livros de Mecânica Clássica (por ex., Arnold [7],
Landau-Lifchitz [87]) algo sobre o assunto “ressonância paramétrica”.
• Comentário final sobre as séries perturbativas
Se λ for pequeno e t não for muito grande a aproximação de primeira ordem em λ é uma aproximação
razoavelmente boa para a solução. As correções de ordem superior em λ podem também ser calculadas,
embora seu cômputo fique cada vez mais complexo, como se vê pela expressões (7.26) e seguintes.
Para t → ∞ os termos individuais da série perturbativa (7.26) podem divergir com t, sem que a
solução x(t) seja ela mesmo divergente. Esse tipo de comportamento não é tão estranho assim se nos
lembrarmos, por exemplo, do que acontece com a série da Taylor da função seno (ou co-seno):
X∞
(−1)n 2n+1 2n+1
sen(λt) = λ t
n=0
(2n + 1)!
Os primeiros termos são

λ3 3 λ5 5
t + λt −
t +··· .
6 120
Cada um deles diverge quanto t → ∞ (para qualquer λ 6= 0 fixo, não importa o quão grande ou
pequeno) mas a função sen(λt) permanece limitada.
A lição a se aprender é que certas expansões podem não ser boas quando se deseja estudar o
comportamento para t grande das soluções. Tal é o caso da série de Taylor acima e da série de Dyson
(em muitos casos). Para estudar o comportamento para t grande é preciso procurar expansões que
sejam uniformemente convergentes em t para toda a reta real.
7.5 Mais sobre a Série de Dyson. Produtos de Tempo Orde-

nado
• A função degrau, ou função de Heaviside
Define-se a chamada função degrau ou função de Heaviside4, θ(s), s ∈ R, por

1, se s ≥ 0
θ(s) := .
0, se s < 0
Defina-se também, para t1 , . . . , tm ∈ R,
Θm (t1 , . . . , tm ) := θ(tm−1 − tm )θ(tm−2 − tm−1 ) · · · θ(t1 − t2 ) .

4
Oliver Heaviside (1850-1925).
É bastante fácil de constatar pela definição que

1, se tm ≤ tm−1 ≤ · · · ≤ t1
Θm (t1 , . . . , tm ) := . (7.27)
0, de outra forma
Seja Sm o grupo de permutações de m ı́ndices {1, . . . , m}. Os elementos π de Sm são bijeções

de {1, . . . , m} em si mesmo. Há um importante fato sobre a função Θm : se os m números reais
t1 , . . . , tm forem todos distintos entre si, então
X
Θm (tπ(1) , . . . , tπ(m) ) = 1 . (7.28)
π∈Sm
Para prová-la, observe-se que, devido ao fato de R ser totalmente ordenado, para uma m-upla t1 , . . . , tm ∈
R composta de elementos distintos existe um e somente um elemento π0 ∈ Sm tal que tπ0 (m) < . . . <
tπ0 (1) . Assim, por (7.27), segue que há no lado esquerdo de (7.28) apenas um termo não-nulo: aquele
que corresponde a π0 , e esse termo vale 1, também devido a (7.27). A condição de os pontos t1 , . . . , tm
serem todos distintos entre si é importante nesse raciocı́nio, mas o conjunto dos pontos que não a
satisfazem é um conjunto de medida nula em Rm . Daı́, podemos afirmar que (7.28) vale quase em toda
a parte em Rm (ou seja, vale em todo Rm , exceto em um sub-conjunto de medida nula).
• Reescrevendo a série de Dyson.
Pretendemos apresentar uma outra maneira de representar a série de Dyson (7.11):

∞ Z tZ
X t1 Z tm−1
D(t) = 1 + ··· A(t1 )A(t2 ) · · · A(tm ) dtm dtm−1 · · · dt1 . (7.29)
m=1 0 0 0
da qual certas conseqüências podem ser mais facilmente extraı́das. O leitor há de notar que nas integrais
em (7.29) as variáveis t1 , . . . , tm aparecem ordenadas na forma 0 ≤ tm ≤ tm−1 ≤ · · · ≤ t1 ≤ t. Dessa
forma, no produto de matrizes A(t1 )A(t2 ) · · · A(tm ) os fatores aparecem ordenados (da esquerda para
a direita) de acordo com a ordem temporal decrescente dos argumentos.
Devido à propriedade (7.27) de Θm (t1 , . . . , tm ), podemos reescrever (7.29) na forma
∞ Z
X t Z t
D(t) = 1 + ··· Θm (t1 , . . . , tm )A(t1 )A(t2 ) · · · A(tm ) dtm dtm−1 · · · dt1 . (7.30)
m=1 0 0
Note o leitor que uma diferença entre (7.29) e (7.30) está nos limites superiores das integrações, que
passam a ser todos iguais a t, o que é permitido pela introdução dos fatores Θm (t1 , . . . , tm ) nos
integrandos, fatores esses que se anulam caso a restrição tm ≤ tm−1 ≤ · · · ≤ t1 seja violada.
Se F (t1 , . . . , tm ) é uma função de m variáveis, tem-se evidentemente que
Z t Z t Z t Z t
··· F (t1 , . . . , tm ) dtm dtm−1 · · · dt1 = ··· F (tπ(1) , . . . , tπ(m) ) dtm dtm−1 · · · dt1 ,
0 0 0 0
para qualquer permutação π ∈ Sm .

E. 7.8 Exercı́cio. Justifique! Sugestão: mudança de variáveis mais a observação que o hipercubo [0, t]m
é invariante por permutações das coordenadas. 6
Assim, como Sm possui m! elementos, segue trivialmente que

Z t Z t Z Z t
1 X t
··· F (t1 , . . . , tm ) dtm dtm−1 · · · dt1 = ··· F (tπ(1) , . . . , tπ(m) ) dtm dtm−1 · · · dt1 ,
0 0 m! π∈S 0 0
m
pois os termos somados no lado direito são todos iguais. Aplicando essa simples identidade a (7.30),
tem-se
∞
X Z Z t
1 X t
D(t) = 1 + ··· Θm (tπ(1) , . . . , tπ(m) )A(tπ(1) )A(tπ(2) ) · · · A(tπ(m) ) dtm dtm−1 · · · dt1 .
m=1
m! π∈S 0 0
m
(7.31)
Vamos definir
X
T A(t1 )A(t2 ) · · · A(tm ) := Θm (tπ(1) , . . . , tπ(m) )A(tπ(1) )A(tπ(2) ) · · · A(tπ(m) ) . (7.32)
π∈Sn
Para uma m-upla (t1 , . . . , tm ) ∈ [0, t]m composta de elementos distintos, existe um e somente
um elemento π0 ∈ Sm tal que tπ0 (m) < . . . < tπ0 (1) . Segue disso que o lado direito de (7.32) vale
A(tπ0 (1) )A(tπ0 (2) ) · · · A(tπ0 (m) ). O leitor deve observar que esse produto aparece ordenado da esquerda
para a direita na ordem decrescente dos argumentos. Por essa razão a expressão do lado esquerdo de
(7.32) é denominada produto de tempo ordenado das matrizes A, denotada por T (A(t1 ) · · · A(tm )):
Com essa notação podemos escrever (7.31) na forma
X∞ Z t Z t
1
D(t) = 1 + ··· T A(t1 )A(t2 ) · · · A(tm ) dtm dtm−1 · · · dt1 . (7.33)
m=1
m! 0 0
Essa forma de representar a série de Dyson é freqüentemente empregada na Teoria Quântica de

Campos, sendo que lá as matrizes A(t) são substituı́das por operadores com valores em distribuições
e os produtos de tempo ordenado são definidos em um sentido distribucional e de forma iterativa, de
modo a permitir um tratamento de problemas de renormalização. Para uma referência moderna sobre
tais assuntos, vide [129].
• O caso comutativo
Uma situação particular de interesse é aquela na qual as matrizes A(s) comutam para valores
distintos do argumento, ou seja, A(s)A(s′ ) = A(s′ )A(s) para todos s, s′ . Tal é o caso, por exemplo,
se A(s) forem matrizes 1 × 1, ou se forem diagonais, ou ainda se forem da forma A(s) = f (s)B para
alguma matriz constante B e alguma função real ou complexa f . Sob essa hipótese de comutatividade,
tem-se que para todo π ∈ Sm
A(tπ(1) )A(tπ(2) ) · · · A(tπ(m) ) = A(t1 )A(t2 ) · · · A(tm )

pois a ordem dos fatores não importa, devido à comutatividade. A expressão (7.31) fica, então,
X∞ Z t Z t"X #
1
D(t) = 1 + ··· Θm (tπ(1) , . . . , tπ(m) ) A(t1 )A(t2 ) · · · A(tm ) dtm dtm−1 · · · dt1
m=1
m! 0 0 π∈S m
X∞ Z t Z t
(7.28) 1
= 1+ ··· A(t1 )A(t2 ) · · · A(tm ) dtm dtm−1 · · · dt1
m=1
m! 0 0
X∞ Z t m
1
1+
comut.
= A(τ )dτ
m=1
m! 0
Z t
def.
= exp A(τ )dτ . (7.34)
0
Usando que D(t, s) = D(t)D(s)−1 , obtem-se

Z t
D(t, s) = exp A(τ )dτ . (7.35)
s
Concluı́mos que no caso comutativo, a solução da equação Ẏ = A(t)Y (t) + F (t) com uma condição
inicial Y (0) = Y0 dada em (7.12) fica
Rt
Z t R
t
A(τ )dτ
Y (t) = e 0 Y0 + e s A(τ )dτ F (s) ds . (7.36)
0
O estudante pode constatar que no caso n = 1 (um sistema com uma única equação de primeira ordem)
a expressão acima corresponde precisamente à solução dada em (6.2), página 303.
7.6 Sistemas de Equações Diferenciais Lineares no Plano Com-

plexo
Em (7.1), e em tudo que vimos até aqui, consideramos sistemas lineares de equações diferenciais onde a
variável t é assumida real. Para muitos propósitos importantes, alguns dos quais discutiremos abaixo, é
conveniente alargar um pouco o domı́nio de nossas considerações e discutir sistemas lineares de equações
diferenciais definidas no plano complexo.
Por simplicidade trataremos apenas equações homogêneas, caso em que se encontra a maioria das
aplicações. A Seção 7.7.3, página 380, discute exemplos. Para referências gerais sobre o assunto,
recomendamos [137] e [68].
Seja A(z) uma matriz m × m complexa cujos elementos Aij (z), i, j = 1, . . . , m, são funções de uma
variável complexa z em um certo domı́nio aberto e simplesmente conexo comum D do plano complexo:
D ⊂ C. Consideremos a equação diferencial linear e homogênea
Y ′ (z) = A(z)Y (z), (7.37)

onde Y (z) denota um vetor coluna de funções complexas

 
y1 (z)
 
Y (z) =  ...  .
ym (z)
Estaremos aqui interessados em estudar esses sistemas de equações diferenciais quando uma condição
inicial é fornecida, ou seja, quando o valor de Y (z) em um ponto z0 ∈ D é especificado:
 
y10
 
Y (z0 ) =: Y0 =  ...  ,
0
ym
com y10 , . . . , ym
0
sendo constantes complexas. Notemos que ao procurarmos soluções Y (z) de (7.37)
é implicitamente sub-entendido que as mesmas funções Y (z) sejam analı́ticas, pois apenas funções
analı́ticas são diferenciáveis.
7.6.1 O Caso Analı́tico

Comecemos pelo caso no qual a matriz A(z) é analı́tica em um domı́nio aberto simplesmente conexo
D, ou seja, todos os seus elementos de matriz Aij (z) são funções analı́ticas de z em D. Uma primeira
pergunta importante diz respeito à unicidade da solução da equação diferencial Y ′ (z) = A(z)Y (z),
z ∈ D, com a condição Y (z0 ) = Y0 para algum z0 ∈ D. Essa pergunta pode ser respondida usando
nosso resultado anterior (do começo deste capı́tulo) que garante unicidade de solução de sistemas
lineares de equações diferenciais com variáveis reais.
De fato, seja z(t), t ∈ [0, 1], uma curva arbitrária contı́nua e diferenciável em D e tal que z(0) = z0 .
Sejam Y1 e Y2 duas soluções analı́ticas de Y ′ (z) = A(z)Y (z), z ∈ D, com a mesma condição Y1 (z0 ) =
Y2 (z0 ) = Y0 . Sejam X1 (t) := Y1 (z(t)) e X2 (t) := Y2 (z(t)). Definamos também B(t) := ż(t)A(z(t)).
Notemos que B(t) é uma matriz contı́nua em t, pois A(z) é analı́tica.
É fácil, então, constatar que X1 e X2 são ambos soluções da equação diferencial
Ẋ(t) = B(t)X(t), t ∈ [0, 1],
com a condição X(0) = Y0 . Pelas nossas considerações anteriores, isso implica X1 (t) = X2 (t), ∀t ∈
[0, 1], ou seja, Y1 (z(t)) = Y2 (z(t)), ∀t ∈ [0, 1]. Como a curva z(t) é arbitrária e sua imagem pode
estar em todo D, isso implica Y1 (z) = Y2 (z) para todo z ∈ D. Isso prova a unicidade da solução de
Y ′ (z) = A(z)Y (z), z ∈ D, com condição Y1 (z0 ) = Y2 (z0 ) = Y0 .
Uma vez garantida a unicidade da solução, tentemos exibı́-la. O que faremos é seguir a inspiração
fornecida pela série de Dyson, estudada anteriormente, e tentar generalizá-la para o plano complexo.
• A série de Dyson no plano complexo
Seja então D um domı́nio aberto simplesmente conexo do plano complexo e A(z) analı́tica em D e
limitada em D. Seja também z0 ∈ D.
Uma vez demonstrada a unicidade da eventual solução de uma equação como Y ′ (z) = A(z)Y (z)
com condição Y (z0 ) = Y0 precisamos demonstrar que a solução existe. O que faremos é generalizar
nossas considerações anteriores sobre a série de Dyson para o plano complexo.
Para z e w ∈ D , seja D(z, w) a matriz m × m definida por
∞ Z
X z Z z1 Z zn−1
D(z, w) = 1 + ··· A(z1 )A(z2 ) · · · A(zn ) dzn dzn−1 · · · dz1 . (7.38)
n=1 w w w
Acima, todas as integrações complexas são feitas em uma curva C, simples, orientada de w a z e
inteiramente contida em D. Para cada n os pontos z1 , . . . , zn são ordenados em sentido crescente
ao longo de C. Mais precisamente, denotamos por C a curva contı́nua e diferenciável C : [0, 1] → D
parametrizada por t ∈ [0, 1] com w = C(0), z = C(1). Então, para cada n, tem-se zk = C(tk ),
1 ≤ k ≤ n, com 0 ≤ t1 ≤ · · · ≤ tn ≤ 1.
Devido ao fato de A ser analı́tica no domı́nio simplesmente conexo D, a matriz D(z, w) não depende
da particular curva orientada C adotada que conecta w a z (justifique isso!).
Afirmamos que a equação Y ′ (z) = A(z)Y (z) com uma condição Y (z0 ) = Y0 tem solução, a qual é
dada por
Y (z) = D(z, z0 )Y0 (7.39)
A demonstração será feita provando-se que o lado direito satisfaz a equação diferencial e a condição
inicial. Como a solução é única (pelo provado acima), infere-se que não pode haver outra.
Comecemos por mostrar que a série que aparece em (7.38) é convergente, sem o que aquela expressão
não faria sentido. O leitor facilmente constatará que o que faremos é uma simples imitação da prova
anterior para a reta real, dado que somente faremos uso da hipótese de que A(z) é limitada em D.
Sejam z e w dois pontos de um domı́nio D sob as hipóteses acima (D é aberto e simplesmente
conexo) e seja Cw→z uma curva contı́nua, diferenciável, orientada, ligando w a z e inteiramente contida
em D. Para z ′ ∈ Cw→z , denotemos por l(z ′ ) ≡ lCw→z (z ′ ) o comprimento medido de w a z ′ ao longo
da curva Cw→z . A função l : Cw→z → R+ é bijetora e, portanto, possui uma inversa, o que nos
permite parametrizar os pontos de Cw→z pelo comprimento l medido ao longo de Cw→z a partir de w.
Denotaremos por z ′ (l) essa parametrização, ou seja, z ′ (l) é o ponto de Cw→z cuja distância a w ao longo
de Cw→z é l ∈ R+ .
É um fato bemZ conhecido da teoria das funções de variáveis complexas que se f : D → C é ao menos
contı́nua5 , então f (z ′ )dz ′ , a integral de f de w a z ao longo da curva Cw→z , pode ser estimada
Cw→z
por Z Z l(z)

′
f (z )dz ≤ ′
|f (z ′ (l))| dl . (7.40)

Cw→z 0
5
Essa condição pode ser enfraquecida.
Denotando por Dab (z, w) o elemento ab da matriz D(z, w), temos

∞ Z z Z z1
X Z zn−1
Dab (z, w) = 1ab + ··· (A(z1 )A(z2 ) · · · A(zn ))ab dzn dzn−1 · · · dz1
n=1 w w w
∞ X
X m X
m m
X Z z Z z1 Z zn−1
= δa b + ··· ··· Aak1 (z1 )Ak1 k2 (z2 ) · · · Akn−1 b (zn ) dzn · · · dz1 .
n=1 k1 =1 k2 =1 kn−1 =1 w w w
Definindo como antes

α := max max |Aab (z)| ,
a, b z∈D
aplicando (7.40) e escrevendo l1 ≡ l(zj ), j = 1, . . . , n, temos

X∞ Xm Xm Z l(z) Z l1 Z ln−1
|Dab (z, w)| ≤ 1 + ··· ···
n=1 k1 =1 kn−1 =1 0 0 0

|Aak1 (z ′ (l1 ))| |Ak1 k2 (z ′ (l2 ))| · · · Akn−1 b (z ′ (ln )) dln · · · dl1
∞
X m
X m
X Z l(z) Z l1 Z ln−1
n
≤ 1+ α ··· ··· dln · · · dl1
n=1 k1 =1 kn−1 =1 0 0 0
∞
X n m
X m
X
n l(z)
≤ 1+ α ··· 1
n=1
n! k1 =1 kn−1 =1
∞
X l(z)n n−1
≤ 1+ αn m
n=1
n!
1 αml(z)
= 1+ e −1 .
m
Acima, usamos o fato, demonstrável por indução, que
Z l(z) Z l1 Z ln−1
l(z)n
··· dln · · · dl1 = . (7.41)
0 0 0 n!
Como mencionamos, l(z) é a distância de w a z ao longo da curva de integração, ou seja, é o comprimento
total dessa curva. Se D for um domı́nio convexo, podemos tomar a curva de integração como sendo
a linha reta que une w a z, em cujo caso teremos l(z) = |z − w|. Não precisamos, no entanto, supor
convexidade de D.
Provamos então que, para cada elemento de matriz ab, a série do lado direito de (7.38) é absoluta-
mente convergente, e isso para todo w e z ∈ D. Como, para cada N ∈ N, as funções
XN X m X m m
X Z z Z z1 Z zn−1
fN (z, w) = δab + ··· ··· Aak1 (z1 )Ak1 k2 (z2 ) · · · Akn−1 b (zn ) dzn · · · dz1 .
n=1 k1 =1 k2 =1 kn−1 =1 w w w
são analı́ticas em D (pois integrais de funções analı́ticas são também analı́ticas), concluı́mos do exposto
acima que cada elemento de matriz Dab (z, w) é o limite uniforme (por quê?) da seqüência de funções
analı́ticas fN (z, w). Um teorema importante da análise complexa (vide e.g. [142]) afirma que sob essas
circunstâncias Dab (z, w) é também analı́tica em D.
Para mostrar que (7.39) representa de fato a solução procurada, vamos mostrar que
∂
D(z, w) = A(z)D(z, w). (7.42)
∂z
De fato,
( ∞ Z Z Z )
∂ ∂ X z z1 zn−1
D(z, w) = 1+ ··· A(z1 )A(z2 ) · · · A(zn ) dzn dzn−1 · · · dz1 .
∂z ∂z n=1 w w w
( Z Z Z
z z z1
∂
= 1+ A(z1 ) dz1 + A(z1 )A(z2 ) dz2 dz1
∂z w w w
Z Z Z )
z z1 z2
+ A(z1 )A(z2 )A(z3 ) dz3 dz2 dz1 + · · ·
w w w
Z z Z z Z z2
= 0 + A(z) + A(z)A(z2 ) dz2 + A(z)A(z2 )A(z3 ) dz3 dz2 + · · ·
w w w
Z z Z z Z z2
= A(z) 1 + A(z2 ) dz2 + A(z2 )A(z3 ) dz3 dz2 + · · ·
w w w
Z z Z z Z z1
= A(z) 1 + A(z1 ) dz1 + A(z1 )A(z2 ) dz2 dz1 + · · ·
w w w
= A(z)D(z, w),
como querı́amos provar. Acima, na passagem da quarta para a quinta linha, fizemos uma série de
mudanças de nomes das variáveis de integração, chamando z2 de z1 , z3 de z2 etc.
De maneira análoga prova-se também que
∂
D(z, w) = −D(z, w)A(w).
∂w
E. 7.9 Exercı́cio. Faça! 6
É também evidente pela definição (7.38) que para todo z vale D(z, z) = 1. Notemos que, por (7.39),
Y (z0 ) = D(z0 , z0 )Y0 = Y0 , mostrando que o lado direito de (7.39) satisfaz a condição Y (z0 ) = Y0 .
Derivando o lado direito de (7.39) em relação a z, tem-se
∂
Y ′ (z) = D(z, z0 )Y0 = A(z)D(z, z0 )Y0 = A(z)Y (z) ,
∂z
provando que o lado direito de (7.39) satisfaz a equação diferencial. Como a solução é única, ela deve
ser aquela dada em (7.39).
De maneira análoga ao caso real podemos igualmente provar que vale a regra de composição
D(z1 , z3 ) = D(z1 , z2 )D(z2 , z3 ) , (7.43)
para quaisquer z1 , z2 e z3 contidos no domı́nio simplesmente conexo onde A é analı́tica.
E. 7.10 Exercı́cio. Prove (7.43) mostrando que ambos os lados satisfazem as mesmas equações diferen-
ciais e as mesmas condições iniciais. 6
• A equação não-homogênea
E. 7.11 Exercı́cio importante. Para A e F analı́ticas em um domı́nio aberto e simplesmente conexo D

e limitadas em D, mostre que a solução geral da equação não-homogênea Y ′ (z) = A(z)Y (z) + F (z) com
condição Y (z0 ) = Y0 , z0 ∈ D é
Z z
Y (z) = D(z, z0 )Y0 + D(z, w)F (w)dw , (7.44)
z0
onde D(z, z0 ) foi definida acima e a integração do lado direito é tomada em qualquer curva simples,
contı́nua e diferenciável em D, pois D e F são analı́ticas em D. 6
• Analiticidade da solução
Uma importante conclusão que tiramos da análise acima é que, sob a hipótese que A é analı́tica
em D e limitada em D, então a solução Y da equação homogênea Y ′ (z) = A(z)Y (z) com condição
Y (z0 ) = Y0 , z0 ∈ D é igualmente analı́tica em D pois, como vimos, D(z, z0 ) é analı́tica em z.
• Soluções nulas
Há uma conseqüência das considerações acima que é bastante elementar, possuindo, porém, im-
plicações profundas, como veremos, por exemplo, quando discutirmos equações com pontos singulares.
Expressaremos essa conseqüência em forma de uma proposição:
Proposição 7.1 Seja a equação homogênea Y ′ (z) = A(z)Y (z) onde A(z) é analı́tica em um domı́nio
aberto e simplesmente conexo D. Então, se Ys (z) é uma solução dessa equação que se anula em um
ponto z0 ∈ D, ou seja, Ys (z0 ) = 0, vale Ys (z) = 0 para todo z ∈ D. 2
Essa proposição diz que se a solução de uma equação linear homogênea Y ′ (z) = A(z)Y (z) anula-se
em algum ponto de D (com A(z) analı́tica em um domı́nio aberto e simplesmente conexo D), então
ela anula-se em todo D. A prova é a simples observação que, pelo que vimos, a solução é dada por
Y (z) = D(z, z0 )Y (z0 ).
• Equações Matriciais Complexas

Até agora estudamos equações da forma Y ′ (z) = A(z)Y (z), com condição Y (z0 ) = Y0 , onde A(z) é
uma matriz m × m analı́tica em um domı́nio aberto e simplesmente conexo D que contém z0 e onde Y
é um vetor coluna com m componentes:
 
y1 (z)
 
Y (z) =  ...  .
ym (z)
Consideremos agora a equação M′ (z) = A(z)M(z), com condição M(z0 ) = M0 , onde A(z) e M(z)
são matrizes m × m, a incógnita sendo a matriz M(z) e a matriz A(z) sendo analı́tica em um domı́nio
aberto e simplesmente conexo D. Veremos facilmente que podemos tratar esse problema com os mesmos
métodos do anterior, onde a incógnita era um vetor coluna Y de m componentes e não uma matriz
quadrada. De fato, como toda matriz m × m, a matriz M(z) é da forma (para notação, vide página
155) hh ii
M(z) = M1 (z), . . . , Mm (z) ,
onde Mi (z) são vetores coluna com m componentes, representando a i-ésima coluna da matriz M(t).
Nessa notação a equação diferencial M′ (z) = A(z)M(z) fica
hh ii hh ii
M1′ (z), . . . , Mm
′
(z) = A(z)M1 (z), . . . , A(z)Mm (z) ,
ou seja, tem-se um conjunto de m sistemas de equações independentes
Mi′ (z) = A(z)Mi (z), i = 1, . . . , m (7.45)
do tipo que tratamos acima, onde as incógnitas são vetores coluna.

Para cada uma dessas equações valem todas as afirmações provadas acima. Assim concluı́mos que
a equação matricial M′ (z) = A(z)M(z), com condição M(z0 ) = M0 , tem solução única, a qual é dada
por
Mi (z) = D(z, z0 )Mi (z0 ), i = 1, . . . , m.
Reunindo as colunas Mi novamente na matriz M, temos
M(z) = D(z, z0 )M0
como solução única de M′ (z) = A(z)M(z), com condição M(z0 ) = M0 .

A partir do exposto acima é fácil demonstrar a validade da composição D(z, z0 ) = D(z, z1 )D(z1 , z0 )
para quaisquer pontos z0 , z1 e z do domı́nio aberto e simplesmente conexo D. Como D(z0 , z0 ) = 1,
isso em particular diz que toda matriz D(z, z0 ) é invertı́vel com D(z, z0 )−1 = D(z0 , z).
Uma simples mas importante observação que se pode fazer é que, como a matriz fundamental
D(z, z0 ) é invertı́vel, M(z) será invertı́vel para todo z ∈ D se e somente se M0 o for. Ou seja, se
a solução da equação M′ (z) = A(z)M(z), com A(z) analı́tica em um domı́nio aberto simplesmente
conexo D é analı́tica em um ponto de D, então o é em todo D.
Vamos aqui discutir propriedades dessas equações diferenciais matriciais homogêneas, com A(z)
uma matriz m × m analı́tica em um domı́nio aberto e simplesmente conexo D. Se M1 (z) é uma
solução desta equação, constata-se trivialmente que, para qualquer matriz m × m constante C, a
matriz M2 (z) = M1 (z)C é igualmente solução de M′ (z) = A(z)M(z), bastando para tal multiplicar a
equação à direita por C.
A seguinte afirmação recı́proca é também verdadeira:
Proposição 7.2 Se M1 (z) e M2 (z) são duas soluções invertı́veis de M′ (z) = A(z)M(z), com A(z)
analı́tica em um domı́nio aberto e simplesmente conexo D, então existe uma matriz constante invertı́vel
C tal que M2 (z) = M1 (z)C para todo z ∈ D. 2
Prova. Para ver isso, seja z0 um ponto arbitrário de D e defina-se M01 = M1 (z0 ) e M02 = M2 (z0 ). Seja
então C := (M01 )−1 M02 . Então, teremos que M3 (z), definida por M3 (z) = M2 (z) − M1 (z)C é também
solução da equação M′ (z) = A(z)M(z), mas que obviamente anula-se em z0 . Com isso, pela Proposição
7.1, M3 (z) é identicamente nula em todo D, ou seja, M2 (z) = M1 (z)C para todo z ∈ D.
Conseqüências dessas observações serão discutidas na Seção 7.6.3.
7.6.2 Resolução por Séries de Potências

A possibilidade, revelada acima, de se apresentar a solução da equação homogênea Y ′ (z) = A(z)Y (z)
com condição Y (z0 ) = Y0 , z0 ∈ D, em termos da matriz D(z, w) (a qual depende apenas de A) é
interessante do ponto de vista teórico mas nem sempre do ponto de vista prático, pois nem sempre é
possı́vel computar a série infinita de integrais de produtos de matrizes que compõe D(z, w) (a série de
Dyson). No entanto, uma das conclusões teóricas da análise acima, a saber, o fato de Y ser analı́tica,
aponta para um outro método de resolução, esse sim mais simples de ser usado em aplicações. Trata-se
do Método de Séries de Potências que descreveremos agora.
O fato de Y ser analı́tica nos diz a priori que Y pode ser expressa por uma série de Taylor
convergente centrada em z0 :
X∞
Y (z) = (z − z0 )n Yn , (7.46)
n=0
onde Yn são vetores-coluna constantes com m componentes, tal qual Y (z). Note-se que, pela expressão
acima, Y (z0 ) = Y0 . Para ver isso, tome z = z0 em ambos os lados da expressão.
Como a matriz A é igualmente analı́tica em torno de z0 , A pode ser expressa por uma série de
Taylor convergente centrada em z0 :
∞
X
A(z) = (z − z0 )n An ,
n=0
onde An são igualmente matrizes m × m constantes. Com isso, a equação diferencial Y ′ (z) = A(z)Y (z)
fica
∞ ∞
! ∞
!
X X X
(n + 1)(z − z0 )n Yn+1 = (z − z0 )k Ak (z − z0 )l Yl
n=0 k=0 l=0
∞ X
X ∞
= (z − z0 )k+l Ak Yl
k=0 l=0
∞
X n
X
= (z − z0 )n An−p Yp , (7.47)
n=0 p=0
o que nos leva a concluir que

n
1 X
Yn+1 = An−p Yp , ∀n ≥ 0. (7.48)
n + 1 p=0
E. 7.12 Exercı́cio importante. Complete os detalhes das deduções que levam a (7.47) e (7.48). 6
A expressão (7.48) nos permite obter os vetores Yn recursivamente a partir de Y0 . Com isso, a
solução Y (z) fica determinada por sua série de Taylor (7.46). Esse é o método de resolução por séries
de potências. Por exemplo, para n = 0, (7.48) nos dá
Y1 = A0 Y0 .
Para n = 1, (7.48) nos dá

1 1
Y2 = (A1 Y0 + A0 Y1 ) = A1 + A20 Y0 ,
2 2
e assim por diante. Os primeiros termos da solução Y (z) são, então,
(z − z0 )2
Y (z) = Y0 + (z − z0 )A0 Y0 + A1 + A20 Y0 + · · ·
2

(z − z0 )2
= 1 + (z − z0 )A0 + 2
A1 + A0 + · · · Y0 . (7.49)
2
Isso permite-nos identificar a expressão entre colchetes {· · · } como sendo a expansão em série de
Taylor de D(z, z0 ).
E. 7.13 Exercı́cio. Determine Y3 e Y4 em termos de Y0 . 6
E. 7.14 Exercı́cio importante. Desenvolva o método de expansão em série de potências para a resolução
da equação não-homogênea Y ′ (z) = A(z)Y (z) + F (z) com condição Y (z0 ) = Y0 , z0 ∈ D, onde A e F são
analı́ticas em um domı́nio simplesmente conexo D e limitadas em D. 6
7.6.3 Sistemas com Pontos Singulares. Monodromia

Nas páginas anteriores consideramos equações diferenciais como Y ′ (z) = A(z)Y (z) onde A(z) era
suposta ser analı́tica em um certo domı́nio aberto e simplesmente conexo D. Há inúmeros problemas
importantes nos quais essa situação não é encontrada, de modo que devemos afrouxar um pouco as
condições sobre a analiticidade de A(z). Consideraremos aqui a situação na qual A é analı́tica dentro
de um anel aberto Az0 , a, b centrado em z0 ∈ C com raio interno a e raio externo b definido por
n o

Az0 , a, b := z ∈ C a < |z − z0 | < b ,
sendo 0 ≤ a < b (os casos em que a = 0 e/ou b = ∞ podem ser também permitidos). Vide Figura
7.1. Uma tı́pica situação na qual isso ocorre se dá quando A(z0 ), ou seja, alguns de seus elementos de
matriz, tem uma singularidade tipo pólo ou essencial6 em um ponto z0 . Em verdade, interessaremo-nos
mais pelo caso de singularidades tipo pólo, caso que, felizmente, corresponde à maioria das aplicações.
Notemos que a hipótese de A(z) ser analı́tica em um anel Az0 , a, b significa que A(z) pode ser expressa
em uma série de Laurent7 convergente (vide e.g. [24]) em Az0 , a, b :
∞
X
A(z) = (z − z0 )m Am .
m=−∞
Notemos que um anel Az0 , a, b é a união domı́nios abertos e simplesmente conexos do tipo Sz0 , a, b (φ1 , φ2 ),
com 0 < φ2 − φ1 < 2π, onde

Sz0 , a, b (φ1 , φ2 ) := z ∈ C| z − z0 = ρeiφ , com a < ρ < b e φ1 < φ < φ2 .
Denominaremos essas regiões setores. Vide Figura 7.2.
• Monodromia
Se tomarmos z1 e z dentro do anel Az0 , a, b , podemos encontrar um setor Sz0 , a, b (φ1 , φ2 ) que contém
ambos os pontos (se, por exemplo, na representação polar, z1 = ρ1 eiθ1 e z = ρeiθ , podemos tomar
φ1 < min{θ1 , θ} mod 2π e φ2 < max{θ1 , θ} mod 2π). Como A é analı́tica dentro de um tal setor
e o mesmo é simplesmente conexo, podemos representar a matriz de Dyson D(z, z1 ) na forma (7.38)
com as integrais tomadas em um caminho orientado de z1 a z inteiramente contido no interior de
Sz0 , a, b (φ1 , φ2 ) (e, portanto, de Az0 , a, b ). Isso permite definir D(z, z1 ) dentro de cada setor.
Uma questão muito importante para o que segue é saber o que ocorre com a matriz D(z, z1 ) se,
fixando z1 , fizermos z dar uma volta de 2π em torno do ponto z0 . Mais precisamente, consideremos os
pontos z(φ) definidos por z(φ) := (z − z0 )eiφ + z0 . Como é fácil constatar, ao variarmos φ entre 0 e 2π,
z(φ) move-se em um cı́rculo de raio |z − z0 | centrado em z0 e orientado em sentido anti-horário, sendo
que z(0) = z(2π) = z. Para 0 ≤ φ < 2π, os pontos z1 e z(φ) estão dentro de algum setor simplesmente
conexo de Az0 , a, b e podemos escrever, por (7.43), D(z(φ), z1 ) = D(z(φ), z)D(z, z1 ).
Consideremos a matriz D(z(φ), z). A mesma pode ser expressa na forma (7.38), sendo que podemos
tomar como caminho de integração o arco de cı́rculo orientado no sentido anti-horário C(φ) que vai de
z a z(φ) (lembremo-nos que |z(φ) − z0 | = |z − z0 |). Vide Figura 7.3. A para a matriz D(z, z1 ) podemos
6
Para o estudante que queira recordar esses conceitos sugerimos, por exemplo, [24].
7
Pierre Alphonse Laurent (1813-1854).
b
a
z0
Figura 7.1: Um anel do tipo Az0 , a, b .
tomar o caminho de integração C1 da Figura 7.3. A medida em que φ aproxima-se de 2π, o caminho
de integração aproxima-se do cı́rculo fechado de raio |z − z0 | (indicado por C na Figura 7.3), orientado
de z a z no sentido anti-horário. Vemos assim que
lim D(z(φ), z1 ) = MD(z, z1 ) onde M := lim D(z(φ), z) .
φ→2π φ→2π
Pela definição e pela representação (7.38),

X∞ I Z w1 Z wn−1
M = 1+ ··· A(w1 )A(w2 ) · · · A(wn ) dwn dwn−1 · · · dw1 , (7.50)
n=1 z z z
H
onde por z entende-se a integração (na variável w1 ) de z a z tomada ao longo do cı́rculo fechado C de
raio |z − z0 |, orientado de z a z no sentido anti-horário. Como se percebe, esse cı́rculo corresponde ao
arco C(2π).
Devido à expressão (7.50), é fácil constatar que M, não depende da particular curva C tomada
unindo z a z, desde que essa curva dê exatamente uma volta em torno de z0 sentido anti-horário
sem abandonar Az0 , a, b . Devido ao fato de o integrando ser analı́tico dentro de todos os setores de
Az0 , a, b , podemos deformar continuamente o caminho de integração sem alterar seu valor, desde que
não se abandone Az0 , a, b . Podemos, assim, tomar como caminho de integração em (7.50) qualquer curva
fechada que dê uma volta completa no sentido anti-horário em torno de z0 ao longo do anel Az0 , a, b ,
sem sair do mesmo. Em particular, vemos com esse argumento que M também não depende do ponto
z.
φ
2
b φ
a 1
z0
Figura 7.2: Em cinza, um setor Sz0 , a, b (φ1 , φ2 ) no interior do anel Az0 , a, b .
A matriz M é denominada matriz de monodromia associada à matriz A(z) em Az0 , a, b . Se M 6= 1,

dizemos que D(z, z1 ) possui uma monodromia não-trivial.
Caso M 6= 1 (veremos exemplos logo adiante), a matriz de Dyson D(z, z1 ) não é uma função
unı́voca, ou seja, quando a variável z dá uma volta de 2π em torno de z0 , D(z, z1 ) não volta ao
mesmo valor. Esse fenômeno é bem conhecido na teoria das funções de variável complexa e é associado
à presença de singularidades do tipo ponto de ramificação. Por exemplo, para a função complexa
ln(z), z 6= 0, vale lim ln(zeiφ ) = ln(z) + 2πi e para a função complexa z γ , z 6= 0, com γ 6∈ Z, vale
φ→2π
iφ γ 2πγi γ
lim (ze ) = e z .
φ→2π
• Mais propriedades da matriz de monodromia
Um comentário que será importante é que toda matriz de monodromia é invertı́vel. Para ver-
mos isso, notemos que pela definição, M = limφ→2π D(z(φ), z). Assim, considerando o ponto z(π)
(escolhido de forma arbitrária, porém conveniente), tem-se pela fórmula de composição (7.43) que
M = limφ→2π D(z(φ), z) = limφ→2π D(z(φ), z(π))D(z(π), z) = Db (z, z(π))Da (z(π), z), sendo que
Da (z ′ , z) envolve integrações ao longo de um arco Ca , orientado de z a z(π), e Db (z, z(π)) envolve
integrações ao longo do arco Cb , orientado de z(π) a z. Ambos os arcos estão contidos em Az0 , a, b . A
união Ca ∪ Cb é uma curva fechada que dá exatamente uma volta completa no sentido anti-horário em
torno de z0 ao longo do anel Az0 , a, b , sem sair do mesmo. Ambas as matrizes Da (z ′ , z) e Db (z, z ′ ) são
invertı́veis. Portanto, a matriz M também o é.
Um segundo comentário é que a matriz de monodromia comuta com D(z, z1 ) e com A(z) para
C1
C(φ)
z1
φ
z0
z(φ)
Figura 7.3: O arco de cı́rculo orientado no sentido anti-horário C(φ) que vai de z a z(φ).
todos z, z1 ∈ Az0 , a, b . Para ver isso, considere a curva C, fechada, orientada, inteiramente contida em
Az0 , a, b , indicada na Figura 7.4. Essa curva é a fronteira deH uma região simplesmente conexa, portanto,
se f (z) é uma função analı́tica em Az0 , a, b , sua integral C f (w) dw ao longo de C é nula. Por essa
razão, tem-se que
∞ I Z
X w1 Z wn−1
1+ ··· A(w1 )A(w2 ) · · · A(wn ) dwn dwn−1 · · · dw1 = 1 , (7.51)
n=1 C z z
pois todas as integrais ao lado direito se anulam (os integrandos são analı́ticos). A curva C pode
ser continuamente deformada à curva fechada indicada na Figura 7.5 sem alterar a igualdade (7.51).
Tem-se agora, porém, que o percurso ao longo de C pode ser caminhado pelo seguinte conjunto de
percursos sucessivos: 1) partindo do ponto z1 ao longo da curva C1 até o ponto z; 2) partindo de z ao
longo da curva fechada C2 , orientada no sentido anti-horário, até de volta a z; 3) partindo de z até z1 ,
ao longo da curva C3 ; 4) partindo de z1 ao longo da curva fechada C4 , orientada no sentido horário, até
de volta a z1 . Essas considerações e a expressão para M em (7.50) em termos de integrações ao longo
de um circuito arbitrário fechado que dá uma volta no sentido anti-horário em torno de z0 , levam-nos
a concluir que (7.51) significa que
M −1 D(z1 , z)MD(z, z1 ) = 1 .
Como D(z1 , z) = D(z, z1 )−1 , concluı́mos que MD(z, z1 ) = D(z, z1 )M, ou seja, M e D(z, z1 )
comutam para quaisquer z, z1 ∈ Az0 , a, b . Derivando em relação a z, obtemos MA(z)D(z, z1 ) =
A(z)D(z, z1 )M e tomando z1 = z, segue que MA(z) = A(z)M, ou seja, M e A(z) comutam para
qualquer z ∈ Az0 , a, b .
z0
Figura 7.4: A curva fechada orientada C.
Os dois exercı́cios que seguem exibem mais propriedades de matrizes de monodromia em certos
casos.
E. 7.15 Exercı́cio. Monodromia no caso comutativo. Considere o caso em que A(z) é uma matriz
analı́tica no anel Az0 , a, b e tal que A(z)A(z ′ ) = A(z ′ )A(z) para todos z, z ′ ∈ Az0 , a, b . Usando (7.35),
página 349, e (7.50), mostre que I
M = exp A(w) dw , (7.52)
H
a integral sendo tomada ao longo de qualquer curva fechada que dê exatamente uma volta completa no
sentido anti-horário em torno de z0 ao longo do anel Az0 , a, b , sem sair do mesmo. 6
E. 7.16 Exercı́cio. Sejam A(z) matrizes n × n analı́ticas no anel Az0 , a, b . Suponha que dentro de
Az0 , a, b existam n2 pontos distintos z1 , . . . , zn2 com a propriedade que as n2 matrizes A(z1 ), . . . , A(zn2 )
são linearmente independentes. Mostre que isso implica que M = η 1 para algum η ∈ C, η 6= 0. Sugestão:
explore o fato que MA(z) = A(z)M para todo z ∈ Az0 , a, b . 6
*
C1 C3
z1
C2
z0
C4
Figura 7.5: A curva fechada orientada C composta dos segmentos orientados C1 , C2 , C3 e C4 . Os

pontos z1 e z.
Antes de examinarmos as conseqüências da existência de uma monodromia não-trivial para a matriz

D(z, z1 ) , devemos mostrar exemplos concretos onde se tem M 6= 1.
• Monodromia não trivial. Um exemplo
O seguinte exemplo8 é ilustrativo. Seja A(z) = z −1 R, onde R é a matriz constante

λ 1
R = , (7.53)
0 λ
sendo λ um número complexo fixo arbitrário. Claramente A(z) é singular em z0 = 0 e analı́tica em

todo anel A0, b = {z ∈ C| 0 < |z| < b}, com qualquer b > 0. Tomando z1 ∈ A0, b , fixo, a matriz de
Dyson D(z, z1 ) é dada por9 !
λ
z 1 ln zz1
D(z, z1 ) = , (7.54)
z1 0 1
pois, como facilmente se constata, essa matriz satisfaz ∂
∂z
D(z, z1 ) = A(z)D(z, z1 ) e D(z1 , z1 ) = 1.
8
Esse exemplo é extraı́do com pequenas modificações de [137].
9
Em tudo o que segue utilizaremos o chamado ramo principal do logaritmo de uma variável complexa z. Ou seja, se
z ∈ C tem a decomposição polar z = |z|eiφ com −π ≤ φ < π, então ln(z) = ln |z| + iφ.
E. 7.17 Exercı́cio. As matrizes A(z) = z −1 R, acima, comutam para valores diferentes de z. Por essa
razão, D(z, z1 ) pode ser calculada com o uso da expressão (7.35), página 349. Obtenha (7.54) dessa forma.
6
Fixando-se z1 , é fácil verificar que

λ ! λ !
zeiφ zeiφ z z
1 ln 1 ln + 2πi
lim D(zeiφ , z1 ) = lim z1 = e2πiλ z1 = MD(z, z1 ) ,
φ→2π φ→2π z1 0 1 z1 0 1
com a matriz de monodromia M sendo dada por

2πiλ 1 2πi
M = e . (7.55)
0 1
E. 7.18 Exercı́cio. Obtenha (7.55) fazendo uso da relação (7.52), válida no caso comutativo. Verifique
explicitamente que MA(z) = A(z)M para todo z ∈ A0, b . Vide Exercı́cio E. 7.15. 6
E. 7.19 Exercı́cio. Mostre, fazendo uso da relação (7.52), que para qualquer matriz R a matriz de
6 1, é M = 1, ou seja, a monodromia é
monodromia associada às funções A(z) = z −p R, com p ∈ Z, p =
trivial. 6
A existência de monodromias não-triviais em equações singulares do tipo que consideramos aqui é

um fato relevante que, como veremos, tem conseqüências sobre a forma geral das soluções.
• Um comentário sobre a matriz de monodromia
Como já observamos, toda matriz de monodromia M é invertı́vel. Vamos mostrar que para cada
M existe uma matriz Γ tal que M = e2πiΓ . Por exemplo, para a M dada em (7.55) podemos tomar
Γ = R, onde R é dada em (7.53) (verifique!). Para a prova geral, vamos primeiro escrever M na sua
forma de Jordan (vide Teorema 3.19, página 215): seja T invertı́vel tal que T −1 MT = D + N onde D
é diagonal, N é nilpotente e DN = ND. Definimos, então,
1
Γ := T ln D + ln(1 + D −1 N) T −1 .
2πi
Antes de prosseguirmos comentemos que essa expressão está bem definida. De fato, D é uma matriz
diagonal D = diag (d1 , . . . , dm ), tendo na diagonal os autovalores de M. Como M é invertı́vel, nenhum
desses autovalores é nulo, assim ln D está bem definida como ln D = diag (ln(d1 ), . . . , ln(dm )). Fora
P
isso, ln(1 + D −1 N) é dada (já que D e N comutam) por ∞ k −1 k k
k=0 (−1) (D ) N , que é uma soma finita,
pois N é nilpotente.
Isto posto, dado que ln D e ln(1 + D −1 N) comutam (por que?), é fácil então ver que

e2πiΓ = T exp ln D + ln(1 + D −1 N) T −1

= T exp (ln D) exp ln(1 + D −1 N) T −1
= T D(1 + D −1 N)T −1 = T (D + N)T −1
= M,

Logo abaixo usaremos a matriz Γ e o fato agora provado que M = e2πiΓ para extrair algumas
conclusões sobre a forma geral das soluções com pontos singulares do tipo aqui tratado. Para isso,
faremos uso da matriz eln(z−z0 )Γ . Vamos discutir sua forma geral. Como toda matriz, Γ pode ser
conduzida à sua forma de Jordan por uma transformação de similaridade: existe matriz Q invertı́vel
tal que QΓQ−1 = D0 + N0 onde D0 é diagonal, N0 é nilpotente e D0 N0 = N0 D0 . Com isso,
eln(z−z0 )Γ = Q−1 eln(z−z0 )(D0 +N0 ) Q = Q−1 eln(z−z0 )D0 eln(z−z0 )N0 Q.
Se a matriz D0 for a matriz diagonal diag (γ1 , . . . , γm ) então a matriz eln(z−z0 )D0 é a matriz diagonal
diag ((z − z0 )γ1 , . . . , (z − z0 )γm ). Por outro lado, como N0 é nilpotente de ı́ndice menor ou igual a m
(ou seja N0m = 0), os elementos de matriz de eln(z−z0 )N0 são polinômios em ln(z − z0 ) de ordem menor
ou igual a m − 1. Conseqüentemente, cada elemento de matriz eln(z−z0 )Γ ab é da forma
m−1 m
!
X X
ln(z−z0 )Γ γl kl
e ab
= (z − z0 ) Cab (ln(z − z0 ))k (7.56)
k=0 l=1
kl
para certas constantes complexas Cab (algumas podendo ser nulas).
Note-se que os γl são, em geral, números complexos: os autovalores de Γ.
E. 7.20 Exercı́cio importante. Complete os detalhes que levam a (7.56). 6
Observação importante. Como a expansão de eln(z−z0 )N0

m−1
X
e ln(z−z0 )N0
= 1+ (ln(z − z0 ))k N0k
k=1
contém o termo 1, a expansão (7.56) sempre contém um termo não-nulo do tipo (ln(z − z0 ))k com
k = 0, ou seja, há um termo não-nulo que não envolve potências de ln(z − z0 ). Essa observação será
lembrada adiante.
• A Forma Geral das Soluções
Essa discussão é baseada na referência [137], cuja leitura recomendamos.

Seja a equação Y ′ (z) = A(z)Y (z) com A(z) analı́tica no anel Az0 , a, b e seja como antes D(z, z1 ),
z, z1 ∈ Az0 , a, b , uma matriz fundamental dessa equação com uma matriz de monodromia M = e2πiΓ .
Para z1 fixo, seja S(z) a matriz definida por
S(z) = e− ln(z−z0 )Γ D(z, z1 ) .
Pelas hipóteses sobre D(z, z1 ) e pelas propriedades da função logaritmo, S(z) é analı́tica em cada setor
Sz0 , a, b (φ1 , φ2 ) com 0 < φ2 − φ1 < 2π.
Consideremos o que ocorre com S(z) quando a variável
z dá uma volta de 2π em torno de z0 , ou
seja, comparemos S(z) com10 limφ→2π S (z − z0 )eiφ + z0 . Temos que
!

lim S (z − z0 )eiφ + z0 = lim exp − ln((z − z0 )eiφ )Γ D (z − z0 )eiφ + z0 , z1
φ→2π φ→2π

− ln((z−z0 ))Γ
−iφΓ iφ

= e lim e lim D (z − z0 )e + z0 , z1
φ→2π φ→2π
= e− ln((z−z0 ))Γ e−2πiΓ M D(z, z1 )
= e− ln((z−z0 ))Γ M −1 M D(z, z1 )
= e− ln((z−z0 ))Γ D(z, z1 )
= S(z) .
Isso diz-nos que S(z) é contı́nua no anel Az0 , a, b . Como é analı́tica em cada setor Sz0 , a, b (φ2 , φ1 ) com
0 < φ2 − φ1 < 2π, concluı́mos que S(z) é analı́tica em Az0 , a, b . Se pudermos tomar o raio interno do
anel arbitrariamente pequeno, S(z) pode ser singular em z0 . Essa singularidade, porém, se houver,
será do tipo pólo ou do tipo singularidade essencial, mas não do tipo ponto de ramificação, pois isso
contrariaria o fato de S(z) ser analı́tica em qualquer anel centrado em z0 .
Resumimos nossos conclusões em forma de uma proposição.
Proposição 7.3 Seja a equação Y ′ (z) = A(z)Y (z) com A(z) matriz m × m analı́tica no anel Az0 , a, b
e seja como antes D(z, z1 ), com z, z1 ∈ Az0 , a, b , uma matriz fundamental dessa equação com matriz
de monodromia M = e2πiΓ . Então, para z1 fixo, D(z, z1 ) é da forma
D(z, z1 ) = eln(z−z0 )Γ S(z), (7.57)
onde S(z) é analı́tica no anel Az0 , a, b . Se pudermos tomar o raio interno do anel arbitrariamente
pequeno, S(z) pode ser singular em z0 , a singularidade, se houver, sendo do tipo pólo ou do tipo
singularidade essencial.
Conseqüentemente, por (7.56), cada elemento de matriz D(z, z1 )ab , para z1 fixo, é da forma
m−1
XX m
D(z, z1 )ab = (z − z0 )γl (ln(z − z0 ))k Fab
kl
(z) , (7.58)
k=0 l=1
10
Note que, para z e z0 fixos, quando φ varia de 0 a 2π os pontos (z − z0 )eiφ + z0 descrevem um cı́rculo orientado no
sentido anti-horário no plano complexo e centrado em z0 . Esse cı́rculo tem raio |z − z0 |, inicia-se e termina em z.
kl
a, b = 1, . . . , m, onde cada função Fab (z) é analı́tica no anel Az0 , a, b . Novamente, se pudermos
kl
tomar o raio interno do anel arbitrariamente pequeno, cada Fab (z) pode ser singular em z0 . Essa
singularidade, se houver, é do tipo pólo ou do tipo singularidade essencial. As constantes complexas γl
são os autovalores de Γ. Os termos com k = 0 são não-nulos. 2
E. 7.21 Exercı́cio importante. Complete os detalhes que conduzem a (7.58). 6
E. 7.22 Exercı́cio. Qual a relação entre os expoentes γl e os autovalores da matriz de monodromia M?

Sugestão: pela construção acima, os expoentes γl são os autovalores de Γ e M = e2πiΓ . 6
• O Método de Frobenius
A forma geral das matrizes fundamentais apresentada acima sugere e justifica um método de solução
para o caso de sistemas de equações lineares provenientes de uma equação diferencial ordinária de ordem
m (vide Seção 7.7):
y (m) (z) + am−1 (z)y (m−1) (z) + · · · a1 (z)y ′ (z) + a0 (z)y(z) = 0, (7.59)
onde as funções a0 (z), . . . , am−1 (z) são analı́ticas em
Az0 , b := {z ∈ C| 0 < |z − z0 | < b}.
O método consiste em procurar soluções na forma y(z) = (z − z0 )γ (ln(z − z0 ))k f (z), para algum γ ∈ C,
algum k = 0, . . . , m − 1, inteiro e f (z) analı́tica no anel Az0 , b . Como f possui uma singularidade tipo
pólo ou essencial em z0 , ela pode ser representada em Az0 , b por uma série de Laurent convergente (vide
e.g. [24]):
X∞
f (z) = cn (z − z0 )n .
n=−∞
A tarefa consiste em determinar γ ∈ C, k = 0, . . . , m − 1, e os coeficientes cn de modo que a equação

(7.59) seja satisfeita.
Esse método é conhecido como método de Frobenius11. Em certos casos esse método é muito eficaz,
fornecendo soluções para uma classe muito grande de equações diferenciais de interesse. Mais sobre ele,
adiante.
Note-se que, pela observação importante da página 365, sempre há pelo menos uma solução que
não envolve potências de ln(z − z0 ).
• Singularidades tipo pólo de S(z). Pontos Singulares Regulares
Retornando à (7.57), façamos alguns comentários sobre as singularidades de S(z) em z0 .

Como dissemos, caso z0 seja um ponto singular de A(z), a matriz S(z), sendo analı́tica em Az0 , b , ou
possui uma singularidade do tipo pólo em z0 ou uma singularidade essencial. No caso de a singularidade
11
Ferdinand Georg Frobenius (1849-1917).
ser do tipo pólo (de qualquer ordem), z0 é dito ser um ponto singular regular12 da equação Y ′ (z) =
A(z)Y (z).
No caso de z0 ser um ponto singular regular uma simplificação importante pode ser feita.
Se S(z) tem um pólo de ordem l em z0 , então S(z) = (z − z0 )−l S0 (z), onde S0 (z) é analı́tica em z0 .
Com isso, a forma geral (7.57) pode ser reescrita como
′
D(z, z1 ) = S0 (z) eln(z−z0 )Γ ,
onde Γ′ = Γ − l1.
Como se constata, é a mesma forma de (7.57), envolvendo apenas uma redefinição da matriz Γ,
sendo que agora o fator S0 (z) é uma matriz analı́tica. O ponto importante é que a conclusão (7.58)
sobre a forma geral dos elementos de matriz de D(z, z1 ) é igualmente válida, sendo que agora, porém,
kl
as funções Fab (z) são funções analı́ticas de z em z0 e não apenas no anel Az0 , b .
Nesse caso, então, o método de Frobenius discutido acima adquire o seguinte aspecto: procura-se
soluções na forma
∞
X
γ k
y(z) = (z − z0 ) (ln(z − z0 )) cn (z − z0 )n
n=0
e tenta-se determinar γ, k e os coeficientes cn de modo que a equação diferencial seja satisfeita. Esse
método é eficaz e, em muitos casos, prático, fornecendo soluções para várias equações diferenciais de
interesse na Fı́sica. Mais sobre o método de Frobenius pode ser encontrado nos bons livros sobre
equações diferenciais e Fı́sica-Matemática ou no Capı́tulo 8, com exemplos.
A questão que se coloca então é: quando ocorre que S(z) possui apenas singularidades do tipo
pólo em z0 ? A resposta depende do tipo de singularidade que a própria matriz A(z) possui em z0 .
Começaremos a discutir isso na Seção 7.6.4.
7.6.4 Sistemas com Pontos Singulares Simples

Nesta seção seguiremos muito proximamente a discussão da Seção 2 do capı́tulo V da referência [137],
cuja leitura recomendamos fortemente.
De especial importância em aplicações são equações diferenciais Y ′ (z) = A(z)Y (z) nas quais A(z)
possui um pólo simples em z0 , ou seja, A(z) é da forma A(z) = (z − z0 )−1 A0 (z), onde A0 (z) é analı́tica
em z0 . Nesse caso, em que z0 é um pólo simples de A(z), dizemos que z0 é um ponto singular simples
da equação diferencial.
Essa situação é também particularmente feliz pois, como veremos, nesse caso z0 é um ponto singular
regular. Isso é o conteúdo do seguinte teorema:
12
Comentário. A expressão “ponto singular regular” parece conter uma contradição em termos pois, na teoria das
funções de variáveis complexas, os adjetivos “singular” e “regular” são comummente empregados como antônimos. A
expressão “ponto singular regular” aparentemente provem de uma tradução imprecisa do Alemão, mas manteve-se, por
razões históricas, em várias lı́nguas. Na expressão “ponto singular regular” o adjetivo “regular” deve ser entendido no
sentido de “comum”, “ordinário”. Com isso pretende-se dizer que a singularidade em z0 não é do tipo mais grave, como
no caso de singularidades essenciais.
Teorema 7.1 Se z0 é um ponto singular simples da equação diferencial Y ′ (z) = A(z)Y (z), ou seja,
A0 (z) := (z − z0 )A(z) é analı́tica em z0 , então z0 é um ponto singular regular dessa equação, ou seja,
S(z) (definida acima) tem no máximo uma singularidade tipo pólo em z0 . 2
Prova. (Extraı́da de [137], com ligeiras modificações). Comecemos com alguns comentários prepa-
ratórios.
1. Para uma matriz complexa m×m qualquer K denotamos por kKk sua norma operatorial, definida
por
kKvkC
kKk := sup ,
v∈C , v6=0 kvkC
m
p
onde, para v = (v1 , . . . , vm ) ∈ Cm , definimos a norma vetorial kvkC := |v1 |2 + · · · + |vm |2 .
2. Para qualquer elemento ab de uma matriz K vale

v
um
uX
|Kab | ≤ t |Kcb |2 = kKeb kC ,
c=1
onde eb é o vetor da base canônica cuja b-ésima componente é 1 e as demais são nulas. Como é
óbvio, keb kC = 1. Assim,
kKeb kC kKvkC
|Kab | ≤ ≤ sup =: kKk. (7.60)
keb kC v∈Cm , v6=0 kvkC
E. 7.24 Exercı́cio. Justifique a segunda desigualdade. 6
3. Da definição da norma operatorial de uma matriz K, é evidente que vale kKvkC ≤ kKk kvkC
para qualquer vetor v. Pela definição, é bem fácil constatar desse fato que norma operatorial de
um produto de matrizes satisfaz
kKLk ≤ kKk kLk, (7.61)
para quaisquer matrizes complexas m × m K e L.
Agora passemos à demonstração do teorema. Com z, z1 ∈ Az0 , b e z1 fixo, vamos denotar D(z, z1 )
por Φ(z). Obviamente, Φ(z) satisfaz
Φ′ (z) = A(z)Φ(z) = (z − z0 )−1 A0 (z)Φ(z). (7.62)
Vamos escrever, para z ∈ Az0 , b , z = z0 + reiθ . Assim, r > 0 mede a distância de z a z0 . Vamos também
definir, para r > 0,

f (r, θ) := kΦ (z)k = Φ z0 + reiθ = D z0 + reiθ , z1 .
Temos que (abaixo z = z0 + reiθ e w = δeiθ )

∂f ∂
(r, θ) = iθ
∂r ∂r Φ z0 + re

Φ z0 + (r + δ)eiθ
− Φ z0 + reiθ

= lim
δ→0 δ

iθ iθ
Φ z0 + (r + δ)e − Φ z0 + re
= lim
δ→0 δ

por (2.27) Φ z0 + (r + δ)eiθ − Φ z0 + reiθ
≤ lim
δ→0 δ

Φ z0 + (r + δ)eiθ − Φ z0 + reiθ

= lim
δ→0 δ

Φ z + δeiθ
− Φ (z)
iθ
= e lim
δ→0 δeiθ

iθ Φ z + δeiθ
− Φ (z)
= e lim

|{z} δ→0 δeiθ
=1

Φ (z + w) − Φ (z)
= lim = kΦ′ (z)k
w→0 w
por (7.62) 1
= (z − z0 )−1 A0 (z)Φ(z) = kA0 (z)Φ(z)k
r
por (7.61) 1 1
≤ kA0 (z)k kΦ(z)k = kA0 (z)k Φ z0 + reiθ
r r
1
= kA0 (z)k f (r, θ)
r
C
≤ f (r, θ) ,
r
onde C := sup kA0 (z)k. Note-se que C é finito pois, por hipótese, A0 (z) é analı́tica em torno de z0 .
|z−z0 |<a
C
Obviamente, o fato que ∂f
∂r
(r, θ) ≤ f (r, θ) implica
r
∂f C
(r, θ) + f (r, θ) ≥ 0 .
∂r r
Obviamente, essa relação diz que

1 ∂f C
(r, θ) + ≥ 0,
f (r, θ) ∂r r
ou seja,
∂
ln r C f (r, θ) ≥ 0 .
∂r
Integrando essa expressão entre r e r1 (com 0 < r < r1 < a. Doravante, r1 estará fixo.), temos
C
r1 f (r1 , θ)
ln ≥ 0.
r C f (r, θ)
Para x positivo, ln x ≥ 0 implica x ≥ 1. Assim, r1C f (r1 , θ) ≥ r C f (r, θ). Isso implica
d
f (r, θ) ≤ ,
rC
com d := max r1C f (r1 , θ). Com o que vimos, estabelecemos que
0≤θ≤2π
d
kΦ (z)k ≤
|z − z0 |C
para todo z ∈ Az0 , b com |z − z0 | < r1 . Sabemos que S(z) = e− ln(z−z0 )Γ Φ (z). Logo, com |z − z0 | < r1 ,
d − ln(z−z )Γ
kS(z)k ≤ kΦ (z)k e− ln(z−z0 )Γ ≤ C
e 0 . (7.63)
|z − z0 |

Vamos agora concentrar-nos em e− ln(z−z0 )Γ . Como é fácil de se ver, vale para qualquer matriz B e
qualquer número complexo β

βB ∞
X β k
k X∞
|β|k k X∞
|β|k
e = 1 +

B ≤ 1+ kB k ≤ 1 + kBkk = e|β| kBk .
k! k! k!
k=1 k=1 k=1
Para qualquer número complexo w = |w|eiφ , tem-se ln w = ln |w| + iφ (vide nota-de-rodapé 9, à

página 363) e, portanto, | ln w|2 = (ln |w|)2 + (φ)2 ≤ (| ln |w|| + |φ|)2. Logo, | ln w| ≤ | ln |w|| + |φ| ≤
| ln |w|| + π. Se |w| < 1 isso pode ser escrito como
| ln w| ≤ − ln |w| + π .
Assim, escolhendo |z − z0 | < 1, teremos
− ln(z−z )Γ kΓk kΓk eπkΓk

e 0 ≤ e| ln(z−z0 )|kΓk = e| ln(z−z0 )| ≤ e− ln |z−z0| eπ = .
|z − z0 |kΓk
Retornando a (7.63), concluı́mos que para |z − z0 | < r1 e |z − z0 | < 1, tem-se
d′
kS(z)k ≤ ,
|z − z0 |p
onde p := C + kΓk ≥ 0 e d′ = deπkΓk . Logo, por (7.60), vale para cada elemento de matriz S(z)ab de
S(z)
lim |z − z0 |p |S(z)ab | ≤ d′ ,
z→z0
sendo, portanto, finito. Isso implica que para qualquer inteiro k maior que p tem-se que a matriz
(z − z0 )k S(z) é analı́tica em z0 , implicando que S(z) tem uma singularidade tipo pólo em z0 .
• Um comentário
A recı́proca do Teorema 7.1 não é verdadeira: um contra-exemplo (de [137]) sendo o caso em que

0 1
A(z) = ,
2z −2 0
que claramente tem um pólo de ordem dois em z0 = 0. Não se trata, portanto, de uma singularidade
simples. Para esse caso, porém, tem-se, para todo z, z1 ∈ Az0 , b ,
 −1 
2z z1 + z 2 z1−2 z 2 z1−1 − z −1 z12
1
D(z, z1 ) =   .
3 −2 −2 −1 −2 2
2(zz1 − z z1 ) 2zz1 + z z1
Claramente z0 = 0 é um ponto singular regular, já que D(z, z1 ) tem um pólo de ordem 2 em z0 = 0.
∂
E. 7.27 Exercı́cio. Para A e D dados acima, verifique que ∂z D(z, z1 ) = A(z)D(z, z1 ) e que
D(z1 , z1 ) = 1. Verifique que a matriz de monodromia de D(z, z1 ) é 1. 6
• A forma geral das soluções no caso de singularidades simples
A conclusão mais importante do Teorema 7.1, página 369, diz respeito à forma geral das soluções
de equações com pontos singulares simples. Resumimos tudo no seguinte teorema.
Teorema 7.2 Seja a equação Y ′ (z) = A(z)Y (z) com A(z) matriz m × m analı́tica no anel Az0 , b
(para algum b > 0), z0 sendo um ponto singular simples dessa equação diferencial, ou seja, A0 (z) :=
(z − z0 )A(z) é analı́tica em z0 . Seja como antes D(z, z1 ), z, z1 ∈ Az0 , b , uma matriz fundamental
dessa equação com matriz de monodromia M = e2πiΓ . Então, para z1 fixo, D(z, z1 ) é da forma
D(z, z1 ) = eln(z−z0 )Γ S(z), onde S(z) é analı́tica no anel Az0 , b e tem no máximo uma singularidade
tipo pólo em z0 . Isso significa que S(z) é da forma S(z) = (z − z0 )−l S0 (z), para algum inteiro l ≥ 0,
onde S0 é analı́tica em z0 . Com isso, definindo Γ′ = Γ − l1, concluı́mos que D(z, z1 ) é da forma
′
D(z, z1 ) = eln(z−z0 )Γ S0 (z) , (7.64)
Conseqüentemente, cada elemento de matriz D(z, z1 )pq , para z1 fixo, é da forma

m−1
XX m
D(z, z1 )pq = (z − z0 )γl (ln(z − z0 ))k Fpq
kl
(z) , (7.65)
k=0 l=1
kl
p, q = 1, . . . , m, onde as funções Fpq (z) são analı́ticas em z0 , podendo, portanto, ser expressas por
séries de Taylor centradas nesse ponto. As constantes complexas γl são os autovalores de Γ′ . Os termos
com k = 0 são não-nulos. 2
7.7 Sistemas Provenientes de EDOs de Ordem m

Considere-se a equação diferencial linear homogênea complexa de ordem m
y (m) (z) + am−1 (z)y (m−1) (z) + · · · a1 (z)y ′ (z) + a0 (z)y(z) = 0, (7.66)
onde as m funções a0 , . . . , am−1 são analı́ticas em um domı́nio aberto simplesmente conexo comum D.
É fácil constatar (faça!) que essa equação equivale ao sistema
Y ′ (z) = A(z)Y (z),
onde  
y(z)
 
y ′ (z)
 
Y (z) :=   .. (7.67)
  .
(m−1)
y (z)
e A(z) é a matriz m × m
 
0 1 0 0 ··· 0
 
 
 0 0 1 0 ··· 0 
 
 
 .. .. .. 
 .. .. .. 
 . . . . . . 
 
A(z) :=   , (7.68)
 .. 
 0 0 0 . 1 0 
 
 
 
 0 0 0 ··· 0 1 
 
 
−a0 (z) −a1 (z) −a2 (z) ··· −am−2 (z) −am−1 (z)
a qual é analı́tica em D, por assim o serem as funções a0 , . . . , am−1 , em cujo caso aplicam-se as
conclusões supra-citadas, ou seja, a solução y(z) é igualmente analı́tica em D. Para futura referência
coletamos essa conclusão no seguinte teorema
Teorema 7.3 Seja a equação diferencial linear homogênea complexa de ordem m
y (m) (z) + am−1 (z)y (m−1) (z) + · · · a1 (z)y ′ (z) + a0 (z)y(z) = 0
e suponhamos que as funções a0 , . . . , am−1 são todas analı́ticas em um domı́nio aberto e simplesmente
conexo D. Então as soluções da equação são igualmente analı́ticas em D. Em particular, se D contiver
um disco aberto Daz0 := {z ∈ C| |z − z0 | < a}, centrado em z0 e de raio a > 0, então as soluções da
equação podem ser expressas em termos de uma série de potências
∞
X
y(z) = cn (z − z0 )n ,
n=0
a qual converge (absolutamente) pelo menos no disco aberto Daz0 , ou seja, pelo menos para todo z ∈ C
tal que |z − z0 | < a. 2
7.7.1 Pontos Singulares Simples em EDO’s de Ordem m
• Introdução e motivação
Seja o sistema de equações Y ′ (z) = A(z)Y (z) procedente de uma EDO linear complexa homogênea
de ordem m como (7.66), com Y (z) como em (7.67) e A(z) dada em (7.68), definida em um domı́nio
D do plano complexo. Seja também z0 ∈ D.
Vamos supor que z0 seja um ponto singular de A(z), ou seja, A(z) não é analı́tica em z = z0 . É
bastante claro que se as funções ak (z), k = 0, . . . , m − 1, tiverem no máximo um pólo de ordem 1 em
z0 = 0, ou seja, se as funções (z − z0 )ak (z), k = 0, . . . , m − 1, forem todas analı́ticas em z0 , então z0
será um ponto singular regular de Y ′ (z) = A(z)Y (z), pois, teremos Y ′ (z) = (z − z0 )−1 A0 (z)Y (z), onde
A0 (z) := (z − z0 )A(z) é analı́tica em z0 . Assim, nesse caso, valeriam todas as importantes conclusões
a que chegamos na Seção 7.6.4, página 368, especialmente aquelas expressas no Teorema 7.2, página
373.
Sucede que há condições ainda menos restritivas sobre as funções ak (z), k = 0, . . . , m − 1, para as
quais as importantes conclusões sobre a forma geral da solução, expressas no Teorema 7.2, também se
aplicam. A saber, tal é o caso se as funções (z − z0 )m−k ak (z), k = 0, . . . , m − 1, forem todas analı́ticas
em z0 , ou seja, se cada função ak (z) tiver no máximo um pólo de ordem m − k em z0 .
No que segue iremos primeiramente justificar as afirmativas do último parágrafo para depois extrair
as conclusões pertinentes. Esse caminho nos conduzirá a uma noção mais abrangente do conceito de
ponto singular simples de equações diferenciais lineares complexas homogêneas de ordem m como (7.66).
• A noção de ponto singular simples para EDOs de ordem m
Seja então Y ′ (z) = A(z)Y (z) com Y (z) como em (7.67) e com A(z) dada em (7.68), definida em
um domı́nio aberto e simplesmente conexo D com z0 ∈ D. Vamos definir um novo vetor coluna
Ỹ (z) := E(z)Y (z),

onde E(z) é a matriz diagonal m × m

 
1 0 0 ··· 0 0
 
 
0 (z − z0 ) 0 ··· 0 0 
 
 
 
 . 
0 0 (z − z0 )2 . . 0 0 
 
E(z) :=   , (7.69)
. .. .. .. .. .. 
 .. . . . . . 
 
 
 
0 0 0 · · · (z − z0 )m−2 0 
 
 
0 0 0 ··· 0 (z − z0 )m−1
ou seja, E(z) é a matriz diagonal com E(z)kk = (z − z0 )k−1, 1 ≤ k ≤ m.

O porquê de procedermos essa mudança de Y para Ỹ através dessa matriz E ficará claro logo
abaixo. Diferenciando-se Ỹ (z), teremos, para z 6= z0 ,
Ỹ ′ (z) = E(z)Y ′ (z) + E ′ (z)Y (z)
= E(z)A(z)Y (z) + E ′ (z)E(z)−1 Ỹ (z)
= E(z)A(z)E(z)−1 Ỹ (z) + E ′ (z)E(z)−1 Ỹ (z),
ou seja, definindo h i
Ã(z) := (z − z0 ) E(z)A(z)E(z)−1 + E ′ (z)E(z)−1 , (7.70)
obtemos,
Ỹ ′ (z) = (z − z0 )−1 Ã(z)Ỹ (z). (7.71)
Para prosseguirmos (e para finalmente entendermos por que fizemos a mudança de Y para Ỹ ), é
muito importante calcularmos explicitamente a matriz Ã(z) definida acima.
E. 7.28 Exercı́cio muito importante. Calcule explicitamente a matriz Ã(z) definida acima. Use (7.70),
(7.68) e (7.69). 6
O resultado é
 
0 1 0 ··· 0 0 0
 
 
 0 1 1 0 0 0 
 
 
 
 .. 
 0 0 2 . 0 0 0 
 
 
 .. .. .. .. .. 
Ã(z) =  . . . . .  ,
 
 
 
 0 0 0 m−3 1 0 
 
 
 
 0 0 0 ··· 0 m−2 1 
 
 
b0 (z) b1 (z) b2 (z) ··· bm−3 (z) bm−2 (z) bm−1 (z)
onde
b0 (z) := −(z − z0 )m a0 (z),
b1 (z) := −(z − z0 )m−1 a1 (z),
b2 (z) := −(z − z0 )m−2 a2 (z),
..
.
bm−2 (z) := −(z − z0 )2 am−2 (z),
bm−1 (z) := −(z − z0 )am−1 (z) + (m − 1).
Como exemplo, tem-se no caso de particular interesse fı́sico das equações de segunda ordem
y ′′ (z) + a1 (z) y ′ (z) + a0 (z) y(z) = 0

 
y(z)
1 0
que E(z) = , Ỹ (z) =  , e
0 z − z0 ′
(z − z0 )y (z)
 
0 1
Ỹ ′ (z) = (z − z0 )−1 Ã(z)Ỹ (z), com Ã(z) =  .
2
−(z − z0 ) a0 (z) −(z − z0 )a1 (z) + 1
De volta ao caso geral, vemos que se as funções bk (z), 0 ≤ k ≤ m − 1, forem todas analı́ticas em
torno de z0 , então Ã(z) será analı́tica em torno de z0 e, portanto, o sistema (7.71) será um sistema com
um ponto singular simples em z0 . Coloquemos, assim, a seguinte definição:
Definição. Seja a equação diferencial linear homogênea complexa de ordem m
y (m) (z) + am−1 (z)y (m−1) (z) + · · · a1 (z)y ′ (z) + a0 (z)y(z) = 0. (7.72)
Um ponto z0 ∈ C é dito ser um ponto singular simples, ou ponto singular regular dessa equação se pelo
menos uma das funções ak (z) for singular em z0 mas de modo que todas as funções (z − z0 )m−k ak (z),
k = 0, . . . , m − 1, sejam analı́ticas em z0 . Isso significa que cada função ak (z) ou é analı́tica em z0 ou
tem um pólo em z0 cuja ordem deve no máximo ser m − k, sendo que supostamente pelo menos uma
das funções ak (z) é singular em z0 .
Isso significa que um ponto z0 é um ponto singular simples se A(z) não é analı́tica em z = z0 mas
se Ã(z) é analı́tica em z = z0 .
Assim, por exemplo, dizemos que z0 é um ponto singular simples da equação de segunda ordem (ou
seja, para m = 2) dada por y ′′(z) + a1 (z) y ′(z) + a0 (z) y(z) = 0 se a0 (z) tiver um pólo de ordem no
máximo 2 em z0 ou se a1 (z) tiver um pólo de ordem no máximo 1 em z0 , ou ambos. Vários exemplos
são apresentados e discutidos na Seção 7.7.3.
No caso de z0 ser um ponto singular simples de uma equação como (7.72), aplicam-se os resultados
da Seção 7.6.4, página 368, às soluções de (7.71). Discutiremos adiante as implicações deste fato.
• Soluções de equações com pontos singulares simples
Unindo as observações acima com o Teorema 7.2 chegamos à seguinte importante conclusão.
Teorema 7.4 Seja a equação diferencial linear homogênea complexa de ordem m
y (m) (z) + am−1 (z)y (m−1) (z) + · · · a1 (z)y ′ (z) + a0 (z)y(z) = 0
e seja z0 um ponto singular simples dessa equação, ou seja pelo menos uma das funções ak (z) é singular
em z0 mas de modo que todas as funções (z − z0 )m−k ak (z), k = 0, . . . , m − 1, sejam analı́ticas em z0 .
Então as soluções da equação diferencial são combinações lineares de soluções da forma
yγ, k (z) = (z − z0 )γ (ln(z − z0 ))k fγ, k (z),
para certos γ ∈ C, k = 0, . . . , m − 1 e fγ, k analı́tica em torno de z0 .

Por fim, pela observação importante da página 365, sempre há pelo menos uma solução que não
envolve potências de ln(z − z0 ), ou seja, há sempre pelo menos uma solução com k = 0. 2
• A equação de Euler
Um exemplo-protótipo de uma equação com um ponto singular simples é a equação de Euler de

ordem m:
z m y (m) (z) + z m−1 bm−1 y (m−1) (z) + · · · zb1 y ′ (z) + b0 y(z) = 0 ,
onde bm−1 , . . . , b0 são constantes. Nesse caso tem-se
bm−1 bm−2 b0
am−1 (z) = , am−2 (z) = , ..., a0 (z) =
z z2 zm
e, claramente, essa equação possui um ponto singular simples em z0 = 0. No caso m = 2 a equação de

Euler é
z 2 y ′′ (z) + zb1 y ′ (z) + b0 y(z) = 0 ,
cujas soluções são, caso (1 − b1 )2 − 4b0 6= 0,
y(z) = αz γ+ + βz γ− (7.73)
onde p
1 − b1 ± (1 − b1 )2 − 4b0
γ± =
2
ou, caso (1 − b1 )2 − 4b0 = 0,
y(z) = αz γ0 + β ln(z) z γ0 (7.74)
onde
1 − b1
γ0 = .
2
Acima, α e β são constantes arbitrárias. Essas soluções ilustram as afirmações do Teorema 7.4.
E. 7.29 Exercı́cio importante. Verifique todas as afirmações feitas acima. 6
• Um Teorema de Fuchs
Há um importante teorema, devido a Fuchs, que estabelece uma recı́proca do Teorema 7.4: se toda
y (m) (z) + am−1 (z)y (m−1) (z) + · · · + a1 (z)y ′ (z) + a0 (z)y(z) = 0 (7.75)
for uma combinação linear de funções da forma (z − z0 )γ (ln(z − z0 ))k fγ, k (z), para certos γ ∈ C,
k = 0, . . . , m − 1 e fγ, k analı́ticas em torno de z0 , então z0 é um ponto singular simples de (7.75), ou
seja, todas as funções (z − z0 )m−k ak (z), k = 0, . . . , m − 1, são analı́ticas em z0 . Uma demonstração
pode ser encontrada em [137].
7.7.2 Singularidades no Infinito

Seja a equação diferencial linear homogênea complexa de ordem m
y (m) (z) + am−1 (z)y (m−1) (z) + · · · a1 (z)y ′ (z) + a0 (z)y(z) = 0.
Em muitas situações deseja-se estudar o comportamento dessas equações e suas soluções para |z| ten-
dendo a infinito e, para tal, presta-se muitas vezes estudar propriedades das soluções como funções de
1/z. Com isso poderı́amos, por exemplo, perguntar-nos se a solução pode ser expressa em termos de
uma série de potências em 1/z etc., e usar os métodos já discutidos para obter essa expansão, caso ela
exista, e, dessa forma, conhecer a solução para |z| grande.
Por simplicidade limitaremos nossa discussão a equações de segunda ordem13
y ′′ (z) + a1 (z) y ′ (z) + a0 (z) y(z) = 0. (7.76)
13
Para uma discussão mais geral, vide [137] ou [68].
Façamos a mudança de variáveis w = 1/z. Definindo u(w) = y(z) = y(1/w), teremos

′′ 2 a1 (1/w) a0 (1/w)
u (w) + − 2
u′ (w) + u(w) = 0. (7.77)
w w w4
E. 7.30 Exercı́cio. Confira. 6
Chamaremos essa equação “versão no infinito” da equação (7.76). Claramente essa equação equivale
a
U ′ (w) = C(w)U(w),
com
u(w) 0 1
U(w) := , C(w) := ,
u′ (w) −c0 (w) −c1 (w)
onde
a0 (1/w)
c0 (w) := ,
w4
2 a1 (1/w)
c1 (w) := − .
w w2
Analogamente ao que fizemos anteriormente, podemos transformar esse sistema no sistema equiva-
lente
1
Ũ ′ (w) = C̃(w)Ũ(w),
w
onde
Ũ(w) := E(w)U(w), C̃(w) := w E(w)C(w)E(w)−1 + E ′ (w)E(w)−1 ,
 
u(w)
1 0
com E(w) = , Ũ (w) =  e
0 w
wu′(w)
 
  0 1
0 1  
C̃(w) =   =  
1 .
 a0 w1
a1 w
−w 2 c0 (w) −wc1 (w) + 1 − −1 +
w2 w
Por analogia com nossas noções prévias, façamos as seguintes definições:
1. Diremos que a equação (7.76) é uma equação analı́tica no infinito se C(w) for analı́tica em torno
de w = 0.
2. Diremos que a equação (7.76) tem uma singularidade no infinito se C(w) não for analı́tica em
torno de w = 0.
3. Diremos que a equação (7.76) tem uma singularidade simples no infinito (ou que z0 = ∞ é um
ponto singular simples de (7.76)) se C(w) não for analı́tica em torno de w = 0 mas C̃(w) o for,
ou seja, se c0 (w) tiver um pólo de ordem no máximo 2 em w = 0 ou se c1 (w) tiver um pólo de
ordem no máximo 1 em w = 0, ou ambos.
Vários exemplos são discutidos na Seção 7.7.3.
7.7.3 Alguns Exemplos de Interesse

Nesta seção analisaremos algumas equações diferenciais de importância na Fı́sica-Matemática previa-
mente mencionadas na Seção 5.1.2, página 283, à luz do que discutimos neste capı́tulo.
E. 7.31 Exercı́cio importante. Complete os detalhes de todos os cálculos apresentados nos exemplos
que seguem. 6
1. A equação de segunda ordem com coeficientes constantes
y ′′(z) + by ′ (z) + cy(z) = 0,
onde b e c são constantes, corresponde a

 
0 1
A(z) =  .
−c −b
Assim, a equação é regular em todo z0 ∈ C.

Ponto no infinito. A versão no infinito da equação de segunda ordem com coeficientes constantes
é
′′ 2 b c
u (w) + − 2 u′ (w) + 4 u(w) = 0.
w w w
Claramente, z0 = ∞ é um ponto singular irregular da equação de segunda ordem com coeficientes
constantes, exceto no caso em que b = c = 0, onde z0 = ∞ é um ponto singular regular.
2. A equação de Euler
z 2 y ′′ (z) + az y ′ (z) + b y(z) = 0,
ou seja,
a ′ b
y ′′(z) + y (z) + 2 y(z) = 0,
z z
onde a e b são constantes, corresponde a
 
0 1
 
A(z) =  .
b a
− 2 −
z z
Para z0 = 0 tem-se  
0 1
Ã(z) =   .
−b −a + 1
Assim, z0 = 0 é um ponto singular simples da equação de Euler, exceto se a = b = 0, em cujo
caso z0 = 0 é um ponto regular.
Ponto no infinito. A versão no infinito da equação de Euler é

2−a ′ b
u′′(w) + u (w) + 2 u(w) = 0 .
w w
Claramente, z0 = ∞ é um ponto singular simples da equação de Euler, exceto se a = 2 e b = 0,
em cujo caso z0 = ∞ é um ponto regular.
3. A equação de Bessel
z 2 y ′′ (z) + z y ′(z) + (z 2 − ν 2 ) y(z) = 0,
ou seja,
′′ 1 ′ ν2
y (z) + y (z) + 1 − 2 y(z) = 0,
z z
onde ν ∈ R, corresponde a
 
0 1
 
A(z) =  2 .
ν 1
−1 −
z2 z
Para z0 = 0 tem-se  
0 1
Ã(z) =  .
ν 2 − z2 0
Assim, z0 = 0 é um ponto singular simples da equação de Bessel.
Ponto no infinito. A versão no infinito da equação de Bessel é

′′ 1 ′ 1 ν2
u (w) + u (w) + − u(w) = 0.
w w4 w2
Claramente, c0 tem um pólo de ordem 4 em w = 0. Assim, z0 = ∞ é um ponto singular irregular
da equação de Bessel.
4. A equação de Legendre
(1 − z 2 ) y ′′(z) − 2z y ′ (z) + λ(λ + 1) y(z) = 0,
ou seja,
2z λ(λ + 1)
y ′′(z) − 2
y ′(z) + y(z) = 0,
1−z 1 − z2
onde λ ∈ C, corresponde a
 
0 1
 
A(z) =  .
λ(λ + 1) 2z
−
1 − z2 1 − z2
Claramente percebe-se que a equação de Legendre é analı́tica no domı́nio simplesmente conexo

D formado pelo disco aberto de raio 1: D = {z ∈ C : |z| < 1}. Concluı́mos que as soluções da
equação de Legendre são analı́ticas nesse domı́nio D.
Os pontos z0 = ±1 são pontos singulares da equação de Legendre.

Para z0 = 1 teremos  
0 1
 
Ã(z) =  ,
λ(λ + 1)(z − 1) 1−z
1+z 1+z
que é analı́tica em z0 = 1.
Para z0 = −1 teremos  
0 1
 
Ã(z) =  ,
λ(λ + 1)(z + 1) 1+z
z−1 1−z
que é analı́tica em z0 = −1.
Vemos então que os pontos z0 = ±1 são pontos singulares simples da equação de Legendre.
Ponto no infinito. A versão no infinito da equação de Legendre é

′′ 2w ′ 1 λ(1 + λ)
u (w) + u (w) + 2 u(w) = 0.
w2 − 1 w w2 − 1
Claramente, z0 = ∞ é um ponto singular simples da equação de Legendre.
5. A equação de Hermite
y ′′ (z) − 2z y ′ (z) + λ y(z) = 0,
onde λ ∈ R, corresponde a
0 1
A(z) = .
−λ 2z
Concluı́mos que a equação de Hermite é analı́tica em todo o plano complexo, assim sendo também
as suas soluções.
Ponto no infinito. A versão no infinito da equação de Hermite é

′′ 2 2 λ
u (w) + + 3 u′ (w) + 4 u(w) = 0.
w w w
Claramente, c0 tem um pólo de ordem 4 em w = 0 e c1 tem um pólo de ordem 3 em w = 0.

Assim, z0 = ∞ é um ponto singular irregular da equação de Hermite.
6. A equação de Airy
y ′′ (z) − z y(z) = 0.
corresponde a
0 1
A(z) = .
z 0
Concluı́mos que a equação de Airy é analı́tica em todo o plano complexo, assim sendo também
as suas soluções.
Ponto no infinito. A versão no infinito da equação de Airy é

2 ′ 1
u′′ (w) + u (w) − 5 u(w) = 0.
w w
Claramente, c0 tem um pólo de ordem 5 em w = 0. Assim, z0 = ∞ é um ponto singular irregular
da equação de Airy.
7. A equação de Laguerre
zy ′′ (z) + (1 − z) y ′ (z) + λ y(z) = 0,
ou seja,
′′ 1 λ
y (z) + −1 y ′(z) + y(z) = 0,
z z
onde λ ∈ R, corresponde a  
0 1
 
A(z) =  .
λ 1
− 1−
z z
0 1
Ã(z) =  .
−λz z
Assim, z0 = 0 é um ponto singular simples da equação de Laguerre.
Ponto no infinito. A versão no infinito da equação de Laguerre é

′′ 1 1 λ
u (w) + + 2 u′ (w) + 3 u(w) = 0.
w w w
Assim, z0 = ∞ é um ponto singular irregular da equação de Laguerre.
8. A equação de Chebyshev
(1 − z 2 ) y ′′(z) − z y ′ (z) + λ2 y(z) = 0,
ou seja,
z λ2
y ′′ (z) − y ′
(z) + y(z) = 0,
1 − z2 1 − z2
onde λ ∈ R, corresponde a
 
0 1
 
A(z) =  .
λ z
−
1 − z2 1 − z2
Claramente percebe-se que a equação de Chebyshev é analı́tica no domı́nio simplesmente conexo
D formado pelo disco aberto de raio 1: D = {z ∈ C : |z| < 1}. Concluı́mos que as soluções da
equação de Chebyshev são analı́ticas nesse domı́nio D.
Os pontos z0 = ±1 são pontos singulares da equação de Chebyshev.

0 1
 
Ã(z) =  ,
λ(z − 1) 1
1+z 1+z
Para z0 = −1 teremos  
0 1
 
Ã(z) =  ,
λ(z + 1) 1
z−1 1−z
que é analı́tica em z0 = −1.
Vemos então que os pontos z0 = ±1 são pontos singulares simples da equação de Chebyshev.
Ponto no infinito. A versão no infinito da equação de Chebyshev é

′′ 1 1 ′ 1 λ2
u (w) + 2− u (w) + 2 u(w) = 0.
w 1 − w2 w w2 − 1
Claramente, z0 = ∞ é um ponto singular simples da equação de Chebyshev.
9. A equação hipergeométrica
z(1 − z) y ′′ (z) + [c − (1 + a + b)z] y ′ (z) − ab y(z) = 0,
ou seja,
′′ c − (1 + a + b)z ab
y (z) + y ′(z) − y(z) = 0,
z(1 − z) z(1 − z)
com a, b, c constantes, corresponde a
 
0 1
 
A(z) = 

.
ab (1 + a + b)z − c 
z(1 − z) z(1 − z)
Seus pontos singulares são z0 = 0 e z0 = 1.

0 1
 
Ã(z) =  ,
abz (a + b)z − c + 1
1−z 1−z
0 1
 
Ã(z) =  ,
ab(z − 1) −(a + b)z + c
−
z z
Assim, z0 = 0 e z0 = 1 são pontos singulares simples da equação hipergeométrica.
Ponto no infinito. A versão no infinito da equação hipergeométrica é

′′ 1 (2 − c)w + a + b − 1 ab
u (w) + u′ (w) − 2 u(w) = 0.
w w−1 w (w − 1)
Claramente, z0 = ∞ é um ponto singular simples da equação hipergeométrica.
10. A equação hipergeométrica confluente
z y ′′(z) + [c − z] y ′ (z) − a y(z) = 0,
ou seja, c
′′ a
y (z) + − 1 y ′ (z) − y(z) = 0,
z z
com a, c constantes, corresponde a
 
0 1
 
A(z) =  a c.
1−
z z
0 1
Ã(z) =  ,
az z−c+1
que é analı́tica em z0 = 0. Assim, z0 = 0 é um ponto singular simples da equação de hiper-
geométrica confluente.
Ponto no infinito. A versão no infinito da equação hipergeométrica confluente é

′′ 2−c 1 a
u (w) + + 2 u′ (w) − 3 u(w) = 0.
w w w

Assim, z0 = ∞ é um ponto singular irregular da equação hipergeométrica confluente.
7.8 Equações Fuchsianas. Sı́mbolos de Riemann

Nesta seção apresentaremos propriedades das chamadas equações Fuchsianas (definidas abaixo), mas
nos restringiremos às equações de primeira e de segunda ordem por serem de maior interesse (especial-
mente as de segunda ordem). Para um tratamento mais abrangente, vide [68]. O estudo das equações
Fuchsianas despertou grande interesse na Matemática da segunda metade do Século XIX e do inı́cio do
Século XX, tendo alimentado muitos desenvolvimentos na teoria das funções de variáveis complexas.
Esta seção é dispensável para o estudo do material que segue nos capı́tulos seguintes, mas pode
servir, em uma segunda leitura, para esclarecer a relevância das equações hipergeométricas no contexto
das equações diferenciais lineares de segunda ordem no plano complexo.
• Equações Fuchsianas
Uma equação diferencial linear de ordem n é dita ser uma equação Fuchsiana14 se possuir um número
finito de pontos singulares, todos simples (incluindo eventualmente, mas não necessariamente, um ponto
singular simples no infinito). A equação Euler, a equação de Legendre e a equação hipergeométrica
são exemplos de equações Fuchsianas (vide Seção 7.7.3, acima). Equações com tal propriedade podem
ser resolvidas em todo o plano complexo pelo método de Frobenius, através de expansões em torno
dos pontos singulares simples. Além disso, equações Fuchsianas possuem algumas de propriedades de
transformação que facilitam seu estudo. Por exemplo, toda equação Fuchsiana de segunda ordem com
exatamente três pontos singulares pode ser transformada em uma equação hipergeométrica. Equações
Fuchsianas podem ser classificadas de forma mais ou menos sistemática de acordo com o número de
singularidades e é nosso propósito fazer essa classificação de modo a obter a forma geral de equações
Fuchsianas de primeira e de segunda ordem com uma, duas ou três singularidades (que, no caso de
equações de segunda ordem, correspondem à maioria das equações encontradas em aplicações).
7.8.1 Equações Fuchsianas de Primeira Ordem

Como pré-aquecimento consideremos as equações de primeira ordem. Seja a equação diferencial
y ′ (z) + a0 (z) y(z) = 0 (7.78)
e sua versão no infinito

u′(w) + b0 (w)u(w) = 0 , (7.79)
onde w = 1/z, u(w) = y(z) = y(1/w) e
a0 (1/w)
b0 (w) := − .
w2
No que segue vamos procurar a forma geral de uma tal equação que possua um certo número
de singularidades, todas simples, ou seja, de modo que a equação seja Fuchsiana. Começamos nos
perguntando se há equações sem quaisquer pontos singulares, nem no infinito.
14
Lazarus Immanuel Fuchs (1833-1902).
• Equações sem pontos singulares
Se (7.78) não possui pontos singulares finitos, então a0 (z) é uma função inteira de z (ou seja, é
X∞
(n)
analı́tica em toda parte) e, portanto, possui uma série de Taylor centrada em 0: a0 (z) = α0 z n ,
n=0
convergente para todo z ∈ C. Com isso vemos que
∞
X (n) 1
b0 (w) = − α0 (7.80)
n=0
w n+2
que convege para todo w ∈ C, w 6= 0. Para que (7.78) também não possua uma singularidade no
(n)
infinito, é necessário e suficiente que b0 seja analı́tica em 0. Isso só é possı́vel se α0 = 0 para todo n,
ou seja, se a0 for identicamente nula. Assim, a equação y ′ (z) = 0, cuja versão no infinito é u′ (w) = 0,
é a única equação diferencial de primeira ordem sem qualquer singularidade. Como veremos na Seção
7.8.2, não há equações de segunda ordem com essa caracterı́stica.
• Equações com apenas um ponto singular simples no infinito
De (7.80) vemos também que não existem equações de primeira ordem que sejam regulares em toda
parte mas possuam uma singularidade simples no infinito. De fato, vemos por (7.80) que b0 tem um
pólo de ordem maior ou igual a dois em w = 0 e não de primeira ordem, como seria necessário para
que a singularidade no infinito fosse simples.
• Equações Fuchsianas de primeira ordem. Caso geral
Consideremos agora o caso geral em que (7.78) é Fuchsiana e seus pontos singulares finitos são um
subconjunto de {z1 , . . . , zk } formado por k ≥ 1 pontos distintos. Isso significa que a0 (z) tem no
máximo um polo de ordem 1 nos pontos z1 , . . . zk com k ≥ 1, sendo portanto da forma
c0 (z)
a0 (z) = ,
(z − z1 ) · · · (z − zk )
onde c0 é uma função inteira de z (para que um certo za seja de fato singular simples é necessário que
c0 não tenha um zero em za ). Obtemos disso que
w k−2c0 (1/w)
b0 (w) = −
(1 − wz1 ) · · · (1 − wzk )
∞
X (n)
Como função inteira, c0 possui uma expansão de Taylor centrada em 0: c0 (z) = γ0 z n , a qual
n=0
converge para todo z ∈ C. Assim, obtemos
∞
X (n) 1
γ0
n=0
w n−k+2
b0 (w) = − . (7.81)
(1 − wz1 ) · · · (1 − wzk )
Para que o ponto no infinito seja regular é necessário e suficiente que b0 (w) seja analı́tica em w = 0.
1 (n)
Pelo fato de (1−wz1 )···(1−wz k)
ser analı́tica em w = 0, isso requer que γ0 = 0 para todo n > k − 2. Para
k = 1 isso requer que a0 e b0 sejam identicamente nulas, não havendo, então, qualquer singularidade.
Para k ≥ 2 isso requer que a0 (z) e b0 (w) sejam da forma
k−2
X (n)
γ0 z n
n=0
a0 (z) =
(z − z1 ) · · · (z − zk )
e
k−2
X k−2
X
(n) 1 (k−2−n)
γ0 γ0 wn
n=0
w n−k+2 n→k−2−n n=0
b0 (w) = − = − .
(1 − wz1 ) · · · (1 − wzk ) (1 − wz1 ) · · · (1 − wzk )
Retornando a (7.81), para que o ponto no infinito seja singular simples é necessário que b0 (w) tenha
(n)
um pólo simples em w = 0. Uma condição necessária e suficiente para tal é que γ0 = 0 para todo
(k−1)
n > k − 1 com γ0 6= 0. Nesse caso a0 e b0 são da forma
k−1
X (n)
γ0 z n
n=0
a0 (z) =
(z − z1 ) · · · (z − zk )
e
k−1
X k−1
X
(n) 1 (k−1−n)
γ0 γ0 w n−1
n=0
w n−k+2 n→k−1−n n=0
b0 (w) = − = − ,
(1 − wz1 ) · · · (1 − wzk ) (1 − wz1 ) · · · (1 − wzk )
ou seja
(k−1) k−1
X
γ0 (k−1−n)
+ γ0 w n−1
w n=1
b0 (w) = − .
(1 − wz1 ) · · · (1 − wzk )
• Analisando alguns casos explı́citos
Analisemos o que ocorre concretamente para k = 1 e k = 2.
(n)
1. Caso k = 1. Nessa situação a equação será analı́tica no infinito apenas se γ0 = 0 para todo
n > −1, ou seja, se c0 for identicamente nula. Assim, a0 e b0 são também identicamente nulas e
as equações reduzem-se a y ′ (z) = 0 e u′ (w) = 0 e não há quaisquer singularidades.
Para que (7.78) tenha uma singularidade simples no infinito e outra singularidade simples em z1
devemos ter
(0) (0)
γ0 γ0
a0 (z) = e b0 (w) = − .
(z − z1 ) w(1 − wz1 )
Assim, a única equação Fuchsiana com uma singularidade simples em z1 e uma singularidade
simples no infinito é da forma
(0) (0)
′ γ0 ′ γ0
y (z) + y(z) = 0 , cuja versão no infinito é u (w) − u(w) = 0 . (7.82)
(z − z1 ) w(1 − wz1 )
(n)
2. Caso k = 2. Para que a equação seja regular no infinito devemos ter γ0 = 0 para todo n > 0.
Assim, nesse caso a0 e b0 serão da forma
(0) (0)
γ0 γ0
a0 (z) = e b0 (w) = − .
(z − z1 )(z − z2 ) (1 − wz1 )(1 − wz2 )
Assim, a forma geral de uma equação de primeira ordem regular no infinito e com exatamente
dois pontos singulares simples em z1 e z2 é
(0) (0)
′ γ0 γ0
y (z)+ y(z) = 0 , cuja versão no infinito é u′ (w)− u(w) = 0.
(z − z1 )(z − z2 ) (1 − wz1 )(1 − wz2 )
Para que a equação tenha um ponto singular simples no infinito devemos ter
(1)
γ0 (0)
(0)
γ0
+
(1)
γ0 z γ0 +
a0 (z) = e b0 (w) = − w .
(z − z1 )(z − z2 ) (1 − wz1 )(1 − wz2 )
Concluı́mos que a forma geral de uma equação Fuchsiana com um ponto singular simples no
infinito e no máximo dois pontos singulares simples em z1 e z2 ∈ C é
(0) (1)
′ γ0 + γ0 z
y (z) + y(z) = 0 ,
(z − z1 )(z − z2 )
cuja versão no infinito é
(1) (0)
′ γ0 + γ0 w
u (w) − u(w) = 0 .
w(1 − wz1 )(1 − wz2 )
(0) (1)
Caso γ0 = −γ0 z2 essas equações ficam
(1) (1)
γ0 γ0
y ′ (z) + y(z) = 0 , e u′(w) − u(w) = 0
(z − z1 ) w(1 − wz1 )
e agora z2 não é mais uma singularidade da equação diferencial. Essas equações tem a mesma
forma de (7.82), o que não é de surpreender pois aqui temos apenas singularidades simples em z1
e no infinito.
Para futura referência resumamos os resultados obtidos até o momento na forma de uma proposição.
Proposição 7.4 Para a equação diferencial linear de primeira ordem no plano complexo
y ′ (z) + a0 (z)y(z) = 0 (7.83)
valem as seguintes afirmações:
I. Para que (7.83) não tenha qualquer singularidade finita ou no infinito é necessário e suficiente
que seja da forma y ′ (z) = 0, cuja versão no infinito é u′ (w) = 0.
II. Não há equações Fuchsianas de primeira ordem como (7.83) que tenham apenas uma singulari-
dade simples, finita ou no infinito.
III. Para que (7.83) seja Fuchsiana tendo uma singularidade simples em z1 e outra no infinito é
necessário e suficiente que seja da forma
(0) (0)
γ0 γ0
y ′ (z) + y(z) = 0 , cuja versão no infinito é u′ (w) − u(w) = 0
(z − z1 ) w(1 − wz1 )
(0)
com γ0 6= 0.
IV. Para que (7.83) seja Fuchsiana, tendo o infinito como ponto regular e no máximo k singularidades
simples nos pontos z1 , . . . , zk com k ≥ 2, é necessário e suficiente que seja da forma
 k−2 
X (n)
 γ0 z n 
 
′ 
y (z) +  n=0  y(z) = 0 ,
(z − z ) · · · (z − z ) 
 1 k 

 k−2 
X (k−2−n) n
 γ0 w 
 
u (w) − 
′ n=0 
 (1 − wz1 ) · · · (1 − wzk )  u(w) = 0 .
 
V. Para que (7.83) seja Fuchsiana, tendo o infinito como ponto singular simples e no máximo k
singularidades simples nos pontos z1 , . . . , zk com k ≥ 2, é necessário e suficiente que seja da
forma
 k−1 
X (n)
 γ0 z n 
 
′ 
y (z) +  n=0  y(z) = 0 ,
(z − z ) · · · (z − z ) 
 1 k 
(k−1)
com γ0 6= 0, cuja versão no infinito é
 k−1 
(k−1)
γ0 X (k−1−n) n−1
 w + γ0 w 
 
u′ (w) −  n=1 
 (1 − wz1 ) · · · (1 − wzk )  u(w) = 0 .
 
7.8.2 Equações Fuchsianas de Segunda Ordem

Muito mais relevante que as equações Fuchsianas de primeira ordem são as equações Fuchsianas de
segunda ordem, as quais estudaremos agora. Consideremos a equação diferencial linear de segunda
ordem
y ′′ (z) + a1 (z) y ′ (z) + a0 (z) y(z) = 0 (7.84)
e sua versão no infinito
u′′ (w) + b1 (w)u′ (w) + b0 (w)u(w) = 0 (7.85)
(vide (7.76) e (7.77)), onde w = 1/z, u(w) = y(z) = y(1/w) e

a0 (1/w) 2 a1 (1/w)
b0 (w) := , b1 (w) := − . (7.86)
w4 w w2
No que segue vamos procurar a forma geral de uma tal equação que possua um certo número
de singularidades, todas simples, ou seja, de modo que a equação seja Fuchsiana. Começamos nos
perguntando se há equações sem quaisquer pontos singulares, nem no infinito.
• Equações sem pontos singulares
Se (7.84) não possuir pontos singulares finitos, então as funções a0 e a1 devem ser funções inteiras
(analı́ticas em todo C) e, portanto, possuem séries de Taylor centradas em 0
∞
X ∞
X
(n) (n)
a0 (z) = α0 z n , a1 (z) = α1 z n
n=0 n=0
convergentes para todo z ∈ C. Com isso, vemos que

∞
X ∞
(n) 1 2 X (n) 1
b0 (w) = α0 , b1 (w) = − α ,
n=0
w n+4 w n=0 1 w n+2
onde as séries convergem para todo w ∈ C, w 6= 0. Trata-se claramente de séries de Laurent centradas
em w = 0 para b0 e b1 . Para que (7.84) também não possua uma singularidade no infinito, seria
(n)
necessário que b0 e b1 fossem analı́ticas em 0. Para b0 isso só seria possı́vel se α0 = 0 para todo n mas
2
para b1 não há como alcançar essa condição devido ao termo w
de sua expansão de Laurent, o qual não
(n)
pode ser anulado por qualquer escolha dos coeficientes α1 .
Concluı́mos disso que não existem equações diferenciais lineares de segunda ordem sem quaisquer
pontos singulares finitos ou no infinito.
• Equações com apenas um ponto singular simples no infinito
Se (7.84) não tiver pontos singulares finitos, vimos que possuirá um ponto singular no infinito. Sob
quais circunstâncias esse ponto no infinito é singular simples? Para tal é necessário que b0 (w) tenha
em w = 0 um polo de ordem no máximo 2 e b1 (w) tenha em w = 0 um polo de ordem no máximo 1.
(n) (n)
Assim, concluı́mos que devemos ter α0 = α1 = 0 para todo n. Em um tal caso as funções a0 , a1 e
b0 são identicamente nulas, enquanto que b1 (w) = 2/w. Concluı́mos que a única equação diferencial de
segunda ordem com apenas um ponto singular simples no infinito é a equação
2 ′
y ′′(z) = 0 , cuja versão no infinito é u′′ (w) + u (w) = 0 . (7.87)
w
• Equações com apenas um ponto singular simples finito em z = 0
Procuremos agora saber a forma geral de uma equação diferencial com apenas um ponto singular
finito em z = 0 e regular no infinito. Em tal caso, a0 (z) tem no máximo um polo duplo em z = 0 e a1
tem no máximo um polo simples z = 0, esse sendo se único ponto singular. Assim, a0 (z) e a1 (z) tem
as representações de Laurent
(−2) (−1) ∞
X (−1) ∞
X
α0 α0 (n) α1 (n)
a0 (z) = + + α0 z n , a1 (z) = + α1 z n
z2 z n=0
z n=0
as quais convergem para todo z ∈ C, z 6= 0. Com isso, temos

(−2) X (n) 1
(−1) ∞ (−1) ∞
X
α0 α0 2 − α1 (n) 1
b0 (w) = + + α0 , b1 (w) = − α1 .
w2 w3 n=0
w n+4 w n=0
w n+2
Para que o ponto no infinito seja regular é necessário que b0 (w) e b1 (w) sejam analı́ticas em w = 0.
(n)
Como se constata das expansões de Laurent dadas acima dessas funções, isso requer que α0 = 0 para
(n) (−1)
todo n ≥ −2, α1 para todo n ≥ 0 e α1 = 2. Nesse caso as funções b0 e b1 são identicamente nulas,
assim como a função a0 , sendo que a1 (z) = 2/z. Concluı́mos que a única equação diferencial que possui
um único ponto singular simples finito em z = 0 e tem o infinito como ponto regular é a equação
2
y ′′ (z) + y ′ (z) = 0 , cuja versão no infinito é u′′ (w) = 0 . (7.88)
z
Essa equação será generalizada em (7.92) para uma singularidade que não seja no ponto z = 0.
• Equações Fuchsianas de segunda ordem. Caso geral

Consideremos agora o caso geral em que (7.84) é Fuchsiana e seus pontos singulares finitos são um
subconjunto de {z1 , . . . , zk } formado por k ≥ 1 pontos distintos. Isso significa que a0 (z) tem no
máximo um polo de ordem 2 e a1 (z) no máximo um polo de ordem 1 nos pontos z1 , . . . zk com k ≥ 1.
Assim, ambas são da forma
c0 (z) c1 (z)
a0 (z) = e a1 (z) = ,
(z − z1 · · · (z − zk )2
)2 (z − z1 ) · · · (z − zk )
onde c0 e c1 são funções inteiras de z (para que um certo za seja de fato singular simples é necessário
que c0 não tenha um zero de ordem 2 em za e c1 não tenha um zero de ordem 1 em za ). Obtemos disso
que
w 2k−4 c0 (1/w) 2 w k−2 c1 (1/w)
b0 (w) = e b1 (w) = − .
(1 − wz1 )2 · · · (1 − wzk )2 w (1 − wz1 ) · · · (1 − wzk )
Como funções inteiras, c0 e c1 possuem expansões de Taylor centradas em 0
∞
X ∞
X
(n) (n)
c0 (z) = γ0 z n e c1 (z) = γ1 z n
n=0 n=0
as quais convergem para todo z ∈ C e, portanto,

∞
X ∞
X
(n) 1 (n) 1
γ0 γ1
n=0
w n+4−2k 2 n=0
w n+2−k
b0 (w) = e b1 (w) = − .
)2
(1 − wz1 · · · (1 − wzk )2 w (1 − wz1 ) · · · (1 − wzk )
Perguntemo-nos agora sob quais circunstâncias o infinito é também no máximo um ponto singular
simples da equação. Para tal, b0 deve ter no máximo um polo de ordem 2 e b1 no máximo um polo de
1 1
ordem 1 em w = 0. Como as funções (1−wz1 )2 ···(1−wz k)
2 e (1−wz )···(1−wz ) são analı́ticas em w = 0 e não
1 k
se anulam nesse ponto, concluı́mos que a condição procurada exige que w 2k−4c0 (1/w) tenha no máximo
um polo de ordem 2 em w = 0 e w k−2c1 (1/w) tenha no máximo um polo de ordem 1 em w = 0. Agora,
∞
X ∞
X
2k−4 (n) 1 k−2 (n) 1
w c0 (1/w) = γ0 e w c1 (1/w) = γ1 ,
n=0
w n+4−2k n=0
w n+2−k
(n) (n)
donde concluı́mos que γ0 = 0 para todo n > 2k − 2 e γ1 = 0 para todo n > k − 1. Assim,
2k−2
X k−1
X
(n) (n)
c0 (z) = γ0 z n e c1 (z) = γ1 z n ,
n=0 n=0
que são polinômios de grau menor ou igual a 2k − 2 e k − 1, respectivamente. Para a versão no infinito
da equação diferencial teremos nesse caso
2k−2
X 2k−2
X
(n) 1 (2k−2−n)
γ0 γ0 w n−2
n=0
w n+4−2k n→2k−2−n n=0
b0 (w) = = (7.89)
(1 − wz1 )2 · · · (1 − wzk )2 (1 − wz1 )2 · · · (1 − wzk )2
e
k−1
X (n) 1
γ1
2 n=0
w n+2−k
b1 (w) = −
w (1 − wz1 ) · · · (1 − wzk )
k−1
X (n) 1
2(1 − wz1 ) · · · (1 − wzk ) − γ1
n=0
w n+1−k
=
w(1 − wz1 ) · · · (1 − wzk )
k−1
X (k−1−n)
2(1 − wz1 ) · · · (1 − wzk ) − γ1 wn
n→k−1−n n=0
= . (7.90)
w(1 − wz1 ) · · · (1 − wzk )
Das expressões (7.89) e (7.90) podemos identificar as condições para que b0 (w) e b1 (w) sejam regu-
1
lares em w = 0, ou seja, para que o infinito seja um ponto regular de (7.96): como (1−wz1 )2 ···(1−wz k)
2
1
e (1−wz1 )···(1−wzk ) são analı́ticas em w = 0 e não se anulam nesse ponto, para que b0 (w) e b1 (w) se-
2k−2
X (2k−2−n)
jam regulares em w = 0 é necessário e suficiente que γ0 w n−2 seja analı́tica em w = 0 e
n=0
k−1
X (k−1−n)
2(1 − wz1 ) · · · (1 − wzk ) − γ1 w n seja analı́tica em w = 0 (o que sempre é o caso) e tenha um
n=0
zero de ordem pelo menos 1 nesse ponto (observar o fator w no denominador de (7.90)).
(2k−3) (2k−2)
Para a primeira condição é necessário e suficiente que γ0 = γ0 = 0 (se k = 1, é necessário
(0) (k−1)
e suficiente que γ0 = 0). Para a segunda condição, é necessário e suficiente que γ1 = 2.
• Analisando alguns casos explı́citos
Vamos analizar explicitamente os casos k = 1, k = 2 e k = 3.
1. Caso k = 1. Nesse caso, para que (7.84) seja Fuchsiana com no máximo um ponto singular
simples no infinito e em z1 , temos que c0 e c1 devem ser polinômios e grau zero (ou seja, constantes)
e (7.84) é da forma
! !
(0) (0)
γ γ
y ′′ (z) + 1
y ′ (z) + 0
y(z) = 0 , (7.91)
z − z1 (z − z1 )2

! !
(0) (0)
2 − γ1 − 2wz1 γ0
u′′ (w) + u′ (w) + u(w) = 0 .
w(1 − wz1 ) w (1 − wz1 )2
2
(0) (0)
O ponto z1 é um ponto singular simples (exceto no caso trivial em que γ1 = γ0 = 0, quando
z1 é um ponto regular). Note que (7.91) é uma equação de Euler.
(0) (0)
Para que o infinito seja regular é necessário e suficiente que γ0 = 0 e γ1 = 2. Compare com a
discussão sobre a equação de Euler à página 380. Concluı́mos que a equação de Euler

′′ 2 ′ ′′ 2z1
y (z) + y (z) = 0 , cuja versão no infinito é u (w) − u′ (w) = 0 ,
z − z1 1 − wz1
(7.92)
é a única equação Fuchsiana com um único ponto singular, a saber z1 . Essa expressão generaliza
(7.88) e a ela se reduz para z1 = 0. Como vimos em (7.87), a equação y ′′ (z) = 0 é a única equação
Fuchsiana com um único ponto singular no infinito.
Note-se que a equação y ′′ (z) = 0 e sua versão no infinito u′′ (w) + 22 u′ (w) = 0 (vide (7.87))
são obtidas formalmente de (7.92) tomando-se o limite |z1 | → ∞. Tal processo é por vezes
denominado confluência de singularidades e será reencontrado quando tratarmos da relação entre
a equação hipergeométrica e a equação hipergeométrica confluente (vide discussão do começo da
Seção 8.2.8, página 466).
(0) (0)
A equação de Euler (7.91) com γ0 6= 0 ou γ1 6= 2 é a única equação Fuchsiana com dois pontos
singulares simples, um em z1 e o segundo no infinito. Logo abaixo veremos a forma geral das
equações Fuchsianas com com dois pontos singulares simples finitos.
2. Caso k = 2. Nesse caso, para que (7.84) seja Fuchsiana com no máximo pontos singulares
simples em z1 , z2 e no infinito, c0 e c1 devem ser polinômios de grau menor ou igual a 2 e 1,
respectivamente e (7.84) deve ser da forma
! !
(0) (1) (0) (1) (2)
′′ γ1 + γ1 z ′ γ0 + γ0 z + γ0 z 2
y (z) + y (z) + y(z) = 0 . (7.93)
(z − z1 )(z − z2 ) (z − z1 )2 (z − z2 )2
Os pontos z1 e z2 serão pontos singulares simples desde que os dois polinômios dos numeradores
dos coeficientes não tenham zeros de ordem 1 ou 2, respectivamente, nesses pontos. Por exemplo,
(0) (1) (0) (1) (2)
se γ1 + γ1 z = α(z − z2 ) e γ0 + γ0 z + γ0 z 2 = β(z − z2 )2 a equação torna-se

′′ α ′ β
y (z) + y (z) + y(z) = 0 ,
(z − z1 ) (z − z1 )2
que tem a mesma forma da equação de Euler (7.91), a qual, como vimos, é a única equação
Fuchsiana com um único ponto singular finito, a saber z1 (e eventualmente um outro no infinito).
(1)
Voltando a (7.93), para que o ponto no infinito seja regular é necessário e suficiente que γ0 =
(2) (1)
γ0 = 0 e γ1 = 2. Assim, a forma geral da equação Fuchsiana com no máximo dois pontos
singulares simples finitos z1 e z2 e regular no infinito é
! !
(0) (0)
′′ γ1 + 2z ′ γ0
y (z) + y (z) + y(z) = 0 .
(z − z1 )(z − z2 ) (z − z1 )2 (z − z2 )2
(0) (0)
Se escolhermos γ1 = −2z2 e γ0 = 0 o ponto z2 deixa de ser singular e essa equação reduz-se a
(7.92).
(1) (2) (1)
A equação (7.93) com γ0 6= 0 ou γ0 6= 0 ou γ1 6= 2 é a única equação Fuchsiana com um ponto
singular simples no infinito e com no máximo dois pontos singulares simples finitos, em z1 e z2 .
Mais adiante mostraremos que uma tal equação sempre pode ser transformada em uma equação
hipergeométrica.
3. Caso k = 3. Nesse caso, para que (7.84) seja Fuchsiana com no máximo pontos singulares
simples em z1 , z2 , z3 e no infinito, c0 e c1 devem ser polinômios de grau nenor ou igual a 4 e 2,
respectivamente e (7.84) deve ser da forma
 4 
X (n) n
!  γ0 z 
(0) (1) (2) 2
γ + γ z + γ z  
′′
y (z) + 1 1 1
y (z) + 
′
 2
n=0
2
 y(z) = 0 . (7.94)
2
(z − z1 )(z − z2 )(z − z3 )  (z − z1 ) (z − z2 ) (z − z3 ) 
Os pontos z1 , z2 e z3 serão singulares simples se os dois polinômios dos numeradores dos coefici-
entes acima não possuirem neles zeros de ordem 1 ou 2, respectivamente.
(3) (4)
Para que o ponto no infinito seja regular é necessário e suficiente que γ0 = γ0 = 0 e que
(2)
γ1 = 2. Nesse caso, (7.94) assume a forma
! !
(0) (1) 2 (0) (1) (2) 2
γ 1 + γ 1 z + 2z γ 0 + γ 0 z + γ 0 z
y ′′(z) + y ′(z) + y(z) = 0 . (7.95)
(z − z1 )(z − z2 )(z − z3 ) (z − z1 )2 (z − z2 )2 (z − z3 )2
Mais adiante mostraremos que, assim como a equação (7.93), que também tem três pontos sin-
gulares simples, esta equação também pode ser transformada em uma equação hipergeométrica.
(3) (4) (2)
Se γ0 6= 0, γ0 6= 0 ou γ1 6= 2, o infinito será um ponto regular simples de (7.94).
A forma geral das equações Fuchsianas com três pontos singulares simples (7.93) e (7.95) foi primei-
ramente estudada por Papperitz15 e especialmente por Riemann16 , o qual demonstrou diversos fatos
relevantes sobre essas equações. Sobre esses desenvolvimentos falaremos mais adiante na Seção 7.8.3.
Para futura referência capturamos os diversos resultados obtidos até agora na seguinte proposição:
Proposição 7.5 Para a equação diferencial linear de segunda ordem no plano complexo
y ′′(z) + a1 (z)y ′ (z) + a0 (z)y(z) = 0 (7.96)
I. A equação (7.96) sempre possui ao menos um ponto singular (eventualmente no infinito).

II. Para que (7.96) seja Fuchsiana e tenha apenas uma singularidade simples no infinito é necessário
e suficiente que seja da forma y ′′ (z) = 0, cuja versão no infinito é u′′ (w) + w2 u′ (w) = 0.
III. Para que (7.96) seja Fuchsiana, tenha apenas uma singularidade simples em z1 e seja regular no
infinito é necessário e suficiente que seja da forma

′′ 2 2
y (z) + y ′ (z) = 0 , cuja versão no infinito é u′′ (w) − u′ (w) = 0 .
z − z1 w(1 − wz1 )
15
Erwin Johannes Papperitz (1857-1938).
16
Georg Friedrich Bernhard Riemann (1826-1866).
IV. Para que (7.96) seja Fuchsiana, tenha uma singularidade simples no infinito e tenha no máximo
singularidades simples nos pontos z1 , . . . , zk (com k ≥ 1) é necessário e suficiente que a0 e a1
sejam da forma
2k−2
X k−1
X
(n) (n)
γ0 z n γ1 z n
n=0 n=0
a0 (z) = e a1 (z) =
(z − z1 )2 · · · (z − zk )2 (z − z1 ) · · · (z − zk )
(2k−3) (2k−2) (0) (k−1)
onde ou γ0 6= 0 ou γ0 6= 0 (caso k = 1, basta γ0 6= 0) ou que γ1 6= 2. A versão no
infinito de (7.96) é nesse caso
u′′ (w) + b1 (w)u′(w) + b0 (w)u(w) = 0 ,
com
2k−2
X (2k−2−n)
γ0 w n−2
n=0
b0 (w) = (7.97)
(1 − wz1 )2 · · · (1 − wzk )2
e
k−1
X (k−1−n)
2(1 − wz1 ) · · · (1 − wzk ) − γ1 wn
n=0
b1 (w) = . (7.98)
w(1 − wz1 ) · · · (1 − wzk )
V. Para que (7.96) seja Fuchsiana e tenha no máximo singularidades simples nos pontos z1 , . . . , zk
(2k−3) (2k−2)
(com k ≥ 1), sendo regular no infinito, é necessário e suficiente que γ0 = γ0 = 0 (caso
(0) (k−1)
k = 1, que γ0 = 0) e que γ1 = 2, ou seja, é necessário e suficiente que
2k−4
X k−2
X
(n) (n)
γ0 z n γ1 z n + 2z k−1
n=0 n=0
a0 (z) = e a1 (z) =
(z − z1 )2 · · · (z − zk )2 (z − z1 ) · · · (z − zk )
em cujo caso temos para a versão no infinito

2k−2
X (2k−2−n)
γ0 w n−2
n=2
b0 (w) =
(1 − wz1 )2 · · · (1 − wzk )2
e
h i Xk−1
(k−1−n) n
2 (1 − wz1 ) · · · (1 − wzk ) − 1 − γ1 w
n=1
b1 (w) = .
w(1 − wz1 ) · · · (1 − wzk )
2
7.8.3 Sı́mbolos de Riemann. Simetrias de Equações Fuchsianas de Se-

gunda Ordem
Para continuarmos nossa discussão precisamos introduzir a importante noção de ı́ndices de uma equação
diferencial em um ponto do plano complexo.
• Índices de uma equação diferencial em um ponto
Seja a equação diferencial Fuchsiana (7.84) e seja ζ ∈ C. Sejam definidos os números complexos
pζ := lim(z − ζ)2a0 (z) e qζ := lim (z − ζ)a1 (z) . (7.99)

z→ζ z→ζ
O polinômio de segundo grau

Pζ (λ) := λ2 + (qζ − 1)λ + pζ
é denominado polinômio indicial da equação diferencial Fuchsiana (7.84) em ζ e seus zeros
p p
1 − q + (q − 1) 2 − 4p 1 − q − (qζ − 1)2 − 4pζ
ζ ζ ζ − ζ
λ+
ζ = , λ ζ = (7.100)
2 2
são denominados ı́ndices da equação diferencial Fuchsiana (7.84) em ζ.
A relevância dessas noções é a seguinte. Se ζ é um ponto singular simples da equação diferencial
Fuchsiana (7.84), então, para |z −ζ| “pequeno” a mesma pode, pela definição de pζ e qζ , ser aproximada
pela equação
qζ ′ pζ
y ′′(z) + y (z) + y(z) = 0
z−ζ (z − ζ)2
+ −
que é uma equação de Euler, cuja solução geral é da forma α(z − ζ)λζ + β(z − ζ)λζ caso λ+ −
ζ 6= λζ ou
+ +
da forma α(z − ζ)λζ + β(z − ζ)λζ ln(z − ζ) caso λ+ −
ζ = λζ . Aqui α e β são constantes arbitrárias.
Por outro lado, se ζ é um ponto regular da equação Fuchsiana, então, pela definição, pζ = qζ = 0
−
e teremos λ+ζ = 1, λζ = 0. A equação, na região onde |z − ζ| é “pequeno” pode ser aproximada pela
+ −
equação y ′′(z) = 0, cuja solução geral é da forma α(z −ζ) + β, ou seja, da forma α(z −ζ)λζ + β(z −ζ)λζ ,
onde novamente α e β são constantes arbitrárias.
Aprendemos, assim, que os ı́ndices fixam as soluções da equação diferencial Fuchsiana (7.84) em
uma vizinhança pequena de um ponto ζ, quer esse ponto seja singular simples ou regular.
Para o ponto no infinito podemos, analogamente, definir ı́ndices. A versão no infinito de (7.84) é,
como visto, dada por (7.85)-(7.86) Definimos, então p∞ e q∞ por
p∞ := lim w 2 b0 (w) e q∞ := lim wb1 (w) (7.101)

w→0 w→0
ou seja (por (7.86)),

p∞ := lim w −2 a0 (1/w) = lim z 2 a0 (z) (7.102)
w→0 |z|→∞
e
q∞ := 2 − lim w −1 a1 (1/w) = 2 − lim za1 (z) . (7.103)
w→0 |z|→∞
Com isso definimos o polinômio indicial P∞ (λ) := λ2 + (q∞ − 1)λ + p∞ , cujos zeros são
p p
+ 1 − q∞ + (q∞ − 1)2 − 4p∞ − 1 − q∞ − (q∞ − 1)2 − 4p∞
λ∞ = , λ∞ = . (7.104)
2 2
Estes são os ı́ndices da equação diferencial Fuchsiana (7.84) no infinito.
• Índices e equações Fuchsianas
Vimos páginas acima (vide, em especial, Proposição 7.5, página 396) que uma equação diferencial
linear de segunda ordem como (7.84) terá no máximo k singularidades simples17 nos pontos finitos
z1 , . . . , zk , sendo regular no infinito, se e somente se a0 e a1 forem da forma
2k−4
X k−2
X
(n) (n)
γ0 z n γ1 z n + 2z k−1
n=0 n=0
a0 (z) = e a1 (z) = . (7.105)
(z − z1 )2 · · · (z − zk )2 (z − z1 ) · · · (z − zk )
Para que a equação seja singular simples no infinito e tenha no máximo k − 1 singularidades simples
nos pontos finitos z1 , . . . , zk−1 é necessário e suficiente que
2k−4
X k−2
X
(n) (n)
γ0 z n γ1 z n
n=0 n=0
a0 (z) = e a1 (z) = , (7.106)
(z − z1 )2 · · · (z − zk−1 )2 (z − z1 ) · · · (z − zk−1 )
(2k−5) (2k−4) (k−2)
onde ou γ0 6= 0 ou γ0 6= 0 ou que γ1 6= 2.
Em ambos os casos há no máximo k singularidades, incluindo eventualmente uma no infinito.
Chama a atenção o fato de que em ambos os casos a0 depende de 2k − 3 constantes livres (as constantes
(n) (n)
γ0 , n = 0, . . . , 2k − 4), enquanto que a1 depende de k − 1 constantes livres (as constantes γ1 ,
n = 0, . . . , k − 2). Assim, para no máximo k singularidades simples a equação depende de 3k − 4
constantes livres.
Uma questão importante, cuja relevância será discutida mais adiante, é saber sob quais circunstâncias
essas 3k − 4 constantes podem ser inteiramente determinadas pelos ı́ndices das singularidades simples.
Essa questão foi proposta a estudada originalmente por Riemann e, para respondê-la, precisamos contar
quantos são os ı́ndices independentes numa situação de no máximo k singularidades simples. Como há
dois ı́ndices para cada singularidade, haveria em princı́pio um total de 2k ı́ndices independentes mas,
em verdade, há apenas 2k − 1. Isso se deve a fato expresso no seguinte lema.
Lema 7.1 Se a equação Fuchsiana (7.84) possui no máximo k singularidades simples em z1 , . . . , zk
(k ≥ 2), sendo regular no infinito, vale
k
X
−
(λ+
z l + λz l ) = k − 2
l=1
17
Assumiremos aqui que k ≥ 2.
Se a equação Fuchsiana (7.84) tem no máximo k − 1 singularidades simples em z1 , . . . , zk−1 (k ≥ 2),

tendo também uma singuaridade simples no infinito, então também vale
k−1
X

λ+
∞ + λ−
∞ + λ+ −
z l + λz l = k−2.
l=1
Se (7.84) é regular em zl então, pela definição (7.99), pzl = qzl = 0, o que implica que λ+
zl = 1 e
− + −
λzl = 0 e, portanto, que λzl + λzl = 1. Assim, se (7.84) possui exatamente j singularidades simples
(incluindo eventualmente uma no infinito), então a soma de todos o ı́ndices desses pontos singulares é
igual a j − 2 2
Prova. Há dois casos a considerar: 1o os k pontos singulares simples são finitos z1 , . . . , zk ; 2o o infinito
é um ponto singular simples e há k − 1 pontos singulares simples finitos z1 , . . . , zk−1 .
k
X k
X
−
1o caso. Por (7.100), λ+ −
zl + λzl = 1 − qzl e, portanto, (λ+
z l + λz l ) = k − qzl . Pela definição em
l=1 l=1
P
(7.99), qzl é o resı́duo da função a1 em zl e, portanto, kl=1 qzl é a soma de todos os resı́duos de a1 em
seus pontos singulares z1 , . . . , zk . Como esses são todos os pontos singulares de a1 , concluı́mos pelo
Xk I
1
teorema dos resı́duos que qzl = a1 (z)dz, onde C é uma curva fechada orientada no sentido
2πi C
l=1
anti-horário que contém todos os pontos z1 , . . . , zk na região que delimita. Por simplicidade adotamos
C como sendo um cı́rculo de raio R grande o suficiente. Por (7.105),
I k−2
X I I
1 (n) 1 zn 1 z k−1
a1 (z) dz = γ1 dz + 2 dz; .
2πi C n=0
2πi C (z − z1 ) · · · (z − zk ) 2πi C (z − z1 ) · · · (z − zk )
H zn
Para n = 1, . . . , k − 2, as integrais C (z−z1 )···(z−z k)
dz são aproximadas para R →
H n−k H k−1 H
inf ty por C z dz = 0. Para R → ∞ a integral C (z−z1z)···(z−zk ) dz é aproximada por C z −1 dz = 2πi.
X k
Pk −
Concluı́mos que l=1 qzl = 2 e, portanto, (λ+ zl + λzl ) = k − 2.
l=1
k−1
X
−
o
2 caso. O tratamento aqui é análogo. Novamente λ+
zl + λ−
zl = 1 − qzl e, portanto, (λ+
z l + λz l ) =
l=1
k−1
X Pk−1
k−1− qzl e novamente l=1 qzl é a soma dos resı́duos de a1 em suas singularidades finitas, que
1
Hl=1
vale 2πi a (z)dz, onde C é uma curva fechada orientada no sentido anti-horário que contém todos
C 1
os pontos z1 , . . . , zk na região que delimita. Por simplicidade adotamos C como sendo um cı́rculo de
raio R grande o suficiente. Por (7.106)
I k−2
X I
(n) zn
a1 (z) dz = γ1 dz ,
C n=0 C (z − z1 ) · · · (z − zk−1 )
H
Para R → ∞ as integrais acima são aproximadas pelas integrais C
z n−k+1 dz, as quais são nulas, exceto
P (k−1)
quando n = k − 1, quando vale 2πi. Assim, k−1
l=1 qzl = γ1 .
− (k−1) −
Agora, por (7.104), λ+∞ + λ∞ = 1 − q∞ e por (7.103) e (7.106), q∞ = 2 − γ1 . Assim, λ+
∞ + λ∞ =
(k−1)
−1 + γ1 e, portanto,
Xk−1

− − (k−1) (k−1)
λ+
∞ + λ ∞ + λ +
zl + λ zl = k − 1 − γ 1 + − 1 + γ 1 = k−2 .
l=1
Retomando à discussão do parágrafo que antecede ao enunciado do lema acima, vimos que a equação
Fuchsiana (7.84) possui 3k − 4 parâmetros livres e 2k − 1 ı́ndices independentes. Concluı́mos que se
3k − 4 ≤ 2k − 1, ou seja, se k ≤ 3, é possı́vel escrever todos os parâmetros livres em termos dos ı́ndices.
As situação interessante, portanto, é aquela em que se tem no máximo três pontos singulares simples
(incluindo, eventualmente, um no infinito). Nela, a equação Fuchsiana (7.84) é totalmente determinada
pelos ı́ndices de suas singularidades simples e, portanto, assim são suas soluções. Essa conclusão foi
primeiramente obtida por Riemann por volta de 185718 . Como os ı́ndices de uma singularidade estão
relacionados à monodromia em torno da mesma, Riemann colocou a questão de sob quais condições
existe uma equação Fuchsiana com pontos singulares e monodromias pré-determinados. Essa questão
despertou o interesse de Hilbert por volta de 1905, passando a ser conhecida como problema de Riemann-
Hilbert. Além de Hilbert, contribuiram para o estudo desse problema nomes como Birkhoff19 , Plemelj20
e outros.
• Equações Fuchsianas com três singularidades
Como discutimos acima, há um interesse especial na equação Fuchsiana (7.84) com três singulari-
dades pois a mesma possui cinco parâmetros livres e também cinco ı́ndices independentes associados
às três pontos singulares (lembremos que, pelo Lema 7.1, a soma dos seis ı́ndices deve ser igual a 1).
Portanto, deve ser, em princı́pio, possı́vel expressar univocamente esses cinco parâmetros em termos
dos ı́ndices. Vamos mostrar que isso de fato é verdade. Para k = 3 e singularidades simples apenas nos
pontos finitos z1 , z2 e z3 , (7.84) assume a forma.
! !
(0) (1) 2 (0) (1) (2) 2
γ 1 + γ 1 z + 2z γ 0 + γ 0 z + γ 0 z
y ′′ (z) + y ′(z) + y(z) = 0 (7.107)
(z − z1 )(z − z2 )(z − z3 ) (z − z1 )2 (z − z2 )2 (z − z3 )2
e para singularidades simples apenas no pontos finitos z1 , z2 e uma no infinito, (7.84) assume a forma
! !
(0) (1) (0) (1) (2) 2
γ1 + γ1 z γ0 + γ0 z + γ0 z
y ′′ (z) + y ′ (z) + y(z) = 0 (7.108)
(z − z1 )(z − z2 ) (z − z1 )2 (z − z2 )2
18
G. F. B. Riemann, “Beiträge zur Theorie der durch die Gauss’sche Reihe F (α, β, γ, x) darstellbaren Functio-
nen”. Abhandlungen der Königlichen Gesellschaft der Wissenschaften zu Göttingen, 7, 3-32 (1857). G. F. B. Riemann,
“Beiträge zur Theorie der durch die Gauss’sche Reihe F (α, β, γ, x) darstellbaren Functionen”. Göttinger Nachrichten,
6-8 (1857).
19
George David Birkhoff (1884-1944).
20
Josip Plemelj (1873-1967).
(1)
com γ1 6= 2.
No caso (7.107) podemos escrever, de acordo com (7.99) e (7.105), para l = 1, . . . , 3,
2
! 3 1
! 3
X (n)
Y 1 X (n)
Y 1
pz l = γ0 (zl )n 2
, qzl = γ 1 (zl ) n
+ 2(zl ) 2
. (7.109)
n=0 a=1
(zl − za ) n=0 a=1
(zl − za )
a6=l a6=l
Como
− −
λ+
zl + λzl = 1 − qzl e λ+
z l λz l = pz l , (7.110)
vemos que as últimas equações podem ser escritas como
3
Y 2
X Y
3 1
X
− (n) − (n)
λ+
z l λz l
2
(zl − za ) = γ0 (zl )n , +
1 − λz l − λz l (zl − za ) = γ1 (zl )n + 2(zl )2 .
a=1 n=0 a=1 n=0
a6=l a6=l
Definindo
 
3
Y 3
Y
− −  
αl := λ+
z l λz l (zl − za )2 e βl := 1 − λ+
z l − λz l  (zl − za ) ,
a=1 a=1
a6=l a6=l
para l = 1, 2, 3, as últimas relações podem ser escritas em forma matricial

   2
  (0)       (0) 
α1 1 z1 (z1 ) γ0 β1 1 z1 (z1 )2 γ1
α2  = 1 z2 (z2 )2   (1) 
γ0  e  β2
 = 1 z2 (z2 ) 2   (1) 
γ1 .
2 (2) 2
α3 1 z3 (z3 ) γ0 β3 1 z3 (z3 ) 2
 
1 z1 (z1 )2
A matriz Z := 1 z2 (z2 )2  é uma matriz de Vandermonde21, e seu determinante é
1 z3 (z3 )2
Y
det(Z) = (zb − za ) = (z3 − z2 )(z3 − z1 )(z2 − z1 ) ,
1≤a<b≤3
que é não-nulo (pois os pontos z1 , z2 e z3 são distintos). Portanto, Z possui uma inversa, o que permite
(n) (n)
expressar univocamente os γ0 ’s e γ1 ’s em termos dos αl ’s e βl ’s e, portanto, em termos dos λ± zl ’s. O
caso de (7.108) é análogo.
• Sı́mbolos de Riemann
Como vemos, é possı́vel expressar univocamente a equação Fuchsiana com três singularidades (7.84)
em termos de z1 , z2 , z3 e seus ı́ndices. Em seus trabalhos de 1857 (vide nota-de-rodapé 18, página 401)
Riemann introduziu uma notação para representar esquematicamente a dependência da equação (7.84)
com os pontos singulares z1 , z2 , z3 e seus respectivos ı́ndices λ± ± ±
z 1 , λz 2 e λz 3 .
21
Alexandre-Théophile Vandermonde (1735-1796).
Segundo Riemann o esquema

 
z1 z2 z3
 
y = P λ+ + +
z 1 λz 2 λz 3 z  , (7.111)
λ− − −
z 1 λz 2 λz 3
lembrando que, pelo Lema 7.1,

− − −
λ+ + +
z 1 + λz 1 + λz 2 + λz 2 + λz 3 + λz 3 = 1 (7.112)
representa uma equação para Fuchsiana para y com três singularidades. As três primeiras colunas
contêm os pontos singulares e os respectivos ı́ndices (os pontos singulares são dispostas na primeira
linha). A quarta coluna contém apenas a variável da equação.
É também permitido que uma das singularidades seja o ponto no infinito, em cujo caso o sı́mbolo
de Riemann para singularidades finitas em z1 e z2 fica
 
z1 z2 ∞
 
y = P λ+ + +
z 1 λz 2 λ∞ z  , (7.113)
λ− − −
z 1 λz 2 λ∞
sendo que, pelo Lema 7.1,

− − −
λ+ + +
z 1 + λz 1 + λz 2 + λz 2 + λ∞ + λ∞ = 1 . (7.114)
Os esquemas (7.111) e (7.113) são denominados sı́mbolos de Riemann. Lembremos que as relações
(7.112) ou (7.114) sempre devem ser satisfeitos pelos ı́ndices.
Os sı́mbolos de Riemann podem expressar diversar simetrias, algumas triviais, outras não, das
equações Fuchsianas com três pontos singulares. Por exemplo, os sı́mbolos de Riemann são invariantes
por permutação das três primeiras colunas, expressando o fato óbvio de as equações Fuchsianas com
três singularidades não mudarem quando trocamos simultaneamente as singularidades e seus ı́ndices.
Os sı́mbolos de Riemann são também invariantes por permutação independente das duas últimas linhas
em cada uma das três primeiras colunas, expressando o fato óbvio de que as equações Fuchsianas com
três singularidades dependem do par de ı́ndices associado a cada singularidade, mas não da forma como
estes são ordenados.
• Equação de Riemann-Papperitz
Com o exposto acima, vemos que é possı́vel expressar a equação Fuchsiana com três singularidades
(7.84) em termos de z1 , z2 , z3 e seus ı́ndices. O que se obtem, após algum esforço algébrico um tanto
tedioso, são as seguintes expressões:

′′ qz1 qz2 qz3
y (z) + + + y ′(z)
z − z1 z − z2 z − z3

1 pz1 (z1 − z2 )(z1 − z3 ) pz2 (z2 − z3 )(z2 − z1 ) pz3 (z3 − z1 )(z3 − z2 )
+ + + y(z)
(z − z1 )(z − z2 )(z − z3 ) z − z1 z − z2 z − z3
= 0 , (7.115)
ou seja, por (7.110),
− − −
′′ 1 − λ+
z 1 − λz 1 1 − λ+
z 2 − λz 2 1 − λ+
z 3 − λz 3
y (z) + + + y ′ (z)
z − z1 z − z2 z − z3
 − − − 
λ+
z1 λz1 (z1 − z2 )(z1 − z3 ) λ+
z2 λz2 (z2 − z3 )(z2 − z1 ) λ+
z3 λz3 (z3 − z1 )(z3 − z2 )
 + + 
 z − z1 z − z2 z − z3  y(z)
+ 
(z − z1 )(z − z2 )(z − z3 )
= 0 . (7.116)
Essa última expressão é a representação explı́cita do esquema de Riemann

 
z1 z2 z3
 
y = P λ+ + +
z 1 λz 2 λz 3 z  .
λ− − −
z 1 λz 2 λz 3
A expressão (7.116) foi encontrada primeiramente por Papperitz22 em 188523, e é denominada

equação de Papperitz, equação de Riemann ou ainda equação de Riemann-Papperitz.
E. 7.32 Exercı́cio. Obtenha as expressões (7.115) e (7.116). 6
22
Erwin Johannes Papperitz (1857-1938).
23
Portanto, após os trabalhos seminais de Riemann de 1857. Se Riemann a conhecia, não a escreveu explicitamente.

E. 7.33 Exercı́cio. Seja A uma matriz n × n diagonalizável e seja
r
X
A = αk Ek
k=1
sua representação espectral, onde

Pα 1 , . . . , αr são seus autovalores distintos e Ek são seus projetores espectrais
tais que Ea Eb = δa, b Ea e 1 = k=1 Ek . Mostre que
r
r
X
exp(A) = eαk Ek .
k=1
E. 7.34 Exercı́cio. Seja a matriz

2 0
A1 = .
3 7
a) Determine seu polinômio caracterı́stico e seus autovalores λ1 e λ2 . (Para fixar uma convenção adote
λ1 < λ2 ).
b) Determine autovetores correspondentes a esses autovalores.
c) Determine uma matriz P que diagonaliza A1 , ou seja, a matriz P tal que D = P −1A1 P =
diag (λ1 , λ2 ).
d) D pode ser obviamente escrita como
D = λ 1 K1 + λ 2 K2 ,
onde
1 0 0 0
K1 = , K2 = .
0 0 0 1
Logo,
A1 = λ1 E1 + λ2 E2 , (7.117)
onde Ea = P Ka P −1 , a = 1, 2.
e) Calcule explicitamente E1 e E2 e mostre que (7.117) é a representaçãoP espectral de A1 , ou seja,
mostre explicitamente que Ea são projetores e satisfazem Ea Eb = δa, b Ea e 1 = rk=1 Ek .
f) Os projetores E1 e E2 podem ser também calculados usando (3.39). Obtenha-os dessa forma e
compare os resultados.
g) Usando o Exercı́cio E. 7.33 calcule exp(tA1 ). 6
E. 7.35 Exercı́cio. Repita o mesmo exercı́cio para as matrizes

−2 5i 3 0 3 0
A2 = , A3 = , A4 = ,
0 4 3 4 3i 4

−2 i 4i 3 − i
A5 = , A6 = .
0 −5 0 2
6
E. 7.36 Exercı́cio. Determine explicitamente a solução do sistemas de equações lineares a coeficientes

constantes Ẋ(t) = AX(t), com X(0) = X0 , para
a)
3 0 1
A = , X0 = .
3 4 2
b)
3 0 1
A = , X0 = .
3i 4 2
c)
2 −1 1
A = , X0 = .
1 2 −2
d)
2 −1 1
A = , X0 = .
0 2 1
e)
0 −i 1
A = , X0 = .
i 0 3
f)
0 1 3
A = , X0 = .
1 0 −1
Descreva qualitativamente o retrato de fase de cada um dos sistemas acima. 6
E. 7.37 Exercı́cio. Determine explicitamente a solução do sistemas de equações lineares a coeficientes

constantes Ẋ(t) = AX(t) + B(t), com X(0) = X0 , para
a)      
0 −1 0 1 1
A = 1 0 0 , B(t) =  sen(t) , X0 = 3 .

0 0 3 cos(t) 2
b)      
2 1 0 sen(t) 1
A = 0 2 0 , B(t) =  t  , X0 = 3  .

0 0 3 cos(t) 2
6
E. 7.38 Exercı́cio. Um sistema formado por duas populações p1 (t) e p2 (t) evolui de acordo com as
equações
p˙1 (t) = −αp1 (t) + βp2 (t) , p˙2 (t) = βp1 (t) − αp2 (t) ,
α, β ∈ R.
a) Sabendo que p1 (0) = n1 e p2 (0) = n2 , determine p1 (t) e p2 (t) para t ≥ 0.
b) Que relação α e β devem satisfazer para que tenhamos lim p1 (t) = lim p2 (t) = 0?
t→∞ t→∞
c) Determine lim p1 (t) e lim p2 (t) no caso β = α > 0. 6

t→∞ t→∞
E. 7.39 Exercı́cio. Seja Pn o espaço vetorial complexo (n + 1)-dimensional de todos os polinômios

d
complexos de grau menor ou igual a n. Seja D = dx o operador de derivação agindo em Pn .
a) Expresse D como uma matriz (n + 1) × (n + 1) agindo na base {e0 , . . . , en }, onde ek = xk /k!.
b) Mostre que D, agindo em Pn , é nilpotente.
c) Expresse exp(tD), t ∈ R, como matriz na base {e0 , . . . , en }.
d) Seja p(x) = a0 + a1 x + · · · + an xn um elemento de Pn . Mostre que (exp(tD)p)(x) = p(x + t).
Sugestão. Mostre que isso é verdade para todos os elementos da base {e0 , . . . , en }. 6
E. 7.40 Exercı́cio. As chamadas matrizes de Pauli são definidas por

0 1 0 −i 1 0
σ1 := , σ2 := e σ3 := . (7.118)
1 0 i 0 0 −1
a) Mostre que as mesmas satisfazem as seguintes relações algébricas: para todos a, b = 1, 2, 3 valem
3
X
[σa , σb ] := σa σb − σb σa = 2i εabc σc , (7.119)
c=1
{σa , σb } := σa σb + σb σa = 2δab 1 , (7.120)

3
X
σa σb = δab 1 + i εabc σc . (7.121)
c=1
Note que as matrizes de Pauli são auto-adjuntas: σi∗ = σi .

b) Mostre que as quatro matrizes 1, σ1 , σ2 , σ3 formam uma base em Mat (C, 2): toda matriz complexa
2 × 2 pode ser escrita como uma combinação linear das mesmas.
c) Mostre que as matrizes 1, σ1 , σ2 , σ3 são ortonormais em relação ao seguinte produto escalar definido
em Mat (C, 2): hA, Bi := 12 Tr (A∗ B).
d) Seja ~η := (η1 , η2 , η3 ) um vetor de comprimento 1 de R3 , ou seja, k~ηk = 1. Seja, ~η · ~σ :=
η1 σ1 + η2 σ2 + η3 σ3 , onde σk são as matrizes de Pauli, definidas acima. Mostre que

exp (iθ~η · ~σ ) = cos(θ) 1 + i sen(θ) ~η · ~σ .
e) Obtenha a representação espectral das matrizes de Pauli.

6
E. 7.41 Exercı́cio. Exiba pelo menos um exemplo de um par de matrizes quadradas A e B tais que
exp(A) exp(B) 6= exp(A + B). 6
E. 7.42 Exercı́cio.
I. Mostre que se A(t) são matrizes complexas n × n que comutam para t’s diferentes, ou seja, tais que
A(t)A(t′ ) = A(t′ )A(t) para todos t e t′ , então a série de Dyson
X∞ Z t Z t1 Z tn−1
D(t) := 1 + ··· A(t1 )A(t2 ) · · · A(tn ) dtn dtn−1 · · · dt1
n=1 0 0 0
Z t
pode ser escrita como D(t) = exp A(τ ) dτ .
0

1 2
II. Sejam R = , e A(t) = tR. Compute D(t), t ∈ R. 6
0 1

α β − iα
A = ,
0 βi
onde α, β ∈ R.
a) Determine seus auto-valores e seus projetores espectrais E1 e E2 e escreva a matriz A na forma
espectral
A = λ1 E1 + λ2 E2 .
Mostre explicitamente que E1 e E2 satisfazem Ea Eb = δa, b Ea e E1 + E2 = 1.
b) Determine explicitamente a matriz eAt , t ∈ R.
c) Determine explicitamente a solução da equação
Ẋ(t) = AX(t) + G(t) ,
onde      0
x1 (t) eiωt x1
X(t) =   , G(t) =   , X(0) = X0 =   .
−iωt
x2 (t) e x02
6

 
α 0 0 0 0
0 α β 0 0
 
A = 
0 0 α 0 0 ,
0 0 0 γ δ
0 0 0 δ γ
onde α, β, γ e δ são números complexos. Calcule exp(tA), t ∈ R. 6
E. 7.45 Exercı́cio. Sejam

   
y1 (t) s1 (t)
   
Y (t) =  ...  , S(t) =  ... 
yn (t) sn (t)
e M uma matriz n × n complexa de coeficientes constantes. Mostre que o sistema linear
Ẏ (t) = MY (t) + S(t)
com condição inicial Y (0) = Y0 tem por solução

Z t
Mt
Y (t) = e Y0 + e(t−u)M S(u) du .
0
6
Capı́tulo 8
Soluções de Equações Diferenciais Ordinárias
Lineares no Plano Complexo
Conteúdo
8.1 Soluções em Séries de Potências para Equações Regulares . . . . . . . . . 412
8.1.1 A Equação do Oscilador Harmônico Simples . . . . . . . . . . . . . . . . . . . 412
8.1.2 A Equação de Legendre . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 414
8.1.3 A Equação de Hermite . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 417
8.1.4 A Equação de Airy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 420
8.1.5 A Equação de Chebyshev . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 423
8.1.6 O Caso de Equações Regulares Gerais . . . . . . . . . . . . . . . . . . . . . . 426
8.2 Solução de Equações Singulares Regulares. O Método de Frobenius . . . 428
8.2.1 Equações Singulares Regulares. O Caso Geral . . . . . . . . . . . . . . . . . . 432
8.2.2 A Equação de Euler Revisitada . . . . . . . . . . . . . . . . . . . . . . . . . . 441
8.2.3 A Equação de Bessel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 444
8.2.4 Equações Relacionadas à de Bessel. A Equação de Bessel Esférica . . . . . . 456
8.2.5 Equações Relacionadas à de Bessel. A Equação de Bessel Modificada . . . . . 459
8.2.6 A Equação de Laguerre . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 460
8.2.7 A Equação Hipergeométrica . . . . . . . . . . . . . . . . . . . . . . . . . . . . 462
8.2.8 A Equação Hipergeométrica Confluente . . . . . . . . . . . . . . . . . . . . . 466
8.3 Algumas Equações Associadas . . . . . . . . . . . . . . . . . . . . . . . . . . 469
8.3.1 A Equação de Legendre Associada . . . . . . . . . . . . . . . . . . . . . . . . 470
8.3.2 A Equação de Laguerre Associada . . . . . . . . . . . . . . . . . . . . . . . . 472
8.4 A Função Gama. Definição e Propriedades . . . . . . . . . . . . . . . . . . 473
Apêndices . . . . . . . . . . . . . . . . . . . . 493
8.A Prova da Proposição 8.1. Justificando os Polinômios de Legendre . . . . 493
8.B Provando (8.14) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 495
8.C Justificando os Polinômios de Hermite . . . . . . . . . . . . . . . . . . . . . 497
8.D Provando (8.20) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 499
8.E Porque λ deve ser um Inteiro Positivo na Equação de Laguerre . . . . . 500
410
T rataremos no presente capı́tulo de apresentar soluções de equações diferenciais ordinárias

lineares e homogêneas, regulares ou com pontos singulares regulares. Por simplicidade, e
para atender ao interesse de problemas fı́sicos, trataremos apenas de equações de segunda
ordem mas, em essência, tudo o que faremos facilmente se generaliza para equações de ordem
superior. Nossa abordagem estará centrada no chamado método de expansão em série de potências
(para equações regulares) e no método de Frobenius (para equações com singularidades regulares).
Estudaremos tanto casos gerais (com razoável detalhe) quanto equações particulares de interesse em
Fı́sica.
Em um certo sentido, o presente capı́tulo dá continuidade ao Capı́tulo 7, mas dele só utilizaremos
os Teoremas 7.3 e 7.4, das páginas 374 e 377, respectivamente. Esses teoremas fundamentais são as
justificativas dos métodos de solução que empregaremos.
Comentamos ainda que trataremos as equações diferenciais como equações no plano complexo ainda
que, na Fı́sica, o interesse tipicamente resida em equações na reta real pois, como discutimos no Capı́tulo
7, a natureza das soluções e a justificativa dos métodos de solução são melhor entendidas quando
abandonamos as limitações da reta real de modo a explorar a estrutura analı́tica das equações e suas
soluções.
Por vezes, omitiremos detalhes de cálculos e o estudante é convidado a completá-los como exercı́cio.
Apesar de alguns desses cálculos omitidos serem reconhecidamente entediantes (não só os omitidos,
aliás), o estudante deverá fazê-los ao menos uma vez na vida, pois não é possı́vel apoderar-se do
conhecimento aqui desenvolvido apenas por meio de leitura passiva.
O tratamento que faremos de soluções de equações gerais é bastante detalhado, um tanto mais do
que o por vezes encontrado na literatura. Os resultados gerais estão resumidos nos Teoremas 8.1 e 8.2,
adiante. O tratamento de certas equações particulares de interesse em Fı́sica (como as de Legendre,
Hermite, Airy, Chebyshev, Bessel e Laguerre) é razoavelmente completo e várias propriedades espe-
ciais das soluções, tais como relações de ortogonalidade, relações de recorrência, fórmulas do tipo de
Rodrigues, representações integrais etc. (todas importantes na resolução de problemas de Fı́sica) são
discutidas com detalhe no Capı́tulo 9, página 503. Uma omissão é um estudo detalhado do comporta-
mento assintótico de certas soluções. Esperamos que futuramente essa lacuna possa ser completada.
Exemplos selecionados de problemas de Fı́sica onde algumas das equações particulares que discuti-
mos se apresentam (e a conseqüente resolução desses problemas) poderão ser encontrados no Capı́tulo
10, página 583, ao qual remetemos os estudantes interessados em adquirir um pouco de motivação. A
leitura daquele capı́tulo requer um conhecimento parcial das soluções das equações diferenciais e suas
propriedades, de modo que o estudante deverá alternar sua leitura com a do material que a precede
nos Capı́tulos 8 e 9.
A Seção 8.4, página 473, contém um tratamento detalhado das propriedades mais relevantes da
função Gama de Euler.
Todas as equações particulares tratadas, suas soluções e propriedades dessas soluções, são ampla-
mente discutidas na vasta literatura pertinente e a ela remetemos os estudantes interessados. Vide,
por exemplo, [125], [153], [92], [5], [147], [26], [70], [71], [11], [30], [31], [42], [137], [68], [66]. Para uma
abordagem da teoria das funções especiais sob o ponto de vista de teoria de grupos, vide [145].
8.1 Soluções em Séries de Potências para Equações Regulares

Vamos na presente seção ilustrar o Teorema 7.3 da página 374 estudando a solução por série de potências
de algumas equações diferenciais ordinárias, homogêneas de segunda ordem e regulares de interesse
(especialmente em Fı́sica). Boa parte dos métodos apresentados nos exemplos aplicam-se a equações
de ordem maior que dois, mas não trataremos de tais generalizações aqui pois elas pouco apresentam
de especial e seu interesse na Fı́sica é reduzido.
Na Seção 8.2, página 428, ilustraremos o Teorema 7.4, página 377, tratando de forma semelhante
várias equações singulares regulares de interesse pelo método de Frobenius.
Conforme demonstramos em páginas anteriores (Teorema 7.3, página 374), se a equação diferencial
linear homogênea de segunda ordem
y ′′(z) + a(z)y ′ (z) + b(z)y(z) = 0 (8.1)
for tal que os coeficientes a(z) e b(z) são funções analı́ticas de z em torno de um ponto z0 , então suas
soluções serão igualmente analı́ticas em torno desse ponto e poderemos procurar resolvê-la em termos
de séries de potência centradas em z0 :
∞
X
y(z) = cn (z − z0 )n . (8.2)
n=0
O chamado método de série de potências consiste precisamente em inserir o Ansatz (8.2) na equação
(8.1) e determinar recursivamente os coeficientes cn . Pelas conclusões obtidas anteriormente, resumidas
no Teorema 7.3 da página 374, a solução obtida deve ser convergente pelo menos no maior disco aberto
centrado em z0 no qual ambas as funções a(z) e b(z) sejam também analı́ticas.
Ilustraremos a aplicação desse método na resolução da equação do oscilador harmônico simples e
nas equações de Legendre, Hermite, Airy e Chebyshev, todas equações de interesse em Fı́sica. Ao final
discutiremos a solução do problema geral.
8.1.1 A Equação do Oscilador Harmônico Simples

Por razões pedagógicas, vamos começar discutindo uma equação diferencial bastante simples e familiar.
Seja a bem-conhecida equação do oscilador harmônico simples
y ′′(z) + ω02 y(z) = 0 , (8.3)
a(z) = 0 e b(z) = ω02 , ambas analı́ticas em toda parte. Procuremos

onde ω0 é uma constante. Nesse caso P
então uma solução da forma y(z) = ∞ n
n=0 cn z (com z0 = 0). É fácil ver que
∞
X ∞
X ∞
X
n→n+1
y ′ (z) = ncn z n−1 = ncn z n−1 = (n + 1)cn+1 z n ,
n=0 n=1 n=0
ou seja,
∞
X
′
y (z) = (n + 1)cn+1 z n (8.4)
n=0
e que
∞
X ∞
X ∞
X
′′ n−1 n−1 n→n+1
y (z) = n(n + 1)cn+1 z = n(n + 1)cn+1 z = (n + 1)(n + 2)cn+2 z n ,
n=0 n=1 n=0
ou seja,
∞
X
′′
y (z) = (n + 1)(n + 2)cn+2z n . (8.5)
n=0
Inserindo-se (8.4) e (8.5) em (8.3), obtem-se
X∞ h i
(n + 1)(n + 2)cn+2 + ω0 cn z n = 0 .
2
n=0
Como essa última relação supostamente vale para todo z, tem-se forçosamente que os fatores entre
colchetes são todos nulos (por que?):
−ω02
(n + 1)(n + 2)cn+2 + ω02 cn = 0, ou seja, cn+2 = cn (8.6)
(n + 1)(n + 2)
para todo n ≥ 0. A solução dessa última equação recursiva é
(−1)k ω02k (−1)k ω02k
c2k = c0 , c2k+1 = c1 .
(2k)! (2k + 1)!
com k ≥ 0. Essas expressões relacionam todos os coeficientes cn com os dois primeiros coeficientes, c0
e c1 .
P
Inserindo isso na expressão y(z) = ∞ n
n=0 cn z , tem-se
∞
X ∞
X ∞
X ∞
X
(−1)k ω 2k 0 (−1)k ω 2k 0
y(z) = c2k z 2k + c2k+1 z 2k+1 = c0 z 2k + c1 z 2k+1
k=0 k=0 k=0
(2k)! k=0
(2k + 1)!
∞
X ∞
(−1)k 2k c1 X (−1)k
= c0 (ω0 z) + (ω0 z)2k+1
k=0
(2k)! ω0 k=0 (2k + 1)!
c1
= c0 cos(ω0 z) + sen(ω0 z) .
ω0
Na última passagem pudemos identificar as duas séries de potências com as séries de Taylor (em
torno de 0) das funções seno e co-seno. Notemos que em problemas menos simples, como os que
encontraremos adiante, nem sempre será possı́vel identificar as séries resultantes com as séries de Taylor
de funções previamente conhecidas, o que nos conduzirá à definição de novas funções, as chamadas
funções especiais.
É de se notar que a solução final, y(z) = c0 cos(ω0 z) + ωc10 sen(ω0 z), é analı́tica em toda a parte como
função de z, o que já era esperado do fato de as funções a(z) e b(z) serem funções analı́ticas em toda
parte (duas constantes).
Obtivemos, assim, a bem-conhecida solução do oscilador harmônico simples em termos de uma
combinação linear das funções seno e co-seno. Os coeficientes c0 e c1 podem ser determinados se mais
condições forem impostas à solução. Por exemplo, se impusermos “condições iniciais” y(0) = y0 e
y ′ (0) = v0 , obtemos c0 = y0 e c1 = v0 .
8.1.2 A Equação de Legendre

A equação diferencial
(1 − z 2 )y ′′ (z) − 2zy ′ (z) + λ(λ + 1)y(z) = 0 (8.7)
é denominada equação de Legendre1 de ordem2 λ. Em princı́pio, adotamos λ ∈ C, arbitrário, mas na
maioria das aplicações em Fı́sica apenas valores especiais de λ são considerados, a saber, λ é tomado
um inteiro não-negativo.
A equação de Legendre e uma parente próxima, a equação de Legendre associada, tratada na Seção
8.3.1, página 470, surgem em vários problemas de Fı́sica, do Eletromagnetismo à Mecânica Quântica.
Tipicamente ambas surgem quando da resolução da equação de Helmholtz pelo método de separação
de variáveis em coordenadas esféricas em três dimensões. Vide Capı́tulo 10, página 583.
A equação de Legendre acima pode ser posta na forma padrão (8.1) com
−2z λ(λ + 1)
a(z) = e b(z) = .
1 − z2 1 − z2
Claramente, ambas as funções são analı́ticas emPum disco de raio 1 centrado em z0 = 0. É, portanto,
legı́timo procurarmos soluções na forma y(z) = ∞ n
n=0 cn z (com z0 = 0). Tais soluções serão analı́ticas
pelo menos no disco de raio 1 centrado em z0 = 0.
Inserindo-se (8.4)-(8.5) em (8.7), obtem-se
∞
X ∞
X ∞
X ∞
X
n n+2 n+1
(n + 1)(n + 2)cn+2 z − (n + 1)(n + 2)cn+2z −2 (n + 1)cn+1 z +λ(λ + 1) cn z n = 0 .
n=0
|n=0 {z } |n=0 {z } n=0
I II
(8.8)
É fácil ver que
∞
X ∞
X ∞
X
n+2 n→n−2 n
I ≡ (n + 1)(n + 2)cn+2 z = (n − 1)n cn z = (n − 1)n cn z n , (8.9)
n=0 n=2 n=0
onde, na penúltima igualdade, fizemos a mudança de variáveis n → n − 2 e, na última, acrescentamos

os termos com n = 0 e n = 1 por estes serem nulos. Analogamente,
∞
X ∞
X ∞
X
n→n−1
II ≡ (n + 1)cn+1 z n+1 = ncn z n
= ncn z n , (8.10)
n=0 n=1 n=0
onde, na penúltima igualdade, fizemos a mudança de variáveis n → n − 1 e, na última, acrescentamos

o termo com n = 0 por este ser nulo. Assim, (8.8) fica
∞
X ∞
X ∞
X ∞
X
(n + 1)(n + 2)cn+2 z n − (n − 1)n cn z n − 2 ncn z n + λ(λ + 1) cn z n = 0 ,
n=0 n=0 n=0 n=0
1
2
Aqui a palavra “ordem” não deve ser confundida com a ordem da equação diferencial, que é dois.
ou seja, " #
∞
X
(n + 1)(n + 2)cn+2 − (n − 1)n + 2n − λ(λ + 1) cn z n = 0 .
n=0
Como (n − 1)n + 2n = n(n + 1), obtemos o seguinte conjunto de equações

(n + 1)(n + 2)cn+2 − n(n + 1) − λ(λ + 1) cn = 0 , ∀n ≥ 0 .
Essas expressões fornecem as seguintes equações recursivas para os coeficientes cn :

n(n + 1) − λ(λ + 1)
cn+2 = cn , ∀n ≥ 0 . (8.11)
(n + 1)(n + 2)
De maneira análoga ao que ocorre no caso do oscilador harmônico simples (vide eq. (8.6)), podemos
expressar todos os coeficientes cn com n par em termos de c0 e todos os coeficientes cn com n ı́mpar
em termos de c1 . Mais precisamente, tem-se
k−1
" # k−1
1 Y λ(λ + 1) Y λ(λ + 1)
c2k = 2l(2l + 1) − λ(λ + 1) c0 = − 1− c0 ,
(2k)! 2k 2l(2l + 1)
l=0 l=1
k−1
" # k−1
1 Y 1 Y λ(λ + 1)
c2k+1 = (2l + 1)(2l + 2) − λ(λ + 1) c1 = 1− c1 .
(2k + 1)! l=0 2k + 1 l=0 (2l + 1)(2l + 2)
Para λ ∈ C genérico concluı́mos que a solução geral da equação de Legendre é da forma

(0) (1)
y(z) = c0 yλ (z) + c1 yλ (z) ,
onde
∞ k−1
!
(0)
X z 2k Y
yλ (z) = 2l(2l + 1) − λ(λ + 1) (8.12)
k=0
(2k)! l=0
∞ k−1
!
(1)
X z 2k+1 Y
yλ (z) = (2l + 1)(2l + 2) − λ(λ + 1) (8.13)
k=0
(2k + 1)! l=0
Conforme comentamos, sabemos a priori que ambas as séries acima convergem para |z| < 1. O que
ocorre caso |z| = 1? Isso é respondido na seguinte proposição, cuja demonstração encontra-se no
Apêndice 8.A, página 493 (vide também [125] para uma outra prova semelhante):
Proposição 8.1 Caso λ ∈ R não seja um inteiro não-negativo par, a série em (8.12) diverge em
z = ±1. Caso λ ∈ R não seja um inteiro positivo ı́mpar, a série em (8.13) diverge em z = ±1.
Essa proposição ensina-nos que as soluções (8.12) e (8.13) da equação de Legendre serão divergentes
em z = ±1 caso λ não seja um inteiro não-negativo e isso para qualquer escolha de c0 e c1 não-nulos.
Em aplicações, porém, é muito importante ter-se soluções finitas no intervalo fechado real [−1, 1] de
valores de z. A única esperança que resta reside na situação na qual λ é um inteiro não-negativo e, de
(0) (1)
fato, podemos verificar que em tal caso yλ é finita se λ for par e que yλ é finita se λ for ı́mpar.
• Os Polinômios de Legendre
Contemplando a expressão (8.12) facilmente constata-se que no caso em que λ = 2n, um inteiro
não-negativo par, tem-se
n k−1
!
(0)
X z 2k Y
y2n (z) := 2l(2l + 1) − 2n(2n + 1) ,
k=0
(2k)! l=0
que é um polinômio de grau 2n em z.

Analogamente, contemplando a expressão (8.13) facilmente se constata que no caso em que λ =
2n + 1, um inteiro positivo ı́mpar, tem-se
n k−1
!
(1)
X z 2k+1 Y
y2n+1 (z) := (2l + 1)(2l + 2) − (2n + 1)(2n + 2) ,
k=0
(2k + 1)! l=0
que é um polinômio de grau 2n + 1 em z.

Assim, vemos que no caso de λ ser um inteiro não-negativo a equação de Legendre tem uma solução
(0) (1)
finita em toda a parte, a saber, o polinômio c0 y2n (z), caso λ = 2n, par, ou o polinômio c1 y2n+1 (z), caso
λ = 2n + 1, ı́mpar. Definimos, então,
 !


m/2
X z 2k k−1
Y

 (0)

 c0 y m (z) = c0 2l(2l + 1) − m(m + 1) , m par

 (2k)!
k=0 l=0
Pm (z) := .

 (m−1)/2
!

 X z 2k+1 Y
k−1

 c y (1)
(z) = c (2l + 1)(2l + 2) − m(m + 1) , m ı́mpar

 1 m 1
(2k + 1)!
k=0 l=0
É claro pela definição acima que Pm é um polinômio de grau m e o coeficiente do monômio de maior
grau, z m , vale !
m/2−1
1 Y
c0 2l(2l + 1) − m(m + 1) , para m par
m! l=0
e !
(m−3)/2
1 Y
c1 (2l + 1)(2l + 2) − m(m + 1) , para m ı́mpar.
m!
l=0
Por razões históricas, convenciona-se escolher c0 e c1 de modo que o coeficiente do monômio de maior
grau de Pm seja igual a 2m(2m)!
(m!)2
. Como facilmente se constata após alguns cálculos entediantes, isso
conduz à seguinte expressão para os polinômios Pm (z):
⌊m/2⌋
X (−1)a (2m − 2a)!
Pm (z) := m
z m−2a , (8.14)
a=0
2 (m − a)! (m − 2a)! a!
onde ⌊m/2⌋ é o maior inteiro menor ou igual a m/2, ou seja,

 m
jmk  2 , m par,
:=
2  m−1
2
, m ı́mpar.
A prova de (8.14) pode ser encontrada no Apêndice 8.B, página 495.
E. 8.1 Exercı́cio. Tente provar (8.14) sem ler o Apêndice 8.B. 6
A expressão (8.14) define os assim denominados polinômios de Legendre de grau m, cada qual é
solução da equação de Legendre de ordem m
(1 − z 2 )y ′′(z) − 2zy ′ (z) + m(m + 1)y(z) = 0 ,
com m inteiro não-negativo. Como comentamos, essa equação possui, para cada m inteiro não-negativo,
uma segunda solução que é, porém, divergente para z → ±1.
Os quatro primeiros polinômios de Legendre são
1 3 3 5
P0 (z) = 1 , P1 (z) = z , P2 (z) = − + z 2 , P3 (z) = − + z 3 ,
2 2 2 2
como facilmente se vê pela definição acima.
Os polinômios de Legendre possuem várias propriedades importantes, tais como relações de orto-
gonalidade, fórmulas de recorrência etc., as quais serão discutidas na Seção 9.2.1, página 521. Também
remetemos o estudante à literatura pertinente supracitada. A Figura 8.1, página 418, exibe o gráfico
dos primeiros polinômios de Legendre no intervalo [−1, 1].
8.1.3 A Equação de Hermite

y ′′(z) − 2zy ′ (z) + λy(z) = 0, (8.15)
com λ ∈ C é denominada equação de Hermite3 . Essa equação é famosa por surgir em um problema
básico da Mecânica Quântica, a saber, o problema do oscilador harmônico. Vide Seção 10.4, página
608. Comparando à forma padrão (8.1), constatamos que aqui
a(z) = −2z e b(z) = λ .
Ambas essas funções são analı́ticas em todo o plano complexo e, pelo Teorema 7.3 da página 374, assim
serão as soluções da equação de Hermite, sendo que
P∞podemos encontrá-las através de uma expansão
n
em série de potências em torno de z0 = 0: y(z) = n=0 cn z .
∞
X ∞
X ∞
X
n n+1
(n + 1)(n + 2)cn+2 z − 2 (n + 1)cn+1 z +λ cn z n = 0 . (8.16)
n=0 n=0 n=0
| {z }
II
3
P0
1.0
0.8
P1
0.6
0.4 P2
P3 P4
0.2
0.0
−1.0 −0.8 −0.6 −0.4 −0.2 0.0 0.2 0.4 0.6 0.8 1.0
−0.2
−0.4
−0.6
−0.8
−1.0
Figura 8.1: Os polinômios de Legendre P0 a P4 no intervalo [−1, 1].
A soma II pode ser escrita como em (8.10) e, assim, (8.16) fica

∞
X ∞
X ∞
X
n n
(n + 1)(n + 2)cn+2 z − 2 ncn z + λ cn z n = 0 ,
n=0 n=0 n=0
ou seja,
∞ h
X i
(n + 1)(n + 2)cn+2 + (λ − 2n) cn z n = 0 ,
n=0
para todo z ∈ C, o que implica (n + 1)(n + 2)cn+2 + (λ − 2n) cn = 0, ∀n ≥ 0. Disso concluı́mos que
2n − λ
cn+2 = cn , ∀n≥0. (8.17)
(n + 1)(n + 2)
Assim como no caso do oscilador harmônico simples e no caso da equação de Legendre, os coeficientes
cn com n par são proporcionais a c0 e os coeficientes cn com n ı́mpar são proporcionais a c1 . Mais
precisamente, tem-se
k−1
λ λ Y
c2 = − c0 , c2k = −c0 (4l − λ) , k≥2,
2 (2k)! l=1
Y k
1
c2k+1 = c1 (4l − 2 − λ) , k≥1.
(2k + 1)!
l=1
Desta forma, chegamos à seguinte solução geral da equação de Hermite:

(0) (1)
y(z) = c0 yλ (z) + c1 yλ (z) ,
onde
∞
X z 2k Y k−1 ∞
X k
(0) λ (1) z 2k+1 Y
yλ (z) := 1 − z 2 − λ (4l − λ) , yλ (z) := z + (4l − 2 − λ) .
2 (2k)! (2k + 1)!
k=2 l=1 k=1 l=1
Conforme comentamos, o Teorema 7.3 da página 374 garante-nos que ambas as séries acima convergem
(0) (1)
absolutamente para todo z ∈ C, fazendo de yλ e yλ funções inteiras de z.
• Os Polinômios de Hermite
Vamos agora passar à definição dos chamados polinômios de Hermite. Nestas notas usamos a
chamada “definição fı́sica” dos polinômios de Hermite. Há uma outra convenção, usada especialmente
na Teoria das Probabilidades, que difere da definição usada em Fı́sica por um reescalonamento. O
leitor deve, por isso, ter cuidado ao comparar nossas expressões com outras usadas em textos da Teoria
das Probabilidades.
No caso em que z é restrita a ser uma variável real, chamêmo-la x, é possı́vel demonstrar que se λ
for real e as séries acima forem infinitas, então ambas comportam-se, para |x| grande, como funções que
crescem mais rápido que exp(x2 /2). Isso é provado no Apêndice 8.C, página 497, e, por outros meios,
em [92] ou em [88]. No contexto da Mecânica Quântica esse fato é indesejado, pois conduz a funções de
onda que não são de quadrado integrável (vide Seção 10.4, página 608). Assim, interessa-nos investigar
sob quais circunstâncias as séries acima podem ser reduzidas a polinômios.
Como vemos facilmente por (8.17), isso se dá apenas quando λ for um número inteiro não-negativo
e par: λ = 2m, com m = 0, 1, 2, . . . etc. De fato, se λ = 2m, com m = 0, 1, 2, . . . etc., a expressão
(0)
(8.17) diz-nos que 0 = cm+2 = cm+4 = cm+6 = · · · etc. Assim, caso m for par, yλ será um polinômio
(1)
de ordem m e caso m for ı́mpar, yλ será um polinômio de ordem m.
Defina-se, assim,


 m/2 (0)

 (−2) (m − 1)!! y2m (z), para m par,

Hm (z) := (8.18)



 (m+1)/2 (1)
 −(−2) (m!!) y2m (z), para m ı́mpar,
ou seja,
  m


 2m 2 X2
z 2k k−1
Y



 (−2)m/2 (m − 1)!! 1 − z − 2m (4l − 2m) , para m par,

 2 (2k)!
 k=2 l=1
Hm (z) :=   (8.19)

 m−1

 X2 2k+1 Yk

 z

 −(−2)(m+1)/2 (m!!) z + (4l − 2(m + 1)) , para m ı́mpar.
 (2k + 1)!
k=1 l=1
De maneira compacta, podemos escrever isso da seguinte forma

⌊m/2⌋
X (−1)k m!
Hm (z) := (2z)m−2k . (8.20)
k! (m − 2k)!
k=0
A demonstração pode ser encontrada no Apêndice 8.D, página 499.
E. 8.2 Exercı́cio. Tente mostrar isso sem ler o Apêndice 8.D. 6
As funções Hm (z) são polinômios de grau m e são denominados polinômios de Hermite. Os fatores
(−2)m/2 (m − 1)!! e −(−2)(m+1)/2 (m!!) provêm de uma convenção histórica sobre a normalização dos
polinômios de Hermite. Os quatro primeiros são
H0 (z) = 1 , H1 (z) = 2z , H2 (z) = −2 + 4z 2 , H3 (z) = −12z + 8z 3 ,
como facilmente se vê pela definição acima.

Cada polinômio de Hermite Hm é solução da equação de Hermite
y ′′ (z) − 2zy ′ (z) + 2my(z) = 0,
com m inteiro positivo. Como mencionamos, essa equação possui ainda uma segunda solução que,
embora finita para todo z ∈ C, cresce muito rapidamente quando z é real e |z| → ∞, o que elimina seu
interesse no contexto da Mecânica Quântica (especificamente, no problema do oscilador harmônico).
Os polinômios de Hermite possuem várias propriedades importantes, tais como relações de orto-
gonalidade, fórmulas de recorrência etc., que serão discutidas na Seção 9.2.3, página 537. Também
remetemos o estudante à literatura pertinente supracitada.
8.1.4 A Equação de Airy

y ′′(z) − zy(z) = 0.
é denominada equação de Airy4 . Essa equação surge em vários contextos, como por exemplo no
estudo da propagação de ondas eletromagnéticas em meios com ı́ndice de refração variável, no estudo
4
George Biddell Airy (1801-1892). A equação de Airy surgiu originalmente em seus estudos sobre a Teoria do Arco-
Íris. Vide também “On the diffraction of an object-glass with circular aperture”, G. B. Airy, in Transactions of the
Cambridge Philosophical Society (1835).
da reflexão de ondas de radio na atmosfera e, de especial importância, na Mecânica Quântica, mais

especificamente, na equação de Schrödinger de uma partı́cula que se move em uma dimensão sob um
potencial que cresce linearmente com a posição (i.e., sob uma força constante). Na Seção 10.2.3,
página 599, tratamos com detalhe de um outro problema fı́sico onde ocorre a equação de Airy, a saber,
o problema de determinar os modos de vibração de uma corda não-homogênea cuja densidade varia
linearmente com a posição.
Comparando à forma padrão (8.1), constatamos que aqui a(z) = 0 e b(z) = −z. Ambas essas
funções são analı́ticas em todo o plano complexo e, pelo Teorema 7.3 da página 374, assim serão as
soluções da equação de Airy, sendo que
P∞podemos encontrá-las através de uma expansão em série de
n
potências em torno de z0 = 0: y(z) = n=0 cn z .
Inserindo-se (8.5) em (8.15), obtem-se
∞
X ∞
X
n
(n + 1)(n + 2)cn+2 z − cn z n+1 = 0 . (8.21)
n=0 n=0
| {z }
III
A expressão III pode ser escrita como

∞
X ∞
X
n+1
III = cn z = cn−1 z n
n=0 n=1
pela mudança n → n − 1. Assim, a equação de Airy diz-nos que

∞
X ∞
X
n
(n + 1)(n + 2)cn+2 z − cn−1 z n = 0 ,
n=0 n=1
ou seja,
∞ h
X i
2c2 + (n + 1)(n + 2)cn+2 − cn−1 z n = 0 .
n=1
Com isso, devemos ter
c2 = 0 , (n + 1)(n + 2)cn+2 − cn−1 = 0, ∀n≥1.
ou seja,
cn
c2 = 0 , cn+3 = , ∀n≥0. (8.22)
(n + 2)(n + 3)
O conjunto de coeficientes {cn , n = 0, 1, 2, . . .} é a união dos seguintes três conjuntos disjuntos:
{c3k , k = 0, 1, 2, . . .} = {c0 , c3 , c6 , c9 , . . .}
{c3k+1 , k = 0, 1, 2, . . .} = {c1 , c4 , c7 , c10 , . . .}
{c3k+2 , k = 0, 1, 2, . . .} = {c2 , c5 , c8 , c11 , . . .}
As relações de recorrência de (8.22) implicam que os coeficientes do primeiro conjunto acima são
proporcionais a c0 , que os coeficientes do segundo conjunto acima são proporcionais a c1 e que os
coeficientes do terceiro conjunto acima são proporcionais a c2 . Porém, como c2 = 0, concluı́mos que os
coeficientes do terceiro conjunto são todos nulos. Logo,
∞
X ∞
X
3k
y(z) = c3k z + c3k+1 z 3k+1 .
k=0 k=0
As relações de recorrência de (8.22) dizem-nos que

1 1
c3k = c0 , c3k+1 = c1 e c3k+2 = 0 ,
3k k! (3k − 1)!!! 3k k! (3k + 1)!!!
para todo k ≥ 0. Assim, a solução geral da equação de Airy é

"∞ # "∞ #
X z 3k X z 3k+1
y(z) = c0 k
+ c1 k
. (8.23)
3 k! (3k − 1)!!! 3 k! (3k + 1)!!!
k=0 k=0
Como 3k k! = (3k)!!! (por que?), podemos reescrever isso como

"∞ # "∞ #
X z 3k X z 3k+1
y(z) = c0 + c1 .
k=0
(3k)!!! (3k − 1)!!! k=0
(3k)!!! (3k + 1)!!!
• As funções de Airy de primeiro e de segundo tipo
Há ainda uma outra maneira de reescrever (8.23), a saber, usando as identidades

3k Γ k + 32 3k Γ k + 43
(3k − 1)!!! = , (3k + 1)!!! = , (8.24)
Γ 32 Γ 43
sendo, para x ≥ 0, Z ∞
Γ(x) := e−t tx−1 dt (8.25)
0
a bem conhecida Função Gama de Euler, a qual satisfaz
Γ(x + 1) = xΓ(x) . (8.26)
assim como a assim denominada fórmula de duplicação

√
Γ(x)Γ(x + 1/2) = 21−2x πΓ(2x) . (8.27)
A função Gama de Euler e suas propriedades são discutidas com mais detalhe na Seção 8.4, página
473.
E. 8.3 Exercı́cio. Usando (8.26) prove (8.24). 6

Com isso, podemos escrever a solução (8.23) da equação de Airy como

"X ∞
# "X ∞
#
2 z 3k 4 z 3k+1
y(z) = c0 Γ + c1 Γ . (8.28)
3 k=0
32k k! Γ k + 23 3 k=0
32k k! Γ k + 43
Essa expressão pode ser escrita como combinação linear das seguintes funções:
∞
X X∞
z 3k z 3k+1
Ai(z) := − , (8.29)
k=0
32k+2/3 k! Γ k + 23 k=0
32k+4/3 k! Γ k + 43
(8.30)
"∞ ∞
#
X z 3k X z 3k+1
Bi(z) := 31/2 + , (8.31)
k=0
32k+2/3 k! Γ k + 23 k=0
32k+4/3 k! Γ k + 34
as quais são denominadas funções de Airy de primeiro tipo e de segundo tipo, respectivamente. As
funções Ai(z) e Bi(z) foram definidas como acima por convenção histórica. Ambas são analı́ticas
para todo z ∈ C e representam soluções da equação de Airy. Propriedades dessas funções podem ser
estudadas em [92].
Como veremos com um pouco mais de detalhe à página 457, a equação de Airy pode ser transformada
em uma equação de Bessel de ordem 1/3 e as funções de Airy Ai(z) e Bi(z) podem ser escritas em
termos das funções de Bessel J±1/3 . Vide expressões (8.124) e (8.125).
8.1.5 A Equação de Chebyshev

(1 − z 2 )y ′′(z) − z y ′(z) + λ2 y(z) = 0 (8.32)
é denominada equação de Chebyshev5 . Em princı́pio adotamos λ ∈ C arbitrário, mas o maior interesse
estará no caso em que λ é um inteiro não-negativo.
A equação de Chebyshev acima pode ser posta na forma padrão (8.1) com
−z λ2
a(z) = e b(z) = .
1 − z2 1 − z2
Claramente, ambas as funções são analı́ticas emPum disco de raio 1 centrado em z0 = 0. É, portanto,
legı́timo procurarmos soluções na forma y(z) = ∞ n
n=0 cn z (com z0 = 0). Tais soluções serão analı́ticas
pelo menos no disco de raio 1 centrado em z0 = 0.
∞
X ∞
X ∞
X ∞
X
(n + 1)(n + 2)cn+2z n − (n + 1)(n + 2)cn+2 z n+2 − (n + 1)cn+1 z n+1 +λ2 cn z n = 0 . (8.33)
n=0
|n=0 {z } |n=0 {z } n=0
I II
5
Pafnuty Lvovich Chebyshev (1821-1894).
Novamente, I e II são dadas como em (8.9) e (8.10), respectivamente, e, portanto, (8.33) fica
∞
X ∞
X ∞
X ∞
X
n n n 2
(n + 1)(n + 2)cn+2 z − (n − 1)n cn z − ncn z + λ cn z n = 0 ,
n=0 n=1 n=1 n=0
ou seja, " #
∞
X
2c2 + λ2 c0 + (n + 1)(n + 2)cn+2 − (n − 1)n + n − λ2 cn z n = 0 .
n=1
Como (n − 1)n + n = n2 , obtemos o seguinte conjunto de equações
2c2 + λ2 c0 = 0 ,

(n + 1)(n + 2)cn+2 − n2 − λ2 cn = 0 , ∀n ≥ 1 .
Essas expressões fornecem as seguintes equações recursivas para os coeficientes cn :
n2 − λ2
cn+2 = cn , ∀n ≥ 0 . (8.34)
(n + 1)(n + 2)
De maneira análoga ao que fizemos em exemplos anteriores, podemos expressar todos os coeficientes cn
com n par em termos de c0 e todos os coeficientes cn com n ı́mpar em termos de c1 . Mais precisamente,
tem-se
k−1
" #
1 Y
c2k = (2l)2 − λ2 c0 ,
(2k)! l=0
k−1
" #
1 Y
c2k+1 = (2l + 1)2 − λ2 c1 .
(2k + 1)! l=0
Para λ ∈ C genérico concluı́mos que a solução geral da equação de Chebyshev é da forma

(0) (1)
y(z) = c0 yλ (z) + c1 yλ (z) ,
onde
∞ k−1
" #
(0)
X z 2k Y
yλ (z) = 1+ (2l)2 − λ2 , (8.35)
(2k)!
k=1 l=0
∞ k−1
" #
(1)
X z 2k+1 Y
yλ (z) = z + (2l + 1)2 − λ2 . (8.36)
k=1
(2k + 1)! l=0
• Os Polinômios de Chebyshev
Como mencionamos, o principal interesse reside no caso em que λ é um inteiro não-negativo: λ = m.

(0) (1)
Nesse caso é fácil ver que ym (z) será um polinômio de grau m, caso m seja par e ym (z) será um
polinômio de grau m, caso m seja ı́mpar. Esses polinômios são
m/2 k−1
" #
X z 2k Y
(0)
ym (z) = 1 + (2l)2 − m2 , m par,
k=1
(2k)! l=0
(m−1)/2 k−1
" #
X z 2k+1 Y
(1)
ym (z) = z + (2l + 1)2 − m2 , m ı́mpar.
k=1
(2k + 1)! l=0
Por uma convenção histórica, costuma-se redefinir esses polinômios multiplicando-os por uma constante
dependente de m de modo a fazer o coeficiente do monômio de maior grau, z m , igual a 2m−1 . Após
alguns cálculos entediantes o estudante poderá convencer-se que, com essa convenção, os polinômios
acima podem ser escritos de uma forma compacta como
⌊m/2⌋
m X (−1)k (m − k − 1)!
Tm (z) := (2z)m−2k , (8.37)
2 k=0 k! (m − 2k)!
ou ainda como
⌊m/2⌋
X
p m p
Tm (z) = (−1) z m−2p 1 − z 2 , (8.38)
p=0
2p
ambas válidas para todo m = 0, 1, 2, 3, 4, . . .. Os polinômios assim definidos são denominados

polinômios de Chebyshev, os quais desempenham um papel central na teoria da aproximação. Vide,
por exemplo, [34], [141], [130] ou [101].
Os quatro primeiros polinômios de Chebyshev são
T0 (z) = 1 , T1 (z) = z , T2 (z) = 2z 2 − 1 , T3 (z) = 4z 3 − 3z .
Uma das mais curiosas e importantes propriedades dos polinômios de Chebyshev Tm é a seguinte
identidade:
Tm (z) = cos m arccos(z) , (8.39)
a qual pode ser facilmente demonstrada a partir da expressão (8.38). Vide exercı́cio abaixo.
Demonstrar diretamente a validade das expressões (8.37), (8.38) e (8.39) pode ser trabalhoso, por
envolver o uso de várias identidades combinatórias um tanto complicadas. O procedimento mais prático
é provar que todas essas expressões satisfazem a equação de Chebyshev e as mesmas condições iniciais,
por exemplo em z = 0.
De (8.39) segue a interessante propriedade de composição
Tn (Tm (z)) = Tnm (z), (8.40)
válida para todos n, m não-negativos.

E. 8.4 Exercı́cio resolvido. Prove (8.38) a partir de (8.39). Sugestão: defina y = arccos(z) e escreva
o lado direito como

cos m arccos(z) = cos(my)
1 imy
= e + e−imy
2
1
= [(cos y + i seny)m + (cos y − i seny)m ]
2
1 h √ m √ m i
= z + i 1 − z2 + z − i 1 − z2
2
" m m #
1 X m m−p √ p X m √ p
= z i 1 − z2 + z m−p −i 1 − z 2 .
2 p=0 p p=0
p
É muito fácil ver que nas duas somas acima os termos com p ı́mpar cancelam-se mutuamente. Assim,
ficamos com
⌊m/2⌋
X
p m p
cos m arccos(z) = (−1) z m−2p 1 − z 2 ,
p=0
2p
que é o que querı́amos. Para provar (8.39) a partir de (8.38), basta ler as linhas acima do fim para o começo.
6
8.1.6 O Caso de Equações Regulares Gerais

Nas páginas acima resolvemos em vários exemplos particulares a equação
y ′′(z) + a(z)y ′ (z) + b(z)y(z) = 0 (8.41)
em casos em que os coeficientes a(z) e b(z) são funções analı́ticas de z em torno de um ponto z0 . Para
tal, evocando o Teorema 7.3, página 374, procuramos soluções na forma de séries de potências:
∞
X
y(z) = cn (z − z0 )n . (8.42)
n=0
Vamos agora mostrar como o método que descrevemos se aplica ao caso geral no qual as funções a(z)
e b(z) são também dadas em termos de séries de potências:
∞
X ∞
X
n
a(z) = an (z − z0 ) , b(z) = bn (z − z0 )n .
n=0 n=0
Usando novamente (8.4) e (8.5) a equação (8.41) fica (adotamos daqui para frente z0 = 0, sem perda
de generalidade)
∞ ∞
! ∞ ! ∞
! ∞ !
X X X X X
(n + 1)(n + 2)cn+2 z n + an z n (n + 1)cn+1 z n + bn z n cn z n . (8.43)
n=0 n=0 n=0 n=0 n=0
P∞ P∞
Para o produto de duas séries de potência p=0 αp z p e q=0 βq z q vale
∞
! ∞
! ∞ X
∞ ∞ n
!
X X X X X
αp z p βq z q = αp βq z p+q = αn−m βm zn . (8.44)
p=0 q=0 p=0 q=0 n=0 m=0
Assim, (8.43) fica

∞ ∞ n
! ∞ n
!
X X X X X
(n + 1)(n + 2)cn+2z n + an−m (m + 1)cm+1 zn + bn−m cm z n = 0,
n=0 n=0 m=0 n=0 m=0
ou seja,
∞ h
X n
X n
X i
(n + 1)(n + 2)cn+2 + (m + 1)an−m cm+1 + bn−m cm z n = 0,
n=0 m=0 m=0
o que implica
Xn
1
cn+2 = − (m + 1)an−m cm+1 + bn−m cm (8.45)
(n + 1)(n + 2) m=0
para todo n ≥ 0. Observe que essa expressão determina cn+2 em termos de c0 , c1 , . . . , cn+1 . Assim,
apenas fixando c0 e c1 podemos determinar todos os demais coeficientes cn através da expressão recursiva
acima.
Como dissemos,
P∞ os resultados que nos conduziram ao Teorema 7.3, página 374, garantem-nos que
n
a série y(z) = n=0 cn z assim obtida é convergente na mesma região em que convergem as séries
de a(z) e b(z), de modo que não precisamos provar isso. Alguns autores (por exemplo,P∞ [125]) usam
n
as expressões recursivas (8.45) para demonstrar a convergência da série y(z) = n=0 cn z . Como
dissemos, pelo nosso proceder isso não é mais necessário, mas o estudante interessado é convidado a
estudar essa outra (elegante) demonstração no texto supracitado.
Para futura referência, resumimos nossas conclusões sobre equações regulares no seguinte teorema.
Teorema 8.1 (Solução de equações regulares por expansão em série de potências) Considere-
se a equação diferencial
y ′′(z) + a(z)y ′ (z) + b(z)y(z) = 0 , (8.46)
z ∈ C, com a(z) e b(z) analı́ticas em torno de z0 e expressas em termos de suas séries de Taylor em
torno de z0 como
X∞ ∞
X
n
a(z) = an (z − z0 ) , b(z) = bn (z − z0 )n ,
n=0 n=0
séries estas supostas absolutamente convergentes em |z − z0 | < r, para algum r > 0. Então a solução
geral da equação (8.46) pode ser expressa em termos de uma expansão em série de potências em z − z0 :
∞
X
y(z) = cn (z − z0 )n ,
n=0
onde os coeficientes cn podem ser obtidos através das relações recursivas

Xn
1
cn+2 = − (m + 1)an−m cm+1 + bn−m cm , ∀n≥0,
(n + 1)(n + 2) m=0
a partir dos dois primeiros coeficientes c0 e c1 , arbitrários. A expansão em série de potências para y(z)
converge absolutamente pelo menos na região |z − z0 | < r, onde representa uma função analı́tica. 2
8.2 Solução de Equações Singulares Regulares. O Método de

Frobenius
Na presente seção ilustraremos o Teorema 7.4, página 377, estudando a solução, por um método
devido a Frobenius6 , de algumas equações diferenciais ordinárias, homogêneas de segunda ordem e
singulares regulares de interesse (especialmente em Fı́sica). Boa parte dos métodos apresentados nos
exemplos aplicam-se a equações de ordem maior que dois, mas não trataremos de tais generalizações
aqui pois elas pouco apresentam de especial e seu interesse na Fı́sica é reduzido.
Vale aqui novamente a advertência sobre a omissão de alguns detalhes de cálculos, sendo o estudante
novamente convidado a completá-los como exercı́cio (todos merecem ser feitos ao menos uma vez na
vida). Todas as equações particulares tratadas e suas soluções são amplamente discutidos na vasta
literatura pertinente, por exemplo, aquela listada à página 411.
Conforme demonstramos em páginas anteriores (Teorema 7.3, página 374), se a equação diferencial
linear homogênea de segunda ordem
a(z) ′ b(z)
y ′′ (z) + y (z) + y(z) = 0 (8.47)
(z − z0 ) (z − z0 )2
a(z)
for tal que a(z) e b(z) são funções analı́ticas de z em torno de um ponto z0 , então o coeficiente (z−z0 )
b(z)
tem no máximo uma singularidade de tipo polo de ordem 1 em z0 e o coeficiente (z−z 0)
2 tem no máximo
uma singularidade de tipo polo de ordem 2 em z0 . Assim, pelas nossas definições prévias, z0 é um ponto
singular regular da equação (8.47). Nesse caso, o Teorema 7.3, página 374, diz-nos que ou a equação
(8.47) tem duas soluções independentes da forma
∞
X
γ
y(z) = (z − z0 ) cn (z − z0 )n . (8.48)
n=0
P
onde γ ∈ C e a série ∞ n
n=0 cn (z −z0 ) é absolutamente convergente para |z −z0 | < r (e, portanto, repre-
senta uma função analı́tica em torno de z0 ) ou então a equação (8.47) tem duas soluções independentes,
uma da forma (8.48) e outra da forma
∞
X ∞
X
′
y(z) = (z − z0 )γ (ln(z − z0 )) cn (z − z0 )n + (z − z0 )γ vn (z − z0 )n . (8.49)
n=0 n=0
6
Ferdinand Georg Frobenius (1849-1917).
P P∞
onde, novamente as séries ∞ n
n=0 cn (z − z0 ) e
n
n=0 vn (z − z0 ) são absolutamente convergentes para
|z − z0 | < r (e, portanto, representam funções analı́ticas em torno de z0 ). Em ambos os casos acima
r > 0 é o raio do maior disco aberto centrado em z0 dentro do qual a(z) e b(z) são analı́ticas.
O chamado método de Frobenius consiste precisamente em inserir-se o Ansatz (8.48) na equação
(8.47) e determinar recursivamente os coeficientes cn , assim como o expoente γ. Caso duas soluções
distintas sejam encontradas dessa forma, o problema está resolvido. Caso se encontre apenas uma
solução, então uma segunda solução da forma (8.49) deve ser procurada através da determinação
recursiva dos coeficientes cn e vn , assim como dos expoentes γ e γ ′ .
Ao contrário do que fizemos no caso de equações regulares, quando primeiro exploramos exemplos
particulares para depois tratarmos do caso geral, é mais conveniente no presente contexto que nos apo-
deremos primeiramente da análise geral para depois tratarmos de equações especı́ficas, pois uma visão
prévia das complicações envolvidas nos auxiliará a evitar certas armadilhas ocultas no tratamento
de equações singulares regulares particulares7 . Ilustraremos o método de Frobenius apresentando a
resolução da equação de Euler, da equação de Bessel, da equação de Laguerre e das equações hiper-
geométrica e hipergeométrica confluente, todas de interesse em Fı́sica.
O principal teorema que demonstraremos, o qual resume os resultados do método de Frobenius e
expressa a solução de uma equação singular regular homogênea de segunda ordem geral, é o seguinte:
Teorema 8.2 (Solução de equações singulares regulares pelo método de Frobenius) Seja a
equação diferencial
(z − z0 )2 y ′′ (z) + (z − z0 )a(z)y ′ (z) + b(z)y(z) = 0 , (8.50)
z ∈ C, com a(z) e b(z) analı́ticas em torno de z0 e expressas em termos de suas séries de Taylor em
torno de z0 como
X∞ ∞
X
n
a(z) = an (z − z0 ) , b(z) = bn (z − z0 )n ,
n=0 n=0
séries estas supostas absolutamente convergentes em |z − z0 | < r, para algum r > 0.

Seja definido o polinômio de segundo grau
f (x) := x(x − 1) + a0 x + b0 = x2 + (a0 − 1)x + b0 ,
e considere-se a equação algébrica

f (x) = 0 , (8.51)
a qual é denominada equação indicial. Sejam γ± as soluções dessa equação no plano complexo:
p p
1 − a0 − (a0 − 1)2 − 4b0 1 − a0 + (a0 − 1)2 − 4b0
γ− = e γ+ = .
2 2
Então a equação (8.50) possui duas soluções independentes y1 (z) e y2 (z), válidas pelo menos na região
0 < |z − z0 | < r. A forma dessas soluções varia conforme as seguintes condições complementares sobre
γ− e γ+ : 1. γ− − γ+ 6∈ Z, 2. γ− − γ+ = 0 ou 3. γ− − γ+ ∈ Z \ {0}, como enumeramos a seguir:
7
O estudante é convidado a não entrar em pânico diante da aparente complexidade de algumas expressões que
obteremos. Na maioria das equações diferenciais de interesse as funções a(z) e b(z) são apenas polinômios de grau 0, 1
ou 2 e as expressões obtidas no tratamento geral se simplificam um tanto.
1. Caso γ− − γ+ 6∈ Z.
Nesse caso tem-se
∞
X ∞
X
γ− n γ+
y1 (z) = (z − z0 ) cn (γ− )(z − z0 ) e y2 (z) = (z − z0 ) cn (γ+ )(z − z0 )n , (8.52)
n=0 n=0
onde
n−1 h
X i
1
cn (γ± ) = − (m + γ± )an−m + bn−m cm (γ± ) , (8.53)
f (γ± + n) m=0
para todo n ≥ 1. Essas expressões recursivas permitem-nos obter todos os cn (γ− ) a partir de um
c0 (γ− ) não-nulo arbitrário e, respectivamente, todos os cn (γ+ ) a partir de um c0 (γ+ ) não-nulo
arbitrário.
2. Caso γ− − γ+ = 0.
p
Neste caso (a0 − 1)2 − 4b0 = 0 e γ− = γ+ = γ0 com
1 − a0
γ0 :=
2
e tem-se
∞
X ∞
X
γ0 n γ0
y1 (z) = (z−z0 ) cn (γ0 ) (z−z0 ) e y2 (z) = y1 (z) ln(z−z0 )+(z−z0 ) vn (γ0 ) (z−z0 )n ,
n=0 n=0
(8.54)
onde
n−1 h
X i
1
cn (γ0 ) = − (m + γ0 )an−m + bn−m cm (γ0 ) (8.55)
f (γ0 + n) m=0
para todo n ≥ 1, e
" n
1 X
vn (γ0) = − − 2(n + γ0 ) − 1 cn (γ0 ) − an−m cm (γ0 )
f (γ0 + n) m=0
n−1 h
#
X i
+ (m + γ0 )an−m + bn−m vm (γ0 ) , ∀ n ≥ 1 , (8.56)
m=0
onde os coeficientes cn (γ0 ) são obtidos recursivamente a partir de um c0 (γ0 ) não-nulo arbitrário
e os coeficientes vn (γ0 ) são obtidos recursivamente a partir dos coeficientes cm (γ0 ) e a partir de
um v0 (γ0 ) arbitrário (mas que pode ser escolhido igual a zero).
3. Caso γ− − γ+ ∈ Z \ {0}.
p
Neste caso γ− − γ+ = − (a0 − 1)2 − 4b0 é um inteiro não-nulo. Definamos então
p

n0 = (a0 − 1)2 − 4b0 .
Claro está que n0 ∈ {1, 2, 3, 4, . . .}. Definamos também
γ1 := γ− , γ2 := γ+ , caso γ− − γ+ ≥ 1, ou
(8.57)
γ1 := γ+ , γ2 := γ− , caso γ+ − γ− ≥ 1.
Com essas definições tem-se

γ1 = γ2 + n0 .
Então,
∞
X ∞
X
γ1 n γ2
y1 (z) = (z −z0 ) cn (γ1 )(z −z0 ) e y2 (z) = Ay1 (z) ln(z −z0 )+(z −z0 ) vn (z −z0 )n ,
n=0 n=0
(8.58)
onde
n−1 h
X i
1
cn (γ1 ) = − (m + γ1 )an−m + bn−m cm (γ1 ) , (8.59)
f (γ1 + n) m=0
para n ≥ 1 e
 n−1
 1 X



 − (m + γ2 )an−m + bn−m vm , para 1 ≤ n ≤ n0 − 1 ,

 f (γ2 + n) m=0




vn = arbitrário , para n = n0 ,



 " #

 n−1

 1 X

 − f (γ + n) −Agn−n0 +
 (m + γ2 )an−m + bn−m vm , para n > n0 ,
2 m=0
(8.60)
onde,
0 −1
nX
1
A = − [(m + γ2 )an0 −m + bn0 −m ] vm (8.61)
c0 (γ1 ) n0 m=0
e n
X
gn = [2(n + γ1 ) − 1] cn (γ1 ) + an−m cm (γ1 ) , n≥0. (8.62)
m=0
As expressões recursivas para cn (γ1 ) dependem de um c0 (γ1 ) não-nulo e arbitrário e as expressões

recursivas para vn dependem também de um v0 arbitrário.
Todas as séries de potência em z − z0 apresentadas acima convergem absolutamente pelo menos na

região |z − z0 | < r e nela representam, portanto, funções analı́ticas. 2
Para a demonstração desse teorema devotaremos toda a Seção 8.2.1. Em uma primeira leitura o
estudante poderá dispensar-se de um estudo detalhado da demonstração e passar mais rapidamente
aos exemplos discutidos na Seção 8.2.2, página 441, e seguintes.
8.2.1 Equações Singulares Regulares. O Caso Geral

Daqui para frente, sem perda de generalidade, adotaremos z0 = 0.
Seja, então, a equação (8.47) escrita agora na forma
z 2 y ′′(z) + za(z)y ′ (z) + b(z)y(z) = 0 (8.63)
com a(z) e b(z) analı́ticas em torno de z0 = 0 e expressas em termos de suas séries de Taylor em torno
de 0 como ∞ ∞
X X
n
a(z) = an z , b(z) = bn z n .
n=0 n=0
Sob a luz do Teorema 7.4, página 377, procuraremos primeiramente uma solução na forma
∞
X
y(z) = cn z n+γ . (8.64)
n=0
Antes de iniciarmos nossa análise, comentemos que, sem perda de generalidade, podemos sempre adotar
o primeiro coeficiente, c0 , como não-nulo: c0 6= 0. Isso se deve ao seguinte. Se cm fosse o primeiro
coeficiente não-nulo, terı́amos
X∞
y(z) = cn z n+γ .
n=m
Agora, com a mudança de variável n′ = n − m ficarı́amos com

∞
X ′
y(z) = cn′ +m z n +(γ+m)
n′ =0
redefinindo c′n′ := cn′ +m e γ ′ = γ + m, ficarı́amos com

∞
X ∞
X
′ ′ ′
y(z) = c′n′ z n +γ = c′n z n+γ .
n′ =0 n=0
A última expressão possui a mesma estrutura de (8.64) mas, como se vê, o primeiro coeficiente é
c′0 = cm , que é não-nulo, por hipótese.
Isto posto, passemos a analisar o que se passa inserindo a expressão (8.64) em (8.63). Para (8.64)
valem ∞
X
y ′(z) = (n + γ)cn z n+γ−1 (8.65)
n=0
e ∞
X
′′
y (z) = (n + γ)(n + γ − 1)cn z n+γ−2 , (8.66)
n=0
a equação (8.63) fica

∞ ∞
! ∞ ∞
! ∞
X X X X X
n+γ n n+γ n
(n + γ)(n + γ − 1)cn z + an z (n + γ)cn z + bn z cn z n+γ = 0.
n=0 n=0 n=0 n=0 n=0
Usando novamente (8.44), isso fica

∞ ∞ n
! ∞ n
!
X X X X X
(n + γ)(n + γ − 1)cn z n+γ + an−m (m + γ)cm z n+γ + bn−m cm z n+γ = 0.
n=0 n=0 m=0 n=0 m=0
ou seja,
∞
" n
! n
!#
X X X
(n + γ)(n + γ − 1)cn + an−m (m + γ)cm + bn−m cm z n+γ = 0
n=0 m=0 m=0
que implica
h i
γ(γ − 1) + a0 γ + b0 c0 = 0 ,
h i n−1 h
X i
(n + γ)(n + γ − 1) + a0 (n + γ) + b0 cn = − an−m (m + γ) + bn−m cm , ∀n ≥ 1 .
m=0
para todo n ≥ 0. Como c0 6= 0, temos que
γ(γ − 1) + a0 γ + b0 = 0 , (8.67)
h i n−1 h
X i
(n + γ)(n + γ − 1) + a0 (n + γ) + b0 cn = − an−m (m + γ) + bn−m cm , ∀ n ≥ 1 . (8.68)
m=0
A equação (8.67) é denominada na literatura equação indicial, por ser uma equação algébrica (de
segundo grau) para o ı́ndice γ. Antes de escrevermos a solução dessa equação, denotemos por f o
polinômio de segundo grau
f (x) = x(x − 1) + a0 x + b0 = x2 + (a0 − 1)x + b0 .
As equações (8.67) e (8.68) podem, claramente, ser reescritas como
f (γ) = 0 , (8.69)
n−1 h
X i
f (γ + n) cn = − an−m (m + γ) + bn−m cm , ∀n ≥ 1 . (8.70)
m=0
A equação f (γ) = 0 é uma equação algébrica de segundo grau, cujas soluções são
p p
1 − a0 − (a0 − 1)2 − 4b0 1 − a0 + (a0 − 1)2 − 4b0
γ− = e γ+ = .
2 2
Assim, a equação indicial f (γ) = 0 obriga o ı́ndice γ a ser γ− ou γ+ . Há dois casos a considerar: o
caso γ− − γ+ 6∈ Z e o caso γ− − γ+ ∈ Z. Trataremos primeiramente do caso γ− − γ+ 6∈ Z, que é o mais
simples.
• O caso γ− − γ+ 6∈ Z
Como a diferença γ− − γ+ não é um número inteiro, tem-se em particular que γ− 6= γ+ . Fora isso,
como γ− e γ+ são os dois únicos zeros (distintos) do polinômio f (x), tem-se que f (γ± + n) 6= 0 para
todos n ≥ 1 inteiros. Se assim não fosse e houvesse n0 ∈ Z com, digamos, f (γ+ + n0 ) = 0 valeria
γ− = γ+ + n0 , ou seja, γ− − γ+ = n0 , que é inteiro: uma contradição. Com isso, podemos de (8.70)
obter
n−1 h
X i
1
cn (γ± ) = − an−m (m + γ± ) + bn−m cm (γ± )
f (γ± + n) m=0
n−1 h
X i
1
= − an−m (m + γ ± ) + bn−m cm (γ± ) , (8.71)
(γ± + n)2 + (a0 − 1)(γ± + n) + b0 m=0
para todo n ≥ 1. Essas expressões recursivas permitem-nos obter todos os cn (γ− ) a partir de um c0 (γ− )
não-nulo arbitrário e, respectivamente, todos os cn (γ+ ) a partir de um c0 (γ+ ) não-nulo arbitrário.
Concluı́mos assim, que no caso γ− − γ+ 6∈ Z a equação diferencial (8.63) (com z0 = 0) possui duas
soluções linearmente independentes y1 (z) e y2 (z), dadas por
∞
X ∞
X
y1 (z) = cn (γ− )z n+γ− e y2 (z) = cn (γ+ )z n+γ+ ,
n=0 n=0
com cn (γ± ) dadas por (8.71), a solução geral sendo uma combinação linear de ambas. As constantes
c0 (γ− ) e c0 (γ+ ) são não-nulas e arbitrárias.
• O caso γ− − γ+ ∈ Z
O caso γ− −γ+ ∈ Z subdivide-se em dois: o caso γ− −γ+ = 0 e o caso γ− −γ+ ∈ Z\{0}. Comecemos
com o primeiro.
• O caso γ− = γ+
O caso γ− = γ+ ocorre se e somente se (a0 − 1)2 − 4b0 = 0 e, portanto, tem-se γ− = γ+ = γ0 , com

1 − a0
γ0 := . (8.72)
2
Note-se que se (a0 − 1)2 − 4b0 = 0 a equação f (x) = 0 tem apenas γ0 por raiz e, portanto, f (n + γ0 ) 6= 0
para todo n ≥ 1. Conseqüentemente, os coeficientes cn com n ≥ 1 serão dados recursivamente por
(vide (8.70))
n−1 h
X i
1
cn (γ0 ) = − an−m (m + γ0 ) + bn−m cm (γ0 )
f (γ0 + n) m=0
X
n−1 h i
1
= − 2
an−m (m + γ0 ) + bn−m cm (γ0 ) , (8.73)
(γ0 + n) + (a0 − 1)(γ0 + n) + b0 m=0
para todo n ≥ 1. Como se constata, a última expressão relaciona cn com os coeficientes anteriores
cn−1 , . . . , c0 . Assim, fixando apenas c0 todos os demais estão determinados. Obtemos dessa forma,
para o caso (a0 − 1)2 − 4b0 = 0 a solução
∞
X
y1 (z) = cn (γ0 ) z n+γ0 , (8.74)
n=0
onde os coeficientes cn (γ0 ) são obtidos recursivamente de (8.73) a partir de um c0 arbitrário. Pelo
Teorema 7.4, página 377, a série acima será convergente (ao menos na região onde as séries de a(z) e
b(z) convergem).
Com esse proceder obtivemos apenas uma solução da equação diferencial (8.63). Como a mesma
é de segunda ordem, uma segunda solução deverá existir. Novamente, o Teorema 7.4, página 377,
indica-nos que essa segunda solução pode ter uma singularidade logarı́tmica. Podemos procurar essa
segunda solução seguindo um procedimento devido a D’Alembert8 , que consiste em procurar soluções
da forma
y2 (z) = Ay1 (z) ln(z) + v(z) , (8.75)
sendo y1 (z) a solução já conhecida em (8.74) e onde A é uma constante a ser determinada, assim como
a função v(z). Note-se que o Ansatz (8.75) está de acordo com o Teorema 7.4, página 377, que prevê a
ocorrência de soluções com uma singularidade logarı́tmica. A especialidade do Ansatz de D’Alembert
está em espertamente9 prever que o fator que multiplica ln(z) é a primeira solução y1 (z).
Substituindo (8.75) na equação (8.63), obtem-se a seguinte equação para v(z):

z 2 v ′′ (z) + za(z)v ′ (z) + b(z)v(z) = −A 2zy1′ (z) + (a(z) − 1)y1 (z) . (8.76)
Como facilmente se verifica, o lado direito é dado pela expansão

∞
X
−A fn z n+γ0 , (8.77)
n=0
onde n
X
fn = [2(n + γ0 ) − 1] cn (γ0 ) + an−m cm (γ0) . (8.78)
m=0
P
A equação (8.77) sugere que uma solução para v(z) deve ser procurada na forma v(z) = ∞ n=0 vn z
n+γ0
.
Inserindo isso em (8.76) tem-se
" n h
#
X∞ X i X∞
(n + γ0 )(n + γ0 − 1)vn + (m + γ0 )an−m + bn−m vm z n+γ0 = −A fn z n+γ0 ,
n=0 m=0 n=0
8
9
Na literatura matemática o truque é por vezes denominado método de redução de D’Alembert e pode ser usado em
várias equações diferenciais de segunda ordem para se obter uma segunda solução da equação a partir de uma primeira
solução conhecida.
que implica
n h
X i
(n + γ0 )(n + γ0 − 1)vn + (m + γ0 )an−m + bn−m vm = −Afn
m=0
para todo n ≥ 0. Para n = 0 a relação acima é

h i
γ0 (γ0 − 1) + a0 γ0 + b0 v0 = −Af0 ,
que é uma identidade trivial, já que γ0 (γ0 − 1) + a0 γ0 + b0 = 0 e que f0 = γ0 [2γ0 − 1 + a0 ] c0 (γ0 ) = 0,
por (8.72). Para n ≥ 1 tem-se, porém,
" n−1 h
X i
#
1
vn = − −Afn + (m + γ0 )an−m + bn−m vm , ∀ n ≥ 1 ,
(γ0 + n)2 + (γ0 + n)(a0 − 1) + b0 m=0
(8.79)
o que permite obter recursivamente todos os vn a partir de v0 . Expressando-se os fn ’s como em (8.78),
tem-se
" n
X
1
vn (γ0 ) = − 2
−[2(n + γ0 ) − 1] cn (γ0 ) − an−m cm (γ0 )
(γ0 + n) + (γ0 + n)(a0 − 1) + b0 m=0
n−1 h
#
X i
+ (m + γ0 )an−m + bn−m vm , ∀ n ≥ 1 , (8.80)
m=0
que expressa os vn ’s em termos dos coeficientes cn (γ0 ) de y1 (z), os quais, por sua vez, são dados pelas
relações recursivas (8.73)10 , e de v0 (γ0 ) arbitrário.
Observemos, por fim, que A deve, nesse caso, ser forçosamente não-nulo, pois se tomássemos A = 0
verı́amos por (8.80) que os coeficientes vn satisfazem as mesmas relações de recorrência dos cn (γ0 ).
Assim, v(z) e y1 (z) não seriam linearmente independentes. Podemos, portanto, adotar sem perda de
generalidade A = 1.
Resumindo nossas conclusões, caso (a0 − 1)2 − 4b0 = 0, a solução da equação diferencial (8.63) (com
z0 = 0) possui duas soluções linearmente independentes y1 (z) e y2 (z), dadas por
∞
X ∞
X
y1 (z) = cn (γ0 )z n+γ0 e y2 (z) = y1 (z) ln(z) + vn (γ0 )z n+γ0 ,
n=0 n=0
com γ0 = (1 − a0 )/2, com os cn (γ0 )’s dados em (8.73) e com os vn (γ0 )’s dados em (8.80), tomando-se
A = 1. As constantes c0 (γ) e v0 (γ) são não-nulas e arbitrárias.
É de se notar que, como A é não-nulo, uma das soluções possui uma singularidade logarı́tmica.
• O caso γ− − γ+ ∈ Z \ {0}
10
Vide nota de rodapé da página 429.
Esse último caso, com a generalidade com que o abordamos aqui, é o mais complexo e o estu-
dante poderá dispensar seu estudo detalhado em uma primeira leitura, atendo-se preferencialmente aos
exemplos das equações de Bessel e Laguerre, das quais trataremos adiante.
O caso γ− − γ+ ∈ Z \ {0} é semelhante ao caso anterior onde γ− = γ+ , a principal diferença sendo
que aqui podem ocorrer situações onde A = 0, de modo que ambas as soluções podem ser livres de
singularidades logarı́tmicas. De fato, sabe-se de equações particulares onde tem-se A = 0 (um exemplo
sendo a equação de Bessel de ordem 1/2) e de equações particulares onde tem-se A 6= 0 (um exemplo
sendo a equação de Bessel de ordem 1).
p
Comecemos com algumas definições. O caso γ− − γ+ ∈ Z \ {0} só pode ocorrer se (a0 − 1)2 − 4b0
for um inteiro não nulo. Definamos então
p

n0 = (a0 − 1)2 − 4b0 .
Claro está que n0 ∈ {1, 2, 3, 4, . . .}. Como γ− − γ+ é um inteiro não-nulo, definamos também
γ1 := γ− , γ2 := γ+ , caso γ− − γ+ ≥ 1, ou
(8.81)
γ1 := γ+ , γ2 := γ− , caso γ+ − γ− ≥ 1.
Com essas definições, está sempre garantido que
γ1 = γ2 + n0 .
Isso diz-nos que para todo n ≥ 1 a expressão f (γ1 +n) não pode se anular, pois se assim o fosse terı́amos
forçosamente γ1 + n = γ2 , ou seja, n = −n0 , um absurdo, já que n0 ≥ 1. Por outro lado, existe um
único valor de n para o qual f (γ2 + n) se anula, a saber n = n0 .
Com isso em mente, vemos que para a solução γ = γ1 da equação indicial, a expressão (8.70)
permite-nos obter todos os coeficientes cn a partir de um c0 não nulo:
n−1 h
X i
1
cn (γ1 ) = − an−m (m + γ1 ) + bn−m cm (γ1 )
f (γ1 + n) m=0
n−1 h
X i
1
= − an−m (m + γ 1 ) + bn−m cm (γ1 ) , (8.82)
(γ1 + n)2 + (a0 − 1)(γ1 + n) + b0 m=0
para todo n ≥ 1. Isso fornece-nos a primeira solução da equação diferencial (8.63) (com z0 = 0):
∞
X
y1 (z) = cn (γ1 )z n+γ1 , (8.83)
n=0
com os cn (γ1 ) dados em (8.82) em termos de c0 (γ1 ), arbitrário mas não-nulo.

Passemos a procurar a segunda solução independente da equação diferencial (8.63).
O caso da solução γ = γ2 da equação indicial requer cuidado pois, como comentamos, vale que
f (γ2 + n0 ) = 0. Assim, para n = n0 a equação (8.70) só faz sentido se o lado direito for igualmente
nulo:
0 −1h
nX i
an0 −m (m + γ2 ) + bn0 −m cm (γ2 ) = 0 . (8.84)
m=0
Essa relação pode ou não ser satisfeita, dependendo da equação diferencial tratada. Por exemplo, no
caso da equação de Bessel de ordem semi-inteira (ou seja, de ordem 1/2, 3/2, 5/2 etc.) verifica-se que
a relação (8.84) é satisfeita. Já no caso da equação de Bessel de ordem inteira verifica-se que a relação
(8.84) não é satisfeita. Isso será discutido explicitamente na Seção 8.2.3, página 444.
Devemos, portanto, separar provisoriamente os dois casos: aquele no qual (8.84) é satisfeita e aquele
no qual não é. Posteriormente veremos que essa separação é supérflua, mas por ora ela é logicamente
necessária.
Na situação feliz em que (8.84) é satisfeita, o coeficiente cn0 (γ2 ) fica indeterminado e pode ser
escolhido livremente, já que as equações recursivas (8.70) não o fixam e nada mais há para fixá-los.
Com isso, as equações recursivas (8.70) determinam todos os demais coeficientes cn (γ2 ), n ≥ 1, n 6= n0 ,
a partir de um c0 (γ2 ) não-nulo mas arbitrário. Assim, obtemos a solução
∞
X
y2 (z) = cn (γ2 )z n+γ2 , (8.85)
n=0
com
n−1 h
X i
1
cn (γ2 ) = − an−m (m + γ2 ) + bn−m cm (γ2 )
f (γ2 + n) m=0
n−1 h
X i
1
= − an−m (m + γ2 ) + bn−m cm (γ2 ) , (8.86)
(γ2 + n)2 + (a0 − 1)(γ2 + n) + b0 m=0
para todo n ≥ 1, n 6= n0 e cn0 (γ2 ) = constante arbitrária11 .

Resta-nos ainda tratar do caso em que a relação (8.84) não é satisfeita. Aqui, devemos proceder
como fizemos no caso γ− = γ+ e procurar uma solução na forma y2 (z) = Ay1 (z) ln(z) + v(z), com A
sendo uma constante e y1 sendo a solução já conhecida (8.83). Substituindo isso na equação (8.63),
obtem-se novamente a equação (8.76) para v(z).
Como facilmente se verifica, o lado direito de (8.76) é dado pela expansão
∞
X ∞
X
n+γ1
−A gn (γ1 )z = −A gn (γ1 )z n+n0 +γ2 , (8.87)
n=0 n=0
onde, como antes,

n
X
gn (γ1 ) = [2(n + γ1 ) − 1] cn (γ1 ) + an−m cm (γ1 ) , n≥0, (8.88)
m=0
os coeficientes cm (γ1 ) sendo dados por (8.82).

11
O que ocorre se, por opção, escolhermos cn0 (γ2 ) não-nulo? Nesse caso terı́amos um termo a mais em y2 (z) do tipo
cn0 z n0 +γ2 = cn0 z γ1 . Esse termo se adicionaria na solução geral ao termo c0 (γ1 )z γ1 proveniente da solução y1 (z), ou
seja, corresponderia a uma nova escolha da constante arbitrária c0 (γ1 ), não representando, assim, nenhuma mudança na
solução geral.
A equação (8.87) sugere que uma solução para v(z) deve ser procurada na forma
∞
X
v(z) = vn z n+γ2 .
n=0
Inserindo isso em (8.76) tem-se
∞
" n
! n
!#
X X X
(n + γ2 )(n + γ2 − 1)vn + an−m (m + γ2 )vm + bn−m vm z n+γ2
n=0 m=0 m=0
∞
X
= −A gn−n0 (γ1 )z n+γ2 ,
n=n0
o que implica
n h
X i
(n + γ2 )(n + γ2 − 1)vn + (m + γ2 )an−m + bn−m vm = 0, n = 0, . . . , n0 − 1 , (8.89)
m=0
n h
X i
(n + γ2 )(n + γ2 − 1)vn + (m + γ2 )an−m + bn−m vm = −Agn−n0 (γ1 ), ∀n ≥ n0 . (8.90)
m=0
Para n = 0 a relação (8.89) tem a forma

h i
γ2 (γ2 − 1) + a0 γ2 + b0 v0 = 0,
mas como o fator entre colchetes é f (γ2 ) = 0, concluı́mos que essa relação é trivialmente satisfeita e,
assim, v0 pode ser escolhido livremente. Para 1 ≤ n ≤ n0 − 1, (8.89) implica que
n−1 h
X i
1
vn = − (m + γ2 )an−m + bn−m vm
f (γ2 + n) m=0
n−1 h
X i
1
= − (m + γ )a
2 n−m + bn−m vm (8.91)
(γ2 + n)2 + (a0 − 1)(γ2 + n) + b0 m=0
Para n = n0 a relação (8.90) é
h i 0 −1h
nX i
(n0 + γ2 )(n0 + γ2 − 1) + a0 (n0 + γ2 ) + b0 vn0 + (m + γ2 )an0 −m + bn0 −m vm
m=0
= −A[2γ1 − 1 + a0 ] c0 (γ1 ) .
Como (n0 + γ2 )(n0 + γ2 − 1) + a0 (n0 + γ2 ) + b0 = f (n0 + γ2 ) = f (γ1) = 0, ficamos apenas com

0 −1
nX
p
[(m + γ2 )an0 −m + bn0 −m ] vm = −A[2γ1 − 1 + a0 ] c0 (γ1 ) = ∓A (a1 − 1)2 − 4b0 c0 (γ1 ) , (8.92)
m=0
o sinal ∓ dependendo
p de se ter γ1 = γ+ ou γ1 = γ− , respectivamente. É fácil ver, porém, que em
qualquer caso ∓ (a1 − 1)2 − 4b0 = −n0 . A relação (8.92) fixa A:
nX
0 −1
1
A = − [(m + γ2 )an0 −m + bn0 −m ] vm , (8.93)
c0 (γ1 ) n0 m=0
com os vm fixados na expressão (8.91) em função de v0 6= 0 arbitrário.
O coeficiente vn0 não é fixado por nenhuma das relações anteriores e pode ser escolhido livremente.
Sua presença adiciona um termo do tipo vn0 z n0 +γ2 = vn0 z γ1 à solução geral e aplica-se novamente o
comentário de rodapé da página 438.
Para n > n0 , tem-se ainda por (8.90)
" n−1 h
#
1 X i
vn = − −Agn−n0 (γ1 ) + an−m (m + γ2 ) + bn−m vm
f (γ2 + n) m=0
" n−1 h
X i
#
1
= − 2
−Agn−n0 (γ1 ) + an−m (m + γ2 ) + bn−m vm .
(γ2 + n) + (γ2 + n)(a0 − 1) + b0 m=0
(8.94)
com os gn (γ1 ) fixados em (8.88) em termos dos coeficientes cm (γ1 ) da solução y1 (z).
As expressões (8.91), (8.93) e (8.94) permitem fixar todos os vn ’s e a constante A em termos de v0 6= 0
e de vn0 , arbitrários. Observemos, A não é forçosamente nulo, nem pode ser escolhido arbitrariamente.
Sobre a constante A vale ainda uma observação importante.
• A condição (8.84) e a constante A
Observe o leitor que as relações de recorrência (8.91), que fixam os vm ’s com m = 0, . . . , n0 − 1, são
idênticas às de (8.86), que fixam todos os cm (γ2 )’s, em particular aqueles com m = 0, . . . , n0 − 1. Os
vm ’s são fixados por um v0 inicial não-nulo e os cm (γ2 )’s por um c0 (γ2 ) inicial não-nulo. Contemplando
aquelas relações de recorrência, um minuto de meditação nos leva a perceber que todos os vm são
proporcionais a v0 e que todos os cm (γ2 ) são proporcionais a c0 (γ2 ). Como as relações de recorrência
são idênticas, concluı́mos que
v0
vm = cm (γ2 ) para todo m = 0, . . . , n0 − 1 .
c0 (γ2 )
Agora, pela expressão (8.93), A é proporcional a
0 −1
nX n0 −1
v0 X
[(m + γ2 )an0 −m + bn0 −m ] vm = [(m + γ2 )an0 −m + bn0 −m ] cm (γ2 ) .
m=0
c0 (γ2 ) m=0
A última soma, porém, é idêntica àquela de (8.84)! Assim, percebemos que, sob a hipótese que (8.84)
não é satisfeita, tem-se que A 6= 0.
Por outro lado, se (8.84) é satisfeita, então A = 0. Mas se A = 0, as relações de recorrência (8.94)
tornam-se também idênticas àquelas de (8.86), que fixam todos os cm (γ2 )’s. Concluı́mos então, que
nesse caso em que A = 0 (ou seja, sob (8.63)) vale também
v0
vm = cm (γ2 ) ,
c0 (γ2 )
mas agora para todo m ≥ 0. Assim, para A = 0 a solução y2 (z) = A ln(z)y1 (z)+v(z) reduz-se (a menos
de uma constante multiplicativa trivial) à solução para y2 (z) dada em (8.85), obtida sob a condição
(8.84).
Nesse sentido, a condição (8.84) é supérflua e podemos unificar as soluções que obtivemos nos casos
em que (8.84) é ou não é satisfeita e resumir nossas conclusões da seguinte forma:
Para γ− − γ+ 6∈ Z \ {0}, a equação diferencial (8.63) (com z0 = 0) tem duas soluções independentes
y1 (z) e y2 (z), onde:
∞
X ∞
X
n+γ1
y1 (z) = cn (γ1 )z e y2 (z) = Ay1 (z) ln(z) + vn z n+γ2 ,
n=0 n=0
onde os cn (γ1 ), n ≥ 1, também estão definidos em (8.82) a partir de um c0 (γ1 ) não-nulo arbitrário e
onde os vn ’s com n ≥ 1, n 6= n0 , e a constante A são fixados em (8.91), (8.93) e (8.94) em termos de
v0 6= 0 e de vn0 , arbitrários.
Como mencionamos, há casos em que A = 0, exemplos sendo as equação de Bessel de ordem
semi-inteira e a equação de Euler, para certos parâmetros.
Com tudo isso a demonstração do Teorema 8.2 está completa e podemos passar ao estudo de
exemplos particulares.
8.2.2 A Equação de Euler Revisitada

A equação de Euler12 (de segunda ordem) é a equação diferencial
z 2 y ′′(z) + azy ′ (z) + by(z) = 0,
onde a e b são constantes. Comparando com a forma (8.50), vemos que z0 = 0 é um ponto singular
regular da equação, vemos que a(z) = a e que b(z) = b. Assim, no presente caso tem-se

a, para n = 0 b, para n = 0
an = , bn = .
0, para n ≥ 1 0, para n ≥ 1
12
Leonhard Euler (1707-1783). Um dos matemáticos mais prolı́ficos e influentes de todos os tempos, Euler foi um dos
fundadores da teoria das equações diferenciais e deixou contribuições seminais em inúmeros campos da Matemática e
da Fı́sica. A equação de Euler apresentada abaixo é uma das várias que levam seu nome. Há uma outra equação de
Euler na Mecânica dos Fluidos, assim como fórmulas de Euler, invariantes de Euler, métodos de Euler, Ansätze de Euler,
multiplicadores de Euler, constantes de Euler, ângulos de Euler, problemas de Euler, conjecturas de Euler, teoremas de
Euler etc. Boa parte da notação matemática usada atualmente é também sua invenção (por exemplo, o sı́mbolo f ′ para
denotar a derivada de uma função f ou o uso da letra e para designar o número 2, 7182818 . . .).
A equação de Euler já foi resolvida à página 377, onde encontramos as soluções (7.73) e (7.74).
Vamos tratá-la aqui sob a luz do Teorema 8.2, página 429. Se procurarmos uma solução na forma
∞
X
y(z) = cn z n+γ , (8.95)
n=0
com ∞
X
′
y (z) = (n + γ)cn z n+γ−1 (8.96)
n=0
e ∞
X
′′
y (z) = (n + γ)(n + γ − 1)cn z n+γ−2 , (8.97)
n=0
a equação de Euler fica

∞
X ∞
X ∞
X
(n + γ)(n + γ − 1)cn z n+γ + a(n + γ)cn z n+γ + bcn z n+γ = 0
n=0 n=0 n=0
ou seja,
∞ h
X i
(n + γ)(n + γ − 1)cn + a(n + γ)cn + bcn z n+γ = 0,
n=0
o que implica
f (n + γ) cn = 0 ∀ n ≥ 0.
onde f é o polinômio de segundo grau.
f (x) := x(x − 1) + ax + b = x2 + (a − 1)x + b .
Sem perda de generalidade,

P∞ podemos sempre adotar c0 6= P0, pois se cm fosse o primeiro coeficiente
∞ ′
não-nulo, a série n=0 cn z n+γ
poderia ser reescrita como n=0 c′n z n+γ com c′n := cn+m e γ ′ = γ + m,
que tem a mesma forma genérica mas com c′0 6= 0.
Assim, devemos impor f (γ) = 0, o que possui duas soluções:
p p
1 − a − (a − 1)2 − 4b 1 − a + (a − 1)2 − 4b
γ− = e γ+ = .
2 2
Se γ− − γ+ não for um inteiro, a equação f (γ± + n) = 0 não é satisfeita para nenhum n ≥ 1 inteiro.
A razão é a seguinte: f é um polinômio de segundo grau e, portanto, possui apenas duas soluções.
Assim, se f (γ± + n) = 0 terı́amos γ± + n = γ∓ , o que implica que γ− − γ+ é inteiro, uma contradição.
Nesse caso, então, temos que adotar cn = 0 para todo n ≥ 1 e as soluções da equação de Euler ficam
y1 (z) = z γ− e y2 (z) = z γ+ . (8.98)
No caso de γ− = γ+ = γ0 = (1 − a)/2, tem-se por (8.54) uma solução na forma

∞
X ∞
X
γ0 n γ0
y1 (z) = z cn (γ0 )z e uma segunda na forma y2 (z) = y1 (z) ln(z) + z vn (γ0 )z n ,
n=0 n=0
com os cn dados em (8.55) e os vn dados em (8.56). Observando (8.55), constata-se que nesse caso
cn (γ0 ) = 0 para todo n, exceto n = 0, pois apenas a0 e b0 podem ser não-nulos. Igualmente, observando
(8.56) constata-se que vn (γ0 ) é proporcional a cn (γ0 ) para todo n ≥ 1 e, com isso, apenas v0 pode ser
não-nulo. Assim, temos nesse caso, tomando c0 = v0 = 1,
y1 (z) = z γ0 e y2 (z) = z γ0 ln(z) + z γ0 .
O termo z γ0 na expressão de y2 (z) é o próprio y1 (z), de modo que podemos tomar como soluções
linearmente independentes as seguintes:
y1 (z) = z γ0 e y2 (z) = z γ0 ln(z) . (8.99)
Por fim, consideremos

p o caso em que γ− − γ+ é um inteiro não-nulo. Definamos γ1 e γ2 como em
(8.57), com n0 = | (a − 1)2 − 4b|.
γ1
P∞ n
Então
P uma solução será y 1 (z) = z n=0 cn (γ1 )z e a outra terá a forma y2 (z) = Ay1 (z) ln(z) +
z γ2 ∞ n
n=0 vn z onde aqui os cn são dados em (8.59), os vn são dados em (8.60) e A é dada em (8.61).
Contemplando (8.59) constata-se que cn (γ1 ) = 0 para todo n ≥ 1, pois apenas a0 e b0 podem
ser não-nulos, sendo que podemos escolher c0 = 1, livremente. Disso concluı́mos que y1 (z) = z γ1 . Por
(8.61) tem-se que A = 0 pois, no caso da equação de Euler, an0 −m = bn0 −m = 0 para m = 0, . . . , n0 −1.
Por (8.60), tem-se analogamente

 0, para 1 ≤ n ≤ n0 − 1 ,
vn = arbitrário , para n = n0 ,

0, para n > n0 ,
Assim, apenas v0 e vn0 são arbitrários, sendo que v0 deve ser não-nulo. Escolhendo v0 = 1 e vn0 = 0,
segue que y2 (z) = z γ2 . Concluindo, vale aqui que
y1 (z) = z γ1 e y2 (z) = z γ2 . (8.100)
Todos esses resultados coincidem, como deveria ser, com aqueles obtidos em (7.73) e (7.74), página
377 e seguintes.
O estudo das soluções da equações de Euler é útil na resolução de equações com singularidades
regulares mais gerais como
z 2 y ′′(z) + za(z)y ′ (z) + b(z)y(z) = 0
pela seguinte razão. Próximo ao ponto singular z0 = 0, podemos aproximar a(z) ≈ a0 e b(z) ≈ b0 , já
que esses são os primeiros termos das expansões de Taylor de a(z) e b(z). Assim, para |z| pequeno o
suficiente, a equação aproxima-se de
z 2 y ′′ (z) + a0 z y ′(z) + b0 y(z) = 0
que é uma equação de Euler com a = a0 e b = b0 . Com isso, vemos que as soluções da equação
geral se aproximam para |z| pequeno daquelas encontradas em (8.98), (8.99) ou (8.100), dependendo
do caso. Esse proceder permite-nos, face a uma equação singular regular geral, estudar qual tipo de
singularidade deve ocorrer próximo ao ponto singular e, com isso, perceber qual das soluções descritas
no Teorema 8.2, página 429, se aplica. Em verdade, a resolução da equação indicial (8.51) fornece o
mesmo tipo de informação.
8.2.3 A Equação de Bessel

Uma das equações diferenciais mais importantes dentro da classe que temos estudado é a equação
de Bessel, a qual surge em vários problemas de Fı́sica e de Matemática aplicada. A mesma pode
ser encontrada, por exemplo, quando da resolução da equação de Helmholtz em duas dimensões em
coordenadas polares ou em três dimensões em coordenadas esféricas (levando às chamadas funções de
Bessel esféricas). Vide para tal o Capı́tulo 10, página 583. Para alguns comentários históricos sobre a
origem das equações de Bessel e das funções de Bessel, vide página 548.
z 2 y ′′(z) + zy ′ (z) + (z 2 − ν 2 )y(z) = 0, (8.101)
com z ∈ C, onde ν ∈ C é uma constante, é denominada equação de Bessel13 de ordem ν. Comparando
com a forma (8.50), vemos que z0 = 0 é um ponto singular regular da equação, vemos que a(z) = 1 e
que b(z) = z 2 − ν 2 . Assim, no presente caso tem-se

 −ν 2 , para n = 0
1, para n = 0
an = , bn = 1, para n = 2 .
0, para n ≥ 1 
0, para n = 1 ou n ≥ 3
A equação indicial (8.51) conduz às soluções
γ− = −ν e γ+ = ν .
Há, portanto, três casos a considerar: 1. o caso em que 2ν 6∈ Z, 2. o caso em que 2ν = 0 e 3. o caso
em que 2ν ∈ Z \ {0}. Observe o leitor que as condições 2 e 3 correspondem a ν semi-inteiro ou inteiro.
Os dois casos são os mais relevantes em Fı́sica. O caso de ν inteiro conduz às chamadas funções de
Bessel e o caso de ν semi-inteiro conduz às chamadas funções de Bessel esféricas as quais surgem, por
exemplo, em problemas de propagação de ondas em duas ou três dimensões, respectivamente. Vide
Seção 8.2.4, página 456. Para a origem das funções de Bessel, vide nota histórica à página 548.
Caso 1. 2ν 6∈ Z.
Nesse caso tem-se duas soluções
∞
X
y± = cn (±ν)z n±ν ,
n=0
com cn (±ν) dados por (8.53):

n−1 h
X i
1
cn (±ν) = − (m ± ν)an−m + bn−m cm (±ν) .
n(n + ±2ν) m=0
Podemos nos concentrar apenas nos coeficientes cn (+ν), pois os coeficientes cn (−ν) podem ser obtidos
fazendo-se ν → −ν. Vale
n−1 h
X i
1
cn (ν) = − (m + ν)an−m + bn−m cm (ν) , (8.102)
n(n + 2ν) m=0
13
e tem-se
c1 (ν) = 0 ,
1
c2 (ν) = − c0 (ν) ,
2(2 + 2ν)
1
cn (ν) = − cn−2 (ν), n ≥ 3.
n(n + 2ν)
Com isso, fica claro que
(−1)k
c2k (ν) = c0 (ν) , k≥0.
(2k)!! (2 + 2ν)(4 + 2ν) · · · (2k + 2ν)
c2k+1 (ν) = 0 , k≥0.
E. 8.7 Exercı́cio importante. Mostre isso! 6
A última expressão pode ser reescrita como

(−1)k
c2k (ν) = c0 (ν) , k≥0.
k! 22k (1 + ν)(2 + ν) · · · (k + ν)
c2k+1 (ν) = 0 , k≥0,

onde usamos que (2 + 2ν)(4 + 2ν) · · · (2k + 2ν) = 2k (1 + ν)(2 + ν) · · · (k + ν) e também que (2k)!! = 2k k!.
Como a função Γ definida em (8.25)-(8.26) satisfaz
Γ(k + 1 + ν) = Γ(1 + ν)(1 + ν)(2 + ν) · · · (k + ν) ,
podemos ainda escrever
(−1)k Γ(1 + ν)
c2k (ν) = c0 (ν) , k≥0.
k! 22k Γ(k + 1 + ν)
c2k+1 (ν) = 0 , k≥0.

Por convenção histórica adota-se
1
c0 (ν) =
2ν Γ(1 + ν)
e chega-se com isso à expressão
∞
X (−1)k z 2k+ν
Jν (z) := . (8.103)
k=0
k! Γ(k + 1 + ν) 2
Essa função representa uma das soluções da equação de Bessel de ordem ν para o caso considerado e
é denominada função de Bessel de primeiro tipo e ordem ν. Como comentamos, uma segunda solução
é obtida fazendo-se ν → −ν:
X∞
(−1)k z 2k−ν
J−ν (z) := .
k=0
k! Γ(k + 1 − ν) 2
Concluı́mos, assim, com a constatação que a solução geral da equação de Bessel de ordem ν para o
caso 2ν 6∈ Z é
α1 Jν (z) + α2 J−ν (z) ,
onde α1 e α2 são constantes arbitrárias.
Por convenção histórica, é costume considerar-se também uma combinação linear particular de
J±ν (z), a saber a seguinte:
Jν (z) cos(νπ) − J−ν (z)
Nν (z) := . (8.104)
sen(νπ)
Essa função Nν (z) também representa uma das soluções da equação de Bessel de ordem ν (por ser uma
combinação linear de duas outras) e é denominada função de Bessel de segundo tipo e ordem ν, ou
ainda função de Neumann14 de ordem ν.
Concluı́mos, assim, que a solução geral da equação de Bessel de ordem ν para o caso 2ν 6∈ Z também
pode ser escrita em termos das funções Jν e Nν na forma
β1 Jν (z) + β2 Nν (z) ,
onde β1 e β2 são constantes arbitrárias.

O estudante deve notar que as funções J±ν (z) e Nν (z), para 2ν não-inteiro, são analı́ticas em toda
a parte, exceto em z = 0, onde possuem um ponto de ramificação devido ao fator z ±ν = exp(±ν ln(z)).
Caso 2. 2ν = 0.
No caso em questão aplicam-se
P as soluções (8.54), (8.55) e (8.56). Aqui tem-se γ0 = (1 − a0 )/2 = 0
e para y1 tem-se y1 (z) = ∞ c
n=0 n (0)z n
, com (por (8.55))
1 Xh i
n−1
cn (0) = − man−m + bn−m cm (0) .
n2 m=0
Essas relações são idênticas àquelas de (8.102) (tomando-se aqui ν = 0) e, assim, tem por solução
(−1)k Γ(1) (−1)k

c2k (0) = c 0 (0) , = c0 (0) , k≥0,
k! 22k Γ(k + 1) (k!)2 22k
c2k+1 (0) = 0 , k≥0
onde usamos que Γ(1) = 1 e Γ(k + 1) = k!. Por convenção histórica adota-se
c0 (0) = 1

(−1)k z 2k
X∞
J0 (z) = 2
. (8.105)
k=0
(k!) 2
Essa função representa uma das soluções da equação de Bessel de ordem 0 e é denominada função de
Bessel de primeiro tipo e ordem 0.
14
Carl Neumann (1832-1925).
Para a segunda solução y2 teremos, por (8.54),

∞
X
y2 (z) = J0 (z) ln(z) + vn z n ,
n=0
com os vn dados em (8.56). Como o estudante pode facilmente verificar, adotando-se v0 = 0, obtem-se
para esses coeficientes as seguintes expressões:
(−1)k+1
v2k = hk , k≥0,
(k!)2 22k
v2k+1 = 0 , k≥0
onde
h0 := 0 , (8.106)
Xn
1 1 1 1
hn := 1 + + + · · · + = , ∀n≥1. (8.107)
2 3 n l=1
l
Note-se que v0 = 0.
E. 8.8 Exercı́cio importante. Verifique! 6
Com isso, a segunda solução y2 (z) será

∞
X (−1)k+1 z 2k
y2 (z) = J0 (z) ln(z) + hk . (8.108)
k=1
(k!)2 2
Por convenção histórica, costuma-se considerar também uma particular combinação das soluções
J0 (z) e y2 (z):
!
2 2 z (−1)k+1 hn z 2k
X∞
N0 (z) := y2 (z) + (γ − ln(2))J0 (z) = γ + ln J0 (z) + ,
π π 2 k=1
(k!)2 2
(8.109)
15 16
onde γ é a chamada constante de Euler-Mascheroni , definida por :

1 1 1
γ := lim (hn − ln(n)) = lim 1 + + + · · · + − ln(n) ≈ 0, 5772156649 . . . .
n→∞ n→∞ 2 3 n
Essa função N0 (z) também representa uma das soluções da equação de Bessel de ordem 0 (por ser
uma combinação linear de duas outras) e é denominada função de Bessel de segundo tipo e ordem 0,
ou ainda função de Neumann de ordem 0.
15
Leonhard Euler (1707-1783). Lorenzo Mascheroni (1750-1800).
16
Essa constante foi introduzida por Euler em 1735, o qual calculou seus 16 primeiros dı́gitos decimais. Em 1790,
Mascheroni calculou seus 32 primeiros dı́gitos decimais, dos quais apenas os primeiros 19 estavam corretos.
Concluı́mos, assim, com a constatação que a solução geral da equação de Bessel de ordem 0 é
α1 J0 (z) + α2 N0 (z) ,

O estudante deve notar que a primeira solução J0 (z) é uma função analı́tica para todo z ∈ C (pois
a série em (8.105) converge absolutamente para todo z (mostre isso!)). Já a solução N0 (z) é também
analı́tica em toda parte, exceto em z = 0, onde possui uma singularidade logarı́tmica.
Caso 3. 2ν ∈ Z \ {0}.
Como a equação de Bessel é invariante por ν → −ν, podemos sem perda de generalidade tomar
aqui 2ν um inteiro positivo. Como veremos, há dois casos a considerar: a. ν é um inteiro positivo e
b. ν é um semi-inteiro positivo, ou seja, no caso a. tem-se ν = 1, 2, 3, 4, . . . enquanto que no caso
b. tem-se ν = 1/2, 3/2, 5/2, . . ..
Caso a. ν = 1, 2, 3, 4, . . ..
Vamos aqui escrever ν = p, com p sendo um inteiro positivo: p = 1, 2, 3, 4, . . ..
Com essas convenções, tem-se que γ1 = p, γ2 = −p e n0 = 2p. As soluções y1 e y2 são aquelas dadas
em (8.58), (8.59) e (8.60):
∞
X ∞
X
y1 (z) = z p cn (p)z n e y2 (z) = Ay1 (z) ln(z) + z −p vn z n ,
n=0 n=0
onde, segundo (8.59), as constantes cn (p) satisfazem

n−1 h
X i
1
cn (p) = − (m + p)an−m + bn−m cm (p)
f (p + n) m=0
para n ≥ 1. Novamente, essas relações são idênticas àquelas de (8.102) e, assim, suas soluções são
(−1)k Γ(1 + p) (−1)k p!

c2k (p) = c 0 (p) = c0 (p) , k≥0.
k! 22k Γ(k + 1 + p) k! 22k (k + p)!
c2k+1 (p) = 0 , k≥0,
onde usamos que Γ(1 + p) = p! e Γ(k + 1 + p) = (k + p)!. Por convenção histórica adota-se
1
c0 (p) =
2p p!
∞
X (−1)k z 2k+p
Jp (z) = .
k! (k + p)! 2
k=0
Essa função representa uma das soluções da equação de Bessel de ordem p (com p = 1, 2, 3, 4, . . .) e
é denominada função de Bessel de primeiro tipo e ordem p.
1.0
J0
J1
0.5
J2
J3
0.0
0 2 4 6 8 10 12 14 16 18 20 x
−0.5
Figura 8.2: Gráficos das funções de Bessel Jm (x), m = 0, . . . , 3, para x ∈ [0, 20].
O leitor é convidado a constatar que a expressão (8.105) para J0 (z) é idêntica a essa se tomarmos
p = 0. Na Figura 8.2, página 449, exibimos o gráfico de algumas das primeiras funções de Bessel de
ordem inteira.
Procuremos agora a segunda solução y2 (z):
∞
X
−p
y2 (z) = AJp (z) ln(z) + z vn (p)z n .
n=0
Por (8.60),
 n−1
 1 X



 − (m − p)an−m + bn−m vm (p) , para 1 ≤ n ≤ 2p − 1 ,

 f (n − p) m=0




vn (p) = arbitrário , para n = 2p ,



 " #

 n−1

 1 X

 − f (n − p) −Agn−2p +
 (m − p)an−m + bn−m vm (p) , para n > 2p,
m=0
(8.110)
A constante A é dada em (8.61) e, para o presente caso, tem-se

2p−1
1 X 2p p!
A = − [(m − p)a2p−m + b2p−m ] vm (p) = − v2p−2 (p) .
2p c0 (p) m=0 2p
Agora, por (8.60),

2p−3
1 X
v2p−2 (p) = − (m − p)a2p−2−m + b2p−2−m vm (p) ,
f (p − 2) m=0
de onde se vê imediatamente que

1
v2p−2 (p) = v2p−4 (p), p≥2,
22 (p − 1)
e, portanto,
1
v2p−2 (p) = v0 (p), p≥2.
22(p−1) (p − 1)!
Logo, A = −4v0 (p). Adotando-se v0 (p) = −1/4 teremos A = 1 e
∞
X
−p
y2 (z) = Jp (z) ln(z) + z vn (p)z n .
n=0
com
 n−1
 1 X



 − (m − p)an−m + bn−m vm (p) , para 1 ≤ n ≤ 2p − 1 ,

 f (n − p) m=0




vn (p) = arbitrário , para n = 2p ,



 " #

 n−1

 1 X

 − f (n − p) −gn−2p +
 (m − p)an−m + bn−m vm (p) , para n > 2p,
m=0
(8.111)
com os gn dados em (8.62) em termos de cn (p).
Um cálculo um pouco trabalhoso, que nos poupamos de apresentar em detalhe, conduz ao seguinte
resultado:
1 X (p − n − 1)! z 2n−p 1 X (−1)n (hn + hn+p ) z 2n+p

p−1 ∞
y2 (z) = Jp (z) ln(z) − − ,
2 n=0 n! 2 2 n=0 n! (n + p)! 2
com p = 1, 2, 3, 4, . . ..
E. 8.9 Exercı́cio. Tome uma hora livre e mostre isso. 6
O leitor é convidado
P−1 a constatar que a expressão (8.108) é idêntica a essa se tomarmos p = 0 (com
a convenção que n=0 (· · · ) = 0).
Por convenção histórica, costuma-se considerar também uma particular combinação das soluções
Jp (z) e y2 (z):
2
Np (z) := y2 (z) + (γ − ln(2))Jp (z) =
π
!
2 z 1 X (p − n − 1)! z 2n−p 1 X (−1)n (hn + hn+p ) z 2n+p
p−1 ∞
γ + ln Jp (z) − − , (8.112)
π 2 2 n=0 n! 2 2 n=0 n! (n + p)! 2
onde γ é a constante de Euler-Mascheroni mencionada acima. Essa função Np (z) também representa
uma das soluções da equação de Bessel de ordem p (por ser uma combinação linear de duas outras) e
é denominada função de Bessel de segundo tipo e ordem p, ou ainda função de Neumann de ordem p.
Na Figura 8.3, página 451, são exibidos gráficos de algumas das primeiras funções de Neumann.
1
N0
0
0 5 10 15
−1 N1
−2
N2
−3
−4
−5
−6
−7
−8
−9
Figura 8.3: Gráficos das funções de Neumann Nm (x), m = 0, . . . , 2, para x ∈ [1/2, 15]. Todas
divergem em x = 0, a divergência sendo tanto mais forte quanto maior m.
Concluı́mos, assim, com a constatação que a solução geral da equação de Bessel de ordem p, p =
1, 2, 3, 4, . . ., é
α1 Jp (z) + α2 Np (z) ,
O estudante deve notar que a primeira solução Jp (z) é uma função analı́tica para todo z ∈ C (pois
a série em (8.105) converge absolutamente para todo z (mostre isso!)). Já a solução Np (z) é também
analı́tica em toda parte, exceto em z = 0, onde possui uma singularidade logarı́tmica assim como um
polo de ordem p.
Advertência. As funções de Neumann são também por vezes denotadas por Yν .

Precisamos estudar ainda o caso em que ν é um número semi-inteiro onde, diferentemente do caso
que acabamos de estudar, as soluções independentes são ambas livres de singularidades logarı́tmicas.
Caso b. ν = 1/2, 3/2, 5/2, . . ..
Vamos convencionar escrever ν = q + 1/2, com q = 0, 1, 2, . . .. Teremos aqui n0 = (2q + 1),
γ1 = ν = q + 1/2 e γ2 = −ν = −q − 1/2. As soluções y1 e y2 são aquelas dadas em (8.58), (8.59) e
(8.60):
∞
X ∞
X
y1 (z) = z q+1/2 cn (q)z n e y2 (z) = Ay1 (z) ln(z) + z −q−1/2 vn (q)z n ,
n=0 n=0
onde, segundo (8.59), as constantes cn (q) satisfazem
n−1
X
1 1
cn (q) = − m+q+ an−m + bn−m cm (q) , (8.113)
f n + q + 12 m=0 2
para n ≥ 1. Novamente, essas relações são idênticas àquelas de (8.102) com ν substituı́do por q + 1/2
e, assim, suas soluções são

(−1)k Γ 1 + q + 12
c2k (q) = c0 (q) , k ≥ 0 .
k! 22k Γ k + 1 + q + 21
c2k+1 (q) = 0 , k≥0,

onde usamos Γ(1 + q + 1/2) = q!Γ(1/2) e Γ(k + 1 + q + 1/2) = (k + q)!Γ(1/2). Adotando
1
c0 (q) = q+1/2 ,
2 Γ 1 + q + 21
chegamos à expressão
∞
X (−1)k z 2k+q+1/2
Jq+1/2 (z) := .
k=0
k! Γ(k + 1 + q + 1/2) 2
Essa função representa uma das soluções da equação de Bessel de ordem q + 1/2 com q = 0, 1, 2, . . .
e é denominada função de Bessel de primeiro tipo e ordem q + 1/2.
Passemos agora à segunda solução
∞
X
y2 (z) = AJq+1/2 (z) ln(z) + vn (q)z n−q−1/2 .
n=0
Por (8.60),
 n−1

 −1 X 1

 m−q− an−m + bn−m vm (q) , 1 ≤ n ≤ 2q ,

 f n − q − 21 m=0 2





vn (q) = arbitrário , n = 2q + 1 ,



 ( )

 n−1

 −1 X 1

 f n − q − 1 −Agn−2q−1 +
 m−q−
2
an−m + bn−m vm (q) , n > 2q + 1,
2 m=0
onde,
2q
1 X 1
A = − m−q− a2q+1−m + b2q+1−m vm (q) (8.114)
c0 (q) (2q + 1) m=0 2
Para 1 ≤ n ≤ 2q tem-se
−1
vn (q) = vn−2 (q) . (8.115)
f (n − q − 21 )
Porém,
−1 1
v1 (q) = 1 0−q− a1 + b1 v0 (q) = 0 ,
f ( 2 − q) 2
pois a1 = b1 = 0. Conjuntamente com (8.115), isso diz-nos que vn (q) = 0 para todo n ı́mpar com
1 ≤ n ≤ 2q. A importância dessa observação reside no seguinte. Por (8.114) vê-se facilmente que
1
A = − v2q−1 (q) .
c0 (q) (2q + 1)
Portanto, tem-se no caso presente que A = 0 e, assim, a segunda solução é livre de singularidades
logarı́tmicas. Além disso, com A = 0 as expressões recursivas para vn (q) simplificam-se para
 n−1

 −1 X 1

 m−q− an−m + bn−m vm (q) , 1 ≤ n ≤ 2q ,

 f n − q − 21 m=0 2





vn (q) = arbitrário , n = 2q + 1 , (8.116)



 ( n−1 )



 −1 X 1

 f n − q − 1
 m−q−
2
an−m + bn−m vm (q) , n > 2q + 1.
2 m=0
Como já vimos, para 1 ≤ n ≤ 2q os vn (q) com n ı́mpar são nulos. Como v2q+1 é arbitrário, é
conveniente escolhê-lo igual a zero também. Com isso, as relações (8.116) ficam idênticas àquelas de
(8.102) com ν substituı́do por −(q + 1/2) e, assim, suas soluções são

(−1)k Γ 1 − q − 21
v2k (q) = v0 (q) , k ≥ 0 .
k! 22k Γ k + 1 − q − 21
v2k+1 (q) = 0 , k≥0,
Adotando
1
v0 (q) = ,
2−q−1/2 Γ 1 − q − 21
chagamos à seguinte expressão:
∞
X (−1)k z 2k−q−1/2
J−q−1/2 (z) = .
k=0
k! Γ k + 1 − q − 21 2
Essa função representa uma segunda solução da equação de Bessel de ordem q+1/2 com q = 0, 1, 2, . . .
e é denominada função de Bessel de primeiro tipo e ordem −(q + 1/2).
Concluı́mos, assim, que a solução geral da equação de Bessel de ordem q+1/2 com q = 0, 1, 2, 3, . . .,
é
α1 Jq+1/2 (z) + α2 J−q−1/2 (z) ,
Podemos definir também as funções de Neumann de ordem q + 1/2 em analogia com (8.104), mas
aqui, tem-se
Jq+1/2 (z) cos((q + 1/2)π) − J−q−1/2 (z)
Nq+1/2 (z) := = (−1)q+1 J−q−1/2 (z) . (8.117)
sen((q + 1/2)π)
De qualquer forma, a solução geral da equação de Bessel de ordem q + 1/2 com q = 0, 1, 2, 3, . . ., é
β1 Jq+1/2 (z) + β2 Nq+1/2 (z) ,
onde β1 e β2 são constantes arbitrárias.
O estudante é convidado a constatar que Jq+1/2 (z) é uma função analı́tica para todo z ∈ C, z 6= 0,
mas em z = 0 possui uma singularidade como z q+1/2 , que é uma singularidade do tipo ponto ramificação
(de grau 2). Paralelamente, J−q−1/2 (z) (e, portanto, Nq+1/2 (z)) é analı́tica para todo z 6= 0, mas possui
em z = 0 uma singularidade como z −q−1/2 , que é uma singularidade do tipo ponto ramificação (de grau
−2). Essas afirmações são ilustradas no próximo exercı́cio.
E. 8.10 Exercı́cio semi-resolvido. Com q = 0 tem-se pelas nossas definições acima

X∞
(−1)k z 2k+1/2 X∞
(−1)k z 2k−1/2
J1/2 (z) = e J−1/2 (z) = .
k=0
k! Γ(k + 1 + 1/2) 2 k=0
k! Γ k + 21 2
Usando as identidades
√
Γ(3/2) (2k + 1)!! π (2k + 1)!!
Γ(k + 1 + 1/2) = = ,
2k 2 2k
2k k! = (2k)!! , (2k + 1)!!(2k)!! = (2k + 1)! , (2k)!!(2k − 1)!! = (2k)! ,

(prove-as!) teremos,
r ∞ r ∞
−1/2 2 X (−1)k −1/2 2 X (−1)k 2k
J1/2 (z) = z z 2k+1 , e J−1/2 (z) = z z ,
π k=0 (2k + 1)! π k=0 (2k)!
e reconhecemos que
r r
2 sen(z) 2 cos(z)
J1/2 (z) = e J−1/2 (z) = . (8.118)
π z 1/2 π z 1/2
Observe ainda que r
1/2 2 sen(z)
J1/2 (z) = z ,
π z
sen(z)
sendo que z
é uma função analı́tica para todo z ∈ C, inclusive em z = 0 (por que?).
Complete os detalhes faltantes de todos os cálculos indicados acima. 6
E. 8.11 Exercı́cio. Verifique por cálculo explı́cito que as funções sen(z)/z 1/2 e cos(z)/z 1/2 são, de fato,
soluções da equação de Bessel de ordem ν = 1/2. 6
Para futura referência, reunimos nossos resultados sobre as soluções da equação de Bessel no seguinte
teorema:
Teorema 8.3 (Soluções da equação de Bessel) Seja a equação de Bessel de ordem ν ∈ C
z 2 y ′′(z) + zy ′ (z) + (z 2 − ν 2 )y(z) = 0,
com z ∈ C.
1. Caso ν 6∈ Z duas soluções independentes são Jν (z) e J−ν (z), onde

∞
X (−1)k z 2k+ν
Jν (z) := . (8.119)
k=0
k! Γ(k + 1 + ν) 2
Definindo
Jν (z) cos(νπ) − J−ν (z)
Nν (z) := ,
sen(νπ)
as funções Jν (z) e Nν (z) são também duas soluções independentes.
2. Caso ν ∈ Z podemos, sem perda de generalidade, adotar ν ≥ 0, pois a equação de Bessel é

invariante pela mudança ν → −ν. Com essa convenção, duas soluções independentes são Jν (z)
e Nν (z), onde
∞
X (−1)k z 2k+ν X∞
(−1)k z 2k+ν
Jν (z) := = (8.120)
k=0
k! Γ(k + 1 + ν) 2 k=0
k! (k + ν)! 2
Nν (z) :=
!
2 z 1 X (ν − n − 1)! z 2n−ν 1 X (−1)n (hn + hn+ν ) z 2n+ν
ν−1 ∞
γ + ln Jν (z) − − ,
π 2 2 n=0 n! 2 2 n=0 n! (n + ν)! 2
sendo que
n
X
1 1 1 1
h0 := 0 , hn := 1 + + + · · · + = , ∀n≥1.
2 3 n l
l=1
e γ é a constante de Euler-Mascheroni: γ := lim (hn − ln(n)) ≈ 0, 5772156649 . . ..

n→∞
As funções Jν (z), ν ∈ C, são denominadas funções de Bessel de primeiro tipo e ordem ν, ou

simplesmente funções de Bessel de ordem ν. As funções Nν (z), ν ∈ C, são denominadas funções de
Bessel de segundo tipo e ordem ν, ou funções de Neumann de ordem ν. 2
Comentário. O caso em que ν é semi-inteiro está incluı́do no caso 1, acima: ν 6∈ Z.
• Nota sobre as funções de Bessel de ordem inteira negativa
Até o momento definimos as funções de Bessel Jν através das expressões (8.119) e (8.120), mas
apenas para ν’s que não sejam inteiros negativos. A expressão (8.119) contém uma função Γ(x) no
denominador e Γ(x) diverge se x for inteiro negativo. Por isso, em princı́pio (8.119) não está definida
para ν’s inteiros negativos.
A experiência mostrou, porém, que é conveniente definir Jν para ν’s que sejam inteiros negativos
através da seguinte expressão:
J−m (z) := (−1)m Jm (z) , (8.121)
para todo m ∈ N e todo z ∈ C. Note que, como a equação de Bessel é invariante pela troca ν → −ν,
J−m definida acima é solução da equação de Bessel de ordem ±m. A conveniência dessa convenção não
pode ser apreciada no momento, mas irá manifestar-se quando discutirmos algumas propriedades das
funções de Bessel na Seção 9.2.6, que inicia-se na página 548, tais como as relações de recorrência e a
função geratriz.
E. 8.12 Exercı́cio. Mostre que com a convenção acima vale
J−m (−z) = Jm (z), ∀m∈N,
Sugestão: Jm (z) é uma soma de monômios da forma z 2k+m e vale (−z)2k+m = (−1)m z 2k+m . 6
8.2.4 Equações Relacionadas à de Bessel. A Equação de Bessel Esférica

Diversas equações diferenciais podem ser transformadas na de Bessel e podem ter suas soluções ex-
pressas em termos de funções de Bessel e de Neumann. Uma classe bastante geral é composta pelas
equações da forma

z 2 y ′′(z) + (1 − 2α)zy ′ (z) + β 2 γ 2 z 2γ + α2 − ν 2 γ 2 y(z) = 0 , (8.122)
com α, β, γ e ν constantes (com βγ 6= 0), cuja solução mais geral é
az α Jν (βz γ ) + bz α Nν (βz γ ) , (8.123)
onde a e b são constantes arbitrárias.
E. 8.13 Exercı́cio. Prove as afirmações acima, ou seja, prove que (8.123) é asolução geral de (8.122).
Sugestão: defina a função v por y(z) =: z α v(βz γ ) e, substituindo em (8.122), mostre que v satisfaz a
equação de Bessel de ordem ν. 6
Dois casos particulares de interesse, dentro da classe definida em (8.122), são a equação de Airy (que
corresponde a α = 1/2, β = 2/3, γ = 3/2 e ν = 1/3) e a equação de Bessel esférica (que corresponde a
α = −1/2, β = 1, γ = 1 e ν = σ + 1/2). Trataremos desses casos logo abaixo.
O estudante deve observar que, caso 2γ não seja um inteiro positivo ou zero, a equação (8.122) não
é singular regular em z0 = 0 (compare à (8.47)) e, portanto, a ela não se aplica o método de Frobenius.
A solução dada em (8.123), de fato, não é como aquelas obtidas pelo método de Frobenius, que seriam
da forma z η φ(z) ou da forma z η ln(z)φ(z), para alguma constante η e com φ analı́tica em torno de
z0 = 0. Por exemplo, tem-se
z νγ+α X∞
(−1)k β 2k+ν z 2kγ
α γ
z Jν (βz ) = ,
2 k=0
k! Γ(k + 1 + ν) 2
que não é da forma z η φ(z) com φ analı́tica em torno de z0 = 0, pois a série do lado direito não é uma
série de potências em z.
• A equação de Airy e a equação de Bessel
Como dissemos acima, várias equações diferenciais podem ser transformadas em equações de Bessel.
Um exemplo é o da equação de Airy: y ′′(z) − zy(z) = 0, cujas soluções foram apresentadas na Seção
17
8.1.4, página 420. A maneira mais simples de ver isso
√ é a seguinte
. Se y é uma solução da equação de
2 3/2
Airy, então a função v(z) definida por por y(z) =: zv 3 z satisfaz a equação de Bessel de ordem
ν = 1/3, como facilmente se constata.
E. 8.14 Exercı́cio. Verifique isso! 6
Concluı́mos daı́ que

√ as soluções
y(z)
√ da equação de Airy podem ser escritas como combinações
2 3/2 2 3/2
lineares das funções zJ1/3 3 z e zJ−1/3 3 z . Com efeito, pelas definições (8.29)-(8.31) e
(8.119) (para ν = 1/3) pode-se facilmente constatar a validade das relações

z 1/2 2 3/2 2 3/2
Ai(z) = J−1/3 z + J1/3 z , (8.124)
3 3 3

z 1/2 2 3/2 2 3/2
Bi(z) = J−1/3 z − J1/3 z . (8.125)
3 3 3
que permitem expressar as funções de Airy Ai e Bi em termos das funções J±1/3 .
E. 8.15 Exercı́cio. Prove as relações (8.124)-(8.125) usando (8.29)-(8.31) e (8.119). 6
Na Seção 10.2.3, página 599, veremos uma aplicação dessas considerações sobre as soluções da
equação de Airy.
• A equação de Bessel esférica
z 2 y ′′ (z) + 2zy ′ (z) + (z 2 − σ(σ + 1))y(z) = 0 ,
para z ∈ C, com σ ∈ C, constante, é denominada equação de Bessel esférica de ordem σ.

17
Uma outra maneira usa propriedades de simetria da equação hipergeométrica confluente.
A equação de Bessel esférica surge, por exemplo, quando da resolução da equação de Helmholtz em
três dimensões em coordenadas esféricas (vide Capı́tulo 10, página 583) e, portanto, é importante para
o estudo da propagação de ondas ou de fenômenos de difusão em três dimensões.
Se definirmos v(z) = z 1/2 y(z), obtemos para v a equação diferencial
2 !
1
z 2 v ′′ (z) + zv ′ (z) + z 2 − σ + v(z) = 0 ,
2
que nada mais é que a equação de Bessel usual de ordem σ + 12 . Conseqüentemente as soluções da
equação de Bessel esférica são da forma
Jσ+ 1 (z) Nσ+ 1 (z)
y(z) = A √2 + B √2 ,
z z
onde A e B são constantes arbitrárias.
Em função disso, definem-se as chamadas funções de Bessel esféricas de ordem ν por
r
π
jν (z) := J 1 (z) , (8.126)
2z ν+ 2
e as chamadas funções de Neumann esféricas de ordem ν por
r
π
nν (z) := N 1 (z) . (8.127)
2z ν+ 2
É bastante claro que as funções nν (z) são singulares em z = 0, enquanto que as funções jν (z) não
divergem em z = 0, sendo até mesmo funções inteiras (analı́ticas em toda parte) para ν inteiro não-
negativo.
Um caso de particular interesse é aquele no qual σ = l ∈ N. Nesse caso, podemos escrever a solução
geral da equação de Bessel esférica na forma
y(z) = ajl (z) + bnl (z) ,
com a e b constantes arbitrárias, onde

r
π
jl (z) := J 1 (z) , e (8.128)
2z l+ 2
r r
π (8.117) l+1 π
nl (z) := Nl+ 1 (z) = (−1) J 1 (z) . (8.129)
2z 2 2z −(l+ 2 )
Note que, por (8.118), tem-se

sen(z) cos(z)
j0 (z) = e n0 (z) = − . (8.130)
z z
Algumas propriedades das funções de Bessel esféricas serão estudadas na Seção 9.2.7, página 566.
8.2.5 Equações Relacionadas à de Bessel. A Equação de Bessel Modifi-

cada
Uma outra equação diferencial fortemente relacionada à de Bessel é a equação de Bessel modificada de
ordem ν:
z 2 y ′′(z) + zy ′ (z) − (z 2 + ν 2 )y(z) = 0 , (8.131)
com z ∈ C, onde ν ∈ C é uma constante. Comparando-se a equação de Bessel (8.101), página 444, é
fácil perceber que a equação modificada pode ser transformada na de Bessel se fizermos formalmente
na primeira a substituição z → iz. De forma direta, é imediato constatar que se y(z) é uma solução
da equação de Bessel, então y(iz) é uma solução da equação de Bessel modificada. Concluı́mos que no
caso de ν não-inteiro a solução geral de (8.131) é dada por uma combinação linear de Jν (iz) e J−ν (iz)
(ou de Jν (iz) e Nν (iz)) e para ν = n, inteiro, por uma combinação linear de Jn (iz) e Nn (iz). Isso
sugere e justifica as definições que seguem.
Definem-se as funções de Bessel modificadas de primeira espécie e de ordem ν, denotadas por Iν (z),
por
Iν (z) := i−ν Jν (iz) = e−iπν/2 Jν (iz) ,
sendo que para ν = n, inteiro, tem-se
I−n (x) = In (x) = i−n Jn (iz) .
As funções de Bessel modificadas de segunda espécie e de ordem ν, denotadas por Kν (z), são definidas
por
iν+1 π
Kν (z) := Jν (iz) + iNν (iz) .
2
As funções Kν são denominadas por alguns autores funções de Macdonald18 .
Advertência. O estudante deve ser advertido do fato de não haver, infelizmente, uniformidade na
literatura quanto à definição das funções Kν apresentadas acima, pois alguns textos adotam para Kν
uma combinação linear das funções Jν (iz) e Nν (iz) com constantes ligeiramente diferentes daquelas de
acima. [153], por exemplo, multiplica a expressão por cos(νπ) de modo a fazer com que as funções
Kν satisfaçam as mesmas relações de recorrência que as funções Iν . Desastradamente, porém, isso
faz com que a expressão se anule se ν = 1/2 + k, com k ∈ Z. A definição que adotamos é a mais
comum atualmente e, curiosamente, coincide com a original de Basset19 de 1886. Vide [153] para outros
comentários sobre esse ponto.
Note-se que Iν (z) e Kν (z) são linearmente independentes, de modo que a solução geral da equação
de Bessel modificada de ordem ν é uma combinação linear aIν (z) + bKν (z), onde a e b são constantes.
E. 8.16 Exercı́cio. Mostre que, com as definições acima,
π I−ν (z) − Iν (z)

Kν (z) = e que Kν (z) = K−ν (z) .
2 sen(νπ)
6
18
Hector Munro Macdonald (1865-1935).
19
Alfred Barnard Basset (1854-1930).
Da representação em série (8.119) das funções de Bessel, e da definição de Iν (z) obtem-se

X∞
1 z 2k+ν
Iν (z) := . (8.132)
k=0
k! Γ(k + 1 + ν) 2
É de se notar que se ν > 0 e se e z > 0 então todos os termos da série acima são positivos e, portanto,
Iν (z) > 0. Assim, ao contrário das funçõs de Bessel, as funções de Bessel modificadas Iν não se anulam
no eixo real positivo. O mesmo pode ser facilmente provado sobre as funções Kν , as quais divergem
em z = 0.
8.2.6 A Equação de Laguerre

A equação de Laguerre20 é a equação diferencial
zy ′′ (z) + (1 − z)y ′ (z) + λy(z) = 0,
com z ∈ C, onde λ ∈ C é uma constante.
A equação de Laguerre, e uma parente próxima, a equação de Laguerre associada, apresentada
na Seção 8.3.2, página 472, emergem em um dos problemas mais importantes da Fı́sica, a equação
de Schrödinger para o átomo de hidrogênio em coordenadas esféricas. Vide Seção 10.5, página 610.
A equação de Laguerre é também um caso particular da equação hipergeométrica confluente, a ser
discutida na Seção 8.2.8, página 466.
Comparando com a forma (8.50), vemos que z0 = 0 é um ponto singular regular da equação, vemos
que a(z) = 1 − z e que b(z) = λz. Assim, no presente caso tem-se

 1, para n = 0
λ, para n = 1
an = −1, para n = 1 , bn = .
 0, para n = 0 ou n ≥ 2
0, para n ≥ 2
É elementar constatar-se que, para essa equação, γ− = γ+ = 0 e, portanto, estamos no caso 2 do
Teorema 8.2 da página 429 com f (x) = x2 , γ0 = 0,
∞
X ∞
X
n
y1 (z) = cn z e y2 (z) = y1 (z) ln(z) + vn z n , (8.133)
n=0 n=0
onde
1 Xh i
n−1
λ−n+1
cn = − man−m + bn−m c m = − cn−1 , n≥2,
n2 m=0 n2
e
" n−1 h
#
1 n
X X i
vn = − 2 − 2n − 1 cn − an−m cm + man−m + bn−m vm
n m=0 m=0
" #
1 λ−n+1
= − 2 −2n cn + cn−1 − vn−1 , ∀n ≥ 1 , (8.134)
n n2
20
Edmond Nicolas Laguerre (1834-1886).
Adotando-se c0 = 1, obtem-se para n ≥ 1

n−1
(−1)n Y (−1)n Γ(λ + 1)
cn = (λ − l) =
(n!)2 l=0 (n!)2 Γ(λ − n + 1)
e y1 (z) fica
∞ n−1
! ∞
X (−1)n Y X (−1)n Γ(λ + 1)
n
y1 (z) = 1 + (λ − l) z = 1+ zn . (8.135)
n=1
(n!)2 l=0 n=1
2
(n!) Γ(λ − n + 1)
A situação de maior interesse em Fı́sica é aquela na qual λ é um inteiro positivo: λ = m ∈ N. A

razão disso será explicada detalhadamente no Apêndice 8.E, página 500, mas adiantamos que nos casos
em que λ não é um inteiro positivo a solução y1 cresce muito rapidamente (exponencialmente) quando
z é restrito ao semi-eixo real positivo. Esse comportamento é inadequado em várias aplicações, por
exemplo no clássico problema do átomo de hidrogênio da Mecânica Quântica, o que leva ao descarte
de tais soluções.
Já no caso em que λ é um inteiro positivo, λ = m ∈ N, a solução dada em (8.135) reduz-se a um
polinômio de grau m:
m n−1
! m
X (−1)n Y X (−1)n m!
n
y1 (z) = 1 + 2
(m − l) z = 1 + 2
zn
n=1
(n!) l=0 n=1
(n!) (m − n)!
Xm
(−1)n m
= zn
n=0
n! n
Os chamados polinômios de Laguerre, denotados por Lm (z), são definidos como m! vezes o polinômio
acima21 : m
X
n m! m
Lm (z) := (−1) zn . (8.136)
n=0
n! n
Os quatro primeiros são
L0 (z) = 1, L1 (z) = 1 − z, L2 (z) = 2 − 4z + z 2 , L3 (z) = 6 − 18z + 9z 2 − z 3 .
É fácil provar, também, que a seguinte expressão é válida (vide página 541):
dm m −z
Lm (z) = ez z e . (8.137)
dz m
Os polinômios de Laguerre Lm (z) são, portanto, uma das soluções da equação de Laguerre (com
λ = m)
zy ′′ (z) + (1 − z)y ′ (z) + my(z) = 0, (8.138)
21
O fator de normalização m! tem origem histórica. O leitor deve ser advertido do fato, já lamentado páginas acima,
que em alguns textos outra normalização é empregada.
com z ∈ C, onde m ∈ N. De acordo com (8.133), uma segunda solução é dada na forma
∞
X
y2 (z) = Lm (z) ln(z) + vn z n ,
n=0
onde os coeficientes vn são dados em (8.134) em termos dos coeficientes cn dos polinômios de Laguerre.
Após cálculos um tanto maçantes, chega-se à seguinte expressão:
m
X
m! k m
y2 (z) = Lm (z) ln(z) + (−1) (hm−k − hm − 2hk ) z k
k=1
k! k
∞
X
m (k − 1)!
+ (−1) z m+k ,
k=1
(m + 1)2 (m+ 2)2 · · · (m + k)2
onde hn está definido em (8.106)-(8.107).
E. 8.17 Exercı́cio. Mostre isso. Sugestão: tire uma tarde livre. 6
E. 8.18 Exercı́cio. Caso o leitor não deseje fazer o exercı́cio anterior, poderá contentar-se com a tarefa
mais simples de verificar que a expressão acima é, de fato, uma solução de (8.138). 6
Essa segunda solução é raramente empregada em problemas de Fı́sica, especialmente devido à

singularidade logarı́tmica que apresenta.
Mais propriedades dos polinômios de Laguerre serão estudadas na Seção 9.2.4, página 540.
8.2.7 A Equação Hipergeométrica

z(1 − z)y ′′ (z) + [γ − (1 + α + β)z]y ′ (z) − αβy(z) = 0, (8.139)
para z ∈ C e com α, β e γ ∈ C constantes, é denominada equação hipergeométrica, ou equação de

Gauß22 , quem a primeiro estudou. A razão do interesse nessa equação reside em três fatos. Primeiro, a
equação hipergeométrica é (a menos de multiplicação trivial por uma constante) a única equação linear
homogênea de segunda ordem com apenas três pontos singulares regulares em 0, 1 e ∞ (vide discussão
à página 384). Segundo, há várias equações diferenciais de interesse que podem ser transformadas em
equações hipergeométricas e, com isso, pode-se estudar certas propriedades de várias funções especi-
ais, tais como seu comportamento assintótico, a partir das propriedades correspondentes de funções
hipergeométricas. Terceiro, suas soluções possuem muitas simetrias. A equação hipergeométrica é uma
22
Carl Friedrich Gauß (1777-1855). Um dos maiores e mais influentes matemáticos de todos os tempos, Gauß dedicou-
se também intensamente a problemas de Fı́sica, Astronomia, Matemática Aplicada e mesmo Engenharia (é um dos
co-inventores do telégrafo) e encontrou as equações hipergeométricas em estudos de Geodesia, assunto a que se dedicou
quando da construção das primeiras linhas férreas da Alemanha. Seus trabalhos nessa área também inspiraram uma das
suas muitas contribuições importantes à matemática pura: a formulação de geometrias não-Euclidianas.
das equações diferenciais ordinárias mais estudadas, sendo suas soluções riquı́ssimas em propriedades.
Sua abordagem completa está muito além das pretensões destas Notas e, para um tratamento deta-
lhado, recomendamos as referências [70], [137], [153], [92], [68] e outras. Propriedades combinatórias
envolvendo as séries hipergeométricas e suas generalizações podem ser encontradas em [53].
Vamos aqui apresentar as soluções da equação hipergeométrica (8.139) em termos de expansões em
torno de seu ponto singular regular z0 = 0. O leitor poderá encontrar em [137] soluções de (8.139)
expressas como expansões em torno dos outros pontos singulares regulares z0 = 1 e z0 = ∞. O interesse
nessas últimas expansões é um tanto menor, especialmente pois as mesmas podem ser expressas em
termos das soluções obtidas em torno de z0 = 0. Reescrevemos (8.139) na forma
a(z) ′ b(z)
y ′′ (z) +
y (z) + 2 y(z) = 0, (8.140)
z z
sendo a(z) e b(z) analı́ticas em |z| < 1, a saber,
X∞ X∞
γ − (1 + α + β)z n
a(z) = = an z = γ + (γ − 1 − α − β)z n ,
1−z n=0 n=1
X∞ X∞
αβz n
b(z) = − = bn z = (−αβ)z n .
1−z n=0 n=1
A equação indicial, neste caso, é

f (x) = x(x − 1) + γx = x(x + γ − 1) = 0
e temos
γ− = 1 − γ e γ+ = 0 .
Há, assim, três casos a considerar: 1. γ − 1 6∈ Z, ou seja, γ 6∈ Z. 2. γ = 1. 3. γ − 1 ∈ Z \ {0}, ou
seja, γ ∈ Z mas γ 6= 1.
Caso 1. γ − 1 6∈ Z, ou seja, γ 6∈ Z.
Aqui, de acordo com (8.52) e (8.53), as soluções são
∞
X ∞
X
y1 (z) = z 1−γ cn z n e y2 (z) = dn z n , (8.141)
n=0 n=0
onde
n−1 h i 1 Xh i
X n−1
1
cn = − (m + 1 − γ)an−m + bn−m cm , dn = − man−m + bn−m dm ,
f (1 − γ + n) m=0 f (n) m=0
para todo n ≥ 1. Nesse caso, porém, não é tão simples resolver recursivamente essas equações, pelo
menos na maneira como estão expressas acima. É muito mais fácil obter as relações recursivas de
outra forma: inserindo (8.141) na equação diferencial ainda na forma (8.139). Com esse procedimento,
começando pela solução y2 (z), obtem-se alegremente para os coeficientes dn a seguinte relação recursiva:
(α + n)(β + n)
dn+1 = dn , (8.142)
(n + 1)(γ + n)
para todo n ≥ 0.
Convencionando-se tomar d0 = 1, chegamos a

(α)n (β)n
dn = , n≥1,
n!(γ)n
onde, para x ∈ C e n ∈ N,
 n−1

 Y

 x(x + 1) · · · (x + n − 1) = (x + l) , n ≥ 1 ,
(x)n := l=0 (8.143)




1, n = 0,
são os denominados sı́mbolos de Pochhammer23. Quando x não é um inteiro negativo ou zero, podemos
escrever
Γ(x + n)
(x)n = .
Γ(x)
Com isso, obtemos para a solução y2 a expressão
∞
X ∞
(α)n (β)n Γ(γ) X Γ(α + n)Γ(β + n) z n
F (α, β, γ, z) := 1 + zn = . (8.144)
n=1
n!(γ)n Γ(α)Γ(β) n=0 Γ(γ + n) n!
Essa função, introduzida por Gauß em cerca de 1812, é denominada função hipergeométrica, deno-
minação aparentemente criada por Kummer24 em 1836. Contribuı́ram à teoria das funções hiper-
geométricas nomes como Euler, Gauß, Kummer e Riemann. Na literatura F (α, β, γ, z) é muitas
vezes denotada por 2 F1 (α, β, γ, z)25 .
Repetindo considerações anteriores, F (α, β, γ, z) é analı́tica como função de z pelo menos na
região |z| < 1. No caso em que α ou β são inteiros não-positivos, é fácil ver que F (α, β, γ, z)
reduz-se a um polinômio e é, portanto, analı́tica em toda parte. Exceto nesses casos, a série que define
F (α, β, γ, z) é divergente para |z| > 1, como se vê pelo teste da razão, pois
(α)n+1 (β)n+1 n+1

(n+1)!(γ)n+1 z |α + n| |β + n|
(α)n (β)n = |z| ,
zn (n + 1) |γ + n|
n!(γ)n
que para n grande aproxima-se de |z| > 1. Casualmente, o mesmo argumento prova convergência da
série hipergeométrica (8.144) para |z| < 1.
Fazemos ainda notar que a expressão acima para F (α, β, γ, z) está definida mesmo para o caso em
que γ é um inteiro positivo e, portanto, representa uma solução da equação hipergeométrica naquele
23
Leo August Pochhammer (1841-1920).
24
Ernst Eduard Kummer (1810-1893).
25
A explicação da notação 2 F1 é a seguinte: o “2” à esquerda indica a presença de dois sı́mbolos de Pochhammer no
numerador dos termos da série hipergeométrica (8.144). O “1” à direita indica a presença de um sı́mbolo de Pochhammer
no denominador. Há generalizações da série (8.144) que definem as chamadas funções hipergeométricas generalizadas,
denotadas por k Fl , e que contêm k sı́mbolos de Pochhammer no numerador e l no denominador (vide e.g. [53]). Mais
abaixo encontraremos as funções hipergeométricas confluentes, que são do tipo 1 F1 .
caso. Para γ nulo ou um inteiro negativo, digamos γ = −m, o denominador (γ)n anula-se para n > m
e a expressão para F (α, β, γ, z) deixa de fazer sentido.
Para obtermos a outra solução inserimos y1 de (8.141) na equação diferencial ainda na forma (8.139)
e obtemos alegremente para os coeficientes cn a relação
(n + α + 1 − γ)(n + β + 1 − γ)
cn+1 = cn ,
(n + 1)(n + 2 − γ)
para todo n ≥ 0.
Alguns segundos de contemplação nos levam a concluir que essas relações são idênticas àquelas de
(8.142), desde que lá façamos as seguintes modificações: α → α + 1 − γ, β → β + 1 − γ e γ → 2 − γ.
Por trás dessa aparente coincidência residem propriedades de simetria da equação hipergeométrica. O
leitor poderá encontrar essa discussão nos textos supra-citados.
Assim, tomando-se também c0 = 1, concluı́mos que a outra solução é
z 1−γ F (α + 1 − γ, β + 1 − γ, 2 − γ, z) .
Fazemos ainda notar que F (α + 1 − γ, β + 1 − γ, 2 − γ, z) está definida mesmo para o caso em que
γ é um inteiro não-positivo e, portanto, z 1−γ F (α + 1 − γ, β + 1 − γ, 2 − γ, z) representa uma solução
da equação hipergeométrica naquele caso.
Resumindo nossas conclusões, para o caso γ 6∈ Z a solução geral da equação hipergeométrica (8.139)
expressa em termos de uma expansão em torno do ponto singular regular z0 = 0 é
A1 z 1−γ F (α + 1 − γ, β + 1 − γ, 2 − γ, z) + A2 F (α, β, γ, z) .
onde A1 e A2 são constantes arbitrárias.

Caso 2. γ = 1.
P∞
Aqui γ− = γ+ = γ0 = 0. Nesse caso a primeira solução é da forma y1 (z) = n=0 cn z n e, de modo
análogo, obtemos
(α + n)(β + n)
cn+1 = cn , (8.145)
(n + 1)2
para todo n ≥ 0. Assim, a primeira solução é
∞
X X ∞
(α)n (β)n n 1 zn
F (α, β, 1, z) = 1 + z = Γ(α + n)Γ(β + n) .
n=1
(n!)2 Γ(α)Γ(β) n=0 (n!)2
Pelo mesmo argumento de acima, a expansão em série do lado direito converge para |z| < 1 e diverge
para |z| > 1.
Pelo Teorema 8.2, página 429, a segunda solução tem a forma
∞
X
F (α, β, 1, z) ln(z) + vn z n ,
n=0
com os vn dados em (8.56) em termos dos cn de acima. A expressão que se obtem é um tanto complexa
e evitamos colocá-la aqui. O leitor poderá encontrá-la, por exemplo, em [137].
Caso 3. γ − 1 ∈ Z \ {0}, ou seja, γ ∈ Z mas γ 6= 1.
Há dois casos a distinguir: a. γ > 1 e b. γ ≤ 0.
No caso a, γ = m, com m > 1 inteiro. Aqui tem-se n0 = m − 1, γ1 = γ+ = 0 e γ2 = γ− = 1 − m.
Como já observamos acima, uma solução é dada por F (α, β, m, z). Uma segunda solução será da
forma ∞
X
1−m
AF (α, β, m, z) ln(z) + z vn z n ,
n=0
com os vn e A dados como em (8.60) e (8.61) a partir dos coeficientes cn de F (α, β, m, z). Novamente,
a expressão que se obtem é complexa e remetemos o estudante a, e.g., [137].
No caso b, γ = −m, com m ≥ 0 inteiro. Aqui tem-se n0 = m + 1, γ1 = γ− = 1 + m e γ2 = γ+ = 0.
Como já observamos acima, uma solução é dada por z 1+m F (α + 1 + m, β + 1 + m, 2 + m, z). Uma
segunda solução será da forma
∞
X
1+m
Az F (α + 1 + m, β + 1 + m, 2 + m, z) ln(z) + vn z n ,
n=0
com os vn e A dados como em (8.60) e (8.61) a partir dos coeficientes cn de z 1+m F (α + 1 + m, β +

1 + m, 2 + m, z). Novamente, a expressão que se obtem é complexa e remetemos o estudante a, e.g.,
[137].
Com isso encerramos nossa breve excursão às funções hipergeométricas e remetemos o estudante
interessado em um maior aprofundamento à literatura supra-citada.
8.2.8 A Equação Hipergeométrica Confluente

zy ′′ (z) + [γ − z]y ′ (z) − αy(z) = 0 , (8.146)
para z ∈ C e com α e γ ∈ C constantes, é denominada equação hipergeométrica confluente ou equação
de Kummer. A mesma pode ser obtida da equação hipergeométrica por um procedimento de limite
no qual a singularidade regular de z0 = 1 daquela equação é feita imergir (“confluir”, daı́ o nome)
na singularidade regular de z0 = ∞. Esse processo pode ser descrito da seguinte forma. Façamos na
equação hipergeométrica
z(1 − z)y ′′ (z) + [γ − (1 + α + β)z]y ′ (z) − αβy(z) = 0
a mudança de variáveis ζ = βz. A mesma assume a forma (verifique!)

ζ d2 y α+β+1 dy
ζ 1− 2
+ γ− ζ − αy = 0 .
β dζ β dζ
Tomando-se agora o limite |β| → ∞ obtemos a forma (8.146). Vide, e.g., [137] ou [70]. A equação
hipergeométrica confluente possui uma singularidade regular em z0 = 0 e uma irregular em z0 = ∞
(vide discussão à página 385).
Assim como no caso da equação hipergeométrica, há várias equações diferenciais de interesse que
podem ser transformadas em equações hipergeométricas confluentes. Os exemplos mais evidentes são
a equação de Laguerre, Seção 8.2.6, página 460, que corresponde a γ = 1 e α = −λ, e a equação de
Laguerre associada, Seção 8.3.2, página 472, que corresponde a γ = m + 1 e α = −(n − m). Com
isso, pode-se estudar certas propriedades de várias funções especiais, tais como seu comportamento
assintótico, a partir das propriedades correspondentes de funções hipergeométricas confluentes.
Para a equação hipergeométrica confluente tem-se
[γ − z] ′ αz
y ′′ (z) + y (z) − 2 y(z) = 0
z z
e assim, comparando com a forma padrão (8.47), temos
a(z) = γ − z, e b(z) = −αz .
Logo, 
 γ, para n = 0
−α, para n = 1
an = −1, para n = 1 , bn = .
 0, para n = 0 ou n ≥ 2
0, para n ≥ 2
A equação indicial é, portanto,
f (x) = x(x + γ − 1) ,
cujas raı́zes são
γ− = 1 − γ e γ+ = 0 ,
tal como para a equação hipergeométrica. Há, assim, três casos a considerar: 1. γ − 1 6∈ Z, ou seja,
γ 6∈ Z. 2. γ = 1. 3. γ − 1 ∈ Z \ {0}, ou seja, γ ∈ Z mas γ 6= 1.
Caso 1. γ − 1 6∈ Z, ou seja, γ 6∈ Z.
Aqui, de acordo com (8.52) e (8.53), as soluções são
∞
X ∞
X
1−γ n
y1 (z) = z cn z e y2 (z) = dn z n , (8.147)
n=0 n=0
onde
n−1 h i 1 Xh i
X n−1
1
cn = − (m + 1 − γ)an−m + bn−m cm , dn = − man−m + bn−m dm ,
f (1 − γ + n) m=0 f (n) m=0
para todo n ≥ 1. Assim,

n+α−γ n+α−1
cn = cn−1 , dn = dn−1 ,
n(n + 1 − γ) n(n + γ − 1)
o que conduz a
(α + 1 − γ)n (α)n
cn = c0 , dn = d0 , (8.148)
n!(2 − γ)n n!(γ)n
Tomando d0 = 1 a solução y2 assume a forma

X∞ ∞
(α)n n Γ(γ) X Γ(α + n) z n
1 F1 (α, γ, z) := 1 + z = . (8.149)
n=1
n!(γ)n Γ(α) n=0 Γ(γ + n) n!
Esta função é denominada função hipergeométrica confluente ou, por vezes, função de Kummer.
E. 8.21 Exercı́cio. Prove, usando diretamente as definições, a seguinte relação entre as funções hiper-
geométricas confluentes e as funções hipergeométricas:

z
1 F1 (α, γ, z) = lim F α, β, γ, .
|β|→∞ β
6
Aplicando o teste da razão à série de (8.149)

(α)n+1
z n+1
|α + n|
(n+1)!(γ)n+1
(α)n
= |z| ,
z n (n + 1) |γ + n|
n!(γ)n
vemos que a mesma converge para todo z, pois para cada z fixo o lado direito torna-se menor que 1
para n grande o suficiente. Assim, 1 F1 (α, γ, z) é analı́tica para todo z ∈ C.
Fazemos ainda notar que a expressão acima para 1 F1 (α, γ, z) está definida mesmo para o caso em
que γ é um inteiro positivo e, portanto, representa uma solução da equação hipergeométrica confluente
naquele caso. Para γ nulo ou um inteiro negativo, digamos γ = −m, o denominador (γ)n anula-se para
n > m e a expressão para F (α, γ, z) deixa de fazer sentido.
Passemos agora à solução y1 . Alguns segundos de contemplação das expressões de (8.148) conduzem-
nos à percepção que a relação entre cn e c0 equivale à relação entre dn e d0 com a troca α → α + 1 − γ
e γ → 2 − γ (tal como se fez no caso da equação hipergeométrica, acima). Assim, convencionando-se
também c0 = 1 tem-se que a solução y1 (z) é dada por
z 1−γ 1 F1 (α + 1 − γ, 2 − γ, z) .
Fazemos ainda notar que 1 F1 (α + 1 − γ, 2 − γ, z) está definida mesmo para o caso em que γ é
um inteiro não-positivo e, portanto, z 1−γ 1 F1 (α + 1 − γ, 2 − γ, z) representa uma solução da equação
hipergeométrica confluente naquele caso.
Resumindo, para o caso γ 6∈ Z a solução geral da equação hipergeométrica confluente (8.146) é
A1 z 1−γ 1 F1 (α + 1 − γ, 2 − γ, z) + A2 1 F1 (α, γ, z) ,
onde A1 e A2 são constantes arbitrárias.
Caso 2. γ = 1.
Esse é o caso da equação de Laguerre.
P∞
Aqui γ− = γ+ = γ0 = 0. Nesse caso a primeira solução é da forma y1 (z) = n=0 cn z n e, de modo
análogo, obtemos
(α + n)
cn+1 = cn , (8.150)
(n + 1)2
para todo n ≥ 0. Assim, a primeira solução é

X∞ ∞
(α)n n 1 X zn
1 F1 (α, 1, z) = 1 + z = Γ(α + n) .
n=1
(n!)2 Γ(α) n=0 (n!)2
Pelo Teorema 8.2, página 429, a segunda solução tem a forma

∞
X
1 F1 (α, 1, z) ln(z) + vn z n ,
n=0
com os vn dados em (8.56) em termos dos cn de acima. A expressão que se obtem é um tanto complexa
e evitamos colocá-la aqui.
Caso 3. γ − 1 ∈ Z \ {0}, ou seja, γ ∈ Z mas γ 6= 1.
Esse é o caso da equação de Laguerre associada.
Há dois casos a distinguir: a. γ > 1 e b. γ ≤ 0.
No caso a, γ = m, com m > 1 inteiro. Aqui tem-se n0 = m − 1, γ1 = γ+ = 0 e γ2 = γ− = 1 − m.
Como já observamos acima, uma solução é dada por 1 F1 (α, m, z). Uma segunda solução será da forma
∞
X
1−m
A 1 F1 (α, m, z) ln(z) + z vn z n ,
n=0
com os vn e A dados como em (8.60) e (8.61) a partir dos coeficientes cn de 1 F1 (α, m, z). Novamente,
a expressão que se obtem é complexa e a omitimos aqui.
No caso b, γ = −m, com m ≥ 0 inteiro. Aqui tem-se n0 = m + 1, γ1 = γ− = 1 + m e γ2 = γ+ = 0.
Como já observamos acima, uma solução é dada por z 1+m 1 F1 (α + 1 + m, 2 + m, z). Uma segunda
solução será da forma
∞
X
1+m
Az 1 F1 (α + 1 + m, 2 + m, z) ln(z) + vn z n ,
n=0
com os vn e A dados como em (8.60) e (8.61) a partir dos coeficientes cn de z 1+m 1 F1 (α+1+m, 2+m, z).
Novamente, a expressão que se obtem é complexa e é omitida aqui.
Com isso encerramos nossa breve excursão às funções hipergeométricas confluentes. Para um tra-
tamento extensivo da equação hipergeométrica confluente e propriedades de suas soluções, vide [134],
[70] ou [153].
8.3 Algumas Equações Associadas

Algumas das equações tratadas acima possuem parentes próximos com os quais se relacionam amisto-
samente. Vamos estudar algumas delas.
8.3.1 A Equação de Legendre Associada

A equação de Legendre associada é equação diferencial
µ2
(1 − z 2 )y ′′ (z) − 2zy ′ (z) + λ(λ + 1)y(z) − y(z) = 0 . (8.151)
1 − z2
Como é fácil de se constatar, os pontos ±1 são pontos singulares regulares da equação de Legendre
associada. Repare também que para µ = 0 recupera-se a equação de Legendre usual
(1 − z 2 )y ′′(z) − 2zy ′ (z) + λ(λ + 1)y(z) = 0 . (8.152)
O principal interesse na equação (8.151) se dá no caso em que µ é um número inteiro, µ = m ∈ Z,

situação que corresponde à maioria das aplicações. Nesse caso, um truque feliz permite-nos encontrar
as soluções sem termos de recorrer ao método de Frobenius.
Tudo começa com a observação que a equação de Legendre usual e a equação de Legendre associada
podem ser transformadas em uma mesma equação. Se em (8.151) fizermos a substituição (já adotando
µ = m ∈ Z) y(z) = (1 − z 2 )m/2 v(z), obtemos para v a equação

(1 − z 2 )v ′′ (z) − 2(m + 1)z v ′ (z) + λ(λ + 1) − m(m + 1) v(z) = 0 . (8.153)
E. 8.22 Exercı́cio importante. Mostre isso. Sugestão: um pouco de paciência. 6
Se, por outro lado, tomarmos a equação (8.152) e a derivarmos m vezes, obtemos

2 (m) ′′ (m) ′
(1 − z ) y (z) − 2(m + 1)z y (z) + λ(λ + 1) − m(m + 1) y (m) (z) = 0 . (8.154)
E. 8.23 Exercı́cio importante. Mostre isso. Sugestão: use a regra de Leibniz para calcular as derivadas

dm 2 ′′ dm ′
dz m (1 − z )y (z) e dz m zy (z) . 6
Comparando (8.153) com (8.154), constatamos que ambas são a mesma equação. Com isso, vemos
que se yL é a solução geral da equação de Legendre e yLa é a solução geral da equação de Legendre
(m)
associada, então (1 − z 2 )−m/2 yLa (z) e yL (z) devem ser proporcionais, já que obedecem à mesma
equação (8.153). Com isso, obtemos que a solução geral da equação de Legendre associada pode ser
obtida da solução geral da equação de Legendre por
(m)
yLa (z) = km (1 − z 2 )m/2 yL (z) ,
km sendo constantes de normalização a serem convencionadas.

Coloquemo-nos agora a questão: qual solução yL da equação de Legendre devemos adotar? Isso
certamente depende do tipo de problema considerado, mas na maioria das aplicações procuramos
resolver a equação de Legendre associada no intervalo [−1, 1] e procuramos soluções que sejam finitas
em todo esse intervalo, incluindo as bordas ±1. Ora, já vimos que as únicas soluções da equação
de Legendre usual que permanecem limitadas nos extremos ±1 (assim como suas derivadas) são os
polinômios de Legendre Pl (z), os quais ocorrem como solução apenas no caso λ = l, um inteiro não-
negativo. Obtemos assim que as soluções de interesse da ação de Legendre associada que são limitadas
em todo o intervalo fechado [−1, 1] ocorrem para λ = l, um inteiro não-negativo, e são dadas por
dm
Plm (z) := (1 − z 2 )m/2 Pl (z) , (8.155)
dz m
onde Pl é o polinômio de Legendre de grau l. É claro que Plm (z) é nulo se m > l (pois Pl é um polinômio
de grau l).
As funções Plm definidas acima são denominadas polinômios de Legendre associados, ainda que não
sejam realmente polinômios em z no caso em que m é ı́mpar (devido ao fator (1 − z 2 )m/2 )26 e de-
sempenham um papel importante na resolução de equações diferenciais parciais em 3 dimensões em
coordenadas esféricas, tais como a equação de Laplace e de Helmholtz. A eles estão intimamente re-
lacionados as chamadas funções harmônicas esféricas, das quais falaremos na Seção 9.2.2, página 527,
e que desempenham um papel na Mecânica Quântica (orbitais atômicos), na Teoria de Grupos (re-
presentações do grupo SO(3)), no Eletromagnetismo (emissão de ondas eletromagnéticas por antenas)
etc.
As funções Plm estão definidas acima para l inteiro não-negativo, ou seja l = 0, 1, 2, 3, . . ., e m
inteiro com 0 ≤ m ≤ l (pois para m > l o lado direito de (8.155) anula-se). Cada Plm é solução da
equação de Legendre associada
m2
(1 − z 2 )y ′′(z) − 2zy ′ (z) + l(l + 1)y(z) − y(z) = 0 . (8.156)
1 − z2
Na Seção 9.2.1, que se inicia à página 521, mostraremos que os polinômios de Legendre podem ser
escritos como
1 dl 2 l

Pl (z) = l (z − 1) ,
2 l! dz l
expressão essa conhecida como fórmula de Rodrigues para os polinômios de Legendre. Assim, obtemos
l+m
m 1 2 m/2 d 2 l
Pl (z) = l (1 − z ) (z − 1) , (8.157)
2 l! dz l+m
expressão válida para 0 ≤ m ≤ l, com l um inteiro não-negativo: l = 0, 1, 2, 3, . . .. Caso m > l, o
lado direito se anula.
Um ponto interessante, porém, é que a expressão do lado direito de (8.157) está bem definida para
quaisquer l e m com l + m ≥ 0, ou seja, também para m’s negativos tais que m ≥ −l. Assim, (8.157)
está definida para todo m inteiro com −l ≤ m ≤ l27 .
Da expressão (8.157), entendida para todo l inteiro não-negativo e −l ≤ m ≤ l, é possı́vel mostrar
que
(l − m)! m
Pl−m (z) = (−1)m P (z) .
(l + m)! l
26
Se, no entanto, substituirmos z por cos θ, com 0 ≤ θ ≤ π, o que costumeiramente se faz em aplicações, Plm (cos θ)
torna-se um polinômio trigonométrico, ou seja, um polinômio em cos θ e senθ, já que (1 − z 2 )m/2 torna-se ( sen(θ))m .
Essa é a razão dessa nomenclatura. Vide expressão (9.66), página 530.
27
De passagem, comentamos que a relação −l ≤ m ≤ l desempenha um papel na teoria do momento angular na
Mecânica Quântica, mas isso não é nosso assunto aqui.
Essa relação, que é relevante para as chamadas funções harmônicas esféricas, mostra que Pl−m (z) é
também solução da equação de Legendre associada (8.156), por ser proporcional a Plm (z). Trataremos
disso na Seção 9.2.2, página 527, onde outras propriedades dos polinômios de Legendre associados serão
apresentadas e sua relação com as harmônicas esféricas será discutida.
8.3.2 A Equação de Laguerre Associada

A equação de Laguerre associada é a equação diferencial
xy ′′ + (m + 1 − x)y ′ + (n − m)y = 0 . (8.158)
O principal interesse nessa equação reside no caso onde m e n são inteiros satisfazendo 0 ≤ m ≤ n.
Como o leitor facilmente constata, trata-se de um caso particular da equação hipergeométrica confluente
(8.146). A equação de Laguerre associada surge da equação de Schrödinger para o átomo de hidrogênio
quando a mesma é resolvida pelo método de separação de variáveis em coordenadas esféricas.
A solução dessa equação pode ser obtida diretamente da solução da equação de Laguerre usual
xy ′′ + (1 − x)y ′ + ny = 0 (8.159)
pois esta, quando diferenciada m vezes em relação à x, transforma-se exatamente na equação (8.158).
E. 8.24 Exercı́cio. Verifique! Sugestão: regra de Leibniz. 6
Assim, se y é solução de (8.159) segue que y (m) é solução de (8.158). Concluı́mos que as únicas
soluções de (8.158) que são regulares em x = 0 são da forma

(m) dm dm x d
n
n −x
Ln (x) = Ln (x) = e (x e ) . (8.160)
dxm dxm dxn
a última igualdade sendo proveniente de (8.137) ou de (9.99).

(m)
Os polinômios Ln são denominados polinômios de Laguerre associados. Os polinômios de Laguerre
associados surgem, como dissemos, na resolução da equação de Schrödinger para o átomo de hidrogênio
em coordenadas esféricas. Vide Seção 10.5, página 610. Junto com as harmônicas esféricas, definidas à
página 535, os polinômios de Laguerre associados definem a forma dos orbitais eletrônicos do átomo de
hidrogênio e (de forma aproximada) de átomos hidrogenóides. A forma desses orbitais é de importância
fundamental no estudo de átomos e moléculas e suas ligações quı́micas.
Usando (8.136), é fácil constatar que
n−m
X

k n!
n
Ln(m) (x) = (−1) m
(−1) xk .
k! m + k
k=0
Mais propriedades dos polinômios de Laguerre associados serão estudadas na Seção 9.2.5, página
544.
8.4 A Função Gama. Definição e Propriedades

Apresentaremos na presente seção algumas das propriedades mais importantes da chamada função gama
de Euler, ou simplesmente função gama, denotada por Γ(z), com z ∈ C, a qual freqüentemente aparece
na resolução de equações diferenciais ordinárias pelo método de expansão em séries de potências, assim
como em várias áreas da Fı́sica e da Matemática, por representar uma espécie de generalização contı́nua
do fatorial de números inteiros, como será precisado adiante.
Aqui nos restringiremos às propriedades mais relevantes da função gama. Para um estudo mais
extenso de propriedades dessa função e suas aplicações, recomendamos [70], [92], [153], [8], [120] ou
ainda [91]. Ainda que nem todos esses textos primem por escolher as demonstrações mais simples para
seus resultados, vale a pena o estudante inteirar-se de abordagens diversas. A referência [120] contém
algumas notas históricas sobre a função gama de Euler.
• Definindo a função gama
A função Γ, pode ser definida em todo plano complexo (exceto, como veremos, para inteiros não-
positivos, onde possui pólos simples). No semiplano Re (z) > 0, Γ(z) é definida por
Z ∞
Γ(z) := e−t tz−1 dt . (8.161)
0
A seguinte proposição contém informações relevantes sobre (8.161) e sobre a estrutura analı́tica de Γ:
Proposição 8.2 A integral em (8.161) converge absolutamente para todo z ∈ C com Re (z) > 0. A
função Γ definida por (8.161) é analı́tica no semiplano Re (z) > 0 e pode ser analiticamente estendida
a todo C, exceto para os pontos z = 0, −1, −2 . . . que são pólos simples de Γ. É válida a chamada
representação de Mittag-Leffler da função Γ, ou representação em soma de frações parciais da função
Γ: ∞ Z ∞
X (−1)n 1
Γ(z) = + e−t tz−1 dt , (8.162)
n=0
n! z + n 1
sendo que a integral no lado direito é analı́tica para todo z ∈ C e soma no lado direito converge
uniformemente em regiões finitas de C que excluam os inteiros não-positivos e, portanto, representa
uma função analı́tica para todo z ∈ C, exceto nos inteiros não-positivos, onde possui pólos simples. O
(−1)n
resı́duo de Γ em z = −n é dado por n! para todo n = 0, 1, 2, . . .. 2
Prova. Para ver que a integral em (8.161) converge absolutamente para Re (z) > 0, escrevemos z = x+iy
com x = Re (z), y = Im (z) e escolhemos α e β tais que 0 < α < x < β < ∞. Como |tz−1 | = tx−1
tem-se
Z ∞ Z ∞
−t z−1
e t dt = e−t tx−1 dt
0 0
Z 1 Z ∞ Z 1 Z ∞
−t x−1 −t x−1 −t α−1
= e t dt + e t dt ≤ e t dt + e−t tβ−1 dt .
0 1 0 1
R1
Agora, a integral 0
e−t tα−1 dt é finita, pois, para α > 0
Z 1 Z 1
−t α−1 1
e t dt ≤ tα−1 dt = < ∞,
0 0 α
R∞
enquanto que 1 e−t tβ−1 dt é finita para qualquer β ∈ R pois, devido ao rápido decaimento da expo-
nencial, tem-se
lim e−γt tβ−1 = 0 ,
t→∞
para todo γ > 0, o que implica que existe constante Cγ, β > 0 tal que
tβ−1 ≤ Cγ, β , eγt (8.163)
para todo t > 1. Assim, tomando 0 < γ < 1, vale

Z ∞ Z ∞
−t β−1 e−(1−γ)
e t dt ≤ Cγ, β e−(1−γ)t dt = Cγ, β < ∞.
1 1 1−γ
Isso prova que a integral em (8.161) converge absolutamente se Re (z) > 0.

Para provar que Γ(z) é analı́tica no semiplano Re (z) > 0, começamos observando que, para 0 <
a < A < ∞, a função Z A
Γa, A (z) := e−t tz−1 dt
a
é analı́tica na região Re (z) > 0. Isso se deve ao fato de ser possı́vel verificar a validade das relações
de Cauchy-Riemann para Γa, A (z), diferenciando-a sob o sı́mbolo de integração e usando o fato de que
tz−1 = e(z−1) ln(t) é analı́tica em z para t > 0. Que é possı́vel diferenciar sob o sı́mbolo de integração
segue do fato de o integrando ser contı́nuo em t e a região de integração ser o intervalo compacto [a, A].
Uma vez estabelecido que Γa, A (z) é analı́tica em Re (z) > 0, podemos provar que ΓA (z), definida
por Z A
ΓA (z) := lim Γa, A (z) = e−t tz−1 dt , (8.164)
a→0 0
é também analı́tica em Re (z) > 0. Para tal, tomemos z ∈ Fα, β , onde Fα, β ⊂ C é a faixa definida por
Fα, β = {z ∈ C| α < Re (z) < β} ,
com 0 < α < β < ∞, ou seja, tomemos 0 < α < Re (z) < β. Então, para A > 0 fixo e 0 < a′ < a < 1,
Z a Z a
−t x−1 (a′ )α − aα
|Γa, A (z) − Γa′ , A (z)| ≤ e t dt ≤ tα−1 dt = ,
a′ a′ α
que pode ser feito menor que qualquer ǫ > 0 dado, para todos a e a′ pequenos o suficiente. Dessa
forma, o limite que define ΓA (z) em (8.164) é uniforme em Fα, β , Assim, por ser o limite uniforme de
funções analı́ticas, ΓA (z) é igualmente analı́tica em Fα, β (esse é um teorema bem-conhecido da teoria
das funções de variável complexa). Como α e β são arbitrários (0 < α < β), ΓA (z) é analı́tica para
todo o semiplano Re (z) > 0.
Para provar que

Γ(z) = lim ΓA (z) (8.165)
A→∞
é analı́tica para todo o semiplano Re (z) > 0 temos que provar que esse limite é uniforme nas faixas
z ∈ Fα, β e evocar o mesmo teorema da teoria das funções de variável complexa mencionado acima.
Para provar uniformidade do limite, notemos que para 1 < A < B, tem-se, com 0 < γ < 1,
Z B Z A Z B

−t
e t z−1
dt − −t
e t z−1
dt ≤ e−t tx−1 dt

0 0 A
Z B
≤ e−t tβ−1 dt
A
(8.163)
Z B
≤ Cγ, β e−(1−γ)t dt
A
Cγ, β −(1−γ)A
= e − e−(1−γ)B ,
1−γ
que pode ser feito menor que qualquer ǫ > 0 prescrito para todos A e B grandes o suficiente. Isso
provou que o limite em (8.165) é uniforme em cada faixa Fα, β com 0 < α < β, mostrando que Γ(z) é
analı́tica em cada uma dessas faixas Fα, β e, portanto, em todo o semiplano Re (z) > 0.
Para provar que Γ possui uma extensão analı́tica para a região Re (z) ≤ 0 (exceto, como mencio-
namos, os inteiros não-positivos), notamos que para Re (z) > 0 podemos escrever (8.161) trivialmente
como Z Z
1 ∞
−t z−1
Γ(z) := e t dt + e−t tz−1 dt .
0 1
R∞
Agora, a integral imprópria I(z) := 1 e−t tz−1 dt é analı́tica para todo z ∈ C, o que pode ser visto
repetindo os argumentos de convergência uniforme de acima: para 1 < A < A′ < ∞, escrevendo
x = Re (z) e restringindo-nos provisoriamente à região x < β, para algum β ∈ R, temos
Z Z A′ Z ′
A A

e−t tz−1 dt − e−t tz−1 dt = e−t tz−1 dt (8.166)
1 1 A
Z A′
≤ e−t tx−1 dt (8.167)
A
Z A′
t≥1
≤ e−t tβ−1 dt (8.168)
A
(8.163)
Z A′
≤ Cγ, β e−(1−γ)t dt (8.169)
A
′
e−(1−γ)A − e−(1−γ)A
= Cγ, β , (8.170)
1−γ
que, escolhendo-se 0 < γ < 1, pode ser feita menor Rque qualquer ǫ > 0 prescrito para todos A, A′
A
grandes o suficiente. Isso prova que o limite limA→∞ 1 e−t tz−1 dt é uniforme na região Re (z) < β, o
que prova que a integral imprópria I(z), sendo o limite uniforme de funções analı́ticas em Re (z) < β,
é também analı́tica nessa região. Como β ∈ R é arbitrário, concluı́mos que a integral imprópria I(z) é
analı́tica em todo o plano complexo C.
R1
Já para a integral Γ1 (z) = 0 e−t tz−1 dt tem-se
Z 1 Z 1 X∞
!
n
(−1)
e−t tz−1 dt = tn tz−1 dt
0 0 n=0
n!
∞
X Z 1
(−1)n
= tn+z−1 , dt
n=0
n! 0
∞
X (−1)n 1
= ,
n=0
n! z+n
(a inversão da série pela integral na segunda linha acima é justificada pois, como é bem sabido, a série
de Taylor da função exponencial converge uniformemente em intervalos compactos, como o intervalo
de integração [0, 1]).
Dessa forma, obtemos a representação de Mittag-Leffler28 da função Γ, ou representação em soma
de frações parciais da função Γ:
X∞ Z ∞
(−1)n 1
Γ(z) = + e−t tz−1 dt . (8.171)
n=0
n! z + n 1
Como dissemos, a integral no lado direito de (8.171) é analı́tica para todo z ∈ C. Já a soma no lado
direito de (8.171) converge uniformemente (devido ao n! no denominador) em regiões finitas de C que
excluam os pontos 0, −1, −2, −3, . . . e, portanto, representa uma função analı́tica para todo z ∈ C,
exceto nos inteiros não-positivos, como mencionado, onde possuin pólos simples. Como se constata
inspecionando (8.171), o resı́duo de Γ em z = −n é dado por (−1) n!
para todo n = 0, 1, 2, 3, . . .. Isso
completa a demonstração.
O gráfico de Γ(x) para x real no intervalo (0, 5] pode ser visto na Figura 8.4, página 477. A Figura
8.5, página 478, exibe o gráfico de Γ(x) para valores negativos de x, a saber, no intervalo (−4, 0) .
A demonstração acima da existência da mencionada extensão de Γ para argumentos com parte
real negativa mostra que essa extensão pode ser calculada por meio da representação de Mittag-Leffler
(8.171). Como veremos mais abaixo, porém, há uma outra forma, talvez mais conveniente, de expressar
essa extensão, a saber, com uso da chamada fórmula dos complementos:
π
Γ(z)Γ(1 − z) = ,
sen(πz)
28
Magnus Gösta Mittag-Leffler (1846-1927). Para a definição geral da noção de série de Mittag-Leffler, vide [120] ou
[82]. Um outro exemplo da série de Mittag-Leffler é a representação de Euler da função cotangente, expressão (9.201),
página 577.
Γ
25
20
15
10
0
0.0 0.5 1.0 1.5 2.0 2.5 3.0 3.5 4.0 4.5 5.0
x
Figura 8.4: Gráfico de Γ(x) para x ∈ (0, 5]. Observe que Γ diverge em 0.
válida para z não-inteiro e que permite escrever

π
Γ(−z) = − , (8.172)
zΓ(z) sen(πz)
com a qual, caso Re (z) > 0, a extensão de Γ para argumentos com parte real negativa (lado esquerdo)
pode ser calculada em termos de Γ(z) com Re (z) > 0 (no lado direito), dada concretamente pela
integral (8.161).
Mais abaixo apresentaremos outro argumento, talvez mais elementar, para provar que Γ possui uma
extensão analı́tica para o semiplano Re (z) ≤ 0 (exceto os inteiros não-positivos).
Antes disso, façamos alguns comentários importantes.
• Convexidade de Γ e de ln Γ
É imediato da definição (8.161) que para Re (z) > 0 valem

Z ∞ Z ∞
′ −t z−1 ′′
Γ (z) = e t ln(t) dt e Γ (z) = e−t tz−1 (ln(t))2 dt . (8.173)
0 0
A segunda expressão acima diz-nos que se z for real e positivo (z ≡ x > 0) então Γ′′ (x) > 0 e, portanto,
Γ é uma função convexa em R+ . Em verdade, vale que também ln Γ é convexa em R+ , fato de certa
relevância como veremos abaixo quando mencionarmos o Teorema de Bohr-Mollerup, Teorema 8.4.
20 Γ
15
10
0
−4.0 −3.5 −3.0 −2.5 −2.0 −1.5 −1.0 −0.5 −0.0
−5
−10
−15
−20
−25
Figura 8.5: Gráfico de Γ(x) para x ∈ (−4, 0). Observe que Γ diverge em 0 e para inteiros negativos.
Para mostrar isso, notemos que, por (8.173),

Z ∞ 2
′ 2 −t x−1
(Γ(x) ) = e t ln(t) dt
0
Z ∞ 2
−t/2 (x−1)/2 −t/2 (x−1)/2
= e t e t ln(t) dt
0
Z ∞ Z ∞
Cauchy-Schwarz
−t x−1 −t x−1
≤ e t dt e t ln(t) dt = Γ(x)Γ′′ (x) ,
0 0
d2 Γ′′ (x)Γ(x) − (Γ(x)′ )2

o que implica ln Γ(x) = ≥ 0, mostrando que ln Γ é convexa em R+ .
dx2 (Γ(x))2
• A função Γ e o fatorial
Usando integração por partes, segue que, para Re (z) > 0,

Z ∞ ∞ Z ∞
−t z

−t z
Γ(z + 1) = e t dt = −e t +z e−t tz−1 dt ,
0 0
| {z 0}
=0
provando que
Γ(z + 1) = zΓ(z) . (8.174)
A relação (8.174) é de grande importância e representa a razão de ser da função gama de Euler.
R∞
Por indução finita, e pelo fato de que, por (8.161), Γ(1) = 0 e−t dt = 1, segue facilmente de (8.174)
que
Γ(n + 1) = n! ,
para todo n ∈ N. Assim, a função Γ é uma espécie de extensão complexa do fatorial de números
inteiros positivos.
Essa última observação merece um comentário. Há certamente muitas funções f em R+ satisfazendo
f (n + 1) = n! para todo n ∈ N. Se f é uma função satisfazendo f (x + 1) = xf (x) para todo x ∈ R+ ,
então f (x)/Γ(x) é periódica de perı́odo 1, pois f (x + 1)/Γ(x + 1) = (xf (x))/(xΓ(x)) = f (x)/Γ(x) para
todo x ∈ R+ . Assim, f (x) = P (x)Γ(x) com P periódica de perı́odo 1 é a solução mais geral da equação
f (x + 1) = xf (x). Se P (1) = 1 então f (n + 1) = n! para todo n ∈ N. Um célebre teorema, devido a
Bohr29 e Mollerup30 , garante que a função gama de Euler é única em um certo sentido:
Z ∞
Teorema 8.4 (Teorema de Bohr-Mollerup) A função Γ(x) := e−t tx−1 dt, x > 0, é a única
0
função real em R+ satisfazendo
1. f (1) = 1,
2. f (x + 1) = xf (x) para todo x > 0 (e, conseqüentemente, satisfazendo f (n + 1) = n! para todo

n ∈ N),
3. ln f é convexa. 2
Uma demonstração desse interessante teorema pode ser encontrada em [8], assim como em [29].
• Revisitando a extensão de Γ para Re(z) ≤ 0
A expressão (8.161) permite definir Γ(z), mas somente se Re (z) > 0 pois, de outra forma, a integral
no lado direito de (8.161) não está definida. É possı́vel, no entanto, estender analiticamente a função
Γ a todo C, exceto aos inteiros não-positivos. Já demonstramos esse fato acima, mas o mesmo pode
também ser diretamente derivado da relação (8.174). Trataremos disso agora.
Para n = 0, 1, 3, . . ., (8.174) diz-nos que
Γ(z + n) = (z + n − 1)(z + n − 2) · · · zΓ(z) ,
o que permite escrever

Γ(z + n)
Γ(z) = . (8.175)
(z + n − 1)(z + n − 2) · · · z
29
Harald August Bohr (1887-1951). H. Bohr era irmão mais novo do fı́sico Niels Bohr (Niels Henrik David Bohr
(1885-1962)). H. Bohr recebeu vários prêmios por sua obra matemática e foi agraciado com a medalha de prata nos
Jogos Olı́mpicos de 1908, em Londres, como jogador da seleção dinamarquesa de futebol (!). É provavelmente até hoje
o único cientista a alcançar essa honraria.
30
Johannes Peter Mollerup (1872-1937).
Agora, Γ(z + n) está definida por (8.161) para Re (z + n) > 0, Assim, (8.175) permite definir Γ(z) para
Re (z) > −n. Como n é arbitrário, a fórmula (8.174) prolonga analiticamente Γ(z), exceto nos pontos
z = −n (n = 0, 1, 2 . . .). Note-se que, por (8.175) tem-se na região Re (z) > −n que
Γ(z + 1 + n) (8.174) (z + n)Γ(z + n)

Γ(z + 1) = =
(z + n)(z + n − 1) · · · (z + 1) (z + n)(z + n − 1) · · · (z + 1)
Γ(z + n) (8.175)
= = zΓ(z) ,
(z + n − 1) · · · (z + 1)
provando que (8.174) permanece válida para a extensão.
Por (8.175) pode-se ver que z = 0, −1, −2 . . . são pólos simples de Γ. De fato, pode-se calcular o
resı́duo de Γ em cada ponto z = −n e constatar que é não-nulo. Por (8.175), esses resı́duos são dados
por
Γ(z + n + 1) Γ(1) (−1)n
lim (z + n)Γ(z) = lim (z + n) = =
z→−n z→−n (z + n)(z + n − 1) · · · z (−1)(−2) · · · (−n) n!
como já havı́amos observado.
Concluı́mos que Γ possui uma extensão analı́tica ao plano complexo C, exceto aos pontos z =
0, −1, −2, . . ., onde possui pólos simples.
• Outra representação integral equivalente
Fazendo a mudança de variável t = u2 a integral em (8.161) torna-se

Z ∞
2
Γ(z) = 2 e−u u2z−1 du . (8.176)
0
Disso segue que Z ∞

1 2 √
Γ = 2 e−u du = π , (8.177)
2 0
identidade essa que usaremos adiante. Usando (8.174) para z = 12 , obtem-se

1 1 3 1 1 (2n − 1)!! √ (2n)! √
Γ n+ = n− n− ··· Γ = π = π, (8.178)
2 2 2 2 2 2n 22n n!
para todo n ∈ N.
• A representação produto de Gauss para Γ
A função Γ pode ser expressa de diversas outras formas, muitas delas úteis para a obtenção de
resultados mais profundos e exibiremos algumas aqui. Uma delas é uma representação produto de
Gauss para a função Γ:
n! nz
Γ(z) = lim , (8.179)
n→∞ z(z + 1) · · · (z + n)
válida para todo z ∈ C, z 6= 0, −1, −2, . . ..

Para mostrar que (8.161) e (8.179) são equivalentes provemos primeiramente o seguinte lema
Lema 8.1 Para Re (z) > 0 vale

Z n n
t
Γ(z) = lim 1− tz−1 dt . (8.180)
n→∞ 0 n
2
Prova. (De [70] com modificações). Tomemos z ∈ Fα, β , ou seja, α < Re (z) < β, com α e β fixos,
0 < α < β < ∞.
Rn
Como Γ(z) = limn→∞ 0 e−t tz−1 dt, precisamos apenas provar que
Z n n
−t t
lim e − 1− tz−1 dt = 0 . (8.181)
n→∞ 0 n
Defina-se para 0 ≤ t ≤ n, n
t t
hn (t) := 1 − e 1 − .
n
Como facilmente se constata,
n−1
t t
h′n (t)
= e 1− t
≥ 0 para 0 ≤ t ≤ n .
n n
Z t
′
Como hn (0) = 0, segue que hn (t) = h′n (s) ds. Como h′n (s) ≥ 0 para 0 ≤ s ≤ n, segue disso que
0 n−1
hn (t) ≥ 0 para 0 ≤ t ≤ n. Adicionalmente, como 1 − ns ≤ 1 para 0 ≤ s ≤ n, tem-se também
Z Z
s t
s n−1 s
hn (t) = h′n (s) ds = es 1 − ds
0 0 n n
Z t Z t
s s
≤ s
e ds ≤ et ds
0 n 0 n
et t2
= .
2n
et t2
Com isso, estabeleceu-se que 0 ≤ hn (t) ≤ ,
o que implica
2n
n
−t t t2
0 ≤ e − 1− ≤ . (8.182)
n 2n
Disso segue o fato bem-conhecido de cursos de Cálculo que

n
−t t
e = lim 1 − , (8.183)
n→∞ n
para todo t ∈ R, mas segue também que

n
t
1− ≤ e−t , (8.184)
n
fato que usaremos adiante.

Agora, Z n
n
−t t
e − 1− tz−1 dt = Fa + Ga, n ,
0 n
onde, para 1 < a < n, definimos
Z a n Z n n
−t t −t t
Fa := e − 1− tz−1 dt , Ga, n := e − 1− tz−1 dt .
0 n a n
Podemos afirmar que, para 1 < a < n,

Z n n
−t t
|Ga, n | ≤ e + 1− tx−1 dt
a n
(8.184)
Z n
≤ 2 e−t tx−1 dt
a
Z n
a>1
≤ 2 e−t tβ−1 dt
a
(8.163)
Z n
≤ 2Cγ, β e−(1−γ)t dt
a
2Cγ, β −(1−γ)a
= e − e−(1−γ)n ,
1−γ
onde x = Re (z) > 0, α < x < β, e usamos que |tz | = tx . A constante positiva γ de (8.163) é arbitrária,
mas vamos escolhê-la de sorte que 0 < γ < 1, o que garante o decaimento da última expressão em n e
a. Paralelamente,
Z a n Z a x+1
−t t x−1 (8.182) t ax+1
|Fa | ≤ e − 1 − t dt ≤ dt =
n 2n 2n(x + 2)
0 0
Com isso, vemos que para 1 < a < n,

Z n n
t ax+1 2Cγ, β −(1−γ)a
e−t
− 1 − tz−1
dt ≤ + e − e−(1−γ)n .
n 2n(x + 2) 1 − γ
0
Portanto, Z n
n
t 2Cγ, β −(1−γ)a
lim −t
e − 1− tz−1
dt ≤ e .
n→∞ 0 n 1−γ
Mas o lado esquerdo não depende de a e o lado direito pode ser feito arbitrariamente pequeno tomando
a → ∞. Isso prova (8.181), completando a demonstração de (8.180) para z ∈ Fα, β . Como α e β são
arbitrários (com 0 < α < β), (8.180) fica provado para todo Re (z) > 0.
Passemos agora à prova de (8.179). Temos,

Z n n n n Z n n−1
t int. por partes t tz n t
1− tz−1 dt = 1− + 1− tz dt
0 n n z 0 nz 0 n
Z n n−1
1 t
= 1− tz dt
z 0 n
Z n n−2
int. por partes (n − 1) t
= 1− tz+1 dt
nz(z + 1) 0 n
..
.
Z n
n iterações n!
= n
tz+n−1 dt
n z(z + 1) · · · (z + n − 1) 0
n! nz+n n! nz
= = . (8.185)
nn z(z + 1) · · · (z + n) z(z + 1) · · · (z + n)
Por (8.180), isso prova (8.179).
• A representação produto de Weierstrass para Γ
A representação produto de Weierstrass para a função Γ, válida para Re (z) > 0, é

∞
1 γz
Y z −z
= ze 1+ e n , (8.186)
Γ(z) n=1
n
onde γ é o definida por

1 1
γ := lim 1 + + · · · + − ln(n) .
n→∞ 2 n
A constante γ é chamada constante de Euler-Mascheroni31 e vale 0, 577215665 . . .. É até hoje um
problema em aberto saber se γ é um número racional ou não.
Definindo, Z n
n
(n) t (8.185) n! nz
Γ (z) := 1− tz−1 dt = , (8.187)
0 n z(z + 1) · · · (z + n)
31
Lorenzo Mascheroni (1750-1800). Vide nota de rodapé à página 948.
provamos no Lema 8.1 que Γ(z) = limn→∞ Γ(n) (z) para Re (z) > 0. Temos
1 n−z z z
−z ln(n)
= z(z + 1) · · · (z + n) = ze (1 + z) 1 + ··· 1+
Γ(n) (z) n! 2 n
n
z (1+ 12 +···+ n
1
−ln(n))
Y z z
= ze 1+ es
s=1
s
e, portanto,
∞
1 1 γz
Y z −z
= lim (n) = ze 1+ e s ,
Γ(z) n→∞ Γ (z) s=1
s
provando (8.186).
1
Por (8.186) vê-se que Γ(z)
é uma função inteira (i.e., analı́tica em toda parte), o que implica que
Γ(z) não tem zeros. Segue também de (8.186) que Γ(z) = Γ(z).
• A representação produto de Euler para Γ
É bastante evidente que para todo n > 1, inteiro, vale

Y l + 1
n−1 Y
n−1
1

n = = 1+ , (8.188)
l=1
l l=1
l
De acordo com (8.187), podemos escrever
1 Y z −1
n
n! nz
Γ(n) (z) = = nz 1+
z(z + 1) · · · (z + n) z m=1 m
"n−1 z # Y n
(8.188) Y 1 1 z −1
= 1+ 1+
l=1
l z m=1 m
n z
1 Y 1 z −1
= 1+ 1+ , (8.189)
z(1 + n1 )z m=1 m m
e tomando o limite n → ∞, obtemos

∞ z
1 Y 1 z −1
Γ(z) = 1+ 1+ (8.190)
z m=1 m m
válida para todo z ∈ C, exceto z = 0, −1, −2, −3, . . .. Esta é a representação produto de Euler para
a função Γ. A expressão (8.190), obtida por Euler em 1729, foi a definição historicamente original da
função Γ, a representação integral (8.161) tendo sido obtida posteriormente pelo mesmo autor a partir
de (8.190). Euler chegou a (8.190) propondo-a como solução da equação funcional f (z + 1) = zf (z)
com f (1) = 1, tentando dessa forma obter uma generalização contı́nua do fatorial de números inteiros
positivos.
E. 8.25 Exercı́cio. Verifique diretamente de (8.190) que Γ satisfaz Γ(z + 1) = zΓ(z) com Γ(1) = 1.
Sugestão: usando a última expressão em (8.189) considere a razão Γ(n) (z + 1)/Γ(n) (z) e tome o limite
n → ∞. 6
• Função Beta. Propriedades elementares
A chamada função beta, denotada por B(p, q) é definida por
Γ(p) Γ(q)
B(p, q) := (8.191)
Γ(p + q)
para p e q complexos, mas diferentes de inteiros não-positivos.

Para Re (p) > 0 e Re (q) > 0 podemos expressar B(p, q) em uma forma integral muito útil:
Z π
2
B(p, q) = 2 (cos θ)2p−1 ( senθ)2q−1 dθ . (8.192)
0
Provamo-la com uso de (8.176), que nos diz que

Z ∞ Z ∞ x
−u2 2p−1 −v2 2q−1 2 +v 2 )
Γ(p)Γ(q) = 4 e u du e v dv = 4 e−(u u2p−1 v 2q−1 dudv .
0 0 u≥0, v≥0
Usando coordenadas polares, escrevemos u = r cos θ e v = r senθ com 0 ≤ θ ≤ π/2 (pois u ≥ 0 e v ≥ 0)

e obtemos
Z ∞ Z π/2
2
Γ(p)Γ(q) = 4 e−r r 2(p+q)−1 (cos θ)2p−1 (cos θ)2q−1 dr dθ
0 0
Z Z !
∞ π/2
−r 2 2(p+q)−1 2p−1 2q−1
= 2 e r dr 2 (cos θ) (cos θ) dθ
0 0
Z !
π/2
(8.176)
= Γ(p + q) 2 (cos θ)2p−1 (cos θ)2q−1 dθ ,
0
provando (8.192).
Por mudanças de variável, obtém-se outras representações integrais equivalentes a (8.192) para
B(p, q). Tomando t = (cos θ)2 obtemos trivialmente de (8.192) que
Z 1
B(p, q) = tp−1 (1 − t)q−1 dt . (8.193)
0
t
Tomando em (8.193) u = t−1
obtem-se, por outro lado,
Z ∞
up−1
B(p, q) = du . (8.194)
0 (1 + u)p+q
As representações (8.192), (8.193) e (8.194) valem para Re (p) > 0 e Re (q) > 0. Alguns textos
adotam (8.193) como definição de B(p, q) para Re (p) > 0 e Re (q) > 0.
• A fórmula dos complementos
Talvez a principal aplicação de (8.191) e das representações integrais (8.192), (8.193) e (8.194) seja
o estabelecimento da importante fórmula dos complementos:
1 sen(πz)
= , (8.195)
Γ(z)Γ(1 − z) π
válida para todo z ∈ C, relação esta que pode ser escrita em forma mais simétrica como
1 cos(πz)
1
1
= , (8.196)
Γ 2
−z Γ 2
+z π
válida para todo z ∈ C.

Antes de demonstrar (8.195) notemos que ela permite escrever, para z não-inteiro,
π π
Γ(−z) = − = − .
Γ(z + 1) sen(πz) zΓ(z) sen(πz)
Essa expressão permite calcular a extensão analı́tica de Γ de Re (z) > 0 para Re (z) < 0. Por exemplo,
se Re (z) > 0, o lado direito pode ser calculado usando (8.161), fornecendo a função gama do lado
esquerdo, cujo argumento tem parte real negativa.
Para demonstrar32 (8.195), começamos usando (8.191) e (8.194) para obter
Z ∞ z−1
u
Γ(z)Γ(1 − z) = B(z, 1 − z) = du , (8.197)
0 1+u
onde a representação integral acima é válida para Re (z) > 0 e Re (1 − z) > 0, ou seja, na faixa
0 < Re (z) < 1, a qual nos restringiremos provisoriamente.
A integral acima pode ser calculada pelo método dos resı́duos, como descreveremos. Seja I a integral
Z
w z−1
I := dw ,
C 1+w
onde C é a curva fechada no plano complexo, orientada no sentido anti-horário, indicada na figura 8.6.
A curva C é composta dos segmentos orientados (1) e (2), localizados, respectivamente, imediatamente
acima e imediatamente abaixo do semi-eixo real positivo (sendo que faremos a distância desses segmen-
tos a esse semi-eixo ir a zero) e dos arcos orientados γ e Γ, de raios ǫ e R, respectivamente. Escolhemos
z−1
R > 1, de modo que o pólo simples que a função f (w) = w1+w possui em w = −1 fique no interior da
região delimitada por C.
Vamos representar a variável complexa w na forma w = ρeiφ , com 0 ≤ ρ < ∞, 0 ≤ φ < 2π. Devido
a essa escolha do intervalo de valores de φ, vemos que no segmento (1) tem-se que φ ≈ 0, enquanto que
32
Seguimos os argumentos de [16]. Para uma outra demonstração igualmente elementar que faz uso da fórmula de
produto de Weierstrass (8.186), vide [70].
γ (1)
−1 R
(2)
Figura 8.6: A curva C composta pelos segmentos de integração γ, Γ, (1) e (2).
R R z−1
no segmento (2) φ ≈ 2π. Assim, a integral no segmento orientado (1) é aproximada por ǫ ρ1+ρ dρ,
R R z−1
enquanto que a integral no segmento orientado (2) é aproximada por −e2πiz ǫ ρ1+ρ dρ, as aproximações
sendo tanto melhores quanto mais próximos os segmentos (1) e (2) encontrarem-se do semi-eixo real
positivo (lembrar que o integrando é contı́nuo nas regiões acima a abaixo do semi-eixo real positivo
e cada integração é feita em segmentos finitos). Assim, a contribuição das integrações de (1) e (2) à
integral I é Z
2πiz
R ρz−1
1−e dρ ,
ǫ 1+ρ
que nos limites ǫ → 0, R → ∞ converge a (1 − e2πiz ) Γ(z)Γ(1 − z) devido a (8.197). Vamos agora
estimar as integrais sobre os segmentos γ e Γ.
Em γ temos ρ = ǫ, de modo que podemos escrever w = ǫeiφ , com α ≤ φ ≤ 2π − α, para um certo
α pequeno, e dw = iǫeiφ dφ, de forma que, escrevendo z = x + iy com x = Re (z), y = Im (z),
Z Z 2π−α iφ(z−1)
w z−1 z e
dw = −iǫ iφ
eiφ dφ
γ 1 + w α 1 + ǫe
e, portanto, Z Z 2π−α φ|y|
w z−1 e x 2πe
2π|y|
dw ≤ ǫx
dφ ≤ ǫ ,
1+w 1−ǫ 1−ǫ
γ α
que converge a zero quando ǫ → 0 (lembrar que assumimos 0 < Re (z) < 1, ou seja, 0 < x < 1).
Em Γ temos, analogamente, ρ = R, de modo que podemos escrever w = Reiφ , com β ≤ φ ≤ 2π − β,
para um certo β pequeno, e dw = iReiφ dφ, de forma que, escrevendo z = x + iy com x = Re (z),
y = Im (z),
Z Z 2π−β iφ(z−1)
w z−1 z e
dw = iR iφ
eiφ dφ
Γ 1+w β 1 + Re
e, portanto,
Z Z 2π−β φ|y|
w z−1 e 2π|y| R
x
Rx−1
x 2π|y|
1 + w dw ≤ R R−1
dφ ≤ 2πe
R−1
= 2πe
1 − 1/R
,
Γ β
que converge a zero quando R → ∞ pois x < 1.

z−1
No interior da região delimitada por C o integrando f (w) = w1+w possui uma única singularidade:
um pólo simples em w = −1, cujo resı́duo é eiπ(z−1) (lembrar que −1 = eiπ ). Assim, pelo teorema dos
resı́duos, Z z−1
u du
= −2πieiπz
C 1 + u
que independe de ǫ e R. Coletando os resultados anteriores sobre as integrais em (1), (2), γ e Γ
concluı́mos que nos limites ǫ → 0 e R → ∞ vale a igualdade

−2πieiπz = 1 − e2πiz Γ(z)Γ(1 − z) ,
que conduz trivialmente a

1 sen(πz)
= .
Γ(z)Γ(1 − z) π
Até agora assumimos que 0 < Re (z) < 1. Todavia, ambos os lados da última expressão são funções
inteiras. Portanto, a igualdade acima vale em todo plano complexo C.
• Fórmula de duplicação de Legendre
As propriedades da função beta permitem provar mais uma identidade sobre as funções gama, a
chamada fórmula de duplicação da função Gama, devida a Legendre:

22z−1 1
Γ(2z) = √ Γ(z)Γ z + , (8.198)
π 2
válida para todo z ∈ C que não seja um inteiro não-positivo ou um semi-inteiro não-positivo, isto é,
que não seja da forma −n ou da forma −n − 1/2, com n = 0, 1, 2, 3, . . .. A demonstração é bastante
simples.
Assumindo provisoriamente Re (z) > 0, temos
Z 1
Γ(z)Γ(z) (8.193) z−1
= B(z, z) = t(1 − t) dt .
Γ(2z) 0
Efetuamos a mudança de variável de integração u = 2t − 1, temos

Z +1 Z 1
Γ(z)Γ(z) 1 2 z−1 2
= 2z−1 (1 − u ) du = 2z−1 (1 − u2 )z−1 du .
Γ(2z) 2 −1 2 0
Por fim, fazendo a mudança de variável de integração v = u2 , tem-se

Z 1 √
Γ(z)Γ(z) 1 z−1 − 21 B z, 21 (8.193) Γ(z)Γ( 21 ) (8.177) Γ(z) π
= 2z−1 (1 − v) v dv = = = ,
Γ(2z) 2 0 22z−1 22z−1 Γ z + 21 22z−1 Γ z + 12
provando (8.198) para Re (z) > 0. A generalização para todo z ∈ C segue do fato de que ambos os
lados de (8.198) possuem uma extensão analı́tica para todo C, exceto para os pontos em que z é um
inteiro não-positivo ou um semi-inteiro não-positivo.

E. 8.26 Exercı́cio. Considere as equações diferenciais u′ (x) − au(x) = 0 e u′′ (x) + ω02 u(x) = 0, com
a ∈ C, ω0 ∈ C, constantes e x ∈ C. Usando o método de expansão em série mostre que suas soluções
gerais são, respectivamente, u(x) = Aeax e u(x) = A cos(ω0 x) + B sen(ω0 x), onde A e B são constantes.
6
E. 8.27 Exercı́cio. Seja a bem conhecida expansão binomial

∞
X
α (α + 1 − k)k
(1 + x) = xk , (8.199)
k!
k=0
válida para x ∈ C com |x| < 1 e para todo α ∈ C, onde, para x ∈ C e n ∈ N, (x)n são os sı́mbolos de
Pochhammer definidos em (8.143), página 464. Demonstre (8.199) resolvendo a equação diferencial
(1 + x)y ′ − αy = 0
com a condição y(0) = 1. Sugestão. Verifique que (1+x)α é solução da equação diferencial acima e satisfaz
y(0) = 1. Depois resolva a mesma equação, procurando soluções na forma de uma série de potências na
região |x| < 1.
Mostre que quando α = n ∈ N, um inteiro não negativo, a solução reduz-se a um polinômio, a saber,
aquele definido pelo binômio de Newton:
n
X
n n
(1 + x) = xk .
k=0
k
E. 8.28 Exercı́cio. Usando o método de expansão em série de potências mostre que a solução da
′
equação diferencial y (z) + zy(z) = 0 é y(z) = c exp(−z 2 /2), onde c é uma constante. 6
E. 8.29 Exercı́cio. Encontre, utilizando o método de expansão em série, a solução geral da seguinte
2
u′′ (x) − e−x u′ (x) + sin(x)u(x) = 0 .
Em que região a série de potências obtida para u(x) deve ser convergente? Justifique. 6
E. 8.30 Exercı́cio. Mostre que a função u(x) = ( arcsenx)2 é a solução da equação diferencial
(1 − x2 )u′′ (x) − xu′ (x) = 2 ,
com as condições iniciais u(0) = u′ (0) = 0. Usando o método de expansão em série para resolver a equação,
X∞
2
obtenha a expansão de ( arcsenx) em uma série de potências ck xk . Essa série coincide com a série de
k=0
Taylor de ( arcsenx)2 em x = 0. Esse método de determinar a expansão em série de Taylor dessa função
é muito mais simples que o método direto, envolvendo o cômputo das derivadas da função ( arcsenx)2 em
x = 0, e foi descoberto por Euler. A série obtida já era conhecida do matemático Kowa Seki (1642-1708),
contemporâneo de Newton).
6
E. 8.31 Exercı́cio. a) Pelo método de Frobenius determine a solução geral da seguinte equação diferencial:
x2 u′′ (x) − (1 + x)u(x) = 0 ,
b) Qual o raio de convergência das séries encontradas? Justifique.

c) Determine a solução da mesma equação que satisfaz a condição u(0) = 0. Há soluções para a
condição inicial u(0) = 1? Justifique.
6
E. 8.32 Exercı́cio. Prove as identidades
2k k! = (2k)!! , (2k + 1)!!(2k)!! = (2k + 1)! , (2k)!!(2k − 1)!! = (2k)! ,
k ∈ N. 6
E. 8.33 Exercı́cio. Prove as identidades

√
Γ(3/2) (2n + 1)!! π (2n + 1)!!
Γ(n + 1 + 1/2) = = , n ∈ N, n ≥ 0 ,
2n 2 2n
Γ(n + 1 + 1/3) = 3−(n+1) (3n + 1)!!! Γ(1/3) , n ∈ N, n ≥ 0 ,
Γ(n + 2/3) = 3−n (3n − 1)!!! Γ(2/3) , n ∈ N, n ≥ 1 .
Sugestão: use a bem-conhecida propriedade da função gama: Γ(z + 1) = zΓ(z). 6
E. 8.34 Exercı́cio. Usando (8.172) e o fato que Γ(z) = Γ(z), prove que para todo y ∈ R vale
π
|Γ(iy)|2 =
y senh(πy)
e usando (8.196), prove que para todo y ∈ R vale
2
1 π
Γ + iy = .
2 cosh(πy)
Mostre também que
πy
|Γ(1 + iy)|2 =
senh(πy)
para todo y ∈ R. 6
E. 8.35 Exercı́cio. Mostre que

Z ∞ Z 1
′ −t 1
−γ = Γ (1) = e ln(t) dt = ln ln dt .
0 0 t
onde γ é a constante de Euler-Mascheroni. 6
E. 8.36 Exercı́cio. A função zeta de Riemann é definida por

X∞
1
ζ(s) :=
n=1
ns
para Re (s) > 1. Mostre que, para n = 1, 2, 3, . . .,

Z ∞
Γ(s) = n s
e−nx xs−1 dx
0
e, usando esta última relação, mostre que

Z ∞
xs−1
ζ(s) Γ(s) = dx, Re (s) > 1.
0 ex − 1
6
Apêndices
8.A Prova da Proposição 8.1. Justificando os Polinômios de
Legendre
∞
X
Provaremos a Proposição 8.1 apenas para o caso da série c2k z 2k , pois a demonstração para a série
k=0
∞
X
c2k+1 z 2k+1 é, mutatis mutantis, idêntica.
k=0
Caso λ ∈ R seja um inteiro não-negativo par, a série em (8.12) torna-se um polinômio e é, con-
seqüentemente, finita para todo z ∈ C.
Consideremos, então, que λ ∈ R não é um inteiro não-negativo par. Tomemos a série em (8.12)
somada, para simplificar, a partir de k = 2 e calculada em z = ±1 (tomamos c0 = 1, sem perda de
generalidade):
X∞ X∞ k−1
1 Y λ(λ + 1)
c2k = −λ(λ + 1) 1− .
k=2 k=2
2k l=1
2l(2l + 1)
Consideremos, para N > 2,
N
X XN k−1
1 Y λ(λ + 1)
c2k = 1− .
k=2 k=2
2k l=1
2l(2l + 1)
Se λ(λ + 1) ≤ 0 teremos que

Y
k−1
λ(λ + 1)

1− ≥ 1,
l=1
2l(2l + 1)
pois os fatores são positivos e maiores que 1. Logo,
N
X XN k−1 N
1 Y λ(λ + 1) X 1
c2k = 1− ≥ .
k=2 k=2
2k l=1
2l(2l + 1) k=2
2k
XN XN
1
Portanto, como lim diverge, isso prova que lim c2k diverge, completando a prova.
N →∞
k=2
2k N →∞
k=2
Se λ(λ + 1) > 0 devemos proceder de outra forma. É claro que existe k0 ∈ N, k0 > 2, tal que
λ(λ + 1)
0 < < 1, (8.A.1)
2k0 (2k0 + 1)
λ(λ+1)
o que implica 1 − 2l(2l+1)
> 0 para todo l > k0 . Escolhendo N > k0 , podemos escrever
N
X k0
X N
X
c2k = c2k + c2k
k=2 k=2 k=k0 +1
k0
X 0 −1
kY X
N k−1
λ(λ + 1) 1 Y λ(λ + 1)
= c2k + 1− 1− . (8.A.2)
k=2 l=1
2l(2l + 1) k=k0 +1
2k l=k
2l(2l + 1)
0
Podemos escrever
k−1
Y k−1
X !
λ(λ + 1) λ(λ + 1)
1− = exp ln 1 − ,
l=k0
2l(2l + 1) l=k
2l(2l + 1)
0
λ(λ+1)
pois 1 − 2l(2l+1)
> 0 para todo l ≥ k0 .
Agora, se 0 ≤ x ≤ M para algum 0 < M < 1, então vale
ln(1 − M)
ln(1 − x) ≥ x . (8.A.3)
M
Isso pode ser provado de diversas formas, por exemplo usando a concavidade da função logaritmo, que
garante que
ln αa + (1 − α)b ≥ α ln(a) + (1 − α) ln(b) ,
para todo 0 ≤ α ≤ 1 e todo 0 < a < b. Tomando a = 1 − M, b = 1 e α = x/M, estabelece-se (8.A.3).

λ(λ+1) λ(λ+1)
Com isso, e como 0 < 2l(2l+1)
≤ 2k0 (2k0 +1)
=: M, para todo l ≥ k0 , temos que
k−1
X ! k−1
!
λ(λ + 1) ln(1 − M) X λ(λ + 1)
exp ln 1 − ≥ exp ,
l=k0
2l(2l + 1) M l=k
2l(2l + 1)
0
Agora,
k−1
X X∞
λ(λ + 1) λ(λ + 1)
≤ < ∞,
l=k
2l(2l + 1) l=k
2l(2l + 1)
0 0
X∞
λ(λ + 1)
pois a série acima é convergente. Assim, definindo K := , teremos que
l=k
2l(2l + 1)
0
k−1
X ! k−1
!
λ(λ + 1) ln(1 − M) X λ(λ + 1) ln(1 − M)
exp ln 1 − ≥ exp ≥ exp K
l=k0
2l(2l + 1) M l=k
2l(2l + 1) M
0
já que, por (8.A.1), ln(1 − M) < 0.

Dessa forma, retornando a (8.A.2), temos que
k −1 !
X N Xk0 Y 0
λ(λ + 1)
N
X 1
k−1
X λ(λ + 1)

c2k − c2k = 1− exp ln 1 −
2l(2l + 1) 2k 2l(2l + 1)
k=2 k=2 l=1 k=k0 +1 l=k0
k −1
Y0
λ(λ + 1) ln(1 − M)
N
X 1

≥ 1− exp K .
2l(2l + 1) M 2k
l=1 k=k0 +1
N
X XN
1
Como o limite lim diverge, concluı́mos que lim c2k também diverge, completando a
N →∞
k=k0 +1
2k N →∞
k=2
prova.
8.B Provando (8.14)

Vamos considerar apenas o caso em que m é par, pois o caso em que m é ı́mpar pode ser tratado de
forma totalmente análoga. Temos que
m/2 k−1
!
X z 2k Y
(0)
Pm (z) = c0 ym (z) = c0 2l(2l + 1) − m(m + 1) ,
(2k)!
k=0 l=0
Como dissemos, a convenção é escolher c0 de modo que o coeficiente do monômio de maior grau do
polinômio acima seja 2m(2m)!
(m!)2
. Assim, devemos ter
m
−1 !
1 Y2
(2m)!
c0 2l(2l + 1) − m(m + 1) = m ,
m! l=0 2 (m!)2
ou seja,
m
−1 !−1
(2m)! Y
2
c0 = m 2l(2l + 1) − m(m + 1) .
2 m! l=0
Com isso m !−1
m/2 −1
X 2k
z (2m)! Y
2
Pm (z) = 2l(2l + 1) − m(m + 1) .

k=0
(2k)! 2m m! l=k
m
Façamos agora a mudança de variável k → 2
− k. Ficamos com
m/2
m
−1 !−1
X z m−2k (2m)! Y
2
Pm (z) = 2l(2l + 1) − m(m + 1) .

(m − 2k)! 2m m!
k=0 l= m
2
−k
m
Façamos ainda a mudança de variável l → 2
− l. Obtemos,
m/2 k
!−1
X z m−2k (2m)! Y
Pm (z) = (m − 2l)(m − 2l + 1) − m(m + 1) .
k=0
(m − 2k)! 2m m! l=1
Entretanto,
(m − 2l)(m − 2l + 1) − m(m + 1) = −2l(2m − 2l + 1) ,
como facilmente se vê. Agora, com isso,
k
!−1 k
!−1
Y Y
(m − 2l)(m − 2l + 1) − m(m + 1) = −2l(2m − 2l + 1)
l=1 l=1
k
! k
!
Y 1 Y 1
= (−1)k
l=1
2l l=1
2m − 2l + 1
m
Y
(2m − 2l + 1)
(−1)k l=k+1
= m
(2k)!! Y
(2m − 2l + 1)
l=1
Ym
(−1)k
= (2m − 2l + 1)
(2k)!! (2m − 1)!! l=k+1
m−k
Y
l→l+k (−1)k
= (2(m − k) − 2l + 1)
(2k)!! (2m − 1)!! l=1
(−1)k
= (2(m − k) − 1)!! .
(2k)!! (2m − 1)!!
Assim, !
m/2
X (−1)k z m−2k (2m)! (2(m − k) − 1)!!
Pm (z) = .
k=0
2m (m − 2k)! m! (2k)!! (2m − 1)!!
Vale, porém,
!
(2m)! (2(m − k) − 1)!! (2m)! (2(m − k) − 1)!! (2(m − k))!!
=
m! (2k)!! (2m − 1)!! m! (2k)!! (2m − 1)!! (2(m − k))!!
(2m)! (2(m − k))!

=
m! (2m − 1)!! (2k)!! (2(m − k))!!
(2m)!! (2m − 2k)!

=
m! (2k)!! (2(m − k))!!
2m m! (2m − 2k)!
=
m! 2k k! 2m−k (m − k)!
(2m − 2k)!
= ,
k! (m − k)!
onde, na penúltima passagem, usamos que (2p)!! = 2p p! para todo p ∈ N. Com isso,
m/2
X (−1)k z m−2k (2m − 2k)!
Pm (z) = ,
k=0
2m (m − 2k)! k! (m − k)!
que é a expressão (8.14) para m par.

O caso em que m é ı́mpar é análogo e é deixado como exercı́cio.
8.C Justificando os Polinômios de Hermite

Tomaremos aqui z = x ∈ R e consideraremos apenas a série
X∞ k−1
(0) λ 2 x2k Y
yλ (x) := 1 − x − λ (4l − λ) ,
2 k=2
(2k)! l=1
com λ ∈ R mas λ 6= 2m para m um inteiro positivo par (o que faz da série acima uma série infinita),
(1)
pois o tratamento da série yλ é idêntico.

Seja s > 1, arbitrário mas fixo, e escolhamos k0 > 2 tal que 1 − 4kλ0 > 1s . Note que se λ ≤ 0, isso
é válido para todo k0 > 2 enquanto que, se λ > 0, devemos tomar

λs
k0 > max , 2 . (8.C.4)
4(s − 1)
Escrevemos
Xk0 k−1 ∞ k−1
(0) λ 2 x2k Y X x2k Y
yλ (x) := 1 − x − λ (4l − λ) − λ (4l − λ) .
2 k=2
(2k)! l=1 k=k +1
(2k)! l=1
0
É fácil verificar que

∞
X k−1 ∞ k−1
x2k Y X
k−1 2k (k − 1)! Y λ
(4l − λ) = 4 x 1−
k=k0 +1
(2k)! l=1 k=k0 +1
(2k)! l=1 4l
k0 −1 ! X∞ Y
k−1
1 Y λ k 2k (k − 1)! λ
= 1− 4 x 1− .
4 l=1 4l k=k +1
(2k)! l=k 4l
0 0
∞
X k−1
k 2k (k − 1)! Y λ
Vamos agora nos concentrar na série 4 x 1− . Pela escolha de k0 , sabemos
k=k0 +1
(2k)! l=k 4l
0
que para l ≥ k0 , vale
λ λ 1
1− ≥ 1− >
4l 4k0 s
e, portanto,
k−1
Y
λ 1
1− > .
4l sk−k0
l=k0
Além disso,
(2k)! = (2k)!! (2k − 1)!! = 2k k! (2k − 1)!! < 22k (k!)2 ,
pois

1 3 5k 1
(2k−1)!! = (2k−1)(2k−3)(2k−5) · · · 1 = 2 k − k− k− · · · < 2k k(k−1)(k−2) · · · 1 .
2 2 2 2
Logo,
∞
X k−1 ∞ 2 k
k 2k (k− 1)! Y λ k0
X 1 x
4 x 1− > s
k=k0 +1
(2k)! l=k 4l k=k +1
k(k!) s
0 0
∞
X k
k0 1 x2
> s
k=k0 +1
(k + 1)! s
∞ 2 k+1
s X k0 1 x
= s 2
x k=k +1 (k + 1)! s
0
k=k
X 0 +1
k !
sk0 +1 x2 /s 1 x2
= e − .
x2 k=0
k! s
2
Kex /s − p(x)
(0)
Tudo isso mostra que yλ (x) é maior que , onde K é uma constante (que depende
x2
de λ, s e k0 ) e p(x) é um polinômio de grau 2k0 + 2 em x. Como s é arbitrário, vemos que o produto
(0) 2
yλ e−x /2 diverge para |x| → ∞, já que podemos escolher 1/s > 1/2, tomando33 1 < s < 2.
No contexto do problema do oscilador harmônico na Mecânica Quântica (vide Seção 10.4, página
(0) 2
608) esse comportamento é inaceitável, pois o produto yλ e−x /2 representa uma função de onda, que
deve ser de quadrado integrável em R. Isso força-nos a tomar λ = 2m com m um inteiro positivo e
(0)
par, de modo a reduzir yλ (x) a um polinômio.
(1)
Para yλ (x) as considerações são análogas e não iremos repeti-las aqui.
33 (0) 2
/2
Por (8.C.4), tomar s próximo de 1 aumenta o grau do polinômio p(x), mas não altera o fato que yλ (x)e−x diverge
para |x| → ∞
8.D Provando (8.20)

Consideraremos apenas o caso em que m é par, pois o caso em que m é ı́mpar é tratado analogamente.
Para m par, tem-se
 m

X z Y
2 2k k−1
Hm (z) = (−2)m/2 (m − 1)!! 1 − m z 2 − 2m (4l − 2m) .
(2k)!
k=2 l=1
m
Fazendo a mudança de variáveis k → 2
− k, teremos
 m m

−2 −k−1
X
2
z m−2k 2Y
Hm (z) = (−2)m/2 (m − 1)!! 1 − m z 2 − 2m (4l − 2m) .
(m − 2k)!
k=0 l=1
Tem-se que
m m
−k−1 −k−1
2 Y m
2 Y
−k−1
(4l − 2m) = (−2) 2 (m − 2l)
l=1 l=1
m
−1
Y
2
(m − 2l)
m l=1
−k−1
= (−2) 2
m
−1
Y
2
(m − 2l′ )
l′ = m
2
−k
m
−1
Y
2
(m − 2l)
l′ → m −l′ m
−k−1 l=1 m (m − 2)!!
= 2
(−2) 2 = (−2) 2 −k−1 .
k
Y (2k)!!
2l′
l′ =1
Logo,
 m

−2
X
2
zm−2k
m (m − 2)!! 
Hm (z) = (−2)m/2 (m − 1)!! 1 − m z 2 − 2m (−2) 2 −k−1
k=0
(m − 2k)! (2k)!!
m
−2
m X
2
(−1)k m!
2
= (−2) (m − 1)!! 1 − m z
2 + (2z)m−2k
k=0
(m − 2k)! k!
m
X2
(−1)k m!
= (2z)m−2k , (8.D.5)
k=0
(m − 2k)! k!
já que
(2p)! (2p)!! (2p − 1)!!

m (m−1)!! (m−2)!! = m!, que (2k)!! = 2k k! e que = = 2p (2p−1)!! .
p! p!
A expressão (8.D.5) coincide com (8.20) para m par. O caso em que m é ı́mpar é análogo e é deixado
como exercı́cio.
8.E Porque λ deve ser um Inteiro Positivo na Equação de

Laguerre
Justificaremos aqui por que consideramos λ um inteiro positivo na equação de Laguerre. Temos dois
casos a tratar: a. λ < 0 e b. λ > 0 mas λ não-inteiro. Em aplicações, especialmente na Mecânica
Quântica, a variável z é um número real positivo (uma coordenada radial). Vamos então doravante
tomar z real e positivo e escrever z = r > 0.
Se λ não for um inteiro positivo a série (8.135) acima é uma série infinita. Podemos escrever
n−1
Y n−1
Y Y
n−1
λ

n
(−1) (λ − l) = −λ (l − λ) = −λ(n − 1)! 1− . (8.E.6)
l=0 l=1 l=1
l
Se λ < 0, a última expressão fica

Y
n−1
|λ|

|λ|(n − 1)! 1+
l=1
l
e "n−1 #
∞
X Y
1 |λ|
y1 (r) = 1 + |λ| 1+ rn .
n=1
n(n!) l=1
l

1 1 |λ|
Agora, n
> n+1
e 1+ l
> 1. Assim,
∞
X 1 |λ| r
y1 (r) > 1 + |λ| rn = 1 + (e − 1 − r) .
n=1
(n + 1)! r
Disso concluı́mos que y1 (r) cresce da ordem de er quando r → ∞. O problema com isso é que em
várias aplicações tal comportamento é indesejado. No problema do átomo de hidrogênio da Mecânica
Quântica, por exemplo, o produto e−r/2 y1 (r) representa a função de onda radial de um elétron de
momento angular nulo sob um potencial coulombiano34 . Pelo visto acima, se λ < 0 a função de onda
cresceria para r → ∞ pelo menos como e+r/2 , não podendo, assim, ser uma função de quadrado in-
tegrável em R3 , uma condição fundamental ligada à interpretação probabilı́stica da Mecânica Quântica.
Assim, soluções com λ < 0 devem ser descartadas nesse contexto.
34
Vide Seção 10.5, página 610, ou qualquer bom livro de Mecânica Quântica.
Tratemos agora do caso em que λ é positivo, mas não é um número inteiro. Por (8.E.6), podemos
escrever, para n − 1 ≥ 2⌈λ⌉,
2⌈λ⌉−1 n−1
n−1
Y Y λ Y λ

n
(−1) (λ − l) = −λ(n − 1)! 1− 1− ,
l=0 l=1
l l
l=2⌈λ⌉
onde ⌈λ⌉ é o menor inteiro maior ou igual a λ. Assim,

"n−1 #  
2⌈λ⌉
X Y ∞
X n−1
Y
(−1)n 1  λ  n
y1 (r) = 1 + (λ − l) r n + L 1− r ,
n=1
(n!)2 l=0
n (n!) l
n=2⌈λ⌉+1 l=2⌈λ⌉
com
2⌈λ⌉−1
Y λ
L := −λ 1− .
l=1
l
n−1
Y
λ
A razão de escrevermos essa expressão dessa forma reside no fato que, agora, 1− é um
l
l=2⌈λ⌉
produto de termos positivos, sendo que, para l ≥ 2⌈λ⌉ tem-se
λ
1− ≥ α
l
onde
λ 2⌈λ⌉ − λ ⌈λ⌉ + (⌈λ⌉ − λ) ⌈λ⌉ 1
α := 1 − = = > = .
2⌈λ⌉ 2⌈λ⌉ 2⌈λ⌉ 2⌈λ⌉ 2
Com isso, para a última soma do lado direito vale
 
X∞ n−1
Y ∞
X
1  λ  n 1
1− r ≥ (α)n−2⌈λ⌉ r n
n (n!) l n (n!)
n=2⌈λ⌉+1 l=2⌈λ⌉ n=2⌈λ⌉+1
∞
X 1
= K (αr)n
n (n!)
n=2⌈λ⌉+1
∞
X 1
> K (αr)n
(n + 1)!
n=2⌈λ⌉+1

K αr
= e − P (αr)
αr
2⌈λ⌉+1
X 1
onde K := α −2⌈λ⌉
, P (αr) := (αr)n é um polinômio de grau 2⌈λ⌉ + 1 e α > 1/2.
n=0
n!
Disso concluı́mos que para r → ∞, |y1 (r)| cresce mais rápido que eαr com α > 1/2. Assim, um
produto como e−r/2 y1 (r), que como dissemos representa a função de onda radial de um elétron de
momento angular nulo sob um potencial coulombiano, não é de quadrado integrável no espaço R3 , uma
condição fundamental ligada à interpretação probabilı́stica da Mecânica Quântica. Assim, soluções
com λ > 0, mas λ não-inteiro, devem também ser descartadas nesse contexto.
Capı́tulo 9
Propriedades de Algumas Funções Especiais
Conteúdo
9.1 Discussão Preliminar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 504
9.1.1 Definições e Considerações Preliminares . . . . . . . . . . . . . . . . . . . . . 504
9.1.2 Relações de Ortogonalidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . 507
9.1.3 Fórmulas de Rodrigues . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 509
9.1.4 Funções Geratrizes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 511
9.2 Propriedades de Algumas Funções Especiais . . . . . . . . . . . . . . . . . 521
9.2.1 Propriedades dos Polinômios de Legendre . . . . . . . . . . . . . . . . . . . . 521
9.2.2 Propriedades dos Polinômios de Legendre Associados. Harmônicas Esféricas . 527
9.2.3 Propriedades dos Polinômios de Hermite . . . . . . . . . . . . . . . . . . . . . 537
9.2.4 Propriedades dos Polinômios de Laguerre . . . . . . . . . . . . . . . . . . . . 540
9.2.5 Propriedades dos Polinômios de Laguerre Associados . . . . . . . . . . . . . . 544
9.2.6 Propriedades das Funções de Bessel . . . . . . . . . . . . . . . . . . . . . . . 548
9.2.7 Propriedades das Funções de Bessel Esféricas . . . . . . . . . . . . . . . . . . 566
9.3 Completeza de Algumas Famı́lias de Funções . . . . . . . . . . . . . . . . . 569
9.3.1 Completeza de Polinômios Ortogonais em Intervalos Compactos . . . . . . . 570
9.3.2 Completeza de Polinômios de Hermite . . . . . . . . . . . . . . . . . . . . . . 572
9.3.3 Completeza dos Polinômios Trigonométricos . . . . . . . . . . . . . . . . . . . 574
Apêndices . . . . . . . . . . . . . . . . . . . . 581
9.A Provando (9.57) à Força Bruta . . . . . . . . . . . . . . . . . . . . . . . . . 581
E ste capı́tulo dá continuidade ao Capı́tulo 8 e concentra-se no estudo de propriedades especiais

de algumas das funções lá apresentadas como soluções de equações diferenciais de interesse.
Nossos principais objetivos são a dedução das relações de ortogonalidade de certas funções, a
dedução das chamadas fórmulas de Rodrigues e de relações de recorrência para as mesmas e
também a determinação de suas funções geratrizes. Essas propriedades, que serão devidamente definidas
e discutidas na Seção 9.1, são úteis para a resolução de equações diferenciais, especialmente aquelas
provenientes de problemas envolvendo equações diferenciais parciais submetidas a certas condições
iniciais e/ou de contorno. Exemplos de aplicações a problemas fı́sicos são discutidos no Capı́tulo
10, página 583. Ainda que nosso tratamento seja tão completo quanto possı́vel, dentro do escopo
relativamente limitado que pretendemos ter, repetimos aqui a recomendação das referências listadas
no Capı́tulo 8 à página 411.
503
9.1 Discussão Preliminar

Na próxima seção, a Seção 9.2, tencionamos apresentar ao leitor certas propriedades de algumas das
funções encontradas como solução de equações diferenciais de interesse em Fı́sica, propriedades essas
cuja utilidade maior manifesta-se especialmente, como mencionado, na resolução de equações diferen-
ciais parciais submetidas a certas condições iniciais e/ou de contorno. Na presente seção prepararemos
o terreno discutindo algumas idéias gerais.
As idéias gerais que apresentaremos envolvem 1. as chamadas relações de ortogonalidade, que gene-
ralizam aquelas bem-conhecidas da teoria das séries de Fourier; 2. as chamadas fórmulas de Rodrigues,
úteis para a obtenção de relações de recorrência entre funções e 3. as chamadas funções geratrizes, das
quais outras propriedades úteis são extraı́das, como por exemplo representações integrais para certas
funções.
Os exemplos principais dos quais trataremos a seguir, na Seção 9.2, envolvem os polinômios de
Legendre, de Hermite e de Laguerre e as funções de Bessel, todas de importância na resolução de
problemas do Eletromagnetismo, de Mecânica Quântica, da Mecânica dos Fluidos e de outras áreas.
9.1.1 Definições e Considerações Preliminares

No Capı́tulo 8 tratamos nossas equações diferenciais como equações no plano complexo. Para a dis-
cussão das chamadas relações de ortogonalidade devemos considerar apenas equações diferenciais de
uma variável real. De qualquer forma, na absoluta maioria das equações diferenciais de interesse em
Fı́sica a função incógnita y é uma função de uma variável real, digamos, x, e assim consideraremos
aqui.
Em muitas das equações diferenciais de interesse em Fı́sica a variável x é restrita a uma região J ⊂ R
da reta real, sendo J um intervalo fechado (tal como [a, b]), aberto (tal como (a, b)) ou semi-aberto
(tal como (a, b] ou [a, b)). Podem também ocorrer intervalos infinitos, tais como J = (−∞, ∞), ou
semi-infinitos, como J = (0, ∞) ou J = [0, ∞). Denotaremos por J 0 o interior do intervalo J, ou
seja, J 0 é o maior intervalo aberto contido em J. Por exemplo, se J = [a, b] teremos J 0 = (a, b), se
J = [0, ∞) então J 0 = (0, ∞) e se J é aberto então J 0 = J.
Até aqui escrevemos nossas equações lineares homogêneas de segunda ordem na forma
y ′′(x) + a(x)y ′ (x) + b(x)y(x) = 0
(agora já adotando como variável x ∈ J). Em muitos problemas de interesse essa equação pode ser
escrita de outra forma, denominada por alguns autores de forma canônica de Liouville, e que será
importante para o que segue:
(p(x)y ′(x))′ + q(x)y(x) + µ r(x)y(x) = 0, (9.1)

onde,
1. p(x) é real, contı́nua e diferenciável em J 0 e p(x) > 0 para todo x ∈ J 0 .
2. q é real e contı́nua em J.
(9.2)
3. r(x) é real e contı́nua em J 0 e r(x) > 0 para todo x ∈ J 0 .
4. µ é uma constante.
As condições de positividade de p e r em J 0 são as mais importantes. Note-se que não excluiremos que
p e r possam se anular (ou mesmo divergir) nos extremos do intervalo J 1 .
Como o leitor pode facilmente constatar, a relação entre essas funções é a seguinte:
p′ (x) 1
a(x) = , b(x) = (q(x) + µr(x)) .
p(x) p(x)
Dadas a(x) e b(x), a primeira relação acima fixa p(x) (a menos de uma constante), a saber,
Z x
′ ′
p(x) = exp a(x )dx + const. .
0
Já a segunda nem sempre fixa q(x) e r(x) univocamente, tudo dependendo da condição de positividade
sobre r(x), que foi mencionada acima, ou de qual parâmetro se deseja tomar por µ. Na maioria dos
casos, porém, q e r podem ser fixados univocamente, o que ficará claro nos exemplos que seguem.
Várias das equações diferenciais de segunda ordem das quais tratamos no Capı́tulo 8 podem ser
escritas na forma canônica em algum intervalo J conveniente2 . Vamos a alguns exemplos que nos
interessarão:
A equação do oscilador harmônico simples: y ′′(x) + λy(x) = 0. Aqui p(x) = 1, q(x) = 0,

r(x) = 1 e µ = λ. Vários tipos de intervalos J aparecem em problemas. No problema da corda
vibrante, por exemplo, pode-se adotar J = [0, L], L sendo o comprimento da corda.
A equação de Legendre (1 − x2 )y ′′ (x) − 2xy ′ (x) + λ(λ + 1)y(x) = 0 é tipicamente considerada

no intervalo J = [−1, 1] e pode ser escrita como
′
1 − x2 y ′ (x) + λ(λ + 1)y(x) = 0.
Aqui p(x) = (1 − x2 ), q(x) = 0, r(x) = 1 e µ = λ(λ + 1).

Note que p(x) > 0 em J 0 = (−1, 1), mas anula-se nos extremos x = ±1. Já a função r(x) é
positiva em todo J = [−1, 1].
1
O caso em que p e r permanecem finitas e positivas nos extremos do intervalo J é particularmente importante no
chamado Problema de Sturm-Liouville regular, tratado no Capı́tulo 12.
2
A conveniência é ditada pelo problema fı́sico subjacente.
A equação de Hermite y ′′ (x) − 2xy ′ (x) + λy(x) = 0, é tipicamente considerada no intervalo

J = (−∞, ∞) e pode ser escrita como
2 ′ 2
e−x y ′ (x) + λe−x y(x) = 0.
2 2
Aqui p(x) = e−x , q(x) = 0, r(x) = e−x e µ = λ.
Note que p(x) > 0 e r(x) > 0 em todo J = (−∞, ∞).
A equação de Chebyshev (1 − x2 )y ′′ (x) − x y ′(x) + λ2 y(x) = 0 é tipicamente considerada no

intervalo J = [−1, 1] e pode ser escrita como
√ ′ 1
′
1− x2 y (x) + λ2 √ y(x) = 0.
1 − x2
√ √
Aqui p(x) = 1 − x2 , q(x) = 0, r(x) = 1/ 1 − x2 e µ = λ2 .
Note que p(x) > 0 em J 0 = (−1, 1), mas anula-se nos extremos x = ±1. Já a função r(x) é
positiva em todo J = (−1, 1), mas diverge nos extremos x = ±1.
A equação de Laguerre xy ′′ (x)+(1−x)y ′ (x)+λy(x) = 0 é tipicamente considerada no intervalo

J = [0, ∞) e pode ser escrita como
′
xe−x y ′ (x) + λe−x y(x) = 0.
Aqui p(x) = xe−x , q(x) = 0, r(x) = e−x e µ = λ.

Note que p(x) > 0 em J 0 = (0, ∞), mas anula-se no extremo x = 0. Já a função r(x) é positiva
em todo J = [0, ∞).
A equação de Bessel e a equação de Bessel esférica também podem ser escritas desta forma canônica.
Porém, o tratamento das relações de ortogonalidade que se segue exige para elas algumas adaptações
e postergaremos sua discussão paras as Seções 9.2.6 e 9.2.7, adiante.
Daqui para frente vamos escrever o intervalo J, finito ou não, na forma J := (A, B) ⊂ R.
Para uma função u definida em J que seja pelo menos duas vezes diferenciável, vamos definir o
operador diferencial L por
(Lu)(x) := (p(x)u′ )′ + q(x)u . (9.3)
A equação (9.1) fica simplificada na forma
(Ly)(x) + λ r(x)y(x) = 0 . (9.4)
Se λ for um número tal que a equação (9.4) for satisfeita para alguma função uλ (que em geral
dependerá de λ), então diz-se que λ é um autovalor e uλ é dito ser a auto-função associada ao autovalor
λ. Essa nomenclatura surge por analogia com os conceitos de autovalor e auto-vetor de matrizes na
álgebra linear3 .
3 1
Estritamente falando λ e uλ são auto-valores, respectivamente, auto-funções, do operador M = − r(x) L.
9.1.2 Relações de Ortogonalidade

O teorema que agora apresentamos expressa uma da mais importantes propriedades das soluções das
equações diferenciais discutidas acima: as chamadas relações de ortogonalidade.
Teorema 9.1 Considere-se a equação diferencial Lu(x) + µr(x)u(x) = 0 definida no intervalo (não
necessariamente finito) J = (A, B), com p, q e r satisfazendo as condições enumeradas em (9.2).
Sejam λ1 e λ2 ∈ R com λ1 6= λ2 e suponhamos que uλ1 e uλ2 sejam funções não-nulas que satisfazem
Luλ1 (x) + λ1 r(x)uλ1 (x) = 0 e Luλ2 (x) + λ2 r(x)uλ2 (x) = 0 , (9.5)
em J = (A, B) e suponhamos ainda que os limites4

′ ′
lim p(b) uλ1 (b)uλ2 (b) − uλ1 (b)uλ2 (b) e lim p(a) uλ1 (a)u′λ2 (a) − u′λ1 (a)uλ2 (a)
b→B− a→A+
existam e satisfaçam

′ ′ ′ ′
lim p(b) uλ1 (b)uλ2 (b) − uλ1 (b)uλ2 (b) = lim p(a) uλ1 (a)uλ2 (a) − uλ1 (a)uλ2 (a) . (9.6)
b→B− a→A+
Então, Z B
uλ1 (x) uλ2 (x) r(x) dx = 0 . (9.7)
A
2
Prova. Seja (a, b), com A < a < b < B, qualquer intervalo finito contido em J 0 . Consideremos a
expressão Z b
(λ1 − λ2 ) uλ1 (x) uλ2 (x) r(x) dx .
a
Como λ1 e λ2 são reais, isso pode ser escrito por (9.5) como
Z b Z b
(λ1 r(x)uλ1 (x)) uλ2 (x) dx − uλ1 (x) (λ2 r(x)uλ2 (x)) dx
a a
Z b Z b
= uλ1 (x) (Luλ2 )(x) dx − (Luλ1 )(x) uλ2 (x) dx .
a a
4
Os limites lim e lim significam os limites à esquerda e à direita, respectivamente.
x→Y− x→Y+
Agora, para quaisquer u e v duas vezes diferenciáveis definidas em (a, b) vale, usando-se integração
por partes,
Z b Z b Z b
′ ′
v(x) (Lu)(x) dx = v(x)(p(x)u ) dx + v(x)q(x)u(x) dx
a a a
Z b b Z b
′
= − v ′ (x)(p(x)u′ ) dx + vpu + v(x)q(x)u(x) dx
a a a
Z b b b Z b
′
= u(pv ′)′ dx + vpu − ′
v pu + v(x)q(x)u(x) dx
a a a a
Z b b b
′ ′
= (Lv)(x) u(x) dx + vpu − v pu , (9.8)
a a a
ou seja, Z Z
b b b b
′ ′
v(x) (Lu)(x) dx − (Lv)(x) u(x) dx = vpu − v pu . (9.9)
a a a a
Assim, concluı́mos que
Z b b b

(λ1 − λ2 ) uλ1 (x) uλ2 (x) r(x) dx = uλ1 pu′λ2 − u′λ1 puλ2
a a a

= p(b) uλ1 (b)u′λ2 (b) − u′λ1 (b)uλ2 (b) − p(a) uλ1 (a)u′λ2 (a) − u′λ1 (a)uλ2 (a) .
Conseqüentemente, tem-se pelas hipóteses,
Z B
(λ1 − λ2 ) uλ1 (x) uλ2 (x) r(x) dx
A

= lim p(b) uλ1 (b)u′λ2 (b) − u′λ1 (b)uλ2 (b) − lim p(a) uλ1 (a)u′λ2 (a) − u′λ1 (a)uλ2 (a) = 0 .
b→B− a→A+
Z B
Como λ1 6= λ2 , isso implica uλ1 (x) uλ2 (x) r(x) dx = 0, como querı́amos provar.
A
A relação (9.7) diz-nos que uλ1 e uλ2 são ortogonais em relação ao produto escalar
Z B
hf, gir := f (x)g(x) r(x) dx , (9.10)
A
RB
definido no conjunto de todas as funções f : J → C tais que A |f (x)|2 r(x) dx < ∞. Essas relações
de ortogonalidade são de suma importância em aplicações, especialmente na resolução de equações
diferenciais parciais sob certas condições de contorno. O leitor interessado em exemplos pode passar
diretamente à Seção 9.2, página 521. Aplicações à solução de equações diferenciais parciais de interesse
em Fı́sica serão vistas no Capı́tulo 10, página 583.
Há várias condições sob as quais (9.6) é satisfeita. Por exemplo, ela será satisfeita se p(A) = p(B) =
0 e se uλ1 , uλ2 e suas derivadas não divergirem em A e B. Outra condição sob a qual (9.6) é satisfeita
se dá, no caso em que (A, B) é um intervalo finito, sob a hipótese que p(A) e p(B) sejam finitos e que
uλ1 e uλ2 satisfaçam condições de contorno em A e B do tipo
α1 y(A) + α2 y ′(A) = 0 , (9.11)
β1 y(B) + β2 y ′(B) = 0 , (9.12)
onde α1 , α2 , β1 , β2 são constantes fixadas, sendo (α1 , α2 ) 6= (0, 0) e (β1 , β2 ) 6= (0, 0). Esse último
tipo de situação é discutido com detalhe no Capı́tulo 12, página 688, especialmente no Lema 12.1 da
página 703.
9.1.3 Fórmulas de Rodrigues

As idéias desta pequena seção serão melhor ilustradas nos exemplos da Seção 9.2.
Consideremos a equação diferencial (p(x)y ′(x))′ + q(x)y(x) + µ r(x)y(x) = 0, ou seja, Ly + µry = 0,
com p, q e r satisfazendo as condições enumeradas em (9.2) e suponhamos também que r seja uma
função infinitamente diferenciável de x. Consideremos que o intervalo J onde a equação é considerada
seja J = [−1, 1]. Para n = 0, 1, 2, . . ., sejam definidas as funções
!
1 dn
pn (x) := r(x)(1 − x2 )n . (9.13)
r(x) dxn
É fácil ver que se m < n, então Z 1

xm pn (x) r(x) dx = 0 , (9.14)
−1
ou seja, cada pn é ortogonal, segundo o produto escalar h·, ·ir definido em (9.10), a todos os polinômios
de grau menor que n. Para provar (9.14), basta escrever
Z 1 Z 1 !
n
d
xm pn (x) r(x) dx = xm n r(x)(1 − x2 )n dx
−1 −1 dx

dk
e fazer n vezes integração por partes, lembrando que a expressão dxk
r(x)(1 − x2 )n , com k < n,
sempre contém um fator (1 − x2 ) que se anula em ±1.
E. 9.1 Exercı́cio importante. Faça isso! 6
Se as funções pn forem elas mesmas polinômios de grau n, o que ocorre em vários casos, concluı́mos
que Z 1
pm (x) pn (x) r(x) dx = 0 ,
−1
sempre que m 6= n. Isso significa que os polinômios pn (x) são ortogonais dois-a-dois segundo o produto
escalar h·, ·ir no intervalo J = [−1, 1].
Várias equações diferenciais do tipo mencionado acima, definidas em um intervalo finito [−1, 1], têm
soluções polinomiais, como por exemplo, a equação de Legendre e de Chebyshev. Como as mesmas,
pelo Teorema 9.1, são ortogonais em relação ao produto escalar h·, ·ir no intervalo J = [−1, 1]5 ,
as considerações acima sugerem que as soluções polinomiais possam ser escritas, a menos de uma
constante multiplicativa, na forma (9.13). Isso é, de fato, verdade para várias equações importantes
(como as de Legendre e Chebyshev) e da expressão (9.13) será possı́vel obter várias propriedades
daqueles polinômios. Isso será melhor discutido nos exemplos que trataremos na Seção 9.2.
A expressão (9.13) é denominada fórmula de Rodrigues6 .
E. 9.2 Exercı́cio. Generalize a fórmula de Rodrigues (9.13) para um intervalo J = [a, b] finito arbitrário.
Sugestão: procure uma transformação linear que mapeie bijetivamente [−1, 1] em [a, b]. 6
As fórmulas de Rodrigues podem ser generalizadas para equações diferenciais definidas em intervalos
não-finitos, como J = (0, ∞) ou J = (−∞, ∞). Tratemos disso.
Para o caso J = (0, ∞) devemos supor novamente que r(x) seja infinitamente diferenciável, mas
devemos ainda supor que r(x) seja limitada em x = 0 e que r(x) e todas as suas derivadas r (m) (x)
caiam no infinito mais rápido que qualquer potência, ou seja limx→∞ xk r (m) (x) = 0 para todo k ≥ 0 e
m ≥ 0. Definimos, nesse caso,
1 dn n

pn (x) := r(x) x . (9.15)
r(x) dxn
É fácil ver que se m < n, então Z ∞
xm pn (x) r(x) dx = 0 , (9.16)
0
Para ver isso, escrevemos novamente
Z Z !
∞ ∞
dn
xm pn (x) r(x) dx = xm r(x) xn dx
0 0 dxn
e fazemos integração
por partes, usando que limx→∞ xk r (m) (x) = 0 para todos k ≥ 0 e m ≥ 0 e que a

dk n
expressão dx k r(x)x , com k < n, sempre contém um fator x que se anula em 0.
E. 9.3 Exercı́cio importante. Complete os detalhes. 6
Em certos exemplos, como na equação de Laguerre, as funções pn são polinômios na variável x.

Nesses casos, temos então que Z ∞
pm (x) pn (x) r(x) dx = 0 ,
0
5
Veremos isso explicitamente nos exemplos da Seção 9.2
6
Benjamin Olinde Rodrigues (1794-1851). Rodrigues foi banqueiro e matemático amador, nascido na França, mas de
origem judaico-portuguesa. Encontrou a fórmula que leva seu nome apenas para o caso dos polinômios de Legendre. A
generalização aqui apresentada é posterior. Rodrigues também deu contribuições para a teoria dos quatérnions e para o
grupo SO(3) (vide Proposição 14.5, página 791). Apesar de banqueiro, Rodrigues foi lı́der do partido socialista francês.
escalar h·, ·ir no intervalo J = (0, ∞). Como antes, isso sugere que as soluções polinomiais de certas
equações diferenciais definidas no intervalo J = (0, ∞) possam ser escritas, a menos de uma constante
multiplicativa, na forma sugerida pela fórmula de Rodrigues (9.15). Veremos que tal é o caso para os
polinômios de Laguerre e isso nos permitirá obter algumas relações úteis sobre aqueles polinômios.
Para o caso J = (−∞, ∞) devemos supor novamente que r(x) seja infinitamente diferenciável,
mas devemos ainda supor que r(x) e todas as suas derivadas r (m) (x) caiam no infinito mais rápido que
qualquer potência, ou seja lim|x|→∞ |x|k |r (m) (x)| = 0 para todo k ≥ 0 e m ≥ 0. Definimos, nesse caso,
1 dn
pn (x) := r(x) . (9.17)
r(x) dxn
É fácil ver que se m < n, então Z ∞

xm pn (x) r(x) dx = 0 , (9.18)
−∞
Para ver isso, escrevemos novamente
Z ∞ Z
m
∞
m dn
x pn (x) r(x) dx = x r(x) dx
−∞ −∞ dxn
e fazemos integração por partes, usando que lim|x|→∞ |x|k |r (m) (x)| = 0 para todos k ≥ 0 e m ≥ 0.
E. 9.4 Exercı́cio importante. Complete os detalhes. 6
Em certos exemplos, como na equação de Hermite, as funções pn são polinômios na variável x.

Nesses casos, temos então que Z ∞
pm (x) pn (x) r(x) dx = 0 ,
−∞
escalar h·, ·ir no intervalo J = (−∞, ∞). Como antes, isso sugere que as soluções polinomiais de
certas equações diferenciais definidas no intervalo J = (−∞, ∞) possam ser escritas, a menos de uma
constante multiplicativa, na forma sugerida pela fórmula de Rodrigues (9.17). Veremos que tal é o caso
para os polinômios de Hermite e isso nos permitirá obter algumas relações úteis sobre os mesmos.
9.1.4 Funções Geratrizes

Funções geratrizes desempenham um elegante papel no estudo de propriedades de seqüências numéricas,
em análise combinatória e no estudo de certas seqüências de funções (ilustraremos essa afirmação
estudando com elas, logo abaixo, a chamada seqüência de Fibonacci). Faremos adiante uso de funções
geratrizes para demonstrar algumas propriedades úteis de algumas das soluções que encontramos no
Capı́tulo 8, como os polinômios de Legendre, de Hermite, de Laguerre, de Chebyshev e as funções de
Bessel.
O leitor poderá encontrar na bela referência [53] uma vasta coleção de identidades combinatórias in-
teressantes que podem ser engenhosamente demonstradas com o uso de funções geratrizes de seqüências,
assim como outras referências à literatura pertinente.
• Funções geratrizes
Seja {an , n ∈ N} uma seqüência de números reais ou complexos. Define-se a função geratriz da
seqüência {an , n ∈ N} como sendo a função dada por
∞
X
G{an } (t) := an tn .
n=0
Essa definição pressupõe que a série de potências em t do lado direito seja convergente em alguma
região do plano complexo, digamos |t| < T , para algum T > 0. Isso nem sempre é o caso. Por exemplo,
se an = n! a série acima tem raio de convergência nulo.
• Funções geratrizes exponenciais
A função geratriz exponencial da seqüência {an , n ∈ N} é definida por

∞
X an
E{an } (t) := tn .
n=0
n!
Essa definição pressupõe que a série de potências em t do lado direito seja convergente em alguma
região do plano complexo, digamos |t| < T .
• Funções geratrizes de Dirichlet
Para certos tipos de seqüências é conveniente

P∞ definir outro tipo de função geratriz, substituindo os
n
monômios t por outras funções de t: n=0 an Sn (t). O exemplo mais importante desse tipo de função
geratriz é aquele no qual se toma Sn (t) = 1/nt , n ≥ 1. Isso nos conduz à próxima definição.
A função geratriz de Dirichlet7 da seqüência {an , n ∈ N} é definida por
∞
X an
D{an } (t) := ,
n=1
nt
desde que a série do lado direito convirja com a variável t em alguma região do plano complexo.
A mais famosa das funções geratrizes de Dirichlet é a função zeta de Riemann8, que é a função
geratriz de Dirichlet da seqüência constante an = 1, n ≥ 1:
X∞
1
ζ(s) := s
. (9.19)
n=1
n
Como facilmente se vê, a série do lado direito converge na região do plano complexo definida por
Re(s) > 1. A função zeta de Riemann desempenha um papel de grande importância na teoria das
funções de variável complexa e na teoria de números, pois várias de suas propriedades estão relacionadas
a propriedades do conjunto de números primos. Vide, e.g., [58], [142], [143] ou [37].
7
Johann Peter Gustav Lejeune Dirichlet (1805-1859).
8
• Funções geratrizes de Lambert
A função geratriz de Lambert9 da seqüência {an , n ∈ N} é definida por

∞
X tn
L{an } (t) := an ,
n=1
1 − tn
desde que a série do lado direito convirja com a variável t em alguma região do plano complexo. As
funções geratrizes de Lambert são também denominadas séries de Lambert.
As funções geratrizes definidas acima têm várias propriedades algébricas interessantes, como mos-
trado nos exercı́cios que seguem.
E. 9.5 Exercı́cio. Se {an } e {bn } são duas seqüências cujas funções geratrizes G{an } (t) e G{bn } (t) têm
uma região de convergência comum, mostre que
G{an } (t) G{bn } (t) = G{cn } (t) ,
onde n
X
cn = an−p bp .
p=0
E. 9.6 Exercı́cio. Se {an } e {bn } são duas seqüências cujas funções geratrizes exponenciais E{an } (t) e
E{bn } (t) têm uma região de convergência comum, mostre que
E{an } (t) E{bn } (t) = E{cn } (t) ,
onde n
X n
cn = an−p bp .
p=0
p
6
E. 9.7 Exercı́cio. Se {an } e {bn } são duas seqüências cujas funções geratrizes de Dirichlet D{an } (t) e
D{bn } (t) têm uma região de convergência comum, mostre que
D{an } (t) D{bn } (t) = D{cn } (t) ,
onde n
X
cn = an/p bp .
p=1
n/p inteiro
9
Johan Heinrich Lambert (1728-1777).
E. 9.8 Exercı́cio. Se {an } é uma seqüência cuja função geratriz de Lambert é L{an } (t), mostre que
X
L{an } (t) = bm tm = G{bn } (t) ,
m=1
onde b0 := 0 e, para m > 0,

m
X
bm := an .
n=1
m/n inteiro
Passemos a discutir algumas aplicações das funções geratrizes.
• Números de Fibonacci
Seja an , n = 1, 2, 3, 4 . . ., a seqüência definida recursivamente da seguinte forma:
a0 = 1 , a1 = 1 , an+2 = an+1 + an , ∀n≥0.
Essa seqüência é denominada seqüência de Fibonacci10. Os primeiros elementos da seqüência de Fibo-

nacci são 1, 1, 2, 3, 5, 8, 13, 21, 34, 55, 89, . . .. Cada elemento da seqüência de Fibonacci é a soma
de seus dois antecessores.
Fibonacci introduziu a seqüência que leva seu nome em um problema de seu livro Liber abbaci,
de 1202 (livro esse que introduziu o sistema decimal arábico na Europa, em substituição ao sistema
de algarismos romanos, usado até então): “Um certo homem coloca um casal de coelhos em um local
cercado de muros por todos os lados. Quantos pares de coelhos podem ser produzidos a partir daquele
casal em um ano se for suposto que a cada mês cada casal gera um novo casal, o qual se torna fértil
em um mês”. A resposta (supondo que nenhum coelho morre) é que, após n meses, tem-se an pares de
coelhos, sendo an dado acima. Trata-se provavelmente do primeiro modelo de evolução de populações.
A seqüência de Fibonacci é surpreendentemente rica em propriedades, sendo possivelmente uma das
mais pesquisadas da história, existindo até mesmo uma publicação periódica (“Fibonacci Quarterly”)
dedicada a seu estudo.
Um fato que confere aos números de Fibonacci um sabor especial é que os mesmos aparecem
freqüentemente na Natureza. Há, por exemplo, uma forte probabilidade de os números de pétalas em
flores de determinadas espécies de plantas serem números de Fibonacci. O mesmo se dá com o número
de voltas espirais na casca de abacaxis e de pinhas, com o número de ramos de plantas e árvores, com
o número de padrões de um determinado tipo nas conchas de caramujos etc11 . A razão do surgimento
10
Leonardo Pisano, cognominado “Fibonacci” (1170-1250).
11
Para algumas referências:
S. L. Basin, “The Fibonacci Sequence as it appears in Nature”, Fibonacci Quarterly, 1, (1963), 53–57.
A. Brousseau, “Fibonacci Statistics in Conifers”, The Fibonacci Quarterly, 7 (1969), 525–532.
P. B. Onderdonk, “Pineapples and Fibonacci Numbers”, The Fibonacci Quarterly, 8 (1970), 507–508.
Um livro clássico sobre o assunto é [140]. A área da Biologia e da Matemática que se dedica ao estudo da formação e
evolução de padrões é denominada Filotaxia.
de números de Fibonacci em contextos biológicos está relacionado à formação e reprodução de padrões,

mas é apenas parcialmente entendida atualmente.
No intuito de ilustrar a utilidade de funções geratrizes de seqüências, vamos demonstrar a seguinte
identidade para os elementos da seqüência de Fibonacci:
 
√ !n+1 √ !n+1
1 1+ 5 1− 5
an = √  −  , (9.20)
5 2 2
válida para todo n ≥ 0. Essa expressão permite obter cada an diretamente em termos de n.
A função geratriz da seqüência de Fibonacci é
∞
X
F (t) = an tn . (9.21)
n=0
Mostremos primeiramente que a série de potências do lado direito tem um raio de convergência não-
nulo. Pelo teste da razão vale, para n > 0,

an+1 tn+1
= an+1 |t| = an + an−1 |t| = 1 + an−1 |t| ≤ 2|t| ,
an tn an an an
pois an−1
an
≤ 1, já que a seqüência de Fibonacci é crescente. Logo, a série converge absolutamente pelo
menos na região |t| < 1/2. A verdadeira região de convergência é um pouco maior (como veremos
adiante), mas não precisaremos desse fato por ora, pois tudo o que necessitamos é da existência de um
raio de convergência não-nulo, o que justifica as manipulações que faremos.
Façamos uso da definição da seqüência de Fibonacci para obter uma fórmula explı́cita para F (t).
Temos que
∞
X
F (t) = 1 + t + an tn
n=2
∞
X ∞
X ∞
X
n n
= 1+t+ (an−1 + an−2 ) t = 1+t+ an−1 t + an−2 tn
n=2 n=2 n=2
∞
X ∞
X
n 2
= 1+t+t an t + t an tn
n=1 n=0
= 1 + t + t(F (t) − 1) + t2 F (t) .
Assim, (1 − t − t2 )F (t) = 1 e, portanto,

1
F (t) = .
1 − t − t2
A idéia agora é obter a expansão em série de Taylor de F (t) em torno de t = 0 e compará-la a (9.21),
para assim obter uma expressão explı́cita para os an ’s. Para isso, ao invés de calcularmos as derivadas
de F em t = 0, é mais fácil proceder da seguinte forma. Escrevemos 1 − t − t2 = −(t − γ1 )(t − γ2 ) onde

√ √
5−1 5+1
γ1 = , γ2 = − .
2 2
Assim,

1 1 1 1 1
F (t) = = − = −
1 − t − t2 (t − γ1 )(t − γ2 ) γ1 − γ2 γ1 − t γ2 − t
" ! !#
1 1 1 1 1
= √ t −
5 γ1 1 − γ1 γ2 1 − γt2
∞
1 X 1 1
= √ − tn
5 n=0 γ1n+1 γ2n+1
∞
1 X
= √ (−γ2 )n+1 − (−γ1 )n+1 tn
5 n=0
 
∞ √ !n+1 √ !n+1
X 1  1+ 5 1− 5
= √ −  tn ,
n=0
5 2 2
onde usamos que 1/γ1 = −γ2 . Comparando com (9.21) obtemos (9.20), como querı́amos.√ Da última
expressão, vê-se também que o raio de convergência da série de potências que define F é ( 5 − 1)/2 ≈
0, 618 . . ..
• Algumas identidades combinatórias
A seqüência de exercı́cios dirigidos que segue apresenta-nos uma série de identidades combinatórias
de interesse (usaremos algumas no Capı́tulo 11, página 632). A primeira obtem-se através de uma
função geratriz.
E. 9.9 Exercı́cio dirigido. Para n, m ∈ N, n ≥ 1 e m ≥ 0, defina-se o conjunto

n o
Nnm := (a1 , . . . , an ) ∈ Nn , a1 + · · · + an = m
(aqui, N = {0, 1, 2, . . .}). Seja |Nnm | o número de elementos de Nnm . |Nnm | representa o número de
maneiras de colocar exatamente m objetos indistinguı́veis em n posições distintas. Mostre que

n n+m−1 (n + m − 1)!
|Nm | = = .
m (n − 1)! m!
Sugestão. Mostre primeiramente que a função geratriz da seqüência |Nm
m |, m = 0, 1, 2, . . ., é
X∞ n
n m 1
|Nm | t = . (9.22)
m=0
1−t
Para isso, mostre que, para |t| < 1,

n ∞
!n ∞ ∞
1 X X X
= ta = a1 +···+an
t = |Nnm | tm .
1−t a=0 a1 , ..., an =0 m=0
De (9.22), obtenha
n
1 dm 1 n · · · (m + m − 1) (n + m − 1)! n+m−1
|Nnm | = = = = .
m! dtm 1−t m! (n − 1)! m! m
t=0
6
E. 9.10 Exercı́cio dirigido. Para n, m ∈ N, n ≥ 1 e m ≥ 0, defina-se o conjunto

n o
Mnm := (a1 , . . . , an ) ∈ Nn , 0 ≤ a1 + · · · + an ≤ m .
Seja |Mnm | o número de elementos de Mnm . |Mnm | representa o número de maneiras de colocar de zero a
no máximo m objetos indistinguı́veis em n posições distintas. Mostre que

n n+m (n + m)!
|Mm | = = . (9.23)
m n! m!
Sugestão. Convença-se que
m
X m
X
n+k−1
|Mnm | = |Nnk | = . (9.24)
k=0 k=0
k
12
Usando a bem conhecida identidade de Pascal

a a−1 a−1
= + (9.25)
b b b−1
conclua que
m
X m
X m
X m
X
n+k n+k (9.25) n+k−1 n+k−1
= 1+ = 1+ +
k k k k−1
k=0 k=1 k=1 k=1
m
X m
X
n+k−1 n+l−1
= 1+ +
k=1
k l=1
l−1
m
X X
m−1
l′ =l−1 n+k−1 n + l′
= 1+ +
k l′
k=1 l′ =0
e, assim, conclua que

Xm Xm Xm X n + l′
m−1
n+k−1 n+k−1 n+k n+m
= 1+ = − ′
= .
k=0
k k=1
k k=0
k ′
l m
l =0
Por (9.24), isso prova (9.23). 6

12
Blaise Pascal (1623-1662).
m
X
n+k−1 n+m
A identidade = é conhecida como segunda identidade de Pascal ou
k=0
k m
identidade da soma paralela. Para outras identidades combinatórias úteis, vide [53].
E. 9.11 Exercı́cio. Seguindo passos análogos aos do último exercı́cio, demonstre a identidade da soma
vertical: n
n+1 X j
= .
m+1 j=0
m
6
E. 9.12 Exercı́cio. As denominações identidade

da soma paralela e identidade da soma vertical provêm
a
da relação dos coeficientes binomiais b com o triângulo de Pascal. Desenhe um triângulo de Pascal e
entenda o significado dessas identidades e a razão de seus nomes. 6

E. 9.13 Exercı́cio dirigido. As identidades |Nnm| = n+m−1 m
e |Mnm | = n+m m
podem ser obtidas de
uma forma talvez mais direta e simples, dependendo do gosto do leitor. Suponha que se tenha m bolas
pretas e n bolas brancas. Convença-se que há n+m m
= n+m n
arranjos possı́veis dessas bolas (supondo
que as bolas pretas são indistinguı́veis entre si, e que o mesmo valha para as brancas). Uma maneira de
fazer esse raciocı́nio é imaginar as n + m bolas enfileiradas e contar de quantas maneiras distintas essas
fileiras podem ser formadas. Há (n + m)! permutações das n + m bolas, das quais devem ser fatoradas m!
permutações envolvendo apenas bolas pretas e n! permutações envolvendo apenas bolas brancas, fornecendo
assim n+m m
arranjos. Convença-se
também que, pela definição, esse número de arranjos é igual a |Mnm |.
Isso provou que |Mnm | = n+m . Convença-se que, pela definição, |Nnm | = |Mnm | − |Mnm−1 |. Tem-se, então
m
|Nnm | = n+mm
− n+m−1
m−1
= n+m−1
m
, onde a última igualdade segue da identidade de Pascal (9.25). 6
• Números de Bernoulli
A seqüência de números racionais denominados números de Bernoulli13 tem importância destacada

na Teoria dos Números, especialmente devido à sua relação com a função zeta de Riemann, definida
acima. Os números de Bernoulli também aparecem na expansão em série de Taylor da função tangente
e na chamada fórmula de Euler-Maclaurin. Os chamados números de Bernoulli, denotados por Bn ,
com n ∈ N, n ≥ 0, são definidos de sorte que sua função geratriz exponencial E{Bn } (z) seja a função
z/(ez − 1), ou seja, são definidos por
X∞
z Bn n
z
=: z . (9.26)
e −1 n=0
n!
Devido ao fato de z/(ez −1) ter um pomo em z = ±2πi sendo, porém, analı́tica em |z| < 2π, concluı́mos
a priori que
P∞a série de potências do lado direito é convergente para |z| < 2π. Multiplicando (9.26) por
z m
e − 1 = m=1 z /m!, obtemos
∞
! ∞ ! ∞ p
!
X Bn n X zm X X Bq
z = z = z p+1 ,
n=0
n! m=1
m! p=0 q=0
q!(p + 1 − q)!
13
Jakob Bernoulli (1654-1705).
n 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17
Bn 1 − 12 1
6
0 1
− 30 0 1
42
1
0 − 30 0 5
66
0 691
− 2730 0 7
6
0 − 3617
510
0
Tabela 9.1: Números de Bernoulli Bn para n = 0, . . . , 17.
de onde concluı́mos que

p
X Bq
B0 = 1 e = 0 para todo p ≥ 1 .
q=0
q!(p + 1 − q)!
Multiplicando a segunda relação acima por (p + 1)! a mesma torna-se

X p
p+1
Bq = 0 para todo p ≥ 1 ,
q=0
q
forma essa mais freqüentemente encontrada na literatura. Essa relação acima permite obter recursiva-
mente os coeficientes Bn a partir de B0 = 1. De fato, isolando o termo com q = p, temos
p−1
−1 X p+1
Bp = Bq para todo p ≥ 1 , (9.27)
p + 1 q=0 q
ou seja,
p−1
X Bq
Bp = −p! para todo p ≥ 1 . (9.28)
q=0
q!(p + 1 − q)!
Usando a fórmula (9.27) é possı́vel obter os primeiros números de Bernoulli, vide Tabela 9.1, página
519. A contemplação da Tabela 9.1 permite conjecturar que, exceto B1 , todos os Bn com n ı́mpar são
nulos. Veremos abaixo que essa conjectura é verdadeira. A impressão, porém, que os Bn ’s não-nulos
crescem lentamente, obtida da observação dos primeiros elementos da seqüência, é falsa. Devido ao
fato de a série de potências em não convergir para |z| = 2π concluı́mos que os |Bn | não-nulos devem
assintoticamente ser maiores que, ou da ordem de, n!/(2π)n para n grande. Isso de fato é correto e a
expressão precisa será apresentada em (9.34). Outra conjectura que se pode levantar da observação da
Tabela 9.1 é que os sinais dos números de Bernoulli com ı́ndice par (exceto B0 ) são alternados. Esse
fato é também correto e será provado mais adiante.
Separando o termo com B1 de (9.26), que é −z/2, e passando-o para o lado esquerdo, obtemos
X∞
z z Bn n
z
+ = 1+ z .
e −1 2 n=2
n!
z z

O lado esquerdo vale 2
coth 2
, como facilmente se constata. Concluı́mos assim que
∞
X 2n Bn
z coth(z) = 1 + zn , (9.29)
n=2
n!
para |z| < 2π. Como z coth(z) é uma função par, vemos de (9.29) que, exceto B1 , todos os demais Bn ’s
com n ı́mpar são nulos. Com esse conhecimento podemos escrever
∞
X 4n B2n
z coth(z) = z 2n . (9.30)
n=0
(2n)!
Como z cot(z) = iz coth(iz), obtemos também

∞
X (−1)n 4n B2n
z cot(z) = z 2n , (9.31)
n=0
(2n)!
para |z| < 2π.

Há uma conclusão importante a se obter de (9.31). A função z cot(z) satisfaz também a igualdade,
obtida primeiramente por Euler em 1748,
∞
X
2 1
z cot(z) = 1 − 2z . (9.32)
k=1
(kπ)2 − z2
Uma demonstração dessa importante relação pode ser encontrada no Exercı́cio-dirigido E. 9.30, página
577 destas notas (para outras referências vide Exercı́cio-dirigido E. 9.30). Agora, para |z| < π, podemos
escrever, já que k ≥ 1,
!
1 X z 2n
∞
1 1 1
= = ,
(kπ)2 − z 2 (kπ)2 1 − z 2 (kπ)2 n=0 kπ
kπ
e reinserindo isso em (9.32), obtemos

∞ ∞
!
X X 1
z cot(z) = 1 − 2 z 2n .
n=1 k=1
(kπ)2n
Comparando a (9.31), obtemos finalmente

X∞ n
1 n+1 4 B2n 2n
= (−1) π , (9.33)
k=1
k 2n 2(2n)!
válida para todo inteiro n > 0. Note que o lado esquerdo é igual a ζ(2n), onde ζ é a função zeta de
Riemann, definida em (9.19), página 512. A expressão (9.33) foi obtida por Euler pela primeira vez
em 1735, resolvendo assim parcialmente um problema, denominado problema de Basel, levantado por
X ∞
14 1
Mengoli em 1644, de encontrar uma fórmula fechada para as somas , m ∈ N, m > 1, as quais
k=1
km
envolvem potências de inversas de números inteiros. Os primeiros resultados obtidos de (9.33) são
X∞ X∞ X∞ X∞ X∞
1 π2 1 π4 1 π6 1 π8 1 π 10
2
= , 4
= , 6
= , 8
= , 10
= .
k=1
k 6 k=1
k 90 k=1
k 945 k=1
k 9450 k=1
k 93555
14
Pietro Mengoli (1626-1686).
Como o lado esquerdo de (9.33) é sempre positivo e não-nulo concluı́mos daquela identidade que os
sinais da seqüência B2n , n ≥ 1, são alternados e que os B2n ’s nunca se anulam. Como o lado esquerdo
de (9.33) converge a 1 quando n → ∞ (por que?), obtemos a expressão assintótica
n→∞ (−1)n+1 2(2n)!

B2n ≈ . (9.34)
4n π 2n
Diversos textos tratam de outras propriedades elementares dos números de Bernoulli. Recomenda-
mos, em particular, [53]. Vide também [138]. Para uma prova de (9.33) usando séries de Fourier, vide
[36]. Para uma discussão aparentada, vide Seção 17.C, página 987, destas notas.
O estudante deve interessar-se em saber que é até hoje um problema aberto determinar fórmulas
X∞
1
exatas para as séries = ζ(m) quando m é um número ı́mpar maior que 1. Além de não haver tais
k=1
km
fórmulas exatas, sabe-se muito pouco sobre ζ(m) com m ı́mpar. Apenas em 1979 foi demonstrado por
R. Apéry15 que ζ(3) é um número irracional16 . Em 2000, Tanguy Rivoal demonstrou que há infinitos
ζ(m) com m ı́mpar que são irracionais17 .
9.2 Propriedades de Algumas Funções Especiais

Vamos agora então reunir o conhecimento acumulado acima para obter várias propriedades úteis de
algumas das funções especiais que encontramos como soluções de equações diferenciais de interesse.
As várias identidades que provaremos podem ser obtidas de diferentes modos, de sorte que o leitor
certamente encontrará na literatura demonstrações alternativas àquelas aqui apresentadas.
9.2.1 Propriedades dos Polinômios de Legendre
• Relações de ortogonalidade para os polinômios de Legendre

′
A equação de Legendre ((1 − x2 ) y ′(x)) + λ(λ + 1)y(x) = 0, é tipicamente considerada no intervalo
J = [−1, 1]. Aqui, p(x) = (1 − x2 ), q(x) = 0, r(x) = 1 e µ = λ(λ + 1). A função p(x) anula-se nos
extremos ±1 do intervalo J = [−1, 1].
Os polinômios de Legendre Pm (x) foram definidos em (8.14), página 416, por
⌊m/2⌋
X (−1)a (2m − 2a)!
Pm (x) := xm−2a , (9.35)
a=0
2m (m − a)! (m − 2a)! a!
15
Roger Apéry (1916-1994).
16
Para o trabalho original: Roger Apéry, “Irrationalité de ζ(2) et ζ(3), Astérisque, 61 (1979), 11-13. Vide também
Alfred van der Poorten, “A proof that Euler missed. Apéry’s proof of the irrationality of ζ(3). An informal report”,
Math. Intell., 1 (1979), 195-203.
17
T. Rivoal, “La fonction Zêta de Riemann prend une infinit’e de valeurs irrationnelles aux entiers impairs”. Comptes
rendus de l’Académie des Sciences, Paris, 331 (2000), 267-270.
onde ⌊m/2⌋ é o maior inteiro menor ou igual a m/2, e são soluções da equação de Legendre com
µ = m(m + 1), sendo (as únicas) soluções da equação de Legendre que permanecem limitadas nos
pontos ±1.
Como p(x) anula-se nos extremos ±1 e os Pm (x) são limitados nesses pontos, vale para os polinômios
de Legendre a relação (9.6) e concluı́mos pelo Teorema 9.1 que
Z 1
Pn (x)Pm (x) dx = 0 (9.36)
−1
para todo n 6= m, com m, n = 0, 1, 2, 3, . . .. Notemos que isso implica

Z 1
xk Pm (x) dx = 0 (9.37)
−1
para todo k < m, pois os monômios xk podem ser escritos como combinações lineares dos polinômios
Pn ’s com n < m. Para calcular as integrais de (9.36) no caso n = m, podemos elegantemente usar as
relações
′ ′
Pn+1 (x) = (2n + 1)Pn (x) + Pn−1 (x) , n≥0, (9.38)
e
Pn (1) = 1 , Pn (−1) = (−1)n , n≥0, (9.39)
as quais serão demonstradas mais abaixo (relações (9.44) e (9.48), respectivamente) como conseqüência
da fórmula de Rodrigues para os polinômios de Legendre. De fato, por integração por partes, tem-se
Z 1 1 Z 1
′
Pn (x)Pn+1 (x) dx = Pn (x)Pn+1 (x) − Pn′ (x)Pn+1 (x) dx .
−1 −1 −1
1 R1

Por (9.39), Pn (x)Pn+1 (x) = 1 + (−1)2n = 2. Por (9.37), −1 Pn′ (x)Pn+1 (x) dx = 0, pois Pn′ (x) é
−1
seguramente um polinômio de grau n − 1. Assim,
Z 1 Z 1
′ (9.38) ′

2 = Pn (x)Pn+1 (x) dx = Pn (x) (2n + 1)Pn (x) + Pn−1 (x) dx
−1 −1
Z 1
= (2n + 1) Pn (x)2 dx ,
−1
R1 ′ ′
pois, novamente por (9.37), −1
Pn (x)Pn−1 (x) dx = 0, já que Pn−1 (x) é um polinômio de grau n − 2.
Isso provou que Z 1
2
Pn (x)Pm (x) dx = δn, m , (9.40)
−1 2n + 1
para todos m, n ≥ 0. Estas são as relações de ortogonalidade para os polinômios de Legendre. Para
uma outra demonstração, vide Exercı́cio E. 9.28, página 577.
Em muitas situações práticas é conveniente expressar (9.40) através da mudança de variável x =
cos θ, com 0 ≤ θ ≤ π. Ficamos com
Z π
2
Pn (cos θ)Pm (cos θ) sen(θ) dθ = δn, m , (9.41)
0 2n + 1
para todos m, n ≥ 0.
• Fórmula de Rodrigues para os polinômios de Legendre
Pelas nossas considerações gerais sobre as fórmulas de Rodrigues, podemos presumir que os po-
linômios Pm , por serem ortogonais entre si (vide (9.36)), possam ser expressos na forma (9.13) com
r(x) = 1, ou seja,
dm
Pm (x) = Km m (1 − x2 )m ,
dx
onde Km são constantes que dependem
Pm m da normalização adotada. De fato, essa pressuposição é correta
2 m m−a 2m−2a
pois, escrevendo (1 − x ) = a=0 a (−1) x (binômio de Newton) e notando que


 (2m − 2a)! m−2a

 x , para 0 ≤ a ≤ ⌊m/2⌋

 (m − 2a)!
dm 2m−2a 
x = (9.42)
dxm 





 0, para ⌊m/2⌋ + 1 ≤ a ≤ m
(justifique!), concluı́mos facilmente que

m
dm 2 m
dm X m
(1 − x ) = (−1)m−a x2m−2a
dxm dxm a=0 a
⌊m/2⌋
dm X m
= (−1)m−a x2m−2a
dxm a=0 a
⌊m/2⌋
X
m−a m (2m − 2a)! m−2a
= (−1) x
a=0
a (m − 2a)!
⌊m/2⌋
X (−1)a (2m − 2a)!
m m
= (−1) 2 m! xm−2a
a=0
2m (m − a)!(m − 2a)!a!
= (−1)m 2m m! Pm (x) .
Assim, Km = (−1)m /(2m m!) e

1 dm 2 m

Pm (x) = m (x − 1) , (9.43)
2 m! dxm
como pressuposto. Essa expressão é conhecida como fórmula de Rodrigues para os polinômios de
Legendre e é válida para todo m ≥ 0, inteiro.
De (9.43) outras relações úteis podem ser extraı́das, nosso próximo assunto.
• Relações de recorrência para os polinômios de Legendre

Vamos aqui demonstrar as seguintes relações válidas para os polinômios de Legendre:

′ ′
Pn+1 (x) = (2n + 1)Pn (x) + Pn−1 (x) , (9.44)
′
Pn+1 (x) = xPn′ (x) + (n + 1)Pn (x) , (9.45)
nPn (x) = xPn′ (x) − Pn−1

′
(x) , (9.46)
(n + 1)Pn+1 (x) = (2n + 1)xPn (x) − nPn−1 (x) , (9.47)
Pn (1) = 1 , Pn (−1) = (−1)n . (9.48)
Todas as relações acima têm aplicações (vimos isso quando provamos as relações de ortogonali-
dade para os Pn ’s). A relação (9.47) é particularmente interessante por permitir determinar os Pn ’s
recursivamente a partir dos dois primeiros: P0 (x) = 1 e P1 (x) = x.
d
Comecemos por provar (9.44). Como dx
(x2 − 1)n+1 = 2(n + 1)x(x2 − 1)n , segue da fórmula de
Rodrigues para Pn+1 que
′ 1 dn+1 h 2 n
i
Pn+1 (x) = n+1 2(n + 1)x(x − 1)
2 (n + 1)! dxn+1
1 dn h 2 n 2 2 n−1
i
= (x − 1) + 2nx (x − 1)
2n n! dxn
1 dn h 2 n 2 n−1
i
= n (2n + 1)(x − 1) + 2n(x − 1)
2 n! dxn
′
= (2n + 1)Pn (x) + Pn−1 (x) ,
provando (9.44). Por outro lado, começando pela primeira linha obtida acima, e usando-se a regra de
Leibniz, tem-se
′ 1 dn+1 h 2 n
i
Pn+1 (x) = x(x − 1)
2n n! dxn+1
n+1 p n+1−p
1 X n+1 d d 2 n
= n x (x − 1)
2 n! p=0 p dxp dxn+1−p
1 dn+1 2 n (n + 1) dn 2
= x (x − 1) + (x − 1)n
2n n! dxn+1 2n n! dxn
= xPn′ (x) + (n + 1)Pn (x) ,
provando (9.45). A relação (9.46) é obtida subtraindo-se (9.45) de (9.44). Por fim, para obter (9.47),
multiplicamos (9.44) por x e escrevemos

′ ′
(2n + 1)xPn (x) = xPn+1 (x) − xPn−1 (x)
′

= xPn+1 (x) − Pn′ (x) + Pn′ (x) − xPn−1
′
(x)
(9.46)
= (n + 1)Pn+1 (x) + Pn′ (x) − xPn−1
′
(x)
(9.45)
= (n + 1)Pn+1 (x) + nPn−1 (x) .
Disso (9.47) segue imediatamente.

Por fim, vamos provar (9.48) por indução. Como P0 (x) = 1 e P1 (x) = x, as relações acima valem
para n = 0 e n = 1. Supondo-as válidas para n−1 e n, teremos por (9.47) que (n+1)Pn+1 (1) = (2n+1)−
n = (n+1), o que implica Pn+1 (1) = 1 e (n+1)Pn+1 (−1) = −(2n+1)(−1)n +n(−1)n = (n+1)(−1)n+1 ,
o que implica Pn+1 (−1) = (−1)n+1 . Isso encerra a demonstração de (9.44)-(9.48).
• A função geratriz dos polinômios de Legendre
A função geratriz dos polinômios de Legendre é

∞
X 1
L(x, t) := Pn (x) tn = √ , (9.49)
n=0
1 − 2tx + t2
válida para |t| < 1 e |x| ≤ 1. Essa relação tem diversas demonstrações, a mais elegante sendo a seguinte
∂
(de [70]). Calculando-se ∂t L(x, t) e usando-se (9.47), tem-se
X∞ ∞
X
∂
L(x, t) = nPn (x) tn−1 = (n + 1)Pn+1 (x) tn
∂t n=1 n=0
∞ h
X i
(9.47)
= (2n + 1)xPn (x) − nPn−1 (x) tn
n=0
∞
X ∞
X ∞
X
n n
= 2x nPn (x) t + x Pn (x) t − nPn−1 (x) tn
n=0 n=0 n=0
∞
X ∞
X ∞
X
n n
= 2x nPn (x) t + x Pn (x) t − (n + 1)Pn (x) tn+1
n=0 n=0 n=0
∞ ∞ ∞
∂ X n
X
n 2 ∂
X
= 2xt Pn (x) t + (x − t) Pn (x) t − t Pn (x) tn
∂t n=0 n=0
∂t n=0
∂
= (2xt − t2 ) L(x, t) + (x − t)L(x, t) .
∂t
Assim, L(x, t) satisfaz a equação diferencial

1 ∂ (x − t)
L(x, t) = .
L(x, t) ∂t 1 − 2xt + t2
1∂
O lado direito é − ln 1 − 2xt + t2 . Logo,
2 ∂t
exp(l(x))
L(x, t) = √ ,
1 − 2tx + t2
onde l(x) é, em princı́pio, uma função arbitrária. Lembrando, porém, que L(x, 0) = P0 (x) = 1 para
todo x, obtem-se de imediato que l(x) = 0 para todo x. Isso estabelece (9.49), como querı́amos.
• Representações integrais para os polinômios de Legendre
A bem-conhecida Fórmula Integral de Cauchy, afirma que, para uma função f analı́tica em um
domı́nio aberto simplesmente conexo D, vale
Z
(n) n! f (w)
f (z) = dw , (9.50)
2πi C (w − z)n+1
para todo z ∈ D, onde a curva C é uma curva diferenciável fechada inteiramente contida em D e dá
precisamente uma volta no sentido anti-horário em torno de z. Combinando a fórmula de Rodrigues e
a Fórmula Integral de Cauchy, obtem-se imediatamente
Z
1 (w 2 − 1)l
Pl (z) = l+1 dw , (9.51)
2 πi C (w − z)l+1
onde C é uma curva fechada e diferenciável no plano complexo dando uma volta em torno de z no sentido
anti-horário. Essa expressão é conhecida como representação integral de Schläfli18 dos polinômios de
Legendre.
Uma conseqüência dessa representação é a seguinte expressão:
Z π l
1
Pl (z) = z + i(1 − z 2 )1/2 cos(φ) dφ , (9.52)
2π −π
válida para |z| < 1. A demonstração dessa expressão será apresentada mais adiante como caso parti-
cular de uma identidade mais geral (expressão (9.62), abaixo), válida para os polinômios de Legendre
associados. Como a equação de Legendre é invariante pela mudança l → −(l + 1) (verifique que l(l + 1)
é levado em si mesmo por essa transformação!), vale também a identidade19
Z π
1 1
Pl (z) = l+1 dφ . (9.53)
2π −π
z + i(1 − z 2 )1/2 cos(φ)
18
Ludwig Schläfli (1814-1895).
19
Esse argumento envolvendo a transformação l → −(l + 1) é ainda incompleto, mas pode-se provar que o lado direito
de (9.53) é de fato igual ao esquerdo, pois é regular e satisfaz a equação de Legendre. Deixamos os detalhes como
exercı́cio.
Para z real no intervalo [−1, 1], podemos escrever, como é comum em aplicações, z = cos(θ) com
0 ≤ θ ≤ π e com isso as duas identidades acima ficam
Z π l Z π
1 1 1
Pl (cos(θ)) = cos(θ) + i sen(θ) cos(φ) dφ = l+1 dφ .
2π −π 2π −π
cos(θ) + i sen(θ) cos(φ)
Usando o binômio de Newton podemos usar a primeira identidade para escrever Pl (cos(θ)) como
um polinômio em cos θ e senθ:
l p Z π
1 X l p l−p p
Pl (cos(θ)) = i cos(θ) sen(θ) cos(φ) dφ
2π p=0 p −π
X (−1)q l 2q
⌊l/2⌋ l−2q 2q
= cos(θ) sen(θ)
q=0
22q 2q q
⌊l/2⌋
X (−1)q l! l−2q 2q
= cos(θ) sen(θ) .
q=0
22q (l − 2q)! (q!)2
9.2.2 Propriedades dos Polinômios de Legendre Associados. Harmônicas

Esféricas
Na Seção 8.3.1, página 470, introduzimos a equação de Legendre associada (8.151) e mostramos que
para λ = l ∈ N e µ = m ∈ N a mesma possui soluções da forma
dm
Plm (z) := (1 − z 2 )m/2 Pl (z) , (9.54)
dz m
para z ∈ C com |z| < 1, onde Pl é o polinômio de Legendre de grau l. É claro que Plm (z) é nulo se
m > l (pois Pl é um polinômio de grau l). A relação (9.54), como dissemos na Seção 8.3.1, define os
chamados polinômios de Legendre associados20 , ainda que eles não sejam exatamente polinômios na
variável z.
Vimos também que, devido à fórmula de Rodrigues para os polinômios de Legendre, podemos
escrever Plm (z) como
1 dl+m
Plm (z) = l (1 − z 2 )m/2 l+m (z 2 − 1)l , (9.55)
2 l! dz
para z ∈ C com |z| < 1 e 0 ≤ m ≤ l. Lá notamos também que essa expressão faz sentido mesmo para
m inteiro negativo, mas tal que −l ≤ m ≤ l. Assim, definimos
1 dl−m
Pl−m (z) = l (1 − z 2 )−m/2 l−m (z 2 − 1)l , (9.56)
2 l! dz
20
O leitor deve ser advertido que, lastimavelmente, não há uniformidade na literatura quanto à definição dos polinômios
de Legendre associados. Alguns autores (e.g., [92]) introduzem um fator (−1)m no lado direito de (9.54). Assim, algumas
das expressões que obtemos aqui podem diferir das correspondentes encontradas em alguns textos e o leitor deve compará-
las cuidadosamente. A definição que seguimos é a recomendada pela American Mathematical Society.
também com 0 ≤ m ≤ l e para z ∈ C com |z| < 1. Afirmamos que
(l − m)! m
Pl−m (z) = (−1)m P (z) . (9.57)
(l + m)! l
Essa relação é importante por mostrar que Pl−m (z) é também uma solução da equação de Legendre
associada, por ser proporcional a Plm (z). Fora isso a expressão acima é relevante para as chamadas
harmônicas esféricas, das quais trataremos mais abaixo.
Apresentaremos duas demonstrações de (9.57), ambas instrutivas. Uma “à força bruta”, usando
diretamente as definições, é desenvolvida no Apêndice 9.A, página 581. Uma segunda, mais gentil, será
vista logo abaixo e usa uma representação integral dos polinômios de Legendre associados.
• Representações integrais para os polinômios de Legendre associados
Nossa intenção agora é obter algumas representações integrais úteis para os polinômios de Legendre
associados mas, en passant, encontraremos uma outra demonstração mais gentil da identidade (9.57).
d k
2 l
As expressões (9.55) e (9.56) envolvem derivadas do tipo dz k (z − 1) para k = l + m e k = l − m,
dk
2 l
respectivamente. Procuremos primeiramente expressar genericamente dz k (z − 1) em termos de certas
integrais. Tomemos provisoriamente z real no intervalo aberto −1 < z < 1. Pela Fórmula Integral de
Cauchy (9.50), podemos escrever21
Z
dk 2 l k! (w 2 − 1)l
(z − 1) = dw , (9.58)
dz k 2πi C (w − z)k+1
onde C é uma curva fechada e diferenciável no plano complexo, dando uma volta em torno de z no
sentido anti-horário. Escolhemos a curva C dada por C := {w ∈ C| |w − z| = (1 − z 2 )1/2 }, de modo
que podemos escrever todo ponto w de C na forma
w = z + i(1 − z 2 )1/2 eiφ
com −π ≤ φ ≤ π. Com isso, a integral em w sobre C pode ser escrita como uma integral em φ e para
isso, usa-se
dw = −(1 − z 2 )1/2 eiφ dφ ,
w − z = i(1 − z 2 )1/2 eiφ ,
w 2 − 1 = −(1 − z 2 ) (e2iφ + 1) + 2iz(1 − z 2 )1/2 eiφ

2 iφ
2 1/2 iφ e + e−iφ
= 2 i(1 − z ) e + 2iz(1 − z 2 )1/2 eiφ
2

2 1/2 iφ 2 1/2
= 2i(1 − z ) e z + i(1 − z ) cos(φ) .
21
As idéias que se seguem provavelmente originam-se dos trabalhos de Schläfli. Nossas fontes são [70] e [153], que
seguimos com adaptações.
Assim,
Z
dk 2 k! (w 2 − 1)l
k
(z − 1)l = dw
dz 2πi C (w − z)k+1
l
Z π 2i(1 − z 2 )1/2 eiφ z + i(1 − z 2 )1/2 cos(φ)
k!
= −(1 − z 2 )1/2 k+1
eiφ dφ
2πi −π (i(1 − z 2 )1/2 eiφ )
Z π l
2 (l−k)/2 2l il−k k!
= (1 − z ) z + i(1 − z 2 )1/2 cos(φ) ei(l−k)φ dφ
2π −π
e assim,
Z
dk 2 l
l l−k
2 (l−k)/2 2 i k! π 2 1/2
l
(z − 1) = (1 − z ) z + i(1 − z ) cos(φ) cos (l − k)φ dφ , (9.59)
dz k 2π −π
Z π
l
pois z + i(1 − z 2 )1/2 cos(φ) sen ((l − k)φ) dφ = 0, pelo fato de o integrando ser uma função
−π
ı́mpar.
Aplicando (9.59) às expressões (9.55) e (9.56) de Plm e Pl−m (adotando k = l + m e k = l − m,
respectivamente), chegamos a
Z
m i−m (l + m)! π l
Pl (z) = z + i(1 − z 2 )1/2 cos(φ) cos − mφ dφ ,
2πl! −π
Z π l
i+m (l − m)!
Pl−m (z) = 2 1/2
z + i(1 − z ) cos(φ) cos + mφ dφ ,
2πl! −π
e comparando-as, extraı́mos que

(l + m)! −m
Plm (z) = (−1)m P (z) . (9.60)
(l − m)! l
Com isso, encontramos uma segunda demonstração de (9.57). As identidades acima foram provadas
para z real em −1 < z < 1, mas valem para todo z complexo com |z| < 1 (e mesmo em z = ±1), pois
lá Plm (z) e Pl−m (z) têm uma extensão analı́tica única.
Coletemos o que provamos acima. Aplicando (9.58) à definição (9.55) de Plm (z), agora para todo
m ∈ Z com −l ≤ m ≤ l, chegamos à expressão
Z
m (l + m)! 2 m/2 (w 2 − 1)l
Pl (z) = l+1 (1 − z ) l+m+1
dw , (9.61)
2 πi l! C (w − z)
onde C é uma curva fechada e diferenciável no plano complexo dando uma volta em torno de z no
sentido anti-horário. Essa expressão generaliza a representação de Schläfli (9.51) para os polinômios
de Legendre. Como conseqüência, estabelecemos também logo acima a representação integral
Z
m i−m (l + m)! π l
Pl (z) = z + i(1 − z 2 )1/2 cos(φ) cos mφ dφ , (9.62)
2πl! −π
válida para |z| < 1 e para todo l ∈ N e todo m ∈ Z com −l ≤ m ≤ l.

Assim como a equação de Legendre, a equação de Legendre associada é invariante pela transformação
l → −(l + 1). Assim, vale também22
Z π
m im l! 1
Pl (z) = l+1 cos mφ dφ , (9.63)
2π(l − m)! −π 2 1/2
z + i(1 − z ) cos(φ)
onde acima usamos o fato que (l+m)!

l!
= (l + m)(l + m − 1) · · · (l + 1) é levado pela transformação
l!
l → −(l + 1) em (−1 − l + m)(−2 − l + m) · · · (−l) = (−1)m (l)(l + 1) · · · (l − m + 1) = (l−m)! .
Em aplicações é comum tomar-se z real no intervalo [−1, 1] e escrever z = cos(θ) com 0 ≤ θ ≤ π.
Com isso, as duas identidades acima ficam
Z
m i−m (l + m)! π l
Pl (cos(θ)) = cos(θ) + i sen(θ) cos(φ) cos mφ dφ , (9.64)
2πl! −π
Z π
m im l! 1
Pl (cos(θ)) = l+1 cos mφ dφ . (9.65)
2π(l − m)! −π
cos(θ) + i sen(θ) cos(φ)
Através do binômio de Newton, a primeira identidade pode ser usada para expressar Plm (cos(θ)) como
um polinômio em cos θ e senθ:
l l−p p Z π p
i−m (l + m)! X p l
Plm (cos(θ)) = i cos(θ) sen(θ) cos(φ) cos mφ dφ ,
2πl! p=0
p −π
⌊ l−|m|
X 2 ⌋
−m+|m| (l + m)! (−1)q l 2q + |m| l−2q−|m| 2q+|m|
= i cos(θ) sen(θ)
2|m| l! q=0
22q 2q + |m| q
⌊ l−|m|
X 2 ⌋
(l + m)! (−1)q l−2q−|m| 2q+|m|
= i−m+|m| cos(θ) sen(θ) .
2|m| q=0
22q (l − 2q − |m|)! (q + |m|)! q!
(9.66)
Note que i−m+|m| = 1 se m ≥ 0 e i−m+|m| = (−1)m se m < 0, de modo que Plm (cos(θ)) é real se
0 ≤ θ ≤ π. A expressão (9.66) é por vezes utilizada na prática para expressar as harmônicas esféricas
(que definiremos abaixo) como polinômios em cos θ e senθ. Logo adiante faremos uso da mesma no
estudo das relações de ortogonalidade das funções Plm .
• A função geratriz dos polinômios de Legendre associados

22
Esse argumento envolvendo a transformação l → −(l + 1) é ainda incompleto, mas pode-se provar que o lado direito
de (9.63) é de fato igual ao esquerdo, pois é regular e satisfaz a equação de Legendre associada. Deixamos os detalhes
como exercı́cio.
Usando (9.54), (9.49) e a identidade, válida para m ≥ 0,

dm 1 (2m)! m 1
m
(1 − 2tx + t2 )− 2 = m t (1 − 2tx + t2 )−m− 2
dx 2 m!
(prove-a!) é fácil mostrar que
∞
X m
m (2m)! (1 − x2 ) 2
Pl+m (x) tl = m , (9.67)
l=0
2 m! (1 − 2tx + t2 )m+ 21
válida para todo m ≥ 0.
A expressão (9.67) é também denominada função geratriz dos polinômios de Legendre associados.
A expressão (9.67) tem poucas aplicações diretas, mas pode ser usada para demonstrar outras relações
sobre os polinômios de Legendre associados.
• Relações de recorrência para os polinômios de Legendre associados
Os polinômios de Legendre associados satisfazem uma série de relações de recorrência. Listemos as

mais relevantes:

m+1 2mx
Pl (x) = √ Pl (x) − l(l + 1) − m(m − 1) Plm−1 (x) ,
m
1−x 2
m+1
√
Pl+1 (x) = (2l + 1) 1 − x2 Plm (x) + Pl−1
m+1
(x) ,
√
(2l + 1) 1 − x2 Plm (x) = (l + m)(l + m − 1)Pl−1
m−1 m−1
(x) − (l − m + 1)(l − m + 2)Pl+1 (x) ,
(2l + 1)xPlm (x) = (l + m)Pl−1

m m
(x) + (l − m + 1)Pl+1 (x) ,
√ d
2 1 − x2 Plm (x) = Plm+1 (x) − (l + m)(l − m + 1)Plm−1 (x) .
dx
As demonstrações podem ser obtidas da seguinte forma: 1. a partir das relações de recorrência dos
polinômios de Legendre (9.44)-(9.48) com uso da definição (9.54); 2. a partir de (9.55) ou, em alguns
casos, 3. com o uso da função geratriz (9.67). Deixamos as demonstrações como exercı́cio.
E. 9.16 Exercı́cio. Prove todas as relações acima. Sugestão: tente por conta própria seguir as sugestões
do último parágrafo. Senão, consulte a literatura supracitada, mas com as seguintes precauções: a. dife-
rentes textos apresentam definições diferentes dos Plm , o que conduz a relações de recorrência distintas das
de acima; b. nem todos os livros-texto23 provam todas as relações e c. alguns contêm erros. 6
• Relações de ortogonalidade para os polinômios de Legendre associados

23
Segundo o Houaiss, “livros-textos” ou “livros-texto” são dois plurais gramaticalmente corretos para “livro-texto”,
assim como “espaços-tempos” e “espaços-tempo” são plurais aceitáveis para “espaço-tempo”.
Obteremos agora relações de ortogonalidade para os polinômios de Legendre associados, relações

essas de grande importância na Análise Harmônica e que inspiram a definição das chamadas harmônicas
esféricas.
A equação de Legendre associada (8.151) é considerada na maioria das aplicações no intervalo
[−1, 1], como já mencionamos. A mesma, em analogia com a equação de Legendre, pode ser escrita
como
m2
((1 − x2 )y ′ (x))′ + l(l + 1)y(x) − y(x) = 0 , (9.68)
1 − x2
onde aqui já nos restringimos ao caso l ∈ N, m ∈ Z com −l ≤ m ≤ l. Como se vê, temos aqui
p(x) = (1 − x2 ), mas podemos fazer as seguintes escolhas
m2
1) q(x) = − , r(x) = 1, µ = l(l + 1) ,
1 − x2
1
2) q(x) = l(l + 1), r(x) = , µ = −m2 .
1 − x2
Analisaremos essas duas opções em separado. O caso 1 é o mais interessante, especialmente devido a
sua aplicação para as harmônicas esféricas. O caso 2 não é de grande interesse e o leitor pode dispensar
sua leitura, se o desejar24 .
Caso 1) A primeira questão que aqui se coloca é se a condição (9.6) é satisfeita para funções Plm (x) e
′
Plm
′ (x) com l ≤ l , ou seja, se
1
′ ′
p(x) Plm (x) (Plm
′ (x)) − P m
l′ (x) (P l
m
(x)) = 0, (9.69)
−1
com l ≤ l′ . A maneira mais fácil de discutir isso é escrever x = cos(θ) e, como
d m 1 d m
Pl′ (x) = − P ′ (cos θ),
dx sen(θ) dθ l
e p(x) = sen(θ)2 , (9.69) fica

d m d m θ=π
m m
sen(θ) Pl (cos θ) Pl′ (cos θ) − Pl′ (cos θ) Pl (cos θ) . (9.70)
dθ dθ θ=0
d
Agora, por (9.66), Plm (cos θ) é um polinômio trigonométrico, e assim o é também dθ Plm (cos θ). Logo,
ambos são finitos em θ = 0 e θ = π. Como, porém, senθ anula-se nesses extremos, concluı́mos que
(9.70) é nula, confirmando a validade de (9.6) no caso em questão. Concluı́mos assim, pelo Teorema
9.1, página 507, que deve valer Z 1
Plm (x) Plm
′ (x) dx = 0 (9.71)
−1
sempre que l 6= l′ .
24
O caso 2 é um tanto patológico (pois a função r(x) diverge em ±1 e não é integrável) e é evitado por quase todos os
livros-texto.
R1
Interessamo-nos agora pelo caso l′ = l. Caso l = l′ = 0 vale P00 (x) = 1 e −1 (P00)2 dx = 2. Para
R1
calcular −1 (Plm (x))2 dx com l > 0 podemos proceder de diferentes maneiras, a mais direta sendo a
seguinte. Usando (9.57) e as expressões (9.55) e (9.56) para Plm e Pl−m, respectivamente, escrevemos
Z 1 Z 1
(l + m)!
Plm (x) Plm (x) dx = (−1) m
Plm (x)Pl−m (x) dx
−1 (l − m)! −1
Z 1
(−1)m (l + m)! dl+m 2 dl−m 2
= (x − 1)l l
(x − 1) dx
22l (l!)2 (l − m)! −1 dxl+m dxl−m
Z 1
int. por partes l−m vezes (−1)l (l + m)! d2l 2
= (x − 1) (x2 − 1)l dx
l
22l (l!)2 (l − m)! −1 dx2l
Z 1
(2l)! (l + m)!
= (1 − x2 )l dx
2 (l!)2 (l − m)!
2l
−1

(2l)! (l + m)! 2 (2l)!!
=
22l (l!)2 (l − m)! (2l + 1)!!
2 (l + m)!
= .
2l + 1 (l − m)!
Na terceira linha aplicamos integração por partes l − m vezes. Isso é justificado pois, como facilmente
dp 2 l 2 l−p
se vê por indução, derivadas como dx p (x − 1) , com 0 ≤ p < l são proporcionais a (x − 1) e, por
(2l)! (2l)!!
isso, os termos de fronteira se anulam. Na última passagem usamos o fato que (2l+1)!! = 2l+1 e o fato
que (2l)!! = 2l l!. Na penúltima passagem usamos a identidade
Z 1
(2l)!!
(1 − x2 )l dx = 2 , (9.72)
−1 (2l + 1)!!
R1
a qual pode ser provada da seguinte forma. Seja Al := −1
(1 − x2 )l dx. Então, para l > 0,
Z 1 Z 1
2 l dx
Al := (1 − x ) dx = (1 − x2 )l dx
−1 −1 dx
1 Z 1
int. por partes 2 l
= x(1 − x ) +2l x2 (1 − x2 )l−1 dx = −2lAl + 2lAl−1 .
−1
| {z } −1
=0
2l
Assim, Al = A
2l+1 l−1
e como A0 = 2, segue (9.72).
Demonstramos, assim, as relações de ortogonalidade
Z 1
2 (l + m)!
Plm (x) Plm′ (x) dx = δl, l′ , (9.73)
−1 2l + 1 (l − m)!
válidas para todo l, l′ ∈ N e m, m′ ∈ Z com −l ≤ m ≤ l e −l′ ≤ m′ ≤ l′ . É por vezes útil expressar

essas relações com a mudança de variáveis x = cos θ:
Z π
2 (l + m)!
Plm (cos θ) Plm
′ (cos θ) senθ dθ = δl, l′ . (9.74)
0 2l + 1 (l − m)!
Essa forma das relações de ortogonalidade dos polinômios de Legendre associados será particularmente
relevante para as harmônicas esféricas, como veremos adiante.
Caso 2) A primeira questão que aqui se coloca é se a condição (9.6) é satisfeita para funções Plm (x) e
′
6 |m′ | (lembre-se o leitor que µ = −m2 e, portanto µ 6= µ′ equivale a |m| =
Plm (x), com |m| = 6 |m′ |), ou
seja, se ′ ′ 1
m m m′ m ′
p(x) Pl (x) Pl (x) − Pl (x) (Pl (x)) = 0. (9.75)
−1
′
sempre que |m| = 6 |m |. A mesma análise feita para o caso 1 mostra que isso é verdadeiro, confirmando
a validade de (9.6) no caso em questão. Concluı́mos assim, pelo Teorema 9.1, página 507, que deve
valer
Z 1 Z π
m m′ 1 ′ 1
Pl (x) Pl (x) 2
dx = 0, ou seja, Plm (cos θ) Plm (cos θ) dθ = 0, (9.76)
−1 1−x 0 sen(θ)
sempre que |m| = 6 |m′ |. A expressão (9.66) ensina-nos que Plm (cos θ) é proporcional a ( senθ)|m| . Logo,
′
como |m| = 6 |m′ |, sempre haverá no produto Plm (cos θ)Plm (cos θ) pelo menos um fator senθ para
1
compensar o senθ , o que mostra que o integrando em (9.76) é limitado. O caso |m′ | = |m| é um tanto
patológico (a integral diverge se m = m′ = 0), difı́cil de demonstrar e sem conseqüências práticas
relevantes, de modo que nos limitamos a apresentar o resultado final25 :




 0, se |m′ | =
6 |m|,















 ∞, se m′ = m = 0,
Z 1 

1 
m m′
Pl (x) Pl (x) dx = (9.77)
−1 1 − x2 




 (−1)m

 , se − m′ = m > 0,

 m











 1 (l + m)!
 , se m′ = m > 0.
m (l − m)!
Note o leitor que a condição m > 0 só pode ocorrer se l > 0.

Como já dissemos, as relações (9.77) são menos importantes na prática que as de (9.73). Essas
inspiram uma definição importante: a das harmônicas esféricas.
25
Para uma referência mais detalhada, vide [100], pag. 74.
• As Harmônicas Esféricas
No espaço Rn , n ≥ 2, o conjunto de pontos que distam de uma unidade da origem formam a assim
chamada esfera unitária26 , denotada por S n−1 :
n o
S n−1 := (x1 , . . . , xn ) ∈ Rn (x1 )2 + · · · + (xn )2 = 1 .
O conjunto S 1 é o cı́rculo unitário e seus pontos podem ser descritos por um único ângulo ϕ com
−π ≤ ϕ ≤ π: n o

S 1 := cos ϕ, senϕ ∈ R2 , −π ≤ ϕ ≤ π .
Como se vê, os pontos correspondentes a ϕ = ±π são identificados. O conjunto S 2 é a esfera unitária

e seus pontos podem ser descritos por dois ângulos: ϕ e θ, com −π ≤ ϕ ≤ π e 0 ≤ θ ≤ π:
n o
2 3
S := sen(θ) cos(ϕ), sen(θ) senϕ, cos(θ) ∈ R , −π ≤ ϕ ≤ π, 0 ≤ θ ≤ π .
Novamente, os pontos correspondentes a ϕ = ±π são identificados e para os pontos correspondentes a

θ = 0 e θ = π o ângulo ϕ é indeterminado.
As chamadas Funções Harmônicas Esféricas, ou simplesmente Harmônicas Esféricas, são as funções
definidas por s
2l + 1 (l − m)! m
Ylm (θ, ϕ) := (−1)m P (cos(θ)) eimϕ , (9.78)
4π (l + m)! l
onde 0 ≤ θ ≤ π, −π ≤ ϕ ≤ π, l ∈ N e m ∈ Z com −l ≤ m ≤ l. Note-se que
r
0 2l + 1
Yl (θ, ϕ) = Pl (cos(θ)) ,
4π
onde Pl são os polinômios de Legendre.
Mais uma vez o leitor deve ser advertido da existência de outras convenções sobre a definição das
harmônicas esféricas (alguns autores substituem o fator (−1)m por im ).
As harmônicas esféricas são solução da equação diferencial parcial

1 ∂ ∂Y 1 ∂2Y
( senθ) (θ, ϕ) + (θ, ϕ) + l(l + 1)Y (θ, ϕ) = 0 ,
senθ ∂θ ∂θ ( senθ)2 ∂ϕ2
que é encontrada quando da resolução da equação de Helmholtz ou de Laplace em três dimensões

em coordenadas esféricas, assim como no problema do átomo de hidrogênio na Mecânica Quântica ou
qualquer outro problema quântico em três dimensões no qual o potencial seja esfericamente simétrico.
Vide equação (10.10) e seguintes.
É um exercı́cio relevante verificar que, devido à relação (9.57), tem-se, com a definição acima,
Yl−m (θ, ϕ) = (−1)m Ylm (θ, ϕ) . (9.79)

26
Há aqui um abuso de linguagem, pois S n−1 é, estritamente falando, a superfı́cie da esfera.
No cı́rculo unitário S 1 valem as bem-conhecidas relações de ortogonalidade

Z Z π
em′ em dl = em′ (ϕ) em (ϕ) dϕ = δm, m′ (9.80)
S1 −π
onde, para m ∈ Z,
1
em (ϕ) := √ eimϕ , −π ≤ ϕ ≤ π,
2π
dl = dϕ sendo a medida de comprimento do cı́rculo unitário S 1 . Usando as relações de ortogonalidade
(9.80) e as relações de ortogonalidade (9.74), é fácil constatar que
Z Z πZ π
′ m ′ m
Ylm
′ Yl dΩ = Ylm
′ (θ, ϕ) Yl (θ, ϕ) sen(θ) dθ dϕ = δm, m′ δl, l′ (9.81)
S2 −π 0
para todos l, l′ ∈ N e todos m, m′ ∈ Z com −l′ ≤ m′ ≤ l′ e −l ≤ m ≤ l, onde dΩ = sen(θ) dθ dϕ é a

medida de área na esfera unitária S 2 em coordenada polares. Essas são as relações de ortogonalidade das
harmônicas esféricas, as quais desempenham um relevante papel na resolução de problemas envolvendo
certas equações diferenciais parciais em três dimensões que tenham simetria esférica. As harmônicas
esféricas surgem na importante solução de um problema fundamental da Mecânica Quântica, o problema
do átomo de hidrogênio. As formas dos orbitais eletrônicos, de importância fundamental no estudo de
átomos e moléculas e suas ligações quı́micas, estão intimamente relacionadas às funções Ylm (θ, ϕ) e
aos polinômios de Laguerre associados.
Como se percebe da comparação de (9.80) com (9.81), as harmônicas esféricas desempenham na
esfera unitária S 2 o mesmo papel que as funções em desempenham no cı́rculo S 1 : formam um conjunto
ortonormal em relação à medida de área dΩ = sen(θ) dθ dϕ. Assim como as funções em formam um
conjunto ortonormal completo para as funções definidas em S 1 , o que nos permite expressar funções
f (ϕ), periódicas de perı́odo 2π, contı́nuas por partes ou apenas de quadrado integrável, em termos de
uma série de Fourier:
∞
X Z π
f (ϕ) = cm em (ϕ) com cm := em (ϕ) f (ϕ) dϕ ,
m=−∞ −π
as harmônicas esféricas também formam um conjunto ortonormal completo para as funções definidas
em S 2 . Assim, em um sentido a ser precisado, todas as funções f (θ, ϕ) definidas em S 2 , e que sejam
contı́nuas por partes ou apenas de quadrado integrável, podem ser escritas em termos de uma série
envolvendo harmônicas esféricas. Essa série é dada por
∞ X
X l Z π Z π
f (θ, ϕ) = cl, m Ylm (θ, ϕ), com cl, m := Ylm (θ, ϕ) f (θ, ϕ) sen(θ) dθ dϕ ,
l=0 m=−l −π 0
e é uma espécie de generalização para a esfera S 2 da série de Fourier. Essas considerações justificam a
denominação de “harmônicas esféricas” para as funções Ylm .
As harmônicas esféricas também desempenham um papel na teoria de representações do grupo
SO(3). Há também generalizações das harmônicas esféricas para as esferas S n com n ≥ 3. Essas
generalizações são estudadas, por exemplo, em [70].
9.2.3 Propriedades dos Polinômios de Hermite
• Relações de ortogonalidade para os polinômios de Hermite

′
2 2
A equação de Hermite e−x y ′ (x) + λe−x y(x) = 0 é tipicamente considerada no intervalo J =
2 2
(−∞, ∞). Aqui p(x) = e−x , q(x) = 0, r(x) = e−x e µ = λ. Note que p(x) > 0 e r(x) > 0 em todo
J = (−∞, ∞). Os polinômios de Hermite Hm (x) foram definidos27 em (8.20) por
⌊m/2⌋
X (−1)k m!
Hm (x) := (2x)m−2k . (9.82)
k=0
k! (m − 2k)!
onde ⌊m/2⌋ é o maior inteiro menor ou igual a m/2, e são soluções da equação de Hermite com µ = 2m.
Como p(x) decai a zero para x → ±∞ e os Hm (x) são polinômios, vale para os polinômios de
Hermite a relação (9.6) e concluı́mos pelo Teorema 9.1 que
Z ∞
2
Hn (x)Hm (x) e−x dx = 0 (9.83)
−∞
para todo n 6= m, com m, n = 0, 1, 2, 3, . . .. Para calcular as integrais acima no caso n = m,

podemos elegantemente usar as relações
Hn+1 (x) = 2xHn (x) − 2nHn−1 (x) , (9.84)

R∞ 2
as quais serão provadas mais abaixo (expressão (9.91)). Seja An := −∞ (Hn (x))2 e−x dx. Tem-se que
Z ∞
2
2nAn−1 = (2nHn−1 (x)) Hn−1(x) e−x dx
−∞
Z ∞ Z ∞
(9.84) −x2 2
= (2xHn (x)) Hn−1(x) e dx − Hn+1 (x) Hn−1 (x) e−x dx
−∞
| −∞ {z }
= 0 por (9.83)
Z ∞
2
= Hn (x) (2xHn−1 (x)) e−x dx
−∞
Z ∞ Z ∞
(9.84) −x2 2
= Hn (x) Hn (x) e dx + (2n − 2) Hn (x) Hn−2(x) e−x dx
−∞
| −∞ {z }
= 0 por (9.83)
= An .
27
Advertência. Nestas notas usamos a chamada “definição fı́sica” dos polinômios de Hermite. Há uma outra convenção,
usada especialmente na Teoria das Probabilidades, que difere da definição usada em Fı́sica por um reescalonamento. O
leitor deve, por isso, ter cuidado ao comparar nossas expressões com outras usadas em textos da Teoria das Probabilidades.
R∞ 2 √
Logo, An = (2n)An−1 , ou seja, An = (2n)!! A0 = 2n n! A0 . Como A0 = −∞ e−x dx = π, concluı́mos
que Z ∞
2 √
Hn (x)Hm (x) e−x dx = 2n n! π δn, m , (9.85)
−∞
para todo m, n ≥ 0. Estas são as relações de ortogonalidade dos polinômios de Hermite.
• A função geratriz exponencial dos polinômios de Hermite
Vamos aqui considerar a função geratriz exponencial dos polinômios de Hermite e provar que
∞
X Hn (x) 2
tn = e2xt−t . (9.86)
n=0
n!
Usando-se diretamente (9.82) e separando-se na soma n’s pares de n’s ı́mpares, segue que
∞
X X∞ ∞
Hn (x) n H2m (x) 2m X H2m+1 (x) 2m+1
t = t + t
n=0
n! m=0
(2m)! m=0
(2m + 1)!
∞ X
X m ∞ X
X m
(−1)k (2x)2m−2k t2m (−1)k (2x)2m+1−2k t2m+1
= +
m=0 k=0
k! (2m − 2k)! m=0 k=0
k! (2m + 1 − 2k)!
X∞ X ∞ ∞ ∞
(−1)k (2x)2m−2k t2m X X (−1)k (2x)2m+1−2k t2m+1
= +
k=0 m=k
k! (2m − 2k)! k=0 m=k
k! (2m + 1 − 2k)!
X∞ X ∞ ∞ ∞
m→m+k (−1)k (2x)2m t2m+2k X X (−1)k (2x)2m+1 t2m+1+2k
= +
k=0 m=0
k! (2m)! k=0 m=0
k! (2m + 1)!
∞
! ∞
! ∞
! ∞
!
X (−1)k t2k X (2xt)2m X (−1)k t2k X (2xt)2m+1
= +
k=0
k! m=0
(2m)! k=0
k! m=0
(2m + 1)!
∞
!
X (2xt)n
−t2
= e
n=0
n!
2
= e2xt−t ,
• Fórmula de Rodrigues para os polinômios de Hermite
Pelas nossas considerações gerais sobre as fórmulas de Rodrigues, podemos presumir que os po-
linômios Hm , por serem ortogonais entre si (vide (9.83)), possam ser expressos na forma (9.17) com
2
r(x) = e−x , ou seja,
n
2 d 2
Hn (x) = Kn ex n
e−x ,
dx
onde Km são constantes que dependem da normalização adotada. De fato, essa pressuposição é correta
2
pois, multiplicando (9.86) por e−x , obtem-se
X∞ 2
−(x−t)2 Hm (x)e−x m
e = t . (9.87)
m=0
m!
Encarando o lado direito como a expansão em série de Taylor em t, em torno de t = 0, da função do
lado esquerdo, concluı́mos que
2 d n
2
−(x−t)

Hn (x)e−x = e ,
dtn t=0
d
para todo n ≥ 0. Com a mudança de variável u = x − t, dtd = − du , ficamos com

−x2 n d
n
−u2 n d
n
−x2
Hn (x)e = (−1) e = (−1) e .
dun u=x dxn
Assim,
dn −x2 2
Hn (x) = (−1)n ex e , (9.88)
dxn
para todo n ≥ 0. Essa é a fórmula de Rodrigues dos polinômios de Hermite.
• Relações de recorrência para os polinômios de Hermite
Tomando-se a derivada em x de (9.88), é elementar constatar que
Hn′ (x) = 2xHn (x) − Hn+1 (x) . (9.89)
Ao mesmo tempo,
dn+1 −x2
2
Hn+1 (x) = (−1)n+1 ex e
dxn+1
n

x2 d d −x2
= (−1)n+1 e e
dxn dx
dn −x2
2
= 2(−1)n ex xe
dxn
X n p n−p
Leibniz n x2 n d d −x2
= 2(−1) e p
x n−p
e
p=0
p dx dx
n
n dx2−x2 dn−1 −x2
= 2(−1) e x n e + n n−1 e
dx dx
= 2xHn (x) − 2nHn−1 (x) .
Assim, Hn+1 (x) = 2xHn (x)−2nHn−1 (x). Note que, como H0 (x) = 1 e H1 (x) = 2x, essa identidade vale
também para n = 0, convencionando que H−1 (0) ≡ 0. Reunindo isso com (9.89), somos conduzidos a
Hn′ (x) = 2nHn−1 (x), n ≥ 0. Resumindo, obtemos as seguintes relações:
Hn′ (x) = 2xHn (x) − Hn+1 (x) , (9.90)
Hn+1 (x) = 2xHn (x) − 2nHn−1 (x) , (9.91)
Hn′ (x) = 2nHn−1 (x) , (9.92)
válidas para todo n ≥ 0 com a convenção H−1 (0) ≡ 0. Estas expressões são bastante úteis. A relação
(9.91), por exemplo, permite obter recursivamente todos os Hn ’s a partir de H0 (x) = 1 e H1 (x) = 2x.
Em livros de Mecânica Quântica o estudante poderá aprender que algumas das propriedades dos
polinômios de Hermite que obtivemos acima podem ser provadas com o uso dos chamados operadores
de criação e aniquilação.
9.2.4 Propriedades dos Polinômios de Laguerre
• Relações de ortogonalidade para os polinômios de Laguerre

′
A equação de Laguerre (xe−x y ′(x)) + λe−x y(x) = 0 é tipicamente considerada no intervalo J =
[0, ∞). Para ela tem-se p(x) = xe−x , q(x) = 0, r(x) = e−x e µ = λ. Note que p(x) > 0 em J 0 = (0, ∞),
e anula-se em x = 0 e no infinito. Além disso, r(x) > 0 em todo J = [0, ∞). Os polinômios de Laguerre
foram definidos em (8.136) por
m
X
m! n m
Lm (x) := (−1) xn (9.93)
n=0
n! n
e representam soluções da equação de Laguerre em J = [0, ∞) para µ = m. É bastante claro que para
os polinômios de Laguerre vale a condição (9.6) e, portanto, pelo Teorema 9.1, segue que
Z ∞
Ln (x)Lm (x) e−x dx = 0 (9.94)
0
para todo n 6= m, com m, n = 0, 1, 2, 3, . . .. Notemos também aqui que (9.94) implica

Z ∞
xk Lm (x) e−x dx = 0 (9.95)
0
para todo k < m, pois os monômios xk podem ser escritos como combinações lineares dos polinômios
Ln ’s com n < m. Para calcular as integrais de (9.94) no caso m = n podemos fazer uso da identidade
L′n+1 (x) = (n + 1)L′n (x) − (n + 1)Ln (x) , (9.96)

que será demonstrada mais abaixo (expressão (9.100)). Com ela, vê-se que
Z ∞ Z ∞
2 −x
(n + 1) Ln (x) e dx = Ln (x) (n + 1)Ln (x) e−x dx
0 0
Z ∞ Z ∞
(9.96)
= (n + 1) Ln (x)L′n (x) −x
e dx − Ln (x)L′n+1 (x) e−x dx
|0 {z 0
}
= 0 por (9.95)
∞ Z ∞
int. por partes −x
= −Ln (x)Ln+1 (x)e + L′n (x)Ln+1 (x) e−x dx
0
|0 {z }
= 0 por (9.95)
Z ∞
− Ln (x)Ln+1 (x) e−x dx
|0 {z }
= 0 por (9.94)
(9.93)
= Ln (0)Ln+1 (0) = (n + 1)(n!)2 .
Concluı́mos assim que Z ∞

Ln (x)Lm (x) e−x dx = (n!)2 δn, m (9.97)
0
para todos n, m ≥ 0. Estas são as relações de ortogonalidade para os polinômios de Laguerre.
• Fórmula de Rodrigues para os polinômios de Laguerre
Pela ortogonalidade dos polinômios de Laguerre (9.94), podemos presumir, sob a luz das consi-
derações da Seção 9.1.3, página 509, que os polinômios de Laguerre satisfazem, por (9.15), uma relação
como
1 dm m

x d
m
m −x

Lm (x) := Km r(x) x = K m e x e , (9.98)
r(x) dxm dxm
onde Km é uma constante dependente da normalização adotada. De fato, pela regra de Leibniz,
m m−p p
x dm m −x x
X m d m d −x
e x e = e x e
dxm p=0
p dx m−p dxp
Xm
p m m! p (9.93)
= (−1) x = Lm (x) .
p=0
p p!
Assim, Km = 1 e concluı́mos que

dm m −x
Lm (x) = ex x e , (9.99)
dxm
para todo m ≥ 0. Esta é a fórmula de Rodrigues para os polinômios de Laguerre.
• Relações de recorrência para os polinômios de Laguerre
Por (9.99), é elementar constatar que

dm+1 dm+1 d m+1 −x
L′m+1 (x) = ex m+1 xm+1 e−x + ex m+1 x e
dx dx dx
dm+1 m −x x d
m+1
m+1 −x

= Lm+1 (x) + (m + 1)ex x e − e x e
dxm+1 dxm+1
(9.99) x dm+1 m −x x d dm m −x
= (m + 1)e x e = (m + 1)e x e
dxm+1 dx dxm
d −x
= (m + 1)ex e Lm (x)
dx
= −(m + 1)Lm (x) + (m + 1)L′m (x) .
Estabelecemos assim que
L′m+1 (x) = (m + 1)L′m (x) − (m + 1)Lm (x) , (9.100)

m ≥ 0. Essa é uma das fórmulas de recorrência para os polinômios de Laguerre, a qual empregamos
acima para provar as relações de ortogonalidade (9.97) no caso m = n. Há uma segunda, da qual
trataremos agora. Pela fórmula de Rodrigues vale
m m
(9.99) x d m −x x d m−1 −x
Lm (x) = e x e = e x x e
dxm dxm
Xm p
Leibniz m d dm−p
= e x
p
x m−p
xm−1 e−x
p=0
p dx dx
dm m−1 −x
x d
m−1
= ex x m
x e + me m−1
xm−1 e−x
dx dx
d −x
= ex x e Lm−1 (x) + mLm−1 (x)
dx
= −xLm−1 (x) + xL′m−1 (x) + mLm−1 (x) .
Estabelecemos que
Lm (x) = −xLm−1 (x) + xL′m−1 (x) + mLm−1 (x) (9.101)
o que também implica (fazendo m → m + 1)
Lm+1 (x) = −xLm (x) + xL′m (x) + (m + 1)Lm (x) . (9.102)

Multiplicando ambos os lados de (9.101) por −m e somando o resultado a (9.102), teremos:
Lm+1 (x) − mLm (x) = −xLm (x) + xL′m (x) + (m + 1)Lm (x) + mxLm−1 (x) − mxL′m−1 (x) − m2 Lm−1 (x) .
(9.103)
(9.100)
Por (9.100), os termos xL′m (x) − mxL′m−1 (x) valem x(L′m (x) − mL′m−1 (x)) = −mxLm−1 (x). Intro-
duzindo isso de volta a (9.103), inferimos que
Lm+1 (x) = (2m − x + 1)Lm (x) − m2 Lm−1 (x) .
Resumindo nossas conclusões, estabelecemos as seguintes relações:
L′m+1 (x) = (m + 1)L′m (x) − (m + 1)Lm (x) , (9.104)
Lm+1 (x) = (2m − x + 1)Lm (x) − m2 Lm−1 (x) . (9.105)
Essas relações são denominadas fórmulas de recorrência para os polinômios de Laguerre. A relação
(9.105), em particular, permite obter recursivamente todos os Lm (x)’s a partir de L0 (x) = 1 e L1 (x) =
1 − x.
• A função geratriz exponencial dos polinômios de Laguerre
Partindo de (9.93) obtemos para a função geratriz exponencial dos polinômios de Laguerre
X∞
Lm (x) m
L(x, t) := t
m=0
m!
o seguinte desenvolvimento28 :
∞ X
X m
1 n m
L(x, t) = (−1) xn tm
m=0 n=0
n! n
∞ X
X ∞
1 n m
= (−1) xn tm
n=0 m=n
n! n
∞ ∞
!
X xn X m
= (−1)n tm . (9.106)
n=0
n! m=n
n
28
Assumimos |t| e |x| pequenos o suficiente para justificar as diversas manipulações que faremos.
Agora,
∞
X ∞
m m m→m+n tn X (m + n)! m
t = t
m=n
n n! m=0 m!
∞ ∞
!
tn X dn m+n tn dn X
= t = tn tm
n! m=0 dtn n! dtn m=0

tn dn tn
=
n! dtn 1−t
n p n−p
Leibniz tn X n d n d −1
= t (1 − t)
n! p=0 p dtp dtn−p
n
tn X n n! n−p (n − p)!
= t
n! p=0 p (n − p)! (1 − t)n−p+1
n n−p n
tn X n t tn t tn
= = 1+ = .
1 − t p=0 p 1−t 1−t 1−t (1 − t)n+1
Retornando com isso a (9.106), temos

∞ n
1 X (−1)n xt
L(x, t) = ,
1 − t n=0 n! 1−t
e assim concluı́mos que

xt
exp −
1−t
L(x, t) = . (9.107)
1−t
Essa é a função geratriz exponencial dos polinômios de Laguerre.
9.2.5 Propriedades dos Polinômios de Laguerre Associados

A equação de Laguerre associada
xy ′′ + (m + 1 − x)y ′ + (n − m)y = 0 , (9.108)
com m e n inteiros com 0 ≤ m ≤ n, é tipicamente considerada no intervalo J = [0, ∞). A mesma
pode ser ser levada à forma canônica (9.1), transformando-se em
(xm+1 e−x y ′ (x))′ + (n − m)xm e−x y(x) = 0 .
Tem-se, portanto, p(x) = xm+1 e−x , q(x) = 0, r(x) = xm e−x e µ = n − m. Uma alternativa talvez
melhor é tomar-se p(x) = xm+1 e−x , q(x) = −mxm e−x , r(x) = xm e−x e µ = n. Note-se que p(x) e r(x)
são os mesmos em ambas as escolhas.
Os polinômios de Laguerre associados foram definidos em (8.160) e expressões seguintes por29

n−m
X
dm dm x d
n
n −x k n! n
Ln(m) (x) = Ln (x) = e (x e ) = (−1) m
(−1) xk , (9.109)
dxm dxm dxn k=0
k! m + k
(m)
com 0 ≤ m ≤ n. O polinômio Ln é a única solução de (9.108) que é regular em x = 0. É de se notar
que, por essa definição, tem-se
L(0)
n (x) = Ln (x) (9.110)
para todo n ≥ 0 e, portanto, os polinômios de Laguerre são polinômios de Laguerre associados.
(−1)m n! x −m dn−m n −x

Ln(m) (x) = e x x e .
(n − m)! dxn−m
6
(m)
É bastante elementar constatar que, com m fixo, as funções Ln com n ≥ m satisfazem (9.6) para
o intervalo J = [0, ∞). Assim, vale que
Z ∞
(m)
Ln(m) (x) Ln′ (x) xm e−x dx = 0 (9.111)
0
sempre que n 6= n′ . Para calcular a integral acima no caso n′ = n fazemos uso da relação (9.118),
que será demonstrada logo adiante. Tomando (9.118), substituindo n → n − 1 e multiplicando-a por
(m)
n−1 Ln (x), obtemos
(n − m) (m) 2 (m) (m)

Ln (x) = (2n − m − x − 1)Ln−1 (x)Ln(m) (x) − (n − 1)2 Ln−2 (x)Ln(m) (x) .
n
(m)
Tomando (9.118) e multiplicando-a por (n + 1)−1 Ln−1 (x), obtemos
(n + 1 − m) (m) 2
(m) (m) (m)
Ln+1 (x)Ln−1 (x) = (2n − m − x + 1)Ln(m) (x)Ln−1 (x) − n2 Ln−1 (x) .
n+1
Subtraindo uma expressão da outra, obtemos
(n − m) (m) 2 (n + 1 − m) (m) (m)

Ln (x) − Ln+1 (x)Ln−1 (x)
n n+1
2
(m) (m) (m)
= −2Ln−1 (x)Ln(m) (x) − (n − 1) 2
Ln−2 (x)Ln(m) (x) 2
+ n Ln−1 (x) .
29
Mais uma vez advertimos o leitor do fato de haver várias convenções distintas quanto à definição dos polinômios de
Laguerre associados na literatura. Para comparação, polinômios de Laguerre associados definidos em [92], que denotamos
(m) (−1)m (m)
aqui por L Lm m
n (x), diferem dos nossos Ln (x) da seguinte forma: L Ln (x) = (n+m)! Ln+m (x).
Multiplicando agora esta expressão por xm e−x , integrando entre 0 e ∞ e usando (9.111), ficamos com
Z ∞ 2 Z ∞ 2
m −x n3 (m)
(m)
Ln (x) x e dx = Ln−1 (x) xm e−x dx .
0 (n − m) 0
A indução pode ser feita diminuindo n até atingir o valor m, de onde extraı́mos que
Z ∞ 2 Z ∞ 2
m −x (n!)3
(m)
Ln (x) x e dx = 3
Lm (x) xm e−x dx .
(m)
0 (m!) (n − m)! 0
(m) R∞
Pela última igualdade em (9.109), tem-se Lm (x) = (−1)m m!. Ao mesmo tempo, 0 xm e−x dx = m!.
Assim, Z ∞ 2 (n!)3
(m) m −x
Ln (x) x e dx = .
0 (n − m)!
Essa expressão pressupõe, naturalmente, 0 ≤ m ≤ n.
Concluı́mos assim que com nossas definições
Z ∞
(m) (n!)3
Ln(m) (x) Ln′ (x) xm e−x dx = δn, n′ . (9.112)
0 (n − m)!
Essas são as relações de ortogonalidade dos polinômios de Laguerre associados.
Comentário para o leitor mais avançado. Ao contrário da lenda, as relações de ortogonalidade (9.112)
não são as relações de ortogonalidade da parte radial das auto-funções de energia do átomo de hi-
drogênio. Os polinômios de Laguerre associados possuem um outro tipo de relação de ortogonalidade,
a saber,
Z ∞
ρ ρ ′”
2 p2l+4 ((p + l)!)3
“
(2l+1) (2l+1) − ρ2 p+p ′ 2l+2
Lp′ +l Lp+l e pp ρ dρ = δp, p ′ . (9.113)
0 p′ p (p − l − 1)!
válida para todo p, p′ inteiros positivos (não-nulos), as quais discutiremos na Seção 10.5, página 610.
Lamentavelmente, poucos livros-texto de Mecânica Quântica discutem esse ponto quando tratam do
átomo de hidrogênio. Uma exceção, um tanto surpreendentemente, é [5].
• Uma conseqüência de (9.112) empregada no estudo do átomo de hidrogênio
As relações (9.112) implicam um resultado que é usado no contexto do átomo de hidrogênio. Trata-
se do seguinte: no caso n = n′ (9.112) diz-nos que
Z ∞
2 m −x (n!)3
Ln(m) (x) x e dx = .
0 (n − m)!
No problema do átomo de hidrogênio surge a necessidade de se determinar a integral
Z ∞
2 m+1 −x
Ln(m) (x) x e dx (9.114)
0
que difere da anterior pois o fator xm é substituı́do por xm+1 . Essa última integral pode ser calculada
empregando-se a relação
(n + 1 − m) (m) (m)
xLn(m) (x) = − Ln+1 (x) + (2n − m + 1)Ln(m) (x) − n2 Ln−1 (x) ,
n+1
que será provada logo abaixo (expressão (9.118)). Inserindo-a em (9.114) e usando as relações de
ortogonalidade (9.112), obtem-se facilmente
Z ∞
2 m+1 −x (n!)3
Ln(m) (x) x e dx = (2n − m + 1) . (9.115)
0 (n − m)!
Essa expressão será usada quando da normalização das auto-funções de energia do átomo de hidrogênio.
• Relações de recorrência para os polinômios de Laguerre associados

(m)
Se explorarmos a primeira igualdade em (9.109), que define os polinômios Ln , algumas fórmulas
de recorrência para os polinômios de Laguerre associados podem ser obtidas diretamente daquelas dos
polinômios de Laguerre listadas em (9.104)-(9.105) simplesmente diferenciando-as m vezes em relação
a x. Como facilmente se constata, obtem-se
(m+1)
Ln+1 (x) = (n + 1)Ln(m+1) (x) − (n + 1)Ln(m) (x) , (9.116)
(m) (m)
Ln+1 (x) = (2n − x + 1)Ln(m) (x) − mLn(m−1) (x) − n2 Ln−1 (x) , (9.117)
(m) ′ (m+1)
onde, em (9.116), usamos o fato evidente que Ll (x) = Ll (x).
(m−1) 1 (m) (m)
Tomando (9.116) e trocando m → m − 1, obtem-se Ln (x) = − (n+1) Ln+1 (x) + Ln (x). Inserindo
isso em (9.117), obtem-se
(m) (m)
(n + 1 − m)Ln+1 (x) = (n + 1)(2n − m − x + 1)Ln(m) (x) − n2 (n + 1)Ln−1 (x) . (9.118)
Essas relações são denominadas fórmulas de recorrência para os polinômios de Laguerre associados.
• A função geratriz exponencial dos polinômios de Laguerre associados
A partir da definição (9.109) e de (9.107) é elementar constatar que a função geratriz exponencial
dos polinômios de Laguerre associados é dada por
∞
X (m)
L (x)l l (−1)m tm xt
Las. (x, t) := t = exp − . (9.119)
l=m
l! (1 − t)m+1 1−t
dm
A soma acima começa com l = m pois L (x)
dxm l
= 0 caso m > l.
• A equação de Laguerre generalizada
A assim denominada equação de Laguerre generalizada é a equação diferencial
zy ′′ (z) + (α + 1 − z)y ′ (z) + ny(z) .
com n ∈ N e α > −1, real. Trata-se de uma variante da equação de Laguerre associada, pois α aqui
não é necessariamente um inteiro.
E. 9.18 Exercı́cio. Mostre que essa equação tem uma solução da forma de um polinômio
X n
α k n Γ(n + α + 1) k
Ln (z) := (−1) z .
k=0
k Γ(k + α + 1)

dn n+α −x
Lαn (x) = ex x−α x e ,
dxn
x > 0. 6

Z ∞
Lαn (x)Lαm (x) xα e−x dx = 0
0
se m 6= n. Calcule a integral no caso m = n. 6
E. 9.21 Exercı́cio. Para α = m, inteiro, mostre que

(n − m)! (m)
Lαn (x) = (−1)m Ln (x) .
n!
6
9.2.6 Propriedades das Funções de Bessel

Na presente seção apresentaremos algumas das propriedades mais importantes e mais empregadas das
funções de Bessel, especialmente as de ordem inteira. Devido à sua importância em um sem-número de
problemas aplicados, as funções de Bessel e de Neumann têm sido intensamente estudadas nos últimos
duzentos anos e foi coletado um enorme conjunto de informações sobre as mesmas, gerando uma vasta
literatura. Por isso, nossas pretensões aqui são relativamente modestas. Um texto clássico sobre o
assunto é [147]. Outros excelentes são [153], [70] e [92], mas todas as referências listadas à página 411
tratam do assunto com maior ou menor grau de profundidade.
No estudo das propriedades das funções de Bessel Jν (x) procederemos de um modo ligeiramente
diferente do que fizemos acima. Isso se dá por várias razões. Uma delas é que as funções de Bessel não
são polinômios, ao contrário dos casos de acima. Outra é a natureza das relações de ortogonalidade
dessas funções.
• Origens
As funções de Bessel surgem em vários problemas da Fı́sica-Matemática, especialmente envolvendo a

resolução de certas equações diferenciais em coordenadas cilı́ndricas. O mais célebre desses problemas é
aquele que estuda as vibrações de uma membrana circular (um tambor), problema encontrado em vários
livros-texto e que estudamos na Seção 10.3, página 605. Esse problema foi tratado pela primeira vez
por Euler30 em 1764, antecedendo a Bessel. Em verdade, certas funções de Bessel surgiram antes ainda,
em 1703, na resolução da chamada equação de Riccati31 por Jacob Bernoulli32 (vide nota histórica à
página 305) e em 1732, em trabalhos de Daniel Bernoulli33 sobre o problema da corda vibrante e suas
variantes (vide problema da corda pendurada na Seção 10.2.2, página 596). O trabalho do astrônomo
Bessel34 no qual as funções que levam seu nome foram (re)encontradas é bem posterior e data de 1817,
tendo sido publicado em 182435 .
O problema que conduziu Bessel não foi o de resolver uma equação diferencial, mas o de determinar
coeficientes de Fourier que descrevem a trajetória de um planeta em movimento periódico em uma órbita
elı́ptica em torno do Sol e obedecendo a segunda lei de Kepler36 , segundo a qual o raio-vetor que conecta
o Sol ao planeta em questão varre áreas iguais em tempos iguais37 . Bessel obteve para esses coeficientes
uma expressão integral que é a representação integral das funções de Bessel que apresentamos em
(9.145), mais abaixo. Posteriormente, identificou-se que esses coeficientes representavam as funções
previamente tratadas por Daniel Bernoulli e Euler, mas as mesmas acabaram sendo nomeadas em
honra a Bessel (segundo [68], o nome de Bessel foi atribuı́do à equação diferencial por Schlömilch38 em
1857 e Lipschitz39 em 1859). Em seu trabalho, na verdade, Bessel estendeu resultados anteriores de
Lagrange40 , de 1769, o qual também dedicou-se à questão de determinar os coeficientes de Fourier que
expressam como função do tempo a distância ao Sol de um planeta em órbita elı́ptica, calculando os
três primeiros41 .
A determinação desses coeficientes de Fourier não é um mero exercı́cio acadêmico, pois é importante
para cálculos, via teoria de perturbações, da influência gravitacional que os planetas exercem entre si
e da conseqüente previsão de desvios das suas órbitas elı́pticas. O estudo matemático de perturbações
periódicas ou quase-periódicas em sistemas mecânicos (ou em equações diferenciais, em geral) é um
vasto assunto de pesquisa que tem desafiado inúmeros pesquisadores até a atualidade.
Bessel é também autor de dois outros importantes feitos cientı́ficos, a proposição da existência de
estrelas binárias e a medição da distância ao Sol de uma outra estrela.
Bessel foi um dos primeiros a propor a existência de estrelas binárias, prevendo em 1834 a existência
de uma companheira da estrela Sirius. Tal previsão foi possı́vel em função de medidas de alta precisão,
que Bessel produziu durante anos, da posição de várias estrelas. Tais medidas indicavam um movimento
elı́ptico periódico de Sirius cuja origem não poderia ser explicada em termos de movimentos da Terra
30
31
Iacopo Francesco Riccati (1676-1754).
32
Jacob Bernoulli (1654-1705).
33
Daniel Bernoulli (1700-1782).
34
35
F. W. Bessel, “Untersuchungen des Theils der planetarischen Störungen, welcher aus der Bewegung der Sonne
entsteht”. Berliner Abhandlungen, 1-52 (1824).
36
Johannes Kepler (1571-1630).
37
Como todo estudante de Fı́sica bem sabe, isso é conseqüência da conservação do momento angular sob uma força
central.
38
Oscar Xavier Schlömilch (1823-1901).
39
40
Joseph-Louis Lagrange (1736-1813).
41
Outras informações históricas sobre o desenvolvimento das funções de Bessel podem ser encontradas em [147].
ou do sistema solar. Bessel propôs que esse movimento era devido à presença de uma outra estrela
menos brilhante nas proximidades de Sirius e que ambas orbitavam em torno do centro de massa
comum, explicando assim as observações. Em 1840, Bessel anunciou a observação de tais movimentos
periódicos em outra estrela, a estrela Procyon.
A existência da companheira de Sirius foi confirmada por observações feitas em 1862 por A. G.
Clark42 e a de Procyon em 1896, por J. M. Schaeberle43 , ambas após a morte de Bessel. As estatı́sticas
atuais indicam que cerca de metade das estrelas da nossa galáxia é composta por estrelas binárias.
Há também sistemas triplos de estrelas (α Centauri sendo o exemplo mais popularmente conhecido),
quádruplos (ǫ Lyrae) etc.
Um problema matemático, levantado pela primeira vez por Laplace44 em 1785 e ainda hoje em
aberto, ao qual nomes como o de Poincaré45 deram importantes contribuições, é o de saber se sistemas
múltiplos como esses, ou como o nosso próprio sistema solar, são estáveis. Esse problema deu origem a
uma importante área de pesquisa atual, a teoria dos sistemas dinâmicos46 . Métodos como os que Bessel
e outros empregaram para a detecção de sistemas binários são empregados hoje em dia na detecção de
planetas orbitando estrelas, outro tema atual de pesquisa.
Bessel foi também o primeiro, em 1838, a determinar a distância ao Sol de uma outra estrela, usando
para tal o método de paralaxe. A estrela em questão foi 61 Cygni e Bessel calculou sua distância ao
Sol como sendo cerca de 10 anos-luz. O valor atualmente aceito é de cerca de 10,7 anos-luz, ou 3,3
parsecs47 . Com esse trabalho, Bessel contribuiu para o estudo das escalas de distância cosmológicas,
tarefa em implementação até os nossos dias.
• Relações de recorrência para as funções de Bessel
Seja a função de Bessel Jν (x) definida em (8.103) por

∞
X (−1)k x 2k+ν
Jν (x) := . (9.120)
k=0
k! Γ(k + 1 + ν) 2
Consideremos provisoriamente ν diferente de 0 ou de um inteiro negativo (pois Γ(x) diverge se x é um

42
Alvan Graham Clark (1832-1897).
43
John Martin Schaeberle (1853-1924).
44
45
Jules Henri Poincaré (1854-1912).
46
Em verdade, boa parte da topologia moderna foi criada por Poincaré no seu tratamento do problema de estabilidade.
47
Um ano-luz é a distância que a luz percorre em um ano e corresponde a aproximadamente 9, 46 1012 km, ou 9, 5
trilhões de quilômetros. Um parsec é definido como a distância de um objeto cuja paralaxe em relação à Terra seja
de um segundo de arco, uma medida de distância usada tradicionalmente na Astronomia. Um parsec corresponde a
aproximadamente 3, 262 anos-luz, ou 3, 09 1013 km.
inteiro negativo). Multiplicando Jν por xν e diferenciando em relação a x, obtem-se

∞ 2k+ν
d ν d X (−1)k 1
(x Jν (x)) = (x)2k+2ν
dx dx k=0 k! Γ(k + 1 + ν) 2
X∞ 2k+ν−1
(−1)k (k + ν) 1
= (x)2k+2ν−1
k=0
k! Γ(k + 1 + ν) 2
∞
X (−1)k x 2k+ν−1
ν
= x
k=0
k! Γ(k + ν) 2
= xν Jν−1 (x) .
Multiplicando Jν por x−ν e diferenciando em relação a x, obtem-se analogamente
∞ 2k+ν
d d X (−1)k 1
−ν
x Jν (x) = (x)2k
dx dx k=0 k! Γ(k + 1 + ν) 2
∞
X 2k+ν−1
(−1)k 1
= (x)2k−1
k=1
(k − 1)! Γ(k + 1 + ν) 2
∞
X (−1)k x 2k+ν−1
−ν
= x
k=1
(k − 1)! Γ(k + 1 + ν) 2
∞
X (−1)k x 2k+ν+1
k→k+1 −ν
= −x
k! Γ(k + 2 + ν) 2
k=0
= −x−ν Jν+1 (x) .

Provamos assim que, para ν 6= 0, −1, −2, −3 . . .,
d ν d
(x Jν (x)) = xν Jν−1 (x) e x−ν Jν (x) = −x−ν Jν+1 (x) . (9.121)
dx dx
Adotando-se a já mencionada definição J−m (x) = (−1)m Jm (x), para m inteiro positivo ou zero, vemos
que a expressão acima também vale para ν = 0, −1, −2, −3 . . ..
E. 9.22 Exercı́cio. Mostre isso! 6
Para ν = 0, a segunda relação em (9.121) diz-nos que

J0′ (x) = −J1 (x) . (9.122)
Expandindo as derivadas em (9.121), teremos que

xν Jν′ (x) + νxν−1 Jν (x) = xν Jν−1 (x) e
x−ν Jν′ (x) − νx−ν−1 Jν (x) = −x−ν Jν+1 (x) ,

ou seja,
xJν′ (x) = xJν−1 (x) − νJν (x) e xJν′ (x) = νJν (x) − xJν+1 (x) . (9.123)
Somando e subtraindo essas duas expressões uma da outra obtemos as seguintes relações importantes:
1
Jν′ (x) = Jν−1 (x) − Jν+1 (x) , (9.124)
2
1
Jν+1 (x) = 2νJν (x) − xJν−1 (x) . (9.125)
x
Essas relações, válidas para todo ν ∈ C, são denominadas relações de recorrência das funções de Bessel.
A segunda delas permite, por exemplo, obter todas as funções Jm com m inteiro positivo a partir de
J0 e J1 . Na verdade, por (9.122), basta conhecer J0 e sua derivada.
Resumindo, obtivemos as seguintes relações
d ν
(x Jν (x)) = xν Jν−1 (x) , (9.126)
dx
d
x−ν Jν (x) = −x−ν Jν+1 (x) , (9.127)
dx
xJν′ (x) = xJν−1 (x) − νJν (x) , (9.128)
xJν′ (x) = νJν (x) − xJν+1 (x) , (9.129)
1
Jν′ (x)
= Jν−1 (x) − Jν+1 (x) , (9.130)
2
1
Jν+1 (x) = 2νJν (x) − xJν−1 (x) , (9.131)
x
válidas para todo ν ∈ C e todo x ∈ C, x 6= 0.
Expressões análogas às de acima são também válidas para as funções Nν (x).
• A relação entre Jn e J0 , n ∈ N
A segunda expressão em (9.121) diz-nos que

1 d
x−ν Jν (x) = −x−(ν+1) Jν+1 (x) .
x dx
Disso segue imediatamente que
n
1 d
x−ν Jν (x) = (−1)n x−(ν+n) Jν+n (x) , (9.132)
x dx
válida para todo ν, x ∈ C e n ∈ N. No caso particular em que ν = 0, obtem-se,
n
n n 1 d
Jn (x) = (−1) x (J0 (x)) , (9.133)
x dx
válida para todo x ∈ C e n ∈ N. A expressão (9.133) generaliza (9.122) e guarda certa semelhança
com as fórmulas de Rodrigues.
E. 9.23 Exercı́cio. Obtenha (9.132) e (9.133) diretamente da definição (9.120). 6
• A função geratriz das funções de Bessel
A determinação da função geratriz das funções de Bessel é importante, entre outras razões, por nos
permitir obter representações integrais para as funções de Bessel, representações essas que assumem
uma grande relevância em várias aplicações.
Tomemos as funções de Bessel de ordem inteira definidas por
∞
X (−1)k x 2k+m
Jm (x) := , (9.134)
k=0
k! (k + m)! 2
para m ≥ 0, convencionando-se que J−m (x) = (−1)m Jm (x) (vide (8.121) e a discussão que lhe acom-
panha). Vamos aqui considerar a função geratriz definida por
∞
X
J(x, t) := tm Jm (x)
m=−∞
para t 6= 0 e vamos provar que

∞
X
m x 1
t Jm (x) = exp t− . (9.135)
m=−∞
2 t
Dessa importante relação serão extraı́dos vários fatos úteis sobre as funções de Bessel de ordem inteira.
Antes de provarmos isso, mostremos que J(x, t) está bem definida. Por (9.134), vale
∞
X 1 x 2k+m 1 x m X 1
∞ x 2k 1 x m |x/2|2

|Jm (x)| ≤ ≤ = e ,
k=0
k! (k + m)! 2 m! 2 k=0 k! 2 m! 2
de modo que
∞
X ∞ m
X 1
|J(x, t)| ≤ |J0 (x)| + m
|t| |Jm (x)| + |Jm (x)|
t
m=1 m=1
m
1 x m
X∞ X∞
|x/2|2 1 xt |x/2|2
≤ |J0 (x)| + e +e ,
m=1
m! 2 m=1
m! 2t
sendo que as últimas somas são convergentes para todo x ∈ C e todo t ∈ C com t 6= 0, o que prova que
J(x, t) é analı́tica para todo x ∈ C e todo t ∈ C com t 6= 0.
Podemos com isso demonstrar (9.135) de modo bem simples, tomando a derivada parcial em relação
a x de J(x, t), derivando termo a termo na soma (o que é permitido, devido à analiticidade) e usando
(9.124):
∞
X
∂ ′
J(x, t) = tm Jm (x) (9.136)
∂x m=−∞
∞ ∞
(9.124) 1 X m 1 X m
= t Jm−1 (x) − t Jm+1 (x) (9.137)
2 m=−∞ 2 m=−∞
∞ ∞
k=m−1,
l=m+1 t X k t−1 X l
= t Jk (x) − t Jl (x) (9.138)
2 k=−∞ 2 l=−∞

1 1
= t− J(x, t) . (9.139)
2 t
∂

Assim, J(x, t) satisfaz a equação diferencial ∂x
t) = 21 t − 1t J(x, t), cuja solução geral é
J(x,

x 1
J(x, t) = f (t) exp t− ,
2 t
para alguma função f (t). Agora, como Jm (0) = 0 para m 6= 0 e J0 (0) = 1, segue que J(0, t) = 1, o
que implica f (t) = 1, provando (9.135).
Estudando a demonstração acima o leitor poderá reconhecer a importância de definir-se J−m (x) =
(−1)m Jm (x), para m inteiro positivo ou zero.
• Fórmula de adição das funções de Bessel
Uma das relações mais úteis que advêm de (9.135) é a seguinte:

∞
X
Jm (x + y) = Jn (x)Jm−n (y) , (9.140)
n=−∞
válida para todo m ∈ Z e todos x, y ∈ C. Essa expressão é denominada por alguns autores fórmula
de adição das funções de Bessel (a “adição”, aqui, refere-se à adição dos argumentos da função no
lado esquerdo). As funções de Bessel satisfazem várias outras relações de adição do tipo de acima e
remetemos o leitor à literatura supracitada (por exemplo, à referência [70]) para generalizações.
A demonstração de (9.140) é obtida de (9.135) calculando-se o produto J(x, t)J(y, t) de duas
formas: por um lado,

x 1 y 1
J(x, t)J(y, t) = exp t− exp t−
2 t 2 t

x+y 1
= exp t−
2 t
∞
X
= tm Jm (x + y) . (9.141)
m=−∞
Por outro lado,

∞
! ∞
!
X X
J(x, t)J(y, t) = tk Jk (x) tl Jl (y)
k=−∞ l=−∞
∞
X ∞
X
= tk+l Jk (x)Jl (y)
k=−∞ l=−∞
∞ ∞
!
X X
= tm Jn (x)Jm−n (y) . (9.142)
m=−∞ n=−∞
Comparando-se (9.141) a (9.142) obtem-se (9.140).

Se em (9.140) tomarmos y = −x e m = 0, e usarmos que Jn (x) = J−n (−x) e que J0 (0) = 1,
obteremos ∞
X 2 2 ∞
X 2
1 = Jn (x) = J0 (x) + 2 Jn (x) . (9.143)
n=−∞ n=1
Como Jn (x) é real para x ∈ R, isso ensina-nos que

1
|J0 (x)| ≤ 1 e |Jn (x)| ≤ √ ,
2
para todo x ∈ R e n 6= 0, n inteiro.
E. 9.24 Exercı́cio. Justifique! 6
É possı́vel estabelecer limites superiores mais precisos para |Jn (x)|, mas não trataremos disso aqui.
• Representações integrais das funções de Bessel
A relação (9.135) tem vários usos, um deles é o de fornecer uma representação integral para as
funções de Bessel, com a qual outras propriedades podem ser obtidas. A relação (9.135) foi provada
para todo x ∈ C e t ∈ C com t 6= 0. Tomemos t com |t| = 1, ou seja, tomemos t da forma t = eiϕ , com
−π ≤ ϕ ≤ π. Obtemos,
X∞
eix sen(ϕ) = Jm (x)eimϕ . (9.144)
m=−∞
O ponto interessante é que podemos interpretar o lado direito como sendo a série de Fourier na variável
ϕ da função periódica de perı́odo 2π do lado esquerdo, de onde tiramos que
Z π Z π
1 ix sen(ϕ) −imϕ 1
Jm (x) = e e dϕ = eix sen(ϕ)−imϕ dϕ ,
2π −π 2π −π
para todo m ∈ Z. Usando eia = cos(a) + i sen(a), tem-se
Z π Z π
1 i
Jm (x) = cos (x sen(ϕ) − mϕ) dϕ + sen (x sen(ϕ) − mϕ) dϕ .
2π −π 2π −π
A segunda integral do lado direito é nula, pois o integrando é uma função ı́mpar em ϕ. Como o
integrando da primeira integral do lado direito é uma função par em ϕ, segue que
Z π Z
1 1 π
Jm (x) = cos (x sen(ϕ) − mϕ) dϕ = cos (x sen(ϕ) − mϕ) dϕ , (9.145)
2π −π π 0
válida para todo m ∈ Z. Essa expressão é a importante representação integral da função de Bessel
Jm (x), m ∈ Z.
Tomando-se t = ieiϕ em (9.135), obtem-se
∞
X
ix cos(ϕ)
e = im Jm (x)eimϕ . (9.146)
m=−∞
de onde se extrai Z π
(−i)m
Jm (x) = eix cos(ϕ)−imϕ dϕ . (9.147)
2π −π
É fácil obter daı́ que

Z π
(−1)m
J2m (x) = cos x cos(ϕ) − 2mϕ dϕ ,
2π −π
Z π
(−1)m
J2m+1 (x) = sen x cos(ϕ) − (2m + 1)ϕ dϕ .
2π −π
para todo m = 0, 1, 2, . . .. De (9.147) segue, em particular, a relação

Z π
1
J0 (x) = eix cos(ϕ) dϕ . (9.148)
2π −π
Aplicações dessa identidade encontram-se nos Exercı́cios E. 9.25 e E. 9.26.
E. 9.25 Exercı́cio. Seja f : R2 → C integrável e seja

Z
1
F[f ](~p) := f (~x)e−i~p·~x d2~x
2π R2
e ~p ·~x = p1 x1 + p2 x2 . Suponha que f dependa
sua transformada de Fourier, onde ~x = (x1 , x2 ), p~ = (p1 , p2 )p
apenas da coordenada radial: f (~x) = f (r), com r = k~xk = x21 + x22 . Mostre que
Z ∞
F[f ](~p) = f (r)J0 (pr)r dr ,
0
onde p = |~p|. 6



 f0 , 0 ≤ r ≤ R
E. 9.26 Exercı́cio. Seja f : R2 → C definida por f (~x) = f (r) = , sendo f0 e R


 0, r>R
constantes com R > 0. Mostre que
f0 R
F[f ](~p) = J1 (pR) .
p
Sugestão: De (9.121) segue que xJ0 (x) = (xJ1 (x))′ . 6
• Propriedades adicionais
De (9.144) podemos extrair mais algumas relações de interesse. Mostremos algumas aqui. Separando
a parte real e a parte imaginária de ambos os lados de (9.144), teremos
∞
X
cos x sen(ϕ) = Jm (x) cos(mϕ) ,
m=−∞
∞
X
sen x sen(ϕ) = Jm (x) sen(mϕ) .
m=−∞
Usando que J−m (x) = (−1)m Jm (x), obtemos alguns cancelamentos que conduzem a
∞
X
cos x sen(ϕ) = J0 (x) + 2 J2k (x) cos(2kϕ) , (9.149)
k=1
∞
X
sen x sen(ϕ) = 2 J2k−1 (x) sen((2k − 1)ϕ) . (9.150)
k=1
Em particular, para ϕ = π/2, isso diz-nos que

∞
X
cos(x) = J0 (x) + 2 (−1)k J2k (x) , (9.151)
k=1
∞
X
sen(x) = 2 (−1)k+1 J2k−1 (x) . (9.152)
k=1
Tomando ϕ = 0 em (9.149), segue também a identidade

∞
X
1 = J0 (x) + 2 J2k (x) .
k=1
De (9.149)-(9.150), obtem-se também, usando as bem-conhecidas relações de ortogonalidade das

funções seno e co-seno,


Z 

1 π  Jm (x), m par
cos x senϕ cos(mϕ)dϕ = .
π 0 

 0, m ı́mpar

Z 

1 π  0, m par
sen x senϕ sen(mϕ)dϕ = .
π 0 

 Jm (x), m ı́mpar
Outras identidades podem ser obtidas a partir das várias apresentadas de acima, ou com os mesmos
métodos, mas encerramos aqui nossa apresentação das mesmas, convidando o leitor a um passeio
à literatura pertinente às funções de Bessel. Nossa intenção agora é a de discutir as relações de
ortogonalidade para as funções de Bessel.
• Zeros das funções de Bessel
Antes de entrarmos na discussão sobre as relações de ortogonalidade para as funções de Bessel em

J = [0, 1] precisamos fazer alguns comentários sobre os zeros das funções de Bessel. Os seguintes
teoremas são válidos:
Teorema 9.2 As funções Jn (z), com n ∈ Z, não possuem zeros complexos e possuem uma coleção
infinita enumerável de zeros reais, todos simples, exceto z = 0, que é um zero de ordem |m| de Jm (z)
para m ∈ Z, m 6= 0. Os zeros de Jn (z), com n ∈ Z, não possuem pontos de acumulação em R. Como
Jn (x) = (−1)n Jn (−x), vemos que os zeros de Jn (x) são simétricos em relação ao ponto x = 0. Fora
isso, como J−n (x) = (−1)n+1 Jn (x), os zeros de Jn (x) coincidem com os de J−n (x). Por fim, os zeros
positivos das funções de Bessel de ordem inteira positiva possuem a seguinte propriedade de alternância:
entre dois zeros positivos sucessivos de Jn existe um zero de Jn−1 e um de Jn+1 , para todos n ≥ 0. 2
Teorema 9.3 Seja ν real e suponha que | arg z| < π. Então Jν (z) possui uma coleção infinita enu-
merável de zeros reais e positivos e um número 2N(ν) de zeros conjugados complexos, sendo que
1. N(ν) = 0 se ν > −1 ou ν = −1, −2, −3, . . .,
2. N(ν) = m se −m − 1 < ν < m, m = 1, 2, 3, . . ..
Os zeros reais positivos de Jν (z), com ν real, não possuem pontos de acumulação em R+ . 2
Teorema 9.4 Para ν ≥ 0 a função Jν′ (z) possui apenas zeros simples, exceto em z = 0 e entre dois
zeros sucessivos de Jν′ (z) há exatamente um zero de Jν (z). 2
O teorema seguinte é particularmente útil na resolução de problemas envolvendo condições de

contorno mistas.
Teorema 9.5 Para A e B reais e ν real com ν > −1 a equação
AJν (z) + BzJν′ (z)
para | arg z| < π possui uma coleção enumerável de zeros reais positivos e no caso em que ν + A/B ≥
0, também não possui raı́zes complexas. Caso ν + A/B < 0, AJν (z) + BzJν′ (z) possui duas raı́zes
imaginárias puras. 2
Os enunciados acima foram extraı́dos de [92], [70] e [66] e suas demonstrações podem ser encontradas
em [147] ou (parcialmente) em [70]. Não as apresentaremos aqui, mas o leitor não deve ser desestimulado
a estudá-las pois as mesmas são elementares e utilizam-se essencialmente apenas do material que já
apresentamos aqui.
• As relações de ortogonalidade das funções de Bessel no intervalo [0, 1]
Em muitos problemas, por exemplo, naquele em que estudamos os modos de vibração de uma
membrana circular, estamos interessados nas soluções da equação de Bessel em um intervalo finito
fechado. Consideraremos, para fixar idéias, o caso em que o intervalo é J = [0, 1]. Em uma tal
situação encontraremos relações de ortogonalidade, as quais são muito importantes na resolução de
certos problemas envolvendo equações diferenciais parciais submetidas a condições iniciais e de contorno.
Devido aos comentários que fizemos acima sobre os zeros das funções de Bessel consideraremos no
que segue apenas o caso em que ν é real.
Seja para um dado α ∈ R a função fα (x) := Jν (αx). É fácil verificar que fα (x) é solução da equação
ν2
(xy ′ (x))′ − y(x) + α2 xy(x) = 0 . (9.153)
x
E. 9.27 Exercı́cio importante. Verifique isso. 6
Como α aparece elevada ao quadrado na expressão acima podemos sem perda de generalidade
considerar α > 0 (o caso α = 0 é trivial, pois corresponde a uma função constante: f0 (x) = Jν (0)).
Nosso principal resultado será o seguinte teorema, o qual estabelece uma classe bastante geral de
relações de ortogonalidade para as funções de Bessel. Essas relações de ortogonalidade são de suma
importância nas aplicações dessas funções à solução de certas equações diferenciais submetidas a certas
condições iniciais e de contorno.
Teorema 9.6 Seja ν ≥ 0 e sejam fixados certos números reais A, B com (A, B) 6= (0, 0) satisfazendo
ν + A/B ≥ 0, caso B 6= 0 (vide Teoremas 9.2-9.5). Seja também ZνA, B o conjunto de todos os números
α > 0 tais que
AJν (α) + BαJν′ (α) = 0 , (9.154)
ou seja,
ZνA, B := {α > 0| AJν (α) + BαJν′ (α) = 0} . (9.155)
Pelo Teorema 9.5, esse conjunto é não-vazio e enumerável. Então a condição (9.6) do Teorema 9.1,
página 507, com J = [0, 1], é satisfeita para todas as funções fα (x) = Jν (αx) com α ∈ ZνA, B e,
portanto, para α, β ∈ ZνA, B com α 6= β valem as relações de ortogonalidade (com r(x) = x)

Z 1
fα (x)fβ (x) x dx = 0 ,
0
ou seja, Z 1
Jν (αx)Jν (βx) x dx = 0 . (9.156)
0
para todos α, β ∈ ZνA, B com α 6= β. Para todos α, β ∈ ZνA, B , tem-se
Z 1
δα, β ′ 2 ν2 2
Jν (αx)Jν (βx) x dx = (Jν (α)) + 1 − 2 (Jν (α))
0 2 α

(9.129) δα, β 2 2ν 2
= (Jν (α)) − Jν (α)Jν+1(α) + (Jν+1 (α)) . (9.157)
2 α
Essa expressão é denominada relação de ortogonalidade das funções de Bessel. Note que há uma relação
de ortogonalidade para cada tripla (ν, A, B) com ν ≥ 0 e (A, B) 6= (0, 0) e ν + A/B ≥ 0, B 6= 0, pois
cada tripla (ν, A, B) fixa o conjunto WνA, B .
A relação (9.154) corresponde a condições de contorno freqüentemente encontradas na resolução de
equações diferenciais parciais da Fı́sica, como por exemplo no problema de propagação de ondas em
uma membrana circular (um tambor). No caso A = 1, B = 0 o conjunto Zν1, 0 coincide com o dos zeros
da função de Bessel Jν (x). No caso A = 0, B = 1 o conjunto Zν0, 1 coincide com o dos zeros da função
Jν′ (x).
Em particular, se ν ≥ 0 e αkν é o k-ésimo zero da função Jν (x) no intervalo (0, ∞), então
Z 1 (Jν′ (αkν ))2 (Jν+1 (αkν ))2
Jν αkν x Jν αlν x x dx = δk, l = δk, l . (9.158)
0 2 2
Analogamente, se ν ≥ 0 e βkν é o k-ésimo zero da função Jν′ (x) no intervalo (0, ∞), então
Z 1 2 !
ν (Jν (βkν ))2
Jν βkν x Jν βlν x x dx = δk, l 1 − . (9.159)
0 βkν 2
Dessa relação percebemos incidentalmente que βkν > ν para todo k, pois o lado esquerdo é certamente
positivo quando k = l. 2
Prova do Teorema 9.6. Podemos encarar a equação (9.153) como sendo da forma canônica (9.1) para o
2
intervalo J = (0, 1] com p(x) = x, q(x) = − νx , r(x) = x e µ = α2 . Perguntemo-nos agora se para duas
funções fα (x) := Jν (αx) e fβ (x) := Jν (βx) a condição (9.6) do Teorema 9.1, página 507 é satisfeita nos
extremos do intervalo J = (0, 1], ou seja, se

p(1) fα (1)fβ′ (1) − fα′ (1)fβ (1) − lim p(x) fα (x)fβ′ (x) − fα′ (x)fβ (x) = 0 ,
x→0
isto é, se
(Jν (α)βJν′ (β) − αJν′ (α)Jν (β)) − lim x (Jν (αx)βJν′ (βx) − αJν′ (αx)Jν (βx)) = 0 .
x→0
Dado que o primeiro termo da expansão de Jν (x) é proporcional a xν , e que, conseqüentemente, o

primeiro termo da expansão de Jν′ (x) é proporcional a xν−1 teremos que
lim x (Jν (αx)βJν′ (βx) − αJν′ (αx)Jν (βx)) ∝ lim xxν xν−1 = 0
x→0 x→0
sempre que ν > 0. Para ν = 0 a relação acima também é válida, pois o primeiro termo da expansão de
J0 (x) é constante, mas o primeiro termo da expansão de J0′ (x) é proporcional a x. Para ν < 0 o limite
x → 0 da expressão acima é singular. Concluı́mos que para ν ≥ 0 vale

p(1) fα (1)fβ′ (1) − fα′ (1)fβ (1) − lim p(x) fα (x)fβ′ (x) − fα′ (x)fβ (x)
x→0
= (Jν (α)βJν′ (β) − αJν′ (α)Jν (β)) .
Procuramos agora identificar condições sob as quais o lado direito se anula, o que nos garantirá a
aplicabilidade do teorema de ortogonalidade, Teorema 9.1.
Um caso óbvio é aquele no qual α e β são zeros da função de Bessel Jν . Outro caso óbvio é aquele
no qual α e β são zeros de Jν′ , a derivada da função de Bessel Jν . O caso mais geral está na seguinte
proposição.
Proposição 9.1 Suponhamos que para certos números A e B com (A, B) 6= (0, 0) existam constantes
reais α e β tais que
AJν (α) + BαJν′ (α) = 0 e (9.160)
AJν (β) + BβJν′ (β) = 0 . (9.161)
Então,
Jν (α)βJν′ (β) − αJν′ (α)Jν (β) = 0 .
2
Prova. As relações (9.160)-(9.161) podem ser expressas em forma matricial como

    
Jν (α) αJν′ (α) A 0
    
    
   =   .
    
    
    
Jν (β) βJν′ (β) B 0
Como por hipótese (A, B) 6= (0, 0), a relação acima só é possı́vel se a matriz 2 × 2 do lado esquerdo
for não-invertı́vel, ou seja, se tiver determinante nulo. Assim, devemos ter
 
Jν (α) αJν′ (α)
 
 
0 = det 

 = Jν (α)βJ ′ (β) − αJ ′ (α)Jν (β) ,
 ν ν
 
 
Jν (β) βJν′ (β)
que é o que querı́amos estabelecer.
Com essa proposição, fica estabelecido que a condição (9.6) do Teorema 9.1, página 507, com
com J = [0, 1], é satisfeita para todas as funções fα (x) = Jν (αx) com α ∈ ZνA, B e, portanto, para
α, β ∈ ZνA, B com α 6= β valem as relações de ortogonalidade (com r(x) = x)
Z 1 Z 1
fα (x)fβ (x) x dx = 0 ou seja, Jν (αx)Jν (βx) x dx = 0 ,
0 0
para todos α, β ∈ ZνA, B com α 6= β.

Passemos à questão de provar (9.157) para o caso em que α = β. Isso pode ser feito de diversas
maneiras, a mais direta sendo a seguinte. Escrevamos a equação (9.153) na forma

x2 y ′′(x) + xy ′(x) + α2 x2 − ν 2 y(x) = 0 . (9.162)
Multiplicando-a por 2y ′(x), obtemos

0 = 2x2 y ′(x)y ′′ (x) + 2x(y ′ (x))2 + 2 α2 x2 − ν 2 y(x)y ′(x)
d ′ 2 d
= x2 (y (x)) + 2x(y ′(x))2 + α2 x2 − ν 2 (y(x))2
dx dx
d 2 ′ 2
d
= x (y (x)) + α2 x2 − ν 2 (y(x))2
dx dx
e, portanto,
d 2 ′ 2
d 2 2
0 = x (y (x)) + α x − ν 2 (y(x))2 − 2α2 x (y(x))2 . (9.163)
dx dx
Integrando-se ambos os lados da igualdade entre 0 e 1, obtem-se
1 h i1 Z 1
2 2
2 ′ 2 2 2
0 = x (y (x)) + α x − ν (y(x)) − 2α 2
x (y(x))2 dx . (9.164)
0 0 0
Como fα (x) = Jν (αx) é solução de (9.162), podemos adotar y(x) = Jν (αx), acima. Assim,
1 1
2 2 2
x (y (x)) = α x (Jν (αx)) = α2 (Jν′ (α)) .
2 ′ 2 2 ′
0 0
h i 1

α2 x2 − ν 2 (y(x))2 = α2 − ν 2 (Jν (α))2 + ν 2 (Jν (0))2 = α2 − ν 2 (Jν (α))2 ,
0
pois ν 2 (Jν (0))2 = 0 para todo ν ≥ 0 (por que?). Portanto, (9.164) fica
Z 1
2
2α 2
x (Jν (αx))2 dx = α2 (Jν′ (α)) + α2 − ν 2 (Jν (α))2 ,
0
o que conduz à primeira linha de (9.157) no caso α = β. A identidade

2 ν2 2ν
(Jν (α)) + 1 − 2 (Jν (α))2 = (Jν (α))2 − Jν (α)Jν+1(α) + (Jν+1 (α))2
′
α α
segue diretamente de (9.129).

Com isso, o Teorema 9.6 está demonstrado
• Generalizações das relações de ortogonalidade das funções de Bessel e Neumann
Algumas vezes lidamos com problemas envolvendo a equações de Bessel em intervalos como [R1 , R2 ]
com 0 < R1 < R2 < ∞ e procuramos soluções que anulam-se nos extremos desse intervalo. Exemplos
de tais situações encontram-se no problema descrito no Exercı́cio E. 10.12, página 628 e no problema
descrito no Exercı́cio E. 10.13, página 628. Como o ponto 0 não é um ponto da fronteira do intervalo
considerado, as relações de ortogonalidade acima encontradas não se aplicam diretamente. O teorema
a seguir fornece as relações de ortogonalidade desejadas nessa situação.
Teorema 9.7 Sejam 0 < R1 < R2 < ∞ e Sνn (x) definida no intervalo [R1 , R2 ] por


 µ νn R1 µ νn ρ µ νn R1 µ νn ρ

 J−ν Jν − Jν J−ν , para ν ∈
6 Z,

 R2 R2 R2 R2


Sνn (x) :=





 µ mn R 1 µ mn ρ µ mn R1 µ mn ρ

 Nm Jm − Jm Nm , para ν = m ∈ Z ,
R2 R2 R2 R2
onde, para ν 6∈ Z, µνn é o n-ésimo zero em (0, ∞) da função

R1 R1
J−ν x Jν (x) − Jν x J−ν (x)
R2 R2
e para ν = m ∈ Z, µmn é o n-ésimo zero em (0, ∞) da função

R1 R1
Nm x Jm (x) − Jm x Nm (x) .
R2 R2
Pelas definições, Sνn (R1 ) = Sνn (R2 ) = 0 para todo ν ∈ R e todo n ∈ N. Além disso, Sνn (x) é
solução da equação de Bessel

x2 y ′′(x) + xy ′ (x) + α2 x2 − ν 2 y(x) = 0 (9.165)
µνn
no intervalo [R1 , R2 ], com α = R2
, também para todo ν ∈ R e todo n ∈ N.
Então, as funções Sνn (x) satisfazem as relações de ortogonalidade

Z R2
Sνn (x)Sνn′ (x) x dx = 0 (9.166)
R1
para n 6= n′ e todo ν ∈ R, com Z R2 2

Sνn (x) x dx = Kνn (9.167)
R1
para todo ν ∈ R e todo n ∈ N, onde

( 2
1 2 R1 ′ R1 ′
Kνn = (R2 ) J−ν µνn Jν (µνn ) − Jν µνn J−ν (µνn )
2 R2 R2
2 )
R1 R1 R1 R1
−(R1 )2 J−ν µνn Jν′ µνn − Jν µνn ′
J−ν µνn
R2 R2 R2 R2
para ν 6∈ Z e
( 2
1 2 R1 ′ R1 ′
Kmn = (R2 ) Nm µmn Jm (µmn ) − Jm µmn Nm (µmn )
2 R2 R2
2 )
R1 ′ R1 R1 ′ R1
−(R1 )2 Nm µmn Jm µmn − Jm µmn Nm µmn
R2 R2 R2 R2
para ν = m ∈ Z. 2
Prova. As relações (9.166) seguem diretamente do Teorema 9.1, página 507 pelo fato que Sνn (R1 ) =
Sνn (R2 ) = 0 para todo ν ∈ R e todo n ∈ N.
Para demonstrar (9.167) consideraremos apenas o caso ν 6∈ Z, pois o caso ν = m ∈ Z é tratado
identicamente. Nosso ponto de partida é a equação (9.163), página 562:
d 2 ′ 2
d 2 2
0 = x (y (x)) + α x − ν 2 (y(x))2 − 2α2 x (y(x))2 , (9.168)
dx dx
válida para qualquer solução de (9.165) (vide página 562). Integrando-se ambos os lados da igualdade
entre R1 e R2 , obtem-se
R h iR Z R2
2 2 2 2
2 ′ 2 2
0 = x (y (x)) + α x − ν (y(x)) − 2α2 2
x (y(x))2 dx . (9.169)
R1 R1 R1
Como

µmn R1 µmn µmn R1 µmn
y(x) = Sνn (x) := J−νm Jν m x − Jν m J−νm x ,
R2 R2 R2 R2
µmn
é solução de (9.165) com α = R2
temos, para essa y,
R R h i
2 2 2 2 2 2
x2 (y ′(x)) ′
= x2 (Sνn ′
(x)) = (R2 )2 (Sνn ′
(R2 )) − (R1 )2 (Sνn (R1 )) ,
R1 R1
h i R2 h i R2

α2 x2 − ν 2 (y(x))2 = α2 x2 − ν 2 (Sνn (x))2 = 0 ,
R1 R1
pois Sνn (x) anula-se em R1 e em R2 . Portanto, (9.169) fica

Z R2 h i
2 2 2 ′ 2 2 ′ 2
2α x (Sνn (x)) dx = (R2 ) (Sνn (R2 )) − (R1 ) (Sνn (R1 )) ,
R1
o que conduz à
Z R2
2 (R2 )2 h 2 ′ 2 2 ′ 2
i
x (Sνn (x)) dx = (R2 ) (Sνn (R2 )) − (R1 ) (Sνn (R1 ))
R1 2(µmn )2
( 2
1 2 R1 ′ R1 ′
= (R2 ) J−νm µmn Jνm (µmn ) − Jνm µmn J−νm (µmn )
2 R2 R2
2 )
R1 R1 R1 R1
− (R1 )2 J−νm µmn Jν′ m µmn − Jνm µmn ′
J−ν µmn ,
R2 R2 R2 m
R2
• Comentário sobre a equação de Bessel no intervalo J = [0, ∞)
Seja a equação de Bessel x2 y ′′ (x) + xy ′ (x) + (x2 − ν 2 )y(x) = 0 e consideremo-la agora no intervalo
semi-infinito J = [0, ∞). A mesma pode ser escrita como
ν2
(xy ′ (x))′ − y(x) + xy(x) = 0, (9.170)
x
e aqui temos p(x) = x e poderı́amos adotar q(x) = x, r(x) = x1 e µ = −ν 2 . Há, porém, uma diferença
marcante em relação aos casos anteriormente tratados. Para as funções Jν (x), mesmo com ν inteiro,
não vale a relação (9.6), pois limx→∞ p(x)Jν (x)Jν ′ (x) não se anula e, portanto, o Teorema 9.1 não se
aplica nesse caso. De fato, Jν (x) comporta-se para x → ∞ como
r
2 cos x − νπ − π
Jν (x) ≈ √2 4
.
π x
Infelizmente, não apresentaremos a demonstração dessa expressão assintótica nestas Notas. O leitor
poderá encontrá-la em vários textos, por exemplo, em [147], [153], [70] e mesmo em [88]. Em [70], por
exemplo, encontra-se demonstrada a expressão assintótica mais detalhada
r ∞ 2r
2 cos x − νπ − π X (−1)r Γ ν + 2r + 12 1
Jν (x) ≈ √2 4
1

π x r=0
(2r)! Γ ν − 2r + 2 2x
r ∞ 2r+1
2 sen x − νπ − π X (−1)r Γ ν + 2r + 32 1
− √ 2 4
1
,
π x r=0
(2r + 1)! Γ ν − 2r − 2 2x
válida para x → ∞. Com isso, percebemos que não devem valer para as funções de Bessel com ν’s
diferentes relações de ortogonalidade envolvendo integrais em J = [0, ∞).
9.2.7 Propriedades das Funções de Bessel Esféricas

As funções de Bessel e Neumann esféricas de ordem ν foram definidas em (8.126) e (8.127) por
r r
π π
jν (z) := Jν+ 1 (z) , nν (z) := N 1 (z) . (9.171)
2z 2 2z ν+ 2
Por serem fortemente relacionadas às funções de Bessel, suas propriedades podem ser facilmente dedu-
zidas das propriedades estudadas acima daquelas funções.
Por (8.103), tem-se
√ X ∞ z 2k+ν
π (−1)k
jν (z) = .
2 k=0 k! Γ(k + 1 + ν + 1/2) 2
Pela fórmula de duplicação (8.27), podemos escrever isso como

∞
X
ν (−1)k Γ(k + 1 + ν)
jν (z) = 2 z 2k+ν .
k=0
k! Γ(2(k + 1 + ν))
Em particular, para ν = l ∈ N, vale

X∞
(−1)k (k + l)! 2k+l
jl (z) = 2l z .
k=0
k! (2k + 2l + 1)!
• Relações de recorrência para as funções de Bessel esféricas
Fórmulas de recorrência para as funções de Bessel esféricas também podem ser obtidas daquelas
para as funções de Bessel listadas em (9.126)-(9.131). Analisando-as, é imediato ver que de (9.126) e
(9.127) segue facilmente que
d d
xν+1 jν (x) = xν+1 jν−1 (x) e x−ν jν (x) = −x−ν jν+1 (x) . (9.172)
dx dx
De (9.128) e (9.129) segue facilmente que
xjν′ (x) = xjν−1 (x) − (ν + 1)jν (x) e xjν′ (x) = νjν (x) − xjν+1 (x) . (9.173)
Dessas duas relações segue facilmente que

1 jν (x)
jν′ (x) = jν−1 (x) − − jν+1 (x) , (9.174)
2 x
1
jν+1 (x) = (2ν + 1)jν (x) − xjν−1 (x) , (9.175)
x
para todo ν. Usando (9.175), é fácil ver que (9.174) pode ser reescrita como

(2ν + 1) jν′ (x) = (ν + 1) jν−1 (x) − jν+1 (x) (9.176)
para todo ν.
Resumindo nossas conclusões, obtivemos que
d
xν+1 jν (x) = xν+1 jν−1 (x) , (9.177)
dx
d
x−ν jν (x) = −x−ν jν+1 (x) , (9.178)
dx
xjν′ (x) = xjν−1 (x) − (ν + 1)jν (x) , (9.179)
xjν′ (x) = νjν (x) − xjν+1 (x) , (9.180)

′
(2ν + 1) jν (x) = (ν + 1) jν−1 (x) − jν+1 (x) , (9.181)
1
jν+1 (x) = (2ν + 1)jν (x) − xjν−1 (x) . (9.182)
x
Expressões análogas são válidas para as funções nν (x).

Com o uso das relações de recorrência acima é possı́vel obter para as funções de Bessel esféricas o
análogo da expressão (9.133).
• A relação entre jn e j0 , n ∈ N
A expressão (9.178) diz-nos que

1 d
x−ν jν (x) = −x−(ν+1) jν+1 (x) .
x dx
Disso segue imediatamente que
n
1 d
x−ν jν (x) = (−1)n x−(ν+n) jν+n (x) , (9.183)
x dx
válida para todo ν, x ∈ C e n ∈ N. No caso particular em que ν = 0, obtem-se,

n n
n n 1 d n n 1 d senx
jn (x) = (−1) x (j0 (x)) = (−1) x , (9.184)
x dx x dx x
válida para todo x ∈ C e n ∈ N. A expressão (9.184) guarda certa semelhança com as fórmulas de
Rodrigues.
Para as funções de Neumann esféricas tem-se uma expressão análoga:
n
n+1 n 1 d cos x
nn (x) = (−1) x . (9.185)
x dx x
• Relações de ortogonalidade para as funções de Bessel esféricas no intervalo [0, 1]
As relações de ortogonalidade para as funções de Bessel esféricas podem ser provadas diretamente
daquelas expressas no Teorema 9.6.
ν+1/2
Observemos em primeiro lugar que o conjunto ZA, B que, pela definição (9.155), é
ν+1/2 ′

ZA, B := α > 0| AJν+1/2 (α) + BαJν+1/2 (α) = 0
pode ser caracterizado em termos de jν como

ν+1/2
B

ZA, B := α > 0 A + ′
jν (α) + Bαjν (α) = 0 .
2
Assim, ao lidarmos com problemas que possuem condições de contorno do tipo
Ajν (α) + Bαjν′ (α) = 0
ν+1/2
o conjunto de α’s que satisfazem isso é ZA−B/2, B .
Isso mostra que podemos aplicar diretamente
q as conclusões do Teorema 9.6, tomando o cuidado de
2α √ p
substituir: 1. ν por ν + 1/2, 2. Jν (α) por j (α), 3. (na integral) Jν (αx) por α πx jν (αx) e 3. e
π ν
√ √ ′
Jν′ (α) por π j2ν√(α)
α
+ αjν (α) . Após algumas contas elementares, obtem-se o seguinte:
Teorema 9.8 Seja ν ≥ 0, sejam fixados certos números reais A, B com (A, B) 6= (0, 0) satisfazendo
ν + 1/2 + A/B ≥ 0, caso B 6= 0 (vide Teoremas 9.2-9.5) e seja definido
ν+1/2
WνA, B := {α > 0| Ajν (α) + Bαjν′ (α) = 0} = ZA−B/2, B .
Pelo Teorema 9.5, esse conjunto é não-vazio e enumerável. Para todos α, β ∈ WνA, B , tem-se
" 2 #
Z 1 1 2
δα, β 1 j ν (α) √ (ν + )
jν (αx)jν (βx) x2 dx = √ + αjν′ (α) + 1 − 2
2
(jν (α))2
0 2 α 2 α α

δα, β ν(ν + 1) 2 jν (α)jν′ (α) ′ 2
= 1− (jν (α)) + + (jν (α))
2 α2 α

(9.180) δα, β 2 (2ν + 1) 2
= (jν (α)) − jν (α)jν+1 (α) + (jν+1 (α)) . (9.186)
2 α
Essa expressão é denominada relação de ortogonalidade das funções de Bessel esféricas. Note que há
uma relação de ortogonalidade para cada tripla (ν, A, B) com ν ≥ 0 e (A, B) 6= (0, 0), pois cada
tripla (ν, A, B) fixa o conjunto ZνA, B .
No caso A = 1, B = 0 o conjunto Wν1, 0 coincide com o dos zeros da função de Bessel esférica jν (x).
No caso A = 0, B = 1 o conjunto Wν0, 1 coincide com o dos zeros da função jν′ (x).
Em particular, se ν ≥ 0 e αkν é o k-ésimo zero da função jν (x) no intervalo (0, ∞), então
Z 1 (j ′ (αν ))2 (jν+1 (αkν ))2
jν αkν x jν αlν x x2 dx = δk, l ν k = δk, l . (9.187)
0 2 2
Analogamente, se ν ≥ 0 e βkν é o k-ésimo zero da função jν′ (x) no intervalo (0, ∞), então
Z
1 ν(ν + 1) (jν (βkν ))2

jν βkν x jν βlν x
x dx = δk, l 1 − 2
. (9.188)
0 (βkν )2 2
p
Dessa relação percebemos incidentalmente que βkν > ν(ν + 1) para todo k, pois o lado esquerdo é
certamente positivo quando k = l. 2
sen(x)
É instrutivo considerar a relação (9.187) no caso ν = 0, quando j0 (x) = x
e, portanto, αk0 = kπ,
com k > 0 inteiro. Como j0′ (x) = cos(x)
x
− sen(x)
x2
, (9.187) está dizendo que
Z 1 2
sen(kπx) sen(lπx) δk, l cos(kπ) 1
2
dx = = δk, l ,
0 klπ 2 kπ 2(kπ)2
ou seja, Z 1
1
sen(kπx) sen(lπx) dx = δk, l .
0 2
Essa é uma relação bem conhecida que, evidentemente, pode também ser provada por meios mais
elementares.
9.3 Completeza de Algumas Famı́lias de Funções

Nesta seção o leitor será apresentado a algumas idéias de demonstração da propriedade de completeza
de algumas famı́lias de funções de maior interesse. Devido à natureza do problema, serão utilizados
resultados da teoria de integração demonstrados e discutidos em outros capı́tulos destas notas. De
particular relevância são as noções de espaço de Hilbert e de base ortogonal completa em espaços de
Hilbert, discutidas no Capı́tulo 25, página 1223. O leitor pouco familiarizado com essas noções pode
dispensar a leitura desta seção.
Comecemos com um breve comentário. Se R b r é uma função positiva e de quadrado integrável em
2
um intervalo fechado [a, b], ou seja, satisfaz a r(x) dx < ∞, então r é também integrável, pois, pela
Rb Rb R 1/2 R 1/2
b 2 b
desigualdade de Cauchy-Schwarz a r(x)dx = a r(x) · 1 dx ≤ a r(x) dx a
1dx < ∞.
9.3.1 Completeza de Polinômios Ortogonais em Intervalos Compactos

Para o tratamento de polinômios ortogonais em intervalos compactos o teorema a seguir, o qual é uma
conseqüência do Teorema de Weierstrass (Teorema 27.1, página 1395), é de importância fundamental:
Proposição 9.2 Seja [a, b] ⊂ R um intervalo fechado, com b > a, e seja r uma função positiva e
Rb
de quadrado integrável no intervalo [a, b], ou seja, tal que a r(x)2 dx seja finita. Seja f uma função
contı́nua definida em [a, b]. Então,
Z b
f (x) xn r(x) dx = 0 (9.189)
a
é válida para todo n ∈ N, n ≥ 0, se e somente se f ≡ 0 em [a, b]. 2
Rb
Prova. Precisamos provar que se a f (x)xn r(x) dx = 0 para todo n e f é contı́nua, então f é identica-
mente nula. Como |f | é contı́nua em um intervalo compacto, |f | assume um máximo M nesse intervalo,
com M = maxx∈[a, b] |f (x)| (Teorema 24.11, página 1217). Pelo Teorema de Weierstrass, Teorema 27.1,
página 1395, existe para todo ǫ > 0 um polinômio p tal que |f (x) − p(x)| ≤ ǫ para todo x ∈ [a, b].
Com esse polinômio p, podemos escrever
Z b Z b Z b
2

|f (x)| r(x) dx = f (x)p(x) r(x) dx + f (x) f (x) − p(x) r(x) dx .
a a a
Z b
Agora, pela hipótese (9.189), f (x)p(x) r(x) dx = 0, pois p, como todo polinômio, pode ser escrito
a
como uma combinação linear finita dos monômios xn . Fora isso,
Z b Z b

f (x) f (x) − p(x) r(x) dx ≤ |f (x)| |f (x) − p(x)| r(x) dx ≤ MǫR ,

a a
Rb
onde R := a
r(x)dx. Concluı́mos que
Z b
|f (x)|2 r(x) dx ≤ MǫR
a
Rb
e como ǫ é arbitrário, isso implica a |f (x)|2 r(x) dx = 0. Como f é contı́nua isso implica que f é
identicamente nula, como querı́amos provar.
A Proposição 9.2 afirma que a única função contı́nua que é ortogonal a todos os polinômios
Rb é a função
nula. Ortogonalidade aqui é entendida em relação ao produto escalar hf, gir := a f (x)g(x) r(x)dx
definido no espaço de Hilbert das funções de quadrado integrável em relação à medida r(x)dx, ou seja,
que satisfazem Z b
|f (x)|2 r(x)dx < ∞ .
a
Denotaremos esse espaço de Hilbert por L2 ([a, b], r(x)dx), como de praxe. É claro que as funções
contı́nuas definidas no intervalo [a, b] são todas de quadrado integrável e, portanto, são elementos do
espaço de Hilbert L2 ([a, b], r(x)dx). Mas nem todas as funções de quadrado integrável são contı́nuas.
A afirmação da Proposição 9.2 pode, porém, ser estendida ao espaço L2 ([a, b], r(x)dx). Esse é o
conteúdo da proposição que segue.
Proposição 9.3 Seja [a, b] ⊂ R um intervalo fechado, com b > a, e seja r uma função positiva
Rb
e de quadrado integrável no intervalo [a, b], ou seja, tal que a r(x)2 dx seja finita. Seja hk, lir :=
Rb
a
k(x)l(x)r(x)dx o produto escalar definido por r e L2 ([a, b], r(x)dx) o correspondente espaço de
Hilbert de funções de quadrado integrável. Então, para g ∈ L2 ([a, b], r(x)dx) a relação
Z b
g(x) xn r(x) dx = 0 (9.190)
a
é válida para todo n ∈ N, n ≥ 0, se e somente se g = 0 quase em toda parte em [a, b]. 2
Z x
Prova. Defina-se G(x) := g(y)r(y)dy. G é contı́nua e diferenciável com G′ (x) = g(x)r(x) quase em
a Rb
toda parte. É claro que G(a) = 0 e que G(b) = a g(y)r(y)dy = 0 por (9.190) (para o caso particular
n = 0). Assim, integração por partes diz-nos que
Z b Z b Z b
(9.190) n ′ n n n
0 = g(x) x r(x) dx = G (x) x dx = G(b)b − G(a)a −n G(x) xn−1 dx .
a a | {z } a
=0
Rb
Portanto, concluı́mos que a G(x) xn−1 dx = 0 para todo n ≥ 1. Como G é contı́nua, podemos aplicar
a Proposição 9.2, agora para o caso r ≡ 1, para concluir que G é identicamente nula. Como G′ (x) =
g(x)r(x) quase em toda parte, isso implica que g é nula quase em toda parte.
Seja agora uma famı́lia de polinômios pn (x) em [a, b] para todo n ∈ N, n ≥ 0, sendo que cada
polinômio pn tem grau n e sendo que os polinômios pn (x) sejam ortonormais em relação ao produto
escalar definido por r, ou seja, satisfazem hpm , pn ir = δm, n para todos m, n (uma tal famı́lia sempre
pode ser obtida a partir de p0 (x) := R−1/2 pelo procedimento de ortogonalização de Gram-Schimidt).
Como cada polinômios pm (x) tem grau m, cada monômio xn pode ser escrito como uma combinação
linear finita de polinômios pm (x) com m ≤ n. É daı́ evidente que a Proposição 9.3 equivale à
Proposição 9.4 Seja [a, b] ⊂ R um intervalo fechado, com b > a, e seja r uma função positiva
Rb
e de quadrado integrável no intervalo [a, b], ou seja, tal que a r(x)2 dx seja finita. Seja hk, lir :=
Rb
a
k(x)l(x)r(x)dx o produto escalar definido por r e L2 ([a, b], r(x)dx) o correspondente espaço de
Hilbert de funções de quadrado integrável. Seja pn (x),com n ∈ N, n ≥ 0, uma famı́lia de polinômios
ortonormais em relação ao produto escalar h·, ·ir , ou seja, os polinômios pn satisfazem hpm , pn ir = δm, n
para todos m, n. Então, para g ∈ L2 ([a, b], r(x)dx) a relação
Z b
g(x) pn (x) r(x) dx = 0 (9.191)
a
é válida para todo n ∈ N, n ≥ 0, se e somente se g = 0 quase em toda parte em [a, b]. 2

De acordo com as definições do Capı́tulo 25, página 1223, a Proposição 9.4 está dizendo-nos que
L2 ([a, b], r(x)dx) é um espaço de Hilbert separável e que a famı́lia de polinômios ortonormais pn forma
uma base ortonormal completa em L2 ([a, b], r(x)dx) (vide página 1237). Pelos Teoremas 25.5 e 25.6,
páginas 1239 e 1241, respectivamente, vale para todo g ∈ L2 ([a, b], r(x)dx)
∞
X ∞
X
g(x) = hpn , gir pn (x) e kgk2r = |hpn , gir |2 , (9.192)
n=0 n=0
p
sendo kgkr := hg, gir a norma de g em L2 ([a, b], r(x)dx). A convergência da primeira série em
(9.192) se dá em relação à norma k · kr de L2 ([a, b], r(x)dx), ou seja, tem-se

XN

lim g − hpn , gir pn = 0 .
N →∞
n=0 r
• Completeza dos polinômios de Legendre
Aplicando os fatos acima aos polinômios de Legendre

q Pn , estudados na Seção 9.2.1, página 521,
concluı́mos que os polinômios normalizados Qn (x) := 2n+1 2
Pn (x), n ≥ 0, formam uma base ortonor-
mal completa em L2 ([−1, 1], dx) (para as relações de ortogonalidade dos polinômios de Legendre, vide
(9.40)). Assim, em particular, concluı́mos que toda g ∈ L2 ([−1, 1], dx) pode ser expandida em uma
série de polinômios de Legendre como
∞
X ∞
X Z 1
2n + 1
g(x) = hQn , gir Qn (x) = Pn (y) g(y) dy Pn (x) ,
n=0 n=0
2 −1
série essa que converge na norma de L2 ([−1, 1], dx). Para uma aplicação não-trivial dessa expressão,
faça o Exercı́cio E. 9.29, página 577.
9.3.2 Completeza de Polinômios de Hermite

O tratamento que fizemos acima da propriedade de completeza de polinômios ortogonais em intervalos
fechados faz uso crucial do Teorema de Weierstrass, Teorema 27.1, página 1395. Infelizmente esse
teorema é válido apenas em intervalos compactos, e para o tratamento de relações de ortogonalidade
de polinômios ortogonais definidos em regiões não-compactas, como os polinômios de Hermite, outras
idéias têm que ser seguidas. Nesse sentido, o seguinte resultado é essencial:
2
Proposição 9.5 Seja f ∈ L2 (R, e−x dx). Então as integrais
Z ∞
2
xn f (x)e−x dx
−∞
são nulas para todo n inteiro, n ≥ 0, se e somente se f for nula. 2

Prova. Para todo z ∈ RC e todo n inteiro, n ≥ 0, tem-se que a função h(x) := xn eizx pertence
2 ∞ 2
a L2 (R, e−x dx), pois −∞ x2n e2izx−x dx < ∞, como é fácil de se mostrar. Dessa forma, se f ∈
2 2
L2 (R, e−x dx) então o produto h(x)f (x) pertence a L1 (R, e−x dx), ou seja, é integrável em R em
2
relação à medida dµ(x) := e−x dx para todo z ∈ C eRtodo n inteiro,R n ≥ 0. Isso Rpode ser visto pela
desigualdade de Cauchy-Schwartz, que garante que R |hf | dµ ≤ ( R |h|2 dµ)1/2 ( R |f |2 dµ)1/2 < ∞.
Assim, para todo n inteiro, n ≥ 0, a função de variável complexa
Z ∞
2
Fn (z) := xn eizx f (x)e−x dx
−∞
está definida para todo z ∈ C.

R∞ 2
De particular interesse é a função F0 (z) = −∞ eizx f (x)e−x dx, que é a transformada de Fourier
2 2 2
de f (x)e−x .R Observe que essa função
R é de quadrado integrável pois f (x)2 e−2x ≤ f (x)2 e−x o que
∞ 2 ∞ 2 2
implica que −∞ f (x)2 e−2x dx ≤ −∞ f (x)2 e−x dx < ∞ pois f ∈ L2 (R, e−x dx). Isso significa que a
2
transformada de Fourier de f (x)e−x tem uma inversa única48 , fato que usaremos logo adiante.
2
Como o integrando de F0 , ou seja, eizx f (x)e−x , é uma função inteira de z e a integral que define
F0 converge absolutamente e uniformemente em qualquer região compacta (mostre isso usando o fato
2 2
que |eizx−x | = e−Im (z)x−x ), segue que F0 (z) é uma função inteira de z (analogamente mostra-se que
todas as funções Fn (z) são inteiras, mas isso não será usado). É agora fácil ver que para todo n
dn F0
(z) = in Fn (z) .
dz n
Isso pode ser justificado diferenciando F0 (z) sob o signo de integração, ou usando a fórmula integral de
Cauchy, ambas justificadas pela convergência uniforme da integral que define F0 .
Agora, como F0 é inteira, F0 possui uma série de Taylor centrada em 0 que converge para todo
z ∈ C, a qual é dada por
X∞ X∞ n
1 dn F0 n i
F0 (z) = n
(0) z = Fn (0) z n .
n=0
n! dz n=0
n!
R∞ 2
Dessa relação concluı́mos que se Fn (0) = −∞ xn f (x)e−x dx = 0 para todo n, então F0 é identicamente
nula. Pela unicidade da transformada de Fourier em L2 (R, dx) isso significa que f é nula.
• Completeza dos polinômios de Hermite
As propriedades elementares dos chamados polinômios de Hermite foram estudadas na Seção 9.2.3,
página 537, sendo as relações de ortogonalidade apresentadas em (9.85), página 538. Os polinômios
2
de Hermite são ortogonais no espaço de Hilbert L2 (R, e−x dx) e mostraremos aqui que, devidamente
normalizados, os mesmos formam uma base ortonormal completa nesse espaço de Hilbert.
Como cada polinômio de Hermite Hn é de grau n, concluı́mos que podemos escrever cada monômio
m
x como combinação linear finita de polinômios Hn com n ≤ m. Segue diretamente disso que a
Proposição 9.5 é equivalente à
48
A transformada de Fourier é invertı́vel em L2 (R, dx).
2
Proposição 9.6 Seja f ∈ L2 (R, e−x dx). Então as integrais
Z ∞
2
Hn (x)f (x)e−x dx
−∞
são nulas para todo n inteiro, n ≥ 0, se e somente se f for nula. 2
2
Essa proposição afirma que L2 (R, e−x dx) é um espaço de Hilbert separável e que as funções
normalizadas √ n1 √ Hn (x) (vide (9.85)) para n inteiro, n ≥ 0, formam uma base ortonormal completa
2 n! π
2 −x2
em L (R, e dx).
2
Como no caso dos polinômios de Legendre, concluı́mos que se f ∈ L2 (R, e−x dx), então podemos
escrever ∞
X 1
f (x) = n
√ hHn , f i Hn (x) . (9.193)
n=0
2 n! π
onde Z ∞
2
hHn , f i = Hn (y)f (y)e−y dy
−∞
2
é o produto escalar de Hn e f em em L (R, e−x dx). A convergência da série em (9.193) se dá no
2
2
sentido da norma de L2 (R, e−x dx).
9.3.3 Completeza dos Polinômios Trigonométricos

De acordo com o Teorema 27.4, página 1408, toda função definida em R que seja contı́nua e periódica
de perı́odo 2π pode ser uniformemente aproximada por polinômios trigonométricos de perı́odo 2π. De
maneira semelhante ao que fizemos no caso de aproximações de funções contı́nuas por polinômios,
podemos concluir desse fato que certas famı́lias de polinômios trigonométricas formam uma base or-
tonormal completa em espaços de Hilbert como L2 ([−π, π], r(x)dx), r sendo uma função positiva e
integrável em [−π, π]. A série de resultados que veremos adiante segue muito de perto os resultados
correspondentes da Seção 9.3.1.
Proposição
Rπ 9.7 Seja r uma função positiva e de quadrado integrável no intervalo [−π, π], ou seja, tal
que −π r(x)2 dx seja finita. Seja f uma função contı́nua e periódica de perı́odo 2π definida em [−π, π].
Então, Z π
f (x) einx r(x) dx = 0 (9.194)
−π
é válida para todo n ∈ Z se e somente se f ≡ 0 em [−π, π]. 2
Prova. Como |f | é contı́nua em um intervalo compacto, |f | assume um máximo M nesse intervalo,

com M = maxx∈[−π, π] |f (x)|. Pelo Teorema 27.4, página 1408, existe para todo ǫ > 0 um polinômio
trigonométrico p de perı́odo 2π tal que |f (x) − p(x)| ≤ ǫ para todo x ∈ [−π, π]. Com esse polinômio
trigonométrico p, podemos escrever
Z π Z π Z π
2

|f (x)| r(x) dx = f (x)p(x) r(x) dx + f (x) f (x) − p(x) r(x) dx .
−π −π −π
Z π
Agora, pela hipótese (9.194), f (x)p(x) r(x) dx = 0, pois p, como todo polinômio trigonométrico,
−π
pode ser escrito como uma combinação linear finita dos monômios einx . Fora isso,
Z π Z π

f (x) f (x) − p(x) r(x) dx ≤ |f (x)| |f (x) − p(x)| r(x) dx ≤ MǫR ,

−π −π
Rπ
onde R := −π
r(x)dx. Concluı́mos que
Z π
|f (x)|2 r(x) dx ≤ MǫR
−π
Rπ
e como ǫ é arbitrário, isso implica −π |f (x)|2 r(x) dx = 0. Como f é contı́nua isso implica que f é
identicamente nula, como querı́amos provar.
A Proposição 9.7 afirma que a única função contı́nua e periódica de perı́odo 2π que é ortogonal a
todos os polinômios trigonométricos
Rπ é a função nula. Ortogonalidade aqui é entendida em relação ao
produto escalar hf, gir := −π f (x)g(x) r(x)dx definido no espaço de Hilbert L2 ([−π, π], r(x)dx) das
funções de quadrado integrável em relação à medida r(x)dx, ou seja, que satisfazem
Z π
|f (x)|2 r(x)dx < ∞ .
−π
Denotaremos esse espaço de Hilbert por Hr . É claro que as funções contı́nuas e periódicas de perı́odo
2π definidas no intervalo [−π, π] são todas de quadrado integrável e, portanto, são elementos de Hr .
Nem todas as funções de quadrado integrável, porém, são contı́nuas. A afirmação da Proposição 9.7
pode, porém, ser estendida ao espaço Hr . Esse é o conteúdo da proposição que segue.
Proposição
R π 9.82 Seja r uma função positiva e deR πquadrado integrável no intervalo [−π, π], ou seja,
tal que −π r(x) dx seja finita. Seja hk, lir := −π k(x)l(x)r(x)dx o produto escalar definido por r
e Hr ≡ L2 ([−π, π], r(x)dx) o correspondente espaço de Hilbert de funções de quadrado integrável.
Então, para g ∈ Hr , a relação Z π
g(x) einx r(x) dx = 0 (9.195)
−π
é válida para todo n ∈ Z se e somente se g = 0 quase em toda parte em [−π, π]. 2
Z x
Prova. Defina-se G(x) := g(y)r(y)dy. G é contı́nua e diferenciável com G′ (x) = g(x)r(x) quase
−π Rπ
em toda parte. É claro que G(−π) = 0 e que G(π) = −π g(y)r(y)dy = 0 por (9.195) (para o caso
particular n = 0). Assim, integração por partes diz-nos que
Z π Z π Z π
(9.195) inx ′ inx n
0 = g(x) e r(x) dx = G (x) e dx = (−1) (G(π) − G(−π)) −in G(x) einx dx .
−π −π | {z } −π
=0
Rπ
Assim, concluı́mos que −π
G(x) einx dx = 0 para todo n 6= 0.
1
Rπ
Denotando G0 := 2π −π
G(x) dx, e definindo H(x) := G(x) − G0 , concluı́mos que
Z π
H(x) einx dx = 0 ,
−π
Rπ Rπ
agora para todo n ∈ Z (lembrar que para n 6= 0, G einx dx = G0
−π 0 −π
einx dx = 0).
Como H é contı́nua e periódica de perı́odo 2π (lembrar que G(−π) = G(π) = 0), podemos aplicar
a Proposição 9.7, agora para o caso r ≡ 1, para concluir que H é identicamente nula. Como H ′ (x) =
G′ (x) = g(x)r(x) quase em toda parte, isso implica que g é nula quase em toda parte.
Uma famı́lia de polinômios trigonométricos perı́odo 2π, pn (x), n ∈ Z, é dita ser normal se todo
monômio eimx puder ser escrito como uma combinação linear finita de polinômios pn . Suponhamos que
os polinômios trigonométricos de um conjunto de polinômios normais pn (x) seja também ortonormais
em relação ao produto escalar definido por r, ou seja, satisfazem hpm , pn ir = δm, n para todos m, n (uma
tal famı́lia sempre pode ser obtida a partir de p0 (x) := R−1/2 pelo procedimento de ortogonalização
de Gram-Schimidt). Como cada monômio einx pode ser escrito como uma combinação linear finita de
polinômios pm (x), é evidente que a Proposição 9.8 equivale à
Proposição 9.9 Seja r uma função positiva e de quadrado integrável no intervalo [−π, π], ou seja,
Rb Rπ
tal que a r(x)2 dx seja finita. Seja hk, lir := −π k(x)l(x)r(x)dx o produto escalar definido por r e
Hr ≡ L2 ([−π, π], r(x)dx) o correspondente espaço de Hilbert de funções de quadrado integrável. Seja
pn (x), com n ∈ Z, uma famı́lia normal de polinômios ortonormais em relação ao produto escalar h·, ·ir ,
ou seja, todo monômio eimx pode ser escrito como uma combinação linear finita de polinômios pn os
polinômios pn satisfazem hpm , pn ir = δm, n para todos m, n ∈ Z. Então, para g ∈ Hr , a relação
Z π
g(x) pn (x) r(x) dx = 0 (9.196)
−π
é válida para todo n ∈ Z se e somente se g = 0 quase em toda parte em [−π, π]. 2
De acordo com as definições do Capı́tulo 25, página 1223, a Proposição 9.9 está dizendo-nos que
Hr ≡ L2 ([−π, π], r(x)dx) é um espaço de Hilbert separável e que a famı́lia normal de polinômios
trigonométricos ortonormais pn forma uma base ortonormal completa em Hr (vide página 1237). Pelos
Teoremas 25.5 e 25.6, páginas 1239 e 1241, respectivamente, vale para todo g ∈ Hr
X∞ X∞
g(x) = hpn , gir pn (x) e 2
kgkr = |hpn , gir |2 , (9.197)
n=−∞ n=−∞
p
sendo kgkr := hg, gir a norma de g em Hr . A convergência da primeira série em (9.197) se dá em
relação à norma k · kr de Hr , ou seja, tem-se

X N

lim g − hpn , gir pn = 0 .
N →∞
n=−N r
einx
Naturalmente o caso mais importante se dá com r ≡ 1, onde a famı́lia en (x) = √ , n ∈ Z, compõe,
2π
de acordo com nossos resultados de acima, uma base ortonormal completa em L2 ([−π, π], dx). Tal
resultado é de fundamental importância para a teoria das séries de Fourier.

E. 9.28 Exercı́cio-dirigido. A idéia deste exercı́cio é provar as relações de ortogonalidade dos polinômios
de Legendre usando diretamente a fórmula de Rodrigues, expressão (9.43), página 523.
a) Usando a fórmula de Rodrigues para os polinômios de Legendre, mostre que
Z 1
xm Pn (x)dx = 0 (9.198)
−1
para todo 0 ≤ m < n, m inteiro. Sugestão: integração por partes.

b) Mostre que
Z 1
22n+1 (n!)2
(x2 − 1)n dx = (−1)n
−1 (2n + 1)!
para todo n ∈ N.
c) Mostre que
Z 1
2n+1 (n!)2
xn Pn (x)dx = . (9.199)
−1 (2n + 1)!
Sugestão: use a fórmula de Rodrigues, integração por partes e a expressão do item b.
d) Usando (9.198) e (9.199) mostre a validade das relações de ortogonalidade
Z 1
2
Pn (x)Pm (x)dx = δn, m .
−1 2n + 1
Sugestão: use a expressão (9.35) para os polinômios de Legendre. 6
E. 9.29 Exercı́cio. Prove que no intervalo (−1, 1) vale

∞
P0 (x) 5P2 (x) X (−1)m+1 (4m + 1) (2m − 3)!
|x| = + + P2m (x) . (9.200)
2 8 m=2
22m−1 (m + 1)! (m − 2)!
Z 1
Sugestão: para calcular integrais como xP2m (x)dx pode-se usar (9.44) e/ou (9.47), integração por
0
(−1)m (2m − 1)!!
partes e os fatos que Pn (1) = 1, ∀n ∈ N, e P2m (0) = , ∀m ∈ N, m ≥ 1, o qual segue
2m m!
de (9.35). 6
E. 9.30 Exercı́cio-dirigido. O propósito deste exercı́cio dirigido é demonstrar a importante fórmula da

cotangente de Euler, também conhecida como expansão em frações parciais da função cotangente:
∞
1 X 2z
π cot(πz) = − , (9.201)
z n=1 n2 − z 2
válida para z ∈ C \ Z. Estabeleceremos primeiro a relação

∞
1 X 2x
π cot(πx) = − , (9.202)
x n=1 n2 − x2
para x ∈ R \ Z. A expressão (9.202) foi obtida pela primeira vez por Euler em 1749. Seguiremos uma
demonstração elementar e elegante devida a Herglotz49 tal como apresentada em [2], texto esse que, por
sua vez, segue Elstrodt50 . Essa demonstração é elegante por fazer uso de poucos ingredientes. Basicamente
usa-se apenas o fato de que ambos os lados de (9.202) são funções contı́nuas (em R \ Z), são periódicas
de perı́odo 1, têm as mesmas divergências nos inteiros e, last but not least, satisfazem uma mesma relação
algébrica, a relação (9.203), abaixo. Passemos à prova.
Defina-se, para x ∈ R \ Z,
f (x) := π cot(πx) e g(x) := lim gN (x) ,

N →∞
onde
N
X N
1 1 X 2x
gN (x) := = − .
n=−N
x+n x n=1 n2 − x2
Desejamos provar que f (x) = g(x) para todo x ∈ R \ Z. Isso é feito nos passos indicados no que segue.
1. Prove que gN (x) converge uniformemente para N → ∞ e em qualquer intervalo fechado contido em
R \ Z. Sugestões: para n ≥ 2 e 2n − 1 > x2 tem-se n2 − x2 > (n − 1)2 > 0 e
1 1
0 < < .
n2 −x2 (n − 1)2
Use
P∞ o teste M de Weierstraß51 e use o teste da comparação por uma integral para mostrar que
1
n=1 n2 é finita.
Isso estabeleceu que g existe em R \ Z.
2. Convença-se que f e g são contı́nuas em R \ Z. Para g isso segue da convergência uniforme provada
em 1.
3. Mostre que f e g são periódicas de perı́odo 1. Para f isso é evidente. Para g isso segue de
1 1
gN (x + 1) = gN (x) + + ,
x+N x+1+N
para x ∈ R \ Z. Prove isso e tome N → ∞ para obter g(x + 1) = g(x) para todo x ∈ R \ Z.
4. Mostre que f e g são funções ı́mpares: f (−x) = −f (x) e g(−x) = −g(x) para todo x ∈ R \ Z.
Novamente isso é evidente para f e para g isso segue do fato que gN (−x) = −gN (x) para todo N.
49
Gustav Herglotz (1881-1953).
50
J. Elstrodt, “Partialbruchzerlegung des Kotangens, Herglotz-Trick und die Weierstraßsche stetige, nirgendsdifferen-
zierbare Funktion”. Math. Semesterberichte 45 (1998), 207–220.
51
Karl Theodor Wilhelm Weierstraß (1815-1897).
5. Até aqui só lidamos com propriedades elementares de f e g mas agora vem uma passagem crucial.
Mostre que f e g satisfazem
x x
x+1 x+1
f +f = 2f (x) e g +g = 2g(x) , (9.203)
2 2 2 2
para todo x ∈ R \ Z. Note que se trata da mesma relação algébrica para f e g. Para f isso segue
das bem-conhecidas fórmulas de adição das funções seno e co-seno. Mostre isso. Para g isso segue
da identidade x
x+1 2
gN + gN = 2g2N (x) + .
2 2 x + 2N + 1
Prove-a usando a relação trivial
1 1 2 2
x + x+1 = +
2
+n 2
+n x + 2n x + 1 + 2n
e tome o limite N → ∞.
6. Defina a função h(x) = f (x) − g(x) (que desejamos provar ser nula). Note em primeiro lugar que h
é uma função ı́mpar, contı́nua e periódica de perı́odo 1 em R \ Z, pois f e g o são.
7. Mostre, usando, por exemplo, a regra de l’Hospital52 , que

1 πx cos(πx) − sen(πx)
lim π cot(πx) − = lim = 0.
x→0 x x→0 x sen(πx)
8. Mostre que fato provado em 7 implica lim h(x) = 0. Como h é periódica de perı́odo 1, isso significa
x→0
que lim h(x) = 0 para todo n ∈ Z. Definindo h(n) = 0 para todo n ∈ Z, essa propriedade, por sua
x→n
vez, implica que a função h torna-se contı́nua e periódica de perı́odo 1 em todo R, não apenas em
R \ Z.
9. Como h é contı́nua e periódica em todo R, h possui um máximo, que denotaremos por H. Seja x0
um ponto de R tal que h(x0 ) = H (que um tal ponto existe segue da continuidade e periodicidade
de h). Agora, tem-se por (9.203) que
x x x
0 x0 + 1 0 x0 + 1 0 x0 + 1
h +h = f +f −g −g
2 2 2 2 2 2
(9.203)
= 2f (x0 ) − 2g(x0 ) = 2h(x0 ) = 2H .

Isso está dizendo que a soma de h x20 e h x02+1 é duas vezes o máximo valor alcançado por h em
toda R. Ora, isso só é possı́vel se ambos os termos forem iguais a H, pois se um fosse menor que H
o outroteria que ser maior que H, o que não é possı́vel. Assim concluı́mos que h x20 = H (e que
h x02+1 = H, mas não usaremos esse segundo fato).
52
Guillaume François Antoine, Marquês de l’Hôpital (ou l’Hospital) (1661–1704).

Vimos então que h(x0 ) = H implica h x20 = H. Prosseguindo indutivamente, segue que h 2xm0 = H
para todo inteiro m com m ≥ 0. Como h é contı́nua, podemos tomar o limite m → ∞ e obter
x x0
0 continuidade
H = lim h m = h lim m = h(0) = 0 ,
m→∞ 2 m→∞ 2
concluindo que H = 0.
10. Vimos que o máximo de h em R é nulo. Isso significa que h(x) ≤ 0 para todo x ∈ R. Porém, como
h é uma função ı́mpar (observado em 6), isso implica que h(x) = 0 para todo x ∈ R. Isso provou
que f (x) = g(x) para todo x ∈ R \ Z, ou seja, provou (9.202) em R \ Z, como querı́amos.
Que a relação (9.201) vale para todo z ∈ C \ Z segue agora do fato que ambos os lados de (9.202) têm
extensões analı́ticas em todo C \ Z (prove isso!) e são iguais em R \ Z, por (9.202) (justifique!).
Para uma outra demonstração de (9.201) usando o Teorema de Mittag-Leffler, vide [82] ou outro bom
livro de funções de variável complexa. A relação (9.202) pode também ser provada usando séries de Fourier.
Para tal, vide e.g. [36]. 6
Apêndices
9.A Provando (9.57) à Força Bruta
A idéia é tomar (9.55), escrever (z 2 − 1)l = (z − 1)l (z + 1)l e aplicar a regra de Leibniz. Tudo está
resumido nas seguintes linhas auto-explicativas, acompanhadas de uns poucos comentários ao final:
(1 − z 2 )m/2 dl+m 2
Plm (z) := (z − 1) l
2l l! dz l+m
(1 − z 2 )m/2 dl+m l l

= (z − 1) (z + 1)
2l l! dz l+m
l+m
Leibniz (1 − z 2 )m/2 X l + m dp l+m−p
l d l

= (z − 1) (z + 1)
2l l! p=0
p dz p dz l+m−p
l
(∗) (1 − z 2 )m/2 X l + m dp l
dl+m−p
l

= (z − 1) (z + 1)
2l l! p=m
p dz p dz l+m−p
l
(1 − z 2 )m/2 X l + m l! l−p l! p−m
= (z − 1) (z + 1)
2l l! p=m
p (l − p)! (p − m)!
l
(1 − z 2 )m/2 X l + m (l!)2
= (z − 1)l−p (z + 1)p−m
2l l! p=m
p (l − p)! (p − m)!
l
(∗∗) m (z− 1)m (1 − z 2 )m/2 X l + m
2
(l!)2
= (−1) (z − 1)l−p (z + 1)p−m
(1 − z 2 )m 2l l! p=m
p (l − p)! (p − m)!
l
(−1)m (1 − z 2 )−m/2 X l + m (l!)2
= (z − 1)l−p+m(z + 1)p
2l l! p=m
p (l − p)! (p − m)!
l−m
p→p+m (−1)m (1 − z 2 )−m/2 X l + m (l!)2
= (z − 1)l−p (z + 1)p+m
2l l! p=0
p + m (l − p − m)! p!
l−m
(−1)m (1 − z 2 )−m/2 X (l + m)! (l!)2
= (z − 1)l−p (z + 1)p+m
2l l! p=0
(l − p)! (p + m)! (l − p − m)! p!
l−m
m (l+ m)! (1 − z 2 )−m/2 X (l − m)! (l!)2
= (−1) (z − 1)l−p (z + 1)p+m
(l − m)! 2l l! p=0
(l − p)! (p + m)! (l − p − m)! p!
l−m
+ m)! (1 − z 2 )−m/2 X l − m
m (l l! l−p l! p+m
= (−1) (z − 1) (z + 1)
(l − m)! 2l l! p=0
p (l − p)! (p + m)!
l−m p l−m−p
+ m)! (1 − z 2 )−m/2 X l − m
m (l d l d l
= (−1) (z − 1) (z + 1)
(l − m)! 2l l! p=0
p dz p dz l−m−p
Leibniz + m)! (1 − z 2 )−m/2 dl−m

m (l l l

= (−1) (z − 1) (z + 1)
(l − m)! 2l l! dz l−m
(l + m)! (1 − z 2 )−m/2 dl−m 2 m (l + m)!

= (−1)m (z − 1) l
= (−1) P −m(z) ,
(l − m)! 2l l! dz l−m (l − m)! l

d p d l+m−p
l l
No ponto indicado por (∗) acima, usamos o fato que dz p (z − 1) = 0 se p > l e dz l+m−p (z − 1) = 0
se l + m − p > l. Ambas as condições juntas implicam m ≤ p ≤ l, daı́ a mudança nos limites da soma.
(z 2 −1)m
No ponto indicado por (∗∗) multiplicamos toda a expressão por 1 = (−1)m (1−z 2 )m . Na linha seguinte
2 m m m
o fator (z − 1) é escrito como (z − 1) (z + 1) e distribuı́do dentro da soma. Fora isso, usamos
também que (1−z12 )m (1 − z 2 )m/2 = (1 − z 2 )−m/2 .
Capı́tulo 10
Alguns Problemas Selecionados de Interesse Fı́sico
Conteúdo
10.1 As Equações de Helmholtz e de Laplace . . . . . . . . . . . . . . . . . . . . 583
10.1.1 Problemas em Duas Dimensões em Coordenadas Polares . . . . . . . . . . . . 585
10.1.2 Problemas em Três Dimensões em Coordenadas Esféricas . . . . . . . . . . . 588
10.2 O Problema da Corda Vibrante . . . . . . . . . . . . . . . . . . . . . . . . . 593
10.2.1 Corda Vibrante Homogênea . . . . . . . . . . . . . . . . . . . . . . . . . . . . 593
10.2.2 O Problema da Corda Homogênea Pendurada . . . . . . . . . . . . . . . . . . 596
10.2.3 Corda Vibrante Não-Homogênea . . . . . . . . . . . . . . . . . . . . . . . . . 599
10.2.4 O Problema da Membrana Retangular Homogênea . . . . . . . . . . . . . . . 603
10.3 O Problema da Membrana Circular Homogênea . . . . . . . . . . . . . . . 605
10.4 O Oscilador Harmônico na Mecânica Quântica e a Equação de Hermite 608
10.5 O Átomo de Hidrogênio e a Equação de Laguerre Associada . . . . . . . 610
10.6 Propagação de Ondas em Tanques Cilı́ndricos . . . . . . . . . . . . . . . . 613
N este capı́tulo ilustramos alguns problemas fı́sicos dos quais emergem algumas das equações
diferenciais ordinárias que temos estudado, tais como as equações de Euler, de Bessel, de Le-
gendre, de Legendre associada, de Bessel esférica, de Hermite, de Laguerre e de Laguerre as-
sociada. O estudante que estiver procurando a motivação e a origem fı́sica daquelas equações
poderá ler parcialmente a presente seção sem precisar dominar totalmente o material anteriormente
apresentado, pelo menos até o ponto em que apresentarmos as soluções das equações. Também evo-
caremos no que segue o chamado método de separação de variáveis e alguns teoremas de unicidade
de solução de equações diferenciais parciais. Tais assuntos são discutidos no Capı́tulo 11 ao qual o
estudante poderá passar sem perdas, se julgar necessário.
A seção 10.7, página 623, contém diversos outros problemas de interesse na forma de exercı́cios.
10.1 As Equações de Helmholtz e de Laplace

Nesta seção apresentaremos alguns problemas envolvendo as equações diferenciais parciais de Laplace e
Helmholtz dos quais emergem, pelo método de separação de variáveis, algumas das equações diferenciais
ordinárias – e suas soluções – de que tratamos em capı́tulos anteriores. O método de separação de
variáveis é discutido na Seção 11.2, página 641.
583
• A equação de onda
A equação de onda
∂2u
(~x, t) − c2 ∆u(~x, t) = 0
∂t2
com c > 0, pode ser tratada pelo procedimento de separação de variáveis, através do qual procuramos
soluções independentes que sejam da forma de um produto u(~x, t) = T (t)E(~x). Por substituição na
equação de onda, somos rapidamente levados à seguinte equação:
1 T ′′ (t) ∆E(~x)
2
= .
c T (t) E(~x)
Como o lado esquerdo é uma função somente de t e o lado direito uma função somente das coordenadas
espaciais ~x, a igualdade acima só é possı́vel se ambos os lados forem iguais a uma constante, a qual
denotaremos por −λ2 . Assim, concluı́mos que
T ′′ (t) + (cλ)2 T (t) = 0 , (10.1)
∆E(~x) + λ2 E(~x) = 0 . (10.2)
Obtemos por esse procedimento duas equações, uma envolvendo apenas a função T , outra a função
E e uma incógnita extra, a constante λ, a qual deverá ser determinada pela fixação de certas condições
adicionais sobre o problema, por exemplo, através de condições de contorno. Tais constantes que
aparecem quando do método de separação de variáveis são denominadas constantes de separação.
A solução da equação temporal é bem simples:
T (t) = β1 + β2 t , caso λ = 0 ,
(10.3)
T (t) = α1 cos(λct) + α2 sen(λct) , caso λ 6= 0 ,
onde α1 , α2 , β1 e β2 são constantes arbitrárias a serem tipicamente fixadas por condições iniciais.
• A equação de difusão
A equação de difusão
∂u
(~x, t) − K∆u(~x, t) = 0
∂t
com K > 0, pode ser tratada pelo procedimento de separação de variáveis, através do qual procuramos
soluções independentes que sejam da forma de um produto u(~x, t) = T (t)E(~x). Por substituição na
equação de onda, somos rapidamente levados à seguinte equação:
1 T ′ (t) ∆E(~x)
= .
K T (t) E(~x)
Como o lado esquerdo é uma função somente de t e o lado direito uma função somente das coordenadas
espaciais ~x, a igualdade acima só é possı́vel se ambos os lados forem iguais a uma constante, a qual
denotaremos por −λ2 . Assim, concluı́mos que
T ′ (t) + λ2 K T (t) = 0 ,
∆E(~x) + λ2 E(~x) = 0 .
Obtemos por esse procedimento duas equações, uma envolvendo apenas a função T , outra a função
E e uma incógnita extra, a constante λ, a qual deverá ser determinada pela fixação de certas condições
adicionais sobre o problema, por exemplo, através de condições de contorno.
A solução da equação temporal é bem simples:
T (t) = β1 , caso λ = 0 ,
(10.4)
2 Kt
T (t) = α1 e−λ , caso λ 6= 0 ,
onde α1 e β1 são constantes arbitrárias a serem tipicamente fixadas por condições iniciais.
• As equações de Helmholtz e de Laplace
Como se observa, tanto no caso da equação de onda quanto no caso da equação de difusão, a função
E(~x), que contém a dependência espacial da função u(~x, t), satisfaz a equação diferencial parcial
∆E(~x) + λ2 E(~x) = 0 ,
com λ constante. No caso em que λ 6= 0 essa equação diferencial parcial é denominada equação de
Helmholtz1 . No caso λ = 0 temos a chamada equação de Laplace2
∆E(~x) = 0 .
Essa última equação aparece em vários outros contextos, por exemplo na Eletrostática.
Trataremos dessas duas equações em duas e três dimensões em coordenadas polares e esféricas,
respectivamente.
10.1.1 Problemas em Duas Dimensões em Coordenadas Polares
• A Equação de Laplace em duas dimensões em coordenadas polares

1
2
O operador Laplaciano em duas dimensões em coordenadas polares assume a forma

1 ∂ ∂u 1 ∂2u
∆u = ρ + 2 2 (10.5)
ρ ∂ρ ∂ρ ρ ∂ϕ
e a equação de Laplace fica
1 ∂ ∂E 1 ∂2E
ρ + 2 = 0.
ρ ∂ρ ∂ρ ρ ∂ϕ2
E agora é tomada como uma função de ρ e ϕ.
O método de separação de variáveis propõe procurarmos soluções independentes dessa equação que
sejam da forma de um produto: E(ρ, ϕ) = Ξ(ρ)Φ(ϕ). Inserindo isso na equação de Laplace, somos
levados a
ρ (ρΞ′ (ρ))′ Φ′′ (ϕ)
= − .
Ξ(ρ) Φ(ϕ)
Como o lado esquerdo é uma função somente de ρ e o lado direito uma função somente de ϕ, a igualdade
acima só é possı́vel se ambos os lados forem iguais a uma constante de separação, a qual denotaremos
por ν 2 . Assim, concluı́mos que
ρ2 Ξ′′ (ρ) + ρΞ′ (ρ) − ν 2 Ξ(ρ) = 0 ,
Φ′′ (ϕ) + ν 2 Φ(ϕ) = 0 .
Reconhecemos que a equação para Ξ é uma equação de Euler, cuja solução geral é αν ρν + βν ρ−ν ,
caso ν 6= 0, ou α0 ln(ρ) + β0 , caso ν = 0. Aqui, α’s e β’s são constantes arbitrárias.
Concluı́mos que a equação de Laplace em duas dimensões em coordenadas polares possui soluções
independentes da forma

E(ρ, ϕ) = α0 ln(ρ) + β0 δ0 ϕ + γ0 , caso ν = 0 ,
(10.6)

E(ρ, ϕ) = αν ρν + βν ρ−ν δν cos(νϕ) + γν sen(νϕ) , caso ν 6= 0 .
Acima α’s, β’s, γ’s e δ’s são constantes arbitrárias a serem fixadas por condições adicionais a serem
impostas à solução. Por exemplo, se desejarmos que as soluções sejam funções periódicas em ϕ de
perı́odo 2π, então devemos impor que δ0 = 0 e que ν seja um inteiro.
A solução geral da equação de Laplace em duas dimensões que representa funções periódicas de
perı́odo 2π em ϕ é, portanto,
∞
X
u(ρ, ϕ) = γ0 ln(ρ) + αm ρm + βm ρ−m δm cos(mϕ) + γm sen(mϕ) ,
m=−∞
ou, em forma complexa,

∞
X
u(ρ, ϕ) = γ0 ln(ρ) + am ρm + bm ρ−m eimϕ ,
m=−∞
onde γ0 , am e bm são constantes a serem determinadas por condições adicionais a serem impostas à
solução.
• A Equação de Helmholtz em duas dimensões em coordenadas polares
Devido à forma do operador Laplaciano em duas dimensões em coordenadas polares dada em (10.5),
a equação de Helmholtz assume a forma

1 ∂ ∂E 1 ∂2E
ρ + 2 2
+ λ2 E = 0 .
ρ ∂ρ ∂ρ ρ ∂ϕ
E agora é tomada como uma função de ρ e ϕ.
sejam da forma de um produto: E(ρ, ϕ) = Ξ(ρ)Φ(ϕ). Inserindo isso na equação de Helmholtz, somos
levados a
ρ (ρΞ′ (ρ))′ Φ′′ (ϕ)
+ λ2 ρ2 = − .
Ξ(ρ) Φ(ϕ)
Como o lado esquerdo é uma função somente de ρ e o lado direito uma função somente de ϕ, a igualdade
acima só é possı́vel se ambos os lados forem iguais a uma constante de separação, a qual denotaremos
por ν 2 . Assim, concluı́mos que
ρ2 Ξ′′ (ρ) + ρΞ′ (ρ) + (λ2 ρ2 − ν 2 )Ξ(ρ) = 0 ,
Φ′′ (ϕ) + ν 2 Φ(ϕ) = 0 .
Pela mudança de variável3 z = λρ e definindo y(z) = y(λρ) = Ξ(ρ), a primeira equação acima
transforma-se em
z 2 y ′′(z) + zy ′ (z) + (z 2 − ν 2 )y(z) = 0 ,
que podemos reconhecer como sendo a equação de Bessel de ordem ν.
Vemos assim que o método de separação de variáveis para a equação de Helmholtz em duas di-
mensões em coordenadas polares conduz a soluções independentes da forma E(ρ, ϕ) = y(λρ)Φ(ϕ)
onde as funções y e Φ satisfazem as equações ordinárias
z 2 y ′′(z) + zy ′ (z) + (z 2 − ν 2 )y(z) = 0 ,
Φ′′ (ϕ) + ν 2 Φ(ϕ) = 0 .

sendo z = λρ.
Concluı́mos que a equação de Helmholtz em duas dimensões em coordenadas polares possui soluções
independentes da forma

E(ρ, ϕ) = α0 J0 (λρ) + β0 N0 (λρ) δ0 ϕ + γ0 , caso ν = 0 ,
(10.7)

E(ρ, ϕ) = αν Jν (λρ) + βν Nν (λρ) δν cos(νϕ) + γν sen(νϕ) , caso ν 6= 0 .
3
Aqui supomos λ 6= 0.
Acima, Jν são as funções de Bessel de ordem ν e Nν são as funções de Neumann de ordem ν. Fora isso,
α’s, β’s, γ’s e δ’s são constantes arbitrárias a serem fixadas por condições adicionais a serem impostas
à solução.
Por exemplo, se desejarmos que as soluções sejam funções periódicas em ϕ de perı́odo 2π, então
devemos impor que δ0 = 0 e que ν seja um inteiro.
A solução geral da equação de Helmholtz em duas dimensões que representa funções periódicas de
perı́odo 2π em ϕ é, portanto,
∞
X
u(ρ, ϕ) = αm Jm (λρ) + βm Nm (λρ) δm cos(mϕ) + γm sen(mϕ) ,
m=−∞

∞
X
u(ρ, ϕ) = am Jm (λρ) + bm Nm (λρ) eimϕ ,
m=−∞
onde am e bm são constantes a serem determinadas por condições adicionais a serem impostas à solução.
Recomendamos ao leitor o exercı́cio instrutivo de comparar as equações radiais obtidas acima no
caso de Laplace e de Helmholtz em duas dimensões, assim como suas soluções.
10.1.2 Problemas em Três Dimensões em Coordenadas Esféricas
• A Equação de Laplace em três dimensões em coordenadas esféricas
O operador Laplaciano em três dimensões em coordenadas esféricas assume a forma

1 ∂ 2 ∂u 1 ∂ ∂u 1 ∂2u
∆u = 2 r + ( senθ) + . (10.8)
r ∂r ∂r senθ ∂θ ∂θ ( senθ)2 ∂ϕ2
Assim, a equação de Laplace em três dimensões em coordenadas esféricas fica

1 ∂ 2 ∂E 1 ∂ ∂E 1 ∂2E
r + ( senθ) + = 0,
r 2 ∂r ∂r senθ ∂θ ∂θ ( senθ)2 ∂ϕ2
onde E agora é uma função de r, θ e ϕ.
sejam da forma de um produto: E(r, θ, ϕ) = R(r)Y (θ, ϕ). Inserindo isso na equação de Laplace,
somos levados a
′
(r 2 R′ (r)) 1 1 ∂ ∂Y 1 ∂2Y
= − ( senθ) (θ, ϕ) + (θ, ϕ) .
R(r) Y (θ, ϕ) senθ ∂θ ∂θ ( senθ)2 ∂ϕ2
Mais uma vez constatamos que, pelo fato de o lado esquerdo ser função apenas de r enquanto que
o lado direito é função de θ e ϕ, a igualdade acima implica que ambos os lados devem ser iguais a
uma constante. Por conveniência futura, escrevemos essa constante na forma σ(σ + 1) (note que todo
número complexo c pode ser escrito dessa forma, pois a equação σ 2 + σ − c = 0 sempre tem pelo menos
uma solução). Concluı́mos que
r 2 R′′ (r) + 2rR′ (r) − σ(σ + 1)R(r) = 0 . (10.9)

1 ∂ ∂Y 1 ∂2Y
( senθ) (θ, ϕ) + (θ, ϕ) + σ(σ + 1)Y (θ, ϕ) = 0 . (10.10)
Reconhecemos que a equação para R é uma equação de Euler, cujas soluções são
R(r) = α1 r σ + α2 r −(1+σ) , caso σ 6= − 21
. (10.11)
1
R(r) = r − 2 (α1 ln(r) + α2 ), caso σ = − 21
Passemos agora à equação para Y (θ, ϕ), a qual propomos novamente tratar pelo método de se-
paração de variáveis. Tomemos, então, Y na forma de um produto Y (θ, ϕ) = Θ(θ)Φ(ϕ). Somos
conduzidos a
senθ d dΘ Φ′′ (ϕ)
( senθ) (θ) + σ(σ + 1)( senθ)2 = − .
Θ(θ) dθ dθ Φ(ϕ)
Mais uma vez, a igualdade acima só é possı́vel se ambos os lados forem iguais a uma constante, que
escrevemos na forma µ2 . Ficamos com

1 d dΘ µ2
sen(θ) (θ) + σ(σ + 1)Θ(θ) − Θ(θ) = 0 , (10.12)
sen(θ) dθ dθ ( sen(θ))2
Φ′′ (ϕ) + µ2 Φ(ϕ) = 0 . (10.13)
A equação para Φ tem por soluções




 δ0 ϕ + γ0 , caso µ = 0 ,
Φ(ϕ) = (10.14)


 δµ cos(µϕ) + γµ sen(µϕ) , caso µ 6= 0 .
Claramente, se desejarmos que Φ(ϕ) seja contı́nua e periódica de perı́odo 2π devemos impor que δ0 = 0 e
que µ seja um inteiro, ou seja, µ = m ∈ Z em cujo caso a solução fica Φ(ϕ) = δm cos(mϕ) + γm sen(mϕ)
para todo µ = m ∈ Z (inclusive m = 0). Essa solução pode também ser escrita de forma complexa
como Φ(ϕ) = am eimϕ + bm e−imϕ para outras constantes am e bm .
A experiência ensina que para melhor tratarmos a equação (10.12) convem proceder a mudança de
variável
d 1 d
ζ = cos θ, com = − .
dζ sen(θ) dθ
Definindo também y(ζ) = Θ(θ), ou seja, Θ(θ) = y(cos θ), a equação diferencial para Θ transforma-se
em
d 2 dy µ2
(1 − ζ ) (ζ) + σ(σ + 1) y(ζ) − y(ζ) = 0 ,
dζ dζ 1 − ζ2
ou, equivalentemente,
µ2
(1 − ζ 2)y ′′ (ζ) − 2ζy ′(ζ) + σ(σ + 1) y(ζ) − y(ζ) = 0 .
1 − ζ2
Reconhecemos que se trata da equação de Legendre associada. Por (10.14) vemos que para o
caso em que Φ é contı́nua e periódica de perı́odo 2π devemos necessariamente ter µ = m ∈ Z. Como
discutimos quando tratamos da equação de Legendre associada, se desejarmos também que y(ζ) seja
finita nos extremos ±1 (ou seja, que Θ(θ) seja finita nos extremos θ = 0 e θ = π), devemos ter também
que σ = l ∈ N, sendo que l e m relacionam-se por −l ≤ m ≤ l. As soluções para y(ζ) nesse caso são
os polinômios de Legendre associados y(ζ) = Plm (ζ) ou, em termos de θ, Θ(θ) = Plm (cos(θ)).
Concluı́mos, assim, que se desejarmos soluções que sejam periódicas de perı́odo 2π em ϕ e finitas
nos extremos θ = 0 e θ = π, temos

Y (θ, ϕ) = Plm (cos(θ)) δm cos(mϕ) + γm sen(mϕ)

−imϕ
Y (θ, ϕ) = Plm (cos(θ)) am eimϕ
+ bm e .
Constatamos que o lado direito é uma combinação linear das harmônicas esféricas Ylm (θ, ϕ) e Yl−m (θ, ϕ),
definidos em (9.78).
Assim, retornando à E(r, θ, ϕ), concluı́mos que sob as condições mencionadas a equação de Laplace
tem soluções independentes da forma

β
E(r, θ, ϕ) = α r + l+1 Ylm (θ, ϕ) ,
l
r
com l ∈ N, m ∈ Z e −l ≤ m ≤ l, α e β sendo constantes. Acima, adotamos para a parte radial a

primeira solução de (10.11), pois σ = l ∈ N e, portanto, σ 6= − 21 .
A solução geral da equação de Laplace em três dimensões que representa funções periódicas de
perı́odo 2π em ϕ e finitas nos extremos θ = 0 e θ = π é, portanto,
X∞ X l
βl, m
u(r, θ, ϕ) = l
αl, m r + l+1 Ylm (θ, ϕ) .
l=0 m=−l
r
Aqui, αl, m e βl, m são constantes a serem determinadas por condições adicionais a serem impostas à
solução.
• Expansão de multipólos
Se soubermos a priori que a solução u(r, θ, ϕ) converge a 0 para r → ∞, podemos supor que as
constantes αl, m , acima, se anulam. Nesse caso a solução reduz-se a
X∞ X l
βl, m m
u(r, θ, ϕ) = Y (θ, ϕ) .
l=0 m=−l
r l+1 l
Essa situação ocorre, por exemplo, na Eletrostática quando lidamos com o problema de determinar o
potencial elétrico produzido por uma distribuição de cargas elétricas estáticas limitadas a uma região
finita. Nesse caso a expansão acima é denominada expansão de multipólos. O mesmo tipo de situação
ocorre se desejarmos determinar o potencial gravitacional produzido por uma distribuição de matéria
limitada a uma região finita (por exemplo, um planeta).
Se soubermos a priori, por exemplo, por considerações de simetria, que a função u(r, θ, ϕ) não
depende
q da variável ϕ, então os termos da soma com m 6= 0 devem ser todos nulos. Como Yl0 (θ, ϕ) =
2l+1
4π
Pl (cos(θ)), onde Pl são os polinômios de Legendre, obtemos apenas
X∞
l βl
u(r, θ) = αl r + l+1 Pl (cos(θ)) (10.15)
l=0
r
para certas constantes αl e βl . Novamente, se também soubermos que a solução u(r, θ) converge a 0
para r → ∞, podemos supor que as constantes αl , acima, anulam-se, e obtemos para a expansão de
multipólos
X∞
βl
u(r, θ) = P (cos(θ)) .
l+1 l
(10.16)
l=0
r
Historicamente, o problema que conduziu Legendre aos polinômios de Legendre foi o de determinar
o potencial gravitacional de uma distribuição de matéria limitada a uma região finita e simétrica em
relação ao eixo z. Isso conduziu-o à função geratriz dos polinômios de Legendre (expressão (9.49),
página 525), da qual ele derivou a expressão para os Pl (cos(θ)) como polinômios em cos(θ) e, daı́, à
última expressão.
• A Equação de Helmholtz em três dimensões em coordenadas esféricas
Devido à forma assumida pelo operador Laplaciano, expressa em (10.8), a equação de Helmholtz
em três dimensões em coordenadas esféricas assume a forma

1 ∂ 2 ∂E 1 ∂ ∂E 1 ∂2E
2
r + ( senθ) + 2 2
+ λ2 E = 0 ,
r ∂r ∂r senθ ∂θ ∂θ ( senθ) ∂ϕ
onde E agora é uma função de r, θ e ϕ.

sejam da forma de um produto: E(r, θ, ϕ) = R(r)Y (θ, ϕ). Inserindo isso na equação de Helmholtz,
somos levados a
′
(r 2 R′ (r)) 2 2 1 1 ∂ ∂Y 1 ∂2Y
+λ r = − ( senθ) (θ, ϕ) + (θ, ϕ) .
R(r) Y (θ, ϕ) senθ ∂θ ∂θ ( senθ)2 ∂ϕ2
Mais uma vez constatamos que, pelo fato de o lado esquerdo ser função apenas de r enquanto que
o lado direito é função de θ e ϕ, a igualdade acima implica que ambos os lados devem ser iguais a
uma constante. Por conveniência futura, escrevemos essa constante na forma σ(σ + 1) (note que todo
número complexo c pode ser escrito dessa forma, pois a equação σ 2 + σ − c = 0 sempre tem pelo menos
uma solução). Concluı́mos que

r 2 R′′ (r) + 2rR′ (r) + λ2 r 2 − σ(σ + 1) R(r) = 0 , (10.17)

1 ∂ ∂Y 1 ∂2Y
( senθ) (θ, ϕ) + (θ, ϕ) + σ(σ + 1)Y (θ, ϕ) = 0 . (10.18)
Reconhecemos que a equação para Y (θ, ϕ) é precisamente a mesma que obtivemos no caso da
equação de Laplace em três dimensões em coordenadas esféricas. Assim, se desejarmos soluções para
Y (θ, ϕ) que sejam periódicas de perı́odo 2π em ϕ e finitas nos extremos θ = 0 e θ = π, teremos que
fixar σ = l ∈ N e Y (θ, ϕ) será uma combinação linear de Ylm (θ, ϕ) e Yl−m (θ, ϕ), onde m ∈ Z com
−l ≤ m ≤ l.
Concentremo-nos agora na equação radial. Pela mudança de variável4 z = λr e definindo y(z) =
y(λr) = R(r), a equação (10.17) acima transforma-se em
z 2 y ′′ (z) + 2zy ′ (z) + (z 2 − σ(σ + 1))y(z) = 0 ,
que podemos reconhecer como sendo a equação de Bessel esférica de ordem σ. Como mencionamos,
estamos interessados primordialmente no caso em que σ = l ∈ N. Obtemos, nesse caso
R(r) = a jl (λr) + b nl (λr),
onde a e b são constantes e jl e nl são as funções de Bessel esféricas de ordem l e de Neumann esféricas
de ordem l, respectivamente.
Retornando a E(r, θ, ϕ), concluı́mos que, sob as hipóteses delineadas acima, a equação de
Helmholtz em três dimensões possui soluções independentes da forma

E(r, θ, ϕ) = α jl (λr) + β nl (λr) Ylm (θ, ϕ) ,
com l ∈ N, m ∈ Z e −l ≤ m ≤ l, α e β sendo constantes.

A solução geral da equação de Helmholtz em três dimensões que representa funções periódicas de
perı́odo 2π em ϕ e finitas nos extremos θ = 0 e θ = π é, portanto,
∞ X
X l
u(r, θ, ϕ) = αl, m jl (λr) + βl, m nl (λr) Ylm (θ, ϕ) .
l=0 m=−l
Aqui, αl, m e βl, m são constantes a serem determinadas por condições adicionais a serem impostas à
solução.
Recomendamos ao leitor o exercı́cio instrutivo de comparar as equações radiais obtidas acima no
caso de Laplace e de Helmholtz em três dimensões, assim como suas soluções.
4
Aqui supomos λ 6= 0.
10.2 O Problema da Corda Vibrante

Se considerarmos o problema de determinar o movimento transversal, no regime de pequenas oscilações,
de uma corda de comprimento L, de densidade linear de massa ρ(x), com 0 ≤ x ≤ L, submetida a uma
tensão longitudinal τ (x), chegaremos à equação diferencial

∂2u ∂ ∂u
ρ(x) 2 − τ (x) = 0, (10.19)
∂t ∂x ∂x
onde u(x, t) representa o deslocamento transversal, no instante de tempo t, do ponto x da corda.
A expressão acima é conseqüência, essencialmente, da segunda lei de Newton e sua dedução pode
ser acompanhada, por exemplo, em [36]. O estudo das soluções de (10.19) é um clássico problema
de Mecânica dos Meios Deformáveis e da Teoria das Equações Diferenciais, tendo suas origens nos
trabalhos pioneiros de Euler5 e Daniel Bernoulli6 na primeira metade do séc. XVIII. O método de
separação de variáveis, o método de expansão em modos normais, e outras idéias que tiveram sua
aplicação estendida a outros campos, originaram-se daqueles estudos.
10.2.1 Corda Vibrante Homogênea

O caso mais simples da equação (10.19) é aquele no qual ρ(x) ≡ ρ0 e τ (x) ≡ τ0 são constantes, em cujo
caso (10.19) assume a forma
r
∂2u 2
2∂ u τ0
− c = 0 , c = . (10.20)
∂t2 ∂x2 ρ0
Uma corda com ρ(x) ≡ ρ0 constante é dita ser uma corda homogênea.
Na situação em que a corda encontra-se presa em suas extremidades localizadas em x = 0 e x = L,
as condições de contorno a serem impostas são u(0, t) = 0 para todo t e u(L, t) = 0 para todo t.
Tipicamente considera-se também condições iniciais que fixam a posição e velocidade transversais da
corda em t = 0: u(x, 0) = u0 (x) e ∂u∂t
(x, 0) = v0 (x), sendo u0 e v0 duas funções dadas, dotadas de
propriedades convenientes.
Para encontrar as soluções de (10.20) satisfazendo as condições iniciais e de contorno mencionadas
acima, procede-se pelo método de separação de variáveis, procurando primeiramente soluções particu-
lares que sejam da forma u(x, t) = T (t)U(x). Inserindo em (10.20), obtem-se
1 T ′′ (t) U ′′ (x)
= .
c2 T (t) U(x)
Essa igualdade só é possı́vel se ambos os lados forem iguais a uma constante de separação, que deno-
tamos por −λ2 . Chegamos com isso a
T ′′ (t) + λ2 c2 T (t) = 0 , (10.21)
U ′′ (x) + λ2 U(x) = 0 . (10.22)

5
6
As soluções da primeira equação, naturalmente, são

T (t) = a0 t + b0 , caso λ = 0 , (10.23)
T (t) = a1 cos(λct) + b1 sen(λct) , caso λ 6= 0 . (10.24)

Para λ = 0 a equação (10.22) reduz-se a U ′′ (x) = 0, cuja solução é U(x) = c1 x + c2 . Como desejamos
que U(0) = U(L) = 0, de modo que u(x, t) = T (t)U(x) satisfaça as condições de contorno, obtem-se
c1 = c2 = 0, ou seja, obtem-se a solução trivial U(x) ≡ 0, o que corresponde a uma corda eternamente
parada. O caso interessante, portanto, está em λ 6= 0.
No caso λ 6= 0, as soluções de (10.22) são, como é bem conhecido,
U(x) = β1 cos(λx) + β2 sen(λx) .
A imposição que U(0) = 0 implica β1 = 0, levando a U(x) = β2 sen(λx). A imposição que U(L) = 0
implica λL = nπ, com n ∈ Z (tomar β2 = 0 conduz novamente à solução trivial U(x) ≡ 0) e, assim,
nπx
U(x) = Un (x) = β2 sen L , n ∈ Z. Em verdade, podemos nos restringir a n’s positivos não-nulos,
i.e., n = 1, 2, 3, . . ., pois para n = 0 tem-se U0 (x) ≡ 0 (solução trivial) e U−n (x) = Un (x), mostrando
que as soluções com Un (x) e U−n (x) não são independentes.

Resumindo, para cada n = 1, 2, , 3, . . . temos λn = nπ L
e Un (x) = β2 sen nπxL
. Para tais valores de
nπct nπct
λ a solução (10.24) fica a1 cos L + b1 sen L , e as soluções particulares para u(x, t) = T (t)U(x)
ficam nπx
un (x, t) = [an cos (ωn t) + bn sen (ωn t)] sen ,
L
n = 1, 2, 3, . . ., onde
nπc
ωn :=
L
(aqui, absorvemos a constante β2 dentro das constantes an e bn , as quais ainda estão indeterminadas e
podem depender de n).
Chegamos até aqui com o método de separação de variáveis. Evocando o princı́pio de sobreposição,
obtemos uma solução mais geral de (10.20) somando as soluções acima:
∞
X nπx
u(x, t) = [an cos (ωn t) + bn sen (ωn t)] sen , (10.25)
n=1
L
∂u X∞ nπx
(x, t) = [−an ωn sen (ωn t) + bn ωn cos (ωn t)] sen . (10.26)
∂t n=1
L
∂u
A imposição das condições iniciais u(x, 0) = u0 (x) e ∂t
(x, 0) = v0 (x), que fixam posição e
velocidade da corda em t = 0, conduz a
∞
X nπx
u0 (x) = an sen , (10.27)
n=1
L
∞
X nπx
v0 (x) = bn ωn sen . (10.28)
n=1
L
Para invertermos essas relações, expressando as constantes an em termos de u0 e as constantes bn

em termos de v0 , fazemos uso das bem-conhecidas relações de ortogonalidade da função seno:
Z π
π
sen(my) sen(ny) dy = δm, n . m, n = 1, 2, 3, . . . . (10.29)
0 2

Assim, multiplicando (10.27) por sen mπx L
e integrando de 0 a L, obtemos
Z L mπx ∞
X Z L mπx nπx
sen u0 (x) dx = an sen sen dx
0 L n=1 0 L L
∞ Z
y=πx/L LX π
L
= An sen(my) sen(ny) dy = Am ,
π n=1 0 2
ou seja, Z
2 L nπx′
an = sen u0 (x′ ) dx′ (10.30)
L 0 L
para todo n = 1, 2, 3, . . .. De forma totalmente análoga, obtem-se de (10.28)
Z L Z L
2 nπx′ ′ ′ 2 nπx′
bn = sen v0 (x ) dx = sen v0 (x′ ) dx′ (10.31)
ωn L 0 L nπc 0 L
para todo n = 1, 2, 3, . . ..
• As funções de Green para as condições iniciais
Usando (10.30)-(10.30) podemos reescrever (10.25) como

Z L Z L
′ ′ ′
u(x, t) = G(x, t, x )u0 (x ) dx + H(x, t, x′ )v0 (x′ ) dx′ , (10.32)
0 0
onde, formalmente,
∞
! ! !
X 2 nπx nπx′ nπct
′
G(x, t, x ) = sen sen cos
n=1
L L L L
e ! ! !
X∞
′ 2 nπx nπx′ nπct
H(x, t, x ) = sen sen sen .
n=1
nπc L L L
são denominadas funções de Green7 para as condições iniciais do problema em questão. Note-se que,
também em um sentido formal,
∂H
G(x, t, x′ ) = (x, t, x′ ) .
∂t
A importância de (10.32) está em expressar a solução diretamente em termos das condições iniciais u0
e v0 . As funções G e H contêm em si a informação de como os valores das condições iniciais no ponto
x′ influenciam a solução no ponto x no instante de tempo t.
7
George Green (1793-1841).
10.2.2 O Problema da Corda Homogênea Pendurada

Nosso propósito aqui é o de aplicar a equação (10.19) para determinar o movimento de uma corda,
ou barbante, homogênea (ou seja, de densidade constante) e de comprimento L que esteja pendurada
por uma das suas extremidades em um campo gravitacional constante (por exemplo, o da superfı́cie
da Terra), a outra extremidade sendo mantida livre. Cada ponto da corda estará sujeito a uma tensão
igual ao peso do trecho de corda abaixo de si.
Para fixar idéias, vamos denotar por z a coordenada vertical e supor que a corda, quando parada,
localize-se no intervalo 0 ≤ z ≤ L, estando presa no ponto z = L, apenas. A função u(z, t) representará
o deslocamento horizontal da corda, digamos, no plano xz 8 , do ponto z no instante de tempo t. O
ponto da corda situada à altura z sustenta o peso do trecho de corda situado abaixo de si, ou seja,
entre 0 e z. Como a corda é homogênea, esse peso é ρgz, onde g é a aceleração da gravidade. Assim,
para a tensão τ (z) tem-se τ (z) = ρgz e o problema que queremos resolver é o de determinar a solução
2
da equação diferencial ρ ∂∂t2u − ∂z
∂
ρgz ∂u
∂z
= 0, ou seja,

∂2u ∂ ∂u
−g z = 0, (10.33)
∂t2 ∂z ∂z
para 0 ≤ z ≤ L, submetida à condição de contorno u(L, t) = 0 para todo t e a certas condições iniciais
u(z, 0) = u0 (z) e ∂u
∂t
(z, 0) = v0 (z) que fixam posição e velocidade transversal de cada ponto da corda
em t = 0.
Comecemos seguindo o método de separação de variáveis e procuremos soluções particulares na
forma de um produto u(z, t) = T (t)U(z). Inserindo isso em (10.33), obtemos facilmente
1 T ′′ (t) (zU ′ (z))′

= .
g T (t) U(z)
T ′′ (t) + λ2 gT (t) = 0 , (10.34)
zU ′′ (z) + U ′ (z) + λ2 U(z) = 0 . (10.35)
T (t) = a0 t + b0 , caso λ = 0 ,
√ √
T (t) = a1 cos(λ gt) + b1 sen(λ gt) , caso λ 6= 0 .
Para λ = 0 a equação (10.35) reduz-se a zU ′′ (z) + U ′ (z) = 0, cuja solução é U(z) = c1 ln(z) + c2 .
Como desejamos que U(0) seja finita (o deslocamento da corda não pode divergir em nenhum ponto),
devemos impor c1 = 0 e, portanto, U(z) = c2 . Porém, como u(L, t) = 0 para todo t, devemos impor
8
Movimentos no plano yz podem ser tratados também mas, por simplicidade, consideramos apenas esse caso mais
simples.
U(L) = 0. Assim, c2 = 0 também e obtemos apenas a solução trivial U(z) = 0, o que corresponde a
uma corda eternamente parada. O caso interessante, portanto, está em λ 6= 0.
A equação (10.35) para λ 6= 0 pode ser transformada em uma equação conhecida através da mudança
de variáveis √ √
ζ = 4λ2 z , U(z) = y(ζ) = y ( 4λ2 z) ,
com a qual obtemos
ζ 2 y ′′(ζ) + ζy ′(ζ) + ζ 2 y(ζ) = 0 .
Essa equação, como se constata, é a equação de Bessel de ordem zero: ν = 0. Assim, suas soluções
são
y(ζ) = β1 J0 (ζ) + β2 N0 (ζ) ,
J0 sendo a função de Bessel de ordem 0 e N0 sendo a função de Neumann de ordem 0. Isso significa,
então, que √ √
U(z) = β1 J0 (2λ z) + β2 N0 (2λ z) .
√
A solução acima tem por particularidade que se β2 6= 0 o termo N0 (2λ z) diverge em z = 0. Esse
comportamento não é aceitável, obviamente, de modo que devemos impor9 β2 = 0.
√
Chegamos dessa forma à solução U(z) = J0 (2λ z) (adotando aqui β1 = 1), para
√ a qual devemos
impor a condição de contorno u(L, t) = 0, ou seja, U(L) = 0. Isso implica que 2λ L deve ser um dos
zeros αk0 , k ∈ N, k ≥ 1, da função de Bessel J0 em R+ . Assim, concluı́mos que
αk0
λ = √ ,
2 L
e dessa forma, para 0 ≤ z ≤ L,
r
z
Uk (z) = J0 αk0 , k = 1, 2, 3, 4, . . . ,
L
representam soluções de (10.35) que satisfazem as condições de contorno requeridas. Tem-se, então,
que r
z
uk (z, t) = [ak cos (ωk t) + bk sen (ωk t)] J0 αk0 , k = 1, 2, 3, 4, . . . ,
L
com r
αk0 g
ωk := ,
2 L
são soluções particulares da equação de onda (10.33) que satisfazem as condições de contorno p
requeridas.

Acima, ak e bk são constantes a serem determinadas. Cada função cos (ωk t + δ0 ) J0 αk Lz , k =0
1, 2, 3, 4, . . ., representa um modo de vibração da corda pendurada.

9
Podemos interpretar a condição de finitude da solução em z = 0 como uma outra condição de contorno a ser imposta,
juntamente à condição u(L, t) = 0, para o outro extremo da corda.
A solução geral da equação de onda (10.33) que satisfaz as condições de contorno requeridas é dada
por
∞
X r
z
u(z, t) = [ak cos (ωk t) + bk sen (ωk t)] J0 αk0 , (10.36)
k=1
L
∞ r
∂u X z
(z, t) = [−ak ωk sen (ωk t) + bk ωk cos (ωk t)] J0 αk0 .
∂t k=1
L
Assim, a imposição das condições iniciais u(z, 0) = u0 (z) e ∂u

∂t
(z, 0) = v0 (z), que fixam posição e
velocidade da corda em t = 0, conduz a
X∞ r
z
u0(z) = ak J0 αk0 , (10.37)
k=1
L
∞ r
X z
v0 (z) = bk ωk J0 αk0 . (10.38)
k=1
L
Para determinarmos as constantes ak em termos de u0 e as constantes bk em termos de v0 faremos

uso das relações de ortogonalidade (9.158), página 560, para as funções de Bessel J0 :
Z 1 2
0
0
(J1 (αk0 ))
J0 αk x J0 αl x x dx = δk, l . (10.39)
0 2
p
Multiplicando ambos os lados de (10.37)-(10.38) por J0 αl0 Lz e integrando-se em z entre 0 e L,
obtem-se
Z L r X∞ Z L r r
0 z z z
J0 αl u0 (z) dz = ak J0 αl0 J0 αk0 dz ,
0 L k=1 0 L L
Z r r ∞ Z L r r
L
0 z 1 gX 0 z z
J0 αl v0 (z) dz = bk αk J0 αl0 J0 αk0 dz .
0 L 2 L 0 L L
k=1
Agora,
Z L r r √z Z 1
z z x= L
(10.39) 2
J0 αl0 J0 αk0 dz = 2L J0 αk0 x J0 αl0 x x dx = L J1 (αk0 ) δk, l .
0 L L 0
Assim, concluı́mos que

Z L r
1 z
al = 2 J0 αl0 u0 (z) dz , (10.40)
L (J1 (αk0 )) 0 L
Z L r
2 z
bl = √ 2 J0 αl0 v0 (z) dz , (10.41)
αl0 gL (J1 (αl0 )) 0 L
para todos l ∈ N, l ≥ 1.
A solução obtida acima satisfaz as condições de contorno e as condições iniciais propostas. A
Proposição 11.7, página 683, garante que a solução assim obtida é a única solução do problema, o que
a posteriori, justifica todo o nosso proceder. Note o leitor que as condições de contorno do problema
tratado acima correspondem às condições de contorno do tipo IV da Proposição 11.7, pois a corda está
fixa em z = L e a tensão anula-se em z = 0. Com isso, o problema de determinar o movimento da corda
pendurada a partir de condições iniciais como acima está completamente resolvido. Esse problema foi
um dos primeiros nos quais surgiram funções de Bessel como solução. Ele foi tratado pela primeira vez
em 1732 por D. Bernoulli1011 .
Usando (10.40)-(10.41) podemos reescrever (10.36) como

Z L Z L
′ ′ ′
u(z, t) = G(z, t, z )u0(z ) dz + H(z, t, z ′ )v0 (z ′ ) dz ′ , (10.42)
0 0
onde
r r !
z z′
∞
J0 αk0 J0 αk0 0r
X L L αk g
′
G(z, t, z ) := 0 2
cos t ,
k=1 L J1 (αk ) 2 L
r r !
0 z 0 z′
∞
2J 0 α k J 0 α k 0r
X L L αk g
′
H(z, t, z ) := p 2 sen t ,
αk
0
gL J 1 (αk
0
) 2 L
k=1
são as funções de Green para as condições iniciais do problema em questão. Note-se também que,
formalmente,
∂H
G(z, t, z ′ ) = (z, t, z ′ ) .
∂t
A importância de (10.42) está em expressar a solução diretamente em termos das condições iniciais u0
e v0 . As funções G e H contêm em si a informação de como os valores das condições iniciais no ponto
z ′ influenciam a solução no ponto z no instante de tempo t.
10.2.3 Corda Vibrante Não-Homogênea

Vamos agora aplicar a equação (10.19) para determinar o movimento de uma corda não-homogênea (ou
seja, cuja densidade depende da posição) e de comprimento L que esteja fixa em suas extremidades,
10
11
Em verdade, de acordo com os comentários históricos de [66], D. Bernoulli não incluiu a dependência temporal na sua
solução nem aplicou o princı́pio de sobreposição para somar os vários modos de vibração. Como comentamos à página
281, ainda que conhecido anteriormente, o princı́pio de sobreposição para a resolução de equações diferenciais lineares
homogêneas só se tornou de uso corrente sob a influência de Helmholtz, no séc. XIX.
assumindo também que a tensão τ seja constante (τ (x) ≡ τ0 ). Sob essas hipóteses (10.19) assume a
forma
∂2u ∂2u
ρ(x) 2 − τ0 2 = 0 . (10.43)
∂t ∂x
Para encontrar as soluções de (10.43) satisfazendo as condições iniciais e de contorno, procederemos
novamente pelo método de separação de variáveis, procurando primeiramente soluções particulares que
sejam da forma u(x, t) = T (t)U(x). Inserindo em (10.20), obtem-se
1 T ′′ (t) 1 U ′′ (x)
= .
τ0 T (t) ρ(x) U(x)
T ′′ (t) + λ2 τ0 T (t) = 0 , (10.44)
U ′′ (x) + λ2 ρ(x)U(x) = 0 . (10.45)
T (t) = a0 t + b0 , caso λ = 0 , (10.46)

√ √
T (t) = a1 cos(λ τ0 t) + b1 sen(λ τ0 t) , caso λ 6= 0 . (10.47)
Para λ = 0 a equação (10.45) reduz-se a U ′′ (x) = 0, cuja solução é U(x) = c1 x + c2 . Como desejamos
que U(0) = U(L) = 0, de modo que u(x, t) = T (t)U(x) satisfaça as condições de contorno, obtem-se
c1 = c2 = 0, ou seja, obtem-se a solução trivial U(x) ≡ 0, o que corresponde a uma corda eternamente
parada. Novamente, o caso interessante, portanto, está em λ 6= 0.
A resolução de (10.45) depende, obviamente, da função ρ(x). No que segue assumiremos que essa
função é da forma ρ(x) = ρ0 + ηx, onde ρ0 e η são constantes. Essa é uma primeira correção (linear)
ao caso de ρ constante, que tratamos acima.
A eq. (10.45) torna-se, portanto,
U ′′ (x) + λ2 (ρ0 + ηx)U(x) = 0 . (10.48)
Com a mudança de variáveis ξ = ρ0 + ηx, U(x) = V (ξ) = V (ρ0 + ηx), essa equação assume a forma
V ′′ (ξ) + µ2 ξV (ξ) = 0 ,
onde µ = λ/η. Trata-se de uma equação de Airy, cujas soluções podem ser escritas em termos de
funções de Bessel J±1/3 (vide página 457):

p 2p 2 3 p 2p 2 3
V (ξ) = A ξJ1/3 µ ξ + B ξJ−1/3 µξ ,
3 3
A e B sendo constantes. Assim,

p 2p 2 2 p
U(x) = (ρ0 + ηx) AJ1/3 µ (ρ0 + ηx)3 + BJ−1/3 µ2 (ρ0 + ηx)3 . (10.49)
3 3
O caso mais simples é aquele no qual ρ0 = 0 com η > 0. Ficamos com

p p
√ 2 3
√ 2
U(x) = A xJ1/3 λ ηx + B xJ−1/3 λ ηx3 .
3 3
A
√ e B sendo constantes.
Pela expressão (8.119), página 455,
√ que define as funções de Bessel, a função
2 3/2 2 3/2
xJ1/3 3 x anula-se em x = 0, enquanto que a função xJ−1/3 3 x assume em x = 0 um valor
não-nulo. Assim, a imposição da condição de contorno U(x) = 0 implica B = 0 e, portanto,
p
√ 2
U(x) = A xJ1/3 λ ηx3 .
3
p (1/3) (1/3)
A imposição da condição de contorno U(L) = 0 implica 32 λ ηL3 = αk , onde αk é o k-ésimo zero
de J1/3 em R+ . Assim,
(1/3)
3α
λ ≡ λk := pk
2 ηL3
e r r r !
x 2 p 3 x (1/3) x 3
U(x) ≡ Uk (x) = Ak J1/3 λk ηx = Ak J1/3 αk ,
L 3 L L
ambas válidas para todo k = 1, 2, 3, . . ., Ak sendo constantes.
Obtemos para u(x, t) a solução geral expressa em termos de uma série de modos normais:
∞ r x r !
X √ √ (1/3) x 3
u(x, t) = ak cos(λk τ0 t) + bk sen(λk τ0 t) J1/3 αk
L L
k=1
∞ r r !
X x (1/3) x 3
= ak cos (ωk t) + bk sen (ωk t) J1/3 αk ,
k=1
L L
sendo r
3 (1/3) τ0
ωk := αk .
2 ηL3
Naturalmente, segue disso que
∞ r x r !
∂u X (1/3) x 3
(x, t) = − ωk ak sen (ωk t) + ωk bk cos (ωk t) J1/3 αk . (10.50)
∂t k=1
L L
∂u
Dessa forma, impondo condições iniciais u(x, 0) = u0(x), ∂t
(x,
0) = v0 (x), tem-se
∞ r r !
X x (1/3) x 3
u0 (x) = ak J1/3 αk ,
k=1
L L
∞ r r !
X x (1/3) x 3
v0 (x) = ωk bk J1/3 αk .
k=1
L L
q

x 3/2 (1/3)
x 3
Multiplicando a primeira das expressões acima por L
J1/3 αl L
e integrando de 0 a
L, obtemos
Z L x 3/2 r !
(1/3) x 3
u0 (x) J1/3 αl dx
0 L L
∞ Z x 2 r ! r !
X L
(1/3) x 3 (1/3) x 3
= ak J1/3 αk J1/3 αl dx
k=1 0 L L L
∞
X Z 1 p p
y=x/L (1/3) (1/3)
= ak L y 2 J1/3 αk y 3 J1/3 αl y 3 dy
k=1 0
∞
X Z 1
u=y 3/2 2ak L (1/3) (1/3)
= u J1/3 αk u J1/3 αl u du
3 0
k=1
(9.158) al L
(1/3)
2 al L ′ (1/3) 2
= J2/3 αl = J1/3 αl .
3 3
Disso, obtemos
 s 
Z L ′ 3/2 3
3 ′ x  (1/3) x′ 
al = 2 u0 (x ) J1/3 αl dx′
(1/3) 0 L L
L J2/3 αl
e, analogamente,
 s 
Z L ′ 3/2 3
3 ′ x  (1/3) x′ 
bl = 2 v0 (x ) J1/3 αl dx′
(1/3) 0 L L
ωl L J2/3 αl
para todo l = 1, 2, 3, . . ..
Reunindo os resultados acima, podemos escrever

Z L Z L
′ ′ ′ ′
u(x, t) = G(x, t, x ) u0 (x ) x dx + H(x, t, x′ ) v0 (x′ ) x′ dx′ , (10.51)
0 0
com
r ! r  s 
r 3
x x 3 x ′ x′ 
(1/3)  (1/3)
J1/3 αk J1/3 αk
∞
X L L L L r
′ 3 (1/3) τ0
G(x, t, x ) = 3 2 cos α t ,
(1/3) 2 k ηL3
k=1 L2 J2/3 αk
r ! r  s 
r 3
x x 3 x′ x′ 
(1/3)  (1/3)
J1/3 αk J1/3 αk
∞
X L L L L r
′ 3 (1/3) τ0
H(x, t, x ) = 3 2 sen α t ,
(1/3) 2 k ηL3
k=1 ωk L2 J2/3 αk
sendo as funções de Green para as condições iniciais do problema em questão. Mais uma vez, vale
formalmente
∂H
G(x, t, x′ ) = (x, t, x′ ) .
∂t
Nota. Há duas razões para usarmos a medida de integração x′ dx′ em (10.51) e não apenas a medida dx′ .
Primeiro, obtem-se dessa forma funções G e H simétricas pela troca x ↔ x′ (como se vê explicitamente
nas expressões acima). Segundo, como temos ρ0 = 0, (10.45) é da forma U ′′ (x) + ηλ2 xU(x) = 0
e estamos, portanto, lidando com um problema de Sturm-Liouville com r(x) = x (para a teoria de
Sturm-Liouville, vide Capı́tulo 12, página 688). Ora, em problemas de Sturm-Liouville a medida
natural de integração é r(x′ )dx′ , para a qual valem as relações de ortogonalidade das autofunções, daı́
ser natural a escolha que fizemos.
A importância de (10.51) está em expressar a solução diretamente em termos das condições iniciais
u0 e v0 . As funções G e H contêm em si a informação de como os valores das condições iniciais no
ponto x′ influenciam a solução no ponto x no instante de tempo t.
E. 10.2 Exercı́cio. Retornando a (10.49) considere agora o caso ρ0 6= 0, η 6= 0, e, segundo os passos

de acima, obtenha a solução do problema em termos de condições iniciais e as funções de Green. Para
determinar as relações de ortogonalidade siga as idéias da demonstração do Teorema 9.7, página 563. Isso
poderá ser trabalhoso. 6
10.2.4 O Problema da Membrana Retangular Homogênea

Vamos aqui abordar o problema de determinar o movimento vibratório, a partir de condições iniciais,
de uma membrana, ou tambor, retangular, plana, de lados L1 e L2 , homogênea, cujas bordas são fixas.
Esse problema é, como veremos, uma simples generalização do problema da corda vibrante tratado
na Seção 10.2.1, página 593. Matematicamente, o problema consiste em determinar as soluções da
equação de onda dentro do retângulo mencionado no plano bidimensional, ou seja, da equação
∂2u
(x, y, t) − c2 ∆u(x, y, t) = 0 , (10.52)
∂t2
com c > 0, sendo (x, y) restrito ao retângulo {(x, y), 0 ≤ x ≤ L1 , 0 ≤ y ≤ L2 }. As condições iniciais
são u(x, y, 0) = u0 (x, y) e ∂u
∂t
(x, y, 0) = v0 (x, y) para certas funções u0 (x, y) e v0 (x, y) convenientes
e fixam a posição e velocidade, respectivamente, de cada ponto da membrana no instante t = 0. Como
a membrana deve estar fixa nas bordas, devemos também impor as condições de contorno de Dirichlet:
u(x, 0) = u(x, L2 ) = 0 para todo 0 ≤ x ≤ L1 e u(0, y) = u(L1 , y) = 0 para todo 0 ≤ y ≤ L2 .
∂2 ∂2
Escrevendo o operador o Laplaciano em coordenadas Cartesianas como ∆ = ∂x 2 + ∂y 2 a equação de
ondas (10.52) fica

1 ∂2u ∂2u ∂2u
(x, y, t) − (x, y, t) − (x, y, t) = 0 . (10.53)
c2 ∂t2 ∂x2 ∂y 2
Aplicando o método de separação de variáveis, procuramos soluções dessa equação na forma u(x, y, t) =
X(x)Y (y)T (t). Inserindo isso na equação (10.53) e dividindo pelo produto X(x)Y (y)T (t), obtemos
1 T ′′ (t) X ′′ (x) Y ′′ (y)
− − = 0.
c2 T (t) X(x) Y (y)
Cada termo do lado esquerdo depende de uma variável distinta. Para que essa equação seja válida é
preciso que cada termo seja igual a uma constante e que a soma dessas constantes se anule. Temos,
′′ (x) ′′ (y) ′′ (t)
então, as equações XX(x) = −α2 , YY (y) = −β 2 e TT (t) = −(α2 + β 2 ), ou seja
X ′′ (x) + α2 X(x) = 0 (10.54)
Y ′′ (y) + β 2 Y (y) = 0 (10.55)
T ′′ (t) + c2 (α2 + β 2 )T (t) = 0 (10.56)

A única solução de (10.54) que anula-se em x = 0 e x = L1 ocorre para α = nπ/L1 com n inteiro
positivo não-nulo e é dada por X(x) = sen(nπx/L1 ). Analogamente, a única solução de (10.55) que
anula-se em y = 0 e y = L2 ocorre para β = mπ/Lm com m inteiro positivo não-nulo e é dada por
Y (y) = sen(mπy/L2 ). As soluções para (10.56) são, portanto
s 2
2
nπ mπ
T (t) = Amn cos(ωmn t) + Bmn sen(ωmn t) , com ωmn = c + ,
L1 L2
para m, n = 1, 2, 3, . . .. A solução assim obtida para (10.53) é

nπx mπy h i
umn (x, y, t) = sen sen Amn cos(ωmn t) + Bmn sen(ωmn t)
L1 L2
para todos m, n como acima. Assim, a solução geral obtida aplicando o princı́pio de sobreposição é

mπy h i
X∞ X ∞
nπx
u(x, y, t) = sen sen Amn cos(ωmn t) + Bmn sen(ωmn t) .
m=1 n=1
L1 L2
Impondo as condições iniciais u(x, y, 0) = u0 (x, y) e ∂u

∂t
(x, y, 0) = v0 (x, y), tem-se
X∞ X ∞
nπx mπy
u0 (x, y) = Amn sen sen , (10.57)
m=1 n=1
L1 L2
∞ X
X ∞
nπx mπy
v0 (x, y) = ωmn Bmn sen sen . (10.58)
m=1 n=1
L1 L2
Aplicamos agora as as bem-conhecidas relações ′ de ortogonalidade

′ da função seno (10.29), página 595,
n πx m πy
multiplicando a expressão (10.57) por sen L1 sen L2 em integrando na variável x no intervalo
[0, L1 ] e na variável y no intervalo [0, L2 ] para obter
Z L2 Z L1
n′ πx m′ πy
u0 (x, y) sen sen dxdy
0 0 L1 L2
∞ X
X ∞ Z L1 Z L2
nπx n′ πx mπy m′ πy
= Amn sen sen dx sen sen dy
m=1 n=1 0 L1 L1 0 L2 L2
x→L1 x/π ∞ X
X ∞ Z π Z π
y→L2 y/π L1 L2 Amn ′ ′
= sen (nx) sen (n x) dx sen (my) sen (m y) dy
m=1 n=1
π2 0 0
∞ ∞
(10.29) L1 L2 X X L1 L2
= Amn δm,m′ δn,n′ = Am′ n′ .
4 m=1 n=1 4
Procedendo analogamente para v0 , obtemos

Z L2 Z L1
4 nπx mπy
Amn = u0 (x, y) sen sen dxdy
L1 L2 0 0 L1 L2
.
Z L2 Z L1
4 nπx mπy
Bmn = v0 (x, y) sen sen dxdy
L1 L2 ωmn 0 0 L1 L2
Essas expressões determinam completamente os coeficientes Amn e Bmn em temos das condições
iniciais. A solução assim obtida satisfaz, então, as condições de contorno e iniciais. A Proposição 11.7,
página 683, garante que a solução assim obtida é a única solução do problema proposto (as condições
de contorno que tratamos são do tipo de Dirichlet) o que, a posteriori, justifica todo o nosso proceder.
10.3 O Problema da Membrana Circular Homogênea

Com o que obtivemos na Seção 10.1, página 583, sobre a equação de Helmholtz em duas dimensões em
coordenadas polares podemos abordar o problema de determinar o movimento vibratório, a partir de
condições iniciais, de uma membrana, ou tambor, circular, plana, de raio R, homogênea, cujas bordas
são fixas. Matematicamente, isso consiste em determinar as soluções da equação de onda dentro de um
disco de raio R > 0 no plano bidimensional, ou seja, da equação
∂2u
(~x, t) − c2 ∆u(~x, t) = 0 , (10.59)
∂t2
com c > 0, sendo ~x restrito à região k~xk ≤ R, com condições de contorno u(~x, t) = 0 para todo t e
para todo ~x satisfazendo k~xk = R e com certas condições iniciais u(~x, 0) = u0 (~x) e ∂u
∂t
(~x, 0) = v0 (~x)
para certas funções u0 (~x) e v0 (~x) convenientes.
Pelo que apresentamos acima, soluções particulares da equação de Helmholtz correspondente em

coordenadas polares são (por simplicidade escolhemos a solução complexa) da forma

am Jm (λρ) + bm Nm (λρ) eimϕ ,
onde am e bm são constantes12 . Como esperamos que a solução não apresente divergências em ρ = 0,
devemos ter bm = 0. A condição de contorno que impõe que a solução deve anular-se em ρ = R conduz
a Jm (λR) = 0, ou seja, λ = αkm /R, onde αkm é o k-ésimo zero da função de Bessel Jm (x) para x > 0.
Isso fixa os valores da constante de separação λ. Para cada k a solução da equação temporal (10.1) fica
m m
αk c αk c
T (t) = α1 cos t + α2 sen t .
R R
Assim, uma solução particular da equação de onda satisfazendo as condições de contorno é

m m m
αk ct αk ct αk ρ
ak, m cos + bk, m sen Jm eimϕ ,
R R R
ak, m e bk, m sendo constantes. Cada uma dessas funções, para k ∈ N e m ∈ Z, representa um modo de
vibração da membrana circular de raio R.
Pelo princı́pio de sobreposição (ou seja, pela linearidade e homogeneidade da equação (10.59) e das
condições de contorno consideradas), a solução geral u da equação de onda satisfazendo as condições
de contorno e sua derivada temporal ∂u ∂t
são dadas por
X∞ ∞
X m m m
αk ct αk ct αk ρ
u(ρ, ϕ, t) = ak, m cos + bk, m sen Jm eimϕ , (10.60)
k=1 m=−∞
R R R
X∞ ∞
X m m m
∂u ak, m αkm c αk ct bk, m αkm c αk ct αk ρ
(ρ, ϕ, t) = − sen + cos Jm eimϕ .
∂t k=1 m=−∞
R R R R R
As constantes ak, m e bk, m devem ser determinadas pelas condições iniciais. É aqui que entram as
relações de ortogonalidade das funções de Bessel e das funções eimϕ .
As condições iniciais impoem (tomando t = 0 nas duas equações acima) que
∞
X ∞
X ′
αkm′ ρ ′
u0 (ρ, ϕ) = ak′ , m′ Jm′ eim ϕ ,
R
k ′ =1 m′ =−∞
∞
X X ∞ ′ m′
bk′ , m′ αkm′ c αk′ ρ ′
v0 (ρ, ϕ) = Jm′ eim ϕ .
′ ′
R R
k =1 m =−∞
12
Caso λ = 0, a única solução da equação de Laplace que é não-singular em ρ = 0 e anula-se em ρ = R é a solução
identicamente nula. Vide solução da equação de Laplace em duas dimensões dada acima.
Multiplicando ambos os lados de ambas as expressões

R π i(m−m′por e−imϕ e tomando-se a integral em ϕ no
)ϕ
intervalo −π ≤ ϕ ≤ π, obtemos com o uso de −π e dϕ = 2πδm, m′ ,
Z π X∞ m
−imϕ αk′ ρ
u0 (ρ, ϕ)e dϕ = 2π ak′ , m Jm ,
−π ′
R
k =1
Z π X∞ m
bk′ , m αkm′ c
−imϕ αk′ ρ
v0 (ρ, ϕ)e dϕ = 2π Jm .
−π ′
R R
k =1
m
αk ρ ρ
Multiplicando ambos os lados de ambas as expressões por Jm e integrando-se as expressões
R R
resultantes para ρ entre 0 e R, obtemos
Z RZ π m X∞ Z R m m
−imϕ αk ρ ρ αk ρ αk′ ρ ρ
u0 (ρ, ϕ)e Jm dρdϕ = 2π ak′ , m Jm Jm dρ ,
0 −π R R ′ 0 R R R
k =1
Z R Z π X bk′ , m αm′ c ∞ Z R
−imϕ αkm ρ ρ k αkm ρ αkm′ ρ ρ
v0 (ρ, ϕ)e Jm dρdϕ = 2π Jm Jm dρ .
0 −π R R ′
R 0 R R R
k =1
Temos, porém, com a óbvia mudança de variáveis x = Rρ ,

Z R m m Z 1
αk ρ αk′ ρ ρ (9.158) (Jm+1 (αkm ))2
Jm Jm dρ = R Jm (αkm x) Jm (αkm′ x) xdx = δk, k′ R
0 R R R 0 2
e, portanto,
Z R Z π
1 −imϕ αkm ρ
ak, m = u0 (ρ, ϕ)e Jm ρdρdϕ , (10.61)
π (Jm+1 (αkm ))2 R2 0 −π R
Z R Z π
1 −imϕ αkm ρ
bk, m = v0 (ρ, ϕ)e Jm ρdρdϕ . (10.62)
παkm c (Jm+1 (αkm ))2 R 0 −π R
Essas expressões determinam completamente os coeficientes ak, m e bk, m para todos k e m em temos
das condições iniciais. A solução assim obtida satisfaz, então, as condições de contorno e iniciais. A
Proposição 11.7, página 683, garante que a solução assim obtida é a única solução do problema proposto
(as condições de contorno que tratamos são do tipo de Dirichlet) o que, a posteriori, justifica todo o
nosso proceder.
Assim como no problema da corda pendurada, podemos expressar a solução diretamente em termos
das condições iniciais com o uso das chamadas funções de Green. Usando (10.61)-(10.62), podemos
reescrever (10.60) como
Z RZ π Z RZ π
′ ′ ′ ′ ′ ′ ′
u(ρ, ϕ, t) = G(ρ, ϕ, t, ρ , ϕ ) u0(ρ , ϕ ) ρ dρ dϕ + H(ρ, ϕ, t, ρ′ , ϕ′ ) v0 (ρ′ , ϕ′ ) ρ′ dρ′ dϕ′ ,
0 −π 0 −π
(10.63)
onde
m ′
αkm ρ αk ρ ′
∞
X ∞
X Jm Jm eim(ϕ−ϕ ) m
′ ′ R R αk ct
G(ρ, ϕ, t, ρ , ϕ ) := 2 cos ,
k=1 m=−∞
π (Jm+1 (αkm )) R2 R
m ′
αkm ρ αk ρ ′
∞
X ∞
X Jm Jm eim(ϕ−ϕ ) m
′ ′ R R αk ct
H(ρ, ϕ, t, ρ , ϕ ) := m m 2
sen .
k=1 m=−∞
παk c (Jm+1 (αk )) R R
Essas são as funções de Green para as condições iniciais do problema em questão. Note-se uma vez
mais que
∂H
G(ρ, ϕ, t, ρ′ , ϕ′ ) = (ρ, ϕ, t, ρ′ , ϕ′ ) .
∂t
Tal como no problema da corda pendurada, a importância de (10.63) está em expressar a solução
diretamente em termos das condições iniciais u0 e v0 . As funções G e H contêm em si a informação
de como os valores das condições iniciais no ponto (ρ′ , ϕ′ ) influenciam a solução no ponto (ρ, ϕ) no
instante de tempo t.
10.4 O Oscilador Harmônico na Mecânica Quântica e a Equação

de Hermite
A equação de Schrödinger13 independente do tempo para o oscilador harmônico unidimensional é
~2 d 2 k
− 2
ψ(x) + x2 ψ(x) = Eψ(x) , (10.64)
2m dx 2
onde E é um autovalor do operador de Hamilton14 , ~ é a constante de Planck15 , m a massa da partı́cula
e k a constante de Hooke16 . Definindo
2 1/4 r
~ k 2E x
α := , ω0 := , λ := − 1, z := , v(z) := ψ(x) = v(x/α) , (10.65)
mk m ~ω0 α
a equação (10.64) fica

v ′′ (z) + (λ + 1 − z 2 )v(z) = 0 .
A experiência mostra que para melhor tratarmos dessa equação devemos definir uma nova função
2 2
u(z) := ez /2 v(z), ou seja, escrevemos v(z) = e−z /2 u(z), obtendo para u a equação diferencial
u′′ (z) − 2zu′ (z) + λu(z) = 0 , (10.66)

13
Erwin Rudolf Josef Alexander Schrödinger (1887-1961).
14
15
Max Karl Ernst Ludwig Planck (1858-1947).
16
Robert Hooke (1635-1703).
a qual reconhecemos ser a equação de Hermite. Como discutimos, essa equação só possui soluções
2
que crescem mais lentamente que e+z /2 para |z| → ∞ se λ = 2n, sendo n um inteiro não-negativo. A
2
condição que u cresce mais lentamente que e+z /2 para |z| → ∞ é necessária para que v(z) e, portanto,
ψ(x), seja de quadrado integrável, uma condição fundamental para a Mecânica Quântica.
No caso em que λ = 2n, sendo n um inteiro não-negativo, a solução para (10.66) é u(z) = Hn (z),
sendo Hn o n-ésimo polinômio de Hermite. Se λ = 2n, então, por (10.65), o valor de E é dado por

1
En := ~ω0 n + ,
2
para n = 0, 1, 2, 3 . . .. Essa equação expressa a quantização da energia do oscilador harmônico

unidimensional na Mecânica Quântica. Ainda para λ = 2n, sendo n um inteiro não-negativo, a solução
ψn (x) da equação de Schrödinger (10.64) será
x
−z 2 /2 x2
ψn (x) = cn Hn (z)e = cn H n exp − 2 ,
α 2α
Rcn∞sendo uma 2
constante de normalização a ser fixada. Na Mecânica Quântica adota-se a normalização
−∞
|ψn (x)| dx = 1. Isso implica,
Z x 2
∞ 2 Z ∞
x (9.85) √
1 = |cn |2
Hn exp − 2 dx = α|cn | 2
(Hn (z))2 exp −z 2 dz = α|cn |2 2n n! π ,
−∞ α α −∞
q
1√
de onde se extrai, escolhendo-se cn real e positivo, que cn = α2n n! π
e, portanto,
s
1 x x2
ψn (x) = √ Hn exp − 2
α2n n! π α 2α
são os auto-estados normalizados de energia En para n = 0, 1, 2, 3 . . .. Com o uso de (9.85), é trivial

verificar ainda que Z ∞
ψn (x)ψm (x) dx = δn, m ,
−∞
a bem-conhecida relação de ortogonalidade das auto-funções ψn .

Z ∞ Z ∞ 2 2
2 2 1 2 x x 2 1
x |ψn (x)| dx = √ x Hn exp − 2 dx = α n + ,
−∞ α2n n! π −∞ α α 2
para todo n ∈ N, α sendo uma constante positiva. Na Mecânica Quântica a expressão do lado esquerdo,
acima, representa o valor médio do quadrado do operador de posição, ou seja, de x2 , no auto-estado
normalizado ψn do operador Hamiltoniano do oscilador harmônico.
Sugestão. Use as relações de recorrência (9.91), página 540, e as relações de ortogonalidade (9.85),
página 538, das funções Hn . 6
10.5 O Átomo de Hidrogênio e a Equação de Laguerre Asso-

ciada
A equação de Schrödinger independente do tempo que descreve uma partı́cula de massa m0 , em três
dimensões, sob um potencial de Coulomb17 atrativo V (r) = − αr , α > 0, é
~2 α
− ∆ψ − ψ = Eψ .
2m0 r
Expressando o operador Laplaciano em coordenadas esféricas, como em (10.8), essa equação fica

1 ∂ 2 ∂ψ 1 ∂ ∂ψ 1 ∂2ψ 2m0 α
r + ( senθ) + + + E ψ = 0.
r 2 ∂r ∂r senθ ∂θ ∂θ ( senθ)2 ∂ϕ2 ~2 r
Seguindo o procedimento de separação de variáveis, procuramos soluções na forma ψ = R(r)Y (θ, ϕ) e
obtemos, inserindo na equação,

(r 2 R′ (r))′ 2m0 2
1 1 ∂ ∂Y 1 ∂2Y
+ 2 αr + Er = − ( senθ) + .
R(r) ~ Y (θ, ϕ) senθ ∂θ ∂θ ( senθ)2 ∂ϕ2
Novamente, ambos os lados devem ser igualados a uma constante λ, e obtemos o par de equações

2 ′ ′ 2m0 2

(r R (r)) + αr + Er − λ R(r) = 0 ,
~2

1 ∂ ∂Y 1 ∂2Y
( senθ) + + λY = 0 .
Como já discutimos, a segunda equação só possui soluções finitas em θ = 0 e θ = π se λ = l(l + 1) com
l ∈ N, em cujo caso as soluções para Y são dadas pelas harmônicas esféricas Ylm (θ, ϕ) com m ∈ Z e
−l ≤ m ≤ l. A equação radial fica então

2 ′′ ′ 2m0 2

r R (r) + 2rR (r) + αr + Er − l(l + 1) R(r) = 0 .
~2
Para simplificar essa expressão, definamos as constantes
r
2m0 2m0
β := α e γ := − E
~2 ~2
(tomamos aqui E ≤ 0, o que corresponde aos chamados estados ligados), com o quê, escrevemos

r 2 R′′ (r) + 2rR′ (r) + βr − γ 2 r 2 − l(l + 1) R(r) = 0 .
eγr
Essa equação ainda não se encontra em uma forma reconhecı́vel, mas definindo S(r) := rl
R(r), ou
seja, escrevendo R na forma R(r) = r l e−γr S(r), obtem-se para S a seguinte equação:

rS ′′ (r) + 2(l + 1) − 2γr S ′ (r) + β − 2γ(l + 1) S(r) = 0 .
17
Charles Augustin de Coulomb (1736-1806).
E. 10.4 Exercı́cio. Faça essa conta ao menos uma vez na vida. 6
Definindo uma nova variável z = 2γr e y(z) = S(r) = y(2γr), obtemos para y(z) a equação
diferencial
′′ ′ β
zy (z) + 2(l + 1) − z y (z) − − (l + 1) y(z) = 0 ,
2γ
a qual, para fins de comparação, escrevemos como

′′ ′ β
zy (z) + (2l + 1) + 1 − z y (z) − + l − (2l + 1) y(z) = 0 .
2γ
β
Comparando a (8.158), reconhecemos que se trata da equação de Laguerre associada com n = 2γ +l.
Pela nossa discussão de quando tratamos da equação de Laguerre, devemos ter n um inteiro positivo
com 0 ≤ 2l + 1 ≤ n, de outra forma a solução da equação de Laguerre crescerá mais rápido que
exponencial, destruindo a propriedade de ψ ser de quadrado integrável. Assim, n deve ser tomado um
β
inteiro positivo e, portanto, p := 2γ deve ser também inteiro. Como 0 ≤ 2l + 1 ≤ n e n = p + l, segue
que p ≥ l + 1 e, portanto, p é igualmente um inteiro positivo.
Na situação descrita no último parágrafo, vimos na Seção 8.3.2, página 472, que as soluções da
(2l+1)
equação de Laguerre associada acima são dadas pelos polinômios de Laguerre associados Ln (z).
Retornando a R(r), obtivemos a solução

l βr (2l+1) βr
Rp, l (r) = r exp − Lp+l ,
2p p
β β
onde usamos p := 2γ ∈ N, p > 0, e escrevemos γ = 2p
. Voltando às constantes originais, a relação
β
γ = 2p expressa-se como
r
2m0 αm0 α2 m0 1
− E = , ou seja, E ≡ Ep = − , com p = 1, 2, 3, 4, . . . .
~ 2 p~2 2~2 p2
Essa é a bem-conhecida regra de quantização de energia do átomo de hidrogênio, obtida pela primeira
vez, por outros meios, por Bohr18 em 1912-1913 e reobtida posteriormente por Schrödinger em 1926
através do estudo das soluções da equação de Schrödinger para o potencial de Coulomb, como fizemos
acima. O número inteiro não-negativo p é denominado número quântico principal no contexto da
Os auto-estados de energia são

l βr (2l+1) βr
ψp, l, m (r, θ, ϕ) = cp, l, m r exp − Lp+l Ylm (θ, ϕ) ,
2p p
cp, l, m sendo uma constante de normalização a ser fixada pela imposição

Z Z ∞Z
2 3
1 = |ψp, l, m | d x = |ψp, l, m (r, θ, ϕ)|2 r 2 drdΩ ,
R3 0 S2
18
Niels Henrik David Bohr (1885-1962).
R
onde dΩ = sen(θ)dθdϕ. Como por (9.81) tem-se S 2 |Ylm (θ, ϕ)|2 dΩ = 1, segue que
Z ∞ 2
2 βr (2l+1) βr
1 = |cp, l, m | exp − Lp+l r 2l+2 dr
0 p p
2l+3 Z ∞ 2
p (2l+1)
= 2
|cp, l, m | e−ρ Lp+l (ρ) ρ2l+2 dρ
β 0
2l+3
(9.115) 2 p ((p + l)!)3
= |cp, l, m | (2p) .
β (p − l − 1)!
Assim, tomando cp, l, m real, obtemos

s l+1 s
β β (p − l − 1)!
cp, l, m = 2
.
2p p ((p + l)!)3
Finalmente, as auto-funções de energia normalizadas são
s l+1 s
β β (p − l − 1)! l βr (2l+1) βr
ψp, l, m (r, θ, ϕ) = 2 3
r exp − Lp+l Ylm (θ, ϕ) ,
2p p ((p + l)!) 2p p
com p ≥ l + 1, l ∈ N, l ≥ 0 e m ∈ Z com −l ≤ m ≤ l.
• Um comentário sobre a ortonormalidade das funções ψp, l, m
Nota para o leitor com conhecimento de Mecânica Quântica

Por serem auto-funções normalizadas do operador Hamiltoniano, as funções ψp, l, m devem satisfazer
as relações de ortogonalidade hψp′ , l, m , ψp, l, m i = δp, p′ . Integrando a parte angular, isso significa que
Z ∞
βr (2l+1) βr βr (2l+1) βr 2l+2 2 p2l+4 ((p + l)!)3
exp − ′ Lp′ +l exp − L p+l r dr = δp, p ′ .
0 2p p′ 2p p β 2l+3 (p − l − 1)!
O fator β pode ser absorvido com a mudança de variáveis ρ = βr e obtem-se
Z ∞
ρ
− 2p (2l+1) ρ ρ
− 2p (2l+1) ρ 2l+2 2 p2l+4((p + l)!)3
e ′
Lp′ +l e Lp+l ρ dρ = δp, p ′ , (10.67)
0 p′ p (p − l − 1)!
para todo p, p′ inteiros positivos (não-nulos). Essa é uma relação de ortogonalidade, não
exatamente
ρ
− 2p (2l+1) ρ
para os polinômio de Laguerre associados, mas para a famı́lia de funções e Lp+l p
, com l ≥ 0,
inteiro.
Perceba-se que não podemos eliminar simultaneamente p e p′ por uma mudança de variáveis na
integral em (10.67). É de se notar que essa relação de ortogonalidade não tem muito a ver com a relação
de ortogonalidade dos polinômios de Laguerre associados que obtivemos em (9.112). Infelizmente,
poucos livros de Mecânica Quântica ou de Fı́sica-Matemática comentam esse ponto19 , uma exceção um
tanto surpreendente sendo [5] e estas Notas.
19
[88] e [126] ignoram o assunto e mesmo o excelente [45] atribui erroneamente a normalização de ψp, l, m às relações
de ortogonalidade (9.112).
Comentamos que toda a teoria do átomo de hidrogênio, incluindo as várias expressões complexas
que derivamos acima envolvendo polinômios de Laguerre, e muito mais, já se encontrava nos primeiros
trabalhos de Schrödinger sobre a Mecânica Quântica, de 1926.
10.6 Propagação de Ondas em Tanques Cilı́ndricos

A versão original desta seção é de autoria de
André M. Timpanaro, Fleury J. Oliveira e Paulo H. Reimberg20
A Mecânica de Fluidos, quando consideramos fluidos ideais, é baseada fundamentalmente na equação

de Euler (vide, e.g., [89] ou [21])
∂~v 1
+ (~v · ∇) ~v + ∇p − ~g = 0 , (10.68)
∂t ρ
onde ~v é o campo de velocidades, ρ a densidade do fluido, p a pressão e ~g a aceleração da gravidade.
Esta equação, apesar de não-linear, pode, para certos limites, ser aproximada por equações lineares.
Quando isto se dá, a dificuldade em encontrar soluções explı́citas diminui consideravelmente. Será este
o caso tratado neste trabalho: o estudo de soluções explı́citas do problema de propagação de ondas na
superfı́cie de um lı́quido contido num tanque cilı́ndrico.
Consideraremos três casos limites com a caracterı́stica comum de que o comprimento de onda é
muito maior que sua amplitude. O primeiro caso tratado é o da propagação de tais ondas em um
tanque cuja profundidade é muito grande, não havendo, desta forma, influência do fundo na solução
das equações. O segundo caso tratado é um limite do anterior, fazendo com que o raio do tanque seja
infinito. O terceiro, e último caso estudado é aquele no qual a profundidade do tanque é muito menor
que o comprimento de onda, para o qual obtém-se uma solução bastante parecida com a do problema
da membrana circular da Seção 10.3, página 605 (mas com condições de contorno do tipo de Neumann).
• Ondas de gravitação e a propagação de ondas em tanques profundos
A superfı́cie de um fluido em equilı́brio sob a influência de um campo gravitacional uniforme é plana.

Se, por meio de uma ação exterior qualquer, a superfı́cie do fluido sair de seu estado de equilı́brio em
um ponto, um movimento inicia-se no fluido. Este movimento se propaga por todo o fluido sob a forma
de ondas.
Admitamos, primeiramente, que as ondas têm comprimentos muito maiores que suas amplitudes.
Assim, como será demonstrado, o termo não linear da equação de Euler, (~v · ∇)~v, pode ser desprezado
em comparação com ∂~v
∂t
.
Seja τ o perı́odo de oscilações das partı́culas da onda, estas partı́culas percorrem uma distância da
ordem da amplitude, a, da onda. A velocidade de seu movimento é , portanto, v ∼ τa .
20
No ano de 2005, alunos de graduação do Instituto de Fisica da Universidade de São Paulo. Tı́tulo original da
monografia: “Propagação de ondas na superfı́cie de um lı́quido contido em tanques circulares - uma breve análise”,
apresentada no curso de Mecânica dos Fluidos ministrado pelo Prof. M. Cattani.
A velocidade v varia de maneira notável para perı́odos de tempo da ordem de τ e para comprimentos
de onda, λ, dependendo da direção de propagação da onda. Desta forma, a derivada da velociade em
relação ao tempo é aproximadamente τv , e λv é a diferença de velocidades entre dois pontos distintos
do espaço percorridos pela partı́cula em um certo intervalo de tempo. Assim, se λ ≫ a, que é nossa
aproximação inicial, tem-se
1a a2 1 1 v ∂~v
≫ , v ≫ v, ≫ (~v · ∇) v .
ττ τ λ τ λ ∂t
Vemos que (~v · ∇) ~v é desprezı́vel em relação a ∂~

v
∂t
. Assim, obtemos para a equação de Euler a
simplificação
∂~v 1
= − ∇p − ∇φ , (10.69)
∂t ρ
onde φ é o potencial gravitacional (−∇φ = ~g ).
Para o caso isentrópico, ou seja, para entropia constante, temos:
1
∇p = ∇ (h + φ) , (10.70)
ρ
onde h é a entalpia do sistema. Aplicando o rotacional em ambos os lados da equação (10.69) obtemos:
∂
∇ × ~v = 0 ou seja, ∇ × ~v = constante . (10.71)
∂t
No entanto, para o movimento oscilatório, a média temporal de ~v é nula de forma que ∇ × ~v = 0,
sendo o fluido potencial em primeira aproximação (ou seja, ~v é o gradiente de um “potencial”, por ter
rotacional nulo). Pode-se então definir uma função potencial, ϕ, como sendo:
~v = ∇ϕ (10.72)
Aplicando a definição (10.72) à equação de Euler (10.69) obtemos:

∂ϕ p
= − − gz . (10.73)
∂t ρ
Assim, temos
∂ϕ
p = −ρgz − ρ . (10.74)
∂t
Suporemos o eixo z orientado verticalmente para cima e um sistema de coordenadas polares planas
r, θ tendo como origem o centro do tanque cilı́ndrico.
Designaremos a coordenada z dos pontos da superfı́cie do fluido por ζ; ζ é a função das coordenadas
r, θ, e do tempo. Se na superfı́cie a pressão for uma constante p0 , por exemplo, a pressão atmosférica,
obteremos para a equação (10.74)
∂ϕ
p0 = −ρgζ − ρ . (10.75)
∂t
Como, para um fluido incompressı́vel,

p0
∇ ϕ + t = ∇ϕ , (10.76)
ρ
podemos definir um novo potencial ϕ′ por:

p0
ϕ′ := ϕ + t. (10.77)
ρ
Assim,
∂ϕ′
gζ + = 0. (10.78)
∂t z=ζ
Como ζ é pequeno, visto que as ondas também o são, podemos considerar que
′
∂ζ (10.72) ∂ϕ (10.77) ∂ϕ
= vz = = , (10.79)
∂t ∂z ∂z
de forma que a derivada temporal da equação (10.78) torna-se
′
∂ϕ 1 ∂ 2 ϕ′
+ = 0. (10.80)
∂z g ∂t2 z=ζ
Novamente, como as oscilações são pequenas, pode-se substituir na equação (10.80) z = 0 no lugar de
z = ζ e ϕ′ por ϕ. De tal maneira, obtemos o sistema de equações diferencias que determinam as ondas
na superfı́cie do fluido.
∇2 ϕ = 0 , (10.81)

∂ϕ 1 ∂ 2 ϕ
+ = 0. (10.82)
∂z g ∂t2 z=0
Seja (por separação de variáveis) ϕ (r, θ, z, t) = Λ (r) A (θ) V (z) T (t). Obtem-se de (10.81) as
seguintes equações para os fatores Λ, A e V :

r 2 Λ′′ + rΛ′ + σ 2 r 2 − ν 2 Λ = 0 , (10.83)
A′′ + ν 2 A = 0 , (10.84)
V ′′ − σ 2 V = 0. (10.85)
Para que a solução seja periódica em θ, de perı́odo 2π, devemos ter que ν = m, onde m ∈ Z. Para
V , obtemos de (10.85) V (z) = Aeσz + Be−σz caso σ 6= 0 e V (z) = Az + B caso σ = 0, A e B sendo
constantes. Como desejamos uma solução finita para z → −∞ (onde localiza-se o fundo do tanque),
devemos ter Re (σ) ≥ 0 e V (z) = Aeσz . Disso obtem-se V ′ (0)/V (0) = σ e, por (10.82), obtemos para
o fator T a equação
T ′′ + gσT = 0 . (10.86)
Para que essa equação tenha um carater oscilatório e não divirja para t → ±∞ devemos ter Im (σ) = 0
e σ > 0.
Aplicando as condições de contorno (velocidade radial igual a zero em r = R) e admitindo que o
tanque seja profundo o bastante para que o fundo não interfira, obtém-se:
∞ ∞ m " r ! r !#
X X βk r imθ+ βkm z gβkm gβkm
ϕ (r, θ, z, t) = Jm e R ak, m cos t + bk, m sen t ,
k=1 m=−∞
R R R
(10.87)
′
onde Jm (x) são as funções de Bessel e βkm é o k-ésimo zero da função Jm (x) em R+ \ {0}. Para a
parte radial, não consideramos as funções de Neumann como possı́veis soluções da equação de Bessel
(10.83), pois estas soluções não são compatı́veis com a finitude da energia, devido à presença de uma
singularidade na origem.
Seja v0 a velocidade aplicada na superfı́cie do fluido no instante t = 0 na direção de z, ou seja,
v0 ≡ v0 (r, θ, z = 0, t = 0) ẑ. Então,
∞
X ∞
X
βkm r
v0 (r, θ) = ak,m Jm eimθ . (10.88)
k=1 m=−∞
R
A partir da equação (10.78) no caso em que ζ ≈ 0 e t = 0, temos

s m
X ∞ ∞
X βkm βk r imθ
ζ0 (r, θ) = − bk,m Jm e , (10.89)
k=1 m=−∞
gR R
onde ζ0 é a forma da superfı́cie no instante inicial.

Usando em (10.88) e (10.89) as relações
Rπ de ortogonalidade (9.159), página 560, das funções de
Bessel e as relações de ortogonalidade −π ei(m−n)θ dθ = 2πδmn das funções eimθ , determina-se o valor
das constantes ak, m e bk, m , que seguem:
Z RZ π
βkm −imθ βkm r
ak, m = 2 v0 (r, θ) e Jm r dθ dr , (10.90)
R
πR (βkm )2 − m2 Jm (βkm ) 0 −π
√ Z RZ
(βkm )3/2 g π
−imθ βkm r
bk, m = 2 ζ0 (r, θ) e Jm r dθ dr . (10.91)
R
πR3/2 (βkm )2 − m2 Jm (βkm ) 0 −π
Assim, determina-se completamente a solução para o potencial da velocidade do fluido.

Aplicando o gradiente pode-se obter as velocidades com que as ondas se propagam nas direções
radial e vertical em termos das condições iniciais. Desta forma,
∞ ∞ " r ! r !#
X X βkm ′ βkm r imθ+ βkm z gβkm gβkm
vr = Jm e R ak, m cos t + bk, m sen t ,
k=1 m=−∞
R R R R
∞ ∞ m " r ! r !#
X X βkm βk r imθ+ βkm z gβkm gβkm
vz = Jm e R ak, m cos t + bk, m sen t .
k=1 m=−∞
R R R R
Vemos dessas expressões que as velocidades decrescem exponencialmente com a profundidade. A forma
final da superfı́cie é dada pela equação (10.78) (no caso em que ζ ≈ 0) e fica
s m " r ! r !#
X∞ X∞
βkm βk r imθ gβkm gβkm
ζ = Jm e ak, m sen t − bk, m cos t . (10.92)
k=1 m=−∞
gR R R R
As ondas cuja propagação é descrita pelas expressões acima são denominadas ondas de gravitação na
literatura da Mecânica dos Fluidos. Vide e.g. [89].
• Propagação de ondas em um tanque profundo de raio infinito
Abordaremos agora o limite em que o raio e a profundidade do tanque são muito grandes (infinitos).
Tal é o caso se considerarmos ondas de pequeno comprimento de onda se propagando no meio de um
oceano. Nesse caso teremos novamente as equações (10.81)-(10.82)
∂2ϕ ∂ϕ ∂ 2 ϕ 2
2∂ ϕ
∇2 ϕ = 0 ⇒ r 2 + r + + r = 0 (10.93)
∂r 2 ∂r ∂θ2 ∂z 2
e
∂2ϕ ∂ϕ
+g = 0. (10.94)
∂t2 ∂z z=0
Para fazermos a separação de variáveis suporemos que ϕ pode ser escrita como
ϕ = ϕ(r, θ, z, t) = A(r)B(θ)C(z)D(t) . (10.95)

Dessa forma, as equações (10.93) e (10.94) ficam respectivamente
r 2 A′′ BCD + rA′ BCD + AB ′′ CD + r 2 ABC ′′ D = 0 (10.96)
e
ABC(0)D ′′ + gABC ′ (0)D = 0 . (10.97)
Para resolver a equação (10.96) iremos dividi-la por ABCD = ϕ. Sempre poderemos fazer isso desde
que a solução para ϕ não seja a solução trivial. Também iremos supor que as seguintes condições são
obedecidas:
B ′′
= cte. = −ν 2 . (10.98)
B
e
C ′′
= cte. = k 2 . (10.99)
C
Discutiremos se ν e k são ou não reais mais tarde. Levando em conta (10.98) e (10.99), (10.96) fica:
A′′ A′
r2 +r = ν 2 − k2 r2 =⇒ r 2 A′′ + rA′ + (r 2 k 2 − ν 2 )A = 0 . (10.100)
A A
Se fizermos uma mudança de variável chegaremos na equação de Bessel para a função Jν (x), de
forma que a solução é
A(r) = KJν (kr) . (10.101)
Se resolvermos (10.98) e (10.99) obteremos:
B(θ) = ξθ eiνθ + ζθ e−iνθ , (10.102)
C(z) = ξz ekz + ζz e−kz . (10.103)

Note que para que ϕ seja contı́nua e diferenciável (precisaremos dessas condições se quisermos
descrever a superfı́cie de forma satisfatória), então devemos ter que ν é inteiro. Além disso, como
vamos somar as soluções com ν variando de −∞ até +∞, podemos sem perda de generalidade considerar
ζθ = 0.
Na equação (10.103), devemos manter em mente que como o tanque é sem fundo devemos ter a
relação z → −∞ ⇒ ϕ → 0 satisfeita, de forma que k deve ser real (e sem perda de generalidade
positivo) e ζz = 0. Então a equação (10.97) fica
D ′′ p p
= −gk =⇒ D(t) = ξtkν cos gk t + ζtkν sen gk t . (10.104)
D
Então o resultado para o potencial é
h p p i
ϕkν (r, z, θ, t) = Jν (rk)eiνθ+kz Ekν cos gk t + Fkν sen gk t , (10.105)
onde as constantes Ekν e Fkν são definidas como
Ekν = ξθ ξtkν ,
Fkν = ξθ ζtkν .
Para determinarmos essas constantes em termos de k e ν, precisamos escolher condições iniciais.

Lembrando então as equações que foram deduzidas para as ondas pequenas (e que também valem nesse
caso) para a coordenada z dos pontos do fluido na superfı́cie, ζ. Então podemos escrever as condições
em termos de T (r, θ, t) = ∂ϕ |
∂t z=0
e de Z(r, θ, t) = ∂ϕ |
∂z z=0
no instante t = 0
Para tanto usaremos a transformada de Hankel21 (também conhecida como transformada de Fourier-
Bessel) e a relação de ortogonalidade da função einx :
Z ∞
√
F(q) = Hν (f )(q) = f (x) qxJν (qx) dx , (10.106)
0
Z ∞
√
f (x) = Hν−1 (F)(x) = F(q) qxJν (qx) dq , (10.107)
0
Z π
ei(m−n)x dx = 2πδmn . (10.108)
−π
Então, se Skν (r, θ) = Z(r, θ, 0), tem-se
Z π Z ∞ ∞
X
iνθ −iλθ
Skν (r, θ) = kJν (rk)e Ekν =⇒ Se dθ = 2πkJν (rk)Ekν δνλ dk
−π 0 ν=−∞
Z r ! Z √
∞
k √ π
rS(r, θ)e−iλθ
= 2πkJλ (rk)Ekλ dk = Hλ−1 2π Ekλ =⇒ kEkλ = Hλ dθ ,
0 r −π 2π
21
Hermann Haenkel (1839-1873).
o que nos leva a Z ∞Z π

rZ(r, θ, 0) −iνθ
Ekν = e Jν (rk) dθ dr . (10.109)
0 −π 2π
Se R(r, θ) = T (r, θ, 0), então
p Z π Z ∞ ∞
X p
−iλθ
Rkν (r, θ) = gkJν (rk)Fkν =⇒ Re dθ = 2π gkJν (rk)Fkν δνλ dk =
−π 0 ν=−∞
Z r r Z
∞ p g r 1 π
= 2π gkJλ (rk)Fkλ dk = Hλ−1 2π Fkλ =⇒ Fkλ = Hλ −iλθ
Re dθ
0 r g 2π −π
e, portanto, s Z Z
k ∞ π rT (r, θ, 0) −iνθ
Fkν = e Jν (rk) dθ dr . (10.110)
g 0 −π 2π
As funções Z e T podem ser obtidas a partir de ζ e ∂ζ

∂t
, as condições iniciais, a partir das equações
(10.77), (10.78) e (10.79) que também podem ser utilizadas para obter ζ. Por fim podemos obter o
campo de velocidades tomando ~v = ∇ϕ. E e F determinam completamente ϕ:
X∞ Z ∞ h p p i
ϕ(r, z, θ, t) = Jν (rk)eiνθ+kz Ekν cos gk t + Fkν sen gk t dk , (10.111)
ν=−∞ 0
~v (r, z, θ, t) = ∇ϕ(r, z, θ, t) , (10.112)
p0 1 ∂ϕ
ζ(r, θ, t) = − − (r, θ, 0, t) . (10.113)
ρg g ∂t
• Grandes ondas de gravitação e a propagação de ondas em tanques rasos
Trataremos agora da propagação de ondas com um comprimento de onda grande relativamente à

profundidade do meio onde se dá a propagação, mas amplitude pequena em relação ao comprimento
de onda.
Suporemos tratar de tanque cilı́ndrico de raio R. Na situação de equilı́brio, sem movimento, o fluido
atinge uma altura h0 do tanque. Suporemos um sistema de coordenadas cilı́ndricas r, θ, z, com o eixo
z coincidente com o eixo de simetria do tanque, sendo a coordenada z medida a partir do fundo do
tanque no sentido crescente para cima. Em havendo movimento do fluido, cada ponto da sua superfı́cie
terá altura h(r, θ), medida a partir do fundo do tanque. Definindo ζ(r, θ) = h(r, θ) − h0 , podemos
escrever h = h0 + ζ. A grandeza ζ descreve o afastamento da superfı́cie do fluido em relação à superfı́cie
de equilı́brio.
Como justificado anteriormente, podemos novamente desconsiderar o termo não-linear da equação
de Euler (10.68), que reduz-se a
∂~v ∇p
= − + ~g (10.114)
∂t ρ
Escrevendo esta equação para as componentes radial e tangencial, respectivamente, teremos

∂vr 1 ∂p
= − , (10.115)
∂t ρ ∂r
∂vθ 1 ∂p
= − , (10.116)
∂t ρr ∂θ
∂vz ∂p
= − . (10.117)
∂t ∂z
Lembrando que a pressão num ponto interior a um fluido aproximadamente estático é dada por
p ∼
= p0 + ρg (h − z)
onde h é altura da superfı́cie do fluido medida a partir do fundo, obteremos, substituindo esta em
(10.115) e em (10.116), a aproximação
∂vr ∼ ∂h
= −g , (10.118)
∂t ∂r
∂vθ ∼ g ∂h
= − , (10.119)
∂t r ∂θ
∂vz ∼
= 0. (10.120)
∂t
A equação de continuidade ∂ρ
∂t
+ ∇ · (ρ~v ) = 0 reduz-se, para fluidos incompressı́veis (ou seja, com
ρ = const.) a ∇ · ~v = 0. Em coordenadas cilı́ndricas isso significa
∂vz 1 ∂ (rvr ) 1 ∂vθ

+ + = 0.
∂z r ∂r r ∂θ
Integrando-se essa equação em z entre z = 0 (fundo do tanque) e z = h(r, θ, t) := h0 + ζ(r, θ, t)
(superfı́cie superior do fluido), obtemos
Z h Z h
1 ∂ (rvr ) 1 ∂vθ
vz (r, θ, h(r, θ, t), t) + dz + dz = 0 ,
0 r ∂r 0 r ∂θ
onde usamos a hipótese que vz (z = 0) = 0 (ou seja, o fluido não se move verticalmente no fundo do
tanque). Supondo agora que o tanque seja razo, e que vr e vθ não dependam da altura z, a última
expressão pode ser aproximada por
1 ∂ (rvr ) 1 ∂vθ
vz (r, θ, h(r, θ, t), t) + h(r, θ, t) + h(r, θ, t) = 0,
r ∂r r ∂θ
∂h
Lembrando que vz (r, θ, h, t) = ∂t
, obtemos
∂h h ∂ (rvr ) h ∂vθ
+ + = 0.
∂t r ∂r r ∂θ
Derivando esta equação em relação ao tempo, teremos

∂2h h ∂ ∂vr h ∂ ∂vθ vz ∂ vz ∂vθ
2
+ r + + (rvr ) + = 0.
∂t r ∂r ∂t r ∂θ ∂t r ∂r r ∂θ
Usando as expressões (10.118) e (10.119) a equação acima fica

∂2h h ∂ ∂h h ∂2h vz ∂ vz ∂vθ
2
−g r −g 2 2
+ (rvr ) + = 0.
∂t r ∂r ∂r r ∂θ r ∂r r ∂θ
Utilizando h = h0 + ζ, desprezando termos quadráticos em ζ e nas velocidades, obtem-se

2
∂2ζ ∂ ζ 1 ∂ζ 1 ∂2ζ
− gh0 + + = 0. (10.121)
∂t2 ∂r 2 r ∂r r 2 ∂θ2
Podemos notar que a expressão entre parênteses é o Laplaciano bidimensional escrito em coorde-
nadas polares. Com isso podemos escrever (10.121) mais sucintamente como:
∂2ζ
2
− gh0∇2 ζ = 0 . (10.122)
∂t
Vemos que esta√é uma equação de onda em duas dimensões, que corresponde a ondas com velocidade
de propagação gh0 (Comentário en pasant: o fato de a velocidade de propagação diminuir com a
profundidade do tanque explica o por quê de uma onda “quebrar” ao se aproximar de uma praia).
As ondas cuja propagação é descrita por (10.122) são denominadas grandes ondas de gravitação na
literatura da Mecânica dos Fluidos. Vide e.g. [89]. Como desejamos conhecer a forma de ondas na
superfı́cie de um tanque cilı́ndrico devemos aplicar o método de separação de variáveis à equação
(10.122).
Supondo ζ da forma Λ (r) A (θ) T (t) na equação (10.122), teremos:
σ2
T ′′ + T = 0, (10.123)
gh0

r 2 Λ′′ + rΛ′ + σ 2 r 2 − ν 2 Λ = 0 , (10.124)
A′′ + ν 2 A = 0 . (10.125)
Devido à expresão (10.118), e ao fato de a velocidade radial

vr ser ∂h
nula
na borda do tanque (quando
r = R) para todo tempo t, constatamos que devemos ter ∂r r=R = ∂r r=R = 0. Essa relação deve ser
∂ζ
entendida como condição de contorno (do tipo de Neumann) a ser satisfeita pela função ζ(r, θ).
Resolvendo sistema de equações diferenciais (10.123)-(10.125) sujeito à condição de contorno de
que a derivada de ζ em relação ao raio deve anular-se em r = R a solução para o perfil das ondas na
superfı́cie do lı́quido será:
X∞ X∞ m√ m√ m
βk gh0 t βk gh0t βk r imθ
ζ (r, θ, t) = ak,m cos + bk,m sen Jm e , (10.126)
k=1 m=−∞
R R R
onde ν = m ∈ N para que a solução seja periódica de perı́odo 2π em θ e onde, como anterioremente,
′
βkm designa o k-ésimo zero de Jm em R+ \ {0}. Para a parte radial, não consideramos as funções de
Neumann como possı́veis soluções da equação de Bessel, pois estas não são compatı́veis com a finitude
da energia, devido à presença de uma singularidade na origem.
Supondo, como condições iniciais, que a superfı́cie do lı́quido tenha uma forma descrita por uma
função ζ0 (r, θ) e uma distribuição de velocidades verticais dada por v0 (r, θ) em t = 0, teremos:
∞
X ∞
X
βkm r
ζ0 (r, θ) = ak, m Jm eimθ , (10.127)
k=1 m=−∞
R
∞
X ∞
X √ m
βkm gh0 βk r imθ
v0 (r, θ) = bk, m Jm e . (10.128)
k=1 m=−∞
R R
Utilizando em (10.127) e (10.128) asR relações de ortogonalidade (9.159), página 560, das funções de
π
Bessel e as relações de ortogonalidade −π ei(m−n)θ dθ = 2πδmn das funções eimθ , teremos:
Z RZ π
1 −imθ βkm r
ak, m = 2 ζ0 (r, θ) e Jm r drdθ , (10.129)
R
πR2 1 − βmm (Jm (βkm ))2 0 −π
k
Z RZ π
1 −imθ βkm r
bk, m = 2 v0 (r, θ) e Jm r drdθ (. 10.130)
√ R
πR gh0βkm 1− m
βkm
(Jm (βkm ))2 0 −π
Essas expressões determinam completamente os coeficientes ak, m e bk, m para todos k e m em termos
das condições iniciais.
• Problemas selecionados de Eletrostática
E. 10.5 Exercı́cio. [Potencial de um anel uniformemente carregado] Determine o potencial

elétrico φ(r, θ) produzido no vácuo por um anel unidimensional de raio R, uniformemente carregado com
carga elétrica total Q e densidade linear de carga λ = Q/(2πR), nas seguintes regiões:
a) r > R.
b) r < R.
c) r = R, mas θ 6= π/2.
As variáveis r e θ referem-se ao sistema de coordenadas esféricas cuja origem é o centro do anel e cujo eixo
z, a partir de onde o ângulo θ é medido, coincide com o eixo de simetria do anel.
Sugestão 1. Calcule primeiramente o potencial ao longo do eixo de simetria. Para os demais pontos use
a solução da equação de Laplace:
∞
X
n Bn
φ(r, θ) = An r + n+1 Pn (cos(θ)) .
n=0
r
Os coeficientes An e Bn são fixados pela solução ao longo do eixo de simetria (que correspondem a θ = 0
e θ = π).
Sugestão 2. Para x ∈ C com |x| < 1 e para todo α ∈ C, vale a expansão binomial (vide (8.199), página
490):
X ∞
(α + 1 − k)k k
(1 + x)α = x ,
k=0
k!
onde, para x ∈ C e n ∈ N, (x)n são os sı́mbolos de Pochhammer definidos em (8.143), página 464. Em
particular, para |t| < 1, tem-se
∞
X
−1/2 (2k − 1)!!
(1 + t) = 1+ αk tk , com αk = (−1)k .
k=1
(2k)!!
E. 10.6 Exercı́cio. [Potencial de um disco uniformemente carregado] Determine o potencial

elétrico φ(r, θ) produzido no vácuo por um disco de raio R, uniformemente carregado com carga elétrica
total Q e densidade superficial de carga σ = Q/(πR2 ), nas seguintes regiões:
a) r > R.
b) r < R, mas 0 ≤ θ < π/2.
c) r < R, mas π/2 < θ ≤ π.
As variáveis r e θ referem-se ao sistema de coordenadas esféricas cuja origem é o centro do disco e cujo
eixo z, a partir de onde o ângulo θ é medido, coincide com o eixo de simetria do disco.
Sugestões. Calcule primeiramente o potencial ao longo do eixo de simetria. Para os demais pontos use
a solução (10.15) da equação de Laplace :
X∞
n Bn
φ(r, θ) = An r + n+1 Pn (cos(θ)) .
n=0
r
Use também a expansão binomial (8.199), citada no Exercı́cio E. 10.5, página 623.
Lembre-se também que sobre o semi-eixo z > 0, onde θ = 0, tem-se z 2n = r 2n P2n (cos(0)) para todo
n ≥ 0 e |z| = +rP1 (cos(0)). Porém, sobre o semi-eixo z < 0, onde θ = π, tem-se z 2n = r 2n P2n (cos(π))
para todo n ≥ 0 mas |z| = −rP1 (cos(π)). Esse último sinal “-” é importante para distinguir as soluções
dos itens b e c.
Obtenha o potencial de um plano infinito uniformemente carregado tomando o limite R → ∞ da solução
acima. 6
E. 10.7 Exercı́cio. [Potencial de uma barra finita uniformemente carregada] Considere uma
barra unidimensional de comprimento L, uniformemente carregada e com carga elétrica total Q. Determine,
em termos de uma expansão em série envolvendo polinômios de Legendre, o potencial elétrico φ(r, θ)
produzido por essa barra no vácuo na região r > L/2. As variáveis r e θ referem-se ao sistema de
coordenadas esféricas cuja origem é ponto médio da barra e cujo eixo z, a partir do qual o ângulo θ é
medido, coincide com o eixo da barra.
Para averiguar se o resultado obtido está correto, verifique a validade aproximada da lei de Coulomb para
r grande.
Sugestão. Como no exercı́cio anterior, determine primeiro o potencial ao longo do eixo z. 6
• Modos de vibração de cordas
E. 10.8 Exercı́cio. [Corda pendurada com amortecimento] Determine a solução da equação da

corda pendurada com amortecimento

∂2u ∂u ∂ ∂u
+γ −g z = 0,
∂t2 ∂t ∂z ∂z
onde γ > 0 e g > 0, que descreve o movimento de uma corda de comprimento L localizada, quando em
repouso, no intervalo 0 ≤ z ≤ L do eixo vertical, pendurada pelo seu extremo superior (o que corresponde à
condição de contorno u(L, t) = 0 para todo t) e com condições iniciais u(z, 0) = u0 (z) e ∂u
∂t
(z, 0) = v0 (z),
para certas funções u0 e v0 dadas.
Sugestão. Ao resolver a equação para a parte temporal (método de separação de variáveis), lembre-se
que alguns modos de vibração podem ter amortecimento sub-crı́tico e outros super-crı́tico. Para simplificar,
ignore o caso de amortecimento crı́tico. 6
• Modos de vibração de membranas

E. 10.9 Exercı́cio. [Membrana circular com amortecimento] Determine a solução da equação de

ondas com amortecimento
1 ∂2u ∂u
2 2
+γ − ∆u = 0,
c ∂t ∂t
γ > 0, em duas dimensões, no interior de um disco de raio R, com |u(ρ, ϕ, t)| < ∞, com condições de
contorno de Dirichlet u(R, ϕ, t) = 0 e com as condições iniciais
∂u
u(ρ, ϕ, 0) = 0 e (ρ, ϕ, 0) = v0 (ρ),
∂t
onde 


 V, 0 ≤ ρ ≤ R0 < R ,
v0 (ρ) =


 0, R0 < ρ ≤ R .
Acima, as coordenadas ρ e ϕ referem-se ao sistema de cordenadas polares cuja origem coincide com o centro
do disco de raio R.
Sugestão. Ao resolver a equação para a parte temporal (método de separação de variáveis), lembre-se
que alguns modos de vibração podem ter amortecimento sub-crı́tico e outros super-crı́tico. Para simplificar,
ignore o caso de amortecimento crı́tico.
6
E. 10.10 Exercı́cio dirigido. [Membrana em forma de um triângulo retângulo isósceles]22

Determine a solução da equação de ondas em duas dimensões para o movimento transversal de uma mem-
brana bidimensional na forma de uma triângulo retângulo isósceles de lado L > 0 ou seja, contido na região
TL ⊂ R2 definida por (em coordenadas Cartesianas)
n o
TL := (x, y) ∈ R2 | x ≥ 0, y ≥ 0, x + y ≤ L .
Vide Figura 10.1, página 626.

Assuma que a membrana está fixa nas bordas, ou seja, assuma as condições de contorno de Dirichlet
u(x, 0) = 0 para todo 0 ≤ x ≤ L , (10.131)
u(0, y) = 0 para todo 0 ≤ y ≤ L , (10.132)
u(x, L − x) = 0 para todo 0 ≤ x ≤ L . (10.133)
A condição (10.133) impõe a nulidade de u na aresta D da Figura 10.1.

22
Este exercı́cio contém um dos raros problemas com condições de contorno não-separáveis que, no entanto, podem
ainda ser resolvidos pelo método de separação de variáveis. Para tal é essencial que o triângulo retângulo considerado
seja isósceles. Para triângulos retângulos gerais o método não se aplica, infelizmente.
L
D
TL
x
L
Figura 10.1: A membrana triangular TL . A aresta D corresponde ao segmento de reta x + y = L com
0 ≤ x ≤ L (e, portanto, 0 ≤ y ≤ L).
Mostre que a solução da equação de ondas que satisfaz as condições de contorno (10.131)-(10.133) é
∞
X mπx nπy mπy nπx
u(x, y, t) = sen sen − (−1)m+n sen sen
m>n≥1
L L L L

× Amn cos (ωmn t) + Bmn sen (ωmn t) ,
√
onde ωmn = cπ L
n2 + m2 . Determine as constantes Amn e Bmn a partir das condições iniciais u(x, y, 0) =
∂u
u0 (x, y) e ∂t (x, y, 0) = v0 (x, y), sendo u0 e v0 funções dadas em TL e que representam a posição e
velocidade, respectivamente, de cada ponto da membrana em t = 0.
Sugestões. As condições de contorno (10.131)-(10.133) não são separáveis nas coordenadas Cartesianas
x e y, mas a equação de Helmholtz ∆u + λu = 0 ainda o é. O método de separação de variáveis fornece
soluções do tipo sen(αx) sen(βy) as quais satisfazem as condições de contorno (10.131) e (10.132), mas
não a condição (10.133). A idéia é considerar as funções
Jα, β (x, y) := sen(αx) sen(βy) + c sen(βx) sen(αy) ,
as quais satisfazem (10.131) e (10.132) e a equação de Helmholtz ∆u + λu = 0 com λ = α2 + β 2 , e
tentar determinar α, β e c de sorte que Jα, β (x, L − x) = 0 seja satisfeita para todo 0 ≤ x ≤ L (condição
(10.133)).
Notemos primeiramente que para β = ±α tem-se Jα, ±α (x, y) = c0 sen(αx) sen(αy) (com c0 =
±(1 + c)) e a condição Jα, α (x, L − x) = 0 fica c0 sen(αx) sen(αL) cos(αx) − cos(αL) sen(αx) = 0, que
só pode ser satisfeita para todo x se c0 = 0 ou se α = 0, levando, em ambos os casos, à solução trivial
identicamente nula. Para α = 0 ou β = 0 temos também a solução trivial identicamente nula.
Para |α| =
6 |β|, ambos não-nulos, procedemos da seguinte forma. Verifique que
Jα, β (x, L − x) = sen(βL) sen(αx) cos(βx) + c sen(αL) cos(αx) sen(βx)
− [cos(βL) + c cos(αL)] sen(αx) sen(βx) . (10.134)
Mostremos agora que as funções
f1 (x) := sen(αx) cos(βx) , f2 (x) := cos(αx) sen(βx) e f3 (x) := sen(αx) sen(βx)
são linearmente independentes. Para tal, observemos que se existirem a1 , a2 e a3 tais que
a1 sen(αx) cos(βx) + a2 cos(αx) sen(βx) + a3 sen(αx) sen(βx) = 0 (10.135)

para todo x, então em x = π/β terı́amos a1 sen αβ π = 0 Há aqui duas possibilidades: a) vale a1 = 0; b)
vale α = mβ com m ∈ Z mas com m 6= 0 e m 6= ±1 (pois já excluı́mos o caso α = 0 e o caso α = ±β).
β π
No caso b terı́amos de (10.135), no ponto x = π/α, que a2 sen α π = 0, ou seja, a2 sen m = 0,
o que só é possı́vel se a2 = 0. Com isso, (10.135) ficaria a1 cos(βx) + a3 sen(βx) = 0, o que só é
possı́vel se a1 = a3 = 0. Terı́amos, portanto, a1 = a2 = a3 = 0. No caso a, no qual a1 = 0, (10.135)
ficaria a2 cos(αx) + a3 sen(αx) = 0, o que só é possı́vel se a2 = a3 = 0. Terı́amos novamente, portanto,
a1 = a2 = a3 = 0. Isso estabeleceu a independência linear das funções f1 , f2 e f3 .
Isto posto, impor em (10.134) que Jα, β (x, L − x) = 0 seja satisfeita para todo 0 ≤ x ≤ L equivale a
impor
sen(βL) = 0 , (10.136)
c sen(αL) = 0 , (10.137)
cos(βL) + c cos(αL) = 0 . (10.138)
De (10.136) temos β = nπ/L com n ∈ N, mas n > 0 para excluir a solução nula. Com isso, teremos por
(10.138) que
c cos(αL) = (−1)n+1 . (10.139)
Isso, em particular, implica que c 6= 0 e, por (10.137), concluı́mos que sen(αL) = 0, o que implica
α = mπ/L com m, n ∈ N, sendo m > 0. Dessa forma, (10.139) significa que c = (−1)m+n+1 .
Concluı́mos disso que as funções
mπx nπy mπy nπx
Mmn (x, y) = sen sen − (−1)m+n sen sen
L L L L
2
com m, n ∈ N, sendo m, n > 0, satisfazem a equação de Helmholtz com λ = Lπ 2 (n2 + m2 ) e satisfazem
todas as condições de contorno (10.131)-(10.133) sendo, portanto, o modos de vibração do problema.
A função Mmn (x, y) é identicamente nula caso m = n e tem-se Mmn (x, y) = −(−1)m+n Mnm (x, y).
Assim, apenas as funções Mmn (x, y) com m > n ≥ 1 são independentes.
Obtenha as relações de ortogonalidade na região TL para as funções Mmn (x, y), m > n ≥ 1. 6
E. 10.11 Exercı́cio. [Modos de vibração de um setor triangular de um disco] Determine a

solução da equação de ondas em duas dimensões para o movimento transversal de uma membrana bidimen-
sional na forma de uma setor triangular de um disco de raio R > 0 e ângulo de abertura β, ou seja, contida
na região (em coordenadas polares) 0 ≤ ρ ≤ R e 0 ≤ ϕ ≤ β, com 0 < β ≤ 2π. Vide Figura 10.2, página
629. Assuma que a membrana está fixa nas bordas, ou seja, assuma as condições de contorno u(R, ϕ) = 0
para todo 0 ≤ ϕ ≤ β e u(ρ, 0) = u(ρ, β) = 0 para todo 0 ≤ ρ ≤ R (condições de contorno de Dirichlet).
Mostre que a solução da equação de ondas que satisfaz as condições de contorno é
X∞ X ∞ νm νm νm
αn ρ mπ αn ct αn ct
u(ρ, ϕ, t) = Jν m sen ϕ Amn cos + Bmn sen ,
m=1 n=1
R β R R
onde νm = mπ β
e onde αnνm é o n-ésimo zero de Jνm na semireta (0, ∞). Determine as constantes Amn e
Bmn a partir das condições iniciais u(ρ, ϕ, 0) = u0 (ρ, ϕ) e ∂u
∂t
(ρ, ϕ, 0) = v0 (ρ, ϕ), sendo u0 e v0 funções
dadas em 0 ≤ ρ ≤ R e 0 ≤ ϕ ≤ β e que representam a posição e velocidade, respectivamente, de cada
ponto da membrana em t = 0. Será necessário usar as relações de ortogonalidade (9.158), página
560, para
mπ
as funções de Bessel Jνm assim como as relações de ortogonalidade para as funções sen β ϕ . 6
E. 10.12 Exercı́cio. [Membrana anelar] Determine a solução da equação de ondas em duas dimensões
para o movimento transversal de uma membrana anelar, de raio interno R1 e raio externo R2 com 0 < R1 <
R2 , ou seja, contido na região (em coordenadas polares) R1 ≤ ρ ≤ R2 e 0 ≤ ϕ ≤ 2π. Assuma que
a membrana está fixa nas bordas (condições de contorno de Dirichlet), ou seja, as assuma condições de
contorno u(R1 , ϕ) = u(R2 , ϕ) = 0 para todo 0 ≤ ϕ ≤ 2π. Mostre que a solução da equação de ondas
que satisfaz as condições de contorno é
X∞ X∞
imϕ µmn ct µmn ct
u(ρ, ϕ, t) = Rmn (ρ) e Amn cos + Bmn sen ,
m=−∞ n=1
R2 R2
com
µmn R1 µmn ρ µmn R1 µmn ρ
Rmn (ρ) := Nm Jm − Jm Nm ,
R2 R2 R2 R2
sendo que µmn é o n-ésimo zero no intervalo (0, ∞) da função

R1 R1
Lm (x) := Nm x Jm (x) − Jm x Nm (x) .
R2 R2
A determinação das constantes Amn e Bmn a partir das condições iniciais usuais pode ser feita com uso
das relações de ortogonalidade descritas no Teorema 9.7, página 563. 6
E. 10.13 Exercı́cio. [Membrana triangular-anelar] Determine a solução da equação de ondas em

duas dimensões para o movimento transversal de uma membrana na forma de um setor triangular-anelar,
ou seja, contida na região (em coordenadas polares) R1 ≤ ρ ≤ R2 e 0 ≤ ϕ ≤ β, com 0 < R1 < R2 e
0 < β < 2π. Vide Figura 10.2, página 629.
Assuma que a membrana está fixa nas bordas, ou seja, assuma as condições de contorno u(R1 , ϕ) =
u(R2 , ϕ) = 0 para todo 0 ≤ ϕ ≤ β e u(ρ, 0) = u(ρ, β) = 0 para todo R1 ≤ ρ ≤ R2 (condições de
R1
β
β
R R
2
Figura 10.2: À esquerda: um setor triangular de um disco, com raio R > 0 e ângulo de abertura β,
sendo 0 < β ≤ 2π. À direita: um setor triangular anelar de um disco, com raio interno R1 , raio externo
R2 e ângulo de abertura β, sendo 0 < R1 < R2 e 0 < β ≤ 2π.
contorno de Dirichlet). Mostre que a solução da equação de ondas que satisfaz as condições de contorno é
X∞ X ∞
mπ µmn ct µmn ct
u(ρ, ϕ, t) = Rmn (ρ) sen ϕ Amn cos + Bmn sen ,
m=1 n=1
β R 2 R 2
com
µmn R1 µmn ρ µmn R1 µmn ρ
Rmn (ρ) := J−νm Jν m − Jν m J−νm ,
R2 R2 R2 R2
mπ
onde νm = β
, sendo que µmn é o n-ésimo zero no intervalo (0, ∞) da função

R1 R1
Lm (x) := J−νm x Jνm (x) − Jνm x J−νm (x) .
R2 R2
A determinação das constantes Amn e Bmn a partir das condições iniciais usuais pode ser feita com uso
das relações de ortogonalidade descritas no Teorema 9.7, página 563. 6
• Problemas em três dimensões
E. 10.14 Exercı́cio. [Ondas amortecidas em uma esfera] Determine (tão detalhada e explicita-
mente quanto possı́vel) a solução da equação de ondas com amortecimento
1 ∂2u ∂u
2 2
+γ − ∆u = 0,
c ∂t ∂t
γ > 0, em três dimensões, no interior da esfera de raio R, com |u(r, θ, ϕ, t)| < ∞, com condições de
contorno de Dirichlet u(R, θ, ϕ, t) = 0 e com as condições iniciais
∂u
u(r, θ, ϕ, 0) = 0 e (r, θ, ϕ, 0) = v0 (r),
∂t
onde 


 V, 0 ≤ r ≤ R0 < R ,
v0 (r) =


 0, R0 < r ≤ R .
E. 10.15 Exercı́cio. [Resfriamento de uma esfera] Uma esfera homogênea de raio R, boa condutora
de calor, com constante de difusão K > 0, encontra-se em contacto térmico com um banho térmico à
temperatura T = 0. No instante de tempo t = 0 a temperatura inicial da esfera é descrita (em um sistema
de coordenadas esféricas, cuja origem coincide com o centro da esfera) por uma função u0 (r, θ, ϕ), com
0 ≤ r ≤ R, 0 ≤ θ ≤ π e 0 ≤ ϕ ≤ 2π.
a. Determine a temperatura u(r, θ, ϕ, t) de um ponto do interior da esfera com coordenadas (r, θ, ϕ)

no instante t ≥ 0.
sen(ξ)
b. Determine explicitamente u(r, θ, ϕ, t) para o caso em que u0 (r, θ, ϕ) = T0 , onde ξ ≡ πr/R.
ξ
Sugestão. Funções de Bessel esféricas.

6
E. 10.16 Exercı́cio. [Resfriamento de um cano] Um cano cilı́ndrico infinito, cujo raio interno é R1
e cujo raio externo é R2 , é formado por um material Mc cuja constante de difusão térmica é K. O cano
está em contacto por dentro com um material M1 à temperatura T1 e por fora com um material M2 à
temperatura T2 . As temperaturas dos materiais M1 e M2 são mantidas constantes e não mudam nem com
o tempo nem com a posição.
Adotemos coordenadas cilı́ndricas (r, ϕ, z), cujo eixo z coincide com o eixo do cilindro. Deseja-se
determinar a temperatura u(r, ϕ, z, t) no interior do cano, ou seja, para R1 ≤ r ≤ R2 . Como o cano é
infinito e as temperaturas dos meios M1 e M2 não variam, a temperatura u deve ser apenas uma função de
r, ϕ e t.
Seguindo a Lei de Fourier, as condições de contorno a serem satisfeitas em r = R1 e em r = R2 devem
impor que o fluxo de calor na superfı́cie de contacto entre o cano um meio externo deve ser proporcional
à diferença de temperatura entre ambos os meios na superfı́cie de contacto, sendo que a constante de
proporcionalidade σ depende de ambos os materiais em contacto térmico. Ou seja, devemos impor
∂u
(R1 , ϕ, t) = +σ1 [u(R1 , ϕ, t) − T1 ]
∂r
e
∂u
(R2 , ϕ, t) = −σ2 [u(R2 , ϕ, t) − T2 ] ,
∂r
para todo t e todo ϕ.
Sabendo que a temperatura no interior do cano (ou seja, para R1 ≤ r ≤ R2 ) era u0 (r, ϕ) no instante
t = 0, determine a temperatura u(r, ϕ, z, t) para todo t > 0. A temperatura u deve satisfazer a equação
de difusão do calor
∂u
= K∆u .
∂t
Sugestão. As condições de contorno acima são não-homogêneas. Para passar para condições ho-
megêneas, proceda da seguinte forma. Escreva
u(r, ϕ, t) = f (r, ϕ, t) + g(r)
e escolha g, que é uma função apenas de r, de modo que ∆g = 0 e de modo que
g ′ (R1 ) − σ1 g(R1 ) = −σ1 T1
e
g ′ (R2 ) + σ2 g(R2) = +σ2 T2 .
Com isso, como ∆g = 0, a função f deve satisfazer também a equação de difusão

∂f
= K∆f
∂t
mas com condições de contorno homogêneas
∂f
(R1 , ϕ, t) − σ1 f (R1 , ϕ, t) = 0
∂r
e
∂f
(R2 , ϕ, t) + σ2 f (R2 , ϕ, t) = 0 ,
∂r
para todo t e todo ϕ.
Comentários: 1o A determinação dos auto-valores não precisa ser feita completamente, caso envolva
a solução de uma equação transcendente. É suficiente deixar indicado como proceder. 2o A solução
para f requer o uso de funções de Bessel e de Neumann, semelhantemente ao Exercı́cio E. 10.12, página
628, mas as condições de contorno daquele exercı́cio eram de Dirichlet, enquanto que, no caso presente,
são mistas. Tal como naquele exercı́cio, é importante determinar as relações de ortogonalidade a serem
usadas e para isso recomenda-se dar uma olhada no Teorema 9.7, página 563, e adaptar a demonstração
para o presente contexto. Isso pode ser trabalhoso. 3o Não esquecer que a condição inicial para f é
f (r, ϕ, 0) = u0 (r, ϕ) − g(r). 6
* *** *
Capı́tulo 11
Rudimentos da Teoria das Equações Diferenciais
Parciais
Conteúdo
11.1 Definições, Notações e Alguns Exemplos . . . . . . . . . . . . . . . . . . . 633
11.1.1 Alguma Classificação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 640
11.2 O Método de Separação de Variáveis . . . . . . . . . . . . . . . . . . . . . 641
11.2.1 O Método de Separação de Variáveis. Caso de Equações Lineares . . . . . . . 642
11.2.2 O Método de Separação de Variáveis. Caso de Equações Não-Lineares . . . . 646
11.3 O Método das Caracterı́sticas . . . . . . . . . . . . . . . . . . . . . . . . . . 648
11.3.1 Exemplos de Aplicação do Método das Caracterı́sticas . . . . . . . . . . . . . 654
11.3.2 Caracterı́sticas. Comentários Adicionais . . . . . . . . . . . . . . . . . . . . . 669
11.4 Unicidade de Soluções de Equações Diferenciais Parciais . . . . . . . . . . 671
11.4.1 Casos Simples. Discussão Preliminar . . . . . . . . . . . . . . . . . . . . . . . 671
11.4.2 Unicidade de Soluções. Generalizações . . . . . . . . . . . . . . . . . . . . . . 678
N este capı́tulo apresentaremos uma breve introdução à teoria das equações diferenciais parciais.
Serão apresentados alguns métodos de resolução mais comummente empregados e alguns
teoremas de unicidade de solução de importância na justificativa daqueles métodos. Assim
como as equações diferenciais ordinárias, introduzidas no Capı́tulo 5, página 276, equações
diferenciais parciais são de grande importância nas Ciências Naturais por expressarem leis fı́sicas.
Ainda que tenham se desenvolvido em paralelo, a teoria das equações diferenciais ordinárias distingue-
se um tanto da teoria das equações diferenciais parciais, pois na segunda menos resultados gerais
são conhecidos e os métodos de resolução e de análise qualitativa são mais intrincados e limitados em
escopo. Por exemplo, não existem na teoria das equações diferenciais parciais resultados sobre existência
e unicidade de solução que sejam tão gerais quanto os Teoremas de Peano e de Picard-Lindelöf, válidos
para equações diferenciais ordinárias (vide Teorema 5.1, página 296 e Teorema 5.2, página 297). Uma
outra observação geral que deve ser feita sobre a teoria das equações diferenciais parciais é que nem
sempre encontram-se resultados válidos para equações de ordem arbitrária com um número arbitrário
de variáveis. Há mais resultados, e mais fortes, sobre equações envolvendo duas variáveis que mais de
duas variáveis e, igualmente, há mais e mais fortes resultados sobre equações de ordem um ou dois que
para equações de ordem três ou mais.
Alguns métodos de resolução de equações diferenciais parciais, como o método de separação de
variáveis e o método das caracterı́sticas, envolvem a resolução de equações diferenciais ordinárias e
vamos nos dedicar a eles aqui. Exemplos de aplicações poderão ser encontrados no Capı́tulo 10, página
583.
632
A Seção 11.4, página 671, dedica-se a alguns teoremas de unicidade de solução, os quais são evocados
nos exemplos do Capı́tulo 10. A leitura da Seção 11.4 dispensa a leitura das seções precedentes.
Há uma vasta literatura sobre equações diferenciais parciais e nossas pretensões no presente capı́tulo
são infimamente modestas. Para um estudo mais completo recomendamos [30, 31], [74], [113], [48],
[39], [136], [36], [76].
11.1 Definições, Notações e Alguns Exemplos

Em termos simples, uma equação diferencial parcial (EDP) é uma relação a ser satisfeita por uma
função de várias variáveis e um conjunto finito de suas derivadas parciais (incluindo eventualmente
derivadas parciais mistas). Passemos a formalizar essa idéia.
Uma função incógnita de n variáveis reais u(x1 , . . . , xn ) é dita satisfazer uma equação diferencial
parcial definida por uma função de N variáveis G se

∂u ∂u ∂k u
G x1 , . . . , xn , u(x1 , . . . , xn ), , ..., , ..., = 0
∂x1 ∂xn ∂xkn
em um certo domı́nio Ω ⊂ Rn . O grau da maior derivada que ocorra na equação é dito ser a ordem
da equação diferencial parcial. Vide exemplos logo adiante. Com essa generalidade há, como também
notamos quando apresentamos a definição de equações diferenciais ordinárias (Capı́tulo 5, página 276),
equações impossı́veis, como por exemplo no caso em que, para uma função de duas variáveis u(x1 , x2 ),

∂u ∂u ∂u ∂u
G u(x1 , x2 ), (x1 , x2 ), (x1 , x2 ) = |u| + + +1 = 0
∂x1 ∂x2 ∂x1 ∂x2
que não pode ser satisfeita de forma alguma. Assim, devemos sempre supor a existência de um domı́nio
(aberto) onde G anula-se, hipótese que assumiremos doravante sem maiores comentários.
• Notação de multi-ı́ndices e diversas outras notações
Devido à freqüente ocorrência de derivadas parciais mistas na teoria das equações diferenciais par-
ciais é conveniente introduzir algumas notações simplificadoras. Um n-multi-ı́ndice, ou simplesmente
multi-ı́ndice, é uma n-upla α = (α1 , . . . , αn ) onde cada αk é um número inteiro maior ou igual a zero.
A ordem de um multi-ı́ndice α, denotada por |α|, é definida por |α| := α1 + · · · + αn .
Seja u um a função de n variáveis x1 , . . . , xn . Dado um multi-ı́ndice α, denotamos por D α u ou
por ∂ α u a derivada parcial mista de u univocamente definida por
∂ |α| u
D α u ≡ ∂ α u := ,
∂xα1 1 · · · ∂xαnn
sendo que, se 0 = (0, . . . , 0) for o multi-ı́ndice nulo, define-se D 0 u := u.
Neste texto denotaremos por Mnm o conjunto de todos os n-multi-ı́ndices de ordem menor ou igual
a m:
n o n o
Mnm := (α1 , . . . , αn ) ∈ Nn , 0 ≤ |α| ≤ m = (α1 , . . . , αn ) ∈ Nn , 0 ≤ α1 + · · · + αn ≤ m
(11.1)
e denotaremos por Nnm o conjunto de todos os n-multi-ı́ndices de ordem igual a m:

n o n o
Nnm := (α1 , . . . , αn ) ∈ Nn , |α| = m = (α1 , . . . , αn ) ∈ Nn , α1 + · · · + αn = m . (11.2)
(n+m−1)!
O número de elementos do conjunto Nnm é denotado por |Nnm | e tem-se |Nnm| = n+m−1m
= (n−1)! m!
(vide Exercı́cio E. 9.9, página 516). Pelo Exercı́cio E. 9.10, página 517, tem-se também que |Mnm |, o
(n+m)!
número de elementos do conjunto Mnm , é dado por |Mnm | = n+m m
= n!m! .
É de se notar a validade da relação
D α D β = D α+β = D β D α ,
onde, se α = (α1 , . . . , αn ) e β = (β1 , . . . , βn ), denotamos α + β := (α1 + β1 , . . . , αn + βn ) = β + α.

Além da notação de multi-ı́ndices, empregaremos outras notações para as derivadas parciais de uma
função u. Por exemplo,
∂u
≡ ∂x u ≡ ux
∂x
são três sı́mbolos que representam a derivada parcial de u em relação a x. Analogamente,
∂2u ∂2u
≡ ∂xx u ≡ uxx , ≡ ∂xy u ≡ uxy etc.
∂x2 ∂x∂y
• Operadores diferenciais lineares
Uma expressão como X

L := aα (x1 , . . . , xn ) D α ,
α∈Mn
m
onde aα , α ∈ Mnm , são funções em princı́pio arbitrárias das variáveis x1 , . . . , xn , é dita ser um operador
diferencial linear de ordem m nas variáveis x1 , . . . , xn . Naturalmente só faz sentido, classicamente
falando, aplicar operadores diferenciais lineares de ordem m em funções m vezes diferenciáveis.
• Exemplos de equações diferenciais parciais de interesse
Como ilustração e para futura referência apresentemos uma breve lista de equações diferenciais
parciais de interesse. Abaixo, u é uma função de n variáveis reais x1 , . . . , xn , n ≥ 1, ou de n + 1
variáveis reais t, x1 , . . . , xn . Em muitas aplicações t representa o tempo e x1 , . . . , xn representa
coordenadas espaciais. Os sı́mbolos ∆ e ∇2 denotam o operador Laplaciano para as coordenadas
espaciais x1 , . . . , xn , que no caso de coordenadas Cartesianas se escreve:
∂2 ∂2
∆ ≡ ∇2 := + · · · + .
∂x21 ∂x2n
Equação de Laplace1
∆u = 0 .
1
Equação de Poisson2 :
∆u = ρ ,
ρ sendo uma função não-nula (doutra forma recaı́mos na equação de Laplace).
Equação de Helmholtz3 :
∆u + k 2 u = 0 ,
onde k 2 é um parâmetro fixo ou um autovalor a ser fixado pela imposição de condições de contorno.
Equação de difusão ou Equação do calor (provavelmente proposta pela primeira vez por Fourier4 ):
∂u
− D∆u = φ ,
∂t
onde D é uma constante positiva e φ uma função, a qual pode ser identicamente nula.
Equação de onda homogênea:

∂2u
2
− c2 ∆u = 0 ,
∂t
onde c é uma constante positiva.
Equação de onda homogênea com amortecimento:
∂2u ∂u
2
+γ − c2 ∆u = 0 ,
∂t ∂t
onde c > 0 e γ > 0 são constantes.
Equação do telégrafo:
∂2u ∂2u ∂u ∂u
α − β + γ + δ + ηu = 0 ,
∂t2 ∂x2 ∂t ∂x
onde α, β, γ, δ e η são constantes positivas.
Equação de Tricomi5:
∂2u ∂2u
− y = 0.
∂y 2 ∂x2
Equação de Schrödinger6 dependente do tempo:
∂u ~2
i~ = − ∆u + V u ,
∂t 2m
onde u ≡ u(~x, t) é uma função de ~x e t, ~ (a constante de Planck) e m são constantes positivas,
e V ≡ V (~x, t) é uma função de ~x e t.
2
3
4
Jean Baptiste Joseph Fourier (1768-1830).
5
Francesco Giacomo Tricomi (1897-1978).
6
Equação de Schrödinger independente do tempo:

~2
− ∆u + V u = Eu ,
2m
onde u ≡ u(~x) é uma função apenas de ~x, assim como
R a função V , sendo E um autovalor a ser
fixado por condições de contorno e pela condição |u(~x)|2 dn~x < ∞.
Equação de Schrödinger não-linear:
∂u ~2
i~ = − ∆u + α|u|2u ,
∂t 2m
α sendo uma constante positiva (geralmente).
Equação de Klein-Gordon7 :
1 ∂2u
∆u − − m2 u = 0 ,
c2 ∂t2
c e m constantes positivas.
Equação de Korteweg-deVries8, também abreviada para Equação KdV:
r
∂η g 3 ∂η ∂3η
= η + 2σ 3 ,
∂t l 2 ∂x ∂x
3
com σ = l3 − Tρgl . Essa equação descreve o movimento de um fluido de densidade ρ e tensão
superficial T em um canal unidimensional de profundidade l, A constante g sendo a aceleração
da gravidade. Após algumas transformações simples a equação pode ser rescrita em uma forma
na qual a equação de Korteweg-deVries é usualmente apresentada na literatura moderna:
∂u ∂ 3 u ∂u
+ 3 + 6u = 0. (11.3)
∂t ∂x ∂x
Equação de Burgers9 :
∂u ∂2u ∂u
−η 2 +u = 0, (11.4)
∂t ∂x ∂x
η sendo uma constante positiva. A equação de Burgers é uma espécie de versão unidimensional da
equação de Navier-Stokes da Mecânica dos Fluidos (sem gradiente de pressão e forças externas).
Para η = 0 tem-se a Equação de Burgers inviscı́vel (i.e., sem viscosidade):
∂u ∂u
+u = 0. (11.5)
∂t ∂x
Essa equação também coincide com a versão unidimensional da equação de Euler da Mecânica
dos Fluidos na ausência de gradiente de pressão e forças externas. Vide [89].
7
Oskar Klein (1894-1977). Walter Gordon (1893-1939). A equação de Klein-Gordon foi, em verdade, originalmente
proposta por Schrödinger como equação de onda para uma partı́cula quântica relativı́stica, antes mesmo de Schrödinger
propor a equação (não-relativı́stica) que leva seu nome (e, portanto, antes de Klein e Gordon).
8
Diederik Johannes Korteweg (1848-1941). Gustav deVries (1866-1934). A referência original ao trabalho de Korteweg
e de deVries é “On the Change of Form of Long Waves Advancing in a Rectangular Canal and on a New Type of Long
Stationary Waves”, Philosophical Magazine, 5th series, 36 (1895) 422–443.
9
Johannes Martinus Burgers (1895-1981).
Equação da Óptica Geométrica:

2 2
2 ∂u ∂u
(grad u) = 1 , ou seja, +···+ = 1.
∂x1 ∂xn
• A noção de solução clássica de uma EDP
Assim como no caso de equações diferenciais ordinárias, algumas palavras devem ser ditas sobre a
noção de solução de uma equação diferencial parcial. Uma solução clássica de uma equação diferencial
parcial de ordem m em n variáveis em um domı́nio Ω ⊂ Rn (suposto conexo e de interior não-vazio) é
uma função m-vezes diferenciável que satisfaz a equação em todos os pontos do interior de Ω. Existem
também outras noções de solução, como a de solução fraca, de solução distribucional, de solução
estocástica etc. Discutiremos aqui apenas as soluções clássicas e, por isso, abusando um pouco da
linguagem, nos referiremos a elas simplesmente como “soluções”, sem pender o qualificativo “clássicas”.
• Condições de contorno, iniciais e subsidiárias
Uma equação diferencial definida em um domı́nio Ω ⊂ Rn vem em muitos exemplos de interesse

acompanhada de condições a serem satisfeitas pelas soluções e suas derivadas na fronteira de Ω (que
eventualmente pode estar no infinito). Tais condições são genericamente denominadas condições de
contorno, ou condições de fronteira, ou condições iniciais, dependendo da interpretação que possuam.
Há diversos tipos de condições de contorno e tradicionalmente desenvolveu-se uma nomenclatura para
denominar certas condições de contorno, empregada especialmente no caso de equações de segunda
ordem. Se Ω ⊂ Rn é um conjunto limitado, condições que fixem o valor da solução u na fronteira de
Ω são denominadas condições de Dirichlet10 . Condições envolvendo apenas as primeiras derivadas da
solução u são denominadas condições de Neumann11 . Há também condições mistas, envolvendo tanto
a função quanto suas primeiras derivadas na fronteira. Condições de contorno também podem ser
lineares (se dependerem linearmente da solução e suas derivadas) ou não-lineares e as lineares podem
ser homogêneas ou não-homogêneas.
O leitor poderá encontrar exemplos de condições de contorno nas aplicações do Capı́tulo 10, página
583. Para a relevância de condições de contorno na questão da unicidade de soluções, vide Seção 11.4,
página 671.
Se uma das variáveis da equação diferencial tiver a interpretação de tempo, condições impostas
à solução em uma superfı́cie t = const. são denominadas condições iniciais. De um ponto de vista
teórico não há nenhuma diferença qualitativa entre condições iniciais e de contorno, mas é importante
distingui-las em aplicações, pois ambas podem ter interpretações distintas enquanto imposições fı́sicas
às soluções.
Exemplifiquemos isso na seguinte situação. Se desejarmos descrever a evolução da temperatura
em cada ponto de uma barra unidimensional de comprimento L, estendida no intervalo 0 ≤ x ≤ L,
cujas bordas em x = 0 e x = L estão em contacto com banhos térmicos a temperaturas a(t) e b(t),
respectivamente, devemos considerar a equação de difusão do calor ∂t u = D∂xx u, definida na região
10
11
t ≥ 0 e 0 ≤ x ≤ L, onde u(x, t) representa a temperatura da barra no ponto x no instante t e

D > 0 é a constante de difusão de calor da barra. A condição u(x, t = 0) = u0 (x) fixa a temperatura
inicial da barra em cada ponto x do intervalo [0, L] como sendo u0 (x), onde u0 é uma função dada.
As condições u(x = 0, t) = a(t) e u(x = L, t) = b(t) para t ≥ 0 fixa a temperatura nos extremos
da barra como sendo a(t) e b(t), respectivamente, para todos os tempos posteriores a t = 0, a e b
sendo funções dadas. A primeira condição é denominada condição inicial, pois fixa uma condição para
a solução em t = 0, o instante “inicial” a partir do qual a evolução da solução é estudada. Já as
duas outras condições são de contorno (do tipo de Dirichlet), pois impõe uma condição à solução nos
extremos espaciais do sistema considerado. Nesse caso, a região Ω ⊂ R2 onde a equação diferencial
está definida é o retângulo semi-infinito Ω = {(x, t), 0 ≤ x ≤ L, t ≥ 0} ⊂ R2 . As condições
u(x, 0) = u0 (x) para 0 ≤ x ≤ L, u(0, t) = a(t) e u(L, t) = b(t) para t ≥ 0 são condições impostas
a u na fronteira ∂Ω de Ω, que consiste do conjunto formado pela união de três linhas descrita em
∂Ω = {(x, 0), 0 ≤ x ≤ L} ∪ {(0, t), t ≥ 0} ∪ {(L, t), t ≥ 0} ⊂ R2 e podem também, assim, ser
entendidas como condições de contorno impostas à solução em ∂Ω.
Outro exemplo é o da equação de ondas para descrever uma corda vibrante de densidade constante,
fixa nos extremos estendida no intervalo 0 ≤ x ≤ L: c2 ∂tt u = ∂xx u, onde c é a velocidade de propagação
a onda e u(x, t) seu desvio da posição de equilı́brio. A região Ω é a mesma de acima. As condições de
contorno (para uma corda fixa nos extremos) são u(0, t) = u(L, t) = 0 para todo t e a condição inicial
fixa a posição e a velocidade de cada ponto da corda em t = 0: u(x, 0) = u0(x) e ∂t u(x, 0) = v0 (x),
para todo 0 ≤ x ≤ L, u0 e v0 sendo funções dadas.
De um ponto de vista matemático um certo cuidado deve ser tomado na definição de condições
iniciais ou de contorno, pois estas podem ser incompatı́veis com a continuidade e a diferenciabilidade
das soluções. No exemplo acima, para que a equação da corda vibrante faça sentido sua solução deve
ser contı́nua e duas vezes diferenciável em relação a t e a x. No entanto, há problemas nos quais
as condições iniciais, definidas pelas condições u0 e v0 , não têm essas propriedades de continuidade e
diferenciabilidade. Tal se dá nos casos da chamada corda “pinçada” e da chamada corda “martelada”.
No primeiro, impõe-se em t = 0


 U0

 x, 0≤x≤h

 h

u0 (x) = , v0 (x) ≡ 0 .





 U0
 (L − x) , h ≤ x ≤ L
L−h
A corda é pinçada em t = 0 no ponto x = h até um deslocamento U0 > 0 e solta daı́ com velocidade
nula. No segundo, o problema da corda “martelada”, impõe-se




 V0 , 0 < a ≤ x ≤ b < L



u0 ≡ 0 , v0 (x) = .






 0 , de outra forma
Vide Figura 11.1, página 639. A corda está inicialmente em sua posição de repouso e é imprimida (por
exemplo, por uma martelada) uma velocidade V0 > 0 aos pontos situados no intervalo [a, b], onde
0 < a < b < L.
u0(x) v (x)
0
U0
V0
x x
h L a b L
Figura 11.1: As funções u0 e v0 para a corda pinçada e martelada, respectivamente.
No primeiro caso (corda pinçada), a função u0 é contı́nua mas não diferenciável em x = 0. No

segundo caso (corda martelada), a função v0 não é contı́nua em x = a e x = b. Em tais casos, as
condições iniciais devem ser entendidas como limites: lim u(x, t) = u0 (x), lim ∂t u(x, t) = v0 (x).
t→0+ t→0+
Além de condições de contorno e iniciais, há problemas que envolvem condições ditas condições
subsidiárias, que impõe outros tipos de restrições às soluções, por vezes de caráter global. Um caso
muito importante é o da equação de Schrödinger da Mecânica Quântica, R onde impõe-se a condição que
2 n
a solução deve ser de quadrado integrável, ou seja, deve satisfazer |u(~x, t)| d ~x < ∞ para todo t,
onde a integração é feita na região espacial onde o sistema está definido.
O fato importante é que as soluções de equações diferenciais parciais dependem crucialmente das
condições de contorno, iniciais ou subsidiárias impostas. Em verdade, a própria questão da existência
e/ou unicidade da solução dessas equações depende crucialmente daquelas condições. Vide Seção 11.4,
página 671.
• Problemas bem-postos
Um problema envolvendo a resolução de uma equação diferencial parcial é dito ser um problema
bem-posto caso se possa garantir: 1o existência de solução, 2o unicidade de solução, 3o continuidade
em relação a condições iniciais e de contorno (continuidade aqui entendida em relação a alguma to-
pologia conveniente). Esta noção foi introduzida por Hadamard12 ao listar propriedades que modelos
matemáticos de sistemas fı́sicos deveriam idealmente possuir, uma colocação, aliás, ingênua, pois em
Fı́sica pode haver também interesse por problemas mal-postos. É por vezes muito importante deter-
minar a priori se um problema de interesse é bom-posto mas, particularmente na Fı́sica, não apenas
problemas bem-postos atraem a atenção. A questão da boa-postura de certas equações diferencias par-
ciais é ainda assunto de pesquisa, especialmente no que concerne à questão de estabilidade de soluções
(continuidade em relação a condições inicias, de contorno e a parâmetros).
12
Jacques Salomon Hadamard (1865-1963). Vide J. Hadamard: “Sur les problèmes aux dérivées partielles et leur
signification physique”. Princeton University Bulletin, 49–52 (1902).
11.1.1 Alguma Classificação

Equações diferenciais parciais podem ser classificadas de diversas formas de acordo com certas carac-
terı́sticas. Métodos de resolução e propriedades das soluções dependem dos tipos aos quais as equações
pertencem e listaremos aqui alguns de maior interesse. A nomenclatura que apresentaremos é impor-
tante para futuras discussões. A classificação mais básica divide as equações diferenciais em lineares e
não-lineares.
• Equações lineares e não-lineares
Uma equação diferencial parcial para uma função u é dita ser linear se depender linearmente de u
e suas derivadas parciais. Por exemplo, a forma mais geral de uma equação linear de segunda ordem
nas variáveis x e t é
∂2u ∂2u ∂2u ∂u ∂u
a1 (x, t) 2
+ a2 (x, t) 2
+ a3 (x, t) + a4 (x, t) + a5 (x, t) + a6 (x, t)u = b(x, t) ,
∂x ∂t ∂x∂t ∂x ∂t
as funções ak , k = 1, . . . , 6, e b, acima, são em princı́pio arbitrárias, mas não contêm nenhuma
dependência em u, apenas nas variáveis x e t.
De modo geral, uma equação diferencial linear de ordem m em n variáveis x1 , . . . , xn é da forma
X
aα (x1 , . . . , xn ) D α u(x1 , . . . , xn ) = b(x1 , . . . , xn ) , (11.6)
α∈Mn
m
onde, usando a notação de multi-ı́ndices introduzida acima, aα , α ∈ Mnm , e b são funções em princı́pio
arbitrárias das variáveis x1 , . . . , xn (recordar a definição de Mnm em (11.1)).
Muito freqüentemente denotaremos uma equação diferencial linear por Lu = b, onde L é um ope-
rador diferencial linear, como definido acima.
Analogamente ao que ocorre para equações diferenciais ordinárias, uma equação linear Lu = b é dita
ser homogênea se a função b for identicamente nula e não-homogênea, caso contrário. Também como no
caso de equações ordinárias, vale para equações homogêneas o princı́pio de sobreposição: se u1 e u2 são
duas soluções de uma equação homogênea, então qualquer combinação linear γ1 u1 + γ2 u2 é igualmente
uma solução. Note-se que aqui não foram levadas em conta condições iniciais ou de contorno, que
podem limitar as combinações lineares possı́veis.
• Parte principal de uma EDP. Equações semi-lineares e quase-lineares
A parte de uma equação diferencial parcial que contém as derivadas de maior ordem é denominada
parte principal da equação. Por exemplo, a parte principal da equação linear de ordem m de (11.6) é
X
aα (x1 , . . . , xn ) D α u(x1 , . . . , xn )
α∈Nn
m
(recordar a definição de Nnm em (11.2)).

Diversas propriedades de equações diferenciais dependem de sua parte principal, de modo que é
relevante classificá-las de acordo com propriedades de sua parte principal.
Uma equação diferencial é dita ser uma equação semi-linear se sua parte principal for um operador
linear. Assim, a forma geral de uma equação semi-linear de ordem m em n variáveis x = (x1 , . . . , xn )
é X
aα (x) D α u(x) = H(x, u, D β1 u, . . . , D βk u) ,
α∈Nn
m
onde aα são funções apenas de x e H depende eventualmente de x, de u e de k derivadas do tipo D βl u,

l = 1, . . . , k, com |βl | < m.
Uma equação diferencial é dita ser uma equação quase-linear se sua parte principal depender line-
armente das derivadas de maior ordem. Assim, a forma geral de uma equação quase-linear de ordem
m em n variáveis x = (x1 , . . . , xn ) é
X
aα (x, u, D β1 u, . . . , D βk u) D αu(x) = H(x, u, D β1 u, . . . , D βk u) ,
α∈Nn
m
onde H e as funções aα dependem eventualmente de x, de u e de k derivadas do tipo D βl u, l = 1, . . . , k,

com |βl | ≤ m − 1. Acima, k ≤ |Mnm−1 | = n+m−1
m−1
.
Assim, a forma geral de uma equação quase-linear de primeira ordem é:
n
X ∂u
ak (u, x) = b(u, x) ,
k=1
∂xk
onde x = (x1 , . . . , xn ) são as n variáveis das quais a função u depende e onde as funções b(u, x)
e ak (u, x), k = 1, . . . , n, são funções de x e de u, mas não de derivadas de u. A forma geral de
uma equação quase-linear de segunda ordem é (por simplicidade, mas sem perder em generalidade,
consideraremos apenas funções em duas variáveis: x e y):
∂2u ∂2u ∂2u

a(x, y, u, ∂x u, ∂y u) + b(x, y, u, ∂x u, ∂y u) + c(x, y, u, ∂x u, ∂y u) = d(x, y, u, ∂x u, ∂y u)
∂x2 ∂x∂y ∂y 2
onde as funções a, b, c e d dependem de x, y, u, e das duas derivadas parciais de primeira ordem de u.
É de se notar que toda equação linear é semi-linear e toda equação semi-linear é quase-linear.
Um outro comentário é que diversas equações diferenciais quase-lineares de primeira ordem podem
ser resolvidas por um método denominado método das caracterı́sticas, do qual falaremos na Seção 11.3,
página 648. Diversas equações diferenciais lineares e homogêneas podem ser resolvidas pelo método de
separação de variáveis, sobre o qual falaremos na Seção 11.2, página 641.
11.2 O Método de Separação de Variáveis

Dentre os diversos métodos de resolução de equações diferenciais parciais aquele que encontra mais
freqüentemente emprego em aplicações é o chamado método de separação de variáveis.
A idéia desse método consiste basicamente do seguinte. Suponhamos que procuramos resolver uma
equação diferencial parcial (linear ou não) para uma função incógnita u(x1 , . . . , xn ) de n variáveis
x1 , . . . , xn . O método de separação de variáveis consiste em identificar uma função F conveniente de n
variáveis e procurar escrever u em termos de F e n funções desconhecidas de uma variável X1 , . . . , Xn

na forma
u(x1 , . . . , xn ) = F(X1(x1 ), . . . , Xn (xn )) ,
de sorte a transformar a equação diferencial parcial para u em um conjunto de n equações diferenciais
ordinárias desacopladas para as funções X1 , . . . , Xn , as quais podem ser eventualmente resolvidas pelo
vasto arsenal de métodos de resolução de equações diferenciais ordinárias.
Identificar a função F conveniente para cada caso é parte da arte de resolver equações por esse
método. Por exemplo, mostra a experiência que no caso de certas equações diferenciais lineares ho-
mogêneas pode-se adotar F na forma de um produto:
u(x1 , . . . , xn ) = F(X1 (x1 ), . . . , Xn (xn )) = X1 (x1 ) · · · Xn (xn ) .
Veremos também exemplos de equações não-lineares onde pode-se adotar F na forma de uma soma:
u(x1 , . . . , xn ) = F(X1 (x1 ), . . . , Xn (xn )) = X1 (x1 ) + · · · + Xn (xn ) .
Outras formas para a função F são possı́veis. Vide exemplos da Seção 11.2.2.
É importante frisar que nem sempre o método de separação de variáveis permite encontrar a totali-
dade das soluções de uma dada equação. No caso de equações lineares e homogêneas, porém, o método
de separação de variáveis, combinado com o princı́pio de sobreposição, permite em muitos casos uma
resolução completa de certos problemas sob certas condições iniciais e de contorno. Discutimos isso no
que segue e nos exemplos do Capı́tulo 10, página 583.
11.2.1 O Método de Separação de Variáveis. Caso de Equações Lineares

O chamado método de separação de variáveis é freqüentemente empregado na solução de certas equações
diferenciais parciais lineares e homogêneas. Quer a sorte que muitas equações de interesse em Fı́sica
pertencem à classe de equações para as quais esse método é eficaz, uma das razões da sua popularidade.
Uma segunda vantagem desse método reside no fato de o mesmo transformar um problema de equações
diferenciais parciais em uma série de problemas de equações diferenciais ordinárias, sobre as quais
muito mais é conhecido no que concerne a métodos de solução. Uma terceira razão para o interesse no
método de separação de variáveis reside no fato de o mesmo permitir explorar simetrias de determinados
problemas (por exemplo, a simetria por rotações), o que é de particular utilidade em certas situações.
O método de separação de variáveis foi originalmente descoberto (ou inventado) por Daniel Bernoulli13
no estudo de diversas equações diferenciais lineares, como a equação da corda vibrante (vide Seção
10.2, página 593).
Vamos ilustrar o emprego do método de separação de variáveis no tratamento de uma equação
parcial linear e homogênea de segunda ordem em duas variáveis reais, digamos x e y, definidas em um
certo domı́nio de R2 , mas é importante que se diga que o método é também eventualmente aplicável
se mais variáveis estiverem envolvidas e/ou se a ordem da equação for diferente de dois.
Seja a equação a derivadas parciais linear e homogênea da forma
∂2u ∂2u ∂u ∂u
A(x) 2
+ B(y) 2
+ C(x) + D(y) + (E(x) + F (y))u = 0 , (11.7)
∂x ∂y ∂x ∂y
13
sendo que ou A ou B não é identicamente nula (de modo que a equação seja de segunda ordem em
pelo menos uma das variáveis, mas não-necessariamente em ambas) a ser satisfeita por uma função
incógnita de duas variáveis u(x, y). Como claramente indicado acima, as funções A, C e E são funções
de uma única variável, a saber x, enquanto que B, D e F são funções de uma única variável, a saber
y. É preciso supor muito pouco sobre essas funções, por exemplo, que as mesmas são contı́nuas, mas
mesmo essa hipótese pode ser enfraquecida, o que ocorre em muitos exemplos de interesse (vide as
próximas seções). Por enquanto, deixemos de lado considerações sobre o domı́nio de validade D ⊂ R2
da equação acima e sobre condições de contorno e concentremo-nos em procurar soluções particulares
de (11.7).
O método de separação de variáveis consiste em procurar soluções particulares para a equação (11.7)
que sejam da forma u(x, y) = F(X(x), Y (y)) := X(x)Y (y). Antes de fazermos perguntas sobre a
aplicabilidade dessa idéia, vejamos a que a mesma conduz. Inserindo o Ansatz u(x, y) = X(x)Y (y) na
equação (11.7), obtem-se
A(x)X ′′ (x)Y (y) + B(y)X(x)Y ′′ (y) + C(x)X ′(x)Y (y) + D(y)X(x)Y ′ (y) + (E(x) + F (y))X(x)Y (y) = 0 .
Dividindo-se essa expressão por X(x)Y (y), obtem-se
X ′′ (x) Y ′′ (y) X ′ (x) Y ′ (y)

A(x) + B(y) + C(x) + D(y) + E(x) + F (y) = 0 .
X(x) Y (y) X(x) Y (y)
Aqui, é de se observar que cada termo da expressão acima é função de uma única variável. Separando
os termos que dependem de cada variável em cada lado da igualdade, obtem-se da última expressão

X ′′ (x) X ′ (x) Y ′′ (y) Y ′ (y)
A(x) + C(x) + E(x) = − B(y) + D(y) + F (y) .
X(x) X(x) Y (y) Y (y)
Chegamos agora ao ponto crucial que justifica o que foi feito até aqui. Do lado esquerdo da igualdade
acima encontra-se uma função que depende apenas de x e do lado direito uma função apenas de y. Ora,
como ambas as variáveis são independentes, uma tal igualdade só é possı́vel se ambos os lados forem
iguais a uma mesma constante, que denotaremos por λ, a qual é denominada constante de separação.
Assim,

X ′′ (x) X ′ (x) Y ′′ (y) Y ′ (y)
A(x) + C(x) + E(x) = − B(y) + D(y) + F (y) = λ ,
X(x) X(x) Y (y) Y (y)
o que implica o par de equações desacopladas
A(x)X ′′ (x) + C(x)X ′ (x) + (E(x) − λ)X(x) = 0 , (11.8)
B(y)Y ′′ (y) + D(y)Y ′ (y) + (F (y) + λ)Y (y) = 0 , (11.9)
cada qual sendo uma equação diferencial ordinária. Ambas as equações podem agora, em princı́pio, ser
tratadas separadamente com os métodos de solução disponı́veis para equações diferenciais ordinárias
lineares como por exemplo, o método de expansão em série ou o método de Frobenius. É de se lembrar,
porém, que ambas as equações não são totalmente independentes, pois têm em comum a presença da
mesma constante de separação ainda indeterminada λ.
Uma pergunta que se coloca nesse momento é se a equação (11.7) é a forma mais geral de uma
equação linear de segunda ordem em duas variáveis para a qual o Ansatz u(x, y) = X(x)Y (y) conduz a
equações separadas para X e para Y . Não é do conhecimento do autor que sejam conhecidas condições
necessárias e suficientes para a separabilidade de equações diferenciais parciais lineares, de modo que a
forma da (11.7) é apenas uma condição suficiente para separabilidade. Um pouco de experimentação
(faça!) permite concluir que a separação dificilmente se dá caso haja na equação um termo com uma
∂2u
derivada mista ∂x∂y , ou se as funções A, B etc. não forem funções de uma única variável especificamente
como explicitado em (11.7), mas há exceções, como mostra o exemplo do Exercı́cio E. 11.3, abaixo.
Outrossim, não é do conhecimento do autor que tenham sido determinadas classes gerais de equações
diferenciais parciais não-lineares para as quais o método é de separação de variáveis seja eficaz. A
aplicabilidade desse método é, portanto, mais uma matéria de arte que de ciência, mas considerações
sobre simetrias são por vezes de grande utilidade (vide [12] e [112]). Alguns exemplos de aplicações
do método de separação de variáveis para equações diferenciais parciais não-lineares são discutidos na
Seção 11.2.2, adiante.
É de se notar, porém, que o método de separação de variáveis não se restringe a equações envolvendo
apenas duas variáveis, nem a equações de segunda ordem. Nosso interesse pelas equações de segunda
ordem provem do fato de que a grande maioria das equações diferenciais parciais encontrada na Fı́sica
é de segunda ordem.
E. 11.1 Exercı́cio. Encontre uma classe de equações diferencias parciais de primeira ordem lineares e
homogêneas em duas variáveis x e y para as quais o Ansatz u(x, y) = X(x)Y (y) conduz a equações
separadas para X e para Y . Obtenha essas equações. 6
E. 11.2 Exercı́cio. Encontre uma classe de equações diferencias parciais de terceira ordem lineares e
homogêneas em duas variáveis x e y para as quais o Ansatz u(x, y) = X(x)Y (y) conduz a equações
separadas para X e para Y . Obtenha essas equações. 6
E. 11.3 Exercı́cio. Mostre que uma equação diferencial da forma
∂2u ∂2u ∂u
A(x) 2
+ B(y) + (C(x) + D(y)) = 0 (11.10)
∂x ∂x∂y ∂x
permite separação de variáveis na forma u(x, y) = X(x)Y (y). Sugestão: substitua esse Ansatz na equação
e divida-a por X ′ (x)Y (y), obtendo, com uma constante de separação λ,
A(x)X ′′ (x) + (E(x) − λ)X ′ (x) = 0 ,
B(y)Y ′ (y) + (D(y) + λ)Y (y) = 0 .
Outra sugestão é observar que a equação (11.10) pode ser reduzida a uma equação linear de primeira ordem
para ∂u
∂x
, a qual é separável. 6
O que determina a constante de separação λ? Em situações tı́picas ela é determinada pela imposição
de condições de contorno, ou de outras condições subsidiárias à solução, tais como que ela seja contı́nua,
ou que ela seja periódica, ou que ela seja limitada, ou que ela seja de quadrado integrável (o que
tipicamente ocorre na Mecânica Quântica) etc. Os exemplos que se seguirão ilustrarão essas diversas
situações.
Um certo cuidado aqui é necessário. Para a imposição de condições de contorno ou subsidiárias às
soluções particulares da forma de um produto X(x)Y (y) é necessário que essas condições de contorno
possam ser expressas separadamente como condições sobre a dependência em x e sobre a dependência
em y. Geralmente14 , isso só é possı́vel se o domı́nio D de validade da equação (entenda-se, a região
onde o problema está definido) for um retângulo tal como {(x, y) ∈ R2 , 0 ≤ x ≤ L, 0 ≤ y ≤ M},
um disco {(x, y) ∈ R2 , 0 ≤ x ≤ L, 0 ≤ y ≤ 2π} com uma dependência periódica de perı́odo 2π
na variável y (que representaria um ângulo, em algum sistema de coordenadas) ou talvez um toro
{(x, y) ∈ R2 , 0 ≤ x ≤ 2π, 0 ≤ y ≤ 2π} com uma dependência periódica de perı́odo 2π em ambas
as variáveis. Os exemplos são os melhores mestres nessa discussão e vários deles são apresentados no
Capı́tulo 10, página 583.
Assim, mesmo que uma equação diferencial tenha a forma (11.7) o método de separação de variáveis
será ineficaz se as condições de contorno e subsidiárias não forem compatı́veis com soluções particulares
na forma de um produto.
Um fato importante observado na prática (vide os exemplos tratados no Capı́tulo 10, página 583)
é que já a imposição de algumas das condições de contorno ou subsidiárias fixa todos os valores
possı́veis para a constante de separação λ e, em muitos casos, esse conjunto de valores possı́veis é
um conjunto contável: {λn , n ∈ N}. Para cada uma dessas constantes λn haverá possivelmente duas
soluções independentes para a equação (11.8) e duas soluções independentes para a equação (11.9)
(pois são equações de segunda ordem15 ). Assim, para cada n ∈ N teremos associada uma cons-
(1) (2)
tante de separação λn , duas soluções linearmente independentes, Xn e Xn , para a equação (11.8)
(a solução geral sendo uma combinação linear de ambas) e duas soluções linearmente independen-
(1) (2)
tes, Yn e Yn , para a equação (11.9) (a solução geral sendo uma combinação linear de ambas). A
solução particular fornecida
pelo Ansatz u(x, y) = X(x)Y (y) assume assim, para cada n, a forma
(1) (2) (1) (2)
αn Xn (x) + βn Xn (x) γn Yn (y) + δn Yn (y) , onde αn , βn , γn e δn são constantes.
Como a equação (11.7) é linear e homogênea, e as condições de contorno são homogêneas, o princı́pio
de sobreposição se aplica e uma solução mais geral seria obtida somando-se as soluções obtidas para
cada n, ou seja, X
αn Xn(1) (x) + βn Xn(2) (x) γn Yn(1) (y) + δn Yn(2) (y) . (11.11)
n∈N
As constantes αn , βn , γn e δn devem ainda ser fixadas através das demais condições de contorno e
subsidiárias (que não aquelas que já foram usadas para fixar os λn ’s) e, após isso, é preciso também
demonstrar que a série (11.11) assim obtida converge.
Será, afinal, a expressão (11.11) a solução completa do problema, que resolve a equação diferencial
e satisfaz todas as condições de contorno e subsidiárias? Em muitos casos, a resposta é sim, o que
pode ser provado por teoremas que garantem a unicidade de soluções de certas equações diferenciais
que satisfaçam certas condições de contorno. Vide Seção 11.4, página, 671.
Como comentamos, e como ilustram os exemplos do Capı́tulo 10, página 583, o método de separação
14
Para um contra-exemplo, vide Exercı́cio E. 10.10, página 625.
15
Nada impede, porém, que se tenha A ≡ 0 ou B ≡ 0, em cujo caso uma das equações (11.8) ou (11.9) será de primeira
ordem. Tal ocorre, por exemplo, na equação de difusão. Vide página 584.
de variáveis delineado acima é feliz em resolver vários problemas envolvendo equações diferenciais
parciais lineares de interesse em Fı́sica. Todavia, o estudante não deve adquirir a falsa impressão
de que o método de separação de variáveis é o único método de solução disponı́vel para equações
diferenciais parciais. Muitos outros métodos são oferecidos na gigantesca literatura sobre o assunto
(vide para tal [30, 31] ou mesmo [160]), cada qual empregável em uma classe especı́fica de equações.
Para nos limitarmos a um único exemplo, citamos o chamado método das caracterı́sticas (vide Seção
11.3, página 648), que também permite a resolução de certas equações diferenciais parciais em termos
de equações diferenciais ordinárias. Boa parte do estudo de equações diferenciais parciais não é voltado
à procura de soluções para as equações, mas sim a análises qualitativas de propriedades das soluções.
Muitas vezes, advêm dessas análises informações úteis sobre o comportamento do sistema de interesse
que não são facilmente obtenı́veis diretamente das soluções, mesmo caso estas sejam conhecidas (vide
para tal [48], [39], [113], [30, 31]).
11.2.2 O Método de Separação de Variáveis. Caso de Equações Não-

Lineares
O método de separação de variáveis pode ser também empregado na resolução de algumas equações
diferenciais parciais não-lineares. Vejamos alguns exemplos. Seja a equação da Óptica Geométrica em
duas dimensões:
(∂x u)2 + (∂y u)2 = 1 . (11.12)
Se procurarmos soluções na forma u(x, y) = F(X(x), Y (y)) = X(x) + Y (y), obtemos
(X ′ (x))2 + (Y ′ (y))2 = 1 ou seja (X ′ (x))2 = 1 − (Y ′ (y))2 .
Na última igualdade, vemos que o lado esquerdo depende apenas de x e o direito apenas de y, sendo
ambos, portanto, iguais a uma mesma constante a2 . Obtemos, assim, o par de equações diferenciais
ordinárias desacopladas
(X ′ (x))2 = a2 e (Y ′ (y))2 = 1 − a2 ,
√
cujas soluções são X(x) = ax + b1 e Y (y) = ± 1 − a2 y + b2 , onde b1 e b2 são constantes arbitrárias.
Portanto, temos para (11.12) uma solução na forma
√
u(x, y) = ax ± 1 − a2 y + b ,
com b ≡ b1 + b2 .
O exemplo de acima é interessante pois exibe uma situação na qual o método de p separação de
variáveis não esgota a totalidade de soluções. Como é fácil constatar, u(x, y) = x2 + y 2 , para
(x, y) 6= (0, 0), é também uma solução da mesma equação. Além dessa há ainda muitas outras
soluções.
Os exercı́cios que seguem ilustram várias situações nas quais o método de separação de variáveis
pode ser aplicado.
E. 11.4 Exercı́cio. Aplique o método de separação de variáveis para encontrar uma solução para a equação
da Óptica Geométrica em três dimensões:
(∂x u)2 + (∂y u)2 + (∂z u)2 = 1 ,
com u(x, y, z) = X(x) + Y (y) + Z(z) e obtenha a solução

√
u(x, y, z) = ax + by ± 1 − a2 + b2 z + c .
p
Observe novamente que u(x, y, z) = x2 + y 2 + z 2 , para (x, y, z) 6= (0, 0, 0), é também uma solução
da mesma equação. 6
E. 11.5 Exercı́cio. De [31]. Aplique o método de separação de variáveis com a tentativa u(x, y) =
X(x) + Y (y) para a equação
f (x)(∂x u)2 + g(y)(∂y u)2 = a(x) + b(y) .
Obtem-se as soluções
Z s Z s
x y
a(ξ) + α b(η) − α
u(x, y) = dξ + dη + β ,
x0 f (ξ) y0 g(η)
onde α e β são constantes arbitrárias. 6
E. 11.6 Exercı́cio. Aplique o método de separação de variáveis para encontrar uma solução para equação
(∂x u)2 + (∂y u)2 = u .
Sugestão: tente u(x, y) = X(x) + Y (y). 6
(∂x u)2 + (∂y u)2 = u .
Sugestão: tente
(X(x) + Y (y) + γ)2
u(x, y) = F(X(x), Y (y)) = f (X(x) + Y (y)) = ,
4
onde f (z) = (z + γ)2 /4 é solução de (f ′ (z))2 = f (z). Acima, γ é uma constante arbitrária. 6
E. 11.8 Exercı́cio. Aplique o método de separação de variáveis para encontrar uma solução para a equação
(∂x u)2 + (∂y u)2 = u2 .
Sugestão: tente u(x, y) = X(x)Y (y). 6
(∂x u)2 + (∂y u)2 = u2 .
Sugestão: tente

u(x, y) = F(X(x), Y (y)) = f (X(x) + Y (y)) = exp ± X(x) + Y (y) + γ ,
onde f (z) = e±z+γ é solução de (f ′ )2 = (f )2 . Acima, γ é uma constante arbitrária. 6

(∂x u)2 + (∂y u)2 = u2 ,
Sugestão: tente
p
u(x, y) = F(X(x), Y (y)) = f (X(x) + Y (y)) = exp ±2 X(x) + Y (y) + γ ,
√
onde f (z) = exp(±2 z + γ) é solução de (f ′ (z))2 = z −1 (f (z))2 . Acima, γ é uma constante arbitrária. 6
(∂x u)2 + (∂y u)2 = un , n 6= 2 .
Sugestão: tente
h p i 2−n
2
u(x, y) = F(X(x), Y (y)) = f (X(x) + Y (y)) = ±(2 − n) X(x) + Y (y) + γ ,
2
onde f (z) = ±(2 − n)z 1/2 + γ 2−n é solução de (f ′ (z))2 = z −1 (f (z))n . Acima, γ é uma constante
arbitrária. 6
E. 11.12 Exercı́cio. Generalizando as idéias de acima, aplique o método de separação de variáveis para
encontrar soluções para equação
(∂x u)m + (∂y u)m = un .
6
11.3 O Método das Caracterı́sticas

O chamado método das caracterı́sticas é um importante método de resolução de equações diferenciais
parciais quase-lineares de primeira ordem (para a definição, vide página 640). Sua relevância não
é apenas prática, no sentido de fornecer soluções: com ele é também possı́vel alcançar uma visão
em profundidade de diversas propriedades de certas equações diferenciais parciais quase-lineares e de
suas soluções. Descreveremos as idéias por trás do método das caracterı́sticas, coletando as hipóteses
necessárias à sua implementabilidade, hipóteses estas que serão brevemente discutidas em seguida. Após
essa descrição, alguns exemplos ilustrativos serão apresentados de modo a facilitar o entendimento.
• Equações quase-lineares de primeira ordem. Problema de Cauchy
Sejam b(x1 , . . . , xn , u) e ak (x1 , . . . , xn , u), com k = 1, . . . , n, funções de n + 1 variáveis reais

(x1 , . . . , xn , u). Denotaremos por E o espaço n-dimensional das variáveis (x1 , . . . , xn ) e por T o
espaço n + 1-dimensional das variáveis (x1 , . . . , xn , u). Também denotaremos x ≡ (x1 , . . . , xn ) ∈ E.
Seja com essas funções definida a equação diferencial parcial quase-linear de primeira ordem
n
X
ak x, u(x) uxk (x) = b x, u(x) , (11.13)
k=1
para uma função incógnita u(x) ≡ u(x1 , . . . , xn ) ∈ R. Note-se que as funções b(x, u(x)) e ak (x, u(x)),
k = 1, . . . , n, são funções de x e de u, mas não de derivadas de u.
Se u(x) é uma solução de (11.13) a aplicação E ∋ x 7→ (x, u(x)) ∈ T define uma superfı́cie
n-dimensional em T. Essa superfı́cie será denominada superfı́cie-solução (de (11.13)).

Como é bem conhecido, o vetor n + 1-dimensional dado por ux1 (x), . . . , uxn (x), −1 é um vetor
normal à superfı́cie-solução no ponto (x, u(x))16 . Com isso em mente, podemos interpretar (11.13)
como sendo a afirmação que o vetor n + 1-dimensional definido por

a1 x, u(x) , . . . , an x, u(x) , b x, u(x)
é tangente à superfı́cie-solução no ponto (x, u(x)). Essa interpretação geométrica terá significado no
que segue.
Vamos supor que a função u(x) satisfaça condições iniciais que fixam seu valor em alguma superfı́cie
n − 1 dimensional C de E. Assumiremos que na superfı́cie C tenha-se a condição inicial u(x) = u0 (x),
x ∈ C, onde u0 é uma função dada definida em C. A superfı́cie C é denominada superfı́cie de Cauchy.
O problema de resolver (11.13) com u fixada em C, como acima, é dito ser um problema de Cauchy.
Suporemos que C seja uma variedade, ou seja, que os pontos da superfı́cie C possam ser localmente
descritos por um conjunto de n − 1 parâmetros reais, que denotaremos por s2 , . . . , sn . Assim, os
pontos x = (x1 , . . . , xn ) de C são (localmente) descritos por n funções contı́nuas ψi , i = 1, . . . , n de
n − 1 variáveis:
x1 = ψ1 (s2 , . . . , sn ) , ..., xn = ψn (s2 , . . . , sn ) .
Denotando Ψ = (ψ1 , . . . , ψn ), escrevemos as relações acima como x = Ψ(s2 , . . . , sn ) para x ∈ C.
Em termos dos parâmetros s2 , . . . , sn que descrevem a superfı́cie de Cauchy C, a condição inicial
escreve-se u(Ψ(s2, . . . , sn )) = u0 (Ψ(s2 , . . . , sn )). Com um certo abuso de linguagem, escreveremos
u0 (Ψ(s2 , . . . , sn )) ≡ u0 (s2 , . . . , sn ).
• Curvas caracterı́sticas e curvas caracterı́sticas planas
Seja I um certo intervalo da retareal (compacto ou não). Uma curva L no espaço T definida por
I ∋ s1 7→ x1 (s1 ), . . . , xn (s1 ), U(s1 ) ∈ T é dita ser uma curva caracterı́stica da equação quase-linear
(11.13) se as funções x1 (s1 ), . . . , xn (s1 ) e U(s1 ) forem contı́nuas, diferenciáveis e satisfizerem o sistema
16
Recordando, para variações “infinitesimais” (dx1 , . . . , dxn ) tem-se du = ux1 (x)dx1 + · · · + uxn (x)dxn e, portanto, o
vetor ux1 (x), . . . , uxn (x), −1 é ortogonal aos vetores (dx1 , . . . , dxn , du), que são tangentes à superfı́cie-solução.
de equações diferenciais ordinárias

ẋ1 (s1 ) = a1 x(s1 ), U(s1 ) ,
..
.

ẋn (s1 ) = an x(s1 ), U(s1 ) , (11.14)

U̇ (s1 ) = b x(s1 ), U(s1 ) .
As curvas em E dadas por I ∋ s1 7→ (x1 (s1 ), . . . , xn (s1 )) ∈ E são denominadas curvas carac-
terı́sticas planas ou curvas caracterı́sticas base.
Como estudamos nos capı́tulos dedicados a equações diferenciais ordinárias, sob condições de con-
tinuidade para as funções b e ak pode-se garantir a existência ao menos local de soluções de (11.14).
Sob condições de diferenciabilidade, é possı́vel garantir também unicidade de soluções (11.14) para
problemas de valor inicial.
• O método das caracterı́sticas
Seja u(x) uma solução dada de (11.13). Suponha que haja uma curva contı́nua e diferenciável,
definida no espaço E, parametrizada por s1 ∈ I e definida por n funções (x1 (s1 ), . . . , xn (s1 )) ≡ x(s1 )
com a propriedade que as que as funções xk (s1 ), k = 1, . . . , n, satisfaçam o sistema de n equações
diferenciais ordinárias

ẋ1 (s1 ) = a1 x(s1 ), u(x(s1 )) ,
.. (11.15)
.

ẋn (s1 ) = an x(s1 ), u(x(s1 )) .
Como estudamos nos capı́tulos dedicados a equações diferenciais ordinárias, sob condições de conti-
nuidade para as funções b e ak pode-se garantir a existência ao menos local de soluções de (11.15).
Sob condições de diferenciabilidade, é possı́vel garantir também inicidade de soluções de (11.15) para
problemas de valor inicial.
Pela regra da cadeia temos, naturalmente,
Xn Xn
d (11.13)
u(x(s1 )) = ẋk (s1 ) uxk (x(s1 )) = ak x(s1 ), u(x(s1 )) uxk (x(s1 )) = b x(s1 ), u(x(s1 )) ,
ds k=1 k=1
(11.16)
e concluı́mos que a curva em T definida por I ∋ s1 7→ x(s1 ), u(x(s1 )) ∈ T é uma curva caracterı́stica
da equação (11.13). De (11.15) e (11.16) vê-se que os vetores tangentes a essa curva caracterı́stica são
paralelos em cada ponto ao campo definido pelos vetores (a1 , . . . , an , b) e, portanto, essas curvas
caracterı́sticas encontram-se inteiramente sobre a superfı́cie-solução da equação (11.13) definida pela

solução u. Esse fato deve ser retido em mente para o que segue.
Vemos, portanto, que dada uma função u, solução de (11.13), obtem-se curvas caracterı́sticas pro-
curando soluções do sistema de n equações diferenciais ordinárias (11.15). A questão que se põe é se
é possı́vel inverter esse procedimento: será possı́vel recuperar a solução u(x) de (11.13) se for dada
a famı́lia de curvas caracterı́sticas de (11.13), ou seja, as soluções de (11.14)? Como veremos, sob
hipóteses convenientes a resposta é sim e esse método de determinar a solução de (11.14) a partir
da determinação das curvas caracterı́sticas de (11.13), ou seja, as soluções de (11.14), é denominado
método das caracterı́sticas.
A idéia do método das caracterı́sticas é interpretar as diversas soluções U(s1 ) de (11.14) como
U(s1 ) = u(x(s1 )) para alguma solução u de (11.13) e procurar determinar essa u a partir da função U.
Geometricamente, o que se faz é aproveitar a observação feita acima de que, as curvas caracterı́sticas
definidas por uma solução dada u de (11.13) encontram-se inteiramente dentro da superfı́cie-solução
definida por u e tentar recuperar essa superfı́cie-solução (e portanto a solução u) a partir do conjunto
de todas as curvas caracterı́sticas associadas à equação (11.13).
No que segue descreveremos como essas idéias podem ser implementadas, discutiremos as virtudes
e limitações desse método e estudaremos exemplos.
• Obtendo soluções com uso das curvas caracterı́sticas
O sistema (11.14) é um sistema de n + 1 equações diferenciais ordinárias de primeira ordem e iremos

supor que um tal sistema possua solução única para um dado conjunto de condições iniciais. A resolução
de (11.14) geralmente requer a fixação de n+1 condições iniciais x1 (0), . . . , xn (0) e U(0). Vamos supor
que as curvas caracterı́sticas planas s1 7→ (x1 (s1 ), . . . , xn (s1 )) cruzem C em exatamente um ponto e
que tal se de para s1 = 0. Portanto, escolhemos o ponto (x1 (0), . . . , xn (0)) ∈ E sobre a superfı́cie C
onde as condições iniciais para (11.13) foram definidas. Assim, x(0) = (x1 (0), . . . , xn (0)) ∈ E é tal que
x(0) = Ψ(s2 , . . . , sn ) para algum conjunto de parâmetros s2 , . . . , sn . Como desejamos interpretar
U(0) = u(x(0)) para uma solução u de (11.13), é natural impormos
U(0) = u0 (s2 , . . . , sn ) . (11.17)
As relações x(0) = Ψ(s2 , . . . , sn ) e U(0) = u0 (s2 , . . . , sn ), ou seja,

x(0), U(0) = Ψ(s2 , . . . , sn ), u0 (s2 , . . . , sn ) , (11.18)
fazem cada curva caracterı́stica s1 7→ (x(s1 ), U(s1 )) ∈ T depender também dos n − 1 parâmetros
s2 , . . . , sn que fixam a condição inicial (11.18). Introduzindo a notação s ≡ (s1 , . . . , sn ) ∈ Rn ,
podemos escrever as funções xk (s1 ), k = 1, . . . , n, e U(s1 ) como funções de s1 e desses parâmetros:
x1 (s1 , . . . , sn ) = x1 (s) , ..., xn (s1 , . . . , sn ) = xn (s) (11.19)
e
U(s1 , . . . , sn ) = U(s) .
Para s1 = 0 o ponto x(s1 = 0, s2 , . . . , sn ) encontra-se sobre C e, portanto,

T ∋ x(s1 = 0, s2 , . . . , sn ), U(s1 = 0, s2 , . . . , sn )

= x1 (s1 = 0, s2 , . . . , sn ), . . . , xn (s1 = 0, s2 , . . . , sn ), U(s1 = 0, s2 , . . . , sn )

= x(s1 = 0, s2 , . . . , sn ), u0 (s2 , . . . , sn ) . (11.20)
Se o Jacobiano ∂x ∂s
= ∂(x 1 , ..., xn )
∂(s1 , ..., sn )
não se anular, podemos inverter as n funções de (11.19) e escrever
os parâmetros s1 , . . . , sn em termos de x1 , . . . , xn :
s1 (x1 , . . . , xn ) = s1 (x) , ..., sn (x1 , . . . , xn ) = sn (x) .
Sob essa hipótese estamos supondo que as funções s → x(s) e x → s(x), definidas entre certos abertos
de Rn , são bijetoras, uma sendo a inversa da outra.
Com as escolhas descritas acima, cada curva caracterı́stica é fixada pelos parâmetros s2 , . . . , sn e
parametrizada pelo parâmetro s1 quando a curva é percorrida. Para s1 = 0 a curva inicia-se no ponto
de T dado em (11.20).
Com a introdução dos parâmetros s podemos reescrever as equações para as curvas caracterı́sticas
dadas em (11.14) trocando a derivada total em relação a s1 por uma derivada parcial (levando em
consideração, assim, a presença das outras variáveis s2 , . . . , sn ):
∂x1
(s) = a1 x(s), U(s) ,
∂s1
..
.
∂xn
(s) = an x(s), U(s) , (11.21)
∂s1
∂U
(s) = b x(s), U(s) .
∂s1
Vamos agora descrever de que forma o exposto acima pode ser empregado na resolução da equação
(11.13). Defina-se
u(x) := U(s(x)) ,
ou seja,
u(x1 , . . . , xn ) := U s1 (x1 , . . . , xn ), . . . , sn (x1 , . . . , xn ) .
Vamos provar que u assim definida é uma solução de (11.13) e satisfaz as condições iniciais desejadas.
De fato, calculando-se explicitamente,

n
X n
X n
∂u X ∂U ∂sj
ak x, u(x) (x) = ak x, u(x) (s(x)) (x)
k=1
∂x k k=1 j=1
∂s j ∂xk
n
X n
X
∂U ∂sj
= (s(x)) ak x, u(x) (x)
j=1
∂sj k=1
∂xk
n
X n
X
∂U ∂sj
= (s(x)) ak x, U(s(x)) (x)
j=1
∂sj k=1
∂xk
n
X n
X
(11.21) ∂U ∂xk ∂sj
= (s(x)) (s(x)) (x)
j=1
∂sj ∂s1 ∂xk
|k=1 {z }
∂sj
= ∂s1
= δj, 1
∂U
= (s(x))
∂s1
(11.21)
= b x(s(x)), U(s(x)) = b x, U(s(x))

= b x, u(x) ,
provando que u satisfaz (11.13), como querı́amos. É também claro que, na superfı́cie C,

u(Ψ(s2, . . . , sn )) = u x(s1 = 0, s2 , . . . , sn ) = U s x(s1 = 0, s2 , . . . , sn )
(11.20)
= U (s1 = 0, s2 , . . . , sn ) = u0 (s2 , . . . , sn ) , (11.22)
mostrando que u satisfaz as condições iniciais desejadas.
• Método das caracterı́sticas. Resumo e comentários gerais
Recapitulando e resumindo, os passos para a resolução da equação quase-linear de primeira ordem

(11.13) pelo método das caracterı́sticas são:
1. Determinação das curvas caracterı́sticas s1 7→ (x(s1 ), U(s1 )) através da resolução do sistema de

equações diferenciais ordinárias (11.14).
2. Parametrização das curvas caracterı́sticas em termos de coordenadas locais s2 , . . . , sn da su-
perfı́cie de Cauchy C onde está definida a condição inicial, fornecendo assim as funções x(s) e
U(s).
3. Obtenção das funções inversas s(x).
4. Determinação da solução u por u(x) = U(s(x)), com U obtida nos passos 1 e 2.
A aplicação do método das caracterı́sticas tem diversos pressupostos que vagamente delineamos na
discussão acima e algum comentário deve ser feito a respeito de certas patologias ou especialidades que
podem ocorrer quando de sua implementação.
Uma primeira observação é que a parametrização das curvas caracterı́sticas pelas coordenadas locais
da superfı́cie de Cauchy tem em muitos casos um significado apenas local. É bem conhecido que nem
sempre é possı́vel parametrizar globalmente uma superfı́cie com um único conjunto de coordenadas (tal
ocorre, por exemplo, no caso da esfera bidimensional S 2 ). Em tais casos, a parametrização deve ser
feita localmente, conduzindo a soluções definidas apenas localmente (as quais podem, eventualmente,
ter extensões globais, parametrizadas por outras coordenadas). Analogamente, a existência de uma
aplicação inversa de s 7→ x pode ser, muitas vezes, garantida apenas localmente.
Pode também ocorrer de a aplicação s 7→ x não possuir inversa, local ou globalmente. Nesse con-
texto, um fenômeno observado em certas equações não-lineares é o cruzamento de curvas caracterı́sticas,
conduzindo a uma ambigüidade de solução ou a soluções singulares (o fenômeno de ondas de choque,
observado em equações não-lineares como a equação de Burgers sem viscosidade, sendo um exemplo).
Outro fenômeno patológico se dá em situações nas quais existem regiões no espaço das variáveis x que
não são visitadas por curvas caracterı́sticas planas, levando a ambigüidades de solução nessas regiões
(ondas de rarefação). Tais situações são novamente observadas no caso de equações não-lineares, como
a equação de Burgers sem viscosidade.
Outras anomalias podem ocorrer no que concerne à relação entre as curvas caracterı́sticas planas e a
superfı́cie de Cauchy e a condição inicial. Pode, por exemplo, ocorrer de algumas curvas caracterı́sticas
planas não cruzarem a superfı́cie de Cauchy ou fazerem-no mais de uma vez. Ou pode ocorrer de
haver curvas caracterı́sticas planas contidas dentro de superfı́cies de Cauchy ou de serem tangentes
à mesma em alguns pontos. Ou ainda pode ocorrer de haver pontos da superfı́cie de Cauchy pelos
quais não passam curvas caracterı́sticas planas. Essas situações exigem cuidados especiais e, para seu
tratamento, pressupostos adicionais podem ter de ser feitos, mas a unicidade e mesmo a existência de
soluções podem ser perdidas.
Sob essas ressalvas, é pedagogicamente mais útil, no momento, estudar alguns exemplos de aplicação
do método das caracterı́sticas. Nos exemplos que apresentamos mais adiante, veremos situações em que
o método funciona sem máculas e situações em que diversas das patologias acima descritas manifestam-
se.
11.3.1 Exemplos de Aplicação do Método das Caracterı́sticas

Para ilustrar a exposição de acima, exemplifiquemos o uso do método das caracterı́sticas na resolução
alguns problemas de Cauchy de equações quase-lineares. No primeiro exemplo temos uma situação não
trivial na qual o método das caracterı́sticas funciona a contento.
Exemplo 11.1 De [160]. Seja a equação quase-linear de primeira ordem
∂u ∂u
(x) + (x1 )2 (x) = −x2 u(x) . (11.23)
∂x1 ∂x2
A superfı́cie C onde a condição inicial é dada é definida por x1 ≡ 0, ou seja, tem-se x1 = ψ1 (s2 ) ≡ 0,
x2 = ψ2 (s2 ) = s2 com s2 ∈ R. A condição inicial para u nessa superfı́cie é u(x1 = 0, x2 ) = u0 (x2 ) para
alguma função u0 dada, que suporemos diferenciável.
Temos aqui n = 2, a1 (x, u(x)) = 1, a2 (x, u(x)) = (x1 )2 e b(x, u(x)) = −x2 u(x).
As equações (11.14) para as curvas caracterı́sticas são
x˙1 (s1 ) = 1 ,
x˙2 (s1 ) = (x1 (s1 ))2 ,
U̇(s1 ) = −x2 (s1 )U(s1 ) .
A solução da primeira é x1 (s1 ) = s1 + α, para α constante. A segunda equação fica, então,

2 (s1 +α)3
x˙2 (s1 ) = (s1 +
α) , cuja solução
é x2 (s 1 ) = 3
+ β, com β constante. A terceira equação, portanto,
(s1 +α)3
é U̇ (s1 ) = − 3
+ β U(s1 ), cuja solução é

(s1 + α)4
U(s1 ) = exp − − βs1 + γ
12
com γ constante. Para s1 = 0 desejamos estar na linha reta C definida por x1 ≡ 0. Isso implica α ≡ 0.
Como em C temos a parametrização x2 = s2 com s2 ∈ R e, como x2 (0) = β, podemos identificar
β ≡ s2 . Com isso escrevemos
x1 (s1 , s2 ) = s1 ,
(s1 )3
x2 (s1 , s2 ) = + s2 ,
3

(s1 )4
U(s1 , s2 ) = exp − − s1 s2 + γ .
12
A imposição U(0, s2 ) = u0 (x2 (0, s2 )) = u0 (s2 ) significa exp (γ) = u0 (s2 ). Portanto, temos
x1 (s1 , s2 ) = s1 , (11.24)
(s1 )3
x2 (s1 , s2 ) = + s2 , (11.25)
3

(s1 )4
U(s1 , s2 ) = exp − − s1 s2 u0 (s2 ) . (11.26)
12
Isso determina a expressão das curvas caracterı́sticas em termos dos parâmetros s1 e s2 . Fixar o
parâmetro s2 fixa uma curva caracterı́stica, a qual é percorrida fazendo-se variar o parâmetro s1 .
Como se vê, para cada curva caracterı́stica plana vale x2 = (x1 )3 /3 + s2 . As curvas caracterı́sticas
planas de (11.23) encontram-se desenhadas, para diversos valores de s2 , na Figura 11.2, página 656.
O próximo passo é inverter as relações (11.24)-(11.25), acima, e expressar s1 e s2 em termos de x1
e x2 . Para o Jacobiano dessa transformação temos
∂(x1 , x2 )
= 1,
∂(s1 , s2 )
x2
0 x1
Figura 11.2: Curvas caracterı́sticas planas da equação (11.23) no plano x1 –x2 . A superfı́cie de Cauchy
C é eixo vertical x2 .
(verifique!) e a inversão é possı́vel para todos (x1 , x2 ) ∈ R2 . Como é fácil constatar, obtem-se
(x1 )3
s1 (x1 , x2 ) = x1 , s2 (x1 , x2 ) = x2 − .
3

A solução de (11.23) é, portanto, u(x1 , x2 ) = U s1 (x1 , x2 ), s2 (x1 , x2 ) , ou seja,

(x1 )4 (x1 )3
u(x1 , x2 ) = exp − x1 x2 u0 x2 − , (11.27)
4 3
como facilmente se calcula.
E. 11.13 Exercı́cio. Verifique explicitamente que (11.27) é de fato solução de (11.23) e satisfaz a condição
u(0, x2 ) = u0 (x2 ). 6
3
Como cada curva caracterı́stica é definida por x2 − (x31 ) = s2 , vemos de (11.27) (e também de
(11.26)) que o valor u0 (s2 )fixado para u na superfı́cie C propaga-se ao longo da caracterı́stica sendo
4
“corrigido” pelo fator exp (x41 ) − x1 x2 . Isso fornece uma certa intuição sobre o método, ao menos
no caso de equações lineares, como (11.23): em equações como as de acima, as curvas caracterı́sticas
planas são as curvas ao longo das quais a “influência” da condição inicial se propaga a partir de cada
ponto da superfı́cie de Cauchy.
A solução (11.27) é uma solução clássica da equação diferencial (11.23) sob o pressuposto que u0
seja contı́nua e diferenciável. Se não o for, (11.27) representa uma solução fraca de (11.23). Se u0 for
descontı́nua em um ponto s2 , então vemos por (11.27) (e também de (11.26)) que essa descontinuidade
3
propaga-se no espaço ao longo da curva caracterı́stica fixada por s2 , ou seja ao longo da curva x2 − (x31 ) =
s2 . O mesmo se dá se a derivada u′0 for descontı́nua em s2 . Isso ilustra um fenômeno válido para
equações lineares como (11.23): a propagação de singularidades a partir de uma condição inicial se dá
ao longo de curvas caracterı́sticas. No caso de equações não-lineares, ensinam-nos inúmeros exemplos
e alguns teoremas gerais que a propagação de singularidades a partir de uma condição inicial pode ser
bem mais complexa. ◊
Vamos tratar agora de um exemplo bem mais simples, mas com o qual podemos identificar e discutir
alguns problemas do método das caracterı́sticas.
Exemplo 11.2 Consideremos u como uma função de duas variáveis (x1 , x2 ) ∈ R2 satisfazendo a
ux1 (x1 , x2 ) = 0 . (11.28)
Naturalmente, a solução dessa equação é u(x1 , x2 ) = h(x2 ), para uma função h em princı́pio arbitrária,
a qual deve ser fixada por condições iniciais (vide abaixo). Como nesse caso a1 (x, u) = 1 e a2 (x, u) =
b(x, u) = 0, as equações (11.14) da curva caracterı́stica são
ẋ1 (s1 ) = 1 , ẋ2 (s1 ) = 0 , U̇(s1 ) = 0 . (11.29)
A solução desse sistema é
x1 (s1 ) = s1 + α , x2 (s1 ) = β , U(s1 ) = γ , (11.30)
onde α, β e γ são constantes. Dessas expressões inferimos que as curvas caracterı́sticas planas é a
famı́lia de todas as retas paralelas ao eixo x1 .
De (11.30) observamos que, para a equação aqui discutida, U(s1 , s2 ) é constante ao longo das
curvas caracterı́sticas planas (pois U(s1 , s2 ) não depende de s1 ).
Vamos agora discutir a solução sob alguns tipos de condições iniciais.
1. A superfı́cie de Cauchy C é a reta x1 ≡ 0, a qual podemos parametrizar como

n o
C = (x1 , x2 ) ∈ R2 , x1 = ψ1 (s2 ) = 0 , x2 = ψ2 (s2 ) = s2 , s2 ∈ R .
Para a condição inicial em C fixamos, na parametrização acima, u(ψ1 (s2 ), ψ2 (s2 )) = u0 (s2 ), u0
sendo uma função dada.
Por (11.30) podemos adotar α = 0, β = s2 e γ = u0 (s2 ). Assim,
x1 (s1 , s2 ) = s1 , x2 (s1 , s2 ) = s2 , U(s1 , s2 ) = u0 (s2 ) , (11.31)

Claramente, para o Jacobiano da transformação (s1 , s2 ) 7→ (x1 , x2 ) tem-se ∂(x 1 , x2 )

∂(s1 , s2 )
= 1 e a
transformação inversa existe em toda parte, sendo dada por s1 (x1 , x2 ) = x1 , s2 (x1 , x2 ) = x2 .
Logo, a solução u é dada por
u(x1 , x2 ) = U(s1 (x1 , x2 ), s2 (x1 , x2 )) = u0 (x2 ) .
Assim, para esse tipo de condição inicial tem-se h(x2 ) = u0 (x2 ).

2. A superfı́cie de Cauchy C é a reta x2 ≡ 0, a qual podemos parametrizar como
n o
2
C = (x1 , x2 ) ∈ R , x1 = ψ1 (s2 ) = s2 , x2 = ψ2 (s2 ) = 0, s2 ∈ R .
A especialidade desse problema é que a superfı́cie de Cauchy C é paralela ao eixo x1 e, portanto,
é uma das curvas caracterı́sticas planas do problema. O problema em questão é, portanto, um
problema de Cauchy caracterı́stico.
Por (11.30) podemos adotar α = s2 , β = 0 e γ = u0 (s2 ). Assim,
x1 (s1 , s2 ) = s1 + s2 , x2 (s1 , s2 ) = 0 , U(s1 , s2 ) = u0 (s2 ) , (11.32)
∂(x1 , x2 )
Claramente, para o Jacobiano da transformação (s1 , s2 ) 7→ (x1 , x2 ) tem-se ∂(s1 , s2 )
= 0 e não
existe a transformação inversa (x1 , x2 ) 7→ (s1 , s2 ) em nenhum ponto de R2 .
Já observamos que, para a equação aqui tratada, a função U(s1 , s2 ) é constante ao longo das
caracterı́sticas planas (pois independe de s1 , como se vê em (11.32)). Como nesse caso a própria
superfı́cie de Cauchy é uma curva caracterı́stica plana, concluı́mos que u0 deve ser constante.
Nesse caso, então, uma solução pode ser obtida para u, a saber, u(x1 , x2 ) = u0 , constante.
Percebe-se que nesse caso, no qual a superfı́cie de Cauchy é uma curva caracterı́stica plana, nem
sempre é possı́vel encontrar uma solução para o problema de valor inicial, somente em casos
especiais, a saber quando u0 for constante.
3. A superfı́cie de Cauchy C é a parábola (x2 )2 − x1 = 0, a qual podemos parametrizar como
n o
2 2
C = (x1 , x2 ) ∈ R , x1 = ψ1 (s2 ) = (s2 ) , x2 = ψ2 (s2 ) = s2 , s2 ∈ R .
Por (11.30) podemos adotar α = (s2 )2 , β = s2 e γ = u0 (s2 ). Assim,
x1 (s1 , s2 ) = s1 + (s2 )2 , x2 (s1 , s2 ) = s2 , U(s1 , s2 ) = u0 (s2 ) , (11.33)
Claramente, para o Jacobiano da transformação (s1 , s2 ) 7→ (x1 , x2 ) tem-se ∂(x 1 , x2 )
∂(s1 , s2 )
= 1 e a
2
transformação inversa existe em toda parte, sendo dada por s1 (x1 , x2 ) = x1 − (x2 ) , s2 (x1 , x2 ) =
x2 . Logo, a solução u é dada por
u(x1 , x2 ) = U(s1 (x1 , x2 ), s2 (x1 , x2 )) = u0 (x2 ) .
Assim, para esse tipo de condição inicial tem-se h(x2 ) = u0 (x2 ).

4. A superfı́cie de Cauchy C é a parábola (x1 )2 − x2 = 0, a qual podemos parametrizar como

n o
C = (x1 , x2 ) ∈ R2 , x1 = ψ1 (s2 ) = s2 , x2 = ψ2 (s2 ) = (s2 )2 , s2 ∈ R .
A especialidade desse problema é que as curvas caracterı́sticas planas cruzam a superfı́cie de
Cauchy duas vezes ou nenhuma vez, exceto curva caracterı́stica plana x2 ≡ 0, que é tangente à
√ (0, 0). De fato, a reta x2 ≡ β (usando a notação de (11.30)) cruza
superfı́cie de Cauchy no ponto
a parábola C nos pontos ± β caso β > 0 e em nenhum ponto se β < 0. Se β = 0 as duas curvas
se tangenciam no ponto (0, 0).
Por (11.30) podemos adotar α = s2 , β = (s2 )2 e γ = u0 (s2 ). Assim,
x1 (s1 , s2 ) = s1 + s2 , x2 (s1 , s2 ) = (s2 )2 . (11.34)
Note-se que ao parametrizarmos as curvas caracterı́sticas da forma feita acima, com o parâmetro
s2 da superfı́cie de Cauchy C, estamos excluindo as curvas caracterı́sticas com x2 < 0, pois, cla-
ramente x2 (s1 , s2 ) ≥ 0. Note-se também que, para cada s2 a curva caracterı́stica plana s1 7→
(x1 (s1 , s2 ), x2 (s1 , s2 )) coincide com a curva caracterı́stica plana s1 7→ (x1 (s1 , −s2 ), x2 (s1 , −s2 )),
pois ambas são linhas retas paralelas ao eixo x1 com x2 = (s2 )2 .
De acordo com as idéias gerais do método das caracterı́sticas, descritas acima, o valor de U
deve ser fixado pelo valor da função u0 no ponto em que cada curva caracterı́stica plana cruza a
superfı́cie de Cauchy. Para s2 6= 0 há dois desses pontos. Qual adotar? Como, para a equação
estudada, U é constante ao longo de cada curva caracterı́stica plana, concluı́mos que para s2 6= 0
a função U(s1 , s2 ) assume o mesmo valor nos dois pontos onde estas cruzam C. Ora, isso só é
possı́vel se u0 (s2 ) = u0 (−s2 ) para todo s2 ∈ R, ou seja, se u0 for uma função par. Caso contrário,
não existe solução para o problema.
Assumindo então que u0 é uma função par, podemos adotar U(s1 , s2 ) = u0 (s2 ), dando sentido à
última relação de (11.30). Podemos então passar à questão de determinar a solução u. Notemos
que a aplicação (s1 , s2 ) 7→ (x1 , x2 ) definida em (11.34) tem por imagem o semiplano x2 ≥ 0. Para
o Jacobiano dessa transformação tem-se ∂(x 1 , x2 )
∂(s1 , s2 )
= 2s2 e ao menos uma transformação inversa
existe, portanto, se s2 6= 0. De fato, tem-se
√ √
s1 (x1 , x2 ) = x1 − x2 , s2 (x1 , x2 ) = x2 , ∀ x1 ∈ R, x2 ≥ 0 , (11.35)
ou
√ √
s1 (x1 , x2 ) = x1 + x2 , s2 (x1 , x2 ) = − x2 , ∀ x1 ∈ R, x2 ≥ 0 . (11.36)
Logo, no semiplano x1 ∈ R, x2 ≥ 0, a solução u é dada por u(x1 , x2 ) = U(s1 (x1 , x2 ), s2 (x1 , x2 )) =

√ √
u0 ( x2 ) se adotarmos (11.35) ou u(x1 , x2 ) = U(s1 (x1 , x2 ), s2 (x1 , x2 )) = u0 (− x2 ) se adotar-
mos (11.36). Como u0 foi suposta par, não há distinção entre essas soluções.
No semiplano x2 < 0 a solução não é fixada pelas condições de contorno (pois essa região não
é visitada pelas curvas caracterı́sticas). Nessa região podemos adotar para u(x1 , x2 ) qualquer
função que seja constante ao longo das curvas caracterı́sticas planas, ou seja, que seja função
apenas de x2 . Naturalmente, se desejarmos soluções clássicas, essa função deve ser contı́nua e
diferenciável e, por exemplo, deve-se impor que a solução seja igual a u0 (0) em x2 = 0.
Resumindo, caso u0 não seja par não há solução para o problema e se o for a solução é


 √

 u0 ( x2 ) , x2 ≥ 0



u(x1 , x2 ) = ,






 g(x2 ) , x2 < 0
onde g é uma função em princı́pio arbitrária.
◊
Exemplo 11.3 Considere-se a equação diferencial linear e homogênea
∂u ∂u
x1 (1 − x1 ) − (1 − 2x1 )x2 = 0, (11.37)
∂x1 ∂x2
para x ∈ [0, 1], t ≥ 0, com as condições de contorno u(x, 0) = 0 e u(0, t) = u(1, t) = 0. Nesse caso a
superfı́cie de Cauchy é C = V0 ∪ V2 ∪ H onde
n o
2
V0 = (x1 , x2 ) ∈ R , x1 = 0, x2 ≥ 0 ,
n o
2
V1 = (x1 , x2 ) ∈ R , x1 = 1, x2 ≥ 0 ,
n o
2
H = (x1 , x2 ) ∈ R , 0 ≤ x1 ≤ 1, x2 = 0 ,
ou seja, C é formada pela união as semi-retas que compõe a fronteira do retângulo semi-infinito R =
{(x1 , x2 ) ∈ R2 , x1 ∈ [0, 1] , x2 ≥ 0} onde a equação (11.37) está sendo considerada. Nesse caso a
função u0 é identicamente nula em C.
As equações que definem as curvas caracterı́sticas são

x˙1 (s1 ) = x1 (s1 ) 1 − x1 (s1 ) ,
x˙2 (s1 ) = −(1 − 2x1 (s1 ))x2 (s1 ) ,
U̇(s1 ) = 0 .
A primeira equação pode ser facilmente resolvida por integração (faça!), fornecendo
αes1
x1 (s1 ) = ,
1 + αes1
onde α é uma constante arbitrária. Inserindo isso na segunda equação, obtemos por integração (faça!)
a solução
(1 + αes1 )2
x2 (s1 ) = β ,
αes1
onde β é uma constante arbitrária. Das expressões para x1 (s1 ) e x2 (s1 ) obtemos

x2 (s1 )x1 (s1 ) 1 − x1 (s1 ) = β .
Assim, as curvas caracterı́sticas planas são o lugar geométrico dos pontos (x1 , x2 ) ∈ R2 tais que
x2 x1 (1 − x1 ) = β para todo β ∈ R. A equação U̇ (s1 ) = 0 informa-nos que U é constante ao longo
das curvas caracterı́sticas planas e disso concluı́mos que u(x1 , x2 ) = f x2 x1 (1 − x1 ) é a solução
geral de (11.37) para qualquer função contı́nua e diferenciável f . Para fixar as condições de contorno
precisamos estudar como as curvas caracterı́sticas planas cruzam a superfı́cie de Cauchy C e aqui se
revela o interesse especial desse exemplo.
O fato interessante é que para β 6= 0 as curvas caracterı́sticas planas não cruzam C em nenhum
ponto. De fato, em C ou tem-se x1 = 0 ou x1 = 1 ou x2 = 0 e terı́amos x2 x1 (1 − x1 ) = 0, contradizendo
a condição β 6= 0. A Figura 11.3, página 662, mostra diversas curvas caracterı́sticas planas para
0 < x1 < 1 e para diversos valores de β > 0. Essas curvas são disjuntas duas a duas e sua união
coincide com o interior do retângulo R, tendo como envoltória a fronteira C. Porém, como dissemos,
essas curvas não cruzam a fronteira C e, portanto, nelas não é possı́vel fixar as condições de contorno.
Para β = 0 as curvas caracterı́sticas planas são três: uma sendo a linha reta x1 ≡ 0, a segunda sendo
a linha reta x1 ≡ 1 e a terceira sendo a linha reta x2 ≡ 0. Cada uma delas passa ao longo de uma dos
subconjuntos V0 , V1 ou H de C. Como U é constante ao longo das curvas caracterı́sticas planas, deve
anular-se ao longo dessas três linhas. Disso concluı́mos que para a solução u(x1 , x2 ) = f x2 x1 (1 − x1 )
a função f deve anular-se em zero, ou seja, f (0) = 0. Note-se que essa é a única restrição imposta à
função f pelas condições de contorno.
Concluı́mos que o problema considerado possui infinitas soluções, todas da forma u(x1 , x2 ) =
f x2 x1 (1 − x1 ) , onde f é uma função contı́nua e diferenciável em [0, ∞) satisfazendo f (0) = 0.
Se tivéssemos imposto condições de contorno não-homogêneas na superfı́cie de Cauchy C o problema
só possuirá soluções (infinitas delas) se essas condições forem constantes em C, de outra forma não é
possı́vel satisfazer a condição que U seja constante ao longo das três curvas caracterı́sticas planas que
passam por V0 , V1 ou H. Assim, para condições de contorno gerais, ou há infinitas soluções ou não há
nenhuma.
A Figura 11.4, página 663, mostra diversas curvas caracterı́sticas planas em todo o plano x1 -x2 para
diversos valores de α e β, positivos e negativos. ◊
Exemplo 11.4 [A equação de Burgers inviscı́vel e ondas de choque]. Vamos agora considerar
um exemplo de uma equação não-linear, a saber a equação de Burgers inviscı́vel17 (i.e., sem viscosidade)
(11.5): u ∂∂xu + ∂∂tu = 0, com uma condição inicial u(x, 0) = u0 (x).
Comummente a função u(x, t) é interpretada como representando a velocidade no ponto x e no
instante de tempo t de um fluido unidimensional. Vamos nos ater a essa interpretação no que segue.
Cada ponto do fluido se move com velocidade u e suporemos que nele não ajam quaisquer forças, quer
externas quer das outras partı́culas do fluido. A ausência de aceleração du
dt
= 0 implica, pela regra da
∂u dx ∂ u ∂u ∂u
cadeia, ∂t + dt ∂x = 0, ou seja, ∂t + u ∂x = 0. Essa é a forma mais simples de deduzir a equação
de Burgers inviscı́vel. Com essa interpretação em mente as curvas caracterı́sticas representam, como
veremos, a trajetória de cada partı́cula do fluido a partir de uma posição e velocidade inicial. Como
17
Essa equação coincide com a equação de Euler da Mecânica dos Fluidos, sem gradiente de pressão e forças externas.
x2
R
0 1 x1
Figura 11.3: As curvas caracterı́sticas no interior de R para diversos valores de β > 0. A superfı́cie de
Cauchy C é a fronteira de R, indicada por linhas grossas.
partı́culas situadas em pontos diferentes em t = 0 podem ter velocidades iniciais diferentes e movem-se
sem interagir umas com as outras, as mesmas podem se sobrepor em uma mesma posição em instantes
futuros. Essa é a origem das chamadas ondas de choque que veremos surgir formalmente no que segue.
A equação de Burgers inviscı́vel (11.5) é uma equação quase-linear (mas não-linear) com a1 (x, t, u) =
u, a2 (x, t, u) = 1 e b(x, t, u) = 0. A superfı́cie de Cauchy nesse caso é C := {(x, t) ∈ R2 : t ≡ 0} e
podemos parametrizá-la por
n o
C := (x, t) ∈ R2 : x = ψ1 (s2 ) = s2 , t = ψ2 (s2 ) ≡ 0 .
O sistema de equações para as curvas caracterı́sticas é
ẋ(s1 ) = U(s1 ) , ṫ(s1 ) = 1 , U̇(s1 ) = 0 , (11.38)
cujas soluções são,
x(s1 ) = γs1 + α , t(s1 ) = s1 + β , U(s1 ) = γ ,
com α, β e γ constantes. Impondo que para s1 = 0 estejamos sobre C, temos α = s2 e β = 0. Impondo

U(0) = u0 (s2 ), teremos γ = u0 (s2 ). Com isso,
x(s1 , s2 ) = u0 (s2 )s1 + s2 , t(s1 , s2 ) = s1 , U(s1 , s2 ) = u0 (s2 ) . (11.39)
Como se vê, as curvas caracterı́sticas planas dependem da escolha da condição inicial u0.
x2
0 1 x1
Figura 11.4: As curvas caracterı́sticas em todo plano x1 -x2 para diversos valores de α e β, positivos e
negativos.
A tı́tulo de exemplo, tomemos u0 da forma





 1, x≤0,











u0 (x) = (1 − x2 )2 , 0 < x < 1 , (11.40)














 0, x≥1.
Essa função é contı́nua e tem derivada contı́nua em toda reta R. Seu gráfico é exibido na Figura 11.5,
página 664.
u0
1 x
Figura 11.5: A condição inicial u0 dada em (11.40) representa um perfil inicial de velocidades no
qual todo ponto do fluido situado em x < 0 move-se com velocidade 1. A velocidade decai a zero
continuamente (e diferenciavelmente) no intervalo 0 ≤ x ≤ 1 e é nula para x > 1. Dessa forma, todo
o ponto do fluido situado em x < 1 tem uma velocidade inicial positiva. Como vemos na solução da
equação de Burgers inviscı́vel, essa condição conduz ao aparecimento de uma onda de choque no fluido.
Para essa escolha de u0 as famı́lias de curvas caracterı́sticas planas são descritas por




 s 1 + s 2 , s 1 , s1 ∈ R , s2 ≤ 0 ,












x(s1 , s2 ), t(s1 , s2 ) = (1 − (s 2 ) 2 2
) s 1 + s 2 , s 1 , s 1 ∈ R , 0 < s2 < 1 , .














 s2 , s1 , s1 ∈ R , s2 ≥ 1 .
Essas relações implicam que, para cada s2 , vale x = u0 (s2 )t+s2 que, como dissemos descreve a trajetória
de uma partı́cula partindo da posição s2 movendo-se com velocidade constante u0 (s2 ). No plano x–t
essas curvas correspondem à famı́lia de linhas retas
t = x − s2 , x ∈ R , s2 ≤ 0 ,
x − s2
t = , x ∈ R , 0 < s2 < 1 ,
(1 − (s2 )2 )2
x = s2 , t∈R, s2 ≥ 1 ,
tal como desenhadas na Figura 11.6, página 665. Nessa figura exibimos apenas o semi-plano t ≥ 0.
É importante recordar que, pela última equação de (11.38), U é constante ao longo de cada curva
caracterı́stica plana.
u0= 1 0 0 < u0 < 1 1 u0= 0 x
Figura 11.6: As curvas caracterı́sticas planas no semi-plano t ≥ 0 associadas à condição inicial u0 de

(11.40). As retas que partem do eixo x na região x ≤ 0 correspondem a s2 < 0 e têm inclinação 1.
As retas que partem do eixo x na região 0 < x < 1 correspondem a 0 < s2 < 1 e têm inclinação
variando de 1 a infinito. As retas que partem do eixo x na região x ≥ 1 correspondem a s2 ≥ 1 e têm
inclinação infinita, ou seja, são verticais. A função u é constante ao longo de cada curva caracterı́stica
plana, assumindo em cada uma o valor fixado pela função u0 no ponto onde mesma atinge o eixo
horizontal x (i.e., em t = 0). Porém, em pontos em que ocorrem cruzamentos de curvas caracterı́sticas
planas, há uma indefinição. Observe na figura acima a existência de zonas de cruzamento das curvas
caracterı́sticas planas. Essas zonas são regiões singulares onde ocorrem as chamadas ondas de choque.
O fato mais notável observado na Figura 11.6 é a existência de regiões no plano x–t onde se
dá cruzamento das curvas caracterı́sticas planas18 . Nas regiões em que não ocorre cruzamento, u é
constante ao longo das caracterı́sticas planas e, portanto, é univocamente determinado pelo valor de
u0 no ponto em que cada caracterı́stica plana cruza o eixo x em t = 0. Nas regiões em que ocorre
cruzamento de curvas caracterı́sticas planas a aplicação (s1 , s2 ) 7→ (x, t) não é bijetora (pois a inversão
não é unı́voca) e, não havendo inversa, é de se esperar a existência de singularidades na solução. Na
Figura 11.7, página 666, é exibida a evolução temporal do perfil de velocidades u(x, t) para diversos
instantes de tempo após o instante inicial t = 0, quando foi fixada a condição inicial u0 (x) dada
em (11.40) e exibida na Figura 11.5. O surgimento de singularidades é notado na formação de uma
descontinuidade na função u como função de x. Esse fenômeno é denominado choque, em referência ao
18
É de se observar, também, que as curvas caracterı́sticas no espaço x–t–u não se cruzam.
fenômeno fisicamente conhecido das chamadas ondas de choque, e é sempre, matematicamente falando,
associado à ocorrência de cruzamento de curvas caracterı́sticas planas.
1
t0 t1 t2 t3 t4
1 x
Figura 11.7: Visão esquemática da evolução temporal do perfil de velocidades u(x, t) a partir da
condição inicial u0 (x). O perfil é mostrado acima em instantes de tempo 0 = t0 < t1 < t2 < t3 < t4 ,
movendo-se da esquerda para a direita. A presença de choque manifesta-se com a formação de uma
descontinuidade na função u como função de x. Acima, nas unidades consideradas, t3 = 1 (pois é 1 é o
tempo necessário para se percorrer uma distância de uma unidade com velocidade 1). Nesse instante
a descontinuidade assume o valor máximo.
E. 11.14 Exercı́cio. Estudando a Figura 11.6, convença-se da validade do quadro exibido na Figura 11.5,
que descreve a evolução temporal do sistema considerado. 6
O fenômeno de ondas de choque é observado em outras equações diferenciais não-lineares, um

exemplo sendo a equação de Korteweg-deVries (11.3), página 636. Para uma discussão mais extensa
do fenômeno de ondas de choque em Mecânica dos Fluidos e sua relação com a teoria das equações
diferenciais parciais, vide [48] ou [89]. ◊
Exemplo 11.5 [A equação de Burgers inviscı́vel e ondas de rarefação]. Vamos agora considerar
novamente a equação de Burgers inviscivel u ∂∂xu + ∂∂tu = 0, com uma condição inicial u(x, 0) = u0 (x)
tratada no Exemplo 11.4, página 661, mas agora com uma outra condição inicial com a qual podemos
exemplificar outro fenômeno. Adotamos, a saber,




 0, x≤0,



u0 (x) =






 1, x>0.
Como (11.39) permanece válida, concluı́mos que





 s 2 , s 1 , s1 ∈ R , s2 ≤ 0 ,



x(s1 , s2 ), t(s1 , s2 ) = .






 s1 + s2 , s1 , s1 ∈ R , s2 > 0 .
No plano x–t essas curvas correspondem à famı́lia de linhas retas
x = s2 , t∈R, s2 ≤ 0 ,
t = x − s2 , x ∈ R , s2 > 0 ,
tal como desenhadas na Figura 11.8, página 667. Nessa figura exibimos apenas o semi-plano t ≥ 0.
É importante recordar que, pela última equação de (11.38), U é constante ao longo de cada curva
caracterı́stica plana.
t
u0= 0 0 u0= 1 x
Figura 11.8: Curvas caracterı́sticas planas para a equação de Burgers inviscı́vel com a condição inicial
u0 = 0 para x ≤ 0 e u0 = 1 para x > 0. Acima, exibimos apenas o semi-plano t ≥ 0. As retas do
lado esquerdo são verticais e as do lado direito têm inclinação 1. Observe que as curvas caracterı́sticas
planas não visitam a região t ≥ x com x > 0. Esse fenômeno é relacionado às chamadas ondas de
rarefação da Mecânica dos Fluidos.
O fato notável observado na Figura 11.8 é a ausência de curvas caracterı́sticas planas na região
t ≥ x com x > 0. Como U é constante ao longo de cada curva caracterı́stica plana concluı́mos que a
solução da equação diferencial que satisfaz a condição de Cauchy dada é





 0, x≤0, t≥0,



u(x, t) =






 1, x>0, t<x,
sendo que a solução está indeterminada na região t ≥ x com x > 0 onde as curvas caracterı́sticas
planas estão ausentes e, portanto, não determinam a solução nessa região. Esse fenômeno da ausência
de curvas caracterı́sticas planas em uma região do espaço onde a solução é procurada é denominado
rarefação ou onda de rarefação. Nesse exemplo, a presença desse fenômeno é parcialmente devida à
descontinuidade da condição inicial (e ao fato de u0 ser não-decrescente).
Na região t ≥ x com x > 0 podemos adotar u(x, t) = 0, obtendo uma solução contı́nua exceto ao
longo da linha x = t. Podemos também adotar u(x, t) = 1, obtendo uma solução contı́nua exceto ao
longo da linha x = 0. Na mesma região é também possı́vel adotar a solução u(x, t) = x/t. É fácil
verificar que a função 



 0, x≤0, t≥0,











u(x, t) = x/t , x > 0 , t ≥ x ,














 1, x>0, 0≤t<x,
assim obtida é solução fraca da equação de Burgers inviscı́vel e é contı́nua em todo semi-plano t > 0.
As diversas soluções mencionadas acima não são ditadas pelas condições iniciais e para justificá-las é
preciso acrescentar mais condições ao problema. Vide [135] ou [152] para uma discussão mais detalhada.
Para uma discussão fı́sica de fenômenos de rarefação, vide [89]. ◊
E. 11.15 Exercı́cio. Resolva a equação de Burgers inviscı́vel u ∂∂xu + ∂u

∂t
= 0, com uma condição inicial
u(x, 0) = u0 (x), sendo 



 0, x≤0,











u0 (x) = x, 0<x≤1,














 1, x>1.
E. 11.16 Exercı́cio. Resolva a equação de Burgers inviscı́vel u ∂∂xu + ∂u

∂t
= 0, com uma condição inicial
u(x, 0) = u0 (x), sendo 



 1, x≤0,











u0 (x) = 1−x, 0 <x≤ 1,














 0, x>1.
Aqui também ocorrem ondas de choque. 6
E. 11.17 Exercı́cio. Resolva a equação de Burgers inviscı́vel u ∂∂xu + ∂∂tu = 0, com uma condição inicial
u(x, 0) = u0 (x), sendo 



 0, x≤0,











2
u0 (x) = 1 − (1 − x)2 , 0 < x ≤ 1 , (11.41)














 1, x>1.
Vide Figura 11.9, página 670. 6
11.3.2 Caracterı́sticas. Comentários Adicionais
• Curvas caracterı́sticas e mudanças de coordenadas
Se for realizada uma mudança de variáveis (x1 , . . . , xn ) 7→ (y1 , . . . , yn ) na equação (11.13) a

mesma transforma-se em n
X
Aj y, v(y) vyj (y) = B y, v(y) , (11.42)
j=1
onde y := (y1, . . . , yn ), v(y) = u(x(y)),

n
X ∂yj
Aj (y, v(y)) := ak x(y), v(y) (y) , B(y, v(y)) := b x(y), v(y) . (11.43)
k=1
∂xk
u
0
0 1 x
Figura 11.9: A condição inicial u0 de (11.41).
Para a nova equação (11.42) as curvas caracterı́sticas seriam dadas pelo sistema (vide (11.21))
∂y1
(s) = A1 y(s), U(s) ,
∂s1
..
.
∂yn
(s) = An y(s), U(s) , (11.44)
∂s1
∂V
(s) = B y(s), U(s) .
∂s1
Expressando essas curvas em termos das coordenadas x teremos
Xn Xn
∂xl ∂xl ∂yj ∂xl
(s) = (s) = Aj y(s), U(s)
∂s1 j=1
∂yj ∂s1 j=1
∂yj
n
X n
X ∂xl ∂yj
= ak x(y(s)), v(y(s)) (s) = al x(y(s)), v(y(s))
j=1
∂yj ∂xk
k=1
| {z }
∂ xl
= ∂x
= δl, k
k
e
∂V
(s) = b x(y(s)), U(s) .
∂s1
Percebemos tratar-se do mesmo sistema de (11.21). A conclusão disso é que as curvas caracterı́sticas
de uma equação quase-linear de primeira ordem não dependem do particular sistema de coordenadas
usado para escrevê-la tendo, portanto, um carácter intrı́nseco.
Esse comentário justifica, aliás, o adjetivo “caracterı́sticas” para designar tais curvas. Em Ma-
temática esse qualificativo é utilizado para designar objetos que independem das coordenadas ou siste-
mas de referência usados para sua descrição (mais ou menos como, no jargão da Fı́sica, se emprega a
palavra “invariante”). Por exemplo, se M é uma matriz quadrada, o polinômio PM (x) := det(x1 − M)
é denominado polinômio caracterı́stico de M pois independe da base usada para descrever M. De fato,
PM (x) := det(x1 − M) = det(T −1 (x1 − M)T ) = det(x1 − (T −1 MT )) =: PT −1 M T (x) para qualquer
matriz invertı́vel T (lembrar que T −1 MT representa a transformação de M pela mudança de base
descrita por T ).
Retornando a (11.42), suponhamos que as novas coordenadas y coincidam com as coordenadas s
usadas para parametrizar as curvas caracterı́sticas de (11.13). Para (11.43) teremos, usando (11.21),
n
X n
X
∂yj ∂xk ∂sj ∂sj
Aj (s, v(s)) := ak x(s), v(s) (s) = (s) (s) = = δj, 1
∂xk ∂s1 ∂xk ∂s1
k=1 k=1
e, assim, (11.42) reduz-se a

vs1 (s) = B s, v(s) , (11.45)
que trata-se, em essência, de uma equação diferencial ordinária para v. Essa equação não é distinta da
última equação de (11.21) ou de (11.14), mas permite um novo entendimento das curvas caracterı́sticas:
a famı́lia das curvas caracterı́sticas representa um sistema de coordenadas no qual alguns termos são
eliminados da parte principal da equação quase-linear de primeira ordem (11.13), de modo a torná-lo
o mais simples possı́vel. Essa idéia é importante, pois pode ser reproduzida em equações de ordem
superior a 1, levando à noção de superfı́cies caracterı́sticas.
11.4 Unicidade de Soluções de Equações Diferenciais Parciais

Como já comentamos, teoremas de unicidade de soluções de equações diferenciais parciais submetidas a
condições iniciais e de contorno são de importância crucial para justificar certos métodos de resolução,
como por exemplo o método de separação de variáveis e de expansão em modos (como os modos
de vibração de cordas ou membranas vibrantes, por exemplo), tal como discutido em diversos dos
problemas tratados no Capı́tulo 10, página 583. No que segue, apresentaremos alguns desses teoremas,
concentrando-nos em casos de de maior interesse em problemas fı́sicos. Alguns desses teoremas serão
evocados na discussão do Capı́tulo 10, página 583.
11.4.1 Casos Simples. Discussão Preliminar

Primeiramente, exporemos o leitor aos teoremas de unicidade de solução mais simples e seus métodos de
demonstração. A intenção é pedagógica e por isso escolhemos dois tipos de equações de interesse fı́sico,
as equações de difusão e de onda com coeficientes constantes em uma dimensão espacial. Generalizações
serão apresentadas adiante na Seção 11.4.2, página 678.
• Unicidade de soluções para a equação de difusão em um intervalo finito

A proposição que segue apresenta condições que garantem unicidade para as soluções da equação
de difusão a coeficientes constantes definida em um intervalo finito da reta sob certas condições iniciais
e de contorno.
Proposição 11.1 Considere a equação diferencial
∂u ∂2u
− K 2 = F (x, t) , (11.46)
∂t ∂x
com K > 0 constante, e F é uma função dada (em princı́pio arbitrária). Acima, x ∈ [0, L] para algum
L > 0 e t ≥ 0. As condições iniciais são
u(x, 0) = u0 (x), (11.47)
onde u0 : [0, L] → R é uma função arbitrária. Considere os seguintes tipos de condições de contorno.
I. Condições de Dirichlet:
u(0, t) = f1 (t), u(L, t) = f2 (t) .
II. Condições de Neumann:
∂u ∂u
(0, t) = f3 (t), (L, t) = f4 (t) .
∂x ∂x
Acima, fi são funções arbitrárias.

Então, caso exista, a solução de (11.46) sob as condições iniciais (11.47) é única tanto sob condições
de contorno do tipo de Dirichlet quanto sob condições de contorno do tipo de Neumann. 2
A proposição acima garante unicidade da solução para qualquer função F (x, t) e quaisquer funções
fi , mas não garante a existência de soluções. Para garantir existência e exibir uma solução (por exemplo
em termos de séries de Fourier) é preciso ser mais restritivo quanto à função F e às funções fi . A de-
monstração da Proposição 11.1 é apresentada na forma do exercı́cio dirigido que segue. Generalizações
encontram-se na Proposição 11.5, página 678, e a Proposição 11.6, página 682.
E. 11.18 Exercı́cio. Prova da Proposição 11.1. Para demonstrar a unicidade de solução da equação
diferencial (11.46) sob as condições acima procede-se da seguinte forma. Suponha que haja duas soluções u
e v da equação acima, ambas satisfazendo as mesmas condições de contorno e as mesmas condições iniciais.
Defina w(x, t) := u(x, t) − v(x, t). Desejamos mostrar que w = 0, implicando que as duas soluções u e
v são em verdade iguais.
a. Mostre que w satisfaz a equação diferencial homogênea
∂w ∂2w
−K = 0. (11.48)
∂t ∂x2
b. Mostre que w satisfaz a condição inicial w(x, 0) = 0.

c. Mostre que w satisfaz as condições de contorno
w(0, t) = 0, w(L, t) = 0 , (11.49)
no caso de condições de Dirichlet ou
∂w ∂w
(0, t) = 0, (L, t) = 0 , (11.50)
∂x ∂x
no caso de condições de Neumann.
d. Defina Z L
E(t) = (w(x, t))2 dx .
0
Mostre que E(t) ≥ 0 para todo t. (Trivial).
e. Mostre que E(0) = 0. (Use as condições iniciais de w).
f. Mostre, diferenciando dentro da integral, usando integração por partes e usando a equação diferencial
(11.48), que
Z L 2
′ ∂w ∂w ∂w
E (t) = −2K dx + 2K w(L, t) (L, t) − w(0, t) (0, t) .
0 ∂x ∂x ∂x
g. Conclua que 2
Z L
′ ∂w
E (t) = −2K dx
0 ∂x
supondo as condições de contorno (11.49) ou (11.50) para w. Conclua que, sob essas condições,
E ′ (t) ≤ 0 para todo t.
h. Conclua de g, d e e que E(t) = 0 para todo t.
i. Conclua daı́ que w(x, t) é identicamente nula.
Uma das razões de expormos os passos acima de forma tão detalhada é pedagógica: esses passos são
seguidos, nem sempre com a mesma trivialidade, em outras demonstrações de teoremas de unicidade
de soluções de equações diferenciais parciais. Para teoremas de unicidade válidos em generalizações da
equação de difusão vide, por exemplo, a Proposição 11.5, página 678, e a Proposição 11.6, página 682.
Podemos generalizar um pouco a proposição acima, mas apenas para condições de Dirichlet. Isso é
o conteúdo da proposição que segue.

∂u ∂2u ∂u
−K 2 −α = F (x, t) , (11.51)
∂t ∂x ∂x
com K > 0, α ∈ R, constantes, e F é uma função dada (em princı́pio arbitrária). Acima, x ∈ [0, L]
para algum L > 0 e t ≥ 0. As condições iniciais são
u(x, 0) = u0 (x), (11.52)
onde u0 : [0, L] → R é uma função arbitrária. Então, para condições de Dirichlet:
u(0, t) = f1 (t), u(L, t) = f2 (t) ,
onde fi são funções arbitrárias, a solução de (11.51) é única, caso exista. 2
Prova. A prova segue os mesmos passos descritos no Exercı́cio E. 11.18, mas agora
Z L 2
′ ∂w ∂w ∂w
E (t) = −2K dx + 2K w(L, t) (L, t) − w(0, t) (0, t) + α w(L, t)2 − w(0, t)2 .
0 ∂x ∂x ∂x
Porém, os dois últimos termos são nulos, em função das condições de Dirichlet, e obtemos a mesma
expressão para E ′ (t) que no caso do Exercı́cio E. 11.18.
• Unicidade de soluções para a equação de ondas em um intervalo finito
Vamos agora considerar outra equação importante em Fı́sica, a equação de ondas. A proposição que
segue apresenta condições que garantem unicidade para as soluções da equação de ondas a coeficientes
constantes definida em um intervalo finito da reta sob certas condições iniciais e de contorno.
∂2u 2
2 ∂ u ∂u
− c + γ = F (x, t) (11.53)
∂t2 ∂x2 ∂t
com c > 0, γ ≥ 0, constantes, sendo F uma função dada (em princı́pio arbitrária). Acima, x ∈ [0, L]
para algum L > 0 e t ≥ 0. As condições iniciais são
∂u
u(x, 0) = u0 (x), (x, 0) = v0 (x) , (11.54)
∂t
onde u0 , v0 : [0, L] → R são igualmente funções arbitrárias. Para as condições de contorno, conside-
ramos
u(0, t) = f1 (t), u(L, t) = f2 (t) .
∂u ∂u
(0, t) = f3 (t), (L, t) = f4 (t) .
∂x ∂x
Acima, fi são funções arbitrárias.

Então, caso exista, a solução de (11.53) com as condições iniciais (11.54) é única tanto no caso de
condições de contorno do tipo de Dirichlet quando do tipo de Neumann. 2
A proposição acima garante unicidade da solução para qualquer função F (x, t) e quaisquer funções
fi , mas não garante a existência de soluções. Para garantir existência e exibir uma solução (por
exemplo em termos de séries de Fourier) é preciso ser mais restritivo quanto à função F e às funções
fi . A proposição acima pode ser bastante generalizada. Isso é apresentado na Proposição 11.7, página
683.
E. 11.19 Exercı́cio. Prova da Proposição 11.3. Para demonstrar a unicidade de solução da equação
diferencial sob as condições acima proceda da seguinte forma: suponha que haja duas soluções u e v da
equação acima, ambas satisfazendo as mesmas condições de contorno e as mesmas condições iniciais. Defina
w(x, t) = u(x, t) − v(x, t). Desejamos mostrar que w = 0, implicando que as duas soluções u e v são,
em verdade, iguais.
a. Mostre que w satisfaz a equação diferencial homogênea

∂2w 2
2 ∂ w ∂w
2
− c 2
+γ = 0.
∂t ∂x ∂t
b. Mostre que w satisfaz as condições iniciais

∂w
w(x, 0) = 0, (x, 0) = 0
∂t
c. Mostre que w satisfaz as condições de contorno
w(0, t) = 0, w(L, t) = 0 , (11.55)
no caso de condições de Dirichlet ou
∂w ∂w (11.56)
(0, t) = 0, (L, t) = 0
∂x ∂x
no caso de condições de Neumann.
d. Defina Z " 2 2 #
L
∂w ∂w
E(t) = + c2 dx .
0 ∂t ∂x
Mostre que E(t) ≥ 0 para todo t. (Trivial).
e. Mostre que E(0) = 0. (Use as condições iniciais de w).
f. Mostre, diferenciando dentro da integral e usando integração por partes, que

Z L
′ ∂w ∂ 2 w 2
2 ∂ w
E (t) = 2 −c dx .
0 ∂t ∂t2 ∂x2
Para a integração por partes é preciso usar as condições de contorno (11.55) ou (11.56) para w.
g. Usando a equação diferencial de w conclua que

Z L 2
′ ∂w
E (t) = −2γ dx .
0 ∂t
e, portanto, E ′ (t) ≤ 0 para todo t.
h. Conclua de g, d e e que E(t) = 0 para todo t.
i. Conclua daı́ que w(x, t) é uma constante, ou seja, não depende de x e t. Disso, conclua pela condição
inicial w(x, 0) = 0 que w é identicamente nula.
• Unicidade de solução para as equações de Laplace e Poisson em regiões finitas
De grande importância em problemas de Eletrostática, Magnetostática, Mecânica dos Fluidos ou em

problemas de transporte de calor é a questão da unicidade de solução da equação de Laplace ∆φ(~x) = 0
ou da de Poisson19 ∆φ(~x) = ρ(~x) sob certas condições de contorno. Para o caso de regiões limitadas
essa questão é respondida na seguinte proposição.
Proposição 11.4 Considere-se o problema de determinar a solução da equação de Poisson ∆φ(~x) =
ρ(~x) (a equação de Laplace é o caso particular em que ρ(~x) ≡ 0) em três dimensões em uma região
R, compacta, conexa, limitada por uma superfı́cie fechada, retificável e orientável ∂R, de forma que φ
seja contı́nua e diferenciável em ∂R satisfazendo em ∂R uma das seguintes condições de contorno:
1. Condição de Dirichlet. Para todo ~x ∈ ∂R vale φ(~x) = f (~x), para uma função f dada.
∂φ
2. Condição de Neumann.
Para todo ~x ∈ ∂R vale ∂n (~x) = g(~x), para uma função g dada, onde
∂φ ~ x) · ~n(~x) é a chamada derivada normal de φ em ~x ∈ ∂R, ~n(~x) sendo um versor
(~x) := ∇φ(~
∂n
normal a ∂R em ~x ∈ ∂R, apontando para fora de R.
∂φ
3. Condição mista. Para todo ~x ∈ ∂R vale φ(~x) + a(~x) ∂n (~x) = h(~x), onde h é uma função dada
e a é contı́nua por partes, não-identicamente nula e não-negativa, ou seja, a(~x) ≥ 0 para todo
~x ∈ ∂R.
19
Então, no caso de uma condição de Dirichlet ou mista a solução é única, se existir, e no caso de
uma condição de Neumann a solução é única a menos de uma constante aditiva, se existir.
Mutatis mutantis, as afirmações acima são também válidas em duas dimensões, ou mesmo em
quatro ou mais dimensões. 2
Prova. Vamos supor que haja duas soluções u e v da equação ∆φ(~x) = ρ(~x) em R, ambas satisfazendo
a mesma condição de contorno, de Dirichlet, de Neumann ou mista, em ∂R. Então, a função w := u −v
obviamente satisfaz ∆w = 0 em R e uma das seguintes condições de contorno homogêneas:
1) w(~x) = 0 para todo ~x ∈ ∂R (no caso de uma condição de Dirichlet),

∂w
2) ∂n
(~x) = 0 para todo ~x ∈ ∂R (no caso de uma condição de Neumann) ou
3) w(~x) + a(~x) ∂w
∂n
(~x) = 0 para todo ~x ∈ ∂R (no caso de uma condição mista).
Considere-se a quantidade Z 2
U := ~
∇w(~x) d3~x .
R
2 2
É evidente pela definição que U ≥ 0. Como ∇ · w ∇w ~ ~
= ∇w + w∆w = ∇w ~ (pois ∆w = 0),
temos, pelo Teorema de Gauss,
Z {
~ 3 Gauss ∂w
U = ∇ · w ∇w (~x) d ~x = w(~x) (~x) dσ(~x) , (11.57)
R ∂n
∂R
dσ(~x) sendo a medida de integração de superfı́cie em ∂R.

No caso de uma condição de Neumann ou de Dirichlet o lado direito de (11.57) anula-se, pois ou
w(~x) = 0 para todo ~x ∈ ∂R (Dirichlet) ou ∂w∂n
(~x) = 0 para todo ~x ∈ ∂R (Neumann).
{ 2
∂w
No caso de uma condição mista o lado direito de (11.57) fica − a(~x) (~x) dσ(~x) ≤ 0, pois
∂n
∂R
a foi suposta não-negativa. Como, de acordo com a definição, U ≥ 0, concluı́mos novamente que U é
nulo.
Assim, para cada uma das três condições concluı́mos que U = 0, o que implica que ∇w ~ = 0 em
todo R. Logo, u(~x) = v(~x) + c, onde c é uma constante. No caso de uma condição de Dirichlet essa
constante deve anular-se, pois u e v satisfazem as mesmas condições em ∂R. O mesmo se dá para uma
condição mista. No caso de uma condição de Neumann essa constante pode ser arbitrária.
Mutatis mutantis, a demonstração das afirmações de acima não se altera em duas ou mais dimensões.
• Unicidade de solução de EDP’s. Um contra-exemplo
Sob a luz das Proposições 11.1, 11.2, 11.3, 11.4, 11.5 e 11.6 (páginas 672, 674, 674, 676, 678, e
682, respectivamente), o estudante não deve ser levado a pensar que a unicidade seja uma propriedade
comum a todas as equações diferenciais parciais lineares com as condições iniciais e de contorno como
as que tratamos. Vejamos um contra-exemplo.
E. 11.20 Exercı́cio. Seja a equação diferencial linear e homogênea

∂u ∂u
(1 − 2x)t − x(1 − x) = 0,
∂t ∂x
para x ∈ [0, 1], t ≥ 0, com a condição inicial u(x, 0) = 0 e as condições de contorno u(0, t) = u(1, t) = 0.

Esse problema tem infinitas soluções. Mostre que todas as funções da forma u(x, t) = f tx(1 − x) ,
onde f é uma função contı́nua e diferenciável em [0, ∞), satisfazendo f (0) = 0, satisfazem a equação
diferencial, a condição inicial
α e as condições de contorno acima. Por exemplo, para qualquer α > 0 a função
vα (x, t) := tx(1 − x) satisfaz a equação diferencial, a condição inicial e as condições de contorno. O
problema acima foi estudado sob a luz do método das caracterı́sticas no Exemplo 11.3 da página 660. 6
11.4.2 Unicidade de Soluções. Generalizações

Nesta seção continuaremos a discussão sobre teoremas de unicidade de soluções de equações diferenciais
parciais de interesse, particularmente para versões mais gerais das equações de onda e de difusão, em
uma ou mais dimensões espaciais.
O problema de determinar soluções de equações diferenciais submetidas a condições iniciais é
freqüentemente denominado problema de Cauchy.
• Unicidade de solução para a equação de difusão em regiões finitas
A proposição que segue estabelece unicidade de solução para uma forma bastante geral da equação
de difusão definida em um conjunto limitado e conexo D de Rn , para todo n ≥ 1, sob certas condições
iniciais e certas condições de contorno, que podem ser do tipo de Dirichlet20 , de Neumann21 ou mistas
(vide abaixo), generalizando assim a Proposição 11.1, da página 672.
Proposição 11.5 Consideremos para uma função real u a equação diferencial linear, denominada
equação de difusão, dada por
∂u
~ · κ(~x, t)∇u(~
γ(~x) (~x, t) − ∇ ~ x, t) + η(~x)u(~x, t) = ϕ(~x, t) , (11.58)
∂t
definida para ~x em um conjunto não-vazio, aberto, conexo e limitado D ⊂ Rn , n ≥ 1.
Suporemos que γ e η são contı́nuas por partes com γ(~x) ≥ 0 e η(~x) ≥ 0, ambas podendo se anular
apenas em um conjunto de medida nula. Suporemos também que κ é contı́nua e diferenciável e que
κ(~x, t) ≥ 0.
Denotaremos por D o fecho de D (que é compacto, pois D é limitado) e denotaremos por ∂D = D\D
a fronteira de D. Acima, ϕ(~x, t) é uma função real dada de ~x e t que, se não nula, faz de (11.58) uma
equação não-homogênea. Sobre a região D, suporemos ainda que ∂D seja diferenciável e orientável, de
20
21
modo que em qualquer ponto ~x de ∂D possamos definir o versor (vetor de comprimento 1) ~n(~x) normal
à ∂D no ponto ~x e apontando para fora de D.
Iremos supor que a função u esteja submetida a condições iniciais que fixam seu valor em t = 0:
u(~x, 0) = u0 (~x) , (11.59)
∀~x ∈ D, onde a função real u0 é um dado do problema (denominado dado de Cauchy). Além disso,
iremos supor que u(~x, t) esteja submetida a condições na fronteira ∂D, as chamadas condições de
contorno. Trataremos dos seguintes tipos de condições de contorno:
u(~x, t) = φ(~x, t)
para todo ~x ∈ ∂D e todo t ≥ 0, φ(~x, t) sendo uma função real dada.

∂u
(~x, t) = −ψ(~x, t)
∂n
∂u
para todo ~x ∈ ∂D e todo t ≥ 0, ψ(~x, t) sendo uma função real dada. Acima, ∂n representa a
∂u ~ x, t), ~x ∈ ∂D.
derivada normal de u à superfı́cie ∂D, ou seja, ∂n (~x, t) = ~n(~x) · ∇u(~
III. Condições mistas: para uma função contı́nua α(~x, t) ≥ 0, definida em ∂D para todo t ≥ 0,
tem-se
∂u
u(~x, t) + α(~x, t) (~x, t) = χ(~x, t)
∂n
para todo ~x ∈ ∂D e todo t ≥ 0, χ(~x, t) sendo uma função real dada.
Então, para cada uma das condições de contorno descritas acima, a solução do problema de Cauchy
de determinar a solução (11.58) para as condições iniciais (11.59) é única, caso exista. 2
Vide também a Proposição 11.6 para uma generalização. Antes de passarmos à demonstração da
Proposição 11.5, façamos alguns comentários.
O leitor deve ter notado que no enunciado da Proposição 11.5 não são feitas restrições às funções
ϕ, φ, ψ e χ, acima, pois, de fato, restrições não são necessárias para garantir-se unicidade. Para uma
prova de existência de solução, porém, certamente são necessárias restrições a essas funções, tais como
continuidade por partes etc. Não trataremos de condições gerais de existência aqui.
Na Proposição 11.5, acima, a região D é limitada e conexa. O estudante pode perguntar-se o que
ocorre com a questão da unicidade se considerarmos a equação de difusão, equação (11.58), em regiões
abertas, conexas, mas não-limitadas, como Rn , por exemplo. Nesse caso, tem-se que considerar outras
condições de contorno no infinito e os métodos de demonstração abaixo não funcionam. Sob condições
convenientes, é possı́vel demonstrar unicidade de solução, mas algumas surpresas interessantı́ssimas
ocorrem. Vide para tal a fascinante discussão de [84], especialmente seus capı́tulos 67 e 68.
A equação (11.58) pode ser interpretada como a equação de difusão de calor sem convecção em um
meio homogêneo de constante de difusão κ(~x, t), a função u(~x, t) representando a temperatura do
meio no ponto ~x no instante t. Nessa interpretação, para o caso em que para η e ϕ são identicamente
nulas, a equação (11.58) é uma representação matemática de uma lei fı́sica denominada Lei de Fourier22
do transporte de calor. Vide [36]. A Lei de Fourier foi originalmente obtida experimentalmente e é até
hoje um problema de pesquisa demonstrá-la teoricamente a partir de primeiros princı́pios usando os
métodos da Mecânica Estatı́stica, especialmente no caso quântico. O termo ϕ(~x, t) tem a interpretação
de uma fonte de calor externa e o termo η(~x, t)u(~x, t) com η ≥ 0 representa uma dissipação de calor,
por exemplo, por emissão de radiação.
As três condições de contorno listadas acima manifestam condições fı́sicas às quais o sistema definido
em D se submete em seu contorno ∂D. Consideremos a interpretação de (11.58) como a equação de
difusão de calor sem convecção em um meio homogêneo. Fisicamente mais precisas são as condições
∂u
mistas, que afirmam que para o fluxo de calor (para fora de D) por unidade de área, − ∂n (~x, t), vale
∂u 1
− ∂n (~x, t) = α(~x, t) (u(~x, t) − χ(~x, t)). De acordo com a Lei de Fourier do transporte de calor (vide
[36]), isso diz-nos que em cada ponto ~x ∈ ∂D o calor flui do sistema à temperatura u(~x, t) para um
banho térmico externo à temperatura χ(~x, t), através da superfı́cie de contacto cuja constante de
difusão é α(~x, t), a qual dependente do contacto entre o sistema e o meio, do material que os compõe
etc., e por isso pode depender de ~x e t. As condições de Dirichlet significam que cada ponto de ~x de
∂D está em contacto com um banho térmico à temperatura φ(~x, t) que difunde calor perfeitamente ao
sistema nos pontos de contacto, ou seja, vale a aproximar por zero a constante de difusão de contacto α
(o que é uma boa aproximação no caso de contactos metálicos). As condições de Neumann significam
∂u
que, cada ponto de ~x de ∂D, o fluxo de calor (para fora de D) por unidade de área, − ∂n , é fixado em
ψ(~x, t). Tal se dá, por exemplo, se u for desprezı́vel face à temperatura do meio externo, em cujo caso
terı́amos, comparando com o caso das condições mistas, −ψ = χ/α. Um caso comum é aquele em que
ψ é nula, o que corresponde a colocar o sistema em contacto com um isolante térmico perfeito, ou seja,
para o qual α é próximo ao infinito.
Prova da Proposição 11.5. Afirmamos que sob as condições descritas na proposição, a solução de
(11.58) é única, caso exista. Para tal, vamos supor que u e v sejam duas soluções reais de (11.58), ambas
satisfazendo as mesmas condições iniciais e as mesmas condições de contorno, quer sejam de Dirichlet, de
Neumann ou mistas, descritas acima. Consideremos a função w definida por w(~x, t) := u(~x, t)−v(~x, t).
Como (11.58) é linear, é fácil constatar que w satisfaz a equação homogênea
∂w
γ(~x) ~ · κ(~x, t)∇w(~
(~x, t) − ∇ ~ x, t) + η(~x)w(~x, t) = 0 , (11.60)
∂t
para todo ~x ∈ D e todo t ≥ 0, assim como a condição inicial w(~x, 0) = 0, ∀~x ∈ D. Quanto às condições
de contorno teremos, para o caso de condições de Dirichlet, w(~x, t) = 0 para todo ~x ∈ ∂D e todo t ≥ 0.
Para o caso de condições de Neumann, ∂w ∂n
(~x, t) = 0 para todo ~x ∈ ∂D e todo t ≥ 0. Para o caso de
∂w
condições mistas, w(~x, t) + α(~x, t) ∂n (~x, t) = 0 para todo ~x ∈ ∂D e todo t ≥ 0.
Desejamos mostrar que w é identicamente nula, o que prova que u e v são idênticas, estabelecendo
unicidade de solução sob as condições mencionadas. Para tal, consideremos a expressão
Z Z t Z
2 n
′ 2 n
A(t) = γ(~x) w(~x, t) d ~x + 2 η(~x) w(~x, t ) d ~x dt′ . (11.61)
D 0 D
22
Jean Baptiste Joseph Fourier (1768-1830). Os trabalhos de Fourier na resolução da equação de difusão de calor em
uma dimensão o conduziram às chamadas séries de Fourier.
É evidente que A(t) ≥ 0 para todo t ≥ 0. Tem-se, porém, A(0) = 0, pois em t = 0 a função w anula-se
(pela condição inicial para w). Como w é diferenciável em relação a t, podemos calcular a derivada
d
dt
A(t) por
Z Z
dA ∂ 2 n 2
(t) = γ(~x) w(~x, t) d ~x + 2 η(~x) w(~x, t) dn~x
dt D ∂t D
Z Z
∂w n
2
= 2 w(~x, t)γ(~x) (~x, t) d ~x + 2 η(~x) w(~x, t) dn~x
D ∂t D
Z h i Z
(11.60) 2
= 2 ~ ~ n
w(~x, t) ∇ · κ(~x, t)∇w(~x, t) − η(~x)w(~x, t) d ~x + 2 η(~x) w(~x, t) dn~x
D D
Z
= 2 ~ · κ(~x, t)∇w(~
w(~x, t) ∇ ~ x, t) dn~x
D
Z Z 2
= 2 ~ ~ n
∇ · κ(~x, t) w ∇w d ~x − ~ n
κ(~x, t) ∇w d ~x
D D
Z Z 2
Gauss ∂w ~ n
= 2 κ(~x, t)w ds(~x) − κ(~x, t) ∇w d ~x ,
∂D ∂n D
onde ds(~x)Zé a medida de integração n−1 dimensional em ∂D. Agora, no caso de condições de Dirichlet,
∂w
a integral κ(~x, t) w ds(~x) anula-se pois w anula-se em ∂D, o mesmo se sucedendo no caso de
∂D ∂n
condições de Neumann, quando ∂w ∂n
anula-se em ∂D. Concluı́mos que em ambos os casos
Z 2
dA ~
(t) = −2 κ(~x, t) ∇w dn~x . (11.62)
dt D
No caso de condições mistas, tem-se

"Z 2 Z #
dA ∂w 2
(t) = −2 α(~x, t) κ(~x, t) ds(~x) + ~
κ(~x, t) ∇w dn~x . (11.63)
dt ∂D ∂n D
Ora, como κ(~x, t) ≥ 0 e α(~x, t) ≥ 0 , o lado direito de (11.62) e de (11.63) são ambos claramente
menores ou iguais a zero. Porém, como A(0) = 0, se a derivada dA dt
(t) fosse negativa para algum t ≥ 0,
a função A assumiria valores negativos, o que é impossı́vel pois, como observamos, A(t) ≥ 0 para todo
t ≥ 0. Logo, devemos ter dA dt
(t) = 0 para todo t, ou seja, A é constante. Mas como A(0) = 0, vale
A(t) = 0 para todo t ≥ 0. Sendo A(t) dada em (11.61) como a somaZ de duas integrais maiores ou
2
iguais a zero, isso implica que ambas se anulam, ou seja, em particular, γ(~x) w(~x, t) dn~x = 0 para
D
todo t ≥ 0. Como w é contı́nua e γ(~x) se anula apenas em um conjunto de medida nula, isso implica
que w é identicamente nula em todo D, para todo t ≥ 0, para a condição inicial e para cada uma das
condições de contorno consideradas, que é o que querı́amos mostrar.
Uma idéia semelhante à da demonstração acima será seguida quando tratarmos da equação que
descreve vibrações em meios elásticos na Proposição 11.7, página 683. A Proposição 11.5 pode ser
estendida, sob certas condições, como mostra a seguinte proposição, que generaliza a Proposição 11.2
da página 674.
Proposição 11.6 Consideremos para uma função real u a equação diferencial linear dada por
∂u
~ ~ ~ x, t) · ∇u(~
γ(~x) (~x, t) − ∇ · κ(~x, t)∇u(~x, t) − θ(~ ~ x, t) + η(~x)u(~x, t) = ϕ(~x, t) , (11.64)
∂t
definida sob as mesmas hipóteses da Proposição 11.5, mas assumindo ainda que θ~ é continuamente
~ · ~θ(~x, t) ≥ 0 para todo ~x ∈ D e t ≥ 0. Seja u submetida a condições iniciais que
diferenciável e ∇
fixam seu valor em t = 0:
u(~x, 0) = u0 (~x) , (11.65)
∀~x ∈ D, onde a função real u0 é um dado do problema (denominado dado de Cauchy) e a condições de
contorno do tipo de Dirichlet na fronteira ∂D:
u(~x, t) = φ(~x, t)

Então, a solução do problema de Cauchy de determinar a solução (11.64) para as condições iniciais
(11.65) é única, caso exista. 2
O leitor deve notar que a equação diferencial (11.64) difere de (11.58) pela introdução do termo
contendo o campo ~θ, sendo que supomos que o divergente desse campo seja maior ou igual a zero em D.
É de se notar também o fato de a proposição limitar-se a condições de contorno do tipo de Dirichlet.
Prova. A prova segue os mesmos passos do caso da Proposição 11.5, mas obtem-se agora
Z 2 Z Z
dA ~
(t) = −2 ~ n
κ(~x, t) ∇w d ~x − ~ 2 n
∇ · θ w d ~x + w 2 ~θ · ~n(~x) ds(~x) , (11.66)
dt D D ∂D
em lugar de (11.62). A integral sobre ∂D é nula sob condições de Dirichlet, pois para elas w anula-se na
~ · ~θ ≥ 0, obtem-se novamente dA (t) ≤ 0 sob condições de Dirichlet23 , conduzindo
fronteira. Assim, se ∇ dt
às mesmas conclusões que no caso da Proposição 11.5.
• Unicidade de solução para a equação de vibrações elásticas em regiões finitas
A proposição que segue estende os resultados de unicidade que obtivemos para a equação de difusão
na Proposição 11.5, acima, para uma forma bastante geral da equação que descreve vibrações em meios
elásticos, definida em um conjunto limitado e conexo D de Rn , para todo n ≥ 1, sob certas condições
iniciais e certas condições de contorno, que podem ser do tipo de Dirichlet, de Neumann ou mistas. Um
caso particular importante é a equação de ondas, de grande relevância em Fı́sica, tratado na Proposição
11.3 da página 674 no caso unidimensional.
23
O leitor poderia pensar que poderı́amos incluir condições mistas de contorno e ainda obter dA
dt (t) ≤ 0 em (11.66) se
~ ~ ~
adicionalmente supuséssemos que θ · ~n(~x) ≤ 0 em todo ∂D, mas isso é incompatı́vel com ∇ · θ ≥ 0, pelo Teorema de
Gauss.
Proposição 11.7 Consideremos para uma função real u a equação diferencial linear, dada por
∂2u ∂u
ρ(~x) (~
x , t) + γ(~
x , t) (~
x , t) − ~ · τ (~x)∇u(~
∇ ~ x, t) + η(~x)u(~x, t) = ϕ(~x, t) , (11.67)
∂t2 ∂t
definida para ~x em um conjunto não-vazio, aberto, conexo e limitado D ⊂ Rn , n ≥ 1. D é, assim,
limitado e conexo. Assumiremos que τ é contı́nua e diferenciável e que ρ, γ e η sejam contı́nuas por
partes. Suporemos também que ρ(~x) > 0 e τ (~x) > 0, exceto em conjuntos de medida nula, onde podem
anular-se. Assumiremos também que η(~x) ≥ 0 e que γ(~x, t) ≥ 0 para todo ~x ∈ D e todo t ≥ 0.
Denotaremos por D o fecho de D (que é compacto, pois D é limitado) e denotaremos por ∂D = D\D
a fronteira de D. Sobre a região D, suporemos ainda que ∂D seja diferenciável e orientável, de modo
que em qualquer ponto ~x de ∂D possamos definir o versor (vetor de comprimento 1) ~n(~x) normal à ∂D
no ponto ~x e apontando para fora de D.
Iremos supor que a função u esteja submetida a condições iniciais que fixam seu valor em t = 0
assim como o de sua derivada temporal:
∂u
u(~x, 0) = u0(~x) , (~x, 0) = v0 (~x) . (11.68)
∂t
∀~x ∈ D, onde as funções reais u0 e v0 são dados do problema (denominados dados de Cauchy). Além
disso, iremos supor que u(~x, t) esteja submetida a condições na fronteira ∂D, as chamadas condições
de contorno. Trataremos dos seguintes tipos de condições de contorno:
u(~x, t) = φ(~x, t)

∂u
(~x, t) = −ψ(~x, t)
∂n
∂u
para todo ~x ∈ ∂D e todo t ≥ 0, ψ(~x, t) sendo uma função real dada. Acima, ∂n representa a
∂u ~
derivada normal de u à superfı́cie ∂D, ou seja, ∂n (~x, t) = ~n(~x) · ∇u(~x, t), ~x ∈ ∂D.
III. Condições mistas: para uma função contı́nua ζ(~x, t) ≥ 0, definida em ∂D para todo t ≥ 0, tem-se
∂u ∂u
(~x, t) + ζ(~x, t) (~x, t) = χ(~x, t)
∂t ∂n
para todo ~x ∈ ∂D e todo t ≥ 0, χ(~x, t) sendo uma função real dada.
IV. A expressão τ (~x) ∂u ∂u

∂t ∂n
anula-se identicamente na fronteira ∂D.
Então, para cada uma das condições de contorno descritas acima, a solução do problema de Cauchy
de determinar a solução (11.67) para as condições iniciais (11.68) é única, caso exista. 2
A equação (11.67) descreve vibrações elásticas em um meio material de densidade ρ(~x) localizado
em D. O termo γ(~x, t) ∂u ∂t
(~x, t) descreve uma dissipação (por exemplo, por atrito viscoso com um meio
externo) e τ (~x) deve ser interpretado como a tensão do meio no ponto ~x. O termo η(~x)u(~x, t) provem
de uma força harmônica restauradora (caso η positivo) agindo sobre cada ponto do meio. Por fim,
ϕ(~x, t) representa uma força externa (por unidade de volume) agindo sobre o sistema no ponto ~x no
instante t. Para uma dedução parcial dessa expressão no caso unidimensional vide, por exemplo, [36].
Um caso particular importante é aquele em que γ, η e ϕ são nulas e ρ e τ são constantes positivas,
caso esse em que (11.67) assume a forma da equação de ondas livres
r
∂2u 2 τ
2
(~x, t) − c ∆u(~x, t) = 0 , c = .
∂t ρ
A constante c tem a interpretação de velocidade de propagação das ondas.
Prova da Proposição 11.7. Afirmamos que sob as condições descritas na proposição, a solução de
(11.67) é única, caso exista. Para tal, vamos supor que u e v sejam duas soluções reais de (11.67), ambas
satisfazendo as mesmas condições iniciais e as mesmas condições de contorno, quer sejam de Dirichlet, de
Neumann ou mistas, descritas acima. Consideremos a função w definida por w(~x, t) := u(~x, t)−v(~x, t).
Como (11.67) é linear, é fácil constatar que w satisfaz a equação homogênea
∂2w ∂w
ρ(~x) (~
x , t) + γ(~
x , t) (~
x , t) − ~ · τ (~x)∇w(~
∇ ~ x, t) + η(~x)w(~x, t) = 0 , (11.69)
∂t2 ∂t
para todo ~x ∈ D e todo t ≥ 0, assim como as condições iniciais w(~x, 0) = 0, e ∂w ∂t
(~x, 0) = 0, ∀~x ∈ D.
Quanto às condições de contorno teremos, para o caso de condições de Dirichlet, w(~x, t) = 0 para todo
~x ∈ ∂D e todo t ≥ 0. Para o caso de condições de Neumann, ∂w ∂n
(~x, t) = 0 para todo ~x ∈ ∂D e todo
∂w ∂w
t ≥ 0. Para o caso de condições mistas, ∂t (~x, t) + ζ(~x, t) ∂n (~x, t) = 0 para todo ~x ∈ ∂D e todo t ≥ 0.
Desejamos mostrar que w é identicamente nula, o que prova que u e v são idênticas, estabelecendo
unicidade de solução sob as condições mencionadas. Para tal, consideramos a expressão
Z " 2 #
ρ(~x) ∂w τ (~x) ~ 2 η(~x) 2
E(t) = (~x, t) + ∇w(~x, t) + w(~x, t) dn~x . (11.70)
D 2 ∂t 2 2
É evidente pelas hipóteses de positividade sobre ρ, τ e η que E(t) ≥ 0 para todo t ≥ 0. Tem-se, porém,
E(0) = 0, pois em t = 0 a função w anula-se, assim como sua derivada temporal (pela condição inicial
para w). Como w é diferenciável em relação a t, podemos calcular a derivada dtd E(t) por
Z
dE ∂w ∂2w ~ ·∇ ~ ∂w ∂w
(t) = ρ(~x) 2 + τ (~x) ∇w + η(~x)w dn ~x
dt D ∂t ∂t ∂t ∂t
Z
(11.69) ∂w ∂w ~ ~

~ ~ ∂w
= −γ(~x, t) + ∇ · τ (~x)∇w − η(~x) w + τ (~x) ∇w · ∇ dn~x
D ∂t ∂t ∂t
Z
∂w n
+ η(~x) w d ~x
D ∂t
Z 2 Z
∂w n ∂w ~ ~

~ ·∇
~ ∂w
= − γ(~x, t) d ~x + ∇ · τ (~x)∇w + τ (~x) ∇w dn ~x
D ∂t D ∂t ∂t
Z 2 Z
∂w n ~ ∂w ~
= − γ(~x, t) d ~x + ∇ · τ (~x) ∇w dn~x
D ∂t D ∂t
Z 2 Z
Gauss ∂w n ∂w ∂w
= − γ(~x, t) d ~x + τ (~x) ds(~x) , (11.71)
D ∂t ∂D ∂t ∂n
∂w
onde ∂n
é a derivada normal introduzida à página 683.
No caso de condições de Dirichlet, w anula-se na fronteira ∂D para todo t e, portanto, também sua
derivada temporal se anula. Com isso, a segunda integral em (11.71) vale zero, o que também ocorre
para condições de Neumann pois, aı́, ∂w
∂n
é nula, assim como para as condições de contorno do tipo IV,
descritas na página 683. Nesses casos tem-se, assim,
Z 2
dE ∂w
(t) = − γ(~x, t) dn~x ,
dt D ∂t
que é menor ou igual a zero, pois supomos γ(~x, t) ≥ 0. Para condições de contorno mistas, tem-se
Z 2 Z 2
dE ∂w n ∂w
(t) = − γ(~x, t) d ~x − τ (~x)ζ(~x, t) ds(~x) ,
dt D ∂t ∂D ∂n
que é igualmente menor ou igual a zero, pois supusemos que τ (~x) > 0, γ(~x, t) ≥ 0 e ζ(~x, t) ≥ 0.
Para os vários tipos de condições de contorno tratados, chegamos ao mesmo tipo de situação en-
contrada na prova da Proposição 11.5: temos que E(t) ≥ 0 e que dE dt
(t) ≤ 0 para todo t ≥ 0, mas
E(0) = 0. Isso só é possı́vel se E(t) = 0 para todo t ≥ 0. Lembrando a definição de E(t) em (11.70)
e da hipótese que ρ e τ são positivos (exceto, talvez, em conjuntos de medida nula), concluı́mos que
para todo ~x ∈ D e todo t ≥ 0 tem-se ∂w ~ x, t) = 0, o que implica que w(~x, t) é uma
(~x, t) = 0 e ∇w(~
∂t
constante para todo ~x ∈ D e todo t ≥ 0. Lembrando que w(~x, 0) = 0 pela condição inicial, concluı́mos
que w(~x, t) é nula para todo ~x ∈ D e todo t ≥ 0. Isso implica que as soluções u e v são idênticas, que
é o que querı́amos provar.
E. 11.21 Exercı́cio. Se u é uma solução da equação (11.67), que descreve vibrações elásticas em um
meio material, então a expressão que define E(t) em (11.70), ou seja,
Z " 2 #
ρ(~x) ∂u τ (~x) ~ 2 η(~x) 2
E(t) = (~x, t) + ∇u(~x, t) + u(~x, t) dn~x ,
D 2 ∂t 2 2
representa a energia mecânica dessas vibrações. Justifique essa afirmação. Determine, como fizemos acima,
mas para ϕ não-nula e para condições de contorno não-homogêneas, a expressão de dE dt
(t). Discuta sob
quais circunstâncias a energia é conservada. 6

E. 11.22 Exercı́cio. Determine a solução da equação (11.28) para o caso n em que a superfı́cie de Cauchy

C é a curva C = (x1 , x2 ) ∈ R2 , x2 = (x1 )3 . Parametrizando C = (x1 , x2 ) ∈ R2 , x1 = ψ1 (s2 ) =
o
s2 , x2 = ψ2 (s2 ) = (s2 )3 , s2 ∈ R a condição inicial é u(ψ1 (s2 ), ψ2 (s2 )) = u0 (s2 ), u0 sendo uma função
dada. 6
E. 11.23 Exercı́cio. Determine a solução da equação (11.28) para o caso n em que a superfı́cie de Cauchy

C é a curva C = (x1 , x2 ) ∈ R2 , x1 = (x2 )3 . Parametrizando C = (x1 , x2 ) ∈ R2 , x1 = ψ1 (s2 ) =
o
(s2 )3 , x2 = ψ2 (s2 ) = s2 , s2 ∈ R a condição inicial é u(ψ1 (s2 ), ψ2 (s2 )) = u0 (s2 ), u0 sendo uma função
dada. 6
E. 11.24 Exercı́cio. Determine a solução da equação (11.28) para o cason em que a superfı́cie de Cauchy

C é a curva C = (x1 , x2 ) ∈ R , x1 = tanh(x2 ) . Parametrizando C = (x1 , x2 ) ∈ R2 , x1 = ψ1 (s2 ) =
2
o
tanh(s2 ) , x2 = ψ2 (s2 ) = s2 , s2 ∈ R a condição inicial é u(ψ1 (s2 ), ψ2 (s2 )) = u0 (s2 ), u0 sendo uma
função dada. 6
E. 11.25 Exercı́cio. Determine a solução da equação (11.28) para o cason em que a superfı́cie de Cauchy

C é a curva C = (x1 , x2 ) ∈ R , x2 = tanh(x1 ) . Parametrizando C = (x1 , x2 ) ∈ R2 , x1 = ψ1 (s2 ) =
2
o
s2 , x2 = ψ2 (s2 ) = tanh(s2 ) , s2 ∈ R a condição inicial é u(ψ1 (s2 ), ψ2 (s2 )) = u0 (s2 ), u0 sendo uma
função dada. Note que nas regiões x2 > 1 e x2 < −1 a solução não é determinada pelas condições iniciais
de acima. 6
E. 11.26 Exercı́cio. Determine a solução da equação (11.23), mas considere agora a superfı́cie de Cauchy
C definida por x2 ≡ 0, ou seja, tem-se x1 = ψ1 (s2 ) = s2 , x2 = ψ2 (s2 ) ≡ 0 com s2 ∈ R. A condição inicial
para u nessa superfı́cie é u(x1 , 0) = u0 (x1 ) para alguma função u0 dada.
Para sua conferência, o resultado é

(x1 )4 − 4x1 x2 − (x31 − 3x2 )4/3
u(x1 , x2 ) = exp u0 (x31 − 3x2 )1/3 .
4
Verifique também explicitamente que esta função é, de fato, solução de (11.23) e satisfaz a condição de
contorno desejada. 6
Capı́tulo 12
Introdução ao Problema de Sturm-Liouville
Conteúdo
12.1 Comentários Iniciais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 689
12.2 O Problema de Sturm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 694
12.2.1 Resolvendo o Problema de Sturm. A Função de Green . . . . . . . . . . . . . 695
12.2.2 O Teorema de Green . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 697
12.3 O Problema de Sturm-Liouville . . . . . . . . . . . . . . . . . . . . . . . . . 700
12.4 Propriedades Básicas dos Auto-Valores e Auto-funções de Problemas de
Sturm-Liouville . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 702
12.4.1 Realidade dos Auto-Valores. Ortogonalidade de Auto-funções . . . . . . . . . 702
12.4.2 A Simplicidade dos Auto-Valores . . . . . . . . . . . . . . . . . . . . . . . . . 705
12.4.3 Condições Suficientes para a Positividade dos Auto-Valores . . . . . . . . . . 707
12.5 A Equação Integral de Fredholm . . . . . . . . . . . . . . . . . . . . . . . . 710
12.6 Uma Aplicação do Problema de Sturm-Liouville . . . . . . . . . . . . . . . 714
12.7 Comentários Finais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 718
12.7.1 O Problema de Sturm-Liouville Singular . . . . . . . . . . . . . . . . . . . . . 718
Apêndices . . . . . . . . . . . . . . . . . . . . 725
12.A Prova do Teorema 12.1. Existência e Unicidade . . . . . . . . . . . . . . . 725
12.B Prova da Proposição 12.1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 726
12.C Comentário Sobre o Determinante Wronskiano . . . . . . . . . . . . . . . 730
12.D Ausência de Auto-Valores em um Problema Singular . . . . . . . . . . . . 731
12.E Demonstração do Teorema 12.3 . . . . . . . . . . . . . . . . . . . . . . . . . 732
12.F Prova da Desigualdade (12.E.22) . . . . . . . . . . . . . . . . . . . . . . . . 736
O presente capı́tulo é dedicado ao problema de Sturm1 -Liouville2 , um clássico problema da te-

oria das equações diferenciais, com diversas aplicações em Fı́sica. Historicamente o problema
de Sturm-Liouville engendrou uma série de desenvolvimentos que conduziram, no começo do
século XX, ao nascimento de uma nova e importante área da Matemática, a Análise Fun-
cional, área essa que é de importância fundamental para a Fı́sica Quântica. Há uma vasta literatura
sobre o problema de Sturm-Liouville, sendo seus rudimentos tratados na grande maioria dos livros
1
Jacques Charles François Sturm (1803-1855).
2
688
dedicados à teoria das equações diferenciais ordinárias. Para uma referência geral sobre o problema
de Sturm-Liouville regular, centrada em aspectos analı́tico-funcionais, vide [73]. Para uma referência
recente, vide [157]. Trataremos aqui apenas de problemas de Sturm-Liouville de segunda ordem, i.e.
envolvendo equações diferenciais lineares de segunda ordem. Para problemas de Sturm-Liouville de
ordem superior, vide [75].
12.1 Comentários Iniciais

Inúmeros problemas em Fı́sica envolvem a resolução de equações diferenciais ordinárias lineares de
segunda ordem e o estudo de propriedades gerais de suas soluções. De modo geral, uma equação
diferencial desse tipo é da forma
u′′ + a1 (x)u′ + a0 (x)u = g(x) , (12.1)
onde g, a0 e a1 são certas funções conhecidas de números reais em números reais das quais eventualmente
exige-se certas condições (como continuidade, diferenciabilidade etc.). A função u representa alguma
grandeza fı́sica e a equação (12.1) é a expressão matemática de uma lei fı́sica que essa grandeza deve
obedecer.
Em muitos casos a função u é definida em um intervalo fechado finito [a, b] da reta real, b > a, e
é obrigada a satisfazer certas condições nos extremos desse intervalo. Tais condições são chamadas de
condições de contorno.
Condições de contorno são ditadas ou por leis fı́sicas ou por restrições fı́sicas ou geométricas que
devem ser impostas nos pontos a e b à grandeza representada por u. O caso mais tı́pico é aquele no
qual impõe-se que a função u ou sua primeira derivada (ou combinações lineares de ambas) assumem
certos valores fixos nos pontos a e b.
Há também muitas situações nas quais a função u é definida em intervalos semi-infinitos, como
[0, ∞) ou infinitos, como (−∞, ∞), e as condições impostas podem exigir, por exemplo, que u se
anule no infinito, que seja limitada ou que seja de quadrado integrável.
• Condições de contorno lineares e homogêneas
Há muitos tipos distintos de condições de contorno. De particular importância são as condições de
contorno lineares que, no caso de equações de segunda ordem, têm a seguinte estrutura. A função u
está definida em um intervalo finito [a, b] e para certas constantes reais α1 , α2 , β1 , β2 , ϕ1 e ϕ2 tais que
(α1 , α2 ) 6= (0, 0), (β1 , β2 ) 6= (0, 0) a função u satisfaz o par de condições
α1 u(a) + α2 u′(a) = ϕ1 , (12.2)
β1 u(b) + β2 u′ (b) = ϕ2 . (12.3)
Condições de contorno desse tipo são ditas lineares devido à dependência linear em u do lado direito
de (12.2) e (12.3).
Nestas notas, estaremos interessados particularmente em condições do seguinte tipo: suporemos
que u está definida em um intervalo finito [a, b] e que para certas constantes reais α1 , α2 , β1 e β2 tais
que (α1 , α2 ) 6= (0, 0), (β1 , β2 ) 6= (0, 0) a função u satisfaça o par de condições
α1 u(a) + α2 u′(a) = 0 , (12.4)
β1 u(b) + β2 u′ (b) = 0 . (12.5)
Condições de contorno lineares desse tipo são ditas homogêneas devido ao lado direito de (12.4) e
(12.5) ser zero.
Condições de contorno são restrições de crucial importância na resolução de equações diferenciais.
Para verificar essa importância, faça os seguintes exercı́cios simples:
E. 12.1 Exercı́cio. Verifique que o problema de determinar uma função u tal que u′′ = 0 tal que
′ ′
u (0) = 0 e u (1) = 1 não tem soluções. 6
E. 12.2 Exercı́cio. Verifique que o problema de determinar uma função u tal que u′′ = 0 tal que
u′ (0) = 0 e u′ (1) = 0 tem infinitas soluções. 6
E. 12.3 Exercı́cio. Verifique que o problema de determinar uma função u tal que u′′ + u = 0 com
u(0) = 1 e u(π) = 1 não tem soluções. 6
u(0) = 1 e u(π) = −1 tem infinitas soluções. 6
u(0) = ϕ1 e u(π) = ϕ2 tem infinitas soluções se ϕ1 = −ϕ2 e não tem solução se ϕ1 6= −ϕ2 . 6
• Um teorema sobre existência e unicidade de soluções
Os exemplos dos exercı́cios acima mostram que a questão da existência e unicidade de soluções
em problemas que envolvem condições de contorno não é uma questão trivial. É importante nesse
contexto mencionar o seguinte teorema, o qual expressa condições necessárias e suficientes para garantir
a existência e a unicidade de soluções:
Teorema 12.1 Seja a equação diferencial linear de segunda ordem
u′′ + a1 (x)u′ + a0 (x)u = g(x), (12.6)
onde g, a0 e a1 são definidas num intervalo finito e fechado [a, b] e são contı́nuas nesse intervalo. O
problema de encontrar soluções dessa equação que satisfaçam condições de contorno do tipo
α1 u(a) + α2 u′ (a) = ϕ1 (12.7)
β1 u(b) + β2 u′ (b) = ϕ2 (12.8)
para certas constantes reais α1 , α2 , β1 , β2 , ϕ1 e ϕ2 tais que (α1 , α2 ) 6= (0, 0), (β1 , β2 ) 6= (0, 0) tem
solução única se e somente se o determinante da matriz

 
α1 u1 (a) + α2 u′1 (a) α1 u2 (a) + α2 u′2 (a)
 
 
  (12.9)
 
 
 
β1 u1 (b) + β2 u′1 (b) β1 u2 (b) + β2 u′2 (b)
for não nulo, onde u1 e u2 são duas soluções independentes quaisquer da equação homogênea
u′′ + a1 (x)u′ + a0 (x)u = 0 . (12.10)
A demonstração é apresentada no Apêndice 12.A, página 725, cujo estudo pode ser dispensado em
uma primeira leitura.
Exemplo. No Exercı́cio E. 12.5, página 690, acima, verificamos que o problema de determinar uma
função u tal que u′′ + u = 0 com u(0) = ϕ1 e u(π) = ϕ2 ou tem infinitas soluções (caso ϕ1 = −ϕ2 )
ou não tem nenhuma solução (caso ϕ1 6= −ϕ2 ). Vamos analisar isso sob a luz do Teorema 12.1. Aqui
temos [a, b] = [0, π]. Com as condições u(0) = ϕ1 e u(π) = ϕ2 tem-se α1 = β1 = 1 e α2 = β2 = 0.
Duas soluções independentes da equação homogênea u′′ + u = 0 são u1 (x) = cos(x) e u2 (x) = sen(x).
Assim,
     
α1 u1 (a) + α2 u′1 (a) α1 u2 (a) + α2 u′2 (a)  cos(0) sen(0)  1 0
     
     
  =   =   ,
     
     
     
β1 u1 (b) + β2 u′1 (b) β1 u2 (b) + β2 u′2 (b) cos(π) sen(π) −1 0
que tem determinante nulo. Logo, a condição do Teorema 12.1 é violada e isso justifica por que não se
pode garantir nem existência nem unicidade à solução do problema em questão.
• Relacionando problemas com condições de contorno não-homogêneas e homogêneas
Adiante, consideraremos apenas problemas com condições de contorno lineares e homogêneas. Por
que não consideraremos também as condições de contorno não-homogêneas? A razão é que, como
veremos, podemos sempre obter soluções de problemas com condições de contorno não-homogêneas a
partir das soluções de problemas com condições de contorno homogêneas.
A argumentação é bem simples. Seja w uma função em princı́pio arbitrária (duas vezes diferenciável)
mas que satisfaça
α1 w(a) + α2 w ′(a) = ϕ1 , (12.11)
β1 w(b) + β2 w ′ (b) = ϕ2 . (12.12)

Para uma tal função w, vamos definir uma função h(x) da seguinte forma:
h(x) := w ′′ + a1 (x)w ′ + a0 (x)w .
Seja v solução da equação
v ′′ + a1 (x)v ′ + a0 (x)v = g(x) − h(x) , (12.13)
com as condições de contorno homogêneas
α1 v(a) + α2 v ′ (a) = 0, (12.14)
β1 v(b) + β2 v ′ (b) = 0. (12.15)
Então, é fácil verificar que a função u(x) = v(x) + w(x) satisfaz
u′′ + a1 (x)u′ + a0 (x)u = g(x)
α1 u(a) + α2 u′ (a) = ϕ1 , (12.16)
β1 u(b) + β2 u′ (b) = ϕ2 . (12.17)
Isso diz-nos, em resumo, que para resolver problemas com condições de contorno não-homogêneas
é suficiente saber determinar uma função como w acima e saber determinar a solução de uma equação
diferencial linear com condições de contorno homogêneas. Por essa razão, daqui por diante só conside-
raremos problemas com condições de contorno homogêneas.
Determinar uma função w pode ser feito, por exemplo, procurando uma w na forma de um polinômio
e procurando ajustar os coeficientes desse polinômio de modo que (12.11)-(12.12) sejam satisfeitas.
• Reescrevendo a equação diferencial na forma de Liouville
Uma observação importante que devemos fazer sobre equações como (12.1) é que, para muitos
casos, as mesmas sempre podem ser reescritas da seguinte forma equivalente, conhecida como forma
de Liouville:
(p(x)u′ )′ + q(x)u = f (x) , (12.18)
Rx
onde p(x) = exp a a1 (x′ ) dx′ , q(x) = p(x)a0 (x) e f (x) = p(x)g(x). Estaremos usando esta forma da
equação mais freqüentemente que a forma anterior.
E. 12.6 Exercı́cio. Verifique a equivalência das duas formas da equação multiplicando (12.1) por p(x)
e usando o fato que, pela definição, p′ (x) = a1 (x)p(x). 6
• Condições de contorno homogêneas caracterizam um espaço vetorial
Um fato importante sobre problemas com condições de contorno homogêneas e que será implicita-
mente utilizado no que seguirá é o seguinte:
Sejam fixadas as constantes α1 , α2 , β1 e β2 . Se r1 e r2 são duas funções duas vezes diferenciáveis

definidas no intervalo [a, b] tais que ambas satisfazem as condições de contorno homogêneas (12.4)-
(12.5) então qualquer combinação linear de ambas λ1 r1 (x) + λ2 r2 (x) é também uma função duas vezes
diferenciável no intervalo [a, b] que satisfaz as mesmas condições de contorno homogêneas (12.4)-(12.5).
E. 12.7 Exercı́cio. Verifique essa afirmação. 6
Em outras palavras, o conjunto de todas as funções duas vezes diferenciáveis definidas no intervalo
[a, b] que satisfazem as condições de contorno homogêneas (12.4)-(12.5) é um espaço vetorial. Esse
espaço será denotado aqui por V(α1 , α2 , β1 , β2 ), ou simplesmente por V, quando não houver confusão.
• Condições de contorno não-homogêneas caracterizam um espaço convexo
Sejam fixadas as constantes α1 , α2 , β1 , β2 , ϕ1 e ϕ2 . Se r1 e r2 são duas funções duas vezes

diferenciáveis definidas no intervalo [a, b] tais que ambas satisfazem as condições de contorno não-
homogêneas (12.2)-(12.3) então qualquer combinação linear convexa de ambas λr1 (x) + (1 − λ)r2 (x),
0 ≤ λ ≤ 1, é também uma função duas vezes diferenciável no intervalo [a, b] que satisfaz as mesmas
condições de contorno não-homogêneas (12.2)-(12.3).
E. 12.8 Exercı́cio. Verifique essa afirmação. 6
Em outras palavras, o conjunto de todas as funções duas vezes diferenciáveis definidas no intervalo
[a, b] que satisfazem as condições de contorno não-homogêneas (12.2)-(12.3) é um espaço convexo.
• Uma notação
Como iremos daqui por diante tratar de equações diferenciais da forma (p(x)u′ )′ + q(x)u = f (x),
convem introduzir uma notação simplificadora:
Lu := (p(x)u′ )′ + q(x)u .
L pode ser entendido como o operador diferencial linear

d d
L := p(x) + q(x) .
dx dx
L é linear pois claramente tem-se
L(αu + βv) = αLu + βLv
para quaisquer constantes α e β e quaisquer funções (duas vezes diferenciáveis) u e v.
Após estas observações podemos passar a tratar nosso problema de forma mais sistemática.
12.2 O Problema de Sturm
• Definição do problema
Entende-se como o Problema de Sturm o problema de determinar as soluções da equação diferencial
(p(x)u′ )′ + q(x)u = f (x) , (12.19)
para u definida no intervalo fechado finito [a, b] ⊂ R, b > a, com as condições de contorno lineares e
homogêneas
α1 u(a) + α2 u′(a) = 0 , (12.20)
β1 u(b) + β2 u′ (b) = 0 , (12.21)
onde o seguinte estará sendo suposto:
As funções p, q e f são reais e contı́nuas em [a, b].
A função p é diferenciável em [a, b] e estritamente positiva: p(x) > 0, x ∈ [a, b].
As constantes α1 , α2 , β1 e β2 são reais e tais que (α1 , α2 ) 6= (0, 0) e (β1 , β2 ) 6= (0, 0).
As condições acima são essenciais mas não delimitam ainda totalmente o Problema de Sturm,
pois é preciso impor restrições que garantam a existência e unicidade de soluções do mesmo. Como
aprendemos do Teorema 12.1, devemos impor ainda que
 
α1 u1 (a) + α2 u′1 (a) α1 u2 (a) + α2 u′2 (a)
 
 
det 

 6= 0 ,
 (12.22)
 
 
β1 u1 (b) + β2 u′1 (b) β1 u2 (b) + β2 u′2 (b)
onde u1 e u2 são duas soluções independentes quaisquer da equação homogênea Lu = 0.
• Uma observação importante
Essa última restrição tem uma conseqüência que usaremos abaixo quando tratarmos de desenvolver
um método de resolver problemas de Sturm baseado no conceito de função de Green. A conseqüência
da qual falamos é a seguinte:
Proposição 12.1 Com as definições acima, existem funções v1 e v2 , independentes, definidas no in-
tervalo [a, b], tais que
Lv1 = 0, Lv2 = 0
e tais que
α1 v1 (a) + α2 v1′ (a) = 0 (12.23)
e
β1 v2 (b) + β2 v2′ (b) = 0 . (12.24)
2
A demonstração dessa proposição, da qual faremos uso adiante, encontra-se no Apêndice 12.B,
página 726.
Uma vez delineado o quadro onde iremos trabalhar, passemos ao importante conceito da função de
Green que nos leva diretamente à solução do problema de Sturm.
12.2.1 Resolvendo o Problema de Sturm. A Função de Green

Além da equação
(p(x)u′ )′ + q(x)u = f (x) , (12.25)
consideremos também a equação diferencial homogênea
(p(x)u′ )′ + q(x)u = 0 . (12.26)
Pela Proposição 12.1, existem soluções independentes v1 e v2 da equação homogênea, tais que v1 e
v2 satisfazem as seguintes condições de contorno:
α1 v1 (a) + α2 v1′ (a) = 0 , (12.27)
β1 v2 (b) + β2 v2′ (b) = 0 . (12.28)
Note-se que a (12.27) é uma restrição à função v1 no ponto a enquanto que a (12.28) é uma restrição à
função v2 no ponto b. Com o uso dessas funções vamos construir uma solução do problema de Sturm.
Para tal, vamos introduzir a importante definição da função de Green3 . A função de Green é uma
função de duas variáveis G(x, y), onde x ∈ [a, b] e y ∈ [a, b], definida da seguinte forma:


 v1 (x)v2 (y)

 , para a ≤ x ≤ y ≤ b

 p(a)W (a)


G(x, y) := , (12.29)





 v1 (y)v2(x)

 , para a ≤ y ≤ x ≤ b
p(a)W (a)
3
George Green (1793-1841).
onde W (x) é o chamado determinante Wronskiano4 , ou função Wronskiana, definido5 , neste caso, por
 
v1 (x) v1′ (x)
 
 
W (x) := det 

 = v1 (x)v2′ (x) − v2 (x)v1′ (x) .
 (12.30)
 
 
v2 (x) v2′ (x)
Note-se que, por (12.B.9), W (x) 6= 0 para todo x ∈ [a, b].

Antes de prosseguirmos, vamos demonstrar um fato simples sobre a função Wronskiana, a sa-
ber vamos mostrar que a função p(x)W (x) é constante no intervalo [a, b]. Isso significa provar que
(p(x)W (x))′ = 0. De fato,
(pW )′ = p′ W + pW ′ = p′ (v1 v2′ − v1′ v2 ) + p (v1 v2′ − v1′ v2 )′
= p′ (v1 v2′ − v1′ v2 ) + p (v1′ v2′ + v1 v2′′ − v1′′ v2 − v1′ v2′ )
= p′ (v1 v2′ − v1′ v2 ) + p (v1 v2′′ − v1′′ v2 )
= v1 (p′ v2′ + pv2′′ ) − v2 (p′ v1′ + pv1′′ )
= v1 (pv2′ )′ − v2 (pv1′ )′
= −v1 qv2 + v2 qv1
= 0, (12.31)
onde, na penúltima igualdade, usamos o fato que v1 e v2 satisfazem a equação homogênea. Assim,
provamos que, para todo x ∈ [a, b], tem-se p(x)W (x) = p(a)W (a) = p(b)W (b).
Dado que as funções v1 e v2 são contı́nuas, é fácil ver que G é igualmente contı́nua no quadrado
Q := [a, b] × [a, b] onde está definida. Entretanto, as derivadas parciais Gx e Gy de G não são
contı́nuas em Q, apresentando uma descontinuidade ao longo da diagonal de Q, que consiste nos
pontos (x, y) ∈ Q com x = y. Como esse fato terá conseqüências adiante, vamos nos dedicar a estudar
essa descontinuidade com mais detalhe.
Dado que v1 e v2 são diferenciáveis, é claro que


 v1′ (x)v2 (y)

 , para a ≤ x < y ≤ b

 p(a)W (a)


Gx (x, y) := . (12.32)






 v1 (y)v2′ (x)
 , para a ≤ y < x ≤ b
p(a)W (a)
4
5
No Apêndice 12.C, página 730, mostramos a relação entre essa definição de determinante Wronskiano e aquela
introduzida no Capı́tulo 7, página 322 (vide página 334).
Note que, nesta última expressão, excluı́mos os pontos para os quais x = y, onde Gx não está definida.
Entretanto, apesar de Gx não estar definida nesses pontos, os limites lim Gx (x + ǫ, x) e lim Gx (x − ǫ, x)
ǫ→0 ǫ→0
existem mas são, porém, distintos, o mesmo se dando com os limites lim Gx (x, x + ǫ) e lim Gx (x, x − ǫ)
ǫ→0 ǫ→0
(aqui ǫ > 0). Dado que, para qualquer ǫ > 0, tem-se x + ǫ > x e x − ǫ < x, segue que
v1 (x)v2′ (x)
lim Gx (x + ǫ, x) = (12.33)
ǫ→0 p(a)W (a)
e que
v1′ (x)v2 (x)
lim Gx (x − ǫ, x) = . (12.34)
ǫ→0 p(a)W (a)
Analogamente segue que
v1 (x)v2′ (x)
lim Gx (x, x − ǫ) = (12.35)
ǫ→0 p(a)W (a)
e que
v1′ (x)v2 (x)
lim Gx (x, x + ǫ) = . (12.36)
ǫ→0 p(a)W (a)
Portanto, segue que
v1 (x)v2′ (x) − v1′ (x)v2 (x) W (x) 1

lim Gx (x + ǫ, x) − lim Gx (x − ǫ, x) = = = , (12.37)
ǫ→0 ǫ→0 p(a)W (a) p(a)W (a) p(x)
pois, como vimos, para qualquer x ∈ [a, b] tem-se p(a)W (a) = p(x)W (x). De maneira idêntica, segue
que
1
lim Gx (x, x − ǫ) − lim Gx (x, x + ǫ) = . (12.38)
ǫ→0 ǫ→0 p(x)
As relações (12.37) e (12.38) mostram-nos que, de fato, Gx é descontı́nua na diagonal de Q e nos

dizem também quão grande é o salto dado pela função Gx quando se cruza a diagonal de Q no ponto
(x, x).
O fato fundamental a respeito da função de Green é que a função u(x) definida por
Z b
u(x) = G(x, y) f (y) dy (12.39)
a
é tal que u satisfaz a equação não-homogênea (12.19) e satisfaz as condições de contorno (12.20)-
(12.21), ou seja, é a solução do problema de Sturm. Esse fato é conhecido como Teorema de Green e
será provado na próxima sub-seção.
12.2.2 O Teorema de Green

Vamos aqui demonstrar o Teorema de Green mencionado acima. Precisamos para tal calcular
(pu′ )′ + qu = pu′′ + p′ u′ + qu
para u(x) dada por (12.39) e demonstrar que isso é igual a f (x). Dado que G tem derivadas parciais
descontı́nuas, é conveniente escrever
Z x Z b
u(x) = G(x, y) f (y) dy + G(x, y) f (y) dy . (12.40)
a x
Em cada um dos pedaços em que quebramos a integral acima tem-se que Gx é contı́nua. Daı́, segue
que
Z x Z b
′
u (x) = G(x, x)f (x) + Gx (x, y) f (y) dy − G(x, x)f (x) + Gx (x, y) f (y) dy
a x
Z x Z b
= Gx (x, y) f (y) dy + Gx (x, y) f (y) dy . (12.41)
a x
E. 12.9 Exercı́cio. Justifique as expressões acima. 6
De forma inteiramente análoga tem-se que

Z x
′′
u (x) = lim Gx (x, x − ǫ)f (x) + Gxx (x, y) f (y) dy
ǫ→0 a
Z b
− lim Gx (x, x + ǫ)f (x) + Gxx (x, y) f (y) dy
ǫ→0 x
Z x Z b
f (x)
= + Gxx (x, y) f (y) dy + Gxx (x, y) f (y) dy , (12.42)
p(x) a x
onde, na última igualdade, usamos (12.38).
E. 12.10 Exercı́cio. Justifique as expressões acima. 6
Desta forma, temos que
p(x)
p(x)u′′ + p′ (x)u′ + q(x)u = f (x)
p(x)
Z x
+ [p(x)Gxx (x, y) + p′ (x)Gx (x, y) + q(x)G(x, y)] f (y) dy
a
Z b
+ [p(x)Gxx (x, y) + p′ (x)Gx (x, y) + q(x)G(x, y)] f (y) dy(12.43)
.
x
Entretanto, temos que
p(x)Gxx (x, y) + p′ (x)Gx (x, y) + q(x)G(x, y) = 0 , (12.44)

e isto vale tanto para y = [a, x) quanto para y = (x, b]. Para ver isso basta notar, por exemplo, que
para y = [a, x) tem-se que
p(x)Gxx (x, y) + p′ (x)Gx (x, y) + q(x)G(x, y) =
v1 (y)
[p(x)v2′′ (x) + p′ (x)v2′ (x) + q(x)v2 (x)] = 0 , (12.45)
p(a)W (a)
pois, por hipótese, v2 é solução da equação homogênea p(x)v2′′ (x) + p′ (x)v2′ (x) + q(x)v2 (x) = 0. O caso
y = (x, b] é análogo.
Assim, retomando a equação (12.43), vemos que
p(x)u′′ + p′ (x)u′ + q(x)u = f (x) . (12.46)
Está, portanto, demonstrado que a função u dada por (12.39) é solução da equação diferencial não-
homogênea. Resta provar que essa função u satisfaz as condições de contorno (12.4)-(12.5). Deixamos
a importante verificação desse último fato como exercı́cio.
E. 12.12 Exercı́cio. Mostre que (12.39) satisfaz as condições de contorno (12.4)-(12.5). 6
• O problema de Sturm com condições de contorno não-homogêneas
Com as observações da página 691 podemos encontrar também soluções de problemas de Sturm
(Lu)(x) = f (x) com u satisfazendo condições de contorno não-homogêneas como (12.2)-(12.3).
Seja w uma função duas vezes diferenciável satisfazendo também (12.11)-(12.12). Defina-se
h(x) := (Lw)(x) .
e seja v a solução da equação

(Lv)(x) = f (x) − h(x) , (12.47)
com as condições de contorno homogêneas
α1 v(a) + α2 v ′ (a) = 0 , (12.48)
β1 v(b) + β2 v ′ (b) = 0 . (12.49)
Então, u = v + w satisfaz Lu = f e as condições não-homogêneas (12.2)-(12.3). Agora, pela solução do

problema de Sturm homogêneo, sabemos que
Z b
v(x) = G(x, y)(f (y) − h(y)) dy,
a
onde G é montada como antes (vide (12.29)) a partir de soluções v1 e v2 da equação homogênea
Lv1, 2 = 0, com v1 e v2 satisfazendo (12.27) e (12.28), respectivamente.
Logo, a solução procurada é

Z b
u(x) = G(x, y)(f (y) − h(y)) dy + w(x)
a
Z b Z b
= G(x, y)f (y) dy + w(x) − G(x, y)h(y) dy .
a a
Z b Z b
= G(x, y)f (y) dy + w(x) − G(x, y)(Lw)(y) dy . (12.50)
a a
12.3 O Problema de Sturm-Liouville

Seja o intervalo J := [a, b] ⊂ R e sejam p, q e r funções reais definidas em J, tais que
p é contı́nua, diferenciável e estritamente positiva em J, ou seja, p(x) > 0 para todo x ∈ [a, b].
q é contı́nua em J.
r é contı́nua e estritamente positiva em J, ou seja, r(x) > 0 para todo x ∈ [a, b].
Para uma função u definida em J que seja pelo menos duas vezes diferenciável, vamos como ante-
riormente definir o operador diferencial L por (Lu)(x) = (p(x)u′ )′ + q(x)u.
Entende-se por Problema de Sturm-Liouville regular67 , ou simplesmente Problema de Sturm-Liouville,
o problema de se determinar a função u definida em J e os números λ tais que a seguinte equação
diferencial seja satisfeita:
Lu + λ r(x)u = 0 , (12.51)
com o seguinte tipo de condição de contorno: vamos supor que existam constantes reais α1 , α2 , β1 e
β2 tais que (α1 , α2 ) 6= (0, 0), (β1 , β2 ) 6= (0, 0) e tais que o seguinte par de relações deve ser válido
α1 u(a) + α2 u′(a) = 0 , (12.52)
β1 u(b) + β2 u′ (b) = 0 . (12.53)
Se λ for um número tal que a equação (12.51) seja satisfeita para alguma função uλ (que em geral
dependerá de λ) então diz-se que λ é um auto-valor do Problema de Sturm-Liouville e uλ é dito ser a
auto-função associada ao auto-valor λ do Problema de Sturm-Liouville. Essa nomenclatura surge por
analogia com os conceitos de auto-valor e autovetor de matrizes na álgebra linear.
Muitos problemas de Fı́sica envolvem a solução de problemas de Sturm-Liouville. Fora isso, a
solução de problemas de Sturm-Liouville é útil para a resolução de equações não-homogêneas como
Lu = f (x) (12.54)
6
Os trabalhos de Sturm e Liouville sobre o problema que é hoje conhecido como Problema de Sturm-Liouville foram
desenvolvidos entre 1829 e 1837.
7
O problema de Sturm-Liouville singular será tratado brevemente à página 718.
para uma função f dada, com condições de contorno como (12.52)-(12.53). A razão para isso reside no
fato que, como veremos, a função de Green associada ao problema de Sturm Lu = f com condições de
contorno como (12.52)-(12.53) pode ser escrita em termos das auto-funções e dos auto-valores de um
problema de Sturm-Liouville.
Exemplo 12.1 No bem-conhecido problema da corda vibrante, descrevendo o movimento transversal
de uma corda homogênea de densidade ρ > 0 e de comprimento L, estendida entre os pontos a e
b = a + L e submetida a uma tensão T > 0, temos que resolver a equação de ondas
s
∂2u ∂ 2
u T
2
− c2 2 = 0 , c := ,
∂t ∂x ρ
com x ∈ [a, b], t ∈ R. Pelo método de separação de variáveis (vide Seção 11.2, página 641), procuramos
soluções da forma u(x, t) = y(x)θ(t) e obtemos para θ a equação θ̈(t) + λc2 θ(t) = 0 e para y a equação
y ′′ (x) + λy(x) = 0 , (12.55)
λ sendo uma constante de separação. Se a corda estiver fixa em a e em b, devemos impor as condições
de contorno y(a) = 0 e y(b) = 0. Esse problema de determinar a função y satisfazendo a equação
(12.55) e as condições de contorno acima é um problema de Sturm-Liouville com p(x) = 1, q(x) = 1,
r(x) = 1, (α1 , α2 ) = (1, 0) e (β1 , β2 ) = (1, 0).
No caso a = 0 e b = 0, obtem-se como soluções desse problema de Sturm-Liouville as funções
yn (x) = sen(nπx/L) com λn = (nπ/L)2 para todo n = 1, 2, 3, . . .. ◊
Exemplo 12.2 Na Mecânica Quântica, considere o problema de determinar a função de onda de uma
partı́cula de massa m movendo-se em uma dimensão e constrita a um intervalo finito [a, b] ⊂ R por
barreiras infinitas de potencial em x ≤ a e x ≥ b e sujeita, no intervalo [a, b], a um potencial V (x). A
equação de Schrödinger independente do tempo é
~2 d 2 ψ
(x) − V (x)ψ(x) + Eψ(x) = 0 ,
2m dx2
com x ∈ [a, b], sendo que, devido às barreiras infinitas de potencial, devemos impor as condições
~2
de contorno ψ(a) = 0 e ψ(b) = 0. Trata-se de um problema de Sturm-Liouville com p(x) = 2m ,
q(x) = −V (x), r(x) = 1, λ = E, (α1 , α2 ) = (1, 0) e (β1 , β2 ) = (1, 0). ◊
Exemplo 12.3 No problema descrito no Exercı́cio E. 10.12, página 628, e no problema descrito no
Exercı́cio E. 10.13, página 628, devemos aplicar o método de separação de variáveis para as equações
de onda e de difusão em duas dimensões espaciais em coordenadas polares. Naqueles problemas, para
o tratamento da parte radial devemos resolver a equação de Bessel

x2 y ′′(x) + xy ′ (x) + α2 x2 − ν 2 y(x) = 0
no intervalo [R1 , R2 ], com 0 < R1 < R2 < ∞, equação essa que na forma de Liouville fica
ν2
(p(x)y ′ )′ + q(x)y + λr(x)y = 0 , com p(x) = x , , r(x) = x , λ = α2 .
q(x) = −
x
As condições de contorno são de Dirichlet: y(R1) = y(R2 ) = 0. Trata-se claramente de um problema
de Sturm-Liouville regular pois p e r são estritamente positivos no intervalo [R1 , R2 ] com R1 > 0.
No problema descrito no Exercı́cio E. 10.16, página 630, tem-se também um problema de Sturm-
Liouville regular como os de acima, mas com condições de contorno mistas. ◊
12.4 Propriedades Básicas dos Auto-Valores e Auto-funções

de Problemas de Sturm-Liouville
Seja C([a, b]) o conjunto das funções complexas contı́nuas definidas no intervalo [a, b]. É bem sabido
que C([a, b]) é um espaço vetorial. Para cada α1 , α2 , β1 e β2 o espaço V(α1 , α2 , β1 , β2 ), definido à
página 693, é um sub-espaço de C([a, b]).
Um produto escalar complexo em um espaço vetorial complexo V é uma função V × V → C, ou
seja, uma função que associa pares de vetores a um número complexo, denotada por h·, ·i e de tal
forma que os seguintes requerimentos sejam observados:
1. hx, xi ≥ 0 para todo x ∈ V .
2. hx, yi = hy, xi, para todos x, y ∈ V .
3. Se hx, xi = 0 então x = 0, onde 0 é o vetor nulo.
4. Se a e b são números complexos quaisquer então
hx, ay + bzi = ahx, yi + bhx, zi . (12.56)
5. Se a e b são números complexos quaisquer então
hax + by, zi = ahx, zi + bhy, zi . (12.57)
Podemos dotar o espaço vetorial C([a, b]) de vários produtos escalares. Dois deles nos interessarão
aqui. Para f , g ∈ C([a, b]) definimos o produto escalar
Z b
hf, gi = f (x) g(x) dx , (12.58)
a
e também o produto escalar Z b

hf, gir = f (x) g(x) r(x) dx , (12.59)
a
onde a função r é a função estritamente positiva caracterizada acima no problema de Sturm-Liouville.
12.4.1 Realidade dos Auto-Valores. Ortogonalidade de Auto-funções

Vamos aqui demonstrar duas propriedades básicas comuns a todos os problemas de Sturm-Liouville.
A saber, vamos provar o seguinte teorema.
Teorema 12.2 Os auto-valores de um problema de Sturm-Liouville, como descrito acima são sempre
números reais. Fora isso, se uλ1 e uλ2 são duas auto-funções associadas a dois auto-valores distintos
λ1 e λ2 (λ1 6= λ2 ) então vale que
Z b
huλ1 , uλ2 ir = uλ1 (x) uλ2 (x) r(x) dx = 0 . (12.60)
a
Esta última relação é chamada de relação de ortogonalidade (em relação ao produto escalar h·, ·ir ). 2
Para provar este teorema vamos antes demonstrar o seguinte lema:

Lema 12.1 (Lema de Green) Sejam u e v duas funções definidas em J = [a, b], que sejam pelo
menos duas vezes diferenciáveis e tais que ambas satisfaçam condições de contorno como (12.52)-
(12.53), ou seja, ambas são elementos do espaço vetorial de funções V(α1 , α2 , β1 , β2 ) (página 693).
Então, tem-se
hv, Lui = hLv, ui,
ou seja, Z Z
b b
v(x) (Lu)(x) dx = (Lv)(x) u(x) dx . (12.61)
a a
2
Prova do Lema 12.1. Usando-se integração por partes, tem-se

Z b Z b Z b
′ ′
v(x) (Lu)(x) dx = v(x)(p(x)u ) dx + v(x)q(x)u(x) dx
a a a
Z b Z b
b
= − v ′ (x)(p(x)u′ ) dx + vpu′ |a + v(x)q(x)u(x) dx
a a
Z b Z b
b b
= u(pv ′ )′ dx + vpu′|a − v ′ pua + v(x)q(x)u(x) dx
a a
Z b
b b
= u(x) (Lv)(x) dx + vpu′ |a − v ′ pua . (12.62)
a
Agora, escrevendo-se explicitamente tem-se que

b b
vpu′ |a − v ′ pua = p(b)v(b)u′ (b) − p(a)v(a)u′ (a) − p(b)v ′ (b)u(b) + p(a)v ′ (a)u(a)

′ ′ ′ ′
= p(b) v(b)u (b) − v (b)u(b) − p(a) v(a)u (a) − v (a)u(a) . (12.63)
Vamos agora provar que os fatores entre parênteses em (12.63) são nulos. Como u e v satisfazem
(12.52)-(12.53), tem-se
         
v(a) v ′ (a) α1  0 v(b) v ′ (b) β1  0
         
         
   =   e    =   .
         
         
         
u(a) u′ (a) α2 0 u(b) u′ (b) β2 0
       
α1  0 β1  0
Como        
  6=   e   6=   devemos ter
α2 0 β2 0
   
v(a) v ′ (a)  v(b) v ′ (b) 
   
   
det 

 = 0
 e det 

 = 0,

   
   
u(a) u′ (a) u(b) u′ (b)
ou seja,
v(a)u′ (a) − v ′ (a)u(a) = 0 e v(b)u′ (b) − v ′ (b)u(b) = 0 .
O lado esquerdo de ambas as expressões são os termos entre parênteses de (12.63). Logo,
b b
vpu′ |a − v ′ pua = 0.
Voltando à (12.62), isso completa a demonstração do Lema de Green.
Vamos então passar à
Prova do Teorema 12.2. Para provar que os auto-valores de um problema de Sturm-Liouville são reais,
seja λ um auto-valor e u a sua correspondente auto-função. Vamos mostrar que
Z b
(λ − λ) u(x) u(x) r(x) dx = 0 . (12.64)
a
Rb
Como u 6= 0 e r > 0 (por hipótese), temos que a u u r(x) dx 6= 0. Portanto, (12.64) diz-nos que
λ − λ = 0, ou seja, que λ é um número real. Para provar (12.64), notemos que
Z b Z b Z b
(λ − λ) u u r(x) dx = u (λu r(x)) dx − λur(x) u dx
a a a
Z b Z b
= − u (Lu) dx + Lu u dx
a a
= 0, (12.65)
pelo Lema de Green. Assim, completamos a demonstração de que os auto-valores de um problema de

Sturm-Liouville são números reais.
Vamos agora provar a relação de ortogonalidade (12.60). Para tal, vamos provar que
Z b
(λ1 − λ2 ) uλ1 (x) uλ2 (x) r(x) dx = 0 . (12.66)
a
Como estamos supondo que λ1 6= λ2 , essa relação diz então que (12.60) deve ser verdadeira. Como λ1
e λ2 são reais, o lado esquerdo de (12.66) pode ser escrito como
Z b Z b
(λ1 r(x)uλ1 (x)) uλ2 (x) dx − uλ1 (x) (λ2 r(x)uλ2 (x)) dx
a a
Z b Z b
= − (Luλ1 (x)) uλ2 (x) dx + uλ1 (x) (Luλ2 (x)) dx = 0 , (12.67)
a a
pelo Lema de Green. A prova do Teorema 12.2 está então completa.
O que vimos no Teorema 12.2 é que auto-funções associadas a auto-valores distintos de um problema
de Sturm-Liouville são ortogonais entre si em relação ao produto escalar definido em (12.59).
O Lema de Green afirma que L é um operador simétrico em relação ao produto escalar definido em
(12.58) quando age em vetores do sub-espaço V(α1 , α2 , β1 , β2 ).
12.4.2 A Simplicidade dos Auto-Valores

Se u1 , u2 ∈ V(α1 , α2 , β1 , β2 ) são duas auto-funções de um problema de Sturm-Liouville regular com
o mesmo auto-valor λ, ou seja, Lu1 + λru1 = 0 e Lu2 + λru2 = 0, então é fácil verificar que qualquer
combinação linear a1 u1 + a2 u2 é também um elemento de V(α1 , α2 , β1 , β2 ) e é também uma auto-
função com auto-valor λ: L(a1 u1 + a2 u2 ) + λr(a1 u1 + a2 u2) = 0. Em outras palavras, o conjunto das
auto-funções de um um problema de Sturm-Liouville com um mesmo auto-valor é um espaço vetorial.
Uma questão importante sobre problemas de auto-valores, como o de Sturm-Liouville, é a questão
da multiplicidade dos auto-valores, ou seja, a questão de saber, dado um auto-valor λ, qual a dimensão
do espaço vetorial de todas as suas auto-funções.
No problema de Sturm-Liouville regular a resposta é simples. A dimensão é sempre igual a 1, ou
seja, os auto-valores são simples. A demonstração é a seguinte. Sejam u1 , u2 ∈ V(α1 , α2 , β1 , β2 ) tais
que Lu1 + λru1 = 0 e Lu2 + λru2 = 0 para um dado λ. Considere-se a função
 
u1 (x) u′1 (x)
 
 
W12 (x) = det 

 = u1 (x)u′ (x) − u′ (x)u2 (x) .
 2 1
 
 
u2 (x) u′2 (x)
Vamos em primeiro lugar mostrar que p(x)W12 (x) é constante no intervalo [a, b], ou seja, que (pW12 )′ =
0. De fato,
(pW12 )′ = p′ W12 + pW′12 = p′ (u1 u′2 − u′1 u2 ) + p (u1u′2 − u′1 u2 )′
= p′ (u1 u′2 − u′1 u2 ) + p (u′1u′2 + u1 u′′2 − u′′1 u2 − u′1 u′2 )
= p′ (u1 u′2 − u′1 u2 ) + p (u1u′′2 − u′′1 u2 )
= u1 (p′ u′2 + pu′′2 ) − u2 (p′ u′1 + pu′′1 )
= u1 (pu′2 )′ − u2 (pu′1 )′
= −u1 (qu2 + λru2) + u2 (qu1 + λru1 )
= 0. (12.68)
Vamos agora mostrar que W12 (b) = 0. Como acabamos de ver que p(x)W12 (x) é constante, isso
implica p(x)W12 (x) = 0 para todo x ∈ [a, b].
Como as funções u1 e u2 são elementos de V(α1 , α2 , β1 , β2 ), temos em x = b8
    
u1 (b) u′1 (b) β1  0
    
    
   =   .
    
    
    
u2 (b) u′2 (b) β2 0
   
β1  0
Agora, como    
  6=  , segue que
β2 0
 
u1 (b) u′1 (b)
 
 
det 

 = 0,

 
 
u2 (b) u′2 (b)
ou seja, W12 (b) = 0.

Pelo que acabamos de provar, p(x)W12 (x) = 0 para todo x ∈ [a, b]. Como p é estritamente positiva,
8
Um argumento análogo funciona também em x = a.
segue que W12 (x) = 0 para todo x ∈ [a, b], ou seja,

 
u1 (x) u′1 (x)
 
 
det 

 = 0,

 
 
u2 (x) u′2 (x)
para todo x ∈ [a, b]. Isso diz que as duas linhas que formam a matriz acima são, para cada x ∈ [a, b],
proporcionais uma a outra, ou seja, existe γ(x) tal que, por exemplo,
u1 (x) = γ(x)u2 (x) e u′1 (x) = γ(x)u′2 (x)
para cada x ∈ [a, b]. Derivando a primeira e comparando à segunda, conclui-se que γ(x) é constante,
ou seja, não depende de x.
Assim, verificamos que as funções u1 e u2 são múltiplas entre si. Com isso, mostramos que se
tivermos duas auto-funções com o mesmo auto-valor as auto-funções são múltiplas uma da outra e
o sub-espaço que ambas geram tem dimensão 1. Em resumo, auto-valores de problemas de Sturm-
Liouville regular são sempre simples, ou não-degenerados.
12.4.3 Condições Suficientes para a Positividade dos Auto-Valores

Em muitas aplicações de interesse fı́sico ocorre que os auto-valores são (ou precisam ser) números
positivos. Vamos apresentar agora um conjunto de condições que são suficientes para garantir isso.
Proposição 12.2 Se forem simultaneamente válidas as condições
1. q(x) < 0 para todo x ∈ [a, b],
2. α1 α2 ≤ 0,
3. β1 β2 ≥ 0,
então todos os auto-valores λ do problema de Sturm-Liouville correspondente são estritamente positivos:

λ > 0. 2
Prova. A demonstração é um tanto indireta. Seja u uma auto-função com auto-valor λ, ou seja,
(pu′ )′ + qu + λru = 0 .
Multiplicando-se essa igualdade por u e integrando-se entre a e b, tem-se

Z b Z b Z b
2 ′ ′
λ |u(x)| r(x) dx = − u(x)(pu ) (x) dx − |u(x)|2 q(x) dx . (12.69)
a a a
Vamos agora integrar por partes a primeira integral do lado direito. Temos,
Z b b Z b
′ ′ ′
u(x)(pu ) (x) dx = u(x)(pu )(x) − |u′ (x)|2 p(x) dx .
a a a
Substituindo em (12.69), tem-se

Z b Z b h i

λ 2
|u(x)| r(x) dx = |u′(x)|2 p(x) − |u(x)|2 q(x) dx + p(a)u(a)u′(a) − p(b)u(b)u′ (b) . (12.70)
a a
As três integrais acima são números reais. Portanto, vale, tomando-se a parte real da expressão,
Z b Z b h i
2 ′ 2 2
′ ′
λ |u(x)| r(x) dx = |u (x)| p(x) − |u(x)| q(x) dx+ p(a) Re u(a)u (a) − p(b) Re u(b)u (b) .
a a
(12.71)
No ponto a u satisfaz α1 u(a) + α2 u′ (a) = 0. Multiplicando-se essa expressão pelo seu complexo
conjugado, tem-se
2 2 2 ′ 2 ′
α1 |u(a)| + α2 |u (a)| + 2α1 α2 Re u(a)u (a) = 0 ,
ou seja,
′

2α1 α2 Re u(a)u (a) = − α12 |u(a)|2 + α22 |u′(a)|2 . (12.72)
Analogamente, para o ponto b,

2β1 β2 Re u(b)u (b) = − β12 |u(b)|2 + β22 |u′(b)|2 .
′
(12.73)
Consideremos agora que α1 α2 < 0 e β1 β2 > 0.

A expressão (12.72) nos ensina que α1 α2 e Re u(a)u′ (a) têm sinais opostos e (12.73) que β1 β2

e Re u(b)u′ (b) têm sinais opostos. Assim, se tivermos q(x) < 0 para todo x ∈ [a, b], α1 α2 < 0 e
Rb
β1 β2 > 0 a soma do lado direito de (12.71) será estritamente positiva. Como a |u(x)|2 r(x) dx > 0, já
que r é também por hipótese estritamente positiva, segue de (12.71) que λ > 0.
Se α1 α2 = 0, então u(a)u′ (a) = 0 (por que?). Assim, se adicionalmente tivermos q(x) < 0 para
todo x ∈ [a, b] e β1 β2 > 0, então a soma do lado direito de (12.71) será estritamente positiva, o que
implica λ > 0.
Analogamente, se β1 β2 = 0, então u(b)u′ (b) = 0 (por que?). Assim, se adicionalmente tivermos
q(x) ≤ 0 para todo x ∈ [a, b] e α1 α2 < 0, então teremos novamente λ > 0. Por fim, se α1 α2 = 0 e
β1 β2 = 0, então u(a)u′ (a) = 0 e u(b)u′ (b) = 0. Assim, com q(x) < 0 para todo x ∈ [a, b] teremos
novamente λ > 0.
• Comentário sobre auto-valores negativos
É importante dizer aqui que existem problemas de Sturm-Liouville regulares onde ocorrem auto-
valores negativos (vide exercı́cio-exemplo abaixo). No Teorema 12.3, página 710, mostraremos que
apesar de ser possı́vel a existência de auto-valores negativos, os mesmos não podem ser arbitrariamente
negativos, ou seja, negativos mas com módulo |λ| arbitrariamente grande. Provaremos que existe uma
constante M tal que λ ≥ M. A constante M pode ser positiva, negativa ou nula. Em verdade, em
um problema de Sturm-Liouville regular pode ocorrer no máximo um número finito de auto-valores
negativos.
• Um Exemplo
E. 12.13 Exercı́cio-exemplo. Seja o problema de Sturm-Liouville u′′ + λu = 0, no intervalo [0, 1], com
as condições de contorno u(0) = 0 e β1 u(1) + β2 u′ (1) = 0.
Aqui p(x) = 1, q(x) = 0, r(x) = 1, α1 = 1 e α2 = 0. A identidade (12.71) fica
Z 1 Z 1
λ 2
|u(x)| dx = |u′(x)|2 dx − Re u(1)u′ (1) . (12.74)
0 0
Caso β1 = 0, teremos u′ (1) = 0. Caso β2 = 0, teremos u(1) = 0. Nesses dois casos, (12.74) fica
Z 1 Z 1
λ 2
|u(x)| dx = |u′ (x)|2 dx ,
0 0
que garante que λ > 0.

No caso em que β1 e β2 são não-nulos, (12.73) diz-nos que
Z 1 Z 1
1
λ 2
|u(x)| dx = |u′ (x)|2 dx + β12 |u(1)|2 + β22 |u′ (1)|2 . (12.75)
0 0 2β1 β2
Como se vê, se β1 β2 > 0 tem-se λ > 0, mas se β1 β2 < 0 poderemos ter auto-valores negativos. Abaixo
(item f), veremos que isso de fato ocorre caso −β12 < β2 β1 < 0.
a. No caso β1 = 0 mostre que os auto-valores são λn = (n + 21 )2 π 2 , n = 0, 1, 2, . . ..

b. No caso β2 = 0 mostre que os auto-valores são λn = n2 π 2 , n = 1, 2, 3, . . ..
c. Determine as auto-funções normalizadas nessas duas situações.
d. No caso em que β1 e β2 são não-nulos mostre que os auto-valores positivos são as (infinitas!) soluções
positivas de
√ β1 √
λ = − tan( λ) .
β2
β1 β1
Mostre graficamente que essa equação tem infinitas soluções positivas quer β2
> 0 ou quer β2
< 0.
e. Para o caso β1 = −β2 mostre que também ocorre o auto-valor λ = 0, cuja auto-função é u(x) = αx, α
sendo uma constante arbitrária não nula.
f. Mostre que se 0 < − ββ12 < 1, ou seja, se −β12 < β2 β1 < 0, ocorre também um (único!) auto-valor
negativo, o qual é solução de
√ β1 √
−λ = − tanh( −λ) .
β2
Mostre graficamente que essa equação não tem solução não-nula caso 0 > − ββ21 ou caso − ββ12 > 1.
g. Reunindo os resultados obtidos, indique no plano Cartesiano (β1 , β2 ) a região onde os auto-valores
são estritamente positivos, a região onde ocorre o auto-valor zero e a região onde ocorrem também
auto-valores negativos além dos auto-valores positivos.
• Um limite inferior para os auto-valores
Ainda sobre os auto-valores de problemas de Sturm-Liouville regulares, o seguinte teorema pode

ser demonstrado.
Teorema 12.3 Seja o problema de Sturm-Liouville (regular) definido pela equação
Lu + λ r(x)u = 0,
onde p, q e r são funções reais definidas em [a, b], tais que p é contı́nua, diferenciável e estritamente
positiva em [a, b], ou seja, p(x) > 0 para todo x ∈ [a, b]; q é contı́nua em [a, b]; r é contı́nua e
estritamente positiva em [a, b], ou seja, r(x) > 0 para todo x ∈ [a, b]; com as condições de contorno
α1 u(a) + α2 u′ (a) = 0 , β1 u(b) + β2 u′ (b) = 0
para (α1 , α2 ) 6= (0, 0), (β1 , β2 ) 6= (0, 0).

Então existe uma constante M, que depende (em geral de forma muito complicada) das funções p,
q e r e das constante α1, 2 e β1, 2 , tal que todos os auto-valores λ satisfazem
λ ≥ M.
A constante M pode ser positiva, negativa ou nula. O que esse teorema diz é que existe um
limitante inferior para os auto-valores de um problema de Sturm-Liouville, ou seja, os mesmos podem
até ser eventualmente negativos, mas não arbitrariamente negativos. A demonstração9 desse teorema
é apresentada no Apêndice 12.E, página 732.
12.5 A Equação Integral de Fredholm

Um dos passos mais úteis para se estudar um problema de Sturm-Liouville consiste em transformá-lo
em uma equação integral. Como veremos, isso pode ser feito caso 0 não seja um possı́vel auto-valor.
Considere o problema de Sturm-Liouville de determinar as soluções de
Lu = −λ r(x) u, (12.76)
9
Essa demonstração pode ser omitida numa primeira leitura.
que satisfaçam as condições de contorno (12.52)-(12.53). Se λ = 0 não for um auto-valor desse problema,
ou seja, se Lu = 0 com as condições de contorno (12.52)-(12.53) possuir apenas a solução trivial u = 0,
então o problema de Sturm Lu = f com as condições de contorno (12.52)-(12.53) possui solução única.
Isso é elementar de se ver, pois se u1 e u2 são duas soluções, então L(u1 − u2 ) = 0, sendo que u1 − u2
obviamente satisfaz (12.52)-(12.53). Pelo pressuposto, u1 − u2 = 0.
Z b
Agora, pelo Teorema de Green, u(x) = G(x, y) f (y)dy é solução de Lu = f com as condições
a
de contorno (12.52)-(12.53) e, portanto, essa é a única solução. Assim sob a hipótese que λ = 0 não é
um auto-valor do problema de Sturm-Liouville, toda Z função u que satisfaz Lu = f com as condições de
b
contorno (12.52)-(12.53) satisfaz também u(x) = G(x, y) f (y)dy para qualquer que seja a função
a
contı́nua f .
Disso concluı́mos que a função u que satisfaz a equação diferencial (12.76) satisfaz também
Z b
u(x) = −λ G(x, y) r(y) u(y) dy , (12.77)
a
isto é, definindo-se

k(x, y) := −G(x, y) r(y) (12.78)
para x, y ∈ [a, b], vale
Z b
u(x) = λ k(x, y) u(y) dy . (12.79)
a
Uma equação como esta onde a função k(x, y) é contı́nua em um intervalo fechado é conhecida como
Equação Integral de Fredholm linear homogênea, ou simplesmente Equação Integral de Fredholm10 (vide
Capı́tulo 13, página 738).
O estudo da equação integral de Fredholm é um dos capı́tulos importantes da Análise Funcional e
da Teoria das Equações Integrais. Iremos agora tratar apenas de aspectos básicos da mesma que mais
diretamente nos interessam. O método dos determinantes de Fredholm para a solução de equações
integrais de Fredholm homogêneas e não-homogêneas é apresentado com certo detalhe na Seção 13.2,
página 741. O leitor poderá encontrar mais material sobre a equação integral de Fredholm não-linear
na Seção 18.3, página 1005, assim como na Seção 26.6, página 1339, para o caso linear. Alguns poucos
comentários históricos podem ser encontrados à página 747.
Seja o espaço vetorial C(J) introduzido acima, de todas as funções contı́nuas definidas no intervalo
J = [a, b]. Podemos então, com o auxı́lio da função k(x, y) dada em (12.78), definir em C(J) um
operador linear K dado por Z b
(Kf )(x) := k(x, y) f (y) dy . (12.80)
a
x ∈ J. O operador K é denominado operador de Fredholm. A equação (12.79) diz-nos então que

1
Ku = u. (12.81)
λ
10
Erik Ivar Fredholm (1866-1927).
A respeito desse operador K podemos provar o seguinte resultado. Tomando-se em C(J) o produto
escalar h·, ·ir definido acima, temos
hf, Kgir = hKf, gir (12.82)
para todo f , g ∈ C(J).
E. 12.14 Exercı́cio. Mostre esse fato. Para isso use que a função de Green satisfaz G(x, y) = G(y, x).
6
Um operador linear que satisfaz uma relação como (12.82) é dito ser um operador simétrico ou
Hermiteano, um conceito de grande importância em Fı́sica e Matemática. O operador K é então um
operador simétrico em relação ao produto escalar h·, ·ir .
Se A é um operador linear agindo em um espaço vetorial complexo V , dizemos que um vetor
não-nulo x é um autovetor de A se houver um número (real ou complexo) α tal que
Ax = α x. (12.83)
O número α é dito ser um auto-valor de A e x o autovetor associado a α. O conjunto de todos os

auto-valores de um operador linear A é chamado de espectro pontual11 de A.
Um fato importante sobre operadores simétricos é o seguinte: se α é um auto-valor de um operador
simétrico A que age em um espaço vetorial complexo V , então α é um número real. Para ver isso note
que se x é o autovetor associado a α então temos que, como A é simétrico
0 = hx, Axi − hAx, xi = λhx, xi − λhx, xi = (λ − λ)hx, xi .
Como x 6= 0, isso implica λ = λ, ou seja, λ é real.

O fato de o operador de Fredholm K ser simétrico significa que seus auto-valores são números reais.
Note-se que a equação de Fredholm (12.81) é precisamente uma equação de auto-valores, o auto-valor
sendo, nesse caso, o número 1/λ. O que provamos acima diz-nos então que λ dever ser um número
real, uma outra demonstração de um fato que já sabı́amos.
O seguinte teorema pode ser demonstrado sobre o operador de Fredholm associado a um problema
de Sturm-Liouville:
Teorema 12.4 Seja K o operador de Fredholm associado a um problema de Sturm-Liouville, que
supomos não admitir auto-valor nulo. Então K é um operador contı́nuo. Seus auto-valores formam um
conjunto discreto (ou seja, contável) {αn ∈ R, n ∈ N}. Os valores da seqüência dos αn são limitados
(não divergem para ±∞), apenas um número finito deles pode ser negativo e eles se acumulam apenas
1
no ponto 0. Assim, tem-se que lim = +∞. Além disso, os auto-valores αn são simples: existe
n→∞ αn
para cada auto-valor αn apenas uma auto-função un tal que
K un = αn un . (12.84)
11
O conceito geral de espectro de operadores definidos em espaços de Banach é detalhadamente discutido na Seção
26.5, página 1329.
Denotemos por Hr o espaço de Hilbert de todas as funções em J = [a, b] tais que

Z b
|f (x)|2 r(x) dx < ∞. (12.85)
a
Nesse espaço de Hilbert o produto escalar considerado é o produto escalar h·, ·ir definido acima. Vamos
supor que as auto-funções un são normalizadas, ou seja, satisfazem hun , un ir = 1. Então o conjunto
das auto-funções normalizadas un de K forma uma base ortonormal completa em Hr , ou seja, todo
vetor f ∈ Hr pode ser escrito como
N
X ∞
X
f = lim cn un =: cn u n , (12.86)
N →∞
n=1 n=1
onde Z b
cn := hun , f ir = un (x) f (x) r(x) dx . (12.87)
a
Mais precisamente, vale
* N
! N
!+
X X
lim f− cn u n , f− cn u n
N →∞
n=1 n=1 r
Z b N
X
2

= lim f (x) − cn un (x) r(x) dx = 0 . (12.88)
N →∞ a
n=1
A demonstração deste teorema é elaborada e será apresentada ao longo da Seção 26.6, página 1339,
do Capı́tulo 26. O que faremos é mostrar que o operador de Fredholm K é um operador compacto e
auto-adjunto e para tais operadores valem as propriedades espectrais mencionadas acima. A afirmação
(12.86)-(12.88), por exemplo, é parte do chamado Teorema Espectral, o qual vale para operadores
compactos e auto-adjuntos, como mostrado no Teorema 26.29 da página 1356.
Notemos algumas conseqüências do teorema acima. Como os auto-valores de um problema de
Sturm-Liouville regular λn são da forma λn = 1/αn , onde αn é um auto-valor de K, o teorema acima
diz-nos que podemos ordenar os λn ’s em ordem crescente:
−∞ < λ1 < λ2 < λ3 < · · · (12.89)
com lim λn = +∞. Uma segunda conseqüência de importância relaciona o problema de Sturm-
n→∞
Liouville com a função de Green. Seja u um vetor arbitrário de Hr . Como dissemos, podemos escrever
N
u = lim uN , onde uN = Σ cn un , onde os cn ’s são dados por (12.87). Como K é contı́nuo, temos que
N →∞ n=1
(Ku)(x) = lim (KuN )(x) =

N →∞
N
X
= lim cn (Kun )(x)
N →∞
n=1
N
X 1
= lim cn un (x)
N →∞
n=1
λn
XN Z b
1
= lim un (y)u(y)r(y) dy un (x)
N →∞
n=1
λ n a
Z N
!
b X un (x)un (y)
= r(y) lim u(y) dy . (12.90)
a N →∞
n=1
λn
Rb
Por outro lado sabemos que, pela definição, (Ku)(x) = − a
G(x, y)r(y) u(y). Como ambas relações
valem para qualquer u ∈ Hr , concluı́mos que
∞
X un (x)un (y)
G(x, y) = − . (12.91)
n=1
λn
É possı́vel demonstrar, o que não faremos aqui, que a soma do lado direito da última expressão é
absoluta e uniformemente convergente (vide e.g. [121]). A relação (12.91), que é por vezes chamada
fórmula de Mercer12 , mostra que a função de Green de um problema de Sturm pode ser escrita como
uma expansão envolvendo auto-valores e auto-funções de um problema de Sturm-Liouville. Esse fato
é relevante tanto na prática da resolução de equações diferenciais quanto na obtenção de resultados
qualitativos sobre a natureza das soluções. Estudaremos adiante algumas dessas aplicações.
12.6 Uma Aplicação do Problema de Sturm-Liouville

Vamos aqui tratar do problema de encontrar as soluções da equação diferencial não-homogênea
Lu + γr(x)u = f (x) , (12.92)
onde a solução u está ainda sujeita às condições de contorno homogêneas (12.52)-(12.53). Acima, o
operador L é definido como anteriormente e assumimos para as funções p, q e r as mesmas condições
mencionadas no inı́cio do presente capı́tulo. A função f será assumida uma função real e contı́nua e γ
um número real dado.
12
James Mercer (1883-1932). O trabalho original é: J. Mercer. “Functions of positive type and their connection with
the theory of integral equations”. Transactions London Phil. Soc. (A) 209, 415-446 (1909).
Como veremos, a solução pode ser obtida com uso das auto-funções e auto-valores do problema de
Sturm-Liouville
Lu + λr(x)u = 0
com condições de contorno homogêneas do tipo (12.4)-(12.5). Chamaremos esse problema de problema
de Sturm-Liouville associado (ao problema (12.92)). Novamente suporemos que o problema de Sturm-
Liouville associado não tem solução com auto-valor λ = 0.
Com o uso da representação da função de Green em termos dos auto-valores e auto-funções do
problema de Sturm-Liouville associado (fórmula de Mercer, (12.91)), vamos mostrar como podemos
encontrar uma expressão para a solução desse problema.
A equação diferencial (12.92) pode ser escrita como
Lu = −γr(x)u + f . (12.93)
Usando, como fizemos anteriormente, o Teorema de Green, podemos dizer que a função u(x) que satisfaz
esta equação diferencial satisfaz também a equação integral
Z b Z b
u(x) = −γ G(x, y)r(y)u(y) dy + G(x, y)f (y) dy . (12.94)
a a
Definamos Z b
g(x) := G(x, y)f (y) dy . (12.95)
a
Usando a fórmula de Mercer para a função de Green, podemos escrever (12.94) como
X∞
hun , uir
u(x) = γ un (x) + g(x) . (12.96)
n=1
λ n
Tomando-se o produto escalar de ambos os lados da igualdade com o vetor um , tiramos que

γ
1− hum , uir = hum , gir . (12.97)
λm
Aplicando agora a fórmula de Mercer à definição de g em (12.95), tiramos que

X∞ Z b
1
g(x) = − un (y) f (y) dy un (x) , (12.98)
n=1
λ n a
e, portanto, que Z b
1
hum , gir = − um (y) f (y) dy , (12.99)
λm a
ou seja,
1
hum , gir = − hum , f i . (12.100)
λm
E. 12.16 Exercı́cio. Mostre esses dois últimos resultados. 6
Até agora não fizemos quaisquer restrições a respeito da constante γ que aparece na equação diferen-
cial não-homogênea (12.92). Há dois casos a supor. Aquele em que γ não é igual a nenhum auto-valor
λm do problema de Sturm-Liouville associado e aquele caso em que γ = λs , para algum auto-valor λs
do problema de Sturm-Liouville associado.
Caso I. γ não é um auto-valor.
Nesse caso as relações (12.97) e (12.99) dizem-nos que
Z b
1
hum , uir = um (y) f (y) dy (12.101)
γ − λm a
e, portanto, temos que

∞
X Z b
1
u(x) = um (y) f (y) dy um (x) . (12.102)
m=1
γ − λm a
Esta fórmula dá-nos a solução do problema em termos das auto-funções e auto-valores do problema
do Sturm-Liouville associado e mostra-nos uma das razões que tornam importante a solução do mesmo
problema de Sturm-Liouville. A série do lado direito converge absoluta e uniformemente em J.
Caso II. γ = λs para algum s.
Neste caso o problema tratado nem sempre tem soluções. Para ver isso, note que, supondo-se a
existência de uma solução, a relação (12.97) diz-nos neste caso que hus , gir = 0, ou seja, por (12.100)
Z b
hum , f i = us (y) f (y) dy = 0 . (12.103)
a
Caso a função f seja tal que (12.103) não é satisfeita, então nenhuma solução é possı́vel para o
problema tratado. Se f , porém, for tal que (12.103) seja válida, teremos que a função û dada por
∞
X Z b
1
û(x) = um (y) f (y) dy um (x) (12.104)
m=1
γ − λm a
m6=s
é uma solução do problema tratado.
E. 12.17 Exercı́cio. Prove esta última afirmativa seguindo passos semelhantes aos do caso I. 6
A solução mais geral, porém, é dada por
u(x) = cus (x) + û(x) , (12.105)
onde c é uma constante arbitrária, a ser determinada por alguma imposição adicional qualquer a ser
feita ao problema.
E. 12.18 Exercı́cio. Mostre que esta função u é de fato uma solução (substitua na equação (12.92)
e verifique também se as condições de contorno são satisfeitas). Mostre que não pode haver solução mais
geral que esta. Para isso use o fato que o auto-valor λs é simples. 6
• O caso de condições de contorno não-homogêneas
Vamos aqui discutir brevemente uma generalização do problema anterior. Procuramos uma solução
da equação diferencial não-homogênea
Lu + γr(x)u = f (x) , (12.106)
onde a solução u está ainda sujeita às condições de contorno não-homogêneas (12.2)-(12.3). Acima, o
operador L é definido como anteriormente e assumimos para as funções p, q e r as mesmas condições
mencionadas no inı́cio destas notas. A função f será assumida ser uma função real e contı́nua e γ será
assumido ser um número real dado.
Esse problema pode ser resolvido combinando métodos que já discutimos. Em primeiro lugar
constrói-se uma função w que seja duas vezes diferenciável e satisfaça as condições não-homogêneas
(12.2)-(12.3).
Procura-se então uma supostamente existente solução v da equação
Lv + γr(x)v = h(x) , (12.107)
com
h(x) = f (x) − (L + γr(x))w(x) ,
que satisfaça as condições de contorno homogêneas (12.4)-(12.5). Uma tal solução pode ser obtida
pelos métodos da Seção 12.6, página 714.
É claro, então, que u = v + w satisfará
Lu + γr(x)u = f (x) (12.108)
e as condições de contorno não-homogêneas (12.2)-(12.3).
Como vimos, para a solução v exista é necessário que γ não seja um auto-valor do problema de
Sturm-Liouville associado. Caso γ seja um auto-valor, só teremos solução se huγ , hi = 0, ou seja,
huγ , f i = huγ , (L + γr)wi . (12.109)
Vale observar que
huγ , (L + γr)wi = huγ , Lwi + hγruγ , wi = huγ , Lwi − hLuγ , wi .
Note que o lado direito não é forçosamente zero, pois aqui o Lema de Green não se aplica, já que w não
é elemento do espaço vetorial V(α1 , α2 , β1 , β2 ) das funções que satisfazem as condições de contorno
homogêneas (12.4)-(12.5). A condição (12.109) fica, então,
huγ , f i = huγ , Lwi − hLuγ , wi .
Nesse caso de γ ser um auto-valor podemos, como já observamos, acrescentar à solução û um
múltiplo da auto-função uγ , obtendo a solução mais geral na forma cuγ (x) + û(x).
12.7 Comentários Finais
12.7.1 O Problema de Sturm-Liouville Singular

Vamos aqui discutir brevemente uma variante do problema de Sturm-Liouville regular que consiste no
problema de determinar as soluções da equação diferencial
(p(x)u′ )′ + q(x)u + λr(x)u(x) = 0 (12.110)
para u definida no intervalo fechado finito [a, b] ⊂ R, b > a, com as seguintes condições de contorno
u(a) e u′(a) são finitas, (12.111)
β1 u(b) + β2 u′(b) = 0 , (12.112)
onde o seguinte estará sendo suposto:
As funções p, q e r são reais e contı́nuas em [a, b].
A função p é diferenciável em [a, b] e positiva: p(x) > 0 para x ∈ (a, b] mas se anula em x = a:
p(a) = 0
r é contı́nua e estritamente positiva em J, ou seja, r(x) > 0 para todo x ∈ [a, b].
As constantes α1 , α2 , β1 e β2 são reais e tais que (α1 , α2 ) 6= (0, 0) e (β1 , β2 ) 6= (0, 0).
Como se percebe, a distinção básica entre este problema e o anteriormente tratado reside no fato
de que agora p(x) se anula no ponto a. O fato de p anular-se em a implica que a solução pode ser
singular nesse ponto. Daı́, nenhuma condição de contorno pode ser fixada para o ponto x = a, exceto
que a solução e sua derivada não sejam divergentes naquele ponto (se isso for desejado).
Um exemplo fı́sico que conduz a esse tipo de situação é o problema das oscilações de uma corda de
densidade constante ρ e comprimento L, suspensa verticalmente em um campo gravitacional constante
(a aceleração da gravidade sendo g) e presa em uma das suas extremidades, a outra ficando livre. Esse
problema é resolvido na Seção 10.2.2, página 596. Se x representa a altura e o ponto onde uma as
extremidades fica presa é x = L, então a equação que descreve o problema é

∂ ∂u ∂2u
gx =
∂x ∂x ∂t2
com as condições de contorno u(0, t) e u′ (0, t) finitas e u(L, t) = 0. Usando o método de separação
de variáveis e adotando-se u(x, t) = v(x)w(t), obtem-se para w a equação
ẅ(t) + λw(t) = 0
e para v
(gxv ′ )′ + λv = 0 ,
com v(L) = 0 e com v(0) e v ′ (0) finitos. Aqui λ é√uma constante arbitrária a ser determinada pelas
condições de contorno. A solução é vn (x) = cn J0 (2 λn x), onde J0 é a função de Bessel de ordem zero,
0 2
cn é uma constante e λn é o n-ésimo auto-valor, dado por λn = (α4L
n)
, onde αn0 é o n-ésimo zero de J0
no semi-eixo real positivo. Para um tratamento detalhado desse problema, vide Seção 10.2.2, página
596. O problema para v é claramente um problema de Sturm-Liouville do tipo mencionado acima, já
que p(x) = gx se anula em x = 0.
Esse tipo de problema de Sturm-Liouville é, por vezes, denominado Problema de Sturm-Liouville
singular, e para ele nem sempre valem os mesmos resultados que no caso anteriormente tratado, o dos
problemas de Sturm-Liouville regulares. Por exemplo, nem sempre pode ser garantida a existência de
auto-valores e autovetores (ou seja, de soluções para o problema). Isso pode ser visto explicitamente
no exemplo tratado no Apêndice 12.D, página 731.
Mesmo assim, os problemas de Sturm-Liouville singulares, quando solúveis, compartilham algumas
propriedades com os problemas regulares, tais como a realidade dos auto-valores e a ortogonalidade
das auto-funções.
De fato, é fácil ver que o Lema de Green também vale nesse caso. Seja V(β1 , β2 ) o espaço vetorial
de todas as funções f duas vezes diferenciáveis definidas no intervalo [a, b] tais que β1 f (b) + β2 f ′ (b) = 0
e que sejam finitas em x = a. Então, se u e v são elementos de V(β1 , β2 ) tem-se
hv, Lui = hLv, ui ,
ou seja, Z Z
b b
v(x) (Lu)(x) dx = (Lv)(x) u(x) dx . (12.113)
a a
De fato, como em (12.62) e (12.63), página 703, tem-se
Z b Z b
v(x) (Lu)(x) dx = u(x) (Lv)(x) dx
a a

+ p(b) v(b)u′ (b) − v ′ (b)u(b) − p(a) v(a)u′ (a) − v ′ (a)u(a) . (12.114)
O último termo é zero, pois p(a) = 0 e v(a)u′(a) − v ′ (a)u(a) é finito. O termo v(b)u′ (b) − v ′ (b)u(b) é
nulo pelo mesmo argumento apresentado quando da primeira demonstração do Lema de Green, para o
caso regular (vide página 703 e seguintes).
Uma vez demonstrado o Lema de Green para o problema singular, segue de maneira totalmente
análoga ao que demonstramos no caso regular que os auto-valores são reais e que auto-funções de
auto-valores distintos são ortogonais entre si em relação ao produto escalar h·, ·ir :
Z b
huλ , uλ′ ir = uλ (x) uλ′ (x) r(x) dx = 0
a
se λ 6= λ′ . Não repetiremos a demonstração aqui e remetemos o leitor à página 704 onde isso foi feito
no caso regular.
E. 12.19 Exercı́cio. Mostre que, assim como no caso regular, os auto-valores, se existirem, são simples.
Para isso estude a demonstração para o caso regular da Seção 12.4.2, página 705, e verifique que a mesma
também se aplica ao caso singular. 6

E. 12.20 Exercı́cio. Determine a função de Green para o seguinte problema de Sturm: u′′ = f (x), com
α1 u(a) + α2 u′ (a) = 0, β1 u(b) + β2 u′ (b) = 0, com x ∈ [a, b], a < b.
Mostre que esse problema só tem solução se (b − a)α1 β1 + α1 β2 − β1 α2 6= 0. 6
E. 12.21 Exercı́cio. a) Determine a função de Green do seguinte problema de Sturm u′′ = f (x), onde
u é definida no intervalo x ∈ [0, 1] e satisfaz as seguintes condições de contorno:
u′ (0) = 0 , u(1) = 0 . (12.115)
b) Determine os auto-valores e auto-funções normalizadas do problema de Sturm-Liouville

u′′ + λu = 0 ,
onde u é também definida no intervalo x ∈ [0, 1] e satisfaz as mesmas condições de contorno (12.115).
c) Expresse a função de Green do problema de Sturm do item a) em termos dos auto-valores e auto-
funções normalizadas obtidas em b) e, usando a expressão assim obtida, prove a seguinte identidade
X∞
π2 1
= .
8 m=0
(2m + 1)2
d) Determine a solução do problema de Sturm do caso a) para f (x) = (3 − x)ex . Use para tal a função
de Green.
e) Mostre explicitamente que a solução obtida no item d) satisfaz a equação diferencial e as condições
de contorno desejadas.
6
E. 12.22 Exercı́cio. Determine explicitamente a função de Green para os seguintes problemas de Sturm:
a) u′′ = f (x), com u(0) = 0, u(1) = 0.
b) u′′ = f (x), com u(0) = 0, u′(1) = 0.
c) u′′ = f (x), com u(0) = 0, u(1) + u′ (1) = 0.
d) u′′ + u = f (x), com u(0) = 0, u′ (1) = 0.
e) (xu′ )′ = f (x), com u(1) = 0, u(e) = 0. 6
E. 12.23 Exercı́cio. Determine explicitamente a solução dos cinco problemas de Sturm acima para o
caso em que f (x) = x. 6
E. 12.24 Exercı́cio. Determine explicitamente a função de Green para o seguinte problema de Sturm:
µ2
(xu′ )′ − u = f (x) ,
x
onde µ > 0, com as condições de contorno com u(a) = 0 e u(b) = 0, onde 0 < a < b < ∞.
Verifique que funções do tipo
v(x) = c1 xµ + c2 x−µ ,
são soluções da equação homogênea e, com as mesmas, monte a função de Green.
A solução obtida vale também caso a = 0? Note que nesse caso p(x) = x não é estritamente positiva
no intervalo [a, b]. 6
E. 12.25 Exercı́cio. Uma partı́cula de massa m > 0 se move em uma dimensão sob um potencial
kx2
U(x) = com k > 0 (potencial do oscilador harmônico). Além disso, a partı́cula está submetida a uma
2
força externa f (t) que, como a notação indica, pode variar com o tempo.
Suponha que se saiba que no instante dertempo t0 = 0 a partı́cula encontra-se na posição x(t0 ) = 0 e que
π k
no instante de tempo t1 = , onde ω = , a partı́cula encontra-se novamente na posição x(t1 ) = 0.
2ω m
Determine a função de Green para o problema de Sturm associado ao problema mecânico acima e
determine a trajetória x(t) da partı́cula para t ∈ [t0 , t1 ] para os seguintes tipos de força:
a) f (t) = At, para A > 0, constante e
b) f (t) = B sin(ωt), para B > 0, constante. 6
E. 12.26 Exercı́cio. Resolva os seguintes problemas de Sturm-Liouville, determinando os auto-valores e

as auto-funções normalizadas:
a) u′′ + λu = 0, com u(0) = 0, u(1) = 0.
b) u′′ + λu = 0, com u(0) = 0, u′ (1) = 0.
c) u′′ + λu = 0, com u(0) = 0, u(1) + u′(1) = 0.
d) u′′ + u′ + λu = 0, com u(0) = 0, u′(1) = 0. Neste caso, mostre graficamente que há infinitos
auto-valores e que, à medida em que eles crescem, a distância entre eles tende a uma constante. Ocorrem
auto-valores negativos? Zero é um possı́vel auto-valor? 6
E. 12.27 Exercı́cio. Para cada um dos casos do Exercı́cio E. 12.26, expresse a função de Green do
problema de Sturm correspondente usando a fórmula de Mercer, ou seja, em termos de uma série envolvendo
as auto-funções normalizadas e os auto-valores:
X∞
un (x)un (y)
G(x, y) = − .
n=1
λ n
E. 12.28 Exercı́cio. Seja o problema de Sturm-Liouville u′′ + λu = 0, no intervalo [0, 1], com as
condições de contorno u(0) = 0 e β1 u(1) + β2 u′ (1) = 0.
a. Determine os auto-valores positivos no caso β1 = 0, no caso β2 = 0 e indique como determiná-los
no caso em que ambos β1 e β2 são não-nulos. Determine as auto-funções em cada situação.
b. Que relação devem satisfazer as constantes β1 e β2 para que λ = 0 seja um auto-valor? Determine
a auto-função correspondente.
c. Que relação devem satisfazer as constantes β1 e β2 para que haja também auto-valores λ negativos?
Quantos são os auto-valores negativos, se os houver? Determine suas auto-funções, se as houver.
d. Reunindo os resultados obtidos, indique no plano Cartesiano (β1 , β2 ) a região onde os auto-valores
são estritamente positivos, a região onde ocorre o auto-valor zero e a região onde ocorrem auto-valores
negativos além dos auto-valores positivos.
Nota. Em a, b e c não é necessário normalizar as auto-funções. 6
E. 12.29 Exercı́cio. Resolva o seguinte problema de Sturm-Liouville, determinando os auto-valores e as

auto-funções normalizadas:
λ
(xu′ )′ + u = 0 ,
x
com u(1) = 0 e u(e) = 0.
Determine as relações de ortogonalidade entre as auto-funções. Verifique-as explicitamente.
Expresse a função de Green do problema de Sturm correspondente usando a fórmula de Mercer.
Sugestão: Verifique que funções do tipo
√ √
c1 ei λ ln x
+ c2 e−i λ ln x
,
são as soluções gerais de (xu′ )′ + λx u = 0. Mostre, daı́, que as auto-funções são da forma
un (x) = cn sen(nπ ln x) ,
n = 1, 2, . . .. Determine cn impondo que cada un seja normalizada. 6
E. 12.30 Exercı́cio. Resolva explicitamente o problema de Sturm-Liouville semi-homogêneo

γ
(xu′ )′ + u = f (x) , x ∈ [1, e] ,
x
com u(1) = 0 e u(e) = 0, γ fixo, γ 6= n2 π 2 , n = 1, 2, . . ., primeiramente para f genérica e depois,
explicitamente, para f (x) = x−1 . 6
E. 12.31 Exercı́cio. a. Determine explicitamente a função de Green do seguinte problema de Sturm,

definido no intervalo [0, 1]:
(ex u′)′ = f (x) ,
com u(0) = u(1) = 0.
b. Determine os auto-valores e as auto-funções normalizadas do problema de Sturm-Liouville
(ex u′ )′ + λex u = 0 ,
com x ∈ [0, 1] e com u(0) = u(1) = 0.

c. Usando a fórmula de Mercer, expresse função de Green em termos de uma série envolvendo os
auto-valores e as auto-funções normalizadas.
d. Determine explicitamente a solução da equação diferencial
(ex u′ )′ + 5ex u = f (x), x ∈ [0, 1] ,
com u(0) = u(1) = 0, para f (x) = ex/2 . 6
E. 12.32 Exercı́cio. Seja o problema de Sturm
(p(x)u′ )′ + q(x)u = f (x) ,
para uma função u definida no intervalo [a, b] ⊂ R, a < b, satisfazendo as condições de contorno
α1 u(a) + α2 u′(a) = 0 ,
β1 u(b) + β2 u′ (b) = 0 ,
onde p, q e f são funções reais; p é contı́nua, diferenciável e estritamente positiva em [a, b]; q e f são
contı́nuas em [a, b].
a. Mostre que o produto p(x)W (x) é constante, onde W (x) é o determinante Wronskiano das soluções
da equação homogênea (p(x)v ′ )′ + q(x)v = 0 satisfazendo α1 v1 (a) + α2 v1′ (a) = 0, β1 v2 (b) + β2 v2′ (b) = 0.
b. Mostre que a função de Green desse problema satisfaz
1
lim Gx (x + ǫ, x) − Gx (x − ǫ, x) = ,
ǫ→0 p(x)
e 1
lim Gx (x, x − ǫ) − Gx (x, x + ǫ) = .
ǫ→0 p(x)
c. Mostre que a função de Green satisfaz
Lx [G](x, y) = δ(x − y) ,
∂ ∂

sendo Lx [G](x, y) = ∂x
p(x) ∂x G(x, y) + q(x)G(x, y). 6
E. 12.33 Exercı́cio. [Adaptado de [125]].

a. Obtenha a função de Green associada ao problema de Sturm
y ′′ (x) = f (x)
com x ∈ [0, 1] e y(0) = y(1) = 0.

b. Mostre que as auto-funções do problema de Sturm-Liouville
y ′′ (x) + λxy(x) = 0
√ √
com x √ ∈ [0, 1] e y(0) = y(1) = 0 são dadas por yn (x) = xJ1/3 ( 23 λn x3 ), com λn positivos e satisfazendo
J1/3 ( 23 λn ) = 0.
c. Determine as relações de ortogonalidade entre essas auto-funções. Obtenha as auto-funções norma-
lizadas. Sugestão: use as relações de ortogonalidade das funções de Bessel.
d. Expresse a função de Green do problema de Sturm correspondente usando a fórmula de Mercer.
e. Determine aproximadamente os dois primeiros auto-valores. Sugestão: procure aproximantes da
forma y(2) (x) = c1 x(1 − x) + c2 x2 (1 − x).
f. Obtenha os zeros “exatos” de J1/3 em alguma tabela e compare os resultados, indicando os erros
percentuais.
g. Resolva explicitamente a equação diferencial
y ′′ + γxy = f (x) , x ∈ [0, 1] ,
com y(0) = 0 e y(1) = 0, γ fixo, γ 6= λn , para todo n, primeiramente para f genérica e depois, explicita-
1
mente, para f (x) = √ . Sugestão: use a identidade
1 − x3
Z 1
1 π h a i2
Jν (au) √ du = Jν ,
0 1 − u2 2 2 2
válida para a > 0, ν > −1. 6

Apêndices
12.A Prova do Teorema 12.1. Existência e Unicidade
Abaixo faremos uso da notação e de resultados do Capı́tulo 7, página 322.
A equação u′′ + a1 (x)u′ + a0 (x)u = g(x) é equivalente à equação de primeira ordem
Y ′ (x) = A(x)Y (x) + G(x)
onde      
y1 (x)  0 1   0 
Y (x) = 

,
 A(x) = 

 ,
 G(x) = 

 ,

y2 (x) −a0 (x) −a1 (x) g(x)
com as identificações u(x) = y1 (x), u′ (x) = y2 (x).
A solução é da forma
Z x
Y (x) = D(x, x0 )Yx0 + D(x, y)G(y) dy ,
x0
onde Yx0 = Y (x0 ), x0 arbitrário.

É fácil ver daı́ que a solução geral da equação u′′ + a1 (x)u′ + a0 (x)u = g(x) é da forma
u(x) = A1 u1 (x) + A2 u2 (x) + up (x) ,
onde A1 e A2 são constantes, u1 e u2 são soluções independentes da equação homogênea u′′ + a1 (x)u′ +
a0 (x)u = 0 e up é uma solução particular da equação não-homogênea u′′ + a1 (x)u′ + a0 (x)u = g(x).
Desejamos impor as condições de contorno
α1 u(a) + α2 u′(a) = ϕ1 , (12.A.1)
β1 u(b) + β2 u′ (b) = ϕ2 , (12.A.2)

à solução. Isso implica
α1 (A1 u1 (a) + A2 u2 (a) + up (a)) + α2 (A1 u′1 (a) + A2 u′2 (a) + u′p (a)) = ϕ1 , (12.A.3)
β1 (A1 u1(b) + A2 u2 (b) + up (b)) + β2 (A1 u′1 (b) + A2 u′2 (b) + u′p (b)) = ϕ2 . (12.A.4)
Esse par de equações pode ser escrito em forma matricial como
    
α1 u1 (a) + α2 u′1 (a) α1 u2 (a) + α2 u′2 (a) A1  ϕ1 − α1 up (a) − α2 u′p (a)
    
    
   =  . (12.A.5)
    
    
    
β1 u1 (b) + β2 u′1 (b) β1 u2 (b) + β2 u′2 (b) A2 ϕ2 − β1 up (b) − β2 u′p (b)
Essa última equação (cujas incógnitas são A1 e A2 ) tem solução única se e somente se
 
α1 u1 (a) + α2 u′1 (a) α1 u2 (a) + α2 u′2 (a)
 
 
 
 
 
 
β1 u1 (b) + β2 u′1 (b) β1 u2 (b) + β2 u′2 (b)
for uma matriz invertı́vel, ou seja, se

 
α1 u1 (a) + α2 u′1 (a) α1 u2 (a) + α2 u′2 (a)
 
 
det 

 6= 0 .

 
 
β1 u1 (b) + β2 u′1 (b) ′
β1 u2 (b) + β2 u2 (b)
Isso é o que querı́amos provar.
12.B Prova da Proposição 12.1

Pelas hipóteses mencionadas, existem funções u1 e u2 independentes entre si que são soluções de Lu = 0
e satisfazem (12.22). Sejam c11 , c12 , c21 , c22 definidas por
    
′
c11 c12  α1 u1 (a) + α2 u1 (a) α1 u2 (a) + α2 u′2 (a) 0 −1
    
    
  :=   
    
    
    
c21 c22 β1 u1 (b) + β2 u′1 (b) β1 u2 (b) + β2 u′2 (b) 1 0
 
α1 u2 (a) + α2 u′2 (a) −(α1 u1 (a) + α2 u′1 (a))
 
 
= 

 .
 (12.B.6)
 
 
β1 u2 (b) + β2 u′2 (b) −(β1 u1 (b) + β2 u′1 (b))
Note-se que
     
′
c11 c12  α1 u1 (a) + α2 u1 (a) α1 u2 (a) + α2 u′2 (a) 0 −1
     
     
det 

 = det 
 
 det 
 
 6= 0 (12.B.7)

     
     
c21 c22 β1 u1(b) + β2 u′1 (b) β1 u2 (b) + β2 u′2 (b) 1 0
por (12.22).
Sejam as funções v1 (x) e v2 (x) definidas por
    
v1 (x) c11 c12  u1 (x)
  =    .
    
v2 (x) c21 c22 u2 (x)
Pela definição,       
Lv1  c11 c12  Lu1  0
  =    =   ,
      
Lv2 c21 c22 Lu2 0
pois Lu1 = Lu2 = 0. Além disso,

    
v1 (x) v1′ (x) c11 c12  u1 (x) u′1 (x)
  =    (12.B.8)
    
v2 (x) v2′ (x) c21 c22 u2 (x) u′2 (x)
e como  
u1 (x) u′1 (x)
det 

 6= 0 ,

u2 (x) u′2 (x)
pois u1 e u2 são independentes, segue de (12.B.7) que

 
v1 (x) v1′ (x)
det 

 6= 0 ,
 (12.B.9)
v2 (x) v2′ (x)
para todo x ∈ [a, b], provando que v1 e v2 são também independentes.

Tem-se de (12.B.8)
    
α1 v1 (x) +α2 v1′ (x) v1 (x) v1′ (x) α1 
    
    
  =   
    
    
    
α1 v2 (x) + α2 v2′ (x) v2 (x) v2′ (x) α2
   
c11 c12  u1 (x) u′1 (x) α1 
   
   
= 



 
 
   
   
c21 c22 u2 (x) u′2 (x) α2
  
c11 c12  α1 u1 (x) + α2 u′1 (x)
  
  
= 



.

  
  
c21 c22 α1 u2 (x) + α2 u′2 (x)
Logo,
    
α1 v1 (a) + α2 v1′ (a) c11 c12  α1 u1 (a) + α2 u′1(a)
    
    
  =   
    
    
    
α1 v2 (a) + α2 v2′ (a) c21 c22 α1 u2 (a) + α2 u′2(a)
  
c11 c12  −c12 
  
  
= 





  
  
c21 c22 c11
 
 0 
 
 
= 

 ,
 (12.B.10)
 
 
c11 c22 − c12 c21
que afirma, em particular, que

α1 v1 (a) + α2 v1′ (a) = 0 . (12.B.11)
Analogamente,
    
′
β1 v1 (x) + β2 v1 (x) v1 (x) v1′ (x) β1 
    
    
  =   
    
    
    
β1 v2 (x) + β2 v2′ (x) v2 (x) v2′ (x) β2
   
c11 c12  u1 (x) u′1(x) β1 
   
   
= 



 
 
   
   
c21 c22 u2 (x) u′2(x) β2
  
c11 c12  β1 u1 (x) + β2 u′1 (x)
  
  
= 



.

  
  
c21 c22 β1 u2 (x) + β2 u′2 (x)
Logo,
    
β1 v1 (b) + β2 v1′ (b) c11 c12  β1 u1 (b) + β2 u′1 (b)
    
    
  =   
    
    
    
β1 v2 (b) + β2 v2′ (b) c21 c22 β1 u2 (b) + β2 u′2 (b)
  
c11 c12  −c22 
  
  
= 





  
  
c21 c22 c21
 
−c11 c22 + c12 c21 
 
 
= 

,
 (12.B.12)
 
 
0
que afirma, em particular, que

β1 v2 (b) + β2 v2′ (b) = 0 . (12.B.13)
As relações (12.B.11) e (12.B.13) são precisamente o que afirmamos em (12.23) e (12.24). Isso
demonstra o que querı́amos provar sobre a existência e propriedades das funções v1 e v2 .
12.C Comentário Sobre o Determinante Wronskiano

Faremos aqui um comentário sobre a noção de determinante Wronskiano introduzida no Capı́tulo 7,
página 7 (vide página 334) e aquele apresentado na definição. (12.30). Abaixo faremos uso de notação
e de resultados daquele capı́tulo.
A equação Lu = 0 pode ser escrita na forma u′′ +a1 (x)u′ +a0 (x)u = 0 que, por sua vez, é equivalente
à equação de primeira ordem
Y ′ (x) = A(x)Y (x) ,
onde    
y1 (x)  0 1 
Y (x) = 

,
 A(x) = 

 ,

y2 (x) −a0 (x) −a1 (x)
com as identificações u(x) = y1 (x), u′ (x) = y2 (x).

A solução é da forma
Y (x) = D(x, x0 )Yx0 ,
onde Yx0 = Y (x0 ), x0 arbitrário.
Se Y1 e Y2 são duas soluções independentes da equação homogênea Y ′ (x) = A(x)Y (x), o determi-
nante Wronskiano (segundo a definição usada no Capı́tulo 7, página 7 (vide página 334)) é
hh ii
det Y1 (x), Y2 (x) .
Como comentamos acima, Y1 e Y2 são da forma

   
u1 (x) u2 (x)
Y1 (x) = 

,
 Y2 (x) = 

 ,

u′1 (x) u′2 (x)
onde u1 e u2 são duas soluções independentes de Lu = 0.

É claro então que
   
hh ii u1 (x) u2(x) u1 (x) u′1 (x)

det Y1 (x), Y2 (x) = det     .
 = det  
u′1 (x) u′2(x) u2 (x) u′2 (x)
A última igualdade é apenas o fato de que o determinante de uma matriz não muda quando a trans-
pomos.
Por outro lado, a relação (12.B.8) nos diz que

     
v1 (x) v1′ (x) c11 c12  u1 (x) u′1 (x)

det       .
 = det   det   (12.C.14)
v2 (x) v2′ (x) c21 c22 u2 (x) u′2 (x)
     
c11 c12  v1 (x) v1′ (x)
u1 (x) u′1 (x)
Como det 

 é não nulo, isso diz que det 
 
 e det 
 
 diferem apenas

c21 c22 v2 (x) v2′ (x) u2 (x) u′2 (x)
 
v1 (x) v1′ (x)
por um fator constante. Agora det 

 é o determinante Wronskiano, introduzido em

v2 (x) v2′ (x)
(12.30).
Com isso mostramos que o determinante Wronskiano do Capı́tulo 7, página 7, difere apenas por
um fator não nulo constante daquele introduzido em (12.30).
12.D Ausência de Auto-Valores em um Problema Singular

Considere o seguinte problema de Sturm-Liouville singular definido no intervalo [0, 1]:
(x2 u′ )′ + λu = 0 ,
com u(1) = 0 e u finita em x = 0. A equação diferencial é
x2 u′′ + 2xu′ + λu = 0 ,
que é uma equação do tipo de Euler, de segunda ordem. A solução pode ser procurada na forma
u(x) = xγ e obtem-se √
−1 ± 1 − 4λ
γ = .
2
Assim, para λ 6= 1/4, tem-se √ √
−1+ 1−4λ −1− 1−4λ
u(x) = Ax 2 + Bx 2 .
Como deseja-se u(1) = 0 tem-se A = −B e, assim,
−1+√1−4λ √
−1− 1−4λ

u(x) = A x 2 −x 2 .
Essa solução só será finita em x = 0 se13

√ √
−1 + Re 1 − 4λ ≥ 0 e − 1 − Re 1 − 4λ ≥ 0 .
13
Outra possibilidade seria escolher A = 0, ou seja, u(x) = 0, solução trivial que não interessa como auto-função.
Ambas as condições não podem ser satisfeitas simultaneamente para nenhum λ (pois somando-se ambas
as desigualdades, terı́amos −2 ≥ 0, o que é obviamente falso). Para λ = 1/4 a solução é u(x) =
√1 (A ln x + B) e a condição u(1) = 0 implica B = 0 e, portanto, u(x) = A √1 ln x, que não é finita em
x x
x = 0, exceto no caso trivial em que A = 0. Logo, o problema tratado não tem solução para nenhum
auto-valor.
12.E Demonstração do Teorema 12.3

De acordo com (12.71),
Z b Z b
λ 2
|u(x)| r(x) dx = |u′(x)|2 p(x) − |u(x)|2q(x) dx
a a
h i
′ ′
+ p(a) Re u(a)u (a) − p(b) Re u(b)u (b) . (12.E.15)
Afirmamos que existem constantes γ1 e γ2 , independentes de u, tais que

′
p(a) Re u(a)u (a) = γ1 |u(a)|2 (12.E.16)
e
p(b) Re u(b)u′ (b) = −γ2 |u(b)|2 . (12.E.17)
A demonstração é a seguinte. A função u satisfaz no ponto a
α1 u(a) + α2 u′(a) = 0 .
Vamos primeiro supor que α2 6= 0. Tomando-se o complexo conjugado e multiplicando-se a expressão

por u(a) obtem-se
α1
u′(a)u(a) = − |u(a)|2 ,
α2
ou seja, α1
Re u′(a)u(a) = − |u(a)|2 .
α2
α1
Nesse caso, então, tomamos γ1 = −p(a) α2 .
Caso α2 = 0, a relação α1 u(a) + α2 u′ (a) = 0 diz-nos que u(a) = 0. Daı́, é evidente que

′
p(a) Re u(a)u (a) = γ1 |u(a)|2 ,
para qualquer constante γ1 , pois ambos os lados são nulos. Isso provou (12.E.16). A demonstração de
(12.E.17) é análoga, escolhendo-se γ2 = +p(b) ββ21 , caso β2 6= 0.
Inserindo (12.E.16) e (12.E.17) em (12.E.15) tem-se
Z b Z b

λ 2
|u(x)| r(x) dx = |u′(x)|2 p(x) − |u(x)|2q(x) dx + γ1 |u(a)|2 + γ2 |u(b)|2 . (12.E.18)
a a
Essa última expressão será nosso ponto de partida para mostrar que os auto-valores λ são limitados
inferiormente, ou seja, que existe uma constante M ∈ R tal que λ ≥ M.
Note-se que γ1 e γ2 são números reais que tanto podem ser positivos quanto negativos. Vamos
considerar os quatro casos possı́veis: 1. γ1 ≥ 0 e γ2 ≥ 0; 2. γ1 < 0 e γ2 ≥ 0; 3. γ1 ≥ 0 e γ2 < 0; 4.
γ1 < 0 e γ2 < 0.
Caso 1. γ1 ≥ 0 e γ2 ≥ 0.
Nesse caso tem-se de (12.E.18) que
Z b Z b
2
λ |u(x)| r(x) dx ≥ − |u(x)|2q(x) dx ,
a a
Rb
pois γ1 |u(a)|2 + γ2 |u(b)|2 ≥ 0 e|u′(x)|2 p(x)dx ≥ 0, pois p(x) > 0. Logo,
a
Z b Z b
2 2 q(x)
|u(x)| q(x) dx |u(x)| − r(x) dx
a a r(x)
λ ≥ −Z b = Z b . (12.E.19)
2 2
|u(x)| r(x) dx |u(x)| r(x) dx
a a
Sejam agora
Q = max q(x), R1 = max r(x), e R2 = min r(x) .
x∈[a, b] x∈[a, b] x∈[a, b]
Lembrando que r(x) > 0 para todo x ∈ [a, b], teremos

q(x) Q
− ≥ − .
r(x) r(x)
Se Q = 0 concluı́mos que
q(x)
− ≥ 0.
r(x)
Se Q < 0, concluı́mos que
q(x) Q
− ≥ − .
r(x) R1
Se Q > 0, teremos
q(x) Q
− ≥ − .
r(x) R2
E. 12.35 Exercı́cio. Justifique cuidadosamente as desigualdades acima. 6
Em resumo, 



 0, se Q = 0


q(x) 
Q
− ≥ B := − , se Q < 0 . (12.E.20)
r(x) 
 R1



 − Q , se Q > 0

R2
Retornando a (12.E.19)
Z b
|u(x)|2 Br(x) dx
λ ≥ Za b
= B,
2
|u(x)| r(x) dx
a
onde B está definida em (12.E.20). Adotando M = B para esse caso, obtemos o que se queria provar.
Caso 2. γ1 < 0 e γ2 ≥ 0.
Nesse caso tem-se de (12.E.18) que
Z b Z b

λ 2
|u(x)| r(x) dx ≥ |u′ (x)|2 p(x) − |u(x)|2 q(x) dx + γ1 |u(a)|2 , (12.E.21)
a a
pois γ2 |u(b)|2 ≥ 0.
No Apêndice 12.F, página 736, demonstramos a seguinte desigualdade, válida para todo x ∈ [a, b]
e todo ǫ > 0: Z b Z b
2 ′ 2
|u(x)| ≤ ǫ |u (y)| dy + ξ(ǫ) |u(y)|2r(y) dy , (12.E.22)
a a
onde
1 1 1
ξ(ǫ) = + ,
R2 b−a ǫ
R2 sendo definido como acima: R2 = min r(x).
x∈[a, b]
Tomando x = a, temos
Z b Z b
2 ′ 2
γ1 |u(a)| ≥ γ1 ǫ |u (y)| dy + γ1 ξ(ǫ) |u(y)|2r(y) dy ,
a a
sendo que a desigualdade se inverteu pois γ1 < 0, por hipótese. Inserindo isso em (12.E.21), tem-se
Z b Z b Z b
2 ′ 2
λ |u(x)| r(x) dx ≥ (p(x) + γ1 ǫ) |u (x)| dx + (γ1 ξ(ǫ)r(x) − q(x)) |u(x)|2 dx .
a a a
Até agora não fixamos o valor de ǫ. Vamos agora escolhê-lo pequeno o suficiente de modo que
p(x) + γ1 ǫ ≥ 0 ,
para todo x ∈ [a, b]. Isso é sempre possı́vel, pois, por hipótese p(x) > 0 para todo x ∈ [a, b]. Com
Rb
essa escolha a integral a (p(x) + γ1 ǫ) |u′(x)|2 dx é positiva e podemos escrever
Z b Z b Z b
2 q(x)
2
λ |u(x)| r(x) dx ≥ (γ1 ξ(ǫ)r(x) − q(x)) |u(x)| dx = γ1 ξ(ǫ) − |u(x)|2 r(x) dx .
a a a r(x)
Com o uso de (12.E.20) isso fica
Z b Z b
2
λ |u(x)| r(x) dx ≥ (γ1 ξ(ǫ) + B) |u(x)|2 r(x) dx ,
a a
o que implica
λ ≥ (γ1 ξ(ǫ) + B) .
Adotando-se M = (γ1 ξ(ǫ) + B) para esse caso, obtemos que querı́amos provar.
Caso 3. γ1 ≥ 0 e γ2 < 0.
Esse caso é totalmente análogo ao caso 2, e não precisa ser considerado em detalhe.
Caso 4. γ1 < 0 e γ2 < 0.
Esse caso é também análogo ao caso 2, mas trataremos dos detalhes. De (12.E.18) temos
Z b Z b

λ 2
|u(x)| r(x) dx ≥ |u′ (x)|2 p(x) − |u(x)|2 q(x) dx + γ1 |u(a)|2 + γ2 |u(b)|2 . (12.E.23)
a a
Usando novamente a desigualdade (12.E.22) para x = a e x = b, temos

Z b Z b
2 2 ′ 2
γ1 |u(a)| + γ2 |u(b)| ≥ (γ1 + γ2 )ǫ |u (y)| dy + (γ1 + γ2 )ξ(ǫ) |u(y)|2r(y) dy,
a a
sendo que a desigualdade se inverteu pois γ1 < 0 e γ2 < 0, por hipótese. Inserindo isso em (12.E.21),
tem-se
Z b Z b Z b
2 ′ 2
λ |u(x)| r(x) dx ≥ (p(x) + (γ1 + γ2 )ǫ) |u (x)| dx + ((γ1 + γ2 )ξ(ǫ)r(x) − q(x)) |u(x)|2 dx.
a a a
Até agora não fixamos o valor de ǫ. Vamos agora escolhê-lo pequeno o suficiente de modo que
p(x) + (γ1 + γ2 )ǫ ≥ 0 ,
para todo x ∈ [a, b]. Isso é sempre possı́vel, pois, por hipótese p(x) > 0 para todo x ∈ [a, b]. Com
Rb
essa escolha a integral a (p(x) + (γ1 + γ2 )ǫ) |u′(x)|2 dx é positiva e podemos escrever
Z b Z b
2
λ |u(x)| r(x) dx ≥ ((γ1 + γ2 )ξ(ǫ)r(x) − q(x)) |u(x)|2 dx
a a
Z b
q(x)
= (γ1 + γ2 )ξ(ǫ) − |u(x)|2 r(x) dx.
a r(x)
Com o uso de (12.E.20) isso fica
Z b Z b
2
λ |u(x)| r(x) dx ≥ ((γ1 + γ2 )ξ(ǫ) + B) |u(x)|2 r(x) dx ,
a a
o que implica
λ ≥ ((γ1 + γ2 )ξ(ǫ) + B) .
Adotando-se M = ((γ1 + γ2 )ξ(ǫ) + B) para esse caso, isto é o que querı́amos provar.
Com isso a demonstração do Teorema 12.3 está completa.
12.F Prova da Desigualdade (12.E.22)

Seja u uma função qualquer duas vezes diferenciável definida em [a, b]. Sejam x ∈ [a, b] e x0 ∈ [a, b].
Tem-se Z x
2 2
′
|u(x)| = |u(x0 )| + |u(y)|2 dy .
x0
Portanto, tem-se, para quaisquer x, x0 ∈ [a, b],

Z x

2 ′

|u(x)| ≤ |u(x0 )| +
2 2
|u(y)| dy .
x0
Agora,
Z x Z x ′ Z x Z x

2 ′ ′
|u(y)| dy = u(y)u(y) dy = u′(y)u(y) + u(y)u (y) dy = 2 Re u′(y)u(y) dy .
x0 x0 x0 x0
Assim, Z
x
|u(x)| ≤ |u(x0 )| + 2 Re
2 2
u′ (y)u(y) dy .
x0
Para qualquer número complexo z, vale |Re(z)| ≤ |z|. Logo,

Z x Z x

Re u ′ (y)u(y) dy ≤ u ′ (y)u(y) dy .

x0 x0
Pela desigualdade de Cauchy-Schwarz,

Z x Z x
1/2 Z x
1/2

u (y)u(y) dy ≤
′ |u (y)| dy
′ 2
|u(y)| dy 2
.

x0 x0 x0
Conseqüentemente, juntando as duas últimas desigualdades,

Z x 1/2 Z x
1/2

2 2
|u(x)| ≤ |u(x0 )| + 2 |u(y)| dy
2 |u (y)| dy
′ 2
.

x0 x0
Como x e x0 são elementos de [a, b] é também óbvio que

Z x Z b

|u(y)| dy ≤
2
|u(y)|2 dy

x0 a
e que Z Z b
x
′ 2
|u (y)| dy ≤ |u′(y)|2 dy ,

x0 a
já que ao passarmos de uma integral em [x0 , x] a uma integral em [a, b] estamos em geral aumentando
o intervalo de integração e, em ambos os casos, o integrando é positivo.
Assim,
Z b 1/2 Z b 1/2
2 2 2 ′ 2
|u(x)| ≤ |u(x0 )| + 2 |u(y)| dy |u (y)| dy .
a a
Para qualquer ǫ > 0 isso pode ser reescrito como

Z b 1/2 Z b 1/2
2 2 1 2 ′ 2
|u(x)| ≤ |u(x0 )| + 2 |u(y)| dy ǫ |u (y)| dy . (12.F.24)
ǫ a a
√ √ 2
Se A e B são dois números positivos, é fácil provar a partir de A− B ≥ 0, que
√ √
2 A B ≤ A+B .
Rb Rb
Usando isso em (12.F.24) com A = 1ǫ a |u(y)|2 dy e B = ǫ a |u′ (y)|2 dy, tem-se
Z b Z b
1
2
|u(x)| ≤ |u(x0 )| + 2
|u(y)| dy + ǫ 2
|u′ (y)|2 dy . (12.F.25)
ǫ a a
Até aqui x0 era um ponto arbitrário do intervalo [a, b]. Vamos escolhê-lo agora de modo que x0 seja
o ponto onde |u(x)| assume seu menor valor nesse intervalo: |u(x0 )| = min |u(x)|. Um tal ponto x0
x∈[a, b]
sempre existe, pois |u(x)| é contı́nua e [a, b] é um intervalo compacto. Com isso teremos, obviamente,
Z b
|u(y)|2 dy ≥ (b − a)|u(x0 )|2 ,
a
ou seja, Z b
1 2
|u(x0 )| ≤ |u(y)|2 dy .
b−a a
Inserindo isso em (12.F.25), ficamos com

Z b Z b
2 ′ 2 1 1
|u(x)| ≤ ǫ |u (y)| dy + + |u(y)|2 dy . (12.F.26)
a b−a ǫ a
Seja agora r uma função contı́nua qualquer definida em [a, b] com r(y) > 0 para todo y ∈ [a, b].
r(y)
Definindo-se como antes R2 = min r(y) teremos ≥ 1 , para todo y ∈ [a, b]. Inserindo isso na
y∈[a, b] R2
segunda integral de (12.F.26), aquela expressão fica
Z b Z b
2 ′ 2 1 1 1
|u(x)| ≤ ǫ |u (y)| dy + + |u(y)|2r(y) dy . (12.F.27)
a R2 b − a ǫ a
Isso é a desigualdade (12.E.22), que querı́amos provar.

Capı́tulo 13
Alguns Resultados sobre Equações Integrais
Conteúdo
13.1 Descrição . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 739
13.2 O Método dos Determinantes de Fredholm . . . . . . . . . . . . . . . . . . 741
13.2.1 A Equação Integral de Fredholm Linear Não-Homogênea . . . . . . . . . . . . 741
13.2.2 A Equação Integral de Fredholm Linear Homogênea . . . . . . . . . . . . . . 746
Apêndices . . . . . . . . . . . . . . . . . . . . 750
13.A Obtendo os Determinantes de Fredholm . . . . . . . . . . . . . . . . . . . . 750
A teoria das equações diferenciais ordinárias depende, sob diversos aspectos, de resultados
procedentes da teoria das equações integrais. Tal fato é notável na demonstração do Teorema
de Picard-Lindelöff, Teorema 5.2, página 297, que garante condições de existência e unicidade
para equações diferenciais ordinárias, e cuja demonstração, apresentada na Seção 18, página
994 (vide Teorema 18.4, página 1015), envolve um procedimento iterativo de resolução de uma equação
integral do tipo de Volterra. Além do seu interesse intrı́nseco, essa relação estreita com equações
diferenciais ordinárias é o principal motivo para o estudo de equações integrais.
Equações integrais diferem de equações diferenciais por envolverem integrais, e não derivadas, de
uma função incógnita. Certas equações integrais são diretamente relacionadas a problemas de valor
inicial o problemas de contorno de equações diferenciais ordinárias, notadamente as equações de in-
tegrais de Fredholm1 e de Volterra2 . Nesta breve introdução às equações integrais apresentaremos
as definições básicas e discutiremos com certo detalhe o tratamento de equações integrais lineares de
Fredholm usando o chamado método dos determinantes de Fredholm. Métodos iterativos para a re-
solução de equações integrais de Fredholm e de Volterra serão apresentados no Capı́tulo 18, página 994.
Vide para tal especialmente a Seção 18.3, página 1005.
A existência de métodos itarativos para a resolução de equações integrais (e, portanto, das equações
diferenciais a elas eventualmente associadas) reveste-se de interesse prático por ser um atrativo à re-
solução numérica de tais problemas. Históricamente o estudo de equações integrais foi de grande im-
portância, tendo engendrado diversos desenvolvimentos na Matemática, como o nascimento da Análise
Funcional no inı́cio do Século XX.
Alguns fatos essenciais sobre as equações integrais de Fredholm e de Volterra podem ser encontrados
em [153]. Para um estudo mais detalhado, vide [144] e, em especial para a equação integral de Volterra,
vide [102]. Passemos às principais definições.
1
2
738
13.1 Descrição
Dada uma função de três variáveis K : [a, b] × [a, b] × C → C e uma função de uma variável
f : [a, b] → C, a expressão
Z b

K x, y, u(y) dy = f (x) (13.1)
a
define uma equação denominada equação integral de Fredholm de primeiro tipo para a função incógnita
u. A expressão Z b

u(x) = f (x) + K x, y, u(y) dy (13.2)
a
define uma equação denominada equação integral de Fredholm de segundo tipo para a função incógnita
u. As equações de segundo tipo são freqüentente denominadas simplesmente equações integrais de
Fredholm, pois são mais comuns que a de primeiro tipo.
A expressão Z x
K x, y, u(y) dy = f (x) (13.3)
a
define uma equação denominada equação integral de Volterra de primeiro tipo para a função incógnita
u. A expressão Z x

u(x) = f (x) + K x, y, u(y) dy (13.4)
a
define uma equação denominada equação integral de Volterra de segundo tipo para a função incógnita
u. As equações de segundo tipo são freqüentente denominadas simplesmente equações integrais de
Volterra, pois são mais comuns que a de primeiro tipo.
Note-se que as equações de Volterra diferem das de Fredholm pois o limite de integração é variável.
Assim, as equações de Volterra são um caso particular das de Fredholm para funções K que satisfazem
K(x, y, u) = 0 sempre que y > x.
Nos vários casos de acima a equação é dita ser linear se K(x, y, u) for linear em u, ou seja, se for
da forma K(x, y, u) = k(x, y)u. A equação é dita ser homogênea se f for identicamente nula.
Em muitas situações o intervalo [a, b] pode ser substituido pelo intervalo infinito R ou por um
intervalo semi-infinito, como R+ . Hipóteses a respeito das funções K e f são por vezes necessárias para
que as equações façam sentido ou para garantir existência e/ou unicidade de solução. Por exemplo, as
diversas equações acima não farão sentido se K não for integrável em y no intervalo [a, b]. Analoga-
mente, é preciso definir precisamente em que sentido uma solução u é procurada, se em todo ponto x
do intervalo [a, b] ou de R – em cujo caso falamos de soluções clássicas da equação integral – ou se a
solução é procurada, por exemplo, entre as funções de quadrado integrável ou em um espaço de Banach
conveniente ao problema considerado.
Como dissemos, algumas equações integrais são fortemente relacionadas a problemas de equações
diferenciais ordinárias. Seja, por exemplo, a equação diferencial de primeira ordem ẏ(t) = F (t, y(t))
com a condição inicial y(0) = y0 . Integrando ambos os lados da equação de 0 e t, obtemos
Z t
y(t) = y0 + F (τ, y(τ ))dτ ,
0
que é uma equação integral de Volterra de segundo tipo para a função y(t). No Capı́tulo 12, página 688,
vemos que o chamado problema de Sturm-Liouville, um problema de equações diferenciais ordinárias
de segunda ordem envolvendo condições de contorno nos extremos de um intervalo [a, b], pode ser
transformado em um problema envolvendo uma equação integral de Fredholm linear de segundo tipo.
Sob hipóteses adequadas as equações integrais de Fredholm lineares de segundo tipo podem ser
resolvidas por um método denominado método dos determinantes de Fredholm, o qual apresentamos
na Seção 13.2, página 741. As equações de Volterra de segundo tipo (assim como certas equações de
Fredholm de segundo tipo) podem ser resolvidas por métodos iterativos. Tais desenvolvimentos serão
estudados no Capı́tulo 18, página 994. Vide para tal especialmente a Seção 18.3, página 1005.
• Relação entre equações de Volterra lineares de primeiro e segundo tipo
Façamos aqui brevemente a observação que, sob certas hipóteses, uma equação de Volterra linear
de primeiro tipo pode ser transformada em uma equação de Volterra linear de segundo tipo e tratada,
então, pelos métodos iterativos disponı́veis para a resolução daquelas equações. De fato, seja a equação
de Volterra linear de primeiro tipo
Z x
k(x, y)u(y) dy = f (x) . (13.5)
a
Diferenciando-se essa expressão em relação a x, obtem-se

Z x
k(x, x)u(x) + kx (x, y)u(x) dy = f ′ (x) .
a
A validade dessa expressão pressupõe que f seja diferenciável, assim como pressupõe que k(x, y) seja
diferenciável em relação a x. Se k(x, x) não se anular em algum ponto da região de interesse, teremos
Z x
f ′ (x) kx (x, y)
u(x) = − u(x) dy ,
k(x, x) a k(x, x)
que é uma equação de Volterra linear de segundo tipo. Caso k(x, x) anule-se em algum ponto da região
de interesse temos uma equação singular que merece tratamento especial. Vide [144] para referências
sobre essa situação.
Um segundo procedimento para transformar a equação
R x de Volterra linear de primeiro tipo (13.5)
em uma de segundo tipo é o seguinte. Defina-se v(x) := a u(s)ds. Então, por integração por partes,
o lado esquerdo de (13.5), fica
Z x Z x Z x
dv
k(x, y) u(y) dy = k(x, y) (y) dy = k(x, x)v(x) − ky (x, y)v(y) dy ,
a a dy a
pois v(a) = 0. A equação fica

Z x
f (x) ky (x, y)
v(x) = + v(y) dy ,
k(x, x) a k(x, x)
que é uma equação integral de Volterra linear de segundo tipo para v. Uma vez obtida a solução
desta equação a função u é obtida derivando-se o resultado. Note-se que por esse proceder precisamos
novamente supor que k(x, y) é diferenciável em relação a y, que k(x, x) não se anula e que f (x)/k(x, x)
é diferenciável.
13.2 O Método dos Determinantes de Fredholm

Vamos nesta seção apresentar a teoria de Fredholm para o tratamento das equações integrais de
Fredholm lineares. Historicamante, o trabalho de Fredholm precedeu o estudo de Hilbert daquelas
equações integrais, trabalho esse que levou ao desenvolvimento da teorias dos espaços de Hilbert e dos
operadores compactos. Apesar de superado pelo de Hilbert, o tratamento de Fredholm é de interesse,
pois envolve um método de solução explı́cita das equações integrais de Fredholm em termos de uma série
envolvendo determinantes de certas matrizes construı́das com o núcleo k(x, y). Esses determinantes
passaram a ser conhecidos como determinantes de Fredholm.
Iniciaremos nossa exposição considerando a equação de integral de Fredholm linear não-homogênea.
13.2.1 A Equação Integral de Fredholm Linear Não-Homogênea

Consideremos a equação integral de Fredholm linear e não-homogênea definida em um intervalo com-
pacto [a, b] ⊂ R
Z b
u(x) = f (x) + λ k(x, y) u(y) dy , (13.6)
a
f : [a, b] → C e k : [a, b] × [a, b] → C sendo ambas contı́nuas. A função k é denominada núcleo da
equação integral.
Xn
Vamos supor que k seja da forma k(x, y) = al (x)bl (y), as funções al e bl sendo igualmente
l=1
contı́nuas em [a, b]. Esse tipo de núcleo é denominado por alguns autores núcleo de Pincherle-Gousat3 .
A equação (13.6) assume a forma
n
X
u(x) = f (x) + λ al (x)hbl , ui , (13.7)
l=1
Rb
onde, para funções contı́nuas g e h, definimos hg, hi := a
g(y)h(y) dy.
Multiplicando a última expressão por bm (x) e integrando em [a, b], ficamos com
n
X
hbm , ui = hbm , f i + λ hbm , al ihbl , ui ,
l=1
ou seja,
n
X
hbm , ui − λ hbm , al ihbl , ui = hbm , f i ,
l=1
que deve ser encarada como um sistema linear de equações para as quantidades hbj , ui. Isso talvez
fique mais transparente definindo-se xj ≡ hbj , ui, yj ≡ hbj , f i e kij ≡ hbi , aj i, i, j = 1, . . . , n, com o
que a equação acima fica
n
X
xm − λ kml xl = ym , ou seja, (1 − λk)x = y ,
l=1
3
Salvatore Pincherle (1853-1936). Edouard Jean-Baptiste Goursat (1858-1936).
x1 y1
.
sendo x = .. , y = ... e k sendo a matriz formada pelos elementos kij . A solução dessa equação
xn yn
em forma matricial é x = (1 − λk)−1 y, caso a inversa de 1 − λk exista (o que será encarado como uma
restrição para λ).
Vamos agora cuidar de encontrar uma forma conveniente de expressar essa relação com uso da
regra de Laplace, expressão (3.11), página 157, para o cálculo de inversa de matrizes: para uma matriz
invertı́vel A vale
Men(A)ji
A−1 ij = (−1)i+j , (13.8)
det(A)
onde Men(A)ij é o determinante da matriz (n − 1) × (n − 1) obtida eliminando-se a i-ésima linha e a
j-ésima coluna da matriz A. (A matriz Men(A) é por vezes denominada matriz dos menores de A).
Temos que assim que
n
X X n
1
xi = (1 − λk)−1 yj = (−1)i+j yj Men(1 − λk)ji .
j=1
ij det(1 − λk) j=1
Pn
Por (13.7), a solução u(x) é dada por u(x) = f (x) + λ l=1 al (x)xl e, assim,
XX n n
λ
u(x) = f (x) + (−1)l+j yj Men(1 − λk)jl al (x) .
det(1 − λk) l=1 j=1
Portanto, Z b
u(x) = f (x) + λ Kn (x, y; λ)f (y) dy , (13.9)
a
onde n n
1 XX
Kn (x, y; λ) := (−1)l+j bj (y)Men(1 − λk)jl al (x) . (13.10)
det(1 − λk) l=1 j=1
É bastante claro pelas expressões acima que Kn (x, y; λ) é a razão de dois polinômios em λ. Mais
especificamente, vale para Kn (x, y; λ) a seguinte expressão
Kn (x, y; λ) =
   
  k(x, y) k(x, y1 ) · · · k(x, ym )  
   
   
 Z Z   
1  n−1
X (−λ) m b b  k(y1 , y) k(y1 , y1 ) · · · k(y1 , ym )  
k(x, y) + · · · det   dy1 · · · dym 
det(1 − λk) 
 m=1
m! a a

 .. .. .. 



  . . .  
   
   
k(ym , y) k(ym , y1 ) · · · k(ym , ym )
(13.11)
onde
 
 k(y1 , y1 ) · · · k(y1 , ym ) 
n
X Z Z  
(−λ)m b b  . . 
det(1 − λk) = 1 + ··· 
det  .. ..  dy1 · · · dym .
 (13.12)
m=1
m! a a  
 
k(ym , y1 ) · · · k(ym , ym )
Os determinantes que aparecem nas duas expressões acima são denominados determinantes de
Fredholm e as expressões acima são denominadas fórmulas dos determinantes de Fredholm, em honra a
seu descobridor. Suas demonstrações que, infelizmente, são bastante complexas, podem ser encontradas
em toda sua glória no Apêndice 13.A, página 750.
Resumindo nossas conclusões até aqui, vimos que a solução da equação de Fredholm linear não-
X n
homogênea (13.6) para núcleos k na forma de uma soma finita k(x, y) = al (x)bl (y), as funções al
l=1
e bl sendo contı́nuas em [a, b], é dada por
Z b
u(x) = f (x) + λ Kn (x, y; λ)f (y) dy , (13.13)
a
com Kn definida em (13.11) e (13.12).
A questão importante que se coloca agora é saber se podemos tomar o limite n → ∞ nas expressões
∞
X
acima, obtendo soluções de (13.6) para núcleos da forma k(x, y) = al (x)bl (y), supondo que essa
l=1
série seja uniformemente convergente e que, como acima, as funções al e bl sejam todas contı́nuas.
A resposta a essa questão é obtida primeiramente mostrando que, sob as hipóteses acima, os limites
n → ∞ de (13.11) e de (13.12) existem e, em seguida, provando que a expressão obtida tomando-se
o limite n → ∞ no lado direito de (13.13) é, de fato, uma solução da equação (13.6). Para a prova
de convergência necessitamos de uma boa estimativa para o crescimento com n de determinantes de
matrizes n × n e a estimativa que se faz útil é a estimativa de Hadamard4 , equação (3.99), enunciada
no Teorema 3.28, página 232: para toda matriz A ∈ Mat (C, n) vale
n
n/2
| det(A)| ≤ n max |Aij | .
ij
Como k(x, y) é contı́nua em [a, b] × [a, b], por hipótese, então seu módulo possui um máximo k0 ≥ 0.
Com uso da estimativa de Hadamard, concluı́mos de (13.12) que
Xn
|(b − a)k0 λ|m m/2
| det(1 − λk)| ≤ m .
m=0
m!
Pelo critério da razão, o limite n → ∞ convergirá se |am+1 /am | < 1 para todo m grande o suficiente,
m
sendo am = |(b−a)km!
0 λ|
mm/2 . Agora,

1 m/2
am+1 1 +
m
am ≤ |(b − a)k0 λ| (m + 1)1/2 .
4
Jacques Salomon Hadamard (1865-1963).
m √
1
Como lim 1 + = e, o lado direito aproxima-se de |(b − a)k0 λ| (m+1)e 1/2 para m grande. Segue,
m→∞ m
portanto, que lim |am+1 /am | = 0 para todo λ ∈ C.
m→∞
Concluı́mos que, para todo λ ∈ C, o limite lim det(1 − λk) existe e define uma função inteira (ou
n→∞
seja, analı́tica em toda parte) de λ ∈ C. Essa função é tradicionalmente denotada por D(λ):
 
 k(y1 , y1 ) · · · k(y1 , ym ) 
∞ Z Z  
X (−λ) m b b  
D(λ) := 1 + ··· det  .
. .
.  dy1 · · · dym . (13.14)
m!  . . 
m=1 a a  
 
k(ym , y1 ) · · · k(ym , ym )
De forma totalmente análoga prova-se a convergência absoluta para todo λ ∈ C da soma do lado
direito de (13.11). Assim,
 
 k(x, y) k(x, y1 ) · · · k(x, ym ) 
 
 
∞ m Z b Z b
 k(y , y) k(y , y ) · · · k(y , y ) 
X (−λ)  1 1 1 1 m 
D(x, y; λ) := k(x, y)+ · · · det 

 dy1 · · · dym ,

m=1
m! a a  .
. .
. .
. 
 . . . 
 
 
k(ym , y) k(ym , y1 ) · · · k(ym , ym )
(13.15)
existe e é uma função inteira de λ ∈ C, Portanto, para K(x, y; λ) = lim Kn (x, y; λ), tem-se
n→∞
D(x, y; λ)
K(x, y; λ) = ,
D(λ)
que é uma função meromórfica de λ ∈ C (ou seja, é a razão de duas funções inteiras de λ), definida
para todo λ ∈ C com D(λ) 6= 0.
Com essa expressão, somos estimulados a crer que a solução da equação de Fredholm não-homogênea
X∞
(13.6) para k(x, y) = al (x)bl (y), supondo que essa série seja uniformemente convergente e que as
l=1
funções al e bl sejam todas contı́nuas, seja dada por (vide (13.13))
Z b
λ
u(x) = f (x) + D(x, y; λ)f (y) dy . (13.16)
D(λ) a
Note que a expressão acima não está definida nos pontos λ ∈ C em que D(λ) = 0. Como D é uma
função inteira, esses pontos formam um conjunto discreto. Que de fato essa é a solução procurada
será conseqüência do próximo lema, o qual também será empregado de forma importante mais adiante
quando tratarmos da equação de Fredholm linear e homogênea (Seção 13.2.2, página 746).
Lema 13.1 Com as definições acima, valem

Z b
D(x, y; λ) = D(λ)k(x, y) + λ k(x, z)D(z, y; λ) dz (13.17)
a
e Z b
D(x, y; λ) = D(λ)k(x, y) + λ D(x, z; λ)k(z, y) dz . (13.18)
a
Essas relações são denominadas relações de reciprocidade entre os núcleos k e D. Além disso, vale
Z b
dD
(λ) = − D(z, z; λ) dz . (13.19)
dλ a
2
Prova. A prova de (13.17) é imediata se expandirmos os determinantes que ocorrem em (13.15) em

relação à primeira linha (expressão (3.12), página 158). Os coeficientes podem ser identificados sem
dificuldades, usando novamente (13.15) e (13.14), após trocas convenientes das linhas das matrizes
menores que ocorrem na expansão. A prova de (13.18) segue a mesma idéia, mas fazendo-se a expansão
dos determinantes que ocorrem em (13.15) em relação à primeira coluna (expressão (3.13), página 158).
A relação (13.19) pode ser provada sem dificuldades calculando-se o lado esquerdo com uso de (13.14)
e o lado direito com uso de (13.15) e comparando-se as expressões assim obtidas.
Podemos agora provar que o lado direito de (13.16) é solução de (13.6). Escrevendo (13.16) como
λ
Rb
u(z) = f (z) + D(λ) a
D(z, y; λ)f (y) dy, multiplicando ambos os lados por λk(x, z), integrando em z
e somando f (x), temos
Z b Z b Z bZ b
λ2
f (x) + λ k(x, z)u(z)dz = f (x) + λ k(x, z)f (z)dz + k(x, z)D(z, y; λ)f (y)dydz
a a D(λ) a a
Z b
(13.17)
= f (x) + λ k(x, z)f (z) dz
a
Z b
λ
+ D(x, y; λ) − D(λ)k(x, y) f (y) dy
D(λ) a
Z b
λ
= f (x) + D(x, y; λ)f (y) dy
D(λ) a
= u(x) ,
provando que u satisfaz (13.6).
∞
X
Devemos notar ainda que a forma k(x, y) = al (x)bl (y) é bastante geral. Toda função de duas
l=1
variáveis reais, contı́nua em [a, b] × [a, b], pode ser escrita assim para uma escolha conveniente de
al ’s e bl ’s contı́nuas e de modo que a série convirja uniformemente. Por exemplo, al ’s e bl ’s podem ser
tomados como polinômios ortonormais em algum espaço de funções de quadrado integrável em [a, b].
13.2.2 A Equação Integral de Fredholm Linear Homogênea

Para o problema de Sturm-Liouville nosso interesse concentra-se na equação integral de Fredholm linear
homogênea Z b
u(x) = λ k(x, y) u(y) dy , (13.20)
a
k : [a, b] × [a, b] → C contı́nua. Claramente, trata-se da equação (13.6) para o caso em que f é
identicamente nula. Ora, a solução de (13.6) foi obtida em (13.16) e nela vemos que, caso λ seja tal
que D(λ) 6= 0, então a única solução para f ≡ 0 é a solução identicamente nula. Concluı́mos que se λ
for tal que a equação integral de Fredholm homogênea possui solução não-nula, então D(λ) = 0. Isso
limita o conjunto de valores possı́veis de λ ao conjunto de zeros da função inteira D(λ), conjunto esse
que passa a ter importância significativa na teoria de Fredholm.
Como vimos, (13.16) não fornece a solução nesse caso (apenas a solução trivial), mas a chave da
solução encontra-se nas equações (13.17) e (13.19).
Seja λn um zero de ordem qn ≥ 1 de D(λ) em C. Como D(λ) e D(x, y; λ) são analı́ticas em toda
parte como funções de λ, valem as expansões de Taylor (absolutamente convergentes para |λ − λn |
suficientemente pequeno),
∞
X ∞
X
D(λ) = am (λ − λn )m , D(x, y; λ) = dm (x, y)(λ − λn )m ,
m=qn m=pn
com pn ≥ 0 e aqn 6= 0. Agora, por (13.19), tem-se

∞
X ∞ Z
X b
m
(m + 1)am+1 (λ − λn ) = − dm (z, z) dz (λ − λn )m ,
m=qn −1 m=pn a
de onde se conclui que pn = qn − 1 e, em particular, que

Z b
qn aqn = − dqn −1 (z, z) dz . (13.21)
a
O fato de pn = qn − 1 diz-nos que K(x, y; λ) = D(x, y; λ)/D(λ) tem um pólo de ordem 1 em

λ = λn . Agora, escrevendo (13.17) na forma
Z b Z b
K(x, y; λ) = k(x, y) + k(x, z)(λ − λn )K(z, y; λ) dz + λn k(x, z)K(z, y; λ) dz ,
a a
constatamos que os dois primeiros termos do lado direito são analı́ticos em λ = λn , enquanto que o
lado esquerdo e o último termo do lado direito têm um pólo de ordem 1 nesse ponto. Calculando os
resı́duos de ambos os lados, concluı́mos que a função
1

wn (x, y) := Res K(x, y; λ) = dq −1 (x, y)
λ=λn aqn n
satisfaz Z b
wn (x, y) = λn k(x, z)wn (z, y) dz .
a
Portanto, para um y fixo, a função wn (x, y) é uma solução da equação de Fredholm linear homogênea
com auto-valor λn . Note que dqn−1 (x, y) não pode ser identicamente nula, devido a (13.21) e ao fato
que aqn 6= 0, por hipótese.
Em resumo, as soluções da equação de Fredholm linear homogênea com λ = λn , para cada λn que
satisfaça D(λn ) = 0, são obtidas do primeiro coeficiente não-nulo da expansão de Taylor de D(z, y; λ)
em torno de λn .
• Nota histórica sobre o problema de Fredholm
O tratamento que apresentamos acima, no qual se obtem a solução Pn (13.16) da equação não-
homogênea (13.6), primeiramente para núcleos da forma k(x, y) = l=1 al (x)bl (y) e depois tomando
o limite n → ∞, é originalmente devido a Goursat5 . Em seu trabalho original, Fredholm seguira uma
estratégia ligeiramente distinta6 , primeiro discretizando a equação (13.6), transformando a integral em
uma soma de Riemann, em seguida resolvendo o sistema linear correspondente (quando então surgem
os determinantes) e, por fim, recuperando o limite do contı́nuo. Os passos de Fredholm podem ser
acompanhados na exposição de [153]. Esses desenvolvimentos culminaram com os trabalhos de Hilbert
e Schmidt7 , entre 1904 e 1910, sobre a equação de Fredholm linear homogênea, levando ao nascimento
das noções de espaços de Hilbert e de operadores compactos.
Em teoria, método de Fredholm descrito acima fornece as soluções desejadas, tanto no caso linear
não-homogêneo quanto no linear homogêneo, mas na prática há grandes dificuldades, tanto numéricas
quanto analı́ticas, em lidar com a série de determinantes e suas expansões em série de Taylor, o que di-
ficulta tanto a solução numérica de equações por esse método quanto o estudo abstrato de propriedades
de suas soluções e dos auto-valores. Por isso, o método de Fredholm acabou substituı́do pelos métodos
analı́tico-funcionais provenientes dos trabalhos de Hilbert, Schmidt e outros. Mais sobre isso será estu-
dado no Capı́tulo 26, página 1249, quando desenvolvermos a teoria dos operadores compactos (Seção
26.6, página 1339). Independente disso, os trabalhos de Hilbert e colaboradores engendraram uma
série de desenvolvimentos que alcançaram de modo marcante a Fı́sica quando do advento da Mecânica
Quântica, levando também ao nascimento da Análise Funcional e das Álgebras de Operadores, áreas
de grande importância na Matemática. Para uma história da Análise Funcional, vide [35].
5
Edouard Jean-Baptiste Goursat (1858-1936). O mencionado trabalho de Goursat é “Sur um cas élémentaire de
l’equation de Fredholm”. Bull. Soc. math. France, vol. 35, 163-173 (1907).
6
Erik Ivar Fredholm (1866-1927). O mencionado trabalho de Fredholm é “Sur une class d’equations fonctionelles”,
Acta Math. 27, 365-390 (1903).
7

E. 13.1 Exercı́cio. Usando o método dos determinantes de Fredholm mostre que a solução da equação
integral de Fredholm Z b
u(x) = f (x) + λ u(y) dy ,
a
com f não-identicamente nula e λ 6= 1/(b − a), é dada por

Z b
λ
u(x) = f (x) + f (y) dy .
1 − λ(b − a) a
Verifique que essa é de fato a solução.

Mostre que no caso em que f é identicamente nula só há solução não-trivial se λ = 1/(b − a) e essa é
dada por u(x) = c com c constante arbitrária. 6
u(x) = f (x) + λ y u(y) dy ,
a
2 2
com f não-identicamente nula e λ 6= 2/(b − a ), é dada por
Z b
λ
u(x) = f (x) + b2 −a2
y f (y) dy .
1−λ 2 a

Mostre que no caso em que f é identicamente nula só há solução não-trivial se λ = 2/(b2 − a2 ) e essa
é dada por u(x) = c com c constante arbitrária. 6
u(x) = f (x) + λ xy u(y) dy ,
a
com f não-identicamente nula e λ 6= 3/(b3 − a3 ), é dada por

Z b
λx
u(x) = f (x) + 3 3 y f (y) dy .
1 − λ b −a3 a

Mostre que no caso em que f é identicamente nula só há solução não-trivial se λ = 3/(b3 − a3 ) e essa
é dada por u(x) = cx com c constante arbitrária. 6
E. 13.4 Exercı́cio. De [153]. Usando o método dos determinantes de Fredholm mostre que a solução da
equação integral de Fredholm
Z 1
u(x) = f (x) + λ (xy + y 2) u(y) dy ,
0
com f não-identicamente nula e 1 − 23 λ − 1 2

72
λ 6= 0, é dada por
Z 1
λ 2 xy 2 xy y 2 y
u(x) = f (x) + 2 1 2 (xy + y ) + λ − − + f (y) dy .
1 − 3λ − 72
λ 0 2 3 3 4
Determine os valores de λ para os quais a equação homogênea (ou seja, para f ≡ 0) tem soluções não
triviais e determine essas soluções. 6
Apêndices
13.A Obtendo os Determinantes de Fredholm
As regras de cálculo de determinantes (relações (3.12)-(3.13), página 158) ensinam-nos que a soma
Xn
bj (y)(−1)l+j Men(1 − λk)jl al (x), que ocorre no lado direito de (13.10), é igual ao determinante
j=1
da matriz !obtida substituindo-se a l-ésima coluna da matriz 1 − λk pelo vetor-coluna b(y)al (x) =
b1 (y)al (x)
... . Assim, denotando por ki a i-ésima coluna da matriz k e empregando os vetores da base
bn (y)al (x) 1 0
0 0
canônica de e1 =  0.  , . . . , en =  ...  para denotar as colunas da matriz 1, podemos escrever,
.. 0
0 1
usando a multilinearidade do determinante (linearidade em relação a cada coluna), que
1 X hh n ii
Kn (x, y; λ) = det e1 − λk1 , . . . , b(y)al (x), . . . , en − λkn
det(1 − λk) l=1
1 Xn Xn−1 X hh ii
= (−λ)m det e1 , . . . , kj1 . . . , b(y)al (x), . . . , kjm . . . , en ,
det(1 − λk) l=1 m=0 1≤j <···<jm ≤n
1
ja 6=l, ∀a=1, ..., m
(13.A.1)
hh ii
onde a matriz e1 , . . . , kj1 . . . , b(y)al (x), . . . , kjm , . . . , en possui os vetores kjq nas jq -ésimas
colunas, o vetor bl (y)a(x) na l-ésima, e os vetores ei em cada i-ésima coluna restante. Recordando
Rb Rb
agora a definição kpq = hbp , aq i = a bp (y)ap (y)dy, podemos escrever kq = a b(yq )aq (yq )dyq . Assim,
hh ii
det e1 , . . . , kj1 , . . . , b(y)al (x), . . . , kjm , . . . , en
Z b Z b hh ii
= ··· det e1 , . . . , b(yj1 )aj1 (yj1 ), . . . , b(y)al (x), . . . , b(yjm )ajm (yjm ), . . . , en dyj1 · · · dyjm .
a a
(13.A.2)
Para o determinante dentro da integral vale, devido à multilinearidade,
hh ii
det e1 , . . . , b(yj1 )aj1 (yj1 ), . . . , b(y)al (x), . . . , b(yjm )ajm (yjm ), . . . , en
hh ii
= aj1 (yj1 ) · · · al (x) · · · ajm (yjm ) det b(yj1 ), . . . , b(y), . . . , b(yjm ) ,
j1 , ..., l, ..., jm
hh ii
onde b(yj1 ), . . . , b(y), . . . , b(yjm ) é a matriz (m + 1) × (m + 1) obtida preservando
j1 , ..., l, ..., jm
apenas as ja -ésimas, a = 1, . . . , m, e l-ésimas linhas e colunas da matriz n × n
hh ii
e1 , . . . , b(yj1 ), . . . , b(y), . . . , b(yjm ), . . . , en
hh ii
e eliminando as demais. Nessa nova matriz reduzida b(yj1 ), . . . , b(y), . . . , b(yjm ) , o
j1 , ..., l, ..., jm
vetor coluna b(y) aparece na c-ésima posição, onde c pode ser determinado em função de l e dos jk ’s,
não nos importando, porém, como.
Os fatores aj1 (yj1 ) · · · al (x) · · · ajm (yjm ) foram tirados de dentro do determinante pois cada um mul-
tiplica uma coluna da matriz.
Podemos agora reinserir os fatores aj1 (yj1 ) · · · al (x) · · · ajm (yjm ) no determinante, mas fazendo que
cada um agora multiplique uma linha da matriz. O resultado será
 
 bj1 (yj1 )aj1 (yj1 ) · · · bj1 (y)aj1 (yj1 ) · · · bj1 (yjm )aj1 (yj1 ) 
 
 . . . 
 .
. .
. .
. 
 
 
 
det  b (y
 l j1 l )a (x) · · · b l (y)a l (x) · · · b (y
l jm l)a (x)  .

 
 .. .. .. 
 
 . . . 
 
 
bjm (yj1 )ajm (yjm ) · · · bjm (y)ajm (yjm ) · · · bjm (yjm )ajm (yjm )
E. 13.5 Exercı́cio. Confira! 6
Nosso próximo passo é mover a c-ésima coluna da matriz acima (trata-se da coluna que contém
os fatores bj1 (y), . . . , bl (y), . . . , bjm (y)) para a posição da primeira coluna e a c-ésima linha (a que
contém os fatores al (x)) para a posição da primeira linha. Como esses movimentos são feitos com
(−1)c × (−1)c transposições, o valor do determinante não se altera. Ficamos assim com
 
 bl (y)al (x) bl (yj1 )al (x) ··· bl (yjm )al (x) 
 
 
 b (y)a (y ) b (y )a (y ) · · · b (y )a (y ) 
 j1 j1 j1 j1 j1 j1 j1 j1 jm j1 j1 
det 

 .

 .. .. .. 
 . . . 
 
 
bjm (y)ajm (yjm ) bjm (yj1 )ajm (yjm ) · · · bjm (yjm )ajm (yjm )
Reinserindo isso na integral em (13.A.2), teremos
 
 bl (y)al (x) bl (yj1 )al (x) ··· bl (yjm )al (x) 
 
 
Z b Z b  b (y)a (y ) b (y )a (y ) · · · b (y )a (y ) 
 j1 j1 j1 j1 j1 j1 j1 j1 jm j1 j1 
··· det 

 dyj1 · · · dyjm

a a  .. .. .. 
 . . . 
 
 
bjm (y)ajm (yjm ) bjm (yj1 )ajm (yjm ) · · · bjm (yjm )ajm (yjm )
 
 bl (y)al (x) bl (y1 )al (x) ··· bl (ym )al (x) 
 
 
Z b Z b  bj1 (y1 )aj1 (y1) · · · bj1 (ym )aj1 (y1 ) 
 bj1 (y)aj1 (y1 ) 
= ··· det 

 dy1 · · · dym , (13.A.3)

a a  .. .. .. 
 . . . 
 
 
bjm (y)ajm (ym ) bjm (y1 )ajm (ym ) · · · bjm (ym )ajm (ym )
onde fizemos as renomeações de variáveis yja → ya para todo a = 1, . . . , m. Note o leitor que na matriz
acima, os ı́ndices das funções a e b que ocorrem em cada elemento de matriz são iguais, um fato de
importância crucial, como se verá, e que é a razão de ser das nossas várias manipulações de acima.
Xn X
Retornando a (13.A.1), desejamos agora realizar as somas do determinante acima.
l=1 1≤j1 <···<jm ≤n
ja 6=l, ∀a=1, ..., m
Para facilitar esse cômputo, devemos fazer algumas observações sobre o lado direito de (13.A.3).
Em primeiro lugar, notemos que caso j1 seja igual a l, as duas primeiras linhas da matriz do lado
direito de (13.A.3) são proporcionais uma à outra (a primeira linha é igual à segunda vezes al (x)/al (y1 ))
e, portanto, o determinante se anula. Naturalmente, o mesmo vale caso ja seja igual a l paraX algum
a. O mesmo raciocı́nio se aplica caso dois dos ı́ndices ja sejam iguais. Assim, na soma
1≤j1 <···<jm ≤n
ja 6=l, ∀a=1, ..., m
podemos eliminar a restrição ja 6= l, ∀a = 1, . . X
. , m e podemos aceitar que os ja ’s sejam iguais entre
si. Assim, essa soma pode ser escrita como .
1≤j1 ≤···≤jm ≤n
A segunda observação importante diz respeito ao ordenamento 1 ≤ j1 ≤ · · · ≤ jm ≤ n dos ı́ndices

ja na soma. Contemplando (13.A.3) é fácil nos convencermos que se trocarmos dois ı́ndices, digamos,
ja e jb e simultaneamente renomearmos as variáveis ya ↔ yb então teremos trocado duas linhas e duas
colunas da matriz, o que não altera o determinante. Com isso aprendemos que permutações arbitrárias
dos ı́ndices j acompanhadas de renomeações das variáveis de integração não alteram a integral do lado
direito de (13.A.3). Como há m! possı́veis permutações distintas, concluı́mos que
 
 
 
m Z b Z b  b (y)a (y ) b (y )a (y ) · · · b (y )a (y ) 
X X  j1 j1 1 j1 1 j1 1 j1 m j1 1 
··· det 

 dy1 · · · dym

l=1 1≤j1 ≤···≤jm ≤n a a  .
. .
. .
. 
 . . . 
 
 
 
 
 
m n Z b Z b  b (y)a (y ) b (y )a (y ) · · · b (y )a (y ) 
1 X X  j 1 j 1 1 j 1 1 j 1 1 j 1 m j 1 1 
= ··· det 

 dy1 · · · dym ,

m! l=1 j , ..., j = 1 a a  .
.. .
.. .
.. 
1 m
 
 
 
fazendo com que as somas sobre os ja ’s sejam independentes. Podemos agora inserir as somas em l e
sobre os ja ’s dentro do determinante (devido à multilinearidade), e o lado direito fica
 m m m 
X X X
 l=1 
 n n
l=1
n
l=1 
 X X X 
Z b Z b  bj1 (y)aj1 (y1 ) bj1 (y1 )aj1 (y1 ) ··· bj1 (ym )aj1 (y1 ) 
1  
 j1 =1 
··· det  j1 =1 j1 =1  dy1 · · · dym
m! a a  .. .. .. 
 . . . 
 
 n 
X n
X Xn 
 b (y)a (y ) bjm (y1 )ajm (ym ) · · · b (y )a (y )
jm jm m jm m jm m
jm =1 jm =1 jm =1
 
 k(x, y) k(x, y1 ) · · · k(x, ym ) 
 
 
Z b Z b  k(y , y) k(y , y ) · · · k(y , y ) 
1  1 1 1 1 m 
= ··· det 

 dy1 · · · dym .

m! a a  .
.. .
.. .
.. 
 
 
 
k(ym , y) k(ym , y1 ) · · · k(ym , ym )
Retornando agora a (13.A.1), temos
Kn (x, y; λ) =
   
  k(x, y) k(x, y1 ) · · · k(x, ym )  
   
   
 n−1 Z Z  k(y , y) k(y , y ) · · · k(y , y )  
1  X (−λ) m b b  1 1 1 1 m  
k(x, y) + · · · det   dy1 · · · dym  .

det(1 − λk)  m!  .. .. ..  
m=1 a a  . . .  
   
   
   
k(ym , y) k(ym , y1 ) · · · k(ym , ym )
• Calculando det(1 − λk)
O cálculo de det(1 − λk) é muito semelhante ao feito acima.
hh ii
det(1 − λk) = det e1 − λk1 , . . . , en − λkn
n
X X hh ii
= (−λ)m det e1 , . . . , kj1 , . . . , kjm . . . , en , (13.A.4)
m=0 1≤j1 <···<jm ≤n
hh ii
onde a matriz e1 , . . . , kj1 , . . . , kjm , . . . , en possui os vetores kjq nas jq -ésimas colunas e os vetores
Rb
ei em cada i-ésima coluna restante. Recordando agora a definição kpq = hbp , aq i = a bp (y)ap (y)dy,
Rb
podemos escrever kq = a b(yq )aq (yq )dyq . Assim,
hh ii
det e1 , . . . , kj1 , . . . , kjm , . . . , en
Z b Z b hh ii
= ··· det e1 , . . . , b(yj1 )aj1 (yj1 ), . . . , b(yjm )ajm (yjm ), . . . , en dyj1 · · · dyjm . (13.A.5)
a a
Para o determinante dentro da integral vale, devido à multilinearidade,
hh ii
det e1 , . . . , b(yj1 )aj1 (yj1 ), . . . , b(yjm )ajm (yjm ), . . . , en
hh ii
= aj1 (yj1 ) · · · ajm (yjm ) det b(yj1 ), . . . , b(yjm ) ,
j1 , ..., jm
hh ii
onde b(yj1 ), . . . , b(yjm ) é a matriz m × m obtida preservando apenas as ja -ésimas, a =
j1 , ..., jm
hh ii
1, . . . , m, linhas e colunas da matriz n × n, e1 , . . . , b(yj1 ), . . . , b(yjm ), . . . , en e eliminando as
demais.
Os fatores aj1 (yj1 ) · · · ajm (yjm ) foram tirados de dentro do determinante pois cada um multiplica
uma coluna da matriz.
Podemos agora reinserir os fatores aj1 (yj1 ) · · · ajm (yjm ) no determinante, mas fazendo que cada um
agora multiplique uma linha da matriz. O resultado será
 
 bj1 (yj1 )aj1 (yj1 ) · · · bj1 (yjm )aj1 (yj1 ) 
 
 .. .. 
det 
 . .  .

 
 
bjm (yj1 )ajm (yjm ) · · · bjm (yjm )ajm (yjm )
E. 13.6 Exercı́cio. Confira! 6
Reinserindo isso na integral em (13.A.5), teremos
 
 bj1 (yj1 )aj1 (yj1 ) · · · bj1 (yjm )aj1 (yj1 ) 
Z Z  
b b  .. .. 
··· det 
 . .  dyj1 · · · dyjm

a a  
 
bjm (yj1 )ajm (yjm ) · · · bjm (yjm )ajm (yjm )
 
 bj1 (y1 )aj1 (y1 ) · · · bj1 (ym )aj1 (y1 ) 
Z b Z b
 
 .. .. 
= ··· det 
 . .  dy1 · · · dym , (13.A.6)

a a  
 
bjm (y1)ajm (ym ) · · · bjm (ym )ajm (ym )
onde fizemos as renomeações de variáveis yja → ya para todo a = 1, . . . , m. Note o leitor que na matriz
acima, os ı́ndices das funções a e b que ocorrem em cada elemento de matriz são iguais, um fato de
importância crucial, como se verá, e que é a razão de ser das nossas várias manipulações de acima.
X
Retornando a (13.A.4), desejamos agora realizar as somas do determinante acima. Para
1≤j1 <···<jm ≤n
facilitar esse cômputo, devemos fazer algumas observações sobre o lado direito de (13.A.6).
Em primeiro lugar, notemos que caso dois dos ı́ndices ja sejam iguais as linhas correspondentes
em (13.A.6)
X são proporcionais uma à outra
X e, portanto, o determinante se anula. Assim, na soma
pode ser escrita como .
1≤j1 <···<jm ≤n 1≤j1 ≤···≤jm ≤n
A segunda observação importante diz respeito ao ordenamento 1 ≤ j1 ≤ · · · ≤ jm ≤ n dos ı́ndices

ja na soma. Contemplando (13.A.6) é fácil nos convencermos que se trocarmos dois ı́ndices, digamos,
ja e jb e simultaneamente renomearmos as variáveis ya ↔ yb então teremos trocado duas linhas e duas
colunas da matriz, o que não altera o determinante. Com isso aprendemos que permutações arbitrárias
dos ı́ndices j acompanhadas de renomeações das variáveis de integração não alteram a integral do lado
direito de (13.A.6). Como há m! possı́veis permutações distintas, concluı́mos que
 
 bj1 (y1 )aj1 (y1 ) · · · bj1 (ym )aj1 (y1 ) 
Z Z  
X b b  
··· det  .. ..  dy1 · · · dym
 . . 
1≤j1 ≤···≤jm ≤n a a  
 
bjm (y1)ajm (ym ) · · · bjm (ym )ajm (ym )
 
 bj1 (y1 )aj1 (y1 ) · · · bj1 (ym )aj1 (y1 ) 
n Z 
Z 
1 X b b  
= ··· det  .. ..  dy1 · · · dym ,
m! j  . . 
1 , ..., jm =1 a a  
 
bjm (y1 )ajm (ym ) · · · bjm (ym )ajm (ym )
fazendo com que as somas sobre os ja ’s sejam independentes. Podemos agora inserir as somas sobre os
ja ’s dentro do determinante (devido à multilinearidade), e o lado direito fica
 n n 
X X
 bj1 (y1 )aj1 (y1 ) · · · bj1 (ym )aj1 (y1) 
 j1 =1 
Z b Z b  j1 =1 
1  .. .. 
··· det 
 . .  dy1 · · · dym

m! a a  n 
X Xn 
 bjm (y1 )ajm (ym ) · · · b (y )a (y )
jm m jm m
jm =1 jm =1
 
 k(y1 , y1 ) · · · k(y1 , ym ) 
Z  Z 
1 b b  . . 
= ··· 
det  .. ..  dy1 · · · dym .
m! a 
a  
 
k(ym , y1 ) · · · k(ym , ym )
Retornando agora a (13.A.4), temos

 
 k(y1 , y1 ) · · · k(y1 , ym ) 
n Z Z  
X (−λ) m b b  
det(1 − λk) = 1 + ··· det  .
.. .
..  dy1 · · · dym , (13.A.7)
m!  
m=1 a a  
 
k(ym , y1 ) · · · k(ym , ym )
como querı́amos mostrar.

Parte IV
Grupos
757
Capı́tulo 14
Grupos. Alguns Exemplos
Conteúdo
14.1 O Grupo de Permutações . . . . . . . . . . . . . . . . . . . . . . . . . . . . 759
14.1.1 Ciclos, Transposições e Transposições Elementares . . . . . . . . . . . . . . . 760
14.2 Alguns Grupos Matriciais . . . . . . . . . . . . . . . . . . . . . . . . . . . . 766
14.2.1 Os Grupos GL(n) e SL(n) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 766
14.2.2 O Grupo de Borel e o Grupo de Heisenberg . . . . . . . . . . . . . . . . . . . 769
14.2.3 Grupos Associados a Formas Bilineares e Sesquilineares . . . . . . . . . . . . 777
14.2.4 Os Grupos Ortogonais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 779
14.2.5 Os Grupos Unitários . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 780
14.3 Os Grupos SO(2), SO(3), SU(2) e SL(C, 2) . . . . . . . . . . . . . . . . . 782
14.3.1 Os Grupos SO(2), O(2), SO(1, 1) e O(1, 1) . . . . . . . . . . . . . . . . . . . 782
14.3.2 O Grupo SO(3) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 786
14.3.3 O Grupo SU(2) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 795
14.3.4 A Relação entre SO(3) e SU(2) . . . . . . . . . . . . . . . . . . . . . . . . . . 798
14.3.5 O Grupo SL(C, 2) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 801
14.4 Generalidades sobre os grupos SU(n) e SO(n) . . . . . . . . . . . . . . . . 803
14.4.1 Os Grupos SU(n) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 803
14.4.2 O Grupo SU(3) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 806
14.4.3 Os Grupos SO(n) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 807
14.5 O Grupo Afim e o Grupo Euclidiano . . . . . . . . . . . . . . . . . . . . . . 813
14.6 O Grupo de Lorentz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 819
14.6.1 O Espaço-Tempo, a Noção de Intervalo e a Estrutura Causal . . . . . . . . . 819
14.6.2 A Invariância do Intervalo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 826
14.6.3 O Grupo de Lorentz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 828
14.6.4 Alguns Sub-Grupos do Grupo de Lorentz . . . . . . . . . . . . . . . . . . . . 830
14.6.5 A Estrutura do Grupo de Lorentz . . . . . . . . . . . . . . . . . . . . . . . . 834
14.6.6 Os Geradores do Grupo de Lorentz . . . . . . . . . . . . . . . . . . . . . . . . 839
14.7 O Grupo de Poincaré . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 844
14.8 SL(C, 2) e o Grupo de Lorentz . . . . . . . . . . . . . . . . . . . . . . . . . 849
Apêndices . . . . . . . . . . . . . . . . . . . . 858
14.A Prova do Teorema 14.8 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 858
14.B Um Isomorfismo entre SL(C, 2)/{1, −1} e L↑+ . . . . . . . . . . . . . . . . . 871
758
G rupos são objetos de suma importância na Fı́sica devido à sua relação com transformações de
simetria. A noção abstrata de grupo foi introduzida na Seção 1.2.1, página 49. No presente
capı́tulo introduziremos alguns grupos de particular interesse na Fı́sica e na Matemática
e estudaremos algumas de suas propriedades mais simples e importantes. Com particular
detalhe trataremos do grupo de Lorentz na Seção 14.6, grupo este de fundamental importância na
teoria da relatividade.
14.1 O Grupo de Permutações

Seja C um conjunto não-vazio qualquer e seja P erm(C) o conjunto de todas as funções bijetoras de C
em C. P erm(C) é naturalmente um grupo, onde o produto é a composição de funções e o elemento
neutro é a função identidade (que denotaremos doravante por id). O elemento inverso de uma função
f ∈ P erm(C) é a sua função inversa f −1 (que existe, pois P erm(C) contém funções bijetoras, por
definição). P erm(C) é denominado grupo de permutações do conjunto C.
E. 14.1 Exercı́cio. Mostre que P erm(C) somente é um grupo Abeliano se C possuir um ou dois
elementos. 6
Grupos de permutações desempenham um papel de destaque na teoria de grupos, em parte devido

ao seguinte teorema estrutural, que não demonstraremos nestas notas:
Teorema 14.1 Todo grupo é sub-grupo de um grupo de permutações P erm(C), para algum conjunto
C. 2
De particular importância é o caso em que C é um conjunto finito. Tais grupos de permutação e suas
representações também desempenham um papel de destaque na Fı́sica, particularmente na Mecânica
Quântica, e por isso vamos nos deter um pouco nos mesmos.
• Grupos de Permutações de n Elementos
Seja n ≥ 1, inteiro, e considere-se o conjunto {1, . . . , n}. O grupo Sn = P erm({1, . . . , n}) é

denominado grupo de permutações de n elementos.
E. 14.2 Exercı́cio. Seja C um conjunto com n elementos. Mostre que P erm(C) é isomorfo a Sn . 6
Um elemento π ∈ Sn é dito ser uma permutação. Como toda a permutação, π é uma função bijetora
{1, . . . , n} → {1, . . . , n} e é costume representá-la na forma de um arranjo matricial:
 
 1 2 ... n 
π = 

,

π(1) π(2) . . . π(n)
onde na primeira linha ordenamos os elementos de {1, . . . , n} e na segunda suas imagens por π.
Exemplos. Os elementos de S2 são
   
 1 2 1 2
π1 = 


 e π2 = 

.

1 2 2 1
π1 é a identidade do grupo.
Os elementos de S3 são
     
1 2 3 1 2 3 1 2 3
π1 = 

,
 π2 = 

,
 π3 = 

,

1 2 3 2 1 3 1 3 2
     
1 2 3 1 2 3 1 2 3
π4 = 

,
 π5 = 

,
 π6 = 

.

3 2 1 3 1 2 2 3 1
π1 é a identidade do grupo.
E. 14.3 Exercı́cio. Mostre que Sn tem exatamente n! elementos. 6
14.1.1 Ciclos, Transposições e Transposições Elementares

Vamos aqui estudar alguns fatos estruturais importantes sobre os grupos Sn .
• Ciclos
Precisamos da seguinte definição.
Definição. Uma permutação π é dita ser um ciclo, ou um r-ciclo se existirem r inteiros distintos
i1 , . . . , ir tais que 



 j, se j 6∈ {i1 , . . . , ir }











π(j) = ia+1 , se j = ia , mas a 6= r .














 i1 , se j = ir
E. 14.4 Exercı́cio. Mostre que se π é um r-ciclo, então π r = id. 6
A importância do conceito de ciclo manifesta-se no seguinte teorema:

Teorema 14.2 Toda permutação diferente da identidade é um produto de ciclos disjuntos dois a dois.
2
Prova. Seja π ∈ Sn , π 6= id. Seja i1 o menor elemento de {1, . . . , n} para o qual π(i) 6= i. Vamos
considerar a seqüência (em princı́pio infinita)
i1 , π(i1 ), π 2 (i1 ), π 3 (i1 ), . . .
Os elementos dessa seqüência são obviamente elementos de {1, . . . , n} que é um conjunto finito.
Conseqüentemente essa seqüência tem, na verdade, elementos repetidos. Vamos supor que π p (i1 ) e
π q (i1 ), p < q, sejam os primeiros elementos que se repetem: π p (i1 ) = π q (i1 ). Essa igualdade implicaria
i1 = π r1 (i1 ), onde r1 = q − p. Assim, o primeiro par que se repete na seqüência acima é, em verdade,
o par i1 e π r1 (i1 ).
Isso nos diz que a seqüência acima é uma repetição infinita da seqüência finita
i1 , π(i1 ), π 2 (i1 ), ..., π r1 (i1 ),
seqüência esta formada por r1 elementos que, por construção, são distintos.
Vamos denominar
i1 , i2 := π(i1 ), i3 = π 2 (i1 ), ..., ir1 = π r1 (i1 )
e definir π1 ∈ Sn por 



 j, se j 6∈ {i1 , . . . , ir1 }











π1 (j) = ia+1 = π a (i1 ), se j = ia , mas a 6= r1 .














 i1 , se j = ir1
É evidente que π1 é um ciclo e que π1 e π coincidem no conjunto {i1 , . . . , ir1 }. Podemos então escrever
π = π1 π ′ = π ′ π1 ,
onde π ′ ∈ Sn é a identidade em {i1 , . . . , ir1 } e coincide com π no complemento:




 j, se j ∈ {i1 , . . . , ir1 }



π ′ (j) = .






 π(j), de outra forma.
O que fazemos em seguida é repetir o procedimento, mas agora para a permutação π ′ . Obteremos
π = π2 π ′′ = π ′′ π2 , onde π2 é novamente um ciclo (disjunto de π1 , por construção). Como {1, . . . , n}
′
é um conjunto finito, a repetição desse procedimento deve ter um fim, e obtemos

π = π1 π2 · · · πk
para k ciclos π1 , . . . , πk disjuntos dois a dois. Isso completa a prova.
• Transposições
2-ciclos são denominados transposições. Sejam p e q dois elementos distintos de {1, . . . , n}. A
transposição de p e q, denotada por tp, q é a permutação definida por




 j, se j 6= p e j 6= q











tp, q (j) = q, se j = p .














 p, se j = q
Transposições são importantes pela seguinte razão:

Teorema 14.3 Todo ciclo pode ser escrito como um produto de transposições. 2
Prova. Seja π o ciclo associado ao conjunto {i1 , . . . , ir } ⊂ {1, . . . , n}:





 j, se j 6∈ {i1 , . . . , ir }











π(j) = ia+1 , se j = ia , mas a 6= r .














 i1 , se j = ir
A prova resume-se em constatar que

π = ti1 , ir ti1 , ir−1 ti1 , ir−2 · · · ti1 , i3 ti1 , i2 .
E. 14.5 Exercı́cio. Complete os detalhes e/ou faça alguns casos particulares para convencer-se. 6
O seguinte teorema é um corolário imediato dos Teoremas 14.2 e 14.3:

Teorema 14.4 Toda permutação diferente da identidade é um produto transposições. 2
• Transposições Elementares
De particular importância são as transposições de vizinhos ti = ti, i+1 com i = 1, . . . , n − 1:





 j, se j 6= i e j 6= i + 1











ti (j) = i + 1, se j = i














 i, se j = i + 1
e que são chamadas transposições elementares.

A importância das mesmas reside nos dois teoremas abaixo.
Teorema 14.5 Toda transposição é um produto transposições elementares. 2
Prova. Seja tp, q uma transposição com p < q. A prova resume-se em constatar que
tp, q = tq−1, q · · · tp+1, p+2 tp, p+1 tp+1, p+2 · · · tq−1, q = tq−1 · · · tp+1 tp tp+1 · · · tq−1 .
E. 14.6 Exercı́cio. Complete os detalhes e/ou faça alguns casos particulares para convencer-se. 6
O seguinte teorema é um corolário imediato dos Teoremas 14.2, 14.3, 14.4 e 14.5:
Teorema 14.6 Toda permutação diferente da identidade é um produto de transposições elementares.
2
O Teorema 14.6 afirma que Sn é um grupo gerado por transposições elementares, ou seja, todo
π ∈ Sn (distinto da identidade) é da forma
π = ti1 · · · tik , (14.1)
para certas transposições ti1 , . . . , tik .

E. 14.7 Exercı́cio. Determine quais dos elementos π1 , . . . , π6 do grupo S3 (página 760) são trans-
posições elementares e escreva os demais como produtos de tais transposições elementares. 6
Podemos nos perguntar, essa forma de escrever π é única? A resposta é não, pelas razões que agora
expomos.
• Transposições Elementares e suas Relações
Proposição 14.1 Em Sn as transposições elementares ti , i = 1, . . . , n − 1 satisfazem as seguintes

relações:
(ti )2 = id, (14.2)
ti tj = tj ti , se |i − j| ≥ 2, (14.3)
ti ti+1 ti = ti+1 ti ti+1 , se i = 1, . . . , n − 2. (14.4)
Essa proposição explica por que a representação (14.1) não é geralmente única: o lado direito
de (14.1) pode eventualmente ser reescrito se aplicarmos quaisquer das relações (14.2)-(14.4). Estas,
porém, são as únicas relações que as transposições elementares ti satisfazem. Desses fatos extraı́mos a
seguinte conclusão:
Proposição 14.2 Todo grupo gerado por n − 1 elementos t1 , . . . , tn−1 e que satisfazem as relações
(14.2)-(14.4) (e somente elas) é isomorfo a Sn . 2
• O Sinal, ou Paridade, de uma Permutação
Seja π ∈ Sn . O sinal, ou paridade de π é (−1)k , onde k é o menor número de transposições

elementares que geram π. Assim, se π = ti1 · · · tik define-se sinal(id) = +1 e
sinal(π) := (−1)k , π 6= id.
O estudante é convidado a constatar que sinal(π) não depende da particular representação de π em

termos de produtos de transposições elementares, pois sinal(π) não muda por aplicação das relações
(14.2)-(14.4).
E. 14.8 Exercı́cio. Determine o sinal das permutações π1 , . . . , π6 do grupo S3 dadas acima (página
760). 6
E. 14.9 Exercı́cio importante. Mostre que
sinal(ππ ′ ) = sinal(π)sinal(π ′ )
para todos π, π ′ ∈ Sn . Mostre daı́ que Sn+ = {π ∈ Sn | sinal(π) = +1} é um subgrupo de Sn , o subgrupo
das permutações pares. Mostre também que Sn+ é normal. 6
Sn+ é também denominado subgrupo alternante de grau n.
E. 14.10 Exercı́cio. Já mencionamos que Sn tem n! elementos. Quantos elementos tem Sn+ ? 6
• O Grupo de Tranças
Há um grupo importante aparentado ao grupo Sn que é o chamado grupo de n tranças, denotado por
Bn (do inglês braid = trança). Este é, por definição, o grupo gerado por n − 1 elementos b1 , . . . , bn−1
que satisfazem as relações
bi bj = bj bi , se |i − j| ≥ 2, (14.5)
bi bi+1 bi = bi+1 bi bi+1 , se i = 1, . . . , n − 2, (14.6)
de tal forma que para todo β ∈ Bn existem {bi1 , . . . , bik } ⊂ {b1 , . . . , bn−1 } e números inteiros
n1 , . . . , nk ∈ Z tais que
β = (bi1 )n1 · · · (bik )nk .
Note-se que a relação (14.2) não tem análogo em Bn , ou seja, ao contrário do que ocorre em Sn ,
os elementos bi não têm a si mesmos como inversa. Por essa razão elementos como (bi )n para n’s
diferentes são todos distintos entre si. Assim, ao contrário de Sn , Bn é um grupo infinito, apesar de ter
um número finito de geradores.
E. 14.11 Exercı́cio. Seja p : Z → {0, 1} definida por p(n) = 0 se n for par e p(n) = 1 se n for ı́mpar.
p(n ) p(n )
Mostre que φ : Bn → Sn definido por φ((bi1 )n1 · · · (bik )nk ) = ti1 1 · · · tik k é um homomorfismo. 6
O grupo de tranças foi inventado pelo matemático E. Artin1 em 1925 e desempenha um papel
importante na chamada teoria dos nós, um rico capı́tulo do estudo das propriedades topológicas do
espaço tridimensional. Nesse contexto os elementos bi têm uma interpretação interessante em termos
de transposições de tranças (barbantes) no espaço tridimensional. Por falta de espaço e habilidade em
apresentar as figuras correspondentes, não entraremos em mais detalhes aqui e remetemos o estudante
à leitura de [80], por exemplo. No final dos anos 80 e nos anos 90 do século XX encontrou-se aplicações
dos grupos de tranças na Fı́sica, no contexto das teorias quânticas de campos em dimensões 2 e 3,
assim como na fı́sica dos materiais (problema da supercondutividade a altas temperaturas).
1
Emil Artin (1889-1962).
14.2 Alguns Grupos Matriciais
14.2.1 Os Grupos GL(n) e SL(n)

Vamos denotar por Mat(n, R) ou Mat(R, n) o conjunto de todas as matrizes reais n × n e por
Mat(n, C) ou Mat(C, n) o conjunto de todas as matrizes complexas n × n.
Mat(n, R) e Mat(n, C) são naturalmente dois grupos (Abelianos) em relação à operação de soma
de matrizes. Não, porém, em relação à operação de produto, pois é bem sabido que nem toda matriz
possui uma inversa.
O conjunto de todas as matrizes de Mat(n, R) que são invertı́veis forma naturalmente um grupo
não-Abeliano2 em relação ao produto usual de matrizes. Esse grupo, denominado grupo linear real,
é denotado por GL(n, R). Analogamente, o conjunto de todas as matrizes de Mat(n, C) invertı́veis
forma um grupo não-Abeliano3 que é denominado grupo linear complexo e denotado por GL(n, C). Em
sı́mbolos
GL(n, R) := {A ∈ Mat(n, R), det(A) 6= 0} e GL(n, C) := {A ∈ Mat(n, C), det(A) 6= 0} .
Devido à propriedade bem conhecida det(AB) = det(A) det(B), o produto de duas matrizes com
determinante igual a 1 é novamente uma matriz com determinante igual a 1. Assim,
SL(n, R) := {A ∈ Mat(n, R), det(A) = 1} e SL(n, C) := {A ∈ Mat(n, C), det(A) = 1}
são subgrupos de GL(n, R) e GL(n, C), respectivamente.

−1
E. 14.12 Exercı́cio. Para qualquer matriz n × n real ou complexa e invertı́vel A vale que AT =
−1 T ∗ −1 −1 ∗
(A ) . Além disso, para qualquer matriz n × n complexa A vale que (A ) = (A ) . Usando esses
fatos, mostre que se A ∈ GL(n, R) então AT ∈ GL(n, R). Analogamente, mostre que se A ∈ GL(n, C)
então A∗ e AT ∈ GL(n, C). 6

E. 14.13 Exercı́cio. Para qualquer matriz n × n real ou complexa A vale que det(A) = det AT . Fora
isso, para qualquer matriz n × n complexa A vale que det(A) = det (A∗ ). Usando esses fatos, mostre que
se A ∈ SL(n, R) então AT ∈ SL(n, R). Analogamente, mostre que se A ∈ SL(n, C) então A∗ e AT ∈
SL(n, C). 6
Os grupos GL(n, R), GL(n, C), SL(n, R) e SL(n, C) possuem vários outros sub-grupos de interesse.
Discutiremos alguns adiante, como os grupos de Borel, os grupos ortogonais, unitários e simpléticos.
• Os grupos GL(n, Q), SL(n, Q) e SL(n, Z)

2
Exceto no caso n = 1, onde o grupo é Abeliano, trivialmente.
3
Idem.
Vamos denotar por Mat(n, Z) ou Mat(Z, n) o conjunto de todas as matrizes n × n cujos elementos
de matriz são números inteiros e por Mat(n, Q) ou Mat(Q, n) o conjunto de todas as matrizes n × n
cujos elementos de matriz são números racionais. Analogamente, defina-se
GL(n, Z) := {A ∈ Mat(n, Z), det(A) 6= 0} e GL(n, Q) := {A ∈ Mat(n, Q), det(A) 6= 0}
SL(n, Z) := {A ∈ Mat(n, Z), det(A) = 1} e SL(n, Q) := {A ∈ Mat(n, Q), det(A) = 1} .
Então valem as seguintes afirmações:
1. GL(n, Q) é um grupo em relação à operação de produto usual de matrizes.
2. SL(n, Q) é um grupo em relação à operação de produto usual de matrizes.
3. GL(n, Z) não é um grupo em relação à operação de produto usual de matrizes, mas sim um
monóide.
4. SL(n, Z) é um grupo em relação à operação de produto usual de matrizes.
Para provar 1, notemos que o produto de matrizes n × n com entradas racionais é também uma
matriz n × n com entradas racionais (por quê?). Assim, a operação de produto é uma operação binária
em GL(n, Q). O elemento neutro é a matriz identidade, que é elemento de GL(n, Q) (pois os números 0
e 1 são racionais). Por fim, resta mostrar que a inversa de uma matriz invertı́vel com entradas racionais
também tem entradas racionais.
Para mostrar isso, notemos primeiramente que o determinante de uma matriz com entradas racionais
é também um número racional, pois o cálculo do determinante de uma matriz M envolve apenas
operações de soma e produto dos elementos de matriz de M. Além disso, lembremos a chamada “regra
de Laplace4 ”), expressão (3.11), página 157, que para qualquer matriz A o elemento ij da sua matriz
inversa (se houver) é dado por
(−1)i+j
(A−1 )ij = Men(A)ji, (14.7)
det(A)
onde Men(A)ij é o determinante da matriz (n − 1) × (n − 1) obtida eliminando-se a i-ésima linha e a
j-ésima coluna da matriz A. (A matriz Men(A) é por vezes denominada matriz dos menores de A).
Vê-se claramente daı́ que se A é uma matriz com entradas racionais então os números Men(A)ji são
também racionais, assim como det(A). Logo (A−1 )ij é um número racional e, portanto, se A ∈ GL(n,
Q) então A−1 ∈ GL(n, Q).
O item 2 se prova da mesma maneira.
No caso do item 3, notemos que o produto de matrizes n × n com entradas inteiras é também uma
matriz n × n com entradas inteiras (por quê?). Assim, a operação de produto é uma operação binária
em GL(n, Z). O elemento neutro é a matriz identidade, que é elemento de GL(n, Z) (pois os números
0 e 1 são inteiros). Com isso, GL(n, Z) é um monóide. O problema que faz com que GL(n, Z) não
seja um grupo reside no fato de que a inversa de uma matriz com entradas inteiras nem sempre é uma
4

matriz com entradas inteiras. Isso se vê claramente no exemplo da matriz ( 10 02 ) cuja inversa é 10 1/2
0
.
No entanto, se uma matriz A, invertı́vel com entradas inteiras, tiver determinante igual a 1, segue
imediatamente de (14.7) que A−1 tem também entradas inteiras. Daı́, prova-se facilmente a afirmativa
4.
E. 14.14 Exercı́cio. Complete os detalhes das afirmações feitas acima. 6

   
 1 1  2 −1
E. 14.15 Exercı́cio. Verifique que A = 

 ∈ SL(n, Z) e que A−1 = 
 
 ∈ SL(n, Z).

1 2 −1 1
 
a b 
Mais genericamente, se a, b, c e d são números inteiros tais que ad − bc = 1, então A = 

 ∈ SL(n,

c d
 
 d −b
Z) e A−1 = 

 ∈ SL(n, Z).
 6
−c a
 
1 b 
E. 14.16 Exercı́cio. Verifique que todas as matrizes da forma 

 com b ∈ Z são elementos de

0 1
 
1 1 
SL(n, Z). Verifique que todas as matrizes da forma 

 com c ∈ Z são elementos de SL(n, Z).

c c+1
6
• Outros Subgrupos de GL(R, n) e de GL(C, n)
Há vários outros subgrupos de GL(R, n) e GL(C, n) aos quais eventualmente faremos referência.
Deixamos ao estudante provar em cada caso que se trata realmente de grupos. Dois deles são os grupos
de matrizes com determinante positivo:
GL(R, n)+ := {A ∈ Mat (R, n), det(A) > 0} ,
GL(C, n)+ := {A ∈ Mat (C, n), det(A) > 0} .
Outro grupo relevante é o chamado grupo de Weyl5 de GL(C, n):
( n n
)
X X
Wn := A ∈ GL(C, n), Aij ∈ {0, 1} ∀i, j, com Aij = 1 = Aij .
i=1 j=1
5
Hermann Klaus Hugo Weyl (1885-1955).
Em palavras, as matrizes de Wn são matrizes n × n cujas entradas valem 0 ou 1, sendo que exatamente
um elemento “1” ocorre em cada linha e em cada coluna.
 
1 0
E. 14.17 Exercı́cio. Mostre que W2 contém apenas dois elementos, a saber as matrizes 

 e

0 1
 
 0 1
 . 6
 
1 0
E. 14.18 Exercı́cio. Determine os (seis) elementos de W3 . 6
E. 14.19 Exercı́cio. Prove que Wn é isomorfo ao grupo de permutações de n elementos Sn definido à

página 759. 6
14.2.2 O Grupo de Borel e o Grupo de Heisenberg

Uma matriz A, complexa, n × n, é dita ser uma matriz triangular superior se seus elementos de matriz
Aij satisfizerem Aij = 0 se i > j. Tais matrizes têm a forma
 
A11 A12 ··· A1(n−1) A1n 
 
 
 0 A ··· A2(n−1) A2n 
 22 
 
 . .. .. .. 
A =  ..
 .. . . . .  ,
 
 
 
 0 0 · · · A(n−1)(n−1) A(n−1)n 
 
 
0 0 ··· 0 Ann
onde os elementos abaixo da diagonal principal são nulos. Aqueles que ficam acima da diagonal principal
podem ser nulos ou não.
De acordo com a Proposição 3.21, página 206, o conjunto das matrizes complexas n × n triangulares
superiores invertı́veis forma um grupo, denominado por alguns autores Grupo de Borel6 de ordem n e
denotado por GBn (C).
6
Armand Borel (1923-2003). A noção de grupo de Borel é mais geral. As matrizes n × n triangulares superiores
invertı́veis compoem o grupo de Borel associado ao grupo GL(C, n).
E. 14.20 Exercı́cio-exemplo. Para duas matrizes triangulares superiores invertı́veis 2 × 2

   
 a b   d e 
   
A =   e B =  
   
0 c 0 f
verifique que  
 ad ae + bf 
 
AB =  ,
 
0 cf
que é novamente uma matriz triangular superior, e verifique que

 
1
 a
− acb 
 
A−1 =  .
 
1
0 c
Um caso particular do grupo de Borel é o grupo de Heisenberg, que agora discutiremos.
• O grupo de Heisenberg GH3 (C)
O chamado grupo de Heisenberg7, denotado por GH3 (C) (os grupos GHn (C) com n ≥ 3 são definidos
adiante), é definido como o grupo formado por todas as matrizes 3 × 3 da forma
 
1 a c 
 
 
H(a, b, c) =  
0 1 b  ,
 
 
0 0 1
onde a, b, c ∈ C, com o produto usual de matrizes (se a, b, c ∈ R temos o grupo GH3 (R)). A matriz
identidade é um elemento de GH3 (C) pois H(0, 0, 0) = 1 e tem-se
H(a, b, c)H(a′, b′ , c′ ) = H(a + a′ , b + b′ , c + c′ + ab′ ). (14.8)
Essa relação, em particular, diz que o produto de duas matrizes de GH3 (C) é novamente uma matriz
7
Werner Karl Heisenberg (1901-1976).
de GH3 (C). Tem-se também que

 
1 −a ab − c
 
 
H(a, b, c)−1 = H(−a, −b, ab − c) = 
0 1 −b   , (14.9)
 
 
0 0 1
que mostra que toda matriz de GH3 (C) tem inversa e que essa inversa é também uma matriz de
GH3 (C). Assim, GH3 (C) é um grupo matricial.
E. 14.21 Exercı́cio. Verifique essas afirmações. 6
De (14.8) constata-se facilmente que GH3 (C) não é um grupo Abeliano.
E. 14.22 Exercı́cio. Mostre que o centro do grupo de Heisenberg é formado pelas matrizes do tipo
H(0, b, 0) com b ∈ C. O conceito de centro de um grupo foi introduzido à página 77. 6
Como é fácil de ver, o grupo de Heisenberg é um grupo de Lie (grupos de Lie serão tratados no
Capı́tulo 15) que, como variedade analı́tica, é difeomorfo a C3 . O exercı́cio seguinte discute três de seus
subgrupos uniparamétricos.
E. 14.23 Exercı́cio. Verifique que as matrizes H1 (t) := H(t, 0, 0), H2 (t) := H(0, t, 0), H3 (t) :=
H(0, 0, t) satisfazem Hj (t)Hj (t′ ) = Hj (t + t′ ) e Hj (0) = 1, j = 1, 2, 3. Assim, para cada j, as
matrizes Hj (t) representam sub-grupos uniparamétricos de GH3 (C). Os geradores desses subgrupos são
hj := dtd Hj (t)t=0 . Verifique que
     
0 1 0 0 0 0 0 0 1
     
     
h1 =  
0 0 0 , h2 =  
0 0 1 , h3 =  
0 0 0 .
     
     
0 0 0 0 0 0 0 0 0
Mostraremos agora que esses geradores formam uma álgebra de Lie, a chamada álgebra de Heisen-
berg gh3 (C). Adiante explicaremos por que o nome de Heisenberg é associado ao grupo GH3 (C) e à
álgebra gh3 (C).
• A álgebra de Heisenberg gh3 (C)

Considere matrizes da forma  

0 a c 
 
 
h(a, b, c) = 
 0 0 b  ,
 (14.10)
 
 
0 0 0
onde a, b, c ∈ C. Calculando-se o comutador de duas de tais matrizes tem-se
[h(a, b, c), h(a′ , b′ , c′ )] = h(0, 0, ab′ − a′ b), (14.11)
(verifique!) que é novamente da forma (14.10). Assim, o conjunto de matrizes da forma (14.10) forma
uma álgebra de Lie com o produto definido pelo comutador de matrizes. Essa álgebra de Lie, denotada
por gh3(C), é denominada álgebra de Heisenberg.
A razão dessa denominação é a seguinte. Podemos encontrar em gh3 (C) uma base especial formada
por três matrizes que, por razões “psicológicas”, denotaremos por p, q e ~:
     
0 1 0 0 0 0 0 0 i 
     
     
p = 0 0 0

, q = 0 0 1

, ~ = 0 0 0

.
     
     
0 0 0 0 0 0 0 0 0
É um exercı́cio fácil (e fortemente recomendado) verificar que essas matrizes satisfazem as seguintes
regras de comutação:
[p, ~] = 0 , [q, ~] = 0 , [p, q] = −i~ .
Para aqueles familiarizados com a Mecânica Quântica as relações acima justificam a denominação
dessa álgebra em honra a Heisenberg: as relações de comutação acima são precisamente iguais às
relações canônicas de comutação satisfeitas pelos operadores associados ao momento (p) e posição (q)
∂
de uma partı́cula se movendo em uma dimensão. No caso da Mecânica Quântica, p é o operador −i~ ∂x ,
q = x e ~ representa um número (a constante de Planck ), que obviamente comuta com os operadores
8
p e q.
Nota. O estudante deve, porém, observar que as matrizes p, q e ~, acima, não são auto-adjuntas, ao
contrário dos operadores correspondentes da Mecânica Quântica. Essa observação é relevante, pois é
possivel provar que as relações canônicas de comutação não podem ser satisfeitas por operadores auto-
adjuntos agindo em espaços de Hilbert de dimensão finita ou por operadores auto-adjuntos limitados
agindo em espaços de Hilbert de dimensão infinita. De fato, no espaço de Hilbert L2 (R, dx) os
∂
operadores p = −i~ ∂x e q = x são auto-adjuntos (em um dominı́o conveniente), mas não são limitados.
O que faz gh3 (C) especial como álgebra de Lie é a propriedade expressa no seguinte exercı́cio:
8
E. 14.24 Exercı́cio importante. Verifique que para quaisquer três elementos h1 , h2 e h3 da álgebra de
Heisenberg tem-se
[h1 , [h2 , h3 ]] = 0 . (14.12)
Sugestão: use as relações de comutação de p, q e ~, dadas acima ou use diretamente (14.11). A relação
(14.12) mostra que gh3 (C) é o que se chama uma álgebra de Lie nilpotente (de grau 2). 6
Para entender a relação da álgebra de Heisenberg gh3 (C) com o grupo de Heisenberg GH3 (C),
façamos o seguinte. Notemos em primeiro lugar que as matrizes h(a, b, c) são matrizes nilpotentes de
grau 3, ou seja,
h(a, b, c)3 = 0.
(Mostre isso!). É fácil com isso verificar que se calcularmos a exponencial de h(a, b, c) teremos
 
ab
1 a c + 2 
 
1   ab
exp (h(a, b, c)) = 1 + h(a, b, c) + h(a, b, c) = 0 1
2  
b  = H a, b, c + 2 , (14.13)
2  
 
0 0 1
ou seja,
ab
H(a, b, c) = exp h a, b, c − . (14.14)
2

E. 14.25 Exercı́cio. Escreva h a, b, c − ab
2
como combinação linear de p, q e ~. 6
Pelo que vimos, todos os elementos do grupo de Heisenberg GH3 (C) são obtidos pela exponenciação
de elementos da álgebra de Lie gh3 (C), ou seja, a exponenciação é uma aplicação sobrejetora de gh3 (C)
em seu grupo de Lie GH3 (C). Em verdade, é fácil constatar que essa aplicação é também injetora (faça
isso!). A aplicação exponencial é, portanto, uma bijeção de gh3 (C) em GH3 (C).
E. 14.26 Exercı́cio importante. Usando a fórmula de Baker-Campbell-Hausdorff (equações (4.4), página

238, ou (4.46), página 265) e as relações (14.11) e (14.12), mostre que

′ ′ ′ ′ ′ ′ ab′ − a′ b
exp h(a, b, c) exp h(a , b , c ) = exp h a + a , b + b , c + c + . (14.15)
2
Usando (14.13) e (14.14), re-obtenha de (14.15) a regra de produto (14.8). 6
Comentário. Esse exercı́cio ilustra uma aplicação da fórmula de Baker-Campbell-Hausdorff. Note-se

que, devido ao fato de gh3 (C) ser uma álgebra de Lie nilpotente (vide (14.12)), a série de Baker-
Campbell-Hausdorff é composta apenas por um número finito de termos e, portanto, converge sempre.
• O grupo de Heisenberg GHn (C), n ≥ 3

Vamos agora generalizar o grupo GH3 (C). Para n ≥ 3, os chamados grupos de Heisenberg GHn (C)
são definidos como sendo os grupos formado por todas as matrizes n × n da forma
 
 1 aT c 
 
 

H(a, b, c) = 0m 1m b 
 
 
0 0Tm 1
com o produto usual de matrizes, sendo m = n−2, onde a, b ∈ Cn−2 e c ∈ C. Acima, a e b representam
matrizes-coluna com m = n − 2 linhas equanto que aT e bT , as transpostas de a e b, respectivamente,
representam matrizes-linha com m = n − 2 colunas:
   
 a1   b1 
   
 .   . 
a =  .. 

 , a T
= a1 · · · an−2 , b =  .. 

 , bT
= b1 · · · bn−2 ,
   
   
an−2 bn−2
0
sendo 0m = ... a matriz coluna identicamente nula com m = n − 2 linhas e sendo 1m a matriz
0    
a1  b1 
identidade m × m. Por exemplo, no caso n = 4, para a =   
, b =   ∈ C2 , a matriz H(a, b, c)
 
a2 b2
1 a1 a2 c
é H(a, b, c) = 00 01 10 bb21 . Para simplificar a notação, iremos doravante escrever H(a, b, c) na forma
0 0 0 1
 
1 aT c 
 
 

H(a, b, c) = 0 1 b  .
 
 
0 0 1
A matriz identidade é um elemento de GHn (C) pois H(0, 0, 0) = 1 e tem-se
H(a, b, c)H(a′ , b′ , c′ ) = H(a + a′ , b + b′ , c + c′ + aT b′ ) , (14.16)
sendo que definimos a forma bilinear aT b′ := ha, b′ iR = a1 b′1 + · · · + an−2 b′n−2 .

Essa relação, em particular, diz que o produto de duas matrizes de GHn (C) é novamente uma
matriz de GHn (C). Vale também que

 
 1 −a aT b − c 
 
 
 
H(a, b, c)−1 = H(−a, −b, a b − c) = 
T
 0 1 −b ,
 (14.17)
 
 
 
0 0 1
que mostra que toda matriz de GHn (C) tem inversa e que essa inversa é também um elemento de
GHn (C). Assim, GHn (C) é um grupo matricial.
• A álgebra de Heisenberg ghn (C), n ≥ 3
Para n ≥ 3, considere matrizes de Mat (C, n) da forma

   
1 aT c  0 aT c 
   
   
h(a, b, c) = 0 0
 m mm b  ≡ 0 0
 mm b  ,
 (14.18)
   
   
0 0m 1
T
0 0 0
com m = n − 2, onde 0mm é a matriz m × m identicamente

   eonde a, b ∈ C
nula n−2
e c ∈ C,
a1  b1 
como acima. Por exemplo, no caso n = 4, para a = 
 
, b =   ∈ C2 , a matriz h(a, b, c) é
 
a2 b2
0 a1 a2 c
h(a, b, c) = 00 00 00 bb21 .
0 0 0 0
Calculando-se o comutador de duas de tais matrizes tem-se
T
[h(a, b, c), h(a′ , b′ , c′ )] = h(0, 0, aT b′ − a′ b), (14.19)
(verifique!) que é novamente da forma (14.18). Assim, o conjunto de matrizes da forma (14.18) forma
uma álgebra de Lie com o produto definido pelo comutador de matrizes. Essa álgebra de Lie, denotada
por ghn (C), é igualmente denominada álgebra de Heisenberg.
E. 14.27 Exercı́cio importante. Verifique que para quaisquer três elementos h1 , h2 e h3 da álgebra de
Heisenberg ghn (C) tem-se
[h1 , [h2 , h3 ]] = 0 . (14.20)
A relação (14.20) mostra que ghn (C) é o que se chama uma álgebra de Lie nilpotente (de grau 2). 6
Podemos encontrar em ghn (C) uma base especial formada pelas matrizes ~ e pk , qk , k = 1, . . . , n−2
definidas por
     
0 eTk 0 0 0 0  0 0 i 
     
     
pk = 
0 0 0 ,
 qk = 
0 0 e ,
k
~ = 
0 0 0  ,

     
     
0 0 0 0 0 0 0 0 0
sendo ek , k = 1, . . . , n − 2 as matrizes-coluna definidas por

1 0 0
0 1 0
0 0 0
e1 :=  ..  , e2 :=  ..  , ······ , en−2 :=  ..  ,
. . .
0 0 0
0 0 1
ou seja, todos as linhas de ej são nulas, exceto a j-ésima, que vale 1. No caso n = 4, por exemplo,
tem-se
   
0 1 0 0 0 0 1 0
   
   
0 0 0 0 0 0 0 0
   
p1 = 

 ,
 p2 = 

 ,

0 0 0 0 0 0 0 0
   
   
   
0 0 0 0 0 0 0 0
     
0 0 0 0 0 0 0 0 0 0 0 i
     
     
0 0 0 1 0 0 0 0 0 0 0 0
     
q1 = 

 ,
 q2 = 

 ,
 ~ = 

 .

0 0 0 0 0 0 0 1 0 0 0 0
     
     
     
0 0 0 0 0 0 0 0 0 0 0 0
Em analogia com o caso do grupo GH3 (C), é fácil constatar que as matrizes pk , qk e −i~ são
geradores de sub-grupos uniparamétricos de GHn (C).
E. 14.28 Exercı́cio. Verifique a afirmação do último parágrafo. Determine os sub-grupos uniparamétricos

de GHn (C) mencionados. 6
Como eTk el = δk, l para todos k e l, é um exercı́cio fácil (e fortemente recomendado!) verificar que
essas matrizes satisfazem as seguintes regras de comutação:
[pk , ql ] = −i~ δk, l ,
[pk , ~] = [qk , ~] = [pk , pl ] = [qk , ql ] = 0 ,

para todos k, l = 1, . . . , n − 2. Como o estudante familiarizado com a Mecânica Quântica percebe,

essas são as relações canônicas de comutação de um sistema com n − 2 graus de liberdade.
Para entender a relação da álgebra de Heisenberg ghn (C) com o grupo de Heisenberg GHn (C),
notemos em primeiro lugar que, assim como no caso n = 3, as matrizes h(a, b, c) são matrizes
nilpotentes de grau 3, ou seja,
h(a, b, c)3 = 0.
(Mostre isso!). É fácil com isso verificar que
 
aT b
1 a c + 2 
 
1   aT
b
exp (h(a, b, c)) = 1 + h(a, b, c) + h(a, b, c) = 
2
0 1 b  = H a, b, c +
 ,
2   2
 
0 0 1
(14.21)
ou seja,
aT b
H(a, b, c) = exp h a, b, c − . (14.22)
2
Pelo que vimos, todos os elementos do grupo de Heisenberg GHn (C) são obtidos pela exponenciação
de elementos da álgebra de Lie ghn (C), ou seja, a exponenciação é uma aplicação sobrejetora de ghn (C)
em seu grupo de Lie GHn (C). Em verdade, é fácil constatar que essa aplicação é também injetora (faça
isso!). A aplicação exponencial é, portanto, uma bijeção de ghn (C) em GHn (C).
E. 14.29 Exercı́cio importante. Usando a fórmula de Baker-Campbell-Hausdorff (equações (4.4), página

238, ou (4.46), página 265) e as relações (14.19) e (14.20), mostre que
!!
aT ′
b − a′T
b
exp h(a, b, c) exp h(a′ , b′ , c′ ) = exp h a + a′ , b + b′ , c + c′ + . (14.23)
2
Usando (14.21) e (14.22), re-obtenha de (14.23) a regra de produto (14.16). 6
14.2.3 Grupos Associados a Formas Bilineares e Sesquilineares

Seja E um espaço vetorial. Vamos denotar por GL(E) o conjunto de todos os operadores lineares
bijetores (e portanto invertı́veis) de E em E. É bem claro que GL(E) forma um grupo, tendo como
produto o produto de operadores.
Seja ω uma forma bilinear ou sesquilinear (caso E seja complexo) em E. Denotaremos por Ω(E, ω)
o subconjunto de GL(E) formado por todos os operadores lineares O invertı́veis tais que
ω(Ox, Oy) = ω(x, y)
para todos x, y ∈ E. Vamos mostrar que Ω(E, ω) é um sub-grupo de GL(E). Primeiramente é claro
que 1 ∈ Ω(E, ω). Em segundo lugar, sejam O1 e O2 dois operadores de Ω(E, ω). Teremos pelas
hipóteses que
ω(O1O2 x, O1 O2 y) = ω(O2x, O2 y) = ω(x, y)
para todos x, y ∈ E e, portanto, O1 O2 ∈ Ω(E, ω). Resta mostrar que se O ∈ Ω(E, ω) então
O −1 ∈ Ω(E, ω). De fato,
ω(O −1x, O −1 y) = ω(OO −1x, OO −1y) = ω(x, y)
para todos x, y ∈ E, que é o que querı́amos provar.

Vamos considerar casos particulares em que E é o espaço Rn ou Cn .
Seja E = Rn e seja ωA uma forma bilinear em Rn , que pelas considerações da Seção 2.4 é da forma
ωA (x, y) = hx, AyiR para alguma matriz real A. Neste caso Ω(Rn , ωA ) é o conjunto de todas as
matrizes M invertı́veis reais n × n tais que
hMx, AMyiR = hx, AyiR
para todos x, y ∈ Rn . Essa relação nos diz que
hx, M T AMyiR = hx, AyiR
para todos x, y ∈ Cn , o que implica

M T AM = A.
(Por quê?). Assim,

Ω(Rn , ωA ) = M ∈ Mat(R, n), det(M) 6= 0 e M T AM = A .
Se a matriz A for invertı́vel (ou seja, se ωA for não-degenerada), então podemos escrever também

Ω(Rn , ωA ) = M ∈ Mat(R, n), det(M) 6= 0 e M −1 = A−1 M T A .
Seja E = Cn e seja ωA uma forma sesquilinear em Cn , que pelas considerações da Seção 2.4 é da
forma ωA (x, y) = hx, AyiC para alguma matriz complexa A. Neste caso Ω(Cn , ωA ) é o conjunto de
todas as matrizes M invertı́veis complexas n × n tais que
hMx, AMyiC = hx, AyiC
para todos x, y ∈ Cn . Essa relação nos diz que
hx, M ∗ AMyiC = hx, AyiC
para todos x, y ∈ Rn , o que implica

M ∗ AM = A.
Acima M ∗ = M T . Assim,
Ω(Cn , ωA ) = {M ∈ Mat(C, n), det(M) 6= 0 e M ∗ AM = A} .
Se a matriz A for invertı́vel (ou seja, se ωA for não-degenerada), então podemos escrever também

Ω(Cn , ωA ) = M ∈ Mat(C, n), det(M) 6= 0 e M −1 = A−1 M ∗ A .
14.2.4 Os Grupos Ortogonais
• Os Grupos O(n) e SO(n)
Um caso de particular interesse é aquele onde E = Rn e A = 1, ou seja, ωA (x, y) = hx, yiR . Neste
caso o grupo Ω(Rn , ωA ) é denotado por O(n) e tem-se

O(n) := M ∈ Mat(R, n), M −1 = M T .
O(n) é o grupo das matrizes ditas ortogonais n × n.

Se M é uma matriz ortogonal, tem-se que MM T = 1. Daı́, 1 = det(1) = det(MM T ) =
det(M) det(M T ) = (det(M))2 . Concluı́mos que se uma matriz M é ortogonal, vale det(M) = ±1.
O(n) possui um sub-grupo, denominado SO(n), que é composto pelas matrizes ortogonais com
determinante igual a 1:

SO(n) := M ∈ Mat(R, n), M −1 = M T e det(M) = 1 .
Os grupos SO(n) representam generalizações do grupo de rotações do espaço tridimensional para o

espaço n-dimensional.
• Os Grupos O(p, m) e SO(p, m)
Um outro caso de particular interesse é aquele onde E = Rn e ω(x, y) = hx, η(p, m)yiR onde
η(p, m) é a matriz diagonal
 
1 
 
 . 
 .. 
 
 
 
 1 
 
η(p, m) := 

,
 (14.24)
 −1 
 
 
 
 .. 
 . 
 
 
−1
com p elementos +1 e m elementos −1, sendo p + m = n.

Neste caso o grupo Ω(Rn , ω) é denotado por O(p, m) e tem-se

O(p, m) := M ∈ Mat(R, n), M −1 = η(p, m)M T η(p, m) .
Se M ∈ O(p, m), tem-se que Mη(p, m)M T η(p, m) = 1. Daı́,

1 = det(1) = det Mη(p, m)M T η(p, m) = det(M) det(M T ) (det(η(p, m)))2 = (det(M))2 .
Concluı́mos que se M ∈ O(p, m), vale det(M) = ±1.

O(p, m) possui um sub-grupo, denominado SO(p, m), que é composto pelas matrizes de O(p, m)
com determinante igual a 1:

SO(p, m) := M ∈ Mat(R, n), M −1 = η(p, m)M T η(p, m) e det(M) = 1 .
Certos grupos O(p, m) e SO(p, m) desempenham um papel muito importante em Fı́sica, estando
ligados ao chamado Grupo de Lorentz, o qual tem importância na Teoria da Relatividade Especial. O
grupo de Lorentz é detalhadamente discutido na Seção 14.6.
14.2.5 Os Grupos Unitários
• Os Grupos U(n) e SU(n)
Mais um caso importante é aquele onde E = Cn e ωA é a forma sesquilinear associada a A = 1, ou

seja, ωA (x, y) = hx, yiC . Neste caso o grupo Ω(Cn , ωA ) é denotado por U(n) e tem-se

U(n) := M ∈ Mat(C, n), M −1 = M ∗ .
U(n) é o grupo das matrizes ditas unitárias n × n.

Se M é uma matriz unitária, tem-se que MM ∗ = 1. Daı́,

1 = det(1) = det (MM ) = det(M) det(M ) = det(M) det M
∗ ∗ T =
det(M)det(M T ) = det(M)det(M) = |det(M)|2 .
Concluı́mos que se M ∈ U(n), vale |det(M)| = 1.

U(n) possui um sub-grupo, denominado SU(n), que é composto pelas matrizes unitárias com de-
terminante igual a 1:

SU(n) := M ∈ Mat(C, n), M −1 = M ∗ e det(M) = 1 .
Os grupos U(2) e SU(3) desempenham um papel muito importante na Mecânica Quântica e na

Fı́sica das Partı́culas Elementares.
• Os Grupos U(p, m) e SU(p, m)
Mais um caso é aquele onde E = Cn e ω(x, y) = hx, η(p, m)yiC onde η(p, m) foi definida em
(14.24). Neste caso o grupo Ω(Cn , ω) é denotado por U(p, m) e tem-se

U(p, m) := M ∈ Mat(C, n), M −1 = η(p, m)M ∗ η(p, m) .
Se M ∈ U(p, m), tem-se que Mη(p, m)M ∗ η(p, m) = 1. Daı́,
1 = det(1) = det (Mη(p, m)M ∗ η(p, m)) = det(M) det(M ∗ ) (det(η(p, m)))2 =

det(M) det M T = det(M)det(M T ) = det(M)det(M) = |det(M)|2 .
Concluı́mos que se M ∈ U(p, m), vale |det(M)| = 1.

U(p, m) possui um sub-grupo, denominado SU(p, m), que é composto pelas matrizes de U(p, m)
com determinante igual a 1:

SU(p, m) := M ∈ Mat(C, n), M −1 = η(p, m)M ∗ η(p, m) e det(M) = 1 .
E. 14.30 Exercı́cio. Mostre que os elementos do grupo SO(n) são caracterizados por n(n − 1)/2
parâmetros reais. Mostre que os elementos do grupo SU(n) são caracterizados por n2 − 1 parâmetros reais.
6
Desse exercı́cio conclui-se, por exemplo, que os grupos SO(3) e SU(2) são caracterizados pelo mesmo
número de parâmetros reais, a saber 3. Conseqüências desse fato serão investigadas abaixo, quando
olharemos com mais detalhe para esses dois grupos.
• Os Grupos Ortogonais Complexos
Seja o espaço vetorial complexo Cn e seja a seguinte forma bilinear em Cn : ω(x, y) = hx, yiR =
x1 y1 +· · ·+xn yn para vetores x = (x1 , · · · , xn ) e y = (y1 , · · · , yn ) ∈ Cn . O grupo ortogonal complexo,
denotado por O(n, C), é o grupo das matrizes complexas que mantêm essa forma bilinear invariante:
O(n, C) := {M ∈ Mat (n, C)| ω(Mx, My) = ω(x, y), ∀x, y ∈ Cn }

= M ∈ Mat (n, C)| M T = M −1 .
O(n, C) não pode ser confundido com o grupo U(n). É fácil ver também que se M ∈ O(n, C), então
det(M) = ±1. Daı́, define-se

SO(n, C) := M ∈ Mat (n, C)| M T = M −1 e det(M) = 1 .
Como é fácil de se ver, SO(n, C) é um subgrupo de O(n, C).

14.3 Os Grupos SO(2), SO(3), SU(2) e SL(C, 2)

Em função de sua particular importância na Fı́sica, em especial na Fı́sica Quântica, vamos discutir
aqui com algum detalhe os grupos SO(3) e SU(2), os quais, ademais, como veremos, são intimamente
relacionados. Por razões pedagógicas, ilustraremos o estudo dos grupos SO(3) e SU(2) tratando antes
do grupo SO(2).
14.3.1 Os Grupos SO(2), O(2), SO(1, 1) e O(1, 1)
• Os Grupos SO(2) e O(2)
Conforme já definimos, o grupo SO(2) é o grupo das matrizes ortogonais 2×2 reais com determinante
igual a 1: SO(2) = {R ∈ Mat (R, 2)| RT = R−1 e det(R) = 1}. Vamos começar estudando a forma
geral de tais matrizes.
Como toda matriz 2×2 real, uma matriz genérica R ∈ SO(2) é da forma R = ( ac db ), onde a, b, c, d ∈
R. Vamos estudar a condição R−1 = RT . Podemos calcular R−1 usando a regra de Laplace, expressão
(3.11), página 157: R−1 é dada pela transposta damatriz dos cofatores de R dividida pelo determinante
de R, que é 1, neste caso. Ou seja, R−1 = −c d −b
a . Assim, R
−1
= RT significa nesse caso
   
 d −b a c 
  =  ,
   
−c a b d
a b
2 2
ou seja, c = −b e d = a. Logo, R = −b a . A condição det(R) = 1 implica, portanto, a + b = 1.
Podemos então escrever a e b na forma a = cos θ, b = − sen(θ), com θ ∈ (−π, π]. Resumindo:
  

 

cos θ − senθ 
 
SO(2) = 
  , onde θ ∈ (−π, π] .

 senθ cos θ 

Seja  
cos θ − senθ
R(θ) := 

 .

senθ cos θ
Como R(θ) = R(θ + 2π) vemos que SO(2) é homeomorfo ao cı́rculo unitário S 1 , que é uma variedade
diferenciável. Como o produto e a inversa são contı́nuos em SO(2), isso diz que SO(2) é um grupo de
Lie. É fácil constatar que R(0) = 1 e que vale a regra de produto R(θ)R(θ′ ) = R(θ+θ′ ) (faça!). SO(2) é,
portanto, um grupo uniparamétrico homomorfo ao grupo (R, +) e isomorfo ao grupo (R, + mod 2π).
O gerador J de SO(2) é definido por

   

−
d d  cos θ senθ  0 −1
J := R(θ) = 
 =  .
dθ dθ   
θ=0
senθ cos θ 1 0
θ=0
É igualmente elementar constatar que J 2 = −1. Daı́

X∞
θm m
exp(θJ) = J
m=0
m!
X∞ ∞
θ2k 2k X θ2k+1
= J + J 2k+1
k=0
(2k)! k=0
(2k + 1)!
∞
! ∞
!
X (−1)k θ2k X (−1)k θ2k+1
= 1+ J
k=0
(2k)! k=0
(2k + 1)!
= cos(θ)1 + sen(θ)J
= R(θ).
Assim,
SO(2) = {exp(θJ), onde θ ∈ (−π, π]} . (14.25)
Com isso, (14.25) está nos dizendo que todo elemento de SO(2) pode ser escrito como exponencial do
seu gerador. Veremos que algo semelhante também se dá nos grupos SO(3) e SU(2).
O grupo O(2) é o grupo das matrizes ortogonais 2 × 2 reais: O(2) = {R ∈ Mat (R, 2)| RT = R−1 }.
Se R ∈ O(2) então det(R) = ±1. O caso det(R) = 1 corresponde a SO(2), que tratamos acima. Vamos
considerar o caso det(R) = −1.
Como toda matriz 2×2 real, uma matriz genérica R ∈ O(2) com det(R) = −1 é da forma R = ( ac db ),
onde a, b, c, d ∈ R. Neste caso, como det(R) = −1, teremos R−1 = −d b
c −a . Assim, a condição
R−1 = RT significa nesse caso    
−d b  a c 
  =  ,
   
c −a b d

ou seja, c = b e d = −a. Logo, R = ab −ab
. A condição det(R) = −1 implica novamente a2 + b2 = 1.
Podemos então escrever a e b na forma a = cos θ, b = − senθ, com θ ∈ (−π, π]. Assim, R é da forma
    
 cos θ − senθ  1 0  cos θ − senθ
R = 

 = 
 


.

− senθ − cos θ 0 −1 senθ cos θ
Resumindo:
 P   

 

1 0  cos θ − senθ 
O(2) = 




 , onde P ∈ {0, 1} e θ ∈ (−π, π] .


 

 0 −1 senθ cos θ 
• O grupo U(1)
E. 14.31 Exercı́cio. Mostre que o grupo U(1) := {z ∈ C, |z| = 1} é isomorfo ao grupo SO(2). 6
• O grupo O(1, 1) (O Grupo de Lorentz em 1+1 dimensões)
Aqui estudaremos em detalhe o grupo O(1, 1), também denominado Grupo de Lorentz em 1+1
dimensões. A leitura deste tópico pode servir de introdução à leitura da Seção 14.6 que tratará do
Grupo de Lorentz em 3+1 dimensões.
Seja M matriz invertı́vel real 2 × 2 na forma M = ( ac db ), onde a, b, c, d ∈ R. Tem-se que,
1 a −c
M −1 = ad−bc d −b 1 0 T
−c a , onde det(M) = ad − bc. Se η := ( 0 −1 ) então ηM η = −b d , como facilmente
se vê.
a −c

Se M ∈ SO(1, 1) então M −1 = ηM T η e det(M) = 1. Isso significa que −c d −b
a = −b d . Assim,
devemos ter a = d e b = c. A condição det(M) = 1 significa a2 − b2 = 1. Logo,

SO(1, 1) = M ∈ Mat (R, 2)| M = ( ab ab ) com a2 − b2 = 1, a, b ∈ R .
Como se vê, SO(1, 1) é homeomorfo ao conjunto H+ ∪ H− formado por duas hipérboles
p
H± := {(x, y) ∈ R2 | x = ± 1 + y 2}.
SO(1, 1) tem, portanto, duas componentes conexas, que denotaremos por L↑+ e L↓+ :
n √ o
L↑+ := M ∈ Mat (R, 2)| M = 1+b2 √ b
b 1+b2
, b ∈ R ,
n √ o
L↓+ := M ∈ Mat (R, 2)| M = − 1+b2 √ b
b − 1+b2
, b∈R .
Note-se que apenas L↑+ é conexa à identidade e, portanto, apenas a componente L↑+ é um subgrupo de
SO(1, 1).
Parametrizando b ∈ R na forma b = − senh(z), com z ∈ R, constatamos que
n o
− senh(z)
L↑+ = M ∈ Mat (R, 2)| M = −cosh(z)
senh(z) cosh(z) , z ∈ R ,
n o
− cosh(z) − senh(z)
L↓+ = M ∈ Mat (R, 2)| M = − senh(z) − cosh(z) , z∈R .
Os elementos de
O(1,a 1)−cque
não são de SO(1, 1) têm determinante
−1. Assim, são matrizes que
−d b
satisfazem c −a = −b d sendo, portanto, da forma −b −a com a2 − b2 = 1. O conjunto de
a b
tais matrizes é igualmente homeomorfo ao conjunto H+ ∪ H− e consta também de duas componentes

conexas, a saber, os conjuntos
n √ o
↑ − 1+b2 √ b
L− := M ∈ Mat (R, 2)| M = −b 1+b2
, b∈R ,
n √ o
L↓− := M ∈ Mat (R, 2)| M = 1+b2 √ b
−b − 1+b2
, b∈R .
É claro que nem L↑− nem L↓− são subgrupos de O(1, 1). Parametrizando b ∈ R novamente na forma
b = − senh(z), com z ∈ R, constatamos que
n o
↑ − cosh(z) − senh(z)
L− = M ∈ Mat (R, 2)| M = senh(z) cosh(z) , z∈R ,
n o
cosh(z) − senh(z)
L↓− = M ∈ Mat (R, 2)| M = senh(z) − cosh(z) , z∈R .
O grupo O(1, 1) é, portanto, a união de quatro componentes conexas:

O(1, 1) = L↑+ ∪ L↓+ ∪ L↑− ∪ L↓− ,
sendo cada componente disjunta das demais. Dentre elas apenas L↑+ é um grupo.
↑ ↓
Definindo as matrizes P := ( −1 0 1 0
0 1 ) ∈ L− e T := ( 0 −1 ) ∈ L− , podemos escrever
n o
− senh(z)
L↓+ = M ∈ Mat (R, 2)| M = T −cosh(z) senh(z) cosh(z) P, z ∈ R ,
n o
− senh(z)
L↑− = M ∈ Mat (R, 2)| M = −cosh(z)
senh(z) cosh(z) P, z ∈ R ,
n o
− senh(z)
L↓− = M ∈ Mat (R, 2)| M = T −cosh(z)
senh(z) cosh(z) , z ∈ R ,
o que exibe a relação entre as matrizes dessas três componentes conexas e as matrizes de L↑+ .

L↑+ = {M ∈ Mat (R, 2)| M = exp(zM1 ), z ∈ R} ,
0 −1

onde M1 := −1 0 . 6
O grupo O(1, 1) é por vezes denominado Grupo de Lorentz em 1+1 dimensões. L↑+ é denominado
Grupo de Lorentz próprio ortócrono em 1+1 dimensões. O Grupo de Lorentz em 3+1 dimensões será
estudado em detalhe na Seção 14.6, página 819.
Para fazermos contacto com a teoria da relatividade restrita, façamos uma outra parametrização
de L↑+ , definindo v = c tanh(z). Com isso −c < v < c, cosh(z) = γ(v) e senh(z) = vc γ(v), onde
γ(v) = (1 − (v/c)2 )−1/2 . Assim,
n o
γ(v) − vc γ(v)
L↑+ = M ∈ Mat (R, 2)| M = − v γ(v) γ(v) , −c < v < c .
c
′
Logo, M ∈ L↑+ age em um vetor x
ct
como M x
ct
= x
ct′
, onde
′ x − vc t ′ t − cv2 x
x = q , t = q ,
2 2
1 − vc2 1 − vc2
que são as bem conhecidas transformações de Lorentz da teoria da relatividade restrita.
E. 14.33 Exercı́cio. Qual a interpretação fı́sica das matrizes P e T introduzidas acima? 6
14.3.2 O Grupo SO(3)

Conforme já definimos, SO(3) é o grupo formado por todas as matrizes 3 × 3 reais R tais que RT = R−1
e tais que det(R) = 1. Vamos começar seu estudo mostrando que toda a matriz R 6= 1 de SO(3)
representa uma rotação por algum ângulo em torno de algum eixo. A essa interpretação seremos
conduzidos pelas duas proposições que seguem.
Proposição 14.3 Para cada matriz R ∈ SO(3), R 6= 1, existe um sub-espaço unidimensional V de
R3 formado por vetores que são deixados invariantes por R: R~v = ~v para todo ~v ∈ V . 2
Note que o sub-espaço V pode não ser o mesmo para matrizes R distintas. Note também que
excluı́mos R = 1 por razões óbvias: todo vetor de R3 é invariante por 1 e não apenas um sub-espaço
unidimensional.
Prova. Seja R 6= 1 uma matriz qualquer de SO(3), fixa daqui por diante. Para x ∈ R, seja p(x) :=
det(x1 − R), o polinômio caracterı́stico de R. Se escrevermos explicitamente o determinante da matriz
x1 −R (faça!), veremos que p(x) = +x3 +α1 x2 +α2 x+α3 , onde as constantes αi dependem dos elementos
de matriz de R. Como o termo de maior grau em x de p(x) é +x3 , concluı́mos que limx→∞ p(x) = +∞.
Fora isso, é claro que p(0) = det(−R) = − det(R) = −1 (por que?). Esses dois fatos dizem que o
polinômio p(x) deve ter um zero para algum x0 > 0.
Vamos provar que x0 = 1. Como det(x0 1 − R) = 0, concluı́mos que a matriz R − x0 1 não possui
uma inversa. Portanto, deve existir pelo menos um vetor não-nulo ~v0 ∈ R3 tal que (R − x0 1)~v0 = 0,
ou seja, R~v0 = x0~v0 . Como R ∈ SO(3), segue que
|~v0 |2 = h~v0 , ~v0 iR = hR~v0 , R~v0 iR = hx0~v0 , x0~v0 iR = x20 h~v0 , ~v0 iR .
Logo x20 = 1 e, como x0 > 0, segue x0 = 1. Assim, R~v0 = ~v0 , ou seja, ~v0 é um autovetor de R com
autovalor 1.
Seja V o sub-espaço de R3 formado por todos os vetores ~v que são autovetores de R com autovalor
1: V = {~v ∈ R3 | R~v = ~v }. Como acabamos de mostrar, V é não-trivial, ou seja, V 6= {0} e sua
dimensão pode ser 1, 2 ou 3.
Notemos de passagem que se v ∈ V então vale também que RT v = v. De fato, se aplicarmos RT à
direita na igualdade v = Rv e lembrarmos que RT R = 1, segue que RT v = v. Notemos também que
V ⊥ , o sub-espaço formado por todos os vetores ortogonais a todos os vetores de V , é também deixado
invariante por R, ou seja, se u ∈ V ⊥ então Ru ∈ V ⊥ . De fato, se v ∈ V e u ∈ V ⊥
hRu, viR = hu, RT viR = hu, viR = 0.
Como isso vale para todo v ∈ V , concluı́mos que Ru ∈ V ⊥ , como querı́amos.

Como dissemos, a dimensão de V pode ser igual a 1, 2 ou 3. Vamos mostrar que os dois últimos
casos não são possı́veis.
Se a dimensão de V fosse 3, V seria idêntico ao espaço R3 . Nesse caso então R~v = ~v para todo
vetor ~v ∈ R3 , ou seja, R = 1, situação que excluı́mos.
Vamos supor então que a dimensão de V é 2. Nesse caso a dimensão de seu complemento ortogonal
V é 1. Agora, como V ⊥ é unidimensional e é invariante pela ação de R, teremos para u ∈ V ⊥ que
⊥
Ru = λu, para algum λ ∈ R. Mas isso diz que
hu, uiR = hRu, RuiR = hλu, λuiR = λ2 hu, uiR
e, portanto, λ = ±1. O caso λ = +1 já está excluı́do (pois aı́ u ∈ V ). Logo λ = −1 e Ru = −u.
Conseqüentemente, se escolhermos em R3 uma base ortonormal formada por três vetores v1 , v2 e u
com v1 , v2 ∈ V e u ∈ V ⊥ , a matriz R teria a forma
 
1 0 0 
 
 
R = 
0 1 0 .

 
 
0 0 −1
Mas com isso terı́amos det(R) = −1, uma contradição! Logo a dimensão de V dever ser igual a 1, e
isso completa a prova.
Seja R 6= 1 um elemento de SO(3) e seja VR o sub-espaço unidimensional formado pelos vetores

deixados invariantes por R e cuja existência foi estabelecida na proposição que acabamos de provar.
Como também vimos, R também deixa invariante o sub-espaço bidimensional VR⊥ , que é ortogonal a
VR .
Isso significa que se escolhermos em R3 uma base ortonormal v, u1 , u2 com v ∈ VR e ui ∈ VR⊥ , a
matriz R terá a forma  
 1 0 0 
 
 
 
 0 
 
R := 
,
 (14.26)
 r 
 
 
 
 0 
onde r é uma matriz real 2 × 2. Que propriedades tem r? Como veremos, r ∈ SO(2). De fato, pela
definição de R, teremos para qualquer vetor u, que hu, uiR = hRu, RuiR , mas se escolhermos u ∈ VR⊥ ,
teremos Ru = ru em VR⊥ e a relação acima significa hu, uiR = hru, ruiR . Logo r ∈ O(2). Fora isso,
(14.26) mostra que 1 = det(R) = det(r), provando que r ∈ SO(2). Como sabemos a forma geral de
uma matriz de SO(2) é  
 cos ϕ − senϕ 
r = 

,

senϕ cos ϕ
com ϕ ∈ (−π, π]. Isso está também dizendo que R representa uma rotação de ϕ em torno do eixo
representado por VR .
Concluı́mos então o seguinte:
Proposição 14.4 Para cada R ∈ SO(3) existe uma base ortonormal de R3 onde R é da forma
 
 1 0 0 
 
 
R = 
 0 cos ϕ − senϕ

 (14.27)
 
 
0 senϕ cos ϕ
com ϕ ∈ (−π, π]. 2
Pela discussão precedente, se considerarmos os elementos de SO(3) que correspondem a rotações

por um ângulo ϕ no sentido horário em torno dos eixos canônicos 1, 2 e 3 do espaço tridimensional R3 ,
eixos esses que suporemos orientados positivamente, como usual, teremos que as respectivas matrizes
de rotação são dadas por
   
 1 0 0   cos ϕ 0 senϕ 
   
   
R1 (ϕ) = 
 0 cos ϕ − senϕ
,
 R2 (ϕ) = 
 0 1 0 ,

   
   
0 senϕ cos ϕ − senϕ 0 cos ϕ
 
 cos ϕ − senϕ 0 
 
 
R3 (ϕ) =  
 senϕ cos ϕ 0  , (14.28)
 
 
0 0 1
com ϕ ∈ (−π, π].

É um exercı́cio elementar (faça) verificar que cada matriz Ri (θ) representa um sub-grupo unipa-
ramétrico de SO(3): Ri (0) = 1 e Ri (θ)Ri (θ′ ) = Ri (θ + θ′ ). Os geradores desses sub-grupos são dados
por
   

 1 0 0   0 0 0 
   
d d    
J1 := R1 (ϕ) =  0 cos ϕ − senϕ  =  0 0 −1  , (14.29)
dϕ ϕ=0 dϕ 






   

0 senϕ cos ϕ 0 1 0
ϕ=0
   

 cos ϕ 0 senϕ   0 0 1 
   
d d    
J2 := R2 (ϕ) =  0 1 0  =  0 0 0 

, (14.30)
dϕ ϕ=0 dϕ 


  
   
− senϕ 0 cos ϕ −1 0 0
ϕ=0
   

 cos ϕ − senϕ 0   0 −1 0 
   
d d    
J3 := R3 (ϕ) =  senϕ cos ϕ 0  =  1 0 0 . (14.31)
dϕ ϕ=0 dϕ 







   

0 0 1 0 0 0
ϕ=0
E. 14.34 Exercı́cio importantı́ssimo. Verifique que as matrizes J1 , J2 e J3 satisfazem as relações de

comutação
3
X
[Ja , Jb ] = εabc Jc , (14.32)
c=1
onde εabc , com a, b, c = 1, 2, 3, é o chamado sı́mbolo (ou tensor) de Levi-Civita9, definido da seguinte
forma: 



 1, se abc for uma permutação par de 123



εabc := −1, se abc for uma permutação ı́mpar de 123 . (14.33)






 0, se quaisquer dois ı́ndices forem iguais
Esse exercı́cio nos diz que as matrizes J1 , J2 e J3 formam uma álgebra de Lie, denominada álgebra
de Lie so(3) (com letras minúsculas), para lembrar sua associação com o grupo SO(3).
9
Tullio Levi-Civita (1873-1941).
~ = (α1 , α2 , α3 ) ∈ R3 e β~ = (β1 , β2 , β3 ) ∈ R3 . Usando (14.32), mostre

E. 14.35 Exercı́cio. Sejam α
que h i
~ ~ ~
~ · J, β · J = (~
α ~ · J,
α × β) ~ (14.34)
~ · J~ é uma abreviação sugestiva para α1 J1 + α2 J2 + α3 J3 .

sendo que “×” denota o produto vetorial em R3 e α
6
E. 14.36 Exercı́cio. Verifique que as matrizes J1 , J2 e J3 satisfazem

 
 0 0 0 
 
 
J12 
= − 0 1 0 
 =: E1 , (14.35)
 
 
0 0 1
 
 1 0 0 
 
 
J22 = − 0 0 0 

 =: E2 , (14.36)
 
 
0 0 1
 
 1 0 0 
 
 
J32 = − 
 0 1 0  =: E3 . (14.37)
 
 
0 0 0
E. 14.37 Exercı́cio. Verifique que com as matrizes E1 , E2 e E3 acima podemos escrever
Ra (ϕ) = 1 + (1 − cos(ϕ))Ea + sen(ϕ)Ja (14.38)
para a = 1, 2 e 3. 6
Com o uso de (14.35)-(14.37) podemos facilmente provar o seguinte fato: para a = 1, 2 ou 3 tem-se
Ra (ϕ) = exp(ϕJa ).
Vamos mostrar isso. Por (14.35)-(14.37) é evidente que Ja3 = Ea Ja = −Ja (verifique!). Logo, para todo
k ∈ N,
Ja2k = (−1)k+1 Ea , ∀k > 0 e Ja2k+1 = (−1)k Ja , ∀k ≥ 0. (14.39)
Assim, temos para a = 1, 2 ou 3,

X∞
ϕm m
exp(ϕJa ) = 1+ J
m=1
m! a
X∞ ∞
ϕ2k 2k X ϕ2k+1 2k+1
= 1+ J + J
k=1
(2k)! a k=0
(2k + 1)! a
∞
! ∞
!
(14.39) X (−1)k+1 ϕ2k X (−1)k ϕ2k+1
= 1+ Ea + Ja
(2k)! (2k + 1)!
k=1 k=0
= 1 + (1 − cos(ϕ))Ea + sen(ϕ)Ja
(14.38)
= Ra (ϕ),
que é o que querı́amos mostrar.

Vamos agora mostrar que todo elemento de SO(3) pode ser escrito como exponencial de uma
combinação linear das matrizes Ja .
Proposição 14.5 Seja R ∈ SO(3). Então existe um vetor ~η ∈ R3 , ~η = (η1 , η2 , η3 ), com |~η | = 1 e um
ângulo θ ∈ (−π, π] tais que
R = exp θ~η · J~ ,
onde ~η · J~ := η1 J1 + η2 J2 + η3 J3 . Em particular, toda matriz de rotação R ∈ SO(3) pode ser expressa

na forma 2
R = 1 + (1 − cos(θ)) ~η · J~ + sen(θ) ~η · J~ , (14.40)
ou seja, escrevendo-se explicitamente,
 
2
 (1 − cos(θ))η1 + cos(θ) (1 − cos(θ))η1 η2 − sen(θ)η3 (1 − cos(θ))η1 η3 + sen(θ)η2 
 
 
 
 
 
 

R = (1 − cos(θ))η1 η2 + sen(θ)η3 (1 − cos(θ))η3 η2 − sen(θ)η1 
2
(1 − cos(θ))η2 + cos(θ)  .
 
 
 
 
 
 
(1 − cos(θ))η1 η3 − sen(θ)η2 (1 − cos(θ))η3 η2 + sen(θ)η1 (1 − cos(θ))η32 + cos(θ)
A expressão (14.40) é denominada fórmula de Rodrigues10 .
10
Benjamin Olinde Rodrigues (1794-1851). Rodrigues foi banqueiro e matemático amador, nascido na França, mas de
origem judaico-portuguesa. Seu nome é mais conhecido por uma identidade sobre polinômios de Legendre.
Prova. Se R = 1 podemos escolher θ = 0. Vamos supor R 6= 1. Pela Proposição 14.3, existe um

sub-espaço unidimensional VR que é deixado invariante por R. Vamos escolher ~η como sendo um vetor
de VR com comprimento igual a 1. É óbvio que R~η = ~η. Pela Proposição 14.4, R representa uma
rotação de um ângulo θ (no sentido horário se θ > 0) em torno de ~η .

O que faremos para demonstrar nossa proposição é mostrar que exp θ~η · J~ mantem ~η invariante
e roda os vetores perpendiculares a ~η de um ângulo
θ (no sentido horário) em torno do eixo definido
por ~η. Com isso, podemos identificar R = exp θ~η · J~ , como queremos.

Vamos abaixo calcular de modo mais explı́cito o que é a matriz exp θ~η · J~ mas, antes disso, vamos

demonstrar que exp θ~η · J~ ∈ SO(3).
Para isso começamos com a observação que
 
 0 −η3 η2 
 
 
~η · J~ := η1 J1 + η2 J2 + η3 J3 :=  η
 3 0 −η 
1
(14.41)
 
 
−η2 η1 0
~ T = −~η · J~.
é uma matriz anti-simétrica, ou seja, (~η · J)
Assim,
h iT X∞ m
h iT m
θ
exp θ~η · J~ = ~η · J~
m=0
m!
X∞
(−θ)m ~m
= (~η · J)
m=0
m!

= exp −θ~η · J~
h i−1
~
= exp θ~η · J .
~ é ortogonal, ou seja, sua transposta é igual a sua inversa. Resta-nos

η · J)
Isso provou que exp(θ~
mostrar que det exp θ~η · J~ = 1. Como exp θ~η · J~ é ortogonal, seu determinante é ±1. Assim,

como det exp θ~η · J~ depende continuamente de θ (para isso, vide, por exemplo a expressão (14.44)

abaixo), temos que det exp θ~η · J~ é constante para todo θ ∈ (−π, π]. Calculando em θ = 0,
teremos
det exp θ~η · J~ = det exp 0~η · J~ = det(1) = 1.

Logo, exp θ~η · J~ ∈ SO(3) para todo θ e todo ~η .

Vamos agora expressar de modo mais explı́cito a matriz exp θ~η · J~ . Para isso será importante
mostrar que 3
~η · J~ = − ~η · J~ . (14.42)
A maneira pedestre de mostrar isso é por verificação explı́cita. De fato, por (14.41),
 
η12 − 1 η1 η2 η1 η3 
2  
 
~
~η · J =  η1 η2 η22 − 1 η3 η2 

. (14.43)
 
 
η1 η3 η3 η2 η32 − 1
~ obtem-se (14.42). Temos, então, o seguinte: para todo k ∈ N,

Multiplicando-se novamente por ~η · J,
k > 0, vale
2k 2 2k+1
~η · J~ = (−1)k+1 ~η · J~ e ~η · J~ = (−1)k ~η · J~ .
Logo,
X∞
θm ~m
~
exp θ~η · J = 1+ ~η · J
m=1
m!
θ2k ~2k X θ2k+1 ~2k+1

X∞ ∞
= 1+ ~η · J + ~η · J
k=1
(2k)! k=0
(2k + 1)!
! !
∞
X (−1)k+1 θ2k 2 ∞
X (−1)k θ2k+1
= 1+ ~
~η · J + ~η · J~
(2k)! (2k + 1)!
k=1 k=0
2
= 1 + (1 − cos(θ)) ~η · J~ + sen(θ) ~η · J~ .
Resumindo, 2
exp θ~η · J = 1 + (1 − cos(θ)) ~η · J + sen(θ) ~η · J .
~ ~ ~ (14.44)
É um exercı́cio fácil verificar que

    
 0 −η3 η2  η1  0
    
    
~η · J~ ~η = 
 η3 0 −η1     
 η2  = 0 .
    
    
−η2 η1 0 η3 0

Assim, conclui-se, tanto pela expansão em série de Taylor de exp θ~η · J~ quando por (14.44) que

exp θ~η · J~ ~η = ~η,

ou seja, tal como R, a matriz exp θ~η · J~ mantem ~η invariante para qualquer θ.

1
Para finalizar, vamos então escolher uma base em R3 na qual ~η = 0 . Nessa base teremos ~η · J~ = J1
0
2
e ~η · J~ = E1 . Logo, por (14.44), teremos nessa base que exp θ~η · J~ se expressa como
 
 1 0 0 
 
 
exp θ~η · J~ = 1 + (1 − cos(θ))E1 + sen(θ)J1 = 
 0 cos θ − senθ


 
 
0 senθ cos θ

que é a forma (14.27) da matriz R. Isso permite-nos identificar R = exp θ~η · J~ , completando a prova.
Resumindo nossas conclusões,

n o
SO(3) = exp θ~η · J~ , θ ∈ [−π, π], ~η ∈ R3 com |~η | = 1 .
A Proposição 14.5 está nos dizendo que todo elemento de SO(3) pode ser escrito como a exponencial
de um elemento de sua álgebra de Lie. Isso constata um teorema geral (vide, por exemplo, [132]) que
diz que se um grupo de Lie é compacto11 e sua álgebra de Lie é semi-simples, a aplicação exponencial
da sua álgebra de Lie é sobrejetora no grupo. De fato, SO(3) é compacto e so(3) é semi-simples.
Para finalizar esta exposição sobre o grupo SO(3), vamos descrever sua estrutura enquanto variedade
diferenciável. Como vimos, os elementos de SO(3) são parametrizados por pontos θ~η de R3 , sendo que
θ ∈ [−π, π] e |~η | = 1. O conjunto de todos os pontos desse tipo compreende a esfera de raio π
centrada na origem. Para cada ~η fixo, os dois pontos antı́podas da superfı́cie dessa esfera que estão na
direção definida por ~η são ±π~η . É claro, porém, que tais pontos correspondem à mesma rotação: uma
rotação de π em torno de um eixo é o mesmo que uma rotação
de−π em torno do mesmo eixo. De
fato, é trivial verificar por (14.44) que exp π~η · J~ = exp −π~η · J~ . Assim, SO(3) corresponde nessa
imagem ao espaço obtido tomando-se uma esfera e identificando-se todos os pares de pontos antı́podas.
Na linguagem da geometria diferencial, o conjunto que assim se obtem é denominado espaço projetivo
real (em quatro dimensões) e denotado por RP 3 . O conjunto RP n é a variedade diferenciável n-
dimensional formada pelo conjunto de todas as linhas retas de Rn+1 que passam pela origem. SO(3)
é homeomorfo, enquanto variedade, ao espaço projetivo RP 3 . Como veremos na próxima seção, o
grupo SU(2), que é fortemente aparentado a SO(3), tem outra estrutura: SU(2) é homeomorfo a S 3 , a
superfı́cie da esfera de raio 1 em R4 . Para uma introdução à geometria diferencial, vide [109].
E. 14.38 Exercı́cio. Leia [109] e resolva todos os seus exercı́cios. 6
11
Para a definição da noção de compacidade e suas propriedades, vide Seção 24.2, página 1200.
14.3.3 O Grupo SU(2)
• As Matrizes de Pauli
De grande importância no estudo do grupo SU(2) são as chamadas matrizes de Pauli12 , definidas
como      
 0 1   0 −i   1 0 
σ1 := 

,
 σ2 := 


 e σ3 := 

.
 (14.45)
1 0 i 0 0 −1
As matrizes de Pauli satisfazem as seguintes relações algébricas: para todos a, b = 1, 2, 3 valem

3
X
[σa , σb ] := σa σb − σb σa = 2i εabc σc , (14.46)
c=1
{σa , σb } := σa σb + σb σa = 2δab 1, (14.47)

3
X
σa σb = δab 1 + i εabc σc . (14.48)
c=1
E. 14.39 Exercı́cio importantı́ssimo (todo estudante deve fazê-lo pelo menos uma vez na vida). Ve-
rifique as relações algébricas acima. Note que (14.48) segue diretamente de (14.47) e (14.46). 6
Note também que as matrizes de Pauli são auto-adjuntas: σi∗ = σi . Note ainda que as quatro
matrizes 1, σ1 , σ2 , σ3 formam uma base em Mat (C, 2): toda matriz complexa 2 × 2 pode ser escrita
como uma combinação linear das mesmas.
E. 14.40 Exercı́cio. Mostre que as matrizes 1, σ1 , σ2 , σ3 são ortonormais em relação ao seguinte

produto escalar definido em Mat (C, 2): hA, Bi := 12 Tr (A∗ B). 6
As matrizes de Pauli desempenham um papel importante na Mecânica Quântica, estando associadas

ao operador de spin para partı́culas de spin 1/2, tais como o elétron, o próton, o neutron, os quarks e
outras.
• A Forma Geral das Matrizes de SU(2)
Conforme já definimos, o grupo SU(2) é o grupo das matrizes unitárias complexas 2 × 2 com
determinante igual a 1: SU(2) = {U ∈ Mat (C, 2)| U ∗ = U −1 e det(U) = 1}. Vamos começar
estudando a forma geral de tais matrizes, procurando uma parametrização conveniente para as mesmas
que permitirá estudar as propriedades de SU(2) como um grupo de Lie.
Como toda matriz 2 × 2 complexa, uma matriz genérica U ∈ SU(2) é da forma U = ( ac db ), onde
a, b, c, d ∈ C. Vamos estudar a condição U −1 = U ∗ . Podemos calcular U −1 usando a regra de Laplace,
12
Wolfgang Ernst Pauli (1900-1958).
expressão (3.11), página 157: U −1 é dada pela transposta da matriz

dos cofatores de U dividida pelo
determinante de U, que é 1, neste caso. Ou seja, U −1 = −c d −b
a . Assim, U −1 = U ∗ significa nesse caso
   
 d −b a c 
  =  ,
   
−c a b d
a b

ou seja, c = −b e d = a. Logo, U = −b a . A condição det(U) = 1 implica, portanto, |a|2 + |b|2 = 1.
Resumindo:   

 

 a b  
SU(2) =   , onde a, b ∈ C com |a| 2
+ |b| 2
= 1 .
  

 −b a 

Escrevendo os números complexos a e b como soma de suas partes real e imaginária: a = a1 + ia2
e b = b1 + ib2 , com a1 , a2 , b1 , b2 ∈ R, poderemos escrever U como uma combinação linear de matrizes
de Pauli (e da unidade):
 
 a1 + ia2 b1 + ib2 
U =   = a1 1 + i(b2 σ1 + b1 σ2 + a2 σ3 ). (14.49)
 
−b1 + ib2 a1 − ia2
Essa expressão será usada adiante.

Vamos agora nos voltar para a condição |a|2 + |b|2 = 1. A mesma significa a21 + a22 + b21 + b22 = 1.
Temos então,
  

 

 a1 + ia2 b1 + ib2  
SU(2) =    , onde (a , a , b , b ) ∈ R4
com a2
+ a2
+ b2
+ b2
= 1 .
  1 2 1 2 1 2 1 2


 −b1 + ib2 a1 − ia2 

(14.50)
Lembremos que para todo inteiro n ≥ 1, o conjunto de pontos
S n := {(x1 , . . . , xn+1 ) ∈ Rn+1 com x21 + · · · + x2n+1 = 1} ⊂ Rn+1
designa a superfı́cie da esfera unitária de Rn+1 . Assim, vemos que SU(2) é homeomorfo a S 3 , a
superfı́cie da esfera unitária do espaço quadridimensional R4 . Isso ilustra o fato que SU(2) é uma
variedade diferenciável. Como o produto e a inversa são contı́nuos em SU(2), o mesmo é um grupo de
Lie.
Vamos tentar agora parametrizar de outra forma o vetor (a1 , a2 , b1 , b2 ) ∈ S 3 que aparece do lado
direito de (14.50). Claramente, a condição a21 + a22 + b21 + b22 = 1 diz que a1 , a2 , b1 e b2 são números
reais contidos no intervalo [−1, 1]. Podemos assim definir um ângulo θ ∈ [−π, π] de forma que
a1 = cos θ.
Fora isso, para cos(θ) 6= ±1, podemos definir
b2 b1 a2
η1 := , η2 := , η3 := .
senθ senθ senθ
A condição a21 + a22 + b21 + b22 = 1 implica então (verifique!) que η12 + η22 + η32 = 1. Assim, o vetor
~η := (η1 , η2 , η3 ) de R3 é um vetor de comprimento 1. Com esses novos parâmetros θ e ~η podemos
reescrever (14.49) como
U = cos(θ)1 + i sen(θ)~η · ~σ ,
onde  
 η3 η1 − iη2 
~η · ~σ := η1 σ1 + η2 σ2 + η3 σ3 = 

.

η1 + iη2 −η3
Assim,
SU(2) = cos(θ)1 + i sen(θ)~η · ~σ , onde θ ∈ [−π, π] e ~η ∈ R3 com |~η| = 1 .
A importância de se expressar U ∈ SU(2) dessa forma, em termos de θ e ~η , provem da seguinte

identidade:
cos(θ)1 + i sen(θ)~η · ~σ = exp (iθ~η · ~σ ) .
Vamos provar isso expandindo o lado direito e verificando que é igual ao lado esquerdo. De fato, pela
definição da exponencial de matrizes,
X∞
(iθ)m
exp (iθ~η · ~σ ) = (~η · ~σ )m
m=0
m!
∞
X X∞
(iθ)2k 2k (iθ)2k+1
= (~η · ~σ ) + (~η · ~σ )2k+1 ,
k=0
(2k)! k=0
(2k + 1)!
onde, na última linha, apenas fizemos separar a soma em m da primeira linha nos casos m par e m
ı́mpar. É um exercı́cio muito fácil (faça!) verificar que
 2
 η3 η1 − iη2 
(~η · ~σ )2 =   = 1.
 
η1 + iη2 −η3
Portanto, (~η · ~σ )2k = 1 e (~η · ~σ )2k+1 = ~η · ~σ . Logo,

∞
! ∞
!
X (iθ)2k X (iθ)2k+1
exp (iθ~η · ~σ ) = 1+ ~η · ~σ
k=0
(2k)! k=0
(2k + 1)!
= cos(θ)1 + i sen(θ)~η · ~σ ,
que é o que querı́amos mostrar.

Resumindo nossas conclusões,

SU(2) = exp (iθ~η · ~σ ) onde θ ∈ [−π, π] e ~η ∈ R3 com |~η | = 1 . (14.51)
Se tomarmos ~η1 = (1, 0, 0), ~η2 = (0, 1, 0) ou ~η3 = (0, 0, 1), obtemos três sub-grupos unipa-
ramétricos distintos de SU(2):
 
 cos θ i senθ 
U1 (θ) := exp(iθσ1 ) = 

,

i senθ cos θ
 
 cos θ senθ 
U2 (θ) := exp(iθσ2 ) = 

,

− senθ cos θ
 
eiθ 0 
U3 (θ) := exp(iθσ3 ) = 

,

0 e−iθ
respectivamente. Isso nos permite identificar as matrizes de Pauli σ1 , σ2 e σ3 como os geradores desses
subgrupos uniparamétricos. As relações (14.46) são as relações satisfeitas por essas matrizes, como
elementos de uma álgebra de Lie, que é denominada álgebra de Lie su(2).
Com isso, (14.51) está nos dizendo que todo elemento de SU(2) pode ser escrito como exponencial
de um elemento de sua álgebra de Lie. Isso constata um teorema geral (vide, por exemplo, [132]) que
diz que se um grupo de Lie é compacto e sua álgebra de Lie é semi-simples, a aplicação exponencial
da sua álgebra de Lie é sobrejetora no grupo. De fato, tal como SO(3), SU(2) é compacto e su(2) é
semi-simples.

U(2) = exp (iα1 + iθ~η · ~σ ) onde α, θ ∈ [−π, π] e ~η ∈ R3 com |~η| = 1 .
14.3.4 A Relação entre SO(3) e SU(2)

O leitor que acompanhou com atenção as exposições precedentes sobre os grupos SO(3) e SU(2) certa-
mente apercebeu-se da existência de uma série de semelhanças entre ambos. Vamos agora precisá-las.
Em primeiro lugar, note-se que os geradores de SO(3) são matrizes 3 × 3 satisfazendo as relações
algébricas [Ja , Jb ] = εabc Jc , enquanto que geradores de SU(2) são matrizes 2×2 satisfazendo as relações
algébricas [σa , σb ] = 2iεabc σc . Se porém definirmos ja := −iσa /2, obtemos [ja , jb ] = εabc jc .
Seja
so(3) := {L ∈ Mat (R, 3) : L = α1 J1 + α2 J2 + α3 J3 , αk ∈ R, k = 1, 2, 3}
a álgebra de Lie (real) associada aos geradores de SO(3) e seja
su(2) := {l ∈ Mat (C, 2) : l = α1 j1 + α2 j2 + α3 j3 , αk ∈ R, k = 1, 2, 3}
a álgebra de Lie (real) associada aos geradores de SU(2).
É muito fácil constatar que a aplicação linear ϕ : su(2) → so(3) dada por
ϕ(α1 j1 + α2 j2 + α3 j3 ) = α1 J1 + α2 J2 + α3 J3
é um isomorfismo de álgebras de Lie, ou seja, é bijetora e satisfaz ϕ([la , lb ]) = [ϕ(la ), ϕ(lb )] para todos
la , lb ∈ su(2).
E. 14.42 Exercı́cio importante. Prove as afirmativas acima. 6
E. 14.43 Exercı́cio. Mostre que so(3) coincide com a álgebra de Lie de todas as matrizes reais 3 × 3
anti-simétricas. (Vide exercı́cio à página 62). 6
E. 14.44 Exercı́cio. Mostre que su(2) coincide com a álgebra de Lie de todas as matrizes complexas
2 × 2 anti-autoadjuntas. (Vide exercı́cio à página 62). 6
Assim, as álgebras de Lie so(3) e su(2) são isomorfas. Discutiremos agora que implicações isso traz
sobre as relação entre os grupos SO(3) e SU(2).
O isomorfismo ϕ definido acima sugere considerar-se a seguinte aplicação φ : SU(2) → SO(3) dada
por
φ (exp(l)) := exp (ϕ(l)) , ∀l ∈ su(2),
ou seja,
φ exp θ~η · ~j := exp θ~η · J~ ,
para todos θ ∈ (−2π, 2π], e ~η ∈ R3 com |~η | = 1.
Que propriedades essa φ possui? Em primeiro lugar, é fácil ver que φ é sobrejetora (por que?),
mas não é injetora, pois para U1 := exp −i 2 ~η · ~σ = 1 e U2 := exp −i 2 ~η · ~σ = −1 tem-se φ(U1 ) =
0 2π
φ(U2 ) = 1. Verifique! A questão é: como se comporta φ em relação ao produto dos elementos do
grupo? A resposta encontra-se na afirmativa da proposição seguinte.
Proposição 14.6 A aplicação φ : SU(2) → SO(3) definida acima é um homomorfismo do grupo
SU(2) no grupo SO(3), ou seja, φ(1) = 1 e para todos Ua , Ub ∈ SU(2) vale φ(Ua )φ(Ub ) = φ(Ua Ub ). 2
Em verdade, como φ é sobrejetora, a proposição estabelece que φ é um epimorfismo de SU(2) em

SO(3). Vide definição à página 71.
Prova. Que φ(1) = 1 é trivial. Provemos que φ(Ua )φ(Ub ) = φ(Ua Ub ) para todos Ua , Ub ∈ SU(2). Sejam
Ua e Ub da forma ! !
X3 X 3
Ua = exp αk jk , Ub = exp βk jk ,
k=1 k=1
com αk , βk ∈ R, k = 1, 2, 3, e limitemos provisoriamente os valores

P3dos αk ’s e βk ’sP
a uma vizinhança
3
O suficientemente pequena de zero
de modo
que as matrizes a = α j
k=1 k k e b = k=1 βk jk tenham
√
ambas normas menores que 12 ln 2 − 22 . Essa restrição provisória às normas de a e b (vide comentário
à página 267) é útil pois coloca-nos no domı́nio de validade da fórmula de Baker-Campbell-Hausdorff
(eq. (4.46) à página 265. Vide também (4.47)). Isso justifica então escrevermos
Ua Ub = ea eb = exp (a ∗ b) ,
onde a ∗ b está definida em (4.46). Como a série que define a ∗ b é convergente e envolve comutadores
múltiplos de elementos da álgebra de Lie su(2), é evidente que a ∗ b é também um elemento de su(2) e,
mais que isso, tem-se
3
X 3
X
a∗b = γk jk = γk (α1 , α2 , α3 , β1 , β2 , β3 )jk , (14.52)
k=1 k=1
onde cada γk é uma função analı́tica das variáveis α1 , α2 , α3 , β1 , β2 , β3 em um aberto suficientemente

pequeno próximo zero. A analiticidade se deve ao fato de que a série que define a ∗ b é absolutamente
convergente e envolve, em cada termo, polinômios nas variáveis α e β.
E. 14.45 Exercı́cio. Lance um olhar meditativo sobre a fórmula de Baker-Campbell-Hausdorff (4.46)

e convença-se da veracidade das afirmações feitas no último parágrafo sobre a analiticidade das funções
γk . De modo mais iluminante, mostre usando (4.47) e as relações de comutação (14.34), que os primeiros
termos de ~γ = (γ1 , γ2 , γ3 ) são
1 1
~ + β~ +
~γ = α ~ × β~ +
α α~× α~ × β~ + β~ × β~ × α
~ +··· ,
2 12
~ = (α1 , α2 , α3 ) e β~ = (β1 , β2 , β3 ).
onde α 6
Retomando, sejam agora

3
! 3
!
X X
φ(Ua ) = exp αk Jk , φ(Ub ) = exp βk Jk ,
k=1 k=1
P3 P3
e A = ϕ(a), B = ϕ(b), ou seja, A = k=1 αk Jk eB= k=1 βk Jk . Novamente, tem-se que
φ(Ua )φ(Ub ) = eA eB = exp (A ∗ B) ,
mas, como as relações de comutação entre os jk ’s são idênticas às dos Jk ’s, segue que
3
X 3
X
A∗B = γ k Jk , = γk (α1 , α2 , α3 , β1 , β2 , β3 )Jk ,
k=1 k=1
com as mesmas funções γk que em (14.52) (Justifique isso!). Ou seja, vale que
A ∗ B = ϕ(a ∗ b).
Isso concluiu que, pelo menos quando α1 , α2 , α3 , β1 , β2 , β3 são suficientemente próximos de zero,
vale
φ(Ua )φ(Ub ) = exp(ϕ(a ∗ b)) = φ(exp(a ∗ b)) = φ(Ua Ub ).
Tudo que nos falta agora é um argumento que justifique que essa igualdade vale não apenas para
α1 , α2 , α3 , β1 , β2 , β3 suficientemente próximos de zero, mas para quaisquer valores desses parâmetros.
Esse argumento é a analiticidade.
P3
Cada elemento de matriz de exp k=1 αk Jk é uma função analı́tica (inteira) de α1 , α2 e α3 (pois a
série que define a exponencial
P3 converge absolutamente em toda parte). O mesmoPvale para os elementos
P3
3
de matriz de exp k=1 β k J k . Assim, cada elemento de matriz do produto exp k=1 αk J k exp k=1 βk J k
é uma P3 função analı́tica
(inteira) de α 1 , α2 , α3 , β 1 , β2 , β3 . Igualmente, cada elemento de matriz de
exp k=1 γk Jk é uma função analı́tica de α1 , α2 , α3 , β1 , β2 , β3 quando esses estão próximos a zero
(pois a composição de funçõesPanalı́ticasé também P3 uma função analı́tica).
P3 Portanto,
provamos acima
3
que as funções analı́ticas exp k=1 αk Jk exp k=1 βk Jk e exp k=1 γk Jk coincidem em um aberto
suficientemente pequeno. Por um teorema geral da teoria de funções de variáveis complexas, isso im-
plica que essas funções são iguais em toda parte. Assim, vale para todos α1 , α2 , α3 , β1 , β2 , β3 reais ou
complexos que φ(Ua )φ(Ub ) = φ(Ua Ub ), completando a prova.
Note que a aplicação φ não pode ser um isomorfismo de grupos pois, como vimos, não é bijetora.
E. 14.46 Exercı́cio. Mostre, porém, que SO(3) e SU(2)/{1, −1} são isomorfos. 6
Todas as considerações de acima sobre a relação entre os grupos SO(3) e SU(2) são de grande
importância em fı́sica, particularmente no que concerne à representação do grupo de rotações SO(3)
para partı́culas de spin 1/2. Ainda mais profunda é a relação entre o grupo SL(C, 2) e o grupo de
Lorentz, relação esta que discutiremos na Seção 14.8, página 849.
14.3.5 O Grupo SL(C, 2)

Vamos aqui tratar de um grupo fortemente aparentado ao grupo SU(2) e ao grupo de Lorentz, cujo
estudo é importante na teoria dos spinores, particularmente no estudo de representações do grupo de
Lorentz para partı́culas de spin 1/2. Trata-se do grupo SL(C, 2). Mais sobre o grupo SL(C, 2), em
especial, sua relação com o grupo de Lorentz, será visto na Seção 14.8, página 849.
O grupo SL(C, 2) é definido como o grupo formado pelas matrizes complexas 2 × 2 de determinante
igual a 1. Como as matrizes 1, σ1 , σ2 , σ3 formam uma base em Mat (C, 2), podemos escrever toda
matriz A ∈ SL(C, 2) na forma
 
 b4 + b3 b1 − ib2 
A = b4 1 + b1 σ1 + b2 σ2 + b3 σ3 , = 

,

b1 + ib2 b4 − b3
com b4 , b1 , b2 , b3 ∈ C. A condição det(A) = 1 implica b24 − b21 − b22 − b23 = 1.

Assim,
  

 

 b4 + b3 b1 − ib2  

SL(C, 2) =   com b , b , b , b ∈ C e b2
− b2
− b2
− b2
= 1 . (14.53)
  4 1 2 3 4 1 2 3


 b1 + ib2 b4 − b3 

Como b4 é um número complexo arbitrário, podemos escrever
b4 = cosh z,
para algum z ∈ C. Fora isso, para z 6= 0, podemos definir três números complexos η1 , η2 , η3 por
b1 b2 b3
η1 := , η2 := , η3 := .
senhz senhz senhz
A condição b24 − b21 − b22 − b23 = 1 implica (verifique!) que os números complexos η1 , η2 , η3 satisfazem
η12 + η22 + η32 = 1.
Com isso vemos que

SL(C, 2) = cosh(z)1 + senh(z) (~η · ~σ ), onde z ∈ C e ~η ∈ C3 com η12 + η22 + η32 = 1 . (14.54)
Mesmo para vetores ~η complexos tem-se, como vimos anteriormente quando tratamos de SU(2),
que (~η · ~σ )2 = 1. Portanto,
X∞
zm
exp (z ~η · ~σ ) = (~η · ~σ )m
m=0
m!
X∞ X∞
z 2k 2k z 2k+1
= (~η · ~σ ) + (~η · ~σ )2k+1
k=0
(2k)! k=0
(2k + 1)!
∞
! ∞
!
X z 2k X z 2k+1
= 1+ (~η · ~σ )
k=0
(2k)! k=0
(2k + 1)!
= cosh(z)1 + senh(z) (~η · ~σ ).
Assim, todo elemento A ∈ SL(C, 2) é da forma exp (z ~η · ~σ ). Em resumo,

SL(C, 2) = exp (z ~η · ~σ ) , onde z ∈ C e ~η ∈ C3 com η12 + η22 + η32 = 1 . (14.55)
Como já vimos, o sub-grupo SU(2) de SL(C, 2) corresponde a z = iθ, θ ∈ R, e ~η ∈ R3 . Como

vemos, SU(2) e SL(C, 2) têm ambas álgebras de Lie geradas pelas matrizes de Pauli, mas em SU(2)
essa álgebra é real enquanto que em SL(C, 2) é complexa.
Mais sobre o grupo SL(C, 2), em especial, sua relação com o grupo de Lorentz, será visto na Seção
14.8, página 849.
14.4 Generalidades sobre os grupos SU(n) e SO(n)

Nesta seção discutiremos algumas qualidades gerais dos grupos SU(n) e SO(n). Para esta seção
recomenda-de a leitura prévia de partes do Capı́tulo 15. Começaremos com os grupos SU(n) pois
seu tratamento é ligeiramente mais simples que o dos grupos SO(n). O caso fisicamente importante do
grupo SU(3) será discutido com um pouco de detalhe.
14.4.1 Os Grupos SU(n)

Após termos adquirido algum conhecimento sobre o grupo SU(2), vamos estudar alguns aspectos gerais
dos grupos SU(n), n ≥ 2. Vimos acima de modo explı́cito que os elementos de SU(2) podem ser escritos
como exponenciais de elementos de sua álgebra de Lie. Veremos que esse fato é também válido para
SU(n).
Lembremos a definição: para n ≥ 2,
SU(n) := {U ∈ Mat (C, n)| U ∗ = U −1 e det(U) = 1}.
Comecemos com a seguinte observação.

Proposição 14.7 SU(n) é um subgrupo compacto de GL(C, n). 2
Prova. Provemos primeiramente que SU(n) é um subconjunto (topologicamente) fechado de GL(C, n).
Seja Un , n ∈ N, uma seqüência de matrizes de SU(n) que converge em norma a uma matriz
U ∈ Mat (C, n), ou seja, limn→∞ kUn − UkC = 0, onde k · kC é a norma operatorial de matrizes.
Desejamos provar que U ∈ SU(n).
Em primeiro lugar, notemos que podemos escrever
U ∗ U = (U − Un + Un )∗ (U − Un + Un ) = (U − Un )∗ (U − Un ) + Un∗ (U − Un ) + (U − Un )∗ Un + Un∗ Un .
Como os Un são unitários, Un∗ Un = 1 e conclui-se que U ∗ U − 1 = (U − Un )∗ (U − Un ) + Un∗ (U − Un ) +

(U − Un )∗ Un . Assim
kU ∗ U − 1kC = k(U − Un )∗ (U − Un ) + Un∗ (U − Un ) + (U − Un )∗ Un kC
≤ k(U − Un )∗ (U − Un )kC + kUn∗ (U − Un )kC + k(U − Un )∗ Un kC
≤ k(U − Un )∗ kC kU − Un kC + kUn∗ kC kU − Un kC + k(U − Un )∗ kC kUn kC
≤ kU − Un k2C + 2kU − Un kC . (14.56)
(Ao estudante deve ser claro que acima usamos os fatos que, para quaisquer matrizes A, B, complexas
n × n, valem kA + BkC ≤ kAkC + kBkC , kABkC ≤ kAkC kBkC , kAkC = kA∗ kC e que kAkC = 1 se A é
unitária. Se não for claro, justifique esses fatos como exercı́cio ou leia o Capı́tulo 26).
Agora, como o extremo direito da seqüência de desigualdades (14.56) pode ser feito arbitrariamente
pequeno para n → ∞, concluı́mos que o extremo esquerdo é nulo, ou seja, U ∗ U = 1. Analogamente,
prova-se que UU ∗ = 1. Isso estabelece que U é unitário.
Para provar que o determinante de U vale 1, notemos que o fato de Un convergir a U na norma
operatorial implica que os elementos de matriz da seqüência de matrizes Un convergem aos elementos de
matriz de U (por que?). Como o determinante de uma matriz depende continuamente de seus elementos
de matriz (por que?), segue que det(U) = limn→∞ det(Un ) = 1. Isso estabelece que U ∈ SU(n) e isso
prova que SU(n) é um subconjunto topologicamente fechado de GL(C, n), como querı́amos.
Para provarmos que SU(n) é compacto, resta apenas provar que SU(n) é um conjunto limitado13 .
A condição U ∗ U = 1 implica Tr(U ∗ U) = n. Assim, vale
n
X
|Uab |2 = n,
a, b=1
para todo U ∈ SU(n). Isso mostra que SU(n) é limitado e, portanto, compacto.
Seja agora {U(t) ∈ SU(n), t ∈ R}, um subgrupo uniparamétrico de SU(n) (ou seja, U(0) = 1 e
U(t)U(t′ ) = U(t + t′ ), sendo t 7→ U(t) contı́nua). Pela Proposição 15.5, página 890, U(t) = exp(tA)
para alguma matriz A. Agora, sejam u, v dois vetores arbitrários de Cn . Temos que, para todo t vale
hu, viC = hU(t)u, U(t)viC . Diferenciando essa igualdade em relação a t, escrevendo-se U(t) = exp(tA)
e calculando a derivada em t = 0, tem-se 0 = hAu, viC + hu, AviC , ou seja, hu, (A + A∗ )viC = 0. Como
isso vale para todo u, v em Cn , segue que A∗ = −A. Fora isso14 , como 1 = det(exp(tA)) = exp(tTr(A)),
segue que A tem traço nulo.
Assim, vimos que os geradores dos subgrupos uniparamétricos de SU(n) são anti-autoadjuntos e
têm traço nulo. Podemos nos perguntar se a recı́proca é válida, ou seja, se todas as matrizes anti-
autoadjuntas e de traço nulo são geradoras de subgrupos uniparamétricos de SU(n). Para responder
isso, precisamos da seguinte proposição:
Proposição 14.8 Se A ∈ Mat (C, n) é anti-autoadjunta (ou seja, A∗ = −A) satisfazendo também
Tr(A) = 0, então a matriz exp(A) é um elemento de SU(n). 2
Prova. Precisamos provar que exp(A) é unitária e que seu determinante é igual a 1. Pela definição da
exponencial de matrizes em termos de uma série de potências (a série de Taylor da função exponencial),
sabe-se que exp(M)∗ = exp(M ∗ ) para qualquer matriz n×n complexa M. Assim, exp(A)∗ = exp(A∗ ) =
exp(−A) = exp(A)−1 , provando que exp(A) é unitária.
Assim, para nossa matriz A, tem-se det(exp(A)) = exp(Tr(A)) = exp(0) = 1, o que prova que
exp(A) ∈ SU(n), como querı́amos.
Essa proposição diz-nos que, se A ∈ Mat (C, n) é anti-autoadjunta e tem traço nulo, então U(t) =
exp(tA), t ∈ R é um subgrupo uniparamétrico de SU(n). Em resumo, concluı́mos que o conjunto de
13
14
Aqui usamos a Proposição 4.7, página 250.
todas as matrizes n × n complexas anti-autoadjuntas e de traço nulo é idêntico ao conjunto de todos

os geradores de subgrupos uniparamétricos de SU(n).
Como SU(n) é um subgrupo fechado de GL(C, n), segue do Teorema 15.1 que o conjunto de seus
geradores é uma álgebra de Lie. Essa álgebra de Lie é dita ser a álgebra de Lie de SU(n), e é denotada
por su(n) (assim, com letras minúsculas). Como vimos, su(n) coincide com o conjunto de todas as
matrizes n × n complexas anti-autoadjuntas de traço nulo.
De passagem, notemos que o fato de que o conjunto de todas as matrizes n × n complexas anti-
autoadjuntas de traço nulo forma uma álgebra de Lie real já fora visto independentemente nos exercı́cios
da página 63.
Provemos agora uma outra proposição, a qual essencialmente diz-nos que todo elemento de SU(n)
pode ser obtido como exponencial de um elemento de su(n). No caso de SU(2) isso foi provado expli-
citamente, quando mostramos que todo elemento de SU(2) é da forma exp(iθ~η · ~σ ).
Proposição 14.9 Todo elemento U de SU(n) pode ser escrito na forma U = eA , onde A ∈ Mat (C, n)
é anti-autoadjunta (ou seja, A∗ = −A) e de traço nulo (ou seja, Tr(A) = 0). 2
Prova. Seja U ∈ SU(n). Como toda matriz unitária, U é normal, pois vale UU ∗ = U ∗ U(= 1).
Uma das conseqüências do Teorema Espectral para matrizes diz-nos que toda matriz normal pode ser
diagonalizada por uma matriz unitária (vide Teorema 3.15 e as páginas que o antecedem).
Assim, existe V , matriz unitária, tal que U = V DV ∗ , onde D = diag (u1 , . . . , un ), e onde os uk são
números complexos (os autovalores de U). Da condição UU ∗ = 1 segue imediatamente que DD ∗ = 1,
o que implica que cada uk é um número complexo de módulo 1: |uk |2 = 1. Assim, podemos escrever
uk = eiλk , onde λk ∈ R, sendo que cada λk é determinado a menos de um termo 2πm, com m inteiro.
Note-se
Pn que, como UPtem determinante 1, segue que 1 = det(U) = det(V DV ∗ ) = det(D) =
exp i k=1 λk . Assim, nk=1 λk = 2πm0 , com m0 inteiro. Podemos redefinir, digamos, λn , subtraindo-
lhe 2πm0 . Com essa nova escolha teremos
n
X
λk = 0. (14.57)
k=1
Definamos agora a matriz L = diag (iλ1 , . . . , iλn ). Note-se que, como os λk são reais, vale L∗ = −L.
É claro que D = eL e também que U = exp(A), onde A = V LV ∗ . É agora P elementar constatar que
A∗ = −A. Fora isso, por (14.57) segue que Tr(A) = Tr(V LV ∗ ) = Tr(L) = i nk=1 λk = 0. Isso completa
a prova.
A Proposição 14.9 diz-nos que a exponenciação é uma aplicação sobrejetora de su(n) em SU(n).
Isso é um caso particular de um teorema mais geral que diz que isso é válido para qualquer grupo de
Lie compacto, conexo e cuja álgebra de Lie seja de dimensão finita.
E. 14.47 Exercı́cio. Pelo que vimos su(2) coincide com a álgebra de Lie real de todas as matrizes
complexas 2 × 2, anti-autoadjuntas e de traço zero. Mostre que as matrizes iσ1 , iσ2 e iσ3 formam uma base
nesse espaço de matrizes. Conclua que todo elemento de SU(2) é da forma exp(iα1 σ1 + iα2 σ2 + iα3 σ3 )
com αk ∈ R. 6
A Proposição 14.9 tem o seguinte corolário simples:

Corolário 14.1 O grupo SU(n) é conexo por caminhos e, portanto, é um espaço conexo. 2
Prova. Pelo que vimos, se U ∈ SU(n), U é da forma U = eA , para alguma A ∈ su(n). Logo U
pertence ao subgrupo uniparamétrico de SU(n) gerado por A: {exp(tA), t ∈ R}. Esse subgrupo
conecta continuamente U à identidade 1 (que corresponde a t = 0).
14.4.2 O Grupo SU(3)

O grupo SU(3) é de grande importância na Fı́sica das Partı́culas Elementares, estando associado à
uma simetria aproximada, dita de “sabor”, e a uma simetria exata, dita de “cor”. Não nos deteremos
nesses aspectos aqui, e remetemos o estudante aos bons livros sobre Fı́sica das Partı́culas Elementares
e Teoria Quântica de Campos (por exemplo, [150]-[151]).
O grupo SU(3) é um grupo a 32 −1 = 8 parâmetros. Pelo que vimos, su(3) coincide com o espaço das
matrizes complexas 3 × 3, anti-autoadjuntas e de traço zero. Para o estudo do grupo SU(3) no contexto
da fı́sica das partı́culas elementares é conveniente introduzir-se uma base explı́cita nesse espaço. Como
toda matriz anti-autoadjunta pode ser escrita como iλ, onde λ é autoadjunta, basta-nos procurar uma
base no espaço das matrizes autoadjuntas de traço zero.
Comummente adota-se as chamadas Matrizes de Gell-Mann15 λi , i = 1, . . . , 8, que são as seguintes
matrizes:
     
0 1 0 0 −i 0 1 0 0
     
     
λ1 = 1 0 0

, λ2 =  i 0 0

, λ3 = 0 −1 0

,
     
     
0 0 0 0 0 0 0 0 0
     
0 0 1 0 0 −i 0 0 0
     
     
λ4 = 0 0 0

, λ5 = 0 0 0 

, λ6 = 0 0 1

,
     
     
1 0 0 i 0 0 0 1 0
   
0 0 0  1 0 0 
   
   
λ7 = 0 0 −i

 , λ8 =
1
√ 
3 0 1 0.
   
   
0 i 0 0 0 −2
15
Murray Gell-Mann (1929-).
Note que todas as matrizes λi são autoadjuntas e de traço zero, formando uma base no espaço das
matrizes complexas autoadjuntas e de traço nulo (mostre isso!). As mesmas são normalizadas de modo
que Tr(λa λb ) = 2δab .
E. 14.48 Exercı́cio. Prove as afirmativas do último parágrafo. 6
A álgebra de Lie de su(3) pode ser expressa para as matrizes de Gell-Mann da seguinte forma:
8
X
[λa , λb ] = 2i fabc λc ,
c=1
onde fabc , as camadas constantes de estrutura de su(3), são totalmente anti-simétricas, ou seja
fabc = fbca = fcab = −fbac = −facb = −fcba ,
sendo
f123 = 1,
1
f147 = −f156 = f246 = f257 = f345 = −f367 = ,
2
√
3
f458 = f678 = ,
2
e as demais constantes independentes são nulas.
E. 14.49 Exercı́cio. Verifique isso. Sugestão: tire uma tarde livre. 6
Pelo que aprendemos da nossa discussão geral sobre grupos SU(n), todo elemento U de SU(3) pode
ser escrito na forma !
X8
U = exp i αk λk ,
k=1
onde os αk ’s são números reais.
14.4.3 Os Grupos SO(n)

Primeiramente lembremos a definição: para n ≥ 2,
SO(n) := {R ∈ Mat (R, n)| RT = R−1 e det(R) = 1}.
Sob vários aspectos os grupos SO(n) podem ser tratados de modo semelhante aos grupos SU(n),
exceto por um ponto importante: por agirem em um espaço vetorial real (Rn ), não podemos aplicar o
teorema espectral às matrizes ortogonais, tal como fizemos na prova da Proposição 14.9. Por isso, um
desvio mais longo deverá ser seguido, ainda que as conclusões sejam as mesmas, em essência.
Analogamente ao que fizemos no caso SU(n), comecemos com a seguinte observação.
Proposição 14.10 SO(n) é um subgrupo compacto de GL(R, n). 2
Prova. A prova é uma mera imitação da demonstração correspondente no caso SU(n) e poupamo-nos
de reproduzı́-la.
Seja agora {R(t) ∈ SO(n), t ∈ R}, um subgrupo uniparamétrico de SO(n) (ou seja, R(0) = 1 e
R(t)R(t′ ) = R(t+t′ )). Pela Proposição 15.5, página 890, R(t) = exp(tA) para alguma matriz A. Agora,
sejam u, v dois vetores arbitrários de Rn . Temos que, para todo t vale hu, viR = hR(t)u, R(t)viR .
Diferenciando essa igualdade em relação a t, escrevendo-se R(t) = exp(tA) e calculando a derivada em
t = 0, tem-se 0 = hAu, viR + hu, AviR , ou seja, hu, (A + AT )viR = 0. Como isso vale para todo u, v
em Rn , segue que AT = −A. Assim, A é uma matriz anti-simétrica, o que implica que seus elementos
diagonais são nulos. Assim, é automático que Tr(A) = 0.
Assim, vimos que os geradores dos subgrupos uniparamétricos de SO(n) são anti-simétricos. Pode-
mos nos perguntar se a recı́proca é válida, ou seja, se todas as matrizes anti-simétricas são geradores
de subgrupos uniparamétricos de SU(n). Para responder isso, precisamos da seguinte proposição:
Proposição 14.11 Se A ∈ Mat (R, n) é anti-simétrica (ou seja, AT = −A), então a matriz exp(A)
é um elemento de SO(n). 2
Prova. Precisamos provar que exp(A) é ortogonal e que seu determinante é igual a 1. Pela definição da
exponencial de matrizes em termos de uma série de potências (a série de Taylor da função exponencial),
sabe-se que exp(M)T = exp(M T ) para qualquer matriz n × n real ou complexa M. Assim, exp(A)T =
exp(AT ) = exp(−A) = exp(A)−1 , provando que exp(A) é ortogonal.
Como observamos, Tr(A) = 0. Logo, para nossa matriz A, tem-se det(exp(A)) = exp(Tr(A)) =
exp(0) = 1, o que prova que exp(A) ∈ SO(n), como querı́amos.
Essa proposição diz-nos que, se A ∈ Mat (R, n) é anti-simétrica, então R(t) = exp(tA), t ∈ R é
um subgrupo uniparamétrico de SO(n). Em resumo, concluı́mos que o conjunto de todas as matrizes
n × n reais anti-simétricas é idêntico ao conjunto de todos os geradores de subgrupos uniparamétricos
de SO(n).
Como SO(n) é um subgrupo fechado de GL(R, n), segue do Teorema 15.1 que o conjunto de seus
geradores é uma álgebra de Lie. Essa álgebra de Lie é dita ser a a álgebra de Lie de SO(n), e é denotada
por so(n). Como vimos, so(n) coincide com o conjunto de todas as matrizes n × n reais anti-simétricas.
De passagem, notemos que o fato de que o conjunto de todas as matrizes n × n reais anti-simétricas
forma uma álgebra de Lie real já fora visto independentemente nos exercı́cios da página 63.
Provemos agora uma outra proposição, a qual essencialmente diz-nos que todo elemento de SO(n)
pode ser obtido como exponencial de um elemento de so(n). Nos casos de SO(2) e SO(3) isso foi
provado explicitamente nas páginas acima.
Proposição 14.12 Todo elemento R de SO(n) pode ser escrito na forma R = eA , onde A ∈ Mat (R, n)
é anti-simétrica (ou seja, AT = −A). 2
Prova. Como dissemos não podemos aqui seguir exatamente os passos da prova da Proposição 14.9,
pois o teorema espectral não se aplica de modo direto a matrizes reais.
Seja R ∈ SO(n), com elementos de matriz reais Rij . Normalmente R age no espaço real Rn , mas
podemosP fazê-la agir em Cn da maneira usual: para um vetor u ∈ Cn com componentes ui ∈ C, tem-se
(Ru)i = nj=1 Rij uj . Como tal, R é uma matriz unitária de determinante 1, ou seja, um elemento de
SU(n), pois (R∗ )ij = (R)ji = (R)ji = (RT )ij = (R−1 )ij . Aqui usamos que os Rij são reais e o fato óbvio
(por que?) que a inversa de R em Cn é a mesma que em Rn .
Dado que R é unitária, seus autovalores são números eventualmente complexos mas de módulo 1.
Notemos, porém, que os autovalores são raı́zes do polinômio caracterı́stico p(x) = det(x1 − R), x ∈ C.
Como os Rij são reais, esse polinômio tem coeficientes reais. É um fato elementar e bem conhecido que
se x é raiz de um polinômio com coeficientes reais, então seu complexo conjugado x também o é.
Se n é par, os autovalores são, portanto, pares de números complexos de módulo 1 complexo-
conjugados: eiθ e e−iθ . Como o determinante de R é o produto de seus autovalores, isso automati-
camente garante que det(R) = 1 desde que −1, se for autovalor, o seja com multiplicidade algébrica
par.
Se n é ı́mpar, os autovalores são pares de números complexos de módulo 1 complexo-conjugados:
±iθ
e , mas um deles pode ser real, podendo, portanto, ser ±1. Como o determinante de R é o produto
de seus autovalores, a condição det(R) = 1 implica que um dos autovalores deve ser +1 e que −1, se
for autovalor, o é com multiplicidade algébrica par.
Em resumo:
1. Se n é par, o conjunto de autovalores de R é do tipo {e±iθk , k = 1, . . . , n/2, sendo θk ∈ R}.
2. Se n é ı́mpar, o conjunto de autovalores de R é do tipo {1}∪{e±iθk , k = 1, . . . , (n−1)/2, sendo θk ∈

R}.
Em ambos os casos −1 pode ser autovalor e, se o for, o é com multiplicidade algébrica par.
Seja o autovalor eiθk . Há dois casos a considerar.
Caso I. eiθk 6= ±1, de modo que eiθk é não-real e, portanto, distinto de e−iθk .
Seja vk ∈ Cn um autovetor de R com autovalor eiθk : Rvk = eiθk vk , normalizado de modo que
= hvk , vk iC = 1. Segue que Rvk = e−iθk vk , ou seja, vk é um autovetor de R com autovalor
kvk k2C
−iθk
e . Como R é unitária, segue que autovetores que correspondem a autovalores distintos são ortogonais
(em Cn ). Logo,
hvk , vk iC = 0 e, portanto, hvk , vk iR = hvk , vk iC = 0. (14.58)
Escrevamos vk separando componente a componente suas partes real e imaginária: vk = ak + ibk ,

com ak , bk ∈ Rn . As relações Rvk = eiθk vk e Rvk = e−iθk vk tornam-se
Rak = (cos θk )ak − ( senθk )bk ,
Rbk = ( senθk )ak + (cos θk )bk .

Note-se que, como senθk 6= 0, essas duas relações implicam que não se pode ter ak = 0, pois isso
implicaria bk = 0 e vice-versa. Porém, ak e bk são vetores ortogonais em Rn . De fato,
1 k
hak , bk iR = h(v + vk ), (vk − vk )iR
4
1 k k
= hv , v iR − hvk , vk iR + hvk , vk iR − hvk , vk iR
4
1 k k k k k k k k

= hv , v iC − hv , v iC + hv , v iC − hv , v iC
4
por (14.58) 1
= (0 − 1 + 1 − 0)
4
= 0.
k k
Assim, concluı́mos que no
 sub-espaço realgerado pelos vetores ortogonais não-nulos a e b , a
 cos θk senθk 
matriz R age como a matriz 

, elemento de SO(2).

− senθk cos θk
É importante notar também que os vetores ak e bk são também ortogonais entre si para k’s dife-
rentes. Isso é mostrado na proposição seguinte.
Proposição 14.13 Se vj = aj + ibj e vk = ak + ibk são vetores de Cn com aj , ak , bj , bk ∈ Rn e se
valerem hvj , vk iC = 0 e hvj , vk iC = 0, então tem-se
haj , ak iR = haj , bk iR = hbj , ak iR = hbj , bk iR = 0.
Prova. De hvj , vk iC = 0 segue facilmente que
haj , ak iR + hbj , bk iR = 0 e hbj , ak iR − haj , bk iR = 0.
Como vj = aj − ibj , tem-se de hvj , vk iC = 0 que
haj , ak iR − hbj , bk iR = 0 e hbj , ak iR + haj , bk iR = 0.
Disso, o resultado desejado segue imediatamente.
j j
O fato demonstrado nessa proposição mostra que os sub-espaços gerados por pares
a , b são ortogo-

 cos θj senθj 
nais em Rn . Na base formada por esses vetores, R tem a forma de blocos diagonais 

.

− senθj cos θj
Resta-nos ainda discutir o que se passa com os autovalores reais.
Caso II. eiθk = ±1.

Como comentamos, o autovalor −1 tem multiplicidade algébrica par em Cn . Como R é unitária
em Cn , R é simples (vide definição à página 168), concluı́mos que a multiplicidade geométrica desse
autovalor em Cn é igualmente par. Os autovalores reais de R correspondem a autovetores reais (por
que?). Assim, há um sub-espaço real de dimensão par onde R age como −1. Comoa dimensão é par, 
podemos escrever R nesse sub-espaço como uma série de blocos diagonais como 

,

− senθj cos θj
mas para θj = π.
Para o autovalor +1 a conclusão é a mesma, exceto que se n for ı́mpar a multiplicidade
 geométrica

é ı́mpar. Assim, R age nesse sub-espaço como uma série de blocos diagonais como 

,

− senθj cos θj
mas para θj = 0 e um bloco 1 × 1 com elemento de matriz 1.
A conclusãosão é a seguinte: para R ∈ SO(n) existe uma matriz ortogonal16 V tal que R = V BV −1 ,
onde B é a seguinte matriz: quando n é par, ou seja, n = 2m, para algum m > 0 inteiro, B é a matriz
bloco-diagonal dada por
 
 cos θ1 senθ1 
 
 0 ··· 0 
 
 − senθ1 cos θ1 
 
 
 
 
 
 
 
 
 
 0 0 
 
 
B =   , (14.59)
 
 
 
 
 .. 
 .. 
 . . 
 
 
 
 
 
 
 
 cos θm senθm 
 
 0 0 
 
− senθm cos θm
que é formada por m = n/2 blocos 2 × 2, como indicado acima, sendo os demais elementos de matriz
16
A matriz é ortogonal pois faz a mudança de base para a base dos vetores aj , bj e dos autovetores de autovalor ±1,
os quais são todos ortogonais entre si, como provamos acima. Um fato crucial, como se vê.
nulos. Quando n é ı́mpar, ou seja, n = 2m + 1, para algum m > 0 inteiro, B é a matriz bloco-diagonal
dada por
 
 
 0 ··· 0 0
 
 
 
 
 
 
 
 
 
 
 0 0 0
 
 
 
 
 
 
B =   , (14.60)
 .. .. .. 
 . . .
 
 
 
 
 
 
 
 
 cos θm senθm 
 
 0 0 0
 
 − senθm cos θm 
 
 
 
 
 
 
 
0 0 ··· 0 1
que é formada por m = (n − 1)/2 blocos 2 × 2, como indicado acima, sendo o elemento Bnn igual a 1,
e os demais elementos de são matriz nulos.
Definamos agora (tanto para o caso em que n é par ou ı́mpar)

∂
Jk := R .
∂θk θ1 =···=θm =0
0 1
É claro que cada Jk é a matriz anti-simétrica composta pelo bloco colocado na k-ésima posição,
−1 0
os demais elementos de matriz sendo iguais a zero. Deve ser também claro que Jk Jl = Jl Jk para todos
k, l = 1, . . . , m e que
B = exp (θ1 J1 + · · · + θm Jm ) .

Do comentado acima, temos então que R = V BV −1 = exp (A) , onde
A := V (θ1 J1 + · · · + θm Jm ) V −1 .
Agora, como V é ortogonal e as Jk são anti-simétricas, é elementar verificar que AT = −A. Isso
completa a prova da Proposição 14.12.
A Proposição 14.12 diz-nos que a exponenciação é uma aplicação sobrejetora de so(n) em SO(n).
Isso é um caso particular de um teorema mais geral que diz que isso é válido para qualquer grupo de
Lie compacto, conexo e cuja álgebra de Lie seja de dimensão finita.
A Proposição 14.12 tem os dois seguintes corolários simples:
Corolário 14.2 Para n ı́mpar existe para cada R ∈ SO(n) um vetor ~η ∈ Rn tal que R~η = ~η . 2
O vetor ~η é o autovetor com autovalor 1. Se n é par pode não haver um tal vetor invariante. Esse
corolário, junto com a Proposição 14.12, generaliza a Proposição 14.5, que era restrita ao caso SO(3).
Corolário 14.3 O grupo SO(n) é conexo por caminhos e, portanto, é conexo. 2
Prova. Pelo que vimos, se R ∈ SO(n), R é da forma R = eA , para alguma A ∈ so(n). Logo R
pertence ao subgrupo uniparamétrico de SO(n) gerado por A: {exp(tA), t ∈ R}. Esse subgrupo
conecta continuamente U à identidade 1 (que corresponde a t = 0).
14.5 O Grupo Afim e o Grupo Euclidiano

Seja V um espaço vetorial (que, lembremos, é um grupo Abeliano em relação à operação de adição
de vetores). Vamos denotar por GL(V ) o conjunto dos operadores lineares bijetores (e, portanto,
invertı́veis) de V em V . Também sabemos que GL(V ) é um grupo.
Existe uma ação à esquerda natural de GL(V ) em V , a saber α : GL(V ) × V → V dada por
α(M, v) := Mv onde M ∈ GL(V ) e v ∈ V . (Mostre que isso define uma ação à esquerda).
Dessa forma podemos definir o produto semi-direto de GL(V ) e V , denotado por GL(V )sα V ou
simplesmente por GL(V )sV , definindo em GL(V ) × V o produto
(M, u) · (M ′ , u′ ) := (MM ′ , Mu′ + u) ,
onde M, M ′ ∈ GL(V ) e u, u′ ∈ V . (A noção de produto semi-direto de dois grupos foi definida à

página 78).
GL(V )sV é denominado o grupo afim do espaço vetorial V .
Se G for um subgrupo de GL(V ), o produto semi-direto GsV é definido analogamente (M, u) ·
(M , u′ ) := (MM ′ , Mu′ + u) , onde M, M ′ ∈ G e u, u′ ∈ V . É evidente que GsV é um subgrupo
′
de GL(V )sV .
E. 14.51 Exercı́cio. Mostre que o conjunto de translações puras formado pelos pares (1, v), v ∈ V é
um subgrupo normal de GL(V )sV . Sugestão: basta mostrar que trata-se de um subgrupo Abeliano. 6
E. 14.52 Exercı́cio. Se G é um subgrupo normal de GL(V ), mostre que GsV é um subgrupo normal
de GL(V )sV . 6
E. 14.53 Exercı́cio. Se G é um subgrupo de GL(V ), mostre que V ∋ u 7→ Ru+v, para (R, v) ∈ GsV ,
define uma ação à esquerda de GsV em V . 6
Consideraremos dois exemplos importantes, o grupo Euclidiano17 e o grupo de Poincaré18 o qual

será tratado na Seção 14.7.
• O Grupo Euclidiano
O chamado grupo Euclidiano em dimensão n é o grupo En := O(n)sRn .

O grupo En tem uma ação natural em Rn dada por Rn ∋ y 7→ Ry + x, para cada elemento (R, x) ∈
En . Assim, En implementa em Rn translações, rotações e reflexões, as chamadas transformações
Euclidianas de Rn . Essa é, em verdade, a própria motivação da definição de En .
E. 14.54 Exercı́cio. Mostre que Rn ∋ y 7→ Ry + x, para (R, x) ∈ En , define uma ação à esquerda de
En em Rn . 6
Há um subgrupo de GL(n + 1, R) que é isomorfo a En . Sejam as matrizes reais (n + 1) × (n + 1)

 
 
 
 
 
 R x 
 
 
E(R, x) :=  , com R ∈ O(n) e x ∈ Rn .
 
 
 
 
 
 
0 1
Então, tem-se
E(R, x) E(R′ , x′ ) := E(RR′ , Rx′ + x) .
E. 14.55 Exercı́cio importante. Mostre isso. 6
Assim, o conjunto de matrizes {E(R, x) ∈ GL(n + 1, R), com R ∈ O(n) e x ∈ Rn } forma um sub-
grupo de GL(n + 1, R) que é isomorfo a En . Também denotaremos esse grupo por En .
17
18
E. 14.56 Exercı́cio. Prove essa última afirmativa. 6
• Os Geradores do Grupo Euclidiano E3
De particular interesse é o caso n = 3. É possı́vel identificar os seguintes sub-grupos uniparamétricos

de E3 , aqueles gerados pelas matrizes E(Rj , 0), j = 1, 2, 3, onde Rj são as matrizes introduzidas em
(14.28) e que geram sub-grupos uniparamétricos de SO(3) e aqueles gerados pelas matrizes E(1, xk ),
k = 1, 2, 3, onde x1 = (x, 0, 0), x2 = (0, x, 0) e x3 = (0, 0, x) com x ∈ R. Esses subgrupos geram
translações nas direções k = 1, 2, 3.
E. 14.57 Exercı́cio importante. Mostre que esses seis subgrupos são subgrupos uniparamétricos. 6
Como facilmente se verifica, os geradores desses subgrupos são as seguintes matrizes:

     
 0   0   0 
     
     
     
 J1 0   J2 0   J3 0 
     
j1 := 

,
 j2 := 

,
 j3 := 



 0   0   0 
     
     
     
     
0 0 0 0 0 0 0 0 0 0 0 0
e      
 1   0   0 
     
     
     
 0 0   0 1   0 0 
     
p1 := 

,
 p2 := 

,
 p3 := 

,

 0   0   1 
     
     
     
     
0 0 0 0 0 0 0 0 0 0 0 0
sendo que J1 , J2 e J3 são os geradores de SO(3), definidos em (14.29)-(14.31), página 789. Usando a
forma das matrizes Jk dada em (14.29)-(14.31), é fácil constatar as seguintes relações de comutação
entre os geradores acima:
3
X 3
X
[ja , jb ] = εabc jc , [pa , pb ] = 0 , [ja , pb ] = εabc pc . (14.61)
c=1 c=1
As relações (14.61) representam as relações de comutação da álgebra de Lie e3 do grupo E3 . Note

que p1 , p2 e p3 formam uma sub-álgebra Abeliana de e3 e que essa sub-álgebra é um ideal de e3 . Esse
fato reflete a propriedade que o subgrupo de translações é um subgrupo normal de E3 .
• Os Geradores do Grupo Euclidiano E2
De maneira análoga podemos tratar o caso (mais simples) do grupo E2 . Os elementos de SO(2)sR2
podem ser parametrizados na forma
 
cos θ − senθ x1 
 
 
 senθ cos θ x  , θ ∈ (−π, π], x1 , x2 ∈ R.
 2
 
 
0 0 1
Seus geradores serão

     
0 −1 0 0 0 1  0 0 0
     
     
j1 := 1 0 0

,

p1 := 0 0 0,

p2 := 0 0 1 .
     
     
0 0 0 0 0 0 0 0 0
Como é fácil de verificar, as relações de comutação entre esses geradores são
[j1 , p1 ] = p2 , [j1 , p2 ] = −p1 , [p1 , p2 ] = 0.
Um elemento genérico dessa álgebra de Lie é da forma

 
 
 
 
 
 J t 
 
I(J, t) := 



 
 
 
 
 
0 0 0
onde    
0 −θ  t1 
J = θj1 = 


 e t = t1 p1 + t2 p2 = 
 

θ 0 t2
com −π < θ ≤ π e t1 , t2 ∈ R.
É um exercı́cio fácil (faça-o) constatar que para todo k ∈ N, k ≥ 1, tem-se

I(J, t)k = I Jk , Jk−1 t .
Conseqüentemente, vale que

 
 
 
 
 ′ 
∞ ∞  R t 
X 1 X 1  
exp (I(J, t)) = 1 + I(J, t) = 1 +
k
I J , J t = 
k k−1

 ,

k=1
k! k=1
k!  
 
 
 
 
0 0 1
onde  
cos θ − senθ
R := eJ = 


 e t′ = f (J)t ,
senθ cos θ
sendo f a função analı́tica inteira definida pela série de Taylor

X∞
1 k−1
f (w) := 1 + w , w∈C. (14.62)
k=2
k!
É fácil constatar que 


 ew − 1

 , w 6= 0

 w

f (w) = .






 1, w=0
A matriz f (J) pode ser calculada facilmente usando-se o fato que

 2k  2k+1  
0 −1 0 −1 0 −1



 = (−1)k 1 e 


 = (−1)k 

,
 k ∈ N,
1 0 1 0 1 0
de onde se extrai
X∞
1 k−1
f (J) := 1 + J
k=2
k!
∞
X X∞
1 1
= 1+ J2m−1
+ J2m
m=1
(2m)! m=1
(2m + 1)!
 
X∞ 0 −1 X ∞
(−1)m θ2m−1  (−1)m θ2m
= 

+
 1
m=1
(2m)! m=0
(2m + 1)!
1 0
 
cos θ − 1 0 −1 senθ
= 

+
 1
θ θ
1 0
 
senθ cos θ − 1
 − 
 θ θ 
 
= 


 .
 
 cos θ − 1 senθ 
θ θ
Notemos que
1 − cos θ
det f (J) = 2 6= 0
θ2
 
x1 
para −π < θ ≤ π. Assim, f (J) é invertı́vel e se escolhermos t = f (J)−1 x, para qualquer x =  
 ∈R
2
x2
teremos  
   
 
 
  cos θ − senθ x1 
 R x   
   
exp I(J, f (J) x) = 
−1

 =  senθ cos θ x  .
  2
   
   
  0 0 1
 
 
0 0 1
Isso prova que todo elemento do grupo SO(2)sR2 pode ser escrito como exponencial de um elemento
da sua própria álgebra de Lie. Essa afirmação é igualmente válida para todo os grupos SO(n)sRn . A
demonstração segue passos análogos aos de acima pois, como observamos na Seção 14.4.3, página 807,
os elementos de SO(n) podem ser escritos em uma base conveniente na forma de blocos de matrizes de
SO(2). Isso implicará que também no caso geral a matriz f (J) é invertı́vel. Deixamos os detalhes da
demonstração como exercı́cio ao leitor.
14.6 O Grupo de Lorentz

Para a leitura desta seção uma certa familiaridade com os rudimentos da teoria da relatividade restrita
é recomendável, mas não totalmente indispensável.
14.6.1 O Espaço-Tempo, a Noção de Intervalo e a Estrutura Causal

É um fato elementar da natureza ser possı́vel descrever qualquer evento idealmente pontual e de duração
instantânea por uma coleção de quatro números que especificam sua posição espacial e seu instante de
tempo, medidos em algum sistema de referência. A coleção de todos os eventos pontuais de duração
instantânea, é denominada espaço-tempo, noção introduzida por Minkowski19 . Assim, é natural (pelo
menos na ausência de campos gravitacionais, que podem alterar a topologia global do espaço-tempo)
identificar o mesmo com o espaço matemático R4 . Assim descrito, cada evento pode ser especificado em
um sistema de referência que adote coordenadas espaciais Cartesianas, por uma quadrupla ordenada
(x1 , x2 , x3 , x4 ), onde convencionamos que os três primeiros números são coordenadas espaciais do
evento e o último sua coordenada temporal. O leitor deve ser advertido que muitos autores conven-
cionam escrever as coordenadas espaço-temporais de um evento na forma (x0 , x1 , x2 , x3 ), onde x0 é
a coordenada temporal. Isso alteraria a forma das matrizes que serão manuseadas abaixo, mas não a
essência dos resultados que apresentaremos.
Na mecânica clássica, a primeira lei de Newton20 afirma existirem certos sistemas de referência
dotados da seguinte propriedade: se um corpo encontra-se isolado do restante do universo, ou seja,
se sobre ele não atuam forças externas, então em relação a esse sistema de referência esse corpo se
move com velocidade constante. Tais sistemas de referência são denominados sistemas de referência
inerciais, pois neles vale o princı́pio de inércia. É muito fácil concluir que se um sistema de referência
se move com velocidade constante em relação a um sistema de referência inercial, então ele é também
um sistema de referência inercial.
Sistemas de referência inerciais desempenham um papel central pois neles as Leis da Fı́sica assumem
um caracter universal. É um postulado fundamental da Fı́sica que suas leis básicas são as mesmas em
todos os sistemas de referência inerciais. Na mesma linha, é um postulado fundamental da Fı́sica que
também suas constantes fundamentais, tais como a velocidade da luz c, a constante de Planck21 ~, a
constante de gravitação universal G e outras tenham também o mesmo valor em todos os sistemas de
referência inerciais. Mais que isso, os sistemas de referência inerciais concordam quanto às relações
de causa e efeito entre todos os eventos ocorridos no espaço-tempo. Essa série de princı́pios aqui
mal-delineados é por vezes denominada princı́pio da relatividade. O princı́pio da relatividade tem sua
19
Hermann Minkowski (1864-1909). A expressão “espaço-tempo” provem do alemão “Raumzeit”.
20
21
origem nos trabalhos de Galilei22 sobre a dinâmica, mas foi com a Teoria da Relatividade de Einstein23
que suas reais conseqüências foram exploradas em sua máxima extensão.
Ao realizarmos transformações entre sistemas de coordenadas inerciais, as coordenadas dos even-
tos transformam-se linearmente. Esse postulado é familiar se nos lembramos da ação do grupo de
translações, da ação do grupo de rotações no espaço tridimensional ou das transformações de Galilei da
mecânica clássica (não-relativista). Assim, cada transformação entre sistemas de coordenadas inerciais
deve ser representada na forma Lx + t, onde L é uma matriz real 4 × 4 e x e t são vetores de R4 . Aqui,
x1
x2
x e t são representados na forma de um vetor coluna, como x = x3 .
x4
O vetor t representa uma translação (tanto no espaço quanto no tempo) entre os sistemas de
coordenadas. Cada matriz L ∈ Mat (R, 4) deve depender das velocidades relativas entre os sistemas
inerciais cuja transformação descreve, da direção dessas velocidades e dos ângulos relativos entre os
eixos Cartesianos espaciais dos dois sistemas. L deve também conter informação sobre se os eixos
Cartesianos espaciais dos dois sistemas têm a mesma orientação (positiva ou negativa) e sobre se os
relógios dos dois sistemas correm na mesma direção.
Dados dois eventos quaisquer x, y no espaço-tempo (que doravante identificaremos com R4 ) e cujas
coordenadas sejam x = (x1 , x2 , x3 , x4 ) e y = (y1 , y2 , y3 , y4 ) em um determinado sistema de referência
inercial, define-se o intervalo entre ambos como sendo a quantidade24
I(x, y) = I(x − y) := (x1 − y1 )2 + (x2 − y2 )2 + (x3 − y3 )2 − c2 (x4 − y4 )2 ,
onde c é a velocidade da luz no sistema de referência inercial em questão.
A noção de intervalo entre eventos é de grande importância. Para começar a explicar isso considere-
mos a situação na qual dois eventos distintos x e y representam a produção e a absorção de um mesmo
raio luminoso, respectivamente. Se em um determinado sistema de referência inercial as coordenadas
desses eventos são x = (x1 , x2 , x3 , x4 ) e y = (y1 , y2 , y3 , y4 ), então a velocidade de propagação da luz
entre x e y satisfaz
(y1 − x1 )2 + (y2 − x2 )2 + (y3 − x3 )2
c2 =
(y4 − x4 )2
e, portanto, I(y, x) = I(y − x) = 0. Um dos postulados fundamentais da teoria da relatividade restrita
é a afirmação que a velocidade de propagação da luz no vácuo é a mesma para qualquer sistema de
referência inercial. Portanto, se em um outro sistema de referência inercial as coordenadas de x e y
fossem x′ = (x′1 , x′2 , x′3 , x′4 ) e y ′ = (y1′ , y2′ , y3′ , y4′ ) terı́amos igualmente
(y1′ − x′1 )2 + (y2′ − x′2 )2 + (y3′ − x′3 )2
c2 =
(y4′ − x′4 )2
e, portanto, tem-se igualmente I(y ′, x′ ) = I(y ′ − x′ ) = 0 com o mesmo valor c para a velocidade de
propagação da luz.
Compreendemos então que o postulado da constância da velocidade da luz pode ser traduzido ma-
tematicamente da seguinte forma: se o intervalo entre dois eventos é nulo em um sistema de referência
22
Galileu Galilei (1564-1642).
23
Albert Einstein (1879-1955).
24
Novamente supomos a ausência de campos gravitacionais, em cuja presença a definição de intervalo tem que ser
modificada.
inercial então é também nulo em todos os demais sistemas de referência inerciais. Mais adiante pro-
varemos que, sob certas hipóteses fı́sicas adicionais, esse fato implica uma condição ainda mais geral
de invariância: o intervalo entre dois eventos quaisquer é o mesmo em qualquer sistema de referência
inercial, mesmo quando não é nulo.
Nota. Independente de ser um postulado teórico, a constância da velocidade da luz é um fato experimental que tem sofrido sucessivas
confirmações ao longo de várias décadas. Para uma lista possivelmente parcial de referências recentes (das últimas quatro décadas) contendo
testes experimentais da constância da velocidade da luz e testes da velocidade da luz como velocidade limite, vide:
1. T. S. Jaseja, A. Javan, J. Murray and C. H. Townes. “Test of Special Relativity or of the Isotropy of Space by Use of Infrared Masers”.
Phys. Rev. A133, A1221-A1125 (1964).
2. T. Alväger, F. J. M. Farley, J. Kjellman and I. Wallin. “Test of the Second Postulate of Special Relativity in the GeV Region”. Phys.
Lett. 12, 260-263 (1964).
3. D. I. Blotkhintsev. “Basis for Special Relativity Theory Provided by Experiments in High Energy Physics”. Sov. Phys. Uspekhi, 9,
405 (1966).
4. Z. G. T. Guiragossián, G. B. Rothbart, M. R. Yearian, R. A. Gearhart and J. J. Murray. “Relative Velocity Measurements of Electrons
and Gamma Rays at 15 GeV”. Phys. Rev. Lett. 34, 335-338 (1975).
5. K. Brecher. “Is the Speed of Light Independent of the Velocity of the Source?”. Phys. Rev. Lett. 39, 1051-1054, 1236(E) (1977).
6. D. Newman, G. W. Ford, A. Rich and E. Sweetman. “Precision Experimental Verification of Special Relativity”. Phys. Rev. Lett.
40, 1355-1358 (1978).
7. K. M. Baird, D. S. Smith and B. G. Whitford. “Confirmation of the Currently Accepted Value 299 792 458 Metres per Second for
the Speed of Light”. Opt. Comm. 31, 367-368 (1979).
8. G. L. Greene, M. Scott Dewey, E. G. Kessler, Jr. and E. Fischbach. “Test of Special Relativity by a Determination of the Lorentz
Limiting Velocity: Does E = mc2 ?”. Phys. Rev. D 44, R2216-R2219 (1991).
9. Bradley E. Schaefer. “Severe Limits on Variations of the Speed of Light with Frequency”. Phys. Rev. Lett. 82, 4964 (1999).
Para um texto recente, vide [158]25 .
Notemos que o intervalo depende da diferença x − y. Assim, translações entre sistemas de re-
ferência automaticamente mantêm invariantes os intervalos entre eventos. Por essa razão vamos por
ora interessar-nos apenas por transformações entre sistemas de referência que sejam do tipo Lx, com
L ∈ Mat (R, 4).
Para prosseguirmos precisamos introduzir uma importante classificação de intervalos.
• Intervalos de Tipo Luz, de Tipo Tempo e de Tipo Espaço
Em um sistema de referência, dois eventos distintos x e y são ditos ser26
1. do tipo luz se I(x, y) = 0,
2. do tipo tempo se I(x, y) < 0,
3. do tipo espaço se I(x, y) > 0.

25
Agradecemos à Profa. Renata Zukanovich Funchal pelas referências acima.
26
As expressões em inglês são “light-like”, “time-like” e “space-like”, respectivamente. Essa nomenclatura provém do
alemão: “lichtartig”, “zeitartig” e “raumartig”.
Se dois eventos distintos x = (x1 , x2 , x3 , x4 ) e y = (y1 , y2 , y3 , y4 ) são do tipo luz, então
(y1 − x1 )2 + (y2 − x2 )2 + (y3 − x3 )2

= c2 .
(y4 − x4 )2
Se dois eventos distintos x = (x1 , x2 , x3 , x4 ) e y = (y1 , y2 , y3 , y4 ) são do tipo tempo, então
(y1 − x1 )2 + (y2 − x2 )2 + (y3 − x3 )2

< c2 .
(y4 − x4 )2
Se dois eventos distintos x = (x1 , x2 , x3 , x4 ) e y = (y1 , y2 , y3 , y4 ) são do tipo espaço, então
(y1 − x1 )2 + (y2 − x2 )2 + (y3 − x3 )2

2
> c2 .
(y4 − x4 )
Com isso entendemos que
1. Se dois eventos são separados por um intervalo do tipo luz pode haver um sinal conectando ambos
e que se propagaria com a velocidade da luz.
2. Se dois eventos são separados por um intervalo do tipo tempo pode haver um sinal conectando
ambos e que se propagaria com velocidade menor que a da luz.
3. Se dois eventos são separados por um intervalo do tipo espaço não pode haver um sinal conectando
ambos, pois o mesmo se propagaria com velocidade maior que a da luz.
A importância dessas considerações é a seguinte. É uma crença da fı́sica atual que as partı́culas
elementares (que compoem toda a matéria do universo) não podem mover-se com velocidade maior
que a da luz. Conseqüentemente, se dois eventos são separados por um intervalo do tipo espaço não
pode haver nenhum processo fı́sico que, iniciando-se em um evento, influencie o outro. Diz-se então que
esses eventos são causalmente desconectados, ou seja, não pode haver nenhuma relação causal (isto é,
de causa e efeito) entre ambos. Por outro lado, se dois eventos são separados por um intervalo do tipo
tempo então pode haver alguma influência causal entre ambos, por exemplo, através de uma partı́cula
ou corpo material que, movendo-se no espaço-tempo com velocidades inferiores à da luz, parta de um
evento e influencie o outro. No caso de intervalos do tipo luz a situação é a mesma mas, então, a
eventual influência de um no outro deve propagar-se com a velocidade da luz.
E. 14.59 Exercı́cio. Passe vários dias meditando sobre os parágrafos acima. 6
• A Estrutura Causal. Transformações que Preservam a Estrutura Causal
Como se percebe, se aceitarmos a idéia que processos fı́sicos não podem propagar-se com velocidades
superiores à da luz, a noção de intervalo estabelece as possı́veis relações de causalidade entre todos os
eventos do espaço-tempo, ao dizer quais eventos podem eventualmente influenciar-se (aqueles que são
do tipo tempo ou do tipo luz um em relação ao outro) e quais não podem de forma alguma influenciar-se
(aqueles que são do tipo espaço um em relação ao outro).
É uma crença da Fı́sica atual que essas relações de causalidade devem ser as mesmas para todos os
sistemas de referência inerciais, pois os mesmos descrevem as mesmas leis fı́sicas e devem perceber as
mesmas relações de causa e efeito entre os eventos que compoem o universo.
E. 14.60 Exercı́cio. Mais alguns dias de meditação. 6
Com isso, podemos introduzir a seguinte definição: dizemos que uma transformação linear L, que
representa uma transformação entre dois sistemas de referência, preserva a estrutura causal do espaço-
tempo se a mesma satisfizer todas as três condições seguintes:
1. I(Lx, Ly) = 0 sempre que I(x, y) = 0,
2. I(Lx, Ly) < 0 sempre que I(x, y) < 0,
3. I(Lx, Ly) > 0 sempre que I(x, y) > 0.
Em palavras, L preserva o tipo de intervalo que separa todos os eventos do espaço-tempo, levando
todos os intervalos do tipo luz em intervalos do tipo luz, levando todos os intervalos do tipo tempo em
intervalos do tipo tempo e levando todos os intervalos do tipo espaço em intervalos do tipo espaço.
Notemos que a condição que impõe que I(Lx, Ly) = 0 sempre que I(x, y) = 0 é a condição da
invariância da velocidade da luz (já mencionada acima), mas as demais representam algo diferente: a
invariância das relações de causalidade por mudança de sistemas de referência inerciais.
Um pouco mais abaixo exploraremos as conseqüências matemáticas que essas imposições têm sobre
as transformações L e concluiremos que, sob as hipóteses acima (e sob uma hipótese adicional de
ausência de dilatações), vale uma conseqüência mais forte, a saber, que I(Lx, Ly) = I(x, y) para
todos os eventos x e y. Assim, transformações que preservam a estrutura causal e não envolvem
dilatações preservam o valor do intervalo entre dois eventos quaisquer do espaço-tempo.
Por fim, apenas a tı́tulo de ilustração, exemplifiquemos como seria uma transformação que preserva
os intervalos de tipo luz mas não os demais, preservando, portanto, a velocidade da luz mas violando
a estrutura causal. Consideremos um espaço-tempo bidimensional, onde 0 cada
evento é descrito por
c
uma coordenada espacial x1 e uma temporal t. Seja a matriz L = . O intervalo entre os
x c−1 0
1 0
eventos x = t
e 0 = seria I(x, 0) = x21 − c2 t2 . Porém, pela transformação L terı́amos
′ x ct 0
x1 1
′
= L t
= −1 . Assim,
t c x1
I(Lx, L0) = (x′1 )2 − c2 (t′ )2 = c2 t2 − x21 = − I(x, 0).
Logo, como os intervalos I(Lx, L0) e I(x, 0) diferem por um sinal, terı́amos para quaisquer eventos x
ey
1. I(Lx, Ly) = 0 sempre que I(x, y) = 0,
2. I(Lx, Ly) < 0 sempre que I(x, y) > 0,
3. I(Lx, Ly) > 0 sempre que I(x, y) < 0.

Portanto, intervalos tipo luz seriam levados em intervalos tipo luz, mas intervalos tipo espaço seriam
levados em intervalos tipo tempo e vice-versa. Como se vê por esse exemplo, em transformações
que violam a estrutura causal deve haver algo como uma permutação entre coordenadas espaciais e
temporais.
E. 14.61 Exercı́cio. São tais transformações fisicamente aceitáveis? 6
• Dilatações
Vamos agora discutir uma classe de transformações que preservam a estrutura causal: as dilatações.
Para λ ∈ R, λ 6= 0, a matriz D(λ) := λ1 simplesmente transforma cada x ∈ R4 em λx, ou seja,
D(λ) representa uma dilatação ou mudança de escala das coordenadas espaço-temporais de eventos. É
evidente que I(D(λ)x, D(λ)y) = λ2 I(x, y), de modo que dilatações são transformações lineares que
preservam a estrutura causal.
São as dilatações aceitáveis enquanto mudanças de sistemas de referência inerciais? Essa é uma
questão muito interessante e sutil e demanda uma certa discussão.
Claramente, mudanças de escala podem ocorrer naturalmente no caso de tratarmos de dois sistemas
de referência que adotam sistemas métricos diferentes, como no caso em que um sistema mede distâncias
em metros e um outro em jardas (mas de modo que as medidas de tempo em um e outro sejam
tais que ambos atribuem o mesmo valor numérico para c). Essas situações são triviais e poderiam
ser contornadas se ambos os sistemas de referência concordassem no uso de uma mesma escala de
distâncias. Mas para que isso seja possı́vel é preciso que haja objetos fı́sicos, em repouso em ambos
os sistemas de referência, que possuam as mesmas dimensões. Poderı́amos, por exemplo, adotar como
unidade de distância o “tamanho médio” do átomo de hidrogênio27 , ou o comprimento de onda de uma
linha de emissão de um certo átomo ou molécula, fixos em cada sistema de referência.
Mas o que garante que o tamanho médio de um átomo de hidrogênio parado na Terra é o mesmo
que o de um átomo de hidrogênio parado em uma galáxia distante que se move em relação a nós com
uma certa velocidade? A princı́pio, nada garante, mas a crença que sistemas de referência inerciais
descrevem a mesma fı́sica envolve também a crença que certas escalas básicas de distância e de tempo,
como o tamanho médio de um átomo em repouso, são as mesmas em todos os sistemas de referência
inerciais. Por exemplo, o tamanho médio do átomo de hidrogênio em repouso depende de propriedades
fı́sicas que regem a interação entre o próton e o elétron que o constituem (a lei de Coulomb28 ), das leis
da mecânica que regem seus movimentos (as leis da mecânica quântica), assim como dos valores das
cargas elétricas e das massas de repouso dessas partı́culas. Essas grandezas e leis devem ser as mesmas
em quaisquer sistemas de referência inerciais.
Intimamente associada a isso está a questão dos valores das massas de repouso das partı́culas
elementares. Isso se deve ao fato seguinte. A fı́sica quântica nos ensina que se m0 é a massa de
repouso de uma partı́cula elementar, digamos um elétron, então a quantidade ~/(m0 c) tem dimensão
de comprimento (verifique!). Esse é o chamado comprimento de onda Compton29 da partı́cula de massa
27
A noção de “tamanho médio” de um átomo pode ser definida na mecânica quântica, mas não entraremos em detalhes
aqui.
28
Charles Augustin de Coulomb (1736-1806).
29
Arthur Holly Compton (1892-1962). Compton recebeu o prêmio Nobel de Fı́sica de 1927 “for his discovery of the
de repouso m0 . Assim, para qualquer partı́cula de massa de repouso m0 há uma escala de distância a
ela associada.
É parte da crença associada ao princı́pio da relatividade que as massas em repouso das partı́culas
elementares, como elétrons, quarks etc., são as mesmas quer na Terra quer em uma galáxia distante que
se move em relação a nós com velocidade constante. Até onde se sabe, essa hipótese tem corroboração
experimental, pois sua violação levaria a conseqüências observacionais em relação ao comportamento
da matéria que nunca foram verificadas quer em observações astronômicas quer em experimentos com
aceleradores de partı́culas feitos na Terra. Como ~ e c são constantes fı́sicas, devem também ser as
mesmas em quaisquer sistemas de referência inerciais e, portanto, o comprimento de onda Compton
de, digamos, um elétron em repouso deve ser o mesmo em qualquer sistema de referência inercial e com
ele poderı́amos estabelecer uma escala de distâncias universal.
Em um universo em que não houvessem escalas de distância ou de massa naturais, como por exemplo
no caso de universos em que todas as partı́culas elementares têm massa nula e não formam estados
ligados (como átomos) que possuam alguma escala de distância tı́pica, não haveria maneira de sistemas
de referência inerciais concordarem com escalas espaciais e temporais e, aı́, a inclusão de dilatações
seria inevitável nas transformações entre sistemas de referência. Esse não é o caso do universo em que
vivemos, pois nele sabidamente habitam partı́culas massivas.
Assim, apesar de as dilatações satisfazerem a condição de não violarem a estrutura causal do
espaço-tempo, as mesmas não devem ser consideradas como transformações legı́timas de coordenadas
espaço-temporais entre sistemas de referência inerciais no nosso universo, pois partimos da crença que
esses sistemas podem sempre concordar quanto a certas escalas básicas de certos objetos fı́sicos em
repouso, tais como as massas de repouso de certas partı́culas elementares e seus comprimentos de onda
Compton.
E. 14.62 Exercı́cio. Mais meditação. 6
• A Convenção que c = 1
Daqui por diante adotaremos a convenção simplificadora que c = 1. Isso pode ser obtido pela
escolha de um sistema de unidades métricas conveniente. Essa convenção, muito empregada atual-
mente em textos de fı́sica teórica30 , tem a vantagem de “limpar” as expressões matemáticas de fatores
que dependam de c. Admitidamente, há uma certa “preguiça” na adoção dessa convenção, mas a
mesma traz vantagens. De qualquer forma, os fatores c omitidos podem ser facilmente recuperados por
considerações de análise dimensional.
• Notação Matricial. A Métrica de Minkowski
É muito conveniente escrever o intervalo entre dois eventos x e y com uso da seguinte notação
matricial:
I(x − y) = (x1 − y1 )2 + (x2 − y2 )2 + (x3 − y3 )2 − (x4 − y4 )2 = h(x − y), η(x − y)iR ,

effect named after him”.
30
Em textos teóricos de mecânica quântica e teoria quântica de campos, adota-se também ~ = 1.
onde  
 
 0 
 1 0 0 0   
   
   
 0 1 0 0   1 0 
   
η := η(3, 1) = 

 = 
 
.
 (14.63)
 0 0 1 0   0 
   
   
   
0 0 0 −1  
0 0 0 −1
A matriz η é freqüentemente denominada métrica de Minkowski.
14.6.2 A Invariância do Intervalo

No que vimos acima, aprendemos que o postulado da invariância da velocidade de propagação da luz
quando de uma transformação entre sistemas de referência inerciais implica que se x e y são dois eventos
tais que
I(x, y) = h(x − y), η(x − y)iR = 0 (14.64)
então tem-se também
I(Lx, Ly) = hL(x − y), ηL(x − y)iR = 0 (14.65)
para qualquer transformação linear L ∈ Mat (R, 4) que represente uma mudança entre sistemas de
referência inerciais.
Nesta seção iremos provar uma afirmação, o Teorema 14.7, adiante, que generaliza ainda mais o
descrito no último parágrafo, a saber, provaremos que se L ∈ Mat (R, 4) representa uma mudança
entre sistemas de referência inerciais que preserva a estrutura causal e não envolve dilatações (definições
adiante) então I(x, y) = I(Lx, Ly) para quaisquer eventos x e y, mesmo aqueles para os quais
I(x, y) 6= 0. Esse fato releva a importância da noção de intervalo na teoria da relatividade: o mesmo
representa uma grandeza invariante por transformações de sistemas de referência do tipo descrito acima.
Dessa propriedade de invariância extrairemos todas as informações importantes sobre as transformações
de Lorentz.
• Transformações Lineares e a Estrutura Causal
Vamos aqui provar um teorema de importância central no entendimento da relação entre trans-
formações L ∈ Mat (R, 4) e sua relação com a estrutura causal do espaço-tempo.
Teorema 14.7 Seja L um elemento de Mat (R, 4) que representa uma mudança entre sistemas de
referência inerciais que preserva os intervalos de tipo luz. Então,

ηLT ηL = − LT ηL 44 1 = ±| det(L)|1/2 1 . (14.66)
Se além disso L preserva a estrutura causal, então,

ηLT ηL = − LT ηL 44 1 = | det(L)|1/2 1 . (14.67)
Por fim, se L preserva a estrutura causal e não envolve dilatações, então
ηLT ηL = 1 . (14.68)
Uma conseqüência imediata dessa relação é que I(Lx, Ly) = I(x, y) para todos x, y ∈ R4 . 2
Prova. Para x ∈ R4 , sejam as formas quadráticas
I(x) := hx, ηxiR e J(x) := hLx, ηLxiR = hx, LT ηLxiR .
É bastante claro que

I(x) = −(x4 )2 + k~xk2 = − [x4 − k~xk] [x4 + k~xk] , (14.69)
p
onde ~x = (x1 , x2 , x3 ) e k~xk = x21 + x22 + x23 . Por outro lado,

J(x) = LT ηL 44 (x4 )2 + a(~x)x4 + b(~x) = LT ηL 44 [x4 − y1 (~x)] [x4 − y2 (~x)] , (14.70)
onde31
3
X 3
X

a(~x) := 2 LT ηL 4a xa , e b(~x) := LT ηL ab xa xb ,
a=1 a, b=1
sendo que

− LT ηL 44 (y1 (~x) + y2 (~x)) = a(~x) e LT ηL 44 y1 (~x)y2 (~x) = b(~x).
Sabemos por (14.64)-(14.65) (tomando y = 0) que se L preserva intervalos tipo luz, então se tivermos
I(x) = 0 para algum x ∈ R4 , valerá também J(x) = 0. Para ~x fixo qualquer, vemos por (14.69) e
(14.70) que tanto I(x) quanto J(x) são polinômios de segundo grau em x4 e, pelo que acabamos de
comentar, têm os mesmos zeros. Dessa forma, também por (14.69) e (14.70), podemos sem perda de
generalidade escolher y1 (~x) = k~xk e y2 (~x) = −k~xk.
Com isso teremos que

J(x) = LT ηL 44 (x4 − k~xk)(x4 + k~xk) = − LT ηL 44 I(x)
para todo x ∈ R4 . Pela definição de I(x) e J(x) temos então

hLx, ηLxiR = − LT ηL 44 hx, ηxiR . (14.71)
para todo x ∈ R4 , ou seja

hx, LT ηL + LT ηL 44 η xiR = 0
31
T
Aqui usou-se que LT ηL 4a
= LT ηL a4
pois LT ηL é simétrica, ou seja LT ηL = LT ηL.

para todo x ∈ R4 . Como LT ηL + LT ηL 44 η é uma matriz simétrica (verifique!), a Proposição 2.5,

página 134, implica LT ηL + LT ηL 44 η = 0. Como η 2 = 1, segue que

ηLT ηL = − LT ηL 44 1. (14.72)
Como det(η) = −1 e det(L) = det(LT ), obtemos ao tomar o determinante de ambos os lados da

igualdade acima que
4
det(L)2 = − LT ηL 44
de onde extraı́mos que
− LT ηL 44 = ±| det(L)|1/2 . (14.73)
Com (14.72), isso prova (14.66).
Inserindo (14.73) em (14.71) terı́amos hLx, ηLxiR = ±| det(L)|1/2 hx, ηxiR para todo x ∈ R4 .
Portanto, se L preserva a estrutura causal, apenas o sinal positivo é aceitável. Assim, por (14.72),
temos nesse caso LT ηLη = | det(L)|1/2 1 e isso completa a prova de (14.67).
Seja agora L o conjunto de todas as matrizes L0 ∈ Mat (R, 4) que satisfazem ηLT0 ηL0 = 1.
Afirmamos que se L satisfaz (14.67) então L é da forma L = λL0 com λ ∈ R e L0 ∈ L. De fato,
se L 6= 0 satisfaz (14.67) teremos para qualquer λ 6= 0 que η(λ−1 L)T η(λ−1 L) = λ−2 | det(L)|1/2 1 e
escolhendo λ = | det(L)|1/4 concluı́mos que λ−1 L ∈ L.
Assim, se L satisfaz (14.67), L é produto de uma transformação de L com uma transformação
D(λ) = λ1, λ ∈ R, λ 6= 0. Se L não envolve dilatações então L ∈ L. Isso prova (14.68).
Como vemos, um papel especial é desempenhado pelas matrizes de L. Por toda nossa discussão
tais matrizes representam as transformações entre sistemas de referência que respeitam a imposição
fı́sica de preservar a estrutura causal e ignoram dilatações. Daqui por diante vamos nos concentrar
exclusivamente em tais transformações. Como veremos, o conjunto L introduzido acima tem a estrutura
de um grupo, um fato de grande importância. Trata-se do chamado grupo de Lorentz, um objeto de
importância central na teoria da relatividade.
14.6.3 O Grupo de Lorentz

O Teorema 14.7 acima diz-nos que se L ∈ Mat (R, 4) representa uma transformação entre sistemas de
referência inerciais que preserva a estrutura causal e não envolve dilatações, então ηLT ηL = 1, o que
equivale a dizer que L−1 = ηLT η. Isso também equivale a dizer que
hLx, ηLyiR = hx, ηyiR
para todos x, y ∈ R4 . Esse fato e a particular forma da matriz η mostram que o conjunto de tais
matrizes L coincide com o grupo O(3, 1), que previamente definimos (vide página 779).
Devido à sua grande importância na fı́sica relativı́stica, o grupo O(3, 1) recebe denominação especial,
a saber, é denominado grupo de Lorentz32 , em honra ao grande fı́sico holandês, pioneiro nos estudos da
32
Hendrik Antoon Lorentz (1853-1928).
teoria da relatividade. O(3, 1) é também denotado pelo sı́mbolo L. Os elementos de L são denominados
transformações de Lorentz.
Equivalentemente, o grupo de Lorentz L = O(3, 1) é o grupo de todas as matrizes 4 × 4 que
satisfazem
L−1 = ηLT η.
Como todo elemento L do grupo de Lorentz satisfaz LηLT η = 1, tem-se det(LηLT η) = 1, ou

seja, det(L)2 = 1 pois det(LηLT η) = det(L) det(η)2 det(LT ), det(η) = −1 e det(L) = det(LT ). Assim,
det(L) = ±1. O subconjunto SO(3, 1) de O(3, 1), formado pelas matrizes L que satisfazem det(L) = +1
é um sub-grupo, denotado também por L+ .
A seguinte proposição sobre o grupo de Lorentz será usada adiante:
Proposição 14.14 Se L ∈ L então LT ∈ L. 2
Prova. Sabemos que para qualquer matriz M vale (M T )T = M e que para qualquer matriz invertı́vel
M vale (M T )−1 = (M −1 )T (por que?). Se L ∈ L, tem-se por definição que L−1 = ηLT η. Assim, como
η T = η, segue que
T
L−1 = ηLη,
ou seja,
−1 T
LT = η LT η,
que é o que se queria provar.
• O Grupo de Poincaré
Retornemos brevemente às transformações afins gerais que preservam intervalos e que, como vimos,
são da forma Lx + t, com t ∈ R4 sendo uma translação e L ∈ L. A composição de duas de tais
transformações L′ x + t′ e Lx + t, é a transformação L′ (Lx + t) + t′ = L′ Lx + L′ t + t′ .
Essa última expressão naturalmente conduz ao seguinte. Seja P := L × R4 o conjunto de todos os
pares ordenados (L, t) com L ∈ L e t ∈ R4 . Então P é um grupo com o produto definido por
(L′ , t′ ) · (L, t) := (L′ L, L′ t + t′ ).
Como se vê, esse produto faz de P o produto semi-direto LsR4 . O produto semi-direto de grupos foi
definido à página 79.
E. 14.64 Exercı́cio. Verifique que o produto acima é de fato associativo. Identifique o elemento neutro
e determine a inversa de cada par (L, t) ∈ P. 6
Esse grupo, que combina transformações de Lorentz e translações, é denominado grupo de Poin-
caré33 em homenagem ao eminente matemático francês que também foi um dos pioneiros da teoria da
33
relatividade34 . O grupo de Poincaré é o grupo mais geral de transformações afins do espaço-tempo que
mantêm os intervalos invariantes.
Mais adiante (página 844) vamos retornar ao grupo de Poincaré para analisar sua estrutura enquanto
grupo de Lie. Antes, porém, precisamos nos concentrar plenamente no grupo de Lorentz.
14.6.4 Alguns Sub-Grupos do Grupo de Lorentz

Antes de e com o propósito de estudarmos a estrutura do grupo de Lorentz, vamos identificar alguns
de seus sub-grupos mais importantes.
• Troca de Paridade e Reversão Temporal
As seguintes matrizes são elementos do grupo de Lorentz

     
 −1 0 0 0   1 0 0 0   1 0 0 0 
     
     
 0 1 0 0   0 −1 0 0   0 1 0 0 
     
P1 := 

,
 P2 := 

,
 P3 := 

,
 (14.74)
 0 0 1 0   0 0 1 0   0 0 −1 0 
     
     
     
0 0 0 1 0 0 0 1 0 0 0 1
e    
 −1 0 0 0   1 0 0 0 
   
   
 0 −1 0 0   0 1 0 0 
   
P := 

,
 T := 

.
 (14.75)
 0 0 −1 0   0 0 1 0 
   
   
   
0 0 0 1 0 0 0 −1
E. 14.65 Exercı́cio importante. Verifique que as cinco matrizes acima são membros do grupo de Lorentz,
ou seja, satisfazem LηLT η = 1. 6
As matrizes P , P1 , P2 e P3 implementam trocas de paridade, ou seja, reversão da orientação dos

eixos de coordenadas espaciais de pontos de R4 . A matriz T implementa uma reversão temporal, ou
seja, inversão da coordenada temporal de pontos de R4 .
É bastante evidente que (T )2 = (P )2 = (P1 )2 = (P2 )2 = (P3 )2 = 1 e que P = P1 P2 P3 . As matrizes
T, P1 , P2 , P3 geram um sub-grupo do grupo de Lorentz que implementa reversões temporais e de
paridade.
34
Vários historiadores da ciência apontaram para o fato que Poincaré, assim como Lorentz, antecedeu Einstein em
alguns aspectos. Poincaré foi o primeiro (em 1905, o ano da publicação do trabalho seminal de Einstein, mas independente
deste) a estudar o caráter de grupo das transformações de Lorentz, tendo provado que toda transformação de Lorentz é
combinação de rotações com um “boost”, fato que estabeleceremos no Teorema 14.8, mais adiante.
• Os Sub-grupos Rot e SRot
Se R é uma matriz 4 × 4 da forma

 
 0 
 
 
 
 r0 0 
 
R := 

,

 0 
 
 
 
 
0 0 0 1
onde r0 é uma matriz 3 × 3 pertencente a O(3), então é fácil verificar que R é um elemento do grupo
de Lorentz, ou seja, satisfaz RηRT η = 1.
E. 14.66 Exercı́cio. Verifique isso, usando os fatos que r0 r0T = 1 e que

 
 0 
 
 
 
 (r0 )T 0 
 
RT := 

 = R−1 .

 0 
 
 
 
 
0 0 0 1
É fácil constatar que o conjunto das matrizes da forma de R acima forma um sub-grupo do grupo
de Lorentz. Esse sub-grupo será designado aqui35 por Rot.
E. 14.67 Exercı́cio. Mostre que Rot é isomorfo ao grupo O(3): Rot ≃ O(3). 6
Se R é da forma acima, é evidente também que det(R) = det(r0 ). Logo, Rot tem um sub-grupo
35
Essa notação não é uniforme na literatura.
SRot de matrizes R com det(R) = 1 da forma

 
 0 
 
 
 
 r0 0 
 
R := 

,

 0 
 
 
 
 
0 0 0 1
onde r0 é uma matriz 3 × 3 pertencente a SO(3).
E. 14.68 Exercı́cio. Mostre que SRot é isomorfo ao grupo SO(3): SRot ≃ SO(3). 6
E. 14.69 Exercı́cio. Mostre que se R ∈ Rot mas R 6∈ SRot então existe matriz R′ ∈ SRot com
R = P R′ . 6
E. 14.70 Exercı́cio. Mostre que se R ∈ Rot mas R 6∈ SRot então existe matriz R′′ ∈ SRot com
R = P1 R′′ . 6
As matrizes de SRot implementam rotações puras (sem troca de paridade) nas coordenadas espaciais
de R4 .
• Os “Boosts” de Lorentz
Um conjunto muito importante de matrizes de Lorentz é formado pelos chamados “boosts36 ” de

Lorentz na direção 1. Tais matrizes são da forma
 
 γ(v)0 0 −vγ(v) 
 
 
 0 1 0 0 
 
B1 (v) := 

,
 (14.76)
 0 0 1 0 
 
 
 
−vγ(v) 0 0 γ(v)
onde
1
γ(v) := √
1 − v2
e v ∈ (−1, 1).
36
Do inglês to boost: impulsionar, propelir, impelir, empurrar.
E. 14.71 Exercı́cio muito importante. Verifique que as matrizes B1 (v) acima são membros do grupo
de Lorentz, ou seja, satisfazem B1 (v)ηB1 (v)T η = 1 para todo v ∈ (−1, 1). 6
Outro fato de grande importância é o seguinte: o conjunto de todas as matrizes B1 (v) com v ∈
(−1, 1) forma um sub-grupo do grupo de Lorentz, denominado sub-grupo dos boosts de Lorentz (na
direção 1) e que designaremos aqui por B1 . Isso decorre do seguinte:
1. Para v = 0
B1 (0) = 1.
2. Para todo v ∈ (−1, 1)

B1 (v)−1 = B1 (−v).
3. Para todos v, v ′ ∈ (−1, 1)

′ v′ + v
B1 (v )B1 (v) = B1 . (14.77)
1 + v′v
E. 14.72 Exercı́cio muito importante. Verifique essas três afirmações. 6
Observe-se que o item 3, acima, está intimamente associado à regra relativista de composição de
velocidades.
Segue também de (14.77) que B1 é um sub-grupo Abeliano: B1 (v ′ )B1 (v) = B1 (v)B1 (v ′ ) para todos
v ′ , v ∈ (−1, 1).
E. 14.73 Exercı́cio. Mostre que det(B1 (v)) = 1 para todo v ∈ (−1, 1) e, portanto, B1 ⊂ SO(3, 1).
6
Analogamente aos boosts de Lorentz na direção 1, há os boosts de Lorentz nas direções 2 e 3,
representados por matrizes como
   
 1 0 0 0   1 0 0 0 
   
   
 0 γ(v) 0 −vγ(v)   0 1 0 0 
   
B2 (v) := 


 e B3 (v) := 

 . (14.78)

 0 0 1 0   0 0 γ(v) −vγ(v) 
   
   
   
0 −vγ(v) 0 γ(v) 0 0 −vγ(v) γ(v)
Todas as afirmações feitas sobre as matrizes B1 têm seu correspondente análogo para as matrizes B2 e
B3 . Os respectivos sub-grupos são aqui denotados por B2 e B3 .
Geometricamente as matrizes B2 (v) e B1 (v) estão relacionadas por uma matriz de rotação de SRot
que implementa uma rotação de π/2 em torno do eixo 3:
B2 (v) = RB1 (v)RT ,

onde  
 0 −1 0 0 
 
 
 1 0 0 0 
 
R = 

 ∈ SRot.

 0 0 1 0 
 
 
 
0 0 0 1
Analogamente, é possı́vel obter a matriz B3 (v) a partir de B1 (v) ou de B2 (v) através de rotações.
E. 14.75 Exercı́cio. Boosts de Lorentz em direções distintas não comutam. Mostre, por exemplo, que
B1 (v)B2 (v ′ ) 6= B2 (v ′ )B1 (v), exceto se v = 0 ou v ′ = 0. 6
Adiante, em nosso estudo da estrutura geral do grupo de Lorentz, mostraremos o quão importantes
os boosts de Lorentz são. A saber, mostraremos que toda matriz de Lorentz é obtida por uma sucessão
de uma rotação, um boost (na direção 1, por exemplo) e eventualmente uma outra rotação. Eventual-
mente trocas de paridade e inversões temporais podem ocorrer também. A afirmação precisa está no
Teorema 14.8.
14.6.5 A Estrutura do Grupo de Lorentz

Antes de iniciar a leitura desta seção o leitor poderá apreciar o estudo do grupo O(1, 1) iniciado à
página 784.
Vamos aqui tentar caracterizar a forma geral de um elemento do grupo de Lorentz O(3, 1). Como
já observamos, O(3, 1) possui um sub-grupo SRot ≃ SO(3) formado por matrizes da forma
 
 0 
 
 
 
 r0 0 
 
R := 

,

 0 
 
 
 
 
0 0 0 1
onde r0 é uma matriz 3 × 3 pertencente a SO(3).

Vamos no que segue demonstrar o seguinte teorema, que nos fornece a forma geral de toda matriz
L ∈ L e que é de importância em todo estudo detalhado do grupo de Lorentz.
Teorema 14.8 Seja L um elemento do grupo de Lorentz O(3, 1). Como matriz 4 × 4, L é da forma
 
 L11 L12 L13 L14 
 
 
 L L22 L23 L24 
 21 
L = 

.
 (14.79)
 L L32 L33 L34 
 31 
 
 
L41 L42 L43 L44
Então vale uma das quatro afirmações seguintes:

Ia. det(L) = +1, L44 ≥ +1 e L é da forma
L = Ra B1 (v) Rb ,
para algum v ∈ (−1, 1) e para Ra , Rb ∈ SRot.

Ib. det(L) = +1, L44 ≤ −1 e L é da forma
L = T P Ra B1 (v) Rb ,

IIa. det(L) = −1, L44 ≤ −1 e L é da forma
L = T Ra B1 (v) Rb ,

IIb. det(L) = −1, L44 ≥ +1 e L é da forma
L = P Ra B1 (v) Rb ,
para algum v ∈ (−1, 1) e para Ra , Rb ∈ SRot. 2
A demonstração detalhada deste teorema encontra-se na Seção 14.A, página 858.
• Dois Resultados sobre o Grupo de Lorentz
Proposição 14.15 Se L é um elemento do grupo de Lorentz O(3, 1) e L−1 é sua inversa, então tem-se
que (L−1 )44 = L44 . 2
Prova. A prova é simples, pois sabemos que L−1 = ηLT η. Então, usando-se a representação (14.A.1) e
calculando-se explicitamente, tem-se

   
 0   0 
   
   
   
 1 0  lT b  1 0 
   
L−1
=    
   
 0   0 
   
   
   
 


 
0 0 0 −1 aT L44 0 0 0 −1
 
 
 
 
 
 lT −b 
 
 
=  ,
 
 
 
 
 
 
−aT L44
o que leva à constatação que (L−1 )44 = L44 .
Proposição 14.16 Se L e L′ são dois elementos quaisquer do grupo de Lorentz O(3, 1) então tem-se
que
sinal((LL′ )44 ) = sinal(L44 )sinal(L′44 ).
2
Prova. Sejam L e L′ duas transformações de Lorentz que, como em (14.A.1), representamos na forma
de blocos    
   
   
   
   
 l a   l′ a′ 
   
   
L =  , L′ =  , (14.80)
   
   
   
   
   
   
bT L44 b′ T L′44
Vamos formar o produto L′′ = LL′ e estudar o sinal do elemento L′′44 da matriz resultante. Pela regra
de produto de matrizes teremos
L′′44 = L44 L′44 + bT a′ .
O produto de matrizes bT a′ representa também o produto escalar b · a′ dos vetores b e a′ de R3 (por

que?). Assim,
L′′44 = L44 L′44 + b · a′ . (14.81)
Há dois casos a considerar: o caso em que sinal(L44 ) = sinal(L′44 ) e o caso em que sinal(L44 ) 6=
sinal(L′44 ).
1. Caso em que sinal(L44 ) = sinal(L′44 ).
Por (14.81) tem-se
L′′44 ≥ L44 L′44 − |b · a′ |.
Sabemos que b · a′ = kbk ka′ k cos θ, onde kbk é o comprimento de b, ka′ k é o comprimento de a′ e θ é o
ângulo que esses dois vetores formam entre si. É óbvio, portanto, que |b · a′ | ≤ kbk ka′ k (desigualdade
de Cauchy). Assim,
L′′44 ≥ L44 L′44 − kbk ka′ k. (14.82)
√ √
Pela Proposição 14.21, kbk = |α| e ka′ k = |α′|. Além disso, L44 = ± 1 + α2 e L′44 = ± 1 + α′ 2 .
Assim, por (14.82), p
√
L′′44 ≥ 1 + α2 1 + α′ 2 − |α| |α′| > 0.
Portanto,
sinal(L′′44 ) = +1 = sinal(L44 ) sinal(L′44 ),
2. Caso em que sinal(L44 ) 6= sinal(L′44 ).
Por (14.81) tem-se
L′′44 ≤ L44 L′44 + |b · a′ |.
Sabemos que b · a′ = kbk ka′ k cos θ, onde kbk é o comprimento de b, ka′ k é o comprimento de a′ e θ é o
ângulo que esses dois vetores formam entre si. É óbvio, portanto, que |b · a′ | ≤ kbk ka′ k (desigualdade
de Cauchy). Assim,
L′′44 ≤ L44 L′44 + kbk ka′ k. (14.83)
√ √
Pela Proposição 14.21, kbk = |α| e ka′ k = |α′ |. Além disso, L44 = ± 1 + α2 e L′44 = ∓ 1 + α′ 2 (pois
sinal(L44 ) 6= sinal(L′44 )). Assim, por (14.83),
√ p
L′′44 ≤ − 1 + α2 1 + α′ 2 + |α| |α′| < 0.
Portanto,
sinal(L′′44 ) = −1 = sinal(L44 ) sinal(L′44 ),
• Os Sub-grupos Próprio, Ortócrono e Restrito do Grupo de Lorentz

Os conjuntos de transformações de Lorentz que satisfazem as condições Ia, Ib, IIa ou IIb acima
são obviamente conjuntos disjuntos. Não é difı́cil mostrar (mas não o faremos aqui) que cada um é
um conjunto conexo. Portanto, o grupo de Lorentz L = O(3, 1) possui quatro componentes conexas.
Seguindo a convenção, detonaremos essas quatro componentes da seguinte forma:
1. L↑+ := {L ∈ L| det(L) = +1 e sinal(L44 ) = +1},
2. L↑− := {L ∈ L| det(L) = −1 e sinal(L44 ) = +1},
3. L↓+ := {L ∈ L| det(L) = +1 e sinal(L44 ) = −1},
4. L↓− := {L ∈ L| det(L) = −1 e sinal(L44 ) = −1}.
Note-se também que apenas L↑+ contém a identidade 1. L↑− contém a operação de troca de paridade
P . L↓+ contém a operação de troca de paridade e inversão temporal P T . L↓− contém a operação de
inversão temporal T .
Os conjuntos L↑− , L↓+ e L↓− não são subgrupos de L. Porém, pelas Proposições 14.15 e 14.16, é
muito fácil constatar as seguintes afirmações:
1. L↑+ é um sub-grupo de L, denominado grupo de Lorentz próprio ortócrono ou grupo de Lorentz

restrito.
2. L↑ := L↑+ ∪ L↑− é um sub-grupo de L, denominado grupo de Lorentz ortócrono.
3. L+ := L↑+ ∪ L↓+ é um sub-grupo de L, denominado grupo de Lorentz próprio.
4. L0 := L↑+ ∪ L↓− é um sub-grupo de L, denominado grupo de Lorentz ortócoro.
Note-se que os elementos de ambos os conjuntos L↑+ e L↓+ satisfazem det(L) = 1. Portanto, o grupo
de Lorentz próprio L+ := L↑+ ∪ L↓+ coincide com SO(3, 1). Em L↑ não ocorrem reversões temporais37 .
Note também que SRot é um sub-grupo de L↑+ .
• A Relevância de L+ , L↑ e L↑+ na Fı́sica
É uma crença da Fı́sica atual que L↑+ representa uma simetria da natureza (na ausência de campos
gravitacionais). Essa crença não se estende aos grupos L+ e L↑ . O problema com esses últimos grupos
é que os mesmos envolvem operações de troca de paridade (representada pela matriz P ) ou de reversão
temporal (representada pela matriz T ).
É um fato bem estabelecido experimentalmente que nas chamadas interações fracas da fı́sica das
partı́culas elementares a troca de paridade (representada por matrizes como P ou P1 ) não é uma
transformação de simetria da natureza.
37
Essa a razão da uso da flecha apontando para cima no sı́mbolo L↑ , indicando que o tempo corre na mesma direção
nos sistemas de referência inerciais transformados por L↑ .
No contexto da teoria quântica de campos é um fato teórico bem estabelecido que a chamada trans-
formação CPT38 é uma transformação de simetria. Violações dessa simetria não foram empiricamente
observadas na fı́sica as partı́culas elementares. Por isso, a constatação que a simetria CP é violada,
fenômeno observado em certos processos da fı́sica das partı́culas elementares, indica fortemente que
a reversão temporal também não seria uma simetria da natureza. Entretanto, evidências experimen-
tais diretas de que a simetria de reversão temporal é violada não foram ainda encontradas, por serem
de difı́cil constatação. Para mais informações a respeito de simetrias e suas violações na fı́sica das
partı́culas elementares, vide por exemplo [93] ou outros livros introdutórios sobre a fı́sica das partı́culas
elementares.
• L↑+ é um Sub-grupo Normal de L
Vamos aqui provar a seguinte proposição sobre L↑+ :

Proposição 14.17 L↑+ é um sub-grupo normal do grupo de Lorentz. 2
Prova. Tudo o que temos que fazer é provar que se L ∈ L↑+ e G ∈ L, então G−1 LG ∈ L↑+ . Isso equivale
a provar que det(G−1 LG) = 1 e que sinal((G−1 LG)44 ) = 1.
Como det(L) = 1, tem-se obviamente que
det(G−1 LG) = det(G−1 ) det(L) det(G) = det(G−1 ) det(G) = det(G−1 G) = det(1) = 1.
Analogamente, pela Proposição 14.16 vale
sinal((G−1 LG)44 ) = sinal((G−1 L)44 ) sinal(G44 ) = sinal((G−1 )44 ) sinal(L44 ) sinal(G44 )
= sinal((G−1 )44 ) sinal(G44 ) = sinal(G44 )2 = 1,
onde usamos a Proposição 14.15 na penúltima igualdade. Isso completa a prova.
E. 14.77 Exercı́cio. Mostre que o grupo quociente L/L↑+ é isomorfo ao grupo gerado por P1 e T . 6
14.6.6 Os Geradores do Grupo de Lorentz
• Os Geradores dos Boosts de Lorentz
Vamos reparametrizar os boosts de Lorentz B1 , B2 e B3 , introduzindo um novo parâmetro z =

arctanh v, ou seja v = tanh z, com −∞ < z < ∞. Na literatura fı́sica, z é por vezes denominado
38
A chamada transformação CPT envolve as operações sucessivas de troca de carga, ou partı́cula-antipartı́cula, (de-
notada por C), de paridade (denotada por P) e de reversão temporal (denotada por T).
“rapidez”. Definindo Ba (z) = Ba (tanh z), a = 1, 2, 3, temos, explicitamente

   
 cosh z 0 0 − senhz  1 0 0 0 
   
   
 0 1 0 0  0 cosh z 0 − senhz 
   
B1 (z) = 

,
 B2 (z) := 

,

 0 0 1 0  0 0 1 0 
   
   
   
− senhz 0 0 cosh z 0 − senhz 0 cosh z
 
1 0 0 0
 
 
0 1 0 0 
 
B3 (z) := 

.

0 0 cosh z − senhz 
 
 
 
0 0 − senhz cosh z
As relações de composição (14.77) ficam

Ba (z)Ba (z ′ ) = Ba (z + z ′ ), a = 1, 2, 3.
tanh(x)+tanh(y)
E. 14.78 Exercı́cio. Mostre isso usando (14.77) e a identidade bem conhecida tanh(x+y) = 1+tanh(x) tanh(y)
.
Alternativamente, use a forma explı́cita das matrizes Ba (z) dada acima. 6
Como Ba (0) = 1, constatamos que {Ba (z), −∞ < z < ∞}, a = 1, 2, 3, são três subgrupos
uniparamétricos do grupo de Lorentz. Seus geradores são

d
Ma := Ba (z) , a = 1, 2, 3,
dz z=0
explicitamente dados por

     
0 0 0 −1 0 0 0 0 0 0 00
     
     
0 0 0 0 0 0 0 −1 0 0 0 0
     
M1 = 

,
 M2 = 

,
 M3 = 

.
 (14.84)
0 0 0 0 0 0 0 0 0 0 0 −1
     
     
     
−1 0 0 0 0 −1 0 0 0 0 −1 0
É também importante notar que

Ba (z) = exp(zMa )
para a = 1, 2, 3.
E. 14.79 Exercı́cio. Verifique isso usando as formas explı́citas dos geradores Ma dadas acima. 6
• Os geradores de SRot
Além dos boosts de Lorentz, consideremos também os três sub-grupos uniparamétricos de SRot
dados por
   
 1 0 0 0   cos φ2 0 senφ2 0 
   
   
 0 cos φ − senφ 0   0 1 0 0 
 1 1   
R1 (φ1 ) = 

,
 R2 (φ2 ) = 

,

 0 senφ cos φ1 0   − senφ 0 cos φ2 0 
 1   2 
   
   
0 0 0 1 0 0 0 1
 
 cos φ3 − senφ3 0 0 
 
 
 senφ cos φ3 0 0 
 3 
R3 (φ3 ) = 

,

 0 0 1 0 
 
 
 
0 0 0 1
que representam rotações por ângulos φ1 , φ2 e φ3 ∈ (−π, π] no sentido horário em torno dos eixos
espaciais 1, 2 e 3, respectivamente. Em completa analogia com o grupo SO(3), seus geradores são

d
Ja := Ra (φ) , a = 1, 2, 3.
dφ φ=0
É óbvio que
 
 0 
 
 
 
 Ja 0 
 
Ja = 

,

 0 
 
 
 
 
0 0 0 0
onde Ja são os geradores de SO(3) dados em (14.29)-(14.31), página 789. Explicitamente, tem-se
     
0 0 00 0 0 1 0 0 −1 0 0
     
     
0 0 −1 0 0 0 0 0 1 0 0 0
     
J1 = 


 J2 = 

,
 J3 = 

.
 (14.85)
0 1 0 0 −1 0 0 0 0 0 0 0
     
     
     
0 0 0 0 0 0 0 0 0 0 0 0
E. 14.80 Exercı́cio muito importante. Todo estudante tem que fazê-lo ao menos uma vez na vida. Mos-
tre que os geradores, Ma e Jb , com a, b = 1, 2, 3, satisfazem as seguintes relações de comutação:
3
X
[Ja , Jb ] = εabc Jc , (14.86)
k=1
3
X
[Ma , Mb ] = − εabc Jc , (14.87)
k=1
3
X
[Ja , Mb ] = εabc Mc . (14.88)
k=1
É claro de (14.86)-(14.88) que os seis geradores Ma e Jb formam uma álgebra de Lie, a álgebra de
Lie do grupo de Lorentz L↑+ . Sabemos que não há mais geradores independentes pois, como provamos,
todo elemento do grupo de Lorentz L↑+ é produto de boosts e rotações.
De (14.87) percebemos o fato notável que os três geradores dos sub-grupos de boost por si só não for-
mam uma álgebra de Lie! Para tal, é preciso incluir os geradores dos sub-grupos de rotação! Isso releva
uma relação insuspeita, mas profunda, entre os boosts (que fisicamente representam transformações
entre sistemas de referência inerciais com velocidades relativas não-nulas) e as rotações espaciais, pois
indica que as rotações espaciais podem ser geradas a partir de boosts. Isso é uma caracterı́stica especial
da fı́sica relativista (vide a comparação com o grupo de Galilei, abaixo) e está relacionada a alguns
fenômenos fı́sicos, como a chamada precessão de Thomas, importante na discussão do chamado fator
giromagnético do elétron. Vide qualquer bom livro sobre Mecânica Quântica Relativista (por ex. [127]).
• Revisitando o Teorema 14.8
Como vimos no Teorema 14.8, página 835, toda L ∈ L↑+ é da forma L = Ra B1 (v)Rb , com
Ra , Rb ∈ SRot. Escrevendo v = tanh θ, ficamos com L = Ra B1 (θ)Rb ou, usando o gerador M1 , L =
Ra exp(θM1 )Rb . Isso, por sua vez pode ser reescrito como L = Ra exp(θM1 )RaT R = exp(θRa M1 RaT )R,
onde R := Ra Rb ∈ SRot.
P
Vamos agora escrever Ra na forma Ra = exp(J), onde J = 3k=1 αk Jk para certos αk ’s reais. Pela
expressão (4.39), página 259 (vide também a série completa em (4.38)), teremos
1 1
Ra M1 RaT = exp(J)A exp(−J) = M1 + [J, M1 ] + [J, [J, M1 ]] + [J, [J, [J, M1 ]]] + · · · ,
2! 3!
sendo a série do lado direito convergente. O fato importante a notar é que, por (14.88), os comutadores
múltiplos [J, · · · [J, M1 ]] são combinações lineares de M1 , M2 e M3 . A conclusão disso está expressa
no seguinte teorema.
P P
Teorema 14.9 Toda L ∈ L↑+ é da forma L = exp(M) exp(J), onde J = 3k=1 βk Jk e M = 3k=1 γk Mk ,
sendo que os βk ’s e γk ’s são números reais. 2
A interpretação desse teorema é que toda transformação de Lorentz (de L↑+ ) pode ser obtida como
uma rotação (definida por exp(J) ∈ SRot) seguida de um boost em uma certa direção (que é definida
pelas componentes de M).
Invertendo ordens na prova acima, o leitor se convence
P todo L ∈ L↑+ também pode
facilmente que P
ser escrito como L = exp(J′ ) exp(M′ ), para outros J′ = k=1 βk′ Jk e M′ = 3k=1 γk′ Mk .
3
Por
P3fim, ′ advertimos
o estudante do fato que, por (14.87), o conjunto das matrizes da forma
exp a
k=1 k M k , ak ∈ R, não formam um subgrupo de L↑+ .
• O Grupo de Galilei
E. 14.81 Exercı́cio. Mostre que as transformações de Galilei39 da mecânica clássica podem ser repre-
sentadas como um grupo de matrizes 4 × 4, da forma
 
 −v1 
 
 
 
 r0 −v2 
 
G(r0 , ~v ) := 

,

 −v3 
 
 
 
 
0 0 0 1
onde r0 é uma matriz 3 × 3 pertencente a O(3) e vj ∈ (−∞, ∞). Mostre que tais matrizes formam um
grupo de Lie, determinando também G(r0 , ~v )−1 e a regra de produto G(r0 , ~v)G(r0′ , ~v ′ ). 6
Determine seus três sub-grupos de boost, seus três sub-grupos de rotação e os seis geradores desses
sub-grupos. Em seguida calcule as relações de comutação desses seis geradores. Compare com o que
ocorre com o grupo de Lorentz.
E. 14.82 Exercı́cio. Constate que o grupo de Galilei é isomorfo ao grupo O(3)sR3 . 6
39
Galileu Galilei (1564-1642).
14.7 O Grupo de Poincaré

O chamado grupo de Poincaré (em 3+1 dimensões) é definido como sendo o grupo P := O(3, 1)sR4 .
Seus elementos são, portanto, pares ordenados (L, x) com L ∈ O(3, 1) e x ∈ R4 , sendo o produto
dado por (L, x) · (L′ , x′ ) = (LL′ , Lx′ + x). Sua ação no espaço-tempo R4 é interpretada como uma
transformação de Lorentz seguida de uma translação.
Há um subgrupo de GL(R, 5) que é isomorfo a P. Sejam as matrizes reais 5 × 5
 
 
 
 
 
 L x 
 
 
P (L, x) :=  , com L ∈ O(3, 1) e x ∈ R4 .
 
 
 
 
 
 
0 1
Então, tem-se
P (L, x) P (L′ , x′ ) := P (LL′ , Lx′ + x) .
E. 14.83 Exercı́cio importante. Mostre isso. 6
Assim, o conjunto de matrizes {P (L, x) ∈ GL(R, 5), com L ∈ O(3, 1) e x ∈ R4 } forma um sub-
grupo de GL(R, 5) que é isomorfo a P. Também denotaremos esse grupo por P.
E. 14.84 Exercı́cio. Prove essa última afirmativa. 6
O chamado grupo de Poincaré próprio ortócrono, denotado por P↑+ é o grupo P↑+ := L↑+ sR4 .
• Os Geradores do Grupo de Poincaré
De maneira totalmente análoga ao que fizemos no grupo Euclidiano, podemos determinar os gera-
dores do grupo P↑+ . Este possui 10 geradores. Seis da forma
   
   
   
   
   
 Mk 0   Jk 0 
   
   
mk :=   ou jk :=   com k = 1, 2, 3,
   
   
   
   
   
   
0 0 0 0
onde Mk e Jk são as matrizes 4 × 4 definidas em (14.84) e (14.85), respectivamente, e quatro da forma

 
 
 
 
 
 0 xk 
 
 
pk :=   com k = 1, . . . , 4,
 
 
 
 
 
 
0 0
onde        
1 0 0 0
       
       
0 1 0 0
       
x1 :=  
 , x2 :=  
 , x3 :=  
 , x4 :=  
 .
0 0 1 0
       
       
       
0 0 0 1
As relações de comutação associadas ao grupo de Poincaré são:

3
X
[ja , jb ] = εabc jc , (14.89)
k=1
3
X
[ma , mb ] = − εabc jc , (14.90)
k=1
3
X
[ja , mb ] = εabc mc , (14.91)
k=1
[pa , pb ] = 0, (14.92)
3
X
[ja , pb ] = (1 − δb4 ) εabc pc , (14.93)
k=1
[ma , pb ] = − (δab p4 + δb4 pa ) . (14.94)

Aqui, os ı́ndices dos m’s e j’s variam de 1 a 3 e os ı́ndices dos p’s variam de 1 a 4.
E. 14.85 Exercı́cio importante. Todo estudante deve fazê-lo uma vez na vida. Verifique isso. 6
As três primeiras relações acima seguem de (14.86)-(14.88), página 842. A relação (14.93) diz que
os j’s comutam com p4 e, nos demais casos, tem-se a última relação de (14.61).
Novamente constatamos que a sub-álgebra gerada pelos p’s é um ideal de álgebra de Lie do grupo
de Poincaré.
• O grupo P↑+ em 1+1-dimensões
Com base no nosso estudo do grupo O(1, 1) (vide Seção 14.3.1, em especial, página 784), sabemos
que o grupo P↑+ em 1+1-dimensões é isomorfo ao grupo de matrizes da forma
 
 cosh z − senhz x1 
 
 
− senhz cosh z x 
 2
 
 
0 0 1
com z, x1 , x2 ∈ R. Seus geradores serão

     
 0 −1 0 0 0 1 0 0 0
     
     
m1 :=  
−1 0 0 , p1 :=  
0 0 0 , p2 :=  
0 0 1 .
     
     
0 0 0 0 0 0 0 0 0
Como é fácil de verificar, as relações de comutação entre esses geradores são
[m1 , p1 ] = −p2 , [m1 , p2 ] = −p1 , [p1 , p2 ] = 0.
Um elemento genérico dessa álgebra de Lie é da forma

 
 
 
 
 
 M t 
 
I(M, t) := 



 
 
 
 
 
0 0 0
onde    
 0 −z  t1 
M = zm1 = 


 e t = t1 p1 + t2 p2 = 
 

−z 0 t2
com z, t1 , t2 ∈ R. É um exercı́cio fácil (faça-o) constatar que para todo k ∈ N, k ≥ 1, tem-se

I(M, t)k = I Mk , Mk−1t .
Conseqüentemente, vale que

 
 
 
 
 ′ 
∞ ∞  L t 
X 1 X 1  
exp (I(M, t)) = 1 + I(M, t) = 1 +
k
I M , M t = 
k k−1

 ,

k=1
k! k=1
k!  
 
 
 
 
0 0 1
onde  
 cosh z − senhz 
L := eM = 


 e t′ = f (M)t ,
− senhz cosh z
sendo f a função analı́tica inteira definida em (14.62). A matriz f (M) pode ser calculada facilmente
usando-se o fato que
 2k  2k+1  
 0 −1  0 −1  0 −1



 = 1 e 


 = 

,
 k ∈ N,
−1 0 −1 0 −1 0
de onde se extrai
X∞
1 k−1
f (M) := 1 + M
k=2
k!
∞
X X∞
1 1
= 1+ M2m−1 + M2m
m=1
(2m)! m=1
(2m + 1)!
 
X∞ 0 −1 X ∞
z 2m−1  z 2m
=   + 1
m=1
(2m)!  
m=0
(2m + 1)!
−1 0
 
cosh z − 1  0 −1 senhz
= 

+
 1
z z
−1 0
 
senhz cosh z − 1
 − 
 z z 
 
= 


 .
 
 cosh z − 1 senhz 
−
z z
Notemos que
cosh z − 1
det f (M) = 2 6= 0
z2
 
x1 
para z ∈ R. Assim, f (M) é invertı́vel e se escolhermos t = f (M)−1x, para qualquer x =  
 ∈R
2
x2
teremos
 
   
 
 
   cosh z − senhz x1 
 L x   
   
exp I(M, f (M) x) = 
−1

 = − senhz cosh z x  .
  2
   
   
 
  0 0 1
 
0 0 1
Isso prova que todo elemento do grupo P↑+ em 1+1 dimensões pode ser escrito como exponencial de
um elemento da sua própria álgebra de Lie.
14.8 SL(C, 2) e o Grupo de Lorentz

Nesta seção discutiremos com algum detalhe a relação entre SL(C, 2) (introduzido na Seção 14.3.5,
página 801) e o Grupo de Lorentz em 3+1 dimensões, relação esta de grande importância em Fı́sica,
especialmente no estudo da equação de Dirac40 para o elétron e na Teoria Quântica de Campos.
• Automorfismos de SL(C, 2)
Com o propósito de preparar a discussão sobre a relação entre SL(C, 2) e o Grupo de Lorentz,
vamos em primeiro lugar discutir alguns automorfismos do grupo SL(C, 2).
 
0 −1
Seja τ := −iσ2 = 

 ∈ SL(C, 2). Definimos ϕτ : SL(C, 2) → SL(C, 2) por

1 0
ϕτ (A) := τ Aτ −1 .
Então, ϕτ é um automorfismo de SL(C, 2). De fato, vê-se trivialmente que ϕτ é bijetora e que
ϕτ (AB) = ϕτ (A)ϕτ (B) para todos A, B ∈ SL(C, 2) (prove isso!).
Para uma matriz M ∈ Mat (C, 2) denotamos
por M a matriz obtida tomando-se o complexo
conjugado dos elementos de matriz de M: M ij = Mij . Sabe-se que det(M ) = det(M), portanto, se
A ∈ SL(C, 2) então A ∈ SL(C, 2).
Assim, seja ϕ1 : SL(C, 2) → SL(C, 2) definida por
ϕ1 (A) := A.
Então, ϕ1 é também um automorfismo de SL(C, 2). De fato, vê-se trivialmente que ϕ1 é bijetora e que
ϕ1 (AB) = ϕ1 (A)ϕ1 (B) para todos A, B ∈ SL(C, 2) (prove isso!).
Note que ϕ1 (ϕ1 (A)) = A, ou seja, ϕ1 ◦ ϕ1 é a identidade.
O grupo SL(C, 2) possui um outro automorfismo de interesse. Se det(A) = 1 é fácil ver que
igualmente tem-se det ((A∗ )−1 ) = 1. Definimos então ϕ2 : SL(C, 2) → SL(C, 2) por
ϕ2 (A) := (A∗ )−1 = (A−1 )∗ .
Novamente, é fácil ver que ϕ2 é bijetora e que e que ϕ2 (AB) = ϕ2 (A)ϕ2 (B) para todos A, B ∈ SL(C,
2) (prove isso!).
 
a b 
Há uma relação entre os automorfismos ϕτ , ϕ1 e ϕ2 . Se A ∈ SL(C, 2) é da forma A = 

, uma

c d
 
 d −c
conta simples (faça!) mostra que (A∗ )−1 = 

. Daı́, é fácil constatar que (A∗ )−1 = τ Aτ −1

−b a
40
Paul Adrien Maurice Dirac (1902-1984).
(faça essa constatação!). Concluı́mos assim que ϕ2 = ϕτ ◦ ϕ1 . Portanto, vale também que
ϕ2 ◦ ϕ1 = ϕτ . (14.95)
Todos esses fatos serão usados na Seção 14.8, onde discutiremos em detalhe a importante e surpre-
endente relação entre SL(C, 2) e o Grupo de Lorentz.
• SL(C, 2) e o Espaço de Minkowski
Por Herm (C, 2) designamos o sub-espaço (real) de Mat (C, 2), formado por todas as matrizes
complexas 2 × 2 e Hermitianas: Herm (C, 2) := {M ∈ Mat (C, 2)| M ∗ = M}. É fácil ver que
existe uma correspondência biunı́voca entre Herm (C, 2) e R4 (e, portanto, entre Herm (C, 2) e o
espaço-tempo de Minkowski41 quadridimesional). De fato, como 1, σ1 , σ2 , σ3 formam uma base em
Mat (C, 2), podemos escrever toda matriz M ∈ Herm (C, 2) na forma
 
 m4 + m3 m1 − im2 
M = m4 1 + m1 σ1 + m2 σ2 + m3 σ3 , = 

,

m1 + im2 m4 − m3
com m4 , m1 , m2 , m3 ∈ C. Porém, como as matrizes de Pauli e 1 são auto-adjuntas, a condição de M

ser Hermitiana, ou seja, M ∗ = M, significa
m4 1 + m1 σ1 + m2 σ2 + m3 σ3 = m4 1 + m1 σ1 + m2 σ2 + m3 σ3 ,
ou seja, mk ∈ R, k = 1, . . . , 4. Logo,
   

 

 X3
 m4 + m3 m1 − im2  
Herm (C, 2) = m4 1 + mk σk , = 

 com m1 , m2 , m3 , m4 ∈ R .


 

 k=1 m1 + im2 m4 − m3 
(14.96)
Antes de prosseguirmos, façamos algumas observações sobre a relação entre Herm (C, 2) e SL(C, 2).
Se A é uma matriz qualquer de Mat (C, 2) e M ∈ Herm (C, 2), é fácil constatar que AMA∗ também
é um elemento de Herm (C, 2). De fato (AMA∗ )∗ = AMA∗ , provando que AMA∗ é Hermitiana. É
claro que isso também vale para A ∈ SL(C, 2). Nesse caso, porém, tem-se a seguinte proposição.
Proposição 14.18 Se A ∈ SL(C, 2) é tal que AMA∗ = M para toda M ∈ Herm (C, 2), então
A = ±1. 2
Prova. Como AMA∗ = M para toda M ∈ Herm (C, 2) e 1 ∈ Herm (C, 2), segue que A∗ = A−1 . Logo,
AMA−1 = M para toda M ∈ Herm (C, 2), ou seja, AM = MA para toda M ∈ Herm (C, 2). Ocorre,
porém, que toda matriz Q ∈ Mat (C, 2) pode ser escrita como Q = Q1 + iQ2 com
1 1
Q1 := (Q + Q∗ ), Q2 := (Q − Q∗ )
2 2i
41
onde Q1 e Q2 são ambas Hermitianas (verifique!). Logo, como A comuta com todas as matrizes
Hermitianas, A comuta com todas as matrizes de Mat (C, 2). Isso só é possı́vel se A for um múltiplo
da matriz identidade: A = λ1 (vide Proposição 1.13, página 78). Como det(A) = 1, segue que λ2 = 1,
ou seja, A = ±1, que é o que querı́amos mostrar.
Essa proposição tem a seguinte conseqüência:

Proposição 14.19 Se A, B ∈ SL(C, 2) são tais que AMA∗ = BMB ∗ para todas as matrizes M ∈
Herm (C, 2), então A = ±B. 2
Prova. A relação AMA∗ = BMB ∗ implica CMC ∗ = M, onde C = B −1 A ∈ SL(C, 2). Pela proposição
anterior, C = ±1, terminando a prova.
x
1
Seja x ∈ R , x = xx23 , e seja
4
x4
M(x) := x4 1 + x1 σ1 + x2 σ2 + x3 σ3 (14.97)
o elemento correspondente de Herm (C, 2). É fácil ver que M : R4 → Herm (C, 2) é bijetora e linear:
M(αx + βy) = αM(x) + βM(y) para todos α, β ∈ R e todos x, y ∈ R4 .
E. 14.86 Exercı́cio. Mostre que as quatro componentes do vetor x ∈ R4 podem ser recuperadas de
M(x) pelas seguintes expressões:
1 1 1
x4 = Tr (1M(x)) = Tr (M(x)) e xi = Tr (σi M(x)), i = 1, 2, 3.
2 2 2
6
Em resumo, denotando σ4 = 1, tem-se

1
xµ = Tr (σµ M(x)), µ = 1, . . . , 4. (14.98)
2
É um exercı́cio fácil e importante para o que segue verificar que
 
 x4 + x3 x1 − ix2 
− det(M(x)) = − det 

 = x2 + x2 + x2 − x2 = hx, ηxi ,
 1 2 3 4 R
x1 + ix2 x4 − x3
onde η é a matriz 4 × 4 definida em (14.63). Como se vê, surge (milagrosamente!) a métrica do

espaço-tempo de Minkowski do lado direito, o que indica a existência de uma conexão insuspeita entre
a relatividade restrita e a teoria das matrizes Hermitianas 2 × 2. Vamos explorar as conseqüências
desse fato.
Em primeiro lugar, notemos que para dois vetores x, y ∈ R4 quaisquer tem-se a seguinte identi-
dade42 :
1
hx, ηyiR = [h(x + y), η(x + y)iR − h(x − y), η(x − y)iR ] .
4
42
Chamada de identidade de polarização.
E. 14.87 Exercı́cio. Verifique isso expandindo o lado direito. 6
Assim, podemos escrever

1
hx, ηyiR = − [det(M(x + y)) − det(M(x − y))] . (14.99)
4
Seja agora A um elemento de SL(C, 2). Se M ∈ Herm (C, 2), como já observamos, AMA∗ também
é um elemento de Herm (C, 2). Como A(BMB ∗ )A∗ = (AB)M(AB)∗ é fácil ver (faça!) que
α : SL(C, 2) × Herm (C, 2) → Herm (C, 2)
definida por
α(A, M) := AMA∗
é uma ação à esquerda de SL(C, 2) sobre Herm (C, 2).
Para quaisquer x ∈ R4 e A ∈ SL(C, 2) teremos que α(A, M(x)) = AM(x)A∗ é Hermitiana. Como
o lado direito depende linearmente de x, existe uma matriz real 4 × 4 que denotaremos por L[A] tal
que
α(A, M(x)) = AM(x)A∗ = M(L[A]x). (14.100)
Formalmente podemos definir L[A] da seguinte forma. Como M : R4 → Herm (C, 2) é bijetora,
definimos
L[A]x := M −1 ( α(A, M(x)) ) = M −1 ( AM(x)A∗ ), (14.101)
para todo x ∈ R4 . Em componentes tem-se, usando (14.98),
X4
1 ∗ 1
(L[A]x)µ = Tr (σµ AM(x)A ) = Tr (σµ Aσν A∗ )xν ,
2 ν=1
2
(verifique!) e, portanto, L[A] é uma matriz 4 × 4 com elementos de matriz

1
L[A]µν = Tr (σµ Aσν A∗ ), (14.102)
2
µ, ν = 1, . . . , 4.
E. 14.88 Exercı́cio importante. Usando a Proposição 14.19, mostre que L[A] = L[B] se e somente se
A = ±B. 6
E. 14.89 Exercı́cio importante. Mostre que L[A]L[B] = L[AB] para todos A, B ∈ SL(C, 2). Su-
gestão: use a definição (14.101), não (14.102). 6
E. 14.90 Exercı́cio. Mostre que l : SL(C, 2)×R4 → R4 definida por l(A, x) = L[A]x é uma ação de
SL(C, 2) sobre R4 . 6
O ponto importante de tudo isso, e que iremos mostrar agora, é que L[A] é uma matriz de Lorentz,
ou seja, é um elemento de O(3, 1)! Para isso, faremos uso de (14.99). De fato, temos por (14.99) que
1
hL[A]x, ηL[A]yiR = − [det(M(L[A](x + y))) − det(M(L[A](x − y)))]
4
1
= − det(M(M −1 ( AM(x + y)A∗ ))) − det(M(M −1 ( AM(x − y)A∗ )))
4
1
= − [det( AM(x + y)A∗ ) − det( AM(x − y)A∗ )]
4
det(A) det(A∗ )
= − [det(M(x + y)) − det(M(x − y))]
4
1
= − [det(M(x + y)) − det(M(x − y))]
4
= hx, ηyiR .
Na penúltima igualdade usamos que det(A∗ ) = det(A) = 1, pois A ∈ SL(C, 2).

Ficou estabelecido, então, que hL[A]x, ηL[A]yiR = hx, ηyiR e, portanto, L[A] ∈ O(3, 1), ou seja,
L[A] é uma transformação de Lorentz. Isso provou também que há um homomorfismo de SL(C, 2) no
grupo de Lorentz O(3, 1), a saber, A → L[A]. É bom notar que não se trata de um isomorfismo, pois
L[A] = L[−A], como já observamos.
Não é difı́cil mostrar, mas não faremos aqui43 , que L[A] definida acima não é apenas um elemento
do grupo de Lorentz completo O(3, 1), mas de seu sub-grupo de Lorentz próprio ortócrono L↑+ . É
trivial, por exemplo, constatar usando (14.102) que L[A]44 > 0 para qualquer A ∈ SL(C, 2). Como o
conjunto de matrizes {L[A], A ∈ SL(C, 2)} evidentemente contém a identidade 1, basta apenas provar
que o mesmo é conexo.
• Os Grupos SL(C, 2)/{−1, 1} e L↑+ são Isomorfos
Um fato muito importante é que a aplicação Φ1 : SL(C, 2)/{−1, 1} → L↑+ definida por
Φ1 (±A) := L[A] (14.103)
é um isomorfismo entre os grupos SL(C, 2)/{−1, 1} e L↑+ . A prova dessa afirmação, muito importante
na teoria dos spinores, é apresentada na Seção 14.B, página 871. Notemos que pelos exercı́cios da
página 852, acima, resta apenas provar que Φ1 é sobrejetora, o que é feito na Seção 14.B.
Φ1 não é o único isomorfismo relevante entre esses dois grupos e apresentaremos mais três logo
abaixo para em seguida discutir o significado de todos eles.
O fato de haver isomorfismos de SL(C, 2)/{−1, 1} no grupo de Lorentz próprio ortócrono L↑+ é de
grande importância na fı́sica relativista, em particular na Teoria Quântica de Campos, por mostrar que
as transformações de Lorentz (próprias e ortócronas) podem ser implementadas para partı́culas de spin
43
Vide, por exemplo, [109] ou [49].
1/2 (cujas funções de onda vivem em C2 ) através de elementos de SL(C, 2). As rotações SRot ⊂ L↑+ ,
por exemplo, são implementadas pela imagem por Φ−1 1 dos elementos do sub-grupo SU(2)/{−1, 1}
de SL(C, 2)/{−1, 1} (lembre-se que SU(2)/{−1, 1} é isomorfo a SO(3), que é isomorfo a SRot).
O boost de velocidade v na direção ~η ∈ R3 é implementado pela imagem por Φ−1 1 dos elementos
± exp((tanh v) ~η · ~σ ) ∈ SL(C, 2).
E. 14.91 Exercı́cio. Prove os fatos mencionados no parágrafo precedente. Sugestão: vide [109] ou [49].
6
• Outros Isomorfismos entre L↑+ e SL(C, 2)/{−1, 1}
Usando os automorfismos ϕ1 e ϕ2 de SL(C, 2) definidos à página 849 podemos construir mais três
ações de SL(C, 2) sobre Herm (C, 2) com o uso da ação α definida em (14.100). Essas ações são
denotadas aqui por α̇, αc e α̇c e são definidas da seguinte forma:
∗
α̇(A, M) := α(ϕ1 (A), M) = AMA , (14.104)
αc (A, M) := α(ϕ2 (A), M) = (A∗ )−1 MA−1 , (14.105)
α̇c (A, M) := α(ϕ2 ◦ ϕ1 (A), M) = α(ϕτ (A), M) = τ Aτ −1 Mτ A∗ τ −1 . (14.106)

Na última linha usamos (14.95). Do fato de ϕτ , ϕ1 e ϕ2 serem automorfismos, segue trivialmente que
essas são de fato ações de SL(C, 2) sobre Herm (C, 2).
Analogamente à definição de L[A] em (14.101), definimos
L̇[A] x := M −1 ( α̇(A, M(x)) ), (14.107)
Lc [A] x := M −1 ( αc (A, M(x)) ), (14.108)
L̇c [A] x := M −1 ( α̇c (A, M(x)) ). (14.109)

É imediato constatar que

L̇[A] = L [ϕ1 (A)] = L A , (14.110)

Lc [A] = L [ϕ2 (A)] = L (A∗ )−1 , (14.111)

L̇c [A] = L [ϕτ (A)] = L τ Aτ −1 . (14.112)
Do fato de ϕτ , ϕ1 e ϕ2 serem automorfismos, segue igualmente que

Φ1 (±A) := L[A], (14.113)
Φ2 (±A) := L̇[A], (14.114)
Φ3 (±A) := Lc [A], (14.115)
Φ4 (±A) := L̇c [A] (14.116)

são isomorfismos de SL(C, 2)/{−1, 1} em L↑+ . Isso claramente significa que as inversas Φ−1
i : L↑+ →
SL(C, 2)/{−1, 1}, i = 1, . . . , 4, são representações de L↑+ em C2 .
A representação Φ−1 −1
2 é por vezes denominada complexo conjugada e a representação Φ4 é por vezes
denominada contra-gradiente.
• Spinores
Em termos fı́sicos, se tivermos uma transformação de Lorentz L ∈ L↑+ podemos implementá-la em C2

de quatro formas, de acordo com cada uma das quatro representações Φ−1 i dadas acima. Quantidades
fı́sicas vivendo em C2 e que se transformem por transformações de Lorentz de acordo com alguma
dessas quatro representações são denominadas spinores. Há, portanto, quatro tipos de spinores. De
acordo com uma convenção (que, segundo Haag [54], foi introduzida por Van der Waerden em [149])
costuma-se denotar suas componentes da seguinte forma:
1. As componentes de spinores Ψ ∈ C2 que se transformam de acordo com Φ−1

1 são denotados por
ı́ndices inferiores: Ψr , r = 1, 2.

ı́ndices inferiores com um ponto: Ψṙ , r = 1, 2.

ı́ndices superiores com um ponto: Ψṙ , r = 1, 2.

r
ı́ndices superiores: Ψ , r = 1, 2.
Spinores com ponto e sem (em inglês: “dotted spinors” e “undotted spinors”, respectivamente)
podem ser relacionados por conjugação complexa.
E. 14.92 Exercı́cio. Justifique essa afirmativa. 6
Para U ∈ SU(2), vale U = τ Uτ −1 (verifique), de modo que, no que concerne ao grupo de rotações,
a diferença entre “undotted spinors” e “dotted spinors” é uma rotação de π em torno do eixo 2. Para
um boost B(v, ~η ) = exp((tanh v) ~η · ~σ ) ∈ SL(C, 2) com ~η = (η1 , η2 , η3 ) teremos B(v, ~η ) = B(v, ~η r ),
onde ~η r = (η1 , −η2 , η3 ). Isso pois σ1 = σ1 , σ3 = σ3 mas σ2 = −σ2 . Logo,
B(v, ~η ) = τ B(−v, ~η )τ −1 .
Assim, no que concerne aos boosts de Lorentz, a diferença entre “undotted spinors” e “dotted spinors”
é uma reversão temporal (representada aqui pela troca v → −v) seguida de rotação de π em torno do
eixo 2.
Todas as considerações acima sobre “undotted spinors” e “dotted spinors” são de relevância na
mecânica quântica relativista, particularmente para a célebre equação de Dirac para o elétron44 .
44
Para um artigo clássico sobre o assunto, vide: O. Laporte and G. E. Uhlenbeck. “Application of spinor analysis
for the Maxwell and Dirac equations”. Phys. Rev. 37, 1380 (1931). Outra referência clássica é [149]. Vide também
qualquer bom livro moderno sobre Teoria Quântica de Campos.
• Formas invariantes de spinores
A seguinte proposição é freqüentemente empregada na teoria dos spinores.

 
0 −1
Proposição 14.20 Seja τ := −iσ2 = 

 ∈ SL(C, 2). Então, para todo A ∈ SL(C, 2) tem-se

1 0
AT τ A = τ . 2
Prova. Seja A = exp(α1 σ1 +α2 σ2 +α3 σ3 ) ∈ SL(C, 2), com αk ∈ C, k = 1, 2, 3. Então, AT = exp(α1 σ1 −
α2 σ2 + α3 σ3 ), pois σ1T = σ1 , σ3T = σ3 mas σ2T = −σ2 . Assim, AT τ = −iAT σ2 = −iσ2 σ2 AT σ2 =
τ exp (σ2 [α1 σ1 − α2 σ2 + α3 σ3 ] σ2 ) = τ exp(−α1 σ1 −α2 σ2 −α3 σ3 ) = τ A−1 onde, na penúltima igualdade,
usamos as propriedades de anti-comutação das matrizes de Pauli. Isso completa a prova.
Uma conseqüência dessa proposição é que se definirmos, para ψ, φ ∈ C2 , a forma bilinear (simplética)
ωτ (ψ, φ) := hψ, τ φiR , teremos ωτ (Aψ, Aφ) = ωτ (ψ, φ) para todo A ∈ SL(C, 2).
Apesar de invariante por SL(C, 2), a forma bilinear ωτ acima não é interessante para a fı́sica
quântica, pois não é um produto escalar (tem-se, por exemplo, ωτ (ψ, ψ) = 0 ∀ψ ∈ C2 ) e, portanto,
não existe uma interpretação probabilı́stica associada à mesma. Para que a simetria L↑+ implementada
por SL(C, 2) represente uma simetria de um sistema quântico cujo espaço de Hilbert é C2 , devemos
procurar um produto escalar em C2 que seja invariante por SL(C, 2). Veremos, porém, que um tal
produto escalar não existe.
Vamos estudar a forma mais geral de um produto escalar em C2 . Como já observamos à página
139 e anteriores, a forma mais geral de um produto escalar em C2 é hψ, MφiC , onde M é autoadjunta
e positiva. Toda matriz 2 × 2 autoadjunta é da forma M(p) para algum p ∈ R4 (M(p) foi definida
em (14.97), página 851)). Vamos descobrir para quais p ∈ R4 tem-se M(p) > 0. Para que essa
condição seja satisfeita os dois autovalores λ1 e λ2 de M(p) devem ser positivos. Calculando por
(14.97) o traço e o determinante de M(p) , tem-se det(M(p)) = λ1 λ2 = (p4 )2 − (p1 )2 − (p2 )2 − (p3 )2 e
Tr(M(p)) = λ1 + λ2 = 2p4 . É fácil ver daı́ que λ1 = p4 + k~pk e λ2 = p4 − k~pk onde ~p = (p1 , p2 , p3 ).
Logo, M(p) > 0 se e somente se p4 > k~pk.
Seja V+ := {p ∈ R4 | p4 > k~pk}. É fácil verificar (faça-o) que V+ é mantido invariante por L↑+ .
Para ψ, φ ∈ C2 e p ∈ V+ , definamos o produto escalar
hψ, φip := hψ, M(p)φiC .
Teremos, para todo A ∈ SL(C, 2),
hAψ, Aφip := hψ, A∗ M(p)AφiC = hψ, M (L[A∗ ]p) φiC = hψ, φiL[A∗ ]p ,
onde, acima, usamos (14.101).

No caso do subgrupo SU(2), o produto escalar invariante corresponde a p ∈ V+ com Lp = p para
L ∈ SRot. Tais p’s são da forma p = (0, 0, 0, p4 ), p4 > 0. Assim, hψ, φiC é, a menos de um múltiplo
positivo, o único produto escalar invariante em C2 para SU(2). Mas vemos acima que que não há
produto escalar invariante para todo o grupo SL(C, 2) em C2 , já que não há vetor em V+ que seja
invariante para todo L ∈ L↑+ . Fisicamante falando, a simetria de Lorentz L↑+ não pode, portanto, ser
implementada em espaços de Hilbert bidimensionais, apenas a simetria de rotação.
Adiante discutiremos como implementar a simetria de Lorentz (e a de Poincaré) em campos de
spinores, aumentando a dimensão do espaço de Hilbert dos estados.
Apêndices
14.A Prova do Teorema 14.8
Aqui a demonstração do Teorema 14.8 será apresentada.
Seja L um elemento do grupo de Lorentz O(3, 1), representada como matriz da forma (14.79).
Vamos definir vetores coluna (ou seja, matrizes 3 × 1) a e b por
   
 L14   L41 
   
   
a := 
 L24
,
 b := 
 L42
.

   
   
L34 L43
É evidente que podemos escrever L na forma de blocos

 
 
 
 
 
 l a 
 
 
L =  , (14.A.1)
 
 
 
 
 
 
bT L44

T T
onde b , a transposta de b, é o vetor linha (matriz 1 × 3) dado por b = L41 , L42 , L43 e l é a
matriz 3 × 3 dada por  
 L11 L12 L13 
 
 
l := 
 L21 L22 L23
.

 
 
L31 L32 L33
Vamos agora considerar duas matrizes Ra e Rb pertencentes a SRot, ou seja,

   
 0   0 
   
   
   
 ra 0   rb 0 
   
Ra := 

,
 Rb := 

,

 0   0 
   
   
   
   
0 0 0 1 0 0 0 1
com ra e rb matrizes 3 × 3 pertencentes a SO(3). Precisamos estudar a forma da matriz Ra LRbT . A

regra de produto de matrizes nos diz que
 
 
 
 
 
 ra l ra a 
 
 
Ra L =  , (14.A.2)
 
 
 
 
 
 
bT L44
e que, conseqüentemente,  
 
 
 
 
 ra lrbT ra a 
 
 
Ra LRbT =  . (14.A.3)
 
 
 
 
 
 
(rb b)T L44
E. 14.93 Exercı́cio importante. Verifique essas afirmações. Se você não conseguir procure ajuda, pois
não será possı́vel entender o que segue. A maneira pedestre de provar (14.A.2) é escrever explicitamente Ra
e L como matrizes 4 × 4, fazer o produto de ambas e então constatar a validade de (14.A.2). Para (14.A.3)
proceda de modo análogo. 6
As expressões acima são válidas de modo bastante geral, para quaisquer que sejam as matrizes de
rotação ra e rb . Vamos agora, porém, considerar matrizes de rotação ra e rb particulares. Escolhemos
ra da forma ra = sa ta , onde ta ∈ SO(3) é a matriz de rotação que roda o vetor a de modo que apenas
a primeira componente do vetor resultante seja não nula:

 
 α 
 
 
t a = 
a 
 0 . (14.A.4)
 
 
0
a
s ∈ SO(3), por sua vez, é uma matriz de rotação em torno do eixo 1, e que, portanto, deixa
A matriz
o vetor 10 invariante. sa é da forma
0
   
 1 0 0   1 0 0 
   
   
sa =   =: 
 0

, (14.A.5)
 0 sa22 sa23   
   
   sa′ 
0 sa32 sa33 0
com  
 sa22 sa23 
sa′ := 

 ∈ SO(2).

sa32 sa33
Assim, temos também  

 α 
 
 
s t a = 
a a 
 0 .
 
 
0
Analogamente, escolhemos rb da forma rb = sb tb , onde tb ∈ SO(3) é a matriz de rotação que roda o

vetor b de modo que apenas a primeira componente do vetor resultante seja não nula:
 
 β 
 
 
tb b =  
 0 . (14.A.6)
 
 
0
A matriz sb ∈ SO(3), por sua vez, é uma matriz de rotação em torno do eixo 1, e que, portanto, deixa

1
o vetor 0 invariante. sb é da forma
0
   
 1 0 0   1 0 0 
   
   
sb =   =: 
 0

, (14.A.7)
 0 sb22 sb23   
   b′ 
   s 
0 sb32 sb33 0
com  
b′
 sb22 sb23 
s := 

 ∈ SO(2).

sb32 sb33
Pela definição de sb acima, também temos

 
 β 
 
 
sb tb b =  
 0 .
 
 
0
Daqui por diante as matrizes ta e tb estarão fixas. As matrizes sa e sb são ainda arbitrárias, mas serão
fixadas mais adiante.
Com essas escolhas temos agora
 
 α 
 
 
 
 sa lt (sb )T 0 
 
Ra LRbT = 

,
 (14.A.8)
 0 
 
 
 
 
β 0 0 L44
onde lt := ta l(tb )T .
A matriz L′ = Ra LRbT é certamente um elemento do grupo de Lorentz O(3, 1), pois Ra , L e RbT o
são. Assim, L′ satisfaz L′ η(L′ )T η = 1. Calculemos o lado esquerdo dessa igualdade:

    
 α  0  β  0 
    
    
    
 sa lt (sb )T 0  1 0  sb ltT (sa )T 0  1 0 
    
L η(L ) η = 
′ ′ T









 0  0  0  0 
    
    
    
    
β 0 0 L44 0 0 0 −1 α 0 0 L44 0 0 0 −1
   
 α  0  −β 
   
   
   
 sa lt (sb )T 0  1 0  sb ltT (sa )T 0 
   
= 







 0  0  0 
   
   
   
   
β 0 0 L44 0 0 0 −1 α 0 0 −L44
  
 α  −β 
  
  
  
 sa lt (sb )T 0  sb ltT (sa )T 0 
  
= 





 0  0 
  
  
  
  
β 0 0 L44 −α 0 0 L44
 
 
 
 
 
 f g 
 
 
=  ,
 
 
 
 
 
 
−g T L244 − β 2
onde  
2
 −α 0 0 
 
 
f = s lt (lt ) (s ) + 
a T a T
 0 0 0 

 
 
0 0 0
e    
 1   1 
   
   
g = −βs lt (s )  0  + L44 α 
a b T   
 0 .
   
   
0 0
E. 14.94 Exercı́cio importante. Verifique as expressões acima. Sugestão: exerça a virtude da Paciência.
6
Como mencionamos, L′ η(L′ )T η = 1. Portanto, devemos ter

f = 1, (14.A.9)
g = 0 e (14.A.10)
L244 − β 2 = 1 (14.A.11)
(por que?). Logo,  
 1 + α2 0 0 
 
 
s lt (lt ) (s ) = 
a T a T
 0 1 0 
, (14.A.12)
 
 
0 0 1
   
 1   1 
   
   
βs lt (s )  0  = L44 α 
a b T   
 0 . (14.A.13)
   
   
0 0
Devido à forma de sa e sb em (14.A.5) e (14.A.7) essas relações implicam
 
2
 1+α 0 0 
 
 
lt (lt )T = 
 0 1 0 
, (14.A.14)
 
 
0 0 1
   
 1   1 
   
   
βlt    
 0  = L44 α  0  . (14.A.15)
   
   
0 0
Das relações acima extrairemos várias conclusões sobre a estrutura do grupo de Lorentz. A primeira
é a seguinte proposição:
Proposição 14.21 Para qualquer transformação de Lorentz L vale
L244 − β 2 = 1, (14.A.16)
L244 − α2 = 1 (14.A.17)
e, conseqüentemente,
α2 = β 2 . (14.A.18)
Fora isso,
a2 = α2 = β 2 = b2 ,
onde a2 e b2 são os módulos ao quadrado dos vetores a e b, respectivamente, ou seja,
a2 = (L14 )2 + (L24 )2 + (L34 )2 e b2 = (L41 )2 + (L42 )2 + (L43 )2 .
Portanto,
L244 = 1 + (L14 )2 + (L24 )2 + (L34 )2 = 1 + (L41 )2 + (L42 )2 + (L43 )2 .
2
Prova. (14.A.16) é o mesmo que (14.A.11). Para provar (14.A.17), notemos que, pela Proposição 14.14,
LT é também uma transformação de Lorentz. Logo, para LT a relação (14.A.16) significa L244 − α2 = 1,
pois ao passarmos de L para LT o elemento L44 não muda, mas ocorre a troca α ↔ β. (14.A.18)
segue
de (14.A.16) e (14.A.17). Para provar que a2 = α2 , notemos que, por (14.A.4), o vetor α0 é obtido
0
de a por uma rotação ta ∈ SO(3), que não altera o comprimento de vetores. De modo análogo prova-se
que b2 = β 2 .
Segue dessa proposição que, para prosseguirmos, teremos que considerar dois casos: o caso α = β =
0 e o caso em que α 6= 0 e β 6= 0.
Caso α = β = 0
Como comentamos, nesse caso temos a = b = 0. Podemos adotar sa = sb = ta = tb = 1 e, portanto,

L é simplesmente da forma
 
 0 
 
 
 
 l 0 
 
L = 

.

 0 
 
 
 
 
0 0 0 L44
Com α = 0 e sa = sb = ta = tb = 1, a relação (14.A.14) reduz-se a llT = 1, ou seja, l ∈ O(3). Como

det(L) = ±1 e det(l) = ±1 há quatro situações a considerar:
Ia. det(L) = 1 e det(l) = 1.
Nessa situação tem-se l ∈ SO(3) e L44 = 1. Portanto, L ∈ SRot.
Ib. det(L) = 1 e det(l) = −1.
Nessa situação l ∈ O(3) mas l 6∈ SO(3) e L44 = −1. Assim L é da forma L = P1 T R com R ∈ SRot.
(Justifique).
IIa. det(L) = −1 e det(l) = 1.
Nessa situação l ∈ SO(3) e L44 = −1. Assim L é da forma L = T R com R ∈ SRot. (Justifique).
IIb. det(L) = −1 e det(l) = −1.
Nessa situação l ∈ O(3) mas l 6∈ SO(3) e L44 = 1. Assim L é da forma L = P1 R com R ∈ SRot.
(Justifique).
Resumindo, vimos para o caso a = b = 0 que nas quatro situações possı́veis L consiste apenas
de uma simples rotação, seguida eventualmente de uma inversão de paridade (Ib e IIb) e/ou de uma
reversão temporal (Ib e IIa.). Como veremos, o caso α 6= 0 e β 6= 0 envolve também um “boost de
Lorentz”, ou seja, uma mudança de entre dois sistemas de referência inerciais com uma velocidade
relativa eventualmente não-nula.
Caso α 6= 0 e β 6= 0
Como β 6= 0, (14.A.15) pode ser escrita como
   
 1   1 
   
  L44 α  
lt  0
 
 =  0 ,
  (14.A.19)
  β  
   
0 0

1 L44 α
ou seja, 0 é um autovetor de lt com autovalor ω := β
. De (14.A.19) podemos extrair uma
0
1
informação importante sobre a forma da matriz lt . Como 0 é um vetor da base canônica de R3 , a
0
matriz lt deve ser da forma

   
T
 ω (lt )12 (lt )13   ω φ 
   
   
lt =   = 


,
 0 (lt )22 (lt )23   0 
   
   lt′ 
0 (lt )32 (lt )33 0
   
 (lt )12  ′  (lt )22 (lt )23 
onde φ é o vetor coluna φ = 

 e l é a matriz 2 × 2 dada por l′ := 
 t t 
.

(lt )13 (lt )32 (lt )33
Ocorre que também vale que φ = 0. Para ver isso, notemos que (14.A.14) diz-nos que
   
 
T
 ω φ   1 + α2 0 0 
  ω 0 0   
    
   
lt (lt )T =    =  0 1 0 ,

 0    
 ′T    
 lt  φ lt′
0 0 0 1
ou seja,  
 
2 T
(lt′ φ)T  1 + α2 0 0 
 ω +φ φ   
   
  =  1 0 
   0 .
   
lt′ φ lt′ (lt′ )T  
0 0 1
Logo,
lt′ (lt′ )T = 1, (14.A.20)
lt′ φ = 0 (14.A.21)
e
ω 2 + φT φ = 1 + α 2 . (14.A.22)
Agora, (14.A.20) afirma que lt′ é uma matriz ortogonal e (lt′ )−1 = (lt′ )T . Aplicando, portanto, (lt′ )−1 à
esquerda em (14.A.21) segue que φ = 0. Chegamos assim à conclusão que
   
 ω 0 0   ω 0 0 
   
   
 
lt =   0 (lt )22 (lt )23 
 =  0 ,
   
   l ′ 
 t 
0 (lt )32 (lt )33 0
com ω 2 = 1 + α2 (por (14.A.22)). Segue daı́ que

 
 ω 0 0 
 
 
 
sa lt (sb )T =  0 ,
 
 ′
sa′ lt′ (sb )T 
 
0
′
(sa′ e sb estão definidos em (14.A.5) e (14.A.7)). Neste momento vamos fixar sa e sb , adotando
′ ′
sa′ = sb (lt′ )−1 = sb (lt′ )T .
Com isso, obviamente
′
sa′ lt′ (sb )T = 1.
Logo,  
 ω 0 0 
 
 
sa lt (sb )T = 
 0 1 0 .

 
 
0 0 1
Retornando a (14.A.8)  
 ω 0 0 α 
 
 
 0 1 0 0 
 
Ra LRbT = 


 (14.A.23)
 0 0 1 0 
 
 
 
β 0 0 L44
onde, recordando,
L44 α
ω = e ω 2 = 1 + α2 . (14.A.24)
β
Resta-nos mostrar que a matriz do lado direito de (14.A.23) tem a forma de um boost de Lorentz,
acompanhado eventualmente de uma operação de troca de paridade e/ou reversão temporal. É o que
faremos agora.
Como Ra LRbT é um elemento do grupo de Lorentz O(3, 1), tem-se que det(Ra LRbT ) = ±1. Calcu-
lando o determinante da matriz do lado direito (14.A.23) tem-se então
ωL44 − αβ = ±1.
Multiplicando-se por α/β teremos
L44 α α
ω − α2 = ± ,
β β
ou seja,
α
ω 2 − α2 = ± .
β
Pela segunda equação em (14.A.24) isso implica
β = ±α e L44 = ±ω,
√
os dois sinais ± acima sendo iguais ao sinal de det(Ra LRbT ). ω, porém, é dado por ± 1 + α2 ( por
(14.A.24)), mas a escolha do sinal dessa raiz quadrada é independente do sinal de det(Ra LRbT ). Há,
portanto, quatro situações possı́veis que deveremos considerar separadamente:
√
Ia. Escolhendo det(Ra LRbT ) = +1 e ω = + 1 + α2 , (14.A.23) fica
 
√
 1 + α2 0 0 α 
 
 
 0 1 0 0 

T 

L = (Ra )   Rb . (14.A.25)

 0 0 1 0 
 
 
 √ 
α 0 0 1 + α2
Ra e Rb são elementos de SRot ≃ SO(3), temos det(Ra ) = det(Rb ) = 1. Logo, neste caso temos
det(L) = 1. Fora isso L44 ≥ 1.
É conveniente escrever (14.A.25) de outra forma. Como α é um número real arbitrário, vamos
definir v ∈ (−1, 1) por
α v
v := − √ , de modo que α = −√ . (14.A.26)
1 + α2 1 − v2
Teremos    
√
 1 + α2 0 0 α   γ(v)0 0 −vγ(v) 
   
   
 0 1 0 0   0 1 0 0 
   
  =   =: B1 (v),
   
 0 0 1 0   0 0 1 0 
   
   
 √   
α 0 0 1 + α2 −vγ(v) 0 0 γ(v)
onde
1
γ(v) := √
.
1 − v2
Como se vê, chegamos dessa forma aos boosts de Lorentz B1 (v) utilizando apenas as propriedades
definidoras do grupo de Lorentz. Compare com o estudo do grupo O(1, 1), página 784.
Com essa parametrização, (14.A.25) fica
L = (Ra )T B1 (v)Rb , (14.A.27)

para Ra , Rb ∈ SRot.
√
Ib. Escolhendo det(Ra LRbT ) = +1 e ω = − 1 + α2 , (14.A.23) fica
 
√
 − 1 + α2 0 0 α 
 
 
 0 1 0 0 
 
Ra LRb = 
T

.
 (14.A.28)
 0 0 1 0 
 
 
 √ 
α 0 0 − 1 + α2
Logo, usando-se as matrizes P1 e T definidas em (14.74) e (14.75), segue
 
√
 1 + α2 0 0 α 
 
 
 0 1 0 0 
 
P1 Ra LRb T = 
T

,
 (14.A.29)
 0 0 1 0 
 
 
 √ 
α 0 0 1 + α2
como facilmente se verifica. Daı́, lembrando que T e Rb comutam (por que?), conclui-se que nesse caso
temos  
√
 1 + α2 0 0 α 
 
 
 0 1 0 0 

T 

L = (P1 Ra )   Rb T. (14.A.30)

 0 0 1 0 
 
 
 √ 
α 0 0 1 + α2
Assim, com a parametrização (14.A.26),
L = (P1 Ra )T B1 (v)Rb T, (14.A.31)
Por fim, note-se que neste caso temos det(L) = 1 com L44 ≤ −1 (por que?).
√
IIa. Escolhendo det(Ra LRbT ) = −1 e ω = + 1 + α2 , (14.A.23) fica
 
√
 1 + α2 0 0 α 
 
 
 0 1 0 0 
 
Ra LRb = 
T

.
 (14.A.32)
 0 0 1 0 
 
 
 √ 
−α 0 0 − 1 + α2
Assim,  
√
 1 + α2 0 0 α 
 
 
 0 1 0 0 
 
T Ra LRbT = 

,
 (14.A.33)
 0 0 1 0 
 
 
 √ 
α 0 0 1 + α2
como facilmente se verifica. Nesse caso, então,

 
√
 1 + α2 0 0 α 
 
 
 0 1 0 0 

T 

L = T (Ra )   Rb . (14.A.34)

 0 0 1 0 
 
 
 √ 
α 0 0 1 + α2
L = T (Ra )T B1 (v)Rb , (14.A.35)
Por fim, note-se que neste caso temos det(L) = −1 com L44 ≤ −1 (por que?).
√
IIb. Escolhendo det(Ra LRbT ) = −1 e ω = − 1 + α2 , (14.A.23) fica
 
√
 − 1 + α2 0 0 α 
 
 
 0 1 0 0 
 
T
Ra LRb =   . (14.A.36)

 0 0 1 0 
 
 
 √ 
−α 0 0 1 + α2
Assim,  
√
 1 + α2 0 0 α 
 
 
 0 1 0 0 
 
Ra LRb P1 = 
T

,
 (14.A.37)
 0 0 1 0 
 
 
 √ 
α 0 0 1 + α2
como facilmente se verifica. Nesse caso, então,

 
√
 1 + α2 0 0 α 
 
 
 0 1 0 0 

T 

L = (Ra )   P1 Rb . (14.A.38)

 0 0 1 0 
 
 
 √ 
α 0 0 1 + α2
L = (Ra )T B1 (v)P1 Rb , (14.A.39)
Por fim, note-se que neste caso temos det(L) = −1 e L44 ≥ 1 (por que?).
A demonstração do Teorema 14.8 está assim completa.
14.B Um Isomorfismo entre SL(C, 2)/{1, −1} e L↑+

Esta seção é de autoria de Daniel A. Cortez
Vamos provar que a aplicação Φ1 : SL(C, 2)/{1, −1} → L↑+ definida por
Φ1 (±A) := L[A] (14.B.40)
é um isomorfismo entre os grupos SL(C, 2)/{1, −1} e L↑+ . Para isso, começaremos resolvendo dois
dos exercı́cios propostos à página 852. O primeiro deles afirma que L[A] = L[B] se e somente se
A = ±B. Isso pode ser visto facilmente a partir da Proposição 14.19. De fato, se L[A] = L[B],
então para qualquer x ∈ R4 , vale que L[A]x = L[B]x. Usando (14.101), resulta M −1 (AM(x)A∗ ) =
M −1 (BM(x)B ∗ ). Portanto, AM(x)A∗ = BM(x)B ∗ e, como M(x) ∈ Herm(C, 2) para qualquer x ∈ R4 ,
segue da Proposição 14.19 que A = ±B. Por outro lado, é claro que se A = ±B, então L[A] = L[B],
como se pode constatar, por exemplo, a partir de (14.102). Note que o resultado desse exercı́cio implica
o fato da aplicação Φ1 definida em (14.B.40) ser injetora. Realmente, se Φ1 (A) = Φ1 (B), segue que
L[A] = L[B] e, portanto, A = ±B, que correspondem ao mesmo elemento em SL(C, 2)/{1, −1}. Dessa
forma, acabamos de estabelecer o seguinte resultado:
Proposição 14.22 A aplicação Φ1 : SL(C, 2)/{1, −1} → L↑+ definida em (14.B.40) é injetora. 2
Passemos agora a mostrar que vale a seguinte regra de composição: L[A]L[B] = L[AB] para
quaisquer matrizes A, B, ∈ SL(C, 2). De fato, para qualquer x ∈ R4 , usando (14.101), temos
L[A]L[B]x = L[A]M −1 (BM(x)B ∗ )

= M −1 AM M −1 (BM(x)B ∗ )) A∗
= M −1 ( ABM(x)B ∗ A∗ )
= M −1 ( ABM(x)(AB)∗ )
= L[AB]x . (14.B.41)
Como x é arbitrário, concluı́mos que L[A]L[B] = L[AB]. Desse resultado, segue que Φ1 (±A)Φ1 (±B) =
Φ1 (±AB), ou seja, que Φ1 é um homomorfismo de SL(C, 2)/{1, −1} em L↑+ . Como Φ1 é uma aplicação
injetora, vale, em verdade, o seguinte:
Proposição 14.23 A aplicação Φ1 : SL(C, 2)/{1, −1} → L↑+ definida em (14.B.40) é um monomor-
fismo, ou seja, um homomorfismo injetor. 2
Note agora que para provarmos que Φ1 é um isomorfismo entre SL(C, 2)/{1, −1} e L↑+ , só precisamos
verificar que Φ1 é sobrejetor, isto é, que qualquer transformação de Lorentz do grupo L↑+ é imagem por
Φ1 de alguma matriz em SL(C, 2)/{1, −1}. Como qualquer Λ ∈ L↑+ pode ser escrita em termos de uma
composição de rotações e de um boost ao longo da direção 1, só precisamos encontrar as matrizes em
SL(C, 2)/{1, −1} que correspondem a essas operações em L↑+ . De fato, seja Λ ∈ L↑+ , então, de acordo
com o Teorema 14.8, Λ é da forma RaT B1 Rb , onde Ra , Rb ∈ SRot e B1 é um boost apropriado ao longo
da direção 1. Se ±b1 ∈ SL(C, 2)/{1, −1} for tal que Φ1 [±b1 ] = B1 e ±r ∈ SL(C, 2)/{1, −1} for tal
que Φ1 [±r] = R, para qualquer R ∈ SRot, então terı́amos
Φ1 [±raT b1 rb ] = Φ1 [±raT ]Φ1 [±b1 ]Φ1 [±rb ] = RaT B1 R = Λ , (14.B.42)
uma vez que Φ1 é um homomorfismo. A relação (14.B.42) mostra que Φ1 é uma aplicação sobrejetora, já
que toda transformação de Lorentz Λ ∈ L↑+ pode ser obtida como imagem de alguma matriz apropriada
de SL(C, 2)/{1, −1}. Para que o nosso raciocı́nio seja válido, precisamos apenas encontrar as matrizes
±b1 e ±r em SL(C, 2)/{1, −1} com as propriedades mencionadas acima, ou seja, tais que Φ1 [±b1 ] =
L[b1 ] = B1 e que Φ1 [±r] = L[r] = R, para qualquer R ∈ SRot. Vamos fazer isso nos parágrafos
seguintes.
Em primeiro lugar, escrevemos v = tanh z em B1 (v), de maneira que
 
 cosh z 0 0 − senhz 
 
 
 0 1 0 0 
 
B1 (z) = B1 (tanh z) = 

.
 (14.B.43)
 0 0 1 0 
 
 
 
− senhz 0 0 cosh z
As matrizes de SRot, por sua vez, podem ser escritas como

 
 0 
 
 
 ~ 
 eθ~η·J 0 
 
Rη~ (θ) = 

 ∈ SRot ,
 (14.B.44)
 0 
 
 
 
 
0 0 0 1
com θ ∈ [−π, π] e ~η ∈ R3 tal que k~ηk = 1. Acima, J~ = (J1 , J2 , J3 ) são os geradores do grupo de
rotações SO(3). Com as observações acima, provaremos o seguinte resultado:
Proposição 14.24 Sejam z ∈ R, θ ∈ [−π, π], ~η ∈ R3 tal que |~η | = 1 e ~σ = (σ1 , σ2 , σ3 ) as três matrizes
de Pauli. Então,
z
(a) L e− 2 σ1 = B1 (z);
h θ i
(b) L e−i 2 η~·~σ = Rη~ (θ). 2
z
Prova. Demonstraremos primeiramente (a). Observe que e− 2 σ1 pertence à SL(C, 2) uma vez que
SL(C, 2) = { exp (z~η · ~σ ) , onde z ∈ C e ~η ∈ C3 com η12 + η22 + η32 = 1 } . (14.B.45)

z
Dessa forma L e− 2 σ1 está bem definido e podemos usar (14.102) para computar explicitamente seus
elementos de matriz. Esse cálculo será facilitado com o auxı́lio do seguinte
Lema 14.1 Sejam σ1 , σ2 , σ3 as três matrizes de Pauli. Então,
(a) Tr(σk σℓ ) = 2δkℓ , onde δkℓ é o delta de Krönecker45;
(b) Tr(σj σk σℓ ) = 2iǫjkℓ , onde ǫjkℓ é o sı́mbolo totalmente anti-simétrico de Levi-Civita;
(c) Tr(σi σk σj σℓ ) = 2δiℓ δkj − 2δij δkℓ + 2δik δjℓ . 2
45
Leopold Krönecker (1823-1891).
Prova do lema. A demonstração consiste em usar repetidamente os fatos de que o traço de qualquer
matriz de Pauli é nulo (isto é, Trσj = 0, j = 1, 2, 3) e que
σk σℓ = δkℓ 1 + iǫkℓj σj ,
onde a convenção de soma implı́cita em ı́ndices repetidos foi usada. Assim, para provar (a), temos
Tr(σk σℓ ) = Tr(δkℓ 1 + iǫkℓj σj )
= δkℓ Tr1
= 2δkℓ .
Para provar (b), usamos o resultado acima e os fatos já mencionados. Conseqüentemente,
Tr(σj σk σℓ ) = Tr[ σj (δkℓ 1 + iǫkℓm σm ) ]
= iǫkℓm Tr(σj σm )
= 2iǫkℓm δjm
= 2iǫkℓj = 2iǫjkℓ .
Finalmente, para provar (c), usamos novamente (a). Com efeito,
Tr(σi σk σj σℓ ) = Tr[ (δik 1 + iǫikm σm )(δjℓ 1 + iǫjℓn σn ) ]
= δik δjℓ Tr1 − ǫikm ǫjℓn Tr(σm σn )
= 2δik δjℓ − 2ǫikm ǫjℓn δmn
= 2δik δjℓ − 2ǫikm ǫjℓm .
Aplicando a bem conhecida identidade
ǫikm ǫjℓm = δij δkℓ − δiℓ δkj ,
obtemos
Tr(σi σk σj σℓ ) = 2δik δjℓ − 2δij δkℓ + 2δiℓ δkj ,
completando a prova do lema.
Retornemos agora à prova do item (a) da Proposição 14.24. Como é bem sabido, podemos escrever
z z z
e− 2 σ1 = cosh 1 − σ1 senh . (14.B.46)
2 2
z
Para calcular os elementos de matriz L e− 2 σ1 µν , com µ, ν = 1, 2, 3, 4, usamos a relação (14.102),
lembrando que σ4 ≡ 1. Assim, com o auxı́lio de (14.B.46), temos
z 1 h z z z z ∗ i
L e− 2 σ1 44 = Tr cosh 1 − σ1 senh cosh 1 − σ1 senh
2 2 2 2 2
1 z z z z
= Tr cosh2 1 − 2 cosh senh σ1 + senh2 σ12
2 2 2 2 2
1 2 z 2z

= cosh + senh Tr1
2 2 2
z z
= cosh2 + senh2 = cosh z , (14.B.47)
2 2
z
onde usamos que σ12 = 1, Trσ1 = 0 e cosh2 x + senh2 x = cosh 2x. Calculemos agora L e− 2 σ1 4j com
j = 1, 2, 3. Usando (14.102) e (14.B.46), obtemos
− z2 σ1
1 h z z z z ∗ i
L e 4j
= Tr cosh 1 − σ1 senh σj cosh 1 − σ1 senh
2 2 2 2 2
1 z z z z z
= Tr − cosh senh σj σ1 − senh cosh σ1 σj + senh2 σ1 σj σ1 .
2 2 2 2 2 2
Aplicando o Lema 14.1, resulta imediatamente que
z z z
L e− 2 σ1 4j = −2δj1 cosh senh = −δj1 senhz , (14.B.48)
2 2
z
onde a identidade 2 senh(x) cosh(x) = senh(2x) foi usada. O cálculo de L e− 2 σ1 j4 , j = 1, 2, 3 é feito
de forma semelhante. Explicitamente,
z 1 h z z z z ∗ i
L e− 2 σ1 j4 = Tr σj cosh 1 − σ1 senh cosh 1 − σ1 senh
2 2 2 2 2
1 h z z z z i
= Tr σj cosh2 + senh2 − 2 cosh senh σj σ1
2 2 2 2 2
z z
= −2δj1 cosh senh = −δj1 senhz . (14.B.49)
2 2
Observe
que novamente utilizamos o Lema 14.1 para o cálculo do traço. Resta, finalmente, o cômputo
z
de L e− 2 σ1 ij , com i, j = 1, 2, 3. Esse também pode ser feito de forma simples com o auxı́lio do
Lema 14.1. De fato,

− z2 σ1
1 h z z z z ∗ i
L e ij
= Tr σi cosh 1 − σ1 senh σj cosh 1 − σ1 senh
2 2 2 2 2
  
1   z z z z 
= Tr σi cosh2 σj − cosh senh (σj σ1 + σ1 σj ) + senh2 σ1 σj σ1 
2 2 2 2| {z } 2
2δj1 1
1 z 1 z
= cosh2 Tr(σi σj ) + senh2 Tr(σi σ1 σj σ1 )
2 2 2 2| {z }
4δ1i δ1j −2δij
z z
= δij cosh2 + senh2 (2δ1i δ1j − δij )
2 2
z
= δij + 2δ1i δ1j senh2 , (14.B.50)
2
onde a identidade fundamental cosh2 x − senh2 x = 1 foi utilizada na última igualdade. Observe da
relação acima que quando i = j = 1, obtém-se
z z
L e− 2 σ1 11 = 1 + 2 senh2
2

2 z 2z z
= cosh − senh + 2 senh2
2 2 2
z z
= cosh2 + senh2 = cosh z , (14.B.51)
2 2
z
caso contrário, L e− 2 σ1 ij = δij .
Usando asz expressões
(14.B.47)-(14.B.51), podemos escrever explicitamente a forma completa da
matriz L e− 2 σ1 µν para µ, ν = 1, 2, 3, 4. Não é difı́cil constar (faça!) que
 
 cosh z 0 0 − senhz 
 
 
 0 1 0 0 
z  
L e− 2 σ1 µν = 

.

 0 0 1 0 
 
 
 
− senhz 0 0 cosh z
z
Comparando com (14.B.43), vemos que L e− 2 σ1 = B1 (z), provando o item (a) da proposição.
A prova da segunda parte da proposição segue, essencialmente, a mesma idéia da primeira, embora
θ
seja um pouco mais htrabalhosa.i Em primeiro lugar, observamos que e−i 2 η~·~σ ∈ SL(C, 2) em virtude de
θ
(14.B.45). Assim, L e−i 2 η~·~σ está bem definida e podemos calcular seus elementos de matriz usando a
θ
fórmula (14.102). Antes disso, porém, é conveniente expressarmos e−i 2 η~·~σ usando a identidade
θ θ θ
e−i 2 η~·~σ = cos 1 − i~η · ~σ sen .
2 2
Assim, de acordo com (14.102), lembrando sempre que σ4 ≡ 1, temos
h θ i ∗
1 θ θ θ θ
L e ~·~
−i 2 η σ
= Tr cos 1 − i~η · ~σ sen cos 1 − i~η · ~σ sen
44 2 2 2 2 2

1 2 θ 2θ
= Tr cos 1 + (~η · ~σ ) sen
2
.
2 2 2
Escrevendo ~η · ~σ = ηj σj e usando o Lema 14.1, resulta
h θ i 1 θ 1 θ
L e−i 2 η~·~σ = cos2 Tr1 + sen2 ηk ηj Trσk σj
44 2 2 2 2
θ θ
= cos2 + sen2 ηk ηj δkj
2 2
θ θ
= cos2 + sen2 ηk ηk = 1 , (14.B.52)
2 2
h θ i
uma vez que ηk ηk = ~η = 1. Prosseguindo, devemos agora calcular os elementos de matriz L e−i 2 η~·~σ ,
2
4j
com j = 1, 2, 3. Como sempre, o cálculo é feito com base na expressão (14.102) e com o auxı́lio do
Lema 14.1. Assim,
h θ i ∗
1 θ θ θ θ
L e ~ ·~
−i 2 η σ
= Tr cos 1 − iηk σk sen σj cos 1 − iηℓ σℓ sen
4j 2 2 2 2 2
1 θ θ 1 θ θ
= i cos sen ηℓ Tr(σj σℓ ) − i cos sen ηk Tr(σk σj )
2 2 2 | {z } 2 2 2 | {z }
2δjℓ 2δkj
1 θ
+ sen2 ηk ηℓ Tr(σk σj σℓ )
2 2 | {z }
2iǫkjℓ
θ θ θ θ θ
= i cos sen ηj − i cos sen ηj + i sen2 ηk ηℓ ǫkjℓ = 0 , (14.B.53)
2 2 2 2 2
h θ i
uma vez que ηk ηℓ é simétrico pela troca de k com ℓ e ǫkjℓ é anti-simétrico. O cálculo de L e−i 2 η~·~σ
j4
é bastante análogo ao realizado acima e é deixado como exercı́cio para o leitor. O resultado obtido
deverá ser h θ i
L e−i 2 η~·~σ = 0, (14.B.54)
j4
h θ i
assim como em (14.B.53). Resta, finalmente, calcularmos os elementos de matriz L e−i 2 η~·~σ para
ij
i, j = 1, 2, 3. Isso é feito de forma usual, a partir da expressão (14.102) e dos resultados do Lema 14.1.
Temos,
h θ i ∗
1 θ θ θ θ
L e−i 2 η~·~σ = Tr σi cos 1 − iηk σk sen σj cos 1 − iηℓ σℓ sen
ij 2 2 2 2 2
1 θ i θ θ i θ θ
= cos2 Tr(σi σj ) + cos sen ηℓ Tr(σi σj σℓ ) − cos sen ηk Tr(σi σk σj )
2 2 | {z } 2 2 2 | {z } 2 2 2 | {z }
2δij 2iǫijℓ 2iǫikj
1 θ
+ sen2 ηk ηℓ Tr(σi σk σj σℓ )
2 2 | {z }
2(δiℓ δkj −δij δkℓ +δik δjℓ )
θ θ θ θ
= cos2 δij − 2 cos sen ηℓ ǫijℓ + sen2 ηk ηℓ (δiℓ δkj − δij δkℓ + δik δjℓ ) .
2 2 2 2
Usando no último termo que ηk ηℓ δkℓ = ηk ηk = ~η 2 = 1 e que 2 senx cos x = sen2x; cos2 x − sen2 x =
cos 2x, resulta
h θ i θ
L e−i 2 η~·~σ = δij cos θ − ηℓ ǫijℓ senθ + 2ηi ηj sen2 .
ij 2
2
Observando ainda que 2 sen x = 1 − cos 2x, ficamos com
h θ i
L e−i 2 η~·~σ = δij cos θ − ηℓ ǫijℓ senθ + ηi ηj (1 − cos θ) . (14.B.55)
ij
As expressões (14.B.52)-(14.B.55) devem ser diretamente comparadas com (14.B.44). Notamos que
todos os elementos da quarta linha e da quarta coluna são coincidentes. Resta saber se a expressão
(14.B.55) obtida acima é equivalente à (14.B.44) para as demais linhas e colunas. Isso pode ser verificado
calculando os elementos ij da matriz Rη~ (θ). Para tanto, usamos a identidade dada na Proposição 14.5
à página 791. Assim,
2
η ·J~
Rη~ (θ)ij = e θ~
= 1 + (1 − cos θ) ~η · J~ + senθ ~η · J~
ij ij
2
~
= δij + (1 − cos θ) ~η · J + senθ ~η · J~ . (14.B.56)
ij ij
Agora, conforme visto em (14.41), página 792, tem-se

~η · J~ = −ǫijk ηk . (14.B.57)
ij
Portanto,
2
~
~η · J = ~η · J~ ~η · J~
ij ik kj
= ǫikℓ ηℓ ǫkjm ηm = (δim δℓj − δij δℓm )ηℓ ηm
= ηi ηj − δij ηℓ ηℓ = ηi ηj − δij , (14.B.58)

já que |~η | = 1. Inserindo (14.B.57) e (14.B.58) em (14.B.56), resulta
Rη~ (θ)ij = δij + (1 − cos θ)(ηi ηj − δij ) − senθ(ǫijk ηk )
= δij cos θ − ǫijk ηk senθ + ηi ηj (1 − cos θ) ,
que é justamente (14.B.55). Isso completa a demonstração do item (b) da proposição.
Conforme discutido nos parágrafos que precedem a Proposição 14.24, a existência de matrizes
±b1 e ±r em SL(C, 2)/{1, −1} tais que Φ1 [±b1 ] = B1 e Φ1 [±r] = R, para qualquer R ∈ SRot, é
suficiente para garantir que a aplicação Φ1 seja sobrejetora em L↑+ . Ocorre que a Proposição 14.24 nos
diz justamente que as matrizes procuradas em SL(C, 2)/{1, −1} são b1 = e− 2 σ1 e r = e−i 2 η~·σ , com
z θ
θ ∈ [−π, π] e ~η ∈ R3 tal que k~η k = 1. Dessa forma, para qualquer transformação de Lorentz Λ ∈ L↑+ , a
relação (14.B.42) pode ser sempre satisfeita, evidenciando o fato de que Φ1 é sobrejetora. Juntando à
essa conclusão o resultado da Proposição 14.23, temos demonstrado o seguinte teorema fundamental:
Teorema 14.10 A aplicação Φ1 : SL(C, 2)/{1, −1} → L↑+ definida em (14.B.40) é um isomorfismo,
ou seja, SL(C, 2)/{1, −1} ∼ ↑
=Φ1 L+ . 2
Capı́tulo 15
Grupos de Lie e Álgebras de Lie. Uma Breve
Introdução
Conteúdo
15.1 Variedades e Grupos de Lie . . . . . . . . . . . . . . . . . . . . . . . . . . . 881
15.2 Breves Considerações sobre Grupos Topológicos . . . . . . . . . . . . . . . 883
15.3 Grupos de Lie Matriciais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 886
15.3.1 Uma Topologia Métrica em GL(C, n) . . . . . . . . . . . . . . . . . . . . . . 886
15.3.2 O Grupo de Lie GL(C, n) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 887
15.3.3 Sub-Grupos Uniparamétricos e seus Geradores . . . . . . . . . . . . . . . . . 890
15.3.4 Sub-Grupos Uniparamétricos e Álgebras de Lie . . . . . . . . . . . . . . . . . 894
15.3.5 Subgrupos Fechados de GL(C, n) . . . . . . . . . . . . . . . . . . . . . . . . . 899
15.4 A Relação entre Grupos de Lie Matriciais e suas Álgebras de Lie . . . . 903
15.4.1 Álgebras de Lie Nilpotentes, Solúveis, Simples e Semi-Simples . . . . . . . . . 904
15.4.2 Questões sobre a Exponenciação de Álgebras de Lie . . . . . . . . . . . . . . 907
15.4.3 Alguns Exemplos Especiais . . . . . . . . . . . . . . . . . . . . . . . . . . . . 910
E ste capı́tulo tenciona ser uma modesta introdução ao estudo de grupos de Lie. Com particular
destaque discutiremos grupos de Lie matriciais. Algumas observações prévias são necessárias.
Para a discussão do conceito geral de grupo de Lie são indispensáveis algumas noções básicas
sobre espaços topológicos mas, de importância especial é a noção de variedade diferenciável.
Esse importante conceito, proveniente da geometria, desempenha um papel importante em várias áreas
de Fı́sica, tais como a Teoria da Relatividade Geral e as Teorias de Calibre. O conceito de variedade
diferenciável nasceu inspirado na noção mais familiar de superfı́cie em espaços Rn e não se desvincula
totalmente daquela. Não pressuporemos da parte do leitor conhecimento prévio do conceito de vari-
edade diferenciável e, por isso, vamos introduzı́-lo adiante. Não iremos, no entanto, desenvolver esse
assunto em detalhe e, para tal, remetemos o estudante aos (inúmeros) bons livros sobre Geometria
Diferencial, por exemplo [109].
Iremos nos concentrar em exemplificar o conceito de grupo de Lie tratando primordialmente de
grupos de Lie matriciais. Isso simplifica um pouco o tratamento e reduz um tanto o escopo destas notas
introdutórias. No entanto, a grande maioria dos grupos de Lie de interesse (especialmente em Fı́sica)
é formada por grupos de Lie matriciais. Para o tratamento de grupos de Lie matriciais discutiremos
com certo detalhe aspectos algébricos e topológicos de grupos de matrizes.
Mais de 100 anos de pesquisa intensa nos separam dos primórdios do estudo dos grupos e álgebras
de Lie e nossas pretensões aqui são a de uma modesta introdução a esse vastı́ssimo assunto. Para
880
tratamentos gerais e abrangentes de grupos de Lie recomendamos as referências [114], [108], [23], [81],
[146], [67] ou [132], . Para álgebras de Lie, recomendamos [77] e [128].
Vários grupos de Lie são importantes na Fı́sica e seu tratamento é particularmente importante na
Mecânica Quântica e nas Teorias Quânticas de Campos. Exemplos de grupos de Lie importantes para
a Fı́sica são discutidos com certo detalhe no Capı́tulo 14, tais como os grupos SO(3), SU(2) e o grupo
de Lorentz.
15.1 Variedades e Grupos de Lie
• Variedades Diferenciáveis
Uma variedade diferenciável real de dimensão n é um espaço topológico Hausdorff V dotado de uma
famı́lia de abertos F = {Uα , α ∈ Λ} com as seguintes propriedades:
S
1. V = α∈Λ Uα .
2. Para cada Uα ∈ F existe um conjunto aberto Cα de Rn e uma bijeção contı́nua com inversa
contı́nua φα : Uα → Cα .
3. Para todo par Uα , Uβ ∈ F com Uα ∩ Uβ 6= ∅ a função
φα ◦ φ−1
β : φβ (Uα ∩ Uβ ) → φα (Uα ∩ Uβ )
é infinitamente diferenciável como função de (um sub-conjunto de) Rn em Rn .
Uma variedade analı́tica complexa de dimensão n é definida analogamente, substituindo-se Rn por

n
C e substituindo-se a condição de diferenciabilidade infinita do item 3, acima, por analiticidade.
Observação 1. Acima, Λ é apenas um conjunto de ı́ndices usados para rotular os elementos de F

e não tem nenhum papel especial. Λ pode ser finito ou não, contável ou não.
Observação 2. As funções φα ◦ φ−1

β de acima são denominadas funções de transição. Em uma
variedade k-diferenciável exige-se apenas que as funções de transição sejam k-vezes diferenciáveis.
Esses objetos têm, porém, interesse relativamente limitado.
Observação 3. Os pares (φα , Uα ) são freqüentemente denominados cartas locais da variedade ou

simplesmente cartas. A coleção das cartas é freqüentemente denominada atlas.
Vamos à interpretação das condições acima. A condição 1 diz apenas que a famı́lia {Uα , α ∈ Λ}
é um recobrimento de V , ou seja, todo elemento de V pertence a pelo menos um aberto Uα , podendo
naturalmente ocorrer que alguns pontos de V pertençam a vários elementos da famı́lia F, ou seja, os
elementos de F podem ter intersecções não-vazias. A condição 2 é importante e diz que os elementos
de cada Uα podem ser rotulados (univocamente) por uma n-upla de números reais (ou complexos).
Ou seja, podemos dotar cada Uα de um sistema de coordenadas. Note que esses sistemas podem ser
diferentes para Uα ’s diferentes. Como dissemos, pontos de V podem pertencer a vários Uα ’s e, portanto,
podem ter a si atribuı́das coordenadas diferentes, uma para cada Uα ao qual pertence. Assim, os pontos
de Uα ∩ Uβ têm a si atribuı́dos pelo menos dois sistemas de coordenadas: as coordenadas Cα de Uα e as
coordenadas Cβ de Uβ . A condição 3 diz-nos como esses sistemas de coordenadas devem relacionar-se,
a saber, o que se deseja é que a passagem das coordenadas Cβ para as coordenadas Cα , a qual é definida
pela função φα ◦ φ−1
β , seja infinitamente diferenciável (ou analı́tica).
Como mencionamos, a conceito de variedade foi inspirado na noção de superfı́cie em conjuntos como
Rn e Cn . Sem entrarmos em detalhes técnicos, toda superfı́cie em Rn convenientemente definida (tais
como a superfı́cie da esfera e o toro, em R3 ) é uma variedade, ou seja, tem um sistema de coordenadas
local. Isso pode ser garantido, por exemplo, pelo conhecido teorema da função implı́cita da análise
real. Note-se porém que variedades não são apenas conjuntos de pontos, como as superfı́cies de Rn o
são, podendo ser também conjuntos de outros tipos de objetos, como funções, curvas, vetores, matrizes
etc. A idéia intuitiva básica em torno da noção de variedade é que a mesma representa uma coleção
contı́nua de objetos que podem ser rotulados por sistemas de coordenadas e de tal forma que possamos,
ao menos localmente, manipular essas coordenadas de modo (infinitamente) diferenciável, como se faz
em Rn .
a b

E. 15.1 Exercı́cio. Mostre que o conjunto de matrizes R = −b a , a, b ∈ R com det(R) = 1 é
uma variedade diferenciável de dimensão 1. 6
• Grupos Topológicos
Vamos agora apresentar a definição de grupo topológico, da qual precisaremos para discutir grupos
de Lie.
Seja G um grupo. Para cada g ∈ G podemos definir uma função λg : G → G por λg (h) = gh. Fora
isso tem-se também em G a função inv : G → G definida por inv(h) = h−1 .
Definição. Um grupo G é dito ser um grupo topológico em relação a uma topologia τ definida em G
se nessa topologia a função inv e todas as funções λg forem contı́nuas.
Comentário. Podemos definir também para cada g ∈ G a função µg : G → G por µg (h) = hg, que
representa a multiplicação à direita por g. É fácil de se ver, porém, que µg = inv ◦ λg−1 ◦ inv. Assim,
em um grupo topológico as funções µg são também contı́nuas.
Comentário. Um grupo pode ser topológico em relação a uma topologia mas não em relação a outra.
Veremos exemplos.
Informalmente, um grupo G é topológico se as operações de produto por elementos do grupo e
inversão forem contı́nuas.
Em termos mais precisos um grupo topológico é formado por um grupo G e uma coleção G de
subconjuntos de G, G ⊂ P(G), satisfazendo as condições definidoras de um Espaço Topológico (vide
Capı́tulo 19):
1. ∅ ∈ G e G ∈ G,
2. Se A ∈ G e B ∈ G então A ∩ B ∈ G,
[
3. Se I é um conjunto arbitrário de ı́ndices e Aλ ∈ G para todo λ ∈ I então Aλ também é um
λ∈I
elemento de G,
e tais que para todo O ∈ G as imagens inversas inv −1 (O) e λ−1

g (O), para todo g ∈ G, são igualmente
elementos de G.
Os elementos de G são ditos ser os conjuntos abertos de G. Como em geral se faz em espaços
topológicos, um conjunto F ⊂ G é dito ser fechado se seu complementar G \ F for aberto.
• Grupos de Lie
Um grupo topológico que, enquanto espaço topológico, seja uma variedade real diferenciável (com-
plexa analı́tica) é dito ser um Grupo de Lie1 real (complexo) se as operações de multiplicação à direita
e inversão forem infinitamente diferenciáveis (analı́ticas).
E. 15.2 Exercı́cio. Verifique que (R, +) (o grupo aditivo dos reais) e (R+ \ {0}, ·) (o grupo multipli-
cativo dos reais não-negativos) são grupos de Lie reais. 6
a b

E. 15.3 Exercı́cio. Verifique que R = −b a , a, b ∈ R com det(R) = 1 é um grupo de Lie real.
6
Na Seção 15.3.2, página 887, mostraremos com detalhe que GL(C, n) é um grupo de Lie. Para
mais exemplos, vide a discussão sobre os grupos SO(3), SU(2) etc. do Capı́tulo 14.
15.2 Breves Considerações sobre Grupos Topológicos

Nesta seção nos limitaremos a apresentar alguns poucos resultados sobre grupos topológicos, dos quais
faremos uso adiante ao tratarmos de grupos de Lie. O estudo de grupos topológicos gerais é bastante
vasto e para um texto clássico recomendamos fortemente [114].
Introduzimos aqui a seguinte notação. Seja G um grupo topológico. Se U é algum subconjunto de
G e g ∈ G definimos
gU = {x ∈ G| x = gu para algum u ∈ U}.
Analogamente,
Ug = {x ∈ G| x = ug para algum u ∈ U}.
E. 15.4 Exercı́cio. Se U é um conjunto aberto de G mostre que para todo g ∈ G os conjuntos gU e

Ug são também conjuntos abertos de G. 6
• Grupos Topológicos Conexos e Desconexos

1
Marius Sophus Lie (1842-1899). Lie introduziu esse conceito em cerca de 1870 em seus estudos de propriedades de
invariância de equações diferenciais parciais.
Um grupo topológico H é dito ser desconexo se for a união disjunta de dois conjuntos A e B, ambos
não-vazios e ambos simultaneamente abertos e fechados. Ou seja, H = A ∪ B, A ∩ B = ∅ com A 6= ∅,
B 6= ∅, onde A e B são abertos e fechados.
Um grupo topológico H é dito ser conexo se não for desconexo.
• Alguns Fatos sobre Grupos Topológicos
Vamos aqui provar alguns fatos básicos sobre grupos topológicos gerais. Faremos uso da Proposição
15.3 abaixo quando falarmos da relação entre álgebras de Lie matriciais e álgebras de Lie.
Seja H um grupo topológico e G ⊂ H um subgrupo de H. Dizemos que G é um subgrupo aberto
de H se G for um subconjunto aberto de H. Analogamente, dizemos que G é um subgrupo fechado de
H se G for um subconjunto fechado de H. A seguinte proposição é relevante nesse contexto.
Proposição 15.1 Seja H um grupo topológico e G um subgrupo aberto de H. Então G é igualmente
um subgrupo fechado de H. 2
Prova. Seja g ′ ∈ G, onde G é o fecho de G. Então, se Ug′ é qualquer aberto de H que contém g ′ , tem-se
Ug′ ∩ G 6= ∅ (Proposição 19.6, página 1051). Vamos escolher cuidadosamente um tal aberto Ug′ . Seja
Ue um aberto de H que contém a identidade. Como G é aberto, V = Ue ∩ G é igualmente aberto.
Escolhemos Ug′ = g ′V := {x ∈ H, x = g ′ v para algum v ∈ V }. Então, como Ug′ ∩ G 6= ∅ existe algum
elemento g ∈ G que é também elemento de Ug′ , ou seja, g = g ′ v para algum elemento v ∈ V . Mas isso
implica que g ′ = gv −1. Agora, v ∈ V = Ue ∩ G ⊂ G e, portanto, g ′ ∈ G por ser o produto de dois
elementos de G, que é um grupo.
Proposição 15.2 Seja H um grupo topológico conexo e G um subgrupo aberto de H. Então G = H.

2
Prova. Vamos supor que G 6= H, ou seja, H \ G 6= ∅. Como G é um conjunto aberto e fechado (pela
proposição anterior) H \ G = H ∩ Gc é um conjunto aberto e fechado. Assim, H é a união disjunta
de dois conjuntos abertos e fechados, a saber G e H \ G. Isso é uma contradição com o fato de H ser
conexo. Logo G = H.
Proposição 15.3 Seja H um grupo topológico conexo e U um aberto de H que contém a identidade e
que seja tal que para todo u ∈ U tem-se u−1 ∈ U. Então,
∞
[
H = U n,
n=1
onde U 1 := U e
U n := {x ∈ H| x = un · · · u1 para ui ∈ U, i = 1, . . . , n}, n > 1.
2
Prova. Todos os conjuntos U n são conjuntos abertos. Isso é fácil de se ver. De fato,
[
U2 = u2 U
u2 ∈U
e, assim, U 2 é aberto, pois é uma união de abertos (vide exercı́cio à página 883). Analogamente,
[
Un = un U n−1 , n > 2. (15.1)
un ∈U
Por indução, segue facilmente que todo U n é aberto.

S
Assim U := ∞ n
n=1 U é igualmente um conjunto aberto (por ser uma união de abertos). Se provarmos
que U é um grupo, a proposição anterior garante a prova desejada.
É evidente que U contém a identidade e (que está contida em U). Fora isso, se g1 ∈ U n1 e g2 ∈ U n2 ,
então g1 = un1 · · · u1 e g2 = u′n2 · · · u′1 para certos ui e u′i ∈ U. Logo, g1 g2 = un1 · · · u1 u′n2 · · · u′1 ,
mostrando que g1 g2 ∈ U n1 +n2 ⊂ U. Finalmente, se g ∈ U n e g = un · · · u1 , então g −1 = u−1 −1
1 · · · un ∈
U n ⊂ U. Isso completa a prova que U é um grupo.
Informalmente, essa proposição diz que se H é um grupo topológico conexo, então qualquer aberto
U que contém a identidade gera o grupo H, ou seja, todo elemento de H pode ser escrito como o
produto finito de elementos de U.
Observação. Como a identidade e é um elemento de U, segue facilmente de (15.1) que U n−1 ⊂ U n
para todo n ≥ 1.
Seja H um grupo topológico. Dizemos que uma coleção de conjuntos abertos Aλ ∈ H, λ ∈ Λ, é um
recobrimento de H se [
H = Aλ .
λ∈Λ
Um grupo topológico é dito ser compacto2se possuir a seguinte propriedade: para todo recobrimento
Aλ ∈ H, λ ∈ Λ, de H existir um subconjunto finito Aλ1 , . . . , Aλn de conjuntos abertos que também é
um recobrimento de H:
H = Aλ1 ∪ · · · ∪ Aλn .
A seguinte proposição é imediata:

Proposição 15.4 Seja H um grupo topológico conexo e compacto e seja U um aberto de H que contém
a identidade e que seja tal que para todo u ∈ U tem-se u−1 ∈ U. Então, existe um n tal que
H = U n.
S
Prova. Como H é conexo, pela Proposição 15.3 tem-se H = ∞ n
n=1 U . O lado direito é, portanto,
um recobrimento de H por abertos. Assim, como H é compacto, H tem um recobrimento finito pelos
2
abertos U n : existem n1 < n2 < · · · < nk tais que H = U n1 ∪ · · · ∪ U nk . Como U n1 ⊂ · · · ⊂ U nk , tem-se

H = U nk , como querı́amos provar.
Comentário. Na proposição acima, a igualdade H = U n afirma que todo elemento de H é obtido por
um produto de no máximo n elementos de U. O número n é dependente de U e é intuitivo dizer que
quanto “menor” for o aberto U que contém a identidade, maior será n.
15.3 Grupos de Lie Matriciais

Nosso objetivo nesta seção e nas que se seguem é introduzir os grupos de Lie matriciais e discutı́-los.
Trataremos de alguns exemplos ilustrativos com algum detalhe, começando com o grupo GL(C, n).
Comentemos que essencialmente todas as nossas afirmações adiante sobre GL(C, n) são também válidas
para o grupo real GL(R, n).
15.3.1 Uma Topologia Métrica em GL(C, n)

Como preparação, façamos alguns comentários topológicos sobre GL(C, n). A topologia métrica de
Mat (C, n) discutida na Seção 4.1, página 239, pode ser introduzida naturalmente em GL(C, n), que
afinal é um subconjunto de Mat (C, n), ao definirmos para A, B ∈ GL(C, n) a métrica d(A, B) =
kA − Bk, sendo k · k a norma operatorial de Mat (C, n). Mostremos que GL(C, n) é um conjunto
aberto e denso de Mat (C, n).
• GL(C, n) é um Conjunto Aberto de Mat(C, n)
É relevante notarmos que GL(C, n) não é um subconjunto fechado 

de Mat (C, n).
 Isso se vê tomando
1/m 0 
o exemplo da seqüência de matrizes diagonais 2 × 2 da forma Am = 

, m ∈ N, seqüência

0 1/m
essa formada por elementos de GL(C, 2) mas que converge para a matriz nula, que obviamente não é
elemento de GL(C, 2).
Em verdade, GL(C, n) é um conjunto aberto de Mat (C, n). Para mostrar isso temos que provar3
que se A ∈ GL(C, n) e B é uma matriz tal que kB−AkC é suficientemente pequena, então B é invertı́vel
e, portanto, também pertence a GL(C, n). Observemos que B = A (1 + A−1 (B − A)). Se provarmos
−1
que 1 +A−1 (B −A) é invertı́vel então teremos que B −1 existe, sendo dada por (1 + A−1 (B − A)) A−1 .
Escolhendo B próximo o suficiente de A de modo que kB − AkC < 1/kA−1kC então A−1 (B − A)
terá norma menor que 1 e, portanto, 1 + A−1 (B − A) tem uma inversa dada pela série de Neumann4
3
Vide a definição de conjunto aberto em espaços métricos dada à página 956.
4
Karl Neumann (1832-1925).
convergente5
∞
X
−1 m
1 + A (B − A)
−1
= 1+ (−1)m A−1 (B − A) .
m=1
Isso prova que B tem inversa e completa a prova que GL(C, n) é um conjunto aberto.
E. 15.5 Exercı́cio. Há uma maneira alternativa “rápida” de provar que GL(C, n) é um conjunto aberto.
Mostre que det(A) é contı́nua como função dos elementos de matriz de A. Mostre que isso implica que
det(A) é contı́nua na topologia induzida em Mat (C, n) pela norma operatorial (em, verdade, por qualquer
norma, pois são todas equivalentes). Conclua que GL(C, n) é um conjunto aberto, observando para tal que
trata-se do conjunto de todas as matrizes complexas com determinante não-nulo e notando que C \ {0} é
um conjunto aberto em C. 6
• GL(C, n) é denso em Mat(C, n)
Provemos que todo elemento de Mat (C, n) pode ser aproximado em norma por uma matriz in-
vertı́vel. Isso equivale a dizer que GL(C, n) é denso em Mat (C, n). Seja A ∈ Mat (C, n) e seja
σ(A) = {λ1 , . . . , λr } o conjunto de seus autovalores distintos (r ≤ n). É claro que se α 6∈ σ(A) então
det(α1 − A) 6= 0 e A − α1 tem inversa (recorde que os autovalores de A são os zeros do polinômio
caracterı́stico de A). Seja agora, αn , n ∈ N, uma seqüência de números complexos tais que αn 6∈ σ(A)
para todo n, e tais que αn → 0 para n → ∞. Teremos que as matrizes An := A − αn 1 são todas
invertı́veis e d(A, An ) = kA − An k = |αn | k1k = |αn | → 0 para n → ∞. Isso prova nossa afirmação.
15.3.2 O Grupo de Lie GL(C, n)

Nesta seção mostraremos que GL(C, n) é um grupo de Lie. Para isso mostraremos primeiro que
GL(C, n) é um grupo topológico e depois que é uma variedade analı́tica, para então mostrar que o
produto e a inversão são analı́ticos. Esses resultados, além de importantes em si, servem ao propósito
pedagógico de ilustrar os conceitos de grupo topológico e de variedade.
• GL(C, n) é um Grupo Topológico
Para provarmos que GL(C, n) é um grupo topológico precisamos mostrar que o produto em
GL(C, n) e a inversão de matrizes em GL(C, n) são operações contı́nuas.
Sejam G, G′ , H ∈ GL(C, n). Temos que
kG′ H − GHkC = k(G′ − G)HkC ≤ kG′ − GkC kHkC ,
mostrando que kG′ H − GHkC → 0 se kG′ − GkC → 0. Assim, o produto à esquerda é contı́nuo.
Sejam agora G, H ∈ GL(C, n). Fixemos H e tomemos kG − HkC < ǫ com ǫ > 0 escolhido pequeno
o suficiente de modo que ǫkH −1 kC < 1. É claro que G = H + (G − H) = H(1 + H −1 (G − H)), de
5 1
A justificativa dessa expressão foi apresentada na Seção 4.2. Note que a expansão de Taylor da função analı́tica 1+z
P∞
para |z| < 1 em torno de z = 0 é precisamente 1 + m=1 (−1)m z m .
−1
maneira que G−1 = [1 + H −1 (G − H)] H −1 . Logo,
n −1 o
G−1 − H −1 = 1 + H (G − H) − 1 H −1 .
−1
Assim, como pela escolha de ǫ temos kH −1(G − H)kC ≤ ǫkH −1 kC < 1, podemos escrever
" ∞ #
X −1 m
−1 −1
G −H = m
(−1) H (G − H) H −1 .
m=1
A justificativa dessa expressão6 foi apresentada na Seção 4.2. Tem-se, então,

" ∞ #
X ǫkH −1 k2C
kG−1 − H −1 kC ≤ kH −1 km
C kG − Hk m
C kH −1
k C ≤ −1 k
.
m=1
1 − ǫkH C
Portanto kG−1 − H −1 kC → 0 quando kG − HkC → 0, provando a continuidade da operação de inversão

de matrizes. Isso completa a prova que GL(C, n) é um grupo topológico.
E. 15.6 Exercı́cio. Há uma maneira alternativa “rápida” de provar que a operação de inversão é contı́nua:
use a regra de Laplace, expressão (3.11), página 157, para calcular a inversa de uma matriz e evoque o fato
que o determinante é contı́nuo. 6
• GL(C, n) é uma Variedade Analı́tica
Vamos agora mostrar que GL(C, n) é uma variedade analı́tica.

2
Seja, para cada ǫ > 0, o sub-conjunto Cǫ de Cn definido por
2
Cǫ := {(x11 , . . . , x1n , x21 , . . . , x2n , . . . , xn1 , . . . , xnn ) ∈ Cn
com |xij | < ǫ para todos i, j = 1, . . . , n}.
Para x = (x11 , . . . , x1n , x21 , . . . , x2n , . . . , xn1 , . . . , xnn ) ∈ Cǫ , denotemos por X a matriz cujo
elemento ij é Xij = xij e denotemos 1 + X por A(x). Obviamente A(x)ij = δij + xij , i, j = 1, . . . , n.
2
É bem claro que cada Cǫ é um sub-conjunto aberto de Cn . Seja também Uǫ := {A(x) ∈ Mat (C, n)| x ∈
Cǫ }.
E. 15.7 Exercı́cio. Mostre que cada Uǫ é um sub-conjunto aberto de Mat (C, n). 6
É bem claro que para toda matriz A(x) como acima tem-se det(A(x)) = 1 + p(x), onde p(x) é
um polinômio nas variáveis xij que se anula quanto todas as xij são nulas. Assim, se x ∈ Cǫ vê-se
que det(A(x)) 6= 0 caso ǫ seja pequeno o suficiente, pois isso garante que |p(x)| < 1. Portanto, se
escolhermos ǫ pequeno o suficiente, teremos que Uǫ é um sub-conjunto aberto de GL(C, n), o que
suporemos daqui por diante.
6 1
Note que a expansão de Taylor da função analı́tica 1+z − 1 para |z| < 1 em torno de z = 0 é precisamente
P∞ m m
m=1 (−1) z .
Seja agora g uma matriz arbitrária de GL(C, n) e seja

Ug = {gA(x), com A(x) ∈ Uǫ }.
Pela notação que apresentamos quando discutimos grupos topológicos, Ug = gUǫ , e Ug é um aberto de
GL(C, n). Fora isso, g ∈ Ug , pois 1 = A(0) ∈ Uǫ . Concluı́mos que
[
GL(C, n) = Ug ,
g∈GL(C, n)
ou seja, GL(C, n) possui um recobrimento por abertos.

2
Vamos agora mostrar que cada Ug é bijetivamente mapeado em um aberto de Cn . Isso é bem
simples pois, se para cada g ∈ GL(C, n) definirmos funções φgij : Ug → C por
φgij (gA(x)) = φgij (g + gX)) := (gX)ij , i, j = 1, . . . , n,
ou seja,
n
X
φgij (gA(x)) := gik xkj , i, j = 1, . . . , n,
k=1
∈ Ug é da forma hij = gij + φgij (gA(x)). Assim, o conjunto Cg ⊂ Cn

2
vemos facilmente que todo h P
formado pelas variáveis xij = nk=1 gik xkj com xij ∈ Cǫ é um sistema de coordenadas para Ug .
Por fim, para todo h ∈ Ug ∩ Ug′ , teremos h = gA(x) = g ′ A(x′ ), ou seja, A(x′ ) = (g ′)−1 gA(x) e
n
X n
X
′ −1
x′ij = −δij + (g ) g ik (δkj + xkj ) = (g ′ )−1 g − 1 ij
+ (g ′)−1 g ik
xkj ,
k=1 k=1
o que mostra que as coordenadas x′ são expressas em termos de polinômios nas variáveis x. Portanto, a
mudança nas coordenadas de Ug para as de Ug′ é expressa em termos de funções analı́ticas (em verdade,
polinômios). Isso provou que GL(C, n) é uma variedade analı́tica.
• GL(C, n) é Grupo de Lie
Para finalmente provarmos que GL(C, n) é um grupo de Lie, resta-nos provar que a multiplicação
à direita e a inversão são analı́ticas. A primeira parte é elementar. Tomemos g, h ∈ GL(C, n). Os
elementos de Uh são da forma hA(x) e os de gUh são da forma ghA(x) ∈ Ugh . Agora, as funções de Cǫ
em C dadas por
n
X
Cǫ ∋ x 7→ φgh
ij (ghA(x)) = (gh)ik xkj i, j = 1, . . . , n,
k=1
são polinômios nas variáveis xij e, portanto, analı́ticas. Assim, o produto é analı́tico.
Para provar que a inversão é analı́tica tomemos g ∈ GL(C, n). Um elemento genérico de Ug é da
forma gA(x) = g(1 + X). Agora,
∞
X
(gA(x)) −1
= (1 + X) g −1 −1
= g (1 + gY (x)g ),
−1 −1
com Y (x) := (−1)m X m .
m=1
Cada elemento de matriz de Y (x) é uma função analı́tica dos xij , pois a série de Neumann7 acima
converge absolutamente (claramente, temos que escolher ǫ pequeno o suficiente). Agora, as funções
−1 −1
g
Cǫ ∋ x 7→ φij (gA(x))−1 g
= φij g −1 (1 + gY (x)g −1 ) = gY (x)g −1 ij
são funções analı́ticas dos xij , provando que a aplicação de inversão é analı́tica. Isso estabelece final-
mente que GL(C, n) é um grupo de Lie de dimensão n2 .
E. 15.8 Exercı́cio. Há uma maneira alternativa “rápida” de provar que a operação de inversão é analı́tica:
use a regra de Laplace, expressão (3.11), página 157, para calcular a inversa de uma matriz e evoque o fato
que o determinante é analı́tico. 6
15.3.3 Sub-Grupos Uniparamétricos e seus Geradores

Sub-grupos uniparamétricos são muito importantes na teoria dos grupos de Lie. Vamos apresentá-los
no caso de matrizes.
Definição. Um sub-grupo uniparamétrico de GL(C, n) é um homomorfismo contı́nuo8 do grupo (R, +)

em GL(C, n). Em outras palavras, é uma função que a cada t real associa continuamente uma matriz
invertı́vel γ(t) de modo que
γ(t)γ(t′ ) = γ(t + t′ ) (15.2)
para todos t, t′ ∈ R. Note que de (15.2) segue automaticamente que γ(0) = 1 (por que?).
A importância dos sub-grupos uniparamétricos reside na seguinte proposição, a qual também começa
a revelar a relevância das exponenciais de matrizes na teoria dos grupos de Lie.
Proposição 15.5 Seja γ : R → GL(C, n) um sub-grupo uniparamétrico. Então existe uma matriz
M ∈ Mat (C, n), univocamente definida, tal que γ(t) = exp(tM) para todo t ∈ R. Esse fato, em
particular, mostra que γ é real-analı́tica (e, portanto, diferenciável) e que M = γ ′ (0). A matriz M é
dita ser o gerador do sub-grupo uniparamétrico γ. 2
Prova.9 Se supuséssemos que γ é uma matriz diferenciável próximo a t = 0, terı́amos que para qualquer
t
1 1
γ (t) = lim (γ(t + s) − γ(t)) = γ(t) lim (γ(s) − γ(0)) = γ(t)γ ′ (0).
′
s→0 s s→0 s
Definindo M := γ ′ (0), concluirı́amos que γ satisfaz a equação diferencial γ ′ (t) = γ(t)M, cuja solução é
única (vide Capı́tulo 7) e dada por γ(t) = exp(tM), como querı́amos provar.
A demonstração estaria completa, não fosse o fato de que no enunciado supomos apenas que γ é
contı́nua, o que em geral não implica que γ seja também diferenciável em t = 0. É, no entanto, possı́vel
provar que se γ é contı́nua, então pelo fato de ser um homomorfismo de (R, +) segue que γ é também
7
Karl Neumann (1832-1925).
8
Vide nota à página 893.
9
Extraı́da de [67]. A observação de que no enunciado da Proposição 15.5 é suficiente supor-se que o sub-grupo
uniparamétrico γ é apenas contı́nuo (dispensando uma condição de diferenciabilidade) é devida a von Neumann.
diferenciável próximo a t = 0! A idéia é construir a partir de γ uma função γ̃ infinitamente diferenciável

e posteriormente mostrar que γ pode ser recuperada de γ̃ por operações diferenciáveis.
Para tal seja θ uma função real, positiva infinitamente diferenciável, com suporte compacto contendo
t = 0 e tal que Z ∞
θ(s)ds = 1.
−∞
Um exemplo de uma tal função seria (para a < 0 < b)




 K exp − 1
, para s ∈ (a, b)
2
(s−a) (s−b)2
θ(s) =


 0, de outra forma,
R∞
que tem suporte [a, b] ∋ 0. Uma escolha conveniente da constante K garante que −∞
θ(s)ds = 1.
Assim, seja uma tal função θ desse tipo e com suporte em, digamos, [−a, a] para algum a > 0, e
seja Z ∞
γ̃(t) := θ(t − s)γ(s)ds.
−∞
É fácil (Exercı́cio!) ver que γ̃ assim definida é infinitamente diferenciável. Fora isso,
Z ∞ Z ∞ Z ∞
γ̃(t) = θ(t − s)γ(s)ds = θ(u)γ(t − u)du = θ(u)γ(t)γ(−u)du
−∞ −∞ −∞
Z ∞
= γ(t) θ(u)γ(−u)du = γ(t)Y,
−∞
R∞
com Y := −∞
θ(u)γ(−u)du. Temos que
Z ∞
Y −1 = θ(u)(γ(−u) − 1)du,
−∞
R∞
pois −∞
θ(u)du = 1, por hipótese. Logo
Z ∞ Z a
kY − 1kC ≤ θ(u) kγ(−u) − 1kC du = θ(u) kγ(−u) − 1kC du
−∞ −a
Z a Z ∞
≤ c θ(u) du = c θ(u) du = c ,
−a −∞
onde c := supu∈[−a, a] kγ(−u) − 1kC . Como γ é contı́nua e γ(0) = 1, podemos fazer c arbitrariamente
pequena, escolhendoP∞a pequeno. Mas isso diz que Y = 1 − (1 − Y ) é invertı́vel, com Y −1 dado pela
série convergente m=0 (1 − Y )m . Assim, com a pequeno teremos γ(t) = γ̃(t)Y −1 , o que prova que γ(t)
é infinitamente diferenciável.
Definição. O que essa proposição provou é que todo sub-grupo uniparamétrico de GL(C, n) é da
forma exp(tM) para alguma matriz M ∈ Mat (C, n). Essa matriz M é dita ser o gerador do sub-grupo
uniparamétrico em questão.
Comentemos brevemente que a Proposição 15.5, que acabamos de provar, tem generalizações im-
portantes na teoria dos espaços de Hilbert e de Banach, onde é conhecida como Teorema de Stone10 .
Vide, por exemplo, [116].
• A Coleção de todos os Geradores de Sub-grupos Uniparamétricos
Seja G um sub-grupo de GL(C, n). Seja definido o seguinte conjunto:
L(G) := {M ∈ Mat (C, n)| exp(tM) ∈ G, ∀t ∈ R} .
Analogamente, seja G um sub-grupo de GL(R, n). Seja definido o seguinte conjunto:
L(G) := {M ∈ Mat (R, n)| exp(tM) ∈ G, ∀t ∈ R} .
Em palavras, L(G) é a coleção de todos os geradores de todos os sub-grupos uniparamétricos de

G. É claro, pela definição, que L(G) contém sempre pelo menos a matriz nula (pois exp(t0) = 1 ∈ G,
∀t ∈ R), mas não é nem um pouco evidente que esse não seja o único elemento de L(G). Por exemplo,
se G for um grupo discreto então L(G) = {0}. Mesmo no caso de G ser um grupo contı́nuo não é nada
óbvio que G possua sub-grupos uniparamétricos não-triviais. Logo abaixo estudaremos essa questão
no caso do grupo GL(C, n) e, um pouco mais adiante, no caso de sub-grupos fechados (não-discretos)
de GL(C, n). Em tais casos veremos que L(G) não consiste apenas da matriz nula.
Chamamos a atenção do estudante para o fato que, para um grupo G genérico, não é necessariamente
verdade que todo elemento de G pode ser escrito na forma exp(tM) para algum M ∈ L(G) e algum
t ∈ R. Ou seja, existem grupos G nos quais encontram-se elementos que não pertencem a nenhum
sub-grupo uniparamétrico de G. Na Proposição 4.10, página 252, vimos que isso ocorre no grupo real
GL(R, n), pois esse grupo não é conexo, mas esse fenômeno pode ocorrer mesmo em grupos conexos.
Um exemplo será discutido na página 911, adiante.
A coleção de todos os geradores de todos os sub-grupos uniparamétricos de um dado grupo G é um

objeto muito importante, especialmente na teoria dos grupos de Lie. Discutiremos esse fato adiante.
No caso do grupo GL(C, n) podemos facilmente identificar o que é L(GL(C, n)). Faremos isso agora.
• Sub-grupos Uniparamétricos de GL(C, n) e a Álgebra de Lie Associada a GL(C, n)
A coleção de todos os geradores de todos os subgrupos uniparamétricos do grupo GL(C, n) será

denotada aqui por L(GL(C, n)) ou por gl(C, n). Vamos identificar esse conjunto.
Na Proposição 4.11, página 252, demonstramos que todo elemento A ∈ GL(C, n) pode ser escrito
na forma A = exp(B) para algum B ∈ Mat (C, n). Conseqüentemente, A pertence ao subgrupo
10
Marshall Harvey Stone (1903-1989).
uniparamétrico composto pelas matrizes da forma exp(tB), t ∈ R. Assim, GL(C, n) possui subgrupos
uniparamétricos não-triviais. Reciprocamente, para todo B ∈ Mat (C, n) o conjunto de matrizes
da forma exp(tB), t ∈ R, forma um subgrupo uniparamétrico de GL(C, n). Concluı́mos disso que
L(GL(C, n)) = Mat (C, n).
Já discutimos por diversas vezes (vide página 61 e seguintes) que o conjunto Mat (C, n) é uma
álgebra de Lie com relação ao produto definido pelo comutador de matrizes. Um pouco mais adiante,
veremos que esse fato é geral: o conjunto de todos os geradores de um subgrupo fechado (não-discreto)
de um grupo de Lie é também uma álgebra de Lie. Esse fato é de importância central na teoria dos
grupos de Lie.
E. 15.9 Exercı́cio. Para a, b = 1, . . . , n e α ∈ C, sejam γαab (t), matrizes definidas da seguinte forma:



 1 + αtE ab ,
 6 b
para a =



γαab (t) := , com t ∈ R .






 1 + (eαt − 1)E aa , para a = b

Aqui E ab é a matriz cujos elementos ij são dados por E ab ij = δi a δj b , ou seja, E ab é a matriz cujos
elementos de matriz são todos nulos, exceto o elemento ab, que vale 1. Mostre que as matrizes γαab são
subgrupos uniparamétricos de GL(C, n), ou seja, que γαab (t) são contı́nuas e que γαab (t)γαab (t′ ) = γαab (t + t′ )
2
para todo a, b e todo α. (Sugestão: mostre que E ab = δab E ab e use esse fato). Mostre que seus
ab ab ab
geradores são as matrizes αE . Constate também explicitamente que γα (t) = exp αtE . 6
Note que a coleção formada por todas combinações lineares reais dos geradores dos subgrupos
uniparamétricos γαab de GL(C, n) coincide com Mat (C, n) (por que?).
E. 15.10 Exercı́cio. Como são as relações de comutação das matrizes E ab ? 6
• Homomorfismos Não-Contı́nuos de (R, +)
Contemplando a definição de sub-grupo uniparamétrico que apresentamos acima, como sendo um

homomorfismo contı́nuo de (R, +) em um grupo G, o estudante pode legitimamente questionar se
existem, afinal, homomorfismos não-contı́nuos desse grupo que justifiquem a necessidade de evocar
a condição de continuidade na Proposição 15.5. Talvez um tanto surpreendentemente, a resposta
é positiva. Há até mesmo automorfismos não-contı́nuos de (R, +) em si mesmo, os quais foram
apresentados à página 104, onde discutimos a existência de funções descontı́nuas de R em R que
satisfazem f (t) + f (t′ ) = f (t + t′ ) para todos t, t′ ∈ R. Assim, com o uso de uma tal função f , é
relativamente fácil construir um homomorfismo não-contı́nuo de (R, +) em um grupo G dado, caso
conheçamos um homomorfismo contı́nuo de (R, +) em G. De fato, se γ(t), t ∈ R, é um homomorfismo
contı́nuo de (R, +) em G então γ(f (t)), t ∈ R, é um homomorfismo de (R, +) em G, mas que não
é contı́nuo. Dada a “artificialidade” daquelas funções f , tais exemplos são um tanto patológicos, mas
explicam a necessidade de incluir a condição de continuidade na definição de sub-grupo uniparamétrico
e na Proposição 15.5.
15.3.4 Sub-Grupos Uniparamétricos e Álgebras de Lie
• Sub-Grupos Uniparamétricos em Sub-Grupos Fechados
Definição. Seja H um subgrupo fechado mas não discreto de GL(C, n). Definimos

L(H) := X ∈ Mat (C, n) tais que etX ∈ H para todo t ∈ R .
Como se vê, trata-se do conjunto dos geradores de todos os subgrupos uniparamétricos de H. É claro,
pela definição acima, que L(H) possui pelo menos um elemento, a saber a matriz nula, pois, obviamente
et0 = 1 ∈ H para todo t ∈ R. Não é nem um pouco óbvio, porém, que haja outros elementos em L(H)
que não o elemento nulo. Não é sequer óbvio que existam subgrupos uniparamétricos não-triviais11 em
H. Na Proposição 15.6 adiante, provaremos que L(H), de fato, é não-trivial e que há, de fato, subgrupos
uniparamétricos não-triviais em H. Para demonstrarmos a Proposição 15.6 precisamos de algumas
definições e de alguns resultados preparatórios. Seguiremos muito proximamente a exposição de [108]
(vide todo o §2 do Capı́tulo XI daquela referência), mas com ligeiras correções e aperfeiçoamentos.
Para simplificar a notação denotaremos aqui o grupo GL(C, n) por G e sua álgebra de Lie
Mat (C, n) por g.
Fixemos doravante um número r > 0, arbitrário mas conveniente, e seja wr a bola fechada de raio
r centrada na origem em g:
wr := {X ∈ g| kXk ≤ r} . (15.3)
Notemos que wr é simétrica, ou seja, se X ∈ wr então −X ∈ wr . Denotaremos por wO
r a bola aberta
de raio r centrada na origem em g:
wO
r := {X ∈ g| kXk < r} . (15.4)
Vamos denotar por Wr a imagem de wr pela exponenciação:

Wr := {exp(X), X ∈ wr } . (15.5)
É claro que Wr ⊂ G e é claro que Wr é simétrico, ou seja, se Y ∈ Wr então Y −1 ∈ Wr .
Como H é um subconjunto fechado de G, o conjunto H ∩ Wr é fechado. Seja fr o subconjunto de
wr formado pelos elementos cuja exponencial está em H ∩ Wr :
fr := {X ∈ wr | exp(X) ∈ H ∩ Wr }. (15.6)
Comentemos que, pela Proposição 4.11, página 252, todo elemento de H é uma exponencial de algum
elemento de g = Mat (C, n). Portanto, todo h ∈ H ∩ Wr é da forma h = exp(f ) para algum f ∈ fr .
Simbolicamente, podemos escrever
exp(fr ) = H ∩ Wr . (15.7)
É bastante claro que fr é também simétrico. Como exp é contı́nua, fr é também fechado (vide Seção
22.5.1, página 1114). Fora isso, fr ⊂ wr , por definição. Logo, fr é limitado. Por ser fechado e limitado,
fr é compacto.
11
Um subgrupo uniparamétrico γ(t) é trivial se γ(t) for igual ao elemento neutro para todo t ∈ R.
Definamos M(H, Wr ) ≡ Mr por
Mr := {X ∈ g tais que, para algum ǫ > 0, tem-se exp(tX) ∈ H ∩ Wr sempre que |t| < ǫ} . (15.8)
Alternativamente, é claro que
Mr = {X ∈ g tais que, para algum ǫ > 0, tem-se tX ∈ fr sempre que |t| < ǫ} .
Note-se que Mr contém sempre ao menos um elemento, a saber, 0. Não é nada óbvio, porém, se
esse é o único elemento de Mr . No Corolário 15.1, adiante, provaremos que tal não é o caso, ou seja,
Mr não é trivial. Antes disso precisamos de dois lemas preparatórios.
Lema 15.1 Com as definições acima, valem as seguintes afirmações. I. Se X ∈ Mr então λX ∈ Mr
para todo λ ∈ R. II. wr ∩ Mr ⊂ fr . 2
Prova do Lema 15.1. Se X ∈ Mr então, para algum ǫ > 0 tem-se tX ∈ fr sempre que |t| < ǫ. Mas,
então, se λ 6= 0, vale t(λX) ∈ fr sempre que |t| < ǫ/|λ|. Isso prova a afirmativa I.
Seja agora X ∈ wr ∩ Mr . Queremos provar que X ∈ fr . Como X ∈ Mr então, para algum ǫ > 0
tem-se exp(tX) ∈ H ∩ Wr sempre que |t| < ǫ. Assim, para n ∈ N grande o suficiente (n > ǫ−1 ) teremos
exp(n−1 X) ∈ H ∩ Wr o que, em particular, diz que exp(n−1 X) ∈ H. Como H é um grupo, tem-se que
(exp(n−1 X))n ∈ H. Mas o lado esquerdo é exp(X) e, portanto, concluı́mos que exp(X) ∈ H. Agora,
por hipótese, X ∈ wr , o que implica, pela definição de Wr , que exp(X) ∈ Wr . Logo, mostramos que
exp(X) ∈ H ∩ Wr , o que significa que X ∈ fr . Provamos, assim, que wr ∩ Mr ⊂ fr . Isso completa a
prova do Lema 15.1.
Podemos agora demonstrar o seguinte lema, de importância central no presente contexto e, talvez,
o resultado preparatório tecnicamente mais difı́cil.
Lema 15.2 Seja Xn , n ∈ N, uma seqüência de elementos de fr tais que Xn 6= 0. Suponhamos que
Xn → 0 para n → ∞ e que Xn /kXn k → Y para algum Y ∈ Mat (C, n). Então12 Y ∈ Mr . 2
Prova do Lema 15.2. Notemos antes de mais nada que se Yn := Xn /kXn k → Y ∈ Mat (C, n) então
Y 6= 0. Em verdade, kY k = 1 pois, fazendo uso da desigualdade (2.27), página 131, temos | kYn k −
kY k | ≤ kYn − Y k. Como o lado direito vai a zero quando n → ∞, segue que kY k = 1, pois kYn k = 1.
Fixemos também um número m ∈ N não nulo. Podemos escrever wr como a união
m
[
wr = sk
k=1
onde
k−1 k
sk ≡ srk := X ∈ wr r ≤ kXk ≤ r ,
m m
12
Após a demonstração do Lema 15.2, discutiremos à página 897 que de fato existem seqüências satisfazendo essas
hipóteses.
ou seja, podemos escrever wr como uma união de “fatias”, ou cascas esféricas, de vetores com normas
entre k−1
m
k
re m r. Note-se que s1 é a bola fechada de raio r/m centrada em 0:
n r o

s1 = X ∈ wr kXk ≤ .
m
Como Xn converge a 0, existe um número Nm (que pode depender de m) tal que Xn ∈ s1 para todo
n > Nm . Seja agora um k0 ∈ N fixo, escolhido de modo que 1 < k0 ≤ m. Vamos mostrar que para
cada n > Nm podemos encontrar um número inteiro jn (eventualmente dependente de n) de modo que
jn Xn ∈ sk0 , ou seja, tal que
(k0 − 1)r k0 r
≤ kjn Xn k ≤ .
m m
Para isso, é suficiente escolhermos um jn inteiro satisfazendo
(k0 − 1)r k0 r
≤ |jn | ≤ .
mkXn k mkXn k
(k0 −1)r k0 r
Haverá inteiros no intervalo entre mkXn k
e mkXn k
? Para ver isso, notemos que o comprimento desse
intervalo é
k0 r (k0 − 1)r r
− = ≥ 1,
mkXn k mkXn k mkXn k
pois kXn k ≤ mr , dado que Xn ∈ s1 . Então, uma tal escolha de jn é sempre possı́vel para cada n (pois
todo intervalo fechado de comprimento igual ou maior que 1 contém ao menos um inteiro).
(k ) (k )
Vamos
denominar
jn Xn por Yn 0 (com k0 fixo). É evidente que Yn 0 ∈ sk0 ⊂ wr . Isso implica
(k ) (k )
que exp Yn 0 ∈ Wr . Fora isso, exp Yn 0 = exp(jn Xn ) = (exp(Xn ))jn . Como exp(Xn ) pertence ao

(k )
grupo H (pois Xn ∈ fr ), segue pela propriedade de grupo que também tem-se exp Yn 0 ∈ H (é por

(k0 )
essa razão que escolhemos jn inteiro). Com isso, provamos que exp Yn ∈ H ∩ Wr , o que significa
(k0 )
que13 Yn ∈ fr .
O conjunto fr é fechado e limitado e, portanto, compacto. Isso significa que existe uma sub-
(k )
seqüência Ynl 0 , l ∈ N, que é convergente em fr . Agora, como Yn = Xn /kXn k converge a Y , isso
(k ) (k )
significa que Ynl 0 converge a um múltiplo de Y , digamos λ(k0 ) Y , pois Ynl 0 é um múltiplo de Ynl , a
(k )
saber, Ynl 0 = jnl kXnl kYnl . Portanto, para um tal λ(k0 ) temos λ(k0 ) Y ∈ fr . Note que também tem-se
−λ(k0 ) Y ∈ fr , bastando para tal trocar Xn por −Xn na argumentação acima, o que é permitido pois fr
é simétrico.
Assim, λ(k0 ) = lim jnl kXnl k e, conseqüentemente,
l→∞
(k0 − 1)r k0 r
≤ λ(k0 ) ≤ .
m m
O que provamos acima vale para cada k0 ∈ N com 1 < k0 ≤ m.h Resumindoi nossas conclusões,
provamos que para todo m ∈ N não-nulo, cada intervalo Ik0 , m := (k0m−1) r, km0 r com 1 < k0 ≤ m
contém pelo menos um λ(k0 ) tal que ±λ(k0 ) Y ∈ fr .
13 (k0 )
Em [108] o argumento que prova que Yn ∈ fr não está correto, lamentavelmente.
m
[ 1
A união Ik0 , m é o conjunto
m
r, r . Esses intervalos Ik0 , m podem ser feitos mais finos e em
k0 =2
[ 1
maior número, fazendo m → ∞, sendo que r, r = (0, r].
m∈N
m
Concluı́mos disso que existe um conjunto contável denso de números λ no intervalo (0, r] tais que
±λY ∈ fr . Como fr é fechado, isso implica que λY ∈ fr para todo λ ∈ [−r, r]. Agora, isso significa
precisamente que Y ∈ Mr , que é o que querı́amos provar.
A prova do Lema 15.2 está completa.
Podemos nos perguntar agora, será que existem seqüências Xn satisfazendo as hipóteses do Lema
15.2, ou seja, tais que Xn /kXn k convirja para algum Y ? É fácil ver que sim. Notemos para isso que
para qualquer seqüência Xn ∈ fr com Xn → 0 a seqüência Yn = Xn /kXn k está contida no conjunto
compacto formado pelos vetores de norma 1. Assim, Yn sempre tem uma sub-seqüência convergente
a algum Y , que também tem norma 1. A essa sub-seqüência aplica-se então o Lema 15.2 e tem-se
Y ∈ Mr . Isso, em particular, mostra-nos que Mr é não-trivial, ou seja, contém elementos não-nulos.
Provamos então:
Corolário 15.1 O conjunto Mr definido acima contém elementos diferentes de 0. 2
Esse simples corolário é crucial para o que segue14 , pois tem a seguinte conseqüência.
Proposição 15.6 Seja H um subgrupo fechado e não-discreto de GL(C, n)). Então valem as seguintes
afirmativas. I. Mr = L(H) para qualquer r > 0. II. L(H) é não-trivial, ou seja, não consiste apenas
da matriz nula. Há, portanto, subgrupos uniparamétricos não-triviais em H. 2
Prova. Seja o conjunto Mr ≡ M(H, Wr ) definido em (15.8), com Wr definido em (15.3)-(15.5) para
algum r > 0. Provaremos que M(H, Wr ) = L(H).
Em primeiro lugar, é claro (por definição!) que se X ∈ L(H) teremos exp(tX) ∈ H, ∀t ∈ R. Se
X = 0 então X ∈ M(H, Wr ) trivialmente. Se X 6= 0 então, se escolhermos |t| < r/kXk, teremos que
tX ∈ wr . Logo, X ∈ M(H, Wr ). Isso mostra que L(H) ⊂ M(H, Wr ).
Seja X ∈ M(H, Wr ) com X 6= 0. Pelo Corolário 15.1, um tal X existe. Assim, existe um ǫ > 0
tal que exp(t′ X) ∈ H para todo t′ ∈ (−ǫ, ǫ). Seja agora t ∈ R qualquer. Se escolhermos n ∈ Z
com |n| grande o suficiente, teremos |t/n| < ǫ. Daı́, exp((t/n)X) ∈ H e, como H é um grupo,
exp(tX) = (exp((t/n)X))n ∈ H. Como isso vale para qualquer t ∈ R provamos que X ∈ L(H).
Com isso provamos que M(H, Wr ) ⊂ L(H) e, portanto, M(H, Wr ) = L(H). Assim, pelo Corolário
15.1, L(H) é não-trivial. Conseqüentemente existem em H subgrupos uniparamétricos não-triviais, a
saber aqueles que têm como geradores os elementos não-nulos de M(H, Wr ).
14
Infelizmente, alguns textos como [132], [146] e mesmo (surpreendentemente) [114], não provam que Mr é não-trivial, o
que torna suas demonstrações do Teorema 15.2 incompletas. Mesmo [108], que prova os Lemas 15.1 e 15.2, não menciona
o Corolário 15.1, embora o mesmo fique implı́cito pela sua análise. A referência [67], que segue outra e muito interessante
linha de raciocı́nio, é explı́cita quanto ao Corolário 15.1.
Chegamos agora ao ponto em que boa parte do que fizemos será unificado e revelaremos a im-
portância de sub-grupos uniparamétricos para os grupos de Lie matriciais.
• Sub-Grupos Uniparamétricos e Álgebras de Lie
Seja H um sub-grupo fechado e não-discreto de GL(C, n). O seguinte teorema, o qual é uma con-
seqüência das fórmulas de Lie-Trotter e do comutador (vide Capı́tulo 4), é de importância fundamental:
Teorema 15.1 Se H é um sub-grupo fechado e não-discreto de GL(C, n) então L(H), definida acima,
é uma álgebra de Lie real15 . 2
Prova. Vamos primeiramente mostrar que L(H) é um espaço vetorial real. Para tal, precisamos mostrar
que se X e Y são geradores de dois sub-grupos uniparamétricos de H, então αX + βY também o é,
para quaisquer α, β ∈ R. Comecemos observando que γ(t) := exp(t(αX + βY )) é um sub-grupo
uniparamétrico contı́nuo de GL(C, n) cujo gerador é obviamente αX + βY . Tudo o que precisamos
fazer é mostrar que γ(t) ∈ H para todo t ∈ R. Pela fórmula de Lie-Trotter (vide Capı́tulo 4),
m
tα tβ
exp(t(αX + βY )) = lim exp X exp Y . (15.9)
m→∞ m m

Observemos então o seguinte. Pela hipótese, as matrizes exp tα m
X e exp tβm
Y pertencem ao grupo
H, pois supomos
que
X e Y são geradores de subgrupos uniparamétricos de H. Portanto os produtos
tβ
exp tαm
X exp m
Y são também elementos de H, pois H é um grupo. Ora, o lado direito de (15.9) é,
portanto, o limite de uma seqüência de elementos de H. Como supomos que H é fechado, segue que o
limite é igualmente um elemento de H, como querı́amos mostrar. Isso provou então que αX + βY ∈
L(H) para quaisquer α, β ∈ R e, portanto, L(H) é um espaço vetorial real.
Vamos mostrar agora que L(H) é uma álgebra de Lie. Se X, Y ∈ L(H) temos, pela fórmula do
comutador (vide Capı́tulo 4), e usando [tX, Y ] = t[X, Y ], que
m2
t 1 t 1
exp(t[X, Y ]) = lim exp X exp Y exp − X exp − Y . (15.10)
m→∞ m m m m
Raciocı́nio idêntico ao que empregamos acima conclui que exp(t[X, Y ]) ∈ H para todo t ∈ R, mos-
trando que [X, Y ] é o gerador de um sub-grupo uniparamétrico contı́nuo de H, ou seja, [X, Y ] ∈ L(H).
Isso provou que L(H) é uma álgebra de Lie.
Comentário. Se para todo X ∈ L(H) tivermos também αX ∈ L(H) para todo α ∈ C, conclui-se pela
demonstração acima que L(H) é uma álgebra de Lie complexa.
15
Álgebras de Lie foram definidas à página 61.
15.3.5 Subgrupos Fechados de GL(C, n)

Nesta Seção provaremos o seguinte teorema:
Teorema 15.2 Se H é um subgrupo topologicamente fechado de GL(C, n) (na topologia métrica in-
duzida de GL(C, n)) e H não é discreto, então H é também um grupo de Lie (na topologia métrica
induzida de GL(C, n)). 2
O Teorema 15.2 é particularmente importante pois muitos grupos encontrados em aplicações são
sub-grupos fechados (não discretos) de GL(C, n) ou de GL(R, n). Tal é o caso, por exemplo, dos
grupos U(n), U(p, q), SU(n), SU(p, q), O(n), SO(n) e outros. Assim, o Teorema 15.2 nos informa que
tais grupos são grupos de Lie.
A prova desse teorema será oferecida à página 901. Antes de chegarmos lá precisaremos apresentar
vários teoremas preparatórios. Chamamos a atenção do leitor para o fato que as demonstrações de
alguns desses resultados preparatórios são bastante técnicas e talvez devam ser omitidas em uma
primeira leitura.
Seja H um subgrupo fechado não-discreto de G = GL(C, n). Sabemos pelo Teorema 15.1 que L(H)
é um sub-espaço de L(G) = Mat (C, n). Seja L(H)⊥ seu complemento ortogonal (em relação a algum
produto escalar em Mat (C, n), por exemplo hA, Bi = Tr(A∗ B)). Todo elemento A ∈ Mat (C, n)
pode ser escrito de modo único na forma A = Ak + A⊥ , com Ak ∈ L(H) e A⊥ ∈ L(H)⊥ .
Seja assim a função ΦH : L(G) → G definida por

ΦH (A) := exp Ak exp A⊥ .
Lema 15.3 Para H, subgrupo fechado e conexo de GL(C, n), existe r0 > 0 tal que a aplicação ΦH
′
definida acima é um homeomorfismo do aberto wO O
r0 em um aberto ΦH (wr0 ) ⊃ Wr0′ para um certo r0 > 0.
2
Acima, wO
r0 é a bola aberta de raio r0 em torno da matriz nula. Vide (15.4).
Prova. Escolhamos r0 pequeno o suficiente para que valha a fórmula de Baker-Campbell-Hausdorff16 .

Considere-se a aplicação φH : L(G) → L(G) definida por φH (A) = ln (ΦH (A)), ou seja,

φH (A) := ln exp Ak exp A⊥ = Ak ∗ A⊥ = A + ϕH (A) ,
(lembre-se que Ak + A⊥ = A) onde

1 k ⊥ 1 k k ⊥ ⊥ ⊥ k
ϕH (A) := A, A + A, A , A + A , A , A +··· .
2 12
Como facilmente se constata, kϕkAk H (A)k

→ 0 para kAk → 0. Assim, φH é contı́nua e diferenciável em uma
vizinhança de 0 e e sua derivada em 0 é a identidade. Assim, pelo bem conhecido Teorema da Aplicação
Inversa (vide, Seção 18.5, página 1024, ou por exemplo, [97]), φH é um homeomorfismo entre wO r0 e sua
16
Vide Capı́tulo 4, página 238. A fórmula de Baker-Campbell-Hausdorff é dada em (4.46) à página 265.
imagem. Como ΦH = exp ◦ φH e a exponencial é também um homeomorfismo local (Proposição 4.4,

página 247), a prova do Lema 15.3 está completa.
Seja H um subgrupo fechado de GL(C, n). Vimos acima que L(H) ⊂ Mat (C, n) é uma álgebra
de Lie real e, como tal, um sub-espaço de Mat (C, n). É evidente que se A ∈ L(H) então exp(A) ∈
H. Vamos denotar por H e o subgrupo de H cujos elementos são produtos finitos de exponenciais de
elementos de L(H):
e := {h ∈ H, h = exp(A1 ) · · · exp(Am ) para algum m ∈ N} .

H
e é de fato um grupo, pois

H
1. 1 ∈ H,
e
e então h−1 = exp(−Am ) · · · exp(−A1 ) ∈ H

2. se h = exp(A1 ) · · · exp(Am ) ∈ H e e
e então tem-se, evidentemente, hh′ =

3. se h = exp(A1 ) · · · exp(Am ) e h′ = exp(A′1 ) · · · exp(A′m′ ) ∈ H
e
exp(A1 ) · · · exp(Am ) exp(A′1 ) · · · exp(A′m′ ) ∈ H.
e é denominado subgrupo gerado por L(H). Vamos provar o seguinte teorema:

O grupo H
e = H.
Teorema 15.3 Se H é fechado e conexo então H 2
e ⊂ H, de modo que queremos apenas provar que H ⊂ H.

Prova. Já é evidente, pela definição, que H e
′
Seja r > 0, fixo. O que faremos é provar que fr ⊂ L(H) ∩ wr′ para algum r > 0. Se isso for
verdadeiro, então, pela definição de fr em (15.6) e por (15.7), os elementos de H ∩ Wr são da forma
exp(A) com A ∈ L(H) ∩ wr′ . Agora, pelo fato de H ser conexo, sabemos pela Proposição 15.3, que
todo elemento de H pode ser escrito como um produto finito de elementos do interior de H ∩ Wr . Logo,
todo elemento de H pode ser escrito como um produto finito exp(A1 ) · · · exp(Am ), para algum m ∈ N,
com Ak ∈ L(H) ∩ wr′ . Ora, isso está precisamente dizendo que H ⊂ H, e que é o que querı́amos provar.
Vamos então mostrar que fr ⊂ L(H) ∩ wr′ para algum r ′ > 0. A demonstração será feita por
absurdo, ou seja, supondo que não existam r e r ′ > 0 tais que fr ⊂ L(H) ∩ wr′ e chegando-se daı́ a
uma contradição.
\ fácil ver pela definição dos conjuntos fr em (15.6) que fr1 ⊂ fr2 sempre que r1 ≤ r2 . Além
É muito
disso, fr = {0}.
r>0
Para um r ′ arbitrário, fixo, vamos então supor que não haja nenhum fr com fr ⊂ L(H) ∩ wr′ . Isso
implica que fr \ (L(H) ∩ wr′ ) 6= ∅ para todo r. Fixando r, poderı́amos escolher uma seqüência rn < r,
rn → 0 com frn \ (L(H) ∩ wr′ ) 6= ∅. Escolhendo para cada n um elemento Xn ∈ frn \ (L(H) ∩ wr′ ),
teremos que Xn ∈ fr \ (L(H) ∩ wr′ ) para todo n e Xn → 0 quando n → ∞.
Como Xn → 0, teremos exp(Xn ) ∈ Wr0′ para para todo n grande o suficiente, onde r0′ é referido
no enunciado do Lema 15.3. Assim, pelo mesmo lema, existirá para
cada um de tais n’s um elemento
k ⊥ k ⊥

Zn ∈ wr0 , Zn = Zn + Zn , tal que exp (Xn ) = ΦH (Zn ) = exp Zn exp Zn .
k
Antes de prosseguirmos, façamos algumas observações sobre Zn e Zn⊥ . Como Xn → 0, deve valer
também Zn → 0 já que, pelo Lema 15.3, ΦH e sua inversa são contı́nuas. Assim, tem-se igualmente
k
Zn → 0 e Zn⊥ → 0. Pela parte II do Lema 15.1 e pela parte I da Proposição 15.6, segue que wr ∩L(H) ⊂
k
fr . Daı́, para n grande o suficiente, ter-se-á Zn ∈ fr . Note-se também que, como X n 6∈ L(H) para
⊥ k
n grande, teremos Zn 6= 0, pois, se assim não fosse, valeria exp (Xn ) = exp Zn e, tomando-se
k
o logaritmo (o que é permitido para n grande, já que kXn k e kZn k estão ambos próximos a zero),
k
obterı́amos Xn = Zn ∈ L(H), o que é impossı́vel.

⊥ k
Como conseqüência das observações acima, teremos que exp Zn = exp −Zn exp (Xn ). Sucede

k k
que exp (Xn ) ∈ H ∩ Wr e exp −Zn ∈ H ∩ Wr . Assim exp Zn ∈ H e, kZn⊥ k ≤ kZn k < r0 . Logo,

exp Zn⊥ ∈ H ∩ Wr0 . Portanto, Zn⊥ ∈ fr0 .
Como conseqüência do Lema 15.2, da parte I da Proposição 15.6 e da compacidade de fr0 , a seqüência
de vetores de norma 1 dada por Zn⊥ /kZn⊥ k tem uma sub-seqüência que converge a um elemento de
Mr0 = L(H). Porém, como Zn⊥ ∈ L(H)⊥ , isso é impossı́vel e tem-se aı́ uma contradição. Logo, deve
valer fr ⊂ L(H) ∩ wr′ para certos r, r ′ > 0. Isso completa a prova do Teorema 15.3.
Podemos agora reunir os resultados que provamos acima e passar à
Prova do Teorema 15.2.

Seja H um subgrupo fechado de GL(C, n). Como veremos, é suficiente provarmos o teorema
considerando apenas a componente de H que é conexa ao elemento neutro, componente essa que
denominaremos H0 . Isso pois se provarmos que H0 é uma variedade, a demonstração facilmente se
estenderá para todo H. Esse ponto será discutido com mais detalhe ao final da demonstração, de modo
que, por ora, nos limitamos a considerar o caso em que H é conexo (o que, no caso geral, equivale a
nos restringirmos a H0 ).
Pelo Teorema 15.3, basta provarmos que H e é um grupo de Lie. Pelo Teorema 4.4, podemos encontrar
uma vizinhança aberta de V de 0 em Mat (C, n) e uma vizinhança aberta W de 1 em GL(C, n) tais que
exp : V → W é um difeomorfismo. Seja VH a vizinhança de 0 em L(H) definida por VH = V ∩ L(H) e
seja WH sua imagem em H e pela exponencial. A aplicação exp : VH → WH é também um difeomorfismo,
pois é a restrição de um difeomorfismo (a saber exp : V → W ) por uma função suave (a projeção
V → VH ). Existe naturalmente um sistema de coordenadas em VH , pois L(H) é um espaço vetorial
e, portanto, isomorfo a Ck , k sendo a dimensão de L(H). Dessa forma como exp : VH → WH é
uma bijeção, exp−1 : WH → VH estabelece um sistema de coordenadas em WH . Para estabelecer um
sistema de coordenadas em todo H, e por exemplo, em torno de um elemento h ∈ H, e podemos transladar
o sistema de coordenadas de WH para uma vizinhança de h, a saber, hWH . As cartas locais assim
obtidas serão compatı́veis (infinitamente diferenciáveis ou analı́ticas) devido ao fato de exp : VH → WH
ser um difeomorfismo e pelo fato de a multiplicação por um h constante não alterar esse caráter. O
argumento de translação pode ser aplicado mesmo a elementos de H que não estão na componente
conexa à identidade, de modo que todo H se torna uma variedade de dimensão k. O produto e a
inversa são contı́nuas e infinitamente diferenciáveis por o serem em GL(C, n) e também devido ao fato
de exp : VH → WH ser um difeomorfismo. A demonstração do Teorema 15.2 está então completa
Comentário. Segundo [108], o Teorema 15.2 é devido a Cartan17 . Demonstrações desse importante
teorema podem ser encontradas em vários livros-texto, como por exemplo [108] ou [114]. Devemos,
porém, notar ao leitor e advertir o estudante que alguns textos (inclusive alguns clássicos) apresentam
certas falhas tanto no enunciado do teorema quanto na sua demonstração, falhas essas que procuramos
corrigir e evitar nas demonstrações acima. Por exemplo, muitos autores esquecem-se de excluir do
enunciado o caso (trivial) em que H é fechado mas discreto (grupos discretos obviamente não podem ser
grupos de Lie), por vezes ressalvando isso apenas no correr da demonstração. Vários textos apresentam
demonstrações incompletas (por exemplo, [132], [146] e mesmo parcialmente [114]), pois deixam por
exemplo, de provar que o conjunto Mr , definido acima, não é apenas formado pelo elemento nulo, um
ponto crucial. A demonstração que apresentamos é essencialmente (mas não exatamente) a de [108]
(vide todo §2 do Capı́tulo XI daquela referência). Um outro tratamento excelente (mas talvez não
acessı́vel a todo estudante) é o de [67].
Um ponto importante do Teorema 15.2 é que o subgrupo fechado H é um grupo de Lie com a
topologia induzida em H por G. Em verdade, vale para grupos de Lie um teorema mais ainda forte
que o Teorema 15.2:
Teorema 15.4 Todo subgrupo não-discreto H de um grupo de Lie G é também um grupo de Lie, mas
não necessariamente em relação à topologia induzida por G em H. 2
Como se vê, esse teorema generaliza o Teorema 15.2 pois não é necessário requerer que H seja um
subgrupo fechado de G. Porém, a topologia na qual H é um grupo de Lie pode não ser a topologia
induzida em H por G. Um exemplo ilustrativo será discutido na Seção 15.4.3. A demonstração do
Teorema 15.4 teorema está além dos limites dessas notas e pode ser encontrada em textos como [114]
ou [67].
O Teorema 15.1, página 898, revela um sentido da relação fundamental entre grupos de Lie e
álgebras de Lie. Ele mostra que é possı́vel construir uma álgebra de Lie a partir de um grupo de Lie
fechado. A teoria geral dos grupos de Lie revela que muitas propriedades importantes de grupos de Lie
podem ser estudadas a partir das álgebras de Lie associadas a seus sub-grupos uniparamétricos. Essa
relação se mostra particularmente relevante no estudo de representações de grupos de Lie. É possı́vel
provar (e faremos isso no exemplo do grupo SO(3) no Capı́tulo 16) que existe uma correspondência
um-a-um entre as representações de um grupo de Lie e as representações de sua álgebra de Lie. Sucede
que (devido à estrutura linear) é muito mais simples estudar as representações de uma álgebra de Lie
do que de um grupo de Lie. Infelizmente ainda está fora do modesto alcance destas notas explorar
completamente esse vasto terreno e remetemos o estudante aos bons livros supra-citados sobre grupos
e álgebras de Lie.
Iremos no que segue deste capı́tulo limitar-nos a discutir algumas questões as quais são importantes
para um estudo mais abrangente. Particularmente nos deteremos na questão de identificar algumas
situações nas quais podemos prosseguir no caminho inverso ao que apontamos acima, ou seja, na
questão de quando um grupo de Lie pode ser recuperado a partir da álgebra de Lie dos seus geradores
por aplicação da exponenciação.
17
Elie Joseph Cartan (1869-1951). E. J. Cartan foi um dos mais importantes contribuidores à teoria de grupos de Lie.
15.4 A Relação entre Grupos de Lie Matriciais e suas Álgebras

de Lie
Vimos nas seções anteriores que se H é um subgrupo não-discreto fechado de GL(C, n) existe associada
ao mesmo uma álgebra de Lie a qual é (obviamente) uma sub-álgebra de da álgebra de Lie de GL(C, n)
que é Mat (C, n). Será a recı́proca verdadeira, ou seja, se A é uma sub-álgebra de Lie de Mat (C, n)
haverá um grupo de Lie fechado associado a A? A reposta, em geral, é não. Um contra-exemplo (para
n = 2) é o seguinte:
 Seja  a um número real irracional e seja a álgebra de Lie formada pelas matrizes
it 0 
2 × 2 dadas por 

 com t ∈ R. Exponenciando os elementos dessa álgebra de Lie obtemos

0 iat
 
eit 0 
as matrizes 

 com t ∈ R. Esse conjunto de matrizes forma certamente um grupo. Sucede,

iat
0 e
porém, que não se trata de um sub-grupo topologicamente fechado de GL(C, 2), como veremos com
um pouco mais de detalhe na Seção 15.4.3 (a qual o leitor poderá passar sem perdas). Felizmente é
possı́vel dizer um pouco mais se enfraquecermos a condição de H ser um subgrupo fechado. Tem-se,
por exemplo, o seguinte:
Proposição 15.7 Seja G um subgrupo fechado não-discreto de GL(C, n) cuja álgebra de Lie é L(G)
e seja H um subgrupo (não discreto) de G. Seja L(H) := {M ∈ Mat (C, n)| exp(tM) ∈ H, ∀t ∈ R}
e suponha que se saiba que L(H) é um sub-espaço de L(G). Então L(H) é também uma sub-álgebra
de L(G). 2
Prova. Sejam A, B ∈ L(H). Então é claro que para todos t e s ∈ R teremos esAetB e−sA ∈ H pois
H é um grupo e esA , etA ∈ H. Podemos escrever esA etB e−sA = exp tesA Be−sA e isso prova que
esA Be−sA ∈ L(H) para todo s ∈ R. Como por hipótese L(H) é um sub-espaço de L(G), L(H) é
fechado (pois estamos em dimensão finita). Logo

1 sA −sA d sA −sA
L(H) ∋ lim e Be −B = e Be = [A, B],
s→0 s ds s=0
Comparando a demonstração acima com a do Teorema 15.1, vemos que a diferença é que não
supomos que H seja fechado. Podemos ir mais um pouco além e estabelecer o seguinte:
Teorema 15.5 Seja G um subgrupo fechado de GL(C, n) cuja álgebra de Lie é L(G) e seja h uma
sub-álgebra de Lie real de L(G). Então existe um único sub-grupo conexo H de G cuja álgebra de Lie
é h. H é um grupo de Lie (em uma certa topologia). 2
Não apresentaremos a demonstração dessa afirmação aqui no caso geral, a qual é uma conseqüência
da fórmula de Baker-Campbell-Hausdorff. Mais adiante (página 908) discutiremos como H pode ser
construı́da a partir de h no caso dessa última ser uma álgebra de Lie nilpotente, o caso mais fácil de
tratar.
15.4.1 Álgebras de Lie Nilpotentes, Solúveis, Simples e Semi-Simples

Já comentamos anteriormente que se A e B são matrizes n × n reais ou complexas tais que AB = BA,
então exp(A) exp(B) = exp(A + B). O que ocorre caso A e B não comutem entre si? A resposta a
esta questão é dada por uma expressão conhecida como fórmula de Baker-Campbell-Hausdorff, a qual
foi discutida e demonstrada no Capı́tulo 4, página 238. Essa fórmula permite expressar o produto
exp(A) exp(B) para duas matrizes A e B ∈ Mat (C, n) (ou ∈ Mat (R, n)) novamente como uma
exponencial de matrizes:
exp(A) exp(B) = exp(A ∗ B),
onde A ∗ B é uma expressão um tanto complexa envolvendo somas de comutadores múltiplos das
matrizes A e B, e cujos primeiros termos são os seguintes:
1 1 1
A ∗ B = A + B + [A, B] + [A, [A, B]] + [B, [B, A]] + · · · .
2 12 12
A expressão completa encontra-se em (4.46) à página 265.
Vamos agora fazer uma pausa e, antes de entrarmos na discussão das conseqüências da fórmula
de Baker-Campbell-Hausdorff e da exponenciação de álgebras de Lie e sua relação com grupos de
Lie, vamos nos dedicar a discutir alguns aspectos algébricos das álgebras de Lie (com o perdão do
pleonasmo).
A fórmula de Baker-Campbell-Hausdorff nos chama a atenção para a importância de comutadores
múltiplos de elementos de uma álgebra de Lie. Vamos aproveitar a oportunidade para introduzir
algumas noções algébricas muito empregadas no estudo de álgebras de Lie. Falaremos da sua relevância
adiante.
No que segue trataremos apenas de álgebras de Lie sobre o corpo dos números reais ou complexos.
Seja L uma álgebra de Lie e A, B dois subconjuntos de L. Por [A, B] denotamos o conjunto de
todos os elementos de L que são iguais ao comutador de algum elemento de A por algum elemento de
B. Em sı́mbolos:
[A, B] = {[a, b], a ∈ A, b ∈ B} . (15.11)
• Álgebras de Lie Nilpotentes
Seja uma álgebra de Lie L. Com a notação acima, denotaremos por L[n] , n = 0, 1, 2, . . ., a seqüência
de conjuntos obtida da seguinte forma: L[0] := L e L[n] = [L, L[n−1] ], n = 1, 2, . . .. Ou seja,
L[0] := L,
L[1] := [L, L[0] ] = [L, L],
L[2] := [L, L[1] ] = [L, [L, L]],
L[3] := [L, L[2] ] = [L, [L, [L, L]]],
..
.
etc.
Definição. Uma álgebra de Lie é dita ser nilpotente se L[m] = {0} para algum m.
O menor m para o qual L[m] = {0} é dito ser o grau ou ı́ndice da álgebra de Lie nilpotente. Note-se
′
que se L[m] = {0} então L[m ] = {0} para todo m′ > m.
Um exemplo de álgebra de Lie nilpotente é a álgebra de Heisenberg tri-dimensional gh3 , com
geradores p, q e ~, satisfazendo [p, ~] = 0, [q, ~] = 0 e [p, q] = −i~. Para ela vale (gh3 )[2] = {0}. Essa
álgebra foi apresentada e discutida na Seção 14.2.2 à página 769.
Há várias razões por que as álgebras de Lie nilpotentes são relevantes. Uma delas está no fato
de as álgebras de Lie nilpotentes serem igualmente álgebras de Lie solúveis (vide o que segue) e a
importância destas será discutida. O leitor pode reconhecer uma outra razão da importância das
álgebras de Lie nilpotentes na seguinte observação: para uma álgebra de Lie nilpotente a série de
Baker-Campbell-Hausdorff em (4.46) e (4.47) é uma série finita! Voltaremos a isso quando retomarmos
adiante a discussão da fórmula Baker-Campbell-Hausdorff.
• Álgebras de Lie Solúveis
Em paralelo à noção de álgebra de Lie nilpotente que apresentamos acima, existe a noção de álgebra
de Lie solúvel.
Para uma álgebra de Lie L, denotaremos por L(n) , n = 0, 1, . . ., a seqüência de conjuntos obtida
da seguinte forma: L(0) := L e L(n) := [L(n−1) , L(n−1) ], n = 1, 2, . . .. Ou seja,
L(0) := L,
L(1) := [L(0) , L(0) ] = [L, L],
L(2) := [L(1) , L(1) ] = [[L, L], [L, L]],
..
.
etc.
Definição. Uma álgebra de Lie é dita ser solúvel se L(m) = {0} para algum m.
Para qualquer álgebra de Lie L é bastante evidente, pelas definições, acima que L(n) ⊂ L[n] . De
fato, L(0) = L[0] e L(1) = L[1] e, se L(n) ⊂ L[n] para algum n, segue que L(n+1) = [L(n) , L(n) ] ⊂
[L, L(n) ] ⊂ [L, L[n] ] = L[n+1] , provando a afirmativa por indução.
Segue dessa observação que toda álgebra de Lie nilpotente é também solúvel.
A recı́proca dessa última afirmação é falsa: nem toda álgebra de Lie solúvel é nilpotente. Considere-
se com exemplo a álgebra de Lie bidimensional com geradores λ1 e λ2 satisfazendo [λ1 , λ2 ] = λ2 . Essa
álgebra não é nilpotente, pois [λ1 , [λ1 , [· · · , [λ1 , λ2 ]]]] = λ2 . Porém, essa álgebra é solúvel, pois
[[λ1 , λ2 ], [λ1 , λ2 ]] = [λ2 , λ2 ] = 0. Essa álgebra aparecerá concretamente no exemplo discutido à
página 911.
Há várias razões por que as álgebras de Lie solúveis são relevantes. Uma delas será discutida após
apresentarmos o Teorema de Levi, abaixo.
• Álgebras de Lie Simples e Semi-Simples
Se L é uma álgebra de Lie, dizemos que é um sub-espaço vetorial J de L é uma sub-álgebra (de Lie)
se
[J, J] ⊂ J.
Se L é uma álgebra de Lie, dizemos que um sub-espaço vetorial I de L é um ideal se

[L, I] ⊂ I.
Pela definição, todo ideal de L é uma sub-álgebra de Lie de L.

As álgebras de Lie nilpotentes e as solúveis possuem “muitos” ideais. Contrapostas às mesmas estão
as chamadas álgebras de Lie simples e semi-simples, que possuem “poucos” ideais.
Definição. Uma álgebra de Lie L é dita ser simples se seus únicos ideais forem {0} e a própria L.
Definição. Uma álgebra de Lie L é dita ser semi-simples se não possuir ideais solúveis (que não {0}).
É bem claro que toda álgebra de Lie simples é semi-simples.
Há várias razões por que as álgebras de Lie semi-simples são relevantes. Uma delas será discutida
após apresentarmos o Teorema de Levi, abaixo.
• Soma Direta e Soma Semi-Direta de Álgebras de Lie
Definição. Uma álgebra de Lie L é dita ser a soma direta de duas de suas sub-álgebras L1 e L2 se
[L1 , L2 ] = 0
e se todo elemento x ∈ L puder ser escrito de modo único da forma x = x1 + x2 com x1 ∈ L1 e x2 ∈ L2 .
Se L for a soma direta de L1 e L2 denotamos isso por L = L1 ⊕ L2 .
Definição. Uma álgebra de Lie L é dita ser a soma semi-direta de duas de suas sub-álgebras L1 e L2
se
[L1 , L2 ] ⊂ L2
e se todo elemento x ∈ L puder ser escrito de modo único da forma x = x1 + x2 com x1 ∈ L1 e x2 ∈ L2 .

Se L for a soma semi-direta de L1 e L2 denotamos isso por L = L1 ⊞ L2 .
Note que L2 deve ser um ideal de L.
Nesse contexto é importante o seguinte teorema, cuja demonstração está além das pretensões destas
notas (vide e.g. [108, 77]):
Teorema 15.6 (Teorema de Levi) Toda álgebra de Lie L de dimensão finita é uma soma semi-
direta
L = S⊞R
onde S é semi-simples e R solúvel. 2
A sub-álgebra R acima é denominada radical de L.

Exemplos. O chamado grupo Euclidiano18 em três dimensões E3 possui seis geradores J1 , J2 , J3
(geradores de rotações) e P1 , P2 , P3 (geradores de translações), satisfazendo as relações
3
X 3
X
[Ji , Jj ] = ǫijk Jk [Ji , Pj ] = ǫijk Pk [Pi , Pj ] = 0,
k=1 k=1
onde ǫijk é o sı́mbolo anti-simétrico de Levi-Civita definido em (14.33), página 789. Se denominarmos
por P a sub-álgebra gerada por P1 , P2 , P3 e por J a sub-álgebra gerada por J1 , J2 , J3 , veremos que
P é solúvel (pois é Abeliana) e que J é simples (e, portanto, semi-simples). É também imediato que
L = P ⊞ J.
O teorema de Levi nos diz que o estudo geral de álgebras de Lie, e conseqüentemente, de grupos de
Lie, reduz-se ao estudo das álgebras de Lie solúveis (dentre as quais estão as nilpotentes) e das álgebras
de Lie semi-simples. Um dos resultados mais importantes da teoria das álgebras de Lie é uma célebre
classificação completa de todas as álgebras de Lie semi-simples, feito devido a Killing19 e a Cartan20 .
Para o caso das álgebras solúveis uma classificação completa está ainda longe de ser alcançada.
15.4.2 Questões sobre a Exponenciação de Álgebras de Lie

Apesar de sua importância, a fórmula de Baker-Campbell-Hausdorff apresenta uma restrição quanto à
norma das matrizes A e B, necessária para garantir a convergência da série que ocorre em (4.46). Há,
porém, uma classe de álgebras de Lie para a qual essa questão não é importante, as chamadas álgebras
de Lie nilpotentes, das quais trataremos agora.
• Grupos de Lie Nilpotentes

18
Euclides, de Alexandria (ci. 325 A.C., ci. 265 A.C.).
19
Wilhelm Karl Joseph Killing (1847-1923).
20
Elie Joseph Cartan (1869-1951).
A importância das álgebras de Lie nilpotentes no contexto da fórmula de Baker-Campbell-Hausdorff

(4.46), página 265, é a seguinte. Se L ⊂ Mat (C, n) é uma álgebra de Lie nilpotente de grau m de
matrizes, então para quaisquer A, B ∈ L teremos que A ∗ B definida em (4.46) é uma soma finita,
contendo no máximo comutadores múltiplos de ordem m.
Com isso, vemos que para uma álgebra de Lie nilpotente de matrizes L ⊂ Mat (C, n) não existe
o problema da convergência da série de (4.46), e a mesma vale para todo A, B ∈ L, independente da
norma desses elementos. Fora isso A ∗ B ∈ L, já que é dado por uma soma finita de elementos de L.
Uma conseqüência é a seguinte proposição.
Proposição 15.8 Seja G um subgrupo de Lie de GL(C, n) e LG ⊂ Mat (C, n) sua álgebra de Lie.
Vamos supor que LG seja nilpotente. Então o produto ∗ definido pela fórmula de Baker-Campbell-
Hausdorff é associativo. Fora isso, a álgebra de Lie LG é, ela mesma, um grupo com o produto ∗.
2
Prova. Sejam P A1 , A2 e A3 três elementos de LG . Se L1 , . . . , Lm formam uma base em LG podemos

escrever Ai = m i i
k=1 αk Lk , onde αk são números complexos. Como a soma de comutadores que ocorre
na fórmula de Baker-Campbell-Hausdorff é finita, concluı́mos que
m
X m
X
1 2 3 1 2 3
(A ∗ A ) ∗ A = pk (α)Lk e A ∗ (A ∗ A ) = qk (α)Lk ,
k=1 k=1
onde pk (α) e qk (α) são polinômios nas variáveis αji ,

i = 1, 2, 3, j = 1, . . . , m. Desejamos provar
que para cada k tem-se pk = qk . Como ambos são polinômios, é suficiente provar isso para quando as
variáveis αji estão restritas a algum aberto de C.
Sejam Gi = exp(Ai ), i = 1, 2, 3, elementos de G. Como o produto do grupo é associativo, temos
(G1 G2 )G3 = G1 (G2 G3 ) e, portanto, exp((A1 ∗ A2 ) ∗ A3 ) = exp(A1 ∗ (A2 ∗ A3 )). Se escolhermos as
variáveis αji suficientemente próximas de zero, teremos pk (α) e qk (α) igualmente próximas de zero
(convença-se disso checando a fórmula de Baker-Campbell-Hausdorff) e, portanto, k(A1 ∗ A2 ) ∗ A3 kC e
kA1 ∗ (A2 ∗ A3 )kC podem ser ambas feitas menores que ln 2. Pela Proposição 4.5, página 247, podemos
tomar o logaritmo das exponenciais acima e concluir que (A1 ∗ A2 ) ∗ A3 = A1 ∗ (A2 ∗ A3 ). Assim,
m
X m
X
pk (α)Lk = qk (α)Lk
k=1 k=1
pelo menos para αji pequenos o suficiente. Como os elementos Lk da base são linearmente independentes,
concluı́mos que pk (α) = qk (α) para todo k = 1, . . . , m, pelo menos quando os αji são pequenos o
suficiente. Como pk e qk são polinômios, isso vale para todos αji ∈ C. Isso provou a associatividade.
Para provar que LG é um grupo, devemos mostrar que há um elemento neutro em LG para o produto
∗ e que para cada elemento de LG existe uma inversa. Pela fórmula de Baker-Campbell-Hausdorff é
fácil constatar que
A∗0 = 0∗A = A
para todo A ∈ LG . Assim o zero é o elemento neutro procurado. Fora isso, também pela fórmula de
Baker-Campbell-Hausdorff é fácil constatar que
A ∗ (−A) = A + (−A) + comutadores de A com − A = 0.
Logo, (LG , ∗) é um grupo.
Esses fatos têm ainda uma conseqüência importante. Seja L ⊂ Mat (C, n) uma álgebra de Lie
nilpotente de matrizes. Definamos por exp(L) o conjunto de todas as matrizes que são exponenciais
de elementos de L:
exp(L) = {G ∈ Mat (C, n)| G = exp(A) para algum A ∈ L} .
Afirmamos que exp(L) é um grupo (em relação ao produto usual de matrizes), em verdade um subgrupo
de GL(C n). De fato, 1 ∈ exp(L), pois, 0 ∈ L. Se G = exp(A) com A ∈ L, então sua inversa
é G−1 = exp(−A), que também pertence a exp(L) pois −A ∈ L. Por fim, se G1 = exp(A1 ) e
G2 = exp(A2 ) com A1 e A2 dois elementos quaisquer de ∈ L, então, pela fórmula de Baker-Campbell-
Hausdorff, G1 G2 = exp(A1 ∗ A2 ) ∈ exp(L), pois A1 ∗ A2 ∈ L.
A conclusão é que a partir de uma álgebra de Lie nilpotente L podemos construir um grupo,
denominado grupo de Lie associado à álgebra L pelo procedimento de exponenciação. É importante
notar que L é um conjunto conexo. Portanto, como a exponencial é contı́nua, o grupo exp(L) é
igualmente conexo.
Interessantemente vale também a recı́proca. Seja G um grupo de Lie conexo fechado (de matri-
zes) e LG sua álgebra de Lie e vamos supor que LG seja nilpotente. Considere, para algum ǫ > 0
suficientemente pequeno, o subconjunto Vǫ de LG definido por
( m )
X
Vǫ := λk Lk , com |λi| < ǫ para todo i = 1, . . . , m ,
k=1
e o subconjunto Uǫ de G definido por

( m
! )
X
Uǫ := exp λk Lk , com |λi | < ǫ para todo i = 1, . . . , m ,
k=1
onde L1 , . . . , Lm formam uma base em LG .

Note-se
P que Vǫ é um subconjunto aberto Pmde LG . Note-se também que 1 ∈ Uǫ e que se g =
exp ( m λ
k=1 k kL ) ∈ Uǫ então g −1
= exp (− k=1 λk Lk ) ∈ Uǫ . Assim, se provarmos que Uǫ é aberto
poderemos usar a Proposição 15.3, página 884.
P
Se ǫ for pequeno o suficiente poderemos garantir que k m k=1 λk Lk kC < ln
P2 sempre que |λP
i | < ǫ para
todo i = 1, . . . , m e, pela Proposição 4.5, página 247, teremos ln (exp ( m λ L
k=1 k k )) = m
k=1 λk Lk .
Logo Uǫ é a imagem inversa pela função ln do conjunto aberto Vǫ . Como ln é uma função contı́nua
(Proposição 4.3, página 245) concluı́mos que Uǫ é igualmente aberto.
Logo, pela Proposição 15.3, cada elemento g de G pode ser escrito como um produto de n ele-
mentos de Uǫ : g = g1 · · · gn , onde gi = exp(li ) com li ∈ Vǫ . Agora, como a álgebra é nilpotente, vale
exp(l1 ) · · · exp(ln ) = exp(l1 ∗ · · · ∗ ln ). Com isso, fica demonstrada a seguinte afirmação: se G é um
subgrupo conexo fechado de GL(C, n) e se sua álgebra de Lie LG é nilpotente, então todo elemento
de G pode ser escrito como exponencial de um elemento de LG . Um exemplo dessa situação é o grupo
de Heisenberg GH3 , tratado à página 770.
Observação 1. O número n mencionado no último parágrafo pode não ser o mesmo para todo g ∈ G
(vide o enunciado da Proposição 15.3), podendo eventualmente crescer arbitrariamente quando g varia
no grupo. Porém, como a álgebra LG é nilpotente, o produto l1 ∗ · · · ∗ ln está sempre definido para
qualquer n.
Observação 2. Nas circunstâncias descritas acima, é fácil constatar que a função exponencial exp :
LG → G é um isomorfismo do grupo (LG , ∗) em G.
Grupos de Lie com álgebras de Lie nilpotentes não são os únicos grupos de Lie para os quais vale que
todo seu elemento pode ser escrito como exponencial de um elemento da sua álgebra de Lie. É possı́vel
mostrar que grupos de Lie compactos com álgebras de Lie semi-simples também têm essa propriedade.
Para uma demonstração vide, por exemplo, [132]. Vimos isso de modo explı́cito quando tratarmos dos
grupos SO(3), SU(2), SL(C, 2), SU(n) e SO(n) no Capı́tulo 14.
Para grupos de Lie não-conexos tipicamente ocorre que não se pode escrever todos os seus elementos
como exponenciais de elementos de sua álgebra de Lie. Tal é, por exemplo, o caso do grupo de Lie
GL(R, 2), cuja álgebra de Lie é Mat (R, 2). A exponencial de matrizes reais 2 × 2 é sempre formada
por matrizes com determinante positivo (pela Proposição 4.7, página 250), enquanto que GL(R, 2)
possui também matrizes com determinante negativo. Vide Proposição 4.10, página 252.
Porém, como veremos no exemplo discutido em detalhe à página 911, não basta que um grupo de
Lie seja conexo para que todos os seus elementos possam ser escritos como exponenciais de elementos
de sua álgebra de Lie. Em vários casos, todavia, os elementos do grupo podem ser escritos como um
produto finito de exponenciais. Tal também ocorre no exemplo da página 911.
Para um grupo de Lie conexo G é possı́vel, sob hipóteses adequadas que não discutiremos aqui,
construir um grupo de Lie simplesmente conexo a partir de sua álgebra de Lie, usando um procedi-
mento semelhante ao que empregamos quando discutimos acima o caso de álgebras de Lie nilpotentes.
Constrói-se primeiramente uma vizinhança U da identidade que seja simétrica (ou seja, se g ∈ U então
g −1 ∈ U) –por exemplo a vizinhança na qual a fórmula de Baker-Campbell-Hausdorff converge, no caso
de matrizes– e em seguida considera-se o conjunto formado por produtos finitos de elementos de U, o
chamado grupo gerado por U. Esse conjunto é em geral um grupo de Lie simplesmente conexo que é
um recobrimento do grupo original G.
15.4.3 Alguns Exemplos Especiais
• Um subgrupo conexo não-fechado de GL(C, 2)
Exibiremos aqui um exemplo de um sub-grupo conexo não-fechado de GL(C, 2) o qual é um grupo

de Lie mas não é um subgrupo de Lie de GL(C, 2). Isso significa que a topologia que faz desse subgrupo
Ha um grupo de Lie não é a topologia induzida por GL(C, 2) em Ha .
Esse exemplo é bastante instrutivo e ilustra o porquê de haver certas dificuldades sutis de natureza
topológica na teoria dos grupos de Lie (e na geometria diferencial, em geral).
O grupo em questão é o seguinte grupo de matrizes a um parâmetro real:

  

 

eit 0  
 
Ha := 
  , t ∈ R ,

 0 eiat 

onde a é um número real irracional fixo arbitrário. Para mostrar que esse grupo não é fechado,
vamos exibir uma seqüência convergente de matrizes de Ha que não converge a um elemento de Ha .
Considere
  + 1)π com n ∈ N. As matrizes de Ha correspondentes a esses valores de t são
tn = (2n
−1 0 
 . Sucede que, como a é irracional, os números complexos da forma ei2πa(2n+1) , com
 
0 ei2πa(2n+1)
n ∈ N, formam um conjunto denso em todo o cı́rculo unitário do plano complexo21 . Assim, existe uma
sub-seqüência nk tal que ei2πa(2nk +1) converge a −1 quando k → ∞. Isso mostra que a matriz −1 está
no fecho de Ha . Sucede, porém, que −1 6∈ Ha pois, para a irracional, não existe nenhum t real tal que
valham simultaneamente eit = −1 e eiat = −1 (prove isso). Isso mostra que Ha não é fechado.
 
eit 0 
Por outro lado, é claro que há uma aplicação bijetora de R em Ha dada por R ∋ t 7→ 

, a

0 eiat
qual induz a topologia usual de R em Ha , topologia essa na qual Ha é um grupo de Lie, como facilmente
se vê. Essa topologia não coincide com a topologia induzida em Ha pela norma de matrizes em Ha .
Há uma maneira geométrica de entender o que está acontecendo nesse grupo. Considere o seguinte
grupo de Lie de matrizes 2 × 2:
  

 

e it
0 
 
T := 
  , t, s ∈ R .

 0 eis 

Esse grupo de Lie (a dois parâmetros reais) pode ser visualizado como um toro bidimensional (pois é
o produto Cartesiano de dois cı́rculos: o cı́rculo eit com t ∈ R e o cı́rculo eis com s ∈ R). Cada grupo
Ha é um subgrupo de T e, nessa imagem, corresponde a uma curva (pois cada Ha é unidimensional)
que preenche densamente o toro sem auto-cruzamentos. Dessa forma entende-se que o fecho de Ha na
topologia da norma das matrizes é o grupo T .
Se imaginarmos um aberto no toro, veremos que este intercepta a curva que corresponde a Ha em
infinitos segmentos. Assim, Ha não é uma sub-variedade de T e, portanto, apesar de ser um subgrupo
de T , Ha não pode ser um subgrupo de Lie de T na topologia de T .
• Exponenciação e álgebras de Lie matriciais. Um contra-exemplo
21
O leitor para o qual esse fato não é familiar poderá encontrar demonstrações em bons livros sobre teoria de números,
por exemplo [58].
Vamos agora apresentar um exemplo de um grupo de Lie conexo no qual não podemos escrever
todos os seus elementos como exponenciais de elementos de sua álgebra de Lie, ou seja, a exponencial
de sua álgebra de Lie não é sobrejetora no grupo.
Seja α um número real irracional22 fixo. Vamos considerar o seguinte conjunto de matrizes comple-
xas 2 × 2:
Hα := {h(t, z), t ∈ R, z ∈ C} ,
onde  
it
e z 
h(t, z) := 

.
 (15.12)
0 eiαt
Afirmamos que Hα é um sub-grupo de GL(C, 2). De fato,
1 = h(0, 0) ∈ Hα ,
′
h(t, z)h(t′ , z ′ ) = h(t + t′ , zeiαt + z ′ eit ) ∈ Hα e
h(t, z)−1 = h(−t, −ze−i(1+α)t ) ∈ Hα .
Hα é um grupo de Lie conexo parametrizado por t ∈ R e z ∈ C. De fato, o grupo Hα é homeomorfo

à variedade conexa R × C. O homeomorfismo de R × C em Hα é dado pela função h definida em
(15.12), isto é, h : R × C → Hα ,
 
eit z 
(t, z) →
7 h(t, z) := 

.

0 eiαt
Claramente, h é contı́nua (certo?). Vamos mostrar que h é bijetora. Suponha que existam (t, z) e
(t′ , z ′ ) ∈ R × C tais que h(t, z) = h(t′ , z ′ ), ou seja,
   
′
eit z  eit z′ 
  =  .
   ′

0 eiαt 0 eiαt
Isso implica as três seguintes condições simultâneas:

′
eit = eit (15.13)
′
eiαt = eiαt (15.14)
z = z′ . (15.15)
22
Como veremos abaixo, é crucial para a construção desejada que α não seja racional.
As relações (15.13) e (15.14) implicam
t = t′ + 2πk e αt = αt′ + 2πl,
respectivamente, para k, l ∈ Z. Assim, multiplicando-se a primeira igualdade por α e subtraindo-se

da segunda, terı́amos
αk = l
para k, l ∈ Z. Mas isso é impossı́vel se α for um número irracional, a menos que k = l = 0. Com isso,
concluı́mos que t = t′ , fato esse que, juntamente com (15.15), prova que h é uma bijeção. Mais ainda,
é bem claro que h é infinitamente diferenciável e, portanto, é um difeomorfismo.
Vamos determinar os geradores de Hα , que denotaremos por λ1 , λ2 :
 

∂ i 0 
λ1 = h(t, z) = 

,

∂t t=z=0
0 iα
 

∂  0 1
λ2 = h(t, z) = 

.

∂z t=z=0
0 0
Um elemento genérico da álgebra de Lie L(Hα ) associada a Hα é, portanto, da forma

 
iτ w 
h(τ, w) := τ λ1 + wλ2 = 

,

0 iατ
com τ ∈ R e w ∈ C.
E. 15.13 Exercı́cio. Constate que [λ1 , λ2 ] = i(1 − α)λ2. Conclua daı́ que a álgebra de Lie L(Hα )
associada a Hα não é nilpotente, não é simples e não é semi-simples, mas é solúvel. 6
Vamos nos dedicar agora a calcular exp(h(τ, w)). É muito fácil provar que
 
2
(iτ ) w(iτ )(1 + α)
 
 
h(τ, w)2 = 



 
 
0 (iατ )2
e que  
(iτ )3 w(iτ )2 (1 + α + α2 )
 
 
h(τ, w) = 
3

.

 
 
0 (iατ )3
Por indução, vê-se também que

 n−1
!  
X 1 − αn
n n−1 p
(iτ ) w(iτ ) α  (iτ )
n n−1
w(iτ )

 p=0

  1−α  
   
h(τ, w)n =   = 

,

   
   
 
0 (iατ )n 0 (iατ )n
para todo n ≥ 1. Na última igualdade usamos a bem conhecida fórmula da progressão geométrica.
E. 15.14 Exercı́cio importante. Mostre isso! 6
Dessa forma, obtemos

X∞
1
exp(h(τ, w)) = 1 + h(τ, w)n
n=1
n!
 ∞ ∞ 
X 1 X 1 1 − α n
1 + (iτ )n w (iτ )n−1 
 n! n! 1 − α 
 n=1 n=1 
 
= 



 
 ∞
X 1 
 0 1+ (iατ )n 
n=1
n!
 
iτ
e wf (τ )
 
 
= 

,

 
 
0 eiατ
onde ∞
X 1 1 − αn
n−1
f (τ ) := (iτ ) .
n=1
n! 1−α
Vamos agora expressar melhor a função f (τ ). Note-se que f (0) = 1 e que, para τ = 6 0,
∞ ∞ ∞
!
X 1 1 − α n
1 X 1 X 1
(iτ )n−1 = (iτ )n−1 − α (iατ )n−1
n=1
n! 1 − α 1 − α n=1
n! n=1
n!

1 eiτ − 1 eiατ − 1
= −
1−α iτ iτ

1 eiτ − eiατ
=
1−α iτ

eiατ ei(1−α)τ − 1
= .
1−α iτ
Assim, 



 1, para τ = 0,



f (τ ) =

 i(1−α)τ



 eiατ e −1
 , para τ 6= 0
1−α iτ
e, finalmente,  
iτ
e wf (τ )
 
 
exp(h(τ, w)) = 

.
 (15.16)
 
 
0 eiατ
A questão que agora se põe é: será o conjunto de matrizes exp(L(Hα )) := {exp(h(τ, w)), τ ∈ R, w ∈ C}
2π
igual a Hα ? A resposta é não! Para provar isso mostraremos que as matrizes h 1−α , z com z 6= 0
não são elementos do conjunto exp(L(Hα )). Se tal não fosse o caso, existiriam τ ∈ R e w ∈ C tais que

2π
h , z = exp(h(τ, w)),
1−α
ou seja,    
2π
i 1−α iτ
e z  e wf (τ )
   
   
  =  .
   
   
 2πα
  
i 1−α iατ
0 e 0 e
Isso só é possı́vel se as seguintes três condições forem satisfeitas simultaneamente:

2π
ei 1−α = eiτ , (15.17)
2πα
ei 1−α = eiατ , (15.18)
z = wf (τ ). (15.19)
As condições (15.17) e (15.18) implicam

2π
τ = + 2πk
1−α
e
2πα
ατ = + 2πl,
1−α
respectivamente, com k, l ∈ Z. Das duas concluı́-se (multiplicando a primeira por α) que
2πkα = 2πl, ou seja, kα = l.
Porém, como α foi suposto ser um número irracional, isso só é possı́vel se k = l = 0. Portanto
2π
τ = .
1−α
Ocorre agora, porém, que inserindo-se esse valor de τ no lado direito de (15.19) obtemos
2πα 2π
! 2πi
2π ei 1−α ei(1−α) 1−α − 1 2πα
i 1−α e −1
wf = w 2π = we = 0
1−α 1−α i 1−α 2πi
e, conseqüentemente, (15.19) não pode ser satisfeita para z 6= 0.

Esse exemplo ilustra bem o fato mencionado de haver situações nas quais a imagem pela exponen-
ciação da álgebra de Lie L(G) associada a um grupo de Lie G não coincide com o grupo G.
E. 15.15 Exercı́cio. Seja um grupo de Lie simplesmente conexo G, cuja álgebra de Lie é L. Um
teorema devido a Dixmier [67] afirma, entre outras coisas, que exp(L) = G se exp for injetora. Mostre que
(τ, w) 7→ exp(h(τ, w)) definida em (15.16) não é injetora. 6
No exemplo acima vale, porém, a seguinte afirmação: todo elemento de Hα pode ser escrito como
produto de duas exponenciais de elementos da álgebra de Lie L(Hα ), a saber, da forma
exp(h(τ, 0)) exp(h(0, w)) .
De fato, é bem fácil ver que
    
eit z  eit 0  1 e−it z 

h(t, z) =      = exp(h(t, 0)) exp(h(0, e−it z)).
 =   
0 eiαt 0 eiαt 0 1
Capı́tulo 16
Uma Breve Introdução à Teoria das
Representações de Grupos
Conteúdo
16.1 Representações de Grupos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 917
16.2 Representações Irredutı́veis de SO(3) . . . . . . . . . . . . . . . . . . . . . 924
16.3 A Medida de Haar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 928
16.4 Representações de Grupos Compactos . . . . . . . . . . . . . . . . . . . . . 930
16.5 O Teorema de Peter-Weyl . . . . . . . . . . . . . . . . . . . . . . . . . . . . 931
G rupos desempenham um papel importante na Fı́sica em geral devido a sua relação com trans-
formações de simetria. Na Fı́sica Quântica (na Mecânica Quântica ou na Teoria Quântica de
Campos), onde o conjunto de estados puros de um sistema fı́sico é descrito por um espaço
linear, torna-se particulamente relevante estudar a ação de grupos de simetria em espaços
vetoriais. Essa é a motivação básica do estudo de representações de grupos.
16.1 Representações de Grupos

Uma representação de um grupo G em um espaço vetorial V é uma aplicação que a cada g ∈ G associa
um operador linear invertı́vel Π(g) : V → V de modo que as seguintes condições sejam satisfeitas:
1. Π(e) = 1.
2. Π(g)Π(h) = Π(gh), ∀g, h ∈ G.
3. Π(g −1 ) = Π(g)−1 , ∀g ∈ G.
Acima e é a unidade de G e 1 o operador identidade em V .

Há outras formas equivalentes de caracterizar ou definir o conceito de representação de um grupo.
Podemos dizer que uma representação de um grupo em um espaço vetorial V é um homomorfismo de
G no grupo dos operadores lineares invertı́veis de V em V , ou ainda, que é uma ação à esquerda de G
em V através de operadores lineares invertı́veis.
• A Representação Trivial
A representação que associa todo g ∈ G ao operador identidade em V , ou seja, tal que π(g) = 1,
∀g ∈ G, é denominada representação trivial.
917
• Intertwiners
Seja G um grupo e V1 , V2 dois espaços vetoriais (sobre o mesmo corpo) onde atuem duas repre-
sentações de G: Π1 e Π2 , respectivamente em V1 e V2 . Um operador U : V1 → V2 tal que
UΠ1 (g) = Π2 (g)U,
para todo g ∈ G, é dito ser um operador de entrelaçamento de Π1 e Π2 . Operadores de entrelaçamento

são mais freqüentemente designados intertwiners.
Voltaremos a falar sobre intertwiners quando tratarmos do importante Lema de Schur adiante.
• Representações Equivalentes
As duas representações são ditas equivalentes se existir um operador invertı́vel U : V1 → V2 tal que
UΠ1 (g) = Π2 (g)U
para todo g ∈ G, ou seja, se Π1 e Π2 possuı́rem um intertwiner invertı́vel.

É muito fácil mostrar que a equivalência de duas representações é uma relação de equivalência (no
sentido usual) e que, portanto, a classe de todas as representações de um grupo pode ser quebrada em
classes de representações equivalentes.
Um grupo pode ter várias representações distintas (e inequivalentes) em um mesmo espaço vetorial.
E. 16.1 Exercı́cio. Seja G = (R, +) e V = R2 . Mostre que

     
1 x  1 0 cos x − senx
T1 (x) := 

,
 T2 (x) := 


 e R(x) := 

,

0 1 x 1 senx cos x
x ∈ R, são três representações de G. Mostre que T1 e T2 são equivalentes (sugestão: tome U = ( 01 10 )).
Mostre que R e T1 (ou T2 ) não são equivalentes (sugestão: se o fossem, veja o que ocorreria para x = 2π).
6
• Sub-Espaços Invariantes
Seja G um grupo, V um espaço vetorial e Π uma representação de G em V . Seja V ′ um sub-espaço

de V . V ′ é dito ser um sub-espaço invariante por Π se Π(g)v ′ ∈ V ′ para todo v ′ ∈ V ′ e todo g ∈ G, ou
seja, se Π(G)V ′ ⊂ V ′ .
Qualquer representação possui sempre pelo menos dois sub-espaços invariantes: aquele formado
apenas pelo vetor nulo V ′ = {0} e aquele formado pelo espaço todo V ′ = V . Esses sub-espaços
invariantes são ditos triviais.
E. 16.2 Exercı́cio. 1. Mostre que a representação T1 , definida acima, tem um sub-espaço invariante de
dimensão 1, a saber, o sub-espaço formado pelos vetores da forma ( a0 ), a ∈ R. Mostre que nenhum outro
sub-espaço de dimensão 1 de R2 é invariante por T1 . 2. Mostre que a representação T2 , definida acima,

tem um sub-espaço invariante de dimensão 1, a saber, o sub-espaço formado pelos vetores da forma ( 0b ),
b ∈ R. Mostre que nenhum outro sub-espaço de dimensão 1 de R2 é invariante por T2 . 3. Mostre que a
representação R, definida acima, não tem nenhum sub-espaço invariante não-trivial. 6
E. 16.3 Exercı́cio. Verifique que as expressões abaixo definem representações de G = (R, +) em V = R4

e identifique seus sub-espaços invariantes.
     
1 x 0 0 1 x 0 0 cos x − senx 0 0 
     
     
0 1 0 0 0 1 0 0   senx cos x 0 0 
     
Π1 (x) = 

,
 Π2 (x) = 

,


Π3 (x) =  .

     
0 0 1 x 0 0 cos x − senx  0 0 cos x − senx
     
     
0 0 0 1 0 0 senx cos x 0 0 senx cos x
• Representações Irredutı́veis
De grande importância é o conceito de representação irredutı́vel de um grupo G em um espaço

vetorial V . Uma representação Π de um grupo G em um espaço vetorial V é dita ser irredutı́vel se os
seus únicos sub-espaços invariantes forem os triviais.
Uma representação que não é irredutı́vel é dita ser redutı́vel.
E. 16.4 Exercı́cio. Mostre que as representações T1 e T2 , definidas à página 918, são redutı́veis. Mostre
que a representação R é irredutı́vel. 6
Vamos supor que V seja um espaço de dimensão finita, digamos n, e que Π seja uma representação
de um grupo G em V que possua um sub-espaço invariante não-trivial V ′ (ou seja, Π é redutı́vel).
Seja m ≤ n a dimensão de V ′ . Então é possı́vel encontrar uma base em V tal que Π(g) possui a
representação matricial em blocos
 
π1 (g) α(g) 
Π(g) = 



0 π2 (g)
para todo g ∈ G, onde π1 (g) é uma matriz m × m, π2 (g) é uma matriz (n − m) × (n − m), e α(g) é
uma matriz m × (n − m).
Mostrar isso é bem simples, basta representar cada v ∈ V em uma base e1 , . . . , en , onde e1 . . . , em
formam uma base de V ′ .
O seguinte exercı́cio revela uma propriedade importante dos blocos π1 e π2 :
E. 16.5 Exercı́cio. Mostre que π1 e π2 definidos acima são também representações de G. 6

Uma representação Π de um grupo G em um espaço vetorial V é dita ser totalmente redutı́vel

se for redutı́vel e se V puder ser escrita como uma soma direta de sub-espaços invariantes por Π:
V = V1 ⊕ · · · ⊕ Vk . Em tal caso Π(g) pode ser escrita em uma base conveniente na forma de blocos
 
π1 (g) 
 
 
Π(g) =  .. 
 . 
 
 
πk (g)
para todo g ∈ G, onde cada πi (g) é uma representação de G agindo no espaço invariante Vi de Π. Em
um tal caso denotamos Π da forma Π = π1 ⊕ · · · ⊕ πk .
Particularmente importante é a situação em que Π é totalmente redutı́vel e cada πi é irredutı́vel.
Em tal caso dizemos que Π é maximalmente redutı́vel ou completamente redutı́vel.
E. 16.6 Exercı́cio. Sejam as representações T1 e T2 definidas à página 918. Mostre que T1 e T2 não são
totalmente redutı́veis. 6
E. 16.7 Exercı́cio. Sejam as representações Π1 , Π2 e Π3 definidas à página 919. Mostre que Π1 e Π2

são totalmente mas não maximalmente redutı́veis. Mostre que Π3 é maximalmente redutı́vel. 6
Nesse contexto a seguinte proposição é importante:

Proposição 16.1 Seja V um espaço vetorial complexo de dimensão finita, dotado de um produto
interno h·, · · · i, e seja Π uma representação de um grupo G por operadores unitários (em relação ao
produto interno). Então ou Π é irredutı́vel ou é maximalmente redutı́vel. 2
Para provar essa proposição, vamos antes demonstrar o seguinte lema, o qual tem importância por
si só, como veremos mais adiante.
Lema 16.1 Seja V um espaço vetorial complexo, dotado de um produto interno h·, · · · i, e seja Π uma
representação de um grupo G por operadores unitários (em relação ao produto interno). Se W é um
sub-espaço invariante por Π então seu complemento ortogonal W ⊥ (em relação ao produto interno)
também o é. 2
Prova. Como Π é unitário, vale Π(g)∗ = Π(g)−1 = Π(g −1) para todo g ∈ G. Seja w ′ ∈ W ⊥ e w ∈ W .
Então, para qualquer g ∈ G
hΠ(g)w ′, wi = hw ′, Π(g)∗ wi = hw ′ , Π(g −1 )wi = 0
pois Π(g −1 )w ∈ W , já que W é invariante, e w ′ é ortogonal e todo elemento de W . Como w é um

elemento arbitrário de W , isso mostrou que Π(g)w ′ ∈ W ⊥ para todo g ∈ G, provando assim que W ⊥ é
invariante.
Vamos agora provar a proposição. Se Π é unitária e é redutı́vel, então V possui um sub-espaço

invariante não trivial V1 e, pelo lema acima, V2 = V1⊥ é também invariante. Logo, Π é totalmente
redutı́vel, V = V1 ⊕ V2 e Π = π1 ⊕ π2 . Agora, é fácil ver que cada π1 é também uma representação
unitária (por quê?). Assim, podemos aplicar a mesma conclusão a cada πi e, se πi for redutı́vel,
podemos tornar a quebrar o sub-espaço Vi em sub-espaços invariantes ainda menores e πi em uma
soma de representações unitárias menores. Como a dimensão de V é finita, esse procedimento terá
forçosamente um fim e cada representação menor a que se chegar será forçosamente irredutı́vel.
E. 16.8 Exercı́cio. Mostre que as mesmas conclusões valem para representações ortogonais em espaços
vetoriais reais. 6
• Representações Irredutı́veis para Operadores
Um outro conceito importante é o seguinte. Uma representação Π de um grupo G em um espaço

vetorial V é dita ser irredutı́vel para operadores se valer a seguinte propriedade: os únicos operadores
A : V → V tais que
AΠ(g) = Π(g)A
para todo g ∈ G são da forma A = λ1, ou seja, são múltiplos da identidade.
Podemos nos perguntar qual a relação entre essa noção e a de representação irredutı́vel. Vamos
demonstrar adiante os seguintes fatos: 1) toda representação irredutı́vel complexa de dimensão finita
é irredutı́vel para operadores. 2) toda representação unitária que seja irredutı́vel para operadores é
também irredutı́vel.
Várias das conseqüências mais importantes da teoria das representações de grupos são extraı́das
dessas observações. Como vemos elas nos dizem que para representações unitárias complexas e de
dimensão finita (de particular interesse na fı́sica quântica) os conceitos de representação irredutı́vel e
representação irredutı́vel para operadores são coincidentes.
Vamos começar demonstrando a afirmação 2).
Proposição 16.2 Se Π é uma representação unitária que é irredutı́vel para operadores, então Π é
também irredutı́vel. 2
Prova. Vamos supor W seja um sub-espaço invariante por Π. Seja P o projetor sobre W . Então, 1 − P
é o projetor sobre W ⊥ , que é também invariante, pois Π é unitária. É evidente que
Π(g)P x = P Π(g)P x,
pois Π(g)P x ∈ W . Por outro lado, como x = P x + (1 − P )x, então
P Π(g)x = P Π(g)P x + P Π(g)(1 − P )x = P Π(g)P x,
pois P Π(g)(1 − P )x = 0, já que W ⊥ é invariante. Comparando-se, concluı́mos que Π(g)P x = P Π(g)x
para todo x e todo g ∈ G, ou seja,
Π(g)P = P Π(g)
para todo g ∈ G. Porém, como Π é irredutı́vel para operadores, isso só é possı́vel se P = λ1. Como
P 2 = P , tem-se λ = 0 ou λ = 1. No primeiro caso P = 0, no segundo, P = 1, ou seja, no primeiro
caso W = {0} e no segundo W é o espaço todo. Ora, isso diz precisamente que Π é irredutı́vel.
Vamos agora passar a demonstração da afirmação 1), acima. A mesma é corolário de um lema
algébrico de grande importância. O chamado lema de Schur1 .
• Lema de Schur
Lema 16.2 (Schur) Se Π1 e Π2 são duas representações irredutı́veis de um grupo G em espaços

vetoriais V1 e V2 , respectivamente, e A : V1 → V2 é um intertwiner de Π1 e Π2 , ou seja, AΠ1 (g) =
Π2 (g)A para todo g ∈ G, então ou A é invertı́vel ou A = 0. Caso A seja invertı́vel e V1 e V2 sejam
espaços vetoriais complexos de dimensão finita, então A e único, a menos de multiplicação por escalar.
2
Prova. Sejam
M1 := Ker(A) ⊂ V1
M2 := Ran(A) ⊂ V2
o núcleo e a imagem de A, respectivamente2 . É fácil ver que M1 e M2 são sub-espaços invariantes de Π1

e Π2 , respectivamente. De fato, se x ∈ M1 tem-se Ax = 0. Logo, AΠ1 (g)x = Π2 (g)Ax = 0, provando
que Π1 (g)x ∈ M1 para todo g ∈ G, ou seja, M1 é invariante por Π1 . Analogamente, se y ∈ M2 temos
que y = Ax para algum x ∈ V1 . Assim, Π2 (g)y = Π2 (g)Ax = AΠ1 (g)x ∈ Ran(A), mostrando, assim,
que M2 é invariante por Π2 .
Pelas hipóteses do lema, Π1 e Π2 são irredutı́veis e só possuem sub-espaços invariantes triviais.
Valem, portanto, os seguintes quatro casos apenas:
1. M1 = V1 e M2 = V2 .
2. M1 = {0} e M2 = V2 .
3. M1 = V1 e M2 = {0}.
4. M1 = {0} e M2 = {0}.
Os casos 1 e 4 são impossı́veis: se Ker(A) = V1 não se pode ter Ran(A) = V2 ; se Ker(A) = {0} não se
pode ter Ran(A) = {0}. Assim, valem apenas os casos 2 e 3. No caso 2 tem-se que A é invertı́vel. No
caso 3, tem-se que A = 0.
Resta-nos provar que, caso A seja invertı́vel e V1 e V2 sejam espaços vetoriais complexos de dimensão
finita, então A é único, a menos de multiplicação por escalar. Se A é invertı́vel, então a dimensão de
1
Issai Schur (1875-1941).
2
Para os esquecidos, Ker(A) := {x ∈ V1 | Ax = 0}. Ran(A) := {y ∈ V2 | y = Ax para algum x ∈ V1 }.
V1 é igual à de V2 e A pode ser visto como uma matriz quadrada. Seja B um outro intertwiner de Π1 e
Π2 . Então, para qualquer λ ∈ C tem-se (A − λB)Π1 (g) = Π2 (g)(A − λB). Portanto, ou (A − λB) = 0
ou é invertı́vel. Podemos, porém, escolher λ de modo que det(A − λB) = 0. Isso é sempre possı́vel, pois
det(A − λB) é um polinômio em λ e polinômios sempre têm raı́zes complexas. Para uma tal escolha
de λ, a matriz A − λB não é invertı́vel e, portanto, é nula e A = λB.
O Lema de Schur tem várias conseqüências importantes. A primeira é o seguinte:

Corolário 16.1 Se Π é uma representação irredutı́vel complexa de dimensão finita de um grupo G
então Π é irredutı́vel para operadores. 2
Prova. Seja A tal que AΠ(g) = Π(g)A para todo g ∈ G. Sabemos também que 1Π(g) = Π(g)1,
trivialmente. Pela unicidade afirmada no Lema de Schur, A = λ1.
Outro corolário importante é o seguinte:

Corolário 16.2 As representações irredutı́veis complexas de dimensão finita de um grupo Abeliano
são unidimensionais. 2
Prova. Se G é Abeliano e Π uma representação de G, vale Π(h)Π(g) = Π(g)Π(h) para quaisquer

g, h ∈ G. Assim, se Π é irredutı́vel complexa e de dimensão finita, segue do corolário anterior que
Π(h) = λ(h)1, ou seja, Π(h) é uma matriz diagonal com λ(h) na diagonal. Como Π é irredutı́vel, a
dimensão do espaço só pode ser igual a 1.
• Exemplos
E. 16.9 Exercı́cio. Mostre que as representações irredutı́veis complexas de dimensão finita do grupo
ZN , N ≥ 2, são
2πik
Πk (a) = exp a ,
N
a ∈ ZN , k = 0, , . . . N − 1. 6
SO(2) são
Πp (φ) = exp (ipφ) ,
φ ∈ [0, 2π), p ∈ Z. 6
Note que o grupo SO(2) tem representações irredutı́veisreais que não sãounidimensionais. Por
 cos(φ) − sen(φ)
exemplo, aquela que define o próprio grupo SO(2): R(φ) = 

, φ ∈ [0, 2π).

sen(φ) cos(φ)
(R, +) são
Πz (x) = exp (zx) ,
x ∈ R, z ∈ C. 6
E. 16.12 Exercı́cio. Mostre que as representações irredutı́veis unitárias de dimensão finita do grupo
(R, +) são
Πk (x) = exp (ikx) ,
x ∈ R, k ∈ R. 6
(R+ , ·) são
Πz (x) = exp (z ln(x)) =: xz ,
x ∈ R+ , z ∈ C. 6
E. 16.14 Exercı́cio. Mostre que as representações irredutı́veis unitárias de dimensão finita do grupo
(R+ , ·) são
Πk (x) = exp (ik ln(x)) = xik ,
x ∈ R+ , k ∈ R. 6
16.2 Representações Irredutı́veis de SO(3)

Um capı́tulo importante das aplicações da teoria de grupos à Fı́sica envolve a classificação das repre-
sentações irredutı́veis de dimensão finita (unitárias ou ortogonais) do grupo de rotações SO(3).
Como já vimos, o grupo SO(3) é formado por matrizes da forma R(θ, ~η) = exp(θ~η · J), ~ onde
3
θ ∈ [0, 2π), ~η ∈ R é um vetor unitário e J1 , J2 , J3 são matrizes 3 × 3 tais que [Ja , Jb ] = ǫabc Jc . As
matrizes Ja são geradores de sub-grupos uniparamétricos R1 , R2 e R3 de SO(3), representando rotações
em torno dos eixos 1, 2 e 3, respectivamente.
É fácil concluir que se Π é uma representação de dimensão finita de SO(3), Π é da forma
~
Π(R(θ, ~η )) = exp(θ~η · Π(J)),
onde Π(J1 ), Π(J2 ), Π(J3 ) são matrizes tais que [Π(Ja ), Π(Jb )] = ǫabc Π(Jc ) e que são os geradores da
representação por Π dos sub-grupos uniparamétricos R1 , R2 e R3 .
Vamos definir La = iΠ(Ja ). Ficamos com
~
Π(R(θ, ~η )) = exp(−iθ~η · L), (16.1)
com [La , Lb ] = iǫabc Lc .
É importante notar que se Π(g) é unitária para todo g ∈ SO(3), então cada La é auto-adjunta:
L∗a = La .
• Operador de Casimir
Um fato muito importante, válido para qualquer representação de SO(3) como acima, é que a matriz
denotada por L2 e definida por
L2 = L21 + L22 + L23
comuta com todos os três geradores La : [L2 , La ] = 0, para todo a = 1, 2, 3.
E. 16.16 Exercı́cio muito importante. Verifique essa afirmação. Sugestão: prove (e use) a identidade
[A2 , B] = A[A, B] + [A, B]A, válida para quaisquer matrizes n × n A e B. 6
Um operador com essa propriedade, a de comutar com todos os geradores de uma álgebra de Lie, é
dito ser um operador de Casimir. Por um teorema devido a Racah, L2 é o único operador de Casimir
de SO(3) (os demais são combinações lineares de potências de L2 ). A importância dos operadores de
Casimir é a seguinte. Como L2 comuta com cada La , segue facilmente de (16.1) que L2 Π(g) = Π(g)L2
para todo g ∈ SO(3). Assim, pelo Lema de Schur, se Π é uma representação irredutı́vel, L2 deve ser um
múltiplo da identidade. Isso abre o caminho para classificar as representações irredutı́veis de SO(3):
estudando os possı́veis autovalores de L2 . Em cada sub-espaço formado por autovetores com um dado
autovalor fixo, teremos uma representação irredutı́vel.
• Autovalores de L2
Sejam La , a = 1, 2, 3, matrizes complexas auto-adjuntas agindo em um espaço vetorial de dimensão

finita, satisfazendo [La , Lb ] = iǫabc Lc e L2 definida como acima. Vamos estudar os possı́veis autovalores
de L2 .
Comecemos mostrando que os autovalores de L2 são números reais não-negativos. Seja Ψ um
autovetor de L2 com autovalor λ: L2 Ψ = λΨ. Então,
λhΨ, Ψi = hΨ, L2 Ψi = hΨ, L21 Ψi + hΨ, L22 Ψi + hΨ, L23 Ψi = hL1 Ψ, L1 Ψi + hL2 Ψ, L2 Ψi + hL3 Ψ, L3 Ψi.
Na última igualdade usamos o fato que L∗a = La . Como hLa Ψ, La Ψi ≥ 0, concluı́mos que λ ≥ 0, como
querı́amos.
Todo número λ ≥ 0 pode ser escrito na forma λ = l(l + 1) com l ≥ 0. Por futura conveniência,
escreveremos doravante os autovalores de L2 na forma l(l + 1) com l ≥ 0.
Recordemos agora o fato que, como [L2 , L3 ] = 0, podemos escolher uma base ortogonal formada
por vetores que são simultaneamente autovetores de L2 e L3 . Denotaremos esses vetores por Ψl,m ,
tendo-se L2 Ψl,m = l(l + 1)Ψl,m e L3 Ψl,m = mΨl,m . Iremos em breve fazer uso dessa base.
É conveniente definir L± = L1 ± iL2 . Tem-se que L∗± = L∓ . Como L1 = (L+ + L− )/2 e L2 =
(L+ − L− )/(2i), podemos reescrever as relações algébricas [La , Lb ] = iǫabc Lc em termos de L± e L3 .
Obtemos
[L3 , L± ] = ±L± , (16.2)
[L+ , L− ] = 2L3 . (16.3)

Fora isso,
L2 = L+ L− + L3 (L3 − 1) , (16.4)
L2 = L− L+ + L3 (L3 + 1) . (16.5)
E. 16.17 Exercı́cio muito importante. Prove as relações acima. 6
Vamos usar essas relações para provar vários fatos sobre os autovalores de L2 e L3 . De (16.5) tem-se
L− L+ ψl,m = [l(l + 1) − m(m + 1)]ψl,m = (l − m)(l + m + 1)ψl,m . (16.6)
De (16.4) tem-se
L+ L− ψl,m = [l(l + 1) − m(m − 1)]ψl,m = (l + m)(l − m + 1)ψl,m . (16.7)
Assim,
hψl,m , L− L+ ψl,m i = (l − m)(l + m + 1)kψl,m k2 (16.8)
e
hψl,m , L+ L− ψl,m i = (l + m)(l − m + 1)kψl,m k2 . (16.9)
Porém, como L∗± = L∓ , segue que
hψl,m , L− L+ ψl,m i = hL+ ψl,m , L+ ψl,m i ≥ 0 e hψl,m , L+ L− ψl,m i = hL− ψl,m , L− ψl,m i ≥ 0.
Logo, concluı́mos de (16.8) e de (16.9) que
(l − m)(l + m + 1) ≥ 0, (16.10)
(l + m)(l − m + 1) ≥ 0. (16.11)
De (16.10), segue que

a) l − m ≥ 0 e l + m + 1 ≥ 0, ou
b) l − m ≤ 0 e l + m + 1 ≤ 0.
No caso b) se somarmos ambas as desigualdades teremos 2l + 1 ≤ 0. Isso é impossı́vel, pois l ≥ 0.
Assim, vale a) que, em particular, diz que m ≤ l. Por (16.11), isso implica l + m ≥ 0, ou seja, m ≥ −l.
Concluı́mos então que
−l ≤ m ≤ l. (16.12)
Assim, para cada l, os valores de m não podem ser maiores que l nem menores que −l.
Vamos agora provar a seguinte proposição, que utilizaremos logo abaixo.
Proposição 16.3 Seja ψl,m um autovetor de L2 e de L3 com autovalores l(l + 1) e m, respectivamente.
Então se L+ ψl,m = 0 segue que m = l. Analogamente, se L− ψl,m = 0 segue que m = −l. 2
Prova. Se L+ ψl,m = 0 segue, evidentemente, que L− L+ ψl,m = 0. Por (16.6) isso implica (l − m)(l + m +
1) = 0. Assim, ou m = l ou m = −(l + 1). Esse último caso é proibido por (16.12) e, portanto, m = l.
Se L− ψl,m = 0 segue, evidentemente, que L+ L− ψl,m = 0. Por (16.7) isso implica (l + m)(l − m + 1) = 0.
Assim, ou m = −l ou m = l + 1. Esse último caso é proibido por (16.12) e, portanto, m = −l.
Vamos agora prosseguir tentando estabelecer mais alguns fatos sobre os possı́veis valores de l e m.
Usando as relações de comutação entre L3 e L+ , é fácil ver que
L3 L+ ψl,m = [L3 , L+ ]ψl,m + L+ L3 ψl,m = (m + 1)L+ ψl,m .
Analogamente, usando as relações de comutação entre L3 e L− , tem-se
L3 L− ψl,m = [L3 , L− ]ψl,m + L− L3 ψl,m = (m − 1)L− ψl,m .
Essas duas relações dizem-nos que L± ψl,m é um autovetor de L3 com autovalor m ± 1. Note-se que,
como L2 comuta com L± , tem-se também L2 L± ψl,m = l(l + 1)L± ψl,m . Assim, aplicar o operador L± a
ψl,m aumenta (diminui) de uma unidade o autovalor de L3 sem alterar o de L2 .
Percebemos disso que caso m = l teremos L3 L+ ψl, l = (l + 1)L+ ψl, l o que, em função de (16.12), só
é possı́vel se L+ ψl, l = 0. Analogamente, caso m = −l teremos L3 L− ψl, −l = −(l + 1)L− ψl, −l o que, em
função de (16.12), só é possı́vel se L− ψl, −l = 0. Junto com a Proposição 16.3 isso conduz ao
Corolário 16.3 Seja ψl,m um autovetor não-nulo de L2 e de L3 com autovalores l(l + 1) e m, respec-
tivamente. Então tem-se L+ ψl,m = 0 se e somente se m = l. Analogamente, L− ψl,m = 0 se e somente
se m = −l. 2
Precisamos mostrar que existem autovetores não-nulos de L3 com autovalores ±l. Certamente
existe um autovetor não-nulo ψl,m para algum m satisfazendo (16.12). Pelo que vimos acima, Lp+ ψl,m
é um autovetor de L3 com autovalor m + p. Suponhamos que m < l e seja p0 ≥ 0 o maior inteiro
não-negativo tal que m + p0 ≤ l. Então m + p0 + 1 > l, o que implica que 0 = Lp+0 +1 ψl,m = L+ Lp+0 ψl,m .
Pelo corolário 16.3 isso implica que ou Lp+0 ψl,m é nulo ou é autovetor de L3 com autovalor l. Se p0 = 0
então ψl,m 6= 0, por hipótese. Se p0 > 0, então, caso Lp+0 ψl,m = 0, concluirı́amos também pelo corolário
p0 −1
16.3 que L+ ψl,m é autovetor não-nulo de L3 com autovalor l. A repetição desse argumento conduz à
conclusão que há um autovetor não-nulo de L3 com autovalor l. Analogamente, conclui-se que existe
autovetor não-nulo de L3 com autovalor −l.
Estamos agora preparados para chegar a uma importante conclusão sobre os possı́veis valores de l,
a saber, que l só pode assumir valores inteiros ou semi-inteiros.
Ao aplicarmos repetidamente o operador L+ , ao vetor não-nulo ψl,−l obtemos sucessivos vetores
Lp+ ψl,−l
com autovalores −l + p de L3 . Chegará um momento em que a desigualdade −l ≤ m ≤ l será
violada, ou seja, existe p tal que Lp+1
+ ψl,−l seria o primeiro autovetor de L3 com autovalor maior que
l. Como isso é impossı́vel, segue que Lp+1 p
+ ψl,−l = 0 e L+ ψl,−l deve ser autovetor de L3 com autovalor
p
máximo l. Mas o autovalor de L3 em L+ ψl,−l é −l + p. Logo −l + p = l, ou seja, 2l = p. Como p é um
número inteiro, segue que l é ou um inteiro (caso p seja par) ou um semi-inteiro (caso p seja ı́mpar).
Como os autovalores m são da forma −l + p, para p inteiro, segue que m será inteiro se l o for ou
semi-inteiro, caso l o seja.
A conclusão importante é que os autovalores de L2 são números da forma l(l + 1) com l ≥ 0 inteiro
ou semi-inteiro. Cada representação irredutı́vel de SO(3) é caracterizada por um autovalor de L2 e
podemos, portanto, classificar as representações irredutı́veis de SO(3) pelo ı́ndice l: Πl . Esse fato é de
grande importância na Fı́sica Quântica pois os números l(l + 1) e m são associados aos autovalores dos
operadores de momento angular L2 e L3 .
• Elementos de Matriz dos Geradores L1 , L2 e L3
É possı́vel fixar a forma dos geradores La em cada representação irredutı́vel Πl . Para isso, escolhemos
como base os 2l +1 vetores ψl,m com −l ≤ m ≤ l. Nessa base L3 é diagonal tendo elemento de matriz m
na m-ésima posição da diagonal. Para obter os elementos de matriz de L1 e L2 , obtemos primeiramente
os elementos de matriz de L± . Os mesmos podem ser fixados a partir de (16.8)-(16.9), que nos dizem
que,
kL+ ψl,m k2 = (l − m)(l + m + 1) = [l(l + 1) − m(m + 1)] (16.13)
e
kL− ψl,m k2 = (l + m)(l − m + 1) = [l(l + 1) − m(m − 1)] (16.14)
para kψl,m k = 1. Sabemos que L± ψl,m deve ser múltiplo de ψl,m±1 . Com as relações acima, podemos
convencionar (fixando os fatores de fase como sendo iguais a 1)
p
L+ ψl,m = l(l + 1) − m(m + 1) ψl, m+1 ,
p
L− ψl,m = l(l + 1) − m(m − 1) ψl, m−1 .
Isso fornece os elementos de matriz de L± na base ψl,m e com os mesmos podemos obter os elementos
de matriz de L1 e L2 .
E. 16.18 Exercı́cio. Obtenha explicitamente as matrizes L1 , L2 e L3 nos casos l = 1/2, l = 1 e l = 3/2.

No primeiro caso, obtêm-se, a menos de um fator 1/2, as matrizes de Pauli. 6
Com as expressões acima,é até mesmo possı́vel escrever de modo mais explı́cito a forma das repre-
~
sentações Πl (R(θ, ~η)) = exp −iθ~η · L .
16.3 A Medida de Haar

Seja G um grupo finito e seja f : G → C uma função que a cada elemento g do grupo associa um
número complexo f (g). Podemos definir a média de f em G por
1 X
µ(f ) := f (g),
#G g∈G
onde #G é o número de elementos de G.

Essa noção de média de uma função em um grupo finito possui algumas propriedades importantes.
Seja h um elemento fixo mas arbitrário de G e definamos as funções fhe (g) := f (hg), fhd (g) := f (gh) e
f i (g) = f (g −1). Então vale que para qualquer h ∈ G
µ(fhe ) = µ(fhd ) = µ(f i ) = µ(f ),
ou seja, a média é invariante por multiplicação à direita ou à esquerda por elementos de G ou pela
inversão do argumento de f .
Note-se também que a média acima foi normalizada de modo que se f (g) = 1 para todo g ∈ G,
então µ(f ) = 1. Por fim, note-se também que a média acima é positiva: se f ≥ 0 então µ(f ) ≥ 0. Fora
isso, se f ≥ 0 e µ(f ) = 0, então f (g) = 0 para todo g ∈ G.
Grupos finitos não são os únicos a possuir médias invariantes positivas. Vamos a alguns exemplos.
Para o grupo SO(2) podemos definir
Z 2π
1
µ(f ) = f (θ)dθ,
2π 0
caso a integral seja finita. É fácil ver que as propriedades de invariância observadas no caso de grupos
finitos são válidas aqui também, inclusive a normalização e a positividade. Para o grupo (R, +)
podemos definir Z ∞
µ(f ) = f (x)dx,
−∞
caso a integral seja finita. Como se vê essa média é positiva, invariante por translações f (x) → f (x + y)
e pela troca do argumento da f por seu inverso: f (x) → f (−x), em analogia ao caso de grupos finitos.
Note-se, porém, que essa média não pode ser normalizada, pois o grupo não é compacto. Outro exemplo
é o grupo (R+ , ·). Aqui a média invariante é
Z ∞
1
µ(f ) = f (x) dx,
0 x
caso a integral seja finita.
E. 16.20 Exercı́cio. Mostre que essa média é invariante por f (x) → f (xy), y ∈ R+ , e por f (x) →
f (1/x). 6
Novamente, note-se que essa média não é normalizada, pois R+ não é compacto.
Podemos nos perguntar, quais grupos possuem médias invariantes positivas como nos exemplos
acima? Uma resposta parcial foi dada por Haar3 . O teorema de Haar afirma que se G é um grupo
compacto então existe uma medida de integração dµ(g) em G, denominada medida de Haar, tal que se
a média Z
µ(f ) = f (g)dµ(g)
G
é bem definida, então tem-se
Z Z Z Z
f (g)dµ(g) = f (hg)dµ(g) = f (gh)dµ(g) = f (g −1)dµ(g)
G G G G
R R
para todo h ∈ G. ForaR isso, a média é normalizada: G dµ(g) = 1 e positiva: se f ≥ 0 então G
f dµ ≥ 0
sendo que se f ≥ 0 e G f dµ = 0, então f (g) = 0 para quase todo g ∈ G.
3
Alfréd Haar (1885-1933).
O teorema de Haar pode ser parcialmente extendido para grupos localmente compactos (como
(R, +) e (R+ , ·)): Se G é localmente compacto existem medidas positivas de integração dµe (g) e
dµd (g) em G tais que
Z Z Z
e
f (g)dµ (g) = e
f (hg)dµ (g) = f (g −1 )dµe (g)
G G G
e Z Z Z
d
f (g)dµ (g) = d
f (gh)dµ (g) = f (g −1)dµd (g),
G G G
para quaisquer h ∈ G. Ou seja, existem uma medida invariante à esquerda e uma outra invariante
à direita. Em alguns casos essas medidas coincidem (por exemplo, para grupos Abelianos), mas tal
nem sempre é o caso para grupos não-Abelianos. Note que no caso de grupos compactos a medida
invariante à esquerda e a medida invariante à direita também coincidem. No caso de grupos localmente
compactos nem sempre se pode normalizar as medidas invariantes.
Na presente versão destas notas não iremos nos estender mais no estudo da medida de Haar. O
estudante é convidado aqui a procurar os clássicos do assunto (p.e. “The Haar Measure”, de Leopoldo
Nachbin4 ). Como veremos, a medida de Haar de grupos compactos desempenha um papel muito
importante no estudo das representações desses grupos.
16.4 Representações de Grupos Compactos

Seja G um grupo compacto e seja dµ sua medida invariante. Vamos supor que Π seja uma representação
de G em um espaço vetorial complexo V no qual esteja definido um produto escalar h·, ·i. Com o uso
de Π e dµ podemos definir em V um outro produto escalar h·, ·iG por
Z
hx, yiG := hΠ(g)x, Π(g)yi dµ(g),
G
x, y ∈ V .
O fato importante sobre esse produto escalar é o seguinte: para todo h ∈ G e todo x, y ∈ V
hΠ(h)x, Π(h)yiG = hx, yiG .
No caso de V ser um espaço vetorial complexo de dimensão finita, essa última igualdade afirma que
cada Π(h) é um operador unitário em relação ao produto escalar h·, ·iG .
Como conseqüência, temos a seguinte
Proposição 16.4 Toda representação de um grupo compacto em um espaço vetorial complexo de di-
mensão finita é equivalente a uma representação unitária e, conseqüentemente, é ou irredutı́vel ou
maximalmente redutı́vel. 2
4
Leopoldo Nachbin (1922-1993). Vide http://www.dmm.im.ufrj.br/doc/nachbin.htm
Mais forte é o seguinte teorema, que não provaremos aqui:

Teorema 16.1 Toda representação de um grupo compacto é equivalente a uma soma direta de repre-
sentações irredutı́veis de dimensão finita.
Esse teorema nos diz que no caso de grupos compactos as representações irredutı́veis de dimensão
finita são os tijolos com os quais se constroem todas as representações.
Note-se que o teorema acima afirma que toda representação de um grupo compacto Abeliano é
equivalente a uma soma direta de representações de dimensão 1.
16.5 O Teorema de Peter-Weyl

Um dos resultados mais profundos da teoria de representações de grupos compactos é um teorema sobre
a ortogonalidade das representações irredutı́veis unitárias que em vários aspectos generaliza o célebre
teorema de Fourier5 da Análise Harmônica. Como veremos, esse teorema é também um corolário do
Lema de Schur.
• O Teorema de Peter-Weyl. Relações de Ortogonalidade
Dentro da coleção de todas as representações unitárias de dimensão finita de um grupo compacto

(ou finito) G podemos estabelecer uma relação de equivalência, como já observamos, dizendo que duas
representações são equivalentes se possuı́rem um intertwiner invertı́vel. Podemos tomar em cada classe
um representante Πα e formar assim uma coleção {Πα , α ∈ Λ}, de todas as representações unitárias de
dimensão finita não-equivalentes entre si do grupo compacto (ou finito) G. Acima Λ designa o conjunto
de ı́ndices que rotulam as representações.
Cada Πα age em um espaço vetorial complexo Vα . No que segue designaremos por dα a dimensão
de Vα .
O importante teorema de Peter6 e Weyl7 afirma que os elementos de matriz Πα (g)ij , i, j = 1, . . . , dα
são ortogonais entre si em relação ao produto escalar definido pela medida de Haar do grupo compacto
(ou finito) G. Mais que isso, elas formam uma base ortogonal completa no espaço de Hilbert L2 (G, dµ).
Teorema 16.2 Seja {Πα , α ∈ Λ} a coleção de todas as representações unitárias irredutı́veis de di-
mensão finita não-equivalentes entre si de um grupo compacto (ou finito) G. Sejam Πα (g)ij , i, j =
1, . . . , dα seus elementos de matriz. Seja dµ a medida de Haar de G. Então
Z
1
Πα (g)ij Πβ (g)kl dµ(g) = δαβ δik δjl . (16.15)
G dα
Por fim, as funções Πα (g)ij , i, j = 1, . . . , dα formam uma base ortogonal completa no espaço de Hilbert
5
6
F. Peter (?).
7
Hermann Klaus Hugo Weyl (1885-1955).
L2 (G, dµ). Com isso, toda função f ∈ L2 (G, dµ) pode ser escrita na forma
dα
X X
f (g) = aαij Πα (g)ij ,
α∈Λ i, j=1
onde Z
aαij = dα Πα (g)ij f (g) dµ(g).
G
Finalmente, para f ∈ L (G, dµ) vale a identidade de Parseval8 :

2
Z X 1 X dα
α 2
|f (g)|2 dµ(g) = a .
ij
G α∈Λ
d α i, j=1
As relações acima afirmam que as funções Πα (g)ij , i, j = 1, . . . , dα são ortogonais em relação ao

Rproduto escalar
1
P definido pela medida de Haar. No caso de G ser um grupo finito devemos substituir
G
dµ → #G g∈G , de modo que, por exemplo, as relações de ortogonalidade ficam
1 X α 1
Π (g)ij Πβ (g)kl = δαβ δik δjl .
#G g∈G dα
Prova. Demonstraremos aqui as relações de ortogonalidade. Como veremos a prova das mesmas faz
belo uso do Lema de Schur.

Seja E [i, j] a matriz dα × dβ tal que seu elemento de matriz ab seja E [i, j] ab = δia δjb. Aqui i ∈
{1, . . . , dα } e j ∈ {1, . . . , dβ }. Considere-se a matriz
Z
A[i, j]
:= Πα (g −1) E [i, j] Πβ (g) dµ(g)
G
Z
= Πα (g)∗ E [i, j] Πβ (g) dµ(g).
G
Usando as propriedades de invariância da medida dµ, é fácil provar que
Πα (h) A[i, j] = A[i, j] Πβ (h)
para todo h ∈ G. (Exercı́cio!). Pelo Lema de Schur, ou A[i, j] = 0 ou A[i, j] é invertı́vel. No caso de
termos α 6= β, sabemos, por construção, que Πα e Πβ são inequivalentes. Portanto, nesse caso temos
forçosamente A[i, j] = 0. Isso obviamente implica que todos os elementos de matriz de A[i, j] são nulos,
8
Marc-Antoine Parseval des Chênes (1755-1836). Parseval deduziu esta identidade no contexto das séries de Fourier,
que correspondem aqui ao caso do grupo SO(2).
ou seja,
XZ
0 = [i, j]
A ab
= Πα (g)∗ak E [i, j] kl
Πβ (g)lb dµ(g)
k, l G
XZ
= Πα (g)∗ak δik δjl Πβ (g)lb dµ(g)
k, l G
Z
= Πα (g)∗aiΠβ (g)jb dµ(g)
G
Z
= Πα (g)iaΠβ (g)jb dµ(g).
G
Note que essa relação vale para α 6= β mas i, j, a, b arbitrários. Isso provou (16.15) para α 6= β.
Vamos agora tratar o caso em que α = β. Nesse caso, como vimos Πα (h) A[i, j] = A[i, j] Πα (h) para
todo h ∈ G. Aqui A[i, j] são matrizes dα × dα . Pelo Corolário 16.1, A[i, j] = λ[i, j] 1. Vamos determinar
as constantes λ[i, j] . Por um lado, tomando-se o traço de A[i, j] tem-se Tr(A[i, j] ) = dα λ[i, j] . Por outro
lado, pela definição de A[i, j] tem-se
Z

Tr A [i, j]
= Tr Πα (g −1 ) E [i, j] Πα (g) dµ(g)
G
Z

= Tr Πα (g)Πα (g −1) E [i, j] dµ(g)
G
Z

= Tr E [i, j] dµ(g)
G
Z
= δij dµ(g)
G
= δij ,

pois Tr E [i, j] = δij . Logo,
1
λ[i, j] = δij .
dα
Assim, Z
1
δij 1 = A[i, j] = Πα (g)∗ E [i, j] Πα (g) dµ(g).
dα G
Considerando-se o elemento de matriz ab de ambos os lados da última expressão, tem-se

1 XZ
δij δab = Πα (g)∗ak E [i, j] kl Πα (g)lb dµ(g)
dα k, l G
XZ
= Πα (g)∗ak δik δjl Πα (g)lb dµ(g)
k, l G
Z
= Πα (g)∗ai Πα (g)jb dµ(g)
G
Z
= Πα (g)ia Πα (g)jb dµ(g).
G
Isso prova (16.15) para α = β, completando a prova das relações de ortogonalidade.

A demonstração que as funções Πα (g)ij formam uma base ortogonal completa em L2 (G, dµ) não
será apresentada na presente versão destas notas. As demais afirmações são conseqüência das relações
de ortogonalidade.
• Caráteres e Funções Centrais
Dada uma representação Π de dimensão finita de um grupo G, define-se o caráter de Π como sendo
a função
χΠ (g) := Tr (Π(g)) , g∈G
Um fato relevante sobre caráteres é a seguinte identidade:

χΠ (hgh−1 ) = Tr Π(hgh−1 ) = Tr Π(h)Π(g)Π(h−1 ) = Tr Π(h−1 )Π(h)Π(g) = Tr (Π(g)) = χΠ (g)
para quaisquer g, h ∈ G. Isso sugere a seguinte definição: uma função f : G → C é dita ser central
se f (g) = f (hgh−1) para todos g, h ∈ G. Equivalentemente, podemos definir funções centrais como
sendo as funções tais que f (gh) = f (hg) para todos g, h ∈ G.
E. 16.22 Exercı́cio. Mostre a equivalência dessas definições. 6
Caráteres são funções centrais. Das relações (16.15), tomando-se i = j, k = l e somando-se nesses
ı́ndices, obtêm-se facilmente que os caráteres χα das representações irredutı́veis unitárias de dimensão
finita Πα satisfazem as seguintes relações de ortogonalidade:
Z
χα (g)χβ (g) dµ(g) = δαβ .
G
Como conseqüência do Teorema de Peter-Weyl podemos igualmente provar que os caráteres das
representações irredutı́veis unitárias de dimensão finita formam uma base ortogonal no espaço de Hilbert
das funções centrais de quadrado integrável de um grupo finito ou compacto. Não apresentaremos a
demonstração aqui. Notemos apenas que no caso do grupo SO(2) os caráteres das representações
irredutı́veis unitárias de dimensão finita são χp (θ) = eipθ , p ∈ Z. Assim, a afirmação de acima, que os
caráteres formam uma base no espaço das funções centrais de quadrado integrável, é nesse contexto
um bem conhecido resultado da teoria das séries de Fourier.
• Classe de Conjugação
Seja G um grupo. Podemos estabelecer uma relação de equivalência em G da seguinte forma. Se

x, y ∈ G, dizemos que x ∼ y se existir algum elemento h ∈ G tal que x = hyh−1 .
E. 16.24 Exercı́cio. Verifique que isso, de fato, define uma relação de equivalência. 6
As classes de equivalência de G por essa relação são denominadas classe de conjugação, ou classes
de elementos conjugados.
E. 16.25 Exercı́cio. Verifique que a identidade é o único elemento de sua classe de equivalência. 6
O fato importante sobre funções centrais e classes conjugadas é a seguinte afirmação: toda função
central de um grupo G é constante nas classes conjugadas de G. A prova é elementar: se x, y pertencem
à mesma classe então existe h tal que x = hyh−1 . Logo, f (x) = f (hyh−1 ) = f (y).
Assim, para determinar uma função central, como um caráter de uma representação, por exemplo,
basta determinar seus valores nas classes de conjugação. Essa observação desempenhará um papel
abaixo.
• Caráteres de Grupos Finitos
Caráteres desempenham um papel especial no caso de grupos finitos. Se G é finito, as relações de

ortogonalidade acima ficam
1 X α
χ (g)χβ (g) = δαβ . (16.16)
#G g∈G
No caso e grupos finitos os caráteres possuem uma propriedade de ortogonalidade adicional que é muito
útil no estudo de propriedades desses grupos. Vamos apresentá-la.
Se f é uma função central de um grupo finito, então f é automaticamente de quadrado integrável
(pois o grupo é finito) e, pelo teorema de Peter-Weyl, podemos escrevê-la como
X
f (h) = cα χα (h),
α∈Λ
onde
1 X α
cα = χ (g)f (g).
#G g∈G
Como tanto χα quanto f são constantes nas classes de equivalência Ck , k = 1, . . . , K, de G, podemos

escrever essa última expressão como

K
1 X
cα = (#Ck )χα (Ck )f (Ck ),
#G k=1
onde #Ck é o número de elementos do grupo que pertencem à classe Ck e f (Ck ) é o valor de f em Ck .
Assim,
X 1 X K
f (h) = (#Ck )χα (Ck )f (Ck )χα (h)
α∈Λ
#G k=1
K
" #
X #Ck X α
= f (Ck ) χ (Ck )χα (h)
k=1
#G α∈Λ
Tomando h ∈ Cj , teremos
K
" #
X #Ck X α
f (Cj ) = f (Ck ) χ (Ck )χα (Cj ) .
k=1
#G α∈Λ
Como f é arbitrária, segue que

X
#Ck
χα (Ck )χα (Cj ) = δjk . (16.17)
#G α∈Λ
Essa relação de ortogonalidade especial tem várias conseqüências relevantes para o estudo de repre-
sentações irredutı́veis unitárias de grupos finitos. Uma delas é a seguinte:
Proposição 16.5 Se G é um grupo finito, o número de representações irredutı́veis unitárias de G é
igual ao número de de classes de conjugação de G. 2
Prova. Seja G um grupo finito e Ck , k = 1, . . . , K suas classes de conjugação. Sabemos que as funções
centrais são constantes nas classes de conjugação e, portanto, vale para toda função central f a seguinte
identidade
XK
f (g) = fk δCk (g),
k=1
onde fk é o valor que f assume em Ck e




 1, se g ∈ Ck
δCk (g) := .


 0, se g 6∈ Ck
Isso significa que o espaço vetorial C(G) das funções centrais de G tem uma base formada pelas funções
δCk , k = 1, . . . , K, e, portanto, tem dimensão K.
Por (16.16) as funções χα , α ∈ Λ, formam uma base ortogonal no espaço C(G). Portanto, o número
#Λ de representações irredutı́veis de G é menor ou igual à dimensão de C(G), que é K, como acabamos
de ver: #Λ ≤ K.
Por outro lado, (16.17) diz-nos que o espaço vetorial de todas as funções Λ → C, o qual tem dimensão
#Λ (por que?), possui um conjunto de K funções ortogonais, a saber, as funções hk (α) = χα (Ck ), α ∈ Λ.
Logo, K ≤ #Λ. Isso completa a prova que K = #Λ
À luz desta proposição podemos rescrever (16.17) como

X
K
#Ck
χa (Ck )χa (Cj ) = δjk . (16.18)
#G a=1
j, k = 1, . . . , K.
Outra conseqüência de (16.18) é a seguinte. Tomando-se Cj = Ck = C1 , onde C1 é a classe de
conjugação da identidade, a qual só possui um elemento, concluı́mos que
K
X
d2a = #G, (16.19)
a=1
pois χa (C1 ) = Tr(Πa (e)) = da .

Essa curiosa expressão nos mostra uma relação entre as dimensões das representações irredutı́veis de
G e a ordem de G. Em muitos casos é possı́vel extrair informações sobre as representações irredutı́veis
do grupo a partir da mesma. Isso pois (16.19) não pode ser satisfeita por quaisquer números inteiros
K, da e #G. Por exemplo, um grupo que possua 6 elementos e 3 classes de conjugação só pode ter
duas representações irredutı́veis unidimensionais e uma bidimensional, pois 6 = 12 + 12 + 22 e não
há outra forma de escrever o número 6 como soma de três quadrados. Esse, aliás, é precisamente o
caso do grupo de permutações de 3 elementos, S3 , o qual possui 6 elementos e 3 classes de conjugação
(identifique-as!).
Parte V
Topologia Geral, Teoria da Medida e

Integração
938
Capı́tulo 17
Espaços Métricos
Conteúdo
17.1 Métricas e Espaços Métricos . . . . . . . . . . . . . . . . . . . . . . . . . . . 941
17.2 Topologia de Espaços Métricos . . . . . . . . . . . . . . . . . . . . . . . . . 956
17.3 Pseudo-Métricas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 960
17.4 Espaços de Banach e de Hilbert . . . . . . . . . . . . . . . . . . . . . . . . . 962
17.4.1 Espaços de Seqüências . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 964
Apêndices . . . . . . . . . . . . . . . . . . . . 978
17.A Algumas Desigualdades Básicas . . . . . . . . . . . . . . . . . . . . . . . . . 978
17.B Números reais e p-ádicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 980
17.C Aproximações para π . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 987
T odos estamos familiarizados com a noção usual e intuitiva de distância entre pontos da reta
real R, do plano bidimensional R2 ou do espaço tridimensional R3 . O estudante há de
reconhecer que boa parte do material tratado em cursos de cálculo de funções de uma ou
várias variáveis, reais ou complexas, como as noções de derivação e integração, assenta-se
sobre noções como as de convergência e limite, as quais, por sua vez, assentam-se sobre a noção
intuitiva de distância entre pontos. Assim, por exemplo, dizemos que uma seqüência xn de pontos na
reta real converge a um ponto x se a distância |xn − x| entre xn e x torna-se menor e menor à medida
que n cresce. Mais adiante faremos essas idéias mais precisas e gerais.
Ao longo do seu desenvolvimento, especialmente após o século XIX, a Matemática reconheceu
a importância de abstrair e generalizar a noção intuitiva de distância de modo a aplicá-la a outros
tipos de conjuntos que não os familiares espaços de dimensão finita R, R2 ou R3 . Esse desenvolvimento
conduziu às noções de métrica, de espaços métricos e de espaços métricos completos, as quais definiremos
mais adiante, e permitiu aplicar muitas das noções geométricas e instrumentos analı́ticos, originalmente
desenvolvidos em espaços mais familiares, para conjuntos menos acessı́veis à intuição, como por exemplo
espaços vetoriais de dimensão infinita, tais como espaços de funções ou de seqüências. Uma importante
aplicação dessas idéias à teoria das equações diferenciais e integrais será vista no Capı́tulo 18, quando
trataremos do Teorema do Ponto Fixo de Banach.
Lembramos ao estudante que o estudo de espaços de dimensão infinita não é uma mera abstração
desprovida de uso ou interesse prático. Ao se decompor uma função f , contı́nua, diferenciável e
periódica de perı́odo 2π, em sua série de Fourier1 ,
∞
X eint
f (t) = an √
n=−∞
2π
1
939
tal como ocorre, por exemplo, no problema da corda vibrante, o que estamos fazendo é precisamente
expressar uma tal função em termos de componentes em uma base de um espaço de dimensão infinita,
eint
no caso a base formada pelas infinitas funções √ 2π
com n ∈ Z.
Para o estudo de espaços de dimensão infinita, como o desse exemplo, seria muito importante
se pudéssemos reter algumas das noções geométricas familiares em espaços de dimensão finita. O
emprego de idéias geométricas análogas àquelas encontradas nos espaços R, R2 ou R3 é de grande
importância na tarefa de explorar espaços de dimensão infinita, como o espaço das funções contı́nuas
periódicas de perı́odo 2π, justamente por trazerem tais espaços para mais perto da nossa intuição.
Por razões evolutivas, o cérebro humano só é capaz de produzir e desenvolver imagens em uma, duas
ou três dimensões e, portanto, para o estudo de espaços com mais dimensões faz-se necessário dispor
de instrumentos abstratos que permitam desenvolver raciocı́nios o mais próximo possı́vel daqueles
empregados em espaços de dimensão 1, 2 ou 3.
Devido às bem-conhecidas “relações de ortogonalidade”
Z 2π
1
ei(n−m)t dt = δn, m
2π 0
sabemos que, as constantes an da decomposição de Fourier acima são dadas por
Z 2π −int
e
an = √ f (t) dt ,
0 2π
e podem ser interpretadas geometricamente como as projeções, ou componentes, da função f na
−int
“direção” das funções e√2π . (A noção de projeção, ou componente, de um vetor é familiar em R2
ou em R3 ). Como é bem sabido (para a teoria das séries de Fourier, vide [36]), vale também a relação,
conhecida como Identidade de Parseval2 ,
s v
Z 2π u ∞
uX
|f (t)| dt = t
2 |an |2 .
0 n=−∞
Sendo o lado direito a raiz quadrada da soma do quadrado das componentes ortogonais de f , podemos
interpretar o lado esquerdo como o “módulo” ou “comprimento” da função f (entendida como vetor no
espaço de dimensão infinita das funções periódicas de perı́odo 2π), tal como no Teorema de Pitágoras3
em R2 ou R3 .
Se levada adiante, essa analogia geométrica nos permite definir uma possı́vel noção de distância
entre duas funções contı́nuas periódicas f e g, que denotaremos por4 d2 (f, g), como o módulo (ou
“comprimento”) da diferença entre duas funções, tal como se faz em espaços de dimensão finita:
s
Z 2π
d2 (f, g) := |f (t) − g(t)|2 dt .
0
2
Marc-Antoine Parseval des Chênes (1755-1836).
3
Pitágoras de Samos (ci. 569 A.C. - ci. 475 A.C.).
4
A razão de empregarmos o sub-ı́ndice “2” na definição de d2 (f, g) será esclarecida mais adiante.
Com esse instrumento em mãos podemos agora empregar conceitos como o de convergência e limite de
seqüências no espaço de dimensão infinita das funções contı́nuas periódicas e, eventualmente, prosseguir
desenvolvendo em tais espaços outros ingredientes do Cálculo e da Análise.
Para implementar tais desenvolvimentos, vamos no presente capı́tulo introduzir algumas importan-
tes noções gerais, como as de métrica, de espaço métrico, de seqüências de Cauchy em espaços métricos,
de completamento de espaços métricos e de topologia de espaços métricos, noções essas que provaram
ser de grande importância na tarefa de levar os instrumentos familiares de abordagem matemática de
espaços de dimensão finita a espaços de dimensão infinita e outros.
17.1 Métricas e Espaços Métricos
• Métricas
Uma questão importante que se coloca é a de identificar quais propriedades básicas a noção intuitiva
de distância possui para permitir seu emprego em várias instâncias. O desenvolvimento da Matemática
conduziu a uma identificação desses ingredientes em um conjunto de quatro propriedades, as quais
resumem tudo o que é essencialmente necessário na demonstração de resultados nos quais a noção de
distância é empregada. Surgiu da identificação dessas propriedades a noção matemática de métrica, a
qual abstrai e generaliza a noção intuitiva de distância. Vamos a essa definição.
Seja X um conjunto (entendido doravante como não-vazio). Uma função d : X × X → R é dita
ser uma métrica em X se possuir as seguintes propriedades:
1. Positividade: d(a, b) ≥ 0 para todos a, b ∈ X.
2. Condição de distância nula: d(a, b) = 0 se e somente se a = b.
3. Simetria: para todos a e b ∈ X vale d(a, b) = d(b, a).
4. Desigualdade triangular: para todos a, b e c ∈ X vale d(a, b) ≤ d(a, c) + d(c, b).
A quarta propriedade acima é particularmente importante e é denominada desigualdade triangular

devido a seu significado geométrico nos espaços R2 e R3 com a métrica usual. (Justifique!)
As quatro propriedades listadas acima são aquelas identificadas como essenciais na noção intuitiva
de distância e qualquer função d que as satisfaça, ou seja, qualquer métrica, pode potencialmente ser
empregada como equivalente à noção intuitiva de distância.
Um ponto importante da definição de métrica é a condição que afirma que d(x, y) = 0 se e somente
se x e y forem iguais. Compare com a definição de pseudo-métrica à página 960.
Mencionamos en passant que a condição de positividade acima é, em verdade, conseqüência da
desigualdade triangular e da condição de simetria. De fato, usando essas duas condições, pode-se
provar o seguinte fato mais forte: para todos x, y, z ∈ M vale
d(x, y) ≥ |d(x, z) − d(z, y)| , (17.1)

o que, em particular, garante que d(x, y) ≥ 0. Para provar isso, note-se que pela desigualdade triangular
d(x, z) ≤ d(x, y) + d(y, z). Logo,
d(x, y) ≥ d(x, z) − d(y, z) . (17.2)
Trocando-se x por y e usando-se a condição de simetria, obtemos também
d(x, y) = d(y, x) ≥ d(y, z) − d(x, z) . (17.3)
Ambas as relações (17.2) e (17.3) dizem que d(x, y) ≥ |d(x, z) − d(y, z)|, como querı́amos mostrar.
O exemplo mais básico de uma métrica é oferecido, no caso X = R, pela função d(x, y) = |y − x|,
x, y ∈ R. Outro exemplo essencialmente idêntico em X = C, é oferecido pela função d(z, w) = |z − w|,
z, w ∈ C. Essas são as chamadas métricas usuais em R e C, respectivamente. Deixamos ao leitor a
tarefa simples de verificar que essas funções satisfazem a definição de métrica.
• Espaços métricos e outros exemplos básicos
Se X é um conjunto não-vazio e d é uma métrica em X, dizemos que o par (X, d) é um espaço

métrico. Ou seja, um espaço métrico vem a ser um conjunto munido de uma métrica.
Nota. A noção de Espaço Métrico foi introduzida por Fréchet5 em sua dissertação de 1906. A expressão
“espaço métrico”, no entanto, não foi sua invenção, tendo sido cunhada por Hausdorff6 em 1914.
Como mencionamos, as quatro propriedades requeridas na definição de métrica, acima, foram enun-
ciadas sob inspiração do exemplo familiar do próximo exercı́cio.
p
E. 17.1 Exercı́cio. Verifique que a função d2 (x, y) := (y1 − x1 )2 + · · · + (yn − xn )2 , onde x =
(x1 , . . . , xn ) e y = (y1 , . . . , yn ), é uma métrica em Rn (chamada de métrica Euclidiana). 6
É importante que o estudante familiarize-se desde cedo com o fato que um conjunto X pode ter
várias métricas. O exemplo anterior e os dois abaixo ilustram isso.
E. 17.2 Exercı́cio. Verifique que a função d∞ (x, y) := max{|y1 − x1 |, . . . , |yn − xn |}, onde x =
(x1 , . . . , xn ) e y = (y1 , . . . , yn ), é uma métrica em Rn . 6
E. 17.3 Exercı́cio. Verifique que a função d1 (x, y) := |y1 − x1 | + · · · + |yn − xn |, onde x = (x1 , . . . , xn )
e y = (y1 , . . . , yn ), é uma métrica em Rn . 6
Mais adiante mostraremos que todas as funções

dp (x, y) := [|y1 − x1 |p + · · · + |yn − xn |p ]1/p ,
com p ≥ 1 são métricas em Rn .
Uma caracterı́stica importante da noção abstrata de métrica é que a mesma aplica-se também a
espaços outros que não os familiares espaços Rn . Os exercı́cios abaixo ilustram isso no caso do conjunto
X = C0 ([0, 1]), que vem a ser o conjunto das funções contı́nuas reais definidas no intervalo [0, 1].
5
Maurice René Fréchet (1878-1973). Fréchet também introduziu a noção de compacidade.
6
E. 17.4 Exercı́cio. Seja X = C0 ([0, 1]) o conjunto de todas as funções reais contı́nuas definidas em
[0, 1]. Considere a seguinte função d∞ : X × X → R:
d∞ (f, g) = sup |f (x) − g(x)| .

x∈[0, 1]
Mostre que d∞ uma métrica em X. 6
[0, 1]. Considere a seguinte função d1 : X × X → R:
Z 1
d1 (f, g) = |f (x) − g(x)| dx .
0
Mostre que d1 uma métrica em X. 6
[0, 1]. Considere a seguinte função d2 : X × X → R:
s
Z 1
d2 (f, g) = |f (x) − g(x)|2 dx .
0
Mostre que d2 uma métrica em X. 6
Mais adiante mostraremos que em C0 ([0, 1]) todas as funções

Z 1 1/p
p
dp (f, g) = |f (x) − g(x)| dx .
0
com p ≥ 1 são igualmente métricas.

O exemplo a seguir mostra que uma métrica pode ser definida em qualquer conjunto não-vazio.
E. 17.7 Exercı́cio. Seja X um conjunto não-vazio e considere a seguinte função dt : X × X → R:




 0 , se x = y ,
dt (x, y) := (17.4)


 1 , se x 6= y .
Mostre que dt uma métrica em X, denominada métrica trivial. 6
• Seqüências
Antes de prosseguirmos, lembremos uma definição básica.

Se X é um conjunto, uma função a : N → X é dita ser uma seqüência em X. Como é familiar ao
estudante, o valor de a em n ∈ N é freqüentemente denotado por an ao invés de a(n). Analogamente,
uma seqüência a : N → X é freqüentemente denotada por {an }n∈N , por {an , n ∈ N}, ou ainda, com um
certo abuso de linguagem, simplesmente por an . Essa última notação é, talvez, a mais freqüente, mas
pode, em certas ocasiões, causar alguma confusão pois, como mencionamos, an designa, estritamente
falando, o valor de a em n, não a seqüência toda.
Vamos agora introduzir várias noções fundamentais, as quais provêm de definições bem conhecidas
no contexto da reta real.
• Sub-seqüências
Seja X um conjunto e seja a : N → X uma seqüência em X. Seja também κ : N → N uma

função estritamente crescente (ou seja, k(m) < k(n) se m < n). Então a ◦ κ : N → X é dita ser uma
subseqüência de a.
• Convergência em espaços métricos
Seja (X, d) um espaço métrico. Dizemos que uma seqüência a em X converge para um elemento
x ∈ X em relação à métrica d se para todo ǫ > 0 existir um número natural N(ǫ) (eventualmente
dependente de ǫ) tal que d(x, an ) < ǫ para todo n > N(ǫ).
A seguinte proposição é fundamental, pois nos diz que, em um espaço métrico, uma seqüência, se
for convergente, só pode convergir a um ponto:
Proposição 17.1 Seja (X, d) um espaço métrico e seja b uma seqüência em X. Suponha que b
converge a um elemento x ∈ X e a um elemento y ∈ X. Então x = y. 2
Prova. Pela desigualdade triangular, temos que
d(x, y) ≤ d(x, bn ) + d(bn , y)
para qualquer n. Agora, como b converge a x sabemos que, para qualquer ǫ > 0 teremos d(x, bn ) < ǫ
para todo n grande o suficiente, ou seja, para todo n maior que um certo inteiro Nx (ǫ). Analogamente,
como bn converge a y sabemos que, para qualquer ǫ > 0 teremos d(y, bn ) < ǫ para todo n grande
o suficiente, ou seja, para todo n maior que um certo inteiro Ny (ǫ). Assim, para todo n maior que
max{Nx (ǫ), Ny (ǫ)} teremos d(x, y) < 2ǫ. Ora, como ǫ é um número positivo arbitrário, uma tal
desigualdade só pode ser válida se d(x, y) = 0. Como d é uma métrica, isso implica x = y.
O estudante pode constatar que a demonstração acima faz uso de todas as propriedades definidoras
da noção de métrica, o que ilustra a importância de noções abstratas como aquela.
Um pouco de notação. Se uma seqüência a em X converge a x ∈ X em relação à métrica d então x é
dito ser o d-limite de a, ou simplesmente o limite de a, se a métrica d estiver subentendida. Denotamos
esse fato escrevendo x = d−lim
n→∞
an , ou simplesmente x = lim an (se a métrica d estiver subentendida).
n→∞
d
Outra notação freqüentemente empregada para dizer que x é o d-limite de a é an −→ x.
• Seqüências de Cauchy
Seja um espaço métrico X com uma métrica d. Uma seqüência a de elementos de X é dita ser
uma seqüência de Cauchy7 em relação à métrica d se para todo ǫ > 0 existir um número natural N(ǫ)
(eventualmente dependente de ǫ) tal que d(ai , aj ) < ǫ para todo i e j tais que i > N(ǫ) e j > N(ǫ).
A seguinte proposição é fundamental:
Proposição 17.2 Seja um espaço métrico X com uma métrica d e seja b uma seqüência convergente
em relação à métrica d a um elemento x ∈ X. Então b é uma seqüência de Cauchy em relação à
métrica d.
Prova. Sejam m e n arbitrários. Pela desigualdade triangular, vale
d(bn , bm ) ≤ d(bn , x) + d(x, bm ) .
Agora, como b converge a x sabemos que para todo ǫ > 0 teremos d(bn , x) < ǫ/2 e d(bm , x) < ǫ/2
desde que ambos m e n sejam maiores que algum N(ǫ/2). Nesse caso, então, d(bn , bm ) ≤ ǫ/2 + ǫ/2 = ǫ.
Uma questão de fundamental importância que agora se coloca é a seguinte: será válida a recı́proca
da proposição acima, ou seja, será toda seqüência de Cauchy em um espaço métrico uma seqüência
convergente? A importância dessa questão é a seguinte. Dada uma seqüência concreta xn em um
espaço métrico X, não sabemos a priori se xn convergirá ou não a menos que encontremos um elemento
x em X com a propriedade desejada (para todo ǫ > 0, existe N(ǫ) tal que d(xn , x) < ǫ sempre que
n > N(ǫ)). Nem sempre pode ser fácil ou possı́vel encontrar explicitamente tal x, e gostarı́amos de
possuir um critério baseado apenas em propriedades verificáveis da seqüência xn que nos permita dizer
se ela converge ou não. A propriedade de uma seqüência ser de Cauchy é uma propriedade cuja validade
ou não depende apenas da seqüência e, portanto, em face à Proposição 17.2, é um ótimo candidato a
ser um tal critério de convergência.
Sucede, porém, que, em geral, a resposta à pergunta acima é negativa: existem espaços métricos nos
quais há seqüências de Cauchy que não convergem. Isso é ilustrado pelos seguintes exemplos. Considere-
se o conjunto X = Q dos números racionais e adotemos em Q a métrica usual: d(r, s) = |r − s|, com
r, s ∈ Q. Há, sabidamente, exemplos de seqüências de Q que são de Cauchy em relação à métrica d
que convergem em Q. Um exemplo é encontrado no exercı́cio seguinte.
E. 17.8 Exercı́cio. Seja r um número racional com r > 1. Prove que a seqüência de números racionais
Xn
1 r
sn = a
, n ∈ N, é uma seqüência de Cauchy e que a mesma converge ao número racional 6
a=0
r r−1
O ponto, porém, é que há também exemplos de seqüências de Q que são de Cauchy em relação à
métrica d mas que não convergem em Q. Um exemplo famoso, e que pode ser tratado com detalhe, é
o da seqüência
1 1 1
sn = 1 + + + · · · + ,
1! 2! n!
7
que é uma seqüência de Cauchy de racionais, mas que não converge a um número racional8 . Tratamos
esse exemplo com detalhe no próximo tópico. A leitura do mesmo pode ser dispensada pelo estudante
já familiarizado com esses fatos, mas pode ser instrutiva para os demais. Por um teorema de Lambert9
(vide [58]), sabe-se que se r é um número racional não-nulo então er não é racional. Assim, as seqüências
2 n
de racionais sn = 1 + 1!r + r2! + · · ·+ rn! convergem a irracionais. Analogamente, esse teorema de Lambert
P (−1)n r n+1
implica que ln(r) não pode ser racional se r o for, Assim, para −1 < r < 1, a série ∞ n=0 n+1
converge ao irracional ln(1 + r).
P k
Outro exemplo é a seqüência pn = 4 nk=0 (−1) 2k+1
, que converge ao irracional π. Uma prova que π é
irracional pode ser encontrada em [138] ou em [58]. Vide página 43 para mais comentários. Para uma
breve discussão sobre aproximações para π recheada de digressões históricas, vide Seção 17.C, página
987.
Esses exemplos, que estão longe de ser únicos, ilustram um fato muito importante: existem espaços
métricos nos quais não vale a recı́proca da Proposição 17.2, ou seja, existem espaços métricos nos quais
seqüências de Cauchy não são necessariamente convergentes.
De grande importância são os espaços métricos onde vale a recı́proca da Proposição 17.2. Tais
espaços métricos são denominados completos e deles falaremos no pós-próximo tópico, à página 948.
• O número e é um número irracional
Seja a seqüência de números racionais

1 1 1
sn = 1 + + +···+ ,
1! 2! n!
Vamos provar que essa seqüência é de Cauchy em relação à métrica usual em Q, mas que a mesma não
converge a um número racional.
Primeiro provemos que esta seqüência é de Cauchy. Vamos supor j > i. Como a seqüência sn é
crescente, segue que d(si , sj ) = |si − sj | = sj − si (por que?). Temos, então,
1 1
d(si , sj ) = sj − si = +···+
(i + 1)! j!

1 1 1 (i + 1)!
= 1+ + +···+
(i + 1)! i + 2 (i + 2)(i + 3) j!

1 1 1 1
≤ 1+ + +···+
(i + 1)! (i + 2) (i + 2)2 (i + 2)j−i−1
X∞
1 1
<
(i + 1)! a=0 (i + 2)a
1 i+2 2
= < para i > 0 . (17.5)
(i + 1)! i + 1 (i + 1)!
8
O estudante bem sabe que essa seqüência converge no conjunto dos reais ao número e. Abaixo provaremos que esse
número não é racional.
9
Johann Heinrich Lambert (1728-1777).
2
Como o número pode ser feito arbitrariamente pequeno tomando-se i grande, fica provado que
(i + 1)!
a seqüência sn é de Cauchy.
E. 17.9 Exercı́cio. Justifique cada passagem acima. 6
Vamos agora provar que essa seqüência não converge a um número racional. Para isso vamos supor
o contrário e constatar que isso leva a um absurdo. Vamos então supor que a seqüência converge a um
racional e. Como e é suposto ser racional, e seria da forma e = p/q onde p e q são números inteiros
primos entre si. Da desigualdade triangular segue que
2
d(e, si ) ≤ d(si , sj ) + d(e, sj ) < +ǫ,
(i + 1)!
para qualquer ǫ > 0, desde que j seja escolhido grande o suficiente (pois sj converge a e). Assim, como
a desigualdade vale para qualquer ǫ > 0, concluı́-se que
2
d(e, si ) ≤ .
(i + 1)!
Como si é uma seqüência crescente e si 6= sj para i 6= j, segue que d(e, si ) = e − si . Logo,
p 2
0 < e − si = − si ≤
q (i + 1)!
e, portanto,
p 2
si < ≤ si + (17.6)
q (i + 1)!
para todo i ∈ N. Para i = 2 a relação (17.6) fica (verifique!)
5 p 17
< ≤ . (17.7)
2 q 6
Como 17/6 < 3, concluı́mos que 5/2 < p/q < 3. Esse fato mostra que p/q não é inteiro. Disso, segue
que q ≥ 2, fato que usaremos logo abaixo10 .
Como (17.6) vale para todo i, tomemos em particular i = q. A relação (17.6) diz, então, que
1 1 p 1 1 2
1+ +···+ < ≤ 1+ +···+ + .
1! q! q 1! q! (q + 1)!
Multiplicando-se ambos os lados por q! concluı́mos que

2
A < p(q − 1)! ≤ A + < A + 1, pois q ≥ 2 ,
q+1
10
É possı́vel extrair um pouco mais de (17.7). A primeira desigualdade em (17.7) diz-nos que p > 5q/2. Como q ≥ 2,
segue que p > 5. A segunda desigualdade em (17.7) diz-nos que q ≥ 6p/17. Como p ≥ 6, segue que q ≥ 36/17 > 2.
Assim, concluı́-se que q ≥ 3.
onde
1 1 q! q! q!
A := q! 1 + + · · · + = q! + q! + + + · · · +
1! q! 2! 3! q!
é um número inteiro positivo, pois é, claramente, uma soma de inteiros positivos. Assim, o que provamos
é que A < p(q − 1)! < A + 1. Agora, como A é um inteiro, essas últimas desigualdades dizem que o
número inteiro p(q − 1)! está contido no intervalo aberto entre dois inteiros (A e A + 1) e, portanto,
não pode ser um é inteiro: uma contradição. Isso prova, então, que e não pode ser da forma p/q e,
portanto, não pode ser racional.
E. 17.10 Exercı́cio. A chamada constante de Euler11 -Mascheroni12 é o número definido13 por

1 1
γ := lim 1 + + · · · + − ln(n) ≃ 0, 5772156649 . . . .
n→∞ 2 n
A constante γ surge em várias situações, por exemplo na definição das funções de Bessel de segundo tipo
(vide Seção 8.2.3, página 444) e em propriedades da função Gama de Euler (vide Seção 8.4, página 473).
A prova que o limite acima existe pode ser encontrada em qualquer bom livro de Cálculo, por exemplo em
[138]. Até hoje não é conhecido se γ é um número racional ou irracional. Resolva essa questão. 6
• Completeza
Dizemos que o espaço métrico X é completo em relação à métrica d se toda seqüência de Cauchy
em X convergir a um elemento de X.
Assim, em um espaço métrico completo, para garantirmos que uma seqüência converge basta veri-
ficarmos que a mesma é de Cauchy. Como comentamos à página 945, a propriedade de uma seqüência
ser de Cauchy pode ser verificada analisando apenas propriedades da mesma, daı́ sua vantagem. Dessa
forma, dada uma seqüência concreta {xn } em um espaço métrico completo X, para sabermos se {xn }
converge não é necessário adivinhar o elemento ao qual converge, mas bastar constatar a propriedade
de Cauchy, o que pode ser feito apenas estudando a distância entre elementos de {xn }.
Nota. O estudante mais adiantado deve ser advertido que a noção de completeza de um espaço métrico
não é uma noção topológica. Vide discussão à página 959.
Pelo que vimos nas últimas páginas, o espaço métrico formado pelos números racionais com a
métrica usual não é um espaço métrico completo. Vale, porém a seguinte afirmação:
Proposição 17.3 O conjunto dos números reais R é um espaço métrico completo em relação à métrica
usual: d(x, y) = |x − y|, x, y ∈ R. 2
A demonstração dessa proposição pode ser encontrada em todos os bons livros de Cálculo ou Análise
Real. Discutiremos com detalhe esse fato ao apresentarmos uma “construção” dos números reais, devida
11
12
Lorenzo Mascheroni (1750-1800).
13
Essa constante foi introduzida por Euler em 1735, o qual calculou seus 16 primeiros dı́gitos decimais. Em 1790,
Mascheroni calculou seus 32 primeiros dı́gitos decimais, dos quais apenas os primeiros 19 estavam corretos.
a Cantor14 (seguindo idéias de Weierstrass15 ), na Seção 17.B, da qual a proposição acima é um corolário
imediato.
O mesmo vale para o conjunto dos números complexos:
Proposição 17.4 O conjunto dos números complexos C é um espaço métrico completo em relação à
métrica d(z, w) = |z − w|, z, w ∈ C. 2
Vale também a seguinte afirmação, cuja demonstração será apresentada como caso particular de
uma outra afirmação mais geral na Seção 17.4.1:
Proposição 17.5 Para todo n ≥ 1, o conjunto Rn é um espaço métrico completo em relação às
métricas d∞ , d1 , d2 e dp com p ≥ 1, definidas à página 942. 2
Vamos a outros exemplos.
E. 17.11 Exercı́cio. Vamos mostrar que C0 ([0, 1]), o conjunto das funções contı́nuas (reais ou comple-
xas) definidas no intervalo [a, b], não é completo em relação à métrica d1 :
Z 1
d1 (f, g) = |f (x) − g(x)| dx .
0
Considere a seguinte seqüência de funções contı́nuas em [0, 1]:





 0, se x ∈ 0, 1
− 1
,

 2 n


fn (x) = n x − 1
+ 1
, se x ∈ 1
− n1 , 1
, (17.8)

 2 n 2 2



 1
 1, se x ∈ , 1 ,
2
onde n ∈ N. Vide Figura 17.1.
a) Convença-se essas funções são todas contı́nuas e, portanto, elementos de C0 ([0, 1]).
b) Calcule d1 (fn , fm ) e mostre que a seqüência fn é uma seqüência de Cauchy em relação à métrica d1 .
c) As funções fn valem 1 no intervalo [1/2, 1]. Fora isso, para cada x ∈ [0, 1/2) vale fn (x) = 0 para
todo n suficientemente
Z grande. Convença-se que esses fatos implicam que se existir uma função f tal
1
que lim |fn (x) − f (x)|dx = 0 então f deve ser da forma
n→∞ 0



 0, se x ∈ 0, 1 ,
2
f (x) = (17.9)


 1, se x ∈ 1
, 1 ,
2
14
15
Karl Theodor Wilhelm Weierstrass (1815-1897).
0 1/2 − 1/n 1/2 1
Figura 17.1: Gráfico das funções fn .
(a menos, eventualmente, de conjuntos de medida nula, como o ponto x = 1/2, onde pode estar
Z 1 Z 1
indefinida) pois de outro modo ter-se-ia lim |fn (x) − f (x)|dx 6= 0. Calcule |fn (x) − f (x)| dx
n→∞ 0 0
e mostre explicitamente que o limite dessa integral é zero quando n → ∞. Como f não é contı́nua,
isso mostra que a seqüência de Cauchy {fn }n∈N não converge a uma função contı́nua e, portanto,
C0 ([0, 1]) não é um espaço métrico completo em relação à métrica d1 .
Vamos agora mostrar o seguinte fato importante:

Proposição 17.6 Seja [a, b] com −∞ < a ≤ b < ∞ um intervalo fechado e seja C0 ([a, b]) o conjunto
das funções contı́nuas (reais ou complexas) definidas em [a, b]. Então C0 ([a, b]) é completo em relação
à métrica d∞ (f, g) := sup |f (x) − g(x)|, f, g ∈ C0 ([a, b]). 2
x∈[a, b]
Prova. Seja fn uma seqüência de Cauchy em C0 ([a, b]). Então para todo ǫ > 0 existe um inteiro
positivo N(ǫ) tal que supx∈[a, b] |fn (x) − fm (x)| < ǫ, sempre que m e n sejam maiores que N(ǫ). Isso
significa que para cada x ∈ [a, b] tem-se |fn (x) − fm (x)| < ǫ sempre que m e n sejam maiores que N(ǫ).
Assim, para cada x ∈ [a, b] fixo, a seqüência numérica fn (x) é uma seqüência de Cauchy. Como R (ou
C, conforme o caso) é completo, segue que cada seqüência fn (x) é convergente. Vamos denominar por
f (x) seu limite.
Claramente [a, b] ∋ x 7→ f (x) é uma função (certo?). Essa função f é um forte candidato a ser
o limite da seqüência {fn }n∈N na métrica d∞ . Colocamo-nos, então, as seguintes questões: 1. Será a
função f também um elemento de C0 ([a, b]), ou seja, contı́nua? 2. Se a resposta à pergunta anterior for
positiva, será que a seqüência fm converge à função f na métrica d∞ ? Se a resposta a essas perguntas
for positiva, estará provado que C0 ([a, b]) é completo na métrica d∞ .
Precisamos agora mostrar que a seqüência {fm }m∈N aproxima essa função f na métrica d∞ .
Seja ǫ > 0 arbitrário. Vamos definir uma seqüência crescente de números inteiros e positivos Nk (ǫ),
k = 1, 2, 3, . . . com Nk+1 (ǫ) > Nk (ǫ), da seguinte forma: Nk (ǫ) é tal que d∞ (fm , fn ) < ǫ/2k para
todos m, n > Nk (ǫ). Note que uma tal seqüência Nk (ǫ) sempre pode ser encontrada pois, por hipótese,
fm é uma seqüência de Cauchy em d∞ . Vamos agora escolher uma seqüência crescente de ı́ndices
n1 < n2 < · · · < nk−1 < nk < · · · tais que nk > Nk (ǫ). A essa seqüência está associada a sub-seqüência
{fnk }k∈N . Note que, pela definição, tem-se
ǫ
d∞ (fnl+1 , fnl ) < ,
2l
pois nl e nl+1 são maiores que Nl (ǫ).
Com essas definições, teremos que, para todo k > 1,
k−1
X
fnk (x) − fn1 (x) = fnl+1 (x) − fnl (x) .
l=1
(Justifique!). Logo,
k−1
X
|fnk (x) − fn1 (x)| ≤ |fnl+1 (x) − fnl (x)|
l=1
k−1
X k−1
X
≤ sup |fnl+1 (x) − fnl (x)| = d∞ (fnl+1 , fnl )
l=1 x∈[a, b] l=1
k−1
X
1 1
< ǫ l
= ǫ 1 − k−1 .
l=1
2 2
Daqui, concluı́mos que para cada x ∈ [a, b],
|f (x) − fn1 (x)| = |f (x) − fnk (x) + fnk (x) − fn1 (x)|
≤ |f (x) − fnk (x)| + |fnk (x) − fn1 (x)|

1
< |f (x) − fnk (x)| + ǫ 1 − k−1 ,
2
ou seja,
1
|f (x) − fn1 (x)| < |f (x) − fnk (x)| + ǫ 1 − k−1 .
2
O lado esquerdo desta expressão independe de k. Tomando-se o limite k → ∞ e lembrando que a
seqüência numérica fnk (x) converge a f (x), concluı́mos que
|f (x) − fn1 (x)| ≤ ǫ .

Como isso vale para todo x, segue que

d∞ (f, fn1 ) = sup |f (x) − fn1 (x)| ≤ ǫ . (17.10)
x∈[a, b]
Isso demonstra que a seqüência fn converge a f em relação à métrica d.

Vamos agora provar que a função f é contı́nua. Para tal, notemos que para quaisquer x, y ∈ [a, b],
|f (x) − f (y)| = |f (x) − fn1 (x) + fn1 (x) − fn1 (y) + fn1 (y) − f (y)|
≤ |f (x) − fn1 (x)| + |fn1 (x) − fn1 (y)| + |fn1 (y) − f (y)|
≤ sup |f (x) − fn1 (x)| + |fn1 (x) − fn1 (y)| + sup |fn1 (y) − f (y)|
x∈[a, b] y∈[a, b]
= 2d∞ (f, fn1 ) + |fn1 (x) − fn1 (y)|
≤ 2ǫ + |fn1 (x) − fn1 (y)| .

Notemos agora que fn1 ∈ C0 ([a, b]) e é, portanto, uma função contı́nua. Logo, pela definição de
continuidade de funções, para x fixo, existe um número positivo δ tal que |fn1 (x) − fn1 (y)| < ǫ para
todo y tal que |y − x| < δ.
Assim, concluı́mos que para todo ǫ > 0 existe δ > 0 tal que para todo y tal que |y − x| < δ tem-se
|f (x) − f (y)| < 3ǫ. Isso nos diz precisamente que f é contı́nua, como querı́amos provar.
E. 17.12 Exercı́cio. Mostre que a seqüência de funções fn definida em (17.8) não é uma seqüência de
Cauchy em relação à métrica d∞ . Observe que isso é coerente com a Proposição 17.6, pois a função f dada
em (17.9), obtida pelo limite pontual f (x) = limn→∞ fn (x) para cada x ∈ [a, b], não é contı́nua. 6
• Conjuntos densos em espaços métricos
Se M é um conjunto dotado de uma métrica d, dizemos que um conjunto S é d-denso em M (ou

simplesmente denso em M) se todo x ∈ M puder ser aproximado por elementos de S no sentido da
métrica d, ou seja, se para todo x ∈ M e todo ǫ > 0 existir sempre pelo menos um elemento s ∈ S
(dependente de x e de ǫ) tal que d(x, s) < ǫ.
Por exemplo, o conjunto dos racionais Q é denso em R para a métrica usual d(x, y) = |y − x|.
Para cada p, Q é também denso na métrica p-ádica dp no conjunto Qp de números p-ádicos (para
as definições, vide Seção 17.B, página 980). Muito importante também é o Teorema de Weierstrass,
Teorema 27.1, página 1395, que afirma que em cada intervalo fechado e limitado [a, b] os polinômios
são densos no conjunto C([a, b]) das funções contı́nuas definidas em [a, b].
• Espaços Métricos. O Completamento Canônico
Dado um conjunto X dotado de uma métrica d e que não seja completo em relação a esta métrica,
é muito importante, por vezes, identificar um conjunto X ′ , dotado de uma métrica d′ que possua as
a. X ′ contém X como subconjunto.
b. X é denso em X ′ em relação à métrica d′ .
c. d′ quando restrita a X é idêntica a d.
d. X ′ é completo em relação a d′ .
Em um tal caso, dizemos que o espaço métrico (X ′ , d′ ) é um completamento do espaço métrico (X, d).
Como exemplo, mencionamos que o conjunto dos números reais R é um completamento do conjunto
dos números racionais, caso adotemos neste a métrica d(r, s) = |r − s|, r, s ∈ Q. A métrica d′ em R
seria também d′ (x, y) = |x − y|, x, y ∈ R.
Dado um espaço métrico (X, d), que eventualmente não é completo em relação a uma métrica
d dada, podemos completá-lo usando um procedimento padrão devido a Cantor16 , conhecido como
completamento canônico de espaços métricos. Isso é o conteúdo do seguinte teorema:
Teorema 17.1 (Completamento canônico) Dado um conjunto X, dotado de uma métrica d, existe
um outro conjunto X, e e uma aplicação injetora E : X → X
e dotado de uma métrica d, e tais que:
e
1. d(E(x), E(y)) = d(x, y) para todo x, y ∈ X.
e
2. O conjunto E(X), a imagem de X por E, é um conjunto d-denso e
em X.
3. X e
e é completo em relação à métrica d. 2
Nota. Comentemos que E é uma bijeção entre X e E(X) (por ser injetora). Nesse sentido, podemos
e é um completamento de X.
também, com um pequeno abuso de linguagem, dizer que X
Na Seção 17.B ilustramos uma aplicação importante do Teorema 17.1 (mais precisamente, da de-
monstração do Teorema 17.1) ao delinearmos como podemos “construir” os números reais a partir dos
racionais. Em seguida, adotando métricas especiais no conjunto Q, mostraremos como construir um
conjunto especial de números, os chamados números p-ádicos.
Prova do Teorema 17.1. Consideremos o conjunto Cd (X) formado por todas as seqüências em X que
sejam de Cauchy em relação à métrica d. Vamos introduzir em Cd (X) a seguinte relação de equivalência:
para duas seqüências de Cauchy a = {an }n∈N e b = {bn }n∈N dizemos que a é equivalente a b, a ∼ b, se
e somente se lim d(an , bn ) = 0.
n→∞
E. 17.13 Exercı́cio. Prove que esta é, de fato, uma relação de equivalência. Sugestão: use a desigualdade
triangular. 6
A conjunto Cd (X) é, então, a união disjunta de suas classes de equivalência pela relação acima17 .
e o conjunto de todas essas classes de equivalência. Como usualmente se faz,
Vamos denotar por X
16
17
Para as noções de relação de equivalência e classes de equivalência, vide página 30.
denotaremos por [x] a classe de equivalência de um elemento x ∈ Cd (X), ou seja, [x] é o conjunto de
todas as seqüências de Cauchy em X que são equivalentes à seqüência de Cauchy x.
Podemos fazer de X e um espaço métrico definindo uma métrica de : X
e ×Xe → R da seguinte forma:
e
d([x], [y]) = lim d(xn , yn ) , (17.11)
n→∞
e
para duas seqüências de Cauchy x = {xi }i∈N e y = {yi }i∈N ∈ X.
A respeito da definição (17.11) há alguns pontos a comentar, o que faremos com os três exercı́cios
que seguem. O primeiro exercı́cio mostra que o limite no lado direito de (17.11) de fato existe e esclarece
por que é importante o uso de seqüências de Cauchy na construção, e não seqüências quaisquer. O
segundo exercı́cio esclarece que de é de fato uma função de classes de equivalência (independente dos
representantes x e y tomados em [x] e [y], respectivamente). O terceiro exercı́cio estabelece que de é, de
fato, uma métrica.
E. 17.14 Exercı́cio. Mostre que o limite em (17.11) existe. Para tal, note que, pela desigualdade
triangular,
d(xi , yi ) ≤ d(xi , xj ) + d(xj , yj ) + d(yj , yi)
e, portanto,
|d(xi , yi) − d(xj , yj )| ≤ d(xi , xj ) + d(yj , yi) .
Como x e y são seqüências de Cauchy o lado direito pode ser feito ≤ ǫ para qualquer ǫ > 0, desde que i e
j sejam feitos grandes o suficiente. Complete os detalhes faltantes. 6
E. 17.15 Exercı́cio. Mostre que se x′ ∈ Cd (X) e x′ ∈ [x] (ou seja x′ é uma seqüência de Cauchy
equivalente a x ∈ Cd (X)) então
lim d(x′n , yn ) = lim d(xn , yn ) (17.12)
n→∞ n→∞
para toda y ∈ Cd (X). Sugestão: Usando a desigualdade triangular, tem-se que

d(xn , yn ) ≤ d(xn , x′n ) + d(x′n , yn ) .
Prove daı́ que |d(xn , yn ) − d(x′n , yn )| ≤ d(xn , x′n ) e conclua (17.12) disso.
6
Esse exercı́cio estabelece que a definição (17.11) independe do particular elemento x de [x] adotado.
Analogamente, (17.11) independe do particular elemento y de [y] adotado e, portanto, de é legitimamente
uma função de classes de equivalência.
E. 17.16 Exercı́cio. Mostre que de é uma métrica em X. e Sugestão: positividade e simetria são evidentes.
e
É também fácil ver que d([x], [y]) = 0 se e somente se x ∼ y, o que implica [x] = [y]. Por fim, a desigualdade
triangular para de segue facilmente da desigualdade triangular para d. Complete os detalhes faltantes. 6
e Seja {[xa ], a ∈ N}, uma seqüência de

e é completo18 em relação a d.
Vamos agora mostrar que X
e Cada elemento xa é, ele mesmo, uma seqüência de Cauchy em X: {xa , xa , xa , . . .}.
Cauchy em X. 1 2 3
18
Advertimos o estudante iniciante que a prova de completeza que segue é um tanto delicada e complexa e pode ser
dispensada em uma primeira leitura.
Como [xa ], a ∈ N, é uma seqüência de Cauchy em X e vale que, para todo ǫ > 0, existe A(ǫ) ∈ N
e a ], [xb ]) < ǫ desde que a e b ≥ A(ǫ). Daı́ segue que, pela definição
suficientemente grande tal que d([x
de limite, existe I(ǫ) ∈ N tal que
d(xai , xbi ) < ǫ ,
desde que a e b ≥ A(ǫ) e que i ≥ I(ǫ). Fora isso, como {xai }i∈N é uma seqüência de Cauchy para cada
a, existe para todo ǫ > 0 um Ja (ǫ) tal que
d(xai , xaj ) < ǫ ,
desde que i, j ≥ Ja (ǫ)

Defina-se então para n ∈ N
α(n) := A(1/n) e β(n) := max{I(1/n), Jα(n) (1/n)} .
α(n)
Defina-se também a seqüência x em X dada por xn = xβ(n) , n ∈ N. Como

α(n) α(m) α(n) α(m) α(m) α(m)
d(xn , xm ) = d xβ(n) , xβ(m) ≤ d xβ(n) , xβ(n) + d xβ(n) , xβ(m) < 2/n < 2ǫ′ ,
desde que m > n > 1/ǫ′ , segue que x é uma seqüência de Cauchy.
A classe de equivalência [x] é um candidato a ser o limite em X e da seqüência [xa ].
e (na métrica d)
Provemos que isso é de fato verdade. Temos que

e a a α(n)
d([x ], [x]) = lim d xn , xβ(n) .
n→∞
Porém,
a α(n) a a
a α(n)
d xn , xβ(n) ≤ d xn , xβ(n) + d xβ(n) , xβ(n) .

α(n)
Para ǫ > 0, escolhendo a ≥ A(ǫ) e n > 1/ǫ, tem-se que d xβ(n) , xβ(n) < ǫ. Assim, como lim d xan , xaβ(n) =
a
n→∞
0 (pois xa é uma seqüência de Cauchy), segue que
e a ], [x]) < ǫ ,
d([x
e na métrica de e,
válido, como dissemos, tomando a ≥ A(ǫ). Isso diz-nos que [xa ] converge a [x] ∈ X
portanto, Xe é completo.
Para cada x ∈ X, podemos associar uma seqüência de Cauchy constante x
ei = x, ∀i ∈ N. Seja
e
E : X → X definida por
X ∋ x 7→ E(x) := [e e.
x] ∈ X
É fácil provar que E é injetora. De fato, se x, y ∈ X são tais que E(x) = E(y), então [e x] = [e
y] e
isso implica x e ∼ ye. Isso, por sua vez, significa que d(e
xi , yei ) = 0, Porém, x
ei = x e yei = y e, portanto,
provou-se que d(x, y) = 0, o que implica x = y, como querı́amos.
Há então uma bijeção E de X sobre o subconjunto E(X) := {E(x) ∈ X, e x ∈ X} ⊂ X. e Temos
também que
e
d(E(x), e x], [e
E(y)) = d([e y ]) = lim d(e
xn , yen ) = lim d(x, y) = d(x, y) .
n→∞ n→∞
Assim, aprendemos que a bijeção E preserva distâncias (é, portanto, o que se chama de uma isometria
entre X e E(X)).
Resta-nos mostrar que o conjunto E(X) é denso em X, e ou seja, qualquer elemento de Xe pode ser
e por elementos de E(X). Seja então [x] um elemento de X.
aproximado (no sentido da distância d) e
Como x é uma seqüência de Cauchy, vale que para cada ǫ > 0 tem-se
d(xi , xj ) < ǫ (17.13)
desde que i e j sejam maiores que um certo N(ǫ). Seja a seqüência de Cauchy constante igual ao
elemento xN (ǫ)+1 , ou seja, x^
N (ǫ)+1 . Teremos

e
d([x], x^ e
N (ǫ)+1 ) = d([x], E(xN (ǫ)+1 )) = lim d(xn , x^
N (ǫ)+1 n ) = lim d(xn , xN (ǫ)+1 )
n→∞ n→∞
Agora, por (17.13),

lim d(xn , xN (ǫ)+1 ) < ǫ .
n→∞
e
Logo, d([x], e pode
E(xN (ǫ)+1 )) < ǫ para todo ǫ > 0, o que precisamente afirma que qualquer [x] ∈ X
ser arbitrariamente aproximado no sentido da métrica de por elementos de E(X). Isso completa a
demonstração do Teorema 17.1.
17.2 Topologia de Espaços Métricos
• Conjuntos Abertos em Espaços Métricos
Um espaço métrico possui, naturalmente, muitos subconjuntos. Há, porém, uma classe de subcon-
juntos que tem uma importância destacada, os chamados conjuntos abertos.
Seja X um espaço métrico com uma métrica d. Um subconjunto A de X é dito ser aberto (em
relação à métrica d) se tiver a seguinte propriedade: Para todo x ∈ A podemos achar um número
real δ(x) > 0 (eventualmente dependente de x) tal que para todo x′ ∈ X com a propriedade que
d(x, x′ ) < δ(x) (ou seja, que dista de x menos que δ(x)) vale que x′ também é um elemento de A.
Por essa definição o conjunto X é, ele mesmo, um conjunto aberto em relação à métrica d. O
conjunto vazio ∅ é honorificamente declarado um conjunto aberto em relação à métrica d.
A coleção de todos os conjuntos abertos em X em relação à métrica d é dito ser uma topologia
métrica em X, ou simplesmente uma topologia em X.
E. 17.17 Exercı́cio. Mostre explicitamente que, para a, b ∈ R com a < b, o conjunto (a, b) = {x ∈
R| a < x < b} é um conjunto aberto em relação à métrica d(x, y) = |x − y|. 6
E. 17.18 Exercı́cio. Mostre explicitamente que, para a, b ∈ R com a < b, o conjunto [a, b) = {x ∈
R| a ≤ x < b} não é um conjunto aberto em relação à métrica d(x, y) = |x − y|. 6
E. 17.19 Exercı́cio. Mostre explicitamente que, para r > 0 a bola de raio r em R3 centrada na origem
em relação à métrica Euclidiana, Br = {x ∈ R3 | dE (x, 0) < r}, é um conjunto aberto na topologia definida
por essa métrica. 6
Seja I um conjunto arbitrário de ı́ndices e {Aλ , λ ∈ I} uma coleção de subconjuntos abertos de

um espaço métrico X. Os dois exercı́cios seguintes são muito importantes.
[
E. 17.20 Exercı́cio. Mostre que Aλ é também um conjunto aberto em X. 6
λ∈I
E. 17.21 Exercı́cio. Mostre que se A e B são abertos em X então A ∩ B também o é. 6
As afirmativas contidas nesses dois últimos exercı́cios são importantes pois inspiram a definição de
um outro conceito muito importante: o de espaço topológico. Espaços topológicos serão estudados com
mais detalhe e generalidade no Capı́tulo 19, página 1031.
E. 17.22 Exercı́cio. Seja X é um conjunto não-vazio. Mostre que todo subconjunto não-vazio de X é
aberto em relação à métrica trivial, definida em (17.4), página 943. 6
• Bolas Abertas em Espaços Métricos
Seja X um espaço métrico com uma métrica d e seja x ∈ X. Define-se a bola aberta de raio r > 0
centrada em x como sendo o conjunto
B(x, r) = {y ∈ X, tal que d(x, y) < r} .
Bolas abertas desempenham um papel importante no estudo de espaços métricos.
E. 17.23 Exercı́cio. Prove que toda bola aberta em um espaço métrico é um conjunto aberto na
topologia métrica desse espaço. 6
Ao contrário do que o nome sugere, bolas abertas em espaços métricos não têm necessariamente
um formato “redondo”. Para ver isso, faça os exercı́cios abaixo.
E. 17.24 Exercı́cio. Seja o conjunto R2 com a métrica d∞ definida acima:
d∞ (x, y) = max{|x1 − y1 |, |x2 − y2 |} ,
onde x = (x1 , x2 ) e y = (y1 , y2 ). Desenhe a bola de raio 1 centrada em torno do ponto (0, 0). 6
E. 17.25 Exercı́cio. Seja o conjunto R2 com a métrica d1 definida acima:
d1 (x, y) = |x1 − y1 | + |x2 − y2 | ,
onde x = (x1 , x2 ) e y = (y1 , y2 ). Desenhe a bola de raio 1 centrada em torno do ponto (0, 0). 6
E. 17.26 Exercı́cio. Seja o conjunto R2 com a métrica dp definida acima com p > 1:
dp (x, y) = (|x1 − y1 |p + |x2 − y2 |p )1/p ,

onde x = (x1 , x2 ) e y = (y1 , y2 ). Desenhe a bola de raio 1 centrada em torno do ponto (0, 0). Considere
os casos 1 2. 6
• Métricas equivalentes. Métricas que geram a mesma topologia
Seja M um conjunto e sejam d1 e d2 duas métricas em M. As métricas d1 e d2 são ditas equivalentes,

em sı́mbolos d1 ∼ d2 , se existirem dois números c1 e c2 com 0 < c1 ≤ c2 tais que para todos x, y ∈ M
valha
c1 d1 (x, y) ≤ d2 (x, y) ≤ c2 d1 (x, y) .
E. 17.27 Exercı́cio. Mostre que a relação d1 ∼ d2 define uma relação de equivalência no conjunto de
todas as métricas em M. 6
E. 17.28 Exercı́cio. Sejam d1 e d2 duas métricas equivalentes em M. Mostre, que todo conjunto
d1 -aberto de M é d2 -aberto e vice-versa. Isso significa que se d1 e d2 são equivalentes, ambas geram a
mesma topologia. 6
Os exercı́cios que seguem mostram que a recı́proca não é geralmente verdadeira: métricas que geram
a mesma topologia não são necessariamente equivalentes (no sentido da definição acima).
E. 17.29 Exercı́cio. Seja M um espaço métrico com uma métrica d(x, y), x, y ∈ M. Prove que
d(x, y)
d0 (x, y) :=
1 + d(x, y)
também define uma métrica em M. Sugestão: para demonstrar a desigualdade triangular será útil provar
antes que a função
x
l(x) =
1+x
é crescente na região x ≥ 0. Outra sugestão: dê uma olhada na página 960. 6
E. 17.30 Exercı́cio. Mostre que as métricas d e d0 do exercı́cio E. 17.29 só são equivalentes (no sentido
da definição acima) se d for limitada, ou seja, se existir D > 0 tal que d(x, y) ≤ D para todos x, y ∈ M.
Sugestão: tem-se que l(x) ≤ x para todo x ≥ 0, mas mostre que não existe nenhuma constante c > 0 tal
que cx ≤ l(x) para todo x ≥ 0. Todavia, uma tal constante pode ser achada se nos limitarmos a x ∈ [0, D].
6
E. 17.31 Exercı́cio. Mostre que, mesmo não sendo equivalentes, as métricas d e d0 do exercı́cio E.
17.29 definem a mesma topologia, ou seja, que todo conjunto d-aberto de M é d0 -aberto e vice-versa. 6
• Conjuntos fechados
Paralelamente à noção de conjunto aberto em um espaço métrico existe a noção de conjunto fechado
em um espaço métrico: se M é dotado de uma métrica d, um conjunto F ⊂ M é dito ser fechado em
relação à métrica d se seu conjunto complementar F c = X \ F for aberto em relação à métrica d.
A noção de conjunto fechado é tão relevante quanto a de conjunto aberto e muitas propriedades de
espaços métricos podem ser expressas em termos de propriedades de conjuntos fechados. A seguinte
proposição, que será demonstrada à página 1054, será usada na discussão do Capı́tulo 18, página 994.
Proposição 17.7 Se X é um espaço métrico completo em relação a uma métrica d, então F ⊂ X é
fechado na topologia induzida por essa métrica se e somente se F for igualmente completo em relação
à métrica d. 2
Topologias, e não apenas topologias relacionadas a espaços métricos, serão estudadas com mais
profundidade no Capı́tulo 19, página 1031.
• Completeza de Espaços Métricos e sua Topologia
Vamos neste ponto retornar à nossa discussão sobre a topologia de espaços métricos e discutir sua
relação com a noção de completeza. A verdade é que os dois conceitos não são totalmente relacionados.
O fato de um espaço métrico ser completo não é diretamente relacionado à topologia adotada mas sim
à métrica usada. Em outras palavras, completeza não é uma propriedade topológica!
Para ver isso trataremos de exibir um exemplo de um espaço M dotado de duas métricas que
geram as mesmas topologias, sendo M completo em relação à primeira métrica mas não em relação à
segunda métrica. No exemplo19 em questão
M = {x ∈ R, x ≥ 1}. Em M adotaremos duas métricas:
1 1
d1 (x, y) = |y − x| e d2 (x, y) = − .
y x
E. 17.32 Exercı́cio. Mostre que d2 é de fato uma métrica em M. 6
O fato é que d1 e d2 geram a mesma topologia em M. Para ver isso notemos que d2 (x, y) =
d1 (x, y)/(xy) ≤ d1 (x, y) e, portanto, para todo x ∈ M e todo r > 0 vale Bd1 (x, r) ⊂ Bd2 (x, r). Se A
é aberto em τd2 (a topologia associada à métrica d2 ), então para todo x ∈ A há uma bola Bd2 (x, r(x, A))
inteiramente contida em A e, pelo que acabamos de ver, há também uma bola Bd1 (x, r(x, A)) inteira-
mente contida em A. Daqui se conclui que todo aberto de τd2 é também aberto de τd1 . Logo τd2 ⊂ τd1 .
Igualmente é claro que para todo y da bola aberta Bd1 (x, r) de τd1 podemos achar um r ′ suficiente-
mente pequeno tal que Bd2 (y, r ′ ) ⊂ Bd1 (x, r) (como?). Como as bolas abertas Bd1 geram τd1 isso
implica τd1 ⊂ τd2 , provando a igualdade das duas topologias.
O fato que queremos ressaltar é que M é completo em relação a d1 mas não em relação a d2 . Que M
é completo em relação a d1 pode ser provado diretamente ou pelo seguinte argumento topológico: M é
completo em relação a d1 pois M é um subconjunto fechado de R na topologia usual τR , induzida por
d1 (vide Proposição 17.7, página 959, e a discussão à página 1054, em particular a Proposição 19.9).
Para ver que M não é completo em relação a d2 observe que a seqüência an = n, n ∈ N, é de Cauchy
em relação a d2 mas não há nenhum elemento em M ao qual ela converge. Assim, M é completo em
relação a d1 mas não em relação a d2 , embora ambas as métricas gerem a mesma topologia.
19
Extraı́do de [22].
As considerações acima dizem-nos que completeza não é uma noção de natureza topológica.
Nota. Não se pode argumentar, como fizemos com a métrica d1 , que M é completo em d2 por ser
um subconjunto fechado de R na topologia induzida em R por d2 , pois tal topologia não existe! d2 é
uma métrica em M, mas não em R, ao contrário do que ocorre com d1 . Poder-se-ia, então, argumentar
que d2 é uma métrica em X = (0, ∞) (de fato é, verifique!) e que M é um subconjunto fechado de
X = (0, ∞) nessa topologia (de fato é, verifique!). Sucede, porém, que X = (0, ∞) não é completo
em relação a d2 , pelo mesmo exemplo de acima, e isso viola uma das condições da Proposição 17.7 da
página 959 (ou equivalentemente, da Proposição 19.9, página 1054).
17.3 Pseudo-Métricas
Seja M um conjunto não-vazio. Uma função d : M × M → R que satisfaz
1. Positividade: para todos x, y ∈ M vale d(x, y) ≥ 0.
2. Simetria: para todos x, y ∈ M vale d(x, y) = d(y, x).
3. Desigualdade triangular: para todos x, y, z ∈ M vale d(x, y) ≤ d(x, z) + d(z, y).
4. Para todo x ∈ M vale d(x, x) = 0.
é dita ser uma pseudo-métrica em M.

Como já provamos à página 941, a condição de positividade segue da desigualdade triangular e da
condição de simetria.
O seguinte fato é evidente: toda métrica é uma pseudo-métrica e uma pseudo-métrica d é uma
métrica somente se d(x, y) = 0 implicar x = y. Assim, em uma pseudo-métrica pode haver pontos
distintos x e y tais que d(x, y) = 0.
Passemos agora a discutir uma outra propriedade de pseudo-métricas de particular importância na
teoria dos chamados espaços localmente convexos. Seja d : M × M → R uma pseudo-métrica. Então
f : M × M → R definida por
d(a, b)
f (a, b) =
1 + d(a, b)
é também uma pseudo-métrica.
Em primeiro lugar, é claro que f (a, a) = 0 para todo a ∈ M. Como a simetria de f é também óbvia,
precisamos apenas mostrar que f satisfaz a desigualdade triangular. Para demonstrar isso, notemos
em primeiro lugar que a função
x
l(x) =
1+x
é crescente para x ≥ 0. De fato, se y > x ≥ 0, então
y−x
l(y) − l(x) = > 0.
(1 + y)(1 + x)
Assim, como pela desigualdade triangular para d vale que d(a, b) ≤ d(a, c) + d(c, b), teremos
d(a, b)
f (a, b) =
1 + d(a, b)
d(a, c) + d(c, b)
≤
1 + d(a, c) + d(c, b)
d(a, c) d(c, b)
= +
1 + d(a, c) + d(c, b) 1 + d(a, c) + d(c, b)
d(a, c) d(c, b)
≤ +
1 + d(a, c) 1 + d(c, b)
= f (a, c) + f (c, b) , (17.14)

provando a desigualdade triangular para f . Acima, na passagem da terceira para a quarta linha usamos
os fatos óbvios que
1 + d(a, c) + d(c, b) ≥ 1 + d(a, c) e 1 + d(a, c) + d(c, b) ≥ 1 + d(c, b) ,
pois d é positiva.
Uma conseqüência disso é que se d é uma métrica então f também o é.
• Famı́lias de Pseudo-Métricas
Em muitas situações são definidas em um conjunto M não uma mas toda uma famı́lia de pseudo-
métricas: D = {dα , α ∈ Λ}, Λ sendo um conjunto arbitrário não-vazio de ı́ndices, onde todas as dα
são pseudo-métricas.
Diz-se que uma famı́lia de pseudo-métricas: D = {dα , α ∈ Λ} separa pontos se para quaisquer dois
pontos distintos x, y ∈ M existir um α0 ∈ Λ tal que dα0 (x, y) 6= 0.
Tem-se a seguinte proposição, que mostra que a toda famı́lia contável de pseudo-métricas que separa
pontos vem naturalmente associada uma métrica:
Proposição 17.8 Seja M um conjunto e seja D = {dn , n ∈ N} uma famı́lia contável de pseudo-
métricas em M que separa pontos. Então D : M × M → R definida por
X∞
1 dn (x, y)
D(x, y) =
n=1
2n 1 + dn (x, y)
é uma métrica em M. 2
Prova. Em primeiro lugar notemos que a soma infinita do lado direito é bem definida pois
dn (x, y)
0 ≤ ≤ 1
1 + dn (x, y)
e o fator 2−n garante a convergência. Que D é uma pseudo-métrica é evidente pelo fato que cada termo
dn (x, y)/(1 + dn (x, y)) o é, como vimos acima. Resta mostrar que D(x, y) = 0 implica x = y. Como
a soma contém apenas termos positivos, D(x, y) = 0 só é possı́vel se dn (x, y) = 0 para todo n ∈ N.
Como D separa pontos, se tivéssemos x 6= y haveria pelo menos um m para o qual dm (x, y) 6= 0. Como
tal não é o caso, tem-se forçosamente x = y.
17.4 Espaços de Banach e de Hilbert

Nesta seção suporemos que o leitor está familiarizado com os conceitos de produto escalar e norma em
espaços vetoriais, conceitos esses introduzidos na Seção 2.2.3, página 123, e, respectivamente, na Seção
2.3, página 128 (vide, em particular, página 123). Por simplicidade, trataremos também apenas de
espaços vetoriais sob o corpo dos complexos.
• Espaços de Banach
Se E é um espaço vetorial dotado de uma norma k · kE, podemos definir uma métrica em E através
da seguinte expressão: para u, v ∈ E,
dE(u, v) = ku − vkE .
Essa métrica é dita ser a métrica induzida pela norma k · kE.
E. 17.34 Exercı́cio. Prove que essa expressão de fato satisfaz as propriedades definidoras de métrica.
Sugestão: para demonstrar a desigualdade triangular, use a propriedade de norma ka + bk ≤ kak + kbk para
provar que ku − vkE = ku − w + w − vkE ≤ ku − wkE + kw − vkE para todos u, v, w ∈ E. 6
Como vimos, se E é um espaço vetorial normado, então é também um espaço métrico com a métrica
induzida pela norma, definida acima. Com isso em mente, introduzimos então a seguinte importante
definição:
Definição. Espaços de Banach. Um espaço vetorial B é dito ser um espaço de Banach20 em relação
a uma norma nele definida se for um espaço métrico completo em relação à métrica induzida por essa
norma.
• Espaços de Hilbert
Seja E é um espaço vetorial dotado de um produto escalar h·, ·iE. Como discutimos à página
p 131 e
seguintes, podemos com o uso desse produto escalar definir uma norma em E por kukE := hu, uiE.
Essa norma é dita ser a norma induzida pelo produto escalar h·, ·iE. Caı́mos, assim, no caso de acima,
pois, sendo E um espaço vetorial normado, podemos definir uma métrica em E através da seguinte
expressão: para u, v ∈ E,
q
dE(u, v) = ku − vkE = h(u − v), (u − v)iE .
20
Stefan Banach (1892-1945).
Essa métrica é dita ser a métrica induzida pelo produto escalar h·, ·iE.
Assim, se E é um espaço vetorial dotado de um produto escalar, então é também um espaço métrico
com a métrica induzida pelo produto escalar definida acima. Com isso em mente, introduzimos então
a seguinte importante definição:
Definição. Espaços de Hilbert. Um espaço vetorial H é dito ser um espaço de Hilbert21 em relação
a um produto escalar nele definido se for um espaço métrico completo em relação à métrica induzida
por esse produto escalar.
Nota histórica. A noção abstrata de Espaço de Hilbert foi introduzida por Schmidt22 , por volta
de 1905, inspirado em idéias de Hilbert sobre equações integrais, notadamente sobre a equação de
Fredholm23 , discutida no Capı́tulo 12. A noção abstrata de Espaço de Banach é posterior, tendo sido
introduzida por Banach em 1920. O termo “espaço de Banach” foi cunhado por Fréchet24 .
O estudante deve notar que todo espaço de Hilbert é naturalmente um espaço de Banach. A
recı́proca não é necessariamente verdadeira, pois um espaço de Banach não é necessariamente dotado
de um produto escalar. Para tal é necessário (e suficiente) que a norma satisfaça a identidade do
paralelogramo. Vide página 132 e seguintes.
Também ressaltamos ao estudante que não apenas a existência de um produto escalar é importante
na definição de um espaço de Hilbert, mas também a propriedade de completeza, a qual é fundamental
para a demonstração de várias propriedades importantes dos espaços de Hilbert.
Exemplos 17.17.1 Os espaços vetoriais de dimensão finita Cn são espaços de Banach em relação
à norma kxkp := [|x1 |p + · · · + |xn |p ]1/p para todo p ≥ 1. O caso p = 2 é importante. Cn é um
espaço de Hilbert em relação ao produto escalar hx, yiC := x1 y1 + · · · xn yn O mesmo vale para os
espaços vetoriais reais Rn . Esses fatos serão provados logo adiante quando considerarmos os espaços
de seqüências tipo ℓp , p ≥ 1, os quais, como veremos, são exemplos de espaços de Banach (de dimensão
infinita). O espaço ℓ2 é um espaço de Hilbert. Outro exemplo importante de espaço de Banach é o
espaço vetorial C0 ([0, 1]). Provamos na Proposição 17.6, página 950, que C0 ([0, 1]) é completo na
norma kf k∞ := supx∈[0, 1] |f (x)|. Portanto, C0 ([0, 1]) é um espaço de Banach em relação a essa norma.
Espaços de Hilbert têm uma importância fundamental na Mecânica Quântica e na Teoria Quântica
de Campos. Na Matemática, espaços de Banach e de Hilbert são também fundamentais em áreas como
a teorias das equações diferenciais parciais (e outras). O estudo de espaços de Hilbert e de Banach, e
de operadores lineares agindo nos mesmos, é uma área da Matemática denominada Análise Funcional.
Nestas Notas, estudaremos com mais detalhe as propriedades gerais de espaços de Hilbert no
Capı́tulo 25. No restante desta seção apresentaremos exemplos de espaços de Hilbert e de Banach
estudando espaços de seqüências.
21
David Hilbert (1862-1943).
22
Erhard Schmidt (1876-1959). Schmidt é conhecido por várias contribuições, como o Teorema de Hilbert-Schmidt
sobre operadores compactos e, mais popularmente, pelo método de ortogonalização de Gram-Schmidt (Jørgen Pedersen
Gram (1850-1916)).
23
24
Maurice Renés Fréchet (1878-1973).
17.4.1 Espaços de Seqüências

Vamos denotar por S(C) (por S(R)) a coleção de todas as seqüências de números complexos (reais).
Um fato simples, mas importante de se comentar, é que S(C) é um espaço vetorial complexo (e,
respectivamente, S(R) é um espaço vetorial real). De fato, se a e b são duas seqüências de números
complexos podemos, para quaisquer α, β ∈ C definir αa + βb como sendo a seqüência (αa + βb)n :=
αan + βbn , n ∈ N. (Para S(R), o caso é análogo).
Por simplicidade, iremos daqui para frente discutir apenas o espaço S(C), das seqüências complexas,
mas tudo o que falaremos tem seu análogo para o espaço S(R).
O espaço vetorial S(C) possui vários sub-espaços, alguns de interesse especial, como os espaços ℓp ,
com p ≥ 1, e o espaço ℓ∞ , os quais serão definidos mais adiante. O seguinte exercı́cio exibe um dos
sub-espaços de S(C).
E. 17.35 Exercı́cio. Denotemos por c(C), ou simplesmente c, a coleção de todas as seqüências de

Cauchy de números complexos com relação à métrica usual d(z, w) = |w − z|, ∀z, w ∈ C. Mostre
que c(C) é um sub-espaço de S(C), ou seja, mostre que se {an }n∈N e {bn }n∈N são duas seqüências de
Cauchy de números complexos, então para quaisquer α, β ∈ C a seqüência {αan + βbn }n∈N é também
uma seqüência de Cauchy de números complexos. 6
Outros exemplos de conjuntos de seqüências são os seguintes25 :

ℓ∞ := {an }n∈N ∈ S(C) sup |an | < ∞ . (17.15)
n∈N
( )

c := {an }n∈N ∈ S(C) lim an existe na métrica usual . (17.16)
n→∞
( )

c0 := {an }n∈N ∈ S(C) lim an = 0 . (17.17)
n→∞
( )
∞
X

ℓp := {an }n∈N ∈ S(C) |an |p < ∞ . (17.18)

n=1
( )

s := {an }n∈N ∈ S(C) lim nk |an | = 0 para todo k > 0 . (17.19)
n→∞
( )

j := {an }n∈N ∈ S(C) lim exp(rn)|an | = 0 para todo r > 0 . (17.20)
n→∞
( )

d := {an }n∈N ∈ S(C) an = 0, exceto para um conjunto finito de n’s . (17.21)

25
A ordenação dessa lista de exemplos é inspirada em [116].
Acima, c coincide com a coleção de todas as seqüências de Cauchy de complexos com relação à métrica
usual d(z, w) = |w − z|, ∀z, w ∈ C pois C é completo nessa métrica. Note que c0 ⊂ c. (Por quê?).
Em um exercı́cio à página 966, discutiremos as relações de pertinência entre os conjuntos de seqüências
acima e provaremos que d ⊂ j ⊂ s ⊂ ℓp ⊂ c0 ⊂ c ⊂ ℓ∞ .
E. 17.36 Exercı́cio. Prove que os conjuntos d, j, s, c0 , c e ℓ∞ são espaços vetoriais. 6
Mais adiante (Proposição 17.9, página 966) provaremos que os conjuntos ℓp com p > 0 também são
espaços vetoriais. As provas para 0 0, pertence a s. 6
n
• Seqüências ℓ∞ e ℓp
Na expressão (17.15) definimos o conjunto ℓ∞ , subconjunto de S(C), formado por todas as seqüências
limitadas, ou seja, uma seqüência {an }n∈N é do tipo ℓ∞ se existir algum M ≥ 0 tal que, para todo
n, tem-se |an | < M. Note que as seqüências limitadas não são de Cauchy, mas toda a seqüência de
Cauchy é limitada (por que?). Assim, c(C) ⊂ ℓ∞ .
Exemplo 17.2 As seqüências an = α, an = α/n2 , an = β + α/n an = β + αe−n , an = α(−1)n ,
an = α sen(nβ), ∀n ∈ N, n ≥ 1 são, para todo α, β ∈ C, elementos de ℓ∞ . As seqüências an = α(−1)n
e an = α sen(nβ) não são de Cauchy. ◊
E. 17.38 Exercı́cio importante. Mostre que se {an }n∈N e {bn }n∈N são duas seqüências do tipo ℓ∞
então, para quaisquer α, β ∈ C a seqüência {αan + βbn }n∈N é também do tipo ℓ∞ . 6
Esse exercı́cio diz-nos que ℓ∞ não é apenas um subconjunto, mas também um sub-espaço vetorial de
S(C). Mais adiante, mostraremos que ℓ∞ é um espaço de Banach em relação a uma norma conveniente,
a saber, a norma definida no próximo exercı́cio.
E. 17.39 Exercı́cio importante. Seja a ≡ {an }n∈N ∈ ℓ∞ . Mostre que

kak∞ := sup |an |
n∈N
define uma norma em ℓ∞ . 6
Outra famı́lia importante de sub-conjuntos de S(C) é formada pelas chamadas seqüências ℓp , com
p ∈ R, p > 0: ( )
X ∞

ℓp := {an }n∈N ∈ S(C) |an |p < ∞ .

n=1
1
E. 17.40 Exercı́cio. Seja p > 0. Mostre que para δ > 0 a seqüência an = , n = 1, 2, 3, . . ., é do
1
+δ
n p
1
tipo ℓp . O que acontece se δ = 0? Mostre que an = , n = 1, 2, 3, . . ., é do tipo ℓp para todo p > 1 mas
n
não é do tipo ℓ1 . Mostre que a seqüência an = exp(−n), n = 1, 2, 3, . . ., pertence a todos os espaços ℓp

com p > 0. 6
P
Pela definição, se {an }n∈N é uma seqüência de tipo ℓp , então a série ∞ p
n=1 |an | é convergente. Isso
só é possı́vel se limn→∞ |an | = 0. Isso, por sua vez, significa que para todo n grande o suficiente,
′
digamos, maior que um certo N0 ∈ N, tem-se |an | ≤ 1. Se p′ ≥ p segue então que |an |p ≤ |an |p para
todo n > N0 .
E. 17.41 Exercı́cio. Use esses fatos para concluir que
ℓp ⊂ ℓp ′
para todos p, p′ com 0 < p ≤ p′ . 6
E. 17.42 Exercı́cio. Conclua também que
d ⊂ j ⊂ s ⊂ ℓ p ⊂ ℓp ′ ⊂ c 0 ⊂ c ⊂ ℓ∞ ,
para todos p, p′ com 0 < p ≤ p′ . 6
E. 17.43 Exercı́cio. Dê exemplos de elementos de ℓ∞ que não pertencem a nenhum dos demais conjuntos
acima. 6
E. 17.44 Exercı́cio. Dê exemplos de elementos de c0 que não pertencem a nenhum ℓp com p > 0.
X∞
1 1
Sugestão: considere a seqüência an = com n = 2, 3, 4, . . .. Mostre que p
= ∞ para
ln(n) (ln(n))
Z ∞ Z ∞ u n=2
1 e
todo p > 0. Para isso, use o fato (e prove-o!) que dx = du = ∞ para todo b > 1 e
b (ln(x))p ln(b) u
p
p ∈ R. 6
Vamos agora estabelecer um fato importante sobre os conjuntos de seqüências: combinações lineares
de seqüências ℓp são também seqüências ℓp .
• A estrutura linear dos conjuntos ℓp
Proposição 17.9 Os conjuntos ℓp , com p > 0, são espaços vetoriais complexos. 2
A prova faz uso da Proposição 17.11, página 979, do Apêndice 17.A.
Prova. Há dois casos a considerar em separado: 0 < p < 1 e p ≥ 1.

Caso 0 < p < 1. Sejam a, b ∈ C. Como |a + b| ≤ |a| + |b|, a segunda desigualdade em (17.A.2)
implica
|a + b|p ≤ (|a| + |b|)p ≤ |a|p + |b|p .
Assim, se an e bn são duas seqüências do tipo ℓp com 0 < p < 1, teremos

∞
X ∞
X ∞
X
p p p p
|αan + βbn | ≤ |α| |an | + |β| |bn |p < ∞ (17.22)
n=1 n=1 n=1
para quaisquer α, β ∈ C. Isso provou que a seqüência αan + βbn também é uma seqüência do tipo ℓp
com 0 < p < 1. Assim, ℓp com 0 < p < 1 é um espaço vetorial complexo.
Caso p ≥ 1. Sejam a, b ∈ C. Como |a + b| ≤ |a| + |b|, a segunda desigualdade em (17.A.2) implica
|a + b|p ≤ (|a| + |b|)p ≤ 2p−1 (|a|p + |b|p ) .
Assim, se an e bn são duas seqüências do tipo ℓp com p ≥ 1, teremos

∞
X ∞
X ∞
X
p p−1 p p p−1 p
|αan + βbn | ≤ 2 |α| |an | + 2 |β| |bn |p < ∞
n=1 n=1 n=1
para quaisquer α, β ∈ C. Isso provou que a seqüência αan + βbn também é uma seqüência do tipo ℓp
com p ≥ 1. Isso é o que querı́amos provar.
Mais adiante demonstraremos o seguinte fato muito importante: para todo p ≥ 1 os conjuntos ℓp
não são meramente espaços vetoriais, mas também espaços vetoriais normados, com a norma
"∞ # p1
X
kakp := |an |p , (17.23)
n=1
para a ≡ {an }n∈N ∈ ℓp , p ≥ 1. Que essa expressão de fato define uma norma em ℓp , p ≥ 1, não é nada
óbvio e será provado mais adiante. Mais que isso, cada espaço ℓp , p ≥ 1, é um espaço de Banach em
relação à norma acima.
Veremos também que ℓ2 é um espaço de Hilbert com produto escalar
∞
X
ha, bi := an bn ,
n=1
onde a ≡ {an }n∈N , b ≡ {bn }n∈N ∈ ℓ2 .

Para 0 < p < 1 a situação é diferente. Nesse caso, os conjuntos ℓp ainda são espaços vetoriais, mas
para 0 < p < 1 a expressão (17.23) não representa uma norma. Esse fato reduz um tanto o interesse
nesses espaços. Vale, porém a seguinte afirmação:
Proposição 17.10 Para cada 0 < p < 1 os espaços ℓp são espaços métricos com a métrica
∞
X
Dp (a, b) = |an − bn |p ,
n=1
a, b ∈ ℓp . 2
Prova. A desigualdade triangular para Dp segue facilmente de (17.22).
É possı́vel provar também, por uma modificação do Teorema de Riesz-Fischer, que veremos adiante,
que para cada 0 < p < 1 os espaços ℓp são completos na métrica Dp definida acima.
• As desigualdades de Hölder e Minkowski para seqüências
Vamos aqui enunciar e demonstrar em um caso particular duas desigualdades importantes que
tornaremos a encontrar quando tratarmos da teoria da integração e de espaços de Banach, as quais são
conhecidas como desigualdades de Hölder26 e de Minkowski27 .
Teorema 17.2 Desigualdades de Hölder e de Minkowski para seqüências
I. Desigualdade de Hölder.
Sejam x = {xi }i∈N ∈ ℓp e y = {yi }i∈N ∈ ℓq com 0 0 definido
1 1 1
por + = . Então, vale
p q r
∞
!1/r ∞
!1/p ∞ !1/q
X X X
|xi |r |yi|r ≤ |xi |p |yi|q . (17.24)
i=1 i=1 i=1
Para todo p > 0 (incluindo p = 1) e para todos x = {xi }i∈N ∈ ℓp e y = {yi}i∈N ∈ ℓ∞ vale
"∞ #1/p ∞
!1/p
X X
p p p
|xi | |yi | ≤ |xi | sup |yi| . (17.25)
i∈N
i=1 i=1
II. Desigualdade de Minkowski.

Sejam x = {xi }i∈N e y = {yi }i∈N , ambas do tipo ℓp com p ≥ 1. Então, vale
∞
!1/p ∞
!1/p ∞
!1/p
X X X
|xi + yi|p ≤ |xi |p + |yi |p . (17.26)
i=1 i=1 i=1
As desigualdades de Hölder e Minkowski serão demonstradas nas páginas seguintes. Vamos antes a
alguns comentários.
O caso particular mais relevante da desigualdade de Hölder acima se da para 1 < p < ∞ e 1 < q < ∞
1 1
com + = 1. Nesse caso, a desigualdade de Hölder afirma que
p q
∞ ∞
!1/p ∞ !1/q
X X X
|xi | |yi| ≤ |xi |p |yi|q . (17.27)
i=1 i=1 i=1
26
Otto Ludwig Hölder (1859-1937).
27
Hermann Minkowski (1864-1909). O nome de Minkowski surge também na Teoria da Relatividade.
Um fato importante que extraı́mos da desigualdade de Minkowski é o seguinte: se as seqüências

{xi }i∈N e {yi }i∈N são ambas do tipo ℓp , p ≥ 1, então a seqüência {xi + yi }i∈N também o é (pois o lado
direito de (17.26) é finito). Fora isso, é claro também que se {xi }i∈N é do tipo ℓp então a seqüência
{αxi }i∈N também é do tipo ℓp para qualquer α ∈ C. Esses dois fatos juntos dizem-nos que as seqüências
do tipo ℓp , p ≥ 1, formam um espaço vetorial sobre os complexos. Por isso passaremos a chamar a
coleção de todas as seqüências do tipo ℓp , p ≥ 1, de espaço ℓp , sempre entendido como um espaço
vetorial sobre os complexos.
Mais ainda, a desigualdade de Minkowski afirma que
∞
!1/p
X
kxkp := |xi |p
i=1
é uma norma nos espaços ℓp , p ≥ 1, pois afirma que

kx + ykp ≤ kxkp + kykp , ∀x, y ∈ ℓp ,
as demais condições que definem norma sendo elementares de se provar. Mostraremos logo adiante
(página 975) que os espaços ℓp , p ≥ 1, são exemplos de espaços de Banach em relação às normas acima
e que o espaço ℓ2 é, em particular, um espaço de Hilbert.
Com essa definição de norma, podemos reescrever a desigualdade de Hölder (17.24) na forma
kxykr ≤ kxkp kykq , (17.28)
onde xy é a seqüência produto (xy)i := xi yi , i ∈ N. Note que a desigualdade de Hölder (17.24) afirma
1 1 1
que se x ∈ ℓp e y ∈ ℓq então xy ∈ ℓr com 0 0, incluindo p = 1. Concluı́mos analogamente que se x ∈ ℓp e
y ∈ ℓ∞ então xy ∈ ℓp , p > 0.
• A desigualdade de Hölder. Demonstração
Vamos agora então provar a desigualdade de Hölder (17.24). Para começar, notemos que a desigual-
dade de Hölder (17.24) para r > 0 é conseqüência do caso particular r = 1. De fato, sejam {xi }i∈N ∈ ℓp
e {yi }i∈N ∈ ℓq com
1 1 1
+ = ,
p q r
sendo 0 < p < ∞ e 0 < q < ∞. Definindo novas seqüências {ai }i∈N e {bi }i∈N tais que |ai | = |xi |r e
|bi | = |yi|r e definindo p′ = p/r e q ′ = q/r, teremos
∞
X ∞
X ∞
X ∞
X
p′ p q′
|ai | = |xi | < ∞ e |bi | = |yi|q < ∞
i=1 i=1 i=1 i=1
o que prova que {ai }i∈N ∈ ℓp′ e {bi }i∈N ∈ ℓq′ . Como
1 1
′
+ ′ = 1,
p q
então, supondo válida a desigualdade de Hölder (17.24) no caso r = 1, teremos
∞
!1/r "∞ #1/r
X X
|xi |r |yi|r = |ai ||bi |
i=1 i=1
 !1/p′ !1/q′ 1/r

∞
X ∞
X
(17.24) com r=1 ′ ′
≤  |ai |p |bi |q 
i=1 i=1
 !r/p !r/q 1/r

∞
X ∞
X
=  |xi |p |yi|q 
i=1 i=1
∞
!1/p ∞
!1/q
X X
= |xi |p |yi|q ,
i=1 i=1
que é a desigualdade de Hölder (17.24) no caso geral r > 0. Por causa disso, basta demonstrarmos
(17.24) para o caso r = 1, que é o que faremos.
Nossa estratégia será provar primeiro a desigualdade de Hölder (17.24), com r = 1, para seqüências
finitas e depois generalizar para seqüências infinitas.
Sejam x1 , . . . , xn e y1 , . . . , yn duas seqüências finitas arbitrárias de números complexos (n ∈ N). A
desigualdade de Hölder afirma que
n n
!1/p n
!1/q
X X X
|xi ||yi| ≤ |xi |p |yi|q ,
i=1 i=1 i=1
1 1
para quaisquer p, q com 1 < p < ∞ e 1 < q < ∞ e tais que + = 1. Vamos a isso. Em primeiro
p q
lugar, note que a desigualdade é trivialmente verdadeira caso todos os xi ou todos os yi sejam nulos,
pois nesse caso tanto o lado direito quanto o lado esquerdo da desigualdade são iguais a zero.
Vamos então considerar o caso em que os xi e os yi não são todos identicamente nulos. Seja, para
um j fixo
|xj |p |yj |q
a = n e b = n .
X X
p q
|xi | |yi|
i=1 i=1
Usando a desigualdade de Young (17.A.1), tratada no Apêndice 17.A, página 978, temos que
|xj ||yj | 1 |xj |p 1 |yj |q

!1/p !1/q ≤ n + n .
n
X X n p X q X
|xi |p |yi|q |xi |p |yi|q
i=1 i=1
i=1 i=1
Somando ambos os lados da desigualdade para todo j entre 1 e n, teremos

n
X n
X n
X
|xj ||yj | |xj |p |yj |q
j=1 1 j=1 1 j=1 1 1
!1/p !1/q ≤ n + n = + = 1, (17.29)
n
X n
X p X p
q X q
p q
|xi |p |yi|q |xi | |yi|
i=1 i=1
i=1 i=1

Vamos agora generalizar a desigualdade de Hölder para seqüências infinitas.
Seja {xi }i∈N uma seqüência do tipo ℓp e seja {yi }i∈N uma seqüência do tipo ℓq com 1 < p < ∞,
1 < q < ∞ e 1/p + 1/q = 1. Como vimos, temos para qualquer n ∈ N a desigualdade
n n
!1/p n
!1/q
X X X
|xi ||yi| ≤ |xi |p |yi|q .
i=1 i=1 i=1
Assim, segue que

n ∞
!1/p ∞
!1/q
X X X
p q
|xi ||yi| ≤ |xi | |yi| < ∞.
i=1 i=1 i=1
n
X
Essa desigualdade vale para todo n e diz, em particular, que a seqüência sn = |xi ||yi|, n ∈ N, é
i=1
monótona crescente e limitada. Assim, existe lim sn e vale
n→∞
∞ ∞
!1/p ∞
!1/q
X X X
|xi ||yi| ≤ |xi |p |yi|q < ∞.
i=1 i=1 i=1
Essa última relação é a de Hölder (17.24), com r = 1. Isso provou (17.24) para todo r > 0.
A desigualdade de Hölder (17.27) envolve seqüências dos tipos ℓp e ℓq com 1/p + 1/q = 1, sendo que
1 < p < ∞ e 1 < q < ∞. É de se notar que os casos p = 1 ou q = 1 foram excluı́dos. Há também uma
desigualdade como a de Hölder envolvendo a seqüências do tipo ℓp e ℓ∞ , incluindo o caso p = 1. Sejam
{xi }i∈N uma seqüência do tipo ℓp com p > 0 e {yi }i∈N uma seqüência do tipo ℓ∞ . Então, é bem fácil
de se verificar que
"∞ #1/p ∞
!1/p
X X
p p p
|xi | |yi| ≤ |xi | sup |yi| .
i∈N
i=1 i=1
Essa é a desigualdade de Hölder (17.25).

A desigualdade de Hölder pode ser generalizada ainda mais, como veremos quando tratarmos da
teoria da integração. Vamos agora provar uma das conseqüências da desigualdade de Hölder, conhecida
como desigualdade de Minkowski.
• A desigualdade de Minkowski. Demonstração

Novamente, nossa estratégia será considerar primeiro seqüências finitas e depois estender o obtido
para seqüências infinitas.
Sejam x1 , . . . , xn e y1 , . . . , yn duas seqüências finitas arbitrárias de números complexos (n ∈ N). A
desigualdade de Minkowski afirma que
n
!1/p n
!1/p n
!1/p
X X X
p p p
|xi + yi| ≤ |xi | + |yi|
i=1 i=1 i=1
para qualquer p ≥ 1. Vamos demonstrá-la. O caso p = 1 é trivial (por que?). Consideremos então
p > 1. Teremos que
n
X n
X
|xi + yi|p = |xi + yi ||xi + yi |p−1
i=1 i=1
n
X n
X
≤ |xi ||xi + yi |p−1 + |yi ||xi + yi|p−1 . (17.30)
i=1 i=1
Usando a desigualdade de Hölder (caso r = 1) podemos dizer que
n n
!1/p n
!1/q
X X X
|xi ||xi + yi |p−1 ≤ |xi |p |xi + yi |q(p−1) ,
i=1 i=1 i=1
onde 1/p + 1/q = 1, ou seja, p = q(p − 1). A última desigualdade diz então que
n n
!1/p n
!1/q
X X X
p−1 p p
|xi ||xi + yi| ≤ |xi | |xi + yi |
i=1 i=1 i=1
e, analogamente,
n n
!1/p n
!1/q
X X X
|yi ||xi + yi |p−1 ≤ |yi |p |xi + yi|p .
i=1 i=1 i=1
Substituindo estas duas últimas relações em (17.30), teremos

 !1/p !1/p  n !1/q
Xn X n X n X
|xi + yi|p ≤  |xi |p + |yi |p  |xi + yi |p ,
i=1 i=1 i=1 i=1
donde tiramos que

n
!1/p n
!1/p n
!1/p
X X X
|xi + yi|p ≤ |xi |p + |yi |p , (17.31)
i=1 i=1 i=1

Assim como a desigualdade de Hölder, a desigualdade de Minkowski pode ser generalizada para
seqüências infinitas. Sejam {xi }i∈N e {yi}i∈N seqüências infinitas de de números complexos, ambas do
tipo ℓp . Temos que, para qualquer n ∈ N,
n
!1/p n
!1/p n
!1/p ∞
!1/p ∞
!1/p
X X X X X
|xi + yi |p ≤ |xi |p + |yi|p ≤ |xi |p + |yi |p < ∞
i=1 i=1 i=1 i=1 i=1
n
!1/p
X
Como a desigualdade vale para qualquer n, segue que a seqüência sn = |xi + yi |p , n ∈ N, é
i=1
monótona crescente e limitada e, portanto, converge. Fora isso, vale
∞
!1/p ∞
!1/p ∞
!1/p
X X X
|xi + yi |p ≤ |xi |p + |yi |p < ∞.
i=1 i=1 i=1
Essa é a desigualdade de Minkowski para seqüências infinitas de números complexos {xi }i∈N e
{yi }i∈N , ambas do tipo ℓp com p ≥ 1. Isso completa a prova do Teorema 17.2.
Em [122] e leitor poderá encontrar uma interessante demonstração da desigualdade de Minkowski

que não faz uso da de Hölder.
• Dualidade em espaços ℓp
Na Proposição 26.4, página 1262, demonstraremos com o uso da desigualdade de Hölder que ℓq
pode ser identificado como o dual topológico de ℓp (e vice-versa) para todos 1 < p < ∞ e 1P< q < ∞
relacionados por 1p + 1q = 1, ou seja, todo funcional linear contı́nuo em ℓp é da forma lb (a) = ∞
k=1 bk ak ,
para todo a ∈ ℓp , onde a seqüência bk , k ∈ N, pertence a ℓq .
• A desigualdade de Cauchy para seqüências. Um produto escalar para ℓ2
A desigualdade de Hölder tem um caso particular bastante especial. Sejam {xi }i∈N e {yi }i∈N duas
seqüências de números complexos complexos do tipo ℓ2 . Então a desigualdade de Hölder nos diz que
∞ ∞
!1/2 ∞ !1/2
X X X
|xi ||yi | ≤ |xi |2 |yi|2 . (17.32)
i=1 i=1 i=1
Essa desigualdade é conhecida como desigualdade de Cauchy (para seqüências) e é, sem exagero, uma
das desigualdades mais importantes. Muitos resultados importantes são extraı́dos dela, alguns dos
quais iremos tratar adiante.
A expressão (17.32) mostra-nos que para quaisquer {xi }i∈N , {yi}i∈N ∈ ℓ2 a série
∞
X
xi yi =: hx, yiℓ2 (17.33)
i=1
é absolutamente convergente e, portanto, finita. Com isso, o lado esquerdo define um produto escalar
em ℓ2 , que denotamos por hx, yiℓ2 .
E. 17.45 Exercı́cio. Prove essas últimas afirmações, ou seja, prove que hx, yiℓ2 é um produto escalar
em ℓ2 . 6
Como veremos adiante, ℓ2 é completo na norma relacionada a esse produto escalar, que é a norma
k · k2 . Isso prova que ℓ2 é um espaço de Hilbert.
Veremos agora uma aplicação da desigualdade de Minkowski.
• As Métricas dp em Cn
Seja X = Cn (ou Rn ) para algum n ∈ N e seja a seguinte função em X × X:

1
dp (x, y) = (|x1 − y1 |p + · · · + |xn − yn |p ) p ,
onde p ∈ R, p ≥ 1, x = (x1 , . . . , xn ) ∈ Cn e y = (y1 , . . . , yn ) ∈ Cn .

Mostrar que, para p ≥ 1, dp define uma métrica em X é bem simples. A única dificuldade está em
demonstrar a desigualdade triangular, o que pode ser feito facilmente com o uso da desigualdade de
Minkowski mostrada acima.
E. 17.46 Exercı́cio. Usando a desigualdade de Minkowski, mostre que dp satisfaz a desigualdade

triangular, ou seja, que dp (x, y) ≤ dp (x, z) + dp (z, y) para p ≥ 1 e quaisquer x = (x1 , . . . , xn ),
y = (y1 , . . . , yn ) e z = (z1 , . . . , zn ) ∈ Cn . 6
Para o caso particular p = 2 a métrica d2 é idêntica à métrica Euclidiana dE introduzida anterior-

mente. Nesse sentido as métricas dp são um tipo de generalização da métrica Euclidiana usual.
• Semi-normas em ℓp , p ≥ 1
Para cada n ∈ N podemos definir em ℓp , p ≥ 1, a semi-norma (o conceito de semi-norma encontra-se

à página 130)
" n #1/p
X
kxkp, n = |xj |p . (17.34)
j=1
Note que kxkp, n é de fato uma semi-norma em ℓp , p ≥ 1, pois satisfaz kλxkp, n = |λ|kxkp, n para todo
λ∈Ce
kx + ykp, n ≤ kxkp, n + kykp, n (17.35)
para todos x, y ∈ ℓp , p ≥ 1, devido à desigualdade de Minkowski para seqüências finitas (17.31).
Note também que
kxkp, n ≤ kxkp < ∞ (17.36)
para todo x ∈ ℓp , p ≥ 1 e todo n ∈ N. Por fim, para qualquer x ∈ ℓp , vale
kxkp = lim kxkp, n .

n→∞
• O Teorema de Riesz-Fischer para seqüências. Completeza dos espaços ℓ∞ e ℓp , p ≥ 1

Vamos agora mostrar que os espaços ℓp , p ≥ 1, e ℓ∞ são completos em relação às suas respectivas
normas. Essa afirmação, especialmente na sua forma mais geral, em espaços de funções mensuráveis
(tratada na Seção 23.4.2, página 1171), é conhecida como Teorema de Riesz28 -Fischer29 e data de 1907.
Seja p ≥ 1, fixo, e seja {am }m∈N , uma seqüência de elementos de ℓp . Como cada am é uma seqüência
de números complexos, indicaremos seus elementos por am i , i ∈ N. Assim, convencionamos que o ı́ndice
superior indexa a seqüência e o inferior é o ı́ndice de cada elemento da seqüência.
Suponhamos que {am }m∈N seja uma seqüência de Cauchy em ℓp na métrica induzida pela norma
k · kp . Isso significa que para todo ǫ > 0 existe um inteiro N(ǫ) > 0 tal que kan − am kp < ǫ sempre que
m, n > N(ǫ). Assim, se m, n > N(ǫ), é fácil ver que, para os elementos am n
i e ai isso significa que
"∞ #1/p
X
|am n
i − ai | ≤ |am n p
j − aj | = kan − am kp < ǫ .
j=1
Isso diz-nos que, para cada i fixo, a seqüência de números {ani }n∈N é uma seqüência de Cauchy em C
e, portanto, converge (pois C é completo). Seja αi ∈ C o limite dessa seqüência.
A seqüência α = {αi }i∈N é um forte candidato a ser o limite da seqüência {an }n∈N na métrica
definida pela norma k · kp . Colocamo-nos, então, as seguintes questões: 1. Será a seqüência α também
um elemento de ℓp ? 2. Se a resposta à pergunta anterior for positiva, será que a seqüência am converge
à seqüência α = {αi }i∈N na norma de ℓp ? Se a resposta a essas perguntas for positiva, estará provado
que ℓp é completo.
Seja ǫ > 0 arbitrário. Vamos definir uma seqüência crescente de números inteiros e positivos Nk (ǫ),
k = 1, 2, 3, . . . com Nk+1(ǫ) > Nk (ǫ), da seguinte forma: Nk (ǫ) é tal que kam − an kp < ǫ/2k para
todos m, n > Nk (ǫ). Note que uma tal seqüência Nk (ǫ) sempre pode ser encontrada pois, por hipótese,
{am }m∈N é uma seqüência de Cauchy em k · kp . Vamos agora escolher uma seqüência crescente de
ı́ndices n1 < n2 < · · · < nk−1 < nk < · · · tais que nk > Nk (ǫ). A essa seqüência está associada a
sub-seqüência {ank }k∈N . Para simplificar a notação, denotaremos bk ≡ ank , k = 1, 2, 3, . . .. Tem-se
ǫ
kbl+1 − bl kp < . (17.37)
2l
pois nl e nl+1 são maiores que Nl (ǫ). Note que para cada i, bki converge a αi quando k → ∞.
Com essas definições, teremos para todo k > 1 que (verifique!)
k−1
X
k 1

b −b = bl+1 − bl .
l=1
28
Frigyes Riesz (1880-1956).
29
Ernst Sigismund Fischer (1875-1954).
Utilizando as semi-normas k · kp, n , definidas em (17.34), e usando (17.35) e (17.36) e (17.37), teremos

Xk−1

k 1 l+1 l
kb kp, n = b + b −b

l=1 p, n
k−1
X
(17.35) l+1
≤ 1
kb kp, n + b − bl
p, n
l=1
k−1
X
(17.36) l+1
≤ 1
kb kp + b − bl
p
l=1
k−1
X ∞
X
(17.37) ǫ ǫ
< kb1 kp + l
≤ kb1
k p + l
= kb1 kp + ǫ .
2 2
l=1 l=1
Assim,
kbk kp, n < kb1 kp + ǫ . (17.38)
Pn
k p 1/p
Note que o lado esquerdo é i=1 |bi | e envolve uma soma finita de |bki |′ s. Assim, como cada bki
converge a αi quando k → ∞ temos, tomando o limite k → ∞,
" n #1/p " n #1/p
X X
lim |bki |p = |αi |p = kαkp, n .
k→∞
i=1 i=1
Como o lado direito de (17.38) não depende de k, concluı́mos que kαkp, n ≤ kb1 kp + ǫ para todo n ∈ N.
Agora, isso diz que
Xn
p
|αi |p ≤ kb1 kp + ǫ
i=1
para todo n ∈ N. O lado direito não depende de n. Como o lado esquerdo é uma seqüência crescente e
limitada
P∞ (pelo lado direito), segue que o lado esquerdo converge quando n → ∞. Isso prova então que
p
i=1 |αi | < ∞, ou seja, α ∈ ℓp .
Resta-nos agora responder à segunda pergunta colocada à página 975 e mostrar que a seqüência am
converge a α em relação à norma k · kp .
Repetindo o mesmo raciocı́nio que conduziu a (17.38), apenas mantendo b1 do lado esquerdo,
concluı́mos que kbk − b1 kp, n < ǫ. Novamente, usando o mesmo argumento de acima, podemos tomar
o limite k → ∞ e obter kα − b1 kp, n ≤ ǫ Como o lado direito independe de n, segue novamente pelo
mesmo raciocı́nio de acima que kα − b1 kp ≤ ǫ Isso significa30 que para todo ǫ > 0 existe b1 ∈ ℓp tal
que kα − b1 kp ≤ ǫ. Como b1 é escolhido na seqüência am , isso prova que α = limm→∞ am na topologia
definida por k · kp .
Com isso, provamos que todo ℓp com p ≥ 1 é completo na norma definida por k · kp e é, portanto,
um espaço de Banach nessa norma. Como comentamos, isso também implica que ℓ2 é um espaço de
Hilbert com relação ao produto escalar definido em (17.33).
30
O estudante aqui talvez tenha que recordar a maneira como b1 = an1 foi definido no parágrafo que antecede (17.37).
A demonstração que ℓ∞ é um espaço de Banach em relação à norma k · k∞ é idêntica, adotando-se

nesse caso as semi-normas kxk∞, n := sup |xi |.
1≤i≤n
E. 17.47 Exercı́cio. Complete os detalhes da prova que ℓ∞ é um espaço de Banach em relação à norma
k · k∞ . 6
Apêndices
17.A Algumas Desigualdades Básicas
Demonstraremos aqui algumas desigualdades numéricas básicas que foram usadas no presente capı́tulo
e serão também empregadas em outros.
• A desigualdade de Young
A demonstração da desigualdade de Hölder faz uso de uma desigualdade numérica conhecida como
desigualdade de Young31 . Como essa desigualdade tem interesse por si só e outras aplicações, vamos
apresentar sua demonstração.
Sejam a e b dois números reais, ambos maiores ou iguais a zero e sejam p e q ambos tais que
1 1
1 < p < ∞ e 1 < q < ∞, mas tais que + = 1. Vamos então mostrar que para todo a, b ≥ 0
p q
a b
a1/p b1/q ≤ + , (17.A.1)
p q
sendo que a igualdade só é válida caso a = b. A desigualdade (17.A.1) é denominada desigualdade de
Young.
Para prová-la, notemos em primeiro lugar note que se a = 0 ou b = 0 a (17.A.1) acima é trivialmente
satisfeita pois o lado esquerdo é sempre zero, enquanto que o lado direito é sempre maior ou igual a zero.
a b
Vamos estão supor que a e b são ambos não-nulos. Tudo o que queremos é provar que −a1/p b1/q + +
p q
α 1
é sempre maior ou igual a zero. Podemos escrever a última expressão como b −t + αt + q , onde
α = 1/p e t = a/b. Como 1 0, tem-se

f ′ (x) = α 1 − xα−1 e f ′′ (x) = α(1 − α)xα−2 > 0 .
Assim, f (x) tem um único mı́nimo local em x = 1, onde f (1) = 0 (verifique). Fora isso, f (0) = 1q > 0
e lim f (x) = +∞. Desses fatos concluı́mos facilmente que f (x) ≥ 0 para todo x ≥ 0, a igualdade só
x→∞
se dando caso x = 1. Isso fecha o que querı́amos provar.
E. 17.48 Exercı́cio. Mostre que no caso 0 < p < 1 a desigualdade (17.A.1) se reverte (≤ deve ser
substituı́do por ≥). Nesse caso 1/q < 0. 6
• Desigualdades envolvendo somas de potências

31
William Henry Young (1863-1942).
As desigualdades apresentadas na seguinte proposição são muito úteis, especialmente no propósito

de demonstrar que os conjuntos de seqüências ℓp são espaços vetoriais, o mesmo se dando com os
conjuntos de funções Lp (M, dµ) dos quais trataremos no Capı́tulo 23.
Proposição 17.11 Sejam a ≥ 0 e b ≥ 0 dois números reais não-negativos.
I. Para todo p tal que 0 < p < 1 tem-se
ap + bp
≤ (a + b)p ≤ ap + bp . (17.A.2)
21−p
II. Para todo p tal que p ≥ 1 tem-se
ap + bp ≤ (a + b)p ≤ 2p−1 (ap + bp ) . (17.A.3)
Prova.
Caso I. Tomemos 0 0. Nesse caso, podemos fatorar ap e a desigualdade acima
ficaria, p p
b b
1+ ≤ 1+ .
a a
Para provar isso, tudo o que desejamos é provar que f (x) := (1 + x)p − 1 − xp satisfaz f (x) ≤ 0 para
todo x ≥ 0. De fato, tem-se,
" #
1
f ′ (x) = −pxp−1 1 − 1−p . (17.A.5)
1 + x1
Como 1 + x1 ≥ 1 e 1 − p > 0, segue que f ′ (x) ≤ 0 para todo x ≥ 0. Com isso, provamos que f é
não-crescente. Como f (0) = 0, segue que f (x) ≤ 0 para todo x ≥ 0. Isso provou (17.A.4).
Vamos agora provar que
ap + bp
≤ (a + b)p .
21−p
Para x ≥ 0 e 0 < p < 1 a função ϕ(x) = xp é côncava. Portanto, para qualquer λ com 0 ≤ λ ≤ 1,
tem-se
λϕ(a) + (1 − λ)ϕ(b) ≤ ϕ (λa + (1 − λ)b) .
Para λ = 1/2, isso fica p
ap + bp a+b
≤
2 2
e a prova de (17.A.2) está completa.
Caso II. Para o caso p = 1 a desigualdade (17.A.3) é evidente. Tomemos, então, p > 1 fixo. Vamos
primeiramente provar a seguinte desigualdade: para quaisquer a, b ≥ 0 vale
ap + bp ≤ (a + b)p . (17.A.6)
Para a = 0 isso é óbvio. Seja, então, a > 0. Nesse caso, podemos fatorar ap e a desigualdade acima
ficaria, p p
b b
1+ ≥ 1+ .
a a
Para provar isso, tudo o que desejamos é provar que f (x) := (1 + x)p − 1 − xp satisfaz f (x) ≥ 0 para
todo x ≥ 0. Agora, por (17.A.5),
" p−1 #
1
f ′ (x) = −pxp−1 1 − 1 + .
x
Como 1 + x1 ≥ 1 e p − 1 > 0, segue que f ′ (x) ≥ 0 para todo x ≥ 0. Com isso provamos que f é
crescente. Como f (0) = 0, segue que f (x) ≥ 0 para todo x ≥ 0, provando o que querı́amos.
Vamos agora provar que
(a + b)p ≤ 2p−1 (ap + bp ) .
Para x ≥ 0 e p > 1 a função ϕ(x) = xp é convexa. Portanto, para qualquer λ com 0 ≤ λ ≤ 1, tem-se
ϕ (λa + (1 − λ)b) ≤ λϕ(a) + (1 − λ)ϕ(b) .
Para λ = 1/2, isso fica p

a+b ap + bb
≤
2 2
e a prova de (17.A.3) está completa.
17.B Números reais e p-ádicos

Neste apêndice ilustraremos a construção do completamento canônico de espaços métricos, desenvolvida
a partir da página 952, apresentando brevemente uma construção do conjunto dos números reais a partir
dos racionais que é também devida a Cantor. O mérito dessa construção não é apenas ilustrativo, pois o
mesmo conjunto de idéias permite a construção de outros conjuntos “exóticos” de números, os chamados
números p-ádicos (p, aqui, sendo um número primo).
A estudo desta seção não é essencial ao que segue e pode ser dispensado em uma primeira leitura.
A demonstração de completeza de R, em particular, é um tanto delicada e complexa.
• Uma Métrica no Conjunto dos Racionais
Considere o conjunto Q dos números racionais. e considere a função d : Q × Q → Q+ dada por

d(r, s) = |r − s|. Esta função tem as seguintes propriedades
1. d(r, s) ∈ Q+ para todo r, s ∈ Q.
2. d(r, s) = 0 se e somente se r = s.
3. Para todo a e b ∈ Q vale d(a, b) = d(b, a).
4. Para todo a, b e c ∈ Q vale d(a, b) ≤ d(a, c) + d(c, b).
A função d define o que se chama de uma métrica em Q. A desigualdade d(a, b) ≤ d(a, c) + d(c, b) é
chamada desigualdade triangular.
Nota. Como a princı́pio desejamos “construir” o conjunto dos números reais R, devemos tomar o
cuidado de definir a métrica d assumindo valores em Q+ , o conjunto dos racionais ≥ 0, não em R+ ,
como fizemos até agora. Por essa razão, algumas adaptações ao que fizemos ate agora serão necessárias.
Uma seqüência de números racionais é uma função N → Q. Para uma seqüência a denota-se
freqüentemente seu valor a(i) por ai para i ∈ N.
• Seqüências de Cauchy de Números Racionais
Uma seqüência a de números racionais é dita ser uma seqüência de Cauchy32 em relação à métrica
d se para todo ǫ ∈ Q+ existir um número natural N(ǫ) (eventualmente dependente de ǫ) tal que
d(ai , aj ) = |ai − aj | < ǫ para todo i e j tais que i > N(ǫ) e j > N(ǫ).
Uma seqüência de números racionais a converge para um número racional r no sentido da métrica
d se para todo ǫ ∈ Q+ existir um número natural N(ǫ) (eventualmente dependente de ǫ) tal que
d(r, ai ) < ǫ para todo i > N(ǫ).
E. 17.49 Exercı́cio. Prove que se uma seqüência a converge a um número racional r então a é uma
seqüência de Cauchy. Sugestão: use a desigualdade triangular. 6
• Números Reais. A Construção de Cantor. Completamento
Como já discutimos em páginas anteriores, há seqüências de Cauchy de números racionais que não
convergem a números racionais. Esse fato é a motivação de uma construção muito importante: a dos
números reais.
Para mostrar como essa construção é feita (o que faremos aqui com o objetivo de ilustrar ou-
tras construções análogas futuras) vamos primeiramente considerar o conjunto C ≡ C(Q) de todas as
seqüências de Cauchy de números racionais e construir em C uma relação de equivalência da seguinte
forma. Dizemos que duas seqüências de Cauchy a e b são equivalentes se a seqüência ci = ai − bi ,
i ∈ N converge a zero. Ou seja, a ∼ b se para todo racional ǫ > 0 existir inteiro N > 0 tal que
d(ai , bi ) = |ai − bi | < ǫ para todo i > N.
E. 17.50 Exercı́cio. Mostre que se a e b são seqüências de Cauchy então a seqüência ci = ai − bi , i ∈ N

também o é. Sugestão: use a desigualdade triangular. 6
32
E. 17.51 Exercı́cio. Prove que a relação acima é de fato uma relação de equivalência. 6
Isto posto, sabemos que o conjunto C pode ser escrito como uma união disjunta de suas classes de
equivalência pela relação acima. O conjunto dos números reais R é então definido como sendo o conjunto
formado por essas classes de equivalência ou, se quiserem, como o conjunto formado escolhendo-se um
elemento de cada classe de equivalência, ou seja, por uma seqüência de Cauchy de números racionais
em relação à métrica d.
Assim, uma seqüência de Cauchy como a seqüência ai = 1 + 1/1! + 1/2! + · · · + 1/i! acima define
um número real (no caso o número e).
Se x é uma seqüência de Cauchy de racionais em relação à métrica d denotaremos sua classe de
equivalência por [x]. Pela definição, [x] é um número real.
É possı́vel definir em R uma relação de ordem total da seguinte forma: dizemos que [x] < [y] se
existirem seqüências de racionais x0 ∈ [x] e y 0 ∈ [y] e um inteiro I tais que x0i < yj0 para todo i, j > I e
se [x0 − y 0] 6= [0], onde [0] é a classe que contém a seqüência identicamente nula. (Essa última condição
é para evitar seqüências com x0i < yi0 mas que se aproximem no limite i → ∞).
E. 17.52 Exercı́cio. Mostre que isso define uma relação de ordem total em R. 6
Poderı́amos tentar fazer de R um espaço métrico, definindo, por analogia com o que fizemos ante-
riormente na construção do completamento canônico, uma métrica em R por
e
d([x], [y]) = lim d(xn , yn ) .
n→∞
Isso não pode ser feito dessa forma, porém, pois o a seqüência de racionais d(xn , yn ) = |xn − yn | pode
não ter limite nos racionais, mas sim nos reais. É fácil provar, porém, que a seqüência de racionais
d(xn , yn ), n ∈ N, é uma seqüência de Cauchy na métrica d. Para tal, note que, pela desigualdade
triangular,
d(xi , yi ) ≤ d(xi , xj ) + d(xj , yj ) + d(yj , yi)
e, portanto,
|d(xi , yi) − d(xj , yj )| ≤ d(xi , xj ) + d(yj , yi) .
Como o x e y são seqüências de Cauchy o lado direito pode ser feito ≤ ǫ ∈ Q+ para qualquer ǫ > 0,
desde que i e j sejam feitos grandes o suficiente.
Com isso, sabemos que a seqüência d(xn , yn ), n ∈ N, pertence a alguma classe de equivalência que
denotaremos por [d(x, y)]. Com isso, podemos agora definir uma métrica em R por
e
d([x], [y]) = [d(x, y)] .
E. 17.53 Exercı́cio. Mostre que essa definição não depende dos particulares representantes x e y que
tomarmos nas classes [x] e [y]. 6
E. 17.54 Exercı́cio. Mostre que de define uma métrica em R. 6

Com os ingredientes de acima (a definição de R, de ordem em R e da métrica de em R), podemos

definir as noções de convergência em R e de seqüência de Cauchy em R de modo análogo ao que fizemos
anteriormente: Uma seqüência de reais [x]n ≡ [xn ], n ∈ N, converge ao real [x] se para todo [ǫ] > 0
e n , [x]) < [ǫ] sempre que n > N. Uma seqüência de reais [x]n é dita
existir um inteiro N tal que d([x]
ser uma seqüência de Cauchy em relação à métrica de se para todo [ǫ] > 0 existir um inteiro N tal que
e m , [x]m ) < [ǫ] sempre que m > N e n > N.
d([x]
Coloca-se então a grande questão, será R completo? Ou seja, será toda a seqüência de Cauchy de
reais convergente a um número real?
Provemos que sim. Seja [x]n ≡ [xn ], n ∈ N, uma seqüência de Cauchy em relação à métrica d. e
Então para qualquer [ǫ] ∈ R existirá inteiro N(ǫ)
e m , [x]m ) = [|xm − xn |] < [ǫ]
d([x] (17.B.7)
sempre que m > N(ǫ) e n > N(ǫ). Vamos tomar [ǫ] um racional ou seja, suporemos que exista em [ǫ]
uma seqüência constante ǫi = ǫ ∈ Q+ .
A condição (17.B.7) significa que existem seqüências de racionais |xm n
i − xi | e um inteiro I(ǫ) tais
que |xm n
i − xi | < ǫ para todos m > N(ǫ) e n > N(ǫ) e i > I(ǫ).
Como cada xm é uma seqüência de Cauchy de racionais, existe para todo ǫ ∈ Q+ um inteiro Jm (ǫ)
tal que |xm m
i − xj | < ǫ sempre que i, j > Jm (ǫ).
Vamos então tomar ǫ = 1/k, k ∈ N e definir
a(k) := N(1/k) + 1, e b(k) := max{I(1/k), Ja(k) (1/k)} + 1

a(k)
e xk = xb(k) . Teremos,

a(k) a(k ′ ) a(k) a(k) a(k) a(k ′ )
|xk − xk′ | = xb(k) − xb(k′ ) ≤ xb(k) − xb(k′ ) + xb(k′ ) − xb(k′ ) ≤ 2 max{1/k, 1/k ′ } .
Isso prova que {xk }k∈N é uma seqüência de Cauchy de racionais. Portanto a ela está associado o número
real [x]. Resta-nos provar que [xm ] converge a [x] em de quando m → ∞.
e
De fato d([x], [xm ]) = [d(x, xm )] e
a(k) a(k) a(k) a(k)
d(xk , xm m m
k ) = |xk − xk | = |xb(k) − xk | ≤ |xb(k) − xk | + |xk − xm
k | < 2/l
para qualquer l ∈ N, desde que m > a(l) e k > b(l). Isso prova que para m > a(l) tem-se
e Isso demonstrou que R é completo.
[{d(x, xm )}m∈N ] = [0], demonstrando que [xm ] converge a [x] em d.
É possı́vel provar que podemos operar com esse novo conjunto de números da mesma forma como
operamos com os racionais, ou seja, podemos definir sua soma, seu produto, sua razão etc. Por exemplo,
a soma de duas seqüências de Cauchy a e b é a seqüência de Cauchy c dada por ci = ai + bi , i ∈ N e é
fácil provar que essa seqüência é de Cauchy, assim como é possı́vel provar que , se trocarmos a ou b por
um outro elemento da mesma classe de equivalência, obteremos uma outra seqüência de Cauchy d da
mesma classe de equivalência da seqüência c. Fora isso o conjunto dos reais assim definido é provido
de uma relação de ordem total x ≤ y.
Como essas propriedades são conhecidas não entraremos nos detalhes de sua demonstração (mas não
é difı́cil para o estudante entender como se faz). Gostarı́amos apenas de enfatizar, recordando, como
a construção dos reais foi feita: partimos do conjunto dos racionais, definimos uma métrica sobre os
mesmos e definimos os conceitos de seqüências e de seqüências de Cauchy (em relação à métrica dada).
Definimos também o conceito de convergência e constatamos que seqüências de Cauchy de racionais
não convergem sempre a racionais. Definimos então no espaço de todas as seqüências de Cauchy (em
relação à métrica dada) uma relação de equivalência e assim o conjunto de classes de equivalência define
uma nova classe de objetos com os quais, como afirmamos, podemos operar como números. Esses são
os números reais.
O procedimento de completar os racionais através da criação das classes de equivalência de suas
seqüências de Cauchy é chamado de completamento canônico doa racionais e foi inventado por Can-
tor33 (seguindo idéias de Weierstrass34 ). A construção de números reais acima é devida a Cantor (há
uma outra construção “equivalente” devida a Dedekind35 , a dos chamados “cortes de Dedekind”). O
completamento de Cantor é importante, pois seu método pode ser estendido a qualquer espaço métrico
não completo para a obtenção de uma classe de objetos ainda maior.
• Outros Completamentos dos Racionais. Números p-ádicos
A construção acima indicou um procedimento de completamento dos racionais a partir de suas

seqüências de Cauchy. É importante frisar, porém, que o conceito de seqüência de Cauchy depende de
uma função métrica especı́fica dada previamente. Assim, toda a construção do completamento depende
da métrica usada. O que acontece se trocarmos a métrica usada nos racionais? Podemos, ao proceder
o completamento de Cantor, obter uma classe de objetos diferente da dos reais? A resposta é positiva.
Como curiosidade vamos mostrar que há outros completamentos possı́veis dos números racionais se
mudarmos a métrica usada. Seguiremos aqui parcialmente [43], onde uma outra construção poderá ser
encontrada.
Sabemos do teorema fundamental da aritmética que todo número natural não nulo pode ser es-
crito de forma única como um produto de números primos. Para todo número racional r 6= 0 temos
conseqüentemente a decomposição única em fatores primos
Y wp (r)
r = (±1) pi i ,
i
onde os pi são números primos e wp (r) ∈ Z é o expoente do primo p na recomposição do racional r. O

produto acima envolve todos os primos, porém, apenas para um número finito deles tem-se wpi (r) 6= 0
(por que?).
Para um número racional r 6= 0 e para um primo p (que fixamos daqui por diante), seja a função
wp (r) que dá o exponente de p na decomposição (única) de r em fatores primos dada acima. Vamos
33
34
35
Julius Wilhelm Richard Dedekind (1831-1916).
com o uso de wp definir a seguinte função φp : Q → Q+ :




 p−wp (s) , se s 6= 0, s ∈ Q ,
φp (s) :=


 0, se s = 0 .
A função φp tem as seguintes propriedades:
1. φp (s) ≥ 0 para todo s ∈ Q.
2. φp (s) = 0 se e somente se s = 0.
3. φp (rs) = φp (r)φp (s) para dois racionais quaisquer r e s.
4. Para dois racionais quaisquer r e s tem-se φp (r + s) ≤ max{φp (r), φp (s)} e portanto φp (r + s) ≤

φp (r) + φp (s).
Demonstraremos apenas o item 4, deixando os demais como exercı́cio (fácil). O item 4 é uma
conseqüência imediata da seguinte propriedade, que provaremos abaixo: para qualquer primo p e
quaisquer racionais r e s vale
wp (r + s) ≥ min{wp (r), wp (s)}.
Para provar essa desigualdade escrevemos r e s em sua decomposição em fatores primos:
Y wp (r) Y wp (s)
r = (±1) pi i , s = (±1) pi i .
i i
Assim,
Y wpi (r)
Y wpi (s)
r + s = (±1) pi + (±1) pi
i i
(17.B.8)
Multiplicando e dividindo por Y min{wpi (r), wpi (s)}

pi
i
ficamos com
" #
Y min{wpi (r), wpi (s)}
Y wp (r)−min{wpi (r), wpi (s)}
Y wp (s)−min{wpi (r), wpi (s)}
r+s = pi (±1) pi i + (±1) pi i .
i i i
Como obviamente (por que?) wpi (r) − min{wpi (r), wpi (s)} ≥ 0 e wpi (s) − min{wpi (r), wpi (s)} ≥ 0,
segue que o número entre colchetes é um inteiro, tendo uma decomposição em fatores primos da forma
Y γ
(±) pj j ,
j
onde os γi são positivos ou nulos (pois o número é inteiro). Assim,

Y min{wp (r), wp (s)}+γi
r+s = ± pi i i
,
i
provando que
wpi (r + s) = min{wpi (r), wpi (s)} + γi ≥ min{wpi (r), wpi (s)}u ,
para todo primo pi , o que completa a prova que querı́amos.
Em função das propriedades demonstradas no último exercı́cio, podemos, com o uso dessa função
φp , construir uma métrica em Q, que denotaremos por dp , dada por
dp (a, b) = φp (a − b)
para racionais a e b.
E. 17.55 Exercı́cio. Demonstre, usando as propriedades 1-4 de φp mencionadas acima, que esta função
é de fato uma métrica, ou seja, que satisfaz
1. dp (r, s) ∈ Q+ para todo r, s ∈ Q.
2. dp (r, s) = 0 se e somente se r = s.
3. Para todo a e b ∈ Q vale dp (a, b) = dp (b, a).
4. Para todo a, b e c ∈ Q vale dp (a, b) ≤ dp (a, c) + dp (c, b).
Também aqui podemos definir a noção de seqüência de Cauchy em relação à métrica dp . Uma
seqüência a de elementos de Q é dita ser uma seqüência de Cauchy (em relação à métrica dp ) se
para todo ǫ ∈ Q+ , ǫ > 0, existir um número natural N(ǫ) (eventualmente dependente de ǫ) tal que
dp (ai , aj ) < ǫ para todo i e j tais que i > N(ǫ) e j > N(ǫ).
Uma seqüência a em Q converge para um elemento b ∈ Q no sentido da métrica dp se para todo
ǫ ∈ Q+ existir um número natural N(ǫ) (eventualmente dependente de ǫ) tal que dp (b, ai ) < ǫ para
todo i > N(ǫ).
Também neste caso podem ser exibidas seqüências de Cauchy de racionais que não convergem no
sentido da métrica dp a um outro racional. O conjunto Q, assim, não é completo em relação à métrica
dp . Podemos então completá-lo usando o procedimento de completamento de Cantor: tomamos o
conjunto Cp de todas as seqüências de Cauchy de números racionais em relação à dp e construı́mos em
Cp uma relação de equivalência da seguinte forma. Dizemos que duas seqüências de Cauchy a e b são
equivalentes se a seqüência dp (ai , bi ), converge a zero quando i → ∞.
Sabemos que o conjunto Cp pode então ser escrito como uma união disjunta de suas classes de
equivalência pela relação acima. Define-se então uma nova classe de números, denominados números
p-ádicos, como sendo o conjunto dessas classes de equivalência ou, se quiserem, como sendo o conjunto
formado escolhendo-se um elemento de cada classe de equivalência, ou seja, por uma seqüência de
Cauchy de números racionais em relação à métrica dp .
É possı́vel provar que podemos operar com esse novo conjunto de números da mesma forma como
operamos com os racionais, ou seja, podemos definir sua soma, seu produto, sua razão etc. (os mesmos
formam um corpo). Para a definição de corpo vide Seção 1.2.2, página 55.
Para cada primo p, o conjunto dos números p-ádicos, denominado Qp , é distinto do conjunto dos
reais. Possui, porém, em comum com os reais o fato de ambos terem os racionais como sub-conjunto
denso.
Note, por exemplo, que a seqüência de números racionais an = pn , n ∈ N, diverge na reta real mas,
no conjunto Qp a mesma seqüência converge a zero (no sentido de dp ), sendo que precisamente o oposto
ocorre em relação à seqüência bn = p−n , n ∈ N.
E. 17.56 Exercı́cio. Constate a veracidade das afirmativas do último parágrafo. 6
n
X
E. 17.57 Exercı́cio. Verifique que, em relação a d3 , a seqüência de números positivos sn = 2 · 3a
a=0
converge ao número −1 (!). Sugestão: mostre que sn = 3n+1 − 1. Após isso mostre que d3 (sn , −1) =
φ3 (sn + 1) = 3−(n+1) , e conclua que sn → −1. 6
De um certo ponto de vista, os números p-ádicos formam uma classe “razoável” de números que
poderiam, em princı́pio, “substituir” os reais em aplicações, dado que ambos podem ser aproximados
por racionais (no sentido da métrica d no caso dos reais e da métrica dp no caso dos p-ádicos). Os
conjuntos Qp possuem propriedades extremamente curiosas, tanto do ponto de vista algébrico quando
do ponto de vista topológico, algumas das quais vimos nos exercı́cios acima. Aplicações significativas
dos números p-ádicos em Fı́sica são, no momento, desconhecidas. Sugestões de seu uso, porém, já
foram apresentadas.
17.C Aproximações para π

Métodos para calcular aproximações para o valor de π são procurados desde a Antigüidade. Comentam
os historiadores da Matemática que a mais antiga referência ao assunto talvez seja encontrada em um
papiro egı́pcio, denominado papiro de Rhind, de cerca de 1650 A.C., o qual fornecia a aproximação
4(8/9)2 ≃ 3.1605 para π. Arquimedes36 foi provavelmente o primeiro a propor um procedimento
sistemático de aproximação, que consistia em aproximar um cı́rculo de diâmetro 1, e perı́metro π, por
polı́gonos regulares inscritos e circunscritos. O perı́metro de um polı́gono regular pode ser computado
com o uso de considerações geométricas simples37 . Os perı́metros dos polı́gonos regulares inscritos
fornecem limites inferiores para π, enquanto que os perı́metros dos polı́gonos regulares circunscritos
fornecem limites
√ superiores. Usando hexágonos (vide Figura 17.C.2), por exemplo, chega-se facilmente
a 3 < π < 2 3, o que fornece as aproximações 3 < π < 3, 46, as quais são ainda um tanto grosseiras.
10
Usando polı́gonos regulares de 96 lados, Arquimedes concluiu que 3 71 < π < 3 17 , o que fornece as
aproximações 3, 0140845 < π < 3, 1428571 em base decimal. Como se observa, o limite superior fornece
π com o valor correto das duas primeiras casas decimais após a vı́rgula. Fragmentos incompletos de
36
Arquimedes de Siracusa (ci. 287 A.C. - ci. 212 A.C.).
37
Vide [32], onde uma descrição, mais detalhada do método de Arquimedes pode ser encontrada.
Figura 17.C.2: Cı́rculo, hexágono inscrito e circunscrito.
sua obra indicam que Arquimedes teria chegado a determinar a aproximação 3, 1416 para o valor de π,
usando polı́gonos regulares ainda maiores.
O método de Arquimedes foi empregado na Europa até meados do século XVII para aproximar
o valor de π. Ludolph van Ceulen38 empreendeu boa parte da sua vida aperfeiçoando o método de
Arquimedes, chegando, pouco antes de sua morte, a estimar o valor de π com o uso de polı́gonos
regulares de 262 lados, o que fornece π com 32 casas decimais de precisão.
Várias outras aproximações foram empregadas para aproximar π. Listemos algumas.
1. Aproximação de Wallis39 , ou Fórmula de Produto de Wallis, para π, de 1665:

n
Y 4k 2 24n+1 (n!)4 2 × 2 4 × 4 6 × 6 8 × 8 10 × 10
π = lim 2 2−1
= lim 2 = 2 × ··· .
n→∞
k=1
4k n→∞ (2n + 1) [(2n)!] 1 × 3 3 × 5 5 × 7 7 × 9 9 × 11
Para uma demonstração simples dessa fórmula usando integrais, vide [138].
2. Aproximação de Gregory40 -Leibniz41 para π, de 1671:

Xn
(−1)k 1 1 1 1
π = lim 4 = 4 1− + − + ··· ,
n→∞
k=0
2k + 1 3 5 7 9
Essa série provem do fato que π = 4 arctan(1). O arco-tangente pode ser calculado pela série de
Taylor42
X∞
(−1)n x2k+1
arctan(x) = .
k=0
2k + 1
fornecendo, assim, a aproximação dada acima para π.
38
Ludolph van Ceulen (1539-1610).
39
John Wallis (1616-1703). Wallis foi um dos pioneiros do Cálculo Diferencial e Integral e, uma curiosidade, foi o
inventor do sı́mbolo ∞.
40
James Gregory (1638-1675).
41
42
Brook Taylor (1685-1731). A série de Taylor da função arco-tangente foi, em verdade, descoberta por Gregory em
1671.

Um comentário histórico é que a identidade π = 4 1 − 31 + 51 − 17 + 91 · · · é por vezes atribuı́da
a Leibniz, que a divulgou em 1674, três anos após a descoberta por Gregory da série de Taylor
da função arco-tangente. Historiadores comentam que Gregory provavelmente já a conhecia.
Todavia, essa identidade já seria conhecida por matemáticos hindus séculos antes.
3. Aproximação de Newton43 . Usando uma identidade como por exemplo π = 6 arcsen(1/2), Newton
empregou a série de Taylor da função arco-seno
∞
X [(2n − 1)!!]2
arcsen(x) = x + x2n+1
n=1
(2n + 1)!
para determinar aproximações para π. Disso resulta a identidade (prove-a!)

∞
X 3 (2n − 1)!
π = 3+ . (17.C.9)
n=1
24n−1 n(2n + 1) [(n − 1)!]2
Newton calculou as primeiras 15 casas decimais de π (em data incerta), para o que é necessário
somar cerca de 40 termos da série (17.C.9). Newton o fez, segundo confessou, “por não ter muito
o que fazer à época”.
Como, para n grande, (2n − 1)! ≈ 22n n2n e [(n − 1)!]2 ≈ n2n , os termos da série (17.C.9) decaem
como 2−2n . Machin encontrou uma outra identidade que permite uma convergência mais rápida.
4. Aproximação de Machin44 para π, de 1706:
Xn
(−1)n 16 4
π = lim − .
n→∞
k=0
2k + 1 52k+1 2392k+1
Essa série provem do fato, demonstrado por Machin, que
π = 16 arctan(1/5) − 4 arctan(1/239) .
Usando-se a série de Taylor da função arco-tangente dada acima, obtem-se a série de Machin para
π.
5. Aproximação de Euler45 para π por frações contı́nuas. Euler demonstrou que
4
π = .
12
1+
32
2+
52
2+
72
2+
92
2+
112
2+
..
.
43
44
John Machin (1680-1751).
45
Mencionamos en passant que Euler também obteve a seguinte expressão para e em termos de
frações contı́nuas:
1
e = 2+ ,
1
1+
2
2+
3
3+
4
4+
5
5+
6
6+
..
.
que é também uma aproximação para e por racionais.
Usando a expansão de Euler para a função cotangente dada em (9.202), página 578, é fácil obter
também (tome x = 1/4)
X∞
8
π = 4− 2
,
n=1
16n − 1
série esta que converge lentamente. Note que as aproximações de Wallis, Gregory, Newton,
Machin e Euler acima são aproximações a π por números racionais.
6. Euler também obteve (no ano de 1735) uma série de identidades envolvendo séries infinitas do
X ∞
1
tipo , com m = 1, 2, 3 etc., as quais podem ser usadas para calcular π. As primeiras
k 2m
k=1
identidades são
X ∞ X∞ X∞ X∞ X ∞
π2 1 π4 1 π6 1 π8 1 π 10 1
= 2
, = 4
, = 6
, = 8
, =
6 k=1
k 90 k=1
k 945 k=1
k 9450 k=1
k 93555 k=1
k 10
etc. Tais relações são bem conhecidas da teoria das séries de Fourier (vide [36]). Como o lado
esquerdo das igualdades acima envolve potências de π, essas séries não fornecem aproximações
a π por racionais. As últimas séries à direita convergem de modo relativamente rápido. Apenas
com os cinco primeiros termos da última série à direita obtem-se a aproximação 3, 141592647 para
π, cujos primeiros sete dı́gitos após a vı́rgula estão corretos. Para obter-se uma precisão análoga
com a primeira série à esquerda, é preciso somar cerca de cem milhões de termos, como é fácil de
verificar usando um programa de computador (faça!).
A fórmula geral para as somas acima46 é a seguinte (para a demonstração, vide página 518):
X∞
1 (−1)m+1 22m−1 B2m 2m
2m
= π , m = 1, 2, 3, . . . , (17.C.10)
k=1
k (2m)!
onde Bn são os chamados números de Bernoulli47 , definidos pela série de Taylor

X∞
x Bn n
x
= x .
e −1 n=0
n!
46
P∞ 1
Até a presente data, não são conhecidas expressões fechadas para somas como k=1 kn para o caso em que n é
ı́mpar, n ≥ 3.
47
Jacob Bernoulli (1654-1705).
Essa definição é também de Euler (a definição original de Bernoulli, publicada postumamente

em 1713, era outra (vide [138])). Os números de Bernoulli satisfazem Bn = 0 para n ı́mpar,
exceto para n = 1, sendo B0 = 1 e B1 = −1/2. Os números de Bernoulli podem ser calculados
recursivamente pela identidade
n−1
X n
Bj = 0, n > 1.
j=0
j
Os primeiros são B0 = 1, B1 = −1/2, B2 = 1/6, B4 = −1/30, B6 = 1/42, B8 = −1/30. O leitor

interessado poderá encontrar mais detalhes sobre os fatos acima envolvendo números de Bernoulli
na página 518 e seguintes ou em vários textos, por exemplo em [138] e [36]. Nesse último texto,
a relação (17.C.10) é provada usando séries de Fourier.
Como os termos da série do lado esquerdo de (17.C.10) decaem muito rapidamente quando n →
∞, exceto o termo com k = 1, inferimos que
2n1
(−1)n+1 (2n)!
π = lim .
n→∞ 22n−1 B2n
7. Aproximação de Ramanujan48 para π, de 191449 :

9.801
π = lim n .
n→∞ √ X (4k)! [1.103 + 26.390 k]
8
k=0
(k!)4 3964n
√
Devido à presença do fator 8, esta não é uma aproximação a π por racionais.
1
8. Aproximação de Borwein e Borwein50 para π, de 1987: π = lim , onde
n→∞ pn
h √ “ √ ”i
Xn (−1)k (6k)! 212.175.710.912 61 + 1.657.145.277.365 + k 13.773.980.892.672 61 + 107.578.229.802.750
pn := 12 h “ √ ”i3k+3/2 .
k=0 (k!)3 (3k)! 5.280 236.674 + 30.303 61
√
Aqui aplica-se o mesmo comentário de acima: devido à presença do número 61 e do número
√ 3/2
5.280 236.674 + 30.303 61 , a aproximação acima não é uma aproximação a π por racionais.
A aproximação de Borwein e Borwein converge a π de modo impressionantemente rápido. Já

a primeira aproximação, 1/p0 , fornece corretamente os primeiros 24 dı́gitos de π na base decimal!
Cada termo seguinte da seqüência acrescenta aproximadamente 25 dı́gitos corretos ao valor de π na
base decimal. No caso da aproximação de Ramanujan a convergência é um pouco mais lenta: cada
48
Srinivasa Aiyangar Ramanujan (1887-1920).
49
A aproximação de Ramanujan surgiu em “Modular Equations and Approximations to π”. S. Ramanujan. The
Quarterly Journal of Pure and Applied Mathematics. 45, 350-372 (1914).
50
Jonathan M. Borwein e Peter B. Borwein são irmãos. Para mais detalhes sobre seu trabalho sobre a aproximação de
π, vide “Pi and the AGM. A Study in Analytic Number Theory and Computational Complexity”. Jonathan M. Borwein
e Peter B. Borwein. Editora John Willey and Sons. inc. 1986.
termo da seqüência acrescenta aproximadamente 8 dı́gitos corretos ao valor de π na base decimal. As

aproximações de Wallis e Gregory são extremamente lentas. Usando-as, um super-computador do inı́cio
dos anos 1990 levaria cerca de 100 anos para computar apenas os primeiros 100 dı́gitos corretos de π
na base decimal. A aproximação de Borwein e Borwein baseia-se em trabalhos de Ramanujan sobre as
chamadas equações modulares.
A fórmula de Machin (e ligeiras variantes da mesma) converge mais rapidamente que as de Wallis e
Gregory (por que?) e foi usada desde o século XVIII até a década de 1970 para cálculos de π (manuais
ou com computadores).
Em 1844, Dase51 calculou corretamente, usando a fórmula de Machin, as primeiras 205 casas deci-
mais de π. O cálculo foi feito à mão (!) e durou alguns meses. O feito de Dase foi superado em 1873
por Shanks52 , que calculou 707 casas decimais de π. O cálculo também foi feito à mão e custou-lhe 20
anos de trabalho (!). Infelizmente, porém, Shanks cometeu erros que resultaram em que seus últimos
80 dı́gitos estavam incorretos. Isso só foi percebido 73 anos depois (!), em 1946, por D. F. Ferguson,
que computou corretamente os primeiros 620 dı́gitos decimais de π, também à mão, entre maio de 1944
e julho de 1946, usando a identidade (que ele mesmo provara)

1 1 1
π = 12 arctan + 4 arctan + 4 arctan .
4 20 1985
Esses foi o último “record” obtido com cálculos manuais. Ferguson prosseguiu ainda, agora com o uso
de uma calculadora de mesa, até atingir a marca de 808 dı́gitos, todos corretos.
Com o advento dos computadores eletrônicos tais cálculos deixaram de ser feitos por meios românti-
cos. O primeiro cálculo computacional de π foi feito em 1949 por von Neumann53 e colaboradores usando
a fórmula de Machin no lendário computador ENIAC (considerado por muitos o primeiro computador.
Vide [99]), com suas 18 mil válvulas elétricas. Esse cálculo forneceu 2.037 dı́gitos decimais de π e
consumiu 70 horas.
Em 1987, usando a aproximação de Borwein e Borwein, π foi calculado por um super-computador
com uma precisão de cem milhões de casas decimais. Essa precisão foi aumentada desde então. Em
1999, π era conhecido com 3 × 236 = 206.158.430.208 (cerca de duzentos bilhões) de dı́gitos decimais. O
feito é de Y. Kanada e D. Takahashi e foi alcançado com dois algoritmos distintos (para comparação), o
dos irmãos Borwein e outro denominado Gauss-Legendre. O primeiro consumiu 46 horas de computação
em um super-computador e o segundo 37 horas. O récorde atual, obtido em 2003, é dos mesmos autores:
1,2411 trilhão de dı́gitos decimais, consumindo 600 horas de um supercomputador.
Em 1996 Bailey, Borwein e Plouffe publicaram um algoritmo que permite determinar o n-ésimo
dı́gito hexadecimal de π sem o conhecimento dos dı́gitos precedentes. Em 1997 Plouffe descobriu um
algoritmo para determinar o n-ésimo dı́gito de π em qualquer base, também sem o conhecimento dos
dı́gitos precedentes.
Outras informações históricas, especialmente sobre esses desenvolvimentos mais recentes, podem
ser encontradas em “The quest for Pi”, de D. H. Bailey, J. M. Borwein, P. B. Borwein e S. Plouffle.
The Mathematical Intelligencer 19, 50-57 (1997).
51
Zacharias Dase (1824-1861).
52
Willian Shanks (1812-1882).
53
John von Neumann (1903-1957).
Ainda que no passado a determinação de valores aproximados de π tivesse importância em áreas

como a Fı́sica, a Astronomia e a Engenharia, dificilmente cálculos ultra-precisos de π podem ter re-
levância em aplicações: com apenas 37 dı́gitos decimais é possı́vel computar o perı́metro de um cı́rculo
com o raio do universo conhecido (cerca de 1, 3 × 1026 m) com uma precisão equivalente ao diâmetro
de um átomo de hidrogênio (cerca de 1, 0 × 10−10 m). Há, porém, um certo interesse matemático em
tais cálculos, envolvendo conjecturas sobre a distribuição dos dı́gitos decimais de π. Valores precisos
de π são também úteis em simulações numéricas. Ainda assim, hoje em dia a prática de cálculos
ultra-precisos de π tem motivação predominantemente esportiva.
Capı́tulo 18
O Teorema do Ponto Fixo de Banach e Algumas de
Suas Conseqüências
Conteúdo
18.1 O Teorema de Ponto Fixo de Banach . . . . . . . . . . . . . . . . . . . . . 995
18.1.1 Generalizações do Teorema de Ponto Fixo de Banach . . . . . . . . . . . . . . 997
18.2 Aplicação a Equações Numéricas. O Método de Newton . . . . . . . . . . 1001
18.3 Aplicação às Equações Integrais de Fredholm e de Volterra . . . . . . . . 1005
18.4 Aplicações à Teoria das Equações Diferenciais Ordinárias . . . . . . . . . 1014
18.4.1 O Teorema de Picard-Lindelöf . . . . . . . . . . . . . . . . . . . . . . . . . . 1014
18.4.2 Generalizando o Teorema de Picard-Lindelöf. Soluções Globais . . . . . . . . 1019
18.4.3 Um Teorema de Comparação de Soluções de EDO’s . . . . . . . . . . . . . . 1020
18.5 O Teorema da Função Implı́cita e o Teorema da Função Inversa . . . . . 1024
18.5.1 O Teorema da Função Implı́cita . . . . . . . . . . . . . . . . . . . . . . . . . . 1024
18.5.2 O Teorema da Função Inversa . . . . . . . . . . . . . . . . . . . . . . . . . . . 1029
Apêndices . . . . . . . . . . . . . . . . . . . . 1030
18.A O Lema de Grönwall . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1030
S eja X um conjunto não-vazio e f : X → X uma função de X em X. Muitas vezes, em

problemas práticos e teóricos, estamos interessados em encontrar os pontos x que são levados
em si mesmos pela função f , ou seja, os pontos x tais que
x = f (x) .
Os pontos que satisfazem essa equação são chamados de pontos fixos da transformação f e a equação
acima é denominada equação de ponto fixo. Veremos vários exemplos abaixo de equações desse tipo,
tanto no contexto de equações numéricas quanto no de equações integrais e diferenciais.
Na prática, dada uma função f , pode afigurar-se difı́cil saber se sequer existe um ponto fixo para ela.
Muitas vezes estamos interessados em saber quantos pontos fixos há e, freqüentemente, gostarı́amos de
garantir que há um e apenas um ponto fixo de uma dada função (a chamada “unicidade da solução”).
Teoremas que nos garantem existência e, por vezes, unicidade de soluções de equações de ponto fixo
são chamados de teoremas de ponto fixo. Há vários teoremas de tal tipo na literatura matemática, como
por exemplo, o Teorema de Ponto Fixo de Banach1 , o Teorema de Ponto Fixo Brouwer2 , o teorema do
1
2
Luitzen Egbertus Jan Brouwer (1881-1966).
994
ponto fixo de Schauder3 e vários outros, todos com pressupostos distintos sobre o conjunto X e sobre
a função f .
Seja por exemplo o disco fechado Dn de Rn :
q

n 2
Dn := (x1 , . . . , xn ) ∈ R x1 + · · · + x2n ≤ 1 .
O chamado Teorema do Ponto Fixo de Brouwer afirma que toda função contı́nua (na topologia usual)
de Dn em Dn tem pelo menos um ponto fixo. Aqui a unicidade nem sempre pode ser garantida: pense
no exemplo das rotações em R3 em torno de um eixo que passa pela origem. Todo ponto ao longo do
eixo de rotação é levado em si mesmo pela rotação e é, portanto, um ponto fixo da mesma.
O Teorema do Ponto Fixo de Schauder afirma que se X é um subconjunto convexo e compacto4 de
um espaço de Banach então toda função contı́nua (na topologia da norma) de X em X tem um ponto
fixo (não-necessáriamente único).
Aqui trataremos de um teorema de ponto fixo extremamente útil conhecido como Teorema de Ponto
Fixo de Banach, que é válido em espaços métricos completos. De fato, este é de longe o teorema de
ponto fixo com mais aplicações, sendo que sua influência se estende aos domı́nios das equações integrais,
das equações diferenciais, das equações numéricas em C, da Análise Numérica e de muitas outras áreas
da Matemática pura e aplicada.
O Teorema de Ponto Fixo de Banach foi estabelecido por Banach em 19225 . Uma das razões de sua
importância reside no fato de fornecer, junto com seu enunciado, um método iterativo aproximativo
para a determinação do ponto fixo, método este que é muito eficiente. Outra razão é o fato de o teorema
reunir condições que garantem unicidade do ponto fixo. Vamos ao seu enunciado.
18.1 O Teorema de Ponto Fixo de Banach

Teorema 18.1 (Teorema de Ponto Fixo de Banach) Seja M um conjunto dotado de uma métrica
d e suponha M completo em relação a d. Seja A um subconjunto fechado de M e seja T : A → A uma
função de A em A. Vamos então supor que exista um número q com 0 ≤ q < 1 tal que para todos os
pontos x e y de A valha
d(T (x), T (y)) ≤ q d(x, y) . (18.1)
Então, a equação de ponto fixo
x = T (x) , (18.2)
tem solução em A e essa solução é única. Além disso, para qualquer x0 ∈ A, a seqüência xn = T (xn−1 ),
n ≥ 1, obtida aplicando-se repetidamente T a partir de x0 , converge (rapidamente) ao ponto fixo x na
métrica d. A saber, tem-se que
qn
d(xn , x) ≤ d(x1 , x0 ) . (18.3)
1−q
3
Juliusz Pawel Schauder (1899-1943).
4
5
S. Banach “Sur les opérations dans les ensembles abstraits et leurs applications aux équations intégrales”. Fund.
Math. 3, 133-181 (1922).
Uma função T : A → A tal que existe um número q com 0 ≤ q < 1 e tal que para todos os
pontos x e y de A valha a desigualdade (18.1) é dita ser uma contração em relação à métrica d. O
teorema acima afirma então que toda contração em um espaço métrico completo tem um e somente um
ponto fixo. Esse teorema fornece um método iterativo de determinar aproximadamente o ponto fixo,
sendo que, por (18.3), a aproximação é tanto melhor quanto mais iterações forem feitas. Mais adiante
aperesentaremos um teorema análogo ao Teorema 18.1 na qual a condição de contração é enfraquecida.
Vide Teorema 18.2, página 998.
Vamos primeiro provar o teorema e depois veremos vários exemplos de seu uso.
Prova do Teorema 18.1. Como A é um subconjunto fechado de um espaço métrico completo, então A é
também completo em relação à mesma métrica (vide Proposição 17.7, página 959, ou equivalentemente,
a Proposição 19.9, página 1054).
Para simplificar a notação denotaremos por T n a n-ésima composição de T consigo mesma: T
| ◦ ·{z
· · ◦ T}.
n
Definimos então para um x0 ∈ A arbitrário xn = T n (x0 ), n ∈ N, n > 0.
Vamos agora provar que {xn } é uma seqüência de Cauchy em A. Para isso sejam m e n dois
números naturais quaisquer tais que m < n. Então, usando a desigualdade triangular n − m vezes
temos o seguinte:
d(xm , xn ) ≤ d(xm , xm+1 ) + d(xm+1 , xn )
≤ d(xm , xm+1 ) + d(xm+1 , xm+2 ) + d(xm+2 , xn )

..
.
≤ d(xm , xm+1 ) + d(xm+1 , xm+2 ) + · · · + d(xn−1 , xn ) .
Pela propriedade de contração, temos que
d(xa , xa+1 ) = d(T (xa−1 ), T (xa )) ≤ q d(xa−1 , xa ) ≤ · · · ≤ q a d(x0 , x1 ) .
Daı́
d(xm , xn ) ≤ q m + q m+1 + . . . + q n−1 d(x0 , x1 )
e, portanto,
∞
!
X qm
d(xm , xn ) ≤ q m 1 + q + . . . + q n−1−m
d(x0 , x1 ) ≤ q m q a d(x0 , x1 ) = d(x0 , x1 ) .
a=0
1−q
Isso prova que {xn } é uma seqüência de Cauchy, pois q m pode ser feito arbitrariamente pequeno
tomando m grande, para qualquer n > m.
Como {xn } é uma seqüência de Cauchy em A e A é completo, deve haver x em A único ao qual a
seqüência converge. Temos sempre, usando a desigualdade triangular, que
d(x, xm ) ≤ d(x, xn ) + d(xn , xm ) .
Tomando n > m, temos

qm
d(x, xm ) ≤ d(x, xn ) + d(x0 , x1 ) .
1−q
Como xn se aproxima de x para n grande, podemos fazer o termo d(x, xn ) arbitrariamente pequeno,
tomando n grande, sem alterar os demais. Daı́, concluı́mos que
qm
d(x, xm ) ≤ d(x0 , x1 ) . (18.4)
1−q
Essa última desigualdade mostra que xm de fato se aproxima exponencialmente rápido de x.
Vamos agora provar que x, o limite da seqüência {xn }, é um ponto fixo. Para isso calculemos
d(x, T (x)). Teremos, pela desigualdade triangular
d(x, T (x)) ≤ d(x, xm+1 ) + d(xm+1 , T (x)),
para todo m. Usando (18.4) e a contratividade de T teremos,
q m+1 q m+1 q m+1 q m+1

d(x, T (x)) < d(x0 , x1 ) + q d(xm , x) < d(x0 , x1 ) + d(x0 , x1 ) = 2 d(x0 , x1 ) .
1−q 1−q 1−q 1−q
Como m é arbitrário podemos fazer m → ∞ e obtemos d(x, T (x)) = 0, o que implica que x = T (x).
Por fim, resta-nos provar que x é o único ponto fixo de T . Para tal, vamos supor que haja um
outro: x′ = T (x′ ). Terı́amos, usando a contratividade, que
d(x, x′ ) = d(T (x), T (x′ )) ≤ q d(x, x′ ) ,
ou seja, (1 − q)d(x, x′ ) ≤ 0. Como q < 1 isso implica d(x, x′ ) = 0, que implica x = x′ . Isso completa
a prova do Teorema de Ponto Fixo de Banach.
18.1.1 Generalizações do Teorema de Ponto Fixo de Banach

Nesta seção trataremos de duas extenções do Teorema de Ponto Fixo de Banach, uma tratando de um
caso onde a condição de contratividade q < 1 não é estritamente satisfeita e outro onde a aplicação T
não é contrativa, mas alguma potência de T o é.
A condição que q < 1 é crucial para a demonstração do Teorema 18.1 e sem ela suas conclusões
podem não mais ser válidas. Vejamos o seguinte exemplo, citado em diversos livros-texto. Seja M =
[1, ∞) com a métrica usual d(x, y) = |x − y| e seja T : M → M dada por T (x) = x + x−1 . Então vale
para todo x e y ∈ M, x 6= y,
d(T (x), T (y)) < d(x, y) .
De fato, para 1 ≤ x < y,

Z y Z y Z y
′ 1
T (y) − T (x) = T (t)dt = 1 − 2 dt < dt = y − x ,
x x t x
pois 1 − t−2 < 1 para t > 1, sendo essa a melhor estimativa possı́vel. Assim,
|T (y) − T (x)| < |y − x| ,
como querı́amos provar. Note agora, porém, que T não tem nenhum ponto fixo. De fato, T (x) = x
significa x + x−1 = x, ou seja, x−1 = 0, o que não é possı́vel se x ∈ [1, ∞).
Em espaços métricos compactos, porém, a condição de contração q < 1 pode ser enfraquecida
preservando essencialmente os mesmos resultados do Teorema 18.1.
• Enfraquecendo a condição de contratividade. Aplicações em compactos
Seja M um conjunto dotado de uma métrica d. Recordemos6 que A ⊂ M é dito ser compacto
se e somente se possuir a propriedade de Bolzano7 -Weierstrass8 : toda seqüência em A possui uma
sub-seqüência convergente em A em relação à métrica d. Por um teorema geral (Teorema 24.6, página
1209), o fato de A ser compacto em um espaço métrico implica que A é fechado, completo e limitado.
O seguinte teorema é devido a Edelstein9 .
Teorema 18.2 Seja M um conjunto dotado de uma métrica d. Seja A ⊂ M compacto e seja T : A →
A uma função de A em A. Vamos supor que valha a condição
d(T (x), T (y)) < d(x, y) (18.5)
para todos x, y ∈ A com x 6= y. Então, a equação de ponto fixo x = T (x) tem solução em A e essa
solução é única. 2
Comentário. O fato de A ser suposto compacto faz com que seja dispensável supor que M seja completo,
pois A o é. Vide Teorema 24.6, página 1209.
Prova. Observemos em primeiro lugar que se T possuir um ponto fixo, este é único. De fato, sejam
x, y ∈ A tais que T (x) = x e T (y) = y. Se x =
6 y, valeria d(x, y) = d(T (x), T (y)) < d(x, y), o que é
uma desigualdade impossı́vel. Logo x = y.
Pelas hipóteses, para x0 ∈ A a seqüência xn = T n (x0 ) de elementos de A tem ao menos uma
subseqüência convegente a um elemento x∗ ∈ A. Vamos provar que esse x∗ é um ponto fixo de T , ou
seja, x∗ = T (x∗ ). Vamos supor que T (x∗ ) 6= x∗ e mostrar que isso leva a uma contradição.
Seja xnk , k ∈ N, uma sub-seqüência que converge a x∗ da seqüência xn = T n (x0 ), ou seja, que
satisfaz a propriedade: para todo ǫ > 0 existe K(ǫ) tal que d(xnk , x∗ ) ≤ ǫ para todo k ≥ K(ǫ).
6
7
Bernard Placidus Johann Nepomuk Bolzano (1781–1848).
8
Karl Theodor Wilhelm Weierstrass (1815–1897).
9
M. Edelstein, “An extension of Banach’s contraction principle”. Proc. Am. Math. Soc. 12 (1) (1961), 7–10. M.
Edelstein, “On fixed and periodic points under contractive mappings”. J. London Math. Soc. 37 (1) (1962), 74–79.
Por (18.5), d(T (x∗ ), T (xnk )) ≤ d(x∗ , xnk ) (a igualdade se dando apenas se x∗ = xnk ), o que implica
que (xnk , T (xnk )) converge a (x∗ , T (x∗ )) em A2 ≡ A × A se xnk converge a x∗ .
Seja r0 := d(T (x∗ ), (x∗ ))/3. Para todo k ≥ K(r0 ) vale d(x∗ , xnk ) ≤ r0 e pela desigualdade
triangular,
3r0 = d(T (x∗ ), x∗ ) ≤ d(T (x∗ ), T (xnk )) + d(T (xnk ), xnk ) + d(xnk , x∗ )
(18.5)
≤ 2d(x∗ , xnk ) + d(T (xnk ), xnk ) ≤ 2r0 + d(T (xnk ), xnk ) .
Logo, para todo k ≥ K(r0 ), r0 ≤ d(T (xnk ), xnk ), ou seja,
d(T (x∗ ), x∗ ) ≤ 3d(T (xnk ), xnk ) . (18.6)
Seja agora D := {(x, x), x ∈ A} ⊂ A2 , o conjunto diagonal de A2 e defina-se em A2 \ D a função

F : A2 \ D → [0, ∞) dada por
d(T (x), T (y))
F (x, y) := .
d(x, y)
Provemos em primeiro lugar que F é contı́nua em A2 \ D. De fato, da desigualdade triangular segue
que d(T (x), T (y)) ≤ d(T (x), T (x′ )) + d(T (x′ ), T (y ′)) + d(T (y ′), T (y)) Portanto,
(18.5)
d(T (x), T (y)) − d(T (x′ ), T (y ′)) ≤ d(T (x), T (x′ )) + d(T (y ′), T (y)) ≤ d(x, x′ ) + d(y ′, y) .
Analogamente, prova-se que d(T (x′ ), T (y ′)) − d(T (x), T (y)) ≤ d(x, x′ ) + d(y ′, y). Ambas as relações
mostram que

d(T (x′ ), T (y ′)) − d(T (x), T (y)) ≤ d(x, x′ ) + d(y, y ′) ,
o que prova que d(T (x), T (y)) é contı́nua em A2 , pois se o par (x′ , y ′) converge ao par (x, y), então
d(T (x′ ), T (y ′)) converge a d(T (x), T (y)). Demonstra-se analogamente (tome T = id) que a função
d(x, y) é contı́nua em A2 e isso mostra que F é contı́nua em A2 \ D.
Pela hipótese (18.5) vale F (x, y) < 1 para todos (x, y) ∈ A2 \ D. Como, por hipótese T (x∗ ) 6= x∗ ,
o par (x∗ , T (x∗ )) não pertence a D e, portanto, F (x∗ , T (x∗ )) está definido.
Seja r > 0 e Br a bola fechada de raio r em A2 \ D centrada em (x∗ , T (x∗ )):
n o

Br := (x, y) ∈ A2 \ D d(x, x∗ ) ≤ r e d(y, T (x∗ )) ≤ r .
Por ser contı́nua, F assume um valor máximo f em Br . Escolhendo r pequeno o suficiente, podemos
garantir que f < 1 (para r pequeno f vale aproximadamente F (x∗ , T (x∗ )) < 1). Assim, para todo
(x, y) ∈ Br tem-se
d(T (x), T (y)) ≤ f d(x, y) . (18.7)
Como (xnk , T (xnk )) converge a (x∗ , T (x∗ )), concluı́mos que para todo l grande o suficiente, digamos
l ≥ L, vale (xnl , T (xnl )) ∈ Br . Assim, por (18.7) devemos ter

d T (xnl ), T T (xnl ) ≤ f d(xnl , T (xnl )) ,
ou seja,
d(xnl +1 , xnl +2 ) ≤ f d(xnl , xnl +1 ) . (18.8)
Temos, assim, que
d(xn(l+1) , T (xn(l+1) )) = d(T n(l+1) (x0 ), T n(l+1) +1 (x0 ))
(18.5)
≤ d(T nl+1 (x0 ), T nl +2 (x0 )) = d(xnl +1 , xnl +2 )
(18.8)
≤ f d(xnl , xnl +1 ) = f d(xnl , T (xnl )) .
Acima, na passagem da primeira para a segunda linha, usamos n(l+1) − nl − 1 vezes a condição (18.5).
Provamos, portanto, que d(xn(l+1) , T (xn(l+1) )) ≤ f d(xnl , T (xnl )) para todo l ≥ L. Por indução, isso
implica que para todo k ≥ l ≥ L vale
d(xnk , T (xnk )) ≤ f k−l d(xnl , T (xnl )) .
Fixando l, isso implica que lim d(xnk , T (xnk )) = 0, pois f < 1. Por (18.6), isso implica que
k→∞
d(T (x∗ ), x∗ ) = 0, completando a prova.
• Enfraquecendo a condição de contratividade. Potências contrativas
Antes de tratarmos das importantes aplicações do Teorema de Ponto Fixo de Banach a equações
integrais vamos a uma outra pequena generalização do mesmo. Esta nos será útil, por exemplo, quando
tratarmos da equação integral de Volterra. Ocorre por vezes que uma aplicação T , como discutida
acima, não é uma contração, mas alguma de suas potências o é. Nesse caso, podemos também garantir
os mesmos resultados do Teorema de Ponto Fixo de Banach. Temos o seguinte:
Proposição 18.1 Seja M um conjunto dotado de uma métrica d e suponha M completo em relação
a d. Seja A um subconjunto fechado em M e seja T uma função de A em A, T : A → A. Vamos
supor que exista um número m ∈ N tal que a aplicação T m seja uma contração, cujo ponto fixo único
é x ∈ A (a existência e a unicidade de tal ponto fixo são garantidas pelo Teorema de Ponto Fixo de
Banach, Teorema 18.1). Então, T também tem um ponto fixo único, a saber, o mesmo x. 2
Prova. Para provar que x é também ponto fixo de T , notemos que, como x = T m (x), temos também
que
T (x) = T m+1 (x) = T m (T (x)) .
Isso diz que T (x) é ponto fixo de T m . Pelo Teorema de Ponto Fixo de Banach este último é x e é único.
Daı́ T (x) = x. Ora, isso diz precisamente que x é ponto fixo de T .
Provemos agora que x é também o único ponto fixo de T . Para tal, suponha que haja um outro:
y. Então y = T (y). Daqui tiramos que T (y) = T 2 (y). Juntando as duas vemos que y = T (y) = T 2 (y).
Repetindo esse procedimento, chegamos a y = T (y) = T 2 (y) = · · · = T m (y). Isso diz que y é ponto
fixo de T m . Agora, pelas hipóteses, o único ponto fixo de T m é x. Logo y = x.
18.2 Aplicação a Equações Numéricas. O Método de Newton
• Equações numéricas
Vamos a alguns exemplos simples de aplicações do Teorema de Ponto Fixo de Banach. Seja a reta
real e a seguinte equação de ponto fixo em R:
x = λ cos(x) ,
onde 0 < λ < 1 é uma constante dada. Terá essa equação uma solução? Será ela única? Como
T (x) := λ cos(x) é uma função de R em R, podemos adotar em R a métrica usual em relação à qual
R é completo. Em face do Teorema de Ponto Fixo de Banach a questão natural é saber se T é uma
contração. Vamos provar que isso é verdade.
Z y

d(T (x), T (y)) = λ | cos(x) − cos(y)| = λ sen(t) dt ≤ λ |x − y| = λ d(x, y) ,
x
pois | sen(t)| ≤ 1. Assim, vemos que T é uma contração com q = λ.

O Teorema de Ponto Fixo de Banach nos afirma então que, partindo-se de qualquer número real
x0 , as iteradas sucessivas de T convergem ao número x, ponto fixo de T :
xn = λ cos (λ cos (λ cos (· · · λ cos(x0 ) · · · ))) .

| {z }
n vezes
No caso λ = 1/2, o estudante que tenha uma simples calculadora é estimulado a determinar que o
ponto fixo é x ≃ 0, 45018311 . . ..
E. 18.1 Exercı́cio. Nesse caso, tomando por exemplo x0 = 0, estime o erro da aproximação se pararmos
após 30 iterações. 6
E. 18.2 Exercı́cio. O que acontece na equação de ponto fixo acima se λ > 1? A solução permanece
única? Faça gráficos das funções a(x) = x e b(x) = λ cos(x) para esclarecer essa questão. 6
E. 18.3 Exercı́cio. Use o Teorema de Ponto Fixo de Banach para mostrar que, em R, a equação x = e−x
tem uma e somente uma solução. Qual é ela, aproximadamente? Estime o erro após 40 iterações. 6
• O mapa logı́stico
Seja M = R com a métrica usual d(x, y) = |x − y| e seja A = [0, 1]. Considere a função
T (x) = ax(1 − x).
É fácil ver que para a ∈ [0, 4] a função T leva pontos de A em pontos de A, pois, para x ∈ [0, 1]
vale 0 ≤ T (x) ≤ a/4. A equação de ponto fixo T (x) = x é ax(1 − x) = x, que tem como soluções
xa = 0 e xb = (a − 1)/a. A primeira solução pertence a A, mas a segunda só pertence a A se a > 1.
Concluı́mos que a função T tem um único ponto fixo em A se a ∈ [0, 1] e dois pontos fixos se a ∈ (1, 4].
Para a ∈ [0, 4] analizemos essa aplicação sob o ponto de vista de Teorema de Ponto Fixo de Banach.
É fácil ver que |T ′ (x)| = a|1 − 2x| ≤ a para x ∈ A. Logo, com 0 ≤ x ≤ y ≤ 1,
Z y Z y

d(T (x), T (y)) = |T (x) − T (y)| = ′
T (t) dt ≤ |T ′(t)| dt < a|x − y| = ad(x, y) .
x x
Logo, para a ∈ [0, 1) a função T é uma contração e, pelo Teorema de Ponto Fixo de Banach, tem um
e somente um ponto fixo, que vimos ser xa = 0. O fato de T possuir também apenas um ponto fixo
quando a = 1 (o mesmo xa = 0), quanto temos d(T (x), T (y)) < d(x, y) para x 6= y, não é explicado
pelo Teorema de Ponto Fixo de Banach, mas sim pelo Teorema 18.2. Para a > 1 não podemos mais
garantir contratividade e, de fato, constatamos que T tem dois pontos fixos em A para a ∈ (1, 4].
Consideremos a ∈ [0, 4]. Partindo de um ponto x0 ∈ A podemos definir uma seqüência de pontos
xn+1 = T (xn ) ∈ A. A evolução xn 7→ T (xn ) = xn+1 , n ∈ N, é freqüentemente denominada mapa
logı́stico. O mapa logı́stico foi originalmente introduzido como um modelo para evolução de populações
sob certos fatores limitantes de crescimento.
Na região contrativa 0 ≤ a < 1 a seqüência xn converge ao ponto fixo xa = 0. Na região 1 ≤ a < 2,
já fora da contratividade e da validade do Teorema do Ponto Fixo de Banach,
√ a seqüência converge ao
b a
ponto fixo x (x torna-se um ponto fixo repulsivo). Para 3 < a < 1 + 6 ≈ 3, 45 a seqüência torna-se
oscilante, oscilando entre dois valores fixos. Dai para frente, a oscilação se dá sucessivamente entre 4,
8, 16 etc. pontos, à medida que a cresce. A partir de a ≈ 3, 57 estabelece-se um regime caótico, com a
seqüência xn preenchendo densamente subconjuntos de Cantor do intervalo [0, 1]. O mapa logı́stico é
protótipo de um sistema dinâmico discreto exibindo comportamento caótico.
Para mais detalhes sobre o mapa logı́stico, vide e.g. [69] ou [3].
• O método de Newton para zeros de funções
O bem conhecido método de Newton de determinação de zeros de funções reais10 pode ser estudado
sob a luz do Teorema de Ponto Fixo de Banach. Seja f : R → R uma função da qual desejamos
determinar um zero, ou seja, uma solução da equação f (χ) = 0. Notemos que essa equação equivale
(trivialmente) à equação χ = χ − ff′(χ)
(χ)
, pelo menos se f ′ (χ) 6= 0. Colocado dessa forma o problema
torna-se um problema de ponto fixo para a aplicação T : R → R definida por
f (x)
T (x) := x − .
f ′ (x)
Isso motiva a seguinte proposição.
Proposição 18.2 Se f for pelo menos duas vezes diferenciável, então f possuirá um zero χ, único,
num dado intervalo [a, b] se existir λ com 0 ≤ λ < 1 tal que

f (x)f ′′ (x)

(f ′ (x))2 ≤ λ , para todo x ∈ [a, b] , (18.9)
e se
f (x)

f ′ (x) ≤ (1 − λ)α , (18.10)
10
Para a motivação geométrica do método de Newton, vide discussão à página 1004 sobre a Figura 18.1.
onde x := a+b
2
e α := b−a
2
. Nesse caso, tem-se χ = limn→∞ xn , onde a seqüência xn ∈ [a, b] é
determinada iterativamente por
f (xn )
xn+1 = xn − , n≥0,
f ′ (xn )
sendo x0 ∈ [a, b], arbitrário. Ter-se-á,
λn λn
|χ − xn | ≤ |T (x0 ) − x0 | ≤ (b − a) , n≥0. (18.11)
1−λ 1−λ
Se adotarmos x0 = x teremos ainda |χ − xn | ≤ αλn , n ≥ 0, por (18.10). 2
Nota. A condição (18.9) pressupõe f ′ (x) 6= 0 em [a, b]. Como veremos abaixo, a condição (18.9) é
importante por garantir a contratividade de T , enquanto que (18.10) é suficiente para garantir que T
leve pontos de [a, b] em [a, b], podendo ser eventualmente substituı́da por outra condição que garanta
o mesmo. Notemos, por fim, que o método de Newton funciona mesmo sob condições mais fracas sobre
a função f , nesse caso fora do contexto do Teorema de Ponto Fixo de Banach. A convergência das
iterações pode, então, ser mais lenta que aquela garantida em (18.11). Vide para tal qualquer bom
livro de Cálculo Numérico.
Prova. Sejam x, y ∈ [a, b]. Tem-se

f (y) f (x)
T (y) − T (x) = y − ′
−x+ ′
f (y) f (x)
Z y Z y
d f (t) f (t)f ′′ (t)
= t− ′ dt = dt .
x dt f (t) x (f ′ (t))2
Assim, (18.9) garante que
|T (y) − T (x)| ≤ λ|y − x| .
Isso estaria dizendo-nos que T é um contração. Precisamos, porém, garantir que T leve pontos de [a, b]
em [a, b]. Isso equivale a garantir que |T (x) − x| ≤ α para todo x ∈ [a, b], ou seja, para todo x tal que
|x − x| ≤ α. Uma maneira de impor isso usando (18.9) é supor válida a condição (18.10). De fato,

f (x) f (x)
|T (x) − x| = T (x) − T (x) + ′ ≤ |T (x) − T (x)| + ′
f (x) f (x)

por (18.9) f (x)
≤ λ|x − x| + ′
f (x)
por (18.10)
≤ λ|x − x| + (1 − λ)α
pois x ∈ [a, b]
≤ λα + (1 − λ)α
= α.
Com isso, provamos que T é uma contração que mapeia o espaço métrico completo [a, b] em si mesmo.
O Teorema de Ponto Fixo de Banach garante o resto.
√
E. 18.4 Exercı́cio-Exemplo. Usando o método de Newton determine um valor aproximado para 2
2
calculando o zero positivo de f (x) = x2 − 2. As iterações serão xn+1 = T (xn ) com T (x) = x 2x+2 . Que
intervalo [a, b] é conveniente adotar? O que ocorre próximo a x = 0 e por que?
Partindo-se,√por exemplo, de x0 = 2 obtem-se os valores sucessivos 3/2, 17/12, 577/408. Esse√último
valor aproxima 2 com um erro de 2 × 10−6 . Note que esse procedimento fornece aproximações de 2 por
números racionais. 6
√
E. 18.5 Exercı́cio-Exemplo. Faça o mesmo para 3. 6
O método de Newton pode ser motivado geometricamente pela Figura 18.1. A linha reta que passa
pelo ponto (xn , f (xn )) tangencia o gráfico da função f . Sua inclinação é, portanto, f ′ (xn ). Assim,
o ponto xn+1 indicado na figura vale xn+1 = xn − ff′(x n)
(xn )
(verifique!). Repetindo-se o procedimento a
partir do ponto xn+1 aproximamo-nos mais ainda do zero χ de f .
f(x)
f(x n)
χ x n+1 xn
Figura 18.1: Iteração no método de Newton. O ponto χ é um zero de f . A linha reta tangencia o
gráfico de f no ponto (xn , f (xn )) e sua inclinação é f ′ (xn ). O ponto em que essa reta corta o eixo
horizontal determina xn+1 .
No método de Newton usual, a reta tangente tem uma inclinação diferente a cada passo: f ′ (xn ).
Um método alternativo, por vezes denominado método de Newton simplificado, consiste em usar retas
de inclinação fixa, tal como na Figura 18.2. Nessa situação, o problema de determinar o zero χ de f
equivale ao problema de ponto fixo x = T (x) com
1
T (x) = x − f (x) .
γ
f(x)
f(x n)
f(xn+1 )
f(xn+2 )
arctan γ
χ xn+2 xn+1
xn
Figura 18.2: Alternativa ao método de Newton. As linhas retas não são tangentes ao gráfico de f , são
todas paralelas, todas com inclinação fixa γ. Os pontos em que essas retas cortam o eixo horizontal
são os pontos da iteração.
E. 18.6 Exercı́cio. Usando o Teorema de Ponto Fixo de Banach estude esse problema de ponto fixo e
determine condições suficientes sobre a função f e sobre a inclinação γ para garantir a existência de um
zero único de f em um intervalo [a, b]. 6
O método de Newton simplificado, descrito acima, pode ser empregado mesmo em situações nas
quais f não é diferenciável na região de interesse.
E. 18.7 Exercı́cio-desafio. Generalize o método de Newton usando parábolas tangentes, ao invés de

retas tangentes. 6
O método de Newton descrito acima pode ser generalizado para funções de Rn em Rn , mas não
trataremos disso aqui.
18.3 Aplicação às Equações Integrais de Fredholm e de Vol-

terra
No Capı́tulo 13, página 738, introduzimos algumas equações integrais de interesse e discutimos alguns
métodos de solução. Na presente seção discutiremos métodos iterativos de solução de dois tipos de
equações integrais, as chamadas equações integrais de Fredholm11 de segundo tipo e as equações inte-
grais de Volterra12 de segundo tipo. Ambas surgem em problemas de Fı́sica-Matemática (a equação
integral de Fredholm, por exemplo, surge no problema de Sturm-Liouville. Vide Capı́tulo 12, página
688) e trataremos de exemplos de aplicações adiante. A razão de tratarmos das mesmas aqui está na
11
12
possibilidade de utilizarmos o Teorema de Ponto Fixo de Banach para estudar a existência de soluções.
O mesmo teorema fornece, também neste caso, um poderoso método iterativo de solução, de grande
importância prática. Para uma introdução à teoria das equações integrais, vide também [115] e [144].
Para um tratamento extensivo da equação integral de Volterra, vide [102].
Antes de tratarmos dessas equações integrais, vamos discutir uma condição que usaremos adiante.
• A condição de Lipschitz
Seja f : R → R uma função. f é dita satisfazer a condição de Lipschitz13 em toda a reta real se
existir uma constante M ≥ 0 tal que, para todos x e x′ em R tenhamos
|f (x′ ) − f (x)| ≤ M|x′ − x| .
Note que toda função que satisfaz a condição de Lipschitz para algum M é necessariamente uma
função contı́nua (por que?).
Para que uma função satisfaça a condição de Lipschitz há uma condição suficiente que é útil. Seja
f : R → R uma função diferenciável e tal que |f ′(y)| ≤ M, para algum M ≥ 0 e para todo y ∈ R.
Então f satisfaz a condição de Lipschitz. Para provar isso, notemos que, pelo teorema fundamental do
cálculo, vale
Z x′
′
f (x ) − f (x) = f ′ (y)dy .
x
Daı́, Z ′
x Z x′ Z x′
′ ′ ′
|f (x ) − f (x)| = f (y)dy ≤ |f (y)|dy ≤ Mdy = M|x′ − x| .
x x x
(Aqui tomamos x < x′ , sem perda de generalidade).
E. 18.8 Exercı́cio. Mostre que as funções sen e cos satisfazem a condição de Lipschitz. Qual M pode
ser adotado para ambas? 6
E. 18.9 Exercı́cio. Mostre que a função f (y) = y 2 não pode satisfazer a condição de Lipschitz em toda
a reta real. Sugestão: |x2 − y 2 | ≤ M|x − y| implica |x + y| ≤ M para x 6= y. 6
E. 18.10 Exercı́cio. Mostre que a função f (y) = y 1/3 não pode satisfazer a condição de Lipschitz em
toda a reta real. Sugestão: tome x′ = 0 e mostre que a relação |x1/3 | ≤ M|x| não pode ser válida para
todo x ∈ R com M ≥ 0 fixo qualquer. 6
Uma função que satisfaz a condição de Lipschitz é dita ser Lipschitz-contı́nua. Para a demonstração
de resultados é muito útil, por vezes, (veremos exemplos adiante) mostrar-se que uma função dada é
Lipschitz-contı́nua.
A condição discutida acima tem, aliás, uma generalização da qual não faremos uso aqui. Uma
função f : R → R é dita ser Hölder14 -contı́nua se existirem M ≥ 0 e γ > 0 tais que para todos x e x′
13
14
em R valha
|f (x′ ) − f (x)| ≤ M|x′ − x|γ .
A condição de ser Lipschitz-contı́nua é o caso particular deste quando γ = 1.
• As equações integrais de Fredholm
Seja I o intervalo [a, b] da reta real (com a e b dados e a < b) e sejam duas funções f : I → R e
K : I ×I ×R → R que consideraremos contı́nuas em seus domı́nios de definição. Seja λ ∈ R, constante.
A chamada equação integral de Fredholm de segundo tipo, ou simplesmente equação integral de
Fredholm, é a seguinte equação integral:
Z b
u(x) = f (x) + λ K(x, y, u(y)) dy .
a
Acima u : I → R é a função incógnita. Note que K, que é chamada de núcleo da equação integral,
é uma função de três variáveis e que a incógnita u(y) aparece na posição de seu terceiro argumento,
dentro da integral.
Seja C0 (I) a coleção de todas as funções contı́nuas de I em R. Já vimos anteriormente (Proposição
17.6, página 950) que C0 (I) é um espaço métrico completo em relação à métrica
d∞ (h, l) = sup |h(x) − l(x)| ,

x∈I
onde h e l pertencem a C0 (I).

Seja T a aplicação que leva C0 (I) em si mesmo dada por
Z b
T (h)(x) = f (x) + λ K(x, y, h(y)) dy .
a
Note que se h é uma função contı́nua em I então T (h) também é uma função contı́nua em I. A equação
integral de Fredholm pode ser então entendida como a equação de ponto fixo em C0 (I) dada por
u = T (u) .
É natural, portanto, procurar condições que façam de T uma contração no espaço métrico completo
C0 (I), pois assim poderemos evocar o Teorema de Ponto Fixo de Banach. É neste momento que a
condição de Lipschitz se faz útil. Vamos supor que a função K satisfaça a condição de Lipschitz para
a terceira variável: vamos supor que existe M ≥ 0 tal que para todo x, y ∈ I e todos z e z ′ ∈ R valha

K(x, y, z ) − K(x, y, z) ≤ M|z ′ − z| .
′
(18.12)
Então, pelo menos no caso em que M(b − a) < 1, a aplicação T é uma contração em C0 (I) com relação
à métrica d∞ dada. Para provar isso, usamos que, para duas funções h, l ∈ C0 (I) temos
Z bh i
T (h)(x) − T (l)(x) = λ K(x, y, h(y)) − K(x, y, l(y)) dy ,
a
donde tiramos que

Z b

|T (h)(x) − T (l)(x)| ≤ |λ| K(x, y, h(y)) − K(x, y, l(y)) dy
a
Z b
≤ |λ| M |h(y) − l(y)| dy
a
≤ |λ| M(b − a) sup |h(y) − l(y)| = |λ| M (b − a) d∞ (h, l) . (18.13)

y∈I
Logo,
d∞ (T (h), T (l)) = sup |T (h)(x) − T (l)(x)| ≤ |λ| M (b − a) d∞ (h, l) .
x∈I
Assim, vimos que, sob as hipóteses acima, T é uma contração se |λ| < 1/M(b − a). Essa condição,
se satisfeita, garante, pelo Teorema de Ponto Fixo de Banach, que há uma e somente uma função u
em C0 (I) que é solução da equação integral de Fredholm. Com isso, a solução pode ser aproximada
(exponencialmente, na métrica d∞ ) partindo-se de qualquer u0 ∈ C0 (I) através da seqüência iterada
un = T (un−1 ), n ∈ N, n ≥ 1.
A condição suficiente para termos contratividade M(b − a) < 1 é, em suma, uma condição sobre a
função K e sobre o intervalo I. Note-se que não há qualquer restrição à função f , além da que seja
contı́nua.
E. 18.11 Exercı́cio. Mostre que a equação integral de Fredholm

Z 1
yu(y)
u(x) = 2 cos(x) + sen x + dy , x ∈ [0, 1] ,
0 2
yz
tem uma solução única em C0 ([0, 1]). Sugestão: neste caso a função K é K(x, y, z) = sen x +
2
(certo?). Mostre que a mesma é Lipschitz-contı́nua em relação a z com M = 1/2. Para tal estude a
derivada parcial de K em relação a z e mostre que |∂z K(x, y, z)| ≤ 1/2 para todo x, y ∈ I e todo z ∈ R.
6
• As equações integrais de Volterra
A chamada equação integral de Volterra de segundo tipo, ou simplesmente equação integral de

Volterra, é a seguinte equação integral:
Z x
u(x) = f (x) + K(x, y, u(y)) dy .
a
Acima u : I → R, I := [a, b] com b > a é a função incógnita e f e K são definidas tal como no caso
das equações integrais de Fredholm. Note que K, que é chamada de núcleo da equação integral, é uma
função de três variáveis e que a incógnita u(y) aparece na posição de seu terceiro argumento, dentro da
integral. Note também que a equação integral de Volterra difere da equação integral de Fredholm pelo
aparecimento de mais uma dependência em x, a saber, no limite superior do intervalo de integração.
Seja T a aplicação que leva C0 (I) em si mesmo dada por

Z x
T (h)(x) = f (x) + K(x, y, h(y)) dy .
a
Note que se h é uma função contı́nua em I então T (h) também é uma função contı́nua em I. A equação
integral de Volterra pode ser então entendida como a equação de ponto fixo em C0 (I) dada por
u = T (u) .
Como no caso da equação integral de Fredholm, poderı́amos procurar condições que façam de T uma
contração no espaço métrico completo C0 (I) pois, assim, poderı́amos novamente evocar o Teorema de
Ponto Fixo de Banach. Todavia, como veremos, podemos aqui proceder de um modo diferente do caso
da equação de Fredholm e obter condições mais fracas para garantir a existência de solução. O que
faremos não é procurar condições que garantam que T seja uma contração, mas provaremos que T m o
é, para algum m > 0. Assim, poderemos evocar a generalização do Teorema de Ponto Fixo de Banach
fornecida na Proposição 18.1, página 1000.
Para tal, procedemos como antes e assumimos ser a função K Lipschitz-contı́nua em relação à
terceira variável, ou seja, que valha a condição descrita em (18.12). Daqui tiramos, para x ∈ I,
Z xh i
T (h)(x) − T (l)(x) = K(x, y, h(y)) − K(x, y, l(y)) dy ,
a
donde segue que

Z x

|T (h)(x) − T (l)(x)| ≤ K(x, y, h(y)) − K(x, y, l(y)) dy
a
Z x
≤ M |h(y) − l(y)| dy
a
≤ M(x − a) sup |h(y) − l(y)| = M(x − a) d∞ (h, l) .

y∈I
A diferença entre essa última expressão e a expressão correspondente (18.13) para a equação de
Fredholm é que aqui surge o fator (x − a), que ainda depende de x, ao invés do fator constante
(b − a). Como se verá no que segue, essa diferença é importante. Vamos agora provar por indução que
para todo n ∈ N tem-se
n
n n n (x − a)
T (h)(x) − T (l)(x) ≤ M d∞ (h, l) , ∀x ∈ I . (18.14)
n!
Como já vimos que isso é verdade para n = 1, assumamos que essa relação é válida para um certo n
genérico. Então,
Z x
n+1 n+1 n n
T (h)(x) − T (l)(x) ≤ K(x, y, T (h)(y)) − K(x, y, T (l)(y)) dy
a
Z x
n
≤ M T (h)(y) − T n (l)(y) dy
a
Z x
n (y − a)n
≤ M M dy d∞ (h, l)
a n!
(x − a)n+1
= M n+1 d∞ (h, l) ,
(n + 1)!
o que prova (18.14) para todo n ∈ N, por indução. Assim, temos também que
(b − a)n
d∞ (T n (h), T n (l)) ≤ M n d∞ (h, l), ∀n ∈ N .
n!
Note-se agora que, para quaisquer M, a e b fixos, existe n grande o suficiente tal que
[M(b − a)]n
< 1
n!
(por que?). Assim, para um tal n, T n será uma contração. Pela generalização do Teorema de Ponto
Fixo de Banach fornecida pela Proposição 18.1, página 1000, vemos que T tem também um ponto fixo
único. Isso garante existência e unicidade das soluções da equação de Volterra em C0 (I). Note-se que,
aqui, foi suficiente assumir que K satisfaça a relação descrita em (18.12), não havendo restrições ao
valor do produto M(b − a), ao contrário do que ocorreu no caso da equação de Fredholm.
• Equações diferenciais de segunda ordem e as equações integrais de Volterra
Vamos aqui tratar de mostrar algumas aplicações das equações integrais de Volterra à resolução de
problemas, muito freqüentemente encontrados em Fı́sica, envolvendo equações diferenciais de segunda
ordem com certas condições iniciais dadas.
Para tal, faremos uso da seguinte identidade, válida para qualquer função φ que seja pelo menos
duas vezes diferenciável em R:
Z t
φ(t) = φ(t0 ) + φ̇(t0 )(t − t0 ) + (t − t′ )φ̈(t′ ) dt′ . (18.15)
t0
E. 18.12 Exercı́cio. Prove essa identidade. Sugestão: use as identidades

Z t Z t′
′ ′ ′
φ(t) = φ(t0 ) + φ̇(t ) dt e φ̇(t ) = φ̇(t0 ) + φ̈(t′′ ) dt′′
t0 t0
e use integração por partes. 6

Para ilustrar o uso que podemos fazer da identidade (18.15), vamos considerar a bem conhecida
equação do pêndulo simples
g
θ̈(t) = − sen(θ(t))
l
(para g > 0 e l > 0) com condições iniciais θ(0) = θ0 e θ̇(0) = ω0 . Substituindo o lado direito em
(18.15) temos Z
g t
θ(t) = θ0 + ω0 t − (t − t′ ) sen(θ(t′ )) dt′ , (18.16)
l 0
que é uma equação integral de Volterra não-linear para θ.
E. 18.13 Exercı́cio. Constate que o núcleo dessa equação integral

g
K(t, t′ , z) = − (t − t′ ) sen(z)
l
satisfaz a condição de Lipschitz na terceira variável para t e t′ contidos em qualquer intervalo finito [−T, T ],
0 < T < ∞. 6
Deste último exercı́cio concluı́mos que a equação do pêndulo simples, com as condições iniciais
dadas, tem solução única em qualquer intervalo finito [−T, T ], 0 < T < ∞.
E. 18.14 Exercı́cio. Calcule as duas primeiras aproximações para a solução da equação integral (18.16)
seguindo o procedimento iterativo. Tome como ponto de partida a função identicamente nula: θ0 (t) ≡ 0.
Você consegue, olhando o resultado do cômputo das duas primeiras aproximações, interpretar fisicamente o
que elas representam? 6
E. 18.15 Exercı́cio. Seja a conhecida equação do pêndulo simples no limite de pequenas oscilações:
g
θ̈(t) = − θ(t) ,
l
com condições iniciais θ(0) = φ0 e θ̇(0) = ω0 . Usando (18.15) transforme-a em uma equação integral de
Volterra e resolva-a pelo método iterativo, tomando como ponto de partida a função identicamente nula:
θ0 (t) ≡ 0. Para tal, determine a n-ésima iterada θn exatamente
r e mostre que a mesma converge a uma
g
certa combinação linear de cos(ωt) e sen(ωt), onde ω = . Para tal você precisará lembrar-se da série
l
de Taylor das funções sen e cos. 6
Uma outra ilustração do uso das equações integrais de Volterra, e sua resolução via Teorema de
Ponto Fixo de Banach, pode ser encontrada no estudo das equações diferenciais lineares de segunda
ordem não-homogêneas com coeficientes não necessariamente constantes
ü(t) + a(t)u̇(t) + b(t)u(t) = c(t) , (18.17)
com condições iniciais dadas do tipo u(0) = u0 e u̇(0) = v0 . Tais equações são muito freqüentemente
encontradas em problemas de Fı́sica-Matemática e o estudante certamente já as viu surgir, por exemplo,
em Mecânica Clássica.
Nosso objetivo é transformar o problema de determinar a solução u da equação diferencial com

condições iniciais acima no problema de resolver uma equação integral de Volterra equivalente.
Há mais de uma maneira de se obter uma tal equação integral a partir de (18.17). Para o propósito
de demonstrar existência e unicidade da solução, com condições pouco exigentes sobre as funções a, b
e c, vamos considerar primeiro uma equação integral para ü. Uma outra equação integral diretamente
para u será vista depois.
Vamos supor aqui que haja um intervalo fechado finito I = [−T, T ], 0 < T < ∞, onde as funções
a, b e c que aparecem acima sejam contı́nuas. Pelo teorema fundamental do cálculo e pela identidade
(18.15), temos que
Z t
u̇(t) = v0 + ü(t′ ) dt′ , (18.18)
0
Z t
u(t) = u0 + v0 t + (t − t′ ) ü(t′ ) dt′ . (18.19)
0
Substituindo-se em (18.17) u e u̇ pelo lado direito de (18.18) e (18.19), respectivamente, teremos

Z t
ü(t) = f (t) + K(t, t′ ) ü(t′ )dt′ , (18.20)
0
onde
f (t) := c(t) − (b(t)t + a(t))v0 − b(t)u0 (18.21)
e
K(t, t′ ) := −a(t) − b(t)(t − t′ ) . (18.22)
E. 18.16 Exercı́cio. Verifique tudo isso. 6
A equação (18.20) é claramente uma equação de Volterra linear para ü que, pelas hipóteses de
continuidade sobre as funções a, b e c, possui solução única no intervalo I, dado que nesse intervalo
K é limitado (por que?). A função u pode ser então obtida integrando-se duas vezes a solução ü da
equação (18.20) ou usando-se novamente a identidade (18.15).
O que vimos acima pode ser então resumido no seguinte teorema:
Teorema 18.3 Sejam as funções a, b e c contı́nuas no intervalo I = [−T, T ], T > 0. Então, nesse
intervalo, a solução da equação diferencial linear de segunda ordem não-homogênea
ü(t) + a(t)u̇(t) + b(t)u(t) = c(t) , (18.23)
com condições iniciais dadas do tipo u(0) = u0 e u̇(0) = v0 , existe e é única. 2
É notável que seja suficiente exigir tão pouco (só continuidade dos coeficientes) para garantir-se
existência e unicidade da equação acima. Há funções contı́nuas que não são diferenciáveis em parte
alguma (você conhece um exemplo?) ou mesmo algumas que são crescentes mas têm derivada nula
quase em toda parte (a função de Cantor tratada no capı́tulo de teoria da medida é um exemplo) e
mesmo com tais funções nos coeficientes de (18.17) tem-se garantida existência e unicidade da solução.
Para um outro tratamento da equação (18.17) usando a chamada série de Dyson, vide Capı́tulo 7.
A equação integral (18.20) é uma equação para ü. O leitor pode estar se perguntando se não
podemos ter uma equação integral diretamente para u. A resposta é positiva. Fazendo mais uma vez
uso da identidade (18.15), temos
Z t h i
u(t) = u0 + v0 t + (t − t′ ) − a(t′ )u̇(t′ ) − b(t′ )u(t′ ) + c(t′ ) dt′ . (18.24)
0
Integrando-se por partes o termo com −(t − t′ )a(t′ )u̇(t′ ), obtemos

Z t
u(t) = f (t) + K(t, t′ )u(t′ ) dt′ , (18.25)
0
onde agora Z t
f (t) := u0 + t(v0 + a(0)u0 ) + (t − t′ )c(t′ )dt′ (18.26)
0
e
K(t, t′ ) := −a(t′ ) + (t − t′ ) a′ (t′ ) − b(t′ ) . (18.27)

Z t
′
Novamente, se a, a e b forem contı́nuas no intervalo I, assim como a função (t − t′ )c(t′ )dt′ , então
0
a existência e a unicidade da solução da equação tratada estarão garantidas no mesmo
Z t intervalo I.
Note-se que aqui podemos admitir também casos em que c não é contı́nua, desde que (t − t′ )c(t′ )dt′
0
o seja.
E. 18.18 Exercı́cio. Seja a equação do pêndulo simples forçado no limite de pequenas oscilações
θ̈(t) + ω02 θ(t) = f (t)
onde f representa (a menos de uma constante) uma força externa dependente do tempo. Considere o caso
em que f é periódica de perı́odo T > 0, f (t) = f (t + nT ), ∀n ∈ Z, com f dada no intervalo [0, T ) por



 f0 , se 0 ≤ t ≤ T /2 ,
f (t) =


 0, se T /2 < t < T .
Transforme essa equação em uma equação integral de Volterra equivalente e mostre como a mesma pode
ser resolvida iterativamente. 6
E. 18.19 Exercı́cio. O mesmo para a equação do pêndulo simples forçado

θ̈(t) + ω 2 senθ(t) = f (t)
com a mesma f dada acima. 6
18.4 Aplicações à Teoria das Equações Diferenciais Ordinárias

Iremos agora tratar de algumas das mais importantes aplicações do Teorema de Ponto Fixo de Banach,
a saber, à teoria das equações diferenciais ordinárias (EDO’s). O principal resultado que obteremos
é o célebre Teorema de Picard-Lindelöf que fornece condições suficientes para existência e unicidade
de soluções de EDO’s. Obteremos também resultados sobre a dependência de soluções com relação a
condições iniciais e a parâmetros. Trataremos de equações diferenciais de uma classe bastante geral, a
saber, equações diferenciais em espaços de Banach, de modo a incluir sistemas de equações diferenciais
ordinárias definidas em Rn e Cn . O leitor é convidado a uma leitura prévia do Capı́tulo 5, página 276,
que trata de tais assuntos de forma introdutória.
18.4.1 O Teorema de Picard-Lindelöf

Esta subseção foi escrita conjuntamente com Daniel A. Cortez
Uma das principais aplicações do Teorema de Ponto Fixo de Banach dá-se, talvez, no contexto de
espaços de funções, mais precisamente, quando o mesmo é empregado na teoria das equações dife-
renciais ordinárias (EDOs). Como veremos, o Teorema de Ponto Fixo de Banach é crucial para a
demonstração de um famoso teorema sobre existência e unicidade de soluções para EDOs devido a
Picard15 e Lindelöf16 .
Antes de entrarmos nos detalhes técnicos, gostarı́amos de fazer uma pequena nota histórica: original-
mente, a demonstração de existência e unicidade de soluções para EDOs se deve a Lindelöf. Entretanto,
o método que aplicaremos aqui para a sua demonstração, fazendo uso explı́cito do Teorema de Ponto
Fixo de Banach, deve-se a Picard17 . Esses trabalhos datam da década de 90 do Século XIX.
No que segue procuraremos apresentar uma versão bastante geral do teorema sobre existência e uni-
cidade de soluções para EDOs válido para equações definidas em espaços de Banach B. Consideremos,
a saber, o seguinte tipo de equação diferencial de primeira ordem
ẋ(t) = f (t, x(t)) , (18.28)
onde t ∈ R e x : R → B representa uma função de uma variável real assumindo valores em um espaço
de Banach B. Acima, f : R × B → B é uma função de t ∈ R e x ∈ B sobre a qual suporemos certas
hipóteses convenientes de continuidade etc.
O leitor deve ter em mente o caso em que B = R (ou B = C), quando a equação acima representa
uma equação de primeira ordem de uma função real (complexa) desconhecida x(t), ou o caso em que
B = Rn (ou B = Cn ), quando a equação acima representa um sistema de equações de primeira ordem
de um vetor real (complexo) desconhecido de n componentes: x(t) = (x1 (t), . . . , xn (t)). Tais sistemas
foram discutidos no Capı́tulo 5, página 276.
Um problema de valor inicial consiste de uma equação diferencial ordinária, como a dada acima,
mais uma condição inicial
x(t0 ) = x0 , (18.29)
15
Charles Émile Picard (1856-1941).
16
Ernst Leonard Lindelöf (1870-1946).
17
Chamado de Método das aproximações sucessivas.
onde t0 ∈ R e x0 ∈ B são dados. Com essa pequena definição, estamos prontos para enunciar o teorema
de existência e unicidade de Picard-Lindelöf:
Teorema 18.4 (Teorema de Picard-Lindelöf. Existência e unicidade de soluções de EDO’s)
Seja f : R × B → B não-identicamente nula e contı́nua na região fechada
R ≡ Ra, b, t0 , x0 := { (t, x) ∈ R × B : |t − t0 | ≤ a, kx − x0 k ≤ b } , (18.30)
para certos valores a > 0 e b > 0, onde k · k representa a norma do espaço de Banach B. Claro é que
f é limitada em R. Seja c > 0 definida por
c := sup kf (t, x)k . (18.31)

(t, x)∈R
Suponha ainda que f seja Lipschitz-contı́nua em R com relação ao seu segundo argumento, ou seja,
existe uma constante k ≥ 0 tal que para todos (t, x) e (t, y) ∈ R valha
kf (t, x) − f (t, y)k ≤ k kx − yk . (18.32)
Então, pelo menos no intervalo fechado [t0 − β, t0 + β], onde

b
β := min a, , (18.33)
c
o problema de valor inicial descrito pelas relações ẋ(t) = f (t, x(t)) com x(t0 ) = x0 apresenta uma
solução, a qual é única.
Uma condição suficiente para que a condição de Lipschitz acima se cumpra é que ∂y f (t, y) exista em
todo R e lá seja limitada, em cujo caso a constante de Lipschitz seria dada por k := sup k∂y f (t, y)k.
(t, y)∈R
2
Antes de apresentarmos a demonstração, gostarı́amos de notar o seguinte: embora de importante

aplicação na maioria das situações práticas na teoria das EDOs, o Teorema de Picard-Lindelöf não é o
mais forte que existe em sua categoria. Para uma lista completa dos diversos teoremas sobre existência
e/ou unicidade de solução para EDOs, vide [1]. Na Seção 5.3, página 290, apresentamos exemplos
de aplicação do Teorema de Picard-Lindelöf e exemplos nos quais o mesmo não se aplica, tendo por
conseqüência a inexistência ou não-unicidade da solução.
Descrevamos agora a técnica a ser utilizada em nossa demonstração. O primeiro passo consiste
em convertermos a equação diferencial (18.28) em uma equação integral, definindo-se para isso uma
transformação T . Em seguida, sob as hipóteses do teorema, mostraremos que existe uma certa potência
da transformação T , digamos T m , m ≥ 1, tal que T m é uma contração. Feito isso, utilizando o Teorema
de Ponto Fixo de Banach em sua versão generalizada (Proposição 18.1, página 1000), concluiremos a
existência e a unicidade do ponto fixo para a transformação T , o qual será justamente a solução de
nosso problema. Faremos uso nessa demonstração, de dois resultados prévios, que escrevemos sob a
forma de dois lemas. O primeiro deles, é a Proposição 17.6, página 950, que recordamos aqui.
Lema 18.1 Seja C([a, b], B) o espaço das funções contı́nuas definidas no compacto [a, b] ⊂ R
assumindo valores no espaço e Banach B. Então, C([a, b], B) é um espaço de Banach em relação à
métrica do supremo, definida por
d∞ (f, g) := sup kf (t) − g(t)k ,

t∈[a, b]
para f, g ∈ C([a, b], B). 2
A demonstração é idêntica à da Proposição 17.6, página 950, e não precisa se repetida aqui. O
segundo lema que utilizaremos é o seguinte.
e ⊂ C([a, b], B) o sub-espaço de C([a, b], B)
Lema 18.2 Sejam [a, b] ⊂ R e para κ > 0 fixo, seja C
formado pelas funções x : [a, b] → B tais que
kx(t) − x0 k ≤ κ , ∀t ∈ [a, b] . (18.34)
e é um sub-espaço fechado de C([a, b], B).

Então, C 2
Prova. Tudo o que precisamos fazer é mostrar que qualquer seqüência convergente (xn ) de elementos
de Ce converge para um x∗ que também está em C e (se você não entendeu a razão dessa afirmação,
confira a Proposição 17.7 da página 959, ou, equivalentemente, a Proposição 19.9, página 1054). De
fato, como xn ∈ Ce para todo n ∈ N, temos
kxn (t) − x0 k ≤ κ , ∀t ∈ [a, b] .
Já que essa expressão não depende de t, podemos escrever
d∞ (xn , x0 ) = sup kxn (t) − x0 k ≤ κ . (18.35)

t∈I
Por outro lado, como por hipótese a seqüência (xn ) converge para x∗ , então, dado ε > 0, existe Nε > 0
tal que para todo n > Nε vale:
d∞ (xn , x∗ ) ≤ ε . (18.36)
Vamos agora utilizar a desigualdade triangular:
d∞ (x∗ , x0 ) ≤ d∞ (x∗ , xn ) + d∞ (xn , x0 ) ≤ ε + κ , (18.37)
onde, na última desigualdade, fizemos uso das relações (18.35) e (18.36). Uma vez que (18.37) é
verdadeira para qualquer ε > 0, concluı́mos então que
kx∗ (t) − x0 k ≤ sup kx∗ (t) − x0 k = d∞ (x∗ , x0 ) ≤ κ , ∀t ∈ [a, b] ,

t∈[a, b]
e
mostrando que x∗ também pertence a C.
Prova do Teorema 18.4. Seja J o intervalo [t0 − β, t0 + β] ⊂ R e considere o espaço C(J, B) das
funções contı́nuas em J assumindo valores em B, dotado com a métrica do supremo. Considere ainda
o sub-espaço C e ⊂ C(J, B) formado pelo conjunto das funções x(t) tais que
kx(t) − x0 k ≤ cβ , ∀t ∈ J . (18.38)
Pelo Lema 18.1, sabemos que C(J, B) é um espaço de Banach. Por outro lado, do Lema 18.2 vemos que
o subespaço Ce é fechado em C(J, B). Logo, da Proposição 17.7 da página 959 (ou equivalentemente,
da Proposição 19.9, página 1054), concluı́mos imediatamente que C e também é um espaço métrico
completo. Essa é uma conclusão importante da qual faremos uso adiante.
Definamos agora uma transformação T pela seguinte relação:
Z t
(T x)(t) := x0 + f (τ, x(τ )) dτ . (18.39)
t0
Vamos mostrar que T é uma aplicação que leva C e em C, e ou seja, T : C e → C.

e De fato, para τ ∈ J e
e como cβ ≤ b, concluı́mos de (18.30) que (τ, x(τ )) ∈ R. Logo a curva J ∋ τ 7→ (τ, x(τ )) ∈
x(τ ) ∈ C,
R × B é contı́nua e está inteiramente contida na região R, onde f é contı́nua por hipótese. Assim,
J ∋ τ 7→ f (τ, x(τ )) ∈ B é contı́nua e a sua integral estará bem definida. Concluı́mos daı́ que T pode
e Agora vamos mostrar que T x é novamente um elemento em C.
ser aplicada a funções de C. e
Utilizando a relação (18.31) de limitação da função f no retângulo R, tem-se para x ∈ C,e
Z t Z t

k(T x)(t) − x0 k =
f (τ, x(τ )) dτ ≤ kf (τ, x(τ ))k dτ ≤ c|t − t0 | ≤ cβ ,
t0 t0
provando que T x dista de x0 menos que cβ, uma das condições definidores do conjunto C. e Resta-nos
e Para tal, já vimos que para x ∈ C
provar que T x é contı́nua caso x ∈ C. e fixo, J ∋ τ 7→ f (τ, x(τ )) ∈ B
é igualmente contı́nua e, portanto, limitada, ou seja, existe Nx > 0 tal que kf (τ, x(τ ))k ≤ Nx para
todo τ ∈ J. Logo, para t, t′ ∈ J, com t′ ≥ t
Z ′ Z t′
t
′
k(T x)(t ) − (T x)(t)k = f (τ, x(τ )) dτ ≤ kf (τ, x(τ ))k dτ ≤ Nx |t′ − t| .
t t
Como o lado direito vai a zero para t → t′ provou-se que (T x)(t) é contı́nua como função de t ∈ J.
e se x ∈ C.
Assim, T x ∈ C e
Chegamos agora ao ponto crucial de nossa demonstração. Observe que se x(t) ∈ C e satisfaz o nosso
problema de valor inicial (relações (18.28) e (18.29)), então certamente x(t) pode ser escrita como
Z t
x(t) = (T x)(t) = x0 + f (τ, x(τ )) dτ . (18.40)
t0
Para tal, procedemos como no tratamento da equação integral de Volterra, página 1009, assumindo
que a função f seja Lipschitz-contı́nua em relação à segunda variável, ou seja, que valha a condição
descrita em (18.32). Para t ∈ J, e h, l ∈ C, e
Z t
(T h)(t) − (T l)(t) = f (τ, h(τ )) − f (τ, l(τ )) dτ ,
t0
donde segue que (assumimos sem perda de generalidade que t ≥ t0 )

Z t
k(T h)(t) − (T l)(t)k ≤ kf (τ, h(τ )) − f (τ, l(τ ))k dτ
t0
(18.32)
Z t
≤ k kh(τ ) − l(τ )k dτ
t0
≤ k|t − t0 | sup kh(τ ) − l(τ )k = k|t − t0 | d∞ (h, l) .

τ ∈J
Vamos agora provar por indução que para todo n ∈ N tem-se
n n n |t − t0 |n
k(T h)(x) − (T l)(x)k ≤ k d∞ (h, l) , ∀t ∈ J . (18.41)
n!
Como já vimos que isso é verdade para n = 1, assumamos que essa relação é válida para um certo n
genérico. Então,
Z t
n+1
(T h)(t) − (T n+1
l)(t) ≤ kf (τ, (T n h)(τ )) − f (τ, (T n l)(τ ))k dτ
t0
Z t
≤ kk(T n h)(τ ) − (T n l)(τ )k dτ
t0
Z t
n |τ − t0 |n
≤ k k dτ d∞ (h, l)
t0 n!
|t − t0 |n+1
= k n+1 d∞ (h, l) ,
(n + 1)!
o que prova (18.41) para todo n ∈ N e todo t ∈ J, por indução. Assim, temos também que
(kβ)n
d∞ (T n h, T n l) ≤ d∞ (h, l), ∀n ∈ N . (18.42)
n!
n
Note-se agora que, para quaisquer k e β fixos, existe n grande o suficiente tal que [kβ]
n!
< 1. Assim,
n
para um tal n, T será uma contração do espaço completo C e e si mesmo. Nessas condições, podemos
certamente evocar a versão generalizada do Teorema de Ponto Fixo de Banach fornecida pela Proposição
18.1, página 1000, garantindo a existência e a unicidade de x(t) ∈ C, e satisfazendo (18.40). Mas
isso implica justamente a existência e unicidade de solução em C(J, B) do problema de valor inicial
considerado, demonstrando o Teorema 18.4.
No Capı́tulo 5, especialmente na Seção 5.3.1, página 293 e seguintes, são discutidos exemplos de
equações diferenciais ordinárias que violam as condições do Teorema de Picard-Lindelöf.
18.4.2 Generalizando o Teorema de Picard-Lindelöf. Soluções Globais

Nesta sub-seção demonstraremos um teorema que fornece condições suficientes para a existência de
soluções globais de problemas de valor inicial. O primeiro teorema abaixo é um resultado preparatório
que estende o Teorema de Picard-Lindelöf, Teorema 18.4, página 1015.
Em toda esta seção, B denota um espaço de Banach com norma k · k e, para a > 0 e t0 ∈ R,
denotamos por Fa, t0 ⊂ R × B a faixa de largura a centrada em t0 definida por
Fa, t0 := { (t, y) ∈ R × B : |t − t0 | ≤ a , y ∈ B arbitrário} .
Teorema 18.5 Suponhamos que para um certo a > 0 e para t0 ∈ R tenhamos uma função f : Fa, t0 →
B que seja contı́nua. Suponhamos também que f é Lipschitz-contı́nua em relação à segunda variável,
ou seja, existe uma constante ka (denominada constante de Lipschitz) tal que para todos (t, y), (t, v) ∈
Fa, t0 vale kf (t, y) − f (t, v)k ≤ ka ky − vk. Então, para qualquer x0 ∈ B, o problema de valor inicial
ẋ(t) = f (t, x(t)) com x(t0 ) = x0 apresenta uma solução única válida para todo t ∈ [t0 − a, t0 + a].
Uma condição suficiente para que a condição de Lipschitz acima se cumpra é que ∂y f (t, y) exista
em todo ponto de Fa, t0 e lá seja limitada, em cujo caso a constante de Lipschitz pode ser escolhida
como ka := sup k∂y f (t, y)k. 2
(t, y)∈Fa, t0
O leitor deve notar que esse teorema difere do Teorema de Picard-Lindelöf primeiro na hipótese de
que f seja Lipschitz-contı́nua em uma faixa infinita Fa, t0 de largura 2a centrada no instante inicial t0 ,
e não apenas em uma região compacta como o R do Teorema 18.4; segundo na conclusão, que afirma
que a solução existe em todo intervalo [t0 − a, t0 + a] e não em um intervalo eventualmente menor.
Prova. A demonstração segue passos semelhantes aos da prova do Teorema de Picard-Lindelöf. Seja J
o intervalo fechado [t0 − a, t0 + a]. Considere o espaço C(J, B) das funções contı́nuas em J assumindo
valores em B, dotado com a métrica do supremo. Pelo Lema 18.1, sabemos que C(J, B) é um espaço
de Banach. Como na prova do Teorema de Picard-Lindelöf, definimos a transformação
Z t
(T x)(t) := x0 + f (τ, x(τ )) dτ . (18.43)
t0
Vamos mostrar que T é uma aplicação que leva C(J, B) em C(J, B). De fato, para τ ∈ J e x ∈ C(J, B)
tem-se obviamente que (τ, x(τ )) ∈ Fa, t0 . Logo, a curva J ∋ τ 7→ (τ, x(τ )) ∈ R × B é contı́nua e está
inteiramente contida na região Fa, t0 , onde f é contı́nua por hipótese. Assim, J ∋ τ 7→ f (τ, x(τ )) ∈ B
é contı́nua e a sua integral estará bem definida. Concluı́mos daı́ que T pode ser aplicada a funções de
C(J, B). Agora vamos mostrar que T x é novamente um elemento em C(J, B) e para tal é preciso
provar que T x é contı́nua caso x ∈ C(J, B). Para x ∈ C(J, B) fixo, vimos que J ∋ τ 7→ f (τ, x(τ )) ∈ B
é igualmente contı́nua e, portanto, limitada, ou seja, existe Nx > 0 tal que kf (τ, x(τ ))k ≤ Nx para
todo τ ∈ J. Logo, para t, t′ ∈ J, com t′ ≥ t
Z ′ Z t′
t
′
k(T x)(t ) − (T x)(t)k = f (τ, x(τ )) dτ ≤ kf (τ, x(τ ))k dτ ≤ Nx |t′ − t| .
t t
Como o lado direito vai a zero para t → t′ provou-se que (T x)(t) é contı́nua como função de t ∈ J.
Assim, T x ∈ C(J, B) se x ∈ C(J, B).
Para provar que T possui um ponto fixo único em C(J, B) segue-se os mesmos passos da de-
monstração do Teorema de Picard-Lindelöf que conduziram à (18.42), que no presente caso assume a
forma
n n (aκa )n
d∞ (T h, T l) ≤ d∞ (h, l), ∀n ∈ N . (18.44)
n!
n
Note-se agora que, para quaisquer a e κa fixos, existe n grande o suficiente tal que [aκn!a ] < 1. Assim,
para um tal n, T n será uma contração do espaço completo C(J, B) e si mesmo. Nessas condições,
podemos certamente evocar a versão generalizada do Teorema de Ponto Fixo de Banach fornecida pela
Proposição 18.1, página 1000, garantindo a existência e a unicidade de x(t) ∈ C(J, B), satisfazendo
(18.40). Mas isso implica justamente a existência e unicidade de solução em C(J, B) do problema de
valor inicial considerado, demonstrando o Teorema 18.5.
Chegamos finalmente ao
Teorema 18.6 (Existência e unicidade de soluções globais) Seja f : R × B → B contı́nua em
todo R × B. Suponhamos também que para todo a > 0, f seja Lipschitz-contı́nua em relação à segunda
variável na faixa Fa, t0 , ou seja, para cada a > 0 existe uma constante ka (eventualmente dependente de a
e denominada constante de Lipschitz) tal que para todos (t, y), (t, v) ∈ Fa, t0 vale kf (t, y)−f (t, v)k ≤
ka ky − vk. Então, para qualquer x0 ∈ B, o problema de valor inicial ẋ(t) = f (t, x(t)) com x(t0 ) = x0
apresenta uma solução única válida para todo t ∈ R.
Uma condição suficiente para que a condição de Lipschitz acima se cumpra é que ∂y f (t, y) exista
em todo R × B e seja limitada em cada faixa Fa, t0 , a > 0, em cujo caso as constantes de Lipschitz
podem ser escolhidas como ka := sup k∂y f (t, y)k. 2
(t, y)∈Fa, t0
Prova. A prova é imediata pelo Teorema 18.5.
Sugerimos aqui os exercı́cios da página 299 e os comentários que se lhes seguem.
18.4.3 Um Teorema de Comparação de Soluções de EDO’s

Nesta seção estabeleceremos um resultado fundamental para a análise da dependência de soluções de
EDO’s para com as condições iniciais e para com os parâmetros que definem a equação, duas questões
importantes em aplicações e relacionadas ao estudo da estabilidade das soluções de equações diferenciais.
Esse resultado está expresso no Teorema 18.7, abaixo, que permite comparar a evolução de soluções de
equações diferenciais distintas, com condições iniciais distintas. Após seu enunciado e demonstração
faremos alguns comentários relevantes.
Teorema 18.7 Seja B um espaço de Banach, f1 , f2 : R×B → B duas funções e sejam y1 , y2 : I → B
soluções dos problemas de valor inicial
ẋ(t) = f1 (t, x(t)) , x(t0 ) = x1 ,
ẋ(t) = f2 (t, x(t)) , x(t0 ) = x2 ,

respectivamente, válidas em um intervalo I que contém o ponto t0 ∈ R.

Seja R ⊂ R × B uma região fechada da forma
R = { (t, x) ∈ R × B : |t − t0 | ≤ a, kx − x0 k ≤ b } , (18.45)
para certos a > 0, b > 0 e x0 ∈ B, onde k · k representa a norma do espaço de Banach B. Vamos supor
que R que satisfaça as seguintes condições:
1. I ⊂ [t0 − a, t0 + a].
2. (t0 , x1 ) ∈ R e (t0 , x2 ) ∈ R.
3. f1 e f2 são contı́nuas em R.
4. f1 é Lipschitz-contı́nua em R com constante κ1 > 0, ou seja, para todos (t, u) e (t, v) ∈ R vale
kf1 (t, u) − f1 (t, v)k ≤ κ1 ku − vk . (18.46)
5. Os gráficos de y1 e y2 estão ambos contidos em R, ou seja,
ky1 (t) − x0 k ≤ b e ky2 (t) − x0 k ≤ b
para todo t ∈ I ⊂ [t0 − a, t0 + a].
Então, para todo t ∈ I vale a desigualdade

" #
1
ky1 (t) − y2 (t)k ≤ kx1 − x2 k eκ1 |t−t0 | + sup kf1 (t, x) − f2 (t, x)k eκ1 |t−t0 | − 1 . (18.47)
κ1 (t, x)∈R
Prova. Como vimos, podemos sob as hipóteses escrever, para t ∈ I,

Z t Z t
y1 (t) = x1 + f1 (τ, y1 (τ )) dτ e y2 (t) = x2 + f2 (τ, y2 (τ )) dτ .
t0 t0
Disso segue que

Z th i
y1 (t) − y2 (t) = x1 − x2 + f1 (τ, y1 (τ )) − f2 (τ, y2 (τ )) dτ
t0
Z th i Z th i
= x1 − x2 + f1 (τ, y1 (τ )) − f1 (τ, y2 (τ )) dτ + f1 (τ, y2 (τ )) − f2 (τ, y2 (τ )) dτ .
t0 t0
(18.48)
Na última igualdade acima fizemos uso da hipótese 5 do Teorema 18.7, de modo que f1 (τ, y2 (τ )) está
bem definido para τ ∈ I. Supondo, sem perda de generalidade, que t ≥ t0 , temos pela condição de
Lipschitz para f1 ,
Z t h i Z t Z t

f1 (τ, y1 (τ )) − f1 (τ, y2 (τ )) dτ
≤ f1 (τ, y1 (τ ))−f1 (τ, y2 (τ )) dτ ≤ κ1 ky1(τ )−y2 (τ )kdτ .
t0 t0 t0
Definindo-se
C := sup kf1 (t, x) − f2 (t, x)k ,
(t, x)∈R
tem-se Z t h i

f (τ, y (τ )) − f (τ, y (τ )) dτ ≤ C (t − t0 ) .
1 2 2 2
t0
Definindo-se também D := kx1 − x2 k, segue de (18.48) que

Z t
ky1 (t) − y2 (t)k ≤ D + κ1 ky1 (τ ) − y2 (τ )k dτ + C (t − t0 ) , (18.49)
t0
desigualdade essa que pode ser trivialmente escrita na forma

Z t
C C C
ky1 (t) − y2 (t)k + ≤ D+ + κ1 ky1 (τ ) − y2 (τ )k + dτ . (18.50)
κ1 κ1 t0 κ1
Nessa forma, vemos pelo Lema 18.3, página 1030, que podemos aplicar a desigualdade de Grönwall,
expressão (18.A.2), obtendo

C C
ky1 (t) − y2 (t)k + ≤ D+ eκ1 (t−t0 ) ,
κ1 κ1
ou seja
C κ1 (t−t0 )
ky1 (t) − y2 (t)k ≤ Deκ1 (t−t0 ) + e −1 .
κ1
O caso t < t0 é análogo. Isso completa a prova.
Passemos a alguns comentários sobre o Teorema 18.7.
• Comentário ao Teorema 18.7. Continuidade em relação às condições iniciais
No caso em que f1 = f2 , tem-se C = 0 e a desigualdade (18.47) reduz-se a
ky1 (t) − y2 (t)k ≤ kx1 − x2 k eκ1|t−t0 | . (18.51)
Essa desigualdade informa-nos que em intervalos finitos de tempo, sob as condições do Teorema 18.7,
as soluções do problema de valor inicial ẋ(t) = f1 (t, x(t)), x(t0 ) = x1 dependem continuamente da
condição inicial x1 . A desigualdade acima informa-nos também que variando-se as condições iniciais as
soluções da equação diferencial acima pode no máximo divergir exponencialmente para curtos intervalos
de tempo.
• O expoente de Lyapunov
O chamado expoente de Lyapunov18 no ponto x1 associado ao problema de valor inicial acima é

definido por19
1 ky1 (t) − y2 (t)k
λx1 := lim lim ln ,
t→t0 x2 →x1 |t − t0 | kx1 − x2 k
caso esses limites existam20 . De (18.51) vê-se que 0 ≤ λx1 ≤ κ1 . A noção de expoente de Lyapunov tem
uma certa relevância no estudo equações diferenciais com comportamento “caótico” (vide, por exemplo,
[69] para uma introdução à teoria dos sistemas dinâmicos), por fornecer uma indicação qualitativa
de quão rápida se dá a divergência das soluções para curtos intervalos de tempo por mudanças nas
condições iniciais, pois permite-nos a aproximação
ky1 (t) − y2 (t)k ≈ kx1 − x2 keλx1 |t−t0 |
para |t − t0 | pequeno e kx1 − x2 k pequeno. Alguns autores caracterizam a presença de caos no sistema
definido pela equação diferencial que tratamos através da presença de um expoente de Lyapunov
positivo (não-nulo). Essa caracterização, ainda que popular em certos cı́rculos, não é geral o suficiente
e é substituı́da por outras caracterizações melhores, notadamente em textos matemáticos (vide, por
exemplo, [69]).
• Comentário ao Teorema 18.7. Continuidade por mudanças de parâmetros
No caso em que x1 = x2 , tem-se D = 0 e a desigualdade (18.47) reduz-se a

" #
1
ky1 (t) − y2 (t)k ≤ sup kf1 (t, x) − f2 (t, x)k eκ1 |t−t0 | − 1 .
κ1 (t, x)∈R
Essa desigualdade informa-nos que em intervalos finitos de tempo, as soluções do problema de valor
inicial ẋ(t) = f1 (t, x(t)), x(t0 ) = x1 dependem continuamente de deformações da função f1 (por exem-
plo, deformações por mudanças dos parâmetros que definem a função f1 ) que respeitem as condições
do Teorema 18.7. Essas deformações podem, inclusive, ser tais que f1 seja levada a uma função não-
Lipschitz-contı́nua f2 (note que no enunciado do Teorema 18.7 assumimos a continuidade de Lipschitz
apenas para a função f1 ).
A continuidade em relação a parâmetros também pode ser inferida do seguinte argumento elegante.
Seja o problema de valor inicial ẋ(t) = f1 (t, x(t), p0 ), x(t0 ) = x1 , onde f1 depende de um parâmetro
p0 , como indicado. Como p0 é constante, esse problema equivale ao sistema de equações diferenciais
ẋ(t) = f1 (t, x(t), p(t)) ,
ṗ(t) = 0 ,
18
Aleksandr Mikhailovich Lyapunov (1857-1918). O nome de Lyapunov é grafado de diversas outras formas: Liapunov,
Liapounov, Liapounoff etc.
19
O leitor deve ser advertido do fato de haver outras definições de expoente de Lyapunov na literatura, nem todas
totalmente equivalentes a essa.
20
Pode ser necessário substituir os limites por lim sup’s e lim inf’s.
com condições iniciais x(t0 ) = x1 , p(t0 ) = p0 . A esse sistema aplicam-se também os teoremas anteriores
sobre existência, unicidade e continuidade em relação a condições iniciais, o que nos permite inferir
a continuidade desejada caso, adicionalmente, f1 (t, x, p) seja Lipschitz-contı́nua na sua dependência
com o parâmetro p em uma vizinhança de p0 .
18.5 O Teorema da Função Implı́cita e o Teorema da Função

Inversa
O Teorema de Ponto Fixo de Banach pode ser utilizado para demonstrar dois teoremas importantes:
o Teorema da Função Implı́cita e o Teorema da Função Inversa. Esses teoremas são bem-conhecidos
da Análise em Rn e iremos apresentá-los e demonstrá-los aqui no contexto bastante geral de espaços
de Banach. Nessa forma geral esses teoremas desempenham um papel relevante em áreas tais como a
teoria das equações diferenciais (ordinárias e parciais), na geometria diferencial e na teoria dos sistemas
dinâmicos, como no célebre Teorema KAM21 . A importância do Teorema da Função Implı́cita reside
no fato de o mesmo garantir condições suficientes para a solubilidade de uma classe bastante geral de
equações funcionais.
Como veremos, a demonstração do Teorema da Função Implı́cita faz também uso do Teorema do
Valor Médio e da noção de derivada de Fréchet, ambas discutidas na Seção 23.2.2, página 1133 (o Teo-
rema do Valor Médio é o Teorema 23.1, página 1137). Familiaridade com aquela seção é recomendada
ao leitor. Para o estudante é também interessante notar que a demonstração do Teorema da Função
Implı́cita que apresentaremos guarda forte semelhança com as idéias por trás do método de Newton,
o qual discutimos páginas acima. Isso não é por acaso, mas deixamos ao leitor como exercı́cio de me-
ditação entender por quê. Para uma discussão geral, com notas históricas, sobre o Teorema da Função
Implı́cita e suas aplicações, vide [85]22 .
18.5.1 O Teorema da Função Implı́cita

Para o enunciado e demonstração do Teorema da Função Implı́cita abaixo faremos uso da noção de
derivada parcial introduzida à página 1138 e seguintes e da notação correspondente.
Teorema 18.8 (Teorema da Função Implı́cita em Espaços de Banach) Sejam X e Y espaços
de Banach, A ⊂ X e B ⊂ Y dois abertos e seja F : A × B → Y contı́nua e diferenciável com derivada
contı́nua (ou seja, de classe C1 ). Suponhamos ainda que existam x0 ∈ A e y0 ∈ B tais que F (x0 , y0 ) = 0
e que a aplicação linear D2 F (x0 , y0 ) = F ′ (x0 , y0 )ΛY : Y → Y seja invertı́vel. Então, existem abertos
A0 ⊂ A e B0 ⊂ B contendo x0 e y0 , respectivamente, e uma função contı́nua f : A0 → B0 satisfazendo
f (x0 ) = y0 e F (x, f (x)) = 0 para todo x ∈ A0 . Para cada x ∈ A0 o ponto f (x) ∈ B0 é o único que
satisfaz F (x, y) = 0. A função f é contı́nua e diferenciável com derivada contı́nua, sendo
−1
f ′ (x) = − D2 F (x, f (x)) D1 F (x, f (x)) . (18.52)
2
21
Andrey Nikolaevich Kolmogorov (1903-1987); Vladimir Igorevich Arnol’d (1937-); Jürgen Moser (1928-1999).
22
Agradecemos a D. A. Cortez por essa referência.
Prova. Para simplificar a notação denotemos o operador linear D2 F (x0 , y0 ) : Y → Y por L. A idéia
da prova é usar o Teorema do Ponto Fixo de Banach para mostrar que para cada x suficientemente
próximo de x0 a aplicação Tx : B → Y dada por Tx (y) ≡ T (x, y) := y − L−1 F (x, y) tem um ponto
fixo único (que denotaremos por f (x)) em uma vizinhança suficientemente pequena de y0 . Assim
f (x) = Tx (f (x)), ou seja, L−1 F (x, f (x)) = 0, o que implica F (x, f (x)) = 0. Para provar os fatos
delineados acima, provaremos que existe um aberto B1 ⊂ B que contém y0 e que é levado em si mesmo
por Tx , desde que x esteja próximo o suficiente de x0 . Em seguida provaremos que Tx é uma contração
quando restrito ao fecho de B1 . O Teorema do Ponto Fixo de Banach garante, então, a existência e
unicidade do ponto fixo. As demais afirmações do enunciado (continuidade e diferenciabilidade de f )
seguem de certas estimativas que encontraremos no caminho.
Para x fixo em A, a derivada de Tx (y) em relação a y é a derivada parcial
D2 T (x, y) = 1Y − L−1 D2 F (x, y) . (18.53)
Trata-se de um operador linear e limitado de Y em Y. Analogamente,
D1 T (x, y) = L−1 D1 F (x, y) . (18.54)
Trata-se de um operador linear e limitado de X em Y.
Tomemos 0 < q < 1 fixo. O fato que D2 F (x0 , y0 ) = L implica que 1Y − L−1 D2 F (x, y) anula-se no
ponto (x0 , y0 ). Assim, a continuidade de D2 F (x, y) como função de x e y garante que existe ǫ1 > 0
tal que se kx − x0 kX ≤ ǫ1 e ky − y0 kY ≤ ǫ1 então
k1Y − L−1 D2 F (x, y)k < q . (18.55)
Como veremos logo abaixo, é importante sabermos estimar a norma de diferenças como T (x, y) −
T (x′ , y ′ ). Com uso do Teorema 23.1, página 1137, podemos escrever23
Z 1
′ ′ ′ ′ ′
x − x′
T (x, y) − T (x , y ) = T τ (x, y) + (1 − τ )(x , y ) dτ . (18.56)
0 y − y′
Usando a representação (23.14) e escrevendo
T ′ (x, y) = D1 T (x, y) ΠX + D2 T (x, y) ΠY ,
ficamos com
Z 1
′ ′ ′ ′

x − x′
T (x, y) − T (x , y ) = D1 T τ (x, y) + (1 − τ )(x , y ) ΠX dτ
0 y − y′
Z 1
′ ′

x − x′
+ D2 T τ (x, y) + (1 − τ )(x , y ) ΠY dτ
0 y − y′
Z 1
′ ′

= D1 T τ (x, y) + (1 − τ )(x , y ) dτ (x − x′ )
0
Z 1
′ ′

+ D2 T τ (x, y) + (1 − τ )(x , y ) dτ (y − y ′) .
0
23
Para sermos estritos quanto à notação, deverı́amos escrever a combinação linear convexa que surge no argumento de
′
T em (18.56) na forma de vetores-coluna: τ xy + (1 − τ ) xy′ . Renunciamos a esse preciosismo, porém.
′
Assim,
kT (x, y) − T (x′ , y ′)k ≤ γ1 kx − x′ kX + γ2 ky − y ′ kY , (18.57)
onde
γj := sup Dj T τ (x, y) + (1 − τ )(x′ , y ′ ) , j = 1, 2 .
τ ∈[0, 1]
Observe-se que se tivermos x, x′ ∈ A1 e y, y ′ ∈ B1 , onde
A1 := {x′′ ∈ X| kx′′ − x0 kX < ǫ1 } e B1 := {y ′′ ∈ Y| ky ′′ − y0 kY < ǫ1 } ,
poderemos estimar

γ1 = sup D1 T τ (x, y) + (1 − τ )(x′ , y ′)
τ ∈[0, 1]

= sup L−1 D1 F τ (x, y) + (1 − τ )(x′ , y ′ )
τ ∈[0, 1]
−1
≤ sup L D1 F (x′′ , y ′′ ) =: β ,
x′′ ∈A1 , y ′′ ∈B1
e

γ2 = sup D2 T τ (x, y) + (1 − τ )(x′ , y ′ )
τ ∈[0, 1]
≤ sup kD2 T (x′′ , y ′′ )k

x′′ ∈A1 , y ′′ ∈B1

≤ sup 1Y − L−1 D2 F (x′′ , y ′′)
x′′ ∈A1 , y ′′ ∈B1
(18.55)
< q. (18.58)
Podemos escolher um número ǫ2 > 0 satisfazendo simultaneamente ǫ2 < ǫ1 e βǫ2 < (1 − q)ǫ1 (se
β ≥ 1 a segunda condição implica a primeira) e definir
A2 := {x′′ ∈ X| kx′′ − x0 kX < ǫ2 } .
É evidente que A2 ⊂ A1 e que as estimativas γ1 ≤ β e γ2 < q permanecem válidas se tivermos x, x′ ∈ A2

e y, y ′ ∈ B1 .
Isto posto, tomemos x ∈ A2 , y ∈ B1 e consideremos a diferença Tx (y) − y0 = T (x, y) − y0 . Como
T (x0 , y0 ) = y0 (pois F (x0 , y0 ) = 0), temos que Tx (y) − y0 = T (x, y) − T (x0 , y0 ). Por (18.57), teremos
kTx (y) − y0 k = kT (x, y) − T (x0 , y0 )k ≤ γ1 kx − x0 kX + γ2 ky − y0 kY ≤ βǫ2 + qǫ1 < ǫ1 , (18.59)
a última desigualdade devendo-se a βǫ2 < (1 − q)ǫ1 . A expressão (18.59) ensina-nos que se x ∈ A2
então Tx é uma aplicação de B1 em si mesmo.
Também para x ∈ A2 e y, y ′ ∈ B1 teremos

(18.57) (18.58)
kTx (y) − Tx (y ′ )k = kT (x, y) − T (x, y ′)k ≤ γ2 ky − y ′k < q ky − y ′k ,
provando que Tx é uma contração. Como B1 é um espaço métrico completo, podemos agora evocar o
Teorema de Ponto Fixo de Banach e assim estabelecer que para cada x ∈ A2 a aplicação Tx : B1 → B1
tem um único ponto fixo em B1 , que denotaremos por f (x). A equação de ponto fixo f (x) = Tx (f (x))
significa F (x, f (x)) = 0, como comentamos no inı́cio da demonstração.
Para x, x′ ∈ A2 e pela equação de ponto fixo tem-se f (x) − f (x′ ) = Tx (f (x)) − Tx′ (f (x′ )) =
T (x, f (x)) − T (x′ , f (x′ )) e, novamente por (18.57) com γ1 ≤ β, γ2 < q, segue que
kf (x) − f (x′ )kY < βkx − x′ kX + qkf (x) − f (x′ )kY ,
ou seja, kf (x) − f (x′ )kY < β(1 − q)−1 kx − x′ kX, o que implica que f é contı́nua em A2 .
Pela unicidade, tem-se também que f (x0 ) = y0 .
A diferenciabilidade de f pode ser estabelecida, sob as hipóteses dadas, escrevendo-se

f (x + h) − f (x) = S(x, h) + T(x, h) + D1 T (x, f (x)) h + D2 T (x, f (x)) f (x + h) − f (x) , (18.60)
onde,
h i
S(x, h) := T (x + h, f (x + h)) − T (x, f (x + h)) − D1 T (x, f (x + h)) h
h i
+ T (x, f (x + h)) − T (x, f (x)) − D2 T (x, f (x)) f (x + h) − f (x)
T(x, h) := (D1 T (x, f (x + h)) − D1 T (x, f (x))) h .
E. 18.20 Exercı́cio. Verifique a validade da expressão (18.60) observando que os termos do lado direito
simplesmente se cancelam para dar o lado esquerdo. 6
Disso obtem-se que

h i−1 h i−1
f (x+h)−f (x) = 1Y −D2 T (x, f (x)) S(x, h)+T(x, h) + 1Y −D2 T (x, f (x)) D1 T (x, f (x)) h ,
o que, por (18.53) e (18.54), simplifica-se para

h i−1 h i−1
f (x + h) − f (x) + D2 F (x, f (x)) D1 F (x, f (x)) h = L−1 D2 F (x, f (x)) S(x, h) + T(x, h) .

h i−1
Observe-se, de passagem, que da continuidade de D2 F (x, y), da hipótese que D2 F (x, y) existe
no ponto (x0 , y0 ) e do fato de f ser contı́nuo com f (x0 ) = y0 , segue que D2 F (x, f (x)) é igualmente
invertı́vel em uma vizinhança suficientemente pequena de x0 , pois o conjunto de elementos invertı́veis
em uma álgebra de Banach com unidade (como a álgebra dos operadores lineares limitados de Y em
Y, da qual D2 F (x, f (x)) faz parte) é aberto (Corolário 26.4, página 1297). Isso justifica a expressão
acima.
Do hipótese que F (e, portanto, T ) é diferenciável em relação a seus dois argumentos segue que
1 h i
lim T (x + h, f (x + h)) − T (x, f (x + h)) − D1 T (x, f (x + h)) h = 0
h→0 khkX
e que
1 h i
lim T (x, f (x + h)) − T (x, f (x)) − D2 T (x, f (x)) f (x + h) − f (x) = 0 .
h→0 khkX
Portanto,
1
lim S(x, h) = 0 .
h→0 khkX
Da continuidade de f e da hipótese que D1 T (x, y) é contı́nua, segue também que
1 h
lim T(x, h) = lim D1 T (x, f (x + h)) − D1 T (x, f (x)) = 0.
h→0 khkX h→0 khkX
Provamos, assim, que

!
1 h i−1
lim f (x + h) − f (x) + D2 F (x, f (x)) D1 F (x, f (x)) h = 0 ,
h→0 khkX
o que prova que f é diferenciável e que (18.52) é verdadeira.
• Exemplos e contra-exemplos
E. 18.22 Exercı́cio. Seja a função F (x, y) = x2 + y com x, y ∈ R. No ponto (x0 , y0 ) = (0, 0) a

função F se anula. Verifique que as condições do Teorema da Função Implı́cita são satisfeitas nesse caso e
que f (x) = −x2 satisfaz f (x0 ) = y0 e F (x, f (x)) = 0 em todo R. Cheque a validade de (18.52). 6
Os exercı́cios a seguir exibem algumas patologias.
E. 18.23 Exercı́cio-exemplo. Esse exercı́cio mostra uma situação na qual não existe nenhuma função f
satisfazendo f (x0 ) = y0 e F (x, f (x)) = 0. Seja a função F (x, y) = x2 + y 2 com x, y ∈ R. No ponto
(x0 , y0 ) = (0, 0) a função F se anula, mas não existe nenhuma f tal que f (x0 ) = y0 e F (x, f (x)) = 0 em
uma vizinhança de x0 , pois (0, 0) é o único zero de F . Quais hipóteses do Teorema da Função Implı́cita
falham nesse caso? 6
E. 18.24 Exercı́cio-exemplo. Esse exercı́cio mostra uma situação na qual existe mais de uma função f
satisfazendo f (x0 ) = y0 e F (x, f (x)) = 0. Seja F definida por F (x, y) = x2 − y 2 com x, y ∈ R. No
ponto (x0 , y0 ) = (0, 0) a função F se anula e f± (x) = ±x satisfazem f± (x0 ) = y0 e F (x, f± (x)) = 0.
Quais hipóteses do Teorema da Função Implı́cita falham nesse caso? A relação (18.52) vale para ambas as
funções f± ? 6
E. 18.25 Exercı́cio-exemplo. Seja a função F (x, y) = x2 + y 3 com x, y ∈ R. No ponto (x0 , y0 ) =

(0, 0) a função F se anula e f (x) = −x2/3 satisfaz f (x0 ) = y0 e F (x, f (x)) = 0 em R. No entanto, f
não é diferenciável em (x0 , y0 ). Note, porém, que D2 F não é invertı́vel em (x0 , y0 ). Isso mostra que as
condições do Teorema da Função Implı́cita são condições suficientes mas não necessárias para a existência
de solução contı́nua. Cheque também a validade de (18.52). 6
E. 18.26 Exercı́cio-exemplo. Seja a função F (x, y) = x4 + y 3 com x, y ∈ R. No ponto (x0 , y0 ) =

(0, 0) a função F se anula e f (x) = −x4/3 satisfaz f (x0 ) = y0 e F (x, f (x)) = 0. f é contı́nua com
derivada contı́nua. D2 F , porém, não é invertı́vel em (x0 , y0 ). Isso mostra que as condições do Teorema
da Função Implı́cita são condições suficientes mas não necessárias para a existência de solução contı́nua e
diferenciável. Cheque também a validade de (18.52). 6
18.5.2 O Teorema da Função Inversa

Uma das conseqüências diretas do Teorema da Função Implı́cita é um teorema que garante condições
suficientes para que uma função entre espaços de Banach seja localmente invertı́vel. Esse é o importante
Teorema da Função Inversa.
Teorema 18.9 (Teorema da Função Inversa) Sejam X e Y dois espaços de Banach e A ⊂ X um
aberto onde encontra-se definida uma função g : A → Y. Seja x0 ∈ A e seja g(x0 ) = y0 . Vamos
supor que g seja contı́nua e diferenciável com derivada contı́nua em A, de forma que a aplicação linear
g ′ (x0 ) : X → Y tenha inversa limitada. Então existem um aberto B ∈ Y contendo y0 e uma função
h : B → X, contı́nua e diferenciável, tal que h(y0 ) = x0 e g(h(y)) = y para todo y ∈ B. Vale também
−1
h′ (y) = g ′(h(y)) . 2
Prova. Defina-se F : Y × A → Y por F (y, x) = g(x) − y. Teremos D1 F (y, x) = −1Y e D2 F (y, x) =

g ′ (x). Assim, F é diferenciável com derivada contı́nua. Verifica-se que F (y0, x0 ) = 0 e, por hipótese,
D2 F (y0 , x0 ) = g ′ (x0 ) tem inversa limitada. Portanto, vale para F o Teorema da Função Implı́cita, que
nos garante a existência de um aberto B ∈ Y contendo y0 e uma função h : B → X tal que h(y0 ) = x0
e tal que para todo y ∈ B vale F (y, h(y)) = 0. Essa última expressão significa que g(h(y)) − y = 0,
−1
que é o que querı́amos provar. h é contı́nua e diferenciável e, por (18.52), vale h′ (y) = g ′(h(y)) .
Apêndices
18.A O Lema de Grönwall
O Lema de Grönwall24 , que apresentamos abaixo, é de demonstração muito simples mas possui várias
aplicações na teoria das equações diferenciais ordinárias ou parciais. Usamo-lo, por exemplo, na de-
monstração do Teorema 18.7, página 1020, teorema esse que, sob hipóteses, estabelece a continuidade
de soluções de equações diferenciais ordinárias em relação a mudanças nas condições iniciais e a de-
formações de parâmetros.
Lema 18.3 (Lema de Grönwall, ou Desigualdade de Grönwall) Seja u : [t0 , T ] → [0, ∞),
uma função contı́nua e não-negativa definida em algum intervalo [t0 , T ], T > t0 , e suponha que
existam duas constantes α ≥ 0 e β ≥ 0 tais que valha
Z t
u(t) ≤ α + β u(τ ) dτ (18.A.1)
t0
para todo t ∈ [t0 , T ]. Então,

u(t) ≤ α eβ(t−t0 ) (18.A.2)
para todo t ∈ [t0 , T ]. 2
A desigualdade (18.A.2) é denominada desigualdade de Grönwall. Note que (18.A.2) implica que u
é identicamente nula, caso α = 0. Para generalizações do Lema de Grönwall, vide [104].
Prova. No caso β = 0 as desigualdades (18.A.1) Rt e (18.A.2) equivalem e não há o que se demonstrar,
Assumamos então β > 0. A função v(t) := t0 u(τ ) dτ é contı́nua e diferenciável e dtd v(t) = u(t). Assim,
a relação (18.A.1) afirma-nos
que dtd v(t)−βv(t) ≤ α. Multiplicando essa expressão por e−β(t−t0 ) ficamos
d −β(t−t0 ) −β(t−t0 )
com dt e v(t) ≤ αe . Integrando ambos os lados dessa desigualdade entre t0 e t (sendo
−β(t−t0 ) α −β(t−t0 )
t0 ≤ t ≤ T ) e usando que v(t0 ) = 0, obtem-se e v(t) ≤ β 1 − e Multiplicando ambos os
+β(t−t0 )
lados por e , obtem-se
α β(t−t0 )
v(t) ≤ e −1 . (18.A.3)
β
A expressão (18.A.1) afirma que u(t) ≤ α + β v(t). Com a desigualdade (18.A.3), segue disso que
u(t) ≤ αeβ(t−t0 ) , como querı́amos provar.
24
Thomas Hakon Grönwall (1877-1932).
Capı́tulo 19
Espaços Topológicos e Espaços Mensuráveis.
Definições e Propriedades Básicas
Conteúdo
19.1 Definições, Propriedades Elementares e Exemplos . . . . . . . . . . . . . . 1032
19.2 Algumas Construções Especiais e Exemplos . . . . . . . . . . . . . . . . . 1038
19.2.1 Topologias e σ-álgebras Geradas . . . . . . . . . . . . . . . . . . . . . . . . . 1038
19.2.2 Bases de Espaços Topológicos . . . . . . . . . . . . . . . . . . . . . . . . . . . 1042
19.2.3 Topologias e σ-álgebras Induzidas . . . . . . . . . . . . . . . . . . . . . . . . 1044
19.2.4 Topologias e σ-álgebras Produto . . . . . . . . . . . . . . . . . . . . . . . . . 1047
19.3 Interior e Fecho de Conjuntos em Espaços Topológicos . . . . . . . . . . . 1047
19.3.1 Fecho de Conjuntos em Espaços Métricos . . . . . . . . . . . . . . . . . . . . 1053
19.4 Espaços Topológicos Separáveis e Segundo-Contáveis . . . . . . . . . . . . 1054
I ntroduziremos neste capı́tulo dois conceitos de importância fundamental em Matemática, o

conceito de Espaço Topológico e o conceito de Espaço Mensurável. O primeiro conceito é
uma generalização do conceito de Espaço Métrico, introduzido no Capı́tulo 17, e o segundo
é moldado de forma a permitir uma definição consistente do conceito intuitivo de medida
(como comprimento, área, volume etc.) de um conjunto. De modo muito simplificado, podemos dizer
que Topologias desempenham um papel quando se faz necessário o emprego de noções como as de
convergência e continuidade, enquanto que Espaços Mensuráveis são especialmente relevantes na teoria
da integração e na teoria de probabilidades. As noções de Espaço Topológico e Espaço Mensurável
penetram áreas da Matemática tão variadas quanto a Análise, a Análise Funcional, a Geometria Dife-
rencial, a Teoria das Equações Diferenciais, a Teoria de Grupos, a Teoria de Probabilidades e outras,
através das quais exercem também sua influência sobre praticamente toda a Fı́sica. Falaremos um
pouco mais sobre o significado e sobre a importância de cada conceito adiante.
Dado um conjunto X (doravante considerado não-vazio), denota-se por P(X) a coleção de todos
os sub-conjuntos de X. Assim, em sı́mbolos, podemos expressar o fato de um conjunto A ser um
sub-conjunto de X escrevendo A ⊂ X ou A ∈ P(X). É natural que X ∈ P(X) e convenciona-se que
∅ ∈ P(X). Como sempre, se A ⊂ X, denotamos por Ac o conjunto X \ A, dito o complementar de A
em X.
Estamos muitas vezes interessados em estudar propriedades de certas coleções de sub-conjuntos de
X (ou seja de sub-conjuntos de P(X)) que possuem certas caracterı́sticas de interesse. Há dois tipos
de coleções de sub-conjuntos que merecem particular atenção: as chamadas topologias e as chamadas
σ-álgebras. Vamos às definições.
1031
19.1 Definições, Propriedades Elementares e Exemplos
• Topologia
Uma coleção τ de subconjuntos de X, ou seja, τ ⊂ P(X), é dito ser uma topologia em X se os

seguintes requisitos forem satisfeitos:
1. ∅ ∈ τ e X ∈ τ .
2. Se A ∈ τ e B ∈ τ então A ∩ B ∈ τ .
[
3. Se I é um conjunto arbitrário de ı́ndices e Aλ ∈ τ para todo λ ∈ I então Aλ também é um
λ∈I
elemento de τ .
• σ-álgebra
Uma coleção M de subconjuntos de X, ou seja, M ⊂ P(X), é dita ser uma σ-álgebra em X se os

seguintes requisitos forem satisfeitos:
1. ∅ ∈ M e X ∈ M.
2. Se A ∈ M então Ac = X \ A ∈ M.
[
3. Se {An , n ∈ N} é uma coleção enumerável arbitrária de elementos de M, então An também
n∈N
é um elemento de M.
• Comentários e nomenclatura
Um conjunto X dotado de uma topologia τ é dito ser um espaço topológico. De um modo um

pouco mais técnico, um espaço topológico é um par (X, τ ) onde X é um conjunto não-vazio e
τ ⊂ P(X) é uma topologia em X.
Um conjunto X dotado de uma σ-álgebra M é dito ser um espaço mensurável. De um modo um
pouco mais técnico, um espaço mensurável é um par (X, M) onde X é um conjunto não-vazio e
M ⊂ P(X) é uma σ-álgebra em X.
Idéias relacionadas à de Topologia já habitam a Matemática há muito, mas foi nas duas primeiras
décadas do século XX que as mesmas começaram a ser sistematizadas e abstraı́das, como resultado
do trabalho de vários indivı́duos, como Cantor1 , Fréchet2 , Riesz3 e Hausdorff4 . A palavra topologia
é um pouco mais antiga, tendo sido cunhada por Listing5 em 1847, o qual tomara contacto com
1
2
Maurice René Fréchet (1878-1973).
3
4
Felix Hausdorff (1868-1942). Hausdorff foi um dos criadores da Topologia e da moderna Teoria dos Conjuntos.
Perseguido pelo nacional-socialismo, suicidou-se em 1942 para evitar ser enviado a um campo de concentração.
5
Johann Benedict Listing (1808-1882).
idéias topológicas sob influência de Gauss6 . A noção de conjuntos abertos e fechados (na topologia
usual da reta real) foi introduzida por Cantor. Fréchet percebeu sua conexão com a noção de
métrica (a qual introduziu). A noção moderna de Espaço Topológico foi introduzida pela primeira
vez por Hausdorff em 1914. Hausdorff também cunhou a expressão “espaço métrico”, noção criada
por Fréchet em 1906, e foi o primeiro a introduzir a noção de medida, entre outras coisas.
A palavra “álgebra” na designação “σ-álgebra” tem origem histórica em uma analogia observada
por Felix Hausdorff entre certas operações envolvendo conjuntos, tais como união e intersecção
e operações algébricas de soma e multiplicação. Apesar disso o conceito de σ-álgebra não deve
ser confundido de forma alguma com o conceito usual de álgebra (um espaço vetorial com um
produto entre seus elementos). A analogia a que nos referimos é a de que a operação de união de
conjuntos disjuntos pode ser entendida como uma “soma” de conjuntos com um elemento neutro,
a saber, o conjunto vazio (pois A ∪ ∅ = A para qualquer conjunto A). O papel de “multiplicação”
entre conjuntos seria exercido pela intersecção, onde novamente o conjunto vazio seria o elemento
neutro (pois sempre A ∩ ∅ = ∅).
Ainda sobre a nomenclatura, o “σ” do nome “σ-álgebra” é usado em função da propriedade 3 da
definição, que se refere ao fato de σ-álgebras serem fechadas em relação a operações envolvendo
uniões (“σomas”) enumeráveis de conjuntos. Aqui o ponto importante é a enumerabilidade e, por
isso, é freqüente encontrar-se o sı́mbolo σ em outras áreas da matemática onde a enumerabilidade
desempenha algum papel (como na topologia chamada de σ-fraca, por exemplo).
Os subconjuntos A ⊂ X que são membros de uma topologia τ são chamados de conjuntos abertos
(em relação à topologia τ ). Se um subconjunto F ⊂ X é tal que F c ∈ τ , então F é dito ser um
conjunto fechado. Note que há conjuntos que podem ser simultaneamente abertos e fechados em
relação à mesma topologia. Por exemplo, ∅ e X são ao mesmo tempo abertos e fechados (por
que?). Além destes conjuntos pode haver outros também. Veremos exemplos.
O estudante deve ser advertido que um conjunto pode ser aberto em relação a uma topologia,
mas não em relação a outra. O mesmo comentário vale para conjuntos fechados.
Os subconjuntos A ⊂ X que são membros de uma σ-álgebra M são chamados de conjuntos

mensuráveis (em relação à σ-álgebra M). Será para conjuntos mensuráveis que se definirá o
conceito de medida.
O estudante deve ser advertido que um conjunto pode ser mensurável em relação a uma σ-álgebra,
mas não em relação a outra.
Note que, pela definição, se A1 , . . . , An é uma coleção de n conjuntos abertos de uma topologia τ
então A1 ∩ · · · ∩ An é também um conjunto aberto (por que?).
Note que, no item 3 da definição de topologia, nenhuma restrição é feita em relação ao conjunto
de ı́ndices I, podendo o mesmo ser até um conjunto não-contável.
Note que se A1 , . . . , An é uma coleção (finita) de n elementos de uma σ-álgebra M então A1 ∪

· · · ∪ An é também um elemento de M. Para ver isso note que, se definı́ssemos Am = ∅ para todo
6
Johann Carl Friedrich Gauss (1777-1855).
[
m > n terı́amos claramente A1 ∪ · · · ∪ An = Aa que é um elemento de M pelo item 3 da
a∈N
definição de σ-álgebra.
Se M é uma σ-álgebra em X e A, B ∈ M então A ∩ B ∈ M. Isso é fácil de ver, pois A ∩ B =

(Ac ∪ B c )c . Pelo item 2 da definição de σ-álgebra, Ac e B c são também elementos de M. Pela
observação acima, sua união Ac ∪ B c também o é. Por fim, o complemento de Ac ∪ B c pertence
a M, novamente pelo item 2 da definição de σ-álgebra.
A última afirmação estende-se facilmente para intersecções

T contáveis de conjuntos mensuráveis:
se M é uma σ-álgebra em X e An ∈ M, n ∈ N, então n∈N An ∈ M. Isso segue facilmente de
!c
\ [
An = (An )c
n∈N n∈N
e dos itens 2 e 3 da definição de σ-álgebra.
• Exemplos básicos de topologias e mais alguns comentários
Seja X um conjunto não-vazio.
Considere τ o conjunto, formado por apenas dois elementos, dado por τ = {∅, X}. Então, τ
é uma topologia em X (verifique!). É chamada de topologia indiscreta ou topologia trivial e é a
menor topologia que se pode formar em X.
Seja τ a coleção e todos os subconjuntos de X: τ = P(X). Então, τ é uma topologia em X

(verifique!). É chamada de topologia discreta e é a maior topologia que se pode formar em X.
Seja X um espaço métrico com uma métrica d e seja τd a coleção de todos os seus subconjuntos
abertos em relação a d. Um subconjunto A de X é dito ser aberto (em relação à métrica d) se tiver
a seguinte propriedade: para todo x ∈ A podemos achar um número real δ(x) > 0 (eventualmente
dependente de x) tal que para todo x′ ∈ X com a propriedade que d(x, x′ ) < δ(x) (ou seja, que
dista de x menos que δ(x)) vale que x′ também é um elemento de A. Então, conforme já vimos na
Seção 17.2, página 956, τd é, de fato, uma topologia, chamada de topologia induzida pela métrica
d.
Uma topologia τ em X é dita ser uma topologia métrica se existir uma métrica d em X tal que
τ = τd .
Pelo Exercı́cio E. 17.22, página 957, P(X) é uma topologia métrica.
Nem todas as topologias são métricas. Condições que garantam que uma topologia seja métrica
são denominadas condições de metrizabilidade.
Seja A ⊂ X. Então, {∅, A, X} é uma topologia em X (verifique!), a menor a conter A (justifi-

que!).
Sejam A, B ⊂ X. Então, {∅, A, B, A ∩ B, A ∪ B, X} é uma topologia em X (verifique!), a

menor a conter A e B (justifique!).
No caso do conjunto dos reais, podemos introduzir a topologia métrica definida pela métrica
d(x, y) = |x − y|. Essa topologia é denominada de topologia usual da reta e para designá-la usa-
remos aqui o sı́mbolo τR . Esse nome é auto-explicativo: quase toda a Análise Real é feita com o uso
dessa topologia. Conforme o costume de toda a literatura, sempre que falarmos de uma topologia
nos reais pensaremos nessa topologia usual, salvo menção explı́cita em contrário. Fique claro porém
que sobre os números reais podem ser definidas outras topologias além τR (e da topologia trivial e da
topologia discreta). Exemplos serão vistos adiante.
E. 19.1 Exercı́cio. Mostre, seguindo as definições de conjuntos abertos e fechados em espaços métricos,
que todo intervalo (a, b) com a < b ∈ R é um elemento de τR e que todo intervalo [a, b] com a ≤ b é um
conjunto fechado em relação a τR . 6
E. 19.2 Exercı́cio. Sejam A, B, C ⊂ X. Determine a menor topologia a conter A, B e C. 6
• Exemplos básicos de σ-álgebras
Seja X um conjunto não-vazio.
Considere M o conjunto, formado por apenas dois elementos, dado por M = {∅, X}. Então, M
é uma σ-álgebra (verifique!) e é a menor σ-álgebra que se pode formar em X. Essa σ-álgebra é
chamada de σ-álgebra indiscreta ou σ-álgebra trivial.
Seja M a coleção e todos os subconjuntos de X: M = P(X). Então, M é uma σ-álgebra (verifique!)

e é a maior σ-álgebra que se pode formar em X. Essa σ-álgebra é chamada de σ-álgebra discreta.
Seja X um conjunto e A ⊂ X. Então, a coleção M = {∅, A, Ac , X} é uma σ-álgebra (verifique!),

a menor a conter A (justifique!)
Outros exemplos menos triviais de σ-álgebras serão vistos adiante. Exemplos realmente interessantes
de σ-álgebras requerem construções elaboradas, como a da σ-álgebra de Lebesgue7 , a qual trataremos
com certo detalhe no Capı́tulo 21.
E. 19.3 Exercı́cio. Sejam α, β e γ três objetos distintos (por exemplo, três letras distintas do alfabeto
grego). Mostre que
M = ∅, {α, β}, {γ}, {α, β, γ}
é uma σ-álgebra em X = {α, β, γ}. 6
7
Henri Léon Lebesgue (1875-1941).
grego). Mostre que

M = ∅, {α}, {β}, {γ}, {α, β}, {α, γ}, {β, γ}, {α, β, γ}
é uma σ-álgebra em X = {α, β, γ}. 6
• Abertos e fechados
Sejam X um conjunto e τ uma topologia em X. Denotemos por F(τ ) a coleção de todos os conjuntos
fechados de X em relação à τ , ou seja, a coleção de todos os conjuntos F de X tais que F c é um aberto,
ou seja, um elemento de τ .
É muito importante o estudante notar que F(τ ) pode conter elementos que não são elementos de τ .
Porém F(τ ) e τ nunca são conjuntos disjuntos, pois ambos sempre têm elementos em comum. Sempre
se tem, por exemplo, que {∅, X} ⊂ F(τ ) ∩ τ .
E. 19.5 Exercı́cio. Mostre que se F(τ ) ⊂ τ então F(τ ) = τ . 6
E. 19.6 Exercı́cio. Mostre que se τ ⊂ F(τ ) então τ = F(τ ). 6
Exemplos de topologias onde τ = F(τ ) são a topologia trivial e a topologia discreta (por que?). Há,
porém, muitos outros exemplos, como mostra o próximo exercı́cio.
E. 19.7 Exercı́cio. Seja a reta real e X o seguinte subconjunto de R: X = (0, 1) ∪ (1, 2). Mostre
que a coleção τ de subconjuntos de X dada por τ = {∅, (0, 1), (1, 2), X} é uma topologia em X e que
F(τ ) = τ . Note que τ não é nem a topologia trivial nem a discreta de X. 6
A coleção F(τ ) de todos os conjuntos fechados em relação a uma topologia τ em X possui uma
série de propriedades especiais:
1. ∅ ∈ F(τ ) e X ∈ F(τ ).
2. Se F ∈ F(τ ) e G ∈ F(τ ) então F ∪ G ∈ F(τ ).
\
3. Se I é um conjunto arbitrário de ı́ndices e Fλ ∈ F(τ ) para todo λ ∈ I então Fλ também é um
λ∈I
elemento de F(τ ).
E. 19.8 Exercı́cio muito importante. Justifique as afirmativas acima. 6
E. 19.9 Exercı́cio. Sejam as seguintes coleções de conjuntos fechados na reta real (na topologia usual):
{Fn = \
[−1/n, 1 + 1/n], n ∈ N, n > 0} e {Gn = [1/n, [ 1 − 1/n], n ∈ N, n > 1}. Mostre explicitamente
[
que Fn é um conjunto fechado mas que Gn é um conjunto aberto. Note que Gn
n∈N, n>0 n∈N, n>1 n∈N, n>1
não é uma união finita! 6
Seja agora (reciprocamente) uma coleção F de subconjuntos de um conjunto X tal que as seguintes
condições (que chamaremos de “axiomas de conjuntos fechados”) são verdadeiras:
1. ∅ ∈ F e X ∈ F.
2. Se F ∈ F e G ∈ F então F ∪ G ∈ F.
\
3. Se I é um conjunto arbitrário de ı́ndices e Fλ ∈ F para todo λ ∈ I então Fλ também é um
λ∈I
elemento de F.
Então, a coleção τ (F) = {A ⊂ X, tais que Ac ∈ F} é uma topologia em X.
E. 19.10 Exercı́cio muito importante. Justifique essa última afirmativa. 6
• Mais exemplos de topologias: a topologia co-contável e a co-finita
Vamos ilustrar o que acabamos de ver com dois exemplos (importantes, pois deles se extraem alguns
exemplos e contra-exemplos de propriedades de topologias, como veremos adiante).
Seja X um conjunto e Cc a coleção de todos os conjuntos contáveis de X. Então, vamos mostrar
que a coleção C = {∅, X} ∪ Cc satisfaz os axiomas de conjuntos fechados.
As propriedades que ∅ ∈ C e X ∈ C são óbvias por definição. Se F e G são elementos de C então
F ∪ G também é um elemento de C, basicamente pois a união de dois conjuntos contáveis é também um
conjunto contável. Finalmente a intersecção arbitrária de conjuntos contáveis é também um conjunto
contável (pois, como vimos acima, qualquer subconjunto de um conjunto contável também é contável)
e, com isso, fica também verificado o axioma 3.
Com isso, e com o que dissemos anteriormente, vemos que a coleção τ (C) é uma topologia em X.
Todo elemento de τ (C) é então ∅, X ou da forma X \ C, onde C é um conjunto contável. Chamaremos
a topologia τcc ≡ τ (C) de topologia co-contável de X.
E. 19.11 Exercı́cio. Seja X um conjunto e τcf a coleção
τcf = {A ⊂ X, A = X \ U onde U ⊂ X é um conjunto finito} ∪ {∅} .
Mostre que τcf é uma topologia em X (chamada de topologia co-finita de X). Como são os conjuntos
fechados em relação a τcf ? 6
E. 19.12 Exercı́cio. Verifique que τcf ⊂ τcc . Para que tipo de conjunto X podemos ter τcf = τcc ? 6
A topologia co-contável tem a seguinte propriedade incomum. Sejam A e B dois abertos não-
vazios quaisquer da topologia co-contável de um conjunto X e suponha que X não seja um conjunto
contável. Então, A∩B sempre é um conjunto não-vazio. Para provar isso, notemos que, pelas hipóteses,
A = X \ C1 e B = X \ C2 , para dois subconjuntos contáveis C1 e C2 de X. Daı́, A ∩ B = (X \ C1 ) ∩ (X \
C2 ) = C1c ∩ C2c = (C1 ∪ C2 )c . Agora, como C1 ∪ C2 é também um conjunto contável, seu complemento
é não-vazio pois X não é contável.
Assim, provamos que dois abertos não-vazios quaisquer da topologia co-contável de um conjunto
não-contável (como, por exemplo, o conjunto dos reais) sempre se interceptam. Como veremos, isso
significa que tais espaços topológicos não são do tipo Hausdorff (a definição de espaço Hausdorff virá
à página 1100).
E. 19.13 Exercı́cio. Sejam A e B dois abertos não-vazios quaisquer da topologia co-finita de um

conjunto X e suponha que X não seja um conjunto finito. Mostre, então, que A ∩ B sempre é um conjunto
não-vazio. 6
19.2 Algumas Construções Especiais e Exemplos
19.2.1 Topologias e σ-álgebras Geradas
• A noção de topologia gerada
Vamos agora discutir um método importante de gerar topologias e σ-álgebras.

Seja X um conjunto não-vazio e seja {τλ , λ ∈ I} uma coleção de topologias em X (cada uma
indexada por um elemento λ de um conjunto de ı́ndices I arbitrário). Como cada topologia é por si
um subconjunto de P(X), podemos considerar uniões e intersecções de topologias.
Em particular para uma coleção genérica de topologias como {τλ , λ ∈ I}, temos o seguinte resultado
importante:
\
Proposição 19.1 O subconjunto τI de P(X) dado por τI = τλ é também uma topologia em X. 2
λ∈I
Prova. Em primeiro lugar é claro pelas definições que ∅ ∈ τI e que X ∈ τI .

Vamos agora mostrar que se A e B são elementos de τI então A ∩ B também o é. Para tal, note que
se A e B são elementos de τI então A e B são elementos de toda topologia τλ com λ ∈ I. Assim, como
para cada λ particular tem-se A e B ∈ τλ , segue que A ∩ B ∈ τλ (pois τλ é uma topologia). Assim,
mostramos que A ∩ B pertence a toda topologia τλ com λ ∈ I e, portanto, A ∩ B ∈ τI .
Por fim, temos que provar que se {Aµ , µ ∈[ J} é uma coleção de elementos de τI (onde J é uma
coleção arbitrária de ı́ndices), então segue que Aµ é também um elemento de τI . Para tal, note-se
µ∈J
que se {Aµ , µ ∈ J} é uma coleção
[de elementos de τI então cada Aµ é um elemento de cada τλ . Daı́,
para cada λ particular segue que Aµ é também um elemento de τλ (pois τλ é uma topologia). Como
µ∈J
[
isso vale para todo λ ∈ I, segue que Aµ ∈ τI , como querı́amos provar.
µ∈J
Este resultado tem um uso de grande importância: fornecer um método de gerar topologias. Seja A
uma coleção qualquer de subconjuntos de X. Considere a coleção de todas as topologias que contém A
como um subconjunto. Como vimos, a intersecção de todas essas topologias é também uma topologia
que denotaremos por τ [A]. A topologia τ [A] é chamada de topologia gerada por A.
Assim, cada coleção A de subconjuntos de um conjunto X tem automaticamente uma topologia
associada a si: a topologia gerada pela coleção. Muitas topologias podem ser produzidas dessa forma,
como sendo geradas por uma coleção conveniente de subconjuntos de X.
E. 19.14 Exercı́cio. Mostre que A ⊂ τ [A] e que τ [A] é a menor topologia que contém A como
subconjunto, ou seja, se houver uma topologia τ ′ ⊂ τ [A] que contém A, então τ ′ = τ [A]. 6
E. 19.15 Exercı́cio. Mostre que se A é uma topologia então τ [A] = A. 6
E. 19.16 Exercı́cio. Seja X um conjunto e A ⊂ X. Mostre que τ [{A}] = {∅, A, X}. 6
E. 19.17 Exercı́cio. Seja X um conjunto e A = {{x}, x ∈ X} a coleção de subconjuntos de X

formada apenas por todos os conjuntos de um elemento de X. Mostre então que τ [A] é a topologia discreta
de X. Sugestão: use o item 3 da definição de topologia para mostrar que todo subconjunto de X é um
elemento de τ [A]. 6
E. 19.18 Exercı́cio. Seja X um conjunto e A = {{x, y}, x, y ∈ X e x 6= y} a coleção de subconjuntos

de X formada apenas por todos os conjuntos de dois elementos distintos de X. Mostre então que τ [A] é a
topologia discreta de X. 6
O método de gerar topologias descrito acima é muito usado e será reencontrado adiante em outros
exemplos.
• Mais sobre a topologia usual de R
Já definimos a topologia usual da reta como sendo a topologia induzida pela métrica d(x, y) =
|y − x|. Vamos mostrar aqui que há uma outra caracterização da mesma topologia.
Seja A a coleção de todos os intervalos abertos (a, b) de R com a < b. Vamos provar que τR = τ [A],
ou seja, que a topologia usual é idêntica à topologia gerada pela coleção de todos os intervalos abertos
de R.
Já sabemos que A ⊂ τR , pois todo intervalo do tipo (a, b), a < b, é aberto de τR . Como por
definição τ [A] é a menor topologia que contém A, tem-se que τ [A] ⊂ τR . Tudo o que precisamos fazer,
então, é provar que τR ⊂ τ [A].
Seja τ ′ uma topologia qualquer que contenha A. Isso significa que uniões arbitrárias de elementos
de A são também elementos de τ ′ (pois τ ′ é uma topologia e pelo item 3 da definição de topologia).
Se B é um elemento de τR isso significa que para cada x ∈ B existe δ(x) > 0 tal que y ∈ B desde que
|y − x| < δ(x). Não é difı́cil ver então que isso significa que podemos escrever
[
B = (x − δ(x), x + δ(x)).
x∈B
Como todo intervalo do tipo (x − δ(x), x + δ(x)) é um elemento de A, segue que B ∈ τ ′ . Como isso
vale para todo B ∈ τR isso significa que τR ⊂ τ ′ . Esse último fato vale, porém, para qualquer que seja
a topologia τ ′ , desde que contenha a coleção A. Portanto, concluı́-se que τR ⊂ τ [A], como querı́amos
mostrar.
• A topologia de Sorgenfrey de R
Seja S a coleção de todos os intervalos semi-abertos de R do tipo [a, b) com a < b, a, b ∈ R. A

topologia τ [S] é denominada topologia de Sorgenfrey8 dos reais.
E. 19.19 Exercı́cio. Mostre que τR é um subconjunto próprio de τ [S]. Sugestão: mostre que todo
intervalo aberto (a, b), a < b, é um elemento de τ [S] e conclua a partir daı́ que τR ⊂ τ [S]. Para ver que
τ [S] \ τR não é vazio, note apenas que um um intervalo semi-aberto [a, b), a < b é um elemento de τ [S],
mas não de τR . 6
Note ainda que τ [S] é menor que a topologia discreta P(R) pois intervalos fechados [a, b], a ≤ b
não são elementos de τ [S].
E. 19.20 Exercı́cio. Justifique esta última afirmativa. 6
Assim, vimos nos dois últimos exercı́cios que τR ⊂ τ [S] ⊂ P(R), onde todas essas inclusões são
próprias.
A topologia τ [S] é rica em conjuntos que são simultaneamente abertos e fechados.
E. 19.21 Exercı́cio. Mostre que na topologia de Sorgenfrey de R todo intervalo do tipo [a, b) com
a < b é simultaneamente aberto e fechado. 6
E. 19.22 Exercı́cio. O último exercı́cio inspira a seguinte questão: será que em τ [S] todo conjunto aberto
é também fechado? Verifique que isso não é verdade mostrando que o conjunto A = (−∞, a) ∪ (b, ∞),
com a ≤ b, é aberto segundo τ [S] mas que seu complemento Ac = [a, b] não é aberto segundo τ [S]. 6
• A noção de σ-álgebra gerada
O método de construção de topologias descrito acima tem um análogo quase literal entre as σ-
álgebras.
Seja X um conjunto e {Mλ, λ ∈ I} uma coleção de σ-álgebras em X (cada uma indexada por um
elemento λ de um conjunto de ı́ndices I arbitrário). Como cada σ-álgebra é por si um subconjunto de
P(X) podemos considerar uniões e intersecções de σ-álgebras.
Em particular, para uma coleção genérica de σ-álgebras como {Mλ , λ ∈ I}, temos o seguinte
resultado importante:
\
Proposição 19.2 O subconjunto MI de P(X) dado por MI = Mλ é também uma σ-álgebra em X.
λ∈I
2
8
Robert Sorgenfrey (1915 - 1996).
Prova. Em primeiro lugar é claro pelas definições que ∅ ∈ MI e que X ∈ MI .

Vamos agora mostrar que se A ⊂ X é um elemento de MI então Ac = X \ A também o é. Se
A ∈ MI então A ∈ Mλ para todo λ ∈ I e, portanto Ac ∈ Mλ para todo λ ∈ I pois cada Mλ é uma
σ-álgebra. Assim, segue que Ac ∈ MI .
[
Por fim, vamos provar que se {An , n ∈ N} é uma coleção contável de elementos de MI então An
n∈N
também o é. Se {An , n ∈ N} é uma coleção contável de [
elementos de MI então cada An pertence a
cada Mλ e, portanto, para cada λ particular segue que An também é um elemento de Mλ . Daı́
[ n∈N
segue imediatamente que An ∈ MI , que é o que querı́amos provar.
n∈N
Este resultado tem um uso de grande importância: fornecer um método de gerar σ-álgebras. Seja A
uma coleção qualquer de subconjuntos de X. Considere a coleção de todas as σ-álgebras que contêm A
como um subconjunto. Como vimos, a intersecção de todas essas σ-álgebras é também uma σ-álgebra
que denotaremos por M[A]. A σ-álgebra M[A] é chamada de σ-álgebra gerada por A.
Assim, cada coleção A de subconjuntos de um conjunto X tem automaticamente uma σ-álgebra
associada a si: a σ-álgebra gerada pela coleção. Muitas σ-álgebras podem ser produzidas dessa forma,
como sendo geradas por uma coleção conveniente de subconjuntos de X.
E. 19.23 Exercı́cio. Mostre que A ⊂ M[A] e que M[A] é a menor σ-álgebra que contém A como
subconjunto, ou seja, se houver uma σ-álgebra M′ ⊂ M[A] que contém A, então M′ = M[A]. 6
E. 19.24 Exercı́cio. Mostre que se A é uma σ-álgebra então M[A] = A. 6
• A σ-álgebra de Borel
Dentre os muitos tipos de σ-álgebras existentes particular destaque têm as σ-álgebras geradas por
topologias.
Seja X um conjunto e τ uma topologia em X. Como τ é uma coleção de subconjuntos de X
podemos considerar a σ-álgebra M[τ ] gerada pela topologia τ . Essa σ-álgebra é chamada de σ-álgebra
de Borel9 associada à topologia τ em X e seus elementos são chamados de conjuntos de Borel ou
conjuntos Borelianos.
E. 19.25 Exercı́cio. Considere a reta real R. Mostre que intervalos como (a, b), [a, b), (a, b] com
a < b e [a, b] com a ≤ b são elementos da σ-álgebra de Borel M[τR ]. Que outros elementos de M[τR ] você
poderia identificar? 6
Como veremos, as σ-álgebras de Borel desempenham um papel importante na Teoria da Medida.

9
Félix Édouard Justin Émile Borel (1871-1956).
19.2.2 Bases de Espaços Topológicos
• Base de uma topologia
Seja X um espaço com uma topologia τ . Uma coleção de abertos B ⊂ τ é dita ser uma base da
[ τ se todo aberto de τ puder ser escrito como união de elementos de B: se A ∈ τ então
topologia
A= Bλ , onde todos os Bλ são elementos de B. Note que a união não necessita ser finita ou mesmo
λ
contável.
Um fato básico é o seguinte: se B é uma base de uma topologia τ então τ = τ [B].
Provar isso é bem simples. Primeiramente note-se que, como τ é uma topologia que contém B e
τ [B] é, por definição, a menor topologia com essa propriedade, então segue que τ [B] ⊂ τ . Por outro
lado, como vimos, se A ∈ τ então A é a união de elementos de B e, portanto, A é um elemento de τ [B].
Logo τ ⊂ τ [B], completando a prova.
Para evitar confusões e ao mesmo tempo clarificar idéias, o estudante deve notar, porém, o seguinte
fato. Se A é uma coleção de subconjuntos de um conjunto X então não é em geral verdade que A ou
mesmo A ∪ X sejam uma base de τ [A]. Tome-se o seguinte exemplo: X = R e A = {(i/2, i/2 + 1), i ∈
Z}. Então, o intervalo (1/2, 1) é um elemento de τ [A] pois é intersecção dos intervalos (0, 1) e
(1/2, 3/2) mas não pode ser escrito como união de elementos de A.
E. 19.26 Exercı́cio. Seja X um espaço métrico e B a coleção de todas as bolas abertas de X:

{B(x, r), x ∈ X, r > 0}. Mostre que B é uma base da topologia métrica de X. 6
• Produzindo bases de topologias
A discussão do último parágrafo pode ser usada para introduzir e motivar mais um modo importante
de se produzir bases de topologias, o qual será usado quando discutirmos o conceito de topologia gerada
por famı́lias de funções, um tópico importante, por exemplo, em estudos mais avançados de propriedades
de espaços de Banach e de Hilbert.
Como já vimos, se X é um conjunto e A é uma coleção arbitrária de subconjuntos de X não podemos
em geral garantir que A é uma base de τ [A]. Há, porém, uma maneira de se produzir uma base a partir
de A que discutiremos a seguir.
Proposição 19.3 Seja X não-vazio e A ⊂ P(X) uma coleção de subconjuntos de X. Então, todo ele-
mento de τ [A] que não seja X ou ∅ pode ser obtido como união de conjuntos formados por intersecções
finitas de elementos de A. Em outras palavras, a coleção formada por X, ∅ e por todos os conjuntos
que sejam intersecções finitas de elementos de A é uma base para τ [A]. 2
Prova. Considere a coleção AI formada por todos os conjuntos que podem ser escritos como um
intersecção finita de elementos de A ∪ {X} ∪ {∅}. Ou seja, A ⊂ X pertence a AI se puder ser escrito da
forma A = B1 ∩ B2 · · · ∩ Bn , para algum n finito, onde cada Bi ou é igual a X ou ∅ ou é um elemento
de A.
É claro pela definição que A ⊂ AI (por que?) e também que AI ⊂ τ [A] (por que?). Assim, temos
que A ⊂ AI ⊂ τ [A]. Notemos agora que se B e C são duas coleções de subconjuntos de X com B ⊂ C,
então τ [B] ⊂ τ [C] (por que?). Daı́ segue, pelo que vimos, que τ [A] ⊂ τ [AI ] ⊂ τ [τ [A]]. Como τ [A] é
uma topologia temos, por um exercı́cio anterior que τ [τ [A]] = τ [A]. Assim, provamos que τ [A] = τ [AI ]
e vamos agora explorar conseqüências desse fato.
Vamos mostrar que AI é uma base de τ [AI ] e, portanto, de τ [A]. Para isso consideremos a coleção
U formada por todas as possı́veis uniões de elementos de AI : se A ∈ U então
[
A = Aλ ,
λ∈Λ
com Aλ ∈ AI para todo λ. Vamos agora provar que U é uma topologia em X.

Pela definição, é claro que ∅ ∈ U e que X ∈ U (por que?). É claro também que uniões arbitrárias
de elementos de U são novamente elementos de U. Resta-nos provar que se A e B são elementos de U
então A ∩ B também o é. Sejam então A e B da forma
[ [
A = Aλ , B = Bλ ,
λ∈Λ λ∈Λ
onde todo Aλ e todo Bλ são elementos de AI . Note que podemos acima, sem perda de generalidade,
usar o mesmo conjunto de ı́ndices Λ tanto para A quanto para B, pois podemos fazer alguns Aλ e/ou
alguns Bλ iguais ao conjunto vazio se necessário, de modo a igualar ambos os conjuntos de ı́ndices.
Com isso temos, então, que
! !
[ \ [ [
A∩B = Aλ Bλ′ = (Aλ ∩ Bλ′ ) ,
λ∈Λ λ′ ∈Λ λ, λ′ ∈Λ
que claramente é um elemento de U, pois os conjuntos Aλ ∩ Bλ′ são elementos de AI .

Dado que provamos que U é uma topologia, vamos ver as conseqüências desse fato. Em primeiro
lugar, é claro pela definição de U que AI ⊂ U. Como U é uma topologia, segue que τ [AI ] ⊂ U.
Por outro lado, temos também que os elementos de U são uniões de elementos de AI e, portanto,
são elementos de qualquer topologia que contenha AI , como, em particular, a topologia τ [AI ]. Assim,
U ⊂ τ [AI ]. Com isso, vimos que τ [A] = τ [AI ] = U. Pela definição de U, isso diz que todos os elementos
de τ [A] podem ser escritos como uniões de elementos de AI e, assim, fica provado que AI é uma base
para τ [A].
• A topologia gerada por um ordenamento total
Com o uso da noção de topologia gerada podemos produzir novas topologias associadas a relações
de ordem totais definidas em conjuntos.
Seja X um conjunto não-vazio no qual está definida uma relação de ordem total “” (para a
definição de relação de ordem total, vide página 32). Se a, b ∈ X dizemos que a ≺ b se a b mas
a 6= b. Fixados a, b ∈ X com a ≺ b definamos
(a, b) := {x ∈ X| a ≺ x e x ≺ b} ,
(a, →) := {x ∈ X| a ≺ x} ,
(←, b) := {x ∈ X| x ≺ b} .
Seja A a coleção
A := Alim ∪ A→ ∪ A← ,
com
Alim := {(a, b), para todos a, b ∈ X com a ≺ b} ,
A→ := {(a, →), para todo a ∈ X} ,
A← := {(←, b), para todo b ∈ X} .
A topologia τ [A] é denominada topologia gerada pelo ordenamento total “”.
E. 19.27 Exercı́cio. Mostre que a topologia gerada pelo ordenamento usual da reta real coincide com a
topologia usual da reta. 6
E. 19.28 Exercı́cio. Mostre que a topologia gerada pelo ordenamento lexicográfico de R2 (vide página
33) é uma topologia Hausdorff. 6
Um texto clássico sobre a relação entre topologias e relações de ordem é [107].
19.2.3 Topologias e σ-álgebras Induzidas
• A topologia induzida (ou “relativa”)
Vamos agora estudar mais uma maneira de produzir topologias que também tem seu análogo para
as σ-álgebras.
Seja X um conjunto e τ uma topologia em X. Seja também Y um subconjunto arbitrário de X
(Y não precisa ser um elemento de τ ). Podemos construir uma topologia no conjunto Y usando a
topologia de X da seguinte forma. Definimos a seguinte coleção τY de subconjuntos de Y :
n o
τY := A ⊂ Y, tal que A = Y ∩ T para algum T ∈ τ .
Em palavras, τY é formado por todos os subconjuntos de Y que podem ser escritos como intersecção
de Y com algum aberto de τ .
Então, afirmamos que τY é uma topologia em Y . Vamos provar isso. Primeiro é claro que ∅ ∈ τY
pois ∅ = Y ∩ ∅ e ∅ ∈ τ . Em segundo lugar é também claro que Y ∈ τY pois Y = Y ∩ X (dado que
Y ⊂ X) e X ∈ τ .
Vamos então agora mostrar que se A e B ∈ τY então A ∩ B ∈ τY . Para isso note que, como
A e B ∈ τY então existem A′ e B ′ ∈ τ de forma que A ∈ Y ∩ A′ e B ∈ Y ∩ B ′ . Logo A ∩ B =
(Y ∩ A′ ) ∩ (Y ∩ B ′ ) = Y ∩ (A′ ∩ B ′ ) (por que?) e, como A′ ∩ B ′ ∈ τ , segue que A ∩ B ∈ τY .
Para finalizar, falta-nos mostrar que se {Aλ , λ[
∈ I} é uma coleção de elementos de τY (indexados
por um conjunto arbitrário de ı́ndices I), então Aλ ∈ τY . Pelas hipóteses, cada Aλ é da forma
λ∈I
Aλ = Y ∩ Tλ com Tλ ∈ τ e portanto
!
[ [ [
Aλ = (Y ∩ Tλ ) = Y ∩ Tλ (por que?) .
λ∈I λ∈I λ∈I
[ [
Assim, como Tλ ∈ τ fica provado que Aλ ∈ τY como querı́amos demonstrar.
λ∈I λ∈I
Vimos então que τY é uma topologia em Y . Essa topologia é chamada de topologia induzida (pela
topologia τ ).
E. 19.29 Exercı́cio. Verifique que, usando a mesma notação usada acima, τX = τ . 6
Fazemos notar que se Y ⊂ X e Y possui uma topologia τ ′ ⊂SP(Y ), então existe uma topologia τ
em X que induz a topologia τ ′ . Essa topologia é dada por τ = τ ′ {X, X \ Y }. Observe que se A ∈ τ ′ ,
então obviamente A ∈ τ e A = A ∩ Y . Isso prova que τ ′ é induzida por τ .
E. 19.30 Exercı́cio. Prove que τ , definida acima, é uma topologia em X. Sugestão: recorde que Y ∈ τ ′ .
6
• Exercı́cios e exemplos
E. 19.31 Exercı́cio. Seja Y = [0, 1] ⊂ R e seja τR a topologia usual de R. Mostre que conjuntos da
forma [0, x) com 0 < x ≤ 1 são abertos na topologia τY induzida em Y por τR . Mostre que conjuntos da
forma (x, 1] com 0 ≤ x < 1 são abertos na topologia τY induzida em Y por τR . 6
Para o estudante é importante ver que, no exercı́cio acima, nem [0, x) nem (x, 1] são abertos em
τR ! Isso mostra que topologias induzidas podem trazer elementos novos ao jogo.
E. 19.32 Exercı́cio. Mostre que a topologia τY do exercı́cio anterior é igual à topologia induzida em Y
pela métrica d(x, y) = |y − x|. 6
E. 19.33 Exercı́cio. Seja Y = Q ⊂ R e seja τQ a topologia induzida em Q por τR . Mostre que todo
conjunto de um elemento {r} com r ∈ Q é um conjunto fechado segundo τQ . 6
Essa topologia τQ do último exercı́cio tem propriedades curiosas. Seja x um número irracional e
seja o conjunto χ = (−∞, x) ∩ Q ⊂ Q. Então, χ é ao mesmo tempo aberto e fechado em τQ . O fato
que χ é aberto é evidente pois (−∞, x) é aberto em τR . O fato que χ é fechado segue da constatação
que o complemento de χ em Q é o conjunto χc = [x, ∞) ∩ Q e que [x, ∞) ∩ Q = (x, ∞) ∩ Q pois x é
irracional. Assim, χc é aberto em τQ pois (x, ∞) é aberto em τR . Logo χ, que é o complemento de χc

nos racionais, é fechado por τQ .
E. 19.34 Exercı́cio. Seja Y = Q ⊂ R e seja τQ a topologia induzida em Q por τR . Mostre que o

intervalo aberto de racionais {x ∈ Q, e < x < π} é um conjunto aberto e fechado em τQ . 6
E. 19.35 Exercı́cio. Seja X um conjunto com uma topologia τ e considere Y ⊂ X e a topologia

induzida por τ em Y : τY . Considere agora um terceiro conjunto Z com Z ⊂ Y ⊂ X. Podemos, em
princı́pio, construir duas topologias induzidas em Z: 1) a topologia induzida por τ em Z e 2) a topologia
induzida por τY em Z. Mostre que essas topologias são na verdade idênticas. 6
E. 19.36 Exercı́cio. Seja Y = (0, 1) ∪ (1, 2) munido da topologia τY induzida pela topologia τR .
Mostre que os subconjuntos (0, 1) e (1, 2) são ambos simultaneamente abertos e fechados nessa topologia
τY . 6
• A σ-álgebra induzida
Seja X um conjunto e seja M uma σ-álgebra em X. Seja também Y um subconjunto genérico de

X. Podemos fazer de Y um espaço mensurável construindo com o auxı́lio de M uma σ-álgebra entre
os subconjuntos de Y . A construção é análoga àquela da topologia induzida.
Seja MY a seguinte coleção de subconjuntos de Y :
n o
MY := A ⊂ Y, A = Y ∩ M para algum M ∈ M .
Vamos mostrar que MY é uma σ-álgebra em Y . Os fatos que ∅ ∈ MY e que Y ∈ MY podem ser
provados tal como no caso da topologia induzida. Queremos agora provar que se A ∈ MY então seu
complemento em Y , Ac = Y \ A, também é um elemento de MY . Por hipótese A é da forma A = Y ∩M
com M ∈ M e, portanto,
Ac = Y \ (Y ∩ M) = Y ∩ (X \ M) .
Assim, como X \ M é um elemento de M, segue que Ac = Y \ A é um elemento de MY .

Finalmente
[ queremos provar que se {An , n ∈ N} é uma famı́lia enumerável de elementos de MY
então An também o é.
n∈N
Pelas hipóteses cada An é da forma Y ∩ Mn com Mn ∈ M. Daı́

!
[ [ [
An = (Y ∩ Mn ) = Y ∩ Mn .
n∈N n∈N n∈N
[
Como Mn é também um elemento de M, a afirmativa está provada.
n∈N
A σ-álgebra MY á chamada de σ-álgebra induzida em Y pela σ-álgebra M.

19.2.4 Topologias e σ-álgebras Produto
• A topologia produto de espaços topológicos
Uma construção muito importante é a da chamada topologia produto de espaços topológicos. Muito
pode ser dito sobre essa topologia (para mais detalhes vide, por exemplo, [20]), mas vamos nos restringir
por ora somente à sua definição para o caso de produtos Cartesianos finitos.
Seja {X1 , . . . , Xn } umaQcoleção finita de conjuntos e seja, para cada a ∈ In = {1, . . . , n}, τa uma
topologia em Xa . Seja X = na=1 Xa o produto Cartesiano
Q de todos os Xa , a ∈ In e seja B a coleção de
todos os subconjuntos de X que sejam da forma a∈In Aa onde Aa ∈ τa , ou seja, cada Aa é um aberto
em Xa segundo a topologia τa . Então, a topologia gerada por B, τ [B] é chamada de topologia produto
dos espaços topológicos Xa , τa .
E. 19.37 Exercı́cio. Seja o espaço R2 = R × R e considere que cada fator R é munido da topologia
usual τR . Mostre que a topologia produto obtida em R2 é idêntica à topologia métrica usual de R2 definida
pela métrica usual p
d(x, y) = (y1 − x1 )2 + (y2 − x2 )2 ,
onde x = (x1 , x2 ) e y = (y1 , y2 ). 6
• A σ-álgebra produto
Há uma construção análoga para σ-álgebras. Seja Xa , a ∈ In uma coleção

Q finita de conjuntos e seja,
para cada a ∈ In , Ma uma σ-álgebra em Xa . Seja como antes X = a∈In Xa o produto Cartesiano
Q todos os Xa , a ∈ In . Definimos D a coleção de todos os subconjuntos de X que sejam da forma
de
a∈In Ma onde Ma ∈ Ma , ou seja, cada Ma é mensurável em Xa segundo a σ-álgebra Ma . Então, a
σ-álgebra gerada por D, M[D] é chamada de σ-álgebra produto das σ-álgebras Ma .
19.3 Interior e Fecho de Conjuntos em Espaços Topológicos

Seja X um espaço dotado de uma topologia τ . Podemos associar a cada subconjunto genérico B de X
três conjuntos importantes, o chamado fecho de B, o chamado interior de B e a chamada fronteira ou
bordo de B. Vamos discutir agora esses conceitos.
• Fecho
Para B ⊂ X genérico, definamos a coleção
FB := {F ⊂ X, F é fechado e tal que F contém B: F ⊃ B} .
Se B = ∅ então F∅ = P(X), ou seja, F∅ contém todos os subconjuntos de X, incluindo o vazio, pois

por convenção todos contêm ∅.
A coleção FB é então a coleção de todos os conjuntos fechados (segundo a topologia τ ) que contém
o conjunto B. Sabemos que a intersecção arbitrária de conjuntos fechados é também um conjunto
fechado. Isso motiva a seguinte definição:

\
B := F .
F ∈FB
O conjunto B é chamado de fecho, ou aderência, do conjunto B na topologia τ e é, pela própria

definição, um conjunto fechado.
Observe também que, pela convenção que F∅ contém o vazio, segue que ∅ = ∅. É também evidente
pela definição que X = X.
E. 19.38 Exercı́cio. Pode-se dizer que o fecho de um conjunto B é o menor conjunto fechado que
contém B. Justifique isso em face da definição dada acima para B. 6
E. 19.39 Exercı́cio importante. Um conjunto B é fechado se e somente se B = B. Prove isso. 6
A seguinte proposição enuncia algumas propriedades elementares úteis da noção de fecho.

Proposição 19.4 Seja X um conjunto não-vazio dotado de uma topologia τ . Valem as seguintes
afirmações:
1. A ⊂ A para todo A ⊂ X.
2. A = A para todo A ⊂ X.
3. Se M, N ⊂ X com M ⊂ N, então M ⊂ N.
4. Se A, B ⊂ X então A ∪ B = A ∪ B. 2
Demonstração. Prova de 1: Elementar, pois, pela definição, A é uma intersecção de conjuntos que
contém A. Prova de 2: Elementar, pois A é fechado e, portanto, está contido em FA (vide Exercı́cio
E. 19.39). Prova de 3: M ⊂ N ⊂ N (pelo item 1). Assim, N é um fechado que contém M. Logo, pela
definição de fecho, M ⊂ N. Prova de 4: Como A e B são fechados e valem A ⊂ A, B ⊂ B, o conjunto
A ∪ B é fechado e contém A ∪ B. Logo, A ∪ B ⊂ A ∪ B. Por outro lado, pelo item 3 tem-se A ⊂ A ∪ B
e B ⊂ A ∪ B. Logo, A ∪ B ⊂ A ∪ B, completando a prova.
E. 19.40 Exercı́cio. Seja X = R. A Tabela 19.1, página 1049, mostra o fecho dos conjuntos (a, b),
[a, b), [a, b] e {a}, com −∞ < a < b < ∞, em várias topologias. Estude cada um dos casos. 6
Note na Tabela 19.1 as topologias escolhidas estão postas em ordem crescente de inclusão:
τI ⊂ τcf (R) ⊂ τcc (R) ⊂ τR ⊂ τ [S] ⊂ P(R) .
O caso do conjunto (a, b) (e os outros) ilustra claramente um fato importante, a saber, que quanto
maior a topologia menor é o fecho de um dado conjunto.
(a, b) [a, b) [a, b] {a} (a, b)0 [a, b)0 [a, b]0 {a}0 ∂(a, b) ∂[a, b) ∂[a, b] ∂{a}
τI R R R R τI ∅ ∅ ∅ ∅ τI R R R R
τcf (R) R R R {a} τcf (R) ∅ ∅ ∅ ∅ τcf (R) R R R {a}
τcc (R) R R R {a} τcc (R) ∅ ∅ ∅ ∅ τcc (R) R R R {a}
τR [a, b] [a, b] [a, b] {a} τR (a, b) (a, b) (a, b) ∅ τR {a, b} {a, b} {a, b} {a}
τ [S] [a, b) [a, b) [a, b] {a} τ [S] (a, b) [a, b) [a, b) ∅ τ [S] {a} ∅ {b} {a}
P(R) (a, b) [a, b) [a, b] {a} P(R) (a, b) [a, b) [a, b] {a} P(R) ∅ ∅ ∅ ∅
Tabela 19.1: As três tabelas acima apresentam, da esquerda para a direita, o fecho, o interior e o bordo,
respectivamente, dos sub-conjuntos (a, b), [a, b), [a, b] e {a} da reta real, com −∞ < a < b < ∞, em
diferentes topologias. Acima, τI = {∅, R} é a topologia indiscreta de R, τcf (R) é a topologia co-finita
de R, τcc (R) é a topologia co-contável de R, τR é a topologia usual de R, τ [S] é a topologia de Sorgenfrey
de R (página 1040) e P(R) é a topologia discreta de R.
τ
E. 19.41 Exercı́cio muito importante. Seja B o fecho de um conjunto qualquer B, segundo uma to-
τ′ τ
pologia τ . Seja τ ′ uma outra topologia tal que τ ⊂ τ ′ . Mostre que B ⊂ B . 6
• Interior
Para B ⊂ X genérico, definamos a coleção
AB := {A ⊂ X, A é aberto e tal que A está contido em B: A ⊂ B} .
A coleção AB é então a coleção de todos os conjuntos abertos (segundo a topologia τ ) contidos no

conjunto B. Sabemos que a união arbitrária de conjuntos abertos é também um conjunto aberto. Isso
motiva a seguinte definição: [
B 0 := A.
A∈AB
0
O conjunto B é chamado de interior do conjunto B na topologia τ e é, pela própria definição, um
conjunto aberto.
E. 19.42 Exercı́cio. Pode-se dizer que o interior de um conjunto B é o maior conjunto aberto contido
em B. Justifique isso em face da definição dada acima para B 0 . 6
E. 19.43 Exercı́cio. Um conjunto B é aberto se e somente se B = B 0 . Prove isso. 6
E. 19.44 Exercı́cio. Seja X = R. A Tabela 19.1, página 1049, mostra o interior dos conjuntos (a, b),
[a, b), [a, b] e {a}, com −∞ < a < b < ∞, em várias topologias. Estude cada um dos casos.
Na Tabela 19.1, o caso do conjunto [a, b] ilustra claramente um fato importante, a saber, que quanto
maior a topologia maior é o interior de um dado conjunto. 6
E. 19.45 Exercı́cio. Seja (B 0 )τ o interior de um conjunto qualquer B, segundo uma topologia τ . Seja
′
τ ′ uma outra topologia tal que τ ⊂ τ ′ . Mostre que (B 0 )τ ⊂ (B 0 )τ . 6
Por fim, note que para qualquer conjunto B ⊂ X vale sempre, em qualquer topologia τ , que
B0 ⊂ B ⊂ B .
A proposição seguinte estabelece uma relação entre o interior e fecho.

Proposição 19.5 Com as definições de acima valem
c c
A0 = (Ac ) e A = (Ac )0 (19.1)
para todo A ∈ X. 2
Prova. As duas igualdades em (19.1) são equivalentes, portanto, é suficiente provar a primeira. Como
A0 ⊂ A, vale Ac ⊂ (A0 )c . Lembrando que (A0 )c é fechado (pois A0 é aberto), segue
pela definição de c
fecho que (Ac ) ⊂ (A0 )c . Tomando-se o complementar disso concluı́mos que A0 ⊂ (Ac ) .
c c
Por outro lado, se x ∈ (Ac ) =⇒ x 6∈ (Ac ) =⇒ x 6∈ Ac =⇒ x ∈ A, ou seja, (Ac ) ⊂ A.
c c
Logo, como (Ac ) é aberto (pois (Ac ) é fechado), segue pela definição de interior que (Ac ) ⊂ A0 ,
• Fronteira ou bordo
Para A ⊂ X genérico, definamos a sua fronteira ou bordo (na topologia τ ) como sendo o conjunto
(19.1)
∂A := A \ A0 = A ∩ (A0 )c = A ∩ (Ac ) .
Dessa definição é claro que ∂A é sempre um conjunto fechado (por que?).
E. 19.46 Exercı́cio. Seja X = R. A Tabela 19.1, página 1049, mostra o bordo dos conjuntos (a, b),
[a, b), [a, b] e {a}, com −∞ < a < b < ∞, em várias topologias. Estude cada um dos casos. 6
E. 19.47 Exercı́cio. Mostre que ∂A = ∂(Ac ) para todo A ⊂ X. 6
E. 19.48 Exercı́cio. Seja ∂ τ B o fecho de um conjunto qualquer B, segundo uma topologia τ . Seja τ ′
′
uma outra topologia tal que τ ⊂ τ ′ . Mostre que ∂ τ B ⊂ ∂ τ B. 6
A afirmativa do último exercı́cio pode ser confirmada contemplando-se a Tabela 19.1, página 1049.
• Outra caracterização do fecho de um conjunto

O conceito de fecho de um conjunto é de grande importância. Uma das razões, como veremos, é
que no caso de espaços métricos o fecho de um conjunto B caracteriza o conjunto de todos os limites
de seqüências de elementos de B. Em particular um conjunto só é fechado em um espaço métrico se
contiver todos os limites de seqüências de seus elementos (vide Seção 19.3.1, página 1053). Muitos
resultados importantes em Matemática decorrem dessa observação.
Vamos nos preparar para apresentar esse fato, assim como outros válidos em espaços topológicos
gerais. A seguinte proposição apresenta uma caracterização equivalente da noção de fecho de um
conjunto, sendo essencial a outros desenvolvimentos relacionados à noção de fecho de um conjunto.
Proposição 19.6 Seja X um conjunto não-vazio e τ uma topologia em X. Seja B ⊂ X. Um ponto
x ∈ X é um elemento de B se e somente se a seguinte propriedade for válida: todo aberto Ax ∈ τ que
contém o ponto x tem uma intersecção não-vazia com B, ou seja,
n o
B = x ∈ X| Ax ∩ B 6= ∅, ∀Ax ∈ τ com x ∈ Ax .
2
Prova. Suponha que x ∈ B e que haja aberto Ax que contém x e tal que Ax ∩ B = ∅. Isso implica que
B ∩ Acx ⊃ B, pois
B ∩ Acx ⊃ B ∩ Acx = B.
Assim, B ∩ Acx é um conjunto fechado que contém B e, portanto, B ⊂ B ∩ Acx , dado que o fecho de B
é o menor fechado que contém B. Isso, por sua vez, diz que B ⊂ Acx , o que significa que B ∩ Ax = ∅.
Mas isso contradiz as hipóteses de partida que diziam que x ∈ B e x ∈ Ax . Portanto, se x ∈ B então
Ax ∩ B 6= ∅ para todo aberto Ax que contém x.
Suponhamos agora que para um ponto x ∈ X valha que Ax ∩B 6= ∅ para todo aberto Ax que contém
c
x. Se supormos que x 6∈ B então x ∈ B , que é um aberto. Assim, deverı́amos ter, pelas hipóteses que
c
B ∩ B 6= ∅. Como B ⊃ B isso é impossı́vel. Assim, supor que Ax ∩ B 6= ∅ para todo aberto Ax que
contém x implica que x ∈ B. Isso completa a demonstração da proposição.
• Fechos e espaços topológicos. Os axiomas de Kuratowski
Em um espaço X dotado de uma topologia τ podemos associar a cada subconjunto A ⊂ X um

outro subconjunto A, o fecho de A. Essa associação A 7→ A pode ser entendida como uma operação
entre conjuntos e satisfaz as propriedades listadas na Proposição 19.4, página 1048. A proposição que
segue mostra que há uma espécie de recı́proca dessa construção: é possı́vel definir uma topologia em
X a partir de uma operação que possua as mesmas propriedades da operação de fecho.
Proposição 19.7 Seja X um conjunto não-vazio e seja uma aplicação κ : P(X) → P(X) que a cada
A ⊂ X associa um conjunto κ(A) satisfazendo
1. κ(∅) = ∅.
2. A ⊂ κ(A) para todo A ⊂ X.
3. κ(κ(A)) = κ(A) para todo A ⊂ X.
4. Se A, B ⊂ X então κ(A ∪ B) = κ(A) ∪ κ(B).
Dizemos que um conjunto F é fechado segundo a aplicação κ se F = κ(F ) e dizemos que um

conjunto é aberto segundo κ se for o complementar em X de um conjunto fechado segundo κ. Então,
a coleção de todos os abertos segundo κ define uma topologia em X, que denotaremos por τκ . Por fim,
τκ
para todo A ⊂ X vale A = κ(A), ou seja, o fecho de A na topologia τκ coincide com κ(A). 2
Nota. Uma aplicação κ : P(X) → P(X) satisfazendo as condições dos itens 1–4 da Proposição 19.7
é por vezes dita ser um operador de Kuratowski10 . A possibilidade de definir-se a noção de espaço
topológico a partir de um operador de Kuratowski, tal como enunciado na Proposição 19.7, é de
relevância por aproximar o estudo de espaços topológicos do estudo de álgebras Booleanas11 . Os itens
1–4 da Proposição 19.7 são por vezes denominados axiomas de fecho de Kuratowski ou apenas axiomas
de Kuratowski.
Prova da Proposição 19.7. Comecemos observando que se M ⊂ N, então N = M ∪ (N \ M). Logo, pelo
item 4, κ(N) = κ(M) ∪ κ(N \ M), o que provou que κ(M) ⊂ κ(N). Assim,
M ⊂ N =⇒ κ(M) ⊂ κ(N) . (19.2)
Pelo item 2, vale X ⊂ κ(X), o que implica κ(X) = X. Junto com o item 1 isso prova que ∅ e X
são abertos e fechados segundo κ.
Se F e G ⊂ X são fechados segundo k, então F = κ(F ) e G = κ(G). Logo, F ∪ G = κ(F ) ∪ κ(G) =
κ(F ∪ G), sendo que na última igualdade usamos a hipótese do item 4. Isso provou que F ∪ G é fechado
segundo κ.
Precisamos ainda provar que intersecções arbitrárias de conjuntos fechados segundo κ permanecem
conjuntos fechados segundo κ. Seja {Fλ , λ ∈ Λ} uma famı́lia de fechados segundo κ, indexada por um
conjunto de ı́ndices Λ.
!
\ \ \
Pela hipótese do item 2 tem-se Fλ ⊂ κ Fλ . Por outro lado, Fλ ⊂ Fλ′ para todo
λ∈Λ
! λ∈Λ λ∈Λ
\
λ′ ∈ Λ. Logo, por (19.2), κ Fλ ⊂ κ(Fλ′ ) = Fλ′ . Como isso vale para todo λ′ ∈ Λ, segue que
! λ∈Λ !
\ \ \ \
κ Fλ ⊂ Fλ′ . Isso completa a prova que Fλ = κ Fλ .
λ∈Λ λ′ ∈Λ λ∈Λ λ∈Λ
Com isso, provamos que a coleção de todos os conjuntos fechados segundo κ satisfaz todos os
axiomas de conjuntos fechados em um espaço topológico. A topologia assim definida pela operação κ
será denotada aqui por τκ .
τκ
Seja A o fecho de A ⊂ X na topologia τκ . Como A ⊂ κ(A) (item 2) e κ(A) é fechado em τκ , segue
τκ τκ
da definição de fecho que A ⊂ κ(A). Por outro lado, de A ⊂ A (item 1 da Proposição 19.4, página
10
Kazimierz Kuratowski (1896-1980).
11
George Boole (1815-1864).
τκ τκ τκ
1048), segue de (19.2) que κ(A) ⊂ κ A = A , a última igualdade sendo devida ao fato de A ser
τκ
fechado em τκ . Isso demonstrou que A = κ(A), completando a prova da Proposição 19.7.
19.3.1 Fecho de Conjuntos em Espaços Métricos
• Fecho de conjuntos em espaços métricos
Seja M um espaço métrico com métrica d e τd a topologia induzida em M por essa métrica. Seja
B ⊂ M. Vamos apresentar agora uma caracterização importante do fecho de B, que anunciamos acima.
Uma seqüência {xn , n ∈ N} de elementos de M é dita convergir na métrica d a um elemento x ∈ M
se para todo ǫ > 0 existir N(ǫ) ∈ N tal que xn ∈ Bd (x, ǫ) para todo n > N(ǫ).
Se uma seqüência converge a um ponto x, este é dito ser um limite da seqüência. (Mais sobre o
conceito de convergência de seqüências em espaços métricos será visto no Capı́tulo 22, página 1098).
Temos então a seguinte proposição:
Proposição 19.8 Um ponto x ∈ M pertence ao fecho B na topologia τd de um subconjunto B de M
se e somente se existir uma seqüência de elementos de B que converge a x na métrica d. 2
Prova. Suponha que x seja um limite de uma seqüência xn de elementos de B. Seja Ax um aberto que
contém x. Como Ax é um aberto de um espaço métrico, existe uma bola aberta centrada em x com
um raio positivo suficientemente pequeno, que chamaremos de ǫ, tal que Bd (x, ǫ) ⊂ Ax . Daı́, como a
seqüência converge a x, vale que B ∋ xn ∈ Bd (x, ǫ), desde que n seja grande o suficiente. Mas isso diz
que, para tais xn ’s tem-se xn ∈ Ax também. Logo Ax ∩ B 6= ∅, pois pelo menos esses xn ’s pertencem
aos dois conjuntos. Note que isso vale para qualquer aberto Ax que contém x. Daı́, pelo que vimos na
Proposição 19.6, concluı́mos que x ∈ B.
Assim, vimos que se uma seqüência de elementos de B converge a um ponto x em um espaço
métrico, então esse ponto x é um elemento do fecho de B. Vamos agora provar a recı́proca.
Vamos agora supor que x ∈ B e vamos provar que existe uma seqüência de elementos de B que
converge a x. Como x ∈ B vale que Bd (x, 1/n) ∩ B 6= ∅ para todo n ∈ N, n > 0. Daı́, podemos
escolher, para cada n ∈ N, n > 0, um elemento xn do conjunto Bd (x, 1/n) ∩ B. Com isso formamos
uma seqüência {xn } de elementos de B que converge a x, completando a prova.
• Conjuntos fechados em espaços métricos
A Proposição 19.8 tem o seguinte importante corolário imediato:

Corolário 19.1 Seja M um conjunto não-vazio dotado de uma métrica d e seja τd a topologia induzida
por essa métrica. Então, F ⊂ M é fechado se e somente se toda seqüência convergente em M de
elementos de F convergir a um elemento de F , ou seja, se F coincidir com o conjunto de seus pontos-
limite. 2
• Conjuntos fechados em espaços métricos e completeza
Seja M um conjunto não-vazio dotado de uma métrica d. Qualquer subconjunto não-vazio de M

é também um espaço métrico com métrica d (por que?). Porém, se M é completo em relação a d e se
F ⊂ M é um conjunto fechado, então F é também um espaço métrico completo em relação a d.
Provar isso é bem simples. Se fn ⊂ F é uma seqüência de Cauchy em relação a d em F então fn é
também uma seqüência de Cauchy em relação a d em M. Como M é completo existe f ∈ M ao qual a
seqüência converge. Mas, devemos ter, pelo que vimos, f ∈ F = F . Assim, toda seqüência de Cauchy
em relação a d em F converge a um elemento de F . Isso prova completeza de F .
A recı́proca é também verdadeira. Seja M completo em relação a d e seja B ⊂ M também completo
em relação a d. Então, B é fechado. Para ver isso note que toda seqüência de elementos de B que
converge em M é uma seqüência de Cauchy em M e, portanto, é também uma seqüência de Cauchy
em B. Logo, uma tal seqüência converge a um elemento de B, pois B é completo. Mas isso equivale a
dizer que B ⊃ B, o que implica B = B.
Provamos então o seguinte:
Proposição 19.9 Se M é um espaço métrico completo em relação a uma métrica d, então F ⊂ M é
fechado na topologia induzida por essa métrica se e somente se F for igualmente completo em relação
à métrica d. 2
19.4 Espaços Topológicos Separáveis e Segundo-Contáveis

Seja um espaço X dotado de uma topologia τ . Dizemos que um conjunto A ⊂ X é um conjunto denso,
ou conjunto τ -denso, em X se o fecho de A for igual a X, ou seja, se não houver outro conjunto fechado
que não X contendo A.
Um espaço topológico (X, τ ) é dito ser um espaço topológico separável se possuir um subconjunto
denso contável.
Exemplo. A reta real com a topologia usual τR é separável pois Q, o conjunto dos racionais é
contável e denso em R. Vide abaixo.
Um espaço topológico X é dito ser um espaço topológico segundo-contável (“second countable”) se
possuir uma base contável.
Pelo que vimos, se A for uma coleção contável de subconjuntos de X então a topologia gerada por
A possui uma base também contável e é, portanto, segundo-contável.
Vamos mostrar a seguinte afirmativa:
Proposição 19.10 Todo espaço topológico segundo-contável é separável. 2
Prova. Seja X um conjunto não-vazio dotado de uma topologia τX e suponhamos que esse espaço
topológico seja segundo-contável. Seja Bn , n ∈ N, uma base contável em τX . Vamos formar conjuntos
An , n ∈ N, cada um contendo um único elemento, da seguinte forma: A0 é formado por um elemento
escolhido arbitrariamente em B0 e A[ n , n ≥ 1, é formado por um elemento escolhido arbitrariamente

em Bn \ A0 ∪ · · · ∪ An−1 . Seja A := An . Vamos mostrar por absurdo que A é denso em X.
n∈N
Suponha que haja um conjunto fechado F que contém A e que seja um subconjunto próprio de X.
Então, C = X \ F é aberto, não-vazio e A ∩ C = ∅. Isso implica AS n ∩ C = ∅ para todo n. Como C é
aberto, existe, por hipótese, SBnk , k ∈ N, tal que C = k∈N Bnk . Logo, para todo n ∈ N
S uma famı́lia
vale ∅ = An ∩ C = An ∩ B
k∈N nk = k∈N (An ∩ Bnk ). Logo, An ∩ Bnk = ∅ para todo n e todo k.
Isso é absurdo, pois, por construção, Ank ⊂ Bnk para todo k. Logo A é denso em X.
É interessante notar que a recı́proca do proposição acima não é verdadeira: há espaços separáveis
que não são segundo-contáveis. Como exemplo, mostraremos que a topologia de Sorgenfrey é separável
mas não é segundo-contável (página 1057). Tal, porém, não é verdade para espaços métricos em geral.
Proposição 19.11 Um espaço métrico é separável se e somente se for segundo-contável. 2
Prova. Pela proposição anterior resta-nos apenas mostrar que se X é um espaço métrico separável então
tem uma base enumerável. Seja A um conjunto contável denso em X e seja o conjunto de todas as
bolas centradas em elementos de A com raio racional positivo: B(a, r), a ∈ A e r ∈ Q+ . O coleção de
todas essas bolas é contável (por que?). Vamos provar que é uma base em X. Seja C um aberto contido
em X. Para cada ponto a em A ∩ C podemos achar um raio ra tal que B(a, ra ) está inteiramente
contido em C (pela definição de conjunto aberto em um espaço métrico). Vamos mostrar que
[
C = B(a, ra ) .
a∈C∩A
S
Suponha que haja z ∈ C que não esteja em a∈C∩A B(a, ra ). Como A é denso em X, toda bola
aberta B(z, ǫ) contém elementos de A (doutra forma seu complemento seria fechado e conteria A, o
que não é possı́vel se A é denso). Em particular se ǫ for suficientemente pequeno B(z, ǫ) e B(z, ǫ/4)
estarão inteiramente contidas em C. Logo, para um racional r com ǫ/4 < r < ǫ/2 teremos z ∈ B(a′ , r)
para algum a′ ∈ B(z, ǫ/4) ∩ A sendo que B(a′ , r) ⊂ B(z, ǫ) ⊂ C. Lembrando que ′
S a ∈ C ∩ A e que
′ ′ ′
podemos escolher ǫ/2 < ra′ , teremos B(a , r) ⊂ B(a , ra′ ). Assim, z ∈ B(a , r) ⊂ a∈C∩A B(a, ra ).
• A topologia τR é segundo-contável
Como comentamos logo acima, τR é separável pois Q é contável e denso em R. Pela Proposição
19.11, τR é segundo-contável. A tı́tulo de ilustrar futuros desenvolvimentos, vamos no que segue provar
esse fato de modo mais explı́cito, exibindo uma base contável para τR .
Para isso, vamos mostrar que τR pode ser gerada por uma coleção contável de subconjuntos de R.
Esse fato é importante por várias razões, uma delas conectada à σ-álgebra de Borel e sua relação com
a σ-álgebra de Lebesgue, que introduziremos quando falarmos da Teoria da Medida (vide Capı́tulo 21).
Para a ∈ R e b > 0 vamos denotar por B(a, b) a bola aberta de raio b centrada em a que, neste
caso, é o intervalo aberto (a − b, a + b) centrado em a com largura 2b.
Vamos primeiramente ver que qualquer intervalo B(a, b), a ∈ R, b > 0, pode ser escrito como
uma união contável de intervalos abertos. Para isso, considere uma seqüência si de números racionais
positivos tais que si < b mas tais que a seqüência si converge a b quando i → ∞. Então, é claro que
[
B(a, b) = B(a, si ) ,
i∈N
que é uma união contável.

Pela definição, se A é um aberto não-vazio em τR , A 6= R, então para cada x ∈ A podemos encontrar
um número δ(x) > 0 (que eventualmente depende de x) de forma que B(x, δ(x)) ⊂ A. Para A aberto
e x ∈ A vamos denotar por δA (x) o maior número com essa propriedade, ou seja,
δA (x) = sup{b > 0, tal que B(x, b) ⊂ A}.
Como A 6= R, δA (x) é sempre finito para x ∈ A. (Por quê?).

É bem claro então que [
A = B(x, δA (x)) .
x∈A
Vamos provar a seguinte afirmativa:

[
A = B(r, δA (r)) .
r∈A∩Q
Para tal, seja [

A′ = B(r, δA (r)) ,
r∈A∩Q
suponha que A \ A′ 6= ∅ e seja w ∈ A \ A′ . Considere então o conjunto aberto B(w, δA (w)). Tomemos
s ∈ B(w, δA (w)) ∩ Q de tal forma que |s − w| < δA (w)/2 (isso é sempre possı́vel. Por quê?). Então,
teremos que δA (w)/2 < δA (s) < δA (w) e, portanto w ∈ B(s, δA (s)), mostrando que w ∈ A′ : um
contradição. Portanto A = A′ .
S
Caso A = R podemos sempre escrever R = r∈Q B(r, p), para qualquer p > 0.
O que acabamos de provar é que todo aberto não-vazio A de τR pode ser escrito como uma união
contável de intervalos abertos. Por outro lado, vimos também que cada intervalo aberto B(r, δA (r))
pode ser escrito ele mesmo como uma união contável de intervalos abertos do tipo B(r, s) onde r e
s > 0 são números racionais.
Seja R a coleção de todos os intervalos abertos do tipo B(r, s) com r, s ∈ Q e s > 0. A coleção R
é claramente uma coleção contável e R ⊂ τR (pois todos esses intervalos são abertos). Logo τ [R] ⊂ τR ,
pois τ [R] é, por definição, a menor topologia que contém R. Por outro lado, qualquer topologia que
contenha R contém também qualquer elemento que possa ser escrito como união de elementos de R
e, como vimos, todo aberto de τR pode ser escrito como uma união (contável) de elementos de R e é,
conseqüentemente, um elemento de qualquer topologia que contenha R. Logo τR ⊂ τ [R].
Vemos, portanto, que τR = τ [R] e, assim, τR é o que se chama de uma topologia segundo-contável,
pois tem uma base contável obtida tomando-se intersecções finitas de elementos de R, como vimos
acima.
Para finalizar, vamos mostrar a seguinte identidade:
M[τR ] = M[R] , (19.3)
ou seja, vamos mostrar que a σ-álgebra de Borel da reta real e a σ-álgebra gerada por R coincidem.
Como R ⊂ τR , é claro que R ⊂ M[τR ]. Daı́ segue que M[R] ⊂ M[τR ], dado que M[R] é, por
definição, a menor σ-álgebra que contém R. Por outro lado, M[R] contém (pela definição de σ-álgebra)
qualquer conjunto que seja uma união contável de elementos de R. Vimos acima que qualquer elemento
de τR tem essa propriedade. Logo τR ⊂ M[R] e, assim, M[τR ] ⊂ M[R], provando que M[τR ] = M[R].
Os fatos aqui discutidos serão importantes quando apresentarmos a chamada σ-álgebra de Lebesgue
no Capı́tulo 21, página 1074.
• A topologia de Sorgenfrey não é uma topologia métrica
Mostraremos agora que a Topologia de Sorgenfrey é separável mas não é segundo-contável e, por-
tanto, não é métrica.
Para mostrar que a topologia de Sorgenfrey τ [S] é separável, provemos que Q é denso em R segundo
τ [S]. Suponha que não seja. Então, existiria z ∈ R e aberto em τ [S] contendo z que não contém nenhum
número racional. Como um tal aberto é união de intersecções finitas de intervalos semi-abertos de S,
isso é impossı́vel.
Vamos agora mostrar que τ [S] não é segundo-contável. Suponhamos que B seja uma base para τ [S]
e seja x ∈ R. Pela hipótese existe para cada x ∈ R um subconjunto Bx = {Bλ , λ ∈ Λx } de B tal que
[
τ [S] ∋ [x, ∞) = Bλ ,
λ∈Λx
com Bλ ∈ Bx . Mas isso só é possı́vel se existir pelo menos um conjunto de Bx que contém x. Denotemo-
lo Bλ(x) . É claro que Bλ(x) não pode conter nenhum y ∈ R com y < x (por que?). Logo, a aplicação
R ∋ x 7→ Bλ(x) ∈ B é injetora12 , o que nos diz que a cardinalidade de B é pelo menos a cardinalidade
de R. Isso mostra que B não pode ser contável.
Como vimos acima (página 1055), um espaço métrico é separável se e somente se for segundo-
contável. Isso mostra que a topologia de Sorgenfrey não é uma topologia métrica!
12
Como x ∈ Bλ(x) e y 6∈ Bλ(x) se y < x, segue que inf(Bλ(x) ) = x para todo x ∈ R, o que implica injetividade.
Capı́tulo 20
Medidas
Conteúdo
20.1 O Problema da Teoria da Medida . . . . . . . . . . . . . . . . . . . . . . . 1058
20.2 Medidas de Conjuntos. Definição, Exemplos e Propriedades Básicas . . 1061
20.3 Construindo Medidas. A Medida Exterior e o Teorema de Caratheodory 1065
O presente capı́tulo visa apresentar ao estudante a noção de medida de conjuntos, algumas

de suas propriedades básicas e exemplos elementares e, por fim, discutir uma construção
importante de medidas devida a Caratheodory1 . O caso importante da chamada medida
de Lebesgue2 é discutido com essa base no Capı́tulo 21. Começaremos com uma discussão
parcialmente informal sobre os problemas básicos por trás da noção intuitiva de medida de conjuntos.
20.1 O Problema da Teoria da Medida

Em uma primeira instância, o objetivo da área da Análise conhecida como Teoria da Medida é dar
fundamento às idéias intuitivas de comprimento, área, volume etc. de sub-conjuntos de Rn . Grandezas
como comprimento, área, volume etc. de subconjuntos de Rn são referidas genericamente como medidas
de tais conjuntos e à Teoria da Medida cabe não só apresentar definições precisas de tais conceitos mas
também cabe determinar que classes de conjuntos são mensuráveis, ou seja, a quais conjuntos tais
conceitos são aplicáveis.
Talvez surpreenda ouvir pela primeira vez que conceitos como comprimento, área e volume não
possam ser aplicados a qualquer conjunto e que a manipilação dos mesmos, se feita sem o devido
cuidado, possa levar a situações paradoxais. Entretanto, como mostra o exemplo do conjunto de Vitali,
tratado na próxima seção, existem, já no simples caso da reta real, conjuntos para os quais o conceito
de comprimento não pode ser definido. A dificuldade que temos de sequer imaginar como devem ser
tais conjuntos reside, talvez, no fato que os mesmos serem de construção incomum (a construção, como
veremos, faz uso explı́cito do Axioma da Escolha).
A Teoria da Medida não se restringe, porém, a tratar de conceitos geométricos como comprimento,
área etc., sendo que o conceito formal de medida de um conjunto extrapola em muito esse campo de
aplicações, como veremos. Fora isso, a Teoria da Medida não se limita apenas ao estudo do conceito de
medida e de conjuntos mensuráveis, mas tem como seu mais importante objetivo formalização da teoria
da integração. Que os conceitos de medida e de integral são conectados diz-nos já a velha noção de
integral definida como sendo o “área sob o gráfico” de uma função. De fato, a teoria da medida fornece
1
Constantin Caratheodory (1873-1950).
2
1058
material poderoso para um tratamento mais profundo do conceito de integral e de suas extensões.
Nestas notas, o tratamento da Teoria da Integração será iniciado no Capı́tulo 23, página 1119.
Todos esses conceitos serão tratados de modo cuidadoso adiante, mas achamos por bem começar
mostrando ao estudante a origem de toda a problemática: a existência de conjuntos não mensuráveis.
• O exemplo de Vitali
Considere-se o conjunto R dos números reais e seus subconjuntos. Temos uma noção intuitiva clara
do que seja o comprimento de intervalos da reta real como (a, b) ou [a, b] ou [a, b) ou (a, b]. Em
todos esses casos o comprimento é o número positivo (ou nulo) b − a. Para um intervalo I como os de
acima, denotemos por m(I) o seu comprimento. Assim, por exemplo, m([a, b]) = b − a, para todo a e
b com b ≥ a.
Se um conjunto A ⊂ R for formado pela união disjunta de dois intervalos I e J como os de acima,
é também intuitivo que o comprimento de A seja dado por m(A) = m(I) + m(J), ou seja, pela soma
dos comprimentos dos intervalos disjuntos que formam A. Se A for formado por uma união disjunta
contável de intervalos Ia , a ∈ N, então, igualmente, é natural dizer que o comprimento total de A é
dado por
X∞
m(A) = m(Ia ) .
a=1
Note-se que não excluı́mos a possibilidade de A ser um conjunto com comprimento infinito, como é
o caso da semi-reta [0, ∞), que, aliás pode ser escrita como a união contável disjunta de intervalos de
comprimento 1 do tipo [n, n + 1) com n ∈ N. Conjuntos com comprimento zero, como conjuntos com
um só elemento {x} também existem.
Dessas noções extraı́mos o seguinte princı́pio: se um conjunto A puder ser escrito como uma união
disjunta contável de outros conjuntos Ba , a ∈ N, que possuem um comprimento bem definido (finito
ou não), então o comprimento de A deve ser dado pela soma dos comprimentos de cada Ba , seja essa
soma finita ou não: !
[ X
m Ba = m(Ba ) .
a∈N a∈N
Outra propriedade razoável que devemos supor do conceito de comprimento de um conjunto é que
se A e B são conjuntos e A ⊂ B então m(A) ≤ m(B). Note que podemos ter a igualdade mesmo que A
seja um subconjunto próprio de B. Esse é, por exemplo, o caso dos conjuntos A = (1, 3) e B = [1, 3]
onde tanto A quanto B têm o mesmo comprimento, a saber 2.
Por fim, uma última condição razoável que o a noção usual de comprimento de subconjuntos da
reta deve satisfazer é o de invariância por translações. Seja E ⊂ R. Denotemos por Ex , ou por E + x,
o conjunto E transladado por um número x ∈ R, ou seja:
n o
Ex = y ∈ R, com y = a + x para algum a ∈ E .
Então, é razoável supor que m(Ex ) = m(E) para qualquer x ∈ R.

O que vamos agora fazer é mostrar que existem subconjuntos da reta real para os quais não há a
menor possibilidade de definir um comprimento m que satisfaça os requerimentos razoáveis delineados

acima.
O exemplo que construiremos é conhecido como exemplo de Vitali3 . Vamos supor que a todo
subconjunto E da reta real possamos associar um comprimento m(E) com as condições mencionadas
acima. Seja o intervalo I = [0, 1]. Definamos em I uma relação de equivalência da seguinte forma.
Dois pontos x e y, ambos elementos de I, são ditos ser equivalentes, x ∼ y, se e somente se x − y for
um número racional.
E. 20.1 Exercı́cio. Prove que isso define de fato uma relação de equivalência. 6
O fato de termos assim criado uma relação de equivalência em I significa que I pode ser escrito
como uma união disjunta das classes de equivalência por essa relação. Usando o Axioma da Escolha
podemos construir um conjunto, que chamaremos de V , tomando um e somente um elemento arbitrário
de cada classe de equivalência de I. Obviamente, temos V ⊂ I.
Seja agora Vr o conjunto obtido transladando-se o conjunto V por um número r ∈ Q. Vamos
mostrar que Vr ∩ Vs = ∅ se r 6= s com r, s ∈ Q, ou seja, que Vr e Vs são disjuntos se r e s forem
elementos distintos de Q. Para ver isso suponhamos o contrário, ou seja, que exista um elemento
u ∈ Vr ∩ Vs . Como u ∈ Vr então u = v + r, para algum elemento v ∈ V . Por outro lado, como u ∈ Vs
então u = v ′ + s, para algum elemento v ′ ∈ V . Portanto v + r = v ′ + s e v − v ′ = s − r. Como s − r
é um racional então v ∼ v ′ . Mas isso só é possı́vel se v = v ′ pois, ao construirmos V , tomamos um e
somente um elemento de cada classe de equivalência de I, o que significa dizer que elementos distintos
de V não podem ser equivalentes. Por outro lado, se v = v ′ a relação v − v ′ = s − r diz que s = r, o
que contraria as hipóteses. Logo Vr ∩ Vs = ∅ se r, s ∈ Q com r 6= s.
Vamos denotar por Q1 o conjunto de todos os números racionais contidos no intervalo [−1, 1]:
Q1 = Q ∩ [−1, 1]. Afirmamos que as seguintes relações de inclusão são válidas:
[
[0, 1] ⊂ Vr ⊂ [−1, 2] . (20.1)
r∈Q1
[
Vamos provar isso. A relação Vr ⊂ [−1, 2] é óbvia pois V é um subconjunto do intervalo
r∈Q1
[0, 1] e, ao transladarmos V por um número r do conjunto Q1 podemos no máximo cair dentro de
[−1, 2].
[
A relação [0, 1] ⊂ Vr pode ser vista da seguinte forma. Se x ∈ [0, 1] então x pertence a
r∈Q1
uma classe de equivalência V. Seja v o elemento de V que foi escolhido para comparecer em V como
o representante de V. Como x e v são membros da mesma classe de equivalência, então x − v é um
racional s. Como x e v são elementos de [0, 1], então sua diferença deve ser um elemento de [−1, 1].
[ que s ∈ Q1 . Logo, x ∈ Vs com s ∈ Q1 . Como isso vale para todo x ∈ [0, 1], segue que
Assim, vemos
[0, 1] ⊂ Vr como querı́amos mostrar.
r∈Q1
Que conseqüências isso tudo tem? Pela hipótese que se A ⊂ B então m(A) ≤ m(B), segue de (20.1)
3
Giuseppe Vitali (1875-1932).
que !
[
m([0, 1]) ≤ m Vr ≤ m([−1, 2]) ,
r∈Q1
ou seja, !
[
1 ≤ m Vr ≤ 3,
r∈Q1
[
Pelo que vimos acima a união Vr é uma união disjunta e contável (pois os racionais são contáveis).
r∈Q1
Logo, pelas nossas hipóteses sobre m, temos que
!
[ X
m Vr = m(Vr ) .
r∈Q1 r∈Q1
A desigualdade acima fica então X

1 ≤ m(Vr ) ≤ 3 .
r∈Q1
Por fim, pela hipótese que m é invariante por translações, segue que m(Vr ) = m(V ) e, portanto,
X
1 ≤ m(V ) ≤ 3 .
r∈Q1
Agora, essa relação é absurda pois não pode ser nunca satisfeita para m(V ) ≥ 0. Se m(V ) = 0 a
primeira desigualdade é violada e se m(V ) > 0 (ou infinito) a segunda o é pois a soma é infinita.
O que está errado? O erro está em supor que se possa atribuir ao conjunto V um comprimento
m(V ). O conjunto V , que é chamado conjunto de Vitali, é um exemplo de um conjunto não-mensurável.
A ele não é possı́vel atribuir um comprimento, nem nulo, nem finito, nem infinito.
Para finalizar essa discussão fazemos notar que fizemos uso de modo crucial do Axioma da Escolha
na construção do conjunto V acima. Em outros esquemas axiomáticos sobre a teoria dos conjuntos
subjacente à Matemática o Axioma da Escolha pode ser substituı́do por um outro axioma que impeça
a construção de conjuntos como V . Tais esquemas conduzem, entretanto, a Matemáticas em um certo
sentido empobrecidas, nas quais vários resultados de interesse não podem mais ser estabelecidos.
* *** *
Para a leitura do que segue neste Capı́tulo é conveniente que o estudante esteja familiarizado com
a noção de σ-álgebra e suas propridades básicas. Vide Capı́tulo 19, página 1031.
20.2 Medidas de Conjuntos. Definição, Exemplos e Proprie-

dades Básicas
• A definição de medida
Uma vez visto que problemas com a mensurabilidade de conjuntos podem existir, vemo-nos forçados
a tratar o problema de cenceitualizar a noção intuitiva de medida reunindo instrumentos mais sólidos
para sua abordagem.
Seja X um conjunto não-vazio e M uma σ-álgebra em X (para a definição, vide Capı́tulo 19, página
1031). Vamos apresentar o conceito formal de medida. Uma medida em M é uma função µ que associa
a cada elemento da σ-álgebra M um número real ≥ 0 ou infinito, ou seja, µ : M → R+ ∪ {∞} e de tal
forma que as seguintes condições sejam satisfeitas:
1. µ(∅) = 0.
2. Se Ai , i ∈ N, é uma coleção contável e disjunta de elementos de M então
!
[ X
µ An = µ(An ) . (20.2)
n∈N n∈N
A propriedade 2 é por vezes denominada aditividade contável, ou ainda σ-aditividade.

Uma palavra tem que ser dita aqui sobre o significado dessa definição. Conforme vimos, há conjuntos
em R aos quais não podemos atribuir uma noção razoável de comprimento. O problema consiste então
em identificar classes de conjuntos para os quais esta definição pode fazer sentido sem que venhamos
a cair em paradoxos como os envolvendo o conjunto de Vitali. A experiência mostrou que σ-álgebras
são justamente o ambiente ideal para desenvolver a noção de medida de conjuntos, sem que se recaia
em dificuldades lógicas sérias. Daı́ restringirmos a definição de medida à σ-álgebras. A propriedade
(20.2) é de importância crucial para o desenvolvimento da teoria de medida (e como tal, um achado
histórico) e é chamada de propriedade de σ-aditividade.
• Exemplos
Vamos a alguns exemplos básicos de medidas.
1. A medida de contagem. Seja X um conjunto não-vazio e M = P(X). Para E ∈ M definimos




 o número de elementos de E , caso E seja um conjunto finito,
µc (E) :=


 ∞, caso E não seja um conjunto finito.
Então, µc define uma medida em M (verifique!), a qual “conta” o número de elementos de cada
conjunto E, daı́ sua designação.
2. A medida de Dirac4 . em x0 . Seja X um conjunto não-vazio, seja M = P(X) e seja x0 um elemento
de X. Para E ∈ M definimos



 1, caso x0 ∈ E ,
δx0 (E) := (20.3)


 0, caso x0 6∈ E .
4
Paul Adrien Maurice Dirac (1902-1984)
Então, δx0 é uma medida (verifique!) que diz se o ponto x0 fixado é um elemento de E ou não.
3. A medida de Dirac sobre um conjunto contável C. Seja X um conjunto não-vazio, seja M = P(X)
e seja C um subconjunto contável de X. Para E ∈ M definimos



 o número de elementos de E ∩ C, caso E ∩ C seja um conjunto finito,
δC (E) :=


 ∞, caso E ∩ C não seja um conjunto finito.
Então, δC é uma medida (verifique!) que generaliza a medida δx0 acima.

4. Sejam α, β ≥ 0 e seja X um conjunto não-vazio que possua um sub-conjunto próprio não-vazio A
(para isso basta que X tenha mais de um elemento). Considere a σ-álgebra M = {∅, A, Ac , X}.
Se definirmos µ(∅) = 0, µ(A) = α, µ(Ac ) = β e µ(X) = α + β, então µ será uma medida em M.
Mostre isso!
Por estes exemplos vemos que a noção de medida extrapola a noção geométrica de comprimento,
área, volume etc. de um conjunto, conceitos esses que, ademais, só se aplicam a certos sub-conjuntos de
Rn . Outros exemplos mais elaborados de medidas serão vistos adiante, em especial aqueles referentes
justamente às noções geométricas de comprimento, área etc. de subconjuntos de Rn . Tais medidas são
conhecidas como medidas de Lebesgue e serão discutidas adiante.
grego). Mostre que
M = ∅, {γ}, {α, β}, {α, β, γ}
é uma σ-álgebra em X = {α, β, γ}. Mostre que µ : M → R+ , definida por

µ(∅) = 0, µ({γ}) = 1, µ({α, β}) = 0, µ({α, β, γ}) = 1
é uma medida em M. 6
grego). Mostre que
M = ∅, {γ}, {α, β}, {α, β, γ}
é uma σ-álgebra em X = {α, β, γ}. Mostre que µ : M → R+ , definida por

µ(∅) = 0, µ({γ}) = 2, µ({α, β}) = 1, µ({α, β, γ}) = 3
grego). Mostre que

M = ∅, {α}, {β}, {γ}, {α, β}, {α, γ}, {β, γ}, {α, β, γ}
é uma σ-álgebra em X = {α, β, γ}. Mostre que µ : M → R+ definida por
µ(∅) = 0 , µ({α}) = 0 , µ({β}) = 0 , µ({γ}) = 1 ,
µ({α, β}) = 0 , µ({α, γ}) = 1 , µ({β, γ}) = 1 , µ({α, β, γ}) = 1
• Propriedades básicas de medidas
Vamos agora extrair algumas conseqüências básicas da definição de medida [123]. Abaixo, seja X
um conjunto não-vazio, M uma σ-álgebra em X e µ uma medida em M.
1. Se A1 , . . . , An é uma coleção finita de elementos disjuntos de M então µ(A1 ∪ · · · ∪ An ) = µ(A1 ) +

· · · + µ(An ).
[
Prova. Defina-se Am = ∅ para m > n. Então, A1 ∪ · · · ∪ An = Aj e, portanto,
j∈N
!
[ X
µ(A1 ∪ · · · ∪ An ) = µ Aj = µ(Aj ) = µ(A1 ) + · · · + µ(An ) ,
j∈N j∈N
pois µ(∅) = 0.
2. Se A e B são elementos de M e A ⊂ B então µ(A) ≤ µ(B).
Prova. Como A ⊂ B, segue que B = A ∪ (Ac ∩ B), uma união disjunta de elementos de M (por
que?). Logo, pelo item anterior segue que µ(B) = µ(A) + µ(Ac ∩ B). Como µ(Ac ∩ B) ≥ 0, segue
que µ(B) ≥ µ(A).
3. Se Aj , j ∈ N, são elementos de M com Aj ⊂ Aj+1 para todo j ∈ N, então lim µ(An ) = µ(A),
[ n→∞
onde A = An .
n∈N
Prova. Defina-se B1 = A1 e Ba = Aa \ Aa−1 para a ≥ 2. Então, pelas hipóteses,

[
An = B1 ∪ · · · ∪ Bn e A = Ba ,
a∈N
onde, em ambos os casos, as uniões são disjuntas. Assim,

X
µ(An ) = µ(B1 ) + · · · + µ(Bn ) e µ(A) = µ(Ba ) .
a∈N
Portanto, µ(A) = lim µ(An ), como querı́amos provar.

n→∞
4. Se Aj , j ∈ N, são elementos de\M com Aj+1 ⊂ Aj para todo j ∈ N, e se µ(A1 ) for finito, então
lim µ(An ) = µ(A), onde A = An .
n→∞
n∈N
Prova. Seja Ca = A1 \ Aa . Então, pelas hipóteses, Cj ⊂ Cj+1. Como vimos no item anterior, isso
diz que
lim µ(Cn ) = µ(C) ,
n→∞
[
onde C = Ca = A1 \ A. Temos agora que A1 = An ∪ Cn e A1 = A ∪ C, duas uniões disjuntas.
a∈N
Portanto µ(An ) + µ(Cn ) = µ(A) + µ(C). Assim, lim µ(An ) + lim µ(Cn ) = µ(A) + µ(C) e,
n→∞ n→∞
então,
lim µ(An ) + µ(C) = µ(A) + µ(C) .
n→∞
Como µ(A1 ) é finito, então µ(C) e µ(A) também são finitos (pois são subconjuntos de A1 ). Logo,
podemos cancelar µ(C) da última igualdade e obtemos o desejado.
Os dois primeiros itens acima são resultados desejados pela noção intuitiva de medida. O penúltimo
diz que a medida de um conjunto mensurável A pode ser aproximada “por dentro” pelas medidas de
conjuntos mensuráveis que convergem a A e o último item diz que se um conjunto mensurável A tem
medida finita e se há conjuntos An também com medida finita que contêm A e convergem a A então
também podemos aproximar a medida de A pela dos aproximantes externos An .
20.3 Construindo Medidas. A Medida Exterior e o Teorema

de Caratheodory
Há muitos processos que permitem construir medidas com certas propriedades desejadas. Vamos aqui
delinear um tal processo, devido a Caratheodory5 , que será particularmente importante para a cons-
trução da chamada medida de Lebesgue da reta real, a qual corresponde à noção intuitiva de compri-
mento de conjuntos em R. A construção a que nos referimos exige que introduzamos mais um conceito,
o de medida exterior.
Uma medida exterior µ em um conjunto não-vazio X é uma função que associa a cada subconjunto
de X um número real maior ou igual a zero ou infinito e de tal forma que:
1. µ(∅) = 0.
2. Se A ⊂ B então µ(A) ≤ µ(B).
3. Para qualquer coleção contável Aj , j ∈ N, de subconjuntos de X tem-se que

!
[ X
µ Aj ≤ µ(Aj ) .
j∈N j∈N
5
Constantin Caratheodory (1873-1950).
Notas.
Um exemplo elementar de medida exterior, e que ilustrará o Teorema de Caratheodory, abaixo,

é encontrado no Exercı́cio E. 20.6 da página 1070.
Enfatizamos que medidas exteriores são definidas sobre a totalidade dos subconjuntos de X ao
contrário de medidas, que são definidas apenas sobre σ-álgebras em X (e que podem ser menores
que P(X)).
Uma outra distinção relevante entre medidas exteriores e medidas é a seguinte. Seja A um
conjunto e sejam A1 e A2 dois subconjuntos disjuntos próprios do conjunto A tais que A = A1 ∪A2 .
Então, há casos em que µ(A) 6= µ(A1 ) + µ(A2 ). Esse fato é contrário à intuição por trás da noção
de medida de um conjunto. Para uma medida µ isso nunca pode ocorrer se A, A1 e A2 forem
elementos da σ-álgebra dos conjuntos mensuráveis por µ, pela própria definição de medida dada
acima.
Se A1 e A2 são dois subconjuntos de X sempre temos que µ(A1 ∪ A2 ) ≤ µ(A1 ) + µ(A2 ). Isso é
[ pela definição de medida exterior pois, tomando-se Aj = ∅ para j > 2 temos que
fácil de se ver
A1 ∪ A2 = Aj .
j∈N
Vamos agora mostrar o seguinte resultado fundamental e que é a verdadeira razão de ser do conceito
de medida exterior.
Teorema 20.1 (Teorema de Caratheodory) 6 Seja Mµ a coleção de todos os subconjuntos A de
X que tenham a seguinte propriedade: Para todo E ⊂ X vale que
µ(E) = µ(E ∩ A) + µ(E ∩ Ac ) ,
onde Ac = X \ A. Então, Mµ é uma σ-álgebra. Fora isso, µ é uma medida em Mµ . 2
Antes de provarmos esse teorema, façamos algumas observações sobre o mesmo. Apesar de o
teorema acima não ser, admitidamente, muito intuitivo, o mesmo fornece um método importante de
construção de medidas. A razão é que, como veremos no caso da construção da medida de Lebesgue,
é em muitos casos mais fácil construir-se primeiro uma medida exterior sobre um conjunto X que
uma medida, o que exigiria a identificação prévia de uma σ-álgebra conveniente. O teorema acima já
permite exibir uma tal σ-álgebra, no caso Mµ , para a qual µ é uma medida. Historicamente o teorema
acima representou também uma simplificação importante, especialmente na construção da medida de
Lebesgue, dado que a mesma era originalmente alcançada por vias mais trabalhosas (identificando-se
a medida exterior com o que se chama de medida interior, da qual não trataremos aqui).
Um exemplo elementar que ilustra o Teorema de Caratheodory é encontrado no Exercı́cio E. 20.6
da página 1070. O estudante poderá estudá-lo antes de mergulhar na demonstração do teorema.
A prova do do Teorema de Caratheodory é um pouco longa e precisamos de um resultado prepa-
ratório.
6
Em sua forma original esse teorema é devido ao matemático Constantin Caratheodory (1873-1950) e por isso vamos
denominá-lo dessa forma, ainda que tal nomenclatura não seja comum.
Lema 20.1 Sejam A e B dois elementos de Mµ . Então, A ∪ B é também um elemento de Mµ . 2
Prova. Tudo o que queremos provar é que
µ(E) = µ(E ∩ (A ∪ B)) + µ(E ∩ (A ∪ B)c )
para um subconjunto E ⊂ X genérico.

Seja E ′ o conjunto E ′ = (A ∪ B) ∩ E. Então, como A ∈ Mµ , segue que
µ(E ′ ) = µ(E ′ ∩ A) + µ(E ′ ∩ Ac ) ,
ou seja,
µ((A ∪ B) ∩ E) = µ((A ∪ B) ∩ E ∩ A) + µ((A ∪ B) ∩ E ∩ Ac ) .
É fácil de se ver agora (faça!) que
(A ∪ B) ∩ E ∩ A = A ∩ E
e que
(A ∪ B) ∩ E ∩ Ac = Ac ∩ E ∩ B .
Assim,
µ((A ∪ B) ∩ E) = µ(A ∩ E) + µ(Ac ∩ E ∩ B) .
Vamos fazer uso dessa última igualdade logo abaixo.
Notemos agora que, como A e B são elementos de Mµ , temos que
µ(E) = µ(A ∩ E) + µ(Ac ∩ E)
= µ(A ∩ E) + µ(Ac ∩ E ∩ B) + µ(Ac ∩ E ∩ B c ) .
Acabamos de ver que a soma dos dois primeiros termos da última igualdade vale µ((A ∪ B) ∩ E) e
para o último termo vale µ(Ac ∩ B c ∩ E) = µ((A ∪ B)c ∩ E), pois Ac ∩ B c = (A ∪ B)c . Assim, provamos
que
µ(E) = µ(E ∩ (A ∪ B)) + µ(E ∩ (A ∪ B)c ) ,
que é o que querı́amos demonstrar.
Note que o resultado acima também diz que se A1 , . . . , An são elementos de Mµ então o conjunto
A1 ∪ · · · ∪ An também é elemento de Mµ para qualquer n finito.
Passemos agora à prova do Teorema de Caratheodory.
• Prova do teorema de Caratheodory
Parte I. Vamos nesta parte I provar que o conjunto Mµ é, de fato, uma σ-álgebra.
Em primeiro lugar, note-se que se A ∈ Mµ então Ac também é um elemento de Mµ pois (Ac )c = A

e portanto, para todo E ⊂ X,
µ(E ∩ (Ac )) + µ(E ∩ (Ac )c ) = µ(E ∩ (Ac )) + µ(E ∩ A) = µ(E) ,
por hipótese. Assim, podemos também ver que tanto ∅ quanto X são elementos de Mµ pois, claramente,
para qualquer E ⊂ X
µ(E) = µ(E ∩ ∅) + µ(E ∩ (∅)c )
dado que ∅c = X, que E ∩ X = E, que E ∩ ∅ = ∅ e que µ(∅) = 0.
Vimos no Lema 20.1 que se A e B são elementos de Mµ então A ∪ B também o é. Como A ∩ B =
(Ac ∪ B c )c então concluı́mos que A ∩ B também é elemento de Mµ , o mesmo valendo para A \ B pois
A \ B = A ∩ Bc.
[
Resta-nos provar que se {Aj , j ∈ N} é uma coleção contável de elementos de Mµ então A = Aj
j∈N
também o é.
Seja E um subconjunto genérico de X. Claramente temos que E = (E ∩ A) ∪ (E ∩ Ac ), o que,
pelo que observamos acima, significa que µ(E) ≤ µ(E ∩ A) + µ(E ∩ Ac ). Tudo o que precisamos
fazer, então, é provar que µ(E) ≥ µ(E ∩ A) + µ(E ∩ Ac ) o que significaria então que A ∈ Mµ , como
queremos provar.
Para provar esta desigualdade, observemos primeiro que, para qualquer conjunto E ′ e qualquer
elemento A de Mµ vale, por definição, µ(E ′ ) = µ(E ′ ∩ A) + µ(E ′ ∩ Ac ). Daı́, tomando-se E ′ da forma
E ′ = (A ∪ B) ∩ E, com E ⊂ X e A, B ∈ Mµ com A ∩ B = ∅, temos
µ((A ∪ B) ∩ E) = µ(A ∩ E) + µ(B ∩ E) ,
pois, como A ∩ B = ∅, tem-se que (A ∪ B) ∩ E ∩ A = A ∩ E e (A ∪ B) ∩ E ∩ Ac = B ∩ E.
E. 20.5 Exercı́cio. Verifique estas últimas afirmativas. 6
Isso significa, em particular, que se B1 , . . . , Bn são elementos disjuntos de Mµ , então

µ E ∩ (B1 ∪ · · · ∪ Bn ) = µ(E ∩ B1 ) + · · · + µ(E ∩ Bn ) .
Vamos definir B1 = A1 , Bn = An \ (A1 ∪ · · · ∪ An−1 ) para n ≥ 2. Então, pelo que já observamos,
cada Bj é elemento de Mµ e Bi ∩ Bj = ∅ se i 6= j. Fora isso,
[ [
Bi = Ai .
i∈N i∈N
n
[
Como cada Bi é elemento de Mµ , então já vimos que para cada n finito Bi ∈ Mµ , ou seja,
i=1
n
!! n
!c !
[ [
µ(E) = µ E ∩ Bi +µ E∩ Bi
i=1 i=1
para todo E ⊂ X. Agora !!

n
[ n
X
µ E∩ Bi = µ(Bi ∩ E)
i=1 i=1
pois os Bi ’s são disjuntos.

Por outro lado !c ! !c !
n
[ [
µ E∩ Bi ≥ µ E∩ Bi
i=1 i∈N
dado que !c !c
[ n
[
Bi ⊂ Bi (justifique!) .
i∈N i=1
Logo, vimos que !c !

n
X [
µ(E) ≥ µ(Bi ∩ E) + µ E ∩ Bi .
i=1 i∈N
Como essa desigualdade vale para qualquer n, segue que

∞
!c !
X [
µ(E) ≥ µ(Bi ∩ E) + µ E ∩ Bi .
i=1 i∈N
Por fim, pela própria definição de medida exterior, temos que

∞
!!
X [
µ(Bi ∩ E) ≥ µ E ∩ Bi (justifique!)
i=1 i∈N
e, portanto,
!! !c !
[ [
µ(E) ≥ µ E ∩ Bi +µ E∩ Bi
i∈N i∈N
!! !c !
[ [
= µ E∩ Ai +µ E∩ Ai .
i∈N i∈N
Isso é exatamente o que querı́amos provar. Assim, mostramos que Mµ é de fato uma σ-álgebra e a
prova da parte I do teorema está completa.
Parte II. Vamos nesta parte II provar que a medida exterior é de fato uma medida quando restrita
aos elementos da σ-álgebra Mµ .
Tudo o que queremos provar é a propriedade seguinte: se Bi , i ∈ N, são elementos disjuntos de Mµ ,
então !
[ X
µ Bi = µ(Bi ) .
i∈N i∈N
Pelo que já vimos na parte I, temos que

∞
!c !
X [
µ(E) ≥ µ(Bi ∩ E) + µ E ∩ Bi
i=1 i∈N
!! !c !
[ [
≥ µ E∩ Bi +µ E ∩ Bi
i∈N i∈N
= µ(E) ,
onde a última igualdade é precisamente a afirmativa que foi provada na parte I. Assim, como µ(E)
aparece no começo e no fim da cadeia de desigualdades, todos os sı́mbolos de “≥” podem ser substituı́dos
por sı́mbolos de igualdade “=” (justifique!). Ou seja, temos que
∞
!c !
X [
µ(E) = µ(Bi ∩ E) + µ E ∩ Bi .
i=1 i∈N
[
Como isso vale para todo E ⊂ X, tomemos, em particular, E = Bi . A última fórmula fica
i∈N
! ∞
[ X
µ Bi = µ(Bi ) ,
i∈N i=1
que é exatamente o que querı́amos provar. Isso completa a prova do Teorema de Caratheodory.
*
No Capı́tulo 21 vamos ilustrar o uso do Teorema de Caratheodory na construção de uma medida
muito importante: a medida de Lebesgue da reta real. O Teorema de Caratheodory pode ser utilizado
em várias outras construções de medidas, as mais notáveis talvez sejam medidas em conjuntos fractais,
conjuntos que não possuem dimensão inteira, tais como o conjunto de Cantor7 , a curva de Koch8 (Fig.
20.1) e outras.
• Uma ilustração elementar do Teorema de Caratheodory
O seguinte exercı́cio-exemplo ilustra o Teorema de Caratheodory.
E. 20.6 Exercı́cio-exemplo. Sejam α, β e γ três objetos distintos (por exemplo, três letras distintas do
alfabeto grego). Seja X = {α, β, γ} e seja

P(X) = ∅, {α}, {β}, {γ}, {α, β}, {α, γ}, {β, γ}, {α, β, γ} .
7
8
Niels Fabian Helge von Koch (1870-1924).
Figura 20.1: A curva de Koch.
Mostre que µ : P(X) → R+ , definida por
µ(∅) = 0 , µ({α}) = 1 , µ({β}) = 1 , µ({γ}) = 2 ,
µ({α, β}) = 1 , µ({α, γ}) = 3 , µ({β, γ}) = 3 , µ({α, β, γ}) = 3
é uma medida exterior em P(X). Podemos, então, nos perguntar: quais conjuntos A ⊂ X têm a propriedade
de Caratheodory
µ(E) = µ(E ∩ A) + µ(E ∩ Ac ) (20.4)
para todo E ∈ P(X)? Mostre explicitamente (ou seja, analisando caso-a-caso) que os elementos de

M = ∅, {γ}, {α, β}, {α, β, γ}
possuem a propriedade (20.4). Mostre agora que
1. Para A = {α} a propriedade (20.4) falha com E = {α, β, γ} e com E = {α, β}.
2. Para A = {β} a propriedade (20.4) falha com E = {α, β, γ} e com E = {α, β}.
3. Para A = {α, γ} a propriedade (20.4) falha com E = {α, β, γ} e com E = {α, β}.
4. Para A = {β, γ} a propriedade (20.4) falha com E = {α, β, γ} e com E = {α, β}.
Assim, apenas os elementos de M, acima, possuem a propriedade de Caratheodory.

Os fatos, garantidos pelo Teorema de Caratheodory, que M é uma σ-álgebra e que µ restrita a M, ou
seja
µ(∅) = 0 , µ({γ}) = 2 , µ({α, β}) = 1 , µ({α, β, γ}) = 3
é uma medida em M, podem agora ser facilmente verificados diretamente e, de fato, já o fizemos no Exercı́cio
E. 20.3, página 1063. 6
• Medidas completas
Uma medida µ em uma σ-álgebra M é dita ser uma medida completa se para todo A ∈ M com a
propriedade que µ(A) = 0 valer que todo B ⊂ A é também elemento de M. Em palavras mais simples,
µ é completa se qualquer subconjunto de um conjunto de medida nula for também mensurável.
Um exemplo de uma medida não-completa é o aquele encontrado no Exercı́cio E. 20.2 da página
1063. Aquela medida não é completa pois {α, β} é um conjunto de medida nula, mas possui sub-
conjuntos, {α} e {β}, que não são elementos de M.
Esse exemplo, ainda que um tanto elementar, ilustra que para uma medida ser completa deve estar
definida em uma σ-álgebra rica o suficiente para poder conter todos os sub-conjuntos dos conjuntos de
medida nula. O Exercı́cio seguinte ilustra isso.
E. 20.7 Exercı́cio. Mostre que a medida definida no Exercı́cio E. 20.4, página 1063, é completa.
Compare com a medida do Exercı́cio E. 20.2, página 1063, em particular, compare as σ-álgebras desses dois
exercı́cios. 6
A medida do Exercı́cio E. 20.3, página 1063, é completa pois lá ∅ é o único conjunto de medida
nula. A razão profunda daquela medida ser completa, porém, está relacionada ao fato, estudado no
Exercı́cio E. 20.6, página 1070, que aquela medida provem de uma medida exterior. Esse é o nosso
próximo assunto.
• Medidas completas e o Teorema de Caratheodory
Mostraremos que qualquer medida construı́da pelo procedimento de Caratheodory, ou seja, a partir
de uma medida exterior, é completa. Isso é o conteúdo do seguinte teorema:
Teorema 20.2 Seja µ uma medida exterior em um conjunto não-vazio X e sejam Mµ e µ a σ-álgebra
e a medida associadas a µ pela construção de Caratheodory. Então, µ é completa, ou seja, se A é
um conjunto µ-mensurável e µ(A) = 0 segue que todo B ⊂ A é também µ-mensurável (um fato não
trivial!) e µ(B) = 0. 2
Prova. Para provar a afirmativa note que, se E ⊂ X e B ⊂ A com A sendo µ-mensurável, então
µ(E ∩ B) ≤ µ(E ∩ A) ≤ µ(A) = µ(A) = 0 , (20.5)
µ(E ∩ B c ∩ A) ≤ µ(A) = µ(A) = 0 , (20.6)
µ(E ∩ A) ≤ µ(A) = µ(A) = 0 , (20.7)
pois E ∩ B c ∩ A e E ∩ A são ambos subconjuntos de A e, para medidas exteriores, vale que se M ⊂ N

então µ(M) ≤ µ(N). Logo,

(20.5)
µ(E ∩ B) + µ(E ∩ B c ) = µ(E ∩ B c )
A é µ-mensurável
= µ(E ∩ B c ∩ Ac ) + µ(E ∩ B c ∩ A)
= µ(E ∩ (B ∪ A)c ) + µ(E ∩ B c ∩ A)

B⊂A
= µ(E ∩ Ac ) + µ(E ∩ B c ∩ A)
(20.6)
= µ(E ∩ Ac )
(20.7)
= µ(E ∩ Ac ) + µ(E ∩ A)
A é µ-mensurável
= µ(E) .
Assim, estabeleceu-se que para todo E ⊂ X vale µ(E) = µ(E ∩ B) + µ(E ∩ B c ) e, portanto, B é
µ-mensurável. O fato que µ(B) = 0 é agora trivial pois B ⊂ A e, portanto, µ(B) ≤ µ(A) = 0.
Nota. Não poderı́amos logo de partida ter concluı́do que µ(B) = 0 do fato que B ⊂ A e, portanto,
µ(B) ≤ µ(A) = 0, pois não estava ainda estabelecido que B era µ-mensurável e que µ(B) estivesse
definido.
A medida de Lebesgue, que construiremos no Capı́tulo 21, é completa, pois é também construı́da
por uma medida exterior, seguindo Caratheodory. Já a medida de Borel-Lebesgue, também tratada
naquele capı́tulo, não é completa.
Capı́tulo 21
A Medida de Lebesgue
Conteúdo
21.1 A Construção da Medida de Lebesgue . . . . . . . . . . . . . . . . . . . . . 1074
21.1.1 A σ-álgebra de Borel em R e a Medida de Borel-Lebesgue . . . . . . . . . . . 1077
21.1.2 A Medida Produto e a Medida de Lebesgue em Rn . . . . . . . . . . . . . . . 1080
21.2 Conjuntos de Cantor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1081
21.3 Bases de Hamel e a Medida de Lebesgue . . . . . . . . . . . . . . . . . . . 1093
A medida de Lebesgue1 em R é o nome dado à medida de comprimento usual de certos subcon-

juntos adequados da reta real. O termo “adequado” é crucial aqui pois, como discutimos no
inı́cio do Capı́tulo 20, não é para qualquer subconjunto de R que o conceito de comprimento
está definido. É, portanto, essencial determinar σ-álgebras para cujos elementos a noção de
comprimento não envolva paradoxos como os que encontramos quando tratamos do comprimento do
conjunto de Vitali (página 1059). Fora isso, desejamos que essa medida de comprimento satisfaça certas
condições adicionais, a mais importante sendo a invariância por translações. Desejamos também que
os intervalos (a, b), [a, b], (a, b] e [a, b) sejam todos mensuráveis e com medida b − a.
Para construir a medida de Lebesgue seguiremos a estratégia sugerida pelo Teorema de Caratheodo-
ry (Teorema 20.1, página 1066): vamos primeiro construir uma medida exterior sobre os subconjuntos
de R que seja conveniente aos nossos propósitos. O Teorema de Caratheodory, então, afirma que
existe uma σ-álgebra Mµ sobre a qual a medida exterior é uma medida. Essa σ-álgebra é denominada
σ-álgebra de Lebesgue e a medida correspondente é denominada medida de Lebesgue.
21.1 A Construção da Medida de Lebesgue

Seja Ia, b o intervalo aberto (a, b) com −∞ < a < b < ∞ e sigamos a convenção que Ia, b = ∅ caso
a = b. Como a e b são finitos, Ia, b é dito ser um intervalo aberto finito. Para cada intervalo desse tipo
definamos o comprimento l(Ia, b ) = b − a ≥ 0. Para duas seqüências de números reais {ai , i ∈ N} e
{bi , i ∈ N} satisfazendo −∞ < ai ≤ bi < ∞ para todo i ∈ N, vamos definir
I{ai }, {bi } := {Iai , bi , i ∈ N} ,
que é uma coleção contável formada por intervalos abertos finitos ou pelo conjunto vazio. O conjunto
de todas as coleções I{ai }, {bi } será denotado por I.
Doravante, para não sobrecarregar a notação, denotaremos as coleções I{ai },{bi } apenas por I, quando
não houver perigo de confusão.
1
1074
Seja I uma coleção contável de intervalos abertos finitos Iai , bi , i ∈ N, como acima. Definamos o
comprimento total L(I) de I por X
L(I) := l(Iai , bi ) .
i∈N
Note que os intervalos Iai , bi podem sobrepor-se. Assim, L(I) é apenas a soma do comprimento dos
intervalos de I, não a medida de comprimento da união de todos os Iai , bi em I.
Seja agora E um sub-conjunto arbitrário de R. Denotemos por IE a coleção
( )
[
IE = I ∈ I, tal que E ⊂ Iai , bi com Iai , bi ∈ I .
i∈N
Em palavras, IE é a coleção de todas as coleções de intervalos abertos (ou conjunto vazio) cuja união
contém E. Se I ∈ IE , dizemos que a coleção de intervalos I “cobre” E.
Definamos então
µL (E) := inf L(I) . (21.1)
I∈IE
Vamos provar que µL é uma medida exterior.

Em primeiro lugar, é fácil ver pela definição que µL(∅) =[0. Em segundo lugar, se A ⊂ B então
IB ⊂ IA pois se uma coleção de intervalos I é tal que B ⊂ Iai , bi com Iai , bi ∈ I então obviamente
[ i∈N
A⊂ Iai , bi pois A ⊂ B. Portanto, µL (A) ≤ µL (B) dado que
i∈N
inf L(I) ≤ inf L(I) ,

I∈IA I∈IB
pois IB ⊂ IA (é claro para você a razão disso?).

!
[ X
Falta-nos apenas provar que µL Ai ≤ µL (Ai ) onde Ai são subconjuntos de R. Observemos
i∈N i∈N
em primeiro lugar o seguinte. Seja A um subconjunto qualquer da reta real e seja o conjunto IA de
todas as coleções contáveis de intervalos cuja união contém A. Afirmamos que, para qualquer número
real positivo r dado podemos encontrar pelo menos uma coleção I em IA tal que L(I) = µL (A) + r.
Provar isso é simples. Se pela definição µL (A) = inf L(I) então para qualquer δ > 0 deve haver
I∈IA
uma coleção Iδ ∈ IA tal que L(Iδ ) − µL (A) < δ. Vamos escolher δ < r e consideremos a coleção
I′ = Iδ ∪ {(−a, a)}, onde
r − L(Iδ ) + µL (A)
a = .
2
Como L(Iδ ) − µL(A) < δ e r > δ, temos que a > 0. Fora isso é óbvio que I′ ∈ IA , pois se a coleção Iδ
já cobre A então I′ também deve fazê-lo. Finalmente, é claro pela construção que
L(I′ ) = L(Iδ ) + l((−a, a)) = L(Iδ ) + r − L(Iδ ) + µL (A) = µL (A) + r .
Isto posto, seja para cada b ∈ N a coleção de intervalos Ib ∈ IAb tal que
ǫ
L(Ib ) = µL (Ab ) +
2b
[
para ǫ > 0. A coleção J = Ib é também uma coleção contável de intervalos que cobrem o conjunto
[ b∈N
Ai . Fora isso,
i∈N
∞
X ǫ X
L(J) = µL (Ab ) + b = µL (Ab ) + ǫ . (21.2)
b=1
2 b∈N
[
Como J cobre Ai , segue que
i∈N
!
[ X
µL Ai ≤ L(J) = µL (Ab ) + ǫ .
i∈N b∈N
Como isso vale para qualquer ǫ > 0, segue que

!
[ X
µL Ai ≤ µL (Ab ) .
i∈N b∈N
Isso completa então a prova que µL é uma medida exterior.

Com isso em mãos, temos agora permissão para evocar o Teorema de Caratheodory e afirmar que
a coleção MµL formada por todos os subconjuntos A de X que tenham a propriedade que para todo
E ⊂ X vale que
µL(E) = µL (E ∩ A) + µL (E ∩ Ac ) ,
é uma σ-álgebra e que µL é uma medida em MµL , que denotaremos por µL . A medida µL assim definida
é chamada de medida de Lebesgue e MµL é chamada de σ-álgebra de Lebesgue. Os elementos de MµL
são chamados de conjuntos mensuráveis por Lebesgue.
Antes de mostrarmos que a coleção MµL é de fato não-trivial (um fato que não é óbvio até aqui), o
que faremos na Seção 21.1.1, vamos exibir duas propriedades básicas da medida de Lebesgue: invariância
por translações e regularidade.
• Invariância de µL por translações
A medida e Lebesgue da reta real satisfaz um requerimento básico associado à noção usual de
comprimento de conjuntos da reta real: invariância por translações. Mais precisamente, tem-se que
para todo A ∈ MµL e todo x ∈ R o conjunto transladado Ax é também elemento de MµL e tem-se
µL (Ax ) = µL (A). A demonstração desses fatos é simples e é deixada como exercı́cio ao estudante.
E. 21.1 Exercı́cio. Prove que para todo A ∈ MµL e todo x ∈ R tem-se Ax ∈ MµL e que µL(Ax ) =
µL (A). Sugestão: Prove primeiro que para todo E ⊂ R e todo x ∈ R tem-se µL (Ex ) = µL (E). Para isso,
use a definição (21.1) e o fato evidente que l(Ia+x, b+x ) = l(Ia, b ). Em seguida, use esse fato para mostrar
que se A é mensurável por Lebesgue então Ax também o é (para qualquer x ∈ R), ou seja, mostre que se
µL (E) = µL (E ∩ A) + µL (E ∩ Ac ) para todo E ⊂ R então µL (E) = µL (E ∩ Ax ) + µL (E ∩ Acx ) para todo
E ⊂ R. Conclua dos fatos acima que µL (Ax ) = µL (A) para todo A ∈ MµL e todo x ∈ R. 6
• Regularidade de µL
A medida µL possui as seguintes propriedades. Para todo B ∈ MµL vale
µL (B) = sup{µL (C), C compacto com C ⊂ B} (regularidade interior) ,

(21.3)
µL (B) = inf{µL(A), A aberto com A ⊃ B} (regularidade exterior) .
Aqui, a topologia considerada é a topologia usual de R, τR .

As propriedades acima são também válidas em Rn . Não apresentaremos as demonstrações aqui e
o leitor poderá encontrá-las nos bons livros. Mencionamos que as propriedades de regularidade acima
são importantes em vários desenvolvimentos.
Uma questão muito importante agora é saber se MµL não é uma σ-álgebra trivial e se certos conjun-
tos “razoáveis”, tais como intervalos abertos, fechados e semi-abertos, são mensuráveis por Lebesgue.
A resposta a esta questão é dada na próxima seção, onde discutiremos a relação entre a σ-álgebra de
Lebesgue em R e a σ-álgebra de Borel.
21.1.1 A σ-álgebra de Borel em R e a Medida de Borel-Lebesgue

A chamada σ-álgebra de Borel2 em R é, por definição, a menor σ-álgebra que contém a topologia usual
de R, τR . Ou seja, é a σ-álgebra M[τR ] gerada pela topologia τR . Vide definição à página 1041. Como
veremos, essa σ-álgebra está relacionada à σ-álgebra de Lebesgue definida acima, sendo um subconjunto
da mesma (vide abaixo). Historicamente essa relação foi estudada por Hausdorff, que provou também
que a cardinalidade de M[τR ] é a de R, enquanto que a de MµL é maior.
Vamos primeiramente mostrar que qualquer intervalo aberto (a, b) é um elemento da σ-álgebra
MµL . Sem perda de generalidade, vamos considerar o intervalo aberto I = (0, 1). Tudo o que queremos
provar é que, para todo E ⊂ R, tem-se µL (E) = µL (I ∩ E) + µL (I c ∩ E). Como E = (I ∩ E) ∪ (I c ∩ E)
temos sempre que µL (E) ≤ µL (I ∩ E) + µL(I c ∩ E), pela propriedade 3 da definição de medida exterior.
Desejamos então provar que também vale µL (E) ≥ µL (I ∩ E) + µL (I c ∩ E).
Vamos aqui adotar a seguinte convenção. Se A é uma união finita de intervalos disjuntos: A =
I1 ∪ · · · ∪ In , então definimos l(A) := l(I1 ) + · · · + l(In ). Para três conjuntos A, B e C quaisquer
formados por uniões finitas de intervalos disjuntos temos sempre que
l(A ∪ B ∪ C) = l(A) + l(B) + l(C) − l(A ∩ B) − l(A ∩ C) − l(B ∩ C) + l(A ∩ B ∩ C) . (21.4)
E. 21.2 Exercı́cio. Prove isso. Sugestão: verifique primeiro que, se A′ e C são uniões finitas de intervalos
disjuntos, vale que sempre que l(A′ ∪ C) = l(A′ ) + l(C) − l(A′ ∩ C) e então adote A′ = A ∪ B para dois
conjuntos A e B, também formados por uniões finitas de intervalos disjuntos. 6
2
Seja I ∈ IE uma coleção [

contável de intervalos abertos finitos cuja união cobre E: I = {Ij , j ∈
N, Ij = (ai , bi )} com E ⊂ Ij . Fixemos um ǫ com 0 < ǫ < 1 e definamos, para todo j ∈ N, os
j∈N
intervalos
ǫ ǫ
Jj := Ij ∩ I , Kj := Ij ∩ −∞, j , Kj′ := Ij ∩ 1 − j , ∞ .
2 2
Como Ij = Jj ∪ Kj ∪ Kj′ , segue por (21.4) que
l(Ij ) = l(Jj ) + l(Kj ) + l(Kj′ ) − l(Jj ∩ Kj ) − l(Jj ∩ Kj′ ) ,
pois Kj ∩ Kj′ = ∅. Como Jj ∩ Kj = Ij ∩ (0, ǫ/2j ) e Jj ∩ Kj′ = Ij ∩ (1 − ǫ/2j , 1) temos l(Jj ∩ Kj ) ≤ ǫ/2j
e l(Jj ∩ Kj′ ) ≤ ǫ/2j .
Assim,
ǫ
l(Ij ) ≥ l(Jj ) + l(Kj ) + l(Kj′ ) − .
2j−1
Defina agora
J := {Jj , j ∈ N} , e K := {Kj , j ∈ N} ∪ {Kj′ , j ∈ N} . (21.5)
Pelas desigualdades acima sobre l(Jj ) e l(Kj ), temos
L(I) ≥ L(J) + L(K) − 2ǫ . (21.6)
Por outro lado, temos que a coleção de intervalos J cobre E ∩ I e K cobre E ∩ I c (por que?). Daı́
L(J) ≥ µL (E ∩ I) e L(K) ≥ µL (E ∩ I c ). Logo, (21.6) diz que
L(I) ≥ µL (E ∩ I) + µL (E ∩ I c ) − 2ǫ . (21.7)
Pela definição da medida exterior µL , sempre podemos escolher I de forma que L(I) ≤ µL (E) + ǫ (está
claro para você o porquê disso?). Assim,
µL (E) ≥ µL (E ∩ I) + µL(E ∩ I c ) − 3ǫ . (21.8)
Como essa desigualdade vale para todo ǫ com 0 < ǫ < 1, segue que
µL (E) ≥ µL (E ∩ I) + µL(E ∩ I c ) .
Isso é o que querı́amos provar, pois implica então que
µL (E) = µL (E ∩ I) + µL (E ∩ I c ) ,
que afirma que I é um conjunto mensurável por Lebesgue, de acordo com a definição de Caratheodory.
A demonstração acima não vale somente para o intervalo I = (0, 1), mas pode ser repetida para
todo intervalo aberto finito (a, b) com −∞ < a < b < ∞. Em verdade, uma simples inspeção mostra
que a mesma demonstração pode ser repetida para intervalos finitos como [a, b], [a, b) ou (a, b]. Sem
surpresa, verifica-se que µL ((a, b)) = b − a etc.
Isso tem a seguinte conseqüência: como MµL é uma σ-álgebra, MµL deverá conter todo conjunto
que puder ser escrito como uma união contável de intervalos abertos finitos. Vimos, quando mostramos
que τR é separável, que qualquer aberto da topologia usual pode ser escrito como uma união contável
de intervalos abertos finitos B(r, s) com r, s ∈ Q e s > 0. Portanto temos que τR ⊂ MµL , de onde
segue que
M[τR ] ⊂ MµL . (21.9)
Um fato importante, mas que não provaremos com todos os detalhes aqui, é que a σ-álgebra de
Borel M[τR ] é um subconjunto próprio3 de MµL , ou seja, que há conjuntos que são mensuráveis de
Lebesgue mas que não são elementos da σ-álgebra de Borel. Exemplos não são fáceis de exibir, mas
uma classe deles será discutido na Seção 21.3, página 1093. Para discutirmos o fato de que a σ-álgebra
de Borel M[τR ] é um subconjunto próprio de MµL façamos primeiro notar o seguinte resultado (que,
ademais, tem importância por si só):
Proposição 21.1 A medida de Lebesgue µL é completa. Ou seja, se A é um conjunto mensurável por
Lebesgue e µL (A) = 0 então todo B ⊂ A é também mensurável de Lebesgue (um fato não trivial!) e
µL (B) = 0 4 . 2
Essa proposição é um mero corolário do Teorema 20.2, página 1072.

Como veremos quando discutirmos o chamado conjunto de Cantor, há conjuntos na σ-álgebra de
Lebesgue que são não-contáveis, têm a cardinalidade de R e têm medida de Lebesgue nula. Como
vimos, todos os subconjuntos de tais conjuntos são também mensuráveis e, portanto, a coleção de
todos esses subconjuntos tem a cardinalidade de P(R) (que é maior que a de R). Entretanto, sabe-se
(por um teorema de Hausdorff) que M[τR ] tem a cardinalidade de R e portanto M[τR ] deve ser um
subconjunto próprio de MµL .
Dada a relação (21.9) podemos considerar a restrição da medida de Lebesgue à σ-álgebra de Borel
M[τR ]. Essa restrição da medida de Lebesgue é denominada medida de Borel-Lebesgue. É importante
notar que a maioria dos resultados importantes da Análise, especialmente da teoria de integração,
pode ser obtida considerando-se apenas a medida de Borel-Lebesgue e muitos autores preferem tratá-la
preferencialmente à medida de Lebesgue. A medida de Borel-Lebesgue não é completa.
• Conjuntos contáveis da reta real têm medida de Lebesgue nula
É bastante fácil de ser ver pela definição que se a ∈ R então µL ({a}) = 0, ou seja, a medida de
Lebesgue de um conjunto constituı́do por apenas um ponto é nula. Pela aditividade da medida, é
evidente daı́ também que a medida de Lebesgue de qualquer sub-conjunto finito de R é igualmente
nula, pois se {a1 , . . . , an } ⊂ R é um conjunto com n elementos distintos, tem-se
µL ({a1 , . . . , an }) = µL ({a1 } ∪ · · · ∪ {an }) = µL ({a1 }) + · · · + µL ({an }) = 0 ,
pois µL ({ak }) = 0, ∀k ∈ {1, . . . , n}.
Da mesma forma, pela aditividade contável (relação (20.2), página 1062), verifica-se que a medida
de Lebesgue de qualquer sub-conjunto contável da reta é nula. De fato, se {an ∈ R| n ∈ N} ⊂ R é
3
Aos estudantes: um conjunto A é dito ser um sub-conjunto próprio de um conjunto B se A ⊂ B mas A 6= B.
4
Isso vale também para conjuntos mensuráveis de Lebesgue em Rn .
contável, com todos os ak distintos, tem-se

!
[ X
µL {an ∈ R| n ∈ N } = µL {an } = µL {an } = 0,
n∈N n∈N

também pois µL {ak } = 0, ∀ k ∈ N. Assim, concluı́mos, por exemplo, que o conjunto Q dos números
racionais e o conjunto A0 dos números algébricos são conjuntos de medida de Lebesgue nula.
Um ponto que não pode deixar mencionado é que há também sub-conjuntos não-enumeráveis de
R que também têm medida de Lebesgue nula. Veremos exemplos quando tratarmos dos chamados
conjuntos de Cantor na Seção 21.2, página 1081.
• Quase em toda parte
Se X é um conjunto no qual está definida uma medida µ, uma afirmação a respeito dos elementos
de X que for falsa apenas em um conjunto de medida µ nula é dita valer quase em toda a parte em
relação a µ, ou µ-quase em toda parte. Abreviadamente, escreve-se também q.t.p. ou µ-q.t.p.5 Nesse
espı́rito, dizemos que, em relação à medida de Lebesgue, quase todo número real é irracional, pois só
não são irracionais os números racionais, que formam um conjunto de medida nula. Analogamente, em
relação à medida de Lebesgue, quase todo número é transcendente.
21.1.2 A Medida Produto e a Medida de Lebesgue em Rn

Vamos aqui discutir uma construção geral de um espaço de medida em um espaço produto. Seja X um
conjunto com uma σ-álgebra M e uma medida µ e seja também Y um conjunto com uma σ-álgebra N
e uma medida ν. Considere o espaço produto Z = X × Y . Podemos construir em Z uma σ-álgebra e
uma medida da seguinte forma. Seja E um subconjunto arbitrário de Z e seja E a coleção de todas as
coleções da forma da forma C = {Ai × Bi , i ∈ N} com Ai ∈ M e Bi ∈ N e tais que
[
E ⊂ Ai × Bi .
i∈N
Defina para cada coleção C dessa forma a grandeza

X
m(C) = µ(Ai )ν(Bi ).
i∈N
Seja então
ω(E) = inf m(C) .
C∈E
E. 21.3 Exercı́cio. Mostre que ω é uma medida exterior em Z. 6
Com o resultado do último exercı́cio e com o teorema de Caratheodory podemos construir uma
σ-álgebra Mω em Z com uma medida µ que é denominada medida produto de µ com ν.
Com esta construção podemos definir a medida produto da medida de Lebesgue em espaços Rn .
5
Em lı́ngua inglesa usa-se a.e.: “almost everywhere”.
21.2 Conjuntos de Cantor
• O conjunto de Cantor ternário
Dentre os subconjuntos mais interessantes e curiosos da reta real encontram-se os chamados con-
juntos de Cantor6 . Há vários tipos de conjuntos ditos de Cantor (para uma definição técnica geral,
vide página 1199). Iremos aqui apresentar alguns deles, começando pelo mais simples e tradicional, o
chamado conjunto de Cantor ternário, C1/3 , o qual será primeiramente definido de maneira informal.
Em seguida trataremos de modo mais preciso do mesmo, junto com suas generalizações.
O conjunto de Cantor ternário C1/3 é informalmente definido da seguinte forma. Começamos com o
conjunto fechado T0 = [0, 1] do qual subtraı́mos o conjunto aberto (1/3, 2/3) que consiste do conjunto
aberto de largura 1/3 da largura de T0 situado bem no meio de T0 . O que se obtemos é o conjunto
fechado T1 = [0, 1/3] ∪ [2/3, 1], formado pela união de dois intervalos fechados disjuntos. Em seguida,
subtraı́mos de cada um desses intervalos fechados os conjuntos abertos situados no meio de ambos e
cuja largura é 1/3 da largura de cada um desses intervalos. Esses abertos serão (1/9, 2/9) para o
intervalo [0, 1/3] e (7/9, 8/9) para o intervalo [2/3, 1]. O que resulta disso é o conjunto fechado
T2 = [0, 1/9] ∪ [2/9, 1/3] ∪ [2/3, 7/9] ∪ [8/9, 1]. O passo seguinte repete os anteriores: subtraı́mos de
cada um desses intervalos fechados os conjuntos abertos situados no meio de ambos e cuja largura é
1/3 da largura de cada um desses intervalos.
O processo é ilustrado na Figura 21.1. A linha de cima ilustra os intervalos abertos que vão sendo
sucessivamente subtraı́dos do intervalo fechado T0 = [0, 1] e a linha de baixo os vários intervalos
fechados que resultam dessa subtração. O primeiro conjunto aberto subtraı́do é (1/3, 2/3), indicado
por 1 na figura. O segundo conjunto aberto subtraı́do é (1/9, 2/9) ∪ (7/9, 8/9), indicado por 2 na
figura, e assim por diante.
O conjunto de Cantor C1/3 é o conjunto que resulta desse processo após infinitos passos. C1/3 não é
vazio, pois os pontos situados nas bordas dos intervalos fechados que vão sendo sucessivamente produzi-
dos sobrevivem ao processo de subtração. Isso se vê na Figura 21.1, pois os conjunto {0, 1}, que forma
a borda de T0 , surge novamente em T1 , T2 , T3 etc., assim como o conjunto {0, 1/3, 2/3, 1}, que forma a
borda de T1 , surge novamente em T2 , T3 etc., e como o conjunto {0, 1/9, 2/9, 1/3, 2/3, 7/9, 8/9, 1},
que forma a borda de T2 , surge novamente em T3 etc. C1/3 é um conjunto fechado por ser o comple-
mento em [0, 1] de uma união de abertos (aqueles que vão sendo sucessivamente subtraı́dos). Outra
forma de ver isso é notar que T1 ⊃ T2 ⊃ T3 ⊃ T4 ⊃ · · · , ou seja, Tm ⊂ Tn para todos m > n, o que nos
leva a concluir que
∞
\
C1/3 = Tn . (21.10)
n=0
Como se sabe, uma intersecção de fechados é também um fechado.

Um aspecto um tanto surpreendente sobre C1/3 é que seu interior é vazio, ou seja, C1/3 não contém
nenhum aberto. Isso segue do fato que intervalos fechados que formam os conjuntos Tn têm, cada
um, largura (1/3)n e, portanto, seu interior vai “diminuindo” a medida que n cresce. A afirmação que
C1/3 não contém nenhum aberto pode ser provada da seguinte forma. Se C1/3 contivesse um aberto,
conteria algum intervalo aberto (a, b) (por que? Lembre-se da definição de conjuntos abertos em
6
3 2 3 1 3 2 3
1/27 2/27 7/27 8/27 19/27 20/27 25/27 26/27
( ) ( ) ( ) ( ) ( ) ( ) ( )
1/9 2/9 1/3 2/3 7/9 8/9
0 1
0 1/3 2/3 1
T1 [ ] [ ]
0 1/9 2/9 1/3 2/3 7/9 8/9 1
T2 [ ] [ ] [ ] [ ]
0 1/27 2/27 1/9 2/9 7/27 8/27 1/3 2/3 19/27 20/27 7/9 8/9 25/27 26/27 1
T3 [ ] [ ] [ ] [ ] [ ] [ ] [ ] [ ]
Figura 21.1: As três primeiras etapas da construção do conjunto de Cantor ternário C1/3 .
espaços métricos). Assim, (a, b) = (a, b) ∩ C1/3 . Por (21.10), terı́amos

! ∞
∞
\ \
(a, b) = (a, b) ∩ C1/3 = (a, b) ∩ Tn = (a, b) ∩ Tn . (21.11)
n=0 n=0
Agora, para todo n grande o suficiente tal que (1/3)n < b−a, os conjuntos (a, b)∩Tn são sub-conjuntos
próprios7 de (a, b), pois cada intervalo fechado que compõe Tn tem largura (1/3)n . Portanto, o lado
direito de (21.11) é um sub-conjunto próprio de (a, b) e a igualdade em (21.11) passa a ser absurda.
Um conjunto com a propriedade de não conter nenhum aberto é dito ser um conjunto denso em
parte alguma (para tais definições, vide Seção 24.1).
Por ser fechado, C1/3 é um conjunto mensurável por Lebesgue, ou seja, possui um comprimento.
Um ponto importante é determinar a medida de Lebesgue de C1/3 . É fácil perceber que µL (Tn+1 ) =
(2/3)µL (Tn ), pois a cada etapa é eliminado um terço dos intervalos fechados de Tn . Assim, como
µL (T0 ) = 1, segue que µL (Tn ) = (2/3)n . Daı́8 µL (C1/3 ) = limn→∞ µL (Tn ) = limn→∞ (2/3)n = 0, ou seja,
o conjunto ternário de Cantor C1/3 é um conjunto de medida de Lebesgue nula.
• A cardinalidade de C1/3
Um outro fato importante sobre C1/3 é que o mesmo tem a cardinalidade de R, sendo, portanto,
um exemplo de um conjunto não-contável de medida de Lebesgue nula. Vamos mostrar isso e, para
tal, começaremos provando que C1/3 não é contável.
7
Aos estudantes: um conjunto A é dito ser um sub-conjunto próprio de um conjunto B se A ⊂ B mas A 6= B.
8
O por quê de valer µL (C1/3 ) = limn→∞ µL (Tn ) é intuitivo, mas será justificado com base em uma propriedade geral
de medidas ao discutirmos sua generalização, a equação (21.19), página 1088.
Para provar que C1/3 não é contável, demonstremos a seguinte afirmação, que apresentamos para
futura referência na forma de uma proposição. Essa proposição equivale a uma outra caracterização de
C1/3 (de fato, alguns autores definem C1/3 dessa forma):
Proposição 21.2 C1/3 é o subconjunto de [0, 1] composto por todos os números c que podem ser
X∞
tn
escritos na forma c = , sendo que cada tn pode apenas assumir os valores 0 ou 2. Isso equivale
n=1
3n
a dizer que c ∈ C1/3 se e somente se for representado na base ternária na forma c = 0, t1 t2 t3 t4 . . . onde
cada “dı́gito” tn vale ou 0 ou 2. 2
Antes de entrar na prova dessa proposição, recomendamos ao estudante o seguinte exercı́cio.
E. 21.4 Exercı́cio. Sabemos que 1/3 pertence a C1/3 . Esse número pode ser representado na base
ternária por 0, 1, o que parece contradizer o que afirmamos acima sobre os elementos de C1/3 . Porém, essa
não é a única forma de representar 1/3. Mostre que na base ternária 1/3 também pode ser escrito como
0, 0222222 . . .. 6
Prova da Proposição 21.2. Tentemos localizar onde, no intervalo [0, 1], encontram-se os números cujo
n-ésimo “dı́gito” na base ternária é 1, sendo que entre os seguintes pelo menos um é não-nulo. Tais
números são da forma 0, t1 · · · tn−1 1tn+1 . . ., sendo que pelo menos um dos tm com m ≥ n+1 é não-nulo.
Alguns segundos de meditação nos levam a concluir que esses números encontram-se no intervalo aberto
situado entre 0, t1 · · · tn−1 1 e 0, t1 · · · tn−1 2, ou seja, em ( 0, t1 · · · tn−1 1, 0, t1 · · · tn−1 2 ). Agora,
1 2
0, t1 · · · tn−1 1 = 0, t1 · · · tn−1 + e 0, t1 · · · tn−1 2 = 0, t1 · · · tn−1 + .
3n 3n

1 2
Assim, o intervalo ( 0, t1 , · · · tn−1 1, 0, t1 · · · tn−1 2 ) é o intervalo n
, n transladado de 0, t1 · · · tn−1 .
3 3

1 2
Observe-se, então, que esse intervalo , é um dos intervalo abertos subtraı́do de Tn−1
3n 3n
quando do processo de construção do conjunto C1/3 , a saber, o mais próximo de 0 (vide Figura 21.1).
1 2
Devemos então nos perguntar: quais são os outros intervalos obtidos transladando n
, n por
3 3
todos números da forma 0, t1 · · · tn−1 ? Como todos os números da forma 0, t1 · · · tn−1 podem ser obti-
1
dos somando repetidamente o número n−1 (certo?) concluı́mos que os intervalos podem ser obtidos
3
1 2 1
transladando-se , sucessivamente por à direita. Mais uma curta meditação nos leva
3n 3n 3n−1
a concluir que os intervalos assim obtidos ou são precisamente aqueles subtraı́dos de Tn−1 quando do
processo de construção do conjunto C1/3 ou estão contidos nos intervalos subtraı́dos anteriormente dos
conjuntos Tm com m < n − 1.
Concluı́mos, assim, que os números da forma 0, t1 · · · tn−1 1tn+1 . . ., sendo que pelo menos um dos
tm com m ≥ n + 1 é não-nulo, não pertencem a C1/3 .
O que fizemos não exclui ainda de C1/3 números que sejam da forma 0, t1 · · · tn−1 1, com tj ∈ {0, 2},
j = 1, . . . , n − 1. Tais números também pertencem a C1/3 , pois formam uma das bordas de alguns
conjuntos abertos ( 0, t1 , · · · tn−1 1, 0, t1 · · · tn−1 2 ) que tratamos acima. Porém, o Exercı́cio E. 21.4,
acima, nos ensina que tais números podem ser também representados como 0, t1 · · · tn−1 022222 . . ., com
o n-ésimo dı́gito igual a 0 seguido de infinitos 2’s.
Com isso a prova da Proposição 21.2 está concluı́da.
A afirmação da Proposição 21.2 conduz diretamente à conclusão que C1/3 não é enumerável. Por
aquela proposição, todo c ∈ C1/3 é (fatorando o número 2) da forma c = 2×0, d1d2 d3 . . . com dn ∈ {0, 1}
para todo n. Assim, a demonstração que C1/3 não é enumerável é, mutatis mutantis, idêntica à
demonstração que R não é contável fornecida no Capı́tulo 1 na prova do Teorema 1.3, página 40.
Deixamos os detalhes como exercı́cio.
E. 21.6 Exercı́cio. Faça-o! 6
E. 21.7 Exercı́cio. Mostre que 1/4 e 1/13 pertencem a C1/3 pois, na base ternária, 1/4 pode ser
representado como 0, 02020202 . . . e 1/13 como 0, 002002002002 . . .. Note que 1/4 e 1/13 não pertencem
à borda de nenhum Tn ! 6
O seguinte fato será usado em outros lugares.

Lema 21.1 Todo elemento x ∈ [0, 1] pode ser escrito na forma x = c1 + c2 /2 com c1 , c2 ∈ C1/3 . 2
X∞
tn
Prova. Todo elemento x ∈ [0, 1] pode ser representado na forma x = n
, onde tn ∈ {0, 1, 2}
n=1
3
(representação na base ternária). A soma acima pode ser quebrada em duas, uma contendo apenas
X tn 1 X 2
termos onde cada tn vale 0 ou 2 e outra onde tn = 1: x = + , onde Nx := {n| tn ∈
3n 2 3n
n∈Nx n6∈Nx
{0, 2}}. Agora, os elementos de C1/3 são precisamente aqueles cujos dı́gitos na representação na base
ternária são 0 ou 2 (Proposição 21.2). Logo, vimos que todo x ∈ [0, 1] pode ser escrito na forma
x = c1 + c2 /2, com c1 , c2 ∈ C1/3 .
Chegamos agora à
Proposição 21.3 C1/3 tem a cardinalidade de R. 2
Prova. Pelo Lema 21.1 todo elemento x ∈ [0, 1] pode ser escrito como x = c1 + c2 /2 com c1 , c2 ∈ C1/3 .
Isso mostra que [0, 1] (e, portanto, R) tem a cardinalidade de um subconjunto de C1/3 × C1/3 , cuja
cardinalidade é menor ou igual a de R2 que, por sua vez, tem a cardinalidade de R (Proposição 1.8,
página 42). Logo C1/3 × C1/3 tem a cardinalidade de R. Paralelamente, o mesmo argumento usado na
prova da Proposição 1.8 conduz à conclusão que C1/3 e C1/3 × C1/3 têm a mesma cardinalidade. Isso
completa a prova.
• O conjunto de Cantor ternário é denso em si mesmo e totalmente desconexo
Vamos provar agora que o conjunto de Cantor ternário é denso em si mesmo e totalmente desconexo.
Para as definições e fatos básicos que usaremos, recomenda-se a leitura prévia da Seção 24.1, página
1194.
Para mostrar que C1/3 é um conjunto denso em si mesmo, sejam c, c′ ∈ C1/3 e que, portanto,
tenham representações em base ternária 0, c1c2 c3 . . . e 0, c′1 c′2 c′3 . . ., respectivamente, com cn , c′n ∈ {0, 2}
para todo n (Proposição 21.2). Então, se os primeiros m dı́gitos de c e c′ forem idênticos, teremos
|c − c′ | ≤ 2/3m . Escolhendo m grande o suficiente isso pode ser feito menor que qualquer ǫ > 0 dado.
Isso mostra que qualquer aberto contendo c ∈ C1/3 contém outros elementos de C1/3 diferentes de c,
provando que C1/3 é um conjunto denso em si mesmo.
O mesmo tipo de argumento também mostra que arbitrariamente próximo a qualquer elemento
c ∈ C1/3 há elementos que não pertencem a C1/3 . Se c tem a representação ternária 0, c1 c2 c3 . . .,
escolhamos x ∈ [0, 1] da seguinte forma: seus m primeiros dı́gitos são iguais ao de c, o m-ésimo dı́gito
de x é 1 e dentre os seguintes pelo menos um é não-nulo. Um tal x não pertence a C1/3 , mas a distância
do mesmo a c é menor que 2/3m . Essa distância, porém, pode ser feita menor que qualquer ǫ > 0 dado,
se escolhermos m grande o suficiente.
É fácil de se ver que C1/3 é um sub-conjunto desconexo de R na topologia τR , pois um par de
abertos como A1 = (−1, 1/2) e A2 = (1/2, 2) desconecta C1/3 (verifique!). Pelo que acabamos de ver,
dados c, c′ ∈ C1/3 com c < c′ , existe x 6∈ C1/3 tal que c < x < c′ . Assim, os abertos A1, x = (−1, x)
e A2, x = (x, 2) também desconectam C1/3 . Dessa forma, não existe nenhum sub-conjunto conexo de
C1/3 que contenha c e c′ (um tal conjunto seria desconectado pelos abertos A1, x e A2, x ). Logo, c e
c′ pertencem a componentes conexas distintas. Como isso vale para todos c e c′ em C1/3 com c < c′ ,
concluı́mos que as componentes conexas de C1/3 possuem exatamente um elemento. Isso significa que
C1/3 é totalmente desconexo, como querı́amos mostrar.
Em resumo, concluı́mos que C1/3 é um sub-conjunto fechado e limitado de R, mensurável de Lebes-

gue, não-contável, com a cardinalidade de R, denso em parte alguma, denso em si mesmo e totalmente
desconexo. Pelo fato de C1/3 ser fechado e limitado, C1/3 é um conjunto compacto (pelo Teorema de
Heine-Borel, Teorema 24.9, página 1216). Pelo fato de C1/3 ser fechado e denso em si mesmo, C1/3 é
um conjunto perfeito. Por ser também totalmente desconexo, C1/3 é um conjunto de Cantor segundo
a definição geral da Seção 24.1, página 1194.
• Mais exemplos de conjuntos de Cantor
Vamos agora generalizar e formalizar as idéias desenvolvidas na construção de C1/3 e construir

outros conjuntos semelhantes.
Diremos que um intervalo fechado [a, b] é finito se −∞ < a < b < ∞. Note que excluı́mos a = b.
Denotaremos por F0 a coleção de todos os sub-conjuntos da reta real que sejam formados por uniões
finitas de intervalos fechados finitos e disjuntos. Assim, se F ∈ F0 , então F é da forma
F = F1 ∪ · · · ∪ Fk
para algum k ∈ N, k ≥ 1, onde cada Fj é um intervalo fechado finito Fj = [aj , bj ] com −∞ < aj <
bj < ∞ e onde os Fj ’s são disjuntos dois-a-dois, ou seja, Fi ∩ Fj = ∅ caso i 6= j.
Por ser uma união finita de fechados, cada elemento de F0 é também um conjunto fechado.
Seja f ∈ R tal que 0 < f < 1. Denominaremos um tal f uma fração9 . Para cada fração f
definiremos uma aplicação Tf : F0 → F0 da seguinte forma: Para um intervalo finito F = [a, b]
definimos

a(1 + f ) + b(1 − f ) [ a(1 − f ) + b(1 + f )
Tf (F ) = Tf ([a, b]) := a, , b . (21.12)
2 2
Para um elemento genérico F = F1 ∪ · · · ∪ Fk de F0 , definimos
Tf (F) = Tf (F1 ∪ · · · ∪ Fk ) := Tf (F1 ) ∪ · · · ∪ Tf (Fk ) . (21.13)
Note que para 0 < f < 1 tem-se
a(1 + f ) + b(1 − f ) a(1 − f ) + b(1 + f )

a < < <b.
2 2
Portanto, para todo intervalo finito F , tem-se
Tf (F ) ⊂ F .
Em verdade, Tf (F ) é um sub-conjunto próprio de F . Segue facilmente disso que, para todo F ∈ F0 ,
Tf (F) ⊂ F .
E. 21.8 Exercı́cio. Verifique todas as afirmações acima. 6
Qual a interpretação geométrica de Tf ? Para isso, vamos descrever o que é Tf ([a, b]). Esse conjunto
é obtido subtraindo-se do intervalo fechado finito [a, b] o conjunto aberto de largura f (b − a) centrado
no ponto a+b 2
, que fica bem no centro de [a, b]. Como é fácil ver, esse intervalo aberto é

a + b f (b − a) a + b f (b − a) a(1 + f ) + b(1 − f ) a(1 − f ) + b(1 + f )
− , + = , .
2 2 2 2 2 2
Assim,
a(1 + f ) + b(1 − f ) a(1 − f ) + b(1 + f )
Tf ([a, b]) = [a, b] \ , .
2 2
Operando em F = F1 ∪ · · · ∪ Fk , a operação Tf subtrai de cada Fj o intervalo aberto de largura f
centrado no ponto intermediário de Fj .
É importante notar que se F ∈ F0 é composto por k intervalos fechados finitos disjuntos então,
Tf (F) é composto por 2k intervalos fechados finitos disjuntos.
9
Excluı́mos os casos f = 0 e f = 1 pois, como poder-se-á constatar, eles levam a situações triviais
Como Tf é uma aplicação de F0 em F0 , podemos compor Tf consigo mesma. Denotamos, para

n ∈ N,
Tfn ≡ Tf ◦ · · · ◦ Tf .
| {z }
n vezes
Com isso, se F é um intervalo fechado finito, Tfn (F ) é um elemento de F0 composto por 2n intervalos
fechados finitos disjuntos, todos eles contidos em F .
Para o que segue é muito importante determinarmos a medida de Lebesgue dos conjuntos Tfn (F ),
que vem a ser a soma dos comprimentos dos 2n intervalos fechados finitos disjuntos que o compõe. Para
isso, é importante ver que se F = [a, b], então

a(1 + f ) + b(1 − f ) [ a(1 − f ) + b(1 + f )
µL (Tf (F )) = µL (Tf ([a, b])) = µL a, , b
2 2

a(1 + f ) + b(1 − f ) a(1 − f ) + b(1 + f )
= µL a, + µL , b
2 2

a(1 + f ) + b(1 − f ) a(1 − f ) + b(1 + f )
= −a + b−
2 2
= (1 − f )(b − a)
= (1 − f )µL(F ) . (21.14)
É também claro que para todo F ∈ F0 da forma F = F1 ∪ · · · ∪ Fk , onde os Fj são intervalos fechados
finitos e disjuntos, tem-se
µL (F) = µL (F1 ) + · · · + µL (Fk ) .
Segue também de (21.13) que se F = F1 ∪ · · · ∪ Fk então
µL(Tf (F)) = µL (Tf (F1 ) ∪ · · · ∪ Tf (Fk )) = µL (Tf (F1 )) + · · · + µL (Tf (Fk ))
k
X
= (1 − f ) µL (Fj ) = (1 − f )µL (F) ,
j=1
ou seja,
µL (Tf (F)) = (1 − f )µL(F) . (21.15)
Desses fatos, é muito fácil provar por indução que
µL (Tfn (F )) = (1 − f )n µL (F ) . (21.16)
para todo n ∈ N e todo intervalo fechado finito F .

É bastante evidente por (21.12) que os bordos a e b de um intervalo fechado finito F = [a, b]
satisfazem a ∈ Tf (F ) e b ∈ Tf (F ). Daı́, concluı́-se também que a e b são elementos de todos os
conjuntos Tfn (F ). Assim,
Un, f (F ) := F \ Tfn (F ) = F ∩ (Tfn (F ))c = F 0 ∩ (Tfn (F ))c .
Aqui F 0 := (a, b), o interior de F . Como os conjuntos Tfn (F ) são fechados, os conjuntos Un, f (F ) são
sub-conjuntos abertos de F , por serem a intersecção de dois abertos: F 0 e (Tfn (F ))c . Note-se que
Un, f (F ) ⊂ Un+1, f (F ), ∀n∈N, (21.17)
pois Tfn+1 (F ) = Tf (Tfn (F )) ⊂ Tfn (F ).

Teremos também que
µL (Un, f (F )) = µL (F ) − µL (Tfn (F )) = [1 − (1 − f )n ] µL (F ) .
Para um intervalo fechado finito para F = [a, b] e uma fração f , definimos o Cf (F ) por
\
Cf (F ) := Tfn (F ) .
n∈N
O conjunto de Cantor ternário C1/3 , que definimos informalmente páginas acima, corresponde a C1/3 ([0, 1]).
Note que Cf (F ) não é vazio, pois contém pelo menos os pontos a e b, assim como os pontos
a(1+f )+b(1−f )
2
e a(1−f )+b(1+f
2
)
e, em verdade, todos os pontos que formam as bordas de cada intervalo
fechado finito que compõe os conjuntos Tfn (F ), pois, como observamos acima, cada aplicação Tf mantem
esses pontos no conjunto resultante.
A primeira observação que fazemos sobre Cf (F ) é que se trata de um sub-conjunto fechado de F ,
pois é uma intersecção de fechados. Definimos também
Uf (F ) := F \ Cf (F ) = F ∩ (Cf (F ))c = F 0 ∩ (Cf (F ))c , (21.18)
que é naturalmente um sub-conjunto aberto de F , por ser a intersecção de dois abertos: F 0 e (Cf (F ))c .
Vemos que
!c !
\ [ c
[ c [
Uf (F ) = F 0 ∩ Tfn (F ) = F0 ∩ Tfn (F ) = F 0 ∩ Tfn (F ) = Un, f (F ) .
n∈N n∈N n∈N n∈N
É possı́vel também provar (mas não o faremos aqui) que Cf (F ) tem a mesma cardinalidade de R.
Fora isso, Cf (F ) compacto (por ser fechado e limitado) totalmente desconexo, denso em parte alguma
e denso em si mesmo e, portanto, é perfeito. (Essas definições são apresentadas na Seção 24.1, página
1194). Assim, pela definição geral da página 1199, Cf (F ) é um conjunto de Cantor.
Vamos agora determinar a medida de Lebesgue de Cf (F ) e de Uf (F ), começando pela segunda.
Por (21.17), podemos aplicar a propriedade geral de medidas 3 da página 1064 e concluir que
µL (Uf (F )) = lim µL (Un, f (F )) = lim [1 − (1 − f )n ] µL (F ) = µL (F ) , (21.19)

n→∞ n→∞
já que 0 < (1 − f ) < 1. Por (21.18) tem-se também que µL (Uf (F )) = µL (F ) − µL (Cf (F )) e concluı́mos
que
µL (Cf (F )) = 0 .
Cf (F ) é assim um sub-conjunto fechado, denso em parte alguma, denso em si mesmo e com a

cardinalidade de R mas com medida de Lebesgue nula! Seu complemento em F , que é o aberto Uf ,
tem a mesma medida que F !
Os conjuntos de Cantor Cf (F ) têm uma outra propriedade interessante: são conjuntos fractais. A
eles pode-se atribuir uma dimensão (chamada de dimensão de Hausdorff) que não é um número inteiro,
no caso, um número real positivo menor que 1 relacionado a f . Especificamente para o conjunto de
Cantor ternário C1/3 , a dimensão de Hausdorff é ln(2)/ ln(3) (vide e.g. [40]). Apesar de os mesmos
terem medida de Lebesgue nula, há uma outra medida (denominada medida de Hausdorff) que pode
ser definida em F e que não se anula em Cf (F ). Não trataremos de sua construção na presente versão
destas Notas, mas a mesma segue passos semelhantes à construção da medida de Lebesgue, através
de uma medida exterior e evocando o Teorema de Caratheodory. O leitor interessado poderá colher
informações mais técnicas sobre tais assuntos em textos como [56] e, especialmente, [40].
• Ainda mais exemplos de conjuntos de Cantor (com uma surpresa)
As idéias a a construção dos conjuntos de Cantor Cf (F ), acima, podem ser generalizadas ainda
mais. Seja {f } := {fj , j ∈ N} uma seqüência de frações. Cada fj satisfaz 0 < fj < 1, mas não
precisam ser todos iguais. Para n ∈ N, defina-se
n
T{f } ≡ Tfn ◦ · · · ◦ Tfn . (21.20)
n
Pelas mesmas razões que acima (confira!), cada T{f } é também uma aplicação de F0 em F0 .
n
Nota. O estudante deve atentar para o fato que o n que aparece no expoente de T{f } representa o
número de aplicações que aparecem compostas no lado direito de (21.20), não uma potência de uma
única aplicação.
Para um intervalo fechado e finito F = [a, b], tem-se também que
n
T{f } (F ) = Tfn ◦ · · · ◦ Tfn (F ) ⊂ F .
n n
Como antes, os conjuntos T{f } (F ) são compostos por 2 intervalos fechados e as bordas desses intervalos
m
estarão contidas em todos os conjuntos T{f } (F ) com m > n. Fora isso,
m n
T{f } (F ) ⊂ T{f } (F ), para todos m > n . (21.21)
m n
Em verdade os T{f } (F ) são sub-conjuntos próprios de T{f } (F ) para todos m > n. Temos também que
n n c 0 n c
Un, {f } (F ) := F \ T{f } (F ) := F ∩ (T{f } (F )) = F ∩ (T{f } (F )) .
n
Como os conjuntos T{f } (F ) são fechados, os conjuntos Un, {f } (F ) são sub-conjuntos abertos de F , por
serem a intersecção de dois abertos: F 0 e (T{f n c
} (F )) . Note-se novamente que
Un, {f } (F ) ⊂ Um, f (F ), ∀n<m, (21.22)

por (21.21).
Definimos então, em completa analogia com o apresentado acima, os conjuntos
\
n
C{f } (F ) := T{f } (F ) .
n∈N
e
U{f } (F ) := F \ C{f } (F ) = F ∩ (C{f } (F ))c = F 0 ∩ (C{f } (F ))c .
C{f } (F ) é também um sub-conjunto fechado de F , pois é uma intersecção de fechados. U{f } (F ) é um
sub-conjunto aberto de F , por ser a intersecção de dois abertos: F 0 e (C{f } (F ))c . Vemos novamente
que
!c !
\ [ c
[ c [
U{f } (F ) = F 0 ∩ n
T{f } (F ) = F 0
∩ T n
{f } (F ) = F 0
∩ T n
{f } (F ) = Un, {f } (F ) .
n∈N n∈N n∈N n∈N
É possı́vel também provar (mas não o faremos aqui) que C{f } (F ) tem a mesma cardinalidade de
R. Fora isso, C{f } (F ) compacto (por ser fechado e limitado) totalmente desconexo, denso em parte
alguma e denso em si mesmo e, portanto, é perfeito. (Essas definições são apresentadas na Seção 24.1,
página 1194). Assim, pela definição geral da página 1199, Cf (F ) é um conjunto de Cantor.
Quanto à medida de Lebesgue de C{f } (F ), ocorre aqui uma surpresa. Como antes, temos que
µL (U{f } (F )) = µL (F ) − µL (C{f } (F )) e que
µL (U{f } (F )) = lim µL (Un, {f } (F )) .
n→∞
Vamos porém, calcular µL (Un, {f } (F )). Sabemos que

n
µL(Un, {f } (F )) = µL(F ) − µL (T{f } (F )) .
Agora,
n n−1 n−1
µL (T{f } (F )) = µL (Tfn ◦ T{f } (F )) = (1 − fn )µL (T{f } (F )) = (1 − fn ) · · · (1 − f1 )µL (F ) ,
onde, acima, usamos (21.15). Dessa forma,

" n
#
Y
µL (Un, {f } (F )) = 1− (1 − fj ) µL (F )
j=1
e, portanto, usando novamente a propriedade geral de medidas 3 da página 1064, tem-se

" n
# " n
#
Y Y
µL (U{f } (F )) = lim 1 − (1 − fj ) µL(F ) = 1 − lim (1 − fj ) µL (F ) .
n→∞ n→∞
j=1 j=1
O ponto, porém, é que, aoQcontrário do caso anterior quando todos os fj ’s eram iguais, não se pode
sempre concluir que limn→∞ nj=1 (1 − fj ) = 0 mesmo que 0 < (1 − fj ) < 1 para todo j. Tomemos, por
2
exemplo, a seqüência fj = 1 − e−1/j . Teremos
n n
! ∞
!
Y X 1 X 1 2
lim (1 − fj ) = lim exp − 2
= exp − 2
= e−π /6 > 0
n→∞
j=1
n→∞
j=1
j j=1
j
e, com isso, h i
2
µL (U{f } (F )) = 1 − e−π /6 µL (F ) < µL (F )
e
2 /6
µL (C{f } (F )) = e−π µL (F ) > 0 .
O conjunto de Cantor C{f } (F ) com a seqüência {f } dada acima tem medida de Lebesgue não-nula.
• Condição para os conjuntos C{f } (F ) terem medida de Lebesgue não-nula
Voltando a seqüências {fj , j ∈ N} gerais, concluı́mos do Lema 21.2, a seguir, que uma condição
necessária e suficiente para que C{f } (F ) tenha medida de P Lebesgue não-nula é que a seqüência de
frações {f } = {fj , 0 < fj < 1, j ∈ N} seja somável, ou seja ∞j=1 fj < ∞.
P
No caso do conjunto de Cantor ternário C1/3 , essa condição é violada, pois obviamente ∞j=1 1/3 =
∞, o mesmo se dando para os conjuntos Cf (com 0 < f ).
Lema 21.2 Se {fj , j ∈ N} é uma seqüência de números tais que 0 < fj < 1 para todo j, então a
n
Y ∞
X
condição para que lim (1 − fj ) > 0 é equivalente à condição ln(1 − fj ) < ∞. Essa por sua vez
n→∞
j=1 j=1
∞
X
é equivalente à condição fj < ∞. 2
j=1
Prova. Notemos primeiro que

n n
!
Y X
(1 − fj ) = exp − [− ln(1 − fj )] .
j=1 j=1
Q P
Logo, limn→∞ nj=1 (1 − fj ) > 0 se e somente se a série de números positivos ∞ j=1 [− ln(1 − fj )] for
finita. Estudemos uma condição necessária e suficiente para que isso ocorra. Para x ∈ [0, 1) tem-se
que x ≤ − ln(1 − x). Isso se vê notando que a função
x
f (x) := −x − ln(1 − x) satisfaz f ′ (x) = ≥ 0
(1 − x)
para x ∈ [0, 1), o que mostra que Pnf é crescentePn nesse intervalo. Como f (0) = 0, concluı́mos que
f (x) ≥ 0 para
P∞ x ∈ [0, 1). Assim, f
j=1 j ≤ P∞ j=1 ln(1 − fj ), mostrando que se a série de números
−
positivos − j=1 ln(1 − fj ) for finita, a série j=1 fj também o será.
P
Reciprocamente, suponhamos que ∞ j=1 fj converge. Seja M um número fixo tal que 0 < M < 1.
Vamos mostrar que existe um J tal que fj < M para todo j > J. Para isso, vamos supor o contrário
ePassumir que
P∞haja uma P∞coleção infinita fj1 , fj2 , . . . tal que fjl ≥ M para todo l ≥ 1. Terı́amos que
∞
j=1 fj ≥ l=1 fjl ≥ l=1 M = ∞, uma contradição. Assim, a coleção fj1 , fj2 , . . . deve ser finita e
podemos tomar J como o maior dos ı́ndices jl . Podemos então escrever
∞
X J
X ∞
X
fj = fj + fj
j=1 j=1 j=J+1
com a garantia que na, última soma, todo fj satisfaz 0 < fj < M para um certo 0 < M < 1 fixado.
Agora, observemos que no intervalo [0, M] a função g(x) := − ln(1 − x) é contı́nua, limitada,
diferenciável e satisfaz g ′′(x) = 1/(1 − x)2 > 0. Assim, g é convexa10 naquele intervalo e, portanto,
tem-se
(g(M) − g(0))
g(x) ≤ g(0) + x,
M
ou seja,
ln(1 − M)
− ln(1 − x) ≤ − x, (21.23)
M
desigualdade essa que pode ser constatada graficamente11 . Logo,
∞
X J
X ∞
X J
X ∞
ln(1 − M) X
− ln(1 − fj ) = − ln(1 − fj ) − ln(1 − fj ) ≤ − ln(1 − fj ) − fj .
j=1 j=1 j=J+1 j=1
M j=J+1
P∞ P∞
Todavia, a soma j=J+1 fj é finita, por hipótese, provando que − j=1 ln(1 − fj ) também o é.
Vimos assim que existem inúmeros conjuntos de Cantor C{f } (F ) com medida de Lebesgue não-
nula. A existência de conjuntos com tais propriedades é um dos fatos mais surpreendentes da Teoria
da Medida. Nenhuma intuição a justifica ou esclarece.
Conjuntos de Cantor e outros conjuntos fractais (como a curva de Koch da Figura 20.1, página 1071)
podem ser contruı́dos em várias dimensões e não são apenas uma curiosidade matemática, pois podem
ser observados na Natureza. A Figura 21.2, página 1095, mostra imagens dos anéis de Saturno, os
quais exibem uma complexa estrutura de lacunas em várias escalas, muito à semelhança dos conjuntos
C{f } (F ). As lacunas são causadas por ressonâncias dos perı́odos das órbitas das partı́culas que compõe
os anéis com perı́odos das órbitas de alguns satélites de Saturno12 . Lacunas desse tipo ocorrem também
no cinturão de asteróides e são conhecidos como gaps de Kirkwood13 . No caso do cinturão de asteróides,
as lacunas são causadas por ressonâncias com o perı́odo da órbita de Júpiter14 . Vide Figura 21.3, página
1096.
Conjuntos como os de Cantor e outros conjuntos fractais ocorrem também em diversos sistemas
dinâmicos e no espectro de certos operadores Hamiltonianos na Mecânica Quântica. A Figura 21.4,
10
O estudante poderá encontrar um estudo detalhado das propriedades de funções convexas em vários textos, por
exemplo em [138].
11
O estudante poderá convencer-se da validade da desigualdade (21.23) se fizer um gráfico das funções − ln(1 − x) e
ln(1−M)
− M x no intervalo [0, M ].
12
Algumas lacunas são causadas pela presença de satélites dentro da região de anéis, que absorvem as partı́culas que
os compõe.
13
Daniel Kirkwood (1814-1895). Os gaps, ou lacunas, de Kirkwood foram descobertos no cinturão de asteróides em
1866.
14
Mais comentários e referências sobre o assunto podem ser encontrados em “Regular and Irregular Motion”. M. V.
Berry. Topics in Nonlinear Dynamics (ed. S. Jorna) Am. Inst. Phys. Conf. Proc. 46 16-120 (1978). Vide também
“Nature of the Kirkwood Gaps in the asteroid belt”, S. F. Dermott and C. D. Murray. Nature 301, 201-205 (1983).
Ambos os trabalhos encontram-se republicados em [98].
página 1097, exibe a chamada “borboleta de Hofstadter”15 , que representa o espectro quântico de um
elétron se movendo em um plano bidimensional sob a ação de um potencial periódico e de um campo
magnético constante perpendicular a esse plano. O eixo horizontal representa o espectro de energias
e o vertical o fluxo φ do campo magnético em cada célula do potencial periódico bidimensional (em
unidades de hc/e). Quando φ é um racional da forma φ = p/q (com p e q irredutı́veis) o espectro possui
q bandas e q + 1 lacunas. Quando φ é irracional, o espectro é um conjunto de Cantor.
Todos esses assuntos são objeto de pesquisa atual.
21.3 Bases de Hamel e a Medida de Lebesgue

Nesta seção discutiremos um exemplo de sub-conjunto da reta real R que tem a propriedade de ser
Lebesgue-mensurável mas que não é Boreliano. A saber, mostraremos que existem bases de Hamel16
da reta real (definidas à página 102 e seguintes) que são mensuráveis por Lebesgue sendo que, porém,
nenhuma base de Hamel é um conjunto Boreliano.
O primeiro resultado é o seguinte:
Proposição 21.4 Se B0 é um sub-conjunto do conjunto de Cantor C1/3 ⊂ [0, 1] que seja maximal-
mente linearmente independentes por racionais, então B = B0 + Z é uma Base de Hamel. 2
Notemos que B0 é mensurável por Lebesgue, por ser subconjunto de um conjunto de medida de
Lebesgue nula, a saber, C1/3 (vide Proposição 21.1, página 1079). Portanto, µL (B) = µL (B0 ) = 0.
Naturalmente, B é uma base de Hamel mensurável por Lebesgue, por ser união contável de conjuntos
mensuráveis pode Lebesgue.
Prova. Pelo Lema 21.1, página 1084, todo x ∈ [0, 1] pode ser escrito como uma combinação linear
por racionais de dois elementos do conjunto de Cantor ternário C1/3 . Por uma simples aplicação
do Lema de Zorn (faça!), pode-se facilmente provar que C1/3 possui pelo menos um subconjunto de
elementos linearmente independentes por racionais. Denotemos um tal sub-conjunto por B0 . Assim,
todo elemento de C1/3 pode ser escrito como uma combinação linear finita por racionais de elementos
de B0 . Juntando isso à observação anterior, concluı́mos que todo elemento de [0, 1] pode ser escrito
como combinação linear finita por racionais de elementos de B0 . Repetindo-se isso em cada intervalo
[m, m + 1] com m ∈ Z a proposição está demonstrada.
Isso demonstrou que há bases de Hamel mensuráveis por Lebesgue. Tem-se porém, o seguinte fato,
devido a Sierpiński17 , cuja demonstração omitiremos:
Teorema 21.1 Nenhuma base de Hamel em R é Boreliana. 2
15
Douglas R. Hofstadter. “Energy levels and wave functions of Bloch electrons in rational and irrational magnetic
fields”. Phys. Rev. B 14, 2239 (1976).
16
Georg Hamel (1877-1954).
17
Waclaw Sierpiński (1882-1969). O Teorema 21.1 encontra-se em “Sur la question de la mesurabilité de la base de M.
Hamel”. Fund. Math. 1, 105-111 (1920).
Com isso, a base de Hamel construı́da acima a partir de um sub-conjunto linearmente independentes
por racionais do conjunto de Cantor é um exemplo de um conjunto mensurável por Lebesgue mas não-
Boreliano.
Em verdade nem toda base de Hamel é mensurável por Lebesgue. Vale, todavia, o seguinte fato,
que provaremos abaixo: uma base de Hamel é mensurável por Lebesgue se e somente se sua medida de
Lebesgue for nula. Precisaremos da seguinte proposição:
Proposição 21.5 Se A ⊂ R é um conjunto com medida de Lebesgue positiva, ou seja, µL (A) > 0,
então existe um intervalo aberto Iα = (−α, α), α > 0, tal que todo elemento x de Iα pode ser escrito
na forma x = a1 − a2 , com a1 , a2 ∈ Iα . 2
A proposição acima tem uma generalização no contexto da medida de Haar em grupos topológicos
localmente compactos (como é o caso da medida de Lebesgue na reta real).
Proposição 21.6 Uma base de Hamel B da reta real é mensurável por Lebesgue se e somente se
µL (B) = 0. 2
Prova. Se B não for mensurável por Lebesgue não há o que se provar. Suponhamos então que B é
mensurável por Lebesgue. Então, ou µL (B) = 0 ou µL (B) > 0. Vamos supor que µL (B) > 0. Pela
Proposição 21.5 existem números racionais não-nulos r e s (ambos contidos em algum intervalo (−α, α)
conveniente) tais que r = b1 − b2 e s = b3 − b4 , com b1 , b2 , b3 , b4 ∈ B. Seja t = r/s, que obviamente
é racional. Concluı́mos de r = ts que b1 − b2 = t(b3 − b4 ). Mas isso é impossı́vel, pois essa expressão
contraria o fato de que os elementos de B são linearmente independentes por racionais. Logo, se B é
mensurável por Lebesgue só podemos ter µL (B) = 0.
A Proposição 21.4 mostrou que a proposição anterior não é vazia no seguinte sentido: existem bases
de Hamel mensuráveis por Lebesgue.
Figura 21.2: As três imagens acima mostram trechos em diferentes escalas dos anéis de Saturno. As
imagens foram obtidas pelas sondas Voyager 1 e 2. A Voyager 1 fez sua melhor aproximação a Saturno
em 12 de novembro de 1980 e a Voyager 2 em 26 de agosto de 1981, a distâncias de 124.000 km e
101.000 km, respectivamente.
Figura 21.3: Histograma exibindo os ‘Gaps’ de Kirkwood do cinturão de asteróides. O eixo horizontal
representa o perı́odo da órbita, em unidades do perı́odo de Júpiter em torno do Sol, e o eixo vertical
representa o número de arteróides encontrado em cada perı́odo. Observe que há certas regiões do eixo
horizontal onde praticamente não se observam arteróides. Essas regiões são as denominadas Lacunas
de Kirkwood. Quase todas essas lacunas ocorrem próximas a pontos onde o perı́odo da órbita é igual
a certas frações racionais (indicadas na figura) do perı́odo de Júpiter. Há excessões a essa regra, o que
indica que efeitos não-peturbativos (e não-ressonantes) desempenham um papel na estabilidade (ou
instabilidade) das órbitas. Esses efeitos são ainda hoje objeto de pesquisa da Dinâmica Planetária.
Figura 21.4: A “borboleta de Hofstadter”. O eixo horizontal representa o espectro quântico de energias
de um elétron movendo-se em um plano bidimensional sob a ação de um potencial periódico e de um
campo magnético constante perpendicular a esse plano. O eixo vertical representa o fluxo φ do campo
magnético em cada célula do potencial periódico bidimensional (em unidades de hc/e). Na figura, φ
varia entre 0 e 1.
Capı́tulo 22
Continuidade e Convergência em Espaços
Topológicos
Conteúdo
22.1 Primeiras Definições . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1098
22.2 Espaços Hausdorff . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1100
22.3 Reticulados e o Caso de Espaços Topológicos Gerais . . . . . . . . . . . . 1102
22.3.1 Reticulados em Espaços Métricos . . . . . . . . . . . . . . . . . . . . . . . . . 1105
22.4 O Limite do Ínfimo e o Limite do Supremo . . . . . . . . . . . . . . . . . . 1106
22.5 Continuidade de Funções em Espaços Topológicos . . . . . . . . . . . . . . 1111
22.5.1 Outras Caracterizações do Conceito de Continuidade em Espaços Topológicos 1114
22.5.2 Continuidade e Convergência . . . . . . . . . . . . . . . . . . . . . . . . . . . 1116
V amos neste capı́tulo estudar dois assuntos de grande importância no contexto de espaços
topológicos, a saber, o conceito geral de convervência (de seqüências ou de reticulados, vide
definições adiante) e o conceito geral de continuidade de funções. O conceito de convergência
foi introduzido anteriormente para o caso especial de seqüências em espaços métricos (vide
Capı́tulo 17). Aqui será dada particular atenção aos espaços topológicos do tipo Hausdorff.
Todo estudante possui uma noção mais ou menos clara do conceito usual de continuidade de funções
reais da reta real. Aqui, vamos estender este conceito a funções entre espaços topológicos gerais. A
possibilidade de se estender o conceito de continuidade das situações mais comuns e familiares, encon-
tradas na topologia usual da reta real, para situações mais gerais é, em verdade, uma das principais
razões pelas quais topologias mais gerais que aquelas produzidas por métricas são definidas e estuda-
das. Percebeu-se que, tomados os devidos cuidados, muitos dos resultados passı́veis de demonstração
no caso métrico estendem-se também para topologias não deriváveis de uma métrica. Fora isso, apren-
deremos, ao elevar o nı́vel de abstração com que o conceito de continuidade é apresentado, que muitas
caracterizações distintas, gerais e úteis do mesmo podem ser apresentadas. Uma conseqüência desse
alargamento de horizontes é uma maior facilidade na demonstração de resultados importantes.
O leitor interessado na noção de continuidade pode passar diretamente à Seção 22.5, página 1111.
Sua leitura dispensa a leitura das seções que lhe precedem exceto, em parte, pela noção de reticulado,
a qual pode ser colhida na Seção 22.3, página 1102.
22.1 Primeiras Definições

Dado um espaço topológico X, uma seqüência x é uma função x : N → X. Por vezes estamos
interessados em considerar uma seqüência apenas através de seu conjunto imagem: Im x = {x(n) ∈
1098
X, n ∈ N}. Os elementos da seqüência são os valores x(n), que freqüentemente são denotados apenas
por xn . Com um certo abuso de linguagem é costume referir-nos à seqüência x como sendo {x(n) ∈
X, n ∈ N}, ou denotamo-la por {xn , n ∈ N} ou mesmo por {xn } ou até apenas por xn . Em geral,
essas notações são mais práticas e não causam confusão. A noção tradicional de convergência de uma
seqüência em um espaço métrico é a seguinte:
Seja M um espaço métrico com métrica d e seja {an } uma seqüência em M. Dizemos que {an }
converge a um elemento a ∈ M se para todo ǫ > 0 existir N ≡ N(ǫ) ∈ N tal que d(an , a) < ǫ sempre
que n > N.
Abaixo vamos apresentar uma nova noção de convergência de seqüências em espaços topológicos
gerais que é equivalente àquela apresentada acima no caso de espaços métricos. Comecemos com duas
noções úteis. Seja x uma seqüência em X e A ⊂ X.
1. Dizemos que a seqüência x está eventualmente em A se existir um natural N ≡ N(A) (que pode
eventualmente depender de A) tal que xn ∈ A para todo n > N.
2. Dizemos que a seqüência x está freqüentemente em A se houver infinitos valores de n para os

quais xn ∈ A.
Se uma seqüência x está eventualmente em A, então ela está freqüentemente em A, mas a recı́proca
não é necessariamente verdadeira. Por exemplo, a seqüência de números reais an = (−1)n está freqüen-
temente no intervalo (0, 2), mas não eventualmente.
Nota. Nas definições aqui apresentadas estamos fazendo uso do ordenamento usual de N. Para o caso
geral vide a Seção 22.3 sobre reticulados em espaços topológicos.
Definamos agora as noções de ponto de acumulação e ponto limite de uma seqüência x em X, um
conjunto dotado de uma topologia τ .
1. Um ponto x em X é dito ser um ponto de acumulação da seqüência x em relação à topologia τ

de X se x está freqüentemente em todo aberto A ⊂ τ que contém x.
2. Um ponto x em X é dito ser um ponto limite, ou simplesmente limite, da seqüência x em relação

à topologia τ de X se x está eventualmente em todo aberto A ⊂ τ que contém x.
Note que todo limite é um ponto de acumulação, mas a recı́proca não é verdadeira.
E. 22.1 Exercı́cio. Mostre que {−1, +1} são os pontos de acumulação da seqüência xn := (−1)n +1/n,
n ∈ N, n > 0 na topologia usual de R. Essa seqüência tem limites nessa topologia? E a seqüência
xn := 1/n2 , n ∈ N, n > 0? 6
E. 22.2 Exercı́cio. Seja uma seqüência r : N → R tal que Im r = Q (tais seqüências existem pois Q
é contável). Mostre que R é o conjunto de todos os pontos de acumulação de r na topologia usual de R.
Mostre que r não tem limites na topologia usual de R. 6
E. 22.3 Exercı́cio. Seja a seqüência do exercı́cio anterior, mas agora tome a topologia discreta P(R).
Mostre que r não tem pontos de acumulação nessa topologia se a função r for injetora. 6
Se x é um limite da seqüência xn dizemos que xn converge a x e escrevemos x = lim xn .

n→∞
E. 22.4 Exercı́cio. Mostre que as duas noções de convergência que apresentamos acima são equivalentes
no caso de seqüências em espaços métricos. 6
O último exercı́cio nos afirma a equivalência, no caso de espaços métricos, dos dois conceitos de con-
vergência que apresentamos, mas é importante frisar que a convergência de uma seqüência é fortemente
dependente da topologia adotada. Isso pode ser claramente visto no exemplo discutido a seguir.
Uma seqüência {xn } em X é dita ser eventualmente constante se existir x ∈ X e N ∈ N tais que
xn = x para todo n > N.
Seja, então, X um conjunto não-enumerável (R, por exemplo) e seja a topologia co-contável1 em
X: τcc (X). Então, nenhuma seqüência que não seja eventualmente constante tem limites em X em
relação a τcc (X). Isso segue do seguinte. Seja x uma seqüência em X e seja x ∈ X um ponto qualquer
e seja ainda A := (Im x)c ∪ {x} = (Im x ∩ {x}c )c . Como Im x ∩ {x}c é contável, então A é aberto em
τcc (X) e contém x. Porém, x não está eventualmente em A se não for eventualmente constante, pois
Im x ∩ A = Im x ∩ {x}. Assim, para qualquer x ∈ X podemos achar um aberto que contém x onde x
não está eventualmente. Logo, nenhuma seqüência x tem limites na topologia considerada.
Um exemplo ilustrativo é o da seqüência xn = 1/n, n ∈ N, n > 0, em R. Na topologia co-contável
τcc (R) essa seqüência não converge a zero, ao contrário do que ocorre na topologia usual, pois o conjunto
A := R \ {1/n, n ∈ N, n > 0} é aberto, contém x = 0, mas não contém nenhum elemento da seqüência
xn .
Em função de exemplos como esses, há pouca utilidade no conceito de convergência de seqüências
em certos espaços topológicos não-métricos. O que então normalmente se faz nesses casos é considerar
uma generalização do conceito de seqüência, conhecido como reticulado (“net” em inglês). Para esse
novo conceito há uma definição análoga de convergência que funciona de modo mais efetivo em espaços
topológicos gerais. Disso trataremos na Seção 22.3.
22.2 Espaços Hausdorff

Um espaço topológico H dotado de uma topologia τ é dito possuir a propriedade de Hausdorff2 se para
quaisquer pontos distintos x, y ∈ H existirem dois abertos Ax e Ay em τ tais que x ∈ Ax , y ∈ Ay mas
Ax ∩ Ay = ∅.
Um espaço topológico que tem a propriedade Hausdorff é dito simplesmente ser um espaço Hausdorff,
ou do tipo Hausdorff. Vamos primeiro a alguns exemplos de espaços que não tem a propriedade
Hausdorff.
Seja X qualquer com a topologia indiscreta. Esse espaço não tem a propriedade de Hausdorff. Seja
1
A topologia co-contável foi definida à página 1037.
2
X não finito com a topologia co-finita. Esse espaço não tem a propriedade de Hausdorff. Seja X
não-contável com a topologia co-contável. Esse espaço não tem a propriedade de Hausdorff. Para esses
dois últimos exemplos, vide página 1037.
E. 22.5 Exercı́cio. Prove as afirmativas do último parágrafo. 6
Agora temos a seguinte proposição:

Proposição 22.1 Todo espaço métrico tem a propriedade de Hausdorff. 2
Demonstração. Seja M espaço métrico com métrica d, sejam x, y ∈ M distintos e seja r = d(x, y) > 0.
Sejam então os abertos Ax = Bd (x, r/3) e Ay = Bd (y, r/3). Suponha que exista um ponto z ∈ Ax ∩Ay .
Então, como z pertence ao mesmo tempo a Bd (x, r/3) e Bd (y, r/3), vale que d(x, z) < r/3 e
d(z, y) < r/3. Agora, pela desigualdade triangular tem-se r = d(x, y) ≤ d(x, z) + d(z, y) < 2r/3.
Porém, a desigualdade r < 2r/3 é absurda. Daı́, não pode existir qualquer ponto z em Ax ∩ Ay .
Nem todo espaço Hausdorff é métrico. A topologia de Sorgenfrey3 τ [S] de R (página 1040) é
Hausdorff (prove isso!) mas não é métrica (vimos isso à página 1057).
Chegamos agora a uma propriedade importante de espaços Hausdorff, sejam eles espaços métricos
ou não.
Proposição 22.2 Uma seqüência em um espaço Hausdorff pode ter no máximo um ponto limite. 2
Prova. Suponha que uma seqüência a em um espaço Hausdorff H com topologia τ tenha dois limites
distintos x e y. Sejam Vx ∋ x e Vy ∋ y dois abertos disjuntos de τ contendo x e y, respectivamente. Que
tais abertos sempre existem é garantido pela propriedade de Hausdorff, que está sendo suposta. Então,
como a converge a x e a y, temos que an ∈ Vx para todo n > N(Vx ) e an ∈ Vy para todo n > N(Vy ).
Logo, an ∈ Vx ∩ Vy para todo n > max{N(Vx ), N(Vx )}. Isso contraria a hipótese que Vx ∩ Vy = ∅.
Corolário 22.1 Uma seqüência em um espaço métrico pode ter no máximo um limite. 2
Note que seqüências em espaços Hausdorff podem ter muitos pontos de acumulação.
E. 22.6 Exercı́cio. Seja A a coleção de todos os subconjuntos de R2 do tipo {(x, y) ∈ R2 , com a <
y < b para − ∞ < a < b < ∞} (faça um desenho de um tal conjunto). Seja τ [A] a topologia gerada por
tais conjuntos.
1. Mostre que τ [A] não é Hausdorff. Para tal, tente ver se é possı́vel encontrar dois abertos nessa
topologia que contenham os pontos x = (0, 0) e y = (1, 0), respectivamente, mas que não se
interceptem.
2. Mostre que a seqüência xn = (0, 1/n), n ∈ N, n > 0 tem por limite todos os pontos da forma (x, 0)
para todo x ∈ R. (Na topologia usual de R2 o único limite dessa seqüência é o ponto (0, 0)).
3
Robert Sorgenfrey (1915 - 1996).
22.3 Reticulados e o Caso de Espaços Topológicos Gerais

Recordemos a definição de conjunto dirigido introduzida à página 34. Um conjunto I é dito ser um
conjunto dirigido se for dotado de uma relação de ordem parcial, que denotaremos por “”, e se for
dotado da seguinte propriedade: para quaisquer dois elementos a e b de I existe pelo menos um terceiro
elemento c ∈ I tal que a c e b c.
Seja I um conjunto dirigido com respeito à uma relação de ordem parcial . Se X é um conjunto
não-vazio, uma função f : I → X é denominada um reticulado baseada no conjunto dirigido I com
respeito a . O estudante deve observar que uma seqüência é um reticulado baseada em N, que é um
conjunto dirigido com respeito à ordem usual dos naturais.
Reticulados são, portanto, generalizações da noção de seqüências e assumem em espaços topológicos
gerais um papel semelhante ao de seqüências em espaços métricos.
De modo análogo ao que costumeiramente se faz com seqüências, designaremos um reticulado
x : I → X por {xλ }λ∈I , por {xλ , λ ∈ I}, ou simplesmente por xλ , sendo I e subentendidos.
Vamos a algumas definições. Seja um reticulado {xλ }λ∈I em X com I sendo dirigido por .
1. Dizemos que {xλ }λ∈I está freqüentemente em A ⊂ X se para todo λ ∈ I existir um λ′ ∈ I com
λ λ′ tal que xλ′ ∈ A.
2. Dizemos que {xλ }λ∈I está eventualmente em A ⊂ X se existe λ0 ∈ I tal que xλ ∈ A para todo
λ λ0 .
3. Se (X, τ ) for um espaço topológico, dizemos que x ∈ X é um ponto de acumulação de {xλ }λ∈I
com respeito a τ se {xλ }λ∈I estiver freqüentemente em qualquer τ -aberto que contém x. Nesse
caso, dizemos que {xλ }λ∈I acumula-se em x com respeito a τ .
4. Se (X, τ ) for um espaço topológico, dizemos que x ∈ X é um ponto limite de {xλ }λ∈I com
respeito a τ se {xλ }λ∈I estiver eventualmente em qualquer τ -aberto que contém x. Nesse caso,
dizemos que {xλ }λ∈I converge a x com respeito a τ .
O estudante deve notar que essas definições correspondem perfeitamente àquelas introduzidas para
seqüências à página 1099 e seguinte.
• Sub-reticulados
Seja {xα }α∈I um reticulado em X. Um outro reticulado {yβ }β∈J em X é dito ser um sub-reticulado
de {xα }α∈I se existir uma função h : J → I tal que
1. yβ = xh(β) para todo β ∈ J,
2. para todo α ∈ I existe β1 ∈ J tal que h(β) I α para todo β ∈ J que satisfaça β J β1 .
Acima, I é a relação de ordem do conjunto dirigido I e J é a relação de ordem do conjunto dirigido

J.
Uma situação de interesse é aquela na qual J ⊂ I. Nesse caso podemos tomar h : J → I como
sendo a identidade h(β) = β para todo J e as condições acima podem ser fraseadas da seguinte forma:
{yβ }β∈J é um sub-reticulado de {xα }α∈I se
1. yβ = xβ para todo β ∈ J,
2. para todo α ∈ I existe β1 ∈ J tal que β I α para todo β ∈ J que satisfaça β J β1 .
• Reticulados e convergência
Se (X, τ ) for um espaço topológico e x ∈ X, seja Ix a coleção de todos os τ -abertos que contém x.
Então, Ix é um conjunto dirigido pelo ordenamento parcial definido pela inclusão de conjuntos ⊆.
E. 22.7 Exercı́cio. Prove essa afirmação. 6
Seja (X, τ ) um espaço topológico, x ∈ X e B ⊂ X. A coleção Ix, B := {A ∩ B, A ∈ Ix } é um

conjunto dirigido pelo ordenamento parcial definido pela inclusão de conjuntos ⊆.
E. 22.8 Exercı́cio. Prove essa afirmação. 6
Esses dois exercı́cios nos preparam para as seguintes proposições relevantes.

Proposição 22.3 Sejam (X, τ ) um espaço topológico, x ∈ X e Ix a coleção de todos os τ -abertos
que contêm x. Seja {xA }A∈Ix um reticulado em X com base no conjunto dirigido Ix . Se o reticulado
{xA }A∈Ix tiver a propriedade que xA ∈ A para todo A ∈ Ix , então {xA }A∈Ix converge a x. 2
A prova é quase imediata pelas definições e deixada ao leitor como exercı́cio.

Proposição 22.4 Se (X, τ ) for um espaço topológico e B ⊂ X, então x ∈ B se e somente se existir
um reticulado em B que converge a x. 2
Prova. Precisamos primeiro provar que se x ∈ B então existe um reticulado {xλ }λ∈I que converge a x
com a propriedade que xλ ∈ B para todo λ ∈ I. Sabemos que todo elemento de Ix tem intersecção
não-vazia com B, pela definição de fecho de um conjunto. Assim o conjunto Ix, B definido em exercı́cio
acima é não vazio, é um subconjunto de B e é um conjunto dirigido pelo ordenamento parcial definido
pela inclusão de conjuntos ⊆. Por uma ligeira variação da proposição anterior, é fácil ver que qualquer
reticulado baseada em Ix, B e que a cada A ∈ Ix, B associe xA ∈ A converge a x e está, claramente,
contida em B.
Vamos agora provar que se um reticulado {xλ }λ∈I com xλ ∈ B para todo λ ∈ I converge a x, então
x ∈ B. Se {xλ }λ∈I converge a x, então {xλ }λ∈I está eventualmente em cada aberto A que contém x.
Isso implica que cada aberto A que contém x contém elementos de {xλ }λ∈I , que estão em B. Logo,
A ∩ B 6= ∅, provando que x ∈ B.
• Sub-reticulados e pontos de acumulação
O seguinte teorema relaciona sub-reticulados e o conjunto de todos os pontos de acumulação de um

reticulado. O mesmo será importante na discussão da propriedade de Bolzano-Weierstrass de espaços
topológicos compactos feita na Seção 24.2.1, página 1200. Vide, em particular, o Teorema 24.4, página
1204.
Teorema 22.1 Seja {xα }α∈I um reticulado em um espaço topológico (X, τ ). Um ponto x é um ponto
de acumulação de {xα }α∈I se e somente se for ponto limite de um sub-reticulado de {xα }α∈I . 2
Prova. Para cada x ∈ X denotemos por τx o conjunto de todos abertos de τ que contem x. Se D é um
conjunto dirigido denotamos por D a relação de ordem em D.
Parte I: se x é um ponto de acumulação de {xα }α∈I então x é ponto limite de um sub-reticulado de
{xα }α∈I .
Se x é um ponto de acumulação de {xα }α∈I , então para todo aberto A ∈ τx que contém x vale que
{xα }α∈I está freqüentemente em A. Pela definição, isso significa dizer que para todo α ∈ I existe um
βA (α) ∈ I com α βA (α) e xβA (α) ∈ A.
Seja J ⊂ I definido por n o

J := βA (α) A ∈ τx , α ∈ I .
Estabelecemos em J uma relação de ordem dizendo que βA (γ) J βA′ (γ ′ ) se βA (γ) I βA′ (γ ′ ) e A ⊂ A′
(deixamos como exercı́cio ao estudante mostrar que J é realmente uma relação de ordem).
Dados βA (γ) e βB (γ ′ ) ∈ J, seja γ ′′ tal que γ ′′ I γ e γ ′′ I γ ′ (a existência de um tal γ ′′ é
garantida pelo fato de I formar um conjunto dirigido por I ). Tem-se que4 βA∩B (γ ′′ ) J βA (γ) e
βA∩B (γ ′′ ) J βB (γ ′ ). Isso prova que J forma um conjunto dirigido por J . Portanto, {xβ }β∈J é um
reticulado em X.
Como J ⊂ I, tem-se {xβ }β∈J ⊂ {xα }α∈I . Além disso, se βB (γ) ∈ J satisfaz βB (γ) J βA (α), então
βB (γ) I βA (α) e, como pela definição das funções βA vale βA (α) I α, segue que βB (γ) I α. Isso
provou que {xβ }β∈J é um sub-reticulado de {xα }α∈I .
Notemos agora que se A ∈ τx , então se λ0 := βA (γ0 ) para algum γ0 fixo, tem-se que se βB (γ) J γ0 ,
então B ⊂ A e βB (γ) I γ0 . Como, por construção xβB (γ) ∈ B ⊂ A, concluı́mos que o sub-reticulado
{xβ }β∈J está eventualmente em A. Como essa afirmação vale para todo A ∈ τx , isso provou que esse
sub-reticulado converge a x.
Parte II: se x é ponto limite de um sub-reticulado de {xα }α∈I então x é um ponto de acumulação de
{xα }α∈I .
Vamos agora supor que x é ponto limite de algum sub-reticulado {yβ }β∈J de {xα }α∈I . Então, para
A ∈ τx existe λ0 ∈ J tal que yβ ∈ A para todo β J λ0 .
Como {yβ }β∈J é um sub-reticulado de {xα }α∈I , existe para cada α ∈ I um β1 ∈ J tal que h(β) I α
para todo β ∈ J com β J β1 (para a definição de h, vide a definição de sub-reticulado à página 1102).
Fixemos α ∈ I. Como J é um conjunto dirigido por J , existe β ′ ∈ J tal que (a): β ′ J β1 e (b):
4
Lembrar que se A ∈ τx e B ∈ τx então A ∩ B ∈ τx e é não-vazio, pois x pertence a A e a B e ambos são abertos.
β ′ J λ0 . Logo, por (a), h(β ′ ) I α e, por (b), yβ ′ ∈ A.

Lembrando que yβ ′ = xh(β ′ ) (vide definição de sub-reticulado à página 1102), concluı́mos que para
cada α ∈ I existe α′ = h(β ′ ) ∈ I com α′ I α e xα′ ∈ A. Ora, isso é precisamente a afirmação que o
reticulado {xα }α∈I está freqüentemente em A. Como essa afirmação vale para todo A ∈ τx concluı́mos
que o reticulado {xα }α∈I acumula-se em x. Isso completa a demonstração.
• Reticulados e espaços Hausdorff
O conceito de reticulado permite mais uma caracterização de espaços Hausdorff. A proposição

abaixo generaliza um fato bem conhecido de espaços métricos.
Proposição 22.5 Um espaço topológico (X, τ ) é do tipo Hausdorff se e somente se todo reticulado
em X que for convergente tiver apenas um ponto limite. 2
Prova. Seja (X, τ ) é do tipo Hausdorff e seja {xλ }λ∈I um reticulado em X que converge a a e a b
com a 6= b. Podemos encontrar A ∈ τ contendo a e B ∈ τ contendo b tais que A ∩ B = ∅. Mas isso
é impossı́vel, pois se {xλ }λ∈I converge a a e a b, então {xλ }λ∈I está eventualmente em A e B, o que
contradiz A ∩ B = ∅.
Vamos agora supor que o espaço topológico (X, τ ) tem a propriedade que todo reticulado em X
que for convergente tem apenas um ponto limite. Se (X, τ ) não é do tipo Hausdorff então existem a e
b, elementos distintos de X, tais que cada elemento de Ia tem intersecção não-vazia com cada elemento
de Ib .
Então, para cada par (A, B) com A ∈ Ia e B ∈ Ib podemos escolher um elemento em x(A, B) ∈ A∩B
a com isso, construir uma aplicação Ia × Ib → X. Gostarı́amos agora de identificar uma relação de
ordem parcial que faça de Ia × Ib um conjunto dirigido. Essa relação é a seguinte: (A, B) (A′ , B ′ )
se A′ ∩ B ′ ⊆ A ∩ B.
E. 22.9 Exercı́cio. Verifique que isso faz de Ia × Ib um conjunto dirigido. Para tal, constate que se
a = (A, B) e b = (C, D) ∈ Ia × Ib , então c = (A ∩ C, B ∩ D) ∈ Ia × Ib e valem a c e b c. 6
Note agora que se A ∈ Ia então x(A, B) ∈ A ∩ B ⊆ A e se (A′ , B ′ ) (A, B) então x(A′ , B′ ) ∈

A′ ∩ B ′ ⊆ A ∩ B ⊆ A. Isso significa que o reticulado {x(A, B) , (A, B) ∈ Ia × Ib } está eventualmente
em A. Como isso vale para todo A ∈ Ia , então o reticulado {x(A, B) , (A, B) ∈ Ia × Ib } converge a a.
Mutatis mutantis, constata-se analogamente que o reticulado {x(A, B) , (A, B) ∈ Ia × Ib } converge a b.
Como a 6= b, isso contradiz a hipótese e, portanto, (X, τ ) é do tipo Hausdorff.
A noção de reticulado é também importante por permitir uma caracterização do conceito de conti-
nuidade de funções em espaços topológicos. Trataremos disso na Seção 22.5.2 e à página 1117.
22.3.1 Reticulados em Espaços Métricos

Seja M um conjunto dotado de uma métrica d e seja I um conjunto dirigido com respeito a uma relação
de ordem parcial . Um reticulado f : I → M é dita ser um reticulado de Cauchy em relação à métrica
d se para todo ǫ > 0 existir um n(ǫ) ∈ I (possivelmente dependente de ǫ) tal que d(f (i), f (j)) < ǫ
para todos i e j tais que i n(ǫ) e j n(ǫ).
É bastante claro que essa definição generaliza a noção de seqüência de Cauchy encontrada à página
944. Naquele caso o conjunto dirigido é o conjunto dos naturais N com a relação de ordem usual.
Lembremos que um conjunto M dotado de uma métrica d é dito ser completo (ou seqüencialmente
completo) em relação a essa métrica se vale a afirmação que uma seqüência converge em M se e somente
ser for uma seqüência de Cauchy.
Para entendermos a relação entre as noções de seqüências de Cauchy e reticulados de Cauchy em
espaços métricos completos a seguinte proposição é essencial.
Proposição 22.6 Seja M completo em relação à métrica d, ou seja, tal que uma seqüência converge
em M se e somente ser for uma seqüência de Cauchy. Então vale a afirmação que um reticulado
converge em M se e somente ser for um reticulado de Cauchy. 2
Prova. Se um reticulado f : I → M é convergente, então existe m ∈ M tal que para todo ǫ > 0 existe
n(ǫ) ∈ I tal que d(f (i), m) < ǫ para todo i ∈ I com a propridade i n(ǫ). Assim, se i e j ∈ I são tais
que i n(ǫ) e j n(ǫ), vale pela desigualdade triangular d(f (i), f (j)) ≤ d(f (i), m) + d(m, f (j)) ≤
ǫ + ǫ, o que prova que f é um reticulado de Cauchy.
Provemos agora a recı́proca. Seja f : I → M um reticulado de Cauchy. Então para todo k ∈ N,
k > 0, existe n(1/k) ∈ I tal que d(f (i), f (j)) ≤ 1/k para todos i e j tais que i n(1/k) e j n(1/k).
Seja definido z1 := n(1) e escolhamos indutivamente para cada k ∈ N, k ≥ 2, um elemento zk ∈ I tal
que zk zk−1 e zk n(1/k). É claro que
z1 z2 z3 z4 · · · com n(1/k) zk para todo k ∈ N .
Logo,
n(1/k) zk zk+1 zk+2 · · · .
Assim, para todos n > m > k vale d(f (zm ), f (zn )) < 1/k. Portanto, {f (zl ), l ∈ N} é uma seqüência de
Cauchy em M e como M é (seqüencialmente) completo, segue que {f (zl ), l ∈ N} converge a um certo
elemento m ∈ M, o que equivale a dizer que para todo ǫ > 0 existe N(ǫ) ∈ N tal que d(f (zn ), m) < ǫ
sempre que n > N(ǫ).
Seja agora ǫ > 0 fixo e escolhamos k ∈ N de forma que 1/k < ǫ. Se i ∈ I satisfaz i n(1/k), vale
d(f (i), m) ≤ d(f (i), f (zn )) + d(f (zn ), m). Tomando n > max{N(ǫ), k} teremos d(f (i), f (zn )) < ǫ
pois i n(1/k) e zn n(1/k) e também teremos d(f (zn ), m) < ǫ pois n > N(ǫ). Logo, d(f (i), m) ≤
2ǫ, provando que f converge (a m ∈ M). Isso completa a prova.
22.4 O Limite do Ínfimo e o Limite do Supremo

Seja I um conjunto dirigido e α : I → R uma função de I em R. Denotaremos por αi o valor de α no
ponto i ∈ I.
Define-se o limite do ı́nfimo da função α como sendo
lim inf α := sup inf αk , (22.1)

I n∈I kn
ou, numa notação mais completa (e algo pedante),

n o
lim inf α := sup inf αk , k n, k ∈ I , n ∈ I . (22.2)
I
Analogamente, define-se o limite do supremo da função α como sendo
lim sup α := inf sup αk , (22.3)

I n∈I kn
ou, n o

lim sup α := inf sup αk , k n, k ∈ I , n ∈ I . (22.4)
I
As definições acima indicam que tanto o limite do supremo quanto o do ı́nfimo dependem da ordem
adotada . Omitiremos essa dependência para não carregar a notação.
É fácil provar que sempre se tem
lim inf α ≤ lim sup α . (22.5)

I I
Caso lim inf I α = lim supI α o limite de α é definido como sendo
lim α = lim inf α = lim sup α . (22.6)

I I I
• Invariância por redução inicial do domı́nio
Que interesses há nas definições acima? Há vários. Um deles reside na seguinte propriedade.
Suponha que I possa ser escrito como uma união I = I0 ∪ J onde I0 e J têm as seguintes propriedades
1. Para todo i0 ∈ I0 existe pelo menos um j ∈ J tal que i0 j.
2. J é um conjunto dirigido pela mesma relação de ordem .
3. Para todo j ∈ J vale que se k j então k ∈ J.
Então vale que

lim inf α = lim inf α
J I
e que
lim sup α = lim sup α ,
J I
ou seja, os limites do ı́nfimo e do supremo de uma função em um conjunto dirigido não mudam se
subtrairmos de I um conjunto do “começo” de I (no caso, I0 ). Essa propriedade, que é uma das
principais razões de ser das definições de limite acima e que tem uma importância fundamental, será
denominada aqui invariância por redução inicial do domı́nio.
Vamos prová-la para o limite do ı́nfimo. O caso do limite do supremo é análogo. Como
sup(A ∪ B) = max{sup(A), sup(B)} ,
segue que
lim inf α = max {α, β} , onde (22.7)

I
!

α := sup inf αk , k n, k ∈ I , n ∈ I0 ,
!

β := sup inf αk , k n, k ∈ I , n ∈ J .
Pelas hipóteses, existe para todo i0 ∈ I0 pelo menos um elemento j(i0 ) ∈ J com a propriedade que
j(i0 ) i0 . Logo, para cada i0 ∈ I0 tem-se

ak , k j(i0 ), k ∈ I ⊂ ak , k i0 , k ∈ I
e, assim,
inf ak , k j(i0 ), k ∈ I ≥ inf ak , k i0 , k ∈ I .
Dado que
!

sup inf αk , k j, k ∈ I , j ∈ J ≥ inf αk , k j(i0 ), k ∈ I
segue que para cada i0 ∈ I0 fixo

!

sup inf αk , k j, k ∈ I , j ∈ J ≥ inf ak , k i0 , k ∈ I .
Assim,
! !

sup inf αk , k j, k ∈ I , j∈J ≥ sup inf αk , k n, k ∈ I , n ∈ I0 .
Como lim inf I α é o máximo entre os elementos de cada lado da última desigualdade (veja (22.7)),
provou-se que
!

lim inf α = sup inf αk , k n, k ∈ I , n ∈ J .
I
Claramente, para cada n ∈ J,

αk , k n, k ∈ I = αk , k n, k ∈ J ,
pois se k n com n ∈ J então tem-se que k ∈ J (propriedade 3 da definição de I0 e J). Assim,

!

lim inf α = sup inf αk , k n, k ∈ J , n ∈ J = lim inf α .
I J
• Limite do supremo e limite do ı́nfimo de um conjunto
Recordemos a seguinte definição. Seja X um conjunto com uma topologia τ . Seja A um subconjunto
de X. Um ponto x ∈ X é dito ser um ponto limite de A se todo aberto T ∈ τ que contiver x contiver
pelo menos um ponto de A distinto x. Ou seja, se x ∈ T então (T ∩ A) \ {x} =6 ∅.
Denotaremos por pt(A) o conjunto de pontos limite de de A. Vamos supor que X seja parcialmente
ordenado. Definimos então
lim sup A = sup(pt(A))
τ
e
lim inf A = inf(pt(A)).
τ
desde, é claro, que os supremos e ı́nfimos existam em X. Como antes essa definição depende do
ordenamento adotado em X.
• Advertência
Seja I como antes um conjunto dirigido e seja uma função α : I → R. Denotemos por Im(α) a
imagem de α. Adotemos em R a topologia usual τR e o ordenamento usual.
É então tentador fazermos a seguinte pergunta: será verdade que lim inf I α = lim inf τR Im(α) e que
lim supI α = lim supτR Im(α)?
A resposta pode ser sim ou não dependendo do tipo de ordenamento adotado em I. Vejamos os
seguintes exemplos.
Exemplo 1. Adotemos I = N e em N adotemos o ordenamento usual. Tomemos como função a
seqüência α definida da seguinte forma



 −1 − 1/n, para n par
αn := .


 1 + 1/n, para n ı́mpar
O conjunto Im(α) tem dois pontos limite, a saber, −1 e +1. Assim,

lim inf Im(α) = −1 e lim sup Im(α) = 1 .
τR τR
É também fácil de provar que

lim inf α = −1 e lim sup α = 1 .
N N
Exemplo 2. Adotemos X = N e em N adotemos o seguinte ordenamento : se n e m são ambos

pares ou ambos ı́mpares então n m se n ≤ m. Entanto, se n é par e m é ı́mpar temos sempre que
n ≺ m.
Esse ordenamento coloca todos os pares como “menores” que todos os ı́mpares. Entre os pares e
entre os ı́mpares o ordenamento é o usual.
Tomemos a mesma seqüência α definida acima. Claramente continuamos tendo
lim inf Im(α) = −1 e lim sup Im(α) = 1 .

τR τR
Porém, com o ordenamento dos naturais adotado, temos que
lim inf α = 1 e lim sup α = 1 .

N, N,
• Mais sobre o limite do supremo e sobre o limite do ı́nfimo
Verificamos acima que não é verdadeira em geral a afirmativa que o limite do supremo de uma
seqüência coincide com o supremo dos pontos limite de sua imagem. Há porém uma relação entre o
limite do supremo e os pontos de acumulação da seqüência.
Tomemos I como sendo o conjunto dos naturais com o ordenamento usual e seja α : I → R uma
seqüência. Adotamos em R a topologia usual e o ordenamento usual.
Seja Ac(α) o conjunto de todos os pontos de acumulação da seqüência α.
Tem-se então que
lim inf α = inf(Ac(α))
I
e que
lim sup α = sup(Ac(α)) .
I
Não apresentaremos a prova aqui. Observamos, porém, que esse fato é verdadeiro qualquer que seja
o ordenamento adotado em N. Para provar isso precisamos ainda introduzir o conceito de ponto de
acumulação para funções definidas em conjuntos dirigidos gerais, o que faremos na Seção 22.3 sobre
reticulados.
E. 22.12 Exercı́cio. Seja a seqüência cn = sen(1/n), n = 1, 2, 3, . . .. Determine seus pontos de

acumulação, lim sup cn e lim inf cn . 6
E. 22.13 Exercı́cio. Sejam cn e dn duas seqüências limitadas de números reais. Mostre as seguintes
desigualdades.
1. lim sup(cn + dn ) ≤ lim sup cn + lim sup dn .

n→∞ n→∞ n→∞

2. lim sup(cn dn ) ≤ lim sup cn lim sup dn .
n→∞ n→∞ n→∞
3. Para todo a > 0 vale lim sup(acn ) = a lim sup cn .

n→∞ n→∞
4. Para todo a < 0 vale lim sup(acn ) = a lim inf cn .

n→∞ n→∞
O estudante pode estar se perguntando por que não temos sempre simplesmente a igualdade
lim sup(cn + dn ) = lim sup cn + lim sup dn . Veja o que ocorre no exemplo simples onde cn = (−1)n
e dn = −(−1)n . Aqui temos lim sup(cn + dn ) = lim sup 0 = 0, mas lim sup cn = +1 e lim sup dn = +1.
Logo, lim sup(cn + dn )0 < 2 = lim sup cn + lim sup dn e a igualdade, portanto, não é válida nesse caso.
E. 22.14 Exercı́cio. Seja an uma seqüência de números reais. Mostre que
lim sup(−an ) = − lim inf an .

n→∞ n→∞
E. 22.15 Exercı́cio. Sejam cn e dn duas seqüências de números reais tais que cn ≤ dn para todo n ∈ N.
Mostre que
lim sup cn ≤ lim sup dn e lim inf cn ≤ lim inf dn .
n→∞ n→∞ n→∞ n→∞
22.5 Continuidade de Funções em Espaços Topológicos

Nesta seção apresentaremos diversas definições do conceito de continuidade de funções em espaços
topológicos, discutiremos a equivalência dessas definições e estudaremos suas conseqüências. Como já
dissemos, a possibilidade de definir e noção de continuidade de funções entre espaços topológicos é
parte da razão de ser da própria noção de topologia.
Vamos a uma definição de continuidade, que chamaremos de definição de continuidade número 1.
DC 1. Sejam M e N dois conjuntos não-vazios, o primeiro dotado de uma topologia τM e o segundo
de uma topologia τN . Uma função f : M → N é dita ser uma função contı́nua em relação às topologias
τM e τN se f −1 (A) ∈ τM para todo aberto A de τN .
Em outras palavras, uma função é dita ser contı́nua se a imagem inversa de qualquer conjunto
aberto na topologia do conjunto imagem for igualmente um conjunto aberto na topologia do conjunto
domı́nio.
A seguinte afirmação é uma conseqüência imediata da definição acima.
Proposição 22.7 Sejam M1 , M2 e M3 espaços topológicos com topologias τM1 , τM2 e τM3 , respectiva-
mente. Seja f : M1 → M2 , contı́nua em relação às topologias τM1 e τM2 , e g : M2 → M3 , contı́nua em
relação às topologias τM2 e τM3 . Então g ◦ f : M1 → M3 é contı́nua em relação às topologias τM1 e τM3 .
2
Uma série de questões vêm à mente de qualquer estudante que se depara com a definição acima
pela primeira vez. Por exemplo, as seguintes: 1) No caso de funções reais definidas na reta real o que a
definição acima tem a ver com a noção de continuidade tão bem conhecida e ensinada? 2) Na definição
acima, o conceito de continuidade parece ser fortemente dependente das topologias τM e τN escolhidas
no domı́nio e na imagem da função. Pode acontecer de uma função dada ser contı́nua em relação a
algumas topologias mas não em relação a outras? 3) É estranho que na definição acima a noção de
continuidade seja apresentada em termos de uma propriedade da imagem inversa f −1 da função f . Isso
tem mesmo que ser assim? 4) Será possı́vel caracterizar a propriedade de continuidade diretamente em
termos de propriedades da f ?
Essas questões são muito pertinentes e serão respondidas uma a uma no que segue.
Fazemos notar que, na definição nova de continuidade que apresentamos acima, as topologias τM e
τN são genéricas, não necessitando ser, por exemplo, topologias métricas em M ou N, respectivamente.
Vamos, porém, discutir agora o caso tradicional em que M e N são iguais à reta real dotada da topologia
métrica usual τR .
• A noção usual de continuidade em espaços métricos
Seja f : R → R uma função. A noção usual de continuidade diz que f é contı́nua em R se e somente
se para todo x ∈ R e para todo número ǫ > 0 existir um número δ = δ(x, ǫ) > 0 (eventualmente
dependente de x e ǫ) tal que, sempre que para algum y tivermos |y−x| < δ(x, ǫ) então |f (y)−f (x)| < ǫ.
Essa definição pode ser facilmente generalizada para o caso de espaços métricos gerais.
DCEM 1. Sejam M e N dois conjuntos não-vazios dotados de métricas dM e dN , respectivamente.
Uma função f : M → N é dita ser contı́nua (no sentido usual) em relação às métricas dM e dN se para
todo x ∈ M e para todo número ǫ > 0 existir um número δ(x, ǫ) > 0 tal que se y ∈ BdM (x, δ(x, ǫ))
então f (y) ∈ BdN (f (x), ǫ).
Acima, Bd (a, r) é a bola aberta de raio r centrada em torno de a segundo a métrica d.
Vejamos um exemplo de uma função real que não é contı́nua segundo a definição acima. Seja a
função 


 1, se t ≥ 0 ,
H(t) := (22.8)


 0, se t < 0 .
Então, para x = 0 e para ǫ = 1/10 (por exemplo) não é possı́vel achar um número δ tal que se
|y − x| = |y| < δ tenhamos |H(y) − H(x)| = |H(y) − 1| < 1/10. A razão é que para qualquer y ≥ 0
temos |H(y) − 1| = 0 que é menor que 1/10, mas para qualquer y < 0 temos |H(y) − 1| = 1 que,
obviamente, é sempre maior que 1/10.
E. 22.16 Exercı́cio. Seja a função g(t) = t2 . Mostre explicitamente que g é contı́nua pela definição
acima. Como pode ser δ(x, ǫ) como função de x e ǫ nesse caso? 6
As linhas acima recordam-nos a definição usual de continuidade de funções definidas em R, tal

como aprendida nos cursos iniciais de Cálculo. Qual a conexão com a nova noção de continuidade DC
1 que apresentamos acima? Vamos esclarecer este ponto agora, provando que as duas definições são
equivalentes.
Seja uma função f : M → N tal que f −1 (A) é um aberto em τM para todo A ∈ τN . Sejam um
ponto x no domı́nio da f e f (x) sua imagem. Seja A = BdN (f (x), ǫ) (com ǫ > 0) um aberto em τN .
Pelas hipóteses, o conjunto f −1 (A) é um aberto em M que deve conter o ponto x (pois f (x) ∈ A).
Deve, portanto, haver uma bola aberta, de raio não-nulo, centrada em x inteiramente contida no aberto
f −1 (A). Chamemos seu raio de δ = δ(x, ǫ) (em geral, o raio deve depender de A e, portanto, de x e ǫ).
Em M essa bola é BdM (x, δ). Note-se que, como B ⊂ f −1 (A), segue que f (B) ⊂ A = BdN (f (x), ǫ).
Isso, finalmente, é exatamente a afirmação que f é contı́nua no sentido da definição DCEM 1.
Vamos agora supor que f seja uma função contı́nua no sentido da definição DCEM 1 e provar que
ela também é contı́nua no sentido da definição DC 1. Isso, junto com o visto no último parágrafo,
mostra que as duas noções são equivalentes.
Seja A ∈ τN um aberto qualquer em N e vamos supor, sem perder a generalidade, que A contém
elementos da imagem de f . Seja x ∈ f −1 (A). Seja, para algum ǫ > 0, BdN (f (x), ǫ) a bola aberta de
raio ǫ centrada em f (x). Como A é aberto e f (x) ∈ A, teremos BdN (f (x), ǫ) ⊂ A se escolhermos ǫ
pequeno o suficiente (ainda com ǫ > 0). Pela hipótese que f é contı́nua no sentido da definição DCEM
1, existe δ(x, ǫ) tal que se y ∈ BdM (x, δ(x, ǫ)) então f (y) ∈ BdN (f (x), ǫ) ⊂ A. Logo, y ∈ f −1 (A).
Mas isso significa dizer que para todo x ∈ f −1 (A) somos capazes de identificar um raio δ = δ(x, ǫ)
(para o ǫ escolhido) tal que todo elemento que dista de x menos que δ é também elemento do conjunto
f −1 (A). Isso é afirmar que f −1 (A) é um conjunto aberto, pela própria definição de conjuntos abertos
na topologia métrica de dM , provando a validade das condições da definição DC 1.
Isso provou a equivalência que querı́amos estabelecer e, para o caso de funções na reta real com a
topologia τR usual, respondeu a pergunta 1) acima.
Além da noção de continuidade de funções entre espaços métricos estabelecida acima existe também
a noção de continuidade uniforme. Sobre ela falaremos com mais detalhe à página 1212.
• Funções Lipschitz-contı́nuas em espaços métricos
Já nos encontramos anteriormente, por exemplo, no Capı́tulo 18, página 994, com a noção de função
Lipschitz5 -contı́nua, ao menos no caso de funções reais. Essa noção pode ser facilmente generalizada
para funções entre espaços métricos gerais.
Definição. Sejam M e N dois conjuntos não-vazios dotados de métricas dM e dN , respectivamente.

Uma função f : M → N é dita ser Lipschitz-contı́nua em relação às métricas dM e dN se existir uma
5
constante L ≥ 0 tal que

dN f (x), f (y) ≤ L dM (x, y) , (22.9)
para todos x, y ∈ M.
A condição (22.9) é denominada condição de Lipschitz e uma constante L que a faça verdadeira é
denominada constante de Lipschitz para a função f . É elementar provar que toda função Lipschitz-
contı́nua é contı́nua no sentido usual, caracterizado pela definição DCEM 1.
• Continuidade por partes
Uma outra noção importante é a de continuidade por partes.
Definição. Sejam M e N não-vazios e dotados de topologias τM e τN , respectivamente. Uma função

f : M → N é dita ser uma função contı́nua por partes em relação às topologias τM e τN se existir um
[m
conjunto finito de abertos disjuntos A1 , . . . , Am em M satisfazendo M = Ak e tais que:
k=1
1. Para todo k vale que (f ↾ Ak ) : Ak → N, a restrição de f ao aberto Ak , é contı́nua, em relação à

topologia induzida por τM sobre Ak e em relação à τN .
2. Para todo k existe uma extensão de f ↾ Ak sobre o fechado Ak a qual é contı́nua em relação à
topologia induzida por τM sobre Ak e em relação à τN .
Alguns autores permitem enfraquecer a condição de que a coleção de abertos Ak seja finita, permi-
tindo que seja contável.
22.5.1 Outras Caracterizações do Conceito de Continuidade em Espaços

Topológicos
A caracterização DC 1 do conceito de continuidade de uma função entre dois espaços topológicos que
apresentamos no inı́cio da sub-seção anterior é equivalente a uma série de outras caracterizações que
discutiremos agora, as quais podem, eventualmente, ser mais úteis que a descrita acima.
Vamos a uma outra definição de continuidade, que chamaremos de definição de continuidade número
2.
τM e τN se f −1 (F ) for um conjunto fechado para a topologia τM para todo conjunto fechado F segundo
τN .
Em outras palavras, uma função é dita ser contı́nua se a imagem inversa de qualquer conjunto
fechado na topologia do conjunto imagem for igualmente um conjunto fechado na topologia do conjunto
domı́nio.
Desejamos provar a equivalência das definições DC 1 e DC 2. Para tal, notemos que, para qualquer
conjunto C ⊂ N, vale f −1 (C) = f −1 (C c )c , ou seja,
f −1 (C) = M \ f −1 (N \ C) .
E. 22.18 Exercı́cio (fácil). Demonstre essa relação. 6
Com essa relação em mãos fica fácil provar que se f for contı́nua segundo DC 1 então a imagem
inversa de qualquer conjunto C fechado em N é fechado em M. Mutatis mutantis, se f e contı́nua
segundo DC 2 então a imagem inversa de qualquer aberto C em N é aberto em M. Isso estabelece
que as duas definições são equivalentes.
Vamos agora a uma terceira definição de continuidade que será útil quando tratarmos do conceito
de continuidade em espaços métricos.
de uma topologiaτN . Uma função f : M → N é dita ser uma função contı́nua em relação às topologias
τM e τN se f D ⊂ f (D) para todo conjunto D ⊂ M. Aqui, D é o fecho de D na topologia τM e f (D)
é o fecho de f (D) na topologia τN .
Note-se aqui dois fatos: 1) nesta nova definição a continuidade é caracterizada em termos de propri-
edades das imagens da função f e não em termos das suas imagens inversas; 2) acima D é um conjunto
qualquer de M, não apenas um aberto ou um fechado.
Vamos provar agora que a definição DC 3 é equivalente à definição DC 2 (e, portanto, à definição
DC 1). Para tal, notemos que as seguintes afirmativas são verdadeiras: sejam X ⊂ M e Y ⊂ N dois
conjuntos quaisquer. Então
f (f −1(Y )) ⊂ Y e f −1 (f (X)) ⊃ X .
E. 22.19 Exercı́cio (fácil). Mostre isso. 6
Fora isso, é também claro que se X ⊂ M e Y ⊂ N são tais que f (X) ⊂ Y , então f −1 (Y ) ⊃ X.
Seja então f contı́nua segundo DC 3 e seja F ⊂ N, fechado. Teremos que

f f −1 (F ) ⊂ f (f −1 (F )) ⊂ F = F ,
ou seja,
f f −1 (F ) ⊂ F .
Logo,
f −1 (F ) ⊃ f −1 (F ) .
Como um conjunto qualquer é sempre subconjunto e seu fecho, essa última relação diz que f −1 (F ) =
f −1 (F ), que é o mesmo que dizer que f −1 (F ) é fechado. Assim, se f é contı́nua segundo DC 3 é
também segundo DC 2.
Seja agora f contı́nua segundo DC 2. E seja D ⊂ M, qualquer. Tomando Y = f (D), vimos acima
que
−1
f f f (D) ⊂ f (D). (22.10)
Agora,
D ⊂ f −1 (f (D)) ⊂ f −1 f (D) .

Mas f −1 f (D) é fechado, pois f é contı́nua segundo DC 2 e f (D) é fechado. Assim, D ⊂ f −1 f (D) ,

−1
pois D é o menor fechado que contém D. Disso segue que f D ⊂ f f f (D) . Juntando-se isso

à (22.10), concluı́mos que f D ⊂ f (D), provando a equivalência desejada.
22.5.2 Continuidade e Convergência
• Continuidade e convergência em espaços métricos
Vamos agora tratar de mais uma caracterização do conceito de continuidade de funções, carac-
terização esta especializada ao caso de funções entre espaços métricos. Uma primeira definição do
conceito de continuidade de funções entre espaços métricos é a definição DCEM 1, que encontra-se
à página 1112. O ponto importante da caracterização que aqui descreveremos é que a mesma trata a
noção de continuidade em termos de convergência de seqüências, sendo por isso de especial importância
prática.
Temos a seguinte definição:
DCEM 2. Sejam M e N dois conjuntos não-vazios dotados de métricas dM e dN , respectivamente.
Sejam τdM e τdN as topologias induzidas por essas métricas em M e N, respectivamente. Uma função
f : M → N é contı́nua em relação às métricas dM e dN se para todo x ∈ M e para toda seqüência
{xn , n ∈ N} que converge a x em relação à métrica dM tivermos
f (x) = lim f (xn ) ,

n→∞
ou seja,
f lim xn = lim f (xn ) ,
n→∞ n→∞
onde a convergência de f (xn ) se dá em relação à métrica dN .

Vamos mostrar que esta última definição de continuidade é, no caso de espaços métricos, equivalente
às definições DC 1, 2 e 3. No caso de espaços topológicos não-métricos tal equivalência pode não ser
válida. Lembramos o comentário que fizemos na Seção 22.1 que há espaços topológicos não-métricos
nos quais nenhuma seqüência é convergente, fora as seqüências eventualmente constantes. Um exemplo
é o de um conjunto X não contável dotado da topologia co-contável. Essa é a raiz da dificuldade em
se estender a definição DCEM 2 para espaços topológicos não-métricos.
Prova da equivalência. Vamos supor que f seja contı́nua segundo DCEM 2 e provar que f é então
contı́nua segundo DC 3. Seja D ⊂ M genérico e não-vazio e seja x ∈ D (o caso D = ∅ é trivial). Então,
como M é um espaço métrico existe uma seqüência xn ∈ D que converge a x. Pelas hipóteses então,
f (x) = lim f (xn ). Como x pode ser qualquer elemento de D e como os pontos f (xn ) são elementos
n→∞
do conjunto f (D), isso significa que f D ⊂ f (D), o que prova que f é contı́nua segundo DC 3.
Vamos agora supor f contı́nua segundo DC 1 e vamos mostrar que ela então o é segundo DCEM
2. Suponha que para x ∈ M haja uma seqüência xn em M convergindo a x segundo dM e suponha
que f (xn ) não converge a f (x). Então existe um aberto A de N contendo f (x) e tal que f (xn ) não
está eventualmente em A. Isso significa que xn não está eventualmente em f −1 (A) (por que?). Como
pelas hipóteses f −1 (A) é um aberto e x ∈ f −1 (A) (por que?), isso diz que xn não converge a x, uma
contradição. Logo lim f (xn ) = f (x) e a equivalência está provada.
n→∞
E. 22.20 Exercı́cio. Seja a função H definida em (22.8). Adotando a topologia usual de R tanto na
imagem quanto no domı́nio de H, exiba seqüências xn em R convergindo a x = 0 tais que lim H(xn ) 6=
n→∞
H(0). 6
• Continuidade e convergência em espaços topológicos gerais
Como observamos acima, a definição de continuidade DCEM 2 não pode ser diretamente trans-
posta a espaços topológicos gerais, pois nesses casos ocorrem dificuldades especiais concernentes à
convergência de seqüências. Como aprendemos e discutimos na Seção 22.3, página 1102, essas difi-
culdades podem ser superadas com o emprego da noção mais geral de reticulado, como alternativa às
seqüências. De fato, é possı́vel apresentar mais uma definição do conceito de continuidade, equiva-
lente às anteriores, nas mesmas linhas de DCEM 2, mas com a noção de reticulado substituindo a de
seqüência.
Para uma melhor compreensão do que segue, recomendamos uma re-leitura da Seção 22.3, página
1102. Temos a seguinte definição:
τM e τN se para todo x ∈ M e para todo reticulado {xλ , λ ∈ I} em M que tem x como ponto limite
na topologia τM , o reticulado {f (xλ ), λ ∈ I} em N tiver f (x) como ponto limite na topologia τN .
Note que, acima, os reticulados {xλ , λ ∈ I} e {f (xλ ), λ ∈ I} podem tem outros pontos limite
além de x e f (x), respectivamente, pois M e N não são necessariamente do tipo Hausdorff nas suas
respectivas topologias.
Vamos mostrar que esta última definição de continuidade equivale às definições DC 1, 2 e 3.
Prova da equivalência. Vamos supor que f seja contı́nua segundo DC 4 e provar que f é então
contı́nua segundo DC 3. Seja D ⊂ M genérico e não-vazio e seja x ∈ D (o caso D = ∅ é trivial).
Então, pela Proposição 22.4, página 1103, existe um reticulado {xλ , λ ∈ I} em D tem x como ponto
limite em τM . Pelas hipóteses então, f (x) é ponto limite de {f (xλ ), λ ∈ I} em τN . Como x pode
ser qualquer elemento de D e como os pontos f (xλ )são elementos do conjunto f (D), isso significa,
também pela Proposição 22.4, página 1103, que f D ⊂ f (D), o que prova que f é contı́nua segundo
DC 3.
Vamos agora supor f contı́nua segundo DC 1 e vamos mostrar que ela, então, o é segundo DC 4.
Suponha que para x ∈ M haja um reticulado {xλ , λ ∈ I} em M que tem x como ponto limite em
τM e suponha que f (x) não é ponto limite de {f (xλ ), λ ∈ I} em τN . Então existe um aberto A de N
contendo f (x) e tal que {f (xλ ), λ ∈ I} não está eventualmente em A. Isso significa que {xλ , λ ∈ I}
não está eventualmente em f −1 (A) (por que?). Como pelas hipóteses f −1 (A) é um aberto e x ∈ f −1 (A)
(por que?), isso diz que x não é ponto limite de {xλ , λ ∈ I} em τM , uma contradição. Logo f (x) é
ponto limite de {f (xλ ), λ ∈ I} em τN e a equivalência está provada.
Capı́tulo 23
Elementos da Teoria da Integração
Conteúdo
23.1 Comentários Preliminares . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1120
23.2 A Integração no Sentido de Riemann . . . . . . . . . . . . . . . . . . . . . 1122
23.2.1 A Integral de Riemann Imprópria . . . . . . . . . . . . . . . . . . . . . . . . . 1131
23.2.2 Diferenciação e Integração em Espaços de Banach . . . . . . . . . . . . . . . 1133
23.3 A Integração no Sentido de Lebesgue . . . . . . . . . . . . . . . . . . . . . 1139
23.3.1 Funções Mensuráveis e Funções Simples . . . . . . . . . . . . . . . . . . . . . 1139
23.3.2 A Integral de Lebesgue. Integração em Espaços Mensuráveis . . . . . . . . . 1145
23.3.3 A Integral de Lebesgue e sua Relação com a de Riemann . . . . . . . . . . . 1155
23.3.4 Teoremas Básicos sobre Integração e Convergência . . . . . . . . . . . . . . . 1158
23.3.5 Alguns Resultados de Interesse . . . . . . . . . . . . . . . . . . . . . . . . . . 1162
23.4 Os Espaços Lp e Lp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1164
23.4.1 As Desigualdades de Hölder e de Minkowski . . . . . . . . . . . . . . . . . . . 1167
23.4.2 O Teorema de Riesz-Fischer. Completeza . . . . . . . . . . . . . . . . . . . . 1171
Apêndices . . . . . . . . . . . . . . . . . . . . 1172
23.A Demonstração da Proposição 23.3 . . . . . . . . . . . . . . . . . . . . . . . 1172
23.B Caracterizações e Propriedades de Funções Mensuráveis . . . . . . . . . . 1173
23.C Prova do Lema 23.3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1179
23.D Demonstração de (23.22) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1180
23.E A Equivalência das Definições (23.23) e (23.24) . . . . . . . . . . . . . . . 1181
23.F Prova do Teorema da Convergência Monótona . . . . . . . . . . . . . . . . 1183
23.G Prova do Lema de Fatou . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1184
23.H Prova do Teorema da Convergência Dominada . . . . . . . . . . . . . . . . 1185
23.I Prova dos Teoremas 23.2 e 23.3 . . . . . . . . . . . . . . . . . . . . . . . . . 1186
23.J Prova das Desigualdades de Hölder e Minkowski . . . . . . . . . . . . . . 1189
23.K Prova do Teorema de Riesz-Fischer . . . . . . . . . . . . . . . . . . . . . . 1191
A presentaremos neste capı́tulo ingredientes básicos da chamada teoria da integração, centrada

na noção de integral de funções definidas em espaços mensuráveis, a integral de Lebesgue
sendo uma de suas instâncias de particular importância. Iniciaremos com uma breve digressão
sobre o desenvolvimento histórico e recordaremos a noção de integrabilidade no sentido de
Riemann, passando a seguir à noção mais geral de integração em espaços de medida. Advertimos o
1119
leitor que os assuntos tratados neste capı́tulo envolvem por vezes noções e problemas matematicamente
muito sutis, sendo difı́cil apresentá-los de modo resumido ou simplificado. Por essa razão, optamos por
apresentar certas demonstrações mais técnicas não no texto principal, mas nos apêndices que se iniciam
à página 1172. Nossa intenção é, antes de tudo, guiar o leitor, apontando-lhe os ingredientes de maior
importância e de modo a eventualmente motivar seu interesse em um estudo mais aprofundado.
Como referências gerais para a teoria da medida e da integração, recomendamos [123] (fortemente),
e também [105], [83], [122], [44] ou ainda [96, 97]. Um texto clássico é [56]. Para estas Notas também
coletamos material de [63, 64], [62] e de [10].
23.1 Comentários Preliminares

É parte essencial da formação de todo fı́sico ou matemático aprender as noções básicas do Cálculo,
como os conceitos de limite, de derivada e de integral de funções. Nos passos iniciais dessa formação é
importante dar ênfase a métodos de cálculo de derivadas e integrais de funções e, conseqüentemente, e
é natural que assim seja, pouco se discute sobre certas sutilezas ocultas por trás de tais conceitos.
A noção de integral de uma função é uma das idéias fundamentais de toda a Matemática e originou-
se no século XVII com os trabalhos de Newton1 e Leibniz2 , ainda que tenha raı́zes muito mais antigas,
remontando pelo menos a Arquimedes3 . Intuitivamente, a integral de uma função real em um intervalo
compacto [a, b] é entendida como a área descrita sob o gráfico dessa função nesse intervalo. Essa
noção simples é suficiente para motivar e sustentar os primeiros passos de qualquer aluno iniciante e,
mesmo em um plano histórico, satisfez as mentes matemáticas até cerca de meados do século XIX,
pois as aplicações almejadas pela Fı́sica e pela Matemática de então pouco requeriam além dessa noção
intuitiva.
Mesmo hoje, pode ser difı́cil a um estudante, acostumado com o cálculo de integrais de funções
“elementares”, entender que a noção de integral envolve questões sutis, principalmente pois essas suti-
lezas envolvem primordialmente a questão de caracterizar para quais funções o conceito de integral se
aplica. Considere-se, por exemplo, as seguintes funções:
 

 


 1, se x for irracional 
 sen(x), se x for transcendente

 

 
f (x) = , ou f (x) = . (23.1)

 


 


 

 0, se x for racional  x2 , se x for algébrico
Terão essas funções uma integral em um dado intervalo compacto [a, b]? Como essas funções são
descontı́nuas em todos os pontos, é fácil reconhecer que a noção de integral como “área sob o gráfico”
de uma função é aqui muito problemática (o leitor não convencido deve tentar desenhar os gráficos
dessas funções e se perguntar qual a “área” sob os mesmos).
1
2
3
Arquimedes de Siracusa (ci. 287 A.C. - ci. 212 A.C.).
Na grande maioria das aplicações com as quais nos acostumamos, funções como essas não ocorrem,
mas sim funções contı́nuas e suficientemente diferenciáveis, para as quais a noção intuitiva de integral
dificilmente é problemática. No entanto, uma série de desenvolvimentos teóricos na Matemática con-
duziram à necessidade de estender a noção de integral a classes mais abrangentes de funções, como as
do exemplo acima. Seria precipitado enumerar neste ponto quais foram precisamente esses desenvol-
vimentos que pressionaram por um aprofundamento da noção de integral, pois para tal uma série de
comentários e definições teria que ser antecipada. Discutiremos isso no devido momento. Menciona-
mos, porém, que esse avanço foi possibilitado pelo desenvolvimento concomitante da Teoria da Medida,
que, como já discutimos alhures, fundamentou e estendeu noções como comprimento, área, volume etc.,
de conjuntos. A área da Matemática que surgiu desse desenvolvimento é usualmente conhecida como
Teoria da Integração.
Um outro avanço importante obtido através da Teoria da Integração foi o seguinte. As noções
de integração que aprendemos nos cursos de Cálculo aplicam-se a integrais de funções definidas em
conjuntos como R, Rn , C etc. Uma das conseqüências mais importantes do desenvolvimento da teoria da
integração foi a possibilidade de definir a noção de integral mesmo para funções definidas em conjuntos
mais “exóticos” que os supra-citados, tais como conjuntos fractais, conjuntos de curvas, de funções e
outros.
Esse desenvolvimento relevou-se de grande importância para a Fı́sica também. Na Mecânica
Quântica, por exemplo, ocorrem as chamadas integrais funcionais, que são integrais de funções de-
finidas em conjuntos de curvas contı́nuas. Dados dois pontos x e y no espaço, um método importante
desenvolvido por Feynman4 permite expressar certas funções de Green G(x, y) de sistemas quânticos
em termos de integrais sobre o conjunto Cx, y de todas as curvas contı́nuas no espaço que conectam
x a y. Na Teoria Quântica de Campos, o análogo das integrais de Feynman é ainda mais abstrato e
envolve integrais sobre conjuntos de distribuições5 . Como se percebe, tais aplicações requerem muito
mais que definir a noção de integral como “área” ou “volume sob um gráfico”.
Tentativas informais de caracterizar a noção de integral são tão antigas quanto o Cálculo. Leibniz
tentou definir integrais e derivadas a partir da noção de infinitésimos. A noção de infinitésimos carece
de respaldo matemático mas, como outras idéias filosófico-especulativas infelizes do passado, estende
sua perversa influência até o presente, causando em alguns, especialmente em cursos de fı́sica e en-
genharia, uma falsa percepção de compreensão da noção de integral que impede o entendimento de
outros desenvolvimentos. A noção de limite, que acabou por expurgar os infinitésimos da linguagem
matemática, era praticamente desconhecida dos fundadores do Cálculo, tendo sido usada pela primeira
vez em 1754 por d’Alembert6 para definir a noção moderna de derivada.
Um dos primeiros passos importantes no sentido de dotar a noção de integral definida de fundamen-
tos mais sólidos foi dado por Riemann7 em 1854, em sua famosa tese de livre-docência8 . A motivação de
Riemann foi o estudo das séries de Fourier. Ao estudar condições que garantam um rápido decaimento
4
Richard Phillips Feynman (1918-1988). A formulação da Mecânica Quântica em termos das integrais funcionais de
Feynman surgiu em cerca de 1942.
5
Para uma exposição introdutória sobre a integração funcional de Feynman na Mecânica Quântica, vide, por exemplo,
[111], ou bons livros de Mecânica Quântica. Para a integração funcional de Feynman-Kac, definida no espaço-tempo
Euclidiano, vide e.g. [51] ou [116, 117, 118, 119].
6
7
8
“Über die Darstellbarkeit einer Function durch eine trigonometrische Reihe”. Publidada em 1867.
dos coeficientes de Fourier de funções periódicas, Riemann deparou-se com a necessidade de carac-
terizar mais precisamente a noção de integrabilidade de funções ou, melhor dizendo, de caracterizar
quais funções podem ser dotadas de uma integral. Um dos problemas com que Riemann se debateu foi
demonstrar
Z o que hoje em dia é conhecido como Lema de Riemann-Lebesgue: a afirmação que o limite
b
lim f (x) sen(λx)dx vale zero se f for contı́nua por partes. Esse fato é importante para a teoria
λ→∞ a
das séries de Fourier e sua demonstração (que pode ser acompanhada, por exemplo, em [36]), requer
compreender a integral como limite de somas de Riemann (a serem definidas abaixo).
A noção de integrabilidade de Riemann, que será recordada abaixo, é a primeira a ser ensinada em
(bons) cursos de Cálculo mas, como discutiremos mais adiante, também não é plenamente satisfatória.
Para a grande maioria dos propósitos modernos, a noção mais satisfatória de integrabilidade é a de
Lebesgue, que também apresentaremos adiante. É dessa noção de integral que emergem os desenvol-
vimentos mais importantes, na teoria das séries de Fourier, dos espaços de Banach e de Hilbert etc.
Adiantamos que no caso de funções limitadas reais definidas em conjuntos compactos da reta real, as
integrais de Riemann e de Lebesgue coincidem. Nesse sentido, a integração de Lebesgue estende a de
Riemann. Trataremos disso de modo mais preciso nos Teoremas 23.2 e 23.3, da Seção 23.3.3, página
1155.
Nesse momento é conveniente que encerremos esse palavreado preliminar e elevemos a discussão a
um nı́vel mais sólido.
23.2 A Integração no Sentido de Riemann

Na presente serão recapitularemos um pouco, mas em um nı́vel talvez mais avançado, da teoria da
integração de Riemann no intuito de preparar a discussão, que lhe seguirá, concernente à noção de
integral de Lebesgue. Apresentaremos apenas as definições e os resultados estruturais mais relevantes.
Tendo em vista outras aplicações (vide, por exemplo, o tratamento do Teorema da Função Implı́cita
em espaços de Banach da Seção 18.5, página 1024), nosso intuito é também o de apresentar a noção
de integral de Riemann de modo a permitir sua extensão para funções de uma variável real assumindo
valores em um espaço de Banach. Essa preocupação, ainda que sem maior importância para a aborda-
gem da teoria de integração de Lebesgue, sub-jaz boa parte dos tratamento da integração de Riemann
que se segue.
Por simplicidade, restringiremos nossa discussão aqui a funções de uma variável real. A definição
de integral de Riemann é feita inicialmente em intervalos fechados [a, b] finitos, ou seja, com −∞ <
a < b < ∞. Integrais de Riemann em intervalos não-finitos são definidas posteriormente (Seção 23.2.1,
página 1131), tomando-se limites de integrais em intervalos finitos, caso esses limites existam.
• Partições
Importante para a definição da integral de Riemann é a noção de partição de um intervalo compacto

[a, b]. Trata-se de um conjunto finito de pontos {x1 , . . . , xn } satisfazendo a = x1 < x2 < · · · < xn−1 <
xn = b, o número n podendo ser arbitrário, com n ≥ 2.
O conjunto de todas as partições possı́veis (com número de pontos arbitrário) de um intervalo
compacto [a, b] será denotado por P([a, b]), ou simplesmente P, se [a, b] estiver sub-entendido. Uma
partição particular será denotada por P ∈ P([a, b]).
A cada partição P = {x1 , . . . , xn } ∈ P([a, b]), com n pontos, estão associados n − 1 intervalos
fechados I1 , . . . , In−1 , sendo Ik = [xk , xk+1 ]. Denotaremos por |Ik | o comprimento do k-ésimo
intervalo: |Ik | := xk+1 − xk .
Outra noção útil é a de fineza de uma partição P, denotada por |P|. Se P = {x1 , . . . , xn } ∈ P([a, b])
definimos |P| := max{|I1 |, . . . , |In−1 |}. Assim, |P| é o máximo comprimento dos intervalos definidos
por P em [a, b].
Podemos fazer de P([a, b]) um conjunto dirigido9 , definindo a seguinte relação de ordem parcial:
P P′ se P ⊂ P′ . Assim, dizemos que uma partição P′ é mais fina que uma partição P se P for um
sub-conjunto de P′ . Note-se que se P P′ então |P| ≥ |P′|.
E. 23.1 Exercı́cio. Mostre que isso define uma relação de ordem parcial em P([a, b]) e que isso faz de
P([a, b]) um conjunto dirigido. 6
Se P e P′ são duas partições de [a, b] dizemos que P′ é um refinamento de P se P P′ , ou seja, se

P ⊂ P′ . Se P1 e P2 são duas partições de [a, b] então é evidente que P1 ∪ P2 é um refinamento de P1 e
de P2 .
Dada uma partição P = {x1 , . . . , xn } ∈ P([a, b]) com n pontos, podemos associar à mesma um
conjunto χ de n − 1 pontos distintos χ = {χ1 , . . . , χn−1 }, com a ≤ χ1 < · · · < χn−1 ≤ b, escolhendo
χk ∈ Ik , k = 1, . . . , n − 1, ou seja, escolhendo cada χk no k-ésimo intervalo da partição P. Se χ
é associado a P da forma descrita acima, denotamos esse fato em sı́mbolos por χ ∝ P. Considere-se
cada par (P, χ) e denotemos por X([a, b]) coleção formada por todos esses pares (P, χ), para todas
as partições P ∈ P([a, b]) e todas os conjuntos χ possı́veis associados a cada P:
X([a, b]) := {(P, χ) com P ∈ P([a, b]) e χ ∝ P} .
Tal como P([a, b]), o conjunto X([a, b]) é também um conjunto dirigido se definirmos a relação de
ordem (P, χ) (P′ , χ′ ) se P P′ , ou seja, se P ⊂ P′ (independentemente de χ e χ′ !).
• Somas de Riemann. Integrabilidade de Riemann
Dada uma função real limitada f , definida em [a, b], e dado um par (P, χ) ∈ X([a, b]), com
P = {x1 , . . . , xn } e χ = {χ1 , . . . , χn−1 }, χk ∈ Ik , k = 1, . . . , n − 1, distintos, definimos a soma de
Riemann de f associada ao par (P, χ), denotada por S[(P, χ), f ], como
n−1
X
S[(P, χ), f ] := f (χk )|Ik | .
k=1
Vide Figura 23.1.

Para f fixa, a aplicação X([a, b]) ∋ (P, χ) 7→ S[(P, χ), f ] ∈ R é um reticulado10 . Podemos, assim,
perguntar-nos se esse reticulado possui pontos de acumulação e pontos limite. Notemos que, como R é
9
Para a definição, vide página 34.
10
A definição de reticulado encontra-se à página 1102. Note que X([a, b]) é um conjunto dirigido, pelo comentado
acima.
f(x)
f(χ 6)
f(χ5 )
f(χ 1)
a=x 1 x2 x3 x4 x5 x6 b=x
7
χ1 χ2 χ3 χ4 χ5 χ6
Figura 23.1: Representação da soma de Riemann de uma função f no intervalo [a, b] com a partição
P = {a = x1 , x2 , x3 , x4 , x5 , x6 , x7 = b}, com os pontos intermediários χ = {χ1 , χ2 , χ3 , χ4 , χ5 , χ6 }.
O k-ésimo retângulo tem altura f (χk ) e largura |Ik | = xk+1 − xk . A soma das áreas desses retângulos
fornece S[(P, χ), f ].
do tipo Hausdorff, se esse reticulado possuir um ponto limite, o mesmo é único (pela Proposição 22.5,
página 1105). Essa questão nos conduz à seguinte definição:
Definição. Integrabilidade de Riemann I. Uma função limitada f : [a, b] → R é dita ser integrável
por Riemann no intervalo compacto [a, b] se o reticulado X([a, b]) ∋ (P, χ) 7→ S[(P, χ), f ] ∈ R possuir
um ponto limite S(f ) ∈ R.
Se f : [a, b] → R for integrável por Riemann no intervalo compacto [a, b] o limite S(f ) é denominado
integral de Riemann de f em [a, b]. Como é bem conhecido, a integral de Riemann de f em [a, b] é
Rb
mais freqüentemente denotada11 por a f (x) dx, ou seja,
Z b
S(f ) ≡ f (x) dx .
a
Para tornar essa definição um pouco mais palpável, vamos reformulá-la um pouco lembrando a
definição de ponto limite de um reticulado da Seção 22.3, página 1102. Dizemos que S(f ) ∈ R é um
ponto limite do reticulado X([a, b]) ∋ (P, χ) 7→ S[(P, χ), f ] ∈ R, se para todo ǫ > 0 existir um par
(P0 , χ0 ) ∈ X([a, b]) tal que S[(P, χ), f ] pertence ao intervalo aberto (S(f ) − ǫ, S(f ) + ǫ) para todo
par (P, χ) ∈ X([a, b]) tal que (P, χ) (P0 , χ0 ).
11
R
O sı́mbolo foi introduzido por Leibniz, sendo uma estilização da letra S, de “soma”.
Assim, f : [a, b] → R é dita ter uma integrável por Riemann S(f ) ∈ R se para todo ǫ > 0 existir
um par (P0 , χ0 ) ∈ X([a, b]) tal que

S[(P, χ), f ] − S(f ) < ǫ
Rb
para todo par (P, χ) tal que (P, χ) (P0 , χ0 ). O número S(f ) é denotado por a
f (x) dx.
Em palavras, uma função f é integrável no sentido de Riemann se o processo de “refinamento” de
partições, fazendo-as incluir mais e mais pontos com espaçamentos cada vez menores, conduzir a um
limite único das somas de Riemann. A integral de Riemann de f é então esse limite das somas das
áreas dos retângulos descritos na Figura 23.1, para quando as partições são feitas cada vez mais finas.
• Integrabilidade de Riemann. Critérios alternativos
Pela Proposição 22.6, página 1106, o reticulado X([a, b]) ∋ (P, χ) 7→ S[(P, χ), f ] ∈ R possui um
ponto limite se e somente se for um reticulado de Cauchy12 . Assim, o critério de Integrabilidade de
Riemann I pode ser equivalentemente reformulado da seguinte forma:
Definição. Integrabilidade de Riemann I’. Uma função limitada f : [a, b] → R é dita ser integrável
por Riemann no intervalo compacto [a, b] se o reticulado X([a, b]) ∋ (P, χ) 7→ S[(P, χ), f ] ∈ R for um

reticulado de Cauchy, ou seja, se para todo ǫ > 0 existir (Pǫ , χǫ ) tal que S[(P, χ), f ]−S[(P′, χ′ ), f ] <
ǫ para todos P, P′ com P Pǫ e P′ Pǫ e todos χ, χ′ .
• Funções contı́nuas são integráveis por Riemann
Até o momento não apresentamos exemplos de funções integráveis por Riemann. Vamos agora
fechar parcialmente essa lacuna, exibindo uma classe importante de funções que satisfazem o critério
de integrabilidade de Riemann I’. Uma visão completa de quais funções são integráveis por Riemann é
fornecida pelo critério de Lebesgue, discutido brevemente à página 1129.
Proposição 23.1 Toda função real contı́nua definida em um intervalo compacto [a, b] é integrável por
Riemann. 2
Para a demonstração, necessitamos do seguinte lema:

Lema 23.1 Seja f real contı́nua definida em um intervalo compacto [a, b]. Seja P = {x1 , . . . , xn } ∈
P([a, b]) uma partição de [a, b] com n pontos à qual estão associados n − 1 intervalos fechados
I1 , . . . , In−1 , com Ik = [xk , xk+1 ]. Se P′ é um refinamento de P, então

S[(P, χ), f ] − S[(P′ , χ′ ), f ] ≤ W(f, P) |b − a| (23.2)
para quaisquer χ e χ′ , onde

W(f, P) := max sup |f (x) − f (y)| .
k=1, ..., n−1 x, y∈Ik
12
Isso é sempre verdade se f assume valores em um espaço métrico completo.
Prova. À partição P′ = {x′1 , . . . , x′m } ∈ P([a, b]), com m pontos, estão associados m − 1 intervalos
fechados I1′ , . . . , Im−1
′
, sendo Ik′ = [x′k , x′k+1 ]. Como P ⊂ P′ , o intervalo I1 é a união de, digamos, l
Xl
′ ′ ′
intervalos de P : I1 = I1 ∪ · · · ∪ Il . Assim, |I1 | = |Ia′ | e
a=1
l
X l
X
f (χ1 )|I1 | − f (χ′a )|Ia′ | = f (χ1 ) − f (χ′a ) |Ia′ | ,
a=1 a=1
o que evidentemente implica
X
Xl Xl
l
′ ′ ′ ′
f (χ1 )|I1 | − f (χa )|Ia | ≤ f (χ1 ) − f (χa ) |Ia | ≤ sup |f (x) − f (y)| |Ia′ |
a=1
a=1 x, y∈I 1 a=1

= sup |f (x) − f (y)| |I1 | ≤ W(f, P) |I1| .
x, y∈I1
Na segunda desigualdade usamos simplesmente o fato que cada χa pertence a I1 . Como o mesmo
raciocı́nio aplica-se aos demais sub-intervalos de P, segue imediatamente a validade de (23.2).
Prova da Proposição 23.1. Por um teorema bem conhecido (Teorema 24.7, página 1213), toda função
contı́nua f definida em um intervalo compacto [a, b] é uniformemente contı́nua, ou seja, para todo ǫ > 0
existe δ > 0 tal que |f (y) − f (x)| < ǫ sempre que x e y encontrem-se ambos em algum sub-intervalo
de [a, b] que tenha largura menor que δ.
Fixado um ǫ > 0, escolhamos uma partição Pǫ tal que |Pǫ | < δ. Seja P um refinamento de Pǫ Todos
os intervalos de Pǫ têm largura menor ou igual a δ e isso implica W(f, Pǫ ) < ǫ. Assim, o Lema 23.1
diz-nos que

S[(Pǫ , χǫ ), f ] − S[(P, χ), f ] ≤ W(f, Pǫ ) |b − a| ≤ ǫ |b − a| .
Com isso vemos que o critério I’ de integrabilidade de Riemann é satisfeito, que é o que querı́amos
demonstrar.
O seguinte corolário é imediato e sua prova é deixada como exercı́cio.

Corolário 23.1 Toda função real contı́nua por partes13 definida em um intervalo compacto [a, b] é
integrável por Riemann. 2
Esse fato é importante, pois a grande parte, se não a totalidade, das funções encontradas na prática
das ciências naturais e da engenharia é formada por funções contı́nuas ou contı́nuas por partes. No
13
Para a definição geral de continuidade por partes, vide página 1114.
Exercı́cio E. 23.5, página 1129, adiante, exibimos um exemplo de uma função que não é contı́nua por
partes mas é integrável por Riemann.
• Funções com valores em espaços de Banach. Integrabilidade de Riemann
Até o momento tratamos apenas de caracterizar a noção de integral de Riemann para funções
definidas em conjuntos compactos [a, b] assumindo valores reais. O estudante é convidado a constatar,
no entanto, que as construções acima (incluindo a Proposição 23.1) permanecem inalteradas se as
funções consideradas assumirem valores em espaços de Banach.
Se B é um espaço de Banach e f : [a, b] → B é uma função assumindo valores em B, a soma de
Riemann de f associada ao par (P, χ) é analogamente definida por
n−1
X
S[(P, χ), f ] := f (χk )|Ik | ∈ B. (23.3)
k=1
Temos, assim:
Definição. Integrabilidade de Riemann para espaços de Banach. Seja B um espaço de Banach

com norma k · kB. Uma função limitada f : [a, b] → B é dita ser integrável por Riemann no intervalo
compacto [a, b] se o reticulado X([a, b]) ∋ (P, χ) 7→ S[(P, χ), f ] ∈ B for um reticulado de Cauchy,
′
ou seja, se para todo ǫ > 0 existir Pǫ tal que S[(P, χ), f ] − S[(Pǫ , χ ), f ] < ǫ para todo P com
B
Pǫ P.
Tem-se, analogamente, a importante
Proposição 23.2 Toda função contı́nua definida em um intervalo compacto [a, b] e assumindo valores
em um espaço de Banach é integrável por Riemann. 2
A demonstração repete os mesmos passos da demonstração da Proposição 23.1 se substituirmos os

módulos das funções e das somas de Riemann por normas em espaços de Banach.
Alguns desenvolvimentos sobre a integração e diferenciação de funções assumindo valores em espaços
de Banach serão apresentados na Seção 23.2.2, página 1133.
• Somas de Darboux
Os critérios de integrabilidade que apresentamos acima são essencialmente aqueles apresentados

por Riemann em 1854. Da maneira como os formulamos, podemos aplicá-los para definir a noção
de integral (de Riemann) mesmo para funções definidas em intervalos compactos [a, b] ⊂ R mas que
assumam valores em espaços de Banach. Uma desvantagem dos critérios de integrabilidade acima é a de
fazerem o uso da noção de reticulado e pontos limite de reticulados, que talvez não sejam intuitivas para
todos. Felizmente, no caso de funções reais, há uma outra caracterização da noção de integrabilidade
de Riemann, devida a Darboux14 , que é mais transparente e prescinde dessas noções. Trataremos disso
agora.
14
Jean Gaston Darboux (1842-1917). O trabalho de Darboux sobre a integral de Riemann data de 1875.
Dada uma função real limitada f , definida em [a, b] e dada uma partição P ∈ P([a, b]), com
P = {x1 , . . . , xn }, definimos as somas de Darboux (inferior e superior) de f no intervalo [a, b],
associadas à P por
n−1
X n−1
X
Di [P, f ] := inf f (y) |Ik | e Ds [P, f ] := sup f (y) |Ik | , (23.4)
y∈Ik y∈Ik
k=1 k=1
respectivamente. Vide Figura 23.2.
f(x) f(x)
sup f(y)
yε Ι
6
inf f(y)
y ε Ι6
sup f(y)
inf f(y) y ε Ι1
yε Ι
1
a=x 1 x2 x3 x4 x5 x6 b=x a=x 1 x2 x3 x4 x5 x6 b=x

7 7
Figura 23.2: Representação das somas de Darboux da mesma função e da mesma partição da Fig.
23.1. A soma das áreas dos retângulos à esquerda fornece Di [P, f ] e a soma das áreas dos retângulos
à direita fornece Ds [P, f ].
É evidente pela definição que Di [P, f ] ≤ Ds [P, f ] para qualquer partição P. Fora isso, tem-se
também os fatos compreendidos nos seguintes exercı́cios:
E. 23.2 Exercı́cio. Mostre que para quaisquer partições P e P′ ∈ P([a, b]) com P P′ tem-se
Di [P, f ] ≤ Di [P′ , f ] e Ds [P, f ] ≥ Ds [P′ , f ]. Sugere-se provar isso por indução no número de pon-
tos da partição. 6
E. 23.3 Exercı́cio. Mostre que para quaisquer partições P e P′ ∈ P([a, b]) tem-se Di [P, f ] ≤ Ds [P′ , f ].
6
E. 23.4 Exercı́cio. Mostre que para quaisquer partições P e P′ ∈ P([a, b]) com P P′ tem-se
Ds [P′ , f ] − Di [P′ , f ] ≤ Ds [P, f ] − Di [P, f ]. Sugestão: isso segue dos dois exercı́cios anteriores.
6
O exercı́cio E. 23.2 sugere a seguinte definição. Definimos as integrais de Darboux (inferior e supe-
rior) de f no intervalo [a, b] por
Z b Z b
f (x) dx := sup Di [P, f ] e f (x) dx := inf Ds [P, f ] ,
a P∈P([a, b]) a P∈P([a, b])
respectivamente. O fato estabelecido no exercı́cio E. 23.3 acima que Di [P, f ] ≤ Ds [P′ , f ] para
quaisquer partições P e P′ ∈ P([a, b]) implica (por que?)
Z b Z b
f (x) dx ≤ f (x) dx .
a a
Tudo isso sugere a seguinte definição.
Definição. Integrabilidade de Riemann II. Uma função limitada f é dita ser integrável por Rie-
Rb Rb
mann no intervalo compacto [a, b] se a f (x) dx = a f (x) dx. Nesse caso a integral de Riemann de f
no intervalo [a, b] é definida por
Z b Z b Z b
f (x) dx = f (x) dx = f (x) dx .
a a a
Sobre a relação entre as definições I e II, acima, tem-se o seguinte:

Proposição 23.3 Se uma função real f é integrável no sentido da definição I então também o é no
sentido da definição II, e vice-versa. 2
Por ser bastante técnica e sem relevância especial para o que segue, apresentamos a demonstração
dessa proposição não aqui, mas no Apêndice 23.A, página 1172.
• Critério de Lebesgue para integrabilidade de Riemann
Há uma caracterização da integrabilidade de Riemann, devida a Lebesgue, que permite precisar
quais funções são integráveis no sentido de Riemann:
Critério de Lebesgue para integrabilidade de Riemann. Uma função limitada f : [a, b] → R é integrável
no sentido de Riemann se e somente se for contı́nua quase em toda parte (em relação à medida de
Lebesgue), ou seja, se a coleção de pontos onde f é descontı́nua tiver medida de Lebesgue nula.
Não apresentaremos a demonstração desse fato aqui (vide [63]). Uma conseqüência desse critério
(que também pode ser obtida por meios mais diretos, como vimos acima) é que toda função limitada
e contı́nua por partes15 é integrável no sentido de Riemann.
É curioso e relevante observar também que não são apenas as funções contı́nuas por partes que são
integráveis no sentido de Riemann. O seguinte exercı́cio ilustra isso.
E. 23.5 Exercı́cio-desafio. Aqui vamos designar números racionais r na forma r = p/q, supondo p e q
primos entre si. Seja a seguinte função:


 1 p

 1 + , se x = for racional

 q q

f (x) = .






 1, se x for irracional
15
Lembremos: uma função é dita ser contı́nua por partes se for descontı́nua apenas em um número finito de pontos.
Mostre que f é contı́nua em x se x for irracional mas que f é descontı́nua em x se x for racional. Sugestão:
lembre que se x é irracional, então para toda seqüência pn /qn de racionais que aproxima x tem-se que
qn → ∞ para n → ∞.
Como os racionais têm medida de Lebesgue zero, segue pelo critério de Lebesgue que f é integrável de
Rb Rb
Riemann. Prove diretamente da definição que a f (x) dx = a f (x) dx = b − a para todos a < b. Note que
Rb Rb
o fato que a f (x) dx = b − a é evidente, a dificuldade está em provar que a f (x) dx = b − a. 6
• Deficiências da integral de Riemann
As noções de função integrável no sentido de Riemann e de integral de Riemann que apresentamos

acima são a base de todo o Cálculo elementar e delas se extrai uma série de conseqüências bem
conhecidas e que não repetiremos aqui, tais como a linearidade da integral, o teorema fundamental do
cálculo, métodos de integração (como a integração por partes) etc. Para uma ampla exposição, vide
e.g. [96]-[97]. A integral de Riemann, porém, possui algumas deficiências que ilustraremos abaixo.
Essas deficiências conduziram à procura de uma noção mais forte de integrabilidade, da qual falaremos
posteriormente.
Seja [a, b], a < b, um intervalo compacto e considere-se a seguinte função D : [a, b] → R:




 0, se x for racional



D(x) = . (23.5)






 1, se x for irracional
Será essa função integrável em [a, b] sentido de Riemann? A resposta é não, pois como facilmente se
constata,
Z b Z b
D(x) dx = 0 mas D(x) dx = b − a,
a a
já que, para qualquer sub-intervalo Ik = [xk , xk+1 ] de qualquer partição de [a, b] teremos
inf D(y) = 0 mas sup D(y) = 1 ,

y∈Ik y∈Ik
pois Ik sempre conterá números racionais e irracionais. Assim, aprendemos que há funções limitadas
que não são integráveis no sentido de Riemann. Esse exemplo, porém, ilustra um outro problema de
conseqüências piores.
Seja o conjunto Q = Q ∩ [a, b] de todos os racionais do intervalo [a, b]. Como esse conjunto é
contável, podemos representá-lo como Q = {r1 , r2 , r3 , r4 , . . .} = {rk , k ∈ N}, onde N ∋ k → rk ∈ Q
é uma contagem de Q. Seja definida agora a seguinte seqüência de funções:





 0, se x ∈ {r1 , . . . , rn }



Dn (x) = .






 1, de outra forma
É fácil ver que para todo x ∈ [a, b] tem-se D(x) = lim Dn (x), onde D está definida em (23.5).
n→∞
Cada função Dn é integrável no sentido de Riemann, pois é contı́nua por R b partes, sendo descontı́nua
apenas nos pontos do conjunto finito {r1 , . . . , rn }. É muito fácil ver que a Dn (x) dx = b − a e assim,
Z b Z b
lim Dn (x) dx = b−a. Entretanto, trocar a integral pelo limite lim Dn (x) dx não faz sentido,
n→∞ a a n→∞
pois a função D(x) = lim Dn (x) não é integrável no sentido de Riemann.
n→∞
A lição que se aprende disso é que a integração de Riemann não pode ser sempre cambiada com o
limite pontual de funções16 . Esse é um fato desagradável, que impede manipulações onde gostarı́amos
de poder trocar de ordem integrais e limites. O problema reside no fato de o critério de integração
de Riemann não ser suficientemente flexı́vel de modo a permitir integrar um conjunto suficientemente
grande de funções ou, melhor dizendo, o conjunto das funções integráveis no sentido de Riemann não
é grande o suficiente. Como vimos no critério de Lebesgue, só são integráveis no sentido de Riemann
as funções que são contı́nuas quase em toda parte. Esse conjunto, que exclui funções como D, acaba
sendo pequeno demais para dar liberdade a certas manipulações de interesse.
E. 23.6 Exercı́cio. Por que D não é contı́nua quase em toda parte? Para responder isso, mostre que D
não é contı́nua em nenhum ponto. Sugestão: recorde que todo x irracional pode ser aproximado por uma
seqüência de racionais e que todo x racional pode ser aproximado por uma seqüência de irracionais. Mostre
então que para qualquer x existem seqüências xn com lim xn = x, mas com lim D(xn ) = D(x). 6
n→∞ n→∞
Um outro problema, de outra natureza, diz respeito à propriedade de completeza da coleção das
funções integráveis por Riemann.
Rb Tais conjuntos não formam espaços métricos completos em relação à
métricas como d1 (f, g) = a |f (x) − g(x)|dx. Como a propriedade de completeza é muito importante,
faz-se necessário aumentar o conjunto de funções integráveis para obter essa propriedade. De fato, como
veremos, o conjunto de funções integráveis no sentido de Lebesgue é completo e esse fato é importante
na teoria dos espaços de Hilbert e de Banach.
23.2.1 A Integral de Riemann Imprópria

Z ∞
Vamos aqui tratar de definir a integral de Riemann imprópria f (x) dx de uma função f definida
−∞
em toda a reta real R. De maneira intuitiva, essa integral deve ser definida como o limite de integrais
Z b
f (x) dx tomando a indo a −∞ e b indo a ∞ de diversas formas, sem afetar o resultado.
a
16
A troca de ordem de integrais de Riemann e limites de seqüências de funções é permitida, porém, se o limite for
uniforme.
Uma possibilidade provisória seria a seguinte definição. Se f : R → R é uma função integrável por
Riemann em cada intervalo [a, b], poderı́amos definir a integral de Riemann imprópria de f por
Z ∞ Z A
f (x) dx := lim f (x) dx , (23.6)
−∞ A→∞ −A
caso o limite exista. A definição provisória (23.6) apresenta, porém, um problema que requer alguns
Z A
comentários. Em certos casos, pode ocorrer que o limite lim f (x) dx exista, mas não, por exemplo,
A→∞ −A
Z A2 Z A
o limite lim f (x) dx, ou outros. Tal é o caso da função f (x) = x. Tem-se aqui que lim x dx =
A→∞ −A A→∞ −A
Z A2
0 mas lim x dx diverge.
A→∞ −A
Por causa disso é insatisfatório tomar (23.6) como definição das integrais de Riemann impróprias.
É prudente elaborar uma definição mais conservadora e que leve em conta o que pode acontecer em
todos as integrais em intervalos [a, b] quando a → −∞ e b → ∞, independentemente. Isso é feito da
seguinte forma.
Denotemos por C a coleção de todos os intervalos finitos [a, b] ⊂ R. Notando que os intervalos
[a, b] podem ser ordenados por inclusão, percebemos facilmente que C é um conjunto dirigido (vide
definição à página 34).
Seja f : R → R uma função fixa, integrável por Riemann em cada intervalo [a, b]. A aplicação
C → R dada por Z b
F[a, b] := f (x) dx (23.7)
a
forma um reticulado. O conceito de limite em relação a um reticulado é bem definido (a noção de

reticulado, limites de reticulados e suas propriedades foram estudadas na Seção 22.3, página 1102).
Isso nos permite estabelecer a definição precisa de integral de Riemann imprópria.
Dizemos, que uma função f : R → R, integrável por Riemann em cada intervalo [a, b], possui uma
integral de Riemann imprópria se o reticulado F[a, b] , [a, b] ∈ C possuir um ponto limite (o qual será
único, pois R é um espaço Hausdorff na topologia usual. Vide Proposição 22.5, página 1105).
Assim, f possui uma integral de Riemann imprópria se
Z b
lim F[a, b] = lim f (x) dx
[a, b]∈C [a, b]∈C a
existir, o limite acima sendo o do reticulado, com os intervalos ordenados por inclusão. Se f tiver essa
propriedade, definimos a integral de Riemann imprópria de f por
Z ∞ Z b
f (x) dx := lim F[a, b] = lim f (x) dx .
−∞ [a, b]∈C [a, b]∈C a
Para tornar essa definição um pouco mais palpável, vamos reformulá-la um pouco lembrando a
definição de ponto limite de um reticulado da Seção 22.3, página 1102. Dizemos que F ∈ R é um
ponto limite do reticulado F[a, b] , [a, b] ∈ C, se para todo ǫ > 0 existir um intervalo [A, B] tal que
F[a, b] ∈ (F − ǫ, F + ǫ) para todo [a, b] ⊃ [A, B].
Assim, f : R → R, integrável por Riemann em cada intervalo finito, é dita ter uma integral de
Riemann imprópria F ∈ R se para todo ǫ > 0 existir um intervalo [A, B] ∈ C tal que
Z b

f (x) dx − F < ǫ

a
R∞
para todo [a, b] ⊃ [A, B], [a, b] ∈ C. O número F é denotado por f (x)dx. −∞
Z ∞ Z a
De maneira análoga definem-se as integrais de Riemann impróprias f (x) dx e f (x) dx, para
a −∞
Z A Z a
a ∈ R, finito, como os limites lim f (x) dx e lim f (x) dx, respectivamente, caso existam.
A→∞ a A→∞ −A
Notemos en passant, que na definição da integral de Riemann em intervalos finitos [a, b], que
apresentamos na Seção 23.2, página 1122, faz-seR necessário supor que a função f seja limitada. Para
∞
a definição da integral de Riemann imprópria −∞ f (x) dx isso não é necessário, e f pode divergir

3
em ±∞, desde que o limite da integral exista! Um exemplo é a função f (x) = x2 sen ex , que não é
3
limitada para x → +∞. Como facilmente se vê com a mudança de variáveis u = ex ,
Z ∞ 3 Z
2 x 1 ∞ sen(u) π
x sen e dx = du = .
−∞ 3 0 u 6
A última igualdade pode ser obtida pelo método
R∞ dos resı́duos. Um outro exemplo do mesmo tipo é a
4
função x cos(x ), que não é limitada mas a x cos(x4 )dx < ∞ para qualquer a finito.
No sentido da definição acima, a função f (x) = x não possui uma integral de Riemann imprópria
Z A2
bem definida pois, como observamos, limites como lim x dx divergem. Para funções que possuem
A→∞ −A
uma integral de Riemann imprópria bem definida vale, obviamente, a expressão (23.6) e para elas vale
também Z ∞ Z A Z A2
f (x) dx = lim f (x) dx = lim f (x) dx etc.
−∞ A→∞ −A A→∞ −A
Rb
ou seja, o limite de a f (x) dx pode ser tomado com a indo a −∞ e b indo a ∞ de diversas formas,
sem afetar o resultado.
Para iniciarmos a discussão precisamos de definições adequadas das noções de derivação e integração
(de Riemann) de funções entre espaços de Banach.
23.2.2 Diferenciação e Integração em Espaços de Banach

Vamos na presente seção (cuja leitura é dispensável para o desenvolvimento da teoria de integração de
Lebesgue que se lhe segue) aprofundar um pouco mais a teoria da integração de funções com valores
em espaços de Banach no sentido de reproduzir, nesse contexto geral, alguns dos resultados básicos do
Cálculo Diferencial e Integral17 .
A noção de integral de Riemann para funções de uma variável real com valores em um espaço de
Banach foi apresentada na Seção 23.2, em especial à página 1127. Nosso principal propósito agora é
demonstrar o Teorema do Valor Médio e obter outros resultados preparatórios para a demonstração
do Teorema da Função Implı́cita, tratado na Seção 18.5, página 1024. O primeiro passo é apresentar a
noção geral de diferenciação de funções entre espaços de Banach.
• Aplicações diferenciáveis em espaços de Banach. A derivada de Fréchet
Sejam M e N dois espaços de Banach. Seja M um aberto em M e g : M → N uma aplicação (não-

necessariamente linear). Dizemos que g é diferenciável em um ponto x ∈ M se existir uma aplicação
linear limitada Gx : M → N tal que

g(x + y) − g(x) − Gx y g(x + y) − g(x) − Gx y
N
lim = 0, ou seja, lim = 0.
y→0 kykM y→0 kykM
Se g é diferenciável em x, ou seja, se um tal Gx existir, então é unicamente definido. De fato,

suponhamos que exista H : M → N linear e limitado tal que

g(x + y) − g(x) − Hy
N
lim = 0.
y→0 kykM
y
Seja v ∈ M com kvkM = 1 e seja y ∈ M tal que lim = v. Então,
y→0 kykM
k(H − Gx )ykN
k(H − Gx )vkN = lim
y→0 kykM

[g(x + y) − g(x) − Gx y − [g(x + y) − g(x) − Hy
N
= lim
y→0 kykM

[g(x + y) − g(x) − Gx y [g(x + y) − g(x) − Hy
N N
≤ lim + lim
y→0 kykM y→0 kykM
= 0.
Logo, H − Gx anula-se em todo vetor norma 1 e, portanto, anula-se em todo M.

O estudante pode facilmente convencer-se que a definição acima corresponde à noção bem-conhecida
de diferenciabilidade de funções de Rn → Rm . O operador linear limitado Gx pode ser interpretado
como a “melhor aproximação linear” à função g na vizinhança de x.
Se g é diferenciável em todo ponto x do aberto M e se a aplicação M ∋ x 7→ Gx ∈ B(M, N) for
contı́nua em norma, dizemos que g é uma aplicação de classe C 1 .
17
Seguiremos proximamente a exposição de [64].
Para manter uma familiaridade notacional, denotaremos os operadores lineares limitados Gx defi-
nidos acima por (Dg)(x) ou mesmo por g ′(x). O operador linear limitado (Dg)(x) representa, assim,
a derivada de g no ponto x, também denominada derivada de Fréchet18 de g em x.
E. 23.7 Exercı́cio. Mostre que se g é diferenciável no ponto x de acordo com a definição acima então
é também contı́nua em x. 6
• Diferenciação e integração de funções de uma variável real
De particular interesse é o caso em que M = R e M = (a, b) ⊂ R, um intervalo aberto finito da

reta real. Aqui, tem-se o seguinte:
Proposição 23.4 Seja N um espaço de Banach e seja g : [a, b] → N uma função contı́nua. Seja
G : [a, b] → N definida por Z x
G(x) := g(t)dt , x ∈ [a, b] . (23.8)
a
Então G é diferenciável em todo intervalo (a, b) e (DG)(x) ≡ G′ (x) = g(x). 2
Prova. Pela definição da integral de Riemann é evidente que

Z t2 Z t3 Z t3
g(t) dt + g(t) dt = g(t) dt (23.9)
t1 t2 t1
para todos t1 , t2 , t3 ∈ [a, b]. É também fácil ver que

Z b Z b

g(t) dt ≤ kg(t)kN dt (23.10)

a N a
n−1
X
pois para as somas de Riemann (23.3) tem-se kS[(P, χ), g]kN ≤ kg(χk )kN |Ik | , o que implica
k=1
(23.10), tomando-se os limites. De (23.10) obtem-se trivialmente a estimativa
Z b

g(t) dt ≤ |b − a| max kg(t)k (23.11)
t∈[a, b]
N
a N
que usaremos logo abaixo. Seja G definida em (23.8). Tem-se por (23.9) que G(x + y) − G(x) =
Z x+y
g(t)dt para todo x, y ∈ (a, b) com x + y ∈ (a, b). Logo,
x
Z x+y
G(x + y) − G(x) − g(x)y = g(t) − g(x) dt .
x
Assim, por (23.11),

G(x + y) − G(x) − g(x)y ≤ |y| max kg(t) − g(x)kN ,
N t∈[x, x+y]
18
donde segue que

G(x + y) − G(x) − g(x)y continuidade
N
lim ≤ lim max kg(t) − g(x)kN = 0.
y→0 |y| y→0 t∈[x, x+y]
Isso provou que G é diferenciável em todo x ∈ (a, b) com (DG)(x) ≡ G′ (x) = g(x).
Na demonstração do Teorema do Valor Médio faremos uso do lema a seguir (cujo enunciado e
demonstração foram extraı́dos de [64]). O estudante deve cuidadosamente observar que, ao contrário
do que uma primeira impressão pode sugerir, esse lema não é conseqüência da Proposição 23.4.
Lema 23.2 Seja N um espaço de Banach e f : [a, b] → N contı́nua e diferenciável em todo (a, b) mas
de modo que f ′ (x) = 0 para todo x ∈ (a, b). Então f é constante. 2
Prova.19 Sejam s e t ∈ (a, b), arbitrários, com s < t. Desejamos mostrar que f (s) = f (t). Como s e t
são arbitrários e f é contı́nua, isso implica que f é constante em todo intervalo fechado [a, b]. Vamos
definir uma seqüência de intervalos (sn , tn ) ∈ (s, t), n ∈ N, satisfazendo
(sn , tn ) ⊂ (sn−1 , tn−1 ) e |tn − sn | = 2−n |t − s|
dados da seguinte forma: (s0 , t0 ) = (s, t) e para n ≥ 1,





 s n−1 , sn−1 +tn−1
, caso f (sn−1) − f sn−1 +tn−1 ≥ f sn−1 +tn−1 − f (tn−1 ) ,

 2 2 2





(sn , tn ) :=










 sn−1 +tn−1 , tn−1 , caso f sn−1 +tn−1 − f (tn−1 ) ≥ f (sn−1 ) − f sn−1 +tn−1 .
2 2 2
Em palavras, quebramos a cada passo o intervalo (sn−1 , tn−1 ) ao meio e escolhemos (sn , tn ) como
sendo a metade na qual a variação de f em norma foi maior. É claro por essa escolha que

s n−1 + tn−1 s n−1 + tn−1
kf (sn−1 ) − f (tn−1 )k ≤
f (s n−1 ) − f + f
− f (tn−1 )

2 2
≤ 2 kf (sn ) − f (tn )k
e, portanto, tem-se para todo n ∈ N,
kf (s) − f (t)k ≤ 2n kf (sn ) − f (tn )k . (23.12)
Pela construção, sn é uma seqüência não-decrescente e limitada superiormente por t, enquanto que tn
é uma seqüência não-crescente e limitada inferiormente por s. Assim, ambas convergem a pontos no
19
De [64].
intervalo [s, t]. Como, porém, |tn − sn | = 2−n |t − s|, segue que ambas as seqüências sn e tn convergem
e a um mesmo ponto ξ ∈ [s, t]. Fora isso, é também claro que ξ ∈ [sn , tn ] para todo n.
Pela hipótese, vale f ′ (ξ) = 0. Pela definição de f ′ , isso significa que para todo ǫ > 0 existe δ > 0 tal
que kf (x) − f (ξ)k/|x − ξ| < ǫ sempre que |x − ξ| ≤ δ. Como sn e tn convergem a ξ, podemos escolher
n grande o suficiente de modo que |sn − ξ| ≤ δ e |tn − ξ| ≤ δ. Teremos, assim, para tais n’s,

kf (sn ) − f (tn )k ≤ kf (sn ) − f (ξ)k + kf (ξ) − f (tn )k ≤ ǫ |sn − ξ| + |ξ − tn | .
Como ξ ∈ [sn , tn ] para todo n, segue que |sn − ξ| + |ξ − tn | = |tn − sn | = 2−n |t − s|. Logo, obtivemos
kf (sn ) − f (tn )k ≤ ǫ2−n |t − s| .
Voltando a (23.12) isso implica kf (s) − f (t)k ≤ 2n kf (sn ) − f (tn )k ≤ ǫ|t − s|. Como ǫ > 0 é arbitrário,
segue disso que kf (s) − f (t)k = 0, completando a prova.
Com esse lema e com a Proposição 23.4 a prova do Teorema do Valor Médio torna-se elementar.
• O Teorema do Valor Médio
Teorema 23.1 (Teorema do Valor Médio) Sejam M e N espaços de Banach e M ⊂ M um con-

junto aberto e conexo de M. Seja g : M → N contı́nua e diferenciável. Então, para todos x, y ∈ M
vale Z
1
g(x) − g(y) = g ′ (τ x + (1 − τ )y) dτ (x − y)
0
assim como a estimativa
kg(x) − g(y)kN ≤ Kx, y kx − ykM ,
′
onde Kx, y := max kg (tx + (1 − t)y)k. 2
t∈[0, 1]
Prova. Para x, y ∈ M fixos, seja h : [0, 1] → N definida por h(t) := g(tx + (1 − t)y). Pela regra da
cadeia, h′ (t) = g ′ (tx + (1 − t)y)(x − y). Defina-se também
Z t
H(t) := g ′ (τ x + (1 − τ )y)(x − y) dτ , t ∈ [0, 1] .
0
Pela Proposição 23.4, H é diferenciável e H ′(t) = g ′(tx + (1 − t)y)(x − y). Assim, H ′ (t) = h′ (t), o
que implica, pelo Lema 23.2, que a diferença H(t) − h(t) é constante para todo t ∈ [0, 1]. Como
H(0) = 0, segue que H(t) − h(t) = −h(0) = −g(y) para todo t ∈ [0, 1]. Para t = 1 essa igualdade fica
H(1) − h(1) = −g(y) e como h(1) = g(x) concluı́mos que
Z 1
g(x) − g(y) = g ′ (τ x + (1 − τ )y)(x − y) dτ .
0
Usando (23.11), segue disso que

′ ′
kg(x) − g(y)kN ≤ max kg (tx + (1 − t)y)(x − y)kN ≤ max kg (tx + (1 − t)y)k k(x − y)kM ,
t∈[0, 1] t∈[0, 1]
o que completa a demonstração.
• Derivadas parciais
Sejam X e Y dois espaços normados com normas k · kX e k · kY, respectivamente. Podemos fazer
do produto Cartesiano X × Y = {(x, y), x ∈ X, y ∈ Y} um espaço vetorial normado declarando as
operações de soma e produto por escalares por α1 (x1 , y1 ) + α2 (x2 , y2 ) := (α1 x1 + α2 x2 , α1 y1 + α2 y2 )
e definindo a norma k(x, y)kX×Y := kxkX + kykY. Mais que isso, se X e Y forem espaços de Banach
em relação às suas respectivas normas, é fácil constatar que X × Y também o é em relação a norma
k(x, y)kX×Y.
E. 23.8 Exercı́cio. Prove que k · kX×Y é de fato uma norma e que X × Y é um espaço de Banach em
relação à mesma se X e Y o forem em relação às suas respectivas normas. 6
Para distinguirmos a estrutura de espaço

vetorial de X × Y definida acima, denotaremos os vetores
x
(x, y) ∈ X × Y como vetores-coluna: y .
Definamos as projeções ΠX : X × Y → X e ΠY : X × Y → Y por

x x
ΠX := x , ΠY := y ,
y y
respectivamente, e definamos ΛX : X → X × Y e ΛY : Y → X × Y por

x 0
ΛX x := , ΛY y := ,
0 y
respectivamente. É um exercı́cio elementar (mas importante) mostrar que ΠX, ΠY, ΛX e ΛY são lineares
e contı́nuas se dotarmos X, Y e X × Y das topologias das normas k · kX, k · kY e k · kX×Y, respectivamente.
É igualmente elementar constatar que
ΠXΛX = 1X , ΠYΛY = 1Y e ΛXΠX + ΛYΠY = 1X×Y . (23.13)
Seja Z um terceiro espaço de Banach com norma k · kZ. Para A ⊂ X e B ⊂ B dois abertos convexos,
seja F : A × B → Z uma função contı́nua e diferenciável, sendo F ′ : A × B → Z sua derivada. Para
cada (x, y) ∈ A × B a expressão F ′ (x, y) define um operador linear e contı́nuo X × Y → Z.
Para y fixo em B podemos considerar também a função A ∋ x 7→ F (x, y), assim como para
x fixo em A podemos considerar a função B ∋ y 7→ F (x, y). Se essas funções forem diferenciáveis
denotaremos suas derivadas por D1 F e D2 F , respectivamente. Note-se que D1 F é uma aplicação linear
X → Z e D2 F é uma aplicação linear Y → Z.
Vamos mostrar que se F ′ existe então essas duas funções são também diferenciáveis e vamos esta-
belecer relações entre D1 F , D2 F e F ′ . De fato, da existência de F ′ sabemos que

′ a kR(a, b)kZ
F (x + a, y + b) − F (x, y) = F (x, y) + R(a, b) , com lim = 0.
b (a, b)→0 k(a, b)kX×Y
para todos (a, b) ∈ X × Y. Em particular, para b = 0 teremos

′ a kR(a, 0)kZ
F (x + a, y) − F (x, y) = F (x, y) + R(a, 0) , com lim = 0,
b a→0 k(a, 0)kX×Y
ou seja, escrevendo R(a, 0) ≡ R(a) e lembrando que k(a, 0)kX×Y = kakX, tem-se
kR(a)kZ
F (x + a, y) − F (x, y) = F ′ (x, y) ΛX a + R(a) , com lim = 0,
a→0 kakX
o que nos permite concluir que
D1 F (x, y) = F ′ (x, y)ΛX.
Analogamente, podemos concluir que
D2 F (x, y) = F ′ (x, y)ΛY.
Dessas expressões extrai-se facilmente a continuidade de D1 F (x, y) e D2 F (x, y) como funções de

(x, y) ∈ A × B. Da última das relações em (23.13) obtemos
F ′ (x, y) = D1 F (x, y) ΠX + D2 F (x, y) ΠY . (23.14)
As últimas três expressões valem para todo (x, y) ∈ A × B.

D1 F e D2 F definem as derivadas parciais de F em relação a seu primeiro e segundo argumentos,
respectivamente.
23.3 A Integração no Sentido de Lebesgue

A presente seção é dedicada à teoria da integração de funções definidas em espaços mensuráveis. A
noção de integração da qual trataremos foi introduzida por Lebesgue entre 1901 e 190220 e redescoberta
independentemente por Young21 dois anos mais tarde. A teoria de integração introduzida por Lebes-
gue representa uma importante extensão da teoria de integração de Riemann e desde cedo encontrou
aplicações em diversas áreas da Matemática (como, para ficar em um único exemplo, na teoria das
séries de Fourier), com reflexos também na Fı́sica.
A teoria da integração de Lebesgue faz amplo uso de noções da teoria da medida e necessita, em
particular, da noção de função mensurável, que iremos discutir antes de passarmos à definição geral da
integral de Lebesgue propriamente dita.
23.3.1 Funções Mensuráveis e Funções Simples

Comecemos com uma definição que será amplamente empregada no que segue, a de função caracterı́stica
de um conjunto.
20
O trabalho de Lebesgue sobre a teoria da integração, intitulado “Intégrale, longueur, aire” foi apresentado como
dissertação à Universidade de Nancy em 1902.
21
William Henry Young (1863-1942).
• A função caracterı́stica de um conjunto
Seja M é um conjunto não-vazio e A ⊂ M. A função χA : M → R definida por




 1, se x ∈ A
χA (x) :=


 0, se x 6∈ A
é denominada função caracterı́stica do conjunto A, ou função indicatriz do conjunto A.
E. 23.9 Exercı́cio. Seja M um conjunto não-vazio e A, B ⊂ M. Mostre que
χA (x)χB (x) = χA∩B (x) , ∀x ∈ M . (23.15)
• Funções mensuráveis. Definição e comentários
Apresentemos uma importante definição, a de função mensurável. Sejam (M, M) e (N, N) dois
espaços mensuráveis, sendo M e N dois conjuntos não-vazios e M ⊂ P(M) e N ⊂ P(N) σ-álgebras em
M e N, respectivamente.
Uma função f : M → N dita ser uma função mensurável em relação às σ-álgebras M e N, ou
[M, N]-mensurável, se f −1 (A) ∈ M para todo A ∈ N, ou seja, se a pré-imagem de todo conjunto
mensurável segundo N for um conjunto mensurável segundo M.
O estudante deve comparar essa definição com a definição de função contı́nua DC 1, página 1111.
Devido ao seu seu papel preponderante na teoria da integração (de Lebesgue), vamos primeiro estudar
algumas das propriedades básicas das funções mensuráveis, especialmente das funções numéricas, ou
seja, aquelas cuja imagem está em R ou em C.
A primeira propriedade elementar é bastante geral: se (M1 , M1 ), (M2 , M2 ) e (M3 , M3 ) são três
espaços mensuráveis e se f : M1 → M2 e g : M2 → M3 são duas funções mensuráveis (f sendo
[M1 , M2 ]-mensurável e g sendo [M2 , M3 ]-mensurável) então g ◦ f : M1 → M3 é mensurável em relação
a M1 e M3 (ou seja, [M1 , M3 ]-mensurável). A prova é imediata pela definição.
Dado um espaço mensurável (M, M) estaremos, como dissemos, primordialmente interessados em
funções f : M → R. Qual σ-álgebra adotar em R? As duas possibilidades mais importantes são a
σ-álgebra de Lebesgue22 MµL , dos conjuntos mensuráveis pela medida de Lebesgue µL , e a σ-álgebra
de Borel23 M[τR ] que, por definição, é a menor σ-álgebra que contém a topologia usual da reta τR . A
σ-álgebra de Borel foi estudada no Capı́tulo 19 (vide especialmente a página 1041). Vimos na Seção
21.1.1, página 1077, que M[τR ] ⊂ MµL .
Para a grande maioria dos propósitos da teoria da integração é suficiente considerar em R a σ-
álgebra de Borel M[τR ]. Assim, dado um espaço mensurável (M, M) estaremos interessados em
funções f : M → R, dotando R da σ-álgebra de Borel M[τR ].
22
23
Os conjuntos que compõe M[τR ] são denominados conjuntos Borelianos. Que conjuntos são estes?
Recordando o que aprendemos nos capı́tulos supra-citados, todos os conjuntos abertos ou fechados de
R (na topologia usual τR ) são Borelianos. São também Borelianos intervalos semi-abertos como [a, b)
ou (a, b], assim como uniões contáveis dos mesmos e seus complementos.
Há em R, além dos intervalos semi-abertos, outros conjuntos S
Borelianos que não são nem abertos
nem fechados. O conjunto dos racionais, Q, é Boreliano, pois Q = r∈Q {r}, uma união contável de con-
juntos Borelianos {r} (que contêm apenas um ponto e são Borelianos por serem fechados). O conjunto
dos irracionais é Boreliano por ser o complemento de Q, que é Boreliano. Analogamente o conjunto
dos números reais algébricos é Boreliano, assim como o conjunto dos números reais transcendentes.
Generalizando o raciocı́nio, todo conjunto finito ou contável de R é Boreliano e seu complemento
também.
Se f : M → R é mensurável em relação às σ-álgebras M e M[τR ], f dita ser uma função Boreliana.
Se f : M → R é mensurável em relação às σ-álgebras M e MµL , f dita ser mensurável de Lebesgue.
Como M[τR ] ⊂ MµL , toda função mensurável de Lebesgue é Boreliana. Que funções são Borelianas?
É difı́cil dar uma descrição geral, mas no caso importante de funções f : R → R onde adotamos M[τR ]
como a σ-álgebra tanto do domı́nio quando da imagem, é relativamente fácil provar que toda função
contı́nua é Boreliana. A prova é apresentada no Apêndice 23.B, página 1173, quando tratarmos de
funções mensuráveis entre espaços topológicos.
São também Borelianas as funções contı́nuas por partes, ou seja, aquelas que possuem um número
finito de descontinuidades. Há ainda outras funções que são Borelianas mas que não são nem contı́nuas
nem contı́nuas por parte. Exemplos são as funções de (23.1).
Um exemplo de uma função não-mensurável, mais especificamente, de uma função f : R → R

que não é Boreliana, é a função caracterı́stica de um conjunto não-mensurável (ou não Boreliano),
como a função caracterı́stica χV (x) do conjunto de Vitali V que introduzimos no Capı́tulo 20 (vide
especialmente a página 1059). Funções não-mensuráveis são praticamente desconsideradas na teoria
da integração.
No Apêndice 23.B, página 1173, estuda-se com mais profundidade a noção de função mensurável.
Para os nossos propósitos, o principal resultado que lá obtemos é o seguinte:
Proposição 23.5 Se (M, M) é um espaço de medida, então o conjunto de todas as funções f : M → R
que sejam [M, M[τR ]]-mensuráveis forma uma álgebra real. Mais precisamente, se f : M → R e
g : M → R são ambas [M, M[τR ]]-mensuráveis, então
1. Para todos α, β ∈ R vale que αf + βg é [M, M[τR ]]-mensurável.
2. O produto f · g é [M, M[τR ]]-mensurável. 2
• Funções mensuráveis complexas
Uma função f : M → C é [M, M[τC ]]-mensurável se e somente se suas partes real e imaginária
forem [M, M[τR ]]-mensuráveis. Isso é demonstrado nas Proposições 23.14 e 23.15, das páginas 1178 e
seguintes.
Usando a Proposição 23.5 é fácil ver que o conjunto de todas as funções complexas mensuráveis é
também uma álgebra complexa. Vide Proposição 23.16, página 1179.
• Funções definidas por sup’s e inf’s
Se {fn } é uma seqüência de funções definidas em M assumindo valores em R, então as funções

sup fn , inf fn , lim sup fn e lim inf fn são definidas para cada x ∈ M por
n n n n

sup fn (x) := sup (fn (x)) ,
n n

inf fn (x) := inf (fn (x)) ,
n n

lim sup fn (x) := lim sup (fn (x)) ,
n n

lim inf fn (x) := lim inf (fn (x)) .
n n
Se (M, M) for um espaço de medida e as funções fn forem todas [M, M[τR ]]-mensuráveis, então
todas as funções definidas acima são também [M, M[τR ]]-mensuráveis.
Por exemplo, para provar que a função f := sup fn é mensurável, notamos que para qualquer a ∈ R
n
∞
[
−1
f ((a, ∞)) = fn−1 ((a, ∞)).
n=1
E. 23.11 Exercı́cio. Certo? Sugestão: Seção 1.1.4, página 44. 6
Pela Proposição 23.10, página 1175, cada conjunto fn−1 ((a, ∞)) pertence a M, portanto, a união
acima também, pois é uma união contável. Logo, f −1 ((a, ∞)) ∈ M para todo a ∈ R e, novamente
pela Proposição 23.10, isso implica que f é [M, M[τR ]]-mensurável.
Analogamente, prova-se que f := inf fn é [M, M[τR ]]-mensurável, pois nesse caso
n
∞
[
−1
f ((−∞, a)) = fn−1 ((−∞, a)).
n=1
Para o caso de f = lim sup fn , notamos que lim sup fn = inf sup fn . Pelo argumentado acima, cada
n n m≥1 n≥m
sup fn é [M, M[τR ]]-mensurável e assim o é seu ı́nfimo para todo m. Finalmente, o caso da função
n≥m
lim inf fn é análogo.
n
• Partes positiva e negativa de uma função
Para f : M → R, definimos
 

 


 f (x), se f (x) ≥ 0, 
 −f (x), se f (x) ≤ 0,

 

 
f + (x) := e f − (x) := .

 


 


 

 0, se f (x) < 0,  0, se f (x) > 0,
f + é denominada parte positiva de f e f − é denominada parte negativa de f . É claro que f + (x) ≥ 0 e

que f − (x) ≥ 0 para todo x. É fácil ver que
f (x) + |f (x)| −f (x) + |f (x)|

f + (x) = e f − (x) =
2 2
e, conseqüentemente,
f = f+ − f− e |f | = f + + f − .
É igualmente fácil ver que
f + (x) = f (x)χF + (x) e f − (x) = −f (x)χF − (x) (23.16)
sendo que
F + = {x ∈ M| f (x) ≥ 0} e F − = {x ∈ M| f (x) ≤ 0} .
Se f é mensurável, F + e F − são conjuntos mensuráveis, por serem as pré-imagens por f dos Borelianos
[0, ∞) e (−∞, 0], respectivamente. Assim, as funções caracterı́sticas χF ± são mensuráveis. Como o
produto de duas funções mensuráveis é mensurável (Proposição 23.5), concluı́mos de (23.16) que f + e
f − são funções mensuráveis. Daı́, como |f | = f + + f − , segue também que |f | é mensurável, pois é a
soma de duas funções mensuráveis (novamente, Proposição 23.5).
• A representação normal
Se M é um conjunto não-vazio, dizemos que uma função real ou complexa f : M → R, ou f :

M → C possui uma representação normal se para algum m ∈ N existirem números α1 , . . . , αm ,
não necessariamente distintos, e conjuntos B1 , . . . , Bm tais que Bi ∩ Bj = ∅ para i 6= j, que M =
B1 ∪ · · · ∪ Bm e que
X m
f (x) = αk χBk (x) (23.17)
k=1
A soma do lado direito de (23.17) é dita ser uma representação normal de f . Note que nem toda
função f possui uma representação normal. Além disso, se f possui uma representação normal esta
não é necessariamente única: podemos dividir alguns dos conjuntos Bk em sub-conjuntos disjuntos
menores e obter uma nova representação normal. Ou podemos tomar a união de conjuntos Bk com
valores iguais de αk e obter uma nova representação normal.
É importante notar que se f admite uma representação normal, então f assume um número finito
de valores (certo?). Veremos que essa é uma condição necessária e suficiente para que uma função f
possua uma representação normal.
• Funções simples
Se M é um conjunto não-vazio, uma função s : M → R, ou s : M → C, é dita ser elementar ou

simples se assumir apenas um número finito de valores, ou seja, se sua imagem for ℑ(s) = {s1 , . . . , sn },
para algum n ∈ N, com si 6= sj para i 6= j, sendo que cada sk é um elemento de R ou de C, conforme
o caso. Se s é simples e ℑ(s) = {s1 , . . . , sn }, defina-se os conjuntos Ak ⊂ M por Ak = s−1 (sk ), ou
seja, Ak é a pré-imagem de sk por s:
Ak = {x ∈ M| s(x) = sk }.
É bastante evidente que Ai ∩ Aj = ∅ para i 6= j, que M = A1 ∪ · · · ∪ An e que

n
X
s(x) = sk χAk (x) . (23.18)
k=1
Vemos com isso que toda função simples possui pelo menos uma representação normal.
Uma representação normal como a de (23.18), na qual as constantes sk são todas distintas, é dita
ser uma representação normal curta da função simples s. O leitor poderá facilmente convencer-se que
a representação normal curta de uma função simples é única.
Um ponto importante é a seguinte observação: uma função simples é mensurável (em relação a
uma σ-álgebra M definida em M) se e somente se cada Ak acima for um conjunto mensurável (ou seja
Ak ⊂ M). A prova é evidente e dispensável.
• A álgebra das funções simples
As funções simples formam uma álgebra. As funções simples e mensuráveis também formam uma
álgebra. A prova dessas afirmações é bem simples e deixada ao leitor. O próximo exercı́cio é mais
detalhado quanto às propriedades algébricas das funções simples.
E. 23.12 Exercı́cio (fácil). Se s e r são funções simples definidas em M com representações normais
n
X m
X
s(x) = sk χAk (x) e r(x) = rl χBl (x)
k=1 l=1
mostre que
n X
X m
r(x)s(x) = sk rl χAk ∩Bl (x) .
k=1 l=1
Isso segue facilmente da identidade χA χB = χA∩B . Para qualquer número α tem-se, obviamente,
n
X
αs(x) = αsk χAk (x) .
k=1
Por fim, mostre que

n X
X m
r(x) + s(x) = (sk + rl ) χAk ∩Bl (x) . (23.19)
k=1 l=1
Para provar isso, você deverá usar os fatos que A1 ∪ · · · ∪ An = M e que B1 ∪ · · · ∪ Bm = M, sendo ambas
uniões de conjuntos disjuntos, para mostrar que
n
X m
X
1 = χAk (x) e 1 = χBl (x) .
k=1 l=1
Disso, segue facilmente, usando a identidade χA χB = χA∩B , que

m
X n
X
χAk (x) = χAk ∩Bl (x) e χBl (x) = χBl ∩Al (x) ,
l=1 k=1
e disso, segue facilmente (23.19). 6
• Funções mensuráveis e funções simples
Toda função real não-negativa, mensurável por Lebesgue ou Boreliana, pode ser aproximada por
funções simples. Mais precisamente temos o seguinte lema (de [62]) que, embora um tanto técnico,
revela uma relação subjacente entre funções mensuráveis em geral e funções simples mensuráveis.
Lema 23.3 Se M é um espaço de medida com uma σ-álgebra M, toda função f : M → R não-negativa
e Boreliana (ou mensurável por Lebesgue) é o limite de uma seqüência monótona não-decrescente de
funções simples mensuráveis e não-negativas. Se f for também limitada, a convergência é até mesmo
uniforme. 2
A prova encontra-se no Apêndice 23.C, página 1179. O Lema 23.3 tem o seguinte
Corolário 23.2 Se M é um espaço de medida com uma σ-álgebra M, toda função f : M → R que
seja Boreliana é o limite de uma seqüência de funções simples mensuráveis. 2
Prova. A diferença com relação ao Lema 23.3 é que f não é necessariamente não-negativa. Pelo que
observamos, porém, f = f + − f − , sendo ambas f ± não-negativas e Borelianas. A elas, portanto,
aplica-se o Lema 23.3, o que encerra a prova.
23.3.2 A Integral de Lebesgue. Integração em Espaços Mensuráveis

Passamos agora à empreitada de definir o conceito de integral de Lebesgue em espaços mensuráveis.
O processo segue várias etapas sucessivas, iniciando com a definição de integral de funções simples
mensuráveis, que serão usadas para definir a integral de funções positivas mensuráveis e assim por
diante.
• Integração de funções simples
Seja agora M um espaço mensurável com uma σ-álgebra M, na qual está definida uma medida µ.
Se s é uma função simples e não-negativa
Pn (ou seja, se s(x) ≥ 0 para todo x), M-mensurável e com
representação normal curta s(x) = k=1 sk χAk (x), a integral de s em M com respeito à medida µ é
definida por
Z Z Xn
s dµ ≡ s(x) dµ(x) := sk µ(Ak ) . (23.20)
M M k=1
sk 6=0
Observações.
1. Note-se que na soma à direita na expressão (23.20) exclui-se os valores de k para os quais sk = 0.
Para tais valores de k pode eventualmente valer µ(Ak ) = ∞. Se convencionarmos que 0 × ∞ = 0,
podemos reescrever a definição acima de forma mais simplificada como
Z Z X n
s dµ ≡ s(x) dµ(x) := sk µ(Ak ) .
M M k=1
Para simplificar a notação, essa convenção 0 × ∞ = 0 é adotada por muitos autores e nos
juntaremos a eles nestas Notas. Observemos também que a soma do lado esquerdo pode valer
∞, caso µ(Ak ) = ∞ para algum k com sk > 0.
2. Na definição (23.20) usamos a representação normal curta da função s, mas isso não é necessário
pois qualquer representação normal de s pode ser usada com idêntico resultado. De fato, sejam
p q
X X
s(x) = βk χBk (x) e s(x) = γl χCl (x) (23.21)
k=1 l=1
duas representações normais de s, com Bi ∩Bj = ∅ para i 6= j, com M = B1 ∪· · ·∪Bp e igualmente

Ci ∩ Cj = ∅ para i 6= j, com M = C1 ∪ · · · ∪ Cq . Então,
p q
X X
βk µ(Bk ) = γl µ(Cl ) . (23.22)
k=1 l=1
A prova de (23.22) é apresentada no Apêndice 23.D, página 1180. A validade de (23.22) mostra
que a definição de integral de uma função simples dada acima é intrı́nseca e não depende da
particular representação normal adotada.
Uma funçãoPsimples (não necessariamente positiva) e M-mensurável s, com uma representação

normal s(x) = nk=1 sk χAk (x), é dita ser µ-integrável se µ(Ak ) < ∞ para todo k com sk 6= 0. Observe-
se que para os valores de k para os quais sk = 0 não estamos impedidos de ter µ(Ak ) = ∞. Para uma
tal função definimos igualmente
Z Z Xn Xn
s dµ ≡ s(x) dµ(x) := sk µ(Ak ) = sk µ(Ak ) .
M M k=1 k=1
sk 6=0
R
Na última igualdade usamos a convenção 0 × ∞ = 0. Note que para s integrável, M
s dµ < ∞.
A definição de integral de funções simples que empreendemos acima é o primeiro passo da definição
mais geral de integral de funções em espaços mensuráveis. Antes de prosseguirmos, façamos alguns
comentários de esclarecimento sobre as definições acima.
• Alguns esclarecimentos
O estudante deve reparar nos cuidados tomados nas definições acima: só definimos a noção de
integral para funções simples e mensuráveis que sejam ou não-negativas ou integráveis. Ao definirmos
a integral de funções simples não-negativas permitimos ter µ(Ak ) = ∞ para algum k com sk > 0. Aqui,
a condição de s ser não-negativa é importante para evitar o aparecimento de somas to tipo ∞ − ∞,
que não estão definidas. Isso seria o caso de uma função simples como



 +2, se x ∈ (1, ∞)
s(x) = .


 −1, se x ∈ (−∞, 1]
Essa função
R é mensurável de Lebesgue. Porém, para a medida de Lebesgue µL , a integral dessa
função R s dµL = +2µL ((1, ∞)) + (−1)µL ((−∞, 1]) não está definida, pois µL ((1, ∞)) = ∞ e
µL ((−∞, 1]) = ∞ e não temos como definir a diferença +2µL((1, ∞)) + (−1)µL ((−∞, 1]). Já para a
função simples e mensurável 


 +2, se x ∈ (1, ∞)
s(x) =


 0, se x ∈ (−∞, 1]
R
teremos R s dµL = +2µL ((1, ∞)) + (0)µL((−∞, 1]) = +2µL ((1, ∞)) = ∞. Para as funções simples
integráveis tais problemas não ocorrem já que os termos sk µ(Ak ) são finitos (positivos ou negativos).
De fato, para funções simples integráveis só se terá µ(Ak ) = ∞ se sk = 0 e nesse caso convenciona-se
sk µ(Ak ) = 0. O seguinte exemplo ilustra isso: com relação à medida de Lebesgue a função simples



 +2, se x ∈ (1, 4)
s(x) =


 0, se x 6∈ (1, 4)
R
é mensurável e integrável e M
s dµL = +2µL ((1, 4)) + (0)µL (R \ (1, 4)) = 2 × 3 + 0 × ∞ = 2 × 3 = 6.
• Integrais indefinidas de funções simples
Se s é simples mensurável não-negativa ou s é simples mensurável e integrável e se E ⊂ M com

E ∈ M, definimos
Z Z Xn
s dµ := s χE dµ = sk µ(Ak ∩ E) .
E M k=1
n
X n
X
(23.15)
A última igualdade segue de s(x)χE (x) = sk χAk (x)χE (x) = sk χAk ∩E (x), de onde extrai-se
k=1 k=1
Z n
X Z
que sχE dµ = sk µ(Ak ∩ E) , como desejamos. As integrais s dµ são por vezes denominadas
M k=1 E
integrais definidas da função simples s.
• Propriedades elementares da integração de funções simples
As seguintes propriedades das integrais de funções simples são válidas e podem ser facilmente
verificadas:
Z Z
(αs) dµ = α s dµ ,
E E
Z Z Z
(sa + sb ) dµ = sa dµ + sb dµ ,
E E E
Z Z
s1 dµ ≤ s2 dµ se s1 (x) ≤ s2 (x), ∀x ∈ E .
E E
Acima, s, sa e sb são funções simples, integráveis e complexas quaisquer e α ∈ C, constante. s1 e s2

são funções simples, integráveis e reais quaisquer.
• Medidas definidas pela integral de funções simples não-negativas
O seguinte resultado (de [123]), que tem interesse por si só, será usado mais adiante, por exemplo
quando demonstrarmos o Teorema da Convergência Monótona, Teorema 23.4, página 1158.
Lema 23.4 Seja M não-vazio, M uma σ-álgebra de M na qual definimos uma medida µ. Seja s uma
função simples, não-negativa e [M, M[τR ]]-mensurável e integrável. Para E ∈ M defina-se
Z Z
ϕs (E) := s dµ = s χE dµ .
E M
Então ϕs é uma medida em M. 2
Prova. Em primeiro lugar, note-se que ϕs (φ) = 0, pois χ∅ é identicamente nula. Como s é não-negativa,
ϕs (E) ≥ 0 para todo E ∈ M.
P
= nk=1 sk χAk (com Ak ∈ M S
Seja uma representação normal de sP para todo k, pois s é mensurável).
n ∞
Teremos para cada E ∈ M, ϕs (E) = k=1 sk µ(Ak ∩ E). S∞Se E = m=1 Em é uma união disjunta e
contável com Em ∈ M para todo m, vale que Ak ∩ E = m=1 (Ak ∩ Em ), também uma união disjunta
e contável de elementos de M. Logo, como µ é uma medida, vale que
∞
! ∞
! ∞
[ [ X
µ(Ak ∩ E) = µ Ak ∩ Em = µ (Ak ∩ Em ) = µ(Ak ∩ Em ).
m=1 m=1 m=1
Assim,
∞
! n ∞
! ∞
n X ∞ X
n
[ X [ X X
ϕs Em = sk µ Ak ∩ Em = sk µ (Ak ∩ Em ) = sk µ (Ak ∩ Em )
m=1 k=1 m=1 k=1 m=1 m=1 k=1
∞
X
= ϕs (Em ) .
m=1
Isso provou que ϕs é σ-aditiva e, portanto, é uma medida.
E. 23.13 Exercı́cio. O que justifica a troca de ordem das somas feita na demonstração acima? 6
• Integração de funções mensuráveis. A integral de Lebesgue
Como acima, seja M não-vazio, M uma σ-álgebra de M na qual definimos uma medida µ.
Seja f : M → R+ uma função não-negativa e mensurável. Denotaremos por S(f ) a coleção de
todas as funções simples, mensuráveis, não-negativas e menores ou iguais a f :
S(f ) := {s : M → R| s é simples, mensurável e 0 ≤ s(x) ≤ f (x) para todo x ∈ M} .
O Lema 23.3 nos ensinou que S(f ) é não-vazio e que há até mesmo seqüências em S(f ) que convergem
a f . Definimos então para E ⊂ M com E ∈ M,
Z Z
f dµ := sup s dµ . (23.23)
E s∈S(f ) E
Essa expressão define a integral de Lebesgue da função f sobre o conjunto E em respeito à medida µ.
A definição acima foi introduzida por Lebesgue como substituto à definição de integral devida a
Riemann. Discutiremos suas virtudes mais adiante. Note que a definição acima é bastante geral, no
sentido de não ser especificado o que é o conjunto M nem a medida µ. Por ora, a definição acima
limita-se a funções não-negativas f . Logo mostraremos como essa definição pode ser estendida para
funções que podem ser negativas ou complexas.
Se fn é uma seqüência monótona não-decrescente de funções simples mensuráveis de S(f ) que
converge a f (que tal existe, garante-nos o Lema 23.3) é possı́vel mostrar que
Z Z
f dµ = lim fn dµ . (23.24)
E n→∞ E
R
A expressão (23.24) pode ser tomada como definição alternativa equivalente de E f dµ e, de fato,
alguns autores assim o fazem. A equivalência das duas definições é demonstrada no Apêndice 23.E,
página 1181. Seu estudo é dispensável em uma primeira leitura.
• A integração de Lebesgue e conjuntos de medida zero
Dentre as propriedades da integral definida acima, a seguinte observação terá um papel importante
a desempenhar.
Proposição 23.6 Seja

R (M, M) um espaço de medida e seja f : M → R+ uma função [M, M[τR ]]-
mensurável tal que E f dµ = 0 para algum E ∈ M. Então f = 0 µ-q.t.p. em E. 2
Prova. Seja En = {x ∈ M| f (x) > 1/n} ∩ E = {x ∈ E| f (x) > 1/n}. Pela Proposição 23.10 da página
1175, tem-se En ∈ M. É claro pela definição de En que f ≥ n1 χEn . Portanto, a função simples n1 χEn é
um elemento de S(f ) e, pela definição (23.23) da integral de Lebesgue, segue que
Z Z
1 1
0 = f dµ ≥ χEn dµ = µ(En ) ,
E E n n
S
ou seja, µ(En ) = 0 paraPtodo n ∈ N. Note-se agora que {x ∈ E| f (x) > 0} = ∞ n=1 En . Logo,
µ({x ∈ E| f (x) > 0}) ≤ ∞ n=1 µ(E n ) = 0, provando que f = 0 µ-q.t.p em E.
• Funções integráveis
Como acima, seja M não-vazio, M uma σ-álgebra de M na qual definimos uma medida µ. Seja
f : M → R uma função mensurável. f é dita ser integrável em M se
Z
|f | dµ < ∞ .
M
+ − ±
R
Como
R |f | = f + f , sendo ambas f não-negativas e mensuráveis, segue que M
f + dµ < ∞ e
M
f − dµ < ∞. Com isso, e como f = f + − f − , sendo ambas f ± não-negativas, é natural definir
Z Z Z
f dµ := +
f dµ − f − dµ .
M M M
As integrais do lado direito são finitas e, portanto, sua diferença está bem definida.
• Propriedades elementares da integração
As seguintes propriedades das integrais de funções integráveis são válidas e podem ser facilmente
verificadas:
Z Z
(αf ) dµ = α f dµ , (23.25)
E E
Z Z Z
(fa + fb ) dµ = fa dµ + fb dµ , (23.26)
E E E
Z Z
f1 dµ ≤ f2 dµ se f1 (x) ≤ f2 (x), ∀x ∈ E . (23.27)
E E
Acima, f , fa , fb , f1 e f2 são funções integráveis reais quaisquer e α ∈ R, constante.
E. 23.14 Exercı́cio (recomendado a quem deseja testar se está realmente acompanhando a exposição).
Demonstre as propriedades elementares acima. 6
Uma outra propriedade relevante de demonstração simples é a seguinte se f : M → R for integrável,

Z Z

f dµ ≤ |f | dµ . (23.28)

E E
Isso segue das seguintes linhas:

Z Z Z Z Z

f dµ = f dµ −
+
f dµ ≤ f dµ + f dµ
− + −

E E E E E
Z Z Z
−
= +
f dµ + f dµ = (f + + f − ) dµ
E E E
Z
= |f | dµ .
E
• Funções complexas integráveis
Caso f seja uma função complexa, f : M → C, procede-se de forma semelhante. Como antes, f é
dita ser integrável em M se Z
|f | dµ < ∞ .
M
p
Denotemos por Re(f ) e Im(f ) as partes real e imaginária de f . Como |f | = |Re(f )|2 + |Im(f )|2 é
mensurável pela Proposição 23.14, página 1178, é claro que |Re(f )| ≤ |f |, |Im(f )| ≤ |f | e, de (23.27),
segue que
Z Z Z Z
|Re(f )| dµ ≤ |f | dµ < ∞ e |Im(f )| dµ ≤ |f | dµ < ∞ . (23.29)
M M M M
Com isso, tanto Re(f ) quanto Im(f ) são funções reais e integráveis e podemos aplicar a definição acima
e escrever
Z Z Z
Re(f ) dµ = +
(Re(f )) dµ − (Re(f ))− dµ ,
M M M
Z Z Z
Im(f ) dµ = (Im(f )) dµ − +
(Im(f ))− dµ .
M M M
Com isso, é natural definir a integral de f por

Z Z Z
f dµ := Re(f ) dµ + i Im(f ) dµ
M M M
Z Z Z Z
+ − + −
= (Re(f )) dµ − (Re(f )) dµ + i (Im(f )) dµ − (Im(f )) dµ .(23.30)
M M M M
Todos os quatro termos acima são finitos e a soma dos mesmos é, portanto, bem definida.
Chegamos dessa forma ao propósito de definir a noção de integral para funções mensuráveis e
integráveis, reais ou complexas. Recapitulando, nossos passos foram 1) definir a integral de funções
simples não-negativas e integráveis; 2) definir a integral de funções reais, mensuráveis e não-negativas
a partir da integral de funções simples; 3) definir a integral de funções reais e integráveis a partir da
integral de funções reais, mensuráveis e não-negativas ; 4) definir a integral de funções complexas e
integráveis a partir da integral de suas partes real e imaginária.
• Propriedades elementares da integração de funções complexas
As seguintes propriedades das integrais de funções integráveis são válidas e podem ser facilmente
verificadas:
Z Z
(αf ) dµ = α f dµ , (23.31)
E E
Z Z Z
(fa + fb ) dµ = fa dµ + fb dµ , (23.32)
E E E
Acima, f , fa e fb são funções integráveis e complexas quaisquer e α ∈ C, constante.
E. 23.15 Exercı́cio (recomendado a quem deseja testar se está realmente acompanhando a exposição).
Demonstre as propriedades elementares acima. Sugestão: use a definição (23.24). 6
A desigualdade (23.28) se deixa generalizar para funções integráveis complexas, mas a prova é mas
engenhosa: se f : M → C for integrável, então
Z Z

f dµ ≤ |f | dµ . (23.33)

E E
p
Para provar isso, notemos que, pela Proposição 23.14, página 1178, |f | = (Re(f ))2 + (Im(f ))2 é
[M, M[τR ]]-mensurável se Re(f )Re Im(f ) o forem. Fora isso, já vimos acima que Re(f ) e Im(f ) são
integráveis se f o for. A integral E f dµ é um número complexo e, portanto, pode ser escrito na forma
polar Z Z

f dµ = e f dµ .
iϕ
E E
−iϕ
A função g := e f é mensurável e integrável, como facilmente se vê. Temos que
Z Z Z Z Z Z
(23.31)
Re(g) dµ + i Im(g) dµ = g dµ = −iϕ
e f dµ = e −iϕ
f dµ = f dµ ≥ 0 .

E E E E E E
R R R
Como E f dµ é um número real, segue que E Im(g) dµ = 0 e que E Re(g) dµ ≥ 0. Logo,
Z Z Z Z Z Z
(23.28) (23.29)
f dµ =
Re(g) dµ = Re(g) dµ ≤ |Re(g)| dµ ≤ |g| dµ = |f | dµ ,

E E E E E E
completando a prova de (23.33).
• Os conjuntos Lp (M, dµ)

Antes de passarmos a exemplos, vamos rapidamente introduzir uma notação importante.

Se (M, M) é um espaço mensurável e µ é uma medida em M, denotaremos o conjunto das funções
integráveis em M em relação à medida µ por L1 (M, dµ):
Z

L1 (M, dµ) := f : M → C f é [M, M[τC ]]-mensurável e |f | dµ < ∞ .
M
Muito importantes são também os espaços Lp (M, dµ), definidos por

Z

Lp (M, dµ) := f : M → C f é [M, M[τC ]]-mensurável e p
|f | dµ < ∞ ,
M
onde p, em princı́pio, é um número real positivo p > 0. Os espaços Lp (M, dµ) com p ≥ 1 serão
discutidos com mais detalhe adiante.
• Exemplos. Integração com a medida delta de Dirac
Vamos a alguns exemplos ilustrativos. Considere M = R, M = P(R) e µ = δx0 para x0 ∈ R, a

medida delta de Dirac definida no item 2 da página 1062.
n
X
Seja s(x) uma função simples definida em R com forma normal s(x) = sk χAk (x). Vamos supor
k=1
que x0 ∈ Ak0 . É claro que s(x0 ) = sk0 . Teremos também pela definição (20.3), página 1062,
Z n
X
s dδx0 = sk δx0 (Ak ) = sk0 = s(x0 ) . (23.34)
R k=1
Se f : R → R é mensurável, e fn é uma seqüência

R de funções simples que converge a f , teremos
obviamente que fn (x0 ) → f (x0 ) e, por (23.34), R fn dδx0 = fn (x0 ). Assim, por (23.24), segue que
Z
f dδx0 = f (x0 ) . (23.35)
R
O estudante deve constatar que essa expressão corresponde precisamente à bem conhecida propriedade
Z ∞
f (x)δ(x − x0 )dx = f (x0 )
−∞
que comummente se associa em textos de Fı́sica à “função” delta de Dirac.
Nota para os estudantes mais avançados. Além da medida delta de Dirac existe também a distribuição
delta de Dirac. Ainda que muito semelhantes, esses objetos são distintos matematicamente: o primeiro
é uma medida, o segundo é uma distribuição, ou seja, um funcional linear contı́nuo em um certo espaço
de Fréchet de funções infinitamente diferenciáveis (e que decaem rápido o suficiente no infinito). Com
a medida delta de Dirac podemos integrar qualquer função, como em (23.35). Com a distribuição delta
de Dirac podemos integrar funções infinitamente diferenciáveis (e que decaem rápido o suficiente no
infinito). Essa aparente limitação é compensada pelo fato de se poder falar em derivadas da distribuição
delta de Dirac, mas não da medida delta de Dirac.
• Exemplos. Integração com a medida de contagem. Relação com os espaços ℓp
Seja M = {m1 , . . . , mn } um conjunto finito e seja M = P(M). Toda função f : M → R é

simples e mensurável em relação a M e M[τR ] (por que?). Seja µc a medida de contagem em M, que
foi introduzida à página 1062. Tem-se que
Z n
X
f dµc = f (mk ) .
M k=1
Seja M = N, M = P(N) e seja µc a medida de contagem em N. Se f : N → R é uma função

simples então
Z X∞
f dµc = f (k) .
M k=1
Uma função f : N → C é µc -integrável se

Z ∞
X
|f | dµc = |f (k)| < ∞ ,
M k=1
e sua integral é
Z ∞
X
f dµc = f (k) .
M k=1
P P∞
Observe que o fato de ∞ k=1 |f (k)| < ∞ implica que a série k=1 f (k) é convergente (por ser uma série
absolutamente somável. Vide os bons livros de Cálculo).
E. 23.16 Exercı́cio. Demonstre todas as afirmações feitas acima. 6
O estudante pode convencer-se com o apresentado acima que o conjunto L1 (N, dµc ) das funções
f : N → C integráveis em relação à medida de contagem µc coincide com o conjunto de seqüências ℓ1
que introduzimos na Seção 17.4.1, página 964. Os conjuntos Lp (N, dµc ) coincidem com os conjuntos
de seqüências ℓp , também lá introduzidos.
• Exemplos. A integral de Lebesgue em R
Um outro importante exemplo é aquele no qual tomamos M = R, M = M[τR ], a σ-álgebra dos

conjuntos Borelianos de R e µ = µL , a medida de Lebesgue. O conjunto L1 (R , µL ) de funções
2
integráveis inclui funções contı́nuas que decaem rapidamente no infinito, tais como e−x , (1 + x2 )−1 etc.
O conjunto L1 (R , µL ) inclui funções que não são limitadas. Um exemplo a se ter em mente é o da
função 



 √1 , 0 < |x| ≤ 1

 |x|

f (x) =






 0, x = 0 ou |x| > 1
p
Essa função, apesar de divergir para x → 0, é um elemento de L1 (R , µL ), pois a singularidade 1/ |x|
é integrável em 0.
Um tanto surpreendentemente, L1 (R , µL) também contém funções não-limitadas, mas que são
limitadas em qualquer região finita. Um exemplo interessante é o da função


 1

 n, para x em cada intervalo n, n + 3 , n ≥ 1 ,

 n

f (x) =






 0, de outra forma ,
ou seja,
∞
X
f (x) = n χ[n, n+ 1 ) (x) .
n3
n=1
É claro que f não é limitada em todo R, mas é limitada em qualquer região finita. Tem-se, porém,
Z X∞
1
|f | dµL = < ∞
R n=1
n2
e, portanto, f ∈ L1 (R , µL).
E. 23.19 Exercı́cio. Construa exemplos análogos de elementos de Lp (R , µL), p ≥ 1, que não são
funções limitadas. 6
23.3.3 A Integral de Lebesgue e sua Relação com a de Riemann

Uma vez desenvolvidos os ingredientes básicos da teoria de integração de Lebesgue, voltemo-nos bre-
vemente à questão de estabelecer sua relação com a integração de Riemann.
• As integrais de Riemann e Lebesgue em intervalos compactos
Tratemos primeiramente de funções definidas em conjuntos compactos da reta real. Vale a seguinte
afirmação:
Teorema 23.2 Seja f : [a, b] → R uma função Boreliana e limitada. Então, se f for integrável no
sentido de Riemann, f é também integrável no sentido de Lebesgue (para a integral de Lebesgue em
[a, b]) e as duas integrais são idênticas. 2
Esse teorema afirma que em intervalos finitos como [a, b] a integral de Lebesgue coincide com a de
Riemann, pelo menos para funções integráveis por Riemann e limitadas. Esse resultado é satisfatório
pois diz-nos que a teoria da integração de Lebesgue estende a de Riemann, pelo menos nesse sentido.
A demonstração do Teorema 23.2 é apresentada no Apêndice 23.I, página 1186, e faz uso do Lema de
Fatou e do Teorema da Convergência Dominada, que introduziremos na Seção 23.3.4, logo adiante.
O Teorema 23.2 estabeleceu uma relação entre as integrais de Riemann e de Lebesgue no caso de
intervalos finitos da reta real. O que se pode dizer para intervalos não-finitos? Como a integral de
Riemann foi definida na Seção 23.2, página 1122, apenas para funções limitadas em intervalos finitos,
a primeira questão a resolver é definı́-la em intervalos não-finitos, como R. Isso foi discutido na Seção
23.2.1, página 1131, ao introduzirmos a noção de integral de Riemann imprópria.
• A integral de Riemann imprópria e sua relação com a de Lebesgue em R
No caso de f ser também positiva (o que não é necessário para a definição 23.6) também podemos
estabelecer uma relação entre as integral de Riemann imprópria e de Lebesgue. Isso é expresso no
seguinte
Teorema 23.3 Seja f : R → R+ uma função positiva e Boreliana e tal que f é integrável no sentido
de Riemann em todo intervalo finito [a, b]. Então, f é integrávelZno sentido de Lebesgue em R se e
∞
somente se a integral de Riemann imprópria existir e, nesse caso, f (x) dx coincide com a integral
Z −∞
de Lebesgue f dµL . 2
R
A demonstração desse teorema também encontra-se no Apêndice 23.I, página 1186.

As condições dos Teoremas 23.2 e 23.3 não são ainda as mais gerais possı́veis para garantir a
igualdade entre a integral de Riemann (normal ou imprópria) e a de Lebesgue, mas não trataremos
de generalizações aqui e remetemos o leitor interessado aos bons livros. Nesse contexto, vale fazer o
seguinte comentário. O Teorema 23.3 estabeleceu a relação entre a integral de Riemann imprópria
e a integral de Lebesgue em R, mas somente para funções não-negativas. Valerá uma relação assim
para funções mais gerais? A resposta, infelizmente, pode ser negativa em alguns casos, como mostra o
exemplo do qual trataremos a seguir.
• Limitações da integral de Lebesgue
É importante chamar a atenção do leitor para uma limitação da integração de Lebesgue em R, a

qual pode ser ilustrada pelo exemplo a seguir (encontrado em vários livros-textos).
senx
R = x . É claro que f é Boreliana (pois é contı́nua) e limitada. Será f integrável
Seja a função f (x)
em R, ou seja, será R |f | dµL < ∞? Como f satisfaz f (x) = f (−x) para todo x, é suficiente estudar
f para x ≥ 0. Em cada intervalo [(n − 1)π, nπ], com n = 1, 2, 3, . . ., vale
| senx| | senx|
≥ .
|x| nπ
Assim, para todo N ∈ N e x ∈ R+ ,

XN
1
|f |(x) ≥ | senx| χ[(n−1)π, nπ] (x)
n=1
nπ
e
Z XN Z XN Z
1 1
|f | dµL ≥ | senx| χ[(n−1)π, nπ] (x) dµL = | senx| dµL .
R+ n=1
nπ R + n=1
nπ [(n−1)π, nπ]
É claro que a função | senx| é Boreliana (pois é contı́nua) e limitada. Aplicando o Teorema 23.2, tem-se
Z Z nπ
| senx| dµL = | senx| dx ,
[(n−1)π, nπ] (n−1)π
a integral à direita sendo a familiar integral de Riemann. Fazendo a mudança de variáveis x →

x − (n − 1)π, escrevemos
Z nπ Z π Z π
n−1
| senx| dx = |(−1) senx| dx = senx dx = 2 ,
(n−1)π 0 0
pois senx é não-negativa em [0, π]. Assim, para todo N ∈ N,

Z N
2X 1
|f | dµL ≥ .
R+ π n=1 n
R
Agora, como é bem sabido, a soma do lado direito diverge quando N → ∞. Logo, R+ |f | dµL = ∞ e,
conseqüentemente, Z
|f | dµL = ∞. (23.36)
R
R R
Note que nem mesmo R f + , dµL ou R f − dµL são finitas (justifique!).
R
A expressão (23.36) significa que f 6∈ L1 (R, dµL) e, portanto, R f dµL não está definida. Sucede,
porém, que a integral de Riemann imprópria (vide definição (23.6)),
Z ∞ Z A
senx senx
dx := lim dx
−∞ x A→∞ −A x
existe, e vale π.
Esse exemplo ensina-nos que há funções que possuem uma integral de Riemann imprópria, mas não
uma integral de Lebesgue em R.
RA R senx
Por que o limite −A senx dx existe mas dµL não? A resposta reside na observação que
x R x
R A senx
a função senx troca de sinal infinitas vezes e isso produz cancelamentos nas integrais dx que
x senx −A x

permitem a convergência do limite A → ∞. A função x , porém, é cega a essas trocas de sinal,
devido à presença do módulo.
Na integração de Lebesgue, ao concentrarmo-nos na integrabilidade do módulo de uma função f ,
como a de acima, perdemos informação sobre oscilações e trocas de sinal da mesma que podem ser
relevantes para certos propósitos24 . Esse fato pode ser interpretado como uma deficiência da integração
de Lebesgue.
24
Aos estudantes mais avançados notamos que esse é um dos problemas que têm impedido a definição matematicamente
23.3.4 Teoremas Básicos sobre Integração e Convergência

Nesta seção apresentaremos alguns teoremas importantes sobre a integral de Lebesgue e que descrevem
o comportamento da mesma relativamente a operações de tomada de limites. De um ponto de vista
técnico esses teoremas têm uma importância central e pode-se mesmo dizer que sua validade é uma
das principais razões do interesse na integral de Lebesgue, em comparação a outras integrais, como a
de Riemann. Historicamente os teoremas de convergência abaixo emergiram de trabalhos de Lebesgue,
Levi25 e Fatou26 .
• O Teorema da Convergência Monótona
Teorema 23.4 (Teorema da Convergência Monótona) Seja (M, M) um espaço mensurável onde
encontra-se definida uma medida µ. Seja {fn } uma seqüência não-decrescente de funções não-negativas
fn : M → R, ou seja, 0 ≤ f1 (x) ≤ f2 (x) ≤ f3 (x) ≤ · · · ≤ ∞, sendo todas [M, M[τR ]]-mensuráveis.
Suponhamos também que f : M → R seja tal que para cada x ∈ M a seqüência fn (x) convirja a f (x).
Então, a função f é também [M, M[τR ]]-mensurável e
Z Z
lim fn dµ = f dµ . (23.37)
n→∞ M M
A demonstração é apresentada no Apêndice 23.F, página 1183.

Para apreciarmos a relevância do Teorema S∞ da Convergência Monótona, consideremos o seguinte
exemplo. Seja Q = {r1 , r2 , r3 , r4 , . . .} = n=1 {rk }, onde N ∋ k → rk ∈ Q é uma contagem de Q.
Defina-se 



 2, se x ∈ {r1 , . . . , rn }



fn (x) = .






 e−x2 , de outra forma
É fácil ver que cada função fn é [M[τR ], M[τR ]]-mensurável (faça-o!) e que fn ≤ fn+1 para todo n.
Essas
R funções Rfn são integráveis
√ por Riemann (pois são contı́nuas por partes). É também fácil ver
∞ 2
que R fn dµL = −∞ e−x dx = π.
precisa da integração funcional de Feynman da Mecânica Quântica e da Teoria Quântica de Campos (quando formuladas
no espaço-tempo de Minkowski). Já a chamada integral funcional de Feynman-Kac, definida no espaço-tempo Euclidiano,
pode ser bem definida, por não sofrer desses problemas (vide e.g. [51] ou [116, 117, 118, 119]). Para uma exposição
introdutória sobre a integração funcional de Feynman na Mecânica Quântica, vide, por exemplo, [111], ou bons livros de
25
Beppo Levi (1875-1961).
26
Pierre Joseph Louis Fatou (1878-1929).
Agora, f (x) = lim fn (x) é dada por

n→∞




 2, se x ∈ Q



f (x) =






 e−x2 , se x 6∈ Q
R √
e é também mensurável. Tem-se também que R fn dµL = π. Assim,
Z Z
lim fn dµL = f dµL ,
n→∞ R R
como se vê, e como garante o Teorema da Convergência Monótona. Essa igualdade, porém, não faria
sentido para a integral de Riemann, pois f , ao contrário das funções fn , não é integrável por Riemann.
Condições suficientes para se poder comutar uma integral de Riemann com um limite de uma
seqüência de funções são geralmente muito mais restringentes que o exigido no Teorema da Convergência
Monótona e requerem, por exemplo, convergência uniforme dessa seqüência.
• O Lema de Fatou
O seguinte lema, denominado Lema de Fatou, possui várias aplicações, sendo também importante
na demonstração do Teorema da Convergência Dominada, do qual trataremos logo adiante, assim como
na demonstração do Teorema 23.2, da página 1155, acima, que tratou da relação entre as integrais de
Riemann e Lebesgue em intervalos finitos da reta real.
O Teorema da Convergência Monótona, Teorema 23.4, tratava de seqüências monótonas não-
decrescentes de funções positivas e mensuráveis da reta real e estabelecia a possibilidade de troca
de limites com a integração expressa em (23.37). Podemos nos perguntar, e se tivermos uma seqüência
de funções positivas e mensuráveis mas que não seja monótona não-decrescente? Valerá a inversão de
limites com a integral em (23.37)? A resposta, em geral, é não, mas ainda assim, vale o seguinte:
Teorema 23.5 (Lema de Fatou) Seja (M, M) um espaço mensurável onde encontra-se definida
uma medida µ. Seja {fn } uma seqüência de funções não-negativas e [M, M[τR ]]-mensuráveis fn :
M → R. Então, Z Z

lim inf fn dµ ≤ lim inf fn dµ . (23.38)
M n→∞ n→∞ M
2
A demonstração encontra-se no Apêndice 23.G, página 1184. O Lema de Fatou será usado logo
abaixo para demonstrar um outro resultado ainda mais relevante, o Teorema da Convergência Domi-
nada.
Nem sempre vale a igualdade em (23.38). Isso é mostrado nos dois exercı́cios seguintes.
E. 23.20 Exercı́cio. Seja a seguinte seqüência de funções Borelianas da reta real






1
, se x ∈ [−n, n],

 n

fn (x) =






 0, se x 6∈ [−n, n],
para n ∈ N, n > 0. Mostre que lim inf fn = 0 e, portanto,

n→∞
Z
lim inf fn dµL = 0 .
R n→∞
R
Por outro lado, R
fn = 2 para todo n e, portanto,
Z
n→∞ R
Assim, Z Z
lim inf fn dµ < lim inf fn dµ .
R n→∞ n→∞ R
6
Em alguns casos pode-se ter uma igualdade em (23.38).




 12 , se x ∈ [−n, n],


 n

fn (x) =






 0, se x 6∈ [−n, n],
para n ∈ N, n > 0. Mostre que lim inf fn = 0 e, portanto,

n→∞
Z
R n→∞
R
Porém, R
fn = 2/n para todo n e, portanto,
Z
n→∞ R
Assim, Z Z
lim inf fn dµ = lim inf fn dµ .
R n→∞ n→∞ R
6
• O Teorema da Convergência Dominada
Teorema 23.6 (Teorema da Convergência Dominada) Seja (M, M) um espaço mensurável onde
encontra-se definida uma medida µ. Seja {fn } uma seqüência de funções [M, M[τC ]]-mensuráveis
fn : M → C, n ∈ N, tais que o limite f (x) = lim fn (x) existe para todo x ∈ M. Suponha ainda que
n→∞
exista uma função não-negativa F ∈ L1 (M, dµ) tal que |fn (x)| ≤ F (x) para todo n ∈ N e todo x ∈ M.
Então:
1. f ∈ L1 (M, dµ),
2. Z
lim |f − fn | dµ = 0 ,
n→∞ M
3. Z Z Z
lim fn dµ = lim fn dµ = f dµ ,
n→∞ M M n→∞ M
A demonstração encontra-se na Apêndice 23.H, página 1185.

Para estudar uma situação na qual o do Teorema da Convergência Dominada, Teorema 23.6, se
aplica, faça o seguinte exercı́cio.






1
, se x ∈ [−n, n],

 n2

fn (x) =






 0, se x 6∈ [−n, n],
onde n ∈ N, n > 0. Mostre que há uma função F ∈ L1 (R dµL) tal que |fn (x)| ≤ F (x) paraZtodo n ∈ N
e todo x ∈ R. Justifique então, com base nesse fato, se a inversão da integral pelo limite lim fn dµL =
n→∞ R
Z
( lim fn ) dµL é possı́vel. Verifique explicitamente que a igualdade é verdadeira. 6
R n→∞
Para constatar a relevância da condição básica do Teorema da Convergência Dominada, Teorema

23.6, a saber, a existência de uma função não-negativa F ∈ L1 (M, dµ) tal que |fn (x)| ≤ F (x) para
todo n ∈ N e todo x ∈ M, faça o seguinte exercı́cio.






1
, se x ∈ [−n, n],

 n

fn (x) =






 0, se x 6∈ [−n, n],
para n ∈ N, n > 0. Mostre que não há nenhuma função F ∈ L1 (R, dµL ) tal que |fn (x)| ≤ F (x) para
todo n ∈ N e todo x ∈ R. Sugestão: construa
R a menor função F que satisfaz |fn (x)| ≤ F (x) para
todo Zn ∈ N e todo
Z x ∈ R e mostre que R |F | dµL = ∞. Verifique explicitamente que a igualdade
lim fn dµL = ( lim fn ) dµL não é verdadeira. 6
n→∞ R R n→∞
23.3.5 Alguns Resultados de Interesse

Os teoremas de convergência que vimos acima têm várias conseqüências importantes. Trataremos de
algumas aqui. A primeira, e muito interessante, é uma generalização (de [123]) do Lema 23.4, página
1148.
Proposição 23.7 Seja M não-vazio, M uma σ-álgebra de M na qual definimos uma medida µ. Seja
f uma função não-negativa e [M, M[τR ]]-mensurável. Para E ∈ M defina-se
Z Z
ϕf (E) := f dµ = f χE dµ .
E M
Então ϕf é uma medida em M. Além disso, para qualquer função não-negativa e [M, M[τR ]]-
mensurável g tem-se Z Z
g dϕf = g f dµ . (23.39)
M M
A relação, (23.39) diz-nos algo como dϕf = f dµ. Essa relação tem apenas sentido simbólico, pois
não atribuı́mos significado aos sı́mbolos dϕf e dµ. Ainda assim, podemos interpretar dϕf = f dµ como
estabelecendo uma relação entre as medidas ϕf e µ por uma espécie de mudança de variáveis.
Prova da Proposição 23.7. É claro que ϕf (∅) = 0, pois χ∅ éSidenticamente nula. Seja Ek , k ∈ N, uma
coleção contável e disjunta de elementos de M e seja E := ∞ k=1 Ek . Como para todo x ∈ M
n
X n
X
χE (x) = lim χEk (x) (por que?), segue que (f χE )(x) = lim fk (x), ∀x ∈ M,
n→∞ n→∞
k=1 k=1
Pn
onde fk := f χEk . A funções Fn := k=1 fk são não-negativas, [M, M[τR ]]-mensuráveis e Fn ≤ Fn+1
para todo n ∈ N. Aplica-se, então o Teorema da Convergência Monótona, Teorema 23.4, página 1158,
e tem-se
∞
! Z n
! Z n
!
[ X Teor. 23.4
X
ϕf Ek = lim fk dµ = lim fk dµ
M n→∞ n→∞ M
k=1 k=1 k=1
n Z
X
linearidade da integral
= lim fk dµ
n→∞ M
k=1
n Z
X
= lim f χEk dµ
n→∞ M
k=1
n
X
= lim ϕf (Ek ) ,
n→∞
k=1
provando que ϕf é uma medida.

Para provar (23.39), procedemos da seguinte forma. Para E ∈ M tem-se pela própria definição de
ϕf . Z Z
χE dϕf = ϕf (E) = χE f dµ .
M M
Assim, (23.39) vale pelo menos no caso espacial em que g = χE . Logo, vale também no caso em que
g é uma função simples. Seja por fim uma função g não-negativa e mensurável geral. Se gn for uma
seqüência não-decrescente de funções simples e não-negativas de S(g) que converge a g (que tal existe,
garante-nos o Lema 23.3, página 1145), tem-se pela definição (23.24)
Z Z Z
g dϕf = lim gn dϕf = lim gn f dµ .
E n→∞ E n→∞ E
Agora, gn f é uma seqüência não-decrescente (por que?) de funções positivas e mensuráveis e que
converge a g f (por que?). Aplicando mais uma vez o Teorema da Convergência Monótona, Teorema
23.4, página 1158, ao lado direito da última expressão, segue que
Z Z Z
g dϕf = lim gn f dµ = (g f ) dµ ,
E E n→∞ E
completando a demonstração.
Para entendermos melhor o significado de (23.39), tomemos o caso em que M = R, M = M[τR ],

a σ-álgebra de Borel, µ = µL , a medida de Lebesgue e f : R → R, uma função Boreliana e limitada
em todos os intervalos finitos. Para E = [a, b], um intervalo finito, teremos pelo Teorema 23.2, página
1155, Z Z b
ϕf ([a, b]) = f dµL = f (x) dx .
[a, b] a
Se f for tal que existe uma F : R → R com F ′ (x) = f (x), o Teorema Fundamental do Cálculo
diz-nos que
ϕf ([a, b]) = F (b) − F (a) .
Note que F ′ (x) = f (x) ≥ 0 e, portanto F é crescente. Isso fornece uma noção do que representa a
medida ϕf desses intervalos.
23.4 Os Espaços Lp e Lp
Daqui por diante M será um conjunto não-vazio com uma σ-álgebra M, para a qual encontra-se definida
uma medida µ.
Definimos à página 1153 os conjuntos Lp (M, dµ), p > 0, como sendo o conjunto de todas as funções
complexas definidas em M tais que sua p-ésima potência é integrável. O estudo das propriedades desses
conjuntos é de grande importância em várias áreas da Matemática e da Fı́sica. Na Fı́sica Quântica
um papel muito especial é reservado aos conjuntos L2 (R, dµL ) e L2 (Rn , dµL) (mais precisamente, aos
seus parentes próximos, os conjuntos L2 (R, dµL) e L2 (Rn , dµL), que serão definidos abaixo), pois os
mesmos descrevem os estados puros de sistemas quânticos com um número finito de graus de liberdade.
A razão de os conjuntos Lp (M, dµ) serem importantes reside no fato que, para p ≥ 1, todos eles são
– menos de uma tecnicalidade que discutiremos abaixo – espaços de Banach. Os espaços L2 (M, dµ),
em particular, são – a menos dessa tecnicalidade – espaços de Hilbert27 . Nosso objetivo na presente
seção é estudar esses fatos de forma precisa e geral.
Por razões pedagógicas começaremos estudando os espaços L1 (M, dµ) e depois passaremos ao caso
p > 1.
• L1 (M, dµ) é um espaço vetorial complexo
Se f : M → C e g : M → C são dois elementos quaisquer de L1 (M, dµ) e α, β são números com-

plexos quaisquer, é claro que |αf + βg| ≤ |α||f | + |β||g|. Esse simples fato tem a seguinte conseqüência:
Z Z Z
|αf + βg| dµ ≤ |α| |f | dµ + |β| |g| dµ .
M M M
R R
Como, por hipótese, M |f | dµ < ∞ e M |g| dµ < ∞, segue daı́ que a função obtida pela combinação
linear αf + βg é também um elemento de L1 (M, dµ). Como essa afirmação é válida para todos
f, g ∈ L1 (M, dµ) e α, β ∈ C, concluı́mos que L1 (M, dµ) é um espaço vetorial complexo.
Por essa razão passaremos a nos referir aos conjuntos L1 (M, dµ), como espaços L1 (M, dµ). O uso
da palavra “espaço”, aqui, é uma referência ao fato de serem espaços vetoriais. Logo abaixo, veremos
que os mesmos são também, a menos de uma tecnicalidade, espaços métricos.
Os conjuntos Lp (M, dµ) com p ≥ 0 também são espaços vetoriais complexos e isso será mostrado
na Proposição 23.8, logo adiante.
• Uma pseudo-métrica em L1 (M, dµ)
Para f : M → C e g : M → C, dois elementos quaisquer de L1 (M, dµ), consideremos a expressão

Z
d1 (f, g) := |f − g| dµ .
M
27
Espaços de Banach e de Hilbert foram definidos na Seção 17.4, página 962.
Como (f − g) ∈ L1 (M, dµ), é claro que 0 ≤ d1 (f, g) < ∞. É evidente que d1 (f, f ) = 0 e que
d1 (f, g) = d1 (g, f ). Como também, para qualquer h ∈ L1 (M, dµ), vale que f − g = (f − h) + (h − g),
tem-se |f − g| ≤ |f − h| + |h − g| e, portanto,
d1 (f, g) ≤ d1 (f, h) + d1 (h, g),
a chamada desigualdade triangular. Com isso, estabelecemos que d1 é uma pseudo-métrica em L1 (M, dµ).
Para a definição geral de pseudo-métrica, vide Seção 17.3, página 960.
R
Por que d1 não é uma métrica? Pois no conjunto L1 (M, dµ), o fato de ter-se M |f − g| dµ = 0
não implica que f (x) = g(x) para todo x ∈ M, mas implica apenas que f = g µ-q.t.p. (Proposição
23.6, página 1150). Esse fato em geral28 impede-nos de fazer de L1 (M, dµ) um espaço métrico, mas
há uma maneira simples de remediar isso: identificando entre si as funções que diferem apenas em um
conjunto de medida µ nula. Esse é o nosso próximo passo.
• Os espaços L1 (M, dµ)
No conjunto das funções [M, M[τR ]]-mensuráveis estabelecemos uma relação de equivalência di-
zendo que funções f e g, são equivalentes, f ∼ g, se f = g µ-q.t.p., ou seja, se µ({x ∈ M| f (x) 6=
g(x)}) = 0. Constatemos que, de fato, isso define uma relação de equivalência. Que f ∼ f é evidente,
assim como que f ∼ g equivale a g ∼ f . Para provar a transitividade, consideremos três funções f , g
e h. Notemos que se x ∈ M é tal que f (x) 6= h(x), então ou f (x) 6= g(x) ou g(x) 6= h(x) ou ambas.
Logo,
{x ∈ M| f (x) 6= h(x)} = {x ∈ M| f (x) 6= g(x)} ∪ {x ∈ M| g(x) 6= h(x)} ,
sendo que a união acima não é necessariamente disjunta. Logo,

µ {x ∈ M| f (x) 6= h(x)} ≤ µ {x ∈ M| f (x) 6= g(x)} + µ {x ∈ M| g(x) 6= h(x)} .
Assim, se f ∼ g e g ∼ h, o lado direito vale zero e, portanto, segue que f ∼ h, provando a transitividade.
E. 23.24 Exercı́cio. Mostre que {x ∈ M| f (x) 6= g(x)} ∈ M. Sugestão: prove e use o fato que
{x ∈ M| f (x) 6= g(x)} = {x ∈ M| f (x) > g(x)} ∪ {x ∈ M| f (x) < g(x)} e use a Proposição 23.11, da
página 1176. 6
O conjunto L1 (M, dµ) quebra-se em classes de equivalência pela relação de equivalência acima.
Duas funções de uma mesma classe diferem apenas em um conjunto de medida µ igual a zero. Definimos
o conjunto L1 (M, dµ) como sendo o conjunto dessas classes de equivalência: em sı́mbolos
L1 (M, dµ) := L1 (M, dµ)/ ∼ .
Uma outra forma mais concreta de encarar L1 (M, dµ) é considerá-lo como o conjunto obtido
tomando um e apenas um representante arbitrário de cada classe. Essa forma de ver L1 (M, dµ) tem
a vantagem de permitir constatar de modo imediato que L1 (M, dµ) também é um espaço vetorial
complexo. Além disso, nessa maneira de ver, L1 (M, dµ) é um sub-conjunto de L1 (M, dµ) e, portanto,
d1 está definido em L1 (M, dµ). Agora, porém, vale que se f, g ∈ L1 (M, dµ) e d1 (f, g) = 0,
28
Exceto nos casos especiais em que M e µ são tais que ∅ é o único conjunto de medida µ nula.
então f = g µ-q.t.p. Ora, isso só é possı́vel se f = g, pois L1 (M, dµ) foi construı́do tomando-se
um e apenas um elemento de cada classe de equivalência de L1 (M, dµ). Constatamos, assim, que d1 é
agora uma métrica em L1 (M, dµ), não apenas uma pseudo-métrica.
Resumindo L1 (M, dµ), é um espaço vetorial complexo e também um espaço métrico em relação à
métrica d1 .
O leitor que deseja permanecer em um nı́vel mais abstrato e continuar encarando L1 (M, dµ) como
uma coleção de classes, poderá proceder da seguinte forma para constatar as afirmações do último
parágrafo. Seja [f ] a classe a qual pertence um elemento f ∈ L1 (M, dµ). Defina-se para α e β ∈ C e
para duas classes [f ] e [g] a operação linear α[f ] + β[g] := [αf + βg]. Com essa operação de combinação
linear, a coleção de classes L1 (M, dµ) adquire a estrutura de um espaço vetorial complexo, tendo
como vetor nulo a classe [0], que contém a função identicamente nula. Para introduzir uma métrica na
coleção de classes L1 (M, dµ), defina-se D1 ([f ], [g]) := d1 (f, g).
E. 23.25 Exercı́cio. Mostre que a combinação linear definida acima, assim como a métrica D1 , estão
bem definidas, no sentido de serem independentes dos representantes f e g tomados em cada classe. Mostre
que D1 é de fato uma métrica, e não apenas uma pseudo-métrica, ou seja, satisfaz todos os postulados da
definição de uma métrica. 6
Optaremos tacitamente daqui por diante pela visão mais concreta de L1 (M, dµ) como o conjunto
obtido tomando um e apenas um representante arbitrário de cada classe de equivalência de L1 (M, dµ).
Não há grandes diferenças técnicas entre as duas visões e raramente é necessário recorrer à definição
precisa em termos de classes de equivalência. Uma exceção se dará quando discutirmos o problema da
completeza dos espaços L1 (M, dµ). A visão concreta tem a vantagem de permitir prosseguir encarando
os elementos de L1 (M, dµ) como funções integráveis de M em C e não como classes abstratas de funções.
Informalmente, a diferença entre L1 (M, dµ) e L1 (M, dµ) é que em L1 (M, dµ) identificamos funções
que diferem apenas em um conjunto de medida µ nula como se fossem a mesma função.
• A estrutura linear dos espaços Lp (M, dµ)
Proposição 23.8 Os conjuntos Lp (M, dµ), com p > 0, são espaços vetoriais complexos. 2
A prova é essencialmente idêntica à da Proposição 17.9, página 966, sobre os conjuntos de seqüências
ℓp e faz uso da Proposição 17.11, página 979, do Apêndice 17.A.
Prova. Há dois casos a considerar em separado: 0 < p < 1 e p ≥ 1.

Caso 0 < p < 1. Sejam f, g ∈ Lp (M, dµ), arbitrários. Como |f (x) + g(x)| ≤ |f (x)| + |g(x)|, a
segunda desigualdade em (17.A.2), página 979, implica
|f + g|p ≤ (|f | + |g|)p ≤ |f |p + |g|p .
Assim, Z Z Z
p p p p
|αf + βg| dµ ≤ |α| |f | dµ + |β| |g|p dµ < ∞
M M M
para quaisquer α, β ∈ C. Isso provou que αf + βg ∈ Lp (M, dµ) e, portanto, para 0 < p < 1 o conjunto
Lp (M, dµ) é um espaço vetorial complexo.
Caso p ≥ 1. Sejam f, g ∈ Lp (M, dµ), arbitrários. Como |f (x) + g(x)| ≤ |f (x)| + |g(x)|, a segunda
desigualdade em (17.A.3), página 979, implica
|f + g|p ≤ (|f | + |g|)p ≤ 2p−1 (|f |p + |g|p) .
Assim, Z Z Z
p p−1 p p p−1 p
|αf + βg| dµ ≤ 2 |α| |f | dµ + 2 |β| |g|p dµ < ∞
M M M
para quaisquer α, β ∈ C. Isso provou que αf + βg ∈ Lp (M, dµ) e, portanto, para p ≥ 1 o conjunto
Lp (M, dµ) é um espaço vetorial complexo. Isso é o que querı́amos provar.
Mais adiante, mostraremos que em Lp (M, dµ), para p ≥ 1, a expressão

Z 1/p
p
dp (f, g) := |f − g| dµ
M
define uma pseudo-métrica. De forma análoga ao que fizemos acima, e usando a mesma relação de
equivalência ∼ definida acima, o conjunto de classes Lp (M, dµ), definido por
Lp (M, dµ) := Lp (M, dµ)/ ∼ ,
é um espaço vetorial complexo e também um espaço métrico com a métrica induzida por dp . Também
iremos encarar Lp (M, dµ) como o conjunto obtido tomando um e apenas um representante arbitrário
de cada classe de equivalência de Lp (M, dµ).
23.4.1 As Desigualdades de Hölder e de Minkowski

Vamos agora tratar de duas desigualdades de importância primordial no estudo dos espaços Lp (M, dµ),
as desigualdades de Hölder29 e de Minkowski30 . Já as encontramos no caso particular de espaços de
seqüências e, naquele caso, delas tratamos no Teorema 17.2 da página 968.
Teorema 23.7 (As desigualdades de Hölder e de Minkowski) Seja M um conjunto não-vazio,
M uma σ-álgebra em M e seja µ uma medida em M.
A desigualdade de Hölder é a afirmação que se p e q são tais que 1 < p < ∞, 1 < q < ∞ e
satisfazem 1/p + 1/q = 1, então para quaisquer f ∈ Lp (M dµ) e g ∈ Lq (M dµ) vale
Z Z 1/p Z 1/q
p q
|f | |g| dµ ≤ |f | dµ |g| dµ . (23.40)
M M M
A desigualdade de Minkowski é a afirmação que se p é tal que 1 ≤ p < ∞, então para quaisquer
f, g ∈ Lp (M dµ) tem-se
Z 1/p Z 1/p Z 1/p
p p p
|f − g| dµ ≤ |f | dµ + |g| dµ . (23.41)
M M M
2
29
30
A demonstração é apresentada no Apêndice 23.J, página 1189. Em [122] uma interessante demons-
tração alternativa da desigualdade de Minkowski, usando a convexidade da função xp , é apresentada.
Aquela demonstração fornece também a versão da da desigualdade de Minkowski para o caso 0 < p < 1:
Z 1/p Z 1/p Z 1/p
p p p
|f + g| dµ ≥ |f | dµ + |g| dµ . (23.42)
M M M
Essa expressão, no entanto, só vale para f e g não-negativas.

A desigualdade de Hölder acima pode ser generalizada.
Corolário 23.3 Sejam f ∈ Lp (M dµ) e g = Lq (M dµ) onde p e q são tais que 1 0 por + = . Então, vale
p q r
Z 1/r Z 1/p Z 1/q
r r p q
|f | |g| dµ ≤ |f | dµ |g| dµ . (23.43)
M M M
A prova do Corolário 23.3 também encontra-se no Apêndice 23.J, página 1189.

As desigualdades de Hölder e Minkowski têm uma série de conseqüências, em particular sobre a
estrutura dos espaços Lp (M, dµ) e Lp (M, dµ). Vamos explorar algumas.
• Lp (M, dµ), p ≥ 1, são espaços vetoriais complexos e normados
Já observamos acima (Proposição 23.8) que os conjuntos Lp (M dµ) são espaços vetoriais complexos.
No caso p ≥ 1 os mesmos possuem uma pseudo-norma definida por
Z 1/p
p
kf kp := |f | dµ . (23.44)
M
A propriedade básica de uma pseudo-norma, a saber kαf + βgkp ≤ |α| kf kp + |β| kgkp para todos
f, g ∈ Lp (M dµ) segue da desigualdade de Minkowski, pois a mesma nos garante que
Z 1/p Z 1/p Z 1/p
p p p
|αf + βg| dµ ≤ |α| |f | dµ + |β| |g| dµ .
M M M
A propósito, as desigualdades de Hölder e Minkowski (23.40) e (23.41) assumem com a notação de

(23.44) a forma
kf gk1 ≤ kf kp kgkq
e
kf − gkp ≤ kf kp + kgkp ,
respectivamente.
Por que k · kp é uma pseudo-norma e não uma norma em Lp (M dµ)? Pois, como discutimos no caso
p = 1, a relação kf kp = 0 não implica f = 0, mas apenas f = 0 µ-q.t.p. Se, no entanto, considerarmos
o espaço Lp (M, dµ), definido acima, k · kp será uma norma! Concluı́mos disso que para p ≥ 1, os
conjuntos Lp (M, dµ) são espaços vetoriais complexos e normados. Por serem normados, são também
espaços métricos com as métricas induzidas pelas normas k · kp :
Z 1/p
p
dp (f, g) := kf − gkp = |f − g| dµ .
M
Como veremos logo adiante, os espaços Lp (M, dµ) com p ≥ 1 são espaços de Banach, por serem
completos em relação à métrica dp acima.
• A desigualdade de Cauchy-Schwarz. Um produto escalar em L2 (M, dµ)
A desigualdade de Hölder (23.40) tem um caso particular muito importante, a saber, quando p =
q = 2: para f, g ∈ L2 (M, dµ) vale
Z Z 1/2 Z 1/2
2 2
|f | |g| dµ ≤ |f | dµ |g| dµ < ∞.
M M M
R R
Como também M f g dµ ≤ M |f | |g| dµ, segue que
Z Z 1/2 Z 1/2

f g dµ ≤ 2
|f | dµ 2
|g| dµ < ∞.

M M M
As duas desigualdades acima são denominadas desigualdades de Cauchy-Schwarz. A segunda está nos
dizendo que para f, g ∈ L2 (M, dµ) a expressão
Z
hf, gi := f g dµ
M
é um número complexo finito e, como facilmente se verifica, define um produto escalar em L2 (M, dµ).
E. 23.26 Exercı́cio. Demonstre as afirmações acima. 6
É também elementar constatar que a norma associada a esse produto escalar é a norma k · k2 .
Como veremos logo abaixo, L2 (M, dµ) é completo em relação à métrica d2 que essa norma induz.
Conseqüentemente, L2 (M, dµ) é um espaço de Hilbert.
• Relações de inclusão entre os conjuntos Lp (M, dµ) quando µ(M) < ∞
Se o conjunto M e a medida µ são tais que µ(M) < ∞, então a função g(x) = 1 (identicamente
R
igual a 1 para todo x ∈ M) pertence a todo Lq (M, dµ), 0 < q < ∞. Isso é evidente, pois M 1q dµ =
µ(M) < ∞. Disso e da desigualdades de Hölder (23.43), extraem-se algumas conseqüências sobre
relações de inclusão entre os vários espaços Lp (M, dµ).
Para 1 < p < ∞ e 1 < q < ∞ arbitrários, tomando-se f ∈ Lp (M, dµ) e g = 1, obtem-se de (23.43)
que
Z 1/r Z 1/p
r
|f | dµ ≤ p
|f | dµ [µ(M)]1/q < ∞ , (23.45)
M M
para 1/r = 1/p + 1/q. Como 1 < q < ∞, segue que r < p. Como q é arbitrário, a desigualdade (23.45)
diz que se f ∈ Lp (M, dµ) então f ∈ Lr (M, dµ) para todo r ≤ p, ou seja, Lp (M, dµ) ⊂ Lr (M, dµ)
sempre que r ≤ p com 1 < p < ∞. Note que o caso r = 1 não está excluido (basta escolher q tal que
1/p + 1/q = 1). Assim, tem-se, por exemplo,
· · · ⊂ L4 (M, dµ) ⊂ L3 (M, dµ) ⊂ L2 (M, dµ) ⊂ L1 (M, dµ) .
Essas relações de inclusão não são geralmente válidas caso µ(M) = ∞. Vide próximo exercı́cio.
E. 23.27 Exercı́cio. Mostre que a função





 1, x ∈ [−1, 1]



f (x) =






 1
, x 6∈ [−1, 1]
|x|
pertence a L2 (R, dµL ) mas não a L1 (R, dµL ).

Mostre que a função 



 √1 , 0 < |x| ≤ 1

 |x|

f (x) =






 0, x = 0 ou |x| > 1
pertence a L1 (R, dµL ) mas não a L2 (R, dµL ).

Mostre que a função 



 1, x ∈ [−1, 1]



f (x) =






 1
, x 6∈ [−1, 1]
|x|2
pertence a L2 (R, dµL ) ∩ L1 (R, dµL).

6
• Revisitando a desigualdade de Hölder
Se p e q são tais que 1 < p < ∞, 1 < q < ∞ e satisfazem 1/p + 1/q = 1, então para quaisquer
f ∈ Lp (M, dµ) e g ∈ Lq (M, dµ) a desigualdade de Hölder (23.40) implica que
Z Z 1/p Z 1/q

f g dµ ≤ p
|f | dµ q
|g| dµ < ∞. (23.46)

M M M
Como facilmente se verifica, a aplicação

Z
g 7→ f g dµ
M
é um funcional linear em Lq (M, dµ). Mais que isso, (23.46) diz-nos que se trata de um funcional linear
contı́nuo31 (na topologia de Lq (M, dµ)).
Concluı́mos disso que se 1 < p < ∞, 1 < q < ∞ e satisfazem 1/p + 1/q = 1, então Lp (M, dµ) é um
sub-conjunto do dual topológico de Lq (M, dµ) e vice-versa.
E. 23.28 Exercı́cio. Justifique as afirmações acima 6
23.4.2 O Teorema de Riesz-Fischer. Completeza

Vamos agora formular um importante teorema que é uma das principais justificativas do interesse na
integral de Lebesgue e, em um certo sentido, coroa nossos esforços neste Capı́tulo. Trata-se do Teorema
de Riesz32 -Fischer33, o qual data de 1907.
Teorema 23.8 (Teorema de Riesz-Fischer) Para p ≥ 1 os espaços Lp (M, dµ) são espaços métricos
completos na métrica dp definida acima. 2
Do Teorema de Riesz-Fischer e das considerações acima concluı́mos que os espaços Lp (M, dµ) com
p ≥ 1 são espaços de Banach e o espaço L2 (M, dµ) é um espaço de Hilbert.
A prova do Teorema de Riesz-Fischer encontra-se no Apêndice 23.K, página 1191.
31
As noções de funcional linear e funcional linear contı́nuo foram introduzidas na Seção 2.1.3 do Capı́tulo 2.
32
33
Ernst Sigismund Fischer (1875-1954).
Apêndices
Nos vários apêndices que seguem apresentamos as demonstrações mais técnicas de alguns dos teoremas
e proposições da nossa exposição.
23.A Demonstração da Proposição 23.3

Demonstraremos aqui a Proposição 23.3, página 1129. Recordamos que as noções de lim inf e lim sup
de conjuntos dirigidos, as quais usaremos abaixo, são introduzidas na Seção 22.4, página 1106.
Prova da Proposição 23.3. Pelo exercı́cio E. 23.2 da página 1128, o reticulado P([a, b]) ∋ P 7→
Di [P, f ] ∈ R é crescente, enquanto que o reticulado P([a, b]) ∋ P 7→ Ds [P, f ] ∈ R é decrescente.
Assim, Z b
lim inf Di [P, f ] = sup Di [P, f ] = f (x) dx
P∈P([a, b]) P∈P([a, b]) a
e Z b
lim sup Ds [P, f ] = inf Ds [P, f ] = f (x) dx .
P∈P([a, b]) P∈P([a, b]) a
(Vide definições (22.1)-(22.2) e (22.3)-(22.4)). Temos obviamente que

Di [P, f ] ≤ S[(P, χ), f ] ≤ Ds [P, f ]
para todo P ∈ P([a, b]) e todo χ ∝ P. Porém, vê-se pelas definições de Di e Ds que
Di [P, f ] = inf S[(P, χ), f ] e Ds [P, f ] = sup S[(P, χ), f ]
χ∝P χ∝P
e, portanto,
lim inf Di [P, f ] = lim inf S[(P, χ), f ] e lim sup Ds [P, f ] = lim sup S[(P, χ), f ] .
P∈P([a, b]) (P, χ)∈X([a, b]) P∈P([a, b]) (P, χ)∈X([a, b])
Logo,
Z b
f (x) dx = lim inf Di [P, f ] = lim inf S[(P, χ), f ]
a P∈P([a, b]) (P, χ)∈X([a, b])
Z b
≤ lim sup S[(P, χ), f ] = lim sup Ds [P, f ] = f (x) dx ,
(P, χ)∈X([a, b]) P∈P([a, b]) a
onde a única desigualdade que ocorre acima segue da propriedade (22.5). Dessa expressão, vê-se que
Rb Rb
a
f (x) dx = a
f (x) dx se e somente se
lim inf S[(P, χ), f ] = lim sup S[(P, χ), f ]

(P, χ)∈X([a, b]) (P, χ)∈X([a, b])
e, portanto, por (22.6), se e somente se existe lim S[(P, χ), f ]. Isso prova a equivalência das
(P, χ)∈X([a, b])
definições I e II da noção de integrabilidade de Riemann.
23.B Caracterizações e Propriedades de Funções Mensuráveis

Vamos aqui estudar com mais detalhe e profundidade caracterizações e propriedades elementares das
funções mensuráveis. Advertimos que a presente seção é, infelizmente, mas inevitavelmente, um pouco
técnica. Sugerimos a um estudante iniciante dispensar a leitura das demonstrações e concentrar-se
apenas nas definições e enunciados.
• Uma condição para mensurabilidade de funções
O próximo teorema (de [62]) é de importância fundamental e será usado em vários lugares mais
abaixo. A noção de σ-álgebra gerada por uma coleção de conjuntos foi introduzida no Capı́tulo 19.
Teorema 23.9 Sejam (M, M) e (N, N) dois espaços mensuráveis e suponhamos que N seja a σ-
álgebra gerada por uma coleção A de subconjuntos de N: N = M[A]. Então, uma função f : M → N
é [M, N]-mensurável, ou seja, [M, M[A]]-mensurável, se e somente se
f −1 (A) ∈ M (23.B.1)
para todo A ∈ A. 2
Prova. Se A ∈ A segue que A ∈ M[A]. Logo, se f é mensurável em relação a M e N = M[A], então,

pela definição de função mensurável, f −1 (A) ∈ M.
Vamos provar a recı́proca, ou seja, vamos supor que (23.B.1) valha para todo A ∈ A e mostrar que
f mensurável em relação a M e N = M[A]. Seja
A′ := {A′ ⊂ N| f −1 (A′ ) ∈ M} .
Por (23.B.1) é claro que A ⊂ A′ . Mostremos agora que A′ é uma σ-álgebra em N. Que ∅ e N
pertencem a A′ é claro, pois f −1 (N) = M (isso segue de f (M) ⊂ N). Se A′ ∈ A′ , então f −1 ((A′ )c ) =
f −1 (N \ A′ ) = f −1 (N) \ f −1 (A′ ) = M \ f −1 (A′ ) = (f −1 (A′ ))c . (Vide Proposições 1.2–1.4, página 27).
Por hipótese, f −1 (A′ ) ∈ M. Logo, como M é uma σ-álgebra, (f −1 (A′ ))c ∈ M.
Resta-nos provar que uma união contável de elementos de A′ é também elemento de A′ . Para isso,
sejam conjuntos A′k ∈ A′ , k ∈ N. Sabemos que (vide Proposições 1.2–1.4, página 27)
!
[ [
f −1 A′k = f −1 (A′k ) .
k∈N k∈N
Por hipótese, cada f −1 (A′k ) pertence a M. Como

S M é uma σ-álgebra, uma
S união′ contável de seus
−1 ′ ′
elementos também pertence a M. Logo, f k∈N Ak ∈ M. provando que k∈N Ak ∈ A .
Como, por definição, M[A] é a menor σ-álgebra contendo A e A′ também é uma σ-álgebra contendo
A, segue que M[A] ⊂ A′ . Ora, pela definição de A′ , isso diz que a pré-imagem por f de qualquer
elemento de N = M[A] é um elemento de M. Isso significa precisamente que f é mensurável em relação
a M e N, completando a prova.
• Funções mensuráveis entre espaços topológicos
Já observamos acima a semelhança entre as definições de funções contı́nuas e funções mensuráveis.
As duas noções combinam-se elegantemente nos resultados que seguem.
O Teorema 23.9 tem uma aplicação imediata para funções contı́nuas definidas em espaços to-
pológicos. Sejam M e N dois conjuntos não-vazios dotados de topologias τM e τN , respectivamente, e se-
jam M[τM ] e M[τM ] as σ-álgebras geradas por essas topologias. Afirmamos que se f : M → N é contı́nua
com respeito às topologias τM e τN , então f é mensurável em relação às σ-álgebras M[τM ] e M[τN ],
ou seja, é [M[τM ], M[τN ]]-mensurável. De fato, pelo Teorema 23.9 basta provar que f −1 (A) ∈ M[τM ]
para todo A ∈ τN . Agora, por f ser contı́nua, vale que f −1 (A) ∈ τM se A ∈ τN . Como obviamente
τM ⊂ M[τM ], a afirmação está provada.
Note que se em M adotarmos uma σ-álgebra M que contém a σ-álgebra M[τM ], a mesma afirmação
é verdadeira: uma função f : M → N contı́nua com respeito às topologias τM e τN é mensurável em
relação às σ-álgebras M[τM ] e M ⊃ M[τM ].
Disso segue que toda função f : R → R contı́nua em relação à topologia τR é [M[τR ], M[τR ]]-
mensurável e também [M[τR ], MµL ]-mensurável.
A proposição adiante é um mero corolário das observações acima.
Proposição 23.9 Sejam X, Y e Z três conjuntos não-vazios, sendo o conjunto X dotado de uma
σ-álgebra MX e os conjuntos Y e Z dotados de topologias τY e τZ , respectivamente. Sejam f : X → Y
e g : Y → Z duas funções tais que f é [MX , M[τY ]]-mensurável e g é contı́nua em relação às topologias
τY e τZ . Então, g ◦ f : X → Z é [MX , M[τZ ]]-mensurável. 2
Prova. Pelo que acabamos de comentar, g é [M[τY ], M[τZ ]]-mensurável. Assim, g ◦ f é uma função
[MX , M[τZ ]]-mensurável por ser a composição de uma função [MX , M[τY ]]-mensurável com uma
função [M[τY ], M[τZ ]]-mensurável.
• Aplicação para funções numéricas
Notemos que o Teorema 23.9 é aplicável ao caso de funções f : M → R, onde M dotada de uma
σ-álgebra M e R da σ-álgebra de Borel M[τR ]. Nesse caso A = τR . Em verdade, provamos no Capı́tulo
19, mais especificamente na expressão (19.3), página 1057, que M[τR ] = M[R], onde R é a coleção de
todos os intervalos abertos (a, b), com a e b racionais. Podemos, portanto, tomar A = R, nesse caso.
Conseqüentemente, para provar que uma função f : M → R é mensurável em relação a M e M[τR ], é
suficiente, pelo Teorema 23.9, provar que f −1 ((a, b)) ∈ M para todo intervalo aberto (a, b), com a e b
racionais.
Observemos agora, que

[ c !
1
(a, b) = (−∞, b) ∩ −∞, a + .
n∈N
n
TE. 23.29 Exercı́cio.

Prove isso! Sugestão: use (a, b) = (−∞, b) \ (−∞, a] e escreva (−∞, a] =
1
n∈N −∞, a + n . 6
Isso significa que

[ c !
1
f −1 ((a, b)) = f −1 ((−∞, b)) ∩ f −1 −∞, a + .
n∈N
n
(Vide Proposições 1.2–1.4, página 27). Logo, pelos raciocı́nios usuais sobre uniões contáveis, inter-
secções finitas e complementos de elementos de uma σ-álgebras, segue que se f −1 ((−∞, c)) ∈ M para
todo c ∈ R, então f −1 ((a, b)) ∈ M para todos com a e b racionais, provando que f é mensurável em
relação a M e M[τR ].
Um raciocı́nio idêntico nos leva a concluir que se f −1 ((c, ∞)) ∈ M para todo c ∈ R, então f é
mensurável em relação a M e M[τR ].
Resumimos essas considerações na seguinte proposição, que usaremos logo abaixo:
Proposição 23.10 Consideremos uma função numérica f : M → R, sendo M dotada de uma σ-
álgebra M e R da σ-álgebra de Borel M[τR ]. Uma condição necessária e suficiente para que f seja
[M, M[τR ]]-mensurável é que para todo a ∈ R valha
{x ∈ M| f (x) < a} = f −1 ((−∞, a)) ∈ M. (23.B.2)

Equivalentemente, podemos substituir o conjunto de (23.B.2) por qualquer um dos seguintes três con-
juntos:
{x ∈ M| f (x) ≤ a} = f −1 ((−∞, a]) ∈ M, (23.B.3)
{x ∈ M| f (x) > a} = f −1 ((a, ∞)) ∈ M, (23.B.4)
{x ∈ M| f (x) ≥ a} = f −1 ([a, ∞)) ∈ M. (23.B.5)

2
Prova. Que as condições são necessárias é evidente, pois os quatro conjuntos (23.B.2)-(23.B.5) são a
pré-imagem por f dos conjuntos Borelianos (−∞, a), (−∞, a], (a, ∞) e [a, ∞).
Acima, já provamos a recı́proca para os conjuntos (23.B.2) e (23.B.4). Os dois casos restantes são
conseqüência desses dois se lembrarmos que f −1 ((−∞, a]) = (f −1 ((a, ∞)))c e que f −1 ([a, ∞)) =
(f −1 ((−∞, a)))c .
Nosso próximo resultado é o seguinte:

Proposição 23.11 Se f : M → R e g : M → R são ambas [M, M[τR ]]-mensuráveis, então
{x ∈ M| f (x) < g(x)} ∈ M, (23.B.6)
{x ∈ M| f (x) ≤ g(x)} ∈ M, (23.B.7)
{x ∈ M| f (x) > g(x)} ∈ M, (23.B.8)
{x ∈ M| f (x) ≥ g(x)} ∈ M. (23.B.9)
Prova. Para demonstrar a primeira linha, notemos que

[
{x ∈ M| f (x) < g(x)} = {x ∈ M| f (x) < r} ∩ {x ∈ M| g(x) > r} .
r∈Q
E. 23.30 Exercı́cio. Mostre isso! Sugestão: lembre-se que f (x) < g(x) se e somente se existir pelo
menos um racional r tal que f (x) < r < g(x), ou seja, f (x) < r e r < g(x). 6
Como observamos acima, tanto {x ∈ M| f (x) < r} quanto {x ∈ M| g(x) > r} são elementos de
M. Pelas propriedades de σ-álgebras, sua intersecção também o é. Por fim, a união acima também
o é, por ser uma união contável de elementos de M (essa é uma das propriedades definidoras de uma
σ-álgebras). A prova que {x ∈ M| f (x) > g(x)} ∈ M é análoga:
[
{x ∈ M| f (x) > g(x)} = {x ∈ M| f (x) > r} ∩ {x ∈ M| g(x) < r}
r∈Q
e não requer mais comentários. Por fim, notemos que {x ∈ M| f (x) ≤ g(x)} = {x ∈ M| f (x) > g(x)}c
e que {x ∈ M| f (x) ≥ g(x)} = {x ∈ M| f (x) < g(x)}c . Como uma σ-álgebra é fechada pelo
complemento, segue do que já foi provado que {x ∈ M| f (x) ≤ g(x)} ∈ M e {x ∈ M| f (x) ≥ g(x)} ∈
M.
• A álgebra das funções mensuráveis
Vamos aqui provar a seguinte afirmativa, a qual coroa os resultados obtidos até aqui sobre funções
numéricas mensuráveis: o conjunto das funções numéricas mensuráveis forma uma álgebra. Mais
precisamente, tem-se
Proposição 23.12 Se f : M → R e g : M → R são ambas [M, M[τR ]]-mensuráveis, então
1. Para todos α, β ∈ R vale que αf + βg é [M, M[τR ]]-mensurável.
2. O produto f · g é [M, M[τR ]]-mensurável. 2

Prova. Para simplificar a linguagem, usaremos nesta prova a expressão função mensurável no sentido
de [M, M[τR ]]-mensurável.
Seja α ∈ R. Afirmamos que αf é igualmente mensurável. Se α = 0 a afirmativa é trivial. Se α 6= 0,
notemos que para todo a ∈ R
{x ∈ M| αf (x) < a} = {x ∈ M| f (x) < a/α} ∈ M
por (23.B.2), já que, por hipótese, f é mensurável. Como isso vale para todo a ∈ R, segue pela mesma
Proposição 23.10 que αf é igualmente mensurável.
O mesmo tipo de argumento tem outra conseqüência semelhante. Se h : M → R é mensurável,
então que para todo b ∈ R vale
{x ∈ M| b + h(x) < a} = {x ∈ M| h(x) < a − b} .
Como h é mensurável, {x ∈ M| h(x) < a − b} ∈ M. Como isso vale para todo a ∈ R, concluı́mos da
igualdade acima que b + h é mensurável.
Observe-se agora que
{x ∈ M| f (x) + g(x) < a} = {x ∈ M| f (x) < a − g(x)} .
Definindo-se h(x) = a − g(x), constatamos pelas considerações de acima que se trata de uma função
mensurável. Assim, pela Proposição 23.11, segue que {x ∈ M| f (x) + g(x) < a} ∈ M para todo a, o
que implica que f + g e mensurável.
Concluı́mos disso tudo que para todos α, β ∈ R a função αf + βg é mensurável em relação a M
e M[τR ]. Resta-nos ainda mostrar que o produto f · g é mensurável. Provemos primeiro que se f é
mensurável então f 2 também o é. De fato, para a < 0
{x ∈ M| f (x)2 < a} = ∅ ∈ M
mas para a ≥ 0,
√ √
{x ∈ M| f (x)2 < a} = x ∈ M| f (x) < a ∪ x ∈ M| f (x) < − a .
√
Como f é mensurável, segue que {x ∈ M| f (x) < ± a} ∈ M. Logo {x ∈ M| f (x)2 < a} ∈ M e como
isso vale para todo a ∈ R, segue que f 2 é mensurável.
A prova que f · g é mensurável segue da relação
1
f ·g = (f + g)2 − (f − g)2
4
e reunindo tudo o que vimos.
A seguinte proposição também é relevante:

√
Proposição 23.13 Se f : M → R é [M, M[τR ]]-mensurável e f (x) ≥ 0 para todo x ∈ M, então f
é também [M, M[τR ]]-mensurável. 2
p
Prova. Para f : M → R, basta observar que para a < 0 vale {x ∈ M| f (x) < a} = ∅ ∈ M e para
a ≥ 0, p
{x ∈ M| f (x) < a} = {x ∈ M| f (x) < a2 } ∈ M ,
√
pois f é mensurável. Isso provou que f é [M, M[τR ]]-mensurável.
• Funções complexas mensuráveis
O conjunto dos números complexos C é um espaço topológico métrico completo com a métrica
d(z, w) = |w − z|, z, w ∈ C. Denotaremos por τC a topologia que essa métrica induz, a topologia
usual de C. A essa topologia vem associada a σ-álgebra Boreliana M[τC ].
Vamos demonstrar a seguinte proposição:
Proposição 23.14 Seja (M, M) um espaço mensurável e f : M → C uma função complexa [M, M[τC ]]-
mensurável definida em M. Então Re(f ), Im(f ) e |f | são funções reais [M, M[τR ]]-mensuráveis. 2
Prova. Comecemos por observar que a função Re : C → R dada por Re(z) = (z + z)/2 é contı́nua,
assim como a função Im : C → R dada por Im(z) = (z − z)/(2i).
E. 23.31 Exercı́cio simples. Prove isso! 6
Com isso em mente, podemos entender a função Re(f ) : M → R como a composição Re ◦ f da

função [M, M[τC ]]-mensurável f com a função Re que é contı́nua em relação às topologias τC e τR .
Assim, pela Proposição 23.9, página 1174, segue que Re(f ) : M → R é [M, M[τR ]]-mensurável. A
prova para Im(f ) é idêntica.
A função módulo | · | : C → R é também uma função contı́nua entre C e R. (Isso é totalmente óbvio,
pois a métrica em C é definida por essa função!). Assim o mesmo argumento se aplica novamente.
Outra maneira de provar que | · | : C → R é [M, M[τR ]]-mensurável é lembrar que (Re(f ))2 +
(Im(f
p ))2 é [M, M[τR ]]-mensurável pela Proposição 23.12 e, portanto, pela Proposição 23.13, |f | =
(Re(f ))2 + (Im(f ))2 é [M, M[τR ]]-mensurável.
A Proposição 23.14 tem parcialmente uma recı́proca:

Proposição 23.15 Se u : M → R e v : M → R são [M, M[τR ]]-mensuráveis então f : u+iv : M → C
é [M, M[τC ]]-mensurável. 2
Prova. (De [123]). Seja I1 um intervalo aberto do eixo real e I2 um intervalo aberto do eixo imaginário.
Então R = I1 × I2 é um retângulo aberto em C. Agora, é fácil ver que f −1 (R) = u−1 (I1 ) ∩ v −1 (I2 ).
Pelas hipóteses, u−1 (I1 ) e v −1 (I2 ) pertencem à σ-álgebra M. Logo, f −1 (R) também.SLembremos que
todo aberto A de C pode ser ser escrito como união contável de tais retângulos: A = n∈N Rn . Agora,
por (1.14), página 27, !
[ [
f −1 (A) = f −1 Rn = f −1 (Rn ) .
n∈N n∈N
Mas como vimos f −1 (Rn ) ∈ M para todo n e, como a união acima é contável, segue que f −1 (A) ∈ M.
Pela Proposição 23.9, isso prova que f é [M, M[τC ]]-mensurável.
Para as funções complexas mensuráveis vale a mesma afirmação feita sobre as funções reais: elas
formam uma álgebra. Mais precisamente, tem-se
Proposição 23.16 Se f : M → C e g : M → C são ambas [M, M[τC ]-mensuráveis, então
1. Para todos α, β ∈ C vale que αf + βg é [M, M[τC ]]-mensurável.
2. O produto f · g é [M, M[τC ]]-mensurável. 2
Prova. A prova é elementar com o que acumulamos até aqui, pois é fácil provar (usando as Proposições
23.12 e 23.14) que as partes reais e imaginárias de αf + βg e de f · g são [M, M[τR ]]-mensuráveis. Daı́,
pela Proposição 23.15, αf + βg e f · g são [M, M[τC ]]-mensuráveis.
23.C Prova do Lema 23.3

A prova (extraı́da com modificações de [62]) consiste em exibir uma seqüência fn de funções simples
mensuráveis e não-negativas e verificar as propriedades. A seqüência é
n2
X
n
k−1
fn (x) := χFn, k (x) + nχGn (x) ,
k=1
2n
onde
k−1 k k−1 k
Fn, k := f −1
, n = x ∈ M ≤ f (x) < n ,
2n 2 2n 2
e
Gn := f −1 ([n, ∞]) = {x ∈ M| n ≤ f (x) ≤ ∞} .
Como por hipótese f é Boreliana,
k−1 k é imediato que Fn, k e Gn são mensuráveis (ou seja, elementos de
M), já que os intervalos 2n , 2n e [n, ∞] são Borelianos. Assim, cada fn é uma função simples e
mensurável.
Queremos provar que fn é não-decrescente e que converge a f . Para isso, é preciso entender melhor
n
como a seqüência fn está definida. Para cada n, divide-se o intervalo semi-aberto [0, n) em n2 sub-
1 k−1 k
intervalos semi-abertos menores de tamanho 2n , que são os intervalos 2n , 2n com k variando entre
1 e n2n . Os conjuntos Fn, k são as pré-imagens por f desses sub-intervalos semi-abertos. A divisão
de [0, n) em n2n sub-intervalos semi-abertos de tamanho 21n significa que cada intervalo semi-aberto
[l, l + 1), com l = 0, . . . , n − 1, é dividido em 2n intervalos semi-abertos de igual tamanho, a saber,
1
2n
.

Se x é tal que f (x) cai em k−1
2n
, 2kn , então fn (x) é definido como sendo k−1
2n
. Se x é tal que f (x) ≥ n,
então fn (x) é definido como sendo n. Assim, para todo x, fn (x) é sempre menor o igual a f (x).
1
Se passarmos de n para n + 1, cada intervalo
passa a ter tamanho 2n+1 , que é a metade do anterior.
k−1 k
Assim cada intervalo semi-aberto
k−1 k 2k−2 2k−1 2k−1 2n
, 2n
passa a ser dividido em dois intervalos semi-abertos disjun-
2k
tos: 2n , 2n = 2n+1 , 2n+1 ∪ 2n+1 , 2n+1 . Como as novas subdivisões estão contidas nas anteriores,
o valor de cada fn+1 (x) só pode aumentar em relação ao de fn . Mais precisamente, para x ∈ Fn, k a
função fn vale k−1
2n
. Após a primeira subdivisão (ao passarmos de n a n + 1) o conjunto Fn, k passa a ser
a união dos dois conjuntos disjuntos Fn+1, 2k−1 e Fn+1, 2k . No primeiro fn+1 (x) vale 2k−22n+1
= k−1
2n
= fn (x)
2k−1 k−1
e no segundo fn+1 (x) = 2n+1 > 2n = fn (x), o que prova o que afirmamos.
Para ver que fn converge a f , observe-se que se f (x) é finito,
k−1 então
para todo n > f (x) tem-se
k
obviamente que f (x) ∈ [0, n) e, portanto, vale que f (x) ∈ 2n , 2n para algum k entre 1 e n2n .
Teremos então, pela definição, que fn (x) = k−1
2n
e, portanto, |fn (x) − f (x)| ≤ 21n , o que prova que
fn (x) → f (x) quando n → ∞. Se f (x) não é finito, fn (x) = n para todo n, pela definição e, portanto,
fn (x) → ∞ quando n → ∞.
Resta apenas provar que se f é finito a convergência é uniforme. Se A > 0 é tal que 0 ≤ f (x) < A
para todo x ∈ M, k−1então é certo que se n > A teremos que para cada x haverá um k entre 1 e n2n
tal que f (x) ∈ 2n , 2kn . Nesse caso fn (x) = k−1 2n
e |fn (x) − f (x)| ≤ 21n , Ora, o lado direito dessa
desigualdade não depende de x, o que mostra que a mesma é uniforme em todo M, completando a
prova do Lema 23.3, página 1145.
23.D Demonstração de (23.22)

Provemos a relação (23.22). Temos que, para todo Bk vale
Bk = Bk ∩ M = Bk ∩ (C1 ∪ · · · ∪ Cq ) = (Bk ∩ C1 ) ∪ · · · ∪ (Bk ∩ Cq )
sendo que a união do lado direito é disjunta, pois (Bk ∩ Ci ) ∩ (Bk ∩ Cj ) = (Ci ∩ Cj ) ∩ Bk = ∅ para
i 6= j. Com isso, se µ é uma medida,
q
X
µ(Bk ) = µ ((Bk ∩ C1 ) ∪ · · · ∪ (Bk ∩ Cq )) = µ(Bk ∩ Cl ) . (23.D.10)
l=1
Analogamente, para todo Cl vale

Cl = Cl ∩ M = Cl ∩ (B1 ∪ · · · ∪ Bp ) = (Cl ∩ B1 ) ∪ · · · ∪ (Cl ∩ Bp )
também uma união disjunta e também tem-se
p
X
µ(Cl ) = µ ((Cl ∩ B1 ) ∪ · · · ∪ (Cl ∩ Bp )) = µ(Cl ∩ Bk ) . (23.D.11)
k=1
Assim,
p p q q p q
X (23.D.10) X X X X (23.D.11) X
βk µ(Bk ) = βk µ(Bk ∩ Cl ) = γl µ(Bk ∩ Cl ) = γl µ(Cl ) ,
k=1 k=1 l=1 l=1 k=1 l=1
o que prova (23.22). Na segunda igualdade, acima, trocamos βk por γl e a razão de podermos fazer
isso é a seguinte. Se Bk ∩ Cl = ∅ então µ(Bk ∩ Cl ) = 0, o que autoriza a substituição. Se Bk ∩ Cl 6= ∅,
então βk = γl , pois se x ∈ Bk ∩ Cl , vale pelas representações normais de (23.21) que s(x) = βk e que
s(x) = γk .
23.E A Equivalência das Definições (23.23) e (23.24)

Vamos aqui mostrar a equivalência das duas definições (23.23) e (23.24) da integral de Lebesgue. Nosso
tratamento segue [62], com ligeiras adaptações e melhorias. Vamos supor que s ∈ S(f ) e que fn é uma
seqüência monótona crescente de funções simples mensuráveis de S(f ) que converge a f (que tal existe,
garante-nos o Lema 23.3). Vamos primeiramente mostrar que
Z Z
s dµ ≤ lim fn dµ .
M n→∞ M
R R
Há dois casos a tratar, I quando M
s dµ = ∞ e II quando M s dµ < ∞.
R
I. No primeiro caso desejamos provar
Pn que M n
f dµ diverge quandoR n → ∞. Façamos isso. Se s tem
representação normal curta s(x) = k=1 sk χSk (x), então o fato de M s dµ = ∞ implica que existe um
k0 com sk0 > 0 e µ(Sk0 ) = ∞. Fixemos um ǫ tal que 0 < ǫ < sk0 e definamos os conjuntos
An := { x ∈ M| fn (x) + ǫ > s(x) } .
É fácil ver que Am ⊂ An para todos m ≤ n, pois fn é uma seqüência crescente. Fora isso,
[
An = M .
n∈N
Isso se deve ao seguinte. Se x ∈ M então, como fn (x) converge a f (x) ≤ s(x), segue que para algum
n grande o suficiente teremos fn (x) + ǫ > s(x). Assim, todo x ∈ M pertence a algum An .
Temos, com isso, que
[ [
Sk 0 = Sk 0 ∩ M = S k 0 ∩ An = (An ∩ Sk0 )
n∈N n∈N
Como Am ∩ Sk0 ⊂ An ∩ Sk0 para todos m ≤ n, podemos evocar a propriedade geral de medidas 3
da página 1064 e escrever µ(Sk0 ) = limn→∞ µ(An ∩ Sk0 ), o que nos diz que limn→∞ µ(An ∩ Sk0 ) = ∞.
Agora,
Z Z Z
fn dµ > fn χAn ∩Sk0 dµ > (s − ǫ) χAn ∩Sk0 dµ
M M M
Z
= (sk0 − ǫ) χAn ∩Sk0 dµ
M
Z
= (sk0 − ǫ) χAn ∩Sk0 dµ
M
= (sk0 − ǫ)µ(An ∩ Sk0 ) .
A segunda desigualdade (primeira linha) se deve ai fato que em An tem-se fn (x) > s(x) − ǫ. A primeira
igualdade (segunda linha) se deve ao fato que em Sk0 a função s vale sk0 .
Z h i
Assim, lim fn dµ > (sk0 − ǫ) lim µ(An ∩ Sk0 ) = ∞, como querı́amos mostrar.
n→∞ M n→∞
R Pn
II. Consideremos
R agora o Pn M s dµ < ∞. Seja s(x) = k=1 sk χSk (x) a representação normal
caso
curta de s. Como M s dµ = k=1 sk µ(Sk ) < ∞, segue que µ(Sk ) < ∞ para todo k com sk > 0.
Seja T := {x ∈ M| s(x) > 0}. É fácil ver que
[
T = Sk .
k=1, ..., n
sk >0
X
Tem-se então µ(T ) = µ(Sk ) < ∞. Vamos escolher um ǫ fixo tal que 0 < ǫ < minsk >0 {sk }. Segue
k
sk >0
que
Z Z
fn dµ ≥ fn χAn ∩T dµ
M M
Z
> (s − ǫ) χAn ∩T dµ
M
Z Z
= s χAn ∩T dµ − ǫ χAn ∩T dµ
M M
Z
= s χAn ∩T dµ − ǫµ(An ∩ T )
M
Z
≥ s χAn ∩T dµ − ǫµ(T )
M
Z
= s χAn ∩T χT dµ − ǫµ(T )
M
Z Z
= s χT dµ − s (1 − χAn ∩T ) χT dµ − ǫµ(T )
M M
Z Z
= s dµ − s (χT − χAn ∩T ) dµ − ǫµ(T )
M M
R
Acima,
R usamos em vários lugares que χA n ∩T = χA n ∩T χT . Na última igualdade usamos que M
s χT dµ =
M
s dµ. Agora, se definirmos sm = supx∈M s(x) = max{s1 , . . . , sn } ≥ 0, teremos
Z Z
s (χT − χAn ∩T ) dµ ≤ sm (χT − χAn ∩T ) dµ = sm (µ(T ) − µ(An ∩ T )) .
M M
Pelo mesmo argumento usado na parte I, vale limn→∞ µ(An ∩ T ) = µ(T ). Com isso, teremos que
sm (µ(T ) − µ(An ∩ T )) ≤ ǫ para todos os n’s grandes o suficiente. Assim, para todos os n’s grandes o
suficiente, Z Z
fn dµ > s dµ − ǫ − ǫµ(T ) .
M M
O lado direito não depende de n. Logo,

Z Z
lim fn dµ > s dµ − ǫ − ǫµ(T ) .
n→∞ M M
Z Z
Como essa desigualdade vale para ǫ arbitrário, segue que lim fn dµ ≥ s dµ, completando a
n→∞ M M
prova para o caso II.
Z Z Z Z
A desigualdade lim fn dµ ≥ s dµ mostra que lim fn dµ ≥ sup s dµ. Agora, como
n→∞ M M n→∞ M s∈S(f ) M
Z Z
fn ∈ S(f ), é claro que lim fn dµ ≤ sup s dµ. Isso mostra que se fn é qualquer seqüência
n→∞ M s∈S(f ) M
monótona crescente de funções simples mensuráveis de S(f ) que converge a f vale
Z Z
lim fn dµ = sup s dµ ,
n→∞ M s∈S(f ) M
provando a equivalência das duas definições (23.23) e (23.24).
23.F Prova do Teorema da Convergência Monótona

Apresentamos aqui a demonstração do Teorema 23.4, o Teorema da Convergência Monótona.
Prova do Teorema 23.4.34 Pelas hipóteses f = supn∈N fn , assim, pela discussão da página 1142 sobre
funções definidas pelo supremo de seqüências, f é mensurável.
R
Pelas hipóteses, a seqüência
R f dµ ou converge a algum número finito não-negativo ou diverge.
M n
RAssim, seja RF := limn→∞ M fn dµ com F ∈ R+ ∪ {∞}. Como fn (x) < f (x) para todo x, segue que
M n
f dµ ≤ M f dµ. Logo, Z
F ≤ f dµ. (23.F.12)
M
Seja agora s ∈ S(f ), ou seja, s é simples, [M, M[τR ]]-mensurável e 0 ≤ s ≤ f . Tomando-se uma
constante c fixa no intervalo (0, 1), definamos para cada n ∈ N os conjuntos
En := {x ∈ M| fn (x) ≥ cs(x)}.
Pela Proposição 23.11, página 1176, os conjuntos En são todos mensuráveis (ou seja, pertencem a M).
Como {fn } é crescente, é também imediato que En ⊂ En+1 para todo n.
Se x ∈ M e f (x) = 0, então x ∈ E1 , pois nesse caso f1 (x) = s(x) = f (x) = 0. Se x ∈ M e f (x) > 0,
então cs(x) < f (x), pois c foi escolhido menor que 1. Como
S fn (x) → f (x), haverá algum n para o qual
fn (x) ≥ cs(x) e, portanto, x ∈ En . Isso provou que n∈N En = M. Pelo Lema 23.4, página 1148, e
pela propriedade geral de medidas do item 3, página 1064, isso implica que
Z Z
lim s dµ = s dµ .
n→∞ En M
34
A demonstração abaixo é encontrada de forma quase idêntica em vários textos, por exemplo, em [123]
Como fn ≥ fn χEn , vale que

Z Z Z Z Z
fn dµ ≥ fn χEn dµ = fn dµ ≥ c s dµ = c s dµ .
M M En En En
R
para todo n. Tomando o limite n → ∞ em ambosRos lados, concluı́mos que F ≥ c M s dµ. Como
Risso vale para todo Rc entre 0 e 1, segue que F ≥R M s dµ. Agora, recordando que,Rpela definição,
M
f dµ R= sups∈S(f ) M s dµ, concluı́mos que F ≥ M f, dµ. Por (23.F.12), segue que M f dµ = F =
limn→∞ M fn dµ. Isso completa a demonstração do Teorema 23.4.
23.G Prova do Lema de Fatou
Prova do Lema de Fatou. Sejam as funções gn : M → R definidas da seguinte forma: para cada x ∈ M
tem-se gn (x) = inf fk (x). É claro que cada gn é não-negativa e, pelos comentários da página 1142,
k≥n
[M, M[τR ]]-mensurável. É também claro que gn (x) ≤ gn+1 (x) para todo n e para todo x ∈ M e que
fn (x) ≥ gn (x), também para todo n e para todo x ∈ M. Agora, para cada x ∈ M
lim gn (x) = sup gn (x) = sup inf fk (x) = lim inf fn (x) . (23.G.13)
n→∞ n≥1 n≥1 k≥n n→∞
(A última igualdade é a definição de lim inf). Como fn (x) ≥ gn (x) tem-se

Z Z
fn dµ ≥ gn dµ
M M
para todo n, e assim, Z Z

inf fk dµ ≥ inf gk dµ .
k≥n M k≥n M
Como gn (x) ≤ gn+1 (x) para todo n, tem-se que
Z Z
inf gk dµ = gn dµ
k≥n M M
e, portanto, Z Z
inf fk dµ ≥ gn dµ .
k≥n M M
Conseqüentemente, Z Z
sup inf fk dµ ≥ sup gn dµ .
n≥1 k≥n M n≥1 M
Agora, por definição Z Z

lim inf fn dµ = sup inf fk dµ
n M n≥1 k≥n M
e, além disso, Z Z
sup gn dµ = lim gn dµ ,
n≥1 M n→∞ M
Z
pois gn dµ é crescente. Portanto, provamos que
M
Z Z
lim inf fn dµ ≥ lim gn dµ .
n M n→∞ M
Como gn satisfaz os requisitos do Teorema da Convergência Monótona, Teorema 23.4, página 1158,
vale que Z Z
lim gn dµ = lim gn dµ
n→∞ M M n→∞
e, assim, Z Z
lim inf fn dµ ≥ lim gn dµ . (23.G.14)
n M M n→∞
Por fim, sabemos por (23.G.13) que lim gn = lim inf fn (x) e, assim, (23.G.14) estabeleceu que
n→∞ n→∞
Z Z
lim inf fn dµ ≥ lim inf fn dµ ,
n M M n→∞
23.H Prova do Teorema da Convergência Dominada

Seguiremos aqui [123].
Prova do Teorema da Convergência Dominada. É claro que se f (x) = lim f (x) e |fn (x)| ≤ F (x) para
n→∞
todo n ∈ N e todo x ∈ M, então |f (x)| ≤ F (x) para todo xR∈ M. ComoR f é também [M, M[τC ]]-
mensurável (por ser o limite de funções mensuráveis), então M |f | dµ < M F dµ < ∞ e, portanto,
f ∈ L1 (M, dµ). Isso provou o item 1 do Teorema 23.6.
Em segundo lugar, notemos que |f − fn | ≤ |f | + |fn | ≤ 2F . Assim, as funções gn = 2F − |f − fn |
são não-negativas e podemos aplicar o Lema de Fatou, Lema 23.5, que diz-nos que
Z Z
lim inf (2F − |f − fn |) dµ ≤ lim inf (2F − |f − fn |) dµ .
M n→∞ n→∞ M
Por um lado, temos que
lim inf (2F − |f − fn |) = 2F − lim sup |f − fn | = 2F ,

n→∞ n→∞
pois lim inf −|f − fn | = − lim sup |f − fn | = 0. (Justifique!) Por outro lado,
n→∞ n→∞
Z Z Z
lim inf (2F − |f − fn |) dµ = 2F dµ + lim inf −|f − fn | dµ .
n→∞ M M n→∞ M
Porém, vale que Z Z

lim inf −|f − fn | dµ = − lim sup |f − fn | dµ .
n→∞ M n→∞ M
(Justifique!) Assim, provamos que

Z Z Z
2 F dµ ≤ 2 F dµ − lim sup |f − fn | dµ .
M M n→∞ M
R R
Como M F dµ ≤ ∞ (pois F ∈ L1 (M, dµ)), podemos subtrair o termo 2 M F dµ de ambos os lados
da expressão acima e concluir que
Z
lim sup |f − fn | dµ ≤ 0 .
n→∞ M
R
Como M
|f − fn | dµ ≥ 0, segue que
Z
lim |f − fn | dµ = 0 .
n→∞ M
Isso provou o item 2 do Teorema 23.6. Como |f −fn | ≤ 2F , segue que (f −fn ) ∈ L1 (M, dµ) e podemos
aplicar (23.33) e concluir que Z

lim (f − fn ) dµ = 0 ,
n→∞ M
ou seja, Z Z
f dµ = lim fn dµ .
M n→∞ M
Isso provou o item 3 do Teorema 23.6.
23.I Prova dos Teoremas 23.2 e 23.3

Aqui apresentamos a demonstração dos Teoremas 23.2 e 23.3, os quais tratam da relação entre as
integrais de Riemann e Lebesgue. Seguiremos essencialmente [62], que por sua vez segue [10]. Para
uma outra demonstração ligeiramente diferente do Teorema 23.2 vide, por exemplo, [44].
Prova do Teorema 23.2. A prova que apresentamos requer o Lema de Fatou e o Teorema da Convergência
Dominada, tratados na Seção 23.3.4, página 1158.
Dada uma função real limitada e integrável por Riemann f , definida em [a, b], e dada uma partição
Pn = {x1 , . . . , xn } de [a, b] com a = x1 < . . . < xn = b, sejam as somas de Darboux
n−1
X n−1
X
Di [Pn , f ] := inf f (y) |Ik | e Ds [Pn , f ] := sup f (y) |Ik | ,
y∈Ik y∈Ik
k=1 k=1
onde Ik = [xk , xk+1 ) e |Ik | = xk+1 − xk = µL (Ik ).

Definamos também as funções simples
n−1
X n−1
X
σn := inf f (y) χIk e Σn := sup f (y) χIk . (23.I.15)
y∈Ik y∈Ik
k=1 k=1
É bastante claro que σn e Σn são funções mensuráveis Borelianas, pois os intervalos Ik = [xk , xk+1 )
são Borelianos. É também evidente que
Z Z
Di [Pn , f ] = σn dµL e Ds [Pn , f ] = Σn dµL .
[a, b] [a, b]
Se f é integrável por Riemann então existe uma seqüência de partições P1 , P2 , P3 , . . ., com Pn+1
mais fina que Pn para todo n e tais que Di [Pn , f ] → ρ e Ds [Pn , f ] → ρ para algum ρ ∈ R. Esse ρ é,
Z b
por definição, a integral de Riemann de f em [a, b], ou seja, ρ = f (x)dx. Assim,
a
Z Z
lim σn dµL = lim Σn dµL = ρ ,
n→∞ [a, b] n→∞ [a, b]
e Z
lim (Σn − σn ) dµL = 0.
n→∞ [a, b]
A seqüência qn = Σn − σn é não-crescente, pois Σn é não-crescente e σn é não-decrescente (certo?).

Assim, a função q = inf qn = lim qn é Boreliana (vide discussão à página 1142). Pelo Lema de Fatou
n n→∞
(Lema 23.5, página 1159),
Z Z Z
q dµL = lim qn dµL = lim inf qn dµL
[a, b] [a, b] n→∞ [a, b] n→∞
Z Z
≤ lim inf qn dµL = lim (Σn − σn ) dµL = 0.
n→∞ [a, b] n→∞ [a, b]
Como qn = Σn − σn ≥ 0 (certo?), segue pela Proposição 23.6, página 1150, que q = 0 µL -q.t.p. em
[a, b].
Como σn ≤ f ≤ Σn para todo n, segue que f = lim σn µL -q.t.p. em [a, b]. Como f é limitada,
n→∞
existe M > 0 tal que |f | < M. Mas isso implica também que |σn | < M pois, por (23.I.15), vale
n−1
X
n−1
X

|σn | ≤ inf f (y) χI ≤ M χIk = M .
y∈Ik k
k=1 k=1
R
A função constante igual a M é integrável em [a, b] (pois [a, b] M dµL = M(b − a) < ∞). Logo,
podemos aplicar o Teorema da Convergência Dominada, Teorema 23.6, página 1161, e concluir do fato
que f = limn→∞ σn que f é integrável e que,
Z Z Z b
f dµL = lim σn dµL = lim Di [Pn , f ] = ρ = f (x) dx .
[a, b] n→∞ [a, b] n→∞ a
provando a igualdade da integral de Riemann e a de Lebesgue no caso tratado. Isso encerra a prova
do Teorema 23.2.
Passemos agora à prova do Teorema 23.3.
Prova do Teorema 23.3. (De [62], com aperfeiçoamentos). A prova que apresentamos requer o Teorema
da Convergência Monótona, tratado na Seção 23.3.4, página 1158.
Z n
Seja a integral de Riemann f (x) dx, a qual existe para todo para n ∈ N, por hipótese. Pelo
−n
Teorema 23.2, Z Z
n
f (x) dx = f dµL ,
−n [−n, n]
a integral à direita sendo a de Lebesgue. Podemos escrever

Z Z
f dµL = f χ[−n, n] dµL .
[−n, n] R
Agora, as funções fn = f χ[−n, n] são Borelianas, são não-negativas e formam uma seqüência não-
decrescente, pois fn ≤ fn+1 para todo n ∈ N, já que [−n, n] ⊂ [−(n + 1), n + 1]. Assim, podemos
aplicar o Teorema da Convergência Monótona, Teorema 23.4, página 1158, e obter
Z n Z Z Z
lim f (x) dx = lim fn dµL = lim fn dµL = f dµL . (23.I.16)
n→∞ −n n→∞ R R n→∞ R
Acima, o fato que limn→∞ fn (x) = f (x) para cada x ∈ R é conseqüência de que [−n, n] → (−∞, ∞)
quanto n → ∞.
R ∞ Assim, concluı́mos da igualdade em (23.I.16) que se f possuir uma integral R n de Riemann imprópria
f (x) dx (definida na Seção 23.2.1, página 1131), então o limite limn→∞ −n f (x) dx, existe e é igual
R∞
−∞ R
a −∞ f (x) dx ∈ R e, com isso concluı́mos que R f dµL é finita e, portanto, f é integrável no sentido
de Lebesgue (como f é não-negativa, é óbvio que f = |f |).
R
Por outro lado, se f for integrável Rno sentido de Lebesgue, então F := R f dµL < ∞ e, pela
n
igualdade em (23.I.16), o limite limn→∞ −n f (x) dx existe e é igual a F . Portanto, para qualquer ǫ > 0
existe n0 ≡ n0 (ǫ) ∈ N tal que Z n0

f (x) dx − F < ǫ. (23.I.17)

−n0
Para todo intervalo finito Z b] ⊃ [−nZ

Z [a, b] com [a, 0 , n0 ] vale f χ[−n0 , n0 ] ≤ f χ[a, b] ≤ f pois f é não-
negativa. Isso implica f dµ ≤ f dµ ≤ f dµ, ou seja,

[−n0 , n0 ] [a, b] R
Z n0 Z b
f (x) dx ≤ f (x) dx ≤ F . (23.I.18)
−n0 a
Conseqüentemente, por (23.I.17) e (23.I.18),

Z b

f (x) dx − F < ǫ.

a
Rβ
Esse fato diz-nos que o reticulado [α, β] → α f (x) dx está eventualmente em qualquer intervalo aberto
(F − ǫ, F + ǫ). (Para a definição de “estar eventualmente”, vide Seção 22.3, página 1102). Isso diz-nos
que F é um ponto limite desse reticulado, o qual, se existe, é único, pois R é um espaço Hausdorff
(vide Proposição 22.5, página 1105). Assim, pela definição
R da Seção 23.2.1, página 1131, f possui uma
integral de Riemann imprópria e essa é igual a F := R f dµL .
23.J Prova das Desigualdades de Hölder e Minkowski
Prova do Teorema 23.7. Provaremos primeiro a desigualdade de Hölder e dela extrairemos a de Min-
kowski.
A prova da desigualdade de Hölder (23.40) segue os mesmos passos daquela do Teorema 17.2, página
17.2. Lembremos, em primeiro lugar a desigualdade demonstrada à página 978, que estabelece que
a b
a1/p b1/q ≤ + , (23.J.19)
p q
1 1
para a ≥ 0, b ≥ 0 e p e q ambos tais que 1 < p < ∞ e 1 < q < ∞, e que + = 1. Em (23.J.19), a
p q
igualdade se dá se e apenas se a = b.
R
Notemos primeiramente que no caso de termos M |f |p dµ = 0, a desigualdade (23.40) é automati-
camente satisfeita, pois valerá |f | = 0 µ-q.t.p. e, Rportanto, |f g| = 0 µ-q.t.p., o que implica
R que o lado
q p
esquerdo de (23.40) é nulo. O mesmo se dá caso M |g| dµ = 0. No caso de termos M |f | dµ = ∞ a
desigualdade em (23.40) e também trivial. Com isso, podemos supor que
Z Z
p
0 < |f | dµ < ∞ e 0 < |g|q dµ < ∞ .
M M
Para x ∈ M, tomemos
|f (x)|p |g(x)|q
a = Z e b = Z .
p q
|f | dµ |g| dµ
M M
A relação (23.J.19) diz-nos que
|f (x)| |g(x)| 1 |f (x)|p 1 |g(x)|q

Z 1/p Z 1/q ≤ Z + Z
p q
p
|f | dµ q
|g| dµ |f |p dµ |g|q dµ
M M M M
R
Tomando a integral M (· · · ) dµ da expressão acima, tem-se
Z Z Z
p
|f ||g| dµ |f | dµ |g|q dµ
M 1 1 1 1
Z 1/p Z 1/q ≤ ZM + ZM = + = 1,
p q p q
|f |p dµ |g|q dµ |f |p dµ |g|q dµ
M M M M
o que demonstra a desigualdade de Hölder (23.40).

Provemos
R agora a desigualdade
R deRMinkowski (23.41). O caso p = 1, é evidente, pois |f −g| ≤ |f |+|g|
implica M |f − g| dµ ≤ M |f | dµ + M |g| dµ. Podemos então tomar p > 1.
Comecemos observando que para p > 1 a função xp é convexa para x > 0. Logo,
p
|f | + |g| 1
≤ (|f |p + |g|p) .
2 2
como |f − g| ≤ |f | + |g|, segue que
p
|f − g| 1
≤ (|f |p + |g|p) . (23.J.20)
2 2
Disso concluı́mos que se f e g pertencem a Lp (M, dµ), então
f − g ∈ Lp (M, dµ) . (23.J.21)
R R R
Também de (23.J.20), extraı́mos que se M |f − g|p dµ = ∞ então R M
|f |p dµ + M |g|p dµ = ∞ e a
desigualdade de Minkowski (23.41) é satisfeita. Também no caso M |f − g|p dµ = 0 (23.41) é satisfeita,
pois aı́ o lado esquerdo de (23.41) é nulo. Podemos então supor
Z
0 < |f − g|p dµ < ∞ . (23.J.22)
M
Escrevamos agora
|f − g|p = |f − g| |f − g|p−1 ≤ (|f | + |g|) |f − g|p−1 = |f | |f − g|p−1 + |g| |f − g|p−1.
Isso diz-nos que
Z Z Z
p p−1
|f − g| dµ ≤ |f | |f − g| dµ + |g| |f − g|p−1 dµ . (23.J.23)
M M M
A desigualdade de Hölder (23.40) diz-nos que

Z Z 1/p Z 1/q
p−1 p (p−1)q
|f | |f − g| dµ ≤ |f | dµ |f − g| dµ .
M M M
onde q é tal que 1/q + 1/p = 1, ou seja, q = p/(p − 1). Por isso, |f − g|(p−1)q = |f − g|p e a expressão
acima faz sentido por (23.J.21). Assim,
Z Z 1/p Z 1/q
p−1 p p
|f | |f − g| dµ ≤ |f | dµ |f − g| dµ .
M M M
e, analogamente
Z Z 1/p Z 1/q
p−1 p p
|g| |f − g| dµ ≤ |g| dµ |f − g| dµ .
M M M
Inserindo essas duas relações em (23.J.23), segue que
Z Z 1/p Z 1/p ! Z 1/q
p p p p
|f − g| dµ ≤ |f | dµ + |g| dµ |f − g| dµ .
M M M M
R 1/q
Como estamos sob a suposição (23.J.22), podemos dividir ambos os lados acima por M
|f − g|p dµ
e, como 1 − 1/q = 1/p, obtemos a desigualdade de Minkowski (23.41).
Prova do Corolário 23.3. Mostraremos que a desigualdade de Hölder generalizada (23.43) é conseqüência
do seu caso particular para r = 1, a desigualdade de Hölder (23.40), que suporemos válida.
Definindo-se p′ = p/r e q ′ = q/r, tem-se
1 1 r r
′
+ ′ = + = 1.
p q p q
Definindo-se F = |f |r , G = |g|r , valerá
Z Z Z Z
p′ q′
F dµ = |f |p dµ < ∞ e G dµ = |g|q dµ < ∞
M M M M
e, portanto, F ∈ Lp′ (M, dµ) e G ∈ Lq′ (M, dµ).

Assim,
Z 1/r Z 1/r
r r
|f | |g| dµ = F G dµ
M M
"Z 1/p′ Z 1/q′ #1/r

(23.40)
p′ q′
≤ F dµ G dµ
M M
"Z 1/p′ Z 1/q′ #1/r

= f p dµ g q dµ
M M
Z 1/p Z 1/q
p q
= f dµ g dµ
M M
que é a desigualdade de Hölder (23.43).
23.K Prova do Teorema de Riesz-Fischer

Seja {fn }, n ∈ N uma seqüência em Lp (M, dµ) e que seja de Cauchy na norma k · kp , ou seja, para
todo ǫ > 0 existe N(ǫ) tal que kfn − fm kp < ǫ para todos m e n maiores que N(ǫ).
Vamos primeiramente mostrar que {fn } possui uma sub-seqüência {gn } com a propriedade que
1
kgl+1 − gl kp < . (23.K.24)
2l
para todos l ∈ N. Vamos definir uma seqüência crescente de números inteiros e positivos Nk , k =
1, 2, 3, . . . com Nk+1 > Nk , da seguinte forma: Nk é tal que kfm − fn kp < 1/2k para todos m, n > Nk .
Note que uma tal seqüência Nk sempre pode ser encontrada pois, por hipótese, fm é uma seqüência
de Cauchy em k · kp (basta tomar Nk := N(1/2k )). Vamos agora escolher uma seqüência crescente de
ı́ndices n1 < n2 < · · · < nk−1 < nk < · · · tais que nk > Nk para todo k. A essa seqüência está associada
a sub-seqüência {fnk }k∈N . Para simplificar a notação, denotaremos gk ≡ fnk , k = 1, 2, 3, . . .. Disso é
imediato que (23.K.24) vale, como querı́amos mostrar, pois nl e nl+1 são maiores que Nl .
Defina-se
k
X ∞
X
hk = |gl+1 − gl | e h = |gl+1 − gl | .
l=1 l=1
Pela desigualdade de Minkowski e por (23.K.24), vale para cada k que

X k Xk Xk
1

kgk kp = |gl+1 − gl | ≤ |gl+1 − gl |p ≤ .

l=1

l=1 l=1
2l
p
Logo, !p
Z Xk
1
gkp dµ ≤ .
M l=1
2l
Pelo Lema de Fatou, segue que
Z Z k
!p
p
X 1
lim inf gk dµ ≤ lim inf gkp dµ ≤ lim inf = 1.
M k→∞ k→∞ M k→∞
l=1
2l
Agora, como {gk } é uma seqüência não-decrescente, {gkp } também o é converge a g p . Logo, lim inf gkp =
k→∞
g p e concluı́mos que Z
g p dµ ≤ 1,
M
o que implica que kgkp ≤ 1. Disso segue que g(x) < ∞ µ-q.t.p.
Assim, provamos que a série
n
X
g1 (x) + (gl+1(x) − gl (x))
l=1
converge absolutamente para µ-q.t. x (ou seja, só não converge absolutamente em um conjunto de
medida µ nula). Note-se agora que
n−1
X
g1 (x) + (gl+1 (x) − gl (x)) = gn (x) .
l=1
Assim, concluı́mos que lim gn (x) existe µ-q.t.p.

n→∞
Vamos denotar por G o conjunto dos x’s em M onde esse limite existe (como vimos µ(M \ G) = 0)
e definamos uma função f : M → C da seguinte forma:




 lim gn (x), para x ∈ G


 n→∞
f (x) := .






 0, para x ∈ M \ G
Queremos provar que kf − fn kp → 0 para n → ∞, ou seja, que a função f definida acima é o limite em
Lp (M, dµ) da seqüência {fn }. Fixando ǫ > 0, sabemos que se m e n forem maiores que N(ǫ) valerá
kfn − fm kp < ǫ. Logo, o Lema de Fatou diz-nos que se m > N(ǫ),
Z Z Z
p
|f − fm | dµ ≤ p
lim inf |gl − fm | dµ ≤ lim inf |gl − fm |p dµ = lim inf (kgl − fm kp )p ≤ ǫp .
M M l→∞ l→∞ M l→∞
(23.K.25)
Isso provou que f − fm ∈ Lp (M, dµ). Como f = fm + (f − fm ), isso implica que f ∈ Lp (M, dµ), pois
Lp (M, dµ) é um espaço vetorial. Sem perda de generalidade, podemos tomar f ∈ Lp (M, dµ) também
(certo?). Ao mesmo tempo, (23.K.25) afirma que kf − fm k → 0 para m → ∞.
Assim, mostramos que a seqüência de Cauchy {fn } de Lp (M, dµ) possui um limite na norma k · kp
que é também elemento de Lp (M, dµ). Isso provou que Lp (M, dµ) é um espaço métrico completo na
norma de Lp (M, dµ), completando a demonstração.
Capı́tulo 24
Alguns Tópicos Especiais em Topologia e Análise
Conteúdo
24.1 Uma Coletânea de Definições . . . . . . . . . . . . . . . . . . . . . . . . . . 1194
24.2 Compacidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1200
24.2.1 Compacidade. Definições e Propriedades em Espaços Topológicos Gerais . . . 1200
24.2.2 Compacidade em Espaços Hausdorff . . . . . . . . . . . . . . . . . . . . . . . 1205
24.2.3 Compacidade em Espaços Métricos . . . . . . . . . . . . . . . . . . . . . . . . 1206
24.2.4 Compacidade em Rn . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1215
24.3 A Noção de Topologia Fraca . . . . . . . . . . . . . . . . . . . . . . . . . . . 1217
24.4 A Topologia Produto de Espaços Topológicos . . . . . . . . . . . . . . . . 1219
24.5 O Teorema da Categoria de Baire . . . . . . . . . . . . . . . . . . . . . . . 1220
O presente capı́tulo, o qual está ainda bastante incompleto, contém uma miscelânea de assun-
tos relacionados a espaços topológicos e suas aplicações. São aqui coletadas várias definições
e resultados empregados alhures nestas Notas. Devida à natureza do capı́tulo as diferen-
tes seções não estão necessariamente ligadas entre si e sua leitura pode ser feita de modo
independente.
24.1 Uma Coletânea de Definições

Apresentamos nesta seção algumas definições importantes empregadas em vários lugares. Exemplos
ilustrativos simples são, quando possı́vel, apresentados ao final da seção.
• Conjuntos densos
Sejam X um conjunto não-vazio, τ uma topologia em X e F ⊂ X um conjunto fechado em relação

à topologia τ . Um conjunto R ⊂ F é dito ser denso em F (em relação à topologia τ ) se seu fecho1 for
F : R = F . Evocando a Proposição 19.6, página 1051, concluı́mos que R é denso em F se e somente
se todo aberto que possuir intersecção não-vazia com F possuir também intersecção não-vazia com A.
Como X é fechado, concluı́mos também que um conjunto R é denso em X se e somente se para todo
aberto não-vazio A ∈ τ valer A ∩ R 6= ∅.
• Conjuntos densos em parte alguma

1
Por definição, o fecho de R de um conjunto R em um espaço topológico é o menor fechado que contém R. Vide
Capı́tulo 19.
1194
Um conjunto S ⊂ X é dito ser denso em parte alguma (em relação à topologia τ ) se seu fecho não
contiver nenhum aberto de τ . Em outras palavras, S é denso em parte alguma se o interior de seu
0 0
fecho S for vazio2 . Em sı́mbolos, S é dito ser denso em parte alguma se S = ∅.
Na topologia usual de R o conjunto dos racionais Q não é denso em parte alguma pois Q = R, que
obviamente possui um interior não vazio ((R)0 = R). O mesmo vale para os irracionais. Os inteiros Z
formam um conjunto denso em parte alguma.
• Conjuntos densos em si mesmo
Um conjunto não-finito T é dito ser denso em si mesmo (em relação à topologia τ ) se tiver a seguinte
propriedade: para todo t ∈ T vale que todo τ -aberto A que contém t contém também pontos de T
distintos de t. Uma definição alternativa é dizer que T é denso em si mesmo se todo ponto de T for
um ponto de acumulação de T .
Pode surpreender o estudante saber que há em R conjuntos fechados, densos em parte alguma e
densos em si mesmo (na topologia usual de R). Os exemplos mas proeminentes são os conjuntos de
Cantor tratados na Seção 21.2, página 1081. Vide também adiante.
• Conjuntos perfeitos
Um sub-conjunto P de X é dito ser perfeito se for fechado e denso em si mesmo.
• Abertos densos
Sejam X um conjunto não-vazio e τ uma topologia em X. De particular interesse são os conjuntos

G ⊂ X que têm a propriedade de serem abertos e densos em X.
Se τ é uma topologia métrica em X e G ⊂ X é um aberto denso, então todo ponto de X que não
pertence a G (ou seja, todo ponto de X \ G) está arbitrariamente próximo de um ponto de G (pois
G é denso), mas nenhum ponto de G está arbitrariamente próximo de um ponto de X \ G (pois G é
aberto).
Exemplo 24.1 Seja X = R2 com a topologia métrica usual e seja L uma linha reta em R2 . Então,
G = R2 \ L é um aberto denso. Se L1 , . . . , Ln é uma coleção finita de retas em R2 , então G =
R2 \ (L1 ∪ . . . ∪ Ln ) é um aberto denso. ◊
Exemplo 24.2 Em X = R, com a topologia métrica usual, nem o conjunto dos racionais nem o dos
irracionais é aberto denso (ambos são densos, mas não são abertos). ◊
A seguinte propriedade de conjuntos abertos densos pode ser facilmente estabelecida: se G1 e G2

são abertos densos em X, então G1 ∩G2 é um aberto denso em X. Para provar, notemos primeiramente
que G1 ∩ G2 é um aberto (por ser intersecção de dois abertos). Em segundo lugar, se A é um aberto
não-vazio qualquer, tem-se que A ∩ (G1 ∩ G2 ) é não-vazio. Para ver isso, notemos que esse conjunto é
igual a (A ∩ G1 ) ∩ G2 , mas A ∩ G1 é aberto e não-vazio, por hipótese (G1 é suposto ser denso em X)
e, pela mesma razão, (A ∩ G1 ) ∩ G2 é igualmente aberto e não-vazio.
2
Por definição, o interior de T 0 de um conjunto T em um espaço topológico é o maior aberto contido em T . Vide
Capı́tulo 19.
Por indução, pode-se sem dificuldade provar a seguinte generalização:

Proposição 24.1 Sejam X um conjunto não-vazio e τ uma topologia em X. Se G1 , . . . , Gn é uma
coleção finita de abertos densos em X, então a intersecção G1 ∩ . . . ∩ Gn é um aberto denso em X. 2
A proposição acima diz-nos intuitivamente que conjuntos abertos e densos são conjuntos topologica-
mente “grandes” dentro de X. Essa idéia é a raiz da noção de propriedade genérica, que apresentaremos
logo adiante.
Igualmente fácil de demonstrar é a seguinte proposição:
Proposição 24.2 Sejam X um conjunto não-vazio e τ uma topologia em X. Então, a coleção formada
pelos abertos densos em X e pelo conjunto vazio forma uma topologia em X. 2
Prova. X é um aberto denso, trivialmente. Uniões arbitrárias de abertos densos são também abertos e
densos, trivialmente. Por fim, pela Proposição 24.1, intersecções finitas de abertos e densos são abertos
e densos. 2
• Propriedades genéricas
Sejam X um conjunto não-vazio e τ uma topologia em X. Uma propriedade P é dita ser uma
propriedade genérica, ou válida genericamente, na topologia τ se for válida em um aberto denso em X.
Como, intuitivamente falando, abertos densos são subconjuntos topologicamente “grandes” de X,
uma propriedade genérica é uma propriedade válida em todo X, exceto em um conjunto topologica-
mente “pequeno”. Em situações em que se dispõe de uma topologia mas não de uma medida, a noção
de propriedade genérica substitui a noção de propriedade válida “quase em toda parte” em relação a
uma medida (ou seja, válida exceto em um conjunto de medida nula. Vide página 1080).
E. 24.1 Exercı́cio-Exemplo. Seja Mat (C, n) a álgebra das matrizes complexas n × n com a topologia
métrica usual definida pela norma operatorial (vide Capı́tulo 4, página 238). Mostre que a propriedade de
uma matriz ter todos os seus autovalores distintos é válida genericamente. 6
Exemplo 24.3 Em R, a propriedade de um número ser irracional não é válida genericamente em

relação à topologia métrica usual, mas é válida quase em toda parte em relação à medida de Lebesgue.
Já a propriedade de um número ser racional não é válida nem genericamente em relação à topologia
métrica usual, nem é válida quase em toda parte em relação à medida de Lebesgue. ◊
• Conjuntos desconexos
Um conjunto D ⊂ X é dito ser desconexo (em relação a τ ) se existirem dois abertos A1 , A2 ∈ τ ,

com
1. D ∩ A1 6= ∅ e D ∩ A2 6= ∅,
2. (D ∩ A1 ) ∩ (D ∩ A2 ) = ∅,
3. D = (D ∩ A1 ) ∪ (D ∩ A2 ).
Se D é desconexo, dizemos que um par de abertos A1 , A2 que satisfazem as três condições acima
desconectam D.
• Conjuntos conexos
Um conjunto C ⊂ X é dito ser conexo (em relação a τ ) se não for desconexo.

O seguinte teorema é relevante nesse contexto.
Teorema 24.1 Seja X um conjunto e τ uma topologia em X. Sejam Ka e Kb dois conjuntos conexos
de X segundo τ e tais que Ka ∩ Kb 6= ∅. Então Kc := Ka ∪ Kb é também conexo segundo τ . 2
Prova. A prova é feita por contradição. Vamos assumir que Kc não seja conexo e sejam dois abertos
A1 , A2 satisfazendo
(a) (Kc ∩ A1 ) 6= ∅ e (Kc ∩ A2 ) 6= ∅,

(b) (Kc ∩ A1 ) ∩ (Kc ∩ A2 ) = ∅,
(c) Kc = (Kc ∩ A1 ) ∪ (Kc ∩ A2 ).
Assim3 ,
(c)
Kc = [(Ka ∪ Kb ) ∩ A1 ] ∪ [(Ka ∪ Kb ) ∩ A2 ]
= (Ka ∩ A1 ) ∪ (Kb ∩ A1 ) ∪ (Ka ∩ A2 ) ∪ (Kb ∩ A2 )

= Ka ∩ (A1 ∪ A2 ) ∪ Kb ∩ (A1 ∪ A2 ) . (24.1)
Ao mesmo tempo,
(b)
h i h i
∅ = (Kc ∩ A1 ) ∩ (Kc ∩ A2 ) = (Ka ∪ Kb ) ∩ A1 ∩ (Ka ∪ Kb ) ∩ A2
h i h i
= (Ka ∩ A1 ) ∪ (Kb ∩ A1 ) ∩ (Ka ∩ A2 ) ∪ (Kb ∩ A2 )
h i [ h i
= (Ka ∩ A1 ) ∩ (Ka ∩ A2 ) ∪ (Kb ∩ A2 ) (Kb ∩ A1 ) ∩ (Ka ∩ A2 ) ∪ (Kb ∩ A2 )
h i h i
= (Ka ∩ A1 ) ∩ (Ka ∩ A2 ) ∪ (Ka ∩ A1 ) ∩ (Kb ∩ A2 )
[ h i h i
(Kb ∩ A1 ) ∩ (Ka ∩ A2 ) ∪ (Kb ∩ A1 ) ∩ (Kb ∩ A2 ) (24.2)
3
Advertência ao estudante: as próximas passagens e o restante da demonstração usam abundantemente as proprie-
dades distributivas de uniões e intersecções de conjuntos. Vide Proposição 1.1, página 26.
Notemos que se uma união B1 ∪ B2 ∪ B3 ∪ B4 é vazia, então cada Bj é vazio. De (24.2) concluı́mos,
então, que
∅ = (Ka ∩ A1 ) ∩ (Ka ∩ A2 ) (24.3)
∅ = (Ka ∩ A1 ) ∩ (Kb ∩ A2 ) (24.4)
∅ = (Kb ∩ A1 ) ∩ (Ka ∩ A2 ) (24.5)
∅ = (Kb ∩ A1 ) ∩ (Kb ∩ A2 ) (24.6)
Dessas relações, usaremos mais abaixo (24.3) e (24.6).

Voltemos agora a (24.1). Temos que
(24.1) \
Ka = K a ∩ K c = Ka Ka ∩ (A1 ∪ A2 ) ∪ Kb ∩ (A1 ∪ A2 )
[
= Ka ∩ (A1 ∪ A2 ) (Ka ∩ Kb ) ∩ (A1 ∪ A2 ) . (24.7)
Como Ka ∩ Kb ⊂ Ka , temos que (Ka ∩ Kb ) ∩ (A1 ∪ A2 ) ⊂ Ka ∩ (A1 ∪ A2 ) e, assim, (24.7) se simplifica

para Ka = Ka ∩ (A1 ∪ A2 ). Disso concluı́mos que
Ka = (Ka ∩ A1 ) ∪ (Ka ∩ A2 ) . (24.8)
De maneira totalmente análoga prova-se que
Kb = (Kb ∩ A1 ) ∪ (Kb ∩ A2 ) . (24.9)
Analisemos agora as conclusões (24.3) e (24.8). Se ambos os conjuntos Ka ∩ A1 e Ka ∩ A2 forem

não-vazios, terı́amos que Ka é desconexo (basta lembrar a definição de conjunto desconexo, acima).
Logo, como Ka foi suposto ser conexo, pelo menos um dos dois deve ser vazio. Digamos, sem perda de
generalidade, que Ka ∩ A2 = ∅. Analogamente, por (24.6) e (24.9) concluı́-se que pelo menos um dos
conjuntos Kb ∩A1 e Kb ∩A2 deve ser vazio. Se também tivéssemos Kb ∩A2 = ∅, então (Ka ∪Kb )∩A2 = ∅,
ou seja Kc ∩ A2 = ∅, contrariando (a). Logo,
Ka ∩ A2 = ∅ e Kb ∩ A1 = ∅ .
De (24.8) segue que Ka = Ka ∩ A1 , o que significa que Ka ⊂ A1 . Sabemos, por hipótese, que Ka ∩ Kb
é não-vazio. Seja x ∈ Ka ∩ Kb . Como x ∈ Ka segue que x ∈ A1 . Mas isso contradiz Kb ∩ A1 = ∅,
pois x ∈ Kb . Chegamos assim a uma contradição que nos leva a concluir que Ka ∪ Kb é conexo se
Ka ∩ Kb 6= ∅.
• Componentes conexas
Seja como antes X um conjunto não-vazio com uma topologia τ . É trivial constatar que cada
conjunto {x} com x ∈ X, composto por um único elemento, é conexo.
Se K ⊂ X podemos estabelecer uma relação de equivalência entre seus elementos da seguinte forma:
k, k ′ são equivalentes, k ∼ k ′ , se existir um subconjunto conexo de K que contém ambos. K se quebra,
assim, em uma união disjunta de classes de equivalência pela relação acima. Cada classe é dita ser uma
componente conexa de K.
Mostremos que o definido acima é, de fato, uma relação de equivalência em K. Que k ∼ k é
evidente. Que k ∼ k ′ implica k ′ ∼ k também é. Se k1 ∼ k2 e k2 ∼ k3 , sejam Ka ⊂ K e Kb ⊂ K
conexos tais que k1 , k2 ∈ Ka e k2 , k3 ∈ Kb . Então Kc = Ka ∪ Kb ⊂ K contém k1 e k3 (e também k2 )
e é conexo, pelo Teorema 24.1, página 1197.
• Conjuntos totalmente desconexos
Um conjunto T ⊂ X é dito ser totalmente desconexo se todas as suas componentes conexas tiverem
apenas um ponto.
• Conjuntos de Cantor
Um conjunto que em uma topologia métrica seja 1) totalmente desconexo, 2) compacto4 e 3) perfeito
é dito ser um conjunto de Cantor.
Exemplos de conjuntos de Cantor encontram-se na Seção 21.2, página 1081.
• Uns poucos exemplos
Mencionemos alguns exemplos ilustrativos. Seja X = R e τ = τR , a topologia usual de R. O

conjunto Q1 = [0, 1] ∩ Q, formado por todos é racionais do intervalo [0, 1], é denso em [0, 1]. Q1
é também denso em si mesmo e denso em parte alguma, mas não é perfeito (pois não é fechado). O
conjunto dos irracionais em [0, 1] é também denso em [0, 1], denso em si mesmo, denso em parte
alguma mas não é perfeito por não ser fechado. O conjunto {1/n, n ∈ N, n ≥ 1} é denso em parte
alguma em [0, 1] e não é denso em si mesmo.
E. 24.2 Exercı́cio. Justifique as afirmações acima. 6
Seja R com a topologia τR . O conjunto A = (a, b) ∩ (c, d) com a < b ≤ c < d é desconexo, mas
não totalmente desconexo. Suas componentes conexas são (a, b) e (c, d). Todo sub-conjunto finito de
R é totalmente desconexo.
O conjunto Q dos√racionais é desconexo

√ como subconjunto de R com a topologia τR , pois com os
abertos A1 = (−∞, 2) e A2 = ( 2, ∞) teremos Q = (Q ∩ A1 ) ∪ (Q ∩ A2 ), sendo ambos Q ∩ A1
e Q ∩ A2 não-vazios e (Q ∩ A1 ) ∩ (Q ∩ A2 ) = ∅. Em verdade, podemos tomar A1 e A2 na forma
A1 = (−∞, x) e A2 = (x, ∞) para qualquer irracional x que o mesmo será válido.
O conjunto Q dos racionais é totalmente desconexo como subconjunto de R com a topologia τR ,
pois suas componentes conexas são do tipo {r} com r racional.
4
E. 24.5 Exercı́cio. O conjunto irracionais é desconexo como subconjunto de R com a topologia τR ? É

totalmente desconexo? 6
E. 24.6 Exercı́cio. O conjunto A0 dos números algébricos é desconexo como subconjunto de R com a
topologia τR ? É totalmente desconexo? 6
E. 24.7 Exercı́cio. O conjunto dos números transcendentes é desconexo como subconjunto de R com a
topologia τR ? É totalmente desconexo? 6
24.2 Compacidade
A noção geral de compacidade de conjuntos em espaços topológicos foi introduzida por Fréchet5 em
1906, abstraindo e generalizando diversas observações anteriores a respeito de subconjuntos fechados
e limitados da reta real. Desde sua introdução essa noção tornou-se um importante instrumento de
análise e nesta seção apresentamos os resultados mais importantes que dela decorrem.
Começaremos apresentando definições gerais e propriedades válidas em espaços topológicos gerais
e, gradualmente, nos especializaremos em espaços topológicos especı́ficos, como os espaços métricos e,
dentre esses, os espaços Rn com a métrica Euclidiana usual.
No que segue, se X é um conjunto não-vazio e τ uma topologia em X, dizemos que o par (X, τ ) é
um espaço topológico. Por abuso de linguagem, o próprio conjunto X é dito ser um espaço topológico
em relação à topologia τ .
24.2.1 Compacidade. Definições e Propriedades em Espaços Topológicos

Gerais
• Recobrimentos
Seja X um conjunto não-vazio seja A ⊂ X. Uma coleção R ⊂ P(X), formada por subconjuntos
de X,Sé dita ser um recobrimento de A se a união de todos os seus elementos contiver A, ou seja, se
A ⊂ R∈R R.
Se R é um recobrimento de A, dizemos que R cobre A, ou que R recobre A.
Se τ é uma topologia em X e R é um recobrimento de A ⊂ X tal que todo elemento de R é um
elemento de τ , dizemos que R é um recobrimento de A por τ -abertos , ou simplesmente um recobrimento
de A por abertos.
Se R é um recobrimento de A por τ -abertos, então a cada R ∈ R vem associado um conjunto
5
R ∩ A que é elemento da topologia relativa τA induzida por τ em A (vide Seção 19.2.3, página 1044).
Claramente, a coleção de todos esses conjuntos R ∩ A com R ∈ R também cobre A. Assim, a cada
recobrimento R de A por τ -abertos vem associado um recobrimento RI de A por τA -abertos, a saber,
RI := {R ∩ A, R ∈ R} ⊂ τA . O recobrimento RI é denominado de recobrimento induzido em A pelo
recobrimento R.
Se τ é uma topologia em X, então τ é um recobrimento de X por τ -abertos (pois X ∈ τ ). Logo, X
possui ao menos um recobrimento por τ -abertos para qualquer topologia τ definida em X, na pior das
hipóteses aquela formada pela própria topologia τ .
Se R é um recobrimento de A, dizemos que S ⊂ R é um sub-recobrimento de A por R se S também
for um recobrimento de A. É claro que um sub-recobrimento de um recobrimento por abertos é também
um recobrimento por abertos.
Um recobrimento é dito ser finito se possuir um número finito de elementos.
Vamos a alguns exemplos ilustrativos dessas definições.
R1 = {(r, s) , r, s ∈ Q com r < s} é um recobrimento de R por τR -abertos.

n n
R2 = 2
, 2
+ 1 , n ∈ Z é um recobrimento de R por τR -abertos. Trata-se de um sub-
recobrimento de R1 , acima.
R3 = {(−x, x) , x ∈ R, x > 0} é um recobrimento de R por τR -abertos.
R4 = {(−∞, 1), (−1, ∞)} é um recobrimento finito de R por τR -abertos.
R5 = {[n, n + 1], n ∈ Z} é um recobrimento de R por τR -fechados.
• Conjuntos compactos e espaços topológicos compactos
Seja X um conjunto não-vazio e τ uma topologia em X. O espaço topológico (X, τ ) é dito ser
um espaço topológico compacto se todo recobrimento de X por τ -abertos possui um sub-recobrimento
finito.
Seja X um conjunto não-vazio e τ uma topologia em X. Um conjunto A ⊂ X é dito ser um conjunto
τ -compacto, ou conjunto compacto em relação à topologia τ , se todo recobrimento de A por τ -abertos
possui um sub-recobrimento finito.
Fica claro que dizer que (X, τ ) é um espaço topológico compacto equivale a dizer que X é um
conjunto τ -compacto. Note também que dizer que A ⊂ X é τ -compacto equivale a dizer que (A, τA ) é
um espaço topológico compacto, onde τA é a topologia relativa induzida por τ em A (vide Seção 19.2.3,
página 1044).
Comentário sobre a nomenclatura. A definição de compacidade que apresentamos acima é pratica-
mente universal hoje em dia, mas há algumas exceções dignas de nota. Na escola Bourbaki conjuntos
compactos segundo a definição acima são denominados “quase-compactos” e, na escola russa, “bi-
compactos”, sendo que em ambas a palavra compacto é reservada para espaços Hausdorff compactos
(segundo nossa definição). O estudante deve, portanto, ter um certo cuidado ao comparar resultados
de textos diferentes.
Tratemos de alguns exemplos.
• Exemplos
Seja X um conjunto não-vazio qualquer e τ uma topologia em X. Se A ⊂ X é finito então A é

compacto em relação a τ . De fato, a topologia induzida por τ em A contém um número finito de
elementos, por ser um subconjunto de P(A), que possui 2n elementos, n sendo a cardinalidade de
A. Portanto, todo recobrimento de A é finito.
Esse exemplo não é fortuito. Sob certos aspectos, conjuntos compactos são muito semelhantes a
conjuntos finitos e muitas demonstrações de proposições válidas para conjuntos finitos podem ser
facilmente transformadas em demonstrações de proposições válidas para conjuntos compactos.
Se X é finito, o espaço topológico (X, τ ) é compacto para qualquer topologia τ de X.
R não é compacto na topologia usual τR , pois nenhum dos recobrimentos R1 , R2 , R3 , acima,

possui um sub-recobrimento de R que seja finito. Justifique isso para cada caso!
Seja R com a topologia usual τR . Então, todo intervalo fechado [a, b] com −∞ < a ≤ b < ∞
é compacto. Com mais generalidade, todo subconjunto fechado e limitado de R é compacto.
Essas afirmações provem do importante Teorema de Heine-Borel, Teorema 24.9, página 1216, que
veremos adiante.
Seja X não-vazio. Todo A ⊂ X é compacto em relação à topologia co-finita em X, que denotamos

por τcf (X). De fato, seja R um recobrimento de A composto por conjuntos cujo complementar
é finito e seja D0 ∈ R. O conjunto X \ D0 é finito e, portanto, assim o é o conjunto A \ D0 ,
contendo esse, digamos, m elementos. Já que R cobre A, deve necessariamente existir para cada
elemento x ∈ A \ D0 pelo menos um elemento de R que contém x. Assim, existe uma coleção
finita D1 , . . . , Dn , com n ≤ m, de elementos de R, tal que D1 ∪ · · · ∪ Dn contém A \ D0 . Logo,
{D0 , D1 , . . . , Dn } é um sub-recobrimento finito do conjunto a A por elementos de R.
• Funções contı́nuas e compacidade
O teorema que segue é de grande importância por esclarecer de que forma a noção de compacidade
se relaciona com a de continuidade de funções.
Teorema 24.2 Sejam (X, τX ) e (Y, τY ) dois espaços topológicos e f : X → Y uma função contı́nua
em relação às topologias τX e τY . Então, se C ⊂ X é τX -compacto, sua imagem f (C) ⊂ Y é τY -
compacta. 2
Prova. Começamos com um pouco de notação. Seja Y ⊂ P(Y ) uma coleção de subconjuntos de
−1por f (Y) ⊂ P(X) −1
−1
Y . Denotamos a coleção das pré-imagens por f em X dos elementos de B:
−1
f (B) := f (B), B ∈ B , onde f (B) é a pré-imagem de B em X por f .
Seja B um recobrimento de f (C) por τY -abertos. Então f −1 (B) é uma coleção de τX -abertos (pois
f é contı́nua) que cobre C. Como C é τX -compacto, existe um sub-recobrimento finito de f −1 (B) que

cobre C: f −1 (B1 ), . . . , f −1 (Bn ) , com Bk ∈ B, k = 1, . . . , n. Isso implica que B1 , . . . , Bn ⊂ B
cobre f (C), provando que f (C) é τY -compacto.
• Subconjuntos fechados de conjuntos compactos
Proposição 24.3 Seja (X, τ ) um espaço topológico. Seja C ⊂ X um conjunto τ -compacto e F ⊂ C

fechado em relação a τ . Então F é τ -compacto. 2
Prova. Seja A uma coleção de τ -abertos que cobre F . Então, A ∪ {F c } é uma coleção de τ -abertos que
cobre C 6 . Sendo C τ -compacto, A∪{F c } possui um sub-recobrimento finito A1 = {A1 , . . . , An }, sendo
que um desses conjuntos Ak pode ser F c e os demais são elementos de A. Como esse sub-recobrimento
finito cobre C, deve possuir um subconjunto A2 (também finito, obviamente) que cobre F . Podemos
excluir F c de A2 , pois F c é disjunto de F . Portanto, A2 é composto apenas por uma coleção finita de
elementos de A. Isso provou que F é compacto.
• Compacidade e a propriedade de intersecção finita
Seja X não-vazio. Uma coleção C ⊂ P(X) de subconjuntos de X é dita possuir a propriedade de

intersecção finita se qualquer sub-coleção finita de C tiver intersecção não-vazia, ou seja, se C1 ∩ · · · ∩
Cn 6= ∅ para qualquer n ≥ 1 e quaisquer C1 , . . . , Cn ∈ C.
A relação dessa definição com a noção de compacidade é expressa no seguinte teorema:
Teorema 24.3 Seja X não-vazio e τ uma topologia em X. Então (X, τ ) é um espaço topológico
compacto se e somente se toda coleção F de subconjuntos τ -fechados de T X que possua a propriedade de
intersecção finita possua uma intersecção não-vazia, ou seja, satisfaça F ∈F F 6= ∅. 2
Prova. Vamos supor que toda coleção F de subconjuntos τ -fechados de X que possua a propriedade
de intersecção
S finita possua uma intersecção não-vazia.
T Seja A um recobrimento de X por τ -abertos.
c
Então, A∈A A = X e, tomando complementos, A∈A A = ∅. Isso diz-nos que a coleção de τ -fechados
F := {Ac , A ∈ A} não pode possuir a propriedade de intersecção finita. Logo, existe uma coleção finita
Ac1 , . . . , Acn de elementos de F tal que Ac1 ∩ · · · ∩ Acn = ∅ e, tomando complementos, A1 ∪ · · · ∪ An = X.
Logo, A tem um sub-recobrimento finito, provando que (X, τ ) é um espaço topológico compacto.
Vamos agora, supor que X seja compacto e seja F uma coleção T de subconjuntos τ -fechados de X que
possua a propriedade S de intersecção finita. Suponhamos que F ∈F F = ∅. Tomando complementos,
segue disso que X = F ∈F F c . Isso diz que a coleção {F c , F ∈ F} é um recobrimento de X por τ -
abertos. Logo, como X é compacto, existe uma sub-coleção finita {F1c , . . . , Fnc } com F1 , . . . , Fn ∈ F,
que cobre X, ou seja, F1c ∪ · · · ∪ Fnc = X. Tomando novamente complementos, T concluı́mos que
F1 ∩ · · · ∩ Fn = ∅, contrariando a propriedade de intersecção finita. Logo, F ∈F F 6= ∅.
6
Aqui F c = X \ F , de modo que, em verdade, A ∪ {F c } cobre todo X, fato esse, ademais, irrelevante para o que
segue.
• A propriedade de Bolzano-Weierstrass em espaços topológicos gerais
Em espaços métricos, um teorema fundamental afirma que um conjunto C é compacto se e somente

se toda seqüência em C tem uma subseqüência convergente em C. Esse teorema, em uma forma
bastante completa, será apresentado e demonstrado mais adiante (Teorema 24.6, página 1209). Essa
propriedade de conjuntos compactos em espaços métricos é muitas vezes denominada propriedade de
Bolzano-Weierstrass de espaços métricos. Antes de tratarmos dela, trataremos de uma forma mais
geral da mesma, válida em espaços topológicos gerais, e onde seqüências devem ser substituidas por
reticulados. As definições necessárias ao acompanhamento dessa discussão encontram-se na Seção 22.3,
página 1102. Faremos também uso do Teorema 22.1, página 1104.
Teorema 24.4 (Propriedade de Bolzano-Weierstrass) Um espaço topológico (X, τ ) é compacto
se e somente se todo reticulado em X tem um sub-reticulado convergente. 2
Prova. Suponhamos que (X, τ ) seja compacto e seja {xλ }λ∈I um reticulado em X. Vamos supor que
{xλ }λ∈I não tenha nenhum sub-reticulado convergente. Pelo Teorema 22.1, página 1104, {xλ }λ∈I não
tem pontos de acumulação. Assim, para todo x ∈ X existe um aberto Ax contendo x e um λx ∈ I tais
que xλ 6∈ Ax para todo λ λx . O conjunto desses abertos Ax é um recobrimento de X por abertos e,
pela hipótese de compacidade, existe um recobrimento finito {Ax1 , . . . , Axn } de X por tais abertos.
Como I é um conjunto dirigido, existe λ′ λxk para todo k = 1, . . . , n. Logo, xλ′ 6∈ Axk para todo
k = 1, . . . , n, ou seja, xλ′ 6∈ X, um absurdo. Assim, devemos forçosamente concluir que {xλ }λ∈I tem
pontos de acumulação e, pelo Teorema 22.1, página 1104, tem um sub-reticulado convergente.
Vamos agora supor que todo reticulado em X tem um sub-reticulado convergente. Pelo Teorema
22.1, página 1104, isso equivale a supor que que todo reticulado em X tem um ponto de acumulação.
Supondo por absurdo que X não seja compacto, deve existir um recobrimento por abertos A de
X que não possui nenhum sub-recobriento finito. Usando A, vamos construir um reticulado em X da
seguinte forma: definimos o conjunto I como sendo a coleção de todas os subconjuntos finitos de P(A),
ou seja, I = {A1 , . . . , An }, Ak ∈ A, k = 1, . . . , n, n ∈ N . O conjunto I pode ser ordenado
por inclusão: {A1 , . . . , Am } {A′1 , . . . , A′n } significa {A1 , . . . , Am } ⊂ {A′1 , . . . , A′n }. É fácil ver
que essa relação de ordem faz de I um conjunto dirigido. Definimos um reticulado sobre I em X da
seginte forma: a cada λ = {A1 , . . . , An } ∈ I associamos livremente um xλ no conjunto complementar
de A1 ∪ · · · ∪ An , ou seja, x{A1 , ..., An } ∈ Ac1 ∩ · · · ∩ Acn . Note que o complementar de A1 ∪ · · · ∪ An nunca
é vazio pois, por hipótese, nenhuma subcoleção finita de A cobre X.
Pela hipótese {xλ }λ∈I tem um ponto de acumulação x ∈ X. Assim, se A é um aberto que contém
x, existe para todo {A1 , . . . , Am } ∈ I um {A′1 , . . . , A′n } ∈ I tal que {A′1 , . . . , A′n } ⊃ {A1 , . . . , Am }
e que x{A′1 , ..., A′n } ∈ A. Pela definição, x{A′1 , ..., A′n } ∈ (A′1 )c ∩ · · · ∩ (A′n )c ⊂ Ac1 ∩ · · · ∩ Acm . Portanto,
A∩Ac1 ∩· · ·∩Acm 6= ∅ para qualquer {A1 , . . . , Am } ∈ I e qualquer aberto A que contém x. Ora, como A
cobre X, existe um A ∈ A que contem x. Quando esse A pertence a uma coleção finita {A1 , . . . , Am }
a relação A ∩ Ac1 ∩ · · · ∩ Acm 6= ∅ é absurda, pois A ∩ Ac = ∅. Concluı́mos dessa contradição que X deve
ser compacto.
24.2.2 Compacidade em Espaços Hausdorff

Até o momento apresentamos uma série de resultados sobre a noção de compacidade válidos em espaços
topológicos gerais. Vamos agora nos tornar mais especializados. Nesta seção apresentaremos alguns
resultados sobre compacidade que são especı́ficos de espaços do tipo Haussdorff (para a definição, vide
Seção 22.2, página 1100).
• Alguns resultados de separabilidade por abertos em espaços Hausdorff
Os resultados que seguem possuem aplicações no estudo de propriedades de separabilidade de

espaços topológicos Hausdorff. O Lema 24.1 será usado na demonstração de um importante resul-
tado sobre compacidade em espaços Hausdorff, o Teorema 24.5, página 1206.
Lema 24.1 Seja (H, τ ) um espaço topológico Hausdorff. Se C ⊂ H é um τ -compacto e a ∈ C c , então
existem τ -abertos A1 e A2 tais que C ⊂ A1 , a ∈ A2 mas A1 ∩ A2 = ∅. 2
Em outras palavras, esse lema afirma que em um espaço Hausdorff um compacto e um ponto no
seu complemento podem ser separados por abertos disjuntos.
Prova. Como H é do tipo Hausdorff, existe para cada c ∈ C um par de abertos disjuntos Dc e Ec
tais que c ∈ Dc e x ∈ Ec . Logo, D = {Dc , c ∈ C} é um recobrimento de C por abertos e, por
C ser compacto, D possui um sub-recobrimento finito: {Dc1 , . . . , Dcn }. Correspondentes a esses n
abertos Dc1 , . . . , Dcn são os abertos Ec1 , . . . , Ecn , respectivamente, os quais contêm x e satisfazem
Dck ∩ Eck = ∅ para cada k = 1, . . . , n. Note-se agora que A2 := Ec1 ∩ · · · ∩ Ecn é um aberto que contém
x e, para cada k, vale
Dck ∩ A2 = Dck ∩ Ec1 ∩ · · · ∩ Ecn = ∅ , (24.10)
pois Dck ∩ Eck = ∅. Segue de (24.10) que o aberto A1 := Dc1 ∪ · · · ∪ Dcn satisfaz A1 ∩ A2 = ∅ e cobre
C. Isso completa a demonstração.
O Lema 24.1 tem o seguinte corolário, que mencionamos aqui para futura referência no contexto do
estudo de separabilidade de conjuntos em espaços Hausdorff
Corolário 24.1 Seja (H, τ ) um espaço topológico Hausdorff. Se C1 , C2 ⊂ H são dois conjuntos
τ -compactos e disjuntos, então existem τ -abertos B1 e B2 tais que C1 ⊂ B1 , C2 ⊂ B2 mas B1 ∩ B2 = ∅.
2
Em outras palavras, esse corolário afirma que em um espaço Hausdorff dois compactos disjuntos
podem ser separados por abertos disjuntos.
Prova. A prova segue passos semelhantes dos da demonstração do Lema 24.1. Dado c ∈ C1 , existem,
pelo Lema 24.1 τ -abertos disjuntos Dc e Ec tais que c ∈ Dc e C2 ⊂ Ec . A coleção de τ -abertos
D = {Dc , c ∈ C1 } cobre C1 e, por esse ser τ -compacto, existe uma sub-coleção finita Dc1 , . . . , Dcn que
também cobre C1 . Associada a essa está a coleção Ec1 , . . . , Ecn de abertos que contém C2 e satisfazem
Dck ∩ Eck = ∅ para cada k = 1, . . . , n. Definindo B2 = Ec1 ∩ · · · ∩ Ecn , temos que B2 é aberto e contém
C2 . Fora isso, para cada k vale

Dck ∩ B2 = Dck ∩ Ec1 ∩ . . . ∩ Ecn = ∅, (24.11)
pois Dck ∩ Eck = ∅. Definindo, B1 = Dc1 ∪ · · · ∪ Dcn , teremos que B1 é aberto, contém C1 e, devido a
(24.11), B1 ∩ B2 = ∅.
• Conjuntos compactos em espaços Hausdorff são fechados
Chegamos agora a um importante fato sobre espaço Hausdorff.

Teorema 24.5 Seja (H, τ ) um espaço topológico Hausdorff. Se C ⊂ H é τ -compacto então C é
τ -fechado. 2
Prova. Se C = H não há o que provar, pois H é τ -fechado. Seja, portanto, C c não-vazio. O Lema
24.1, página
S 1205, diz-nos que C c possui um recobrimento
S A por τ -abertos que são disjuntos de C:
c
C ⊂ A∈A A e C ∩ A = ∅ para todo A ∈ A. Se B := A∈A A, vale, portanto, B ∩ C = ∅, pois B é uma
união de conjuntos disjuntos de C. Logo, como H = C ∪ C c , segue que B = B ∩ H = B ∩ (C ∪ C c ) =
(B ∩ C) ∪ (B ∩ C c ) = B ∩ C c = C c . Essa igualdade C c = B diz-nos que C c é τ -aberto, pois B é uma
união de τ -abertos. Portanto, C é τ -fechado.
Uma conseqüência é:

Proposição 24.4 Seja (H, τ ) um espaço topológico Hausdorff e seja C ⊂ H um conjunto τ -compacto.
Então B ⊂ C é τ -compacto se e somente se for τ -fechado. 2
Prova. A afirmação segue diretamente da Proposição 24.3, página 1203 e do Teorema 24.5, página
1206.
24.2.3 Compacidade em Espaços Métricos

Vamos continuar nossa especialização das propriedades de conjuntos compactos tratando agora do
importante caso de espaços métricos. Note-se que como todo espaço métrico é Hausdorff (Proposição
22.1, página 1101), os resultados da Seção 24.2.2 são todos aplicáveis aqui.
Iniciaremos esta seção com uma seqüência de definições relevantes, culminando com o Teorema 24.6,
página 1209, do qual outras conseqüências serão extraidas.
Se M é um conjunto não-vazio e d é uma métrica em M, dizemos que o par (M, d) é um espaço
métrico. Por abuso de linguagem, o próprio conjunto M é dito ser um espaço métrico em relação à
métrica d.
• Conjuntos limitados em espaços métricos

Seja (M, d) um espaço métrico. Um conjunto A ⊂ M é dito ser um conjunto limitado em relação à
métrica d, ou um conjunto d-limitado, se diam(A) := sup{d(x, y), x, y ∈ A} < ∞. Por razões óbvias,
diam(A) é dito ser o diâmetro de A.
Proposição 24.5 Seja (M, d) um espaço métrico. Um conjunto A ⊂ M é limitado se e somente se
seu fecho A o for e vale diam(A) = diam(A). 2
Prova. Se A é limitado então A o é, pois A ⊂ A. Se A é limitado e x, y ∈ A, existem seqüências

{xn }n∈N e {yn }n∈N de elementos de A convergindo a x e y, respectivamente (Proposição 19.8, página
1053). Assim, para cada ǫ > 0 existe N(ǫ) ∈ N tal que d(x, xn ) < ǫ e d(y, yn ) < ǫ para todos
n > N(ǫ). Logo, para n > N(ǫ) e m > N(ǫ),
d(x, y) ≤ d(x, xn ) + d(xn , ym ) + d(ym, y) < 2ǫ + d(xn , ym ) ≤ 2ǫ + diam(A)
pois d(xn , ym ) ≤ diam(A), já que xn , ym ∈ A. Assim, d(x, y) < 2ǫ + diam(A). Como isso vale para
todo ǫ > 0 concluı́mos que d(x, y) ≤ diam(A) para todos x, y ∈ A, provando que A é limitado e que
diam(A) ≤ diam(A). Como A ⊂ A, vale trivialmente que diam(A) ≤ diam(A).
• Conjuntos seqüencialmente compactos
Seja (M, d) um espaço métrico. Um conjunto A ⊂ M é dito ser um conjunto seqüencialmente

compacto na métrica d se toda a seqüência de elementos de A possuir uma subseqüência convergente
em A em relação à métrica d.
• Conjuntos relativamente compactos
Seja (M, d) um espaço métrico. A ⊂ M é dito ser um conjunto relativamente compacto se A for
compacto.
• Conjuntos pré-compactos, ou totalmente limitados, em espaços métricos
Seja (M, d) um espaço métrico. Um conjunto A ⊂ M é dito ser um conjunto pré-compacto ou

um conjunto totalmente limitado se para todo r > 0 existirem m(r) ∈ N e m(r) e um conjunto
finito {a1 , . . . , am(r) } ⊂ A tais que as bolas de raio r centradas nesses pontos cobrem A, ou seja, se
Sm(r)
A ⊂ k=1 Bd (ak , r).
Assim, refraseando, A é pré-compacto se e somente se existe para cada r > 0 um conjunto finito
m(r)
{a1 , . . . , am (r)} ∈ A tal que para todo a ∈ A vale d a, {aj }j=1 < r, onde
n o
m(r)
d a, {aj }j=1 := min d(a, a1 ), . . . , d(a, am(r) ) .
Na Proposição 24.10, página 1216, demonstraremos que todo conjunto limitado em Rn é pré-
compacto. As proposições que seguem estabelecem alguns fatos sobre a noção de pré-compacidade
e serão usadas adiante.
Proposição 24.6 Seja (M, d) um espaço métrico. Então, A ⊂ M é pré-compacto se e somente se A

também o for. 2
Prova. Vamos supor que A seja pré-compacto. Se A também não fosse pré-compacto existiria r0 > 0 tal
que para cada conjunto finito B = {bj }nj=1 ⊂ A podemos encontrar um a ∈ A tal que d(a, {bj }nj=1 ) ≥ r0 .
Por outro lado, como A é pré-compacto, existe um conjunto finito C = {cj }m
j=1 ⊂ A tal que
r0
d(x, {cj }m
j=1 ) < para todo x ∈ A , (24.12)
2
com o mesmo r0 de acima. Assim, tomando em particular B = C (lembrar que C ⊂ A ⊂ A), concluı́mos
da hipótese que A não é pré-compacto que podemos encontrar um a ∈ A tal que

d a, {cj }m
j=1 ≥ r0 . (24.13)
Agora, como a pertence ao fecho de A, existe uma seqüência {xj }j∈N ⊂ A que converge a a. Isso
significa que para todo ǫ > 0 existe N(ǫ) tal que d(xk , a) < ǫ para todo k > N(ǫ). Seja j > N(ǫ) fixo
e seja cp o elemento de C mais próximo de xj e, portanto, tal que d(cp , xj ) < r0 /2 (por (24.12), com
x = xj ). Então,
r0
d(a, cp ) ≤ d(a, xj ) + d(xj , cp ) < ǫ + .
2
Tomando ǫ < r0 /2, obtemos d(a, cp ) < r0 , contrariando (24.13) e provando que A tem de ser pré-
compacto.
Vamos agora supor que A seja pré-compacto. Se A também não fosse pré-compacto existiria
n
para cada conjunto finito B = {bj }j=1 ⊂ A podemos encontrar um a ∈ A tal que
r0 > 0 tal que
n
d a, {bj }j=1 ≥ r0 .
Como A é pré-compacto, existe um conjunto finito {aj }m m
j=1 ⊂ A tal que d(x, {aj }j=1 ) < r0 /2 para
todo x ∈ A, pois A ⊂ A.
Como {aj }mj=1 ⊂ A, existe para cada ǫ > 0 e para cada aj um ponto bj ∈ A tal que d(aj , bj ) < ǫ.
Portanto, para esse conjunto {bj }m
j=1 ⊂ A, existe a ∈ A tal que

d a, {bj }nj=1 ≥ r0 . (24.14)
Seja ak o elemento de {aj }m

j=1 que dista de a menos que r0 /2, ou seja, tal que d(a, ak ) < r0 /2. Vale
r0
d(a, bk ) ≤ d(a, ak ) + d(ak , bk ) < +ǫ.
2
Escolhendo ǫ < r0 /2 obtemos d(a, bk ) < r0 , contrariando (24.14) e provando que A tem de ser pré-
compacto.
Proposição 24.7 Seja (M, d) um espaço métrico. Se A ⊂ M é pré-compacto então A é d-limitado.

2
Prova. Se A é pré-compacto e r > 0, então existe um conjunto finito α = {a1 , . . . , am } ⊂ A tal que
as bolas Bd (ak , r), k = 1, . . . , m, cobrem A. Sejam x e y ∈ A. Vamos supor que x pertença à bola
Bd (ak1 , r) e y pertença à bola Bd (ak2 , r). Então
d(x, y) ≤ d(x, ak1 ) + d(ak1 , ak2 ) + d(ak2 , y) < 2r + d(ak1 , ak2 ) ≤ 2r + Dα ,
onde Dα := max{d(ai , aj ), i, j = 1, . . . , m}. Isso provou que diam(A) < 2r + Dα , mostrando que A
é limitado.
A recı́proca dessa proposição nem sempre é verdadeira em um espaço métrico geral. Uma exceção
importante são os espaços Rn na topologia usual, onde todo conjunto limitado é pré-compacto. Isso é
provado na Proposição 24.10, página 1216.
• Um teorema fundamental sobre compacidade em espaços métricos
O teorema que segue reune as definições de acima, estabelecendo resultados fundamentais sobre
compacidade em espaços métricos.
Teorema 24.6 Seja (M, d) um espaço métrico e seja τd a topologia induzida em M pela métrica d.
Seja A ⊂ M.
I. São equivalentes as seguintes afirmações
1. A é d-compacto.
2. A é seqüencialmente compacto na métrica d.
3. A é pré-compacto e completo na métrica d.
II. Se A é d-compacto, então A é fechado em τd e d-limitado.
III. Se (M, d) é um espaço métrico completo então, se A for pré-compacto seu fecho A em τd é
compacto, ou seja, A é relativamente compacto.
IV. Se (M, d) é um espaço métrico completo então A é compacto se e somente se A for pré-compacto
e fechado em τd .
V. Se (M, d) é um espaço métrico completo e valer a propriedade que todo conjunto d-limitado é
pré-compacto, então A é compacto se e somente se for fechado em τd e d-limitado. 2
Notas. Antes de apresentarmos a demonstração desse importante teorema, façamos alguns comentários
pertinentes.
a. Deve-se enfatizar o fato de os itens I e II valerem em espaços métricos gerais, mas os itens III,
IV e V valerem apenas em espaços métricos completos. Vale lembrar aqui que completeza não é
uma propriedade topológica, como comentado à página 959.
b. A recı́proca da parte II, acima, nem sempre é verdadeira em espaços métricos, mesmo completos.
Vide Exemplo 24.4, página 1212. No entanto, na condição IV indica-se condições suficientes para
que uma recı́proca valha: M deve ser completo e todo conjunto limitado deve ser pré-compacto.
Incidentalmente, essa condição é satisfeita em Rn com a topologia usual. Logo, um conjunto é
compacto em Rn na topologia usual se e somente se for fechado e limitado. Esse é o conteúdo do
importante Teorema de Heine-Borel, Teorema 24.9, que apresentaremos na página 1216.
c. O Teorema 24.6 contém a afirmação que um conjunto é compacto em um espaço métrico se e
somente se for pré-compacto e completo (parte I). Essa propriedade é, por vezes, denominada
propriedade de Heine-Borel de espaços métricos, por generalizar o já mencionado Teorema de
Heine-Borel de Rn , Teorema 24.9, página 1216.
d. O Teorema 24.6 contém a afirmação que um conjunto é compacto em um espaço métrico completo
se e somente se for fechado e limitado (parte V). Essas propriedade é, por vezes, denominada pro-
priedade de Heine-Borel de espaços métricos completos, por generalizar o já mencionado Teorema
de Heine-Borel de Rn , Teorema 24.9, página 1216.
e. O Teorema 24.6 contém a afirmação que em um espaço métrico um conjunto é compacto se e
somente se for seqüencialmente compacto (parte I daquele teorema). Essa afirmação é por vezes
denominada propriedade de Bolzano-Weierstrass de espaços métricos. Associada a ela está o
Teorema de Bolzano-Weierstrass dos espaços Rn , Teorema 24.10, que veremos à página 1217.

Prova da parte I.
1 → 2. Seja A compacto e seja {am }m∈N uma seqüência de elementos de A. Defina-se, para cada
n ∈ N, En := {ak , k ≥ n} = {an , an+1 , an+2 , . . .} ⊂ A. Seja Fn o fecho de En : Fn = En .
T T T c
S Provemos por absurdo que A ∩ n∈N F n 6
= S∅. Se A ∩ n∈N F n = ∅, então A ⊂ n∈N Fn =
c c c
F
n∈N n . Como os F n são abertos, isso diz que F
n∈N n é um recobrimento de A por abertos. Como
A, por hipótese, é compacto, existe uma coleção finita Fnc1 , . . . , Fncj que cobre A, ou seja, que satisfaz
A ⊂ Fnc1 ∪ · · · ∪ Fncj . Podemos supor sem perda de generalidade que n1 < · · · < nj . Com essa
convenção, vale En1 ⊃ · · · ⊃ Enj . Logo, Fn1 ⊃ · · · ⊃ Fnj (pelo item 3 da Proposição 19.4, página
1048) e, portanto, Fnc1 ⊂ · · · ⊂ Fncj , o que implica A ⊂ Fnc1 ∪ . . . ∪ Fncj = Fncj . Porém, isso implica que
A ∩ Enj ⊂ A ∩ Fnj = ∅, o que contraria a hipótese que Enj ⊂ A.
T
Assim, A ∩ n∈N Fn é não-vazio e podemos tomar um ponto a nesse conjunto. Por definição
a ∈ A, assim como a ∈ Fn para todo n. Como Fn é o fecho de En , existe (pela Proposição 19.8,
página 1053) uma seqüência de elementos de En que converge a a na métrica d. Isso provou que existe
uma subseqüência da seqüência {am }m∈N que converge a a ∈ A, provando que A é seqüencialmente
compacto.
2 → 3. Seja {cm }m∈N uma seqüência de Cauchy na métrica d de elementos de A. Como A é seqüen-
cialmente compacto, {cm }m∈N tem uma subseqüência convergente a um elemento de A e, portanto,
{cm }m∈N converge a um elemento de A, provando que A é completo. Passemos à demonstração que A
é pré-compacto, o que será feito por absurdo, supondo que A não seja pré-compacto.
Se A não fosse pré-compacto existiria r0 > 0 tal que para cada conjunto finito {aj }m
j=1 ⊂ A
m
poderı́amos encontrar um a ∈ A tal que d(a, {aj }j=1) ≥ r0 .
Assim, tomando b1 ∈ A, existe b2 ∈ A tal que d(b2 , b1 ) ≥ r0 . Analogamente, existe b3 ∈ A

tal que d(b3 , {b1 , b2 }) ≥ r0 , ou seja, d(b3 , b1 ) ≥ r0 e d(b3 , b2 ) ≥ r0 . Prosseguindo indutivamente,
podemos construir uma seqüência {bn }n∈N de elementos de A tal que d(bi , bj ) ≥ r0 para todo i 6= j.
Uma tal seqüência não pode ter uma sub-seqüência convergente, contrariando a hipótese que A é
seqüencialmente compacto.
3 → 1. Suponhamos, por contradição, que A não seja compacto. Então, existe um recobrimento A0 de
A por abertos tal que A0 não possui nenhum sub-recobrimento finito de A. Como A é pré-compacto,
existe para cada r > 0 um conjunto finito de pontos de A tais que as bolas de raio r centradas nesses
pontos cobrem A.
Fixemos um tal r e sejam Bd (aj , r), j = 1, . . . , m, as bolas que cobrem A. Sem perda de
generalidade podemos supor que A ∩ Bd (aj , r) 6= ∅ para todo j = 1, . . . , m. Como A0 cobre cada
um dos conjuntos A ∩ Bd (aj , r), j = 1, . . . , m (pois cobre A), deve haver pelo menos um conjunto
A ∩ Bd (aj , r) que não tem um sub-recobrimento finito por A0 pois, se tal não fosse verdade, haveria
um sub-recobrimento finito para A, contrariando as hipóteses.
Seja A ∩ Bd (f1 , r) um tal conjunto para algum f1 ∈ {a1 , . . . , am }. Como (assim como A) o
conjunto A ∩ Bd (f1 , r) não tem um sub-recobrimento finito por A0 , podemos repetir o procedimento
e obter um ponto f2 ∈ A ∩ Bd (f1 , r) e uma bola de raio r/2 centrada em f2 , Bd (f2 , r/2), tal que
A ∩ Bd (f1 , r) ∩ Bd (f2 , r/2) é não-vazio e não tem um sub-recobrimento finito por A0 . Precedendo
indutivamente, construı́mos uma seqüência de pontos fn , n ≥ 1, com
1. fn+1 ∈ A ∩ Bd (f1 , r) ∩ · · · ∩ Bd (fn , r/2n ),

2. A ∩ Bd (f1 , r) ∩ · · · ∩ Bd (fn+1 , r/2n+1) 6= ∅,
3. A ∩ Bd (f1 , r) ∩ · · · ∩ Bd (fn+1 , r/2n+1) não tem um sub-recobrimento finito por A0 .
Observe agora que, para b > a,

b−a−1
X b−a−1
X X∞
r r r
d(fa , fb ) ≤ d(fa+k , fa+k+1 ) < < = a−1 .
k=0 k=0
2a+k k=0
2 a+k 2
Isso estabelece que fn , n ∈ N, é uma seqüência de Cauchy de elementos de A. Acima, na segunda

desigualdade usamos o fato que d(fn , fn+1 ) < r/2n , o que segue do fato que fn+1 ∈ Bd (fn , r/2n ).
Como A foi também suposto completo a seqüência de Cauchy fn , n ∈ N, acima, converge a um
ponto f ∈ A.
Como f ∈ A e A0 cobre A, existe um aberto Af ∈ A0 que contém o ponto f . Como a seqüência
fn converge a f , e fn ∈ Bd (fn−1 , r/2n−1), existe um p grande o suficiente tal que Bd (fp , r/2p ) ⊂ Af
(justifique!).
Isso, todavia, implica que A ∩ Bd (f1 , r) ∩ · · · ∩ Bd (fp , r/2p) ⊂ Bd (fp , r/2p ) ⊂ Af , contrariando o
item 3 da construção indutiva das bolas Bd (fn , r/2n ), que previa que A ∩ Bd (f1 , r) ∩ · · · ∩ Bd (fp , r/2p )
não tem um recobrimento finito por elementos de A0 . Essa contradição revela que a suposição que A
não é compacto é falsa, completando a demonstração.
Prova da parte II. Para x ∈ M fixo a coleção de bolas d-abertas Bx := {Bd (x, r), r > 0} é, obviamente,
um recobrimento de X por d-abertos e, portanto, é também um recobrimento de A por d-abertos. Como
A é compacto, Bx possui um subconjunto finito {Bd (x, r1 ), . . . , Bd (x, rn ))} que também cobre A.
Logo, A ⊂ Bd (x, r1 ) ∪ · · · ∪ Bd (x, rn ) = Bd (x, r∗ ), onde r∗ = max{r1 , . . . , rn }. Isso provou que o
diâmetro de A é finito e menor que 2r∗ .
Que A é também fechado segue do Teorema 24.5, página 1206, que se aplica aqui pois todo espaço
métrico é Hausdorff (Proposição 22.1, página 1101).
Prova da parte III. Se A é pré-compacto então, pela Proposição 24.6, página 1208, A também o é.
Pela Proposição 19.9, página 1054, A é também completo. Logo, pelo Teorema 24.6, página 1209, A é
compacto.
Prova da parte IV. Pela Proposição 19.9, página 1054, se A é fechado se e somente se for completo.
Assim, A será pré-compacto e completo o que, pela parte I, equivale a A ser compacto.
Prova da parte V. Se A é fechado e limitado então, pelas hipóteses, A é fechado e pré-compacto e, por
IV, isso equivale a A ser compacto.
Exemplo 24.4 Seja H um espaço de Hilbert separável de dimensão infinita e com a topologia induzida
pela norma. A bola fechada de raio 1 centrada na origem, B1 := {ψ ∈ H, kψk ≤ 1} é fechada e limitada
em H. Seja {ψ
√n }n∈N uma base ortonormal em H. Como kψn k = 1, tem-se {ψn }n∈N ⊂ B1 . Porém, como
kψa − ψb k = 2 para todos a 6= b, conclui-se que a seqüência {ψn }n∈N não tem nenhuma subseqüência
convergente em norma. Assim, B1 não é seqüencialmente compacta e, portanto, não é compacta. ◊
• Continuidade uniforme de funções em espaços métricos
Sejam M1 e M2 dois espaços métricos dotados de métricas d1 e d2 , respectivamente. Uma função

f : M1 → M2 é dita ser uma função uniformemente contı́nua se para todo ǫ > 0 existir δ(ǫ) > 0
(eventualmente dependente de ǫ) tal que d2 (f (x), f (y)) sempre que d1 (x, y) < δ(ǫ).
O leitor deve cuidadosamente comparar essa definição à definição de função contı́nua entre espaços
métricos apresentada à página 1112. Toda função uniformemente contı́nua é contı́nua, mas a recı́proca
não é verdadeira caso δ dependa não apenas de ǫ mas também de x ∈ M1 .
Assim, uma função uniformemente contı́nua é uma função contı́nua onde a relação entre δ e ǫ pode
ser escolhida da mesma forma em todo o seu domı́nio.
Exemplo 24.5 Seja f : (0, ∞) → R dada por f (x) = 1/x. Para cada ǫ > 0 e cada x ∈ (0, ∞)
ǫx2
podemos tomar δ(x, ǫ) = 1+ǫx e teremos que |f (x) − f (y)| < ǫ sempre que |x − y| < δ(x, ǫ) (verifique!).
Assim, f é contı́nua. Porém, f não é uniformemente contı́nua, pois para x indo a zero somos forçados
a escolher δ cada vez menor. Traçar o gráfico de f pode ajudar a compreensão desse ponto. ◊
De grande importância é o fato que toda função contı́nua entre espaços métricos definida em um
espaço métrico compacto é uniformemente contı́nua (Teorema 24.7, abaixo). Esse fato é uma das
conseqüências mais importantes da noção de compacidade e é empregado em diversas demonstrações
importantes, por exemplo, nas demonstrações da Seção 27.1, página 1394, nas demonstrações da Seção
27.2, página 1400. Antes de demonstrá-lo tratemos de apresentar uma caracterização equivalente da
noção de continuidade uniforme.
Proposição 24.8 Sejam M1 e M2 dois espaços métricos dotados de métricas d1 e d2 , respectivamente.
f : M1 → M2 é uniformemente contı́nua se e somente se para todas as seqüências xn e yn em M1 para

as quais tenhamos lim d1 (xn , yn ) = 0 valha também lim d2 (f (xn ), f (yn )) = 0. 2
n→∞ n→∞
Prova. Vamos supor que para todas as seqüências xn e yn em M1 para as quais tenhamos lim d1 (xn , yn ) =
n→∞
0 valha lim d2 (f (xn ), f (yn )) = 0. Se f não é uniformemente contı́nua, então existe ǫ > 0 tal que para
n→∞
nenhum δ > 0 a condição d1 (x, y) < δ implica d2 (f (x), f (y)) < ǫ. Assim, em particular, para
cada n > 0 podemos encontrar dois pontos xn e yn em M1 tais que se d1 (xn , yn ) < 1/n então
d2 (f (xn ), f (yn )) ≥ ǫ. Assim, para esse par de seqüências xn e yn em M1 teremos lim d1 (xn , yn ) = 0,
n→∞
mas lim d2 (f (xn ), f (yn )) ≥ ǫ > 0. Essa contradição mostra que f deve ser uniformemente contı́nua.
n→∞
Vamos agora supor que f seja uniformemente contı́nua e sejam xn e yn duas seqüências em M1 tais
que lim d1 (xn , yn ) = 0. Como f é uniformemente contı́nua existe para todo ǫ > 0 um δ(ǫ) > 0 tal
n→∞
que se xn e yn satisfizerem d1 (xn , yn ) < δ(ǫ) então d2 (f (xn ), f (yn )) < ǫ. Como lim d1 (xn , yn ) =
n→∞
0, existe N(δ(ǫ)) tal que d1 (xn , yn ) < δ(ǫ) sempre que n > N(δ(ǫ)). Concluı́mos que para todo
ǫ > 0 existe N(δ(ǫ)) tal que para todo n > N(δ(ǫ)) vale d2 (f (xn ), f (yn )) < ǫ. Isso provou que
lim d2 (f (xn ), f (yn )) = 0.
n→∞
Exemplo 24.6 Retornando ao Exemplo 24.5, as seqüências xn = 1/(2n) e yn = 1/n satisfazem

lim |xn − yn | = 0, mas lim |f (xn ) − f (yn )| = lim |2n − n| = ∞, o que mais uma vez mostra
n→∞ n→∞ n→∞
que f não é uniformemente contı́nua. ◊
Chegamos ao nosso principal objetivo.

Teorema 24.7 Sejam M1 e M2 dois espaços métricos dotados de métricas d1 e d2 , respectivamente.
Se M1 é d1 -compacto e f : M1 → M2 é uma função contı́nua, então f é uniformemente contı́nua. 2
Prova. Vamos supor que f não seja uniformemente contı́nua. Então, pela Proposição 24.8, existe um
par de seqüências xn e yn em M1 para as quais temos lim d1 (xn , yn ) = 0 mas lim d2 (f (xn ), f (yn )) 6= 0.
n→∞ n→∞
Deve, portanto, existir um ǫ > 0 tal que d2 (f (xn ), f (yn )) ≥ ǫ para infinitos n’s. Assim, existem duas
sub-seqüências ak e bk de xn e yn , respectivamente, tais que d2 (f (ak ), f (bk )) ≥ ǫ para todo k. Como
M1 é compacto, cada uma dessas sub-seqüências possui uma sub-seqüência convergente (pela item 2
da parte I do Teorema 24.6, página 1209), que denotaremos por al e bl , respectivamente, cujos limites
são a e b, respectivamente. Naturamente, vale também

d2 f (al ), f (bl ) ≥ ǫ (24.15)

para todo l. Notemos, porém, que como lim d1 xn , yn = 0, vale também que lim d1 al , bl ) = 0,
n→∞ l→∞
pois al e bl são subseqüências de xn e yn , respectivamente. Assim, temos que

d1 a, b ≤ d1 a, al + d1 al , bl + d1 bl , b
e tomando o limite l → ∞ o lado direito vai a zero, pois a = lim al e b = lim bl . Isso provou que
l→∞ l→∞
d1 a, b = 0, ou seja, que a = b.
Por outro lado,

d2 f (al ), f (bl ) ≤ d2 f (al ), f (a) + d2 f (a), f (b) + d2 f (b), f (bl )
f (a)=f (b)
= d2 f (al ), f (a) + d2 f (b), f (bl ) .
Como f é contı́nua, valem lim d2 (f (al ), f (a)) = 0 e lim d2 (f (bl ), f (b)) = 0. Logo, concluı́mos pela
l→∞ l→∞
desigualdade acima que lim d2 (f (al ), f (bl )) = 0, contrariando (24.15). Essa contradição estabelece
l→∞
que f é uniformemente contı́nua.
• Continuidade uniforme e seqüências de Cauchy
A proposição que segue pode também ser obtida da Proposição 24.8.

Proposição 24.9 Sejam M1 e M2 dois espaços métricos dotados de métricas d1 e d2 , respectivamente
e seja f : M1 → M2 uma função uniformemente contı́nua. Se xn é uma seqüência de Cauchy em M1
em relação à métrica d1 então f (xn ) é uma seqüência de Cauchy em M2 em relação à métrica d2 . 2
Prova. Pela continuidade uniforme de f , para cada ǫ > 0 existe δ(ǫ) > 0 tal que d2 (f (x), f (y)) < ǫ
sempre que d1 (x, y) < δ(ǫ). Como xn é uma seqüência de Cauchy, existe N(δ(ǫ)) tal que d1 (xn , xm ) <
δ(ǫ) para todos n, m > N(δ(ǫ)). Logo, para n, m > N(δ(ǫ)) vale d2 (f (xn ), f (xm )) < ǫ, provando que
f (xn ) é uma seqüência de Cauchy em M2 em relação à métrica d2 .
• Extensão de funções uniformemente contı́nuas
A Proposição 24.9 tem por conseqüência a possibilidade de se estender funções uniformemente

contı́nuas densamente definidas em um espaço métrico.
Teorema 24.8 Sejam M1 e M2 dois espaços métricos dotados de métricas d1 e d2 , respectivamente,
sendo que M2 é suposto ser completo em relação a d2 . Seja D ⊂ M1 um subconjunto denso de M1
(i.e., D = M1 ) e seja f : D → M2 uma função uniformemente contı́nua. Então f possui uma extensão
f˜ : M1 → M2 que é também uniformemente contı́nua e essa função f˜ é a única extensão contı́nua de
f a M1 . 2
Prova. O primeiro passo é definir f. ˜ Depois provaremos que a mesma é uniformemente contı́nua.
Como D = M1 , existe para cada ponto x ∈ M1 uma seqüência xn de elementos de D que converge a
x (Proposição 19.8, página 1053). Como a seqüência xn é convergente, é também uma seqüência de
Cauchy. Logo, f (xn ) é, pela Proposição 24.9, uma seqüência de Cauchy em M2 na métrica d2 . Como
M2 é completo na métrica d2 , f (xn ) converge a um ponto z ∈ M2 . Se yn fosse uma outra seqüência em
D que converge a x valeria
d1 (xn , yn ) ≤ d1 (xn , x) + d1 (x, yn )
de onde segue que lim d1 (xn , yn ) = 0 pois, por hipótese, lim d1 (xn , x) = 0 e lim d1 (x, yn ) = 0.
n→∞ n→∞ n→∞
Logo, pela Proposição 24.9 segue que lim d2 (f (xn ), f (yn )) = 0. Como
n→∞
d2 (z, f (yn )) ≤ d2 (z, f (xn )) + d2 (f (xn ), f (yn ))

e lim d2 (z, f (xn )) = 0, segue que lim d2 (z, f (yn )) = 0.
n→∞ n→∞
Isso nos ensina que se xn e yn são duas seqüências em D que convergem a x ∈ M1 o limite das
seqüências f (xn ) e f (yn ) existe e é o mesmo.
Para cada x ∈ M2 definimos, então, f(x) ˜ := lim f (xn ) para qualquer seqüência xn em D que
n→∞
˜
converge a x. É de se obsevar que f é uma extensão de f , pois se x ∈ D podemos tomar a seqüência
constante xn = x e terı́amos f˜(x) := lim f (xn ) = lim f (x) = f (x), provando que f˜ coincide com f
n→∞ n→∞
em D.
Agora provaremos que f(x) ˜ é uniformemente contı́nua. Como f é uniformemente contı́nua em D,
para cada ǫ > 0 existe δ(ǫ) > 0 tal que d2 (f (x), f (y)) < ǫ sempre que d1 (x, y) < δ(ǫ). Fixemos
ǫ > 0. Se x, y ∈ M1 , existem seqüências xn e yn em D que convegem a x e y, respectivamente. Pela
desigualdade triangular, podemos escrever

˜
d2 f(x), f˜(y) ≤ d2 f˜(x), f (xn ) + d2 f (xn ), f (yn ) + d2 f (yn ), f˜(y) (24.16)
Por outro lado, tem-se, também pela desigualdade triangular,
d1 (xn , yn ) ≤ d1 (xn , x) + d1 (x, y) + d1 (y, yn )
e se escolhermos n grande o suficiente, teremos d1 (xn , x) < δ(ǫ/3) 3
e d1 (yn , y) < δ(ǫ/3)
3
, já que xn e
yn são seqüências em D que convegem a x e y, respectivamente. Logo, se tomarmos x e y tais que
d1 (x, y) < δ(ǫ/3) , valerá d1 (xn , yn ) ≤ δ(ǫ/3) e, portanto, d2 f (xn ), f (yn ) < ǫ/3. Também para n
3
grande o suficiente valerão d2 f˜(x), f (xn ) < ǫ/3 e d2 f˜(y), f (yn ) < ǫ/3, pela definição de f˜. Logo,

por (24.16), d2 f˜(x), f˜(y) < ǫ. Isso demonstrou que f˜ é uniformemente contı́nua.
Resta-nos provar a unicidade. Vamos supor que exista uma outra função contı́nua g : M1 → M2
que estenda f . Tomemos x ∈ M1 , e seja xn uma seqüência em D que converge a x. Pela desigualdade
triangular, vale

d2 g(x), f˜(x) ≤ d2 g(x), f (xn ) + d2 f (xn ), f˜(x) = d2 g(x), g(xn ) + d2 f (xn ), f˜(x) ,
sendo que na igualdade ao final usamos o fato que g coincide com f em D. Tomando o limite n → ∞
teremos, devido à continuidade de g, que lim d2 g(x), g(xn ) = 0, pois xn converge a x. Igualmente,
n→∞
˜ ˜
pela definição de f, vale lim d2 f (xn ), f(x) ˜
= 0. Isso provou que d2 g(x), f(x) = 0 para cada
n→∞
x ∈ M1 , estabelecendo que g = f˜.
24.2.4 Compacidade em Rn
Nesta seção reunimos alguns dos teoremas mais relevantes concernentes à propriedade de compacidade
em espaços Rn , n ∈ N, n ≥ 1. Estaremos usando implicitamente o fato n
p de que cada R é um espaço
métrico completo em relação à métrica Euclidiana usual dE (x, y) := (y1 − x1 )2 + · · · + (yn − xn )2 .
• Pré-compacidade em Rn
Proposição 24.10 Seja Rn com a métrica Euclidiana usual dE . Um subconjunto de Rn é limitado se

e somente se for pré-compacto. 2
Prova. Pela Proposição 24.7, página 1208, basta demonstrar que todo conjunto limitado de Rn é pré-
compacto. Defina-se, para t > 0 o conjunto R(t) ⊂ Rn cujas componentes sejam da forma k/t com
k ∈ Z:
1 n k1 kn
R(t) := k, k ∈ Z = , ..., , kj ∈ Z, j = 1, . . . , n .
t t t
√
É fácil ver geometricamente que cada ponto de Rn dista, na métrica dE , √ no máximo t n/2 de algum
ponto de R(t). Assim, a coleção de todas as bolas abertas de raio t(1 + n/2) centradas nos pontos
de R(t) cobrem Rn . Isso equivale a dizer que, para cada r √ > 0, a coleção de todas as bolas abertas de
raio r centradas nos pontos de R(t(r)), com t(r) = r/(1 + n/2), cobrem Rn .
Se A é limitado, há uma coleção finita de bolas de raio r/2 centradas em pontos de R(t(r/2)) que
cobrem A. Sejam B(x1 , r/2), . . . , B(xm , r/2), com xk ∈ R(t(r/2)) para cada k, a menor coleção de
bolas que cobrem A e tem intersecção não-vazia com A. Como cada bola B(xk , r/2) tem intersecção
não-vazia com A, podemos escolher, para cada k, um ponto ak ∈ A ∩ B(xk , r/2). Agora, a bola de
raio r centrada em ak contém a bola B(xk , r/2), logo, a coleção de bolas B(ak , r), k = 1, . . . , m,
cobre A, estabelecendo a pré-compacidade de A.
• O Teorema de Heine-Borel em Rn
Como já comentamos, a recı́proca da parte II do Teorema 24.6, página 1209, nem sempre é ver-
dadeira em espaços métricos. No entanto, no caso especı́fico de Rn essa recı́proca é válida devido à
Proposição 24.10, página 1216. Esse é o conteúdo do importante Teorema de Heine7 -Borel8 :
Teorema 24.9 (Teorema de Heine-Borel em Rn ) Um conjunto em Rn é compacto em relação à
topologia métrica usual de Rn se e somente se for fechado e limitado. 2
Prova. M = Rn é completo na métrica dE . Pela Proposição 24.10, página 1216, todo conjunto dE -
limitado é pré-compacto em Rn . Logo, o Teorema 24.9 é uma conseqüência imediata da parte V do
Teorema 24.6, página 1209.
A seguinte proposição será usada adiante.

Proposição 24.11 Todo subconjunto τR -compacto de R tem um máximo e um mı́nimo. 2
Prova. Se C ⊂ R é compacto, então é τR -fechado e limitado na métrica usual (Teorema 24.9). Se C é

limitado, então C possui ao menos um majorante. Seja y = sup{x ∈ C} o menor dos majorantes de
7
Heinrich Eduard Heine (1821–1881).
8
C. Se y 6∈ C, então y ∈ C c , que é um conjunto τR -aberto (pois C é τR -fechado). Logo, pela definição

de conjuntos abertos em espaços métricos, existe um intevalo aberto (y − δ, y + δ), centrado em y, que
está inteiramente contido em C c . Portanto, todo ponto em (y − δ, y) não pertence a C mas majora C.
Isso contradiz a hipótese que y é o menor majorante de C. Assim, deve valer que y ∈ C e, portanto,
que C tem um máximo. A prova que C tem um mı́nimo é análoga.
• O Teorema de Bolzano-Weierstrass em Rn
O seguinte teorema, originalmente devido a Bolzano9 e Weierstrass10 , é muito freqüentemente em-

pregado em demonstrações:
Teorema 24.10 (Teorema de Bolzano-Weierstrass em Rn ) Toda seqüência limitada em Rn pos-
sui uma subseqüência convergente na métrica dE . 2
Prova. Se uma seqüência é limitada em Rn , então está contida em uma bola fechada de raio suficien-
temente grande centrada, digamos, na origem. Essa bola, sendo fechada e limitada, é compacta, pela
parte V do Teorema 24.6, página 1209. Assim, pelo item 2 da parte I do mesmo teorema, a seqüência
tem uma subseqüência convergente.
• Existência de máximos e mı́nimos para funções reais definidas em compactos
O seguinte teorema de aparência elementar tem várias conseqüências não-triviais, sendo freqüente-
mente evocado.
Teorema 24.11 Seja (C, τ ) um espaço topológico compacto e f : C → R uma função contı́nua
(adotando em R a topologia usual τR ). Então f assume em C um valor máximo e um valor mı́nimo,
ou seja, existem xmax e xmin ∈ C (não necessáriamente únicos) tais que f (xmax ) = max{f (x), x ∈ C}
e f (xmin ) = min{f (x), x ∈ C}. 2
Prova. Pelo Teorema 24.2, página 1202, a imagem de f é um conjunto τR -compacto e, portanto, pela
Proposição 24.11, página 1216, a imagem de f tem um máximo e um mı́nimo.
24.3 A Noção de Topologia Fraca
• A topologia fraca de uma coleção de funções
Um papel muito importante em Análise Funcional e Álgebra de Operadores desempenham as cha-

madas topologias fracas, que descreveremos inicialmente em um contexto geral.
9
Bernard Placidus Johann Nepomuk Bolzano (1781–1848).
10
Karl Theodor Wilhelm Weierstrass (1815–1897).
Dada uma função f : X → Y , onde X e Y são conjuntos dotados de topologias τX e τY , respectiva-

mente, sabemos que quanto maior (mais fina) a topologia τX mais chances f terá de ser contı́nua. Por
exemplo, no caso extremo em que τX = P(X) a função f será certamente contı́nua. Fixada a topologia
τY é uma questão importante saber qual a menor topologia τX que faz de f uma função contı́nua.
Esta questão pode ser, entretanto, estudada de forma muito mais geral se, ao invés de considerarmos
uma única função, considerarmos uma coleção de funções de X em diversos espaços topológicos Ya e
nos perguntarmos qual a menor topologia em X que faz todas as funções da coleção serem contı́nuas.
O caso anterior de uma única função é claramente um caso particular desse e, em verdade, esse caso
mais geral é também mais relevante em aplicações.
Vamos às definições. Seja X um conjunto e Ya , a ∈ Λ, uma coleção de espaços topológicos com
topologias τYa , respectivamente, onde Λ é um conjunto arbitrário de ı́ndices. Seja também F uma
coleção de funções de X em algum Ya : F = {fa : X → Ya , a ∈ Λ}.
Denotamos por τ (X, F) a menor topologia em X tal que toda função de F é contı́nua. Mais
formalmente definimos τ (X, F) simplesmente como a intersecção da coleção de todas as topologias
para as quais todas as funções de F são contı́nuas. Que tal coleção de topologias é não-vazia mostra
o fato que na topologia P(X) toda função de F sempre é contı́nua e, portanto, na pior das hipóteses
tem-se que τ (X, F) = P(X).
Vamos aqui demonstrar alguns resultados básicos sobre a topologia τ (X, F). Tomaremos sempre
as topologias τYa como fixadas (mas é, por vezes, bom recordar que τ (X, F) depende na verdade das
τYa ).
Proposição 24.12 Seja D a coleção de todos os conjuntos de X que sejam a imagem inversa de
alguma aberto de algum Ya pela função fa da coleção F:
D = {A ⊂ X, tal que A = fa−1 (Ua ), para algum aberto Ua de algum Ya e fa de F}.
Então, τ (X, F) = τ [D]. 2
Prova. Em primeiro lugar é claro que toda função de F é contı́nua na topologia τ [D] pois a imagem
inversa de qualquer aberto por uma função de F está (por definição) em D e, portanto, em τ [D]. Assim,
estabelecemos que τ (X, F) ⊂ τ [D], posto ser τ (X, F) a intersecção de todas as topologias onde todas
as funções de F são contı́nuas. Vamos mostrar que D ⊂ τ (X, F), o que implica que τ [D] ⊂ τ (X, F),
estabelecendo a igualdade τ (X, F) = τ [D]. A prova que D ⊂ τ (X, F) é feita por absurdo. Vamos
supor que exista um conjunto A na coleção D que não seja elemento da topologia fraca τ (X, F). Sejam
porém Ua aberto de Ya e fa função de F tais que A = fa−1 (Ua ). Como A 6∈ τ (X, F), a função fa não
é contı́nua na topologia fraca pois a imagem inversa do aberto Ua de Ya por fa não é um aberto nessa
topologia. Isso contradiz a definição da topologia fraca e, portanto, D ⊂ τ (X, F).
É útil também lembrar um resultado que provamos quando definimos o conceito de base de uma
topologia (página 1042): a coleção DI formada por intersecções finitas de elementos de D, X e ∅ é uma
base de τ [D] e, portanto, da topologia fraca.
Exemplo. Para o leitor familiarizado com o conceito de operador limitado em um espaço de Hilbert
considere-se o seguinte exemplo. Seja X = B(H) a coleção de todos os operadores limitados em um
espaço de Hilbert H. Como sabemos X é um espaço de Banach com a norma operatorial kAk =
kAψk
sup . Essa norma define em B(H) uma topologia que é chamada de topologia uniforme (ou
ψ∈H, ψ6=0 kψk
usual) de B(H).
Seja Y = C e seja a seguinte famı́lia de funções X → Y : E = {fx, y : X → Y, fx, y (A) =
(x, Ay), com x, y ∈ H}. Ou seja, E é a coleção de todas as funções que associam a cada operador
limitado A o número complexo (x, Ay) com vetores x, y ∈ H. Cada função é assim indexada por um
par de vetores x e y ∈ H.
Define-se a topologia operatorial fraca em B(H) como sendo a menor topologia para a qual toda
função de E é contı́nua. Esta topologia é mais fraca que a topologia uniforme.
24.4 A Topologia Produto de Espaços Topológicos

Seja {X1 , . . . , Xn }Quma coleção finita de conjuntos e seja, para cada a ∈ {1, . . . , n}, τa uma topologia
em Xa . Seja X = na=1 Xa o produto Cartesiano Q de todos os Xa , a ∈ In e seja B a coleção de todos
os subconjuntos de X que sejam da forma a∈In Aa onde Aa ∈ τa , ou seja, cada Aa é um aberto em
Xa segundo a topologia τa . Então a topologia gerada por B, τ [B] é chamada de topologia produto dos
espaços topológicos Xa , τa .
Q
No caso de produtos Cartesianos arbitrários β∈Λ Xβ a idéia acima de tomar-se produtos de aber-
tos como geradores da topologia do espaço produto pode ser repetida, mas conduz a uma topologia
(denominada em inglês “box product topology”) com poucas propriedades importantes. Muito mais
útil e importante é seguir a sugestão de Tychonov e considerar no espaço produto uma topologia, dita
topologia produto Q de Tychonov ou simplesmente topologia produto, definida da seguinte forma. Sejam
as projeções πα : β∈Λ Xβ → Xα definidas por
!
Y
πα xβ = xα ,
β∈Λ
Q S
ou, alternativamente, interpretando x ∈ β∈Λ Xβ como uma função de Λ em β∈Λ Xβ tal que x(α) ∈
Xα , então
πα (x) = x(α).
Então a topologia produto de Tychonov é definida como sendo a menor topologia para qual todas as
projeções πα , α ∈ Λ são contı́nuas, ou seja, é a topologia fraca gerada pela famı́lia de funções πα , α ∈ Λ.
Para o caso de produtos finitos não há distinção entre a “box product topology” e a topologia
produto de Tychonov. Para essa topologia produto de Tychonov vale entre outros o célebre e impor-
tantı́ssimo teorema de Tychonov: produtos Cartesianos arbitrários de espaços topológicos compactos
são compactos.
Façamos mais clara a distinção entre a “box product topology” e a topologia produto de Tychonov.
{Xα , α ∈ Λ} uma coleção de conjuntos e seja, para cada α ∈ Λ, τα uma topologia em Xα . Seja
Seja Q
X = α∈Λ Xα o produto Cartesiano
Q de todos os Xα , α ∈ Λ. Seja B a coleção de todos os subconjuntos
de X que sejam da forma α∈Λ Aα onde Aα ∈ τα , ou seja, cada Aα é um aberto em Xα segundo a
Q
topologia τα . Seja B∞ ⊂ B coleção de todos os subconjuntos de X que sejam da forma α∈Λ Aα onde
Aα ∈ τα , e onde apenas para um número finito de fatores tenhamos Aα 6= Xα . Então a topologia
gerada por B, τ [B], é a chamada “box product topology” dos espaços topológicos Xa , τa , enquanto que a
topologia gerada por B∞ , τ [B∞ ], é idêntica à topologia produto de Tychonov. É claro pelas definições
que τ [B∞ ] ⊂ τ [B].
Notemos que no caso de produtos finitos B∞ = B e, portanto, a “box product topology” e a
topologia produto de Tychonov coincidem.
Mostremos que a topologia produto de Tychonov é de fato τ [B∞ ]. Se Aα ∈ τα ,
Y
πα−1 (Aα ) = Sγ
γ∈Λ
onde Sα = Aα e Sγ = Xγ para γ 6= α. Seja D a coleção
D = {πα−1 (Aα ), Aα ∈ τα , α ∈ Λ}.
Conforme observamos na seção 24.3, página 1217, a topologia gerada por D é a menor topologia na qual
todas as funções πα são contı́nuas. Assim, a topologia produto de Tychonov é idêntica a τ [D]. Sabemos
também de considerações gerais (vide página 1042) que o conjunto DI formado por intersecções finitas
de elementos de D é uma base em τ [D] e Q que τ [D] = τ [DI ] (vide discussão à página 1042). Ora, os
elementos de DI são produtos de abertos γ∈Λ Aγ onde apenas uma coleção finita de Aγ ’s difere de
Xγ (por que?), ou seja, DI = B∞ , provando que τ [D] = τ [DI ] = τ [B∞ ].
24.5 O Teorema da Categoria de Baire

Seja X um conjunto e τ uma topologia em X. Um conjunto C é dito ser denso em parte alguma na
0
topologia τ se seu fecho tiver interior vazio, ou seja, se C = ∅.
Seja X um conjunto e τ uma topologia em X. X é dito ser de S primeira categoria se existir uma
famı́lia contável Nn , n ∈ N, de subconjuntos de X tais que X = n∈N Nn e tais que todos os Nn são
densos em parte alguma.
X é dito ser de segunda categoria se não for de primeira categoria.
Teorema 24.12 (Teorema da Categoria de Baire para espaços métricos) Todo S espaço métrico
completo é de segunda categoria, ou seja, se M é um espaço métrico completo e M = n∈N Nn para
alguma famı́lia contável de conjuntos Nn ⊂ M então existe pelo menos um Nm tal que (Nm )0 6= ∅. 2
Prova. Seja M um espaço métrico completo em relação a uma métrica d e seja Suma alguma famı́lia
contável de conjuntos Nn ⊂ M, todos densos em parte alguma e tais que M = n∈N Nn . A S prova é
feita por contradição, exibindo-se um elemento x que pertence a M mas que não pertence a n∈N Nn .
Façamos em primeiro lugar algumas observações básicas que serão usadas repetidamente no que
segue. Como os conjuntos Nn são densos em parte alguma, seus fechos Nn não podem ser iguais a
M, pois M é aberto. Logo os abertos (Nn )c = M \ Nn são todos não-vazios. Fora isso, para qualquer
bola aberta não-vazia B devemos ter também B ∩ (Nn )c 6= ∅, pois se tivéssemos B ∩ (Nn )c = ∅ isso
implicaria B ⊂ Nn , contrariando a hipótese que Nn interior vazio.
SComo dissemos, a estratégia da prova é exibir um elemento x que pertence a M mas que não pertence
a n∈N Nn . Esse elemento x será construı́do como limite de uma seqüência de Cauchy conveniente,
explorando o fato de M ser completo.
Passemos à construção da seqüência de Cauchy. Como (N1 )c 6= ∅, tomemos um elemento x1
arbitrário de (N1 )c . Como (N1 )c é aberto existe uma bola B1 (r1 , x1 ) centrada em x1 e de raio r1
suficientemente pequeno inteiramente contida em (N1 )c . É claro que B1 (r1 , x1 ) ∩ N1 = ∅ e que
x1 6∈ N1 .
Analogamente, como (N2 )c é aberto e não-vazio, tem-se que B1 (r1 , x1 ) ∩ (N2 )c 6= ∅. Escolhe-
mos então x2 ∈ B1 (r1 , x1 ) ∩ (N2 )c e tomemos uma bola B2 (r2 , x2 ) inteiramente contida no aberto
B1 (r1 , x1 ) ∩ (N2 )c . Sem perda, podemos escolher r2 satisfazendo r2 < r1 /2 e tal que B2 (r2 , x2 ) ⊂
B1 (r1 , x1 ). Note-se também que B2 (r2 , x2 ) ∩ N2 = ∅ e, como B2 (r2 , x2 ) ⊂ B1 (r1 , x1 ), vale também
que B2 (r2 , x2 ) ∩ N1 = ∅. Em resumo, B2 (r2 , x2 ) ∩ (N1 ∪ N2 ) = ∅. e x2 6∈ N1 ∪ N2 .
Podemos agora proceder indutivamente. Para n > 2, (Nn )c é aberto e não-vazio, tem-se que
Bn−1 (rn−1 , xn−1 ) ∩ (Nn )c 6= ∅. Escolhemos então xn ∈ Bn−1 (rn−1 , xn−1 ) ∩ (Nn )c e tomemos uma bola
Bn (rn , xn ) inteiramente contida no aberto Bn−1 (rn−1 , xn−1 ) ∩ (Nn )c . Sem perda, podemos escolher
rn satisfazendo rn < rn−1 /2 < 21−n r1 e tal que Bn (rn , xn ) ⊂ Bn−1 (rn−1 , xn−1 ). Note-se também que
Bn (rn , xn ) ∩ Nn = ∅ e, como Bn (rn , xn ) ⊂ Bn−1 (rn−1 , xn−1 ), vale também que Bn (rn , xn ) ∩ Nn−1 = ∅.
Em resumo, Bn (rn , xn ) ∩ (N1 ∪ · · · ∪ Nn ) = ∅. e xn 6∈ N1 ∪ · · · ∪ Nn .
A seqüência xn é uma seqüência de Cauchy pois (para m < n),
n−m−1
X
d(xm , xn ) ≤ d(xm+i , xm+i+1 )
i=0
pela desigualdade triangular (por que?) e como xn ∈ Bn−1 (rn−1 , xn−1 ), segue que d(xm+i , xm+i+1 ) ≤
rm+i < 21−m−i r1 . Logo,
n−m−1
X ∞
X
d(xm , xn ) ≤ 2 1−m−i
r1 < 2 1−m
r1 2−i = 22−m r1
i=0 i=0
que vai a zero quando m → ∞.

Como xn é uma seqüência de Cauchy e M é completo, existe x ∈ M ao qual a seqüência xn converge.
Fixando um J temos que todo xn com n ≥ J é elemento de BJ (rJ , xJ ). Logo, x ∈ BJ (rJ , xJ ) ⊂
BJ−1 (rJ−1 , xJ−1 ). Como BJ−1 (rJ−1 , xJ−1 ) ∩ NJ−1 = ∅ concluı́mos que x 6∈ N
SJ−1 . No entanto, J é
arbitrário e, portanto,
S x não pertence a nenhum Nn . Assim, x não pertence a n∈N Nn , contrariando
a hipótese que M = n∈N Nn .
Parte VI
Análise Funcional
1222
Capı́tulo 25
Noções Básicas Sobre Espaços de Hilbert
Conteúdo
25.1 Aspectos Topológicos Básicos de Espaços de Hilbert . . . . . . . . . . . . 1224
25.2 Aspectos Geométricos Básicos de Espaços de Hilbert . . . . . . . . . . . . 1225
25.2.1 Bases Ortonormais Completas em Espaços de Hilbert . . . . . . . . . . . . . 1230
25.3 Funcionais Lineares e o Dual Topológico de um Espaço de Hilbert . . . . 1244
25.3.1 O Teorema da Representação de Riesz . . . . . . . . . . . . . . . . . . . . . . 1245
U m espaço vetorial H sobre o corpo dos complexos e dotado de um produto escalar u, v ∈

H 7→ hu, vi ∈ C é dito ser um espaço de Hilbert1 se for completo em relação à métrica d
definida por esse produto escalar:
d(u, v) = ku − vk =
p
hu − v, u − vi, u, v ∈ H . (25.1)
Advertimos o estudante que dentre as propriedades definidoras de espaços de Hilbert destaca-se não
apenas a existência de um produto escalar, mas também a propriedade de completeza, sem a qual
muitas propriedades geométricas desses espaços não seriam válidas. Vide adiante.
As noções de espaços de Banach e de Hilbert foram introduzidas na Seção 17.4, página 962. Sobre
a origem da noção abstrata de Espaço de Hilbert, vide nota histórica à página 963.
Espaços de Hilbert desempenham um papel fundamental em toda a Fı́sica Quântica2 e em várias
áreas da Matemática. Historicamente sua importância na Fı́sica Quântica foi apontada por diversos
autores, mas foi especialmente von Neumann3 quem mais claramente destacou sua relevência para a
própria interpretação probabilı́stica daquelas teorias fı́sicas4 . Exemplos de espaços de Hilbert são os
espaços de dimensão finita Cn , o espaço ℓ2 , das seqüências de quadrado somável, estudado na Seção
17.4.1, página 964, e os espaços L2 (M, dµ), das funções de quadrado integrável em relação a uma
medida µ definida em um espaço mensurável M. Esses espaços foram estudados na Seção 23.4, página
1164.
Para a leitura deste capı́tulo uma certa familiaridade com a noção de produto escalar e de norma é
necessária, assim como é necessário conhecer a desigualdade de Cauchy-Schwarz. O conceito de produto
escalar foi apresentado na Seção 2.2.3, página 123, a desigualdade de Cauchy-Schwarz foi demonstrada
no Teorema 2.6, página 121 e o conceito de norma foi introduzido na Seção 2.3, página 128.
1
2
Há um dito corrente (e anônimo) que a Mecânica Quântica é uma agradável introdução ao estudo dos espaços de
Hilbert...
3
4
Nota histórica. Dois dos trabalhos seminais de von Neumann a respeito são: J. von Neumann, “Über die Grundlagen
der Quantenmechanik”, Mathematische Annalen, 98, 1-30 (1927) e J. von Neumann, “Allgemeine Eigenwerttheorie
Hermiteschen Funktionaloperatoren”, Mathematische Annalen, 102, 49-131 (1929). Vide também [110].
1223
Nas primeiras seções deste capı́tulo estudamos aspéctos topológicos e geométricos gerais de espaços
de Hilbert, chegando à importante noção de base ortogonal completa. Na Seção 25.3, página 1244,
somos apresentados ao importante Teorema da Representação de Riesz, Teorema 25.8, página 1246,
que afirma que todo espaço de Hilbert pode ser identificado com seu dual topológico, ou seja, com o
conjunto de seus funcionais lineares e contı́nuos.
25.1 Aspectos Topológicos Básicos de Espaços de Hilbert

Por definição, um espaço de Hilbert H é um espaço métrico com a métrica dada em (25.1) e, portanto,
existe uma topologia métrica naturalmente definida em H. É a essa topologia a que normalmente nos
referiremos quando falarmos de convergência de seqüências e de continuidade de funções em H.
Assim, dizemos que uma seqüência {xn }n∈N de vetores de um espaço de Hilbert H converge a um
vetor x de H se para todo ǫ > 0 existir N(ǫ) ∈ N tal que kx − xi k ≤ ǫ para todo i ≥ N(ǫ). Em outras
palavras, x = limn→∞ xn se e somente se limi→∞ kx − xi k = 0.
O estudante deve ser advertido que outras há outras topologias de interesse no estudo dos espaços
de Hilbert, como a topologia fraca induzida pelos produtos escalares. No estudo introdutório que
pretendemos nesse capı́tulo tais topologias não serão consideradas.
• Conjuntos fechados em espaços de Hilbert
Como lidaremos muito freqüentemente com o fecho de subconjuntos de um espaço de Hilbert H e

com propriedades de conjuntos fechados de H vale a pena lembrar nesse contexto as seguintes carac-
terizações de tais conceitos, válidas em espaços métricos gerais (vide página 1054):
1. O fecho C de um subconjunto C de um espaço de Hilbert H coincide com o conjunto de todos

os vetores de H que são pontos limite de seqüências convergentes formada por elementos de C.
2. Um subconjunto F de um espaço de Hilbert H é fechado se toda seqüência convergente formada
por elementos de F convergir em H a um vetor que também é elemento de F .
• O fecho de um subespaço linear é também um subespaço linear
Vamos ilustrar os conceitos acima mostrando um simples resultado do qual faremos uso adiante.
Seja E um subespaço de um espaço de Hilbert H. Vamos mostrar que seu fecho E é também um
sub-espaço de H. Para isso devemos mostrar que se x, y ∈ E, então qualquer vetor de H que seja
da forma z = αx + βy, com α, β ∈ C, é também elemento de E. Se x e y ∈ E, então existem duas
seqüências xi e yi , i ∈ N, de vetores de E tais que xi → x e yi → y. Como E é um subespaço, todos
os vetores zi = αxi + βyi são também elementos de E. É fácil, porém, mostrar que zi → z. De fato
kz − zi k = k(αx + βy) − (αxi + βyi)k = kα(x − xi ) + β(y − yi )k ≤ |α|kx − xi k + |β|ky − yi k .
Agora, por hipótese, tanto kx − xi k quanto ky − yi k vão a zero quando i → ∞, mostrando que zi → z.
Isso mostra, então, que elementos como z são pontos limite de seqüências de elementos de E (no caso
{zi }i∈N ) e, portanto, pertencem também ao fecho de E que é, portanto, um subespaço de H.
• Uma propriedade da norma
Se a e b são dois vetores de um espaço vetorial normado V (como um espaço de Hilbert, por
exemplo), então vale que

ka − bk − kbk ≤ kak . (25.2)
Para mostrar isso, notemos que a relação ka − bk ≤ kak + kbk implica kak ≥ ka − bk − kbk. Com
a substituição b → a − b, tiramos também que kak ≥ kbk − ka − bk. As duas desigualdades dizem que
kak ≥ | ka − bk − kbk |, como querı́amos provar.
• Continuidade da norma e do produto escalar
De acordo com a definição de continuidade de funções entre espaços métricos (vide discussão à
página 1116) uma função f : H → C, de um espaço de Hilbert H nos números complexos é contı́nua
se para toda seqüência convergente de vetores {xi }i∈N a seqüência de números {f (xi )}i∈N for também
convergente e
lim f (xn ) = f lim xn .
n→∞ n→∞
Um exemplo banal de uma tal função contı́nua é a norma f (x) = kxk. De fato, se xn → x,
isso significa que kxi − xk → 0. Logo |f (x) − f (xi )| = |kxk − kxi k|. Mas, pela desigualdade (25.2),
tomando-se a = x − xi e b = −xi , concluı́mos
|f (x) − f (xi )| ≤ kx − xi k ,
como o lado direito vai a zero quando i → ∞, concluı́mos que

lim f (xn ) = f lim xn = f (x) , ou seja, lim kxn k = lim xn = kxk ,
n→∞ n→∞ n→∞ n→∞
demonstrando a continuidade da norma.

Há um outro exemplo igualmente banal, mas importante. Seja φ ∈ H um vetor fixo e seja a função
f : H → C dada por
f (x) = hφ, xi .
Que f é contı́nua pode ser demonstrado com uso da desigualdade de Cauchy-Schwarz (Teorema 2.6,
página 121), que diz que se xn → x, então
|f (x) − f (xi )| = |hφ, (x − xi )i| ≤ kφk kx − xi k
e o lado direito vai a zero quando i → ∞, demonstrando a continuidade. Analogamente, fixando-se

φ ∈ H, a função f (x) = hx, φi é contı́nua.
25.2 Aspectos Geométricos Básicos de Espaços de Hilbert
• Conjuntos convexos
Seja V um espaço de vetorial (sobre os reais ou complexos). Uma combinação linear de dois vetores
x e y ∈ V que seja do tipo λx + (1 − λ)y com λ ∈ [0, 1] é dita ser uma combinação linear convexa de
x e y. Um conjunto A ⊂ V é dito ser um conjunto convexo se para todo x, y ∈ A e todo λ ∈ [0, 1] o
vetor λx + (1 − λ)y também for elemento de A.
Note-se que qualquer subespaço de V é também um conjunto convexo.
• Teorema do melhor aproximante
O seguinte teorema é de importância fundamental na teoria dos espaços de Hilbert.

Teorema 25.1 Seja A um sub-conjunto convexo e fechado de um espaço de Hilbert H. Então, para
todo x ∈ H existe um vetor y ∈ A tal que a distância kx − yk entre x e y é igual a mı́nima distância
possı́vel entre x e A, ou seja,
kx − yk = inf′
kx − y ′k .
y ∈A
Fora isso, esse vetor y é o único vetor em A com essa propriedade. 2
Prova. A idéia da demonstração é construir um vetor y com a propriedade mencionada a partir de

uma seqüência de Cauchy de vetores de A, mostrar que essa seqüência converge a um vetor de A,
mostrar que esse vetor satisfaz a propriedade de mı́nima distância mencionada e, por fim, mostrar sua
unicidade.
Seja D ≥ 0 definida como
D = inf
′
kx − y ′k .
y ∈A
Seja, para cada n ∈ N um vetor yn ∈ A com a propriedade que

1
kx − yn k2 < D2 + .
n
Notemos que tais vetores sempre existem. Se tal não fosse o caso, ou seja, se para algum n, digamos
n0 , não existisse vetor nenhum y ′ em A tal que kx − y ′k2 < D2 + n10 , isso significaria que para todo
y ′ ∈ A valeria que kx − y ′ k2 ≥ D 2 + n10 . Mas isso contraria a definição de D como o ı́nfimo de kx − y ′k,
y ′ ∈ A.
Vamos agora provar que toda seqüência yn como acima é uma seqüência de Cauchy em H. Para
tal, usaremos a identidade do paralelogramo (vide página 132) e o fato de A ser convexo.
A identidade do paralelogramo diz que para todos a, b ∈ H tem-se que
ka + bk2 + ka − bk2 = 2kak2 + 2kbk2 . (25.3)
Adotemos, então, a = x − yn e b = x − ym . Teremos que
k2x − (ym + yn )k2 + kym − yn k2 = 2kx − yn k2 + 2kx − ym k2 .
Isso pode ser reescrito (verifique) como
2
y m + y n
kym − yn k = 2kx − yn k + 2kx − ym k − 4
2 2
x − 2 .
2
1
Usando agora o fato que kx − yn k2 < D2 + n
para todo n , ficamos com
2
1 1 y m + y n
2
kym − yn k ≤ 4D + 2 2
+ − 4
x − .

n m 2
Notemos agora também que ym +y2

n
∈ A pois o lado esquerdo é uma combinação linear convexa de
elementos de A e A é um conjunto convexo. Assim, pela definição de D,
2

x − ym + yn ≥ D 2 .
2
Portanto, temos que

2 2 1 1 2 1 1
kym − yn k ≤ 4D + 2 + − 4D = 2 + .
n m n m
O lado direito pode ser feito arbitrariamente pequeno, tomando-se m e n ambos grandes o suficiente.
Ora, isso diz-nos precisamente que {yn }n∈N é uma seqüência de Cauchy.
Com essa informação. e lembrando que H é um espaço métrico completo, segue que yn converge a
um elemento y ∈ H. Na verdade podemos dizer também que y ∈ A, pois fizemos a hipótese que A é
fechado (lembre-se da caracterização de conjuntos fechados em espaços métricos da página 1054).
Uma vez encontrado esse y ∈ A, vamos mostrar que kx − yk = D. De fato, para todo n vale que
r
1
kx − yk = k(x − yn ) − (y − yn )k ≤ kx − yn k + ky − yn k < D 2 + + ky − yn k .
n
Tomando-se n → ∞, e usando o fato que yn converge a y, concluı́mos que kx − yk ≤ D (verifique!). Por
outro lado, é evidente pela definição de D que kx − yk ≥ D, pois y ∈ A. Daı́, segue que kx − yk = D,
Resta-nos demonstrar que esse y é o único elemento de A com essa propriedade. Para tal, vamos
supor que haja outro y ′ ∈ A com kx − y ′k = D e usemos novamente a identidade do paralelogramo
(25.3), mas agora com a = x − y e b = x − y ′. Teremos que
k2x − (y + y ′ )k2 + ky − y ′k2 = 2kx − yk2 + 2kx − y ′ k2 = 4D 2 ,
ou seja, 2
y + y′
′ 2 2
ky − y k = 4D − k2x − (y + y )k = 4D − 4 x − ′ .
2 2
2
y+y ′
Como 2
∈ A, por ser uma combinação linear convexa, segue que

′ 2
y + y
x − ≥ D2
2
e, portanto,
ky − y ′ k2 ≤ 0 ,
o que só é possı́vel se y = y ′ .
• Complementos ortogonais
Se E e um subconjunto de um espaço de Hilbert H, define-se seu complemento ortogonal E ⊥ como

o conjunto de todos os vetores de H que são ortogonais a todos os vetores de E:
n o

E ⊥ = y ∈ H hy, xi = 0 para todo x ∈ E .
Temos a seguinte proposição:

Proposição 25.1 O complemento ortogonal E ⊥ de um subconjunto E de H é um sub-espaço linear
fechado de H. 2
Prova. Que E ⊥ é um subespaço é fácil de se verificar pois se x, y ∈ E ⊥ , então, para quaisquer α, β ∈ C,
hαx + βy, zi = αhx, zi + βhy, zi = 0
para todo z ∈ E, o que mostra que αx + βy ∈ E ⊥ . Que E ⊥ é um conjunto fechado segue do seguinte
argumento. Se xn é uma seqüência de elementos de E ⊥ que converge a um x ∈ H, então, para todo
z ∈ E vale D E
hx, zi = lim xn , z = lim hxn , zi = 0 , (25.4)
n→∞ n→∞
pois hxn , zi = 0 para todo n, já que xn ∈ E ⊥ . Isso prova que x ∈ E ⊥ , que é assim, fechado. Na
penúltima igualdade em (25.4) usamos a continuidade do produto escalar.
Faremos adiante uso do seguinte lema:

Lema 25.1 Se A e B são dois conjuntos de um espaço de Hilbert H e A ⊂ B, então, B ⊥ ⊂ A⊥ . 2
Prova. Por definição, se y ∈ B ⊥ , y é ortogonal a todo elemento de B. Como A é subconjunto de B, y

é também ortogonal a todo elemento de A, ou seja, y ∈ A⊥ .
• Teorema da decomposição ortogonal
O teorema do melhor aproximante que apresentamos acima tem uma conseqüência importante.
Como todo sub-espaço linear de um espaço de Hilbert é convexo, segue que sub-espaços lineares fechados
satisfazem as hipóteses do teorema. Assim, se M é um sub-espaço linear fechado de um espaço de Hilbert
H vale para todo x ∈ H que existe um y ∈ M único tal que
kx − yk = inf
′
kx − y ′ k .
y ∈M
Usaremos esse fato para demonstrar o seguinte teorema, de importância central na teoria dos espaços
de Hilbert:
Teorema 25.2 (Teorema da Decomposição Ortogonal) Seja M um sub-espaço linear fechado de

um espaço de Hilbert H. Então, todo x ∈ H pode ser escrito de maneira única na forma x = y + z,
com y ∈ M e z ∈ M⊥ . 2
Prova. Vamos escolher y como o elemento de M tal que kx − yk = inf y′ ∈M kx − y ′ k, cuja existência foi
garantida pelo Teorema 25.1, página 1226. Se definirmos z = x − y tudo que nos restaria fazer é provar
que z ∈ M⊥ e que tais y e z são únicos. Vamos provar primeiro que z ∈ M⊥ , o que equivale a provar
que hz, y ′i = 0 para todo y ′ ∈ M. Isso é feito indiretamente, observando primeiro que, pela definição
de y, vale que
kx − yk2 ≤ kx − y − λy ′k2
para todo λ ∈ C e todo y ′ ∈ M, já que y + λy ′ ∈ M, pois M é um subespaço. Essa última relação diz,
pela definição de z, que
kzk2 ≤ kz − λy ′k2
para todo λ ∈ C. Escrevendo o lado direito como hz − λy ′, z − λy ′ i e expandindo, teremos
kzk2 ≤ kzk2 − 2Re(λhz, y ′ i) + |λ|2 ky ′k2 ,
ou seja,
2Re(λhz, y ′ i) ≤ |λ|2ky ′k2 . (25.5)
Agora, como todo número complexo, hz, y ′i é da forma hz, y ′i = |hz, y ′ i|eiα , para algum α real. Como
(25.5) vale para todo λ ∈ C, vale em particular para λ da forma λ = te−iα , onde escolhemos t > 0.
Inserindo esse λ em (25.5), a mesma fica
2t|hz, y ′i| ≤ t2 ky ′k2 ,
ou seja,
t ′ 2
|hz, y ′ i| ≤
ky k ,
2
desigualdade esta que vale para todo t > 0. Ora, isso só é possı́vel se o lado esquerdo é nulo: |hz, y ′i| =
0. Como y ′ é um elemento arbitrário de M, isso demonstra que z ∈ M⊥ , como querı́amos.
Demonstrar a unicidade da escolha de y e z é bem fácil. Suponha que também possamos escrever
x = y ′ + z ′ com y ′ ∈ M e z ′ ∈ M⊥ . Terı́amos y + z = y ′ + z ′ , ou seja, y − y ′ = z ′ − z. Agora, o lado
esquerdo é um elemento de M, enquanto que o lado direito é um elemento de M⊥ (por que?). Porém,
o único elemento que M e M⊥ podem ter em comum é o vetor nulo (por que?), o que implica y = y ′ e
z = z′ .
• Fechos e complementos ortogonais
Proposição 25.2 O fecho E de um sub-espaço E de H é E = (E ⊥ )⊥ . Em particular, se E é um

sub-espaço fechado de H, então E = (E ⊥ )⊥ . 2
Prova. Notemos primeiramente que E ⊂ (E ⊥ )⊥ , pois (E ⊥ )⊥ é o conjunto de todos os vetores per-

pendiculares a cada elemento de E ⊥ e todo elemento de E tem essa propriedade. Como (E ⊥ )⊥ é um
conjunto fechado (pela Proposição 25.1, página 1228), segue que E ⊂ (E ⊥ )⊥ pois, por definição, E é o
menor fechado que contém E.
Vamos agora provar a relação oposta, ou seja, que E ⊃ (E ⊥ )⊥ . Para isso vamos mostrar que todo
elemento de (E ⊥ )⊥ está no fecho de E. Seja x ∈ (E ⊥ )⊥ . Como E é um subespaço linear fechado, a
ele se aplica o Teorema de Decomposição Ortogonal e podemos afirmar que x pode ser escrito como
x = y + z com y ∈ E e z ∈ (E)⊥ . Se provarmos que z = 0, teremos estabelecido que x = y ∈ E, que é
o que queremos. Para isso, notemos que
hx, zi = hy, zi + kzk2 .
Como hy, zi = 0 (pois y ∈ E e z ∈ (E)⊥ ), segue que kzk2 = hx, zi. Queremos agora provar que esse
produto escalar é nulo, o que implica z = 0.
⊥
Como E ⊂ E segue pelo Lema 25.1, página 1228, que E ⊂ E ⊥ . Logo z ∈ E ⊥ . Como x ∈ (E ⊥ )⊥ ,
segue imediatamente que x e z são perpendiculares, completando a prova.
25.2.1 Bases Ortonormais Completas em Espaços de Hilbert
• Conjuntos ortonormais
Um conjunto E de vetores de um espaço de Hilbert é dito ser um conjunto ortonormal se a norma

de todos os seus elementos for igual a 1 e se vetores distintos de E forem ortogonais entre si, ou seja,
kuk = 1, ∀u ∈ E e hu, vi = 0, ∀u, v ∈ E com u 6= v.
Vamos a alguns exemplos. No espaço de Hilbert L2 ([0, 2π], dx) o conjunto

1 inx
en (x) = √ e , n ∈ Z (25.6)
2π
é um conjunto ortonormal de vetores. No espaço de Hilbert ℓ2 das seqüências de quadrado integrável
(vide Seção 17.4.1, página 964), as seqüências enm = δn, m formam um conjunto ortonormal de vetores.
Podemos representá-las como
 
en = 0, . . . , 0, 1, 0, . . . , n≥1.
| {z }
n−1
No espaço de Hilbert L2 ([−1, 1], dx) um conjunto ortonormal é formado pelos polinômios de Legendre
(normalizados) ( )
r
2n + 1
en (x) = Pn (x), n ∈ N ,
2
pois, como é bem sabido, valem para os polinômios de Legendre5 Pn (x), definidos por
[n/2]
1 dn 2 X (−1)k (2n − 2k)!
n
Pn (x) = n (x − 1) = xn−2k
2 n! dxn 2n k!(n − k)!(n − 2k)!
k=0
as relações Z 1
2
δn, m .
Pn (x)Pm (x) dx =
−1 2n + 1
No espaço de Hilbert L2 (R, dx), de particular importância para a Mecânica Quântica, há vários
conjuntos ortonormais bem-conhecidos, como por exemplo
( )
1 2
−x /2
en (x) = p √ Hn (x) e , n∈N ,
m
2 m! π
onde Hn são os polinômios de Hermite6
2 dn −x2
Hn (x) = (−1)n ex e ,
dxn
os quais satisfazem Z ∞ √
2
Hm (x) Hn (x) e−x dx = 2m m! π δm n .
−∞
Para mais propriedades das funções mencionadas acima, vide Capı́tulo 9, página 503.
• O espaço das funções almost-periódicas. Uma digressão
Há espaços de Hilbert onde, em contraste com os exemplos de acima, existem conjuntos ortonor-
mais não-contáveis de vetores. Um exemplo importante é o espaço AP (R), das funções ditas almost-
periódicas em R. Sem entrarmos em detalhes (para um tratamento completo, vide e.g. [79] e [27]), são
denominadas almost-periódicas as funções f : R → C que podem ser escritas como limites uniformes
de séries trigonométricas como X
f (t) = fn eiωn t , t ∈ R , (25.7)
n∈Z
onde fn são constantes e {ωn , n ∈ Z} é um sub-conjunto contável arbitrário de R. As constantes ωn

são denominadas freqüências de f e as constantes fn são denominadas amplitudes. Um caso particular
importante é aquele no qual as freqüências ωn são da forma ωn = nω, para algum ω > 0, denominado
freqüência fundamental. Como o estudante facilmente reconhece, funções como
X
f (t) = fn einωt , t ∈ R ,
n∈Z
são periódicas de perı́odo 2π/ω e a série do lado direito é a série de Fourier7 de f . Se a série do lado
direito converge uniformemente, f é contı́nua (justifique!). Assim, AP (R) contém as funções contı́nuas
e periódicas. O conjunto AP (R) contém também funções não-periódicas. Por exemplo, funções como
f (t) = 2 cos(ω1 t) + 2 cos(ω2 t) = eiω1 t + e−iω1 t + eiω2 t + e−iω2 t , ω1 > 0 e ω2 > 0 , (25.8)
5
6
7
são elementos de AP (R), mas são periódicas se e somente se a razão ω2 /ω1 for um número racional.
Se ω2 /ω1 for racional da forma ω2 /ω1 = p/q com p e q inteiros e primos entre si, então a f dada acima
é periódica de perı́odo T = 2πp/ω2 = 2πq/ω1 .
E. 25.1 Exercı́cio. Justifique todas as afirmações acima. Em particular, prove que a função f de (25.8)
não é periódica se ω2 /ω1 for irracional. 6
Um exemplo de uma função de AP (R) que não é periódica é

√ √ √
f (t) = 2 cos( 2t) + 2 cos(t) = ei 2t + e−i 2t + eit + e−it ,
√
que não é periódica, pois 2 6∈ Q.
Funções como a f de (25.8) não são periódicas se ω2 /ω1 for irracional. Como, porém, todo número
irracional pode ser aproximado por seqüências de números racionais, uma tal f possui perı́odos apro-
ximados (mas não exatos!). Essa é a origem da denominação de tais funções como almost-periódicas8 .
Foi demonstrado por H. Bohr (vide nota histórica, abaixo) que o conjunto AP (R) gera um espaço
de Hilbert com produto escalar dado por
Z T
1
hf, giAP := lim f (x)g(x) dx . (25.9)
T →∞ 2T −T
É um exercı́cio fácil mostrar que o conjunto de funções

eα (x) = eiαx , α ∈ R ⊂ AP (R) (25.10)
é um conjunto ortonormal em relação ao produto escalar (25.9). Trata-se, claramente, de um conjunto

não-contável.
E. 25.2 Exercı́cio. Mostre que heα , eα iAP = 1 para todo α ∈ R e que heα , eβ iAP = 0 para todos
α, β ∈ R com α 6= β. 6
Nota histórica. A teoria das funções “almost”-periódicas reais foi originalmente desenvolvida por
H. Bohr , irmão de N. Bohr10 , em vários trabalhos publicados entre 1924 e 1926. H. Bohr, porém,
9
menciona dois predecessores: Bohl11 , em tese publicada em 1893, e Esclangon12 , em tese de 1904, os
quais obtiveram resultados semelhantes sobre as funções ditas “quase-periódicas”, um caso especial das
funções almost-periódicas estudadas por H. Bohr. Os trabalhos de H. Bohr podem ser encontradas
na edição em três volumes [14] de suas obras completas. Bohr não conhecia previamente os trabalhos
8
Em Português seria mais adequado dizer “quase-periódicas”. Porém, essa nomenclatura é usada em várias lı́nguas
para designar um certo sub-conjunto de funções de AP (R). Por isso optamos pelo barbarismo “almost-periódicas”.
9
Harald August Bohr (1887-1951).
10
Niels Henrik David Bohr (1885-1962).
11
Piers Bohl (1865-1921).
12
Ernest B. Esclangon (1876-1954).
anteriores de Bohl e Esclangon sobre as funções quase-periódicas e menciona ter sido chamado à atenção
sobre existência dos mesmos por Hadamard13 . H. Bohr distinguiu-se também pelo desenvolvimento
da teoria das funções “almost”-periódicas de uma variável complexa. O conceito foi posteriormente
generalizado por von Neumann14 para funções definidas em grupos. Para definições e alguns resultados
nesse caso geral, vide [155].
• O Teorema de Pitágoras
Proposição 25.3 Seja E = {e1 , . . . , en } um conjunto ortonormal finito de um espaço de Hilbert H

e sejam λ1 , . . . , λn números complexos. Então,
2
Xn Xn

λa ea = |λa |2 .

a=1 a=1
Prova. 2 * n +
Xn X n
X n X
X n n
X

λ e
a a = λ e
a a , λ e
b b = λ λ he
a b a , eb i = |λa |2 ,

a=1 a=1 b=1 a=1 b=1 a=1
pois hea , eb i = δa, b .
A proposição acima é denominada Teorema de Pitágoras15 por ser uma óbvia generalização do bem
conhecido teorema da geometria plana.
• Conjuntos ortonormais e séries convergentes
Exploraremos aqui uma conseqüência do Teorema de Pitágoras da qual faremos uso adiante. Trata-
se de uma condição necessária e suficiente para que certas seqüências formadas por combinações lineares
de elementos de um conjunto ortonormal contável de um espaço de Hilbert H sejam convergentes,
seqüências estas muito comummente encontradas na Mecânica Quântica e outras aplicações da teoria
dos espaços de Hilbert.
Proposição 25.4 Seja H um espaço de Hilbert e {en , n ∈ N} um conjunto ortonormal contável em
H. Então, uma seqüência de vetores
n
X
sn = λa ea , n∈N,
a=1
converge em H se e somente se
∞
X
|λa |2 < ∞ .
a=1
13
Jacques Salomon Hadamard (1865-1963).
14
15
Pitágoras de Samos (ci. 569 A.C. - ci. 475 A.C.).
Prova. Se sn converge é uma seqüência de Cauchy. Isso significa que para todo ǫ > 0 existe N(ǫ) tal
que para todo m e n maiores que N(ǫ) tem-se ksm − sn k ≤ ǫ. Vamos supor sem perda de generalidade
que m < n. Pelo Teorema de Pitágoras
n 2
X Xn
2
ksm − sn k = λa ea = |λa |2 = |lm − ln | , (25.11)
a=m+1 a=m+1
onde n
X
ln = |λa |2 .
a=1
2
Concluı́mos que |lm −ln | ≤ ǫ para todo m e n maiores que N(ǫ), ou seja, ln é uma seqüência de Cauchy
de números reais e que, portanto, converge. Assim,
∞
X
|λa |2 < ∞ .
a=1
P
Vamos mostrar a recı́proca. Se ∞ 2
a=1 |λa | < ∞, então ln é limitada superiormente e, por ser uma
seqüência monotonamente crescente, converge (por que?). Assim, ln é uma seqüência de Cauchy. A
mesma identidade (25.11) nos diz, então, que sn é uma seqüência de Cauchy em H e, portanto, converge
a um vetor de H.
• Sub-espaços gerados por conjuntos ortonormais finitos
Seja E = {e1 , . . . , en } um conjunto ortonormal finito de um espaço de Hilbert H. É elementar

verificar que o conjunto E de todos os vetores de H que sejam da forma
n
X
λa ea
a=1
para λa complexos é um subespaço de H, denominado subespaço gerado por E.

Proposição 25.5 Se E é um subespaço gerado por um conjunto ortonormal finito, então E é um
conjunto fechado. 2
Prova. Seja {xi }i∈N uma seqüência de elementos de E que converge a x ∈ H. Cada xi é da forma
n
X
i
x = λia ea .
a=1
Vamos provar que para cada a a seqüência {λia }i∈N é uma seqüência de Cauchy de números complexos.
Se {xi }i∈N é convergente, então é uma seqüência de Cauchy. Logo, para todo ǫ > 0 existe N(ǫ) tal que
kxi − xj k ≤ ǫ para todos i, j ≥ N(ǫ). Assim, para i, j ≥ N(ǫ)
2
Xn n
X
2 i j 2 i j
ǫ ≥ kx − x k = (λa − λa )ea = |λia − λja |2 .

a=1 a=1
Mas isso diz que para i, j ≥ N(ǫ) tem-se para cada a |λia −λja | ≤ ǫ, ou seja, {λia }i∈N é uma seqüência de
Cauchy de números complexos. Assim, cada uma dessas seqüências converge a um número complexo
λa . Seja
Xn
′
x = λa ea .
a=1
Claramente x é um elemento de E. Vamos mostrar que, na verdade, x′ = x. Para tal basta mostrar
′
que xi converge a x′ e lembrar a unicidade de pontos limite em espaços métricos, como um espaço de
Hilbert (vide Corolário 22.1, página 1101). Mostrar que xi converge a x′ é trivial, pois
2
X n Xn
i ′ 2 i
kx − x k = (λa − λa )ea = |λia − λa |2

a=1 a=1
e como λia → λa o lado direito fica arbitrariamente pequeno quando i → ∞. Logo xi → x′ e, portanto,
x′ = x.
• A desigualdade de Bessel
Vamos estudar algumas propriedades de conjuntos ortonormais finitos ou contáveis, a mais impor-
tante sendo a desigualdade de Bessel16 , à qual chegaremos adiante.
Proposição 25.6 Seja E = {e1 , . . . , en } um conjunto ortonormal finito de um espaço de Hilbert H
e sejam λ1 , . . . , λn números complexos. Então, para todo x ∈ H vale que
2
X n X n n
X
2 2
x − λa ea = kxk + |λa − hea , xi| − |hea , xi|2 . (25.12)

a=1 a=1 a=1
16
Prova.
2 * +
n
X n
X n
X

x − λa ea = x− λa ea , x − λb eb

a=1 a=1 b=1
2
n
X n
X X n

= kxk2 − λb hx, eb i − λa hea , xi + λa ea
a=1
a=1
b=1
n
X
2
= kxk + −λa hea , xi − λa hea , xi + |λa |2
a=1
n
X n
X
2 2 2
= kxk + |hea , xi| − λa hea , xi − λa hea , xi + |λa | − |hea , xi|2
a=1 a=1
n
X n
X
2
= kxk + (λa − hea , xi) (λa − hea , xi) − |hea , xi|2
a=1 a=1
n
X n
X
2 2
= kxk + |λa − hea , xi| − |hea , xi|2 . (25.13)
a=1 a=1
Já vimos acima (página 1234) que o subespaço E gerado por um conjunto ortonormal finito E =
{e1 , . . . , en } é fechado. Vale, portanto, o teorema do melhor aproximante: para todo x ∈ H existe
um y ∈ E tal que a distância kx − yk é a mı́nima possı́vel. Se y ′ ∈ E, y ′ é da forma
n
X
′
y = λa ea .
a=1
Logo,
n
X n
X
kx − y ′k2 = kxk2 + |λa − hea , xi|2 − |hea , xi|2 .
a=1 a=1
É evidente que o lado direito assume seu valor mı́nimo quando λa = hea , xi para todo a entre 1 e n,
ou seja,
Xn
y = hea , xiea , (25.14)
a=1
e n
X
D 2 = inf
′
kx − y ′k2 = kx − yk2 = kxk2 − |hea , xi|2 . (25.15)
y ∈E
a=1
Retornando à relação (25.15), notemos que a mesma afirma que

n
X
2
kxk − |hea , xi|2 ≥ 0 ,
a=1
ou seja, para todo x ∈ H e para todo conjunto ortonormal finito E = {e1 , . . . , en } vale
n
X
|hea , xi|2 ≤ kxk2 . (25.16)
a=1
Se E = {en , n ∈ N} é um conjunto ortonormal contável, segue que também vale

∞
X
|hea , xi|2 ≤ kxk2 . (25.17)
a=1
Estas duas últimas desigualdades são conhecidas como desigualdades de Bessel. Como veremos em
breve, as mesmas desempenham um papel importante.
• Bases ortonormais completas
Chegamos agora ao importante conceito de Base Ortonormal Completa de um espaço de Hilbert.
Definição. Um conjunto ortonormal B de vetores em um espaço de Hilbert H é dito ser um conjunto

ortonormal completo ou uma base ortonormal completa se o único vetor de H que é ortogonal a todos
os vetores de B for o vetor nulo.
Notemos que B da definição acima não precisa ser necessariamente um conjunto finito ou contável.
De fato, como veremos, há espaços de Hilbert que só admitem bases ortonormais completas não-
contáveis.
Bases ortonormais completas desempenham um papel de grande importância em espaços de Hilbert
e suas aplicações. Vamos estudá-las aqui. Primeiramente demonstremos que as mesmas sempre existem.
Teorema 25.3 Todo espaço de Hilbert possui pelo menos uma base ortonormal completa. 2
Prova. A demonstração faz uso do Lema de Kuratowski-Zorn (vide página 37). Seja E a coleção de
todos os conjuntos ortonormais de um espaço de Hilbert H. Podemos introduzir em E uma ordem
parcial, denotada por “”, dizendo que E1 E2 se E1 ⊂ E2 , para dois conjuntos ortonormais E1 e E2 .
Seja {Eα , α ∈ Λ} um conjunto linearmente ordenado em E pela relação de ordem acima. Isso
significa que ou Eα ⊂ Eβ ou Eβ ⊂ Eα para quaisquer α, β ∈ Λ.
Esse conjunto {Eα , α ∈ Λ} possui um majorante em E, a saber, o conjunto ortogonal obtido
tomando-se a união de todos os Eα : [
Eα .
α∈Λ
S
E. 25.4 Exercı́cio. Por que razão α∈Λ Eα é também um conjunto ortonormal? 6
Assim, concluı́mos que em E, com a relação de ordem dada acima, vale sempre que qualquer conjunto
linearmente ordenado possui um majorante em E. Ora, essas são precisamente as hipóteses do Lema de
Kuratowski-Zorn e, assim, concluı́mos que existe um elemento maximal B em E, ou seja, um conjunto

ortonormal que não está contido propriamente em nenhum outro conjunto ortonormal.
Vamos, então, mostrar que esse B é uma base ortonormal completa. Para tal vamos supor o oposto,
ou seja, vamos supor que haja y ∈ H não nulo que seja ortogonal a todos os elementos de B, claramente
y não pode pertencer a B, pois para isso teria que ser ortogonal a si mesmo, ou seja, kyk2 = hy, yi = 0.
Se um tal y existisse, então B1 = B ∪{y} seria também um conjunto ortonormal (por que?) que contém
B como subconjunto próprio. Ora, isso contraria o fato que B é maximal. Logo tal y não existe e B é
uma base ortonormal completa.
A importância das bases ortonormais completas reside no fato que todo vetor de um espaço de
Hilbert pode ser escrito como limite de seqüências de vetores obtidos por combinações lineares finitas
de elementos de uma base ortonormal completa. Tornaremos isso preciso em breve. Façamos antes
porém a seguinte observação crucial:
Teorema 25.4 Seja B uma base ortonormal completa de um espaço de Hilbert H. Para cada y ∈ H,
o conjunto de todos os eα ∈ B tais que heα , yi =
6 0 é um conjunto contável. 2
Note-se que não está excluı́do que a a base B, no enunciado acima, possa ser não-contável.
Prova. Comecemos lembrando que se {eα1 , . . . , eαm } é um subconjunto finito da base B, então a
desigualdade de Bessel diz que
m
X
|heαa , yi|2 ≤ kyk2 . (25.18)
a=1
É claro que para cada y ∈ H a base B pode ser escrita como a seguinte união disjunta:
B = Z y ∪ By (25.19)
com
Z y := eα ∈ B| heα , yi = 0 e B y := eα ∈ B| heα , yi =
6 0 .
É igualmente claro que podemos escrever B y como
∞
[
By = Bny , (25.20)
n=1
onde, para n = 1, 2, . . .,

kyk 2
kyk 2
Bny = eα ∈ B |heα , yi| ∈
2
, .
n+1 n
E. 25.5 Exercı́cio. Convença-se que (25.19) é verdadeira e que aquela união é disjunta, assim como a
união em (25.20). 6
Desejamos mostrar que B y é um conjunto contável. A observação crucial é que cada Bny é um
conjunto finito. De fato, podemos facilmente mostrar que cada Bny tem no máximo n elementos.
Mostramos isso por contradição com a desigualdade de Bessel (25.18). Vamos supor que houvesse em
Bny mais que n elementos e tomemos em Bny um conjunto {eα1 , . . . , eαn+1 } com n + 1 elementos. Como
todos são elementos de Bny , tem-se que
kyk2
|heαa , yi|2 >
n+1
para todo a = 1, . . . , n + 1. Logo
n+1
X kyk2
|heαa , yi|2 > (n + 1) = kyk2 ,
a=1
n+1
contrariando a desigualdade de Bessel (25.18). Assim, cada Bny pode ter no máximo n elementos.
S
Isso nos diz que B y = ∞ y
n=1 Bn é um conjunto contável (eventualmente até finito), completando a
demonstração.
• A decomposição de vetores em bases ortogonais completas
Chegamos agora ao resultado mais importante sobre bases ortogonais completas e que é a verdadeira
razão de ser de sua definição.
Teorema 25.5 Seja y um vetor de um espaço de Hilbert H e B uma base ortonormal completa em
H. Como vimos acima, o subconjunto de B definido por B y = {eα ∈ B| heα , yi =6 0} é um conjunto
y
contável. Vamos escrever os elementos de B como eαa com a ∈ N. Então, vale que
Xn
y = lim heαa , yi eαa (25.21)
n→∞
a=1
e que
∞
X
2
kyk = |heαa , yi|2 . (25.22)
a=1
2
A expressão (25.22) pode ser interpretada como uma generalização to Teorema de Pitágoras para
dimensão infinita.
Prova do Teorema 25.5. Pela desigualdade de Bessel sabemos que

∞
X
|heαa , yi|2 ≤ kyk2 .
a=1
n
X
Pela Proposição 25.4, página 1233, isso nos diz que a seqüência de vetores sn = heαa , yi eαa converge
a=1
em H a um vetor que chamaremos de y ′:
Xn ∞
X
′
y = lim heαa , yi eαa = heαa , yi eαa .
n→∞
a=1 a=1
Queremos provar que y ′ = y. Para tal, tomemos um elemento arbitrário eα em B e calculemos o

produto escalar heα , y − y ′i. Há dois casos a considerar: 1) eα ∈ B y e, portanto, α = αk para algum
k ∈ N e 2) eα 6∈ B y e, portanto, heα , yi = 0 e α 6= αk para todo k ∈ N.
No caso 1) temos
* n
+
X
heα , y ′i = eα , lim heαa , yi eαa
n→∞
a=1
* n
+
X
= lim eα , heαa , yi eαa
n→∞
a=1
= heαk , yi
= heα , yi . (25.23)
Logo,
heα , y − y ′i = heα , yi − heα , y ′i = heα , yi − heα , yi = 0 .
No caso 2) temos
* n
+
X
heα , y ′i = eα , lim heαa , yi eαa
n→∞
a=1
n
X
= lim heαa , yi heα , eαa i
n→∞
a=1
= 0, (25.24)
pois α 6= αk para todo k e, portanto, heα , eαa i = 0. Logo,
heα , y − y ′ i = heα , yi − heα , y ′ i = 0 − 0 = 0 .
Em ambos os casos o resultado é zero, ou seja, heα , y − y ′ i = 0 para todo eα ∈ B. Pela definição de
B como base ortonormal completa, o único vetor ortogonal a todos os elementos de B é o vetor nulo.
Logo y = y ′.
n
X
Por (25.14), o vetor mais próximo de y no subespaço gerado por {eα1 , . . . , eαn } é heαa , yieαa .
a=1
Segue de (25.15) que
2
n
X n
X
2
y − heαa , yieαa , = kyk − |heαa , yi|2 .

a=1 a=1
Tomando-se o limite n → ∞ o lado esquerdo vai a zero como vimos e, portanto, concluı́mos que
∞
X
2
kyk = |heαa , yi|2 .
a=1
É importante chamar à atenção do estudante o fato que na expressão

∞
X
y = heαa , yi eαa
a=1
a soma é realizada em elementos de B y que, para cada y, é um conjunto contável. Mas B y depende
de y e assim, para y’s diferentes comparecem conjuntos diferentes de vetores eα ∈ B na soma. Isso é
importante no caso de a base B ser não-contável. Se B for contável podemos fazer a soma sobre todos
os elementos de B pois os elementos de Z y não contribuem.
Apesar de termos demonstrado que todo espaço de Hilbert possui uma base ortonormal completa,
demonstrar que um conjunto ortonormal B dado concretamente é uma base ortonormal completa pode
ser um problema envolvente que requer um trabalho cuidadoso de análise. Tal é o caso, por exemplo,
do conjunto ortonormal (25.6) do espaço de Hilbert L2 ([0, 2π]). É bem sabido, e fácil de se verificar,
einx
que o conjunto (contável) de vetores {en (x) = √ 2π
, n ∈ Z} é um conjunto ortonormal. Demonstrar
que é completo, porém, envolve mais trabalho e requer uso do teorema do qual trataremos no próximo
tópico abaixo, que discute caracterizações alternativas do conceito de base ortonormal completa. Para
a demonstração de completeza de alguns conjuntos ortonormais de funções especiais de interesse, vide
Seção 9.3, página 569.
• Bases ortonormais completas e bases topológicas
Em um espaço vetorial V a varredura linear (“linear span”) de um conjunto não-vazio A ⊂ V é a

coleção, denotada por span (A), de todos os vetores de V que podem ser escrito como uma combinação
linear finita de elementos de A:
n o
span (A) = v ∈ V | v = λ1 a1 + · · · + λn an , para algum n ∈ N, para λi ∈ C e ai ∈ A .
É elementar constatar que para A não-vazio span (A) é um subespaço de V .

Em um espaço vetorial topológico V um conjunto B é dito ser uma base topológica se seus elementos
forem linearmente independentes e se span (B) for um conjunto denso em V , ou seja, se seu fecho for
V : span (B) = V .
O teorema que demonstraremos a seguir mostra que, em um espaço de Hilbert, um conjunto B é
uma base ortonormal completa se e somente se for uma base topológica.
Teorema 25.6 Se B = {eα , α ∈ Λ} é um conjunto ortonormal em um espaço de Hilbert H, então
são equivalentes as seguintes afirmativas:
1. B é uma base ortonormal completa de H.

2. B é uma base topológica de H, ou seja, span (B) = H.
3. Para todo y ∈ H a conjunto B y = {eα ∈ B| heα , yi =
6 0} é contável e vale
X
kyk2 = |heα , yi|2 .
eα ∈B y
Prova. Que 1 implica 2 e que 1 implica 3 já foi demonstrado acima (Teorema 25.5, página 1239).
Vamos mostrar que 3 implica 1.
A demonstração é feita supondo que 3 vale e que 1 não vale e mostrando que isso leva a um absurdo.
Se B não é uma base ortonormal completa, então existe um vetor x ∈ H não-nulo que é ortogonal a
todo elemento de B, ou seja, heα , xi = 0 para todo eα ∈ B. Por 3, isso implica que
X
kxk2 = |heα , xi|2 = 0 ,
eα ∈B x
Por fim, mostremos que 2 implica 1.
A demonstração é feita supondo que 2 vale e que 1 não vale e mostrando que isso leva a um absurdo.
Se B não é uma base ortonormal completa, então existe um vetor x ∈ H não-nulo que é ortogonal a
todo elemento de B, ou seja, heα , xi = 0 para todo eα ∈ B. Então, o conjunto {x}⊥ é um subespaço
linear fechado que contém B e span (B) (por que?). Como span (B) é, por definição, o menor fechado
que contém span (B), vale também que span (B) ⊂ {x}⊥ . Como {x}⊥ é um subconjunto próprio de H
(pois não contém x nem o subespaço gerado por x), concluı́mos que span (B) é um subconjunto próprio
de H, uma contradição com a hipótese que 2 é verdadeiro.
• Espaços de Hilbert separáveis
Recordemos duas noções introduzidas na Seção 19.4, página 1054.

Seja um espaço X dotado de uma topologia τ . Dizemos que um conjunto A ⊂ X é denso em X se
o fecho de A for igual a X, ou seja, se não houver outro conjunto fechado que não X contendo A. Um
espaço topológico X é dito ser separável se possuir um subconjunto denso contável.
Definimos acima a noção de varredura linear de um conjunto A ⊂ H, que denotamos por span (A).
Um conceito associado é o de varredura linear por racionais de um conjunto A ⊂ H, que denotamos
por spanQ (A): a coleção, de todos os vetores de H que podem ser escrito como uma combinação linear
finita por racionais de elementos de A:
n o
spanQ (A) = v ∈ V | v = r1 a1 + · · · + rn an , para algum n ∈ N, para ri ∈ QC e ai ∈ A ,
onde QC denota o conjunto de todos os números complexos racionais, ou seja, de todos os números
complexos cujas partes real e imaginária são racionais.
Como QC é denso em C, é claro que todo elemento de span (A) pode ser aproximado (na topologia
de H) por elementos de spanQ (A). De fato, se {(rj )m , m ∈ N} é uma seqüência de números em QC
que aproxima λj ∈ C, então (r1 )m a1 + · · · + (rn )m an aproxima λ1 a1 + · · · + λn an na norma de H, pois

((r1 )m a1 + · · · + (rn )m an ) − (λ1 a1 + · · · + λn an ) = ((r1 )m − λ1 )a1 + · · · + ((rn )m − λn )an
≤ |(r1 )m − λ1 | ka1 k + · · · + |(rn )m − λn | kan k .

que converge a zero para m → ∞. Isso significa que para todo A ⊂ H vale spanQ (A) ⊃ span (A) e,
conseqüentemente, spanQ (A) ⊃ span (A). No entanto, como spanQ (A) ⊂ span (A), vale também que
spanQ (A) ⊂ span (A). Logo, spanQ (A) = span (A).
Assim, pelo Teorema 25.6, concluı́mos que B ⊂ H é uma base ortonormal completa se e somente
se spanQ (B) = H.
Se A ⊂ H for contável, é muito fácil ver que spanQ (A) é também contável (por ser uma união
contável de conjuntos contáveis). Logo, se B for uma base ortonormal completa contável, o conjunto
spanQ (B) é um conjunto contável denso em H. Concluı́mos disso que H será um espaço topológico
separável se possuir uma base ortonormal completa contável.
A recı́proca é também verdadeira: se um espaço de Hilbert H for um espaço topológico separável,
então toda base ortonormal completa de H é contável. Para ver isso, vamos supor que H seja separável
e seja D ⊂ H contável e denso em H: D = H. Seja também B uma base ortonormal completa em H.
Notemos que [
BD := Bx
x∈D
é contável, por ser uma união contável de conjuntos contáveis (pois D é contável, assim como cada
B x , pelo Teorema 25.4, página 1238.). Pelo Teorema 25.5, página 1239, cada x ∈ D é um elemento
de span (B x ). Concluı́mos disso que D ⊂ span (BD ). Logo, como D é denso em H, segue que H =
span (BD ). Agora, BD é um conjunto ortonormal (por ser subconjunto de B). Logo, concluı́mos pelo
Teorema 25.6 que BD é uma base ortonormal completa.
Disso concluı́mos também que B = BD , pois se BD fosse um sub-conjunto próprio de B haveria
v ∈ B, v 6= 0, que não pertence a BD . Como B é um conjunto ortonormal, segue que v é ortogonal
a todos os elementos de BD . Isso contraria o fato provado que BD é uma base ortonormal completa.
Vimos então que toda base ortonormal completa de um espaço de Hilbert separável deve ser contável.
Resumimos nossas conclusões no seguinte:
Proposição 25.7 Se um espaço de Hilbert H possui uma base ortonormal completa contável então
é um espaço topológico separável (ou seja, possui um sub-conjunto contável denso). Por outro lado,
se um um espaço de Hilbert H for separável, então todas as suas bases ortonormais completas são
contáveis. 2
O seguinte corolário é evidente:

Corolário 25.1 Se um espaço de Hilbert H possui uma base ortonormal completa contável então todas
as demais bases ortonormais completas de H são contáveis 2
Nesse contexto, a seguinte observação é relevante:

Proposição 25.8 Se um espaço de Hilbert H possui uma conjunto ortonormal não-contável então H
não é separável. 2
Prova. Seja C um conjunto ortonormal não-contável de H. Se C for uma base ortonormal completa
não há o que provar. Se não o for, podemos acrescentar elementos a C pertencentes a C ⊥ de modo a
obter uma base ortonormal completa. Essa base não pode ser contável, pois contém C.
Os espaços de Hilbert L2 ([a, b], dx), L2 ([a, b], r(x)dx) com r positiva e integrável no intervalo
[a, b], assim como L2 (R, dx), são separáveis. Esses fatos decorrem dos resultados apresentados na
Seção 9.3, página 569. O espaço de Hilbert AP (R) das funções almost-periódicas é não-separável, pois
possui um conjunto ortonormal não-contável, a saber, aquele de (25.10).
Finalizamos mencionando que no caso de espaços de Hilbert separáveis podemos refrasear o Teorema
25.5, acima, da seguinte forma:
Teorema 25.7 Seja y um vetor de um espaço de Hilbert separável H e B uma base ortonormal com-
pleta (e, portanto, contável) em H. Vamos escrever os elementos de B como ea com a ∈ N. Então,
vale que
Xn
y = lim hea , yi ea (25.25)
n→∞
a=1
e que
∞
X
2
kyk = |hea , yi|2 . (25.26)
a=1
2
A única diferença em relação ao Teorema 25.5 é que agora as somas acima não precisam mais ser
restritas apenas aos elementos de B y , mas são feitas sobre todos os elementos de B, independente do
vetor y ∈ H considerado. Eventualmente alguns termos dessas somas serão nulos (tal é o caso se para
um dado a tivermos ea ∈ Z y , ou seja, hea , yi = 0), mas isso não alterará o resultado.
25.3 Funcionais Lineares e o Dual Topológico de um Espaço

de Hilbert
• Funcionais lineares
Um funcional linear l definido em um espaço de Hilbert H é uma função cujo domı́nio é um subespaço
vetorial E de H assumindo valores complexos, l : E → C, e de tal forma que para todo x, y ∈ E e todo
α, β ∈ C tem-se
l(αx + βy) = αl(x) + βl(y) .
• Funcionais lineares contı́nuos
De grande importância são os funcionais lineares contı́nuos definidos em H. Estes são funcionais
lineares com domı́nio igual a H e tais que se {xi }i∈N é uma seqüência de vetores que converge a x ∈ H,
então vale
lim l(xn ) = l lim xn = l(x) .
n→∞ n→∞
Se l e l′ são funcionais lineares sobre H definimos para α, β ∈ C um funcional linear αl + βl′ como
sendo o funcional linear que a cada x ∈ H associa o número αl(x) + βl′ (x). É elementar mostrar que
o funcional αl + βl′ é também contı́nuo. O conjunto de todos os funcionais lineares contı́nuos de um
espaço e Hilbert H é também, portanto, um espaço vetorial que denotaremos por H∗ . O espaço H∗ é
denominado o dual topológico de H.
• Funcionais lineares limitados
Um funcional linear l sobre um espaço de Hilbert H é dito ser limitado se existir uma constante
M ≥ 0 tal que para todo x ∈ H vale
|l(x)| ≤ M kxk .
A seguinte proposição mostra que os conceitos de funcional linear contı́nuo e de funcional linear
limitado são idênticos.
Proposição 25.9 Em um espaço de Hilbert H um funcional linear é contı́nuo se e somente se for um
funcional linear limitado. 2
Prova. Se l é um funcional linear limitado e se {xj }j∈N é uma seqüência de vetores que converge a
x ∈ H, então
|l(x) − l(xj )| = |l(x − xj )| ≤ Mkx − xj k
e o lado direito vai a zero quando j → ∞, provando que l é contı́nuo.
Suponhamos reciprocamente que l é um funcional linear contı́nuo. Então, para um ǫ > 0 fixo existe
δ > 0 tal que |l(v)| ≤ ǫ para todo vetor v com kvk ≤ δ. Seja u um vetor não-nulo qualquer de H.
Então,
u
v = δ
kuk
é tal que kvk = δ. Logo, como l é linear, vale que

δ u

kuk l(u) = l δ kuk ≤ ǫ .
Assim,
ǫ
|l(u)| ≤ kuk ,
δ
provando que l é limitado (podemos adotar M = ǫ/δ).
Mencionamos que a Proposição 25.9 pode ser generalizada: uma aplicação linear entre dois espaços
normados é contı́nua se e somente se for limitada (Proposição 26.1, página 1251).
25.3.1 O Teorema da Representação de Riesz

Um exemplo de funcional linear contı́nuo é o seguinte. Seja φ ∈ H um vetor fixado. Defina-se então,
l(x) = hφ, xi, ∀x ∈ H .

É evidente que esse l é um funcional linear. Esse l é também contı́nuo, pela continuidade do produto
escalar (vide página 1225).
Esse exemplo não foi colocado aqui apenas como ilustração, pois demonstraremos agora que o todo
funcional linear contı́nuo é da forma l(x) = hφ, xi para algum φ de H. Esse resultado, conhecido
como Teorema da Representação de Riesz17 , ou simplesmente como Lema de Riesz, é um dos resulta-
dos fundamentais da teoria dos espaços de Hilbert e do mesmo muitas conseqüências serão extraı́das,
especialmente na teoria de operadores lineares em espaços de Hilbert. Vamos a seu enunciado e de-
monstração.
Teorema 25.8 (Teorema da Representação de Riesz) Seja l um funcional linear contı́nuo em
um espaço de Hilbert H. Então, existe φ ∈ H, único, tal que
l(x) = hφ, xi, ∀x ∈ H .
Prova. Seja l um funcional linear contı́nuo em um espaço de Hilbert H. Seja N ⊂ H o núcleo de l, ou

seja, o conjunto de todos os vetores de H que são anulados por l:
n o
N := y ∈ H| l(y) = 0 .
Vamos mostrar que N é um subespaço linear fechado de H. Que N é um subespaço é elementar pois,
se x, y ∈ N, então l(αx + βy) = αl(x) + βl(y) = α0 + β0 = 0. Que N é fechado pode ser visto pelo
fato que podemos caracterizar N como a imagem inversa do número 0 de C por l: N = l−1 ({0}). O
conjunto {0}, constituı́do por um único ponto, é fechado em C e funções contı́nuas são tais que sua
imagem inversa mapeia fechados em fechados (vide página 1114). Logo, N é fechado.
E. 25.6 Exercı́cio. Mostre também que N é fechado, demonstrando que se xi é uma seqüência de
elementos de N que converge a x ∈ H então, pela continuidade, vale l(x) = 0, provando que x ∈ N. 6
Caso N seja idêntico a H, isso significa que l(x) = 0 para todo x ∈ H e o teorema estaria provado,
adotando-se para tal φ = 0.
Vamos supor que N 6= H. Como N é fechado, pelo Teorema da Decomposição Ortogonal todo
x ∈ H é da forma x = y + z com y ∈ N e z ∈ N ⊥ . Como N 6= H, devem existir elementos não nulos
em N ⊥ , doutra forma terı́amos x = y ∈ N para todo x ∈ H.18
Seja, então, z0 um vetor não-nulo de N ⊥ . É obvio que l(z0 ) 6= 0. Para qualquer vetor u ∈ H vale
que l(z0 )u − l(u)z0 é um elemento de N, pois

l l(z0 )u − l(u)z0 = l(z0 )l(u) − l(u)l(z0 ) = 0 .
17
18
Fazemos notar ao estudante que é somente neste parágrafo, interessantemente, que a condição de continuidade de l é
usada, a saber, através da afirmativa que N é fechado e que, portanto, N ⊥ é formado por algo além do vetor nulo (caso
l não seja identicamente zero). Note-se também o uso importante que foi feito do Teorema da Decomposição Ortogonal
na demonstração.
Assim, como l(z0 )u − l(u)z0 é um elemento de N e z0 é um elemento de N ⊥ , ambos são ortogonais

entre si, ou seja,
0 = hz0 , l(z0 )u − l(u)z0 i .
Isso diz, porém, que
0 = l(z0 )hz0 , ui − l(u)kz0 k2 ,
ou seja, * +
l(z0 ) l(z0 )
l(u) = hz0 , ui = z0 , u .
kz0 k2 kz0 k2
Definindo
l(z0 )
φ = z0 ,
kz0 k2
fica provado que para todo u ∈ H
l(u) = hφ, ui ,
como querı́amos.
Por fim, para demonstrar que tal φ é único, suponhamos que exista um outro φ′ tal que também
valha l(u) = hφ′ , ui, para todo u ∈ H. Terı́amos, então, hφ, ui = hφ′ , ui, ou seja, hφ − φ′ , ui = 0
para todo u ∈ H. Como essa relação vale para todo u ∈ H, vale também para u = φ − φ′ . Logo
0 = hφ − φ′ , φ − φ′ i = kφ − φ′ k2 e, portanto, φ = φ′ .
Incidentalmente, o Lema de Riesz diz-nos que, fora o caso em que l é identicamente nulo, tem-se
sempre que N ⊥ é um subespaço unidimensional de H, a saber, o subespaço gerado pelo vetor φ.
Capı́tulo 26
Operadores Lineares Limitados em Espaços de
Banach e de Hilbert
Conteúdo
26.1 Operadores Lineares em Espaços Vetoriais Normados . . . . . . . . . . . 1250
26.1.1 Espaços de Banach de Operadores . . . . . . . . . . . . . . . . . . . . . . . . 1254
26.1.2 O Dual Topológico de um Espaço de Banach . . . . . . . . . . . . . . . . . . 1258
26.1.3 O Teorema de Hahn-Banach e Algumas Conseqüências do Mesmo . . . . . . 1263
26.1.4 O Teorema de Banach-Steinhaus ou Princı́pio de Limitação Uniforme . . . . 1270
26.1.5 O Teorema da Aplicação Aberta e o Teorema do Gráfico Fechado . . . . . . . 1271
26.2 Operadores Limitados em Espaços de Hilbert . . . . . . . . . . . . . . . . 1279
26.2.1 O Adjunto de um Operador em um Espaço de Hilbert . . . . . . . . . . . . . 1281
26.3 Álgebras de Banach e Álgebras C∗ . . . . . . . . . . . . . . . . . . . . . . . 1289
26.3.1 Álgebras de Banach . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1289
26.3.2 A Inversa de Operadores Limitados . . . . . . . . . . . . . . . . . . . . . . . . 1292
26.3.3 O Espectro de Operadores em Álgebras de Banach . . . . . . . . . . . . . . . 1298
26.3.4 O Homomorfismo de Gelfand em Álgebras C∗ . . . . . . . . . . . . . . . . . . 1308
26.3.5 Raı́zes Quadradas de Operadores em Álgebras de Banach . . . . . . . . . . . 1310
26.3.6 Elementos Positivos de Álgebras C∗ . . . . . . . . . . . . . . . . . . . . . . . 1312
26.3.7 O Lema da Raiz Quadrada em espaços de Hilbert. A Decomposição Polar . . 1315
26.4 Um Pouco sobre Estados e Representações de Álgebras C∗ . . . . . . . . 1320
26.5 O Espectro de Operadores em Espaços de Banach . . . . . . . . . . . . . 1329
26.6 Operadores Compactos em Espaços de Banach e de Hilbert . . . . . . . . 1339
26.6.1 O Teorema Espectral para Operadores Compactos Auto-adjuntos . . . . . . . 1352
26.7 O Teorema Espectral para Operadores Limitados Auto-adjuntos em Espaços
de Hilbert . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1360
26.7.1 O Cálculo Funcional Contı́nuo e o Homomorfismo de Gelfand . . . . . . . . . 1360
26.7.2 Generalizando o Cálculo Funcional Contı́nuo. As Medidas Espectrais . . . . . 1362
26.7.3 Medidas com Valores em Projeções Ortogonais . . . . . . . . . . . . . . . . . 1372
26.7.4 Os Projetores Espectrais e o Teorema Espectral . . . . . . . . . . . . . . . . . 1377
26.7.5 A Relevância do Teorema Espectral para a Fı́sica Quântica (um pouco de
Fı́sica, finalmente) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1381
26.A Prova do Teorema 26.18 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1390
1248
E ste capı́tulo tenciona ser uma pequena introdução à teoria dos operadores lineares limitados
(contı́nuos) em espaços de Banach e de Hilbert. O assunto é de central importância em várias
áreas da Fı́sica e da Matemática, desde a Mecânica Quântica e a Teoria Quântica de Campos
até a Teoria das Equações Diferenciais Parciais.
Na Seção 26.1 apresentamos noções básicas e demonstramos uma série de teoremas de importância
fundamental para toda a teoria de operadores em espaços de Banach e de Hilbert: o Teorema BLT, o
Teorema de Hahn-Banach, o Teorema de Banach-Steinhaus, o Teorema da Aplicação Aberta, o Teorema
da Aplicação Inversa e o Teorema do Gráfico Fechado. Na Seção 26.2 estudamos a teoria básica de
operadores em espaços de Hilbert. A Seção 26.3 é uma introdução às álgebras de Banach e às álgebras
C∗ , com uma certa ênfase na teoria espectral dessas álgebras. Na Seção 26.4 desenvolvemos um pouco
mais a teoria das álgebras C∗ e discutimos sua relação com álgebras de operadores em espaços de
Hilbert. Na Seção 26.5 especializa a teoria espectral para o contexto de operadores limitados agindo
em espaços de Banach e de Hilbert. Na Seção 26.6 desenvolvemos a teoria dos operadores compactos
em espaços de Banach e de Hilbert e obtemos o Teorema Espectral para operadores compactos auto-
adjuntos em espaços de Hilbert e generalizações. A Seção 26.7 é dedicada à demonstração do Teorema
Espectral para operadores limitados auto-adjuntos agindo em espaços de Hilbert. A Seção 26.7.5 discute
a relevância desse teorema para a Fı́sica Quântica.
• Operadores Lineares
Sejam V e W dois espaços vetoriais1 . Um operador linear, ou simplesmente operador2 T entre V e

W é uma função cujo domı́nio é V, Dom (T ) = V, e cuja imagem é um subconjunto de W, Im(T ) ⊂ W,
tal que, para todo α, β ∈ C e todo u, v ∈ V tem-se
T (αu + βv) = αT (u) + βT (v).
Note-se que isso em particular implica T (0) = 0.

Notação. Na teoria dos operadores lineares em espaços vetoriais é costume denotar-se T (u) sim-
plesmente por T u.
Nomenclatura. Se T : V → W é um operador entre espaços vetoriais V e W é comum dizer-se que
T age entre V e W.
Neste capı́tulo iremos nos dedicar ao estudo de propriedades básicas de operadores lineares em
espaços de Hilbert3 . Algumas dessas propriedades podem ser estudadas em um contexto mais geral
como propriedades de operadores lineares em espaços vetoriais normados ou em espaços de Banach4 ,
sem referência a propriedades especı́ficas de espaços de Hilbert.
O estudo de funções entre espaços vetoriais normados é de grande importância em matemática e
na fı́sica, em especial na fı́sica quântica. O maior papel, porém, é seguramente desempenhado pelas
1
Daqui por diante sempre trataremos de espaços vetoriais sobre o corpo dos complexos.
2
Como nestas notas só falaremos de operadores lineares, vamos freqüentemente omitir o qualificativo “linear” e falar
apenas em operadores. Operadores lineares são também denominados “transformações lineares” ou “aplicações lineares”.
3
4
funções lineares entre espaços normados, das quais falaremos agora.
26.1 Operadores Lineares em Espaços Vetoriais Normados

Sejam então V e W dois espaços vetoriais normados, cujas normas serão denotadas por k · kV e k · kW,
respectivamente. Por exemplo V e W podem ser dois espaços de Banach ou de Hilbert, mas por ora
não vamos requerer nada sobre a completeza dos mesmos.
Um dos problemas básicos da teoria dos operadores lineares entre espaços vetoriais normados é
classificá-los de acordo com caracterı́sticas que permitam associar-lhes propriedades comuns. Veremos
várias dessas classificações ao longo destas notas, a mais básica, da qual trataremos a seguir, sendo a
continuidade. Outras classificações que veremos, em particular no contexto de espaços de Hilbert, são
a classificação de operadores em limitados ou não-limitados, fechados ou não-fechados, de fecháveis ou
não-fecháveis, de operadores auto-adjuntos ou não auto-adjuntos, de operadores compactos ou não etc.
Os exemplos mais bem conhecidos de operadores são as matrizes, que são operadores entre espaços
de dimensão finita como V = Cn e W = Cm . Acreditamos que os estudantes destas notas já tenham
noções bem definidas sobre matrizes mas, apesar disso, ou mesmo por isso, vale advertir que iremos
aqui desenvolver a teoria de operadores entre espaços vetoriais normados gerais, mesmo de dimensão
infinitas e, por isso, muito da intuição que desenvolvemos sobre matrizes não é mais válida. Por
exemplo, matrizes agindo entre Cn e Cm (com as normas usuais) são sempre operadores contı́nuos, um
fato não mais necessariamente verdadeiro para operadores lineares entre espaços vetoriais normados de
dimensão infinita. Tal é a origem de boa parte da dificuldades no estudo de operadores lineares agindo
entre espaços vetoriais normados em geral.
• Operadores Contı́nuos
Se V e W são dois espaços vetoriais normados ambos são espaços métricos com a métrica definida por
suas normas e, portanto, são espaços topológicos métricos. Conseqüentemente, ao falarmos de funções
entre V e W coloca-se a questão da continuidade dessas funções como funções entre dois espaços
topológicos métricos. Essa questão é de grande relevância, pois em espaços vetoriais de dimensão
infinita é muito freqüente o aparecimento de operadores lineares não-contı́nuos. De fato, na mecânica
quântica, por exemplo, quase todos os operadores com os quais tipicamente lidamos, como os operadores
de posição e de momento, não são contı́nuos. O ponto é que, como veremos, operadores não-contı́nuos
podem ter propriedades drasticamente diferentes das de operadores contı́nuos.
Como V e W são dois espaços métricos, valem as definições usuais de continuidade em espaços
métricos. Assim, dizemos que um operador T : V → W é contı́nuo se

T lim xn = lim T xn
n→∞ n→∞
para qualquer seqüência convergente {xn }n∈N em V. Note que, na última igualdade, o limite do lado
esquerdo refere-se à topologia de V enquanto que o limite do lado direito refere-se à topologia de W.
Equivalentemente (vide discussão à página 1112) um operador T : V → W é contı́nuo se para todo
ǫ > 0 e todo u ∈ V existir δ ≥ 0 (eventualmente dependente de ǫ e de u) tal que kT u − T vkW ≤ ǫ
sempre que v for tal que ku − vkV ≤ δ.
Adiante (vide por exemplo, página 1252) veremos exemplos de operadores não-contı́nuos. Passemos
primeiro a uma definição igualmente importante e que se mostrará equivalente à de continuidade.
• Operadores Limitados
De grande importância é também a seguinte definição. Um operador T : V → W é dito ser limitado

se existir uma constante M > 0 tal que para todo u ∈ V tem-se
kT ukW ≤ MkukV.
Note-se que a constante M acima deve ser a mesma para todo u.

A seguinte proposição tem importância fundamental:
Proposição 26.1 Um operador linear T agindo entre dois espaços vetoriais normados V e W é limi-
tado se e somente ser for contı́nuo. 2
Prova. Seja T limitado, ou seja, tal que existe M > 0 satisfazendo kT ukW ≤ MkukV para todo u ∈ V.
Seja ǫ um número positivo arbitrário e sejam u e v dois vetores de V tais que ku − vkV ≤ ǫ/M. Então
ǫ
kT u − T vkW = kT (u − v)kW ≤ Mku − vkV ≤ M = ǫ.
M
Assim, adotando-se δ = ǫ/M vemos que T satisfaz a definição de continuidade.
Provemos a recı́proca. Seja T contı́nuo. Então, vale que para todo ǫ ≥ 0 e todo u ∈ V existe δ > 0
tal que kT u − T vkW ≤ ǫ sempre que v for tal que ku − vkV ≤ δ. Tomemos u = 0 e fixemos um ǫ.
Temos então que
kT vkW ≤ ǫ
sempre que kvkV ≤ δ. Lembremos que a constante δ independe de v e que sempre podemos escolher
δ > 0.
Seja então u um vetor não-nulo arbitrário de V e seja
δ
v = u
kukV
é claro que
δ δ
kvkV =
kukV u = kukV = δ.
V kukV
Portanto, para esse v vale kT vkW ≤ ǫ e, então

δ δ
kT ukW = T u = kT vkW ≤ ǫ,
kukV kukV W
ou seja,
ǫ
kT ukW ≤ kukV.
δ
Definindo M = ǫ/δ mostramos estão que kT ukW ≤ MkukV para todo u 6= 0. Para u = 0 essa relação
é trivialmente satisfeita e, portanto, vale para todo u ∈ V, mostrando que T é limitado.
• Exemplo de Operador Não-Limitado. O Funcional Delta de Dirac
Vamos a um exemplo de um operador agindo entre dois espaços vetoriais normados e que não é
limitado e, portanto, não é contı́nuo.
Seja V = C([−1, 1], C), o conjunto de todas as funções contı́nuas do intervalo [−1, 1] ⊂ R com
valores complexos e adotemos como norma em V a norma L2 :
Z 1 1/2
2
kf kV = |f (x)| dx , f ∈ C([−1, 1], C).
−1
Seja W = C e adotemos em W a norma usual
kzkW = |z|, z ∈ C.
Seja T0 : V → W o seguinte operador linear:
T0 f = f (0),
que associa a cada função f ∈ C([−1, 1], C) o seu valor no ponto 0. T0 é denominado funcional delta
de Dirac. É elementar mostrar que T0 é linear. Mostremos que T0 , porém, não pode ser contı́nuo.
Para isso, seja g(x) uma função de C([−1, 1], C) com a propriedade que g(−1) = g(1) = 0 e que
g(0) 6= 0. Para n ∈ N defina



 g(nx), para x ∈ [−1/n, 1/n],
un (x) =


 0, de outra forma.
Como g foi escolhida de modo que g(−1) = g(1) = 0, é fácil verificar que un ∈ C([−1, 1], C) (por
que?).
Temos que
"Z #1/2 Z 1/2
1/n 1
2 1 2
kun kV = |g(nx)| dx = √ |g(x)| dx
−1/n n −1
e, portanto, kun kV → 0 quando n → ∞.

Por outro lado T0 un = un (0) = g(0) 6= 0 é constante, ou seja, não depende de n. Assim, temos que

T0 lim un = T0 0 = 0
n→∞
mas
lim T0 un = g(0) 6= 0,
n→∞
o que mostra que T0 não pode ser contı́nuo nem, portanto, limitado.
É fácil verificar que T0 também não seria contı́nuo se adotássemos em V a norma Lp (com p ≥ 1):
Z 1 1/p
p
kf kV = |f (x)| dx , f ∈ C([−1, 1], C).
−1
E. 26.1 Exercı́cio. Complete os detalhes da prova dessa última afirmação. 6
Se, porém, adotássemos em V a norma do supremo
kf kV = sup |f (x)|
x∈[−1, 1]
então T0 seria contı́nuo.
E. 26.2 Exercı́cio. Complete os detalhes dessa última afirmação. 6
Esses exemplos mostram mais uma vez que a continuidade de uma aplicação depende das topologias
adotadas.
• O espaço vetorial B(V, W)
Sejam V e W dois espaços vetoriais normados, cujas normas serão denotadas por k · kV e k · kW,
respectivamente. Denotamos por B(V, W) o conjunto de todas os operadores lineares contı́nuos de V
em W.
O conjunto B(V, W) é um espaço vetorial sobre os complexos. De fato, dados dois operadores
quaisquer T e U ∈ B(V, W) podemos definir o operador αT + βU, com α, β ∈ C, como sendo o
operador que associa a cada v ∈ V o vetor de W dado por αT v + βUv. É trivial ver que αT + βU é
também um operador linear e que também é contı́nuo.
Mais que isso, B(V, W) é um espaço vetorial normado, onde para cada operador T definimos sua
norma operatorial kT k como
kT ukW
kT k = sup . (26.1)
u∈V, u6=0 kukV
Notemos que o lado direito de (26.1) é finito pois T é limitado.
E. 26.3 Exercı́cio. Verifique que as propriedades que caracterizam uma norma são de fato satisfeitas
pela definição acima. 6
Notemos também que se T ∈ B(V, W) então para todo u ∈ V vale que
kT ukW ≤ kT k kukV.

Mais adiante veremos que se W for um espaço de Banach então B(V, W) também é um espaço de
Banach em relação à norma definida acima. Esse fato é importante para toda a teoria dos operadores
limitados em espaços de Hilbert e abre caminho para a teoria das chamadas álgebras de Banach e das
chamadas álgebras C∗ .
• Extensões de Operadores
Convidamos neste momento o leitor a reler a definição do conceito de extensão de funções à página
28. Esse conceito se aplica diretamente à teoria dos operadores lineares agindo entre espaços vetoriais.
Sejam V e W dois espaços vetoriais e T : V → W um operador linear agindo entre eles. Suponha
que V seja sub-espaço de um espaço vetorial V ′ . Uma extensão do operador T ao espaço V ′ seria um
função T ′ : V ′ → W tal que T ′ (v) = T v para todo v ∈ V . Se uma extensão T ′ de T for também um
operador linear de V ′ em W , então T ′ é dita ser uma extensão linear de T .
Como veremos, extensões lineares desempenham um papel importante no estudo de operadores
não-limitados em espaços de Hilbert.
26.1.1 Espaços de Banach de Operadores
• O Teorema BLT
Vamos agora enunciar e demonstrar um resultado sobre extensões lineares que será freqüentemente
usado adiante, muitas vezes até sem menção explı́cita.
Seja V um espaço vetorial normado, cuja norma é denotada por k · kV. O espaço vetorial V é
assim um espaço métrico e na discussão iniciada à página 952 discutimos o conceito de completamento
canônico de um espaço métrico genérico. Chamemos de Ṽ o completamento canônico de V. Como
discutimos à página 952 e seguintes, existe uma bijeção natural isométrica de V em um subconjunto
denso de Ṽ, de modo que podemos, com um pequeno abuso, considerar V como um subconjunto (denso)
de Ṽ, no mesmo sentido que usamos quando dizemos que o conjunto dos racionais é um subconjunto
denso dos reais, embora em princı́pio os reais sejam classes de equivalências de racionas e, portanto,
objetos de natureza diferente dos racionais.
Na discussão deste tópico adotaremos essa convenção de entender V como um subconjunto denso
de Ṽ.
Muitas vezes nos é apresentado um operador limitado T agindo entre dois espaços vetoriais normados
V e W, sendo V um espaço métrico não-completo. Muitas vezes é útil, conveniente ou mesmo necessário
saber se é possı́vel estender o operador T para o completamento canônico Ṽ de V. Veremos abaixo
aplicações em que tal procedimento é útil. Será isso sempre possı́vel? Será a extensão também contı́nua?
E se o for, será a extensão obtida a única possı́vel?
O teorema seguinte nos dá condições suficientes para que uma tal extensão exista e seja única, a
saber, basta que W seja completo. Esse teorema é denominado por alguns autores de Teorema BLT
(“bounded linear transformation”). Em verdade, trata-se parcialmente de um caso particular do Teo-
rema 24.8, página 1214, pois operadores lineares e contı́nuos são uniformemente contı́nuos (verifique!).
Teorema 26.1 (BLT) Seja V um espaço vetorial normado, cuja norma é denotada por k · kV e seja
W um espaço vetorial normado, cuja norma é denotada por k · kW. Suponha que W seja completo
na métrica definida pela norma k · kW, ou seja, suponha que W seja um espaço de Banach. Então,
para todo operador linear limitado T : V → W, T ∈ B(V, W), existe uma extensão T̃ : Ṽ → W que
também é um operador linear limitado, T̃ ∈ B(Ṽ, W), e tal que kT̃ kB(Ṽ, W) = kT kB(V, W) . Fora isso,
tal extensão é a única com as propriedades mencionadas. 2
Prova. A demonstração consiste em construir a extensão T̃ e mostrar que a mesma satisfaz as propri-
edades mencionadas. A primeira etapa é a construção de T̃ .
Como entendemos V como um subconjunto denso de Ṽ, todo elemento de Ṽ é limite de uma seqüência
de elementos de V. Seja então x ∈ Ṽ e seja {xn }n∈N uma seqüência de elementos de V que converge a
x. Como {xn }n∈N converge, é uma seqüência de Cauchy.
Seja yn = T xn ∈ W. Mostremos que {yn }n∈N é um seqüência de Cauchy de elementos de W. De
fato,
kym − yn kW = kT (xm − xn )kW ≤ kT kB(V, W) kxm − xm kV = kT kB(V, W) kxm − xm kṼ.
Como {xn }n∈N é uma seqüência de Cauchy em Ṽ, o lado direito pode ser feito menor que qualquer ǫ > 0
dado, desde que m e n sejam grandes o suficiente, mostrando que {yn }n∈N é de fato um seqüência de
Cauchy de elementos de W. O ponto crucial é que estamos supondo que W seja completo e, portanto
{yn }n∈N converge a um elemento de W que chamaremos de y. Esse é o ingrediente que nos permite
definir T̃ como sendo a função que associa x a y:
T̃ (x) := y,
ou seja,
T̃ (x) := lim T xn .
n→∞
Um ponto lógico que ainda tem que ser exibido antes de passarmos adiante é mostrar que essa definição
não depende da particular seqüência {xn }n∈N adotada que converge a x ∈ Ṽ. Para isso basta mostrar
que se {x′n }n∈N é uma outra seqüência que converge a x então {T x′n }n∈N também converge ao mesmo
y. A demonstração disso está nas seguintes desigualdades. Seja y ′ o limite de {T x′n }n∈N (que existe
pelos mesmos argumentos de acima). Então
ky − y ′kW = k(y − T xn ) + T (xn − x′n ) + (T x′n − y ′)kW
≤ ky − T xn kW + kT (xn − x′n )kW + kT x′n − y ′kW
≤ ky − T xn kW + kT kB(V, W) kxn − x′n kṼ + kT x′n − y ′ kW.
= ky − T xn kW + kT kB(V, W) k(xn − x) − (x′n − x)kṼ + kT x′n − y ′ kW
≤ ky − T xn kW + kT kB(V, W) (kxn − xkṼ + kx′n − xkṼ) + kT x′n − y ′kW. (26.2)
É fácil agora ver que, pelas hipóteses, cada um dos termos da última linha vai a zero quando n → ∞,
mostrando que ky − y ′kW = 0 e que, portanto, y = y ′.
Assim, T̃ está bem definido como uma função de Ṽ em W. Temos agora que mostrar que 1o T̃ é
uma extensão de T ; 2o T̃ é linear; 3o kT̃ kB(Ṽ, W) = kT kB(V, W) .
Provemos 1 com a observação que cada x ∈ V é identificado em Ṽ com a seqüência constante xn = x.
T̃ (x) = lim T xn = lim T x = T x,

n→∞ n→∞
mostrando que T̃ e T coincidem em V.

Para mostrar a linearidade notemos que se {un ∈ V}n∈N converge a u ∈ Ṽ e {vn ∈ V}n∈N converge
a v ∈ Ṽ então {αun + βvn ∈ V}n∈N converge a αu + βv.
E. 26.5 Exercı́cio. Se isso não é óbvio para você, complete os detalhes. 6
Daı́, segue imediatamente que
T̃ (αu + βv) = lim T (αun + βvn ) = α lim T un + β lim T vn = αT̃ (u) + β T̃ (v).
n→∞ n→∞ n→∞
Passemos à demonstração do ponto 3. Pela continuidade da norma (vide página 1225) temos que
para todo x ∈ Ṽ e toda seqüência xn de elementos de V que converge a x
kT̃ xkW = k lim T xn kW = lim kT xn kW ≤ kT kB(V, W) lim kxn kV

n→∞ n→∞ n→∞
= kT kB(V, W) k lim xn kV = kT kB(V, W) kxkV,

n→∞
que demonstra que T̃ é limitado e que kT̃ kB(Ṽ, W) ≤ kT kB(V, W) .

Tem-se, porém, que, pela definição de norma operatorial,
kT̃ ukW kT̃ ukW kT ukW

kT̃ kB(Ṽ, W) = sup ≥ sup = sup = kT kB(V, W) ,
u∈Ṽ, u6=0 kukṼ u∈V, u6=0 kukV u∈V, u6=0 kukV
que demonstra que kT̃ kB(Ṽ, W) ≥ kT kB(V, W) , estabelecendo, assim, a igualdade kT̃ kB(Ṽ, W) = kT kB(V, W) .
• B(V, W) é um espaço de Banach se W o for
Já vimos que se V e W são espaços normados, com normas k · kV e k · kW, respectivamente, então
B(V, W), o espaço vetorial dos operadores contı́nuos agindo entre V e W, é também um espaço
normado, com a chamada norma operatorial
kT ukW
kT k = sup , T ∈ B(V, W).
u∈V, u6=0 kukV
B(V, W) é um espaço métrico na métrica definida pela norma. Essa topologia métrica definida em
B(V, W) pela norma operatorial é denominada topologia uniforme.
Vamos mostrar aqui o seguinte teorema, de grande importância na teoria dos operadores limitados
em espaços de Hilbert e que abre caminho para a teoria das chamadas álgebras de Banach e para as
chamadas álgebras C∗ .
Teorema 26.2 Se W é um espaço vetorial normado completo, ou seja, se é um espaço de Banach,
então B(V, W) é também um espaço vetorial normado completo. 2
Prova. O que temos que mostrar é que se An , n ∈ N, for uma seqüência de Cauchy em relação à
métrica definida pela norma operatorial, então An converge nessa métrica a um operador que também
é linear e limitado, ou seja, também um elemento de B(V, W). A estratégia que seguiremos, como
na demonstração do Teorema BLT, é exibir um candidato a ser o limite da seqüência An , mostrar que
esse candidato é um operador linear e contı́nuo e, por fim mostrar que ele é, de fato, limite dos An ’s
na topologia uniforme.
Seja então An , n ∈ N uma seqüência de Cauchy em relação à métrica definida pela norma opera-
torial. Portanto, para todo ǫ > 0 existe N(ǫ) tal que para todo m, n ≥ N(ǫ) tem-se kAm − An k ≤ ǫ.
Seja x ∈ V e seja a seqüência em W dada por
yn = An x.
É fácil mostrar que yn , n ∈ N, é uma seqüência de Cauchy em W. De fato, se m, n ≥ N(ǫ),
kym − yn kW = kAm x − An xkW = k(Am − An )xkW ≤ k(Am − An )k kxkV ≤ ǫkxkV ,
mostrando que yn , n ∈ N, é uma seqüência de Cauchy.

O ponto crucial é que fizemos a hipótese que W é um conjunto completo. Assim, a seqüência yn
converge a um elemento de W que denominaremos y. Como cada yn depende de x, o vetor y também
depende de x, que é um vetor arbitrário de V. Definimos então A : V → W como sendo a função que
associa cada x ∈ V ao vetor y ∈ W correspondente:
A(x) = y,
ou seja,
A(x) = lim An x,
n→∞
onde o limite é entendido na topologia métrica de W definida pela norma k · kW.

Essa função A é nossa candidata a ser o limite da seqüência An n ∈ N, na topologia uniforme. Para
tal, temos que demonstrar que 1o A é um operador linear; 2o A é um operador limitado e, portanto,
um elemento de B(V, W) e 3o A é o limite da seqüência An n ∈ N, na topologia uniforme.
Prova de 1. Pela definição, para quaisquer α, β ∈ C e quaisquer u, v ∈ V,
A(αu + βv) = lim An (αu + βv) = α lim An u + β lim An v = αA(u) + βA(v),

n→∞ n→∞ n→∞
provando a linearidade de A.
Prova de 2. Para provar que A é limitado (e, portanto, contı́nuo) precisamos antes mostrar que a
seqüência de números reais positivos kAn k, n ∈ N, converge.
Para tal, fazemos uso da desigualdade (2.27), página 131. Temos
| kAm k − kAn k | ≤ kAm − An k.
Assim, se o lado direito é menor que ǫ para m e n ≥ N(ǫ), o lado esquerdo também é, provando que
kAn k, n ∈ N, é uma seqüência de Cauchy de números reais. Como R é completo, essa seqüência
converge a um número que chamaremos A ≥ 0.
Assim, usando a continuidade da norma (vide página 1225),

kAxkW = k lim An xkW = lim kAn xkW ≤ lim kAn k kxkV = AkxkV,
n→∞ n→∞ n→∞
que mostra que A é limitado e, portanto, contı́nuo.

Prova de 3. Acabamos de mostrar que A é um elemento de B(V, W). Resta apenas mostrar que A
é o limite dos An ’s na topologia uniforme.
Para qualquer n e qualquer x ∈ V, tem-se pela continuidade da norma que

k(A − An )xkW = lim (Am − An )x = lim k(Am − An )xkW ≤ lim k(Am − An )k kxkV.
m→∞ W m→∞ m→∞
Assim,
k(A − An )xkW
kA − An k = sup ≤ lim k(Am − An )k
x∈V, x6=0 kxkV m→∞
Como An , n ∈ N, é um seqüência de Cauchy, vale para qualquer ǫ > 0 que k(Am − An )k ≤ ǫ sempre
que m e n ≥ N(ǫ). Assim, limm→∞ k(Am − An )k ≤ ǫ sempre que n ≥ N(ǫ). Logo, pelo que mostramos,
kA − An k ≤ ǫ sempre que n ≥ N(ǫ), o que diz que A é o limite dos An ’s na topologia uniforme, como
querı́amos provar.
26.1.2 O Dual Topológico de um Espaço de Banach

Seja V um espaço vetorial sobre corpo C. Uma aplicação l : V → C, definida sobre todo V , é dita ser
um funcional linear se
l(αx + βy) = αl(x) + βl(y)
para todo x, y ∈ V e todo α, β ∈ C.
O conjunto de todas os funcionais lineares de V em C é denominado espaço dual algébrico de V e
denotado V ′ . O conjunto V ′ é feito um espaço vetorial (sobre C), através da seguinte relação:
(αl + βm)(x) = l(αx) + m(βx),
para todo l e m ∈ V ′ ; α, β ∈ C e todo x ∈ V . O vetor nulo de V ′ é o funcional linear que associa

trivialmente todo vetor de V a zero: l(x) = 0, ∀x ∈ V .
Seja X um espaço de Banach. O conjunto de todos os funcionais lineares contı́nuos sobre X é dito
ser o dual topológico de X. O dual topológico de X será denotado nestas notas por X † . Note-se que
X † ⊂ X ′.
Pela sua definição, podemos identificar X † com o conjunto B(X, C). Isso nos leva a concluir que
†
X é igualmente um espaço normado com a norma
|l(x)|
klkX † = sup . (26.3)
x∈X, x6=0 kxkX
Mais que isso, o Teorema 26.2, página 1257, diz-nos que X † é também um espaço de Banach em relação
a essa norma. Conseqüentemente o espaço (X † )† , o dual topológico de X † , é igualmente um espaço de
Banach, e assim por diante. (X † )† é por vezes denominado o dual (topológico) duplo de X ou bidual
(topológico) de X. Podemos nos perguntar qual a relação entre esses espaços.
De maneira geral podemos sempre identificar X com um subconjunto de (X † )† , no seguinte sentido:
existe uma aplicação injetora de X em (X † )† . Denominemos essa aplicação D : X → (X † )† . Podemos
defini-la da seguinte forma. Se x ∈ X definimos D(x) como sendo o elemento de (X † )† que a cada
l ∈ X † associa o número l(x):
D(x)(l) = l(x).
É fácil verificar que D é linear e injetora, não o faremos aqui. Que D(x) é contı́nuo segue do fato que
|D(x)(l)| = |l(x)| ≤ kxkX klkX † , que mostra que D(x) é limitado. É uma conseqüência do Teorema de
Hahn-Banach, mais precisamente, a Proposição 26.5, página 1269, que D é uma isometria, ou seja,
kD(x)k(X † )† = kxkX (26.4)
E. 26.6 Exercı́cio. Prove essa afirmação usando a Proposição 26.5. Essa afirmação é um caso particular
da Proposição 26.11, página 1287. 6
• Espaços Reflexivos
Essas observações dizem-nos que, em um certo sentido, podemos considerar X como um subcon-
junto de seu bidual topológico (X † )† pois D(X) ⊂ (X † )† . Quando estudamos o dual algébrico de
espaços vetoriais (seção 2.1.3, página 107 e seguintes) demonstramos um teorema (Teorema 2.5, página
112) que afirma que o bidual algébrico de um espaço vetorial V de dimensão algébrica infinita é sempre
estritamente maior que V . No caso do bidual topológico de espaços de Banach isso não é mais neces-
sariamente verdade, pois há espaços de Banach que possuem a propriedade que D(X) = (X † )† . Tais
espaços são ditos reflexivos.
Os espaços Lp (R, dx) com 1 < p < ∞ são reflexivos pois (Lp (R, dx))† = Lq (R, dx) com p−1 +q −1 =
1, de onde segue facilmente que ((Lp (R, dx))† )† = Lp (R, dx) (por que?). Para uma prova que
(Lp (R, dx))† = Lq (R, dx) vide, por exemplo, [122]. Os espaços L1 (R, dx) e L∞ (R, dx) não são
reflexivos. Na Proposição 26.4, página 1262, provaremos que os espaços ℓp de seqüências p-somáveis
com 1 < p < ∞ são reflexivos e que (ℓp )† , o dual topológico de ℓp , e o espaço ℓq com 1p + 1q = 1 podem
ser identificados.
Um fato importante é que todos os espaços de Hilbert são reflexivos. Isso segue o Teorema da
Representação de Riesz (página 1246) e de algumas considerações simples, como mostraremos agora.
• Espaços de Hilbert são reflexivos

O Teorema da Representação de Riesz (página 1246) afirma que se H é um espaço de Hilbert e

l ∈ H† é um funcional linear contı́nuo agindo em H então existe um e somente um elemento ψl ∈ H
tal que l(x) = hψl , xi para todo x ∈ H. Vamos denominar por R : H† → H a função que associa cada
l ∈ H† a seu vetor ψl ∈ H:
l(x) = hR(l), xi, ∀x ∈ H. (26.5)
O Teorema de Representação de Riesz diz-nos que R é injetora. De fato R : H† → H é também bijetora
pois é sobrejetora. Para ver isso, notemos que se φ ∈ H então H ∋ x 7→ f (x) = hφ, xi define um
funcional contı́nuo em H e, portanto, R(f ) = φ, mostrando que todo elemento de H está na imagem
de R.
Devido às propriedades do produto escalar, R é uma aplicação anti-linear, ou seja,
R(αl + βl′ ) = αR(l) + βR(l′ )
para todos α, β ∈ C e todos l, l′ ∈ H† , pois devemos ter
(αl + βl′ )(x) = αl(x) + βl′ (x)
e, com a anti-linearidade de R temos de fato
(αl + βl′ )(x) = hR(αl + βl′), xi = hαR(l) + βR(l′ ), xi = αhR(l), xi + βhR(l′ ), xi = αl(x) + βl′ (x)
como desejado.
Com essas observações é fácil ver que o espaço H† é um espaço vetorial com produto escalar, dado
por
hl, miH† = hR(m), R(l)i = m(R(l)). (26.6)
Repare a ordem invertida!
E. 26.7 Exercı́cio. Mostre que todas as propriedades de produto escalar estão satisfeitas. 6
Com essa definição de produto escalar podemos introduzir em H† uma norma, que denotaremos
provisoriamente por klk1 , dada por
p
klk1 = hR(l), R(l)i = kR(l)k.
Para mostrar que H† é um espaço de Hilbert precisamos mostrar que o mesmo é completo em relação
a essa norma k · k1 . A chave para isso é mostrar que as normas k · k1 e k · kH† (definida em (26.3)) são
iguais e lembrar que pelo, Teorema 26.2, página 1257, H† é completo em relação à norma k · kH† .
Proposição 26.2 Sejam H um espaço de Hilbert e H† seu espaço dual topológico. Então a norma
norma k · k1 definida acima e a norma k · kH† são iguais. 2
Prova. Seja l ∈ H† . Queremos provar que klk1 = klkH† . Se l = 0 a identidade é trivial. Seja então
l 6= 0. Pela definição
|l(x)| |hR(l), xi| |hR(l), R(l)i|
klkH† = sup = sup ≥ = kR(l)k = klk1 .
x∈H, x6=0 kxk x∈H, x6=0 kxk kR(l)k
Por outro lado, pela desigualdade de Cauchy-Schwarz, tem-se para x 6= 0

|hR(l), xi| kR(l)k kxk
≤ = kR(l)k.
kxk kxk
Logo,
|l(x)| |hR(l), xi|
klkH† = sup = sup ≤ kR(l)k = klk1 ,
x∈H, x6=0 kxk x∈H, x6=0 kxk
provando que klkH† = klk1 .
Isso diz-nos, então, que H† é não apenas um espaço com um produto interno, mas é completo em
relação a norma definida por esse produto interno pois essa norma coincide com a norma k · kH† em
relação à qual H† é completo pelo Teorema 26.2, página 1257. Em resumo: H† é também um espaço
de Hilbert!
Vamos com isso mostrar agora que H é reflexivo.
Proposição 26.3 Se H é um espaço de Hilbert então D(H) = (H† )† , ou seja, todo espaço de Hilbert
é reflexivo. 2
Prova. Acabamos de ver que se H é um espaço de Hilbert então H† e, conseqüentemente, (H† )† também
são espaços de Hilbert.
Já vimos acima que R : H† → H é uma aplicação anti-linear bijetora. Assim, possui uma inversa
R−1 : H → H† que também é anti-linear e bijetora. Como H† é também um espaço de Hilbert,
segue pelo Teorema da Representação de Riesz que também existe uma aplicação anti-linear bijetora
S : (H† )† → H† com uma inversa S−1 : H† → (H† )† igualmente anti-linear e bijetora.
Por analogia com (26.5), vale que para todo J ∈ (H† )† e todo l ∈ H† que
J(l) = hS(J), liH† .
Note que, por (26.6),
J(l) = hS(J), liH† = hR(l), R(S(J))i.
Como S−1 e R−1 são ambas anti-lineares e bijetoras, a composição S−1 ◦ R−1 : H → (H† )† é linear
(por que?) e bijetora. Podemos verificar que S−1 ◦ R−1 é, em verdade, igual a D pois, para todo l ∈ H†
e todo x ∈ H,
(S−1 ◦ R−1 (x))(l) = hS(S−1 ◦ R−1 (x)), liH†
= hR−1 (x), liH†
= hR(l), R(R−1 (x))i
= hR(l), xi
= l(x)
= D(x)(l), (26.7)
provando que S−1 ◦ R−1 = D.

Assim, como S−1 ◦ R−1 é bijetora, D também o é, mostrando que D(H) = (H† )† .
E. 26.8 Exercı́cio. Você entendeu mesmo todas as passagens de (26.7)? 6
• Dualidade e reflexividade nos espaços ℓp de seqüências
Os espaços de seqüências p-somáveis ℓp foram definidos na Seção 17.4.1, página 964, onde provamos
ser válida a desigualdade de Hölder:
∞ ∞
!1/p ∞
!1/q
X X X
p q
|ai ||bi | ≤ |ai | |bi | ≤ kakp kbkq , (26.8)
i=1 i=1 i=1
1 1
para todos a ∈ ℓp e b ∈ ℓq com p
+ q
= 1 e 1 < p < ∞, 1 < q < ∞. Vide (17.24) ou (17.28).
Aqui demonstraremos a seguinte afirmação:
Proposição 26.4 Para todo 1 < p < ∞ existe uma correspondência bi-unı́voca e isométrica entre
(ℓp )† , o dual topológico de ℓp , e o espaço ℓq com p1 + 1q = 1. Isso implica que os espaços de Banach ℓp
†
com 1 < p < ∞ são reflexivos, ou seja, vale ℓp = (ℓp )† para todo 1 < p < ∞. 2
1 1
Prova. Sejam daqui por diante 1 < p < ∞ e 1 < q < ∞ relacionados por p
+ q
= 1. Para a ∈ ℓp e
b ∈ ℓq , a expressão
∞
X
lb (a) = bk ak (26.9)
k=1
define um funcional linear contı́nuo em ℓp pois, pela desigualdade de Hölder (26.8) vale |lb (a)| ≤
kbkq kakp , provando que lb é limitado com klb k ≤ kbkq . Vamos agora provar que a todo elemento de
(ℓp )† corresponde um elemento de ℓq .
Seja ej , j ∈ N, a seqüência cujo j-ésimo elemento vale 1, os demais sendo nulos: (ej )i = δij . É claro
que para todo j vale ej ∈ ℓp para todo p e é claro também que para todo a ∈ ℓp vale
n
X
a = lim ak ek ,
n→∞
k=1
Pn
sendo que a convergência de k=1 ak ek para n → ∞ se dá na topologia de ℓp . Assim, se l é um
funcional linear contı́nuo para ℓp , vale
n
! n
X X
l(a) = l lim ak ek = lim lk ak ,
n→∞ n→∞
k=1 k=1
onde lk := l(ek ).
Desejamos agora provar que a seqüência lk , k ∈ N, é um elemento de ℓq . Para isso tomemos a ∈ ℓp

da forma 



 0, se lk = 0 ,



ak = lk |lk |q−2 , se lk 6= 0 e 1 ≤ k ≤ N ,






 0, se k > N ,
onde N ∈ N. É claro que essa seqüência pertence a ℓp , pois apenas um número finito de seus elementos
é não-nulo. Para tal a vale
n
X N
X N
X
l(a) = lim lk ak = lk ak = |lk |q .
n→∞
k=1 k=1 k=1
Como, por hipótese, l é um funcional linear limitado, vale |l(a)| ≤ klk kakp para todo a ∈ ℓp . Para o a
escolhido acima, tem-se
" N # 1p " N # p1 " N # p1
X X X
kakp = |ak |p = |lk |p(q−1) = |lk |q .
k=1 k=1 k=1
Provamos, portanto, que

" N # p1
XN X

|lk |q = |l(a)| ≤ klk kakp = klk |lk |q .

k=1 k=1
Isso implica
" N # 1q
X
|lk |q ≤ klk .
k=1
Como o lado direito independe de N, essa desigualdade é preservada no limite N → ∞, estabelecendo

que a seqüência lk é um elemento de ℓq , com norma menor ou igual a klk.
As diversas considerações acima estabeleceram que todo funcional linear contı́nuo l ∈ (ℓp )† é da
forma (26.9) para algum b ∈ ℓq com kbkq = klk e que, portanto, existe uma correspondência bijetora e
†
isométrica entre (ℓp )† e ℓq . Segue facilmente disso que ℓp = (ℓp )† para todo 1 < p < ∞.
26.1.3 O Teorema de Hahn-Banach e Algumas Conseqüências do Mesmo

A existência de funcionais lineares em espaços vetoriais satisfazendo certas propriedades e de extensões
dos mesmos é um assunto recorrente na Análise Funcional. Um papel de central importância no estudo
desse tipo de questão é o Teorema de Hahn5 -Banach6 , ao qual dedicamos a presente seção. Antes de
5
Hans Hahn (1879-1934).
6
enunciarmos esse teorema (em suas várias formas), lembremos algumas noções referentes a funcionais
definidos em espaços vetoriais reais.
• Funcionais sub-aditivos, sub-lineares e convexos
Seja V um espaço vetorial real. Um funcional real h : V → R é dito ser
1. positivo-homogêneo se h(λx) = λh(x) para todo x ∈ V e todo λ ≥ 0,
2. aditivo se h(x + y) = h(x) + h(y) para todos x, y ∈ V .
3. sub-aditivo se h(x + y) ≤ h(x) + h(y) para todos x, y ∈ V ,
4. sup-aditivo se h(x + y) ≥ h(x) + h(y) para todos x, y ∈ V ,
5. sub-linear se for positivo-homogêneo e sub-aditivo,
6. sup-linear se for positivo-homogêneo e sup-aditivo,
7. linear se h(αx + βy) = αh(x) + βh(y) para todos x, y ∈ V e todos α, β ∈ R,
8. convexo se h(αx + (1 − α)y) ≤ αh(x) + (1 − α)h(y) para todos x, y ∈ V e todo α ∈ [0, 1],
9. côncavo se h(αx + (1 − α)y) ≥ αh(x) + (1 − α)h(y) para todos x, y ∈ V e todo α ∈ [0, 1].
sub-aditiv.
Se h : V → R é sub-linear, então é convexo, pois se α ∈ [0, 1], vale h(αx + (1 − α)y) ≤
homogen. pos.
h(αx) + h((1 − α)y) = αh(x) + (1 − α)h(y). Analogamente, se h é sup-linear, então é côncavo.
A recı́proca não é necessariamente verdadeira. Por exemplo, h : R → R dada por h(x) = x2 é convexo,
mas não é sub-aditivo, nem positivo-homogêneo.
O Teorema de Hahn-Banach, que apresentaremos a seguir, aplica-se a funcionais convexos e, por-
tanto, abrange também os funcionais sub-lineares. Desde seu surgimento entre 1927 e 1929 esse teorema
revelou-se rico em conseqüências fundamentais, algumas das quais discutiremos no contexto de espaços
normados e de Banach. Como veremos, o Teorema de Hahn-Banach garante condições suficientes
para a existência de extensões de funcionais lineares e tem uma versão para espaços vetoriais reais e
uma generalização para espaços vetoriais complexos. Essa segunda data de 1938 e é devida a H. F.
Bohnenblust e A. Sobczyk.
• Existência de extensões majoradas por funcionais convexos
O seguinte lema, que desempenhará um papel decisivo na demonstração do Teorema de Hahn-

Banach, ensina-nos que todo funcional linear definido em um sub-espaço de um espaço vetorial real
e que é majorado por um funcional convexo globalmente definido, possui pelo menos uma extensão
global que também é um funcional linear e também é majorado pelo mesmo funcional convexo.
Lema 26.1 Seja V um espaço vetorial real e seja f1 : V1 → R um funcional linear definido em V1 , um
sub-espaço próprio de V . Suponha que exista um funcional convexo p : V → R tal que f1 (y) ≤ p(y)
para todo y ∈ V1 . Então, para cada z 6∈ V1 , não-nulo, existe um funcional linear f2 : V2 → R, definido
no sub-espaço V2 , gerado por V1 e por z, tal que f2 é uma extensão de f1 (ou seja, f2 (y) = f1 (y) para
todo y ∈ V1 ) e satisfaz f2 (w) ≤ p(w) para todo w ∈ V2 . 2
Prova do Lema 26.1. Vamos tomar um vetor não-nulo z 6∈ V1 , doravante fixo, e denotar por V2 o
sub-espaço gerado pelos vetores de V1 e z. Definamos f2 : V2 → R por
f2 (αz + y) := αF + f1 (y) (26.10)
para todo α ∈ R e todo y ∈ V1 , onde F é uma constante arbitrária a ser especificada mais abaixo.
Notemos que devido à linearidade de f1
(26.10)
f2 ((αz + y) + (α′ z + y ′)) = f2 ((α + α′ )z + (y + y ′)) = (α + α′ )F + f1 (y + y ′)
= (αF + f1 (y)) + (α′ F + f1 (y ′)) = f2 ((αz + y)) + f2 ((α′ z + y ′)) ,
o que mostra que f2 é linear. É também claro (tomando α = 0) que f2 (y) = f1 (y) para y ∈ V1 , o que
significa que f2 estende f1 a V2 . Sobre a constante F notemos, tomando y = 0, que F = f2 (z), ou seja,
fixar F fixa f2 em z.
Fixaremos F impondo a condição que f2 (w) ≤ p(w) para todo w ∈ V2 . Assim, para todo α ∈ R e
todo y ∈ V1 desejamos que
αF + f1 (y) ≤ p(αz + y) . (26.11)
Para α = 0 a relação f1 (y) ≤ p(y) seria satisfeita por hipótese. Para α > 0 e y ∈ V1 arbitrários, (26.11)
implicaria
1 1
F ≤ p(αz + y) − f1 (y)
α α
7
e para α < 0 e y ∈ V1 arbitrários ,
1 1
F ≥ p(αz + y) − f1 (y) .
α α
Reciprocamente, se ambas essas condições são satisfeitas, valerá também (26.11) para todo α ∈ R e
todo y ∈ V1 .
É claro que existirá um F satisfazendo ambas as condições se e somente se valer
1 1 1 1
p(−λz + y) − f1 (y) ≤ ′ p(λ′ z + y ′) − ′ f1 (y ′) (26.12)
−λ −λ λ λ
7
A desigualdade se inverte devido ao sinal de α.
para todos λ, λ′ > 0 e todos y, y ′ ∈ V1 . Mas essa desigualdade é verdadeira, pois

1 1 ′ λ + λ′ λ′ λ ′
f1 (y) + ′ f1 (y ) = f1 y+ y
λ λ λλ′ λ + λ′ λ + λ′

λ + λ′ λ′ λ ′ ′
= f1 (y − λz) + (y + λ z)
λλ′ λ + λ′ λ + λ′

hipótese λ + λ′ λ′ λ ′ ′
≤ p (y − λz) + (y + λ z)
λλ′ λ + λ′ λ + λ′

convexidade λ + λ′ λ′ λ ′ ′
≤ p(y − λz) + p(y + λ z)
λλ′ λ + λ′ λ + λ′
1 1
= p(y − λz) + ′ p(y ′ + λ′ z) ,
λ λ
o que implica (26.12). Assim, F pode ser escolhido de modo que

1 1 1 ′ ′ 1 ′
sup p(−λz + y) + f1 (y) ≤ F ≤ ′ inf′ p(λ z + y ) − ′ f1 (y ) , (26.13)
λ>0, y∈V1 −λ λ λ >0, y ∈V1 λ′ λ
e (26.11) valerá, ou seja, teremos f2 (w) ≤ p(w) para todo w ∈ V2 .
Note o leitor que (26.13) não-necessariamente implica em uma escolha única para F , mas isso
não importa, pois o Lema 26.1 não fala em unicidade, nem a mesma é esperada sob as hipóteses
consideradas.
O Lema 26.1 tem a seguinte interpretação geométrica em R3 . Seja uma linha reta f1 em R3 .
Suponha que exista um volume convexo e não-compacto r em R3 , delimitado por uma superfı́cie
bidimensional p, e que não intercepte a reta f1 . Então existe um (não-necessariamente único) plano f2
que contém f1 e que também não intercepta a superfı́cie p em R3 .
E. 26.9 Exercı́cio. Justifique as afirmações do último parágrafo com base no Lema 26.1 e/ou procure
convencer-se de sua veracidade com um pouco de ginástica geométrica mental. Convença-se que o plano
f2 nem sempre é unicamente determinado. 6
• O Teorema de Hahn-Banach para espaços vetoriais reais
O que fizemos com o Lema 26.1 foi estender f1 a um funcional linear f2 definido em um sub-espaço
V2 que adiciona a V1 uma dimensão extra gerada por um vetor z 6∈ V1 e de modo a preservar a majoração
pelo funcional convexo p. Vamos agora mostrar como esse fato implica a existência de um funcional
linear definido em todo V , estendendo f1 e também majorado por p. Esse é o conteúdo do célebre
Teorema de Hahn-Banach.
O Teorema de Hahn-Banach ensina uma condição suficiente para que um funcional linear definido
em um sub-espaço tenha uma extensão ao espaço todo. A condição é a existência de um funcional
convexo que o majore. Na prática da Análise Funcional é muito importante conhecer condições sob
as quais a existência de extensões globais de funcionais lineares possa ser garantida, daı́ a importância
de teoremas de extensão, como o de Hahn-Banach. Como veremos, o mesmo conduz a resultados
não-triviais, por exemplo na teoria de espaços de Banach.
Teorema 26.3 (Teorema de Hahn-Banach para espaços vetoriais reais) Seja V um espaço ve-
torial real e seja f1 : V1 → R um funcional linear definido em um sub-espaço V1 de V . Suponha que
exista um funcional convexo p : V → R tal que f1 (y) ≤ p(y) para todo y ∈ V1 . Então, existe um
funcional linear f : V → R que é uma extensão de f1 (ou seja, f (y) = f1 (y) para todo y ∈ V1 ) e
satisfaz f (x) ≤ p(x) para todo x ∈ V . 2
Prova do Teorema 26.3. Se V1 = V não há o que demonstrar, pois podemos tomar f = f1 . Consideremos,
então, que V1 é um sub-espaço próprio de V .
Seja F1 a coleção de todos os funcionais lineares ℓ definidos em sub-espaços de V e que sejam
extensões de f1 e satisfaçam ℓ(w) ≤ p(w) para todo w pertencente a seu sub-espaço de definição. É
claro que f1 ∈ F1 e, além disso, o Lema 26.1 ensina-nos que se V1 é um sub-espaço próprio de V , então
F1 contém elementos outros que não o próprio f1 .
Consideremos em F1 a relação de ordem ℓ2 ℓ1 se ℓ2 for uma extensão de ℓ1 . Seja {ℓα , α ∈ Λ}
um conjunto linearmente ordenado (pela relação de ordem acima) de elementos de F1 e denotemos Vα
[V onde cada ℓα está definido. É claro que Vα ⊃ Vβ se ℓα ℓβ , já que ℓα estende ℓβ .
o sub-espaço de
Assim, W := Vα será um sub-espaço de V e podemos definir em W um funcional ℓW da seguinte
α∈Λ
forma: ℓW (x) = ℓα (x) se x ∈ Vα . É elementar constatar que ℓW é linear e é evidente pela construção
que ℓW ℓα para todo α ∈ Λ. Resumindo, provamos que todo um conjunto linearmente ordenado de
elementos de F1 possui um majorante.
Pelo Lema de Zorn (página 37), isso implica que F1 possui um elemento maximal f , definido em
algum sub-espaço V ′ de V . Mas, em verdade, V ′ tem que ser igual a V , pois se assim não fosse
poderı́amos, como afirma o Lema 26.1, tomar um z 6∈ V ′ não-nulo e construir uma extensão linear de
f que seria também majorada por p, ou seja, seria um elemento de F1 , contrariando o fato de f ser
maximal.
Assim, f é um funcional linear definido em todo V que estende f1 e é majorado por p, pois f é um
elemento de F1 . Isso completa a demonstração.
Vamos agora apresentar a generalização do Teorema de Hahn-Banach para espaços vetoriais com-
plexos.
• O Teorema de Hahn-Banach para espaços vetoriais complexos
Teorema 26.4 (Teorema de Hahn-Banach para espaços vetoriais complexos) Seja V um es-
paço vetorial complexo e seja f1 : V1 → C um funcional linear definido em um sub-espaço V1 de V .
Suponha que exista um funcional real p : V → R satisfazendo p(αx + βy) ≤ |α|p(x) + |β|p(y) para todos
x, y ∈ V e todos α, β ∈ C tais que |α| + |β| = 1 e de forma que |f1 (y)| ≤ p(y) para todo y ∈ V1 . Então,
existe um funcional linear complexo f : V → C que é uma extensão de f1 (ou seja, f (y) = f1 (y) para
todo y ∈ V1 ) e satisfaz |f (x)| ≤ p(x) para todo x ∈ V . 2
Prova. A prova faz uso do Teorema 26.3, como esperado. Começamos separando f1 em suas partes
real e imaginária. Definamos g1 (y) := Re (f1 (y)), y ∈ V1 . Teremos g1 (iy) = Re (f1 (iy)) = Re (if1 (y)) =
−Im (f1 (y)), de modo que podemos escrever
f1 (y) = g1 (y) − ig1 (iy) . (26.14)
Observemos que para λ, λ′ reais e y, y ′ ∈ V1 arbitrários, tem-se g1 (λy + λ′ y ′ ) = Re (f1 ((λy + λ′ y ′)) =
Re (λf1 (y)+λ′f1 (y ′)) = λRe (f1 (y))+λ′ Re (f1 (y ′ )), provando que g1 : V1 → R é um funcional real linear.
Fora isso, g1 (y) := Re (f1 (y)) ≤ |Re (f1 (y))| ≤ |f1 (y)| ≤ p(y). Estamos, portanto, sob as hipóteses do
Teorema 26.3 e podemos afirmar que existe um funcional linear real g : V → R que estende g1 e satisfaz
g(x) ≤ p(x) (26.15)
para todo x ∈ V . Isto posto, definamos, inspirados em (26.14),
f (x) := g(x) − ig(ix) .
Como g é real, é evidente que

Re f (x) = g(x) e Im f (x) = −g(ix) . (26.16)
Vamos provar três fatos sobre f : 1) f é uma extensão de f1 ; 2) f é um funcional linear complexo;
3) |f (x)| ≤ p(x) para todo x ∈ V .
(26.14)
1) Para y ∈ V1 tem-se f (y) = g(y) − ig(iy) = g1 (y) − ig1 (iy) = f1 (y), provando que f estende f1 .
2) Para provar que f é linear, provemos os seguintes passos:
a. f é aditivo, ou seja, f (x + x′ ) = f (x) + f (x′ ) para todos x, x′ ∈ V . De fato, g é linear

real e, portanto, aditivo, ou seja, g(x + x′ ) = g(x) + g(x′ ) para todos x, x′ ∈ V . Assim,
f (x + x′ ) = g(x + x′ ) − ig(i(x + x′ )) = g(x) + g(x′ ) − ig(ix) − ig(ix′ ) = f (x) + f (x′ ),
estabelecendo que f é também aditivo.
b. f (λx) = λf (x) para todo λ ∈ R e todo x ∈ V . De fato, se λ ∈ R, vale f (λx) = g(λx) −
ig(iλx) = λg(x) − λig(ix) = λf (x), devido a g ser linear real.
c. f (ix) = if (x) para todo x ∈ V . De fato, g é linear real e, portanto, g(−x) = −g(x). Assim,
f (ix) = g(ix) − ig(−x) = g(ix) + ig(x) = i(g(x) − ig(ix)) = if (x).
d. Para todo ζ ∈ C e todo x ∈ V vale f (ζx) = ζf (x). De fato, se λ, λ′ ∈ R, f ((λ + iλ′ )x) =
aditividade passo b passo c
f (λx + iλ′ x) = f (λx) + f (iλ′ x) = λf (x) + λ′ f (ix) = λf (x) + λ′ if (x) = (λ +
iλ′ )f (x).
e. f é linear complexa. De fato, para ζ, ζ ′ ∈ C e x, x′ ∈ V temos, juntando os fatos provados
aditividade passo d
nas linhas anteriores, f (ζx + ζ ′ x′ ) = f (ζx) + f (ζ ′x′ ) = ζf (x) + ζ ′f (x′ ).
3) Uma vez estabelecido que f é um funcional linear complexo em V , resta-nos demonstrar que
|f (x)| ≤ p(x) para todo x ∈ V .
Observemos primeiramente que do fato de p(αx + βy) ≤ |α|p(x) + |β|p(y) para todos x, y ∈ V e
todos α, β ∈ C tais que |α| + |β| = 1, segue, que p(αx) = p(x) para todo α satisfazendo |α| = 1
e todo x ∈ V . De fato, tomando β = 0, tem-se que da desigualdade acima que p(αx) ≤ p(x)
para todo x ∈ V e todo α ∈ C com |α| = 1. Definindo y = αx e notando que |α−1 | = 1, segue
igualmente que p(x) = p(α−1 y) ≤ p(y) = p(αx), provando que p(αx) = p(x).
Escrevendo f (x) ∈ C na forma polar f (x) = |f (x)|eiθ , com |eiθ | = 1, tem-se

linearidade
|f (x)| = Re |f (x)| = Re e−iθ f (x) = Re f (e−iθ x)
(26.16) (26.15)
= g(e−iθ x) ≤ p(e−iθ x) = p(x) .
Isso completa a demonstração do Teorema 26.4.
Talvez as conseqüências mais importantes do Teorema de Hahn-Banach dão-se no contexto de

espaços vetoriais normados, como espaços de Banach, nosso próximo assunto.
• Conseqüências do Teorema de Hahn-Banach para espaços vetoriais normados
A primeira conseqüência do Teorema 26.4 é que se V é um espaço vetorial normado, então todo
funcional linear definido em um sub-espaço de V e que seja contı́nuo em relação à norma de V pode
ser estendido isometricamente como funcional linear para todo V .
Teorema 26.5 (Teorema de Hahn-Banach para espaços vetoriais normados) Seja V um es-
paço vetorial complexo dotado de uma norma k · k. Seja f1 : V1 → C um funcional linear definido
em um sub-espaço V1 de V e suponhamos que f1 seja limitado em V1 , ou seja, |f1 (y)| ≤ kf1 k kyk para
|f1 (y)|
todo y ∈ V1 , onde kf1 k := sup . Então, existe um funcional linear complexo f : V → C que é
y∈V1 kyk
y6=0
uma extensão de f1 (ou seja, f (y) = f1 (y) para todo y ∈ V1 ) e que é igualmente limitado, satisfazendo
kf k = kf1 k. 2
Prova. Se V é um espaço vetorial complexo dotado de uma norma k · k, então para todos α, β ∈ C e
todos x, y ∈ V vale kαx + βyk ≤ |α| kxk + |β| kyk. Assim, p(x) = kf1 kkxk satisfaz as hipóteses do
Teorema 26.4 e, pela definição de p, vale |f1 (y)| ≤ p(y) para todo y ∈ V1 . Pelo Teorema 26.4, existe
|f (x)|
um funcional linear f que estende f1 e satisfaz |f (x)| ≤ kf1 kkxk. Assim, kf k = sup ≤ kf1 k.
x∈V kxk
x6=0
|f (x)| |f (y)| |f1 (y)|

Porém, como f estende f1 , vale kf k = sup ≥ sup = sup = kf1 k, o que prova que
x∈V kxk y∈V1 kyk y∈V1 kyk
x6=0 y6=0 y6=0
kf k = kf1 k.
Do Teorema 26.5 obtemos o seguinte resultado, que por sua vez possui um corolário de grande
importância.
Proposição 26.5 Seja V um espaço vetorial complexo dotado de uma norma k · k. Então para cada
x0 ∈ V existe um funcional linear limitado e não-nulo ℓx0 satisfazendo kℓx0 k = 1 e tal que ℓx0 (x0 ) =
kx0 k. 2
Prova. Se x0 = 0, tomamos ℓx0 igual a qualquer funcional limitado com norma 1 e as afirmações da
proposição seguem.
Seja x0 ∈ V não-nulo fixo e seja V1 = {αx0 , α ∈ C}, um sub-espaço linear de V . Defina-se em
V1 o funcional linear f1 (αx0 ) := αkx0 k. Pelo Teorema 26.5 existe um funcional linear ℓx0 definido
em todo V e que estende f1 , satisfazendo kℓx0 k = kf1 k. Como ℓx0 estende f1 e x0 ∈ V1 , tem-se
ℓx0 (x0 ) = f1 (x0 ) = kx0 k. Note-se, porém, que
|f1 (y)| |f1 (αx0 )| |αkx0 k|

kf1 k = sup = sup = sup = 1.
y∈V1 kyk α∈C kαx0 k α∈C kαx0 k
y6=0 α6=0 α6=0
Assim, kℓx0 k = 1.
Essa proposição será usada quando estudarmos o adjunto de operadores atuando entre espaços de
Banach, página 1286 e seguintes. Vide Proposição 26.11, página 1287. Uma das suas conseqüências
mais importantes, porém, é o seguinte corolário, o qual terá implicações em desenvolvimentos que se
seguirão no presente capı́tulo, especialmente quando estudarmos propriedades do operador resolvente
e do espectro de operadores.
Corolário 26.1 Seja V um espaço vetorial complexo dotado de uma norma k · k e denotemos por V †
o conjunto de todos os funcionais lineares limitados agindo em V . Se x ∈ V é tal que ℓ(x) = 0 para
todo ℓ ∈ V † , então x = 0. 2
Prova. Se ℓ(x) = 0 para todo ℓ ∈ V † , então, em particular, ℓx (x) = 0, onde ℓx é o funcional cuja
existência é garantida pela Proposição 26.5. Porém, ℓx (x) = kxk, o que prova que x = 0.
26.1.4 O Teorema de Banach-Steinhaus ou Princı́pio de Limitação Uni-

forme
O seguinte teorema, devido a Banach8 e Steinhaus9 e apresentado em 192710 é um dos teoremas
centrais da teoria de operadores em espaços de Banach. O mesmo é por vezes referido como princı́pio
de limitação uniforme, e é uma conseqüência gentil do Teorema da Categoria de Baire, Teorema 24.12,
página 1220.
Teorema 26.6 (Teorema de Banach-Steinhaus ou Princı́pio de Limitação Uniforme) Seja A
um espaço de Banach e seja V um espaço vetorial normado. Seja S um conjunto (não-vazio) de ope-
radores lineares limitados de A em V. Suponha que para cada x ∈ A exista Mx > 0, finito, tal que
kSxkV ≤ Mx para todo S ∈ S. Então existe M ≥ 0, finito, tal que kSk ≤ M para todo S ∈ S. 2
8
9
Hugo Dyonizy Steinhaus (1887-1972).
10
S. Banach and H. Steinhaus. Sur le principe de la condensation des singularités. Fund. Math. 9, 50-61 (1927).
Prova. Pela hipótese, tem-se para cada x ∈ A que o conjunto de números reais não-negativos
{kSxkV, S ∈ S} é um subconjunto do intervalo [0, Mx ]. Como cada Mx é finito, cada um dos
intervalos [0, Mx ], está contido em algum intervalo [0, n] com n ∈ N, n ≥ 1. É evidente, portanto,
∞
[
que A = An , onde
n=1
n o

An := x ∈ A kSxkV ≤ n para todo S ∈ S ,
pois cada x ∈ A está contido em pelo menos um An . Assim, pelo Teorema da Categoria de Baire
0
(Teorema 24.12, página 1220), existe m ∈ N tal que Am tem interior não-vazio: Am 6= ∅.
Agora, é fácil ver que cada An é um conjunto fechado em A. De fato, pela definição, vale
\n o

An := x ∈ A kSxkV ≤ n . (26.17)
S∈S
Agora, para S ∈ S, n o

x ∈ A kSxkV ≤ n = FS−1 ([0, n]) ,
onde FS : A → R é dada por FS (x) = kSxkV. Todavia, FS é contı́nua por ser a composição das funções
contı́nuas S e k · kV. Logo, como [0, n] é fechado em R, o conjunto FS−1 ([0, n]) é fechado em A e, por
(26.17), An é fechado, por ser intersecção de fechados.
Concluı́mos disso que Am tem interior não-vazio: A0m 6= ∅.
Seja x0 ∈ A0m . Como A0m é aberto, existe ǫ > 0 tal que todo x ∈ A com kx − x0 kA < ǫ é um
elemento de A0m . Dessa forma, se x′ ∈ A for tal que kx′ kA < ǫ, tem-se k(x′ + x0 ) − x0 kA = kx′ kA < ǫ,
o que implica que x′ + x0 é um elemento de A0m e, portanto, de Am . Como x0 e x′ + x0 são elementos
de Am , valem
kSx0 kV ≤ m e kS(x′ + x0 )kV ≤ m (26.18)
para todo S ∈ S. Assim, para S ∈ S e para cada x′ ∈ A com kx′ kA < ǫ, tem-se
(26.18)
kSx′ kV = kS(x′ + x0 ) − Sx0 kV ≤ kS(x′ + x0 )kV + kSx0 kV ≤ 2m ,
ǫ
Portanto, para x ∈ A não-nulo, podemos tomar x′ = 2kxk x e teremos kx′ kA = 2ǫ < ǫ, de onde segue
A
ǫ
que S 2kxk A
x ≤ 2m, ou seja
V
4m
kSxkV ≤ kxkA ,
ǫ
desigualdade essa que também vale para x = 0. Assim, provamos que kSk ≤ M com M := 4m ǫ
, que
não depende de S ∈ S. Isso demonstra o teorema.
26.1.5 O Teorema da Aplicação Aberta e o Teorema do Gráfico Fechado
• A Soma Direta de Dois Espaços de Banach

Sejam V e W dois espaços vetoriais normados, cujas normas são denotadas por k · kV e k · kW,
respectivamente. O produto Cartesiano V × W pode ser feito um espaço vetorial com as operações de
soma e multiplicação por escalares (números complexos), expressa em
α(x, y) + β(x′ , y ′) = (αx + βx′ , αy + βy ′)
onde x, x′ ∈ V, y, y ′ ∈ W e α, β ∈ C são arbitrários.

É possı́vel introduzir em V × W uma norma e, portanto, uma topologia, usando para tal as normas
k · kV e k · kW. Uma possı́vel escolha é
k(x, y)kV×W = kxkV + kykW,
(x, y) ∈ V × W.
E. 26.10 Exercı́cio. Verifique que essa expressão define de fato uma norma em V × W. 6
E. 26.11 Exercı́cio. Uma outra possı́vel escolha de norma em V × W seria a seguinte. Sejam A > 0 e
B > 0 fixos. Defina para todo (x, y) ∈ V × W
k(x, y)kA, B
V×W = AkxkV + BkykW.
Mostre que k · kA, B

V×W é uma norma em V × W. Mostre que
min(A, B)k(x, y)kV×W ≤ k(x, y)kA, B

V×W ≤ max(A, B)k(x, y)kV×W,
e, portanto, k · kA, B
V×W e k · kV×W são normas equivalentes no sentido da definição de equivalência de normas
da página 129. Note que duas normas equivalentes geram as mesmas topologias (por que?). 6
O conjunto V × W é assim um espaço vetorial normado. Um fato relevante é que se V e W forem

espaços de Banach V × W também o será.
Para ver isso, consideremos uma seqüência (xn , yn ), n ∈ N, em V × W que seja uma seqüência de
Cauchy na norma k · kV×W. Isso significa que para todo ǫ > 0 existe N(ǫ) tal que se m, n ≥ N(ǫ) então
k(xm , ym ) − (xn , yn )kV×W = k(xm − xn , ym − yn )kV×W ≤ ǫ.
Mas isso significa que

kxm − xn kV + kym − yn kV ≤ ǫ,
o que implica que temos
kxm − xn kV ≤ ǫ
e
kym − yn kW ≤ ǫ,
ou seja, xn e yn , n ∈ N, são duas seqüências de Cauchy em seus respectivos espaços. Como V e W são
espaços de Banach, ambas as seqüências convergem a x ∈ V e y ∈ W, respectivamente. Agora é trivial
ver que, por isso, (xn , yn ) converge a (x, y) em V × W, pois
k(xn , yn ) − (x, y)kV×W = kxn − xkV + kyn − ykW

que por hipótese vai a zero quando n → ∞. Isso mostra que V × W é também um espaço de Banach.
Esse espaço de Banach obtido pelo produto Cartesiano de dois espaços de Banach V e W é deno-
minado soma direta (topológica) de V e W e é freqüentemente denotado por V ⊕ W.
Freqüentemente usaremos V ⊕ W para nos referirmos a V × W visto como espaço topológico com a
topologia gerada pela norma k · kV×W.
• O Gráfico de um Operador
Sejam V e W dois espaços vetoriais e T : V → W um operador linear. O gráfico de T , denominado

por Γ(T ) é o subconjunto de V × W definido por
Γ(T ) = {(x, T x), x ∈ Dom (T )}.
Nota 1. Essa definição é, na verdade, redundante. Se lembrarmos a definição de função à página
24 (e estamos adotando a definição de operador como sendo uma função naquele sentido), vemos que
o conceito de gráfico de um operador coincide com o próprio conceito de operador, ou seja, como
sendo uma certa sub-coleção de V × W. Assim, pelas nossas definições, Γ(T ) = T !. No entanto é
muito comum entender-se num sentido intuitivo que um operador representa uma transformação entre
d
espaços. Informalmente entendemos, por exemplo, que o operador de derivação T = dx “transforma”
uma função em sua derivada. Ainda que essa conceituação não possa ser feita precisa, essa é a noção
que mais comummente se tem de operador, daı́ introduzirmos essa “nova” definição. Note-se também
que essa definição corresponde precisamente à noção de gráfico de uma função de R em R, tão familiar
dos cursos de cálculo.
Nota 2. Para evitar confusões futuras, notamos aos leitores que na nossa definição de gráfico acima
seguimos a convenção que V seja o domı́nio de definição de T , Dom (T ) = V, e não Dom (T ) ⊂ V.
Se T é um operador linear agindo entre dois espaços de Banach V e W, o conjunto Γ(T ) é um sub-
conjunto do espaço topológico V⊕W e, como tal, é legı́timo perguntarmos por propriedades topológicas
de Γ(T ), tais como, se Γ(T ) é um conjunto fechado (ou aberto), sobre propriedades dos fecho Γ(T ) de
Γ(T ) etc. Como veremos, tais perguntas são de grande importância e operadores podem mesmo ser
classificados de acordo com as respostas que se dá às mesmas. Um importante resultado nesse sentido
é o chamado Teorema do Gráfico Fechado, que demonstraremos nas próximas páginas.
• O Teorema da Aplicação Aberta
Sejam X e Y dois espaços vetoriais e seja T : X → Y . Se C ⊂ X denotaremos aqui por T (C) a

imagem de C por T , ou seja, T (C) = {y ∈ Y | y = T (x) para algum x ∈ X}.
Neste tópico demonstraremos outro importante teorema sobre operadores contı́nuos entre espaços
de Banach, o chamado Teorema da Aplicação Aberta. Esse teorema faz uso de um teorema sobre
espaços métricos completos, conhecido como Teorema da Categoria de Baire, tratado à página 1220.
Como bem sabemos, funções contı́nuas entre espaços topológicos tem (por definição) a propriedade
que as imagens inversas de conjuntos abertos são também abertos. O que o Teorema da Aplicação
Aberta nos diz é que, para operadores lineares contı́nuos e sobrejetores agindo entre espaços de Banach,
vale também a recı́proca: a imagens de abertos são também abertos. Como é de se esperar esse fato
também nos diz algo sobre a inversa desses operadores, a saber, na forma do Teorema da Aplicação
Inversa, tratado à página 1277.
A conseqüência talvez mais importante do Teorema da Aplicação Aberta é o Teorema do Gráfico
Fechado, que discutiremos à página 1277, que nos mostra (pela primeira vez) a existência de uma
relação ı́ntima entre propriedades de um operador e propriedades topológicas de seu gráfico.
Passemos ao enunciado e demonstração do Teorema da Aplicação Aberta.
Teorema 26.7 (Teorema da Aplicação Aberta) Sejam X e Y dois espaços de Banach e seja T :
X → Y um operador linear contı́nuo e sobrejetor. Então, se A ⊂ X é um aberto, T (A) é um aberto
em Y . 2
Prova. Comecemos fixando notações. Por B X (r, x) denotamos a bola aberta em X centrada em x ∈ X
de raio r > 0. Analogamente por B Y (r, y) denotamos a bola aberta em Y centrada em y ∈ Y de
raio r > 0. Adotaremos também as notações simplificadoras: B X (r) = B X (r, 0) e B Y (r) = B Y (r, 0).
Fora isso, se C é um subconjunto de X e λ > 0, denotamos por λC o conjunto λC = {x′ ∈ X| x′ =
λx para algum x ∈ C}. O mesmo se C for um subconjunto de Y .
Isto posto, vamos à demonstração.
Em primeiro lugar, é claro que X pode ser escrito como a união contável de todas as bolas de raio
1, 2, 3 . . .:
[∞
X = B X (n).
n=1
Como T é, por hipótese, sobrejetora, temos que

∞
[
Y = T (B X (n)).
n=1
Pelo Teorema da Categoria de Baire (página 1220) isso implica a existência de pelo menos um m tal
0
que T (B X (m)) 6= ∅, ou seja, T (B X (m)) tem interior não-vazio.
É claro que, para todo r > 0 e n ∈ N valem

r
T (B X (r)) = T (B X (n))
n
e
r
T (B X (r)) = T (B X (n)).
n
Portanto, concluı́mos que todos conjuntos T (B X (r)) para todos r > 0 têm interior não-vazio.
Com isso em mãos, vamos enunciar e demonstrar o seguinte lema:
0
Lema 26.2 O conjunto aberto T (B X (1)) contém o vetor nulo entre seus elementos. 2
Prova do Lema 26.2. Como já sabemos, T (B X (1)) possui um interior não-vazio. Afirmamos que
0 0
X X
0 ∈ T (B (1)) . Para mostrar isso, tomemos y ∈ T (B (1)) . Como y é um elemento do fecho de
0 0
T (B X (1)) (pois T (B X (1)) ⊂ T (B X (1))), e como T (B X (1)) é um aberto que contém y, segue
0
que T (B X (1)) ∩ T (B X (1)) 6= ∅, pela Proposição 19.6, página 1051.
0
Seja então z ∈ T (B X (1)) ∩ T (B X (1)). Então z = T x para algum x ∈ X com kxkX < 1 e, como
0
X
T (B (1)) é aberto, existe pela definição de conjunto aberto em espaços métricos um r > 0 tal que
0
Y X
B (r, z) ⊂ T (B (1)) , ou seja,
0
Y
B (r) + T x ⊂ T (B X (1)) . (26.19)
Se escolhermos R grande o suficiente (por exemplo R > 1 + kxkX ) teremos que B X (1) ⊂ B X (R, x)
(por que?). Isso implica T (B X (1)) ⊂ T (B X (R, x)). Logo, T (B X (1)) ⊂ T (B X (R, x)) e, portanto,
0 0
T (B X (1)) ⊂ T (B X (R, x)) .
Logo, retornando à (26.19), temos que
0 0
B Y (r) + T x ⊂ T (B X (R, x)) = T (B X (R)) + T x,
ou seja, 0
B Y (r) ⊂ T (B X (R)) .
Isso, porém, diz que 0
B Y (r/R) ⊂ T (B X (1)) ,
0
provando que 0 ∈ T (B X (1)) , completando a prova do lema.
Vamos mostrar na próxima proposição uma condição que, uma vez demonstrada, implica o Teorema
da Aplicação Aberta.
Proposição 26.6 Se provarmos que T (B X (1)) ⊂ T (B X (2)) então o Teorema da Aplicação Aberta
estará demonstrado. 2
0
Prova da Proposição 26.6. Pelo lema acima, o aberto T (B X (1)) contém o vetor nulo. Então (pela
definição de conjunto aberto em espaço métrico, vide página 956), existe uma bola aberta de raio s > 0
0
(suficientemente pequeno) e centrada em 0 que está inteiramente contida em T (B X (1)) e, portanto,
em T (B X (1)):
B Y (s) ⊂ T (B X (1)).
Se tivermos provado que T (B X (1)) ⊂ T (B X (2)), como a proposição sugere, então concluirı́amos que
B Y (s) ⊂ T (B X (2)),
ou seja, que T (B X (2)) tem interior não-vazio. Como T (B X (r)) = (r/2)T (B X (2)), segue também que
B Y (rs/2) ⊂ T (B X (r)),
mostrando que T (B X (r)) tem também interior não-vazio para qualquer r > 0.
Isso mostra que T (B X (r, x)) = T (B X (r)) + T x também tem interior não-nulo para todo r > 0 e
todo x ∈ X.
Seja então A ⊂ X um aberto em X e T (A) sua imagem por T em Y . Seja um ponto genérico
y ∈ T (A) e seja x ∈ A tal que y = T x. Como A é aberto, existe r suficientemente pequeno tal que
B X (r, x) ⊂ A. Logo T (B X (r, x)) ⊂ T (A) e T (B X (r, x)) ∋ y. Mas, pelo dito acima, T (B X (r, x)) =
T (B X (r)) + y e T (B X (r)) contêm a bola B Y (rs/2). Assim, y + B Y (rs/2) ⊂ T (A). Como y é um
elemento genérico de T (A) isso mostra que para cada y ∈ T (A) existe r ′ > 0 (a saber r ′ = rs/2) tal
que a bola B Y (r ′ , y) está inteiramente contida em T (A). Ora, isso é a afirmativa que T (A) é aberto,
completando assim a demonstração da proposição.
Essa proposição nos ensina que, para completarmos a demonstração do Teorema da Aplicação
Aberta resta-nos apenas mostrar que T (B X (1)) ⊂ T (B X (2)), que é o que faremos agora.
Mostrar que T (B X (1)) ⊂ T (B X (2)) significa mostrar que para cada y ∈ T (B X (1)) existe um x ∈ X
com kxkX < 2 tal que y = T x. O que faremos então é fixar um tal y e construir um x ∈ X com as
propriedades requeridas.
Pela caracterização de fecho de um conjunto dada na Proposição 19.6, página 1051, se
y ∈ T (B X (1)) (26.20)
então para todo número r > 0, B Y (r, y) ∩ T (B X (1)) 6= ∅. Isso diz que existe x1 com kx1 kX < 1 tal que
ky − T x1 kY < r. Essa última afirmativa significa que y − T x1 ∈ B Y (r). Como r é arbitrário, podemos
escolhe-lo suficientemente pequeno de modo a termos
B Y (r) ⊂ T (B X (1/2)). (26.21)
Isso é sempre possı́vel pois vimos acima que todo conjunto T (B X (a)) tem interior não-vazio para todo
a > 0. Como, porém, T (B X (1/2)) ⊂ T (B X (1/2)), concluı́mos que, pela nossa escolha,
y − T x1 ∈ T (B X (1/2)). (26.22)
Comparando-se (26.22) a (26.20) vemos que podemos repetir o argumento e, para o mesmo r de
(26.21), B Y (r/2, y − T x1 ) ∩ T (B X (1/2)) 6= ∅. Isso diz que existe x2 com kx2 kX < 1/2 e tal que
k(y − T x1 ) − T x2 kY = ky − T (x1 + x2 )kY < r/2, ou seja, y − T (x1 + x2 ) ⊂ B Y (r/2). Por (26.21),
B Y (r/2) ⊂ T (B X (1/4)). Como, porém, T (B X (1/4)) ⊂ T (B X (1/4)), concluı́mos que, pela nossa
escolha,
y − T (x1 + x2 ) ∈ T (B X (1/4)). (26.23)
Prosseguindo indutivamente concluı́mos que existem x1 , . . . , xn ∈ X tais que kxi kX < 1/2i−1 e
r
ky − T (x1 + · · · + xn )kY < . (26.24)
2n+1
É um exercı́cio simples mostrar que, pela propriedade kxi kX < 1/2i−1 , a seqüência x1 + · · · + xn é
uma seqüência de Cauchy. Como supomos que X é completo, isso diz que existe x ∈ X tal que
x = lim (x1 + · · · + xn ).
n→∞
Fora isso, pela continuidade da norma, pela continuidade de T e pela propriedade (26.24), segue que

0 = lim ky − T (x1 + · · · + xn )kY = y − lim T (x1 + · · · + xn )
n→∞ n→∞ Y

= y − T ( lim (x1 + · · · + xn )) = ky − T xkY ,
n→∞ Y
provando que y = T x. Agora, pela continuidade da norma,

1 1
kxkX = lim (x1 + · · · + xn ) = lim kx1 + · · · + xn kX ≤ lim 1 + + · · · + n−1 = 2
n→∞ X n→∞ n→∞ 2 2
Mostrando que x ∈ B X (2) e que y ∈ T (B X (2)). Isso completa a demonstração do Teorema da Aplicação
Aberta.
• O Teorema da Aplicação Inversa
Se T : X → Y é uma função bijetora entre dois conjuntos, existe uma função inversa T −1 : Y → X.
Se X e Y são espaços vetoriais e T é linear, é fácil ver que T −1 é também linear (Exercı́cio.). O Teorema
da Aplicação Aberta tem um corolário que garante que também a propriedade de continuidade pode
ser estendida a T −1 , caso T seja contı́nua e X e Y dois espaços de Banach.
Teorema 26.8 (Teorema da Aplicação Inversa) Sejam X e Y dois espaços de Banach e T : X →
Y um operador linear que seja contı́nuo e bijetor. Então sua inversa T −1 : Y → X é também contı́nua.
2
Prova. Se T é bijetora é, em particular, sobrejetora e portanto vale o Teorema Aplicação Aberta. Pela
definição de função contı́nua, tudo que devemos fazer é mostrar que conjuntos abertos na imagem de
T −1 (que vem a ser X) são a imagem por T −1 de conjuntos abertos do domı́nio de T −1 (que vem a ser
Y ). Mas é precisamente isso que nos diz o Teorema Aplicação Aberta, pois (T −1 )−1 = T .
• O Teorema do Gráfico Fechado
Chagamos agora a um teorema importante pois mostra que propriedades de um operador se mani-
festam em propriedades topológicas de seu gráfico.
Teorema 26.9 (Teorema do Gráfico Fechado) Sejam X e Y dois espaços de Banach e T : X → Y

um operador linear. Então T é contı́nuo se e somente se seu gráfico Γ(T ) for fechado como subconjunto
do espaço topológico X ⊕ Y . 2
Prova. 1. Vamos supor que T seja contı́nuo e mostrar que seu gráfico é fechado.
Seja (xn , T xn ), n ∈ N, uma seqüência de elementos de Γ(T ) e que seja convergente em X ⊕ Y .
Queremos mostrar que essa seqüência converge a um elemento (x, y) ∈ X ⊕ Y que também é elemento
de Γ(T ). Para isso devemos provar que y = T x. Se (xn , T xn ) → (x, y) então x = lim xn em X e
n→∞
y = lim T xn . Porém, como T é, por hipótese, contı́nuo, vale y = lim T xn = T lim xn = T x, que
n→∞ n→∞ n→∞
é o que querı́amos provar.
2. Vamos agora, reciprocamente, supor que Γ(T ) é fechado e mostrar que T é contı́nuo.
Γ(T ) é sempre um sub-espaço de X ⊕ Y , pois
α(x, T x) + β(y, T y) = (αx + βy, αT x + βT y) = (αx + βy, T (αx + βy)) ∈ Γ(T ).
O fato de Γ(T ) ser fechado significa, porém, que Γ(T ) é um espaço de Banach pois, pela Proposição
19.9, página 1054, todo subconjunto fechado de um espaço métrico completo é também completo.
Sejam então as funções S1 : Γ(T ) → X e S2 : Γ(T ) → Y definidas por
S1 ((x, T x)) = x.
e
S2 ((x, T x)) = T x.
É um exercı́cio banal mostrar que S1 e S2 são lineares (faça). Fora isso, ambas são limitadas (e,
portanto, contı́nuas), pois
kS1 (x, T x)kX = kxkX ≤ kxkX + kT xkY = k(x, T x)kX⊕Y
e
kS2 (x, T x)kX = kT xkY ≤ kxkX + kT xkY = k(x, T x)kX⊕Y ,
Mostrando que kS1 k ≤ 1 e kS2 k ≤ 1.
Fora isso vale também que S1 é bijetora. De fato é evidente que ImS1 = X (por quê?) e, fora isso,
S1 (x, T x) = S1 (y, T y) significa x = y e, portanto (x, T x) = (y, T y), o que mostra que S1 é um-a-um.
Se S1 é uma bijeção então tem uma inversa (S1 )−1 : X → Γ(T ) que é tal que
(S1 )−1 x = (x, T x).
Note-se assim que

S2 (S1 )−1 x = S2 (x, T x) = T x,
ou seja, T = S2 ◦ (S1 )−1 .
Mostramos acima que S1 é uma função linear, contı́nua e bijetora entre dois espaços de Banach.
Ora, essas são as hipóteses do Teorema da Aplicação Inversa que, assim, nos afirma que (S1 )−1 é
contı́nua. S2 é também contı́nua e, portanto, T = S2 ◦ (S1 )−1 é também contı́nua por ser a composição
de duas funções contı́nuas, completando a prova.
• O Teorema de Hellinger-Toeplitz
O Teorema do Gráfico Fechado tem por corolário um teorema do qual uma importante lição pode
ser extraı́da.
11
Teorema 26.10 (Teorema de Hellinger-Toeplitz) Seja H um espaço de Hilbert e seja A um
operador linear tal que Dom (A) = H e tal que
hx, Ayi = hAx, yi (26.25)
para todos x, y ∈ H. Então A é limitado. 2
Prova. A prova é feita mostrando que Γ(A) é fechado e evocando o Teorema do Gráfico Fechado.
Suponha que (xn , Axn ) converge a (x, y) em H ⊕ H. Queremos mostrar que y = Ax. Seja z um
vetor qualquer de H. Evocando sucessivas vezes a continuidade do produto escalar e a hipótese (26.25),
temos
D E
hz, yi = z, lim Axn = lim hz, Axn i = lim hAz, xn i
n→∞ n→∞ n→∞
D E
= Az, lim xn = hAz, xi = hz, Axi .
n→∞
Assim, para todo z ∈ H vale hz, (y − Ax)i = 0, o que só é possı́vel se y = Ax.
A lição que extraı́mos desse teorema é que se A não é um operador contı́nuo, uma relação como
(26.25) não pode ser satisfeita para todos x, y ∈ H. Isso nos força a termos cautela quando definirmos
o conceitos como o de operador auto-adjunto para operadores não-limitados.
26.2 Operadores Limitados em Espaços de Hilbert
• Considerações gerais sobre operadores em espaços de Hilbert
Vamos agora particularizar nossa discussão para o contexto de espaços de Hilbert. Seja H um
espaço de Hilbert. Um operador linear A agindo em H é uma função linear definida em um domı́nio
Dom (A) que é um sub-espaço de H. Freqüentemente denotaremos esse domı́nio por D(A) ou ainda
11
Ernst David Hellinger (1883-1950). Otto Toeplitz (1881-1940).
por DA . A imagem de A, Im(A), será freqüentemente denotada por R(A) ou por RA , a letra “R” sendo
proveniente da palavra inglesa “range”.
Na teoria de operadores em espaços de Hilbert é absolutamente fundamental lembrar que cada
operador é definido em um domı́nio especı́fico, pois propriedades do mesmo podem mudar se o domı́nio
for alterado.
d
Considere-se o exemplo do espaço de Hilbert L2 ([0, 1], dx), e os operadores A1 = i dx , definido no
d
domı́nio D(A1 ) das funções contı́nuas e continuamente diferenciáveis do intervalo [0, 1] e A2 = i dx ,
definido no domı́nio D(A2 ) das funções contı́nuas e continuamente diferenciáveis do intervalo [0, 1] que
se anulam em x = 0 e em x = 1. O operador A2 é simétrico no seu domı́nio, ou seja, para todos φ, ψ
no seu domı́nio vale hφ, A2 ψi = hA2 φ, ψi, mas o operador A1 não tem essa propriedade.
E. 26.12 Exercı́cio. Verifique as afirmativas feitas no último parágrafo usando para tal integração por
partes. 6
No caso de operadores limitados (contı́nuos), a situação se simplifica muito pois, como iremos
argumentar, um operador limitado sempre pode ser definido em todo o espaço de Hilbert.
De fato, seja A um operador linear limitado definido em um sub-espaço D(A) de um espaço de
Hilbert H. Se D(A) for fechado, podemos estender A ao complemento ortogonal D(A)⊥ , definindo-
o como zero em D(A)⊥ . Mais precisamente fazemos o seguinte: pelo Teorema da Decomposição
Ortogonal, Teorema 25.2, página 1229, todo x ∈ H pode ser escrito como x = y + z com y ∈ D(A) e
z ∈ D(A)⊥ . Definimos então A′′ , extensão de A, com domı́nio igual a todo H por
A′′ x = A′′ (y + z) = Ay.
É fácil verificar que kA′′ k = kAk.

Caso D(A) não seja fechado, definimos uma extensão A′ de A a seu fecho D(A) da seguinte forma.
Seja y ∈ D(A) e yn , n ∈ N, uma seqüência em D(A) que converge a y. Definimos
A′ y = lim Ayn .
n→∞
E. 26.13 Exercı́cio. Usando a continuidade mostre que o limite do lado direito sempre existe e que não
depende da particular seqüência yn em D(A) que converge a y. 6
E. 26.14 Exercı́cio. Mostre que kA′ k = kAk. 6
Como o domı́nio de A′ é fechado, podemos proceder como antes e estender A′ a todo H.

Daqui por diante sempre consideraremos que operadores limitados têm por domı́nio todo o espaço
de Hilbert em que agem. Para operadores não-contı́nuos isso não pode ser feito e questões relativas ao
domı́nio de definição têm sempre um caracter essencial.
26.2.1 O Adjunto de um Operador em um Espaço de Hilbert

Seja A um operador linear limitado definido em um espaço de Hilbert H. Seja y um vetor de H e
ly : H → C o funcional linear em H dado por
ly (x) = hy, Axi.
Pela desigualdade de Cauchy-Schwarz
|ly (x)| ≤ kyk kAxk ≤ kyk kAk kxk
o que mostra que ly é um funcional linear limitado. Aplica-se então o Teorema da Representação de
Riesz (página 1246) e podemos dizer que existe um vetor z ∈ H tal que
ly (x) = hy, Axi = hz, xi.
O vetor z deve depender de y. Definimos uma nova função A∗ : H → H, denominada adjunto de A,

como sendo a função que associa y a z: A∗ (y) = z, de modo que podemos escrever
hy, Axi = hA∗ (y), xi
para todos x, y ∈ H. Note-se que, pela própria construção, o domı́nio de definição de A∗ é todo H,
pois y é arbitrário. Esse fato não é verdadeiro para o caso em que A não é limitado. Vamos no que
segue demonstrar uma série de propriedades de A∗ , a mais básica sendo a linearidade. As propriedades
que desejamos provar estão listadas na forma do seguinte teorema:
Teorema 26.11 O operador adjunto A∗ de um operador limitado A agindo em um espaço de Hilbert
H é também um operador linear, limitado e satisfaz
1. (A∗ )∗ = A
2. kA∗ k = kAk
3. kA∗ Ak = kAk2 , (propriedade C∗ ) .
4. Se A e B são operadores limitados agindo em H e α, β ∈ C, vale
(αA + βB)∗ = αA∗ + βB ∗ ,
ou seja, ∗ é anti-linear.
5. Se A e B são operadores limitados agindo em H, então (AB)∗ = B ∗ A∗ .
6. O operador identidade satisfaz 1∗ = 1.
7. Se A tem uma inversa contı́nua, então A∗ também o tem e (A−1 )∗ = (A∗ )−1 .
2
Prova. Linearidade. Para todo α, β ∈ C e todos y, y ′ ∈ H, temos pela definição
hA∗ (αy + βy ′), xi = hαy + βy ′, Axi
= αhy, Axi + βhy ′, Axi
= αhA∗ (y), xi + βhA∗ (y ′), xi
= hαA∗ (y) + βA∗ (y ′), xi, (26.26)
ou seja,
h [A∗ (αy + βy ′) − (αA∗ (y) + βA∗ (y ′ ))] , xi = 0,
para todo x ∈ H. Isso só é possı́vel se A∗ (αy + βy ′ ) − (αA∗ (y) + βA∗ (y ′)) = 0, provando a linearidade.
Continuidade.
Para todo x ∈ H tem-se
kA∗ xk2 = hA∗ x, A∗ xi = hx, AA∗ xi ≤ kxk kAA∗ xk ≤ kxk kAk kA∗ xk.
Para x tal que A∗ x 6= 0, essa desigualdade diz (cancelando um fator kA∗ xk de cada lado) que
kA∗ xk ≤ kAk kxk.
Esta última desigualdade é, porém trivialmente verdadeira caso A∗ x = 0. Portanto, a mesma vale para
todo x, mostrando que A∗ é limitada e, assim, contı́nua. A mesma desigualdade mostra que
kA∗ xk
kA∗ k = sup ≤ kAk,
x6=0 kxk
o que mostra que

kA∗ k ≤ kAk. (26.27)
Prova de (A∗ )∗ = A.
Para todo x, y ∈ H tem-se
h(A∗ )∗ x, yi = hx, A∗ yi = hA∗ y, xi = hy, Axi = hAx, yi.
Assim,
h[A − (A∗ )∗ ]x, yi = 0
para todo x, y ∈ H, o que só é possı́vel se (A∗ )∗ = A, como querı́amos provar.
Prova de kA∗ k = kAk.
A relação (26.27) provou que para todo A limitado vale kA∗ k ≤ kAk. Como A∗ é também limitado,
vale também (substituindo A → A∗ ) que k(A∗ )∗ k ≤ kA∗ k, que significa que kAk ≤ kA∗ k. Isso, junto
com (26.27) implica kA∗ k = kAk, como querı́amos.
Prova de kA∗ Ak = kAk2 .
Para todo x ∈ H vale
kA∗ Axk ≤ kA∗ k kAxk ≤ kA∗ k kAk kxk = kAk2 kxk.
Assim,
kA∗ Axk
kA∗ Ak = sup ≤ kAk2 . (26.28)
x6=0 kxk
Por outro lado, para todo x ∈ H,
kAxk2 = hAx, Axi = hA∗ Ax, xi ≤ kA∗ Axk kxk ≤ kA∗ Ak kxk2 .
Assim, 2
kAxk kAxk2
2
kAk = sup = sup 2
≤ kA∗ Ak,
x6=0 kxk x6=0 kxk
provando que kAk2 ≤ kA∗ Ak. Com (26.28) isso mostra que kA∗ Ak = kAk2 , como querı́amos.
A prova que (αA + βB)∗ = αA∗ + βB ∗ , assim como a prova que (AB)∗ = B ∗ A∗ são deixadas como
exercı́cio.
Que 1∗ = 1 é elementar. Se A tem uma inversa contı́nua, então
1 = 1∗ = (A−1 A)∗ = A∗ (A−1 )∗
e
1 = 1∗ = (AA−1 )∗ = (A−1 )∗ A∗ ,
mostrando que (A−1 )∗ = (A∗ )−1 .
A existência do operador adjunto A∗ de um operador limitado A foi obtida acima com uso do
Teorema da Representação de Riesz e nesse caso obtemos um operador igualmente limitado e definido
em todo H. No caso em que A não é contı́nuo o argumento a ser seguido é um pouco diferente e só
pode fornecer o adjunto em um domı́nio menor que H. Há mesmo casos em que o domı́nio de A∗ é
formado apenas pelo vetor nulo!
Outro advertência importante diz respeito à propriedade (A∗ )∗ = A, demonstrada acima para
operadores limitados. A mesma não é também, em geral, satisfeita para operadores não-limitados.
Esse fato é mais uma causa de transtorno técnico na teoria dos operadores não-limitados.
Por fim, mencionamos que a propriedade kAk2 = kA∗ Ak abre caminho para a importante teoria
das chamadas álgebras C∗ , sobre as quais falaremos adiante.
• Operadores Auto-adjuntos, Operadores Unitários e Operadores Normais
Um operador limitado A que satisfaça A = A∗ é dito ser auto-adjunto.

Se A é um operador limitado auto-adjunto vale
hx, Ayi = hAx, yi

para todos x, y ∈ H. Se A não é limitado, vimos pelo Teorema de Hellinger-Toeplitz (página 1279)
que uma relação dessas não pode ser satisfeita para todos x, y ∈ H. Em função disso será necessário
criar uma distinção entre operadores simétricos e operadores auto-adjuntos no contexto de operadores
não-limitados. Essa distinção é importante e há vários fenômenos fı́sicos associados a ela.
Qualquer operador limitado pode ser escrito como soma de dois operadores auto-adjuntos, a saber
A = Re(A) + iIm(A),
onde
1 1
Re(A) = (A + A∗ ) e Im(A) = (A − A∗ ).
2 2i
É trivial verificar que Re(A) e Im(A) são auto-adjuntos.
Um operador limitado A que satisfaça AA∗ = A∗ A é dito ser normal. É trivial verificar que um
operador A é normal se e somente se Re(A) e Im(A) comutarem entre si.
Um operador limitado A que satisfaça AA∗ = A∗ A = 1 é dito ser unitário. Todo operador unitário
é normal.
É possı́vel mostrar que qualquer operador limitado pode ser escrito como soma de até quatro
operadores unitários.
• Autovalores e autovetores de operadores limitados. Multiplicidade de um autovalor
Um número λ ∈ C é dito ser um autovalor de um operador limitado B agindo em um espaço de

Hilbert H se existir pelo menos um vetor não-nulo φ ∈ H tal que Bφ = λφ. Um tal vetor é dito ser
um autovetor de B com autovalor λ.
Em espaços de Hilbert dimensão finita, como Cn , todo operador, ou seja, toda matriz, possui
autovalores, pois o conjunto de autovalores coincide com o conjunto de raı́zes do polinômio caracterı́stico
da matriz. Esses fatos foram estudados com detalhe no Capı́tulo 3, página 154, ao qual remetemos os
estudantes interessados. É importante notar, porém, que em espaços de Hilbert de dimensão infinita
pode ocorrer de haver operadores limitados que não possuem autovalores, um exemplo, dentre muitos,
sendo o operador de Volterra W , tratado no Exemplo 26.6 à página 1351.
Um fato elementar sobre essas noções é o seguinte: se φ1 e φ2 são dois autovalores de operador
limitado B com o mesmo autovalor λ, então para quaisquer α1 , α2 ∈ C o vetor α1 φ1 +α2 φ2 é igualmente
autovetor de B com autovalor λ. De fato, B(α1 φ1 + α2 φ2 ) = α1 Bφ1 + α2 Bφ2 = λ(α1 φ1 + α2 φ2 ). Assim,
reconhecemos que a coleção de todos os autovetores de B com autovalor λ gera um sub-espaço, que
denotaremos por Mλ , do espaço de Hilbert H em questão. Mais que isso, Mλ é um sub-espaço fechado
de H. Isso pode ser provado com a observação que se φn , n ∈ N, é uma seqüência
de vetores de Mλ que
converge a φ ∈ H, então a continuidade de B diz-nos que Bφ = B lim φn = lim Bφn = λ lim φn =
n→∞ n→∞ n→∞
λφ, provando que φ ∈ Mλ . Para futura referência reunimos essas observações na seguinte proposição:
Proposição 26.7 Se B é um operador limitado agindo em um espaço de Hilbert H, e λ ∈ C é um
autovalor de B, então a coleção de todos os autovetores de B com autovalor λ é um sub-espaço linear
fechado de H. 2
Se Mλ , o sub-espaço gerado pelos autovetores de B com autovalor λ, tiver dimensão finita, dizemos
que λ tem degenerescência finita. Nesse caso, define-se a multiplicidade (geométrica) de λ como sendo
a dimensão de Mλ .
• Autovalores e autovetores de operadores auto-adjuntos
Se A é um operador limitado e auto-adjunto agindo em espaços de Hilbert H (de dimensão finita

ou não) podem ser estabelecidas certas propriedades básicas sobre seus autovalores e autovetores (caso
existam), os quais estão resumidos na próxima proposição.
Proposição 26.8 Se A é um operador limitado e auto-adjunto agindo em um espaço de Hilbert H,
então seus autovalores (se existirem) são números reais. Fora isso, os autovetores associados a auto-
valores distintos de A são ortogonais entre si. 2
Prova. Se λ é um autovalor de A e v 6= 0 um autovetor de A com autovalor λ então, como A é

auto-adjunto, tem-se hv, AviH = hAv, viH. Como v é um autovetor, o lado esquerdo vale λhv, viH
e o lado direito vale λhv, viH. Dessa forma, (λ − λ)hv, viH = 0. Como v 6= 0 isso implica λ = λ,
ou seja, λ é real. Sejam agora λ1 e λ2 dois autovalores de A, que suporemos distintos. Seja v1
autovetor de A com autovalor λ1 e v2 autovetor de A com autovalor λ2 . Temos, por A ser auto-
adjunto, hv1 , Av2 iH = hAv1 , v2 iH. O lado esquerdo vale λ2 hv1 , v2 iH e o lado direito λ1 hv1 , v2 iH
(lembrar que λ1 é real). Assim, (λ2 − λ1 )hv1 , v2 iH = 0. Como λ2 6= λ1 , segue que hv1 , v2 iH = 0, que é
o que se queria provar.
• Autovalores e autovetores de operadores unitários
Para operadores unitários valem afirmações análogas.

Proposição 26.9 Se U é um operador unitário agindo em um espaço de Hilbert H, então seus au-
tovalores (se existirem) são números complexos de módulo 1. Fora isso, os autovetores associados a
autovalores distintos de U são ortogonais entre si. 2
Prova. Seja U unitário, λ um autovalor de U e v 6= 0 um autovetor de U com autovalor λ. Como

U é unitário tem-se hUv, UviH = hv, U ∗ UviH = hv, viH. Como v é um autovetor, o lado esquerdo
vale λλhv, viH. Assim, (|λ|2 − 1)hv, viH = 0. Como v 6= 0 isso implica |λ| = 1. Sejam agora λ1 e λ2
dois autovalores distintos de U e sejam v1 autovetor de U com autovalor λ1 e v2 autovetor de U com
autovalor λ2 . Temos, por U ser unitário, hUv1 , Uv2 iH = hv1 , U ∗ Uv2 iH = hv1 , v2 iH. O lado esquerdo
vale λ1 λ2 hv1 , v2 iH = λλ21 (lembre-se que λ1 é um número complexo de módulo 1 e, portanto λ1 = λ−1
1 ).

Assim, λλ12 − 1 hv1 , v2 iH = 0. Como λ2 6= λ1 , segue que hv1 , v2 iH = 0, que é o que se queria provar.
• Sub-espaços invariantes
Seja H um espaço de Hilbert e seja M um sub-espaço de H. Se A e um operador limitado agindo

em H, dizemos que M é invariante pela ação de A se Aφ ∈ M para todo φ ∈ M. Com essa definição
vale a seguinte proposição importante.

Proposição 26.10 Se um sub-espaço M é invariante pela ação de um operador A ∈ B(H), então M⊥
é invariante pela ação de A∗ . 2
Prova. Se φ e ψ são dois vetores arbitrários tais que φ ∈ M e ψ ∈ M⊥ então hA∗ ψ, φi = hψ, Aφi = 0,
pois Aφ ∈ M, por hipótese. Logo, A∗ ψ é ortogonal a todo vetor φ ∈ M, o que equivale a dizer que
A∗ ψ ∈ M⊥ . Como ψ é um vetor arbitrário de M⊥ , segue que M⊥ é invariante por A∗ .
O seguinte corolário evidente será repetidamente empregado.

Corolário 26.2 Se um sub-espaço M de um espaço de Hilbert H é invariante pela ação de um operador
auto-adjunto A ∈ B(H), então M⊥ é igualmente invariante pela ação de A. 2
• Projetores e Projetores Ortogonais
Um operador linear P agindo em um espaço de Hilbert H é dito ser um projetor se P 2 = P e é dito

ser um projetor ortogonal se for um projetor e se for auto-adjunto: P = P ∗ .
Um exemplo importante de projetor ortogonal é representado por projetores sobre sub-espaços uni-
dimensionais gerados por vetores. Seja v um vetor cuja norma assumiremos ser 1, ou seja, kvk =
p
hv, vi = 1. Definimos o projetor Pv sobre o sub-espaço gerado por v por
Pv u := hv, ui v,
para todo vetor u ∈ H. Que Pv é um projetor ortogonal foi demonstrado no caso de espaços vetoriais
de dimensão finita à página 200 e seguintes e como a demonstração geral é idêntica (e elementar), não
iremos repetı́-la aqui. Um fato crucial sobre projetores como Pv é o seguinte. Se u e v são dois vetores
ortogonais, ou seja, se hu, vi = 0 então Pu Pv = Pv Pu = 0. Novamente a prova (elementar) encontra-se
à página 200 e seguintes.
A definição do projetor ortogonal Pv , acima, pode ser generalizada. Seja M um sub-espaço fechado
de um espaço de Hilbert H. Pelo Teorema da Decomposição Ortogonal, Teorema 25.2, página 1229,
todo vetor ψ ∈ H pode ser escrito na forma ψ = ψM + ψM⊥ , com ψM ∈ M e ψM⊥ ∈ M⊥ . Definimos,
então, o projetor PM sobre sub-espaço fechado M por PMψ := ψM. É elementar provar que PM, assim
definido, satisfaz (PM)2 = PM e (PM)∗ = PM, ou seja, é um projetor ortogonal. É também fácil provar
que todo projetor ortogonal em um espaço de Hilbert H é da forma PM para algum sub-espaço fechado
M de H. Para ver isso, basta provar que a imagem de qualquer projetor ortogonal é um sub-espaço
fechado de H.
E. 26.15 Exercı́cio. Demonstre as afirmações do último parágrafo. 6
• O Adjunto em Espaços de Banach
Faremos aqui uma breve menção ao fato que o conceito de adjunto de operadores possui uma
generalização para operadores contı́nuos agindo em espaços de Banach, em geral.
Seja X um espaço de Banach e X † = B(X, C) seu dual topológico que, como já observamos na
|l(x)|
seção 26.1.2, é um espaço de Banach com norma klkX † = sup , l ∈ X †.
x∈X, x6=0 kxk X
Sejam X e Y espaços de Banach e T : X → Y um operador limitado agindo entre X e Y . Definimos

seu dual T ′ como sendo o operador T ′ : Y † → X † definido da seguinte forma: para l ∈ Y † , T l′ é o
funcional linear contı́nuo definido de tal forma que a cada x ∈ X associa o número complexo l(T x):
(T ′ l)(x) = l(T x).
Que T ′ é limitado segue da desigualdade |(T ′ l)(x)| = |l(T x)| ≤ klkY † kT xkY ≤ klkY † kT kkxkX , que
implica
|(T ′ l)(x)|
kT ′ lkX † = sup ≤ kT k klkY † .
x∈X, x6=0 kxkX
Em particular, isso diz-nos que
kT ′ lkX †
kT ′ k = sup ≤ kT k . (26.29)
l∈Y † , l6=0 klkY †
A linearidade de T ′ é também fácil de constatar, pois, para quaisquer l, l′ ∈ Y † , α, β ∈ C,

(T ′ (αl +βl′ ))(x) = (αl +βl′ )(T x) = αl(T x)+βl′ (T x) = α(T ′ l)(x)+β(T ′ l′ )(x) = (αT ′ l +βT ′ l′ )(x),
mostrando que T ′ (αl + βl′ ) = αT ′ l + βT ′ l′ .
O assim definido operador linear limitado T ′ ∈ B(Y † , X † ) é denominado adjunto de T .
Com uso do Teorema de Hahn-Banach é possı́vel mostrar que kT ′ k = kT k. De fato, pela Proposição
26.5, página 1269, sabemos que existe para cada x0 ∈ X um lT x0 ∈ Y † com klT x0 kY † = 1 e tal que
lT x0 (T x0 ) = kT x0 kY . Assim,
kT ′ lT x0 kX † |(T ′ lT x0 )(x)| |(T ′ lT x0 )(x0 )| |lT x0 (T x0 )| kT x0 kY
= kT ′lT x0 kX † = sup ≥ = = ,
klT x0 kY † x∈X, x6=0 kxkX kx0 kX kx0 kX kx0 kX
(26.30)
Isso implica que
kT ′ lkX † kT ′ lT x0 kX † (26.30) kT x0 kY
kT ′ k = sup ≥ ≥
l∈Y † , l6=0 klkY † klT x0 kY † kx0 kX
para cada x0 ∈ X. Logo,
kT x0 kY
kT ′ k ≥ sup =: kT k .
x0 ∈X, x0 6=0 kx0 kX
Junto com (26.29), isso implica kT ′ k = kT k.

Para futura referência coletamos os fatos provados acima na seguinte proposição:
Proposição 26.11 Sejam X e Y dois espaços de Banach e T : X → Y um operador linear e limitado:
T ∈ B(X, Y ). Então, T ′ : Y † → X † , o chamado adjunto de T , definido por
(T ′ l)(x) = l(T x)
para l ∈ Y † e x ∈ X, é igualmente um operador linear e limitado, ou seja, T ′ ∈ B(Y † , X † ) e satisfaz
kT ′ k = kT k. 2
No caso em que X = Y = H, onde H é um Hilbert, há uma distinção sutil entre T ′ e T ∗ . O primeiro
é uma aplicação de H† em H† enquanto que o segundo é uma aplicação de H em H. A relação entre
ambos é estabelecida pela aplicação R : H† → H, definida em (26.5), página 1260. Tem-se, a saber,
T ′ = R−1 T ∗ R.
A aplicação T → T ′ é sempre linear enquanto que, no caso de espaços de Hilbert, a aplicação

T → T ∗ é anti-linear. Isso está de acordo com T ′ = R−1 T ∗ R, pois R−1 é também anti-linear.
• A Norma de Operadores Auto-Adjuntos Limitados
Há um fato especial sobre a norma de operadores auto-adjuntos limitados agindo em um espaço de
Hilbert do qual faremos uso repetido no que seguirá.
Teorema 26.12 Se T é um operador auto-adjunto limitado em um espaço de Hilbert H então
|hφ, T φi|
kT k = sup = sup |hφ, T φi|. (26.31)
φ∈H, φ6=0 kφk2 φ∈H, kφk=1
Prova. Se x, y ∈ H, tem-se hx, T yi = hT x, yi = hy, T xi. Logo,
h(x + y), T (x + y)i = hx, T xi + hx, T yi + hy, T xi + hy, T yi = hx, T xi + 2Re(hx, T yi) + hy, T yi,
h(x − y), T (x − y)i = hx, T xi − hx, T yi − hy, T xi + hy, T yi = hx, T xi − 2Re(hx, T yi) + hy, T yi.
Dessas duas expressões conclui-se que
4Re(hx, T yi) = h(x + y), T (x + y)i − h(x − y), T (x − y)i. (26.32)
Definindo-se
|hφ, T φi|
T = sup
φ∈H, φ6=0 kφk2
é claro que
|hφ, T φi| ≤ Tkφk2
para todo φ ∈ H. Retornando à (26.32), tem-se
4|Re(hx, T yi)| ≤ |h(x+y), T (x+y)i|+|h(x−y), T (x−y)i| ≤ T(kx+yk2 +kx−yk2 ) = 2T(kxk2 +kyk2).
Na última igualdade usamos a identidade do paralelogramo (2.28), página 132.

Substituindo y por λy, com λ ∈ C e |λ| = 1, a última desigualdade fica

1
|Re(λhx, T yi)| ≤ T(kxk2 + kyk2).
2
Podemos escolher λ de modo que λhx, T yi = |hx, T yi| (por que?). Assim, ficamos com
1
|hx, T yi| ≤ T(kxk2 + kyk2).
2
kyk
Vamos provisoriamente supor que kT yk =
6 0. Escolhendo x = T y, a última desigualdade fica
kT yk
1
kT yk kyk ≤ T(kyk2 + kyk2) = Tkyk2 ,
2
ou seja,
kT yk ≤ Tkyk.
Como essa desigualdade vale trivialmente caso kT yk = 0, a mesma deve valer para todo y ∈ H.
Claramente isso diz que
kT k ≤ T. (26.33)
Por outro lado, tem-se pela desigualdade de Cauchy-Schwarz que, para todo φ ∈ H,
|hφ, T φi| ≤ kφk kT φk ≤ kT k kφk2.
Logo,
|hφ, T φi|
T = sup ≤ kT k.
φ∈H, φ6=0 kφk2
Comparando essa desigualdade a (26.33), concluı́mos que kT k = T, que é o que querı́amos provar.
26.3 Álgebras de Banach e Álgebras C∗
26.3.1 Álgebras de Banach
• Álgebras Associativas
Uma álgebra sobre o corpo dos complexos é um espaço vetorial A sobre o corpo C dotado de uma
operação de produto binária “·” dita produto da álgebra, de modo que as seguintes propriedades são
satisfeitas
1. O produto da álgebra é distributivo em relação a soma vetorial: para todos a, b e c ∈ A valem
a · (b + c) = a · b + a · c e (a + b) · c = a · c + b · c.
2. O produto por escalares comuta com o produto da álgebra e é distributivo em relação a ele: para
todos a, b ∈ V e α ∈ C vale
α(a · b) = (αa) · b = a · (αb).
Uma álgebra A é dita ser uma álgebra comutativa se para todos a, b ∈ A tivermos
a · b = b · a.
Uma álgebra é dita ser uma álgebra associativa se para todos a, b e c ∈ A tivermos
a · (b · c) = (a · b) · c.
Se A é uma álgebra associativa, podemos sem ambigüidade denotar o produto de dois de seus
elementos a, b ∈ A simplesmente por por ab.
• Álgebras com Involução
Uma álgebra associativa sobre o corpo dos complexos A é dita ter uma involução se existir uma
operação unária ∗ : A → A, que para todo a ∈ A associa um elemento denotado por a∗ ∈ A, com as
1. (a∗ )∗ = a para todo a ∈ A.
2. (ab)∗ = b∗ a∗ para todos a, b ∈ A.
3. (αa + βb)∗ = αa∗ + βb∗ para todos α, β ∈ C e todos a, b ∈ A.
4. Se a álgebra possuir uma unidade 1∗ = 1.
Álgebras que possuem uma involução são ditas ser involutivas ou álgebras A∗ .
A operação de adjunção para operadores limitados em espaços de Hilbert é a inspiração da definição
de involução. Vamos a outros exemplos. Seja A = C(R, C) a álgebra das funções contı́nuas R → C
com o produto usual: (f g)(x) = f (x)g(x). É fácil ver que f 7→ f ∗ dada por f ∗ (x) = f (x) define uma
involução. A aplicação f 7→ f ∗ dada por f ∗ (x) = f (−x) também define uma involução.
Seja A = C(R, C) ⊕ C(R, C) com o produto (f (x), g(x)) · (l(x), m(x)) = (f (x)l(x), g(x)m(x)).
A aplicação (f, g) 7→ (f, g)∗ = (f , g) é uma involução. A aplicação (f, g) 7→ (f, g)∗ = (g, f )
é também uma involução. A aplicação (f (x), g(x)) 7→ (f (x), g(x))∗ = (g(−x), f (−x)) é igualmente
uma involução.
Seja A = B(H), a álgebra dos operadores limitados agindo em um espaço de Hilbert H e seja
d ∈ B(H) tal que d2 = 1 e d = d∗ , onde d∗ é a adjunta usual de d. Então A ∋ a 7→ a† := d∗ a∗ d define
uma involução em A.

• Álgebras de Banach
Uma álgebra de Banach B é um espaço de Banach, portanto um espaço vetorial normado e completo
em relação a essa norma, dotado de um produto associativo para o qual valha kxyk ≤ kxkkyk para
todos x, y ∈ B. Fora isso, se a álgebra possuir uma unidade 1, requeremos também que k1k = 1.
• Álgebras de Banach-∗
Uma álgebra de Banach B com involução é dita ser uma álgebra de Banach-∗, ou uma álgebra B ∗ ,
se a involução e a norma satisfizerem kak = ka∗ k para todo a ∈ B.
Note-se que se A é uma álgebra B ∗ vale ka∗ ak ≤ ka∗ k kak = kak2
• Álgebras C∗
Uma álgebra C é dita ser uma álgebra C∗ se for uma álgebra de Banach-∗ com a propriedade
adicional que ka∗ ak = kak2 para todo a ∈ C. Essa propriedade é denominada propriedade C∗ .
Exemplo. Em função do Teorema 26.11, página 1281, toda álgebra B(H) é uma álgebra C∗ com
unidade.
Exemplo. Mostraremos no Corolário 26.13, página 1344, que o conjunto dos operadores compactos
agindo em um espaço de Hilbert H é também uma álgebra C∗ , sem unidade caso H não tenha dimensão
finita.
O estudo de propriedades de álgebras C∗ é de grande importância para a compreensão da álgebra
de operadores limitados em espaços de Hilbert. Adiante teremos a oportunidade de explicitar isso.
Também na Fı́sica Quântica álgebras C∗ desempenham um papel fundamental. Vide [54] ou a discussão
que segue o Teorema Espectral.
• Continuidade de operações algébricas em álgebras de Banach
Se B é uma álgebra de Banach e wn é uma seqüência em B que converge em norma a w ∈ B,

então é elementar provar que para todo v ∈ B tem-se lim (v + wn ) = v + lim wn . Isso estabelece
n→∞ n→∞
que a soma é uma operação contı́nua em B na topologia induzida pela norma de B. É igualmente
fácil provar que a multiplicação por escalares é uma operação contı́nua em B na topologia induzida
pela norma de B. Provemos também que o produto (à esquerda ou à direita) é contı́nuo, ou seja,
que lim (vwn ) = v lim wn . Para tal, observemos que vwn = v(wn − w) + vw para todo n. Assim,
n→∞ n→∞
lim (vwn ) − vw = lim v(wn − w). Agora, kv(wn − w)k ≤ kvk kwn − wk → 0 para n → ∞. Logo,
n→∞ n→∞
lim v(wn − w) = 0 e, portanto, lim (vw) = vw = v lim wn .
n→∞ n→∞ n→∞
Se B é uma álgebra de Banach-∗, então também a involução é contı́nua na topologia induzida pela
norma de B, como é elementar de se provar, pois se wn é uma seqüência em B que converge
∗ em norma
a w ∈ B, então kwn∗ − w ∗ k = k(wn − w)∗ k = kwn − wk → 0 para n → ∞. Assim, lim wn = lim wn∗ ,
n→∞ n→∞
o que estabelece a continuidade da involução.
Para futura referência, reunimos as observações acima na seguinte proposição.
Proposição 26.12 Se B é uma álgebra de Banach com norma k·k então as operações de soma, produto
por escalares e produto (à esquerda ou à direita) são contı́nuas na topologia induzida pela norma. Se
B é uma álgebra de Banach-∗ então também a involução é contı́nua na topologia induzida pela norma.
2
O leitor não deve aborrecer-se com a aparente trivialidade das asserções acima, pois há topologias
em álgebras de Banach nas quais o produto e a involução não são contı́nuas! Para tais topologias todo
o cuidado é necessário.
26.3.2 A Inversa de Operadores Limitados

No intuito de preparar a futura discussão sobre o noção de espectro de operadores em espaços de Banach,
façamos aqui alguns comentários relativos à noção de inversa de operadores em espaços vetoriais e, em
particular, em espaços de Banach.
• Recordando alguns fatos gerais e um pouco de notação
Se V e W são espaços vetoriais e A : V → W é uma aplicação linear, definimos

Ker (A) := {v ∈ V| Av = 0} ,
Ran (A) := {w ∈ W| w = Av para algum v ∈ V} .

Ker (A) é denominado núcleo de A e Ran (A) é denominado a imagem ou alcance (= “range”) de A.
Dizemos que A possui um núcleo trivial se Ker (A) = {0}. Não custa lembrar também que se V e W são
espaços vetoriais e A : V → W é uma aplicação linear então A é injetora se e somente se Ker (A) = {0}
e A é sobrejetora se e somente se Ran (A) = W. Logo, A é bijetora se e somente se Ker (A) = {0} e
Ran (A) = W. Caso A seja bijetora denotaremos, como sempre, por A−1 : W → V a aplicação inversa
de A. É elementar mostrar que A−1 é também linear.
A seguinte proposição elementar é importante e será implicitamente empregada no que segue.
Proposição 26.13 Seja V um espaço vetorial e seja A : V → V uma aplicação linear. Então A é
bijetora se e somente se existir uma aplicação linear B : V → V tal que AB = 1 e BA = 1. Se uma
tal B existir, será única.
Prova. Se A é bijetora a aplicação inversa A−1 faz o serviço desejado. Suponhamos agora que exista
B como acima. Se A não é injetora, então existem x, y ∈ V distintos com Ax = Ay. Aplicando B à
esquerda e usando BA = 1, concluı́mos que x = y, uma contradição. Se A não é sobrejetora, existe
x ∈ V tal que Ay − x 6= 0 para todo y ∈ V. Se assim é, tomemos y = Bx. Concluirı́amos de AB = 1
que 0 6= ABx − x = x − x, um absurdo. A unicidade de B segue da observação que se B ′ : V → V
for também tal que AB ′ = 1 e B ′ A = 1, então aplicando B à esquerda na primeira relação e usando a
associatividade teremos B = B(AB ′ ) = (BA)B ′ = 1B ′ = B ′ .
Um comentário pertinente à Proposição 26.13 é o seguinte. No espaço vetorial de dimensão finita

V = Cn , a relação AB = 1 implica BA = 1 (A e B sendo aqui elementos de Mat (C, n)). Em espaços
de dimensão infinita, porém, isso não é sempre verdade e é preciso requerer tanto AB = 1 quanto
BA = 1 da inversa de A. Como exemplo, considere-se o espaço vetorial S(C) de todas as seqüências de
números complexos (vide Seção 17.4.1, página 964). Defina-se A : S(C) → S(C) e B : S(C) → S(C)
por
A(a1 , a2 , a3 , a4 , a5 , . . .) = (0, a1 , a2 , a3 , a4 , . . .) ,
B(a1 , a2 , a3 , a4 , a5 , . . .) = (a2 , a3 , a4 , a5 , a6 , . . .) .
Então,
BA(a1 , a2 , a3 , a4 , a5 , . . .) = (a1 , a2 , a3 , a4 , a5 , . . .) ,
AB(a1 , a2 , a3 , a4 , a5 , . . .) = (0, a2 , a3 , a4 , a5 , . . .) ,
provando que BA = 1 mas AB 6= 1.
• Fatos gerais sobre a inversa de operadores em B(X)
Vamos analisar as várias situações que podem ocorrem com operadores limitados agindo em um
espaço de Banach X no que concerne a sua invertibilidade ou não-invertibilidade. Naturalmente, um
operador limitado V ∈ B(X) agindo em um espaço de Banach X pode ser bijetor ou não e, se não o
for, vários sub-casos são possı́veis. Temos o seguinte quadro:
1. V é bijetor.
Se V ∈ B(X) é um operador limitado e é bijetor então, pelo Teorema da Aplicação Inversa,
Teorema 26.8, página 1277, V −1 é igualmente um elemento de B(X).
2. V não é bijetor.
Se V ∈ B(X) não é bijetor, então ou V não é injetor ou não é sobrejetor (ou ambos).
(a) V não é injetor.

Se V não é injetor, então Ker (V ), possui pelo menos um vetor não-nulo e V −1 não existe
enquanto operador agindo Ran (V ).
(b) V não é sobrejetor mas é injetor.
Se V não é sobrejetor, podem ocorrer duas coisas: ou Ran (V ) é denso em X ou não é.
i. Ran (V ) é denso em X.
Se Ran (V ) é denso em X e V é injetor, então V : X → Ran (V ) é bijetor e, portanto,
possui uma inversa V −1 : Ran (V ) → X. Essa inversa, porém, não pode ser limitada,
como mostra o seguinte argumento. Se o fosse, V −1 poderia ser estendido (pelo Teorema
BLT, Teorema 26.1, página 1254) ao fecho de Ran (V ), que é X, por hipótese. Denotemos
por W essa extensão. Como a imagem dessa extensão e a de V −1 são todo X, essa
extensão não pode ser injetora e, portanto, não é a inversa de um operador. Ocorre,
porém, que pela definição de W dada pelo Teorema BLT, vale para todo x ∈ X que
W x = limy→x
V −1 y. Assim, como V é contı́nuo,
y∈Ran(V )
V Wx = V lim
y→x
V −1 y = lim
y→x
V V −1 y = lim
y→x
y = x.
y∈Ran(V ) y∈Ran(V ) y∈Ran(V )
Além disso, como W estende V −1 , a qual é definida em Ran (V ), tem-se igualmente

W V x = V −1 V x = x para todo x ∈ X. Isso diz-nos que V é a inversa de W em todo X,
Assim, se Ran (V ) é denso em X e V é injetor então V −1 : Ran (V ) → X existe mas não
é limitada.
ii. Ran (V ) não é denso em X.
Resta ainda o caso em que Ran (V ) não é denso em X. Aqui, podemos ter V injetora
ou não. Se V não for injetora, então V possui núcleo não-trivial e V −1 não pode ser
definida em Ran (V ). Se V for injetora, então V não possui um autovetor não-nulo com
autovalor 0 e V −1 pode ser definida em Ran (V ).
(c) V não é sobrejetor nem injetor.
Aqui estamos de volta ao caso 2a e V −1 não existe em Ran (V ).
Resumindo, temos as seguintes conclusões:

Teorema 26.13 Se V ∈ B(X) é um operador limitado agindo em um espaço de Banach X, tem-se as
seguintes situações mutuamente excludentes:
1. V é bijetor e V −1 existe em todo X e é limitado.
2. V não é bijetor, e tem-se os seguintes sub-casos:
(a) V não é injetor, Ker (V ) é não-trivial e V −1 não pode ser definida em Ran (V ).
(b) V é injetor e não é sobrejetor, Ran (V ) é denso em X e Ker (V ) = {0}, sendo que V −1 :
Ran (V ) → X existe mas não é limitada.
(c) V é injetor e não é sobrejetor, Ran (V ) não é denso em X e Ker (V ) = {0}, sendo que
V −1 : Ran (V ) → X existe, podendo ser limitada ou não. 2
A proposição seguinte é também relevante e será empregada quando da discussão sobre o espectro
de operadores auto-adjuntos em espaços de Hilbert.
Proposição 26.14 Se V ∈ B(X) é um operador limitado agindo em um espaço de Banach X tal que
V −1 : Ran (V ) → X existe e é limitada, então Ran (V ) é um sub-espaço fechado de X. 2
Prova. Seja yn = V xn , n ∈ N uma seqüência em Ran (V ) que converge a y ∈ X. Temos que xn = V −1 yn .

Assim, kxn −xm k ≤ kV −1 k kyn −ym k. Como yn é uma seqüência convergente, é de Cauchy e, pela última
desigualdade, xn também o é. Seja x ∈ X o limite da seqüência xn . Temos que y−V x = y−yn +V xn −V x
para todo n ∈ N e, portanto, ky −V xk ≤ ky −yn k+kV k kxn −xk. Agora, tomando n → ∞ e lembrando
que yn → y e xn → x, concluı́mos que ky − V xk = 0, ou seja, y = V x, o que prova que y ∈ Ran (V ).
Isso demonstra que Ran (V ) é fechado.
A Proposição 26.14 diz-nos que no item 2c do Teorema 26.13, Ran (V ) será um sub-espaço fechado
próprio de X caso V −1 seja limitada.
• A inversa em álgebras de Banach
Vários resultados gerais sobre a inversa de operadores podem ser estabelecidos no contexto geral
de álgebras de Banach com unidade, para então particularizarem-se para álgebras como como B(X) ou
B(H), que são de álgebras Banach de operadores, com unidade, agindo em espaços de Banach ou de
Hilbert. Nas páginas que seguem trataremos dessa análise geral para depois estudarmos aqueles casos
particulares.
Seja doravante B uma álgebra de Banach com unidade. Um elemento w ∈ B é dito ser invertı́vel se
existir v ∈ B tal que vw = wv = 1. Se um tal v existe ele é único, como mostra o seguinte argumento
elementar: se v ′ também satisfaz 1 = v ′ w = wv ′ , então, multiplicando-se à direita por v e usando-se
a associatividade, teremos v = (v ′ w)v = v ′ (wv) = v ′ 1 = v ′ . Se v satisfaz vw = wv = 1, é dito ser a
inversa ou elemento inverso de w e é denotado por w −1 .
Se B uma álgebra de Banach com unidade e w ∈ B é invertı́vel então, w −1 w = ww −1 = 1 implica,
∗ ∗
tomando-se o adjunto, w ∗ (w −1) = (w −1 ) w ∗ = 1, o que significa que w ∗ é também invertı́vel e vale
∗
(w ∗ )−1 = w −1 . (26.34)
Pela Proposição 26.13, acima, no caso da álgebra de Banach-∗ B(X), dos operadores lineares
contı́nuos agindo em um espaço de Banach X, a noção de invertibilidade acima coincide coma usual.
Vamos designar por Inv (B) o conjunto dos elementos invertı́veis de uma álgebra de Banach com
unidade B. É bastante evidente que Inv (B) é um grupo com relação a operação de produto em B. Em
verdade, trata-se de um grupo contı́nuo como mostraremos mais adiante.
Na teoria de operadores é muito importante conhecer condições suficientes que garantam a inver-
tibilidade de operadores. No contexto de álgebras de Banach com unidade a seguinte proposição é
fundamental.
Proposição 26.15 Seja B uma álgebra de Banach com unidade. Então, para todo w ∈ B com kwk < 1
existe (1 − w)−1 , a saber, dado por
∞
X
(1 − w) −1
:= 1 + wk , (26.35)
k=1
sendo que a série ao lado direito converge na norma de B. A série em (26.35) é denominada série de
Neumann12 . 2
12
n
Prova. Provemos primeiramente que a série de Neumann converge. Se sn := 1 + Σ w k , então, para
k=1
n
k
m < n vale sn − sm = Σ w . Logo,
k=m+1
n
X n
X n−m−1
X ∞
X
k k m+1 k m+1 kwkm+1
ksn − sm k ≤ kw k ≤ kwk = kwk kwk ≤ kwk kwkk = .
k=m+1 k=m+1 k=0 k=0
1 − kwk
∞
1
A série numérica Σ kwkk converge a 1−kwk
pois kwk < 1. Por essa mesma razão, é claro que kwkm+1
k=0
pode ser feito menor que qualquer ǫ > 0 prescrito, desde que m seja grande o suficiente. Isso provou
que sn , n ∈ N é uma seqüência de Cauchy na norma de B e, portanto, converge. Seja, v ∈ B o seu
limite. Teremos
n
! n n
!
X X X
wv = w + w lim wk = w + lim w k+1 = w + lim w k + w n+1 − w
n→∞ n→∞ n→∞
k=1 k=1 k=1
n
X
= lim w n+1
+ lim wk = v − 1 ,
n→∞ n→∞
k=1
onde acima usamos a continuidade do produto em B (Proposição 26.12, página 1292) e o fato que
lim w n+1 = 0, pois kw n+1 k ≤ kwkn+1 → 0 para n → ∞, pois kwk < 1. Logo, (1 −w)v = v−(v−1) = 1.
n→∞
Analogamente,
n
! n n
!
X X X
vw = w + lim wk w = w + lim w k+1 = w + lim w k + w n+1 − w
n→∞ n→∞ n→∞
k=1 k=1 k=1
n
X
= lim w n+1
+ lim wk = v − 1 ,
n→∞ n→∞
k=1
e concluı́mos que v(1 − w) = v − (v − 1) = 1. Isso completa a demonstração.
O seguintes fato será utilizado adiante.

Proposição 26.16 Se B é álgebra de Banach com unidade e u, v ∈ B, então 1 − uv ∈ Inv (B) se e
somente se 1 − vu ∈ Inv (B). 2
Prova. Se 1 − uv ∈ Inv (B) e w = (1 − uv)−1, é elementar constatar que (1 − vu)(1 + vwu) = 1 =

(1 + vwu)(1 − vu), pois
(1 − vu)(1 + vwu) = 1 − vu + vwu − vuvwu = 1 − vu + v (1 − uv)w u = 1 − vu + vu = 1 ,
| {z }
=1
(1 + vwu)(1 − vu) = 1 − vu + vwu − vwuvu = 1 − vu + v w(1 − uv) u = 1 − vu + vu = 1 ,

| {z }
=1
o que mostra que 1 − vu ∈ Inv (B) com (1 − vu)−1 = (1 + vwu). A recı́proca é evidente.
• Propriedades topológicas do grupo dos operadores invertı́veis
A Proposição 26.15 tem um corolário que usaremos oportunamente, o qual afirma que elementos de
uma álgebra de Banach que estejam suficientemente próximos de um elemento invertı́vel são também
invertı́veis.
Corolário 26.3 Seja B uma álgebra de Banach com unidade e seja w um elemento invertı́vel de B.
Suponhamos que v ∈ B seja tal que k1 − vw −1 k < 1, o que ocorre, por exemplo, se kv − wk < kw −1 k−1 .
Então v é invertı́vel e !
X∞
k
v −1 = w −1 1 + 1 − vw −1 ,
k=1
sendo a série do lado direito convergente na norma de B. 2
Prova. Tem-se v = v −w +w = (1 −(w −v)w −1 )w. Pela Proposição 26.15, 1 −(w −v)w −1 será invertı́vel
se k(w − v)w −1 k < 1. Como k(w − v)w −1 k ≤ kw − vk kw −1k, isso será satisfeito se kv − wk < kw −1 k−1 .
Teremos então, novamente pela Proposição 26.15,
∞
! ∞
!
X X k
v −1 = w −1(1 − (w − v)w −1 )−1 = w −1 1 + [(w − v)w −1 ]k = w −1 1 + 1 − vw −1 .
k=1 k=1
Disso é imediato o seguinte fato:

Corolário 26.4 Seja B uma álgebra de Banach com unidade. Então o grupo Inv (B) dos elementos
invertı́veis de B é um subconjunto aberto de B. 2
Para estabelecermos que Inv (B) é também um grupo contı́nuo usaremos o fato descrito na pro-
posição seguinte.
Proposição 26.17 Seja B uma álgebra de Banach com unidade. Então, a aplicação que a cada w ∈
Inv (B) associa sua inversa w −1 é contı́nua na topologia da norma de B. 2
Prova. Seja v ∈ Inv (B) fixado e tomemos u ∈ Inv (B) tal que ku − vk < ǫ com ǫ > 0 escolhido pequeno
o suficiente de modo que ǫkv −1 k < 1. Que tal é possı́vel garante-nos o Corolário 26.4. É claro que
−1
u = v + (u − v) = v(1 + v −1 (u − v)), de maneira que u−1 = [1 + v −1 (u − v)] v −1 . Logo,
n −1 o
u−1 − v −1 = 1 + v −1 (u − v) − 1 v −1 .
Assim, como pela escolha de ǫ temos kv −1 (u − v)k ≤ ǫkv −1 k < 1, podemos por (26.35) escrever
" ∞ #
X m
u−1 − v −1 = (−1)m v −1 (u − v) v −1 .
m=1
Tem-se, então,
" ∞
# " ∞
#
X X m ǫkv −1 k2
ku−1 − v −1 k ≤ kv −1 km ku − vkm kv −1 k ≤ ǫkv −1 k kv −1 k = .
m=1 m=1
1 − ǫkv −1 k
Portanto, ku−1 − v −1 k → 0 quando ku − vk → 0, provando a continuidade da operação de inversão.
Das Proposições 26.17 e 26.12 concluı́mos:

Proposição 26.18 Se B é álgebra de Banach com unidade então Inv (B) é um grupo contı́nuo na
topologia induzida em Inv (B) pela norma de B. 2
26.3.3 O Espectro de Operadores em Álgebras de Banach

Na presente seção apresentaremos a noção de espectro de operadores em álgebras de Banach. Todos
os desenvolvimentos que seguem terão importância para as seções posteriores. Façamos notar o leitor
que alguns dos resultados que apresentaremos são gerais, sendo válidos em quaisquer álgebras de
Banach, outros são especı́ficos de álgebras C∗ . A presente seção é introdutória ao estudo do espectro
de operadores agindo em espaços de Banach e de Hilbert que empreenderemos na Seção 26.5, página
1329.
• A noção de espectro de operadores em álgebras de Banach
Se B é álgebra de Banach com unidade e u ∈ B, denotamos por ρ(u) o chamado conjunto resolvente
de u, definido por ρ(u) := {λ ∈ C| λ1 − u ∈ Inv (B)}. O chamado espectro de u, denotado por σ(u), é
definido por
σ(u) := {λ ∈ C| λ1 − u 6∈ Inv (B)} ,
ou seja, σ(u) = C \ ρ(u).
• Fatos básicos sobre o espectro de operadores em álgebras de Banach e Banach-∗
Uma conseqüência imediata da Proposição 26.16 é o seguinte:

Proposição 26.19 Se B é uma álgebra de Banach com unidade e u, v ∈ B, então σ(uv) \ {0} =
σ(vu) \ {0}, ou seja, o espectro de uv pode diferir do de vu apenas no conjunto {0}. 2
Prova. Se λ 6= 0, então (λ1 − uv) = λ(1 − λ−1 uv), que pela Proposição 26.16, página 1296, é invertı́vel
se e somente se λ(1 − λ−1 vu) o for.
Uma conseqüência imediata é o seguinte corolário, o qual revela uma propriedade de invariância do
espectro.
Corolário 26.5 Se B é uma álgebra de Banach com unidade e u, v ∈ B com u ∈ Inv (B), então
σ (uvu−1) = σ(v). 2
Prova. Pela Proposição 26.19, é imediato que σ (uvu−1) \ {0} = σ(v) \ {0}. Agora, 0 6∈ ρ(v) se e
somente se v 6∈ Inv (B). Assim, 0 ∈ σ(v) se e somente se v ∈ Inv (B). Mas, v ∈ Inv (B) se e somente se
uvu−1 ∈ Inv (B) o que, por sua vez ocorre se e somente se 0 ∈ σ(uvu−1). Logo, 0 ∈ σ(v) se e somente
se 0 ∈ σ(uvu−1).
As duas proposições que seguem serão repetidamente empregadas.

Proposição 26.20 Seja B uma álgebra de Banach com unidade e u ∈ Inv (B) um elemento invertı́vel
de B. Então,
σ u−1 = {λ ∈ C| λ−1 ∈ σ(u)} .
2
Prova da Proposição 26.20. Se u é invertı́vel, então 0 ∈ ρ(u), ou seja, 0 6∈ σ(u). É também claro que
para λ 6= 0 (λ1 − u) = −λu (λ−1 1 − u−1), o que claramente mostra que λ ∈ σ(u) se e somente se
λ−1 ∈ σ (u−1 ).
Denotaremos σ(u)−1 := {λ ∈ C| λ−1 ∈ σ(u)}. O que a proposição acima afirma é que se u ∈ Inv (B),
então σ (u−1 ) = σ(u)−1 .
Proposição 26.21 Seja B uma álgebra de Banach-∗ com unidade e u ∈ Inv (B) um elemento invertı́vel
de B. Então,
σ (u∗ ) = {λ ∈ C| λ ∈ σ(u)} .
2

Prova da Proposição 26.21. (λ1 − u)∗ = λ1 − u∗ . Logo, por (26.34), λ ∈ σ(u) se e somente se
λ ∈ σ(u∗ ).
Denotaremos σ(u)cc := {λ ∈ C| λ ∈ σ(u)}. O que a proposição acima afirma é que σ (u∗ ) = σ(u)cc .
Seja B uma álgebra de Banach com unidade e seja um polinômio p(z) = a0 + a1 z + . . . + an z n
definido para z ∈ C. Para u ∈ B definimos p(u) := a0 1 + a1 u + . . . + an un ∈ B. Para polinômios de
operadores, vale a seguinte propriedade importante, conhecida como Teorema da Aplicação Espectral:
Teorema 26.14 (Teorema da Aplicação Espectral) Sejam B uma álgebra de Banach com uni-
dade e u ∈ B. Então para todo polinômio p vale
σ(p(u)) = p(σ(u)) := {p(λ), λ ∈ σ(u)} .
Prova. Vamos supor que p(z) = a0 + a1 z + . . . + an z n seja de grau n ≥ 1, pois no caso de um polinômio
constante a afirmativa é trivial. Tomemos µ ∈ σ(p(u)), que é não-vazio, como sabemos, e sejam
α1 , . . . , αn as n raı́zes do polinômio p(z) − µ em C. Então p(z) − µ = an (z − α1 ) · · · (z − αn ), o que
implica p(u)−µ1 = an (u−α1 1) · · · (u−αn 1). Se nenhum dos αi pertencesse a σ(u) então cada (u−αj 1)
seria invertı́vel, assim como o produto an (u − α1 1) · · · (u − αn 1), contrariando o fato de µ ∈ σ(p(u)).
Logo, algum dos αi pertence a σ(u). Como p(αi ) = µ, isso diz que σ(p(u)) ⊂ {p(λ), λ ∈ σ(u)}.
Provemos agora a recı́proca. Já sabemos que σ(u) é não-vazio. Para λ ∈ σ(u) tem-se evidentemente
que o polinômio p(z) − p(λ) tem λ como raiz. Logo, p(z) − p(λ) = (z − λ)q(z), onde q é um polinômio
de grau n − 1. Portanto, p(u) − p(λ)1 = (u − λ1)q(u) e como (u − λ1) não é invertı́vel, p(u) − p(λ)1
também não o pode ser, o que diz-nos que p(λ) ∈ σ(p(u)). Isso significa que {p(λ), λ ∈ σ(u)} ⊂ σ(p(u)),
estabelecendo σ(p(u)) = {p(λ), λ ∈ σ(u)}.
Veremos quando tratarmos do homomorfismo de Gelfand e do Cálculo Funcional Contı́nuo que

para operadores limitados e auto-adjuntos definidos em em espaços de Hilbert o Teorema da Aplicação
Espectral pode ser bastante generalizado. Vide Teorema 26.32, página 1360.
• O operador resolvente e propriedades topológicas do espectro
Se um número complexo λ pertence ao conjunto resolvente de u ∈ B, define-se o operador resolvente

de u calculado em λ, denotado por Rλ (u), por
Rλ (u) := (λ1 − u)−1 .
Pelas hipóteses Rλ (u) é um elemento de B.

Muitas propriedades de ρ(u) (e, portanto de σ(u)) podem ser derivadas de propriedades de seus
operadores resolventes. Por exemplo, mostraremos mais adiante que ρ(u) é sempre um conjunto aberto
de C (e, portanto, σ(u) é sempre um conjunto fechado de C) e mostraremos também que σ(u) nunca
é igual a todo C (e, portanto, σ(u) nunca é vazio).
Proposição 26.22 (Primeira identidade do resolvente) Sejam B uma álgebra de Banach com
unidade e u ∈ B. Se λ e µ pertencem ao conjunto resolvente ρ(u) de u, então
Rλ (u) − Rµ (u) = (µ − λ)Rλ (u)Rµ (u) . (26.36)
Prova. A prova segue do seguinte cômputo que dispensa comentários:

Rλ (u) = Rλ (u) (µ1 − u)Rµ (u) = Rλ (u) (µ − λ)1 + (λ1 − u) Rµ (u)
| {z }
=1
= (µ − λ)Rλ (u)Rµ (u) + Rλ (u)(λ1 − u) Rµ (u) = (µ − λ)Rλ (u)Rµ (u) + Rµ (u) .

| {z }
=1
Iremos agora estabelecer uma série de resultados sobre propriedades do operador resolvente que
culminarão com a Proposição 26.25.
Lema 26.3 Sejam B uma álgebra de Banach com unidade e u ∈ B. Se λ e µ pertencem ao conjunto
resolvente ρ(u) de u e |λ − µ| < kRµ (u)k−1 então
" ∞
# " ∞
#
X X
Rλ (u) = Rµ (u) 1 + (µ − λ)n (Rµ (u)) n
= 1+ n
(µ − λ)n (Rµ (u)) Rµ (u) . (26.37)
n=1 n=1
Prova. Que as séries acima são convergentes para |λ − µ| < kRµ (u)k−1 é elementar. Portanto, ambas
definem operadores de B. A segunda igualdade em (26.37) é também evidente. Resta-nos provar que
as expressões do lado direito são de fato iguais à inversa de λ1 − u. Agora,

(λ1 − u)Rµ (u) = (λ − µ)1 + (µ1 − u) Rµ (u) = −(µ − λ)Rµ (u) + 1 .
Assim,
" ∞
#
X
(λ1 − u)Rµ (u) 1 + (µ − λ)n (Rµ (u))n
n=1
" ∞
# " ∞
#
X X
= −(µ − λ)Rµ (u) 1 + (µ − λ)n (Rµ (u)) n
+ 1+ (µ − λ)n (Rµ (u)) n
n=1 n=1
∞
" ∞
#
X X
= − (µ − λ)n (Rµ (u))n + 1 + (µ − λ)n (Rµ (u))n = 1.
n=1 n=1
Provar que " #

∞
X
1+ (µ − λ)n (Rµ (u))n Rµ (u)(λ1 − u) = 1
n=1
é análogo.
A expressão (26.37) não é adivinhada, mas sugerida por

" ∞ n #
1 1 1 1 X 1
= = 1+ (µ − λ)n ,
λ−t µ − t 1 − µ−λ µ−t n=1
µ − t
µ−t
válida para λ, µ, t ∈ C com |µ − λ| < |µ − t|, λ 6= t e µ 6= t.

Proposição 26.23 Sejam B uma álgebra de Banach com unidade e u ∈ B. Então ρ(u) é um subcon-
junto aberto de C, o que implica que σ(u) é um subconjunto fechado de C. 2
Prova. O Lema 26.3 afirma que se µ ∈ ρ(u), então todo λ ∈ C que dista de µ menos que kRµ (u)k−1 é
também um elemento de ρ(u). Ora, isso está precisamente dizendo que ρ(u) é um subconjunto aberto
de C e, portanto, σ(u) é um subconjunto fechado de C, por ser o complemento de ρ(u).
A proposição seguinte, que será usada logo adiante, ilustra a importância da teoria das funções
analı́ticas no estudo de propriedades de operadores em álgebras de Banach.
Proposição 26.24 Sejam B uma álgebra de Banach e u ∈ B. Então, para cada ℓ ∈ B† , funcional
linear contı́nuo em B, a função de variável complexa fℓ : ρ(u) → C dada por fℓ (λ) := ℓ(Rλ (u)) é
holomórfica (i.e. analı́tica) em cada componente conexa de ρ(u). 2
Prova. Sejam µ ∈ ρ(u) e λ tal que |λ − µ| < kRµ (u)k−1. Tem-se por (26.37) que λ ∈ ρ(u) e
∞
!
(26.37) X n+1
fℓ (λ) := ℓ(Rλ (u)) = ℓ Rµ (u) + (µ − λ)n (Rµ (u))
n=1
∞
X
(µ − λ)n ℓ (Rµ (u))n+1 . (26.38)
continuidade
= ℓ(Rµ (u)) +
n=1
Como
ℓ (Rµ (u))n+1 ≤ kℓk k (Rµ (u))n+1 k ≤ kℓk kRµ (u)kn+1 ,
segue de |λ − µ| < kRµ (u)k−1 que a última série em (26.38) é absolutamente convergente e, portanto,
define uma função holomórfica na bola aberta de raio kRµ (u)k−1 centrada em µ, a qual pode, pelos
procedimentos usuais, ser estendida analiticamente à componente conexa de ρ(u) que contém µ.
A proposição seguinte, devida a Gelfand13 , é importante pois finalmente estabelece que o espectro
de um operador contı́nuo em um espaço de Banach nunca é vazio.
Proposição 26.25 Sejam B uma álgebra de Banach com unidade e u ∈ B. Então, σ(u) é um conjunto
não-vazio e está contido na bola fechada de raio kuk centrada em 0: {z ∈ C| |z| ≤ kuk}. 2
Prova. Vamos supor que ρ(u) = C. Então, pela Proposição 26.24, para todo ℓ funcional linear contı́nuo
em B a função fℓ (λ) := ℓ(Rλ (u)) seria inteira, isto é, analı́tica em toda parte. Agora, para |λ| > kuk
" ∞
#
X
Rλ (u) = (λ1 − u)−1 = λ−1 (1 − λ−1 u)−1 = λ−1 1 + λ−n un (26.39)
n=1
de acordo com (26.35) da Proposição 26.15, página 1295, pois pela hipótese kλ−1 uk < 1. Assim,
" ∞ n #
1 X kuk 1
kRλ (u)k ≤ 1+ = .
|λ| n=1
|λ| |λ| − kuk
13
Israil Moiseevic Gelfand (1913-).
Isso mostra que lim kRλ (u)k = 0. Logo, como |fℓ (λ)| = |ℓ(Rλ (u))| ≤ kℓk kRλ(u)k, segue que
|λ|→∞
lim |fℓ (λ)| = 0. Com isso, concluı́mos que fℓ (λ) é uma função inteira, limitada e converge a zero
|λ|→∞
no infinito. Pelo bem-conhecido Teorema de Liouville14 da Análise Complexa, isso implica que fℓ (λ) é
identicamente nula para todo λ ∈ C. Se, porém, ℓ(Rλ (u)) for nulo para cada funcional linear contı́nuo
ℓ então, pelo Corolário 26.1, página 1270, terı́amos Rλ (u) = 0, um absurdo, pois Rλ (u) é a inversa de
um operador. Assim concluı́mos que ρ(u) não pode ser igual a todo C e, portanto, σ(u) 6= ∅.
Pela Proposição 26.15, página 1295, a expressão (26.39) mostra que Rλ (u) está definida para todo
|λ| > kuk. Assim, {z ∈ C| |z| > kuk} ⊂ ρ(u). Logo, σ(u) ⊂ {z ∈ C| |z| ≤ kuk}.
• O raio espectral
Pela Proposição 26.25, página 1302, sabemos que o espectro de um elemento u de uma uma álgebra
de Banach com unidade B está contido na bola fechada de raio kuk centrada em 0. Em muitas aplicações
é importante ter-se uma noção mais precisa sobre qual a maior distância à origem 0 em que se pode
encontrar um ponto do espectro de u. Os Teoremas 26.15 e 26.16, a seguir, fornecem-nos informações
mais precisas sobre essa distância.
Sejam B uma álgebra de Banach com unidade e u ∈ B. Definimos o raio espectral de u por
r(u) := sup |λ| ,
λ∈σ(u)
onde, como antes, σ(u) = {λ ∈ C| (λ1 − u) não é invertı́vel}. Pela Proposição 26.25, página 1302, está
claro que r(u) ≤ kuk. O seguinte teorema, devido a Beurling15 , é um dos resultados fundamentais da
análise espectral de operadores e será empregado várias vezes no que segue.
Teorema 26.15 (Teorema do Raio Espectral) Sejam B uma álgebra de Banach com unidade e
u ∈ B. Então,
r(u) = inf kun k1/n = lim kun k1/n . (26.40)
n≥1 n→∞
2
Prova do Teorema 26.15.16 É claro pela definição que {λ ∈ C| |λ| > r(u)} é uma componente conexa
do conjunto resolvente de u. Assim, pela Proposição 26.24, página 1302, as funções fℓ (λ) := ℓ(Rλ (u))
com ℓ ∈ B† , funcional linear contı́nuo em B, são analı́ticas na região {λ ∈ C| |λ| > r(u)}. De acordo
com fatos bem conhecidos da teoria das funções de variável complexa, isso implica que naquela região
fℓ (λ) possui uma representação em termos de uma série de Laurent17 :
∞
X
fℓ (λ) = an λ−n , |λ| > r(u) .
n=0
14
15
Arne Carl-August Beurling (1905-1986).
16
Seguiremos aqui a apresentação de [106], mas com alguns esclarecimentos extra. Basicamente, a vantagem dessa
demonstração é o uso do Princı́pio de Limitação Uniforme, o que a torna mais curta e elementar, em contraste com
outras exposições, como as de [17] ou de [116].
17
Na região {λ ∈ C| |λ| > kuk} ⊂ {λ ∈ C| |λ| > r(u)}, vale kλ−1 uk < 1 e podemos escrever, usando
a série de Neumann (26.35),
−1
fℓ (λ) := ℓ(Rλ (u)) = ℓ (λ1 − u) −1
= λ ℓ 1−λ u
−1 −1
∞
! ∞
X continuidade de ℓ
X
= λ−1 ℓ λ−n un = ℓ (un ) λ−n−1
n=0 n=0
Concluı́mos disso que a0 = 0 e an = ℓ (un−1), n ≥ 1 e, portanto, a série

∞
X
ℓ (un ) λ−n−1
n=0
converge para todo λ com |λ| > r(u) e não apenas para |λ| > kuk. Como essa série é convergente,
concluı́mos que para todo λ com |λ| > r(u) devemos ter limn→∞ |ℓ (un ) λ−n−1 | = 0, o que implica que
a seqüência ℓ (un ) λ−n−1 é limitada. Assim, provamos que para cada ℓ ∈ B† existe uma constante
Mℓ > 0 tal que |ℓ (un ) λ−n−1 | ≤ Mℓ . Sob essas condições, o Princı́pio de Limitação Uniforme (ou
Teorema de Banach-Steinhaus, Teorema 26.6, página 1270) garante-nos que existe M ≥ 0, finito, tal que
kλ−n−1 un k ≤ M para todo n ≥ 1. Conseqüentemente, kun k1/n ≤ M 1/n |λ|1+1/n para todo n ≥ 1. Disso
extraı́mos que lim sup kun k1/n ≤ |λ|. Como essa desigualdade vale para todo λ ∈ {λ ∈ C| |λ| > r(u)},
n→∞
concluı́mos que
lim sup kun k1/n ≤ inf |λ| = r(u) .
n→∞ λ∈{λ∈C| |λ|>r(u)}
Vamos agora demonstrar que r(u) ≤ lim inf kun k1/n .

n→∞
Pelo Teorema da Aplicação Espectral, Teorema 26.14, página 1299, sabemos que se λ ∈ σ(u) então
λ ∈ σ(un ) para todo n ∈ N. Logo, pela Proposição 26.25, página 1302, vale |λn | ≤ kun k. Isso
n
trivialmente diz que |λ| ≤ kun k1/n para todo λ ∈ σ(u) e todo n ≥ 1. Portanto,
r(u) := sup |λ| ≤ inf kun k1/n ≤ lim inf kun k1/n .
λ∈σ(u) n≥1 n→∞
Logo, estabelecemos lim sup kun k1/n ≤ r(u) ≤ inf kun k1/n ≤ lim inf kun k1/n , o que implica (26.40).
n→∞ n≥1 n→∞
O seguinte corolário importante será empregado adiante, por exemplo, quando discutirmos o ho-
momorfismo de Gelfand e o Teorema Espectral.
Teorema 26.16 Se A é uma álgebra C∗ com unidade e a ∈ A é um operador auto-adjunto (ou seja,
tal que a = a∗ ) ou normal (ou seja, tal que aa∗ = a∗ a), então
r(a) = kak . (26.41)
Note que se H é um espaço de Hilbert, B(H) é uma álgebra C∗ com unidade e, portanto, a afirmação
acima aplica-se a operadores limitados auto-adjuntos ou normais agindo em um espaço de Hilbert H.
2
Prova do Teorema 26.16. Em uma álgebra C∗ todo operador b satisfaz a propriedade C∗ : kb∗ bk = kbk2 .
Assim, para um operador auto-adjunto a, vale ka2 k = kak2 . Substituindo a nessa expressão pelo
n−1
operador auto-adjunto a2 e utilizando-a n vezes, teremos
n n−1 n−2 2 n
ka2 k = ka2 k2 = ka2 k2 = · · · = kak2 . (26.42)
Portanto,
(26.40) n n
r(a) = lim kam k1/m = lim ka2 k1/2 = lim kak = kak . (26.43)
m→∞ n→∞ n→∞
n
Tratemos agora do caso de operadores normais. Se b ∈ A, vale pela propriedade C∗ kb2 k2 =
n n n n n n n
k(b2 )∗ b2 k. Para um operador normal a, tem-se (a2 )∗ a2 = (a∗ a)2 . Logo, ka2 k2 = k(a∗ a)2 k. Como
n n
a∗ a é auto-adjunto, segue de (26.42) (substituindo lá a por a∗ a) que k(a∗ a)2 k = ka∗ ak2 . Novamente
n+1
pela propriedade C∗ , a última expressão vale kak2 . Provamos, então, que para a normal tem-se
n n
ka2 k = kak2 . Assim, aplica-se novamente (26.43), completando a prova.
O leitor deve, porém, ser advertido que há situações em que r(u) < kuk. Tal é o caso, por exemplo,
do operador de Volterra W , tratadoR x no Exemplo 26.6 à página 1351, o qual é definido no espaço de
Banach C([0, 1]) por (W f )(x) := 0 f (y)dy, e para o qual tem-se r(W ) = 0 mas kW k = 1.
Uma das conseqüências mais profundas do Teorema 26.16 são a proposição e o corolário seguintes.
Proposição 26.26 Se A é uma álgebra C∗ com unidade, então
p
kak = r(a∗ a)
para todo a ∈ A. 2
Prova. Pela propriedade C∗ vale kak2 = ka∗ ak para todo a ∈ A. Agora, a∗ a é auto-adjunto e, pelo
Teorema 26.16, r(a∗ a) = ka∗ ak.
Corolário 26.6 Se B é uma álgebra-∗ que é uma álgebra C∗ em relação a uma norma k · k1 e também
em relação a uma norma k · k2 então essas normas são iguais. 2
Prova. Seja a ∈ B. Usando a propriedade C∗ para as normas k · k1 e k · k2 e o Teorema 26.16 para o

operador auto-adjunto a∗ a, tem-se kak21 = ka∗ ak1 = r(a∗ a) = ka∗ ak2 = kak22 .
A razão é de a Proposição 26.26 ser importante é a seguinte. O espectro de um operador a é definido

em termos puramente algébricos (existênciap ou não da inversa de λ1 − a) e,∗ portanto, o raio espectral
r(a) também o é. A igualdade kak = r(a∗ a) revela que em álgebras C a norma operatorial, um
objeto de natureza topológica, é determinado por um objeto de natureza algébrica, o raio espectral.
Assim, uma álgebra C∗ é uma álgebra que vem, por assim, dizer, imbuı́da de sua própria topologia. O
Teorema 26.16 tem várias outras implicações estruturais sobre álgebras C∗ . Vide a discussão de [17]
ou [106].
• O espectro de operadores unitários e de operadores auto-adjuntos em álgebras C∗
Um elemento u de uma álgebra-∗ com unidade é dito ser unitário se u−1 = u∗ , ou seja, se u∗ u =
uu∗ = 1.
As duas proposições que seguem são importantes por permitirem localizar com mais precisão o
espectro de operadores unitários ou auto-adjuntos.
Proposição 26.27 Seja A uma álgebra C∗ com unidade seja u ∈ A, unitário. Então σ(u) ⊂ S 1 :=
{λ ∈ C| |λ| = 1}. 2
Prova. Se u é unitário, pela propriedade C∗ , kuk2 = ku∗ uk = k1k = 1, ou seja, kuk = 1. Além disso,
por ser unitário, u é normal (pois u∗ u = uu∗ = 1). Assim, pelo Teorema 26.16, r(u) = kuk = 1. Isso
mostra que σ(u) é um subconjunto fechado do disco unitário centrado em 0: D1 := {λ ∈ C| |λ| ≤ 1}.
cc cc
Pelas Proposições 26.20 e 26.21, tem-se σ(u) = σ (u∗ )cc = σ (u−1 ) = (σ(u)−1) . Agora, os únicos
subconjuntos de D1 invariantes por inversão e conjugação complexa são subconjuntos de S 1 .
Proposição 26.28 Seja A uma álgebra C∗ com unidade seja a ∈ A, auto-adjunto. Então, σ(a) ⊂ R.
Mais precisamente, σ(a) é um subconjunto compacto de [−kak, kak]. 2
Há diversas demonstrações dessa importante proposição. A que apresentamos abaixo é inspirada na
da referência [17] (mas não idêntica à mesma) e faz uso de poucos recursos da teoria. A demonstração de
[106], por exemplo, merece ser comparada. Mais adiante, Teorema 26.25, página 1335, apresentaremos
uma outra demonstração para operadores limitados auto-adjuntos agindo em espaços de Hilbert.
Prova da Proposição 26.28. Se a = 0 não há o que demonstrar. Seja então a 6= 0 e sejam p > 0 e λ ∈ C,
sendo que a parte imaginária de λ é não-nula. Se |λ| > kak então já sabemos que λ 6∈ σ(a), de modo
que é suficiente considerarmos |λ| ≤ kak. Se escolhermos p < kak−1 , a norma dos operadores ±ipa será
pkak < 1 e pela Proposição 26.15, página 1295, os operadores 1 ± ipa são invertı́veis. Além disso, com
essas escolhas p < kak−1 < |λ|−1 , de modo que 1 ± ipλ 6= 0. Temos, assim,

2ipλ 2ip
λ1 − a = 1− a
2ip 2ip
! !
(1 + ipλ) − (1 − ipλ) ip (1 − ipλ) + (1 + ipλ)
= 1− a
2ip 2ip

1 h i
= (1 + ipλ)(1 − ipa) − (1 − ipλ) (1 + ipa)
2ip

1 − ipλ 1 + ipλ
= (1 − ipa) − (1 + ipa)
2ip 1 − ipλ

1 − ipλ 1 + ipλ
= 1 − (1 + ipa)(1 − ipa) −1
(1 − ipa) . (26.44)
2ip 1 − ipλ
De (26.44) concluı́mos que λ1 − a terá inversa se

1 + ipλ
v := 1 − (1 + ipa)(1 − ipa)−1
1 − ipλ
for invertı́vel. Mostraremos que tal é o caso provando que u := (1 + ipa)(1 − ipa)−1 é unitário e que
1+ipλ
1−ipλ
é um número complexo de módulo diferente de 1. Para provar que u é unitário, fazemos o seguinte
desenvolvimento:
u := (1 + ipa)(1 − ipa)−1

= 21 − (1 − ipa) (1 − ipa)−1 = 2(1 − ipa)−1 − 1

= (1 − ipa) 21 − (1 − ipa) = (1 − ipa)−1 (1 + ipa)
−1
−1
= (1 + ipa)−1 (1 − ipa)
!−1
−1
a=a∗
= (1 − ipa)∗ (1 + ipa)∗
!−1 !−1
(26.34)
∗ h i∗
= (1 − ipa)−1 (1 + ipa)∗ = (1 + ipa)(1 − ipa)−1
= (u∗ )−1 ,
que demonstrou que u−1 = u∗ , provando que u é unitário. Escrevendo λ = x + iy com x, y ∈ R,

teremos
1 + ipλ 2 2 2
= (1 − py) + (px) 6= 1 se y 6= 0 .
1 − ipλ (1 + py)2 + (px)2
Como u é unitário e seu espectro é formado por números complexos de módulo 1 (Proposição 26.27),
concluı́mos que v é invertı́vel e, por (26.44), λ1 − a também o é com

2ip
(λ1 − a) −1
= (1 − ipa)−1 v −1 .
1 − ipλ
A invertibilidade de 1 − ipa foi garantida com a escolha 0 < p < kak−1 .

Assim, provamos que λ1 − a tem inversa para todo λ com parte imaginária não-nula. Portanto,
todo número complexo com parte imaginária não-nula está no conjunto resolvente de a, ρ(a). Logo,
σ(a) ⊂ R. Como r(a) = kak, concluı́mos que σ(a) ⊂ [−kak, kak]. Que σ(a) é fechado foi provado na
Proposição 26.23, página 1301.
*
A noção de espectro será estudada mais detalhadamente adiante no contexto de operadores limitados
agindo em espaços de Banach e, especialmente, de Hilbert. Em tais casos uma classificação mais
detalhada dos tipos de espectro é possı́vel. Vide Seção 26.5, página 1329.
26.3.4 O Homomorfismo de Gelfand em Álgebras C∗

Esta seção é dedicada à demonstração de um fato central da teoria das álgebras C∗ , o qual reflete-se
também na teoria dos operadores limitados agindo em espaços de Hilbert. A afirmação é que se a é um
elemento auto-adjunto de uma álgebra C∗ com unidade A, então existe um homomorfismo φa entre a
álgebra C(σ(a)) das funções contı́nuas definidas no espectro de a e a álgebra A. Esse homomorfismo é
denominado homomorfismo de Gelfand18 .
A existência do homomorfismo de Gelfand e suas propriedades são conseqüência, basicamente de
duas coisas: do Teorema de Weierstrass, que garante a possibilidade de aproximar uniformemente
funções contı́nuas definidas em um conjunto compacto da reta real (como o espectro de um operador
auto-adjunto de uma álgebras C∗ com unidade) por polinômios, e da proposição que segue, a qual
garante que para todo polinômio p e todo elemento auto-adjunto a de uma álgebra C∗ com unidade A,
a aplicação p : σ(a) → A é isométrica.
Proposição 26.29 Seja A uma álgebra C∗ com unidade e seja a ∈ A um elemento auto-adjunto de A
n
(isto é, a∗ = a). Seja também p(x) = Σ bk xk um polinômio em x ∈ C. Então, o espectro de p(a) é a
k=0
imagem por p do espectro de a, ou seja,
σ(p(a)) = {p(λ), λ ∈ σ(a)} =: p(σ(a)) . (26.45)
Fora isso, kp(a)k = sup |p(λ)| =: kpk∞ . 2

λ∈σ(a)
Prova. O fato que σ(p(a)) = {p(λ), λ ∈ σ(a)} foi estabelecido no Teorema 26.14, página 1299. Para
determinar kp(a)k lembremos que pela propriedade C∗ vale kp(a)k2 = kp(a)p(a)∗ k. Agora,
n
!∗ n
! n
! n ! n
X X a=a∗ X X X
p(a)p(a)∗ = bk ak bl al = bk ak bl al = bk bl ak+l = (pp)(a) ,
k=0 l=1 k=0 l=0 k, l=0
onde pp é o polinômio de grau 2n definido para x ∈ R por

n
X
(pp)(x) := p(x)p(x) = bk bl xk+l .
k, l=0
18
Como p(a)p(a)∗ = (pp)(a) é auto-adjunto, aplica-se o Teorema 26.16, página 1304, e tem-se
(26.41) definição (26.107)

kp(a)p(a)∗ k = k(pp)(a)k = r((pp)(a)) = sup |µ| = sup |µ|
µ∈ σ (pp)(a) µ∈ (pp)(λ), λ∈σ(a)
!2

= sup |(pp)(λ)| = sup p(λ)p(λ) = sup |p(λ)|2 = sup |p(λ)| ,
λ∈σ(a) λ∈σ(a) λ∈σ(a) λ∈σ(a)
estabelecendo o que querı́amos.
Seja agora o espaço de Banach C(σ(a)) da funções complexas contı́nuas definidas no espectro
de a dotado da norma kf k∞ := supλ∈σ(a) |f (λ)| e seja P (σ(a)) o sub-espaço de C(σ(a)) formado por
polinômios. Sabemos pelo Teorema de Weierstrass que P (σ(a)) é denso em C(σ(a)). Vimos também na
Proposição 26.29 que a aplicação φa ≡ φ : P (σ(a)) → A dada por φ(p) = p(a) satisfaz kφ(p)k = kpk∞ .
Ora, isso diz-nos que φ é limitada e, pelo Teorema BLT, Teorema 26.1, página 1254, pode ser estendida
unicamente e isometricamente ao fecho de P (σ(a)) que é C(σ(a)). Essa extensão também será denotada
por φ. Assim, para toda f ∈ C(σ(a)) podemos definir φ(f ) como limite em norma de operadores φ(p),
com p sendo polinômios que convergem a f na norma k · k∞ .
Denotaremos também sugestivamente φ(f ), para f ∈ C(σ(a)), por f (a). Tem-se os seguintes fatos
sobre φ(f ).
Teorema 26.17 (O Homomorfismo de Gelfand em Álgebras C∗ ) Seja A uma álgebra C∗ com
unidade, seja a ∈ A auto-adjunto e seja φa ≡ φ : C(σ(a)) → A definida acima. Para todo polinômio p
vale φ(p) = p(a). Como vimos, pelo Teorema BLT, Teorema 26.1, página 1254, tem-se kφ(f )k = kf k∞
para toda f ∈ C(σ(a)). Fora isso, valem as seguintes afirmações:
1. A aplicação φ é um ∗-homomorfismo algébrico, ou seja,
φ(αf + βg) = αφ(f ) + βφ(g) , φ(f g) = φ(f )φ(g) , φ(1) = 1 ,

φ(f )∗ = φ(f) ,
(26.46)
para todas f, g ∈ C(σ(a)) e todos α, β ∈ C. Como f g = gf , segue de (26.46) que φ(f )φ(g) =
φ(g)φ(f ) para todas f, g ∈ C(σ(a)).
2. Se f ≥ 0 tem-se σ(φ(f )) ⊂ [0, ∞).
3. Se fn ∈ C(σ(a)), n ∈ N é uma seqüência de converge na norma k · k∞ a uma função f ∈ C(σ(a))

então φ(fn ) converge a φ(f ) na norma de A. Reciprocamente, se φ(fn ) converge na norma de A,
então existe f ∈ C(σ(a)) tal que limn→∞ φ(fn ) = φ(f ). Isso diz-nos que {φ(f ), f ∈ C(σ(a))} é
fechada na norma de A. Com a propriedade do item 1, isso significa que {φ(f ), f ∈ C(σ(A))}
é uma sub-álgebra C∗ Abeliana com unidade de A.
4. σ(φ(f )) = {f (λ), λ ∈ σ(a)} =: f (σ(a)) para toda f ∈ C(σ(a)). 2

O ∗-homomorfismo φ : C(σ(a)) → A é por vezes denominado homomorfismo de Gelfand.

Prova do item 1. A aplicação φ : C(σ(a)) → A é limitada e, portanto, contı́nua. As propriedades
(26.46), que caracterizam φ como um ∗-homomorfismo algébrico, são triviais de se verificar no subespaço
denso P (σ(a)) e daı́ se estendem facilmente a todo C(σ(a)) por continuidade.
Prova do item 2. Se f ≥ 0 então f = g 2 para alguma g real e contı́nua. Logo, pela propriedade de
homomorfismo em (26.46) vale φ(f ) = φ(g 2 ) = φ(g)2. Também por (26.46), φ(g) é auto-adjunto e,
portanto, pelo Teorema 26.14, página 1299, o espectro de φ(g)2 é um subconjunto de [0, ∞).
Prova do item 3. Tem-se kφ(fn ) − φ(f )k = kφ(f − fn )k = kf − fn k∞ . Logo, se kf − fn k∞ → 0,
segue kφ(fn ) − φ(f )k → 0. Reciprocamente, se φ(fn ) converge na norma de A, segue que φ(fn ) é uma
seqüência de Cauchy em A. Assim, como kφ(fn ) − φ(fm )k = kfn − fm k∞ , a seqüência fn é de Cauchy
em C(σ(a)) com a norma k·k∞ . Como C(σ(a)) é completo em relação a essa norma, existe f ∈ C(σ(a))
à qual fn converge e, portanto, limn→∞ φ(fn ) = φ(f ).
1
Prova do item 4. Se λ não pertence à imagem de σ(a) por f então r := (f −λ) é contı́nua e, portanto,
φ(r) está bem definida e vale φ(r)φ(f − λ) = φ(f − λ)φ(r) = 1, pelas propriedades de homomorfismo,
provando que φ(f ) − λ1 é invertı́vel e que, portanto, λ ∈ ρ(φ(f )), o conjunto resolvente de φ(f ).
Isso estabeleceu que o complemento da imagem de f , C \ {f (λ), λ ∈ σ(a)}, é um subconjunto de
ρ(φ(f )). Logo, σ(φ(f )) ⊂ {f (λ), λ ∈ σ(a)}. Vamos agora demonstrar a inclusão oposta. Seja
µ ∈ {f (λ), λ ∈ σ(a)}, ou seja, µ = f (λ0 ) para algum λ0 ∈ σ(a) e vamos supor que µ ∈ ρ(φ(f )), ou
seja, que F := φ(f ) − f (λ0 )1 é invertı́vel. Seja agora P := φ(p) − p(λ0 )1 para algum polinômio p tal
que kf − pk∞ < ǫ. Teremos, F − P = φ(f − p) − (f (λ0 ) − p(λ0 ))1 e, assim,
kF − P k ≤ kφ(f − p)k + |f (λ0) − p(λ0 )| k1k = kf − pk∞ + |f (λ0) − p(λ0 )| ≤ 2kf − pk∞ < 2ǫ .
Agora, pelo Corolário 26.3, página 1297, se escolhermos esse ǫ pequeno o suficiente tal que kF − P k <
kF −1 k−1 , então P será invertı́vel em A, o que implica p(λ0 ) 6∈ σ(φ(p)) com λ0 ∈ σ(a). Isso contraria
(26.45). Logo, devemos ter µ 6∈ ρ(φ(f )), ou seja, µ ∈ σ(φ(f )), o que prova {f (λ), λ ∈ σ(a)} ⊂ σ(φ(f )),
estabelecendo a igualdade desses dois conjuntos. Isso completa a prova do Teorema 26.17
Comentamos que a identificação σ(φ(f )) = {f (λ), λ ∈ σ(a)} não contraria o fato de σ(φ(f )) ser
fechado, pois a imagem de um conjunto compacto (no caso, σ(a)) por uma função contı́nua (no caso,
f ) é sempre um conjunto compacto (ou seja, fechado e limitado).
26.3.5 Raı́zes Quadradas de Operadores em Álgebras de Banach

Na teoria dos operadores é muito importante definir condições sob as quais se possa associar uma
raiz quadrada a certos tipos de operadores. Esta seção é dedicada ao assunto e apresentaremos inici-
almente alguns resultados gerais, para o contexto de álgebras de Banach ou de Banach-∗, e ao final
nos especializaremo-nos a operadores auto-adjuntos em álgebras C∗ ou agindo em espaços de Hilbert.
Algumas das demonstrações abaixo são um tanto técnicas e sua leitura pode ser dispensada em uma
primeira visita. Começamos com o seguinte resultado.
Teorema 26.18 Seja B uma álgebra de Banach com unidade e w ∈ B tal que kwk ≤ 1. Então existe
y ∈ B tal que y 2 = 1 − w. Esse y é dado por
∞
X N
X
n
y := cn w := lim cn w n , (26.47)
N →∞
n=0 n=0
sendo que o limite em (26.47) converge na norma de B e onde
1 (2n − 3)!! (2n − 3)!!

c0 = 1, c1 = − , e cn = − n
= − , n≥1, (26.48)
2 2 n! (2n)!!
√
são os coeficientes da expansão em série de Taylor em torno de z0 = 0 da função f (z) = 1 − z,
∞
X
analı́tica no disco unitário aberto D1 = {z ∈ C| |z| < 1}: f (z) = cn z n . 2
n=0
Destacamos o fato que o enunciado acima fala de kwk ≤ 1 e não apenas kwk < 1. Isso será
importante mais adiante. Por ser um tanto técnica, a demonstração do Teorema 26.18 é apresentada
no Apêndice 26.A, página 1390. Nossa demonstração é inspirada na (mas não idêntica à) de [116]. 19
Corolário 26.7 Seja B uma álgebra de Banach-∗ com unidade. Se x ∈ B é tal que kxk ≤ 1 então
existe y ∈ B auto-adjunto (y ∗ = y) tal que 1 − x∗ x = y ∗ y = y 2 . 2
Prova. Seja w = x∗ x. Tem-se kwk = kx∗ xk ≤ kx∗ k kxk = kxk2 ≤ 1. Podemos, portanto, aplicar o
N
X
Teorema 26.18, acima. Fora isso, nesse caso sn = cn (x∗ x)n são todos auto-adjuntos pois (x∗ x)∗ =
n=0
x∗ x e os cn ’s são reais. Assim, y = lim sN é também auto-adjunto (por que?). Logo, pelo que vimos
N →∞
y ∗ y = y 2 = 1 − x∗ x, o que querı́amos provar.
Corolário 26.8 Seja B uma álgebra de Banach com unidade. Seja w ∈ B tal que k1 − wk ≤ 1. Então
existe y ∈ B tal que y 2 = w. Se B for também uma álgebra de Banach-∗ e w for auto-adjunto, então
existe y auto-adjunto com a mencionada propriedade. 2
Prova. O operador 1 − w satisfaz as condições do Teorema 26.18, página 1310. Logo, existe y ∈ B tal
que y 2 = 1 − (1 − w) = w.

v
Corolário 26.9 Seja B uma álgebra de Banach com unidade. Seja v ∈ B, v 6= 0, tal que 1 −
≤
kvk
1. Então existe y ∈ B tal que y 2 = v. Se B for também uma álgebra de Banach-∗ e v for auto-adjunto,
então existe y auto-adjunto com a mencionada propriedade. 2
19
É instrutivo compará-la à de [17] (Teorema 2.2.10) para álgebras C∗ .
v
Prova. O operador satisfaz as condições do corolário anterior. Logo, existe y0 ∈ B tal que
kvk
v v
y02 = 1 − 1 − = . Portanto y = kvk1/2 y0 é tal que y 2 = v.
kvk kvk
O Corolário 26.9 tem uma conseqüência para álgebras C∗ : todo elemento de uma álgebra C∗ que
tenha espectro positivo tem uma raiz quadrada. Isso será demonstrado no que segue.
26.3.6 Elementos Positivos de Álgebras C∗

Um elemento auto-adjunto v de uma álgebra C∗ A é dito ser positivo se satisfazer σ(v) ⊂ [0, ∞), ou
seja, σ(v) ⊂ [0, kvk]. A proposição seguinte estabelece um fato básico sobre elementos positivos em
álgebras C∗ o qual será repetidamente empregado no que segue.
Proposição 26.30 Se a e b são elementos auto-adjuntos e positivos de uma álgebra C∗ com unidade
e tais que a + b = 0 então a = 0 e b = 0. 2
Prova. Se σ(a) ⊂ [0, ∞) então, pelo Teorema da Aplicação Espectral, Teorema 26.14, página 1299,
vale que σ(−a) ⊂ (−∞, 0]. Logo, se b = −a tem-se σ(b) ⊂ (−∞, 0]. Se b é positivo (ou seja, se
σ(b) ⊂ [0, ∞), isso implica que σ(b) = {0}. Logo r(b) = 0 e pelo Teorema 26.16, concluı́mos que
kbk = 0. Assim, a = −b = 0.
O leitor deve ser advertido que as afirmações da última proposição não são necessariamente válidas
em álgebras de Banach que não sejam álgebras C∗ . A seguinte proposição estabelece algumas condições
equivalentes à positividade.
Proposição 26.31 Se v é um elemento auto-adjunto não-nulo de uma álgebra C∗ com unidade A, são
equivalentes as seguintes afirmações:
1. σ(v) ⊂ [0, kvk].

v
2. 1 − kvk ≤ 1.
3. Existe y ∈ A auto-adjunto tal que y 2 = v e kyk = kvk1/2 .
O operador y do item 3 não é único pois −y, por exemplo, tem a mesma propriedade. Porém, existe
um único yp auto-adjunto com espectro positivo, tal que yp2 = v. 2
Mais adiante (Teorema 26.20) provaremos o importante fato que em álgebras C∗ , elementos da
forma x∗ x são positivos.
Prova da Proposição 26.31.

1 → 2 Pelo Teorema da Aplicação

Espectral,
n Teorema 26.14, página
o n 1299, e pelas hipóteses
o sobre o
espectro de v, tem-se σ 1 − kvk = 1 − kvk , λ ∈ σ(v) ⊂ 1 − kvk , λ ∈ [0, kvk] = [0, 1].
v λ λ

v
Assim, pelo Teorema 26.16, página 1304, 1 − kvk = r 1 − kvk ≤ 1.
v
2 → 3 A existência de y segue do Corolário 26.9. Como y é auto-adjunto vale, pela propriedade C∗ ,

kyk2 = ky 2k = kvk.
3 → 1 Isso segue do Teorema da Aplicação Espectral, Teorema 26.14, página 1299.
Podemos encontrar um yp auto-adjunto com espectro positivo e tal que yp2 = v usando o Homomor-
fismo de Gelfand φv (Teorema 26.17, página 1309) da seguinte forma. Como σ(v) ⊂ [0, √ kvk], a função
f ∈ C(σ(v)) → R dada √ por f (λ) = λ, λ ∈ σ(v),
√ 2 é contı́nua e positiva, assim como f . Assim, pelo
2
Teorema 26.17, yp := φv ( f ) satisfaz yp = φv ( f ) = φv (f ) = v. Pelo item 2 daquele Teorema, vemos
que σ(yp ) ⊂ [0, ∞).
Para provar a unicidade do elemento positivo yp usaremos o seguinte lema, ademais de interesse por
si só.
Lema 26.4 Se a e b são dois elementos auto-adjuntos positivos de uma álgebra C∗ com unidade A tais
que ab = ba então ab é também auto-adjunto positivo. 2
Prova. Se a e b são positivos, o homomorfismo de Gelfand fornece dois operadores auto-adjuntos

positivos cp e dp tais que c2p = a e d2p = b. Pela construção do homomorfismo de Gelfand, cp é o limite
em norma de polinômios em a e dp é o limite em norma de polinômios em b. Como a e b comutam, esses
aproximantes polinomiais também comutam e, portanto cp dp = dp cp . Assim, ab = (cp )2 (dp )2 = (cp dp )2 ,
que é auto-adjunto positivo, pelo Teorema da Aplicação Espectral, Teorema 26.14, página 1299.
Para demonstrar a unicidade de yp , comecemos lembrando que yp é obtido pelo homomorfismo de

Gelfand e, portanto, é um limite em norma de polinômios em v. Assim, se b é um operador qualquer
que comuta com v, então b comuta com yp . Vamos supor que b seja também positivo e tal que b2 = v.
Como b3 = b(b2 ) = (b2 )b segue que bv = vb. Assim, b e yp também comutam. Teremos assim,
byp =yp b
0 = (v − v)(yp − b) = (yp2 − b2 )(yp − b) = (yp − b)(yp + b)(yp − b)
byp =yp b
= (yp − b)yp (yp − b) + (yp − b)b(yp − b) = (yp − b)2 yp + (yp − b)2 b .
Pelo Lema 26.4, ambos (yp − b)2 yp e (yp − b)2 b são positivos e, portanto, pela Proposição 26.30,
concluı́mos que (yp − b)2 yp = 0 e (yp − b)2 b = 0. Subtraindo um do outro, obtemos (yp − b)3 = 0, o que
trivialmente implica (yp − b)4 = 0. Agora, como yp − b é auto-adjunto obtemos, aplicando duas vezes
a propriedade C∗ da norma: kyp − bk4 = k(yp − b)2 k2 = k(yp − b)4 k = 0, provando que yp = b. Isso
estabeleceu a unicidade desejada e completou a prova da Proposição 26.31.
Vemos que um elemento auto-adjunto v de uma álgebra C∗ com unidade A é positivo se satisfizer
quaisquer das condições equivalentes da Proposição 26.31, acima. Mais adiante provaremos o impor-
tante fato que em álgebras C∗ , elementos da forma x∗ x são positivos. O primeiro passo nessa direção
é o seguinte teorema de decomposição.
Proposição 26.32 Todo elemento auto-adjunto a de A, uma álgebra C∗ com unidade, pode ser escrito
na forma a = a+ − a− , onde a± são auto-adjuntos e positivos, comutam com a e satisfazem a+ a− =
a− a+ = 0. 2
Prova. Sejam as funções reais f+ (λ) := 21 (|λ| + λ) e f− (λ) := 21 (|λ| − λ). Ambas são contı́nuas,
positivas, satisfazem f+ f− = 0 e λ = f+ (λ) − f− (λ). Usando o homomorfismo de Gelfand φa , definimos
a+ := φa (f+ ) e a− := φa (f− ). Pelo Teorema 26.17, esses operadores têm as propriedades desejadas.
Vamos denotar por A+ o conjunto de todos os elementos auto-adjuntos positivos de uma álgebra C∗
com unidade A. O seguinte teorema resume as propriedades geométricas e topológicas mais importantes
de A+ .
Teorema 26.19 O conjunto A+ , formado por todos os elementos auto-adjuntos positivos de uma
álgebra C∗ com unidade A, é um cone convexo e fechado (na topologia da norma de A) e tem a
propriedade A+ ∩ (−A+ ) = {0}. 2
Prova. A afirmação que A+ ∩ (−A+ ) = {0} é um mero refraseamento da Proposição 26.30. Se a é

positivo e auto-adjunto então, pelo Teorema da Aplicação Espectral, Teorema 26.14, página 1299, λa
também o é para todo λ ≥ 0. Isso provou que A+ é um cone. Provemos agora que A+ é convexo.
Provemos primeiramente que se a ∈ A+ , então para todo p ≥ kak vale k1 − p−1 ak ≤ 1. De fato,
o Teorema da Aplicação Espectral,
h Teorema
i 26.14, diz-nos que σ(1 − p−1 a) = {1 − λ/p, λ ∈ σ(a)} ⊂
{1 − λ/p, λ ∈ [0, kak]} = 1 − kak p
, 1 ⊂ [0, 1]. Isso provou que r(1 − p−1 a) ≤ 1 e, pelo Teorema
26.16, página 1304, segue que k1 − p−1 ak ≤ 1.
Sejam agora a, b ∈ A+ e considere-se a combinação linear convexa λa + (1 − λ)b com λ ∈ [0, 1].
Para provar que λa + (1 − λ)b ∈ A+ , tomemos P > max{kak, kbk} e escrevamos

1 − P −1 (λa + (1 − λ)b) = λ 1 − P −1a + (1 − λ) 1 − P −1 b

≤ λ 1 − P −1 a + (1 − λ) 1 − P −1b
≤ λ + (1 − λ) = 1 ,
a última desigualdade sendo conseqüência do comentário do parágrafo acima pois, pela escolha, P > kak
e P > kbk. Isso implica que o espectro de 1 −P −1 (λa + (1 − λ)b) está em [−1, 1] e, portanto, o espectro
de P −1 (λa + (1 − λ)b) está em [0, 2]. Assim, σ(λa + (1 − λ)b) ⊂ [0, 2P ], provando que λa + (1 − λ)b
é positivo.
Resta-nos provar que A+ é fechado. Seja an ∈ A+ uma seqüência de elementos de A+ que converge
em norma a a ∈ A. Desejamos provar que a ∈ A+ . Tomemos a 6= 0, pois se a = 0 não há o que provar,
pois 0 ∈ A+ . Sem perda de generalidade, podemos assumir que todos os an são não-nulos. Como cada
an

an é positivo, vale pelo item 2 da Proposição 26.31 1 − kan k ≤ 1, ou seja, kan k1 − an ≤ kan k. Pela
continuidade da norma, an → a implica kan k → kak. Logo,

kak1 − a = lim kan k1 − an ≤ lim kan k = kak .
n→∞ n→∞

a
Isso provou que 1 − kak
≤ 1 e, portanto, a ∈ A+ .
Corolário 26.10 Seja A uma álgebra C∗ com unidade. Se a, b ∈ A+ então a + b ∈ A+ . 2
Prova. a + b = 2( a+b
2
). Agora, a+b
2
∈ A+ pois é uma combinação linear convexa de elementos de A+ ,
a+b
que é convexo. Logo, 2( 2 ) ∈ A+ , pois A+ é um cone.
Corolário 26.11 Seja A uma álgebra C∗ com unidade. Se para algum z ∈ A valer −z ∗ z ∈ A+ , então
z = 0. 2
Prova. Pela Proposição 26.19, página 1298, σ(z ∗ z) \ {0} = σ(zz ∗ ) \ {0}. Assim, se −z ∗ z é auto-adjunto
e positivo, −zz ∗ também o é. Logo, pelo Corolário 26.10, −z ∗ z − zz ∗ é auto-adjunto e positivo.
Definamos x := (z + z ∗ )/2 e y := (z − z ∗ )/(2i). Tem-se que
−A+ ∋ −(−z ∗ z − zz ∗ ) = 2x2 + 2y 2 .
Como x e y são auto-adjuntos 2x2 e 2y 2 são positivos e, pelo Corolário 26.10, 2x2 + 2y 2 também o
é. Assim, provamos que 2x2 + 2y 2 ∈ A+ ∩ (−A+ ). Pelo Teorema 26.19, isso implica 2x2 + 2y 2 = 0
e, pela Proposição 26.30, segue que x2 = 0 e y 2 = 0. Pela propriedade C∗ da norma, segue que
kxk2 = kx2 k = 0, provando que x = 0. Analogamente prova-se que y = 0. Como z = x + iy, segue que
z = 0.
Chegamos agora ao resultado mais importante a respeito de elementos auto-adjuntos positivos em

álgebras C∗ .
Teorema 26.20 Em uma uma álgebra C∗ com unidade A todo elemento da forma x∗ x é positivo. Pelo
item 3 da Proposição 26.31, concluı́mos que uma condição necessária e suficiente para que um elemento
auto-adjunto v ∈ A seja positivo é que exista x ∈ A tal que v = x∗ x. 2
Prova. Seja a = x∗ x, que obviamente é auto-adjunto. Pela Proposição 26.32, podemos escrever a =
a+ − a− onde a± são auto-adjuntos e positivos, comutam com a e satisfazem a+ a− = a− a+ = 0.
Tudo o que queremos é provar que a− = 0. Seja w = xa− . Temos que −w ∗ w = −a− x∗ xa− =
−a− (a+ − a− )a− = (a− )3 . Como a− é positivo, (a− )3 também o é (pelo Teorema 26.14, página 1299).
Logo, −w ∗ w é positivo. Pelo Corolário 26.11, isso implica w = 0, ou seja, xa− = 0. Multiplicando à
esquerda por x∗ , teremos 0 = x∗ xa− = (a+ − a− )a− = −(a− )2 . Como a− é auto-adjunto, a propriedade
C∗ da norma implica ka− k2 = k(a− )2 k = 0. Assim, x∗ x = a+ , que é positivo por construção.
26.3.7 O Lema da Raiz Quadrada em espaços de Hilbert. A Decomposição

Polar
Os resultados acima estabeleceram algumas condições suficientes para que um elemento de uma álgebra
de Banach possua uma raiz quadrada. Vamos agora particularizar essa análise para operadores auto-
adjuntos agindo em espaços de Hilbert. O resultado que obtemos é o Lema da Raiz Quadrada, a
seguir. Devemos informar o leitor que esse Lema pode ser também demonstrado por outros meios, a
saber, através do Teorema Espectral para operadores auto-adjuntos agindo em espaços de Hilbert (vide
Seção 26.6.1, página 1352). A análise abaixo tem, porém, certas vantagens, por exemplo, por permitir
demonstrar de modo relativamente simples que a raiz quadrada de um operador compacto e positivo é
também um operador compacto.
Um operador limitado e auto-adjunto A agindo em um espaço de Hilbert H é dito ser positivo
se hφ, Aφi ≥ 0 para todo φ ∈ H. Anteriormente, havı́amos dito que um operador auto-adjunto era
positivo se seu espectro o fosse. O importante lema abaixo diz-nos, incidentalmente, que essas duas
noções de positividade são equivalentes.
Teorema 26.21 (Lema da Raiz Quadrada.) Seja H um espaço de Hilbert complexo e seja A ∈
B(H), auto-adjunto e positivo, ou seja, tal que hφ, Aφi ≥ 0 para todo φ ∈ H. Então existe um único
B ∈ B(H) igualmente auto-adjunto e positivo tal que B 2 = A. 2

A
Prova. Pelo Corolário 26.9 é suficiente mostrar que
1 − ≤ 1. Usando o Teorema 26.12, página
kAk
1288, tem-se que

hφ, Aφi
1 − A = sup φ, 1 −
A
φ = sup 1 − ≤ 1
kAk kAk kAk
φ∈H, kφk=1 φ∈H, kφk=1
pois
hφ, Aφi
0≤ ≤1 (26.49)
kAk
para kφk = 1. Pelo Corolário 26.9 e pela prova do Teorema 26.18, tem-se que existe B satisfazendo
B 2 = A, a saber, !
X∞
B = kAk1/2 1 + cn (1 − A′ )n , (26.50)
n=1
A
com A′ := . Essa expressão mostra que B é auto-adjunto (pois é o limite em norma de uma
kAk
seqüência de operadores auto-adjuntos). Como a soma é convergente em norma, tem-se pela continui-
dade do produto escalar que
∞
!
X
hφ, Bφi = kAk1/2 1 + cn hφ, (1 − A′ )n φi , (26.51)
n=1
para φ ∈ H com kφk = 1.

Vamos mostrar agora que 0 ≤ hφ, (1 − A′ )n φi ≤ 1. De fato, se n é par, n = 2m, temos
hφ, (1 − A′ )n φi = h(1 − A′ )m φ, (1 − A′ )m φi = k(1 − A′ )m φk2 ≥ 0.
Se n é ı́mpar, n = 2m + 1, temos

ψ ′ ψ
hφ, (1 − A ) φi = hψ, (1 − A )ψi = 1 −
′ n ′
, A kψk2 ≥ 0,
kψk kψk
por (26.49), onde ψ = (1 − A′ )m φ. Assim,
0 ≤ hφ, (1 − A′ )n φi ≤ k(1 − A′ )n k = k(1 − A′ )kn ≤ 1.
Retornando à (26.51) e lembrando que cn ≤ 0 para n ≥ 1, tem-se

∞
!
X √
hφ, Bφi ≥ kAk1/2 1 + cn = kAk1/2 1 − 1 = 0.
n=1
Isso mostra que B é positivo.

Vamos agora provar20 a unicidade de B. Comecemos notando que se T é um operador que comuta
com A, então T comuta com B, devido ao fato de o lado direito de (26.50) ser convergente em norma.
Seja então B ′ auto-adjunto e positivo tal que (B ′ )2 = A. Então (B ′ )3 = B ′ A = AB ′ , mostrando

que B ′ e A comutam. Assim B e B ′ também comutam (por (26.50)). Usando essa comutatividade,
0 = (A − A)(B − B ′ ) = (B 2 − (B ′ )2 )(B − B ′ ) = (B − B ′ )(B + B ′ )(B − B ′ ) = B1 + B2 ,
onde B1 = (B − B ′ )B(B − B ′ ) e B2 = (B − B ′ )B ′ (B − B ′ ).
Sucede, porém, que para todo ψ ∈ H,
hψ, B1 ψi = h(B − B ′ )ψ, B(B − B ′ )ψi ≥ 0
pela positividade de B e, analogamente,
hψ, B2 ψi = h(B − B ′ )ψ, B ′ (B − B ′ )ψi ≥ 0
pela suposta positividade de B ′ . Como B1 + B2 = 0, segue que B1 = B2 = 0.

Assim,
0 = B1 − B2 = (B − B ′ )B(B − B ′ ) − (B − B ′ )B ′ (B − B ′ )
= (B − B ′ )(B(B − B ′ ) − B ′ (B − B ′ )) = (B − B ′ )3 .
Logo, usando duas vezes a propriedade C∗ da norma, tem-se
0 = k(B −B ′ )4 k = k((B −B ′ )2 )∗ (B −B ′ )2 k = k(B −B ′ )2 k2 = k(B −B ′ )∗ (B −B ′ )k2 = kB −B ′ k4 ,
o que prova que kB − B ′ k = 0, ou seja, B = B ′ .
• A raiz quadrada de um operador positivo e a unidade

20
Seguiremos basicamente [116].
Vimos acima em (26.50) que se A é um operador limitado não-nulo, auto-adjunto e positivo agindo
em um espaço de Hilbert H então
" ∞ n #
√ X A
A := kAk1/2 1 + cn 1 − , (26.52)
n=1
kAk
√
é igualmente auto-adjunto e satisfaz ( A)2 = A. Claramente,
" N n #
√ X A
A := lim kAk1/2 1 + cn 1−
N →∞
n=1
kAk
" N
# " N n p #
X X X n A
:= lim kAk1/2 1 + cn 1 + lim kAk1/2 cn (−1)p .
N →∞
n=1
N →∞
n=1 p=1
p kAk
PN PN
Como c0 = 1, temos 1 + n=1 cn = n=0 cn . Tem-se para qualquer N ≥ 1 que
N
X N
X ∞
X ∞
X
n
√ n
cn = lim cn t = lim 1 − t − lim cn t = − lim cn tn .
t→1− t→1− t→1− t→1−
n=0 n=0 n=N +1 n=N +1
P∞
P∞por (26.A.1), a série n=0 cn converge absolutamente e, portanto, temos
Note-se agora que, P∞ para qual-
quer ǫ > 0 que |c n | ≤ ǫ para todo N grande o suficiente. Assim, para |t| < 1, c n tn
≤
P∞ n=N +1 n=N +1
n=N +1 |cn | ≤ ǫ, para todo N grande o suficiente. Logo,
N ∞
X ∞
X X

cn = lim cn tn = lim cn tn ≤ ǫ.
n=0 t→1− t→1−
n=N +1 n=N +1
N
X
Tomando ǫ → 0, concluı́mos que lim cn = 0 e daı́ segue que
N →∞
n=0
" N n p #
√ X X n A
A = lim kAk1/2 cn (−1)p . (26.53)
N →∞
n=1 p=1
p kAk
ou seja, √
A = lim PN (A) , (26.54)
N →∞
onde PN (A) é o polinômio em A dado por

N
X N
X
p n p
PN (A) := pN, p A , onde pN, p ≡ pN, p (kAk) := (−1) cn kAk1/2−p . (26.55)
p=1 n=p
p
O interessante nas expressões (26.53)-(26.55) é que cada PN (A) não contém nenhum termo da forma
const. 1, ou seja, proporcional à unidade 1 (note o leitor que a soma em p em (26.55) começa em p = 1).
Esse fato será relevante quando discutirmos a raiz quadrada de operadores compactos e positivos.
• A Decomposição Polar de Operadores Limitados em Espaços de Hilbert
É um fato elementar
p que todo número complexo z pode ser representado na forma polar z = eiθ ρ
com ρ = |z| = x2 + y 2 , x e y sendo as partes real e imaginária de z, respectivamente. No caso de
operadores limitados agindo em espaços de Hilbert há uma relação semelhante que discutiremos agora.
Se A é um operador limitado agindo em um espaço de Hilbert H, é claro que A∗ A é um operador
auto-adjunto e positivo, pois hψ, A∗ AψiH = hAψ, AψiH = kAψk2 ≥ 0 para todo ψ ∈ H. Portanto,
pelo Teorema 26.21, página 1316, A∗ A possui uma raiz quadrada, a qual é igualmente um operador
√auto-
adjunto e positivo (e unicamente definida por essas propriedades). Vamos denotá-la por |A| := A∗ A,
a qual será denominada o módulo de A. Vale então o seguinte.
Teorema 26.22 (A Decomposição Polar de Operadores Limitados em Espaços de Hilbert)
Seja A ∈ B(H) um operador limitado agindo
√ em um espaço de Hilbert H. Então A pode ser es-
∗
crito na forma A = U|A|, onde |A| := A A e U ∈ B(H) é uma isometria parcial a qual satisfaz
Ran (U) = Ran (A) e é unicamente determinada pela condição Ker (U) = Ker (A). 2
Prova. Comecemos observando que

|A|ψ = Aψ , ∀ψ ∈ H , (26.56)
pois

|A|ψ 2 = h|A|ψ, |A|ψi = hψ, |A|2 ψi = hψ, A∗ Aψi = hψ, A∗ Aψi = hAψ, Aψi = Aψ 2 .
H H H H H
O fato que k|A|ψk = kAψk implica, obviamente, que |A|ψ = 0 se e somente se Aψ = 0, ou seja,
Ker (|A|) = Ker (A). Podemos então definir uma função bijetora U : Ran (|A|) → Ran (A) por
U (|A|ψ) := Aψ , ∀ψ ∈ H . (26.57)
O próximo passo é mostrar que U é linear. De fato, para α, β ∈ C e ψ, φ ∈ H, arbitrários, tem-se

(26.57) (26.57)
U α|A|ψ+β|A|φ = U |A|(αψ+βφ) = A(αψ+βφ) = αAψ+βAφ = αU(|A|ψ)+βU(|A|φ) ,
o que prova a linearidade de U. Passamos assim a escrever (26.57) como U|A|ψ := Aψ, o que incidental-
mente mostra que A = U|A|, pois ψ ∈ H é arbitrário. A relação (26.56) diz-nos que kU|A|ψk = kAψk
e, portanto, a norma de U, restrito a Ran (|A|) é igual a 1.
Sabemos que o completamento de Ran (A) é o seu fecho Ran (A) e podemos considerar U como
uma aplicação de Ran (|A|) em Ran (A). Pelo Teorema BLT (Teorema 26.1, página 1254), U possui
uma extensão única ao completamento Ran (|A|), que é Ran (|A|), sendo que essa extensão também
tem norma 1. Para evitar sobrecarregar a notação denotamos essa extensão também por U, valendo
U : Ran (|A|) → Ran (A). Como kUk = 1, U é uma isometria.
⊥
Notemos agora que Ran (|A|) = Ran (|A|)⊥ (vide Proposição 25.2, página 1229). Agora, φ ∈
Ran (|A|)⊥ se e somente se hφ, |A|ψiH = 0 para todo ψ ∈ H. Como |A| é auto-adjunto, isso implica
que φ ∈ Ran (|A|)⊥ se e somente se h|A|φ, ψiH = 0 para todo ψ ∈ H. Logo, φ ∈ Ran (|A|)⊥ se e
somente se |A|φ = 0 e, por (26.56), se e somente se Aφ = 0. Assim, concluı́mos que
⊥ (26.56)
Ran (|A|) = Ran (|A|)⊥ = Ker (|A|) = Ker (A) . (26.58)
Vamos agora estender U para todo H. Uma possı́vel extensão é a seguinte. Lembremos pelo
Teorema da Decomposição Ortogonal (Teorema 25.2, página 1229) que todo ξ ∈ H pode ser escrito na
⊥
forma ξ = χ + φ com χ ∈ Ran (|A|) e φ ∈ Ran (|A|) . Assim, definimos Uξ := Uχ, o que equivale
⊥
a impor que U age como o operador nulo em Ran (|A|) . Novamente, denotamos essa extensão
⊥
também por U e, como Ran (|A|) = Ker (A) (vide (26.58)), continua valendo A = U|A|. Como U
⊥
é uma isometria quando restrito a Ran (|A|) , tem-se Ker (U) = Ker (A).
Provemos agora a unicidade. Seja V uma isometria parcial tal que A = V |A| e Ker (V ) = Ker (A).
É evidente que para todo ψ ∈ H vale 0 = Aψ − Aψ = V |A|ψ − U|A|ψ, o que prova que V = U em
Ran (|A|) e, conseqüentemente, em Ran (|A|), pois U e V são limitados. Como V e U são nulos em
⊥
Ran (|A|) = Ker (A), concluı́mos que V = U em toda parte.
26.4 Um Pouco sobre Estados e Representações de Álgebras

C∗
Conforme a definição que apresentamos em páginas anteriores, uma álgebra normada C é dita ser uma
álgebra C∗ se for uma álgebra de Banach-∗ com relação a uma certa norma k · k e com a propriedade
adicional que ka∗ ak = kak2 para todo a ∈ C. Álgebras C∗ têm, como teremos a oportunidade de ver,
uma relação ı́ntima com a teoria de operadores em espaços de Hilbert, até mesmo por que a álgebra
B(H) dos operadores limitados agindo em um espaço de Hilbert H é um exemplo básico de álgebra C∗ .
Por abstraı́rem e generalizarem várias das propriedades de álgebras de operadores agindo em espaços
de Hilbert, álgebras C∗ desempenham também um papel importante na Fı́sica Quântica. Vamos nesta
seção discutir algumas das suas propriedades mais básicas.
• Funcionais Lineares em Álgebras C∗
Se C é uma álgebra C∗ , uma aplicação φ : C → C é dita ser um funcional linear se φ(αa + βb) =
αφ(a) + βφ(b) para todos α, β ∈ C e todos a, b ∈ C. Como toda álgebra C∗ é um espaço de Banach
vale também a afirmação que um funcional linear φ é contı́nuo se e somente se for limitado, ou seja, se
existir M ≥ 0 tal que kφ(a)k ≤ Mkak para todo a ∈ C. Se um funcional linear φ é limitado sua norma
é definida por kφk = supa∈C, a6=0 |φ(a)|
kak
. Claramente vale também aqui a afirmação que o conjunto dos
funcionais lineares limitados é um espaço de Banach em relação à essa norma.
Um funcional linear φ é dito ser positivo se φ(a∗ a) ≥ 0 para todo a ∈ C. Funcionais lineares
positivos desempenham um importante papel na teoria das álgebras C∗ .
Se φ é um funcional linear positivo de uma álgebra C∗ , C, podemos definir em C uma forma

sesquilinear positiva (para a definição, vide página 119) dada por
ha, bi = φ(a∗ b), a, b ∈ C.
E. 26.20 Exercı́cio. Verifique que isso é de fato uma forma sesquilinear positiva em C. 6
Pelo Teorema 2.6, página 121, valem para qualquer funcional linear positivo φ as seguintes propri-
edades:
φ(a∗ b) = φ(b∗ a) (26.59)
e
|φ(a∗ b)|2 ≤ φ(a∗ a)φ(b∗ b), (26.60)
denominada desigualdade de Cauchy-Schwarz. De (26.59) é possı́vel provar que para qualquer funcional
linear positivo φ vale φ(a∗ ) = φ(a) para todo a ∈ C. A prova é trivial no caso de a álgebra ter uma
identidade (tome-se b = 1 em (26.59)). Para a prova no caso geral, veja as referências [17], [33] ou [9].
Um importante resultado sobre funcionais lineares positivos é o seguinte.
Teorema 26.23 Todo funcional linear positivo em uma álgebra C∗ é limitado e, portanto, contı́nuo.
Fora isso, se a álgebra tiver unidade e φ é um funcional positivo vale kφk = φ(1). 2
Prova. Apresentaremos apenas a demonstração para álgebras que possuem uma unidade. A demons-
tração completa pode ser encontrada, por exemplo, nas referências [17], [33] ou [9].
Notemos primeiramente que se φ é um funcional linear positivo em uma álgebra com unidade então
φ(1) ≥ 0, pois φ(1) = φ(1∗ 1) ≥ 0, já que φ é positivo.
Seja x ∈ C com a propriedade que kxk ≤ 1. Então o Corolário 26.7, página 1311, diz-nos que existe
um elemento y ∈ C tal que 1 − x∗ x = y ∗y. Se φ é um funcional linear positivo, tem-se então que
φ(1 − x∗ x) = φ(y ∗y) ≥ 0, ou seja,
0 ≤ φ(x∗ x) ≤ φ(1). (26.61)
Por outro lado, vale que
|φ(x)|2 = |φ(1∗ x)|2 ≤ φ(1∗ 1)φ(x∗ x) = φ(1)φ(x∗ x) ≤ φ(1)2 ,
onde usamos a desigualdade de Cauchy-Schwarz (26.60) na primeira desigualdade e (26.61) na última

a
desigualdade. Se a é um elemento não-nulo arbitrário de C então x = é tal que kxk = 1 e, por
kak
isso, vale pela relação que acabamos de provar:
2
a
φ ≤ φ(1)2
kak
o que implica |φ(a)| ≤ φ(1)kak, para todo a 6= 0. Como essa relação vale trivialmente para a = 0, vale
para todo a ∈ C, provando que φ é limitado.
Mostremos agora que kφk = φ(1) para qualquer funcional linear positivo φ. Notemos primeiramente
que φ(1) ≤ kφk k1k, ou seja,
φ(1) ≤ kφk. (26.62)
Agora, pela desigualdade de Cauchy-Schwarz (26.60) temos
|φ(a)|2 = |φ(1∗ a)|2 ≤ φ(1) φ(a∗a) ≤ φ(1)kφk ka∗ak = φ(1) kφk kak2,
o que implica
|φ(a)|2
kφk2 = sup ≤ φ(1)kφk,
a6=0 kak2
que diz-nos que
kφk ≤ φ(1).
Junto com (26.62), isso implica kφk = φ(1), como querı́amos.
• Estados em Álgebras C∗
Um funcional linear positivo ω de uma álgebra C∗ é dito ser um estado se for normalizado de forma
que kωk = 1. Se a álgebra tiver uma unidade isso equivale a dizer que ω(1) = 1.
Estados desempenham um papel da maior importância na teoria das álgebras C∗ e suas aplicações
em Fı́sica pois, como teremos a oportunidade de discutir, estados de álgebras C∗ estão intimamente
ligados a estados fı́sicos de sistemas quânticos (daı́ a escolha do nome “estado”).
Por ora, e já no intuito de preparar essa discussão, mostremos uma construção importante que pode
ser feita com estados de uma álgebra C∗ , a chamada construção GNS, que consiste em um procedimento
canônico de obtenção de representações de álgebras C∗ em espaços de Hilbert, algo de suma relevância
para as aplicações de álgebras C∗ na fı́sica quântica.
• Vetores Cı́clicos
Seja H um espaço de Hilbert e S um conjunto de operadores limitados agindo em H. Um vetor

Ω ∈ H é dito ser um vetor cı́clico para o conjunto S se o conjunto de vetores {AΩ, A ∈ S} for um
conjunto denso em H.
• A Construção GNS
Teorema 26.24 Seja ω um estado de uma álgebra C∗ que denotaremos por C. É possı́vel com esses
ingredientes construir um espaço de Hilbert Hω e uma representação πω da álgebra C por operadores
limitados agindo em Hω tal que πω (a∗ ) = πω (a)∗ para todo a ∈ C (uma representação com essa propri-
edade é dita ser uma representação-∗). Fora isso, se a álgebra C possuir uma unidade então existe em
Hω um vetor Ω com a propriedade que ω(a) = hΩ, πω (a)ΩiHω . Esse vetor Ω é um vetor cı́clico para a
representação πω , ou seja, {πω (a)Ω, a ∈ C} é um conjunto denso em Hω . 2
A construção do espaço de Hilbert Hω e da representação πω é denominada construção GNS em

honra a Gelfand21 , Naimark22 e Segal23 que a desenvolveram nos anos 1940.
Prova. A idéia da demonstração é usar o fato que C é um espaço vetorial e tentar transformar C em
um espaço de Hilbert, definindo primeiramente em C um produto escalar.
Podemos, usando o estado ω, definir em C uma forma sesquilinear positiva por ha, bi := ω(a∗ b) com
a, b ∈ C. Sucede, porém, que pode haver elementos não-nulos n da álgebra para os quais ω(n∗ n) = 0.
Para esses elementos terı́amos hn, ni = 0 com n 6= 0. Isso diz-nos que a forma sesquilinear positiva
acima não é, em geral, um produto escalar e, portanto, essa tentativa ingênua de fazer de C um espaço
de Hilbert em geral falha. Há, no entanto, um procedimento que permite contornar esse problema,
o qual passaremos a descrever. Esse procedimento já foi, aliás, discutido no tópico sobre “Formas
Sesquilineares Positivas e Produtos Escalares”, página 125.
Vamos olhar mais de perto o conjunto dos elementos n da álgebra com a propriedade acima. De-
nominemos
N = {n ∈ C| ω(n∗ n) = 0}. (26.63)
Vamos mostrar os seguintes três fatos sobre N:
1. Tem-se que
N = {n ∈ C| ω(b∗ n) = 0 para todo b ∈ C}.
2. N é um sub-espaço linear fechado de C.
3. N é um ideal à esquerda de C, ou seja, para cada n ∈ N vale que an ∈ N para todo a ∈ C.
Prova de 1. Seja N1 = {n ∈ C| ω(b∗ n) = 0 para todo b ∈ C}. Pela desigualdade de Cauchy-

Schwarz tem-se que
|ω(b∗ n)|2 ≤ ω(b∗ b)ω(n∗ n).
Assim, se n ∈ N vale que ω(b∗ n) = 0 para todo b ∈ C. Logo N ⊂ N1 . Agora, se n′ ∈ N1 então
ω(b∗ n′ ) = 0 para todo b, em particular para b = n′ , ou seja, ω((n′ )∗ n′ ) = 0, ou seja, n′ ∈ N, provando
que N1 ⊂ N. Logo, N = N1 .
Prova de 2. Sejam m, n ∈ N e α, β ∈ C. Então para qualquer b ∈ C valem ω(b∗ m) = ω(b∗ n) = 0.
Logo,
ω(b∗ (αm + βn)) = αω(b∗ m) + βω(b∗ n) = 0,
mostrando que αm + βn ∈ N.
Seja ni , i ∈ N, uma seqüência em N que converge a um elemento n ∈ C. Pela continuidade de ω
(lembre-se que ω é um funcional linear positivo e, portanto, contı́nuo), vale para todo b ∈ C
ω(b∗ n) = lim ω(b∗ ni ) = lim 0 = 0,

i→∞ i→∞
provando que N é fechado.

21
22
Mark Aronovich Naimark (1909-1978).
23
I. E. Segal ().
Prova de 3. Sejam n ∈ N, a, b ∈ C. Temos que
ω(b∗ (an)) = ω((a∗ b)∗ n) = 0 (por que?).
Assim, para todo b ∈ C vimos que ω(b∗ (an)) = 0, o que prova que an ∈ N para todo a ∈ C e todo
n ∈ N, ou seja, N é um ideal à esquerda de C.
Uma vez provadas essas três propriedades de N, vamos retomar a construção do espaço de Hilbert
Hω . Como N é um sub-espaço de C, podemos construir o sub-espaço quociente C/N pela construção
delineada na seção 2.1.1, página 100. O espaço C/N é formado pelas classes de equivalência [a] =
{a + n, n ∈ N}, a ∈ C e tem por vetor nulo [0] = {n, n ∈ N} = N.
Seguindo a idéia anterior, definimos em C/N a forma sesquilinear positiva dada por
h[a], [b]i = ω(a∗ b).
Notemos que essa expressão é bem-definida, no sentido que o lado direito não depende do representante
tomado nas classes. Assim, se substituı́ssemos a por a + n com n ∈ N, o lado direito ficaria
ω((a + n)∗ b) = ω(a∗ b) + ω(n∗ b) = ω(a∗ b)
pois ω(n∗ b) = ω(b∗ n) = 0. Analogamente ω(a∗ (b + n)) = ω(a∗ b). Notemos também que h[a], [b]i é
agora um produto escalar, pois h[a], [a]i = ω(a∗ a) que é zero se e somente se a ∈ N, em cujo caso
terı́amos [a] = [0] (por que?).
O espaço C/N é assim um espaço vetorial dotado de um produto escalar. Normalmente C/N
não é completo em relação à norma induzida por esse produto escalar, mas podemos considerar seu
completamento canônico C/N g (vide página 952) que é completo e, portanto, é um espaço de Hilbert.
g
Esse é o espaço de Hilbert Hω do enunciado do teorema: Hω = C/N.
Passemos agora à construção da representação πω da álgebra C. Pela construção do completamento
canônico podemos considerar C/N como um subconjunto denso de Hω = C/N. g Para a ∈ C, definamos
πω (a) em C/N da seguinte forma:
πω (a)[z] = [az], (26.64)
z ∈ C.
Há uma série de coisas a se provar sobre essa definição. Primeiro notemos que a expressão (26.64)
é bem definida no sentido que independe do elemento z tomado na classe. Isso se deve ao fato de
N ser um ideal à esquerda da álgebra C. Assim, se trocássemos z por z + n com n ∈ N terı́amos
a(z + n) = az + an e como an ∈ N, segue que [a(z + n)] = [az].
É também evidente pela definição (26.64) que em C/N tem-se para todo [z] ∈ C/N que
πω (αa + βb)[z] = απω (a)[z] + βπω (b)[z] (26.65)
e
πω (a)πω (b)[z] = πω (ab)[z], (26.66)
para todos α, β ∈ C e todos a, b ∈ C. Notemos que (26.65) e (26.66) dizem que πω é uma representação
de C em C/N. Mais abaixo vamos mostrar que essas relações são válidas não apenas no conjunto denso
C/N, mas em todo Hω .
Vamos agora mostrar que para cada a ∈ C, πω (a) é um operador limitado agindo em C/N.
Temos que para [z] ∈ C/N, [z] 6= [0]
kπω (a)[z]k2 = k[az]k2 = h[az], [az]i = ω((az)∗ (az)) = ω(z ∗ (a∗ a)z)
ω(z ∗ (a∗ a)z) ∗ ω(z ∗ (a∗ a)z)

= ω(z z) = k[z]k2 . (26.67)
ω(z ∗ z) ω(z ∗ z)
Tem-se, porém, que
ω(z ∗ az)
φ(a) := (26.68)
ω(z ∗ z)
é um estado em C. De fato φ é positivo, pois
ω(z ∗ (c∗ c)z) ω((cz)∗ (cz))
φ(c∗ c) = = ≥ 0
ω(z ∗ z) ω(z ∗ z)
pois ω é positivo. Fora isso φ(1) = 1, como facilmente se vê. Assim, tem-se kφk = 1 e, portanto,
|φ(c)| ≤ kφk kck ≤ kck para todo c ∈ C.
Retornando à (26.67), tem-se
kπω (a)[z]k2 = φ(a∗ a) k[z]k2 ≤ kφk ka∗ ak k[z]k2 = ka∗ ak k[z]k2 = kak2 k[z]k2 ,
donde concluı́mos que em C/N vale

kπω (a)k ≤ kak.
Isso provou que πω (a) é um operador limitado agindo no sub-espaço denso C/N. Podemos então
evocar o Teorema BLT (página 1254) e dizer que πω (a) tem uma extensão única para todo Hω , que
também denotaremos por πω (a), com a mesma norma operatorial. Portanto, vale também para essa
extensão que kπω (a)k ≤ kak.
Pela continuidade de πω (a) é fácil ver que as relações (26.65) e (26.66) valem para todo Hω , ou seja,
πω (αa + βb) = απω (a) + βπω (b) (26.69)
e
πω (a)πω (b) = πω (ab), (26.70)
provando que πω é uma representação da álgebra por operadores limitados em Hω .
Falta-nos mostrar ainda que πω (a∗ ) = πω (a)∗ para todo a ∈ C. Notemos que para [x], [y] ∈ C/N
vale
h[x], πω (a∗ )[y]i = h[x], [a∗ y]i = ω(x∗ a∗ y) = ω((ax)∗ y)
= h[ax], [y]i = hπω (a)[x], [y]i = h[x], πω (a)∗ [y]i, (26.71)
provando que em C/N vale πω (a∗ ) = πω (a)∗ . Por continuidade essa relação pode ser estendida para
todo Hω , mostrando que πω é uma representação-∗ de C.
Se C tem uma unidade, seja Ω = [1] e calculemos hΩ, πω (a)Ωi:
hΩ, πω (a)Ωi = h[1], πω (a)[1]i = h[1], [a1]i = h[1], [a]i = ω(1∗ a) = ω(a).
Assim, vemos que o vetor Ω, em um certo sentido “representa” o estado ω em Hω , pois ω(a) =
hΩ, πω (a)Ωi para todo a ∈ C.
Que Ω á um vetor cı́clico para a representação πω é elementar pois, {πω (a)Ω, a ∈ C} = {[a], a ∈
C} = C/N e C/N é obviamente denso em Hω = C/N. g
Isso completa a demonstração do teorema.
• A Construção GNS. Um exemplo
Vamos agora mostrar a construção GNS em um caso mais ou menos explı́cito.

O Teorema 26.11, página 1281 diz-nos que para um espaço de Hilbert H o conjunto B(H) dos
operadores lineares agindo em H é uma álgebra C∗ . Para o caso em que H é o espaço de dimensão
finita Cn , B(H) coincide com a álgebra Mat(n, C) das matrizes n × n com entradas complexas.
Se M é uma matriz cujos elementos são Mij , i, j ∈ {1, . . . , n}, define-se o traço de M por
n
X
tr (M) = Mii .
i=1
É bem sabido que para duas matrizes quaisquer M e N vale a chamada propriedade cı́clica do traço:
tr (MN) = tr (NM). Fora isso, tem-se que
n
X n X
X n X n
n X n X
X n
∗ ∗ ∗
tr (M M) = (M M)ii = (M )ik Mki = Mki Mki = |Mki|2 ,
i=1 i=1 k=1 i=1 k=1 i=1 k=1
o que diz-nos que

tr (M ∗ M) ≥ 0 (26.72)
para qualquer matriz M.
Note-se também que se M é tal que tr (M ∗ M) = 0 então
n X
X n
|Mki |2 = 0,
i=1 k=1
o que só é possı́vel se Mij = 0 para todos i e j, ou seja,
tr (M ∗ M) = 0 ⇐⇒ M = 0. (26.73)
Seja ρ uma matriz n × n com as seguintes propriedades: ρ é auto-adjunta, seus autovalores ri

satisfazem ri ≥ 0. Como é bem sabido, se ρ é auto-adjunta, ρ pode ser diagonalizada por uma
transformação unitária, ou seja, existe uma matriz V ∈ Mat(n, C) unitária (V ∗ V = V V ∗ = 1) tal que
V ∗ ρV é a matriz diagonal  
 r1 
 
 
V ρV = Dρ = 
∗ .. .
 . 
 
 
rn
Dada uma matriz ρ como acima, podemos definir uma matriz ρ1/2 da seguinte forma:
ρ1/2 := V Dρ1/2 V ∗ ,
onde  
√
 r1 
 
 
Dρ1/2 =  .. .
 . 
 
 √ 
rn
É fácil ver que
ρ1/2 ρ1/2 = (V Dρ1/2 V ∗ )(V Dρ1/2 V ∗ ) = V (Dρ1/2 )2 V ∗ = V Dρ V ∗ = ρ.
Para futuros propósitos vamos definir também P , o projetor ortogonal sobre o sub-espaço fechado
Im(ρ1/2 ): se Cn ∋ u = v + w, com v ∈ Im(ρ1/2 ) e w ∈ (Im(ρ1/2 ))⊥ então
P u = v. (26.74)
É fácil mostrar que P é auto-adjunto e satisfaz (P )2 = P (mostre!). Fora isso, é óbvio pela definição
que P ρ1/2 = ρ1/2 . Como ρ1/2 é auto-adjunto, concluı́mos que
ρ1/2 = (ρ1/2 )∗ = (P ρ1/2 )∗ = ρ1/2 P,
o que mostra que

P ρ1/2 = ρ1/2 P = ρ1/2 .
Isso tem por conseqüência que
P ρP = (P ρ1/2 )ρ1/2 P = ρ1/2 ρ1/2 = ρ. (26.75)
Usaremos isso adiante.

Vamos supor que ρ também satisfaça tr (ρ) = 1. Então, é fácil constatar que
Mat(n, C) ∋ A 7→ ωρ (A) = tr (ρA)
é um estado em Mat(n, C). De fato, ωρ é um funcional linear e também positivo, pois
ωρ (A∗ A) = tr (ρA∗ A) = tr (ρ1/2 ρ1/2 A∗ A) = tr (ρ1/2 A∗ Aρ1/2 ) = tr ((Aρ1/2 )∗ Aρ1/2 ) ≥ 0, (26.76)

pela propriedade (26.72). Fora isso, é claro que ωρ (1) = tr (ρ1) = tr (ρ) = 1.
É possı́vel mostrar (não o faremos aqui) que todo estado de Mat(n, C) é da forma ωρ , para algum
ρ com as propriedades acima.
Uma primeira tentativa
Como Mat(n, C) é também um espaço vetorial. Vamos definir em Mat(n, C) um produto escalar
dado por
hA, Bi = tr (A∗ B). (26.77)
Por (26.72) e (26.73) segue que h·, ·i é de fato um produto escalar.
E. 26.21 Exercı́cio. Mostre que Mat(n, C) é um espaço de Hilbert com o produto escalar de (26.77).
6
O exercı́cio acima diz-nos que o espaço vetorial Mat(n, C) é um espaço de Hilbert com o produto
escalar h·, ·i de (26.77). Como tal, denominaremos o espaço vetorial Mat(n, C) por H.
Definimos uma representação π de Mat(n, C) em H da seguinte forma:
π(A)B = AB,
para matrizes A e B ∈ Mat(n, C). É trivial verificar que π assim definida é uma representação da
álgebra Mat(n, C) em H.
Definindo-se
Ωρ := ρ1/2 ∈ H,
tem-se
hΩρ , π(A)Ωρ i = hρ1/2 , π(A)ρ1/2 i = hρ1/2 , Aρ1/2 i = tr ((ρ1/2 )∗ Aρ1/2 )
= tr (ρ1/2 Aρ1/2 ) = tr (ρ1/2 ρ1/2 A) = tr (ρA) = ωρ (A). (26.78)
Vemos assim que o vetor Ωρ = ρ1/2 “representa” o estado ωρ em H.

Um problema com essa construção é o seguinte. Pelas hipóteses assumidas não é sempre verdade
que ρ e ρ1/2 são invertı́veis. Conseqüentemente não podemos garantir que Ωρ é um vetor cı́clico
para a representação π, pois se ρ1/2 não for invertı́vel nem toda a matriz pode ser escrita da forma
π(A)ρ1/2 = Aρ1/2 , para algum A ∈ Mat(n, C) (por que?). Assim, caso ρ não possua inversa, a
construção apresentada acima não coincide com a construção GNS.
A Construção GNS
A alternativa correta é começar definindo em Mat(n, C) uma forma sesquilinear positiva dada agora
por
hA, Biρ = ωρ (A∗ B) = tr (ρA∗ B). (26.79)
Que h·, ·iρ é uma forma sesquilinear é claro. Que é positiva segue de (26.76).
Como hA, Aiρ = tr ((Aρ1/2 )∗ Aρ1/2 ), o conjunto N de (26.63) vem a ser agora
N = {N ∈ Mat(n, C)| Nρ1/2 = 0}.

Se ρ1/2 não for invertı́vel, N pode ter outros elementos além da matriz nula. Note que N = {N ∈
Mat(n, C)| Ker (N) ⊃ Im(ρ1/2 ) = 0} e que se ρ1/2 não é invertı́vel, não é sobrejetora, ou seja, Im(ρ1/2 )
é um conjunto menor que Cn .
Sejam as classes de equivalência [A] = {A+N, N ∈ N}, A ∈ Mat(n, C). Afirmamos que AP ∈ [A],
onde P é o projetor sobre Im(ρ1/2 ), definido em (26.74). De fato, como P ρ1/2 = ρ1/2 (por que?), segue
facilmente que
(AP − A)ρ1/2 = Aρ1/2 − Aρ1/2 = 0,
provando que AP − A ∈ N. Podemos assim identificar Mat(n, C)/N com o subconjunto de Mat(n, C)
formado pelas matrizes da forma AP com A ∈ Mat(n, C):
Mat(n, C)/N ≡ {AP, A ∈ Mat(n, C)}.
Como no caso da construção geral, definimos em Mat(n, C)/N um produto escalar por
hAP, BP iρ = ωρ ((AP )∗ BP ) = ωρ (P ∗ A∗ BP ) = ωρ (P A∗ BP )
= tr (ρP A∗ BP ) = tr ((P ρP )A∗B) = tr (ρA∗ B) = ωρ (A∗ B). (26.80)
Acima usamos (26.75).

É um exercı́cio simples (faça!) mostrar que Mat(n, C)/N é um espaço de Hilbert com esse produto
escalar.
Definimos uma representação πρ de Mat(n, C) agindo em Mat(n, C)/N por
πρ (A)BP = (AB)P,
A, B ∈ Mat(n, C).
Note-se também que Mat(n, C)/N ∋ 1P = P . É evidente que
{πρ (A)P, A ∈ Mat(n, C)} = {AP, A ∈ Mat(n, C)} = Mat(n, C)/N,
mostrando que P ∈ Mat(n, C)/N é um vetor cı́clico para a representação πρ .

Definindo-se
Ωρ := P ∈ Mat(n, C)/N,
teremos
hΩρ , πρ (A)Ωρ iρ = hP, AP iρ = ωρ (P ∗ AP ) = tr (ρP AP )
= tr ((P ρP )A) = tr (ρA) = ωρ (A), (26.81)
onde usamos novamente (26.75). Vemos assim que o vetor Ωρ “representa” o estado ωρ em Mat(n, C)/N.
26.5 O Espectro de Operadores em Espaços de Banach

A noção de espectro é de grande importância tanto no estudo de propriedades estruturais de operadores
quanto em aplicações. Na Fı́sica Quântica sua relevância manifesta-se já nos seus fundamentos, pois é
um postulado básico que os valores obtidos em mensurações individuais de um observável são elementos
do espectro do operador auto-adjunto a ele associado. Nessa seção trataremos de definir o conceito de
espectro de modo preciso e geral. O estudo do espectro de operadores tem uma de suas culminações
no teorema espectral, do qual trataremos com detalhe mais adiante em diversos casos de interesse.
Comecemos com uma advertência. Muitos estudantes, especialmente de Fı́sica, têm a noção pre-
concebida (oriunda de maus cursos e/ou de imprecisões matemáticas de alguns (muitos) livros-texto
introdutórios de Mecânica Quântica) que o espectro de um operador coincide com o conjunto de seus
autovalores. Essa noção é incorreta. Como discutiremos, o espectro de um operador é, em geral, maior
que o conjunto de seus autovalores. Há, de fato, certos tipos de operadores cujo espectro coincide
com o conjunto de autovalores (tal é o caso de matrizes agindo em espaços de dimensão finita, ou de
operadores compactos auto-adjuntos), mas tais situações são especiais. Há mesmo operadores (vere-
mos exemplos) que não possuem autovalores, mas têm um espectro não-trivial. Lamentavelmente, tal
noção incorreta é a fonte de muitos mal-entendidos (nem sempre inconseqüentes!) entre a comunidade
de fı́sicos e a de matemáticos e isso é mais uma razão para sugerirmos um estudo cuidadoso da noção
de espectro.
• O conjunto resolvente e o espectro de um operador
Seja X um espaço de Banach e seja T ∈ B(X) um operador limitado agindo em X. Dizemos que um
número complexo λ ∈ C é um elemento do conjunto resolvente de T se o operador λ1 − T for bijetor
como aplicação de X em X. Estamos no caso 1 do Teorema 26.13 e, pelo Teorema da Aplicação Inversa,
Teorema 26.8, página 1277, isso implica que (λ1 − T )−1 um operador limitado de X em X, ou seja, um
elemento de B(X).
Assim, definimos o conjunto resolvente de T ∈ B(X), denotado por ρ(T ), por
n o
ρ(T ) := λ ∈ C| λ1 − T é bijetor .
Dizemos que um número complexo λ ∈ C é um elemento do espectro de T se λ não for um elemento

do conjunto resolvente de T , ou seja, se λ1 − T não for bijetor como aplicação de X em X.
Assim, definimos o espectro de T ∈ B(X), denotado por σ(T ), por
σ(T ) := C \ ρ(T ) ,
ou seja, n o
σ(T ) := λ ∈ C| λ1 − T não é bijetor .
Nota. A razão da nomenclatura “conjunto resolvente” é a seguinte: em muitas aplicações (como

no caso de equações integrais) interessa-nos resolver equações do tipo (λ1 − T )ψ = φ para todo φ
elemento de um espaço de Banach X. Isso só é possı́vel se λ1 − T for bijetor, em cujo caso a solução é
ψ = (λ1 − T )−1 φ.
• Tipos de espectro. O espectros pontual, contı́nuo e residual
Um ponto de central importância na análise de propriedades de operadores é classificar seu espectro

de acordo com certas categorias. Há várias classificações que correspondem a vários tipos de espectro
(não-necessariamente disjuntos, como conjuntos): o espectro pontual, o espectro residual, o espectro

contı́nuo, o espectro absolutamente contı́nuo, o espectro singular contı́nuo, o espectro essencial, o
espectro transiente, o espectro recorrente e possivelmente outros. Trataremos de alguns desses tipos de
espectro nestas Notas, começando aqui pela classificação do espectro de operadores agindo em espaços
de Banach em espectro pontual, contı́nuo e residual.
Se T ∈ B(X) é um operador limitado agindo em um espaço de Banach X e λ é um elemento de
σ(T ), então λ1 − T não é bijetor. Estamos no caso 2 do Teorema 26.13, página 1294, o qual quebra-se
em três casos mutuamente exclusivos:
Caso a. O operador λ1 − T não é injetor, e (λ1 − T )−1 não pode ser definida na imagem de λ1 − T ,
pois Ker (λ1 − T ) é não-trivial, ou seja, existe v 6= 0 com T v = λv. Isso nos diz λ é autovalor de
T . Isso conduz à seguinte definição:
Denotamos por σp (T ) o conjunto de todos os autovalores de T :
σp (T ) := {λ ∈ C| ∃ x ∈ X, x 6= 0, tal que T x = λx} .
σp (T ) é denominado espectro pontual de T , ou espectro discreto de T ou ainda espectro de auto-

valores de T . Claro está que σp (T ) ⊂ σ(T ). É importante frisar que esses dois conjuntos podem
não ser coincidentes e que se pode ter σp (T ) = ∅. Veremos exemplos mais abaixo.
Caso b. O operador λ1 − T é injetor, Ker (λ1 − T ) é composto apenas pelo vetor nulo (e, portanto, λ
não é autovalor de T ). Fora isso Ran (λ1 −T ) é denso e (λ1 −T )−1 existe agindo em Ran (λ1 −T )
mas não é limitada. Isso conduz à seguinte definição:
Denotamos por σc (T ) o conjunto de todos os λ ∈ C tais λ não é um autovalor de T , Ran (λ1 − T )
é denso e (λ1 − T )−1 existe agindo em Ran (λ1 − T ) mas não é limitada. σc (T ) é denominado
espectro contı́nuo de T 24 .
Por fim, temos o
Caso c. O operador λ1 − T é injetor, Ker (λ1 − T ) é composto apenas pelo vetor nulo (e, portanto,
λ não é autovalor de T ). Porém, Ran (λ1 − T ) não é denso e (λ1 − T )−1 existe agindo em
Ran (λ1 − T ), podendo ser limitada ou não. Isso conduz à seguinte definição:
Denotamos por σr (T ) o conjunto de todos os λ ∈ C tais λ não é um autovalor de T , Ran (λ1 − T )
não é denso e (λ1 − T )−1 existe agindo em Ran (λ1 − T ), podendo ser limitada ou não. σr (T ) é
denominado espectro residual de T .
Está claro pelas definições acima que
σ(T ) = σp (T ) ∪ σc (T ) ∪ σr (T ) (26.82)
sendo a união disjunta. Os vários tipos de espectro descritos acima serão ilustrados em exemplos
apresentados mais abaixo (página 1336), aos quais o leitor poderá passar agora, se o desejar, mas
24
Vale aqui advertir o estudante que alguns textos, como [116], [121] e [78], adotam uma definição diferente de espectro
contı́nuo. Nossa definição é encontrada em textos como [155], [86] e outros.
para a uma melhor compreensão dos mesmos precisamos antes de alguns resultados gerais da teoria
espectral.
• O operador resolvente e propriedades topológicas do espectro
Se um número complexo λ pertence ao conjunto resolvente de T ∈ B(X), define-se o operador

resolvente de T calculado em λ, denotado por Rλ (T ), por
Rλ (T ) := (λ1 − T )−1 .
Pelas hipóteses Rλ (T ) é bijetor para todo λ ∈ ρ(T ) e é um elemento de B(X) (pelo Teorema da
Aplicação Inversa, Teorema 26.8, página 1277).
Muitas propriedades de ρ(T ) (e, portanto de σ(T )) podem ser derivadas de propriedades de seus
operadores resolventes. Por exemplo, mostraremos mais adiante que ρ(T ) é sempre um conjunto aberto
de C (e, portanto, σ(T ) é sempre um conjunto fechado de C) e mostraremos também que σ(T ) nunca
é igual a todo C (e, portanto, σ(T ) nunca é vazio).
Proposição 26.33 (Primeira identidade do resolvente) Seja X um espaço de Banach e T ∈
B(X). Se λ e µ pertencem ao conjunto resolvente ρ(T ) de T , então
Rλ (T ) − Rµ (T ) = (µ − λ)Rλ (T )Rµ (T ) . (26.83)
A demonstração é idêntica àquela da Proposição 26.22, página 1300. Iremos agora estabelecer uma
série de resultados sobre propriedades do operador resolvente que culminarão com a Proposição 26.36.
Todos são essencialmente casos particulares de resultados demonstrados acima no caso geral de álgebras
de Banach com unidade.
Lema 26.5 Seja X um espaço de Banach e T ∈ B(X). Se λ e µ pertencem ao conjunto resolvente
ρ(T ) de T e |λ − µ| < kRµ (T )k−1 então
" ∞
# " ∞
#
X X
Rλ (T ) = Rµ (T ) 1 + (µ − λ)n (Rµ (T ))n
= 1+ n
(µ − λ)n (Rµ (T )) Rµ (T ) . (26.84)
n=1 n=1
O lema acima é um caso particular do Lema 26.3, página 1300, para álgebras de Banach com
unidade gerais, e por isso sua demonstração é dispensada.
Proposição 26.34 Seja X um espaço de Banach e T ∈ B(X). Então ρ(T ) é um subconjunto aberto
de C, o que implica que σ(T ) é um subconjunto fechado de C. 2
Novamente, a proposição acima é um caso particular da Proposição 26.23, página 1301, para álgebras
de Banach com unidade gerais, e por isso sua demonstração é dispensada. A Proposição que segue é o
análogo da Proposição 26.24, página 1302, mas sua demonstração difere por um ligeiro detalhe.
Proposição 26.35 Seja X um espaço de Banach e T ∈ B(X). Então, para cada x ∈ X e para cada
ℓ ∈ X† , funcional linear contı́nuo em X, a função de variável complexa fx, ℓ : ρ(T ) → C dada por
fx, ℓ (λ) := ℓ(Rλ (T )x) é holomórfica (i.e. analı́tica) em cada componente conexa de ρ(T ). 2
Prova. Seja µ ∈ ρ(T ) e λ tal que |λ − µ| < kRµ (T )k−1. Tem-se por (26.84) que λ ∈ ρ(T ) e
∞
X !
(26.84) n n+1
fx, ℓ (λ) := ℓ(Rλ (T )x) = ℓ Rµ (T ) + (µ − λ) (Rµ (T )) x
n=1
∞
X
(µ − λ)n ℓ (Rµ (T ))n+1 x . (26.85)
continuidade
= ℓ(Rµ (T )x) +
n=1
Como
ℓ (Rµ (T ))n+1 x ≤ kℓk k (Rµ (T ))n+1 xk ≤ kℓk kRµ (T )kn+1 kxk
segue de |λ − µ| < kRµ (T )k−1 que a última série em (26.85) é absolutamente convergente e, portanto,
define uma função holomórfica na bola aberta de raio kRµ (T )k−1 centrada em µ, a qual pode, pelos
procedimentos usuais, ser estendida analiticamente à componente conexa de ρ(T ) que contém µ.
A proposição seguinte é importante, pois finalmente estabelece que o espectro de um operador

contı́nuo em um espaço de Banach nunca é vazio. Trata-se essencialmente de um caso particular da
Proposição 26.25 da página 1302, com a ligeira diferença que na demonstração substituı́mos as funções
fℓ pelas funções fx, ℓ definidas acima.
Proposição 26.36 Seja X um espaço de Banach e T ∈ B(X). Então, σ(T ) é um conjunto não-vazio
e está contido na bola fechada de raio kT k centrada em 0: {z ∈ C| |z| ≤ kT k}. 2
Prova. Vamos supor que ρ(T ) = C. Então, pela Proposição 26.35, para todo x ∈ X e para todo ℓ
funcional linear contı́nuo em X a função fx, ℓ (λ) := ℓ(Rλ (T )x) seria inteira, isto é, analı́tica em toda
parte. Agora, para |λ| > kT k
" ∞
#
X
Rλ (T ) = (λ1 − T )−1 = λ−1 (1 − λ−1 T )−1 = λ−1 1 + λ−n T n (26.86)
n=1
de acordo com (26.35) da Proposição 26.15, página 1295, pois pela hipótese kλ−1 T k < 1. Assim,
" ∞ n #
1 X kT k 1
kRλ (T )k ≤ 1+ = .
|λ| n=1
|λ| |λ| − kT k
Isso mostra que lim kRλ (T )k = 0. Logo, como |fx, ℓ (λ)| = |ℓ(Rλ (T )x)| ≤ kℓk kRλ(T )k kxk, segue
|λ|→∞
que lim |fx, ℓ (λ)| = 0. Com isso, concluı́mos que fx, ℓ (λ) é uma função inteira, limitada e converge
|λ|→∞
a zero no infinito. Pelo bem-conhecido Teorema de Liouville25 da Análise Complexa, isso implica que
fx, ℓ (λ) é identicamente nula para todo λ ∈ C. Se, porém, ℓ(Rλ (T )x) for nulo para cada funcional linear
contı́nuo ℓ então, pelo Corolário 26.1, página 1270, terı́amos Rλ (T )x = 0 para todo x ∈ X, um absurdo,
pois Rλ (T ) é a inversa de um operador. Assim concluı́mos que ρ(T ) não pode ser igual a todo C e,
portanto, σ(T ) 6= ∅.
Pela Proposição 26.15, página 1295, a expressão (26.86) mostra que Rλ (T ) está definida para todo
|λ| > kT k. Assim, {z ∈ C| |z| > kT k} ⊂ ρ(T ). Logo, σ(T ) ⊂ {z ∈ C| |z| ≤ kT k}.
• O espectro de operadores limitados em espaços de Hilbert
Vamos a partir de agora especializar nossa discussão para operadores agindo em espaços de Hil-
bert. Para apresentarmos nossos próximos resultados, vamos introduzir a seguinte notação: se S ⊂ C
denotamos por S cc o conjunto dos elementos complexo-conjugados de S: S cc := {z ∈ C| z ∈ S}.
Se T é um operador limitado agindo em um espaço de Hilbert H, então pelo item 7 do Teorema
26.11, página 1281 temos que se λ ∈ ρ(T ), vale ((λ1 − T )∗ )−1 = ((λ1 − T )−1 )∗ , o que significa que
λ ∈ ρ(T ∗ ) e Rλ (T )∗ = Rλ (T ∗ ). Provamos então o seguinte:
Proposição 26.37 Se T é um operador limitado agindo em um espaço de Hilbert H, então Rλ (T )∗ =
Rλ (T ∗ ) para todo λ ∈ ρ(T ), o que implica ρ(T ∗ ) = ρ(T )cc e σ(T ∗ ) = σ(T )cc . 2
• O espectro residual e o pontual em um espaço de Hilbert
A próxima proposição detalha um pouco mais a relação estabelecida na Proposição 26.37 entre σ(T )
e σ(T ∗ ). Dela extrairemos a informação importante que operadores auto-adjuntos agindo em espaços
de Hilbert não têm espectro residual.
Proposição 26.38 Se T é um operador limitado agindo em um espaço de Hilbert H, então
1. σr (T ) ⊂ σp (T ∗ )cc .
2. σp (T ) ⊂ σp (T ∗ )cc ∪ σr (T ∗ )cc . 2
Prova. Se λ ∈ σr (T ) então Ran (λ1 − T ) não é denso em H. Então existe φ ∈ Ran (λ1 − T )⊥ não-nulo.
Portanto, hφ, (λ1 − T )ψi = 0 para todo ψ ∈ H. Isso diz que h(λ1 − T ∗ )φ, ψi = 0 para todo ψ ∈ H, o
que implica (λ1 − T ∗ )φ = 0 e, portanto, φ é um autovetor de T ∗ com autovalor λ. Assim, λ ∈ σp (T ∗ ).
Isso provou o item 1.
Se λ ∈ σp (T ), então existe um sub-espaço não-trivial L de H formado pelos autovetores de T com
autovalor λ tal que (λ1 − T )φ = 0 para todo φ ∈ L. Isso naturalmente implica que h(λ1 − T ∗ )ψ, φi =
hψ, (λ1 − T )φi = 0 para todo ψ ∈ H e todo φ ∈ L. Portanto, Ran (λ1 − T ∗ ) é um subconjunto de L⊥ .
Caso λ não for um auto-valor de T ∗ , então isso diz-nos que λ ∈ σr (T ∗ ) (vide a definição de espectro
25
residual à página 1331). Assim, ou λ ∈ σp (T ∗ ) ou λ ∈ σr (T ∗ ) e, portanto, λ ∈ σp (T ∗ ) ∪ σr (T ∗ ). Isso

provou o item 2.
A proposição acima pode ser generalizada para espaços de Banach, mas não trataremos disso aqui.
Ainda no contexto de espaços de Hilbert temos o seguinte corolário importante que afirma que o
espectro de um operador auto-adjunto é apenas a união do espectro pontual com o contı́nuo.
Corolário 26.12 Se A é um operador limitado e auto-adjunto agindo em um espaço de Hilbert H,
então seu espectro residual é vazio. 2
Prova. Pela Proposição 26.38, página 1334, temos σr (A) ⊂ σp (A), pois A = A∗ e pois σp (A)cc = σp (A),
já que na Proposição 26.8, página 1285, provamos que o espectro pontual de um operador auto-adjunto
agindo em um espaço de Hilbert é real. Agora, pela definição, os espectros residual e pontual são
disjuntos. Logo, σr (A) = ∅.
• O espectro de operadores auto-adjuntos em espaços de Hilbert é real
Devido a sua importância no contexto da Fı́sica Quântica, existe um particular interesse nas pro-
priedades espectrais de operadores auto-adjuntos (limitados ou não) agindo em espaços de Hilbert. Na
Proposição 26.8, página 1285, já provamos que o espectro pontual de tais operadores é um subconjunto
da reta real. O mesmo vale para o espectro completo, como vemos no próximo teorema.
Teorema 26.25 Se A é um operador limitado e auto-adjunto agindo em um espaço de Hilbert H,
então seu espectro é um sub-conjunto da reta real, mais precisamente, é um sub-conjunto fechado de
[−kAk, kAk]. 2
Prova. Esse teorema é um caso particular da Proposição 26.28, página 1306. Apresentamos uma
segunda demonstração que usa a estrutura do espaço de Hilbert.
Seja z ∈ C escrito na forma z = x + iy, com x, y ∈ R. Se considerarmos o operador Az := z 1 − A,
é fácil verificar que
kAz ψk2 = |y|2kψk2 + k(x1 − A)ψk2 . (26.87)
De fato,
kAz ψk2 = hiyψ + (x1 − A)ψ, iyψ + (x1 − A)ψi
= |y|2kψk2 + k(x1 − A)ψk2 −iyhψ, (x1 − A)ψi + iyh(x1 − A)ψ, ψi .

| {z }
=0 pois (x1−A) é auto-adjunto
De (26.87), concluı́mos que

kAz ψk ≥ |y| kψk (26.88)
e que (trocando y → −y)
kAz ψk ≥ |y| kψk (26.89)
para todo ψ ∈ H. Assim, vemos que se y 6= 0, então Az ψ é nulo se e somente se ψ = 0, ou seja, Az

é injetora como aplicação de H em Ran (Az ). Assim, existe A−1 z : Ran (Az ) → H. Mostremos que
essa aplicação é limitada. Seja φ ∈ Ran (Az ) e escrevamos φ = Az ψ para algum ψ ∈ H. Teremos por
(26.88) que kφk ≥ |y| kA−1 −1 −1 −1
z φk, de onde concluı́mos que kAz k ≤ |y| , o que prova que Az é limitada.
Com isso, podemos evocar a Proposição 26.14, página 1294, e afirmar que Ran (Az ) é um sub-espaço
fechado de H (caso y 6= 0).
Vamos agora supor que o sub-espaço fechado Ran (Az ) seja diferente de H. Então, para cada
χ ∈ Ran (Az )⊥ não-nulo teremos hχ, Az ψi = 0 para todo ψ ∈ H. Como A∗z = Az , segue que
hAz χ, ψi = 0 para todo ψ ∈ H, o que implica Az χ = 0. Ora, isso contraria (26.89), que vale para todo
ψ ∈ H, pois supomos χ não-nulo.
Logo, concluı́mos que Ran (Az ) = H e como Az é injetora, concluı́mos que A−1
z : H → H existe,
sendo limitada pelo que vimos acima com kA−1 z k ≤ |y| −1
. É claro que A−1
z = Rz (A), o operador
resolvente de A. Assim, estabelecemos que se y 6= 0 então z = x + iy ∈ ρ(A) para todo x ∈ R,
provando que σ(A) ⊂ R. Que σ(A) é fechado e que σ(A) ⊂ [−kAk, kAk] segue das Proposições 26.34
e 26.36.
• Alguns exemplos e contra-exemplos
Exemplo 26.1 No caso em que X é o espaço vetorial de dimensão finita Cn , temos B(X) = Mat (C, n),
o conjunto das matrizes complexas n × n. Nesse caso, se M é uma matriz complexa n × n, σ(M) é
o conjunto de todos os números complexos tais que a matriz λ1 − M não tem inversa. Ora, é bem
sabido que uma matriz é não-invertı́vel se e somente se seu determinante for nulo. Logo, σ(M) = {λ ∈
C| det(λ1 − M) = 0}, ou seja, σ(M) coincide com o conjunto das raı́zes do polinômio caracterı́stico
de M: pM (x) = det(x1 − M), o qual, pelo Teorema Fundamental da Álgebra, possui n raı́zes não
necessariamente distintas no plano complexo. Assim, σ(M) não é vazio (o que veremos ser verdade
também para qualquer operador em um espaço de Banach). Se uma matriz K ∈ Mat (C, n) não
possui inversa, sabe-se por um argumento geral que existe pelo menos um vetor não-nulo v ∈ Cn tal
que Kv = 0 (vide Corolário 3.1 à página 166). Disso concluı́mos que se λ ∈ σ(M) para uma matriz
M ∈ Mat (C, n) então existe v ∈ Cn não-nulo tal que (λ1 − M)v = 0, ou seja, Mv = λv. Isso significa
que λ é um autovalor de M (e v um autovetor de M com autovalor λ). Portanto, em Mat (C, n) o
espectro coincide com o conjunto de autovalores. ◊
No caso de espaços de Banach gerais, o fato de um operador K não ser bijetor não necessariamente
implica que exista um vetor não-nulo v tal que Kv = 0. Daı́, no caso de espaços de Banach gerais, o
espectro de um operador não necessariamente coincide com o conjunto de seus autovalores, ainda que
a recı́proca seja verdadeira: todo autovalor λ de um operador T é um elemento de seus espectro, já que
(λ1 − T ) não é bijetora, pois tanto o vetor nulo 0 quanto um autovetor v não-nulo de T com autovalor
λ são mapeados no vetor nulo 0. Veremos vários exemplos adiante mas, por ora, ilustremos isso com
o seguinte.
Exemplo 26.2 Seja X = C([a, b]) o conjunto de todas as funções complexas contı́nuas definidas no
intervalo [a, b] e seja T : C([a, b]) → C([a, b]) o operador (T f )(x) := xf (x), definido para toda função
contı́nua f . Se T possuı́sse um autovetor não-nulo g com autovalor λ, valeria (T g)(x) = xg(x) = λg(x)
e terı́amos (x − λ)g(x) = 0 para todo x ∈ [a, b]. Ora, isso é impossı́vel se g é não-nulo. Logo T não

tem autovalores. No entanto, (λ1 − T )f (x) = (x − λ)f (x) e disso vemos que λ1 − T é bijetora se e
1
somente se λ 6∈ [a, b], pois uma função da forma λ−x g(x) é um elemento de C([a, b]) para qualquer
g ∈ C([a, b]) se e somente se λ 6∈ [a, b]. Concluı́mos disso que ρ(T ) = C \ [a, b] e que σ(T ) = [a, b].
Esse operador T tem, portanto, um espectro não-trivial mas não tem autovalores. ◊
Exemplo 26.3 Seja H = ℓ2 , o espaço de Hilbert das seqüências de quadrado somável e considere-se o
seguinte operador definido em ℓ2 :
S(a1 , a2 , a3 , a4 , a5 , . . .) := (0, a1 , a2 , a3 , a4 , . . .) .
S é denominado operador de shift, ou operador de deslocamento. É um exercı́cio elementar constatar

que sua adjunta S ∗ é dada por
S ∗ (a1 , a2 , a3 , a4 , a5 , . . .) := (a2 , a3 , a4 , a5 , a6 , . . .) .
É também elementar provar que kSk = kS ∗ k = 1. Assim, pela Proposição 26.36, página 1333, σ(S) e
σ(S ∗ ) estão contidos na bola fechada de raio 1 centrada em 0.
S não tem autovalores. De fato, suponhamos que exista (a1 , a2 , a3 , a4 , a5 , . . .) ∈ ℓ2 e λ ∈ C tais
que S(a1 , a2 , a3 , a4 , a5 , . . .) = λ(a1 , a2 , a3 , a4 , a5 , . . .). Isso significa que
λ(a1 , a2 , a3 , a4 , a5 , . . .) = (0, a1 , a2 , a3 , a4 , . . .) .
Se λ = 0, isso implica que todos os aj ’s são nulos. Se λ 6= 0, temos λa1 = 0, λa2 = a1 , λa3 = a2 etc.,
Mas a primeira relação implica a1 = 0, o que faz com que a segunda relação implique a2 = 0 etc., e
novamente temos que os aj ’s são todos nulos. Assim, S só possui autovetores nulos, ou seja, não possui
autovalores: σp (S) = ∅. Pelo item 1 da Proposição 26.38, página 1334, isso implica σr (S ∗ ) = ∅.
Procuremos agora saber se S ∗ possui autovalores. Seja (a1 , a2 , a3 , a4 , a5 , . . .) ∈ ℓ2 e λ ∈ C tais
que S ∗ (a1 , a2 , a3 , a4 , a5 , . . .) = λ(a1 , a2 , a3 , a4 , a5 , . . .). Isso significa que
λ(a1 , a2 , a3 , a4 , a5 , . . .) = (a2 , a3 , a4 , a5 , a6 , . . .) ,
o que implica a2 = λa1 , a3 = λa2 , a4 = λa3 , ou seja, an = λn−1 a1 . Assim, os autovetores serão da
forma
a1 (1, λ, λ2 , λ3 , λ4 , . . .) .
Uma tal seqüência é um elemento de ℓ2 se e somente se |λ| < 1. Concluı́mos que o espectro pontual de
S ∗ é não-vazio e é igual ao disco aberto de raio 1 em C centrado em 0: σp (S ∗ ) = {λ ∈ C| |λ| < 1}.
Vamos agora mostrar que espectro residual de S é não-vazio. Para λ ∈ C com |λ| < 1, seja vλ o
autovetor de S ∗ com autovalor λ dado por vλ = (1, λ, λ2 , λ3 , λ4 , . . .). Temos S ∗ vλ = λvλ . Para todo
x ∈ ℓ2 teremos

hvλ , (λ1 − S)xiℓ2 = (λ1 − S ∗ )vλ , x ℓ2 = 0 .
Disso concluı́mos que para todo x ∈ ℓ2 o vetor (λ1 − S)x pertence ao sub-espaço ortogonal ao vetor
vλ . Assim, Ran (λ1 − S) não é denso em ℓ2 para nenhum |λ| < 1 e, conseqüentemente {λ ∈ C| |λ| <
1} ⊂ σr (S). Agora, pelo item 1 da Proposição 26.38, página 1334, tem-se também σr (S) ⊂ σp (S ∗ )cc =
{λ ∈ C| |λ| < 1}. Logo, σr (S) = {λ ∈ C| |λ| < 1}.
Concluı́mos até agora que σp (S) = ∅, σr (S) = {λ ∈ C| |λ| < 1}, σp (S ∗ ) = {λ ∈ C| |λ| < 1} e
σr (S ∗ ) = ∅. Como σ(S) é fechado, contido em {λ ∈ C| |λ| ≤ 1} e contém σr (S) = {λ ∈ C| |λ| < 1},
concluı́mos que σ(S) = {λ ∈ C| |λ| ≤ 1}. Analogamente, σ(S ∗ ) = {λ ∈ C| |λ| ≤ 1}. Como a união
(26.82) é disjunta, concluı́mos que σc (S) = σc (S ∗ ) = {λ ∈ C| |λ| = 1}. Temos finalmente o seguinte
quadro:
σ(S) = {λ ∈ C| |λ| ≤ 1}, σp (S) = ∅, σc (S) = {λ ∈ C| |λ| = 1}, σr (S) = {λ ∈ C| |λ| < 1},
σ(S ∗ ) = {λ ∈ C| |λ| ≤ 1}, σp (S ∗ ) = {λ ∈ C| |λ| < 1}, σc (S ∗ ) = {λ ∈ C| |λ| = 1}, σr (S ∗ ) = ∅.
◊
Exemplo 26.4 (Extraı́do de [116]). Seja X = ℓ∞ , o espaço de Banach das seqüências limitadas e
considere-se o seguinte operador definido em ℓ∞ :
T ′ (a1 , a2 , a3 , a4 , a5 , . . .) := (0, a1 , a2 , a3 , a4 , . . .) .
T ′ é denominado operador de shift (mas note-se que difere de S, definido acima, pois aquele era definido
apenas em ℓ2 ). De maneira análoga ao que fizemos acima para o operador S, mostra-se que T ′ não
possui autovalores: σp (T ′ ) = ∅.
Vamos mostrar agora que todo λ ∈ C com |λ| = 1 pertence ao espectro residual de T ′ . Sejam
a = {an } e b = {bn } duas seqüências de ℓ∞ tais que a = (λ1 − T ′ )b. Isso significa que
(a1 , a2 , a3 , a4 , a5 , . . .) = (λb1 , λb2 − b1 , λb3 − b2 , λb4 − b3 , λb5 − b4 , . . .) .
Assim, teremos a1 = λb1 , a2 = λb2 − b1 , a3 = λb3 − b2 , a4 = λb4 − b3 etc. Como |λ| = 1, tem-se λ−1 = λ
e essas relações implicam
n
n+1 X
bn = λ λm am , (26.90)
m=1
∞
como facilmente se constata. Se c ∈ ℓ , tem-se para qualquer n ∈ N que
kc − ak∞ = sup |cm − am | ≥ |cn − an | = |λn (cn − an )| = |λn cn − λn an |

m∈N
≥ |Re(λn cn − λn an )| ≥ Re(λn cn − λn an ) = Re(λn cn ) − Re(λn an ) ,
onde, acima, usamos que |λn | = 1 pois |λ| = 1 e que |z| ≥ |Re(z)| ≥ Re(z) para qualquer z ∈ C.
Concluı́mos disso que
Re(λn an ) ≥ Re(λn cn ) − kc − ak∞ . (26.91)
n
Vamos agora tomar cn da forma cn = λ e seja a ∈ ℓ∞ contido na bola aberta de raio 1/2 centrada
em c, ou seja, kc − ak∞ < 1/2. Por (26.91), teremos que Re(λn an ) ≥ 1 − 1/2 =P
1/2. Dessa forma,
vemos que se b é tal que a = (λ1 − T )b então, por (26.90), teremos λ bn = nm=1 λm am , o que
′ n+1
implica

|bn | = λn+1 bn ≥ Re λn+1 bn ≥ Re λn+1 bn
n
! n n
(26.90) X X X 1 n
m m
= Re λ am = Re (λ am ) ≥ = .
m=1 m=1 m=1
2 2
Agora, a relação |bn | ≥ n/2 não pode ser satisfeita se b é uma seqüência limitada (ou seja, um elemento
n
de ℓ∞ ). Concluı́mos que a bola aberta de raio 1/2 centrada no elemento c ∈ ℓ∞ dado por cn = λ
não pode estar na imagem de λ1 − T ′ e, portanto, a imagem de ℓ∞ por esse operador não é densa em
ℓ∞ . Concluı́mos, assim, que σr (T ′ ) contém o cı́rculo unitário {λ ∈ C| |λ| = 1}. É possı́vel provar (vide
[116]) que σr (T ′ ) = {λ ∈ C| |λ| ≤ 1}. ◊
Exemplo 26.5 Um outro exemplo que estudamos explicitamente é o operador de integração de Vol-
terra W , discutido no Exemplo 26.6 à página 1351 e seguintes. Lá determinamos explicitamente o
operador resolvente de W e seu espectro. ◊
26.6 Operadores Compactos em Espaços de Banach e de Hil-

bert
Nesta seção introduziremos a importante noção de operador compacto. Essa noção é importante por
diversas razões. Em um sentido a ser precisado, operadores compactos agindo entre espaços de Banach
de dimensão infinita são aqueles cujas caracterı́sticas mais se aproximam das de matrizes. Para eles
vale também a forma mais simples do Teorema Espectral, que apresentamos no contexto de matrizes
na Seção 3.4, página 178. Historicamente o estudo de propriedades de operadores compactos deu inicio
à Análise Funcional, através do estudo empreendido entre 1904 e 1910 por Hilbert e colaboradores
(notadamente Schmidt26 ) da chamada equação integral de Fredholm, a qual surge no tratamento do
problema de Sturm-Liouville (vide Capı́tulo 12, página 688, em particular a Seção 12.5, página 710).
Esses trabalhos levaram à introdução do própria noção de espaço de Hilbert e à primeira versão do
Teorema Espectral para operadores (compactos) agindo em espaços de Hilbert.
• Operadores de posto finito
Sejam A e B dois espaços de Banach e seja M : A → B um operador linear limitado. Dizemos

que M é um operador de posto finito se a imagem de A por M estiver contida em um sub-espaço
de dimensão finita de B. Assim, se M é de posto finito, existe um conjunto de, digamos, N vetores
linearmente independentes b1 , . . . , bN em B tais que Mx = β1 (x)b1 + · · · + βN (x)bN para todo x ∈ A,
onde β1 (x), . . . , βN (x) ∈ C dependem de x. Como M é linear, é claro que cada βk é um funcional
linear em A. Como M é contı́nuo, vale
N
X N
X
lim βk (x − y)bk = lim βk (x − y)bk = lim M(x − y) = 0 ,
kx−ykA →0 kx−ykA →0 kx−ykA →0
k=1 k=1
26
o que implica lim βk (x − y) = 0, ou seja, cada βk é um funcional linear contı́nuo (e, portanto,
kx−ykA →0
limitado) de A em C. Assim, existe B > 0 tal que |βk (x)| ≤ BkxkA para todo k = 1, . . . , N.
Dessa forma, vemos que se xn , n ∈ N, é uma seqüência limitada de vetores em A (ou seja, existe
X > 0 tal que kxn kA ≤ X para todo n ∈ N) então |βk (xn )| ≤ BX para todo n ∈ N e todo k. Assim,

XN XN XN

kMxn kB = βk (xn )bk ≤ |βk (xn )| kbk kB ≤ BX kbk kB .

k=1 B k=1 k=1
Isso diz-nos que todos os vetores da seqüência Mxn estão contidos na bola fechada centrada em 0 e
de raio BX(kb1 kB + · · · + kb1 kB) do sub-espaço de dimensão finita gerado por b1 , . . . , bN . Assim,
pelo bem conhecido Teorema de Bolzano27 -Weierstrass28 , a seqüência Mxn , possui pelo menos uma
sub-seqüência convergente.
Essa propriedade, válida para operadores de posto finito, inspira a definição de operadores compac-
tos.
• Operadores Compactos
Um operador linear limitado C agindo entre dois espaços de Banach A e B é dito ser um operador
compacto se para toda seqüência limitada xn ∈ A, n ∈ N, a seqüência Cxn em B possui pelo menos
uma seqüência convergente.
A denominação “operador compacto” provem da seguinte propriedade equivalente: um operador
C agindo entre dois espaços de Banach A e B é compacto (seguindo a definição acima) se e somente
se o fecho em B da imagem por C de qualquer conjunto limitado em A é compacto (na topologia de
B). Essa equivalência é uma conseqüência de propriedades bem-conhecidas de conjuntos compactos em
espaços métricos e a prova é deixada como exercı́cio. Essa propriedade pode ser tomada como definição
alternativa da noção de operador compacto e assim é feito em alguns textos.
Como vimos, operadores de posto finito são compactos, mas a recı́proca não é verdadeira em
dimensão infinita. Porém, a seguinte proposição é imediata das observações acima.
Proposição 26.39 Todo operador linear agindo entre dois espaços de Banach de dimensão finita A e
B é compacto. 2
Dentre os exemplos mais importantes de operadores compactos estão os operadores de Fredholm

e de Volterra, discutidos às páginas 1348 e 1349, respectivamente, os quais surgem na teoria das
equações diferenciais e integrais (em particular, no chamado problema de Sturm-Liouville, introduzido
no Capı́tulo 12, página 688) e suas aplicações. Para estudá-los, no entanto, precisamos desenvolver um
pouco a teoria geral.
• Operadores compactos e seqüências fracamente convergentes
Com o uso do Princı́pio de Limitação Uniforme, Teorema 26.6, página 1270, podemos estabelecer
o seguinte resultado fundamental sobre operadores compactos.
27
Bernard Placidus Johann Nepomuk Bolzano (1781-1848).
28
Teorema 26.26 Seja C : A → B um operador compacto agindo entre dois espaços de Banach A e B.
Seja xn ∈ A, n ∈ N uma seqüência de vetores de A e suponha que exista x ∈ A tal que ℓ(xn ) ∈ C,
n ∈ N, seja uma seqüência convergente a ℓ(x) para todo funcional linear contı́nuo ℓ : A → C (i.e., xn
é fracamente convergente a x). Então Cxn ∈ A, n ∈ N converge em norma a Cx em B. 2
Prova. Denotemos por A† o dual topológico de A (i.e., A† é o conjunto de todos os funcionais lineares
contı́nuos de A). O Teorema 26.2, página 1257, diz-nos que A† é igualmente um espaço de Banach com
a norma definida em (26.3), página 1259.
Para z ∈ A definamos a aplicação ẑ : A† → C dada por ẑ(ℓ) = ℓ(z). Como |ẑ(ℓ)| = |ℓ(z)| ≤
kℓkA† kzkA (pois ℓ é um funcional linear contı́nuo), segue que ẑ é um funcional linear contı́nuo em A† .
Por (26.4), vale kẑk = kzkA.
Pelas hipóteses, para cada ℓ ∈ A† a seqüência numérica ℓ(xn ) converge a ℓ(x) ∈ C. Daı́, |ℓ(xn )| é
limitada, ou seja, existe Mℓ > 0 tal que |ℓ(xn )| ≤ Mℓ para todo n ∈ N.
Para a seqüência xn ∈ A, n ∈ N de vetores de A do enunciado, podemos considerar o conjunto
de operadores A† → C lineares e limitados por S : {c xn , n ∈ N}. Agora, para cada ℓ ∈ A† vale
que |c
xn (ℓ)| ≤ Mℓ para todo xcn ∈ S. Estamos, portanto, sob as condições do Princı́pio de Limitação
Uniforme, Teorema 26.6, página 1270, e podemos afirmar que existe M > 0 tal que kc xn k ≤ M para
todo n ∈ N, ou seja, kxn kA ≤ M para todo n ∈ N.
Sejam agora definidos em B a seqüência yn := Cxn , n ∈ N e o vetor y := Cx. Para cada ℓ ∈ A†
vale
ℓ(yn ) − ℓ(y) = ℓ(yn − y) = ℓ(C(xn − x)) = ℓ ◦ C(xn − x) .
Todavia, ℓ ◦ C é um elemento de A† pois é linear e contı́nuo (sendo a composição de duas aplicações
contı́nuas). Logo, pelas hipóteses, ℓ ◦ C(xn ) converge a ℓ ◦ C(x), o que implica que ℓ(yn ) converge a
ℓ(y).
Desejamos provar que yn converge a y na norma de B. Vamos supor, por absurdo, que isso não
ocorra. Então, existe algum ǫ > 0 tal que
kynj − ykB > ǫ (26.92)
para todos ynj de uma sub-seqüência de yn . Agora, ynj = Cxnj e como kxnj kA ≤ M para todo j e
C é compacto, {ynj }j∈N possui uma sub-seqüência convergente em norma em B. Vamos denotar essa
sub-seqüência por yk′ , k ∈ N e seja y ′ ∈ B o seu limite. É certo por (26.92) que y ′ 6= y. Agora, Como
kyk′ − y ′ kB converge a 0, segue que
|ℓ(yk′ ) − ℓ(y ′)| ≤ kℓkkyk′ − y ′kB → 0 .
Vimos acima, porém, ℓ(yn ) converge a ℓ(y). Como yk′ é uma sub-seqüência de yn , então ℓ(yk′ ) deve
também convergir a ℓ(y). Assim provamos que ℓ(y ′ − y) = 0 para todo ℓ ∈ A† , o que implica y ′ = y,
• Propriedades algébricas de operadores compactos
As seguintes proposições revelam propriedades algébricas importantes dos operadores compactos.

Proposição 26.40 Sejam X e Y dois espaços de Banach e sejam A, B : X → Y dois operadores

compactos. Então para todos α, β ∈ C o operador αA + βB é igualmente compacto. 2
Prova. Seja xn uma seqüência limitada de vetores em X. Então existe uma sub-seqüência xnj de xn tal
que a seqüência Axnj converge em norma em Y, pois A é compacto. É elementar constatar que isso
implica que αAxnj também converge em norma em Y. Como a seqüência xnj é (obviamente) limitada,
ela possui uma sub-seqüência xnjk tal que βBxnjk converge em norma em Y. Daı́, é elementar constatar
que (αA + βB)xnjk converge em norma em Y, completando a prova.
A proposição acima mostra que o conjunto de operadores compactos agindo entre dois espaços de
Banach X e Y é um espaço linear. Tem-se também o seguinte.
Proposição 26.41 Sejam X e Y e Z três espaços de Banach e sejam A : Y → Z e B : X → Y dois
operadores limitados. Então se A ou B for compacto (ou ambos o forem) o produto AB : X → Z é
compacto. 2
Prova. Seja xn uma seqüência limitada em X, ou seja, existe M > 0 tal que kxn kX ≤ M para todo
n ∈ N. Então Bxn é uma seqüência limitada em Y (pois B é limitado e kBxn kY ≤ kBk kxn kX ≤
kBkM). Logo, se A for compacto, ABxn possui uma sub-seqüência convergente na norma de Z e,
portanto, o produto AB é compacto. Se por outro lado B for compacto, então Bxn possui uma sub-
seqüência Bxnj convergente. Por ser convergente, Bxnj é uma seqüência de Cauchy em Y, ou seja,
para todo ǫ > 0 podemos encontrar k e l grandes o suficiente tais que kB(xnk − xnl )kY ≤ ǫ. Logo,
kAB(xnk − xnl )kZ ≤ kAkkB(xnk − xnl )kY ≤ kAkǫ, provando que ABxnj é uma seqüência de Cauchy
em Z e, portanto, converge, o que novamente estabelece que o produto AB é compacto.
O seguinte corolário é imediato.

Proposição 26.42 Se X é um espaço de Banach o conjunto dos operadores compactos de X em X
forma uma álgebra, que denotaremos por K(X). A álgebra K(X) é uma sub-álgebra da álgebra de todos
os operadores limitados agindo em X, B(X), é um ideal à esquerda e à direita de B(X). 2
A seguinte proposição é igualmente relevante no contexto de espaços de Hilbert.

Proposição 26.43 Se H é um espaço de Hilbert e A : H → H é compacto então A∗ é igualmente
compacto. 2
Prova. Seja xm uma seqüência limitada de vetores em H, ou seja, existe M > 0 tal que kxn kH ≤ M
para todo n ∈ N. Tem-se que
kA∗ (xn − xm )k2H = hA∗ (xn − xm ), A∗ (xn − xm )iH = h(xn − xm ), AA∗ (xn − xm )iH
Cauchy-Schwarz
≤ kxn − xm kH kAA∗ (xn − xm )kH ≤ 2MkAA∗ (xn − xm )kH ,
pois k(xn − xm )kH ≤ kxn kH + kxm kH ≤ 2M. Como A é compacto, AA∗ também o é (Proposição
26.41, acima). Logo AA∗ xn possui uma sub-seqüência AA∗ xnj convergente em norma, que, portanto,
é de Cauchy. Assim, para qualquer ǫ > 0 podemos encontrar k e l grandes o suficiente tais que
kAA∗ (xnk − xnl )kH ≤ ǫ. Logo, kA∗ (xnk − xnl )k2H ≤ 2Mǫ, provando que A∗ xnj é uma seqüência de
Cauchy e, portanto, converge.
• Limite em norma de operadores compactos
A seguinte proposição revela uma propriedade topológica importante dos operadores compactos.
Proposição 26.44 Sejam X e Y dois espaços de Banach e seja Cn : X → Y, n ∈ N uma seqüência de
operadores compactos. Vamos supor que Cn converge na norma de B(X, Y) a um operador limitado
C ∈ B(X, Y), ou seja, kC − Cn kB(X, Y) → 0 quando n → ∞. Então C é compacto. Isso revela que o
conjunto dos operadores compactos é fechado na topologia uniforme de B(X, Y). 2
Prova. Seja x0n ∈ X uma seqüência limitada de vetores qualquer. Que x0n ∈ X é limitada significa que
existe M > 0 tal que kx0n kX ≤ M para todo n ∈ N. Então,
kC(x0n − x0m )kY = k(C − Ck )(x0n − x0m ) + Ck (x0n − x0m )kY
≤ k(C − Ck )(x0n − x0m )kY + kCk (x0n − x0m )kY
≤ kC − Ck k kx0n − x0m kX + kCk (x0n − x0m )kY . (26.93)
Seja ǫn , n ∈ N, uma seqüência de números positivos que converge a zero e tal que ǫb < ǫa se b > a
(sem perda de generalidade, podemos tomar ǫn = 1/n, n ≥ 1). Como por hipótese kC − Cn kB(X, Y) → 0
quando n → ∞ podemos escolher k1 grande o suficiente de forma que kC − Ck1 k < ǫ1 . Fixemos um tal
k1 . Como kx0n kX ≤ M para todo n ∈ N, vale também que kx0n − x0m kX ≤ kx0n kX + kx0m kX ≤ 2M. Logo,
por (26.93),
kC(x0n − x0m )kY ≤ 2Mǫ1 + kCk1 (x0n − x0m )kY .
Como Ck é compacto, existe uma sub-seqüência x1j = x0nj , j ∈ N, da seqüência x0n tal que Ck1 x1j converge
em norma para j → ∞ e, portanto, é uma seqüência de Cauchy em Y, Assim, existe N1 ≡ N(ǫ1 ) ∈ N
tal que, se l ≥ N1 e m ≥ N1 , então kCk1 (x1l − x1m )kY ≤ ǫ1 . Disso concluı́mos que
kC(x1l − x1m )kY ≤ (2M + 1)ǫ1 ,
para todos l ≥ N1 e m ≥ N1 .
Notemos que a seqüência x1n é fixada por ǫ1 . Podemos, porém, proceder indutivamente construindo
uma sub-seqüência x2n da seqüência x1n e assim sucessivamente da seguinte forma. Para o elemento ǫa
da seqüência dos ǫ’s, tomamos ka tal que Cka satisfaz kC − Cka k < ǫa . Por uma aplicação da mesma
desigualdade que conduziu a (26.93), concluı́mos que
kC(xna−1 − xm
a−1
)kY ≤ 2Mǫa + kCka (xna−1 − xm
a−1
)kY .
Como Cka é compacto, existe uma sub-seqüência xaj = xna−1j

, j ∈ N, da seqüência xna−1 tal que Cka xaj
converge em norma para j → ∞ e, portanto, é uma seqüência de Cauchy em Y, Assim, existe Na ≡
N(ǫa ) ∈ N tal que, se l ≥ Na e m ≥ Na , então kCka (xal − xam )kY ≤ ǫa . Disso concluı́mos que
kC(xal − xam )kY ≤ (2M + 1)ǫa , (26.94)
para todos l ≥ Na e m ≥ Na .
Daqui por diante escolheremos a seqüência de inteiros Na , a ∈ N como sendo uma seqüência
crescente, ou seja, tomamos Nb > Na caso b > a (ou seja ǫb < ǫa ). Uma tal escolha é sempre possı́vel
(por que?).
Para cada a ≥ 1 a sub-seqüência xan , n ∈ N, é uma sub-seqüência de xna−1 , n ∈ N, e todas são
sub-seqüências de x0n , n ∈ N. Definamos agora a seqüência ua := xaNa , a ∈ N, também sub-seqüência
de x0n , n ∈ N. Tomemos b > a. Como xbn , n ∈ N, é uma sub-seqüência de xan , n ∈ N, teremos que
ub = xbNb = xal para algum l ≥ Nb > Na (justifique por que l ≥ Nb lembrando que xbn , n ∈ N, é uma
sub-seqüência de xan , n ∈ N). Assim, com o uso de (26.94), obtemos
kC(ub − ua )kY = kC(xal − xaNa )kY ≤ (2M + 1)ǫa ,
pois l > Na . Agora, como ǫa → 0 para a → ∞, existe para cada ǫ > 0 um a tal que (2M + 1)ǫa < ǫ.
Para tal a valerá kC(ub − ua )kY < ǫ para qualquer b > a. Isso está nos dizendo que a seqüência
Cun , n ∈ N, é é uma seqüência de Cauchy em Y e, portanto, converge em norma, pois Y é um espaço
de Banach. Como un , n ∈ N, é uma sub-seqüência de uma seqüência limitada arbitrária x0n , n ∈ N,
isso provou que C é compacto.
Um importante corolário imediato é o seguinte:

Corolário 26.13 O conjunto de todos os operadores compactos agindo em um espaço de Hilbert H
forma uma álgebra C∗ (sem unidade, se H não for de dimensão finita!) em relação à norma de B(H),
a involução sendo dada pela adjunção A → A∗ . 2
Prova. Que o conjunto de todos os operadores compactos agindo em um espaço de Hilbert H forma
uma álgebra com involução dada pela adjunção A → A∗ foi provado nas Proposições 26.40-26.43,
acima. A Proposição 26.44 estabeleceu que o conjunto de todos os operadores compactos agindo em
um espaço de Hilbert H é um sub-espaço linear fechado de B(H) e portanto, é completo. As demais
propriedades, como a propriedade C∗ , são conseqüência do Teorema 26.11, página 1281, já que os
operadores compactos agindo em H são elementos de B(H). O operador unidade não é compacto,
pois nem toda seqüência limitada tem uma sub-seqüência convergente em norma, exceto se H possuir
dimensão finita.
No caso de espaços de Hilbert separáveis é possı́vel provar um resultado mais especı́fico.
• Operadores Compactos em Espaços de Hilbert Separáveis
Vamos agora nos especializar em operadores compactos agindo em espaços de Hilbert separáveis.
Veremos que o Teorema 26.26, página 1341 tem uma importante conseqüência nesse caso que aponta
na direção de uma generalização do Teorema Espectral para operadores compactos (agindo em espaços
de Hilbert separáveis).
Teorema 26.27 Seja H um espaço de Hilbert separável e seja C : H → H compacto. Seja {ψn , n ∈
N} uma base ortonormal completa em H. Então,
C = lim CN ,
N →∞
o limite se dando na topologia uniforme de B(H) (a da norma operatorial), onde, para N ∈ N, N ≥ 1,

definimos os operadores
N
X
CN ψ := hψk , ψiH Cψk
k=1
para todo ψ ∈ H. 2
Prova. Defina-se, para n ∈ N, n ≥ 1,
µn := sup kCφkH ,
φ∈Pn⊥ , kφkH =1
onde Pn := [ψ1 , . . . , ψn ] é o sub-espaço de dimensão finita gerado pelos vetores ψ1 , . . . , ψn . É

evidente pela definição que µn é monotonamente decrescente. Como µn ≥ 0 para todo n, a seqüência
não-crescente µn deve convergir a um µ ≥ 0.
Vamos provar que, em verdade, µ = 0. Comecemos observando que em cada conjunto Ξn := {φ ∈
Pn⊥ , kφkH = 1} sempre podemos encontrar pelo menos um vetor ξ tal kCξk ≥ µ/2. Se assim não fosse,
terı́amos kCξk < µ/2 para todo ξ ∈ Ξn , o que é absurdo, pois isso implica que µn < µ/2 mas µn é uma
seqüência decrescente convergindo a µ.
Escolhamos então para cada n um vetor ξn com kCξn k ≥ µ/2. Como kξn kH = 1 e ξn ∈ Pn⊥ e como
{ψn , n ∈ N} é uma base ortonormal completa em H, segue facilmente que
lim hy, ξn iH = 0
n→∞
para todo y ∈ H (justifique!). Pelo Teorema da Representação de Riesz, Teorema 25.8, página 1246, isso
está dizendo-nos que limn→∞ ℓ(ξn ) = 0 para todo funcional linear contı́nuo ℓ de H. Agora, pelo Teorema
26.26, página 1341, isso implica que Cξn converge a zero em norma. Assim, como µ/2 ≤ kCξn kH para
todo n, segue que µ = 0, como querı́amos mostrar.
A implicação importante desse fato é a seguinte. Para qualquer ψ ∈ H teremos
N
! M
!
X X
Cψ − CN ψ = C ψ − hψn , ψiH ψn = C lim hψn , ψiH ψn = CP⊥
nψ ,
M →∞
n=1 n=N +1
onde P⊥ ⊥
n é o projetor ortogonal sobre Pn . Logo,
⊥
kC − CN k = sup CP ψ = sup kCψkH = µn ,
n H
ψ∈H, kψkH =1 ψ∈Pn⊥ , kψkH =1
de onde concluı́mos que

lim kC − CN k = lim µn = µ = 0 .
N →∞ N →∞
Isso completa a demonstração.
No teorema acima é interessante observar que os operadores CN são de posto finito e, portanto,
compactos. Concluı́mos, assim, que todo operador compacto agindo em um espaço de Hilbert separável
H pode ser aproximado na norma de B(H) por operadores de posto finito. Comentamos, porém, que
a restrição a espaços de Hilbert separáveis pode ser eliminada. Isso será provado no Teorema 26.31,
página 1358. Uma questão que permaneceu em aberto por muito tempo foi saber se essa propriedade
se estenderia a operadores compactos agindo em espaços de Banach. Essa questão foi respondida
negativamente por P. Enflo29 em 197330 , o qual exibiu um exemplo de um operador compacto em um
espaço de Banach que não se deixa aproximar em norma por operadores de posto finito.
• Um exemplo de operador compacto a se ter em mente
Seja λn , n ∈ N, uma seqüência de números complexos que converge a zero, ou seja, limn→∞ |λn | = 0.
Sejam também φn , n ∈ N, e ψn , n ∈ N, dois conjuntos ortonormais de vetores em um espaço de
Hilbert H, que suporemos ser de dimensão infinita, mas não necessariamente separável. Temos, então,
hφn , φm iH = δn, m e hψn , ψm iH = δn, m para todos m e n ∈ N.
Pretendemos provar que a seqüência de operadores de posto finito definidos para cada N ∈ N por
N
X
QN ψ := λn hφn , ψiH ψn , ∀ψ∈H,
n=1
29
Per Enflo (1944-).
30
P. Enflo, “A counterexample to the approximation property in Banach spaces”, Acta Math. 130, 309-317 (1973).
é uma seqüência de Cauchy na norma de B(H). De fato, se ψ ∈ H, tem-se, para M < N,

N 2
X
2
k(QN − QM )ψk = λn hφn , ψiH ψn

n=M +1
* N N
+
X X
= λn hφn , ψiH ψn , λn hφn , ψiH ψn
n=M +1 n=M +1 H
N
X N
X
= λn′ λn hφn′ , ψiH hφn , ψiH hψn′ , ψn iH
| {z }
n′ =M +1 n=M +1 = δn, n′
N
X
= |λn |2 |hφn , ψiH|2
n=M +1
X
N
≤ max |λm | 2
|hφn , ψiH|2
m∈{M +1, ..., N }
n=M +1
des. de Bessel (25.16)

2
≤ max |λm | kψk2 .
m∈{M +1, ..., N }
Logo,
kQN − QM k2 ≤ max |λm |2 .
m∈{M +1, ..., N }
Agora, como por hipótese, |λn | → 0 para n → ∞, segue que max |λm |2 pode ser feito menor que
m∈{M +1, ..., N }
qualquer ǫ > 0 dado, desde que M (e, portanto, N, pois M < N) seja grande o suficiente. Isso provou
que QN , N ∈ N, é uma seqüência de Cauchy na norma operatorial de B(H). Como B(H) é um espaço
de Banach, concluı́mos que QN converge quando N → ∞ para um operador Q ∈ B(H). Como Q é
o limite em norma de uma seqüência de operadores compactos (os operadores QN são compactos por
serem de posto finito), concluı́mos pela Proposição 26.44, página 1343, que Q é igualmente compacto.
Escrevemos,
X∞
Q := λn hφn , · iH ψn . (26.95)
n=1
Antes de mudarmos de assunto, façamos um breve comentário sobre a expressão (26.95) que elu-
cidará um ponto que virá mais adiante. Como todo numero complexo, os λn têm a forma polar
λn = |λn |eiαn , onde αn ∈ R. Na expressão (26.95) as fases eiαn podem ser absorvidas nos vetores
ψn , sem que os mesmos deixem de formar um conjunto ortonormal. Assim, genericamente, operadores
compactos como (26.95) podem ser escritos como
∞
X
Q = µn hφn , · iH ψn . (26.96)
n=1
onde µn , n ∈ N, é uma seqüência de números reais não-negativos que converge a zero e φn , n ∈ N, e

ψn , n ∈ N, são conjuntos ortonormais de vetores do espaço de Hilbert H.
Veremos mais adiante que esse exemplo não é gratuito: em verdade, todo operador compacto agindo
em um espaço de Hilbert H pode ser representado na forma (26.96) para alguma uma seqüência µn ,
n ∈ N, de números reais não-negativos que converge a zero, e para certos φn , n ∈ N, e ψn , n ∈ N,
conjuntos ortonormais de vetores de H. Vide Teorema 26.31, página 1358.
O leitor deve cuidadosamente comparar as afirmações feitas acima com as do Teorema 26.27.
• A raiz quadrada de um operador compacto, auto-adjunto e positivo
Se C é um operador não-nulo, compacto e positivo agindo em um espaço de Hilbert H, vimos em

(26.53)-(26.55), página 1318, que
N N !
√ X X n
C = lim (−1)p cn kCk1/2−p C p , (26.97)
N →∞
p=1 n=p
p
sendo os cn ’s definidos em (26.48). O lado direito é o limite em norma de um polinômio em C com

coeficientes reais e que não contém nenhum termo proporcional à unidade 1. Como C é compacto e
um tal
√ polinômio em C é igualmente compacto (Proposição 26.42), concluı́mos pela Proposição 26.44,
que C é também compacto. Como discutido no Lema da Raiz Quadrada, Lema 26.21, página 1316,
√
C é também auto-adjunto e positivo.
Se A é um operador compacto (não necessariamente auto-adjunto), então A∗ A é compacto (pela
Proposição 26.41, página 1342), auto-adjunto (pois (A∗ A) ∗ ∗ ∗
√ = A A) e positivo (pois hx, A Axi =
hAx, Axi = kAxk ≥ 0 para todo x ∈ H). Logo, |A| := A∗ A é compacto, auto-adjunto e positivo.
Para futura referência, coletamos os resultados discutidos acima na seguinte proposição.
Proposição 26.45√ Se C é um operador compacto, auto-adjunto e positivo agindo em um espaço de
Hilbert
√ H, então C é igualmente compacto e auto-adjunto e positivo. Se A é compacto, então |A| :=
∗
A A é compacto, auto-adjunto e positivo. 2
• O operador integral de Fredholm
Seja o intervalo compacto [a, b] ⊂ R e seja k : [a, b] × [a, b] → R uma função fixada contı́nua de
duas variáveis. Para f ∈ C([a, b]), uma função contı́nua (real ou complexa) definida em [a, b], seja
Z b
(Kf )(x) := k(x, y)f (y) dy .
a
É bastante claro que K é um operador linear mapeando funções contı́nuas em [a, b] em funções
contı́nuas em [a, b], ou seja, K : C([a, b]) → C([a, b]). Isso pois k foi suposta ser contı́nua nas
duas variáveis. O espaço vetorial C([a, b]) é um é um espaço de Banach com a norma no supremo:
kf k := supx∈[a, b] |f (x)|. Não é difı́cil de se ver que K é limitado nessa norma, pois |(Kf )(x)| ≤
Z ∞b Z b
′
|k(x, y)|dy sup ||f (y )| = |k(x, y)|dy kf k∞ e, portanto kKf k∞ ≤ Mkf k∞ , onde M =
a y ′ ∈[a, b] a
(b − a) supx, y∈[a, b] |k(x, y)| < ∞, devido à continuidade de k.
O operador K é denominado operador integral de Fredholm31, ou simplesmente operador de Fredholm

e surge no problema de Sturm-Liouville, como discutido no Capı́tulo 12, página 688. Um fato muito
relevante para o problema de Sturm-Liouville é que K é um operador compacto, enquanto operador
agindo em C([a, b]). As conseqüências desse para o problema de Sturm-Liouville foram discutidas no
Capı́tulo 12 e seguem de outros resultados gerais sobre operadores compactos que discutiremos nas
próximas seções.
Mostraremos que K é compacto usando dois tipos de argumento, ambos instrutivos, o primeiro
sendo mais elementar.
n
I. Se pn (x, y) := Σ pn, k, l xk y l é um polinômio de grau n nas variáveis x e y, então Pn : C([a, b]) →
k, l=0
C([a, b]) definido por
Z n n Z !
b X X b
(Pn f )(x) := pn (x, y) f (y) dy = pn, k, l y l f (y) dy xk
a k=0 l=0 a
é claramente um operador de posto finito (os monômios xk são elementos de C([a, b])) e, portanto,
é compacto. Se k(x, y) é contı́nua no retângulo compacto [a, b] × [a, b] então, pelo Teorema de
Weierstrass, k pode ser uniformemente aproximada por polinômios em x e y. É fácil ver daı́ (exercı́cio!)
que isso implica que K é aproximada na norma de B(C([a, b])) por operadores de posto finito como Pn
acima. Assim, pela Proposição 26.44, página 1343, K é compacto como operador agindo em C([a, b]).
II. Para um certo N > 0, seja BN ⊂ C([a, b]) a bola de raio N centrada em 0: BN := {f ∈
C([a, b]), kf k∞ < N}. Se f é uma função qualquer de BN, teremos que (Kf )(x) − (Kf )(x′ ) =
Rb ′ ′
Rb
a
(k(x, y) − k(x , y))f (y)dy. Logo, |(Kf )(x) − (Kf )(x )| ≤ kf k ∞ a
|k(x, y) − k(x′ , y)|dy ≤ N(b −
a) supy∈[a, b] |k(x, y) − k(x , y)|. Como k é contı́nua, podemos para todo ǫ′ > 0 encontrar δ ′ > 0 tal
′
que |k(x, y) − k(x′ , y)| < ǫ′ sempre que |x − x′ | < δ ′ . Esse δ ′ (ǫ′ ) depende apenas de ǫ′ , pois pode ser
escolhido independente de x, x′ e y, já que k é contı́nua em um compacto.
Assim, concluı́mos que para
ǫ
todo ǫ > 0 podemos encontrar δ(ǫ) > 0, a saber, δ(ǫ) = δ ′ (b−a)N tal que |(Kf )(x) − (Kf )(x′ )| < ǫ
sempre que |x − x′ | < δ(ǫ). O fato de δ não depender de x nem de x′ nem de f significa que o
conjunto de funções {Kf, f ∈ BN} é o que se denomina ser um conjunto eqüicontı́nuo de funções.
Por um teorema clássico de Análise conhecido como Teorema de Ascoli (ou de Ascoli-Arzela), sabe-
se que toda seqüência de funções eqüicontı́nuas possui pelo menos uma sub-seqüência convergente na
norma do supremo. Assim, se fn é uma seqüência de funções em BN, a seqüência Kfn tem pelo menos
sub-seqüência convergente na norma do supremo. Ora, isso precisamente afirma que K é compacto.
• O operador integral de Volterra
Um outro operador importante em equações diferenciais e integrais é o chamado operador integral

de Volterra32 , ou simplesmente operador de Volterra:
Z x
(V f )(x) := k(x, y)f (y) dy ,
a
definido para f contı́nua no intervalo [a, b] onde, como no caso do operador de Fredholm, k é uma
função fixa contı́nua no retângulo [a, b] × [a, b]. É fácil ver que V é um operador linear mapeando
31
32
C([a, b]) em si mesmo. Podemos escrever

Z b
(V f )(x) = v(x, y)f (y) dy ,
a
com v(x, y) = k(x, y)χ[a, x] (y), onde




 1, se y ∈ [a, x]
χ[a, x] (y) := .


 0, se y 6∈ [a, x]
Como v é limitada no retângulo [a, b] × [a, b], é fácil mostrar, repetindo o que fizemos para o operador
de Fredholm, que V é um operador limitado agindo em C([a, b]). Porém, como v não é contı́nua (pois
χ[a, x] não o é), não podemos repetir os argumentos que conduziram-nos à conclusão que o operador de
Fredholm é compacto. No entanto, os operadores de Volterra são compactos, como mostra o seguinte
argumento.
Para n ∈ N, consideremos o operador de Fredholm definido por
Z b
(Vn f )(x) = vn (x, y)f (y) dy , onde vn (x, y) := k(x, y) e−n(|x−y|−(x−y)) .
a
Vemos que se a ≤ y ≤ x então vn (x, y) = k(x, y) = v(x, y). Se, porém, x < y ≤ b, teremos
limn→∞ vn (x, y) = 0, que é quanto vale v na mesma região. Assim, vemos ao menos intuitivamente
que Vn → V quando n → ∞. Vamos provar que essa convergência se dá na norma de B(C([a, b])).
Como os Vn são compactos (por serem de Fredholm), isso implica que V é compacto pela Proposição
26.44, página 1343. Observemos, então, que para f ∈ C([a, b]), vale
Z b
(V f )(x) − (Vn f )(x) = (v(x, y) − vn (x, y)) f (y) dy
a
Z b Z b
= (v(x, y) − vn (x, y)) f (y) dy = − k(x, y)e−n(|x−y|−(x−y)) f (y) dy .
x x
Logo, ! Z b
|((V − Vn )f )(x)| ≤ sup |k(x, y)| kf k∞ e−n(|x−y|−(x−y)) dy .
x, y∈[a, b] x
Agora,
Z b Z b−x Z b−x
−n(|x−y|−(x−y)) y ′ =y−x −n(|y ′ |+y ′ ) ′ −2ny ′ ′ 1 − e−2n(b−x)
e dy = e dy = e dy = .
x 0 0 2n
Dessa forma, !
1 − e−2n(b−a)
k(V − Vn )f k∞ ≤ sup |k(x, y)| kf k∞ ,
x, y∈[a, b] 2n
e, portanto, !
1 − e−2n(b−a)
kV − Vn k ≤ sup |k(x, y)| ,
x, y∈[a, b] 2n
provando que lim kV − Vn k = 0. Isso demonstrou que os operadores de Volterra são compactos.
n→∞
Exemplo 26.6 Um caso interessanteR é aquele em que k(x, y) ≡ 1. Denotemos por W o correspondente
x
operador de Volterra: (W f )(x) = a f (y) dy. Vamos provar que esse operador de Volterra não tem
autovalores.
Rx Suponhamos que exista λ ∈ C e uma função g ∈ C([a, b]) não-nula tais que W g = λg, ou
seja, a g(y) dy = λg(x). Essa igualdade indica que g é diferenciável e tem-se g(x) = λg ′(x) para todo
x ∈ [a, b]. Para λ = 0 sairia disso que g(x) = 0 para todo x ∈ [a, b], situação que já descartamos,
−1
Se λ 6= 0 aRequação diferencial g ′(x) = λ−1 g(x) tem como solução g(x) = g(a)eλ (x−a) . Porém, de
x
g(x) = λ−1 a g(y) dy vemos que g(a) = 0 e novamente terı́amos g(x) = 0 para todo x ∈ [a, b].
Rx
Assim, o operador (W f )(x) = a f (y) dy agindo em C([a, b]) é um exemplo de operador compacto
que não possui autovalores. Como todo operador agindo em um espaço de Banach, W tem um espectro
não-vazio mas, como vimos, seu espectro pontual é vazio. Vamos agora provar que σ(W ) = {0}. Para
R x f diferenciável e seja g ∈ Ran (λ1 − W )) tal que (λ1 − W )f = g, ou seja, g(x) =
λ 6= 0, seja
λf (x) − a f (y)dy, o que implica g(a) = λf (a). Como f é diferenciável, g também o é e tem-se
g ′ = λf − f . A solução dessa equação diferencial para f com a condição f (a) = g(a)/λ é
Z
1 1 x x −y
f (x) = g(x) + 2 e λ e λ g(y) dy , (26.98)
λ λ a
como facilmente se mostra. Definindo o operador de multiplicação Eλ : C([a, b]) → C([a, b]) por
(Eλ h)(x) := e− λ h(x) a expressão (26.98) está dizendo-nos que para λ 6= 0, o operador (λ1 − W )−1 ,
x
restrito ao espaço C 1 ([a, b]) das funções contı́nuas e diferenciáveis (como a função g acima), é dado
por
1 1
(λ1 − W )−1 ↾C 1 ([a, b]) = 1 + 2 Eλ−1 W Eλ .
λ λ
O operador à direita é limitado e C ([a, b]) é denso em C([a, b]). Logo, (λ1 − W )−1 existe em toda
1
parte, valendo, portanto, para o operador resolvente Rλ (W ) a expressão

1 1
Rλ (W ) = 1 + 2 Eλ−1 W Eλ , ∀λ 6= 0 ,
λ λ
provando que se λ 6= 0 então λ é um elemento do conjunto resolvente de W : λ ∈ ρ(W ). Isso estabeleceu
que ρ(W ) = C \ {0} e que σ(W ) = {0}.
No caso λ = 0 a imagem de λ1 − W = −W é o conjunto C 1 ([a, b]), que é denso em C([a, b]).
Logo, {0} pertence ao espectro contı́nuo σc (W ) e não ao espectro residual σr (W ), que deve ser vazio.
Resumindo,
σ(W ) = {0}, σp (W ) = ∅, σc (W ) = {0} e σr (W ) = ∅ . (26.99)
Notemos, por fim que |(W f )(x)| ≤ kf k∞ (x − a) e, portanto kW k ≤ b − a. Para a função constante
igual a 1, vale (W 1)(x) = x − a. Logo kW 1k∞ = b − a e como k1k∞ = 1, segue que kW k ≥ b − a,
provando que kW k = b − a. Concluı́mos que W tem um raio espectral nulo (por (26.99)), mas uma
norma não-nula. ◊
Notemos, por fim, que tanto os operadores de Fredholm quando os de Volterra são limitados e
definidos em C([a, b]), que é um conjunto denso em espaços de Hilbert do tipo L2 ([a, b], r(x)dx) com
r positiva e contı́nua. Assim, pelo Teorema BLT, Teorema 26.1, página 1254, esses operadores podem
ser estendidos a operadores compactos agindo nesses espaços de Hilbert.
26.6.1 O Teorema Espectral para Operadores Compactos Auto-adjuntos

Vamos na presente seção demonstrar a versão do Teorema Espectral para operadores compactos auto-
adjuntos, generalizando em parte o teorema espectral provado para matrizes na Seção 3.4, página
178.
Faremos implicitamente uso, em tudo o que segue, da Proposição 26.8, página 1285, que estabelece
que os autovalores de um operador auto-adjunto são reais e que para tais operadores os autovetores de
autovalores distintos são ortogonais entre si.
• Autovalores de Operadores Compactos Auto-adjuntos
O teorema a seguir tem um papel central a desempenhar na demonstração do teorema espectral

para operadores compactos auto-adjuntos, por garantir que os mesmos sempre possuem pelo menos
um autovalor.
Teorema 26.28 Seja C é um operador compacto e auto-adjunto agindo em um espaço de Hilbert H e
denotemos por σp (C) o conjunto de todos os autovalores de C.
I. Então, σp (C) 6= ∅ pois ou kCk ∈ σp (C) ou −kCk ∈ σp (C) (ou ambos), ou seja, ou kCk ou −kCk
(ou ambos) são autovalores de C.
II. Além disso, tem-se,

h i
1. σp (C) ⊂ − kCk, kCk .
2. Cada autovalor de C, exceto eventualmente um autovalor nulo (se houver), tem degene-
rescência finita.
3. σp (C) é um conjunto infinito, exceto se C for de posto finito.
4. Se C não for de posto finito, 0 será o único ponto de acumulação de σp (C).
5. Se C não for de posto finito, σp (C) é enumerável. 2
Enfatizamos que o espaço de Hilbert H, no enunciado acima, não é necessariamente separável. Um

outro comentário concerne ao caso de operadores compactos não-auto-adjuntos. Se C é um operador
compacto não-auto-adjunto, pode-se provar que o conjunto de seus autovalores não-nulos é também
enumerável e se acumula no máximo em zero, mas pode ser vazio, o que não ocorre no caso de operadores
compactos auto-adjuntos (parte I do enunciado acima). Um exemplo é operador de Volterra W , tratado
tratado no Exemplo 26.6 à página 1351.
Prova do Teorema 26.28. Suporemos C 6= 0, de outra forma não há o que demonstrar. Provaremos
separadamente as partes I e II.
Prova da parte I. Como C é auto-adjunto, vale kCk = sup |hψ, Cψi| (Teorema 26.12, página 1288).
ψ∈H, kψk=1
Logo, existe uma seqüência ψn , n ∈ N, de vetores em H com kψn k = 1 tal que kCk = lim |hψn , Cψn i|
n→∞
(justifique!). Como C = C ∗ , hψn , Cψn i é um número real. Dessa forma, como o módulo de hψn , Cψn i
converge a kCk, hψn , Cψn i deve ter uma sub-seqüência que converge a kCk ou uma sub-seqüência
que converge a −kCk (ou ambas). Para evitar sobrecarregar a notação, também denotaremos essa
sub-seqüência por hψn , Cψn i, a qual convergirá para c = ±kCk, conforme o caso. Agora, usando o
fato que c é real, que c2 = kCk2 e que C = C ∗ , teremos
kCψn − cψn k2 = hCψn − cψn , Cψn − cψn i = kCψn k2 + c2 kψn k2 −2chψn , Cψn i
| {z }
=1
≤ kCk2 kψn k2 +c2 − 2chψn , Cψn i = 2c (c − hψn , Cψn i) .

| {z } | {z }
=c2 =1
Como lim hψn , Cψn i = c, concluı́mos que

n→∞
lim (Cψn − cψn ) = 0 . (26.100)

n→∞
Como ψn é uma seqüência limitada e C é compacto, a seqüência Cψn possui uma sub-seqüência Cψnj
convergente, ou seja, existe ψ ∈ H tal que lim Cψnj = ψ. A expressão (26.100) está então dizendo-nos
n→∞
que
ψ = lim Cψnj = c lim ψnj . (26.101)
n→∞ n→∞
Assim,
(26.101)
(26.101)
C é linear C é contı́nuo
Cψ = C c lim ψnj = cC lim ψnj = c lim Cψnj = cψ .
n→∞ n→∞ n→∞
Assim, se ψ 6= 0, ψ é um autovetor de C com autovalor c = +kCk ou c = −kCk. Agora, ver que ψ 6= 0

é fácil, pois, por (26.101)

kψk = c lim ψnj = |c| lim kψnj k = |c| = kCk =
6 0.
n→∞ n→∞ | {z }
=1
Isso completa a prova da parte I.
Prova da parte II.

II.1. Se λ é um autovalor de C existe um autovetor (não-nulo) φ ∈ H de C: Cφ = λφ. Podemos
escolher φ de modo que kφk = 1. Isso implicah |λ| = kλφk i= kCφk ≤ kCk kφk = kCk. Logo, como
λ ∈ R (pois C é auto-adjunto), segue que λ ∈ − kCk, kCk .
II.2. Vamos supor que λ seja um autovalor de C e que seja infinitamente degenerado33 . Isso significa
que o sub-espaço Mλ gerado pelos autovetores de C com autovalor λ tem dimensão infinita. Podemos
33
Aqui supomos implicitamente que H não tem dimensão finita, senão não haveria o que demonstrar
escolher em Mλ um conjunto ortonormal de vetores φn , n ∈ N. Como hφn , φm i = δn, m , segue que para
m 6= n, kφn − φm k2 = h(φn − φm ), (φn − φm )i = 2. Logo, também para m 6= n,
kCφn − Cφm k2 = kλφn − λφm k2 = |λ|2 kφn − φm k2 = 2|λ|2 .
Assim, se λ 6= 0, vemos que Cφn , n ∈ N não é uma seqüência de Cauchy, assim como nenhuma de
suas sub-seqüências. Isso contraria a hipótese que C é compacto. Essa contradição leva-nos a excluir
a possibilidade de λ ser infinitamente degenerado, exceto se λ = 0.
II.3. Vamos supor que σp (C) seja um conjunto finito. Pelo item II.2 o sub-espaço gerado por todos os
autovetores de C com autovalor não-nulo é de dimensão finita e, portanto, é fechado. Vamos denotá-lo
por M. É bastante claro que M é um sub-espaço invariante por C (justifique!). Assim, pelo Corolário
26.2, página 1286, M⊥ é igualmente um sub-espaço fechado que é invariante por C.
Vamos denotar por P o projetor ortogonal sobre M e por P ⊥ = 1 − P o projetor ortogonal sobre
M⊥ . Tem-se para todo ξ ∈ H
CP ⊥ ξ = 1CP ⊥ ξ = (P + P ⊥ )CP ⊥ ξ = P CP ⊥ ξ + P ⊥ CP ⊥ ξ = P ⊥ CP ⊥ ξ ,
pois P CP ⊥ ξ = 0, já que CP ⊥ ξ ∈ M⊥ , pois P ⊥ ξ ∈ M⊥ e M⊥ é invariante por C. Isso significa que
P ⊥ CP ⊥ = CP ⊥ . (26.102)
Como C e P ⊥ são auto-adjuntos, também obtem-se da última igualdade que
P ⊥ C = (CP ⊥ )∗ = (P ⊥ CP ⊥ )∗ = P ⊥ CP ⊥ = CP ⊥ ,
mas não usaremos isso.

Observemos agora que P ⊥ CP ⊥ é compacto (pela Proposição 26.41, página 1342) e auto-adjunto.
Assim, pela parte I, existe ϕ ∈ H, ϕ 6= 0, tal que P ⊥ CP ⊥ ϕ = ±kP ⊥ CP ⊥ kϕ. Essa igualdade diz-nos
que ϕ ∈ M⊥ , pois P ⊥ (CP ⊥ ϕ) ∈ M⊥ , devido ao fator P ⊥ à esquerda. Se assim é, então P ⊥ ϕ = ϕ e,
portanto, P ⊥ CP ⊥ ϕ = P ⊥ Cϕ = Cϕ, a última igualdade seguindo do fato que C mantem M⊥ invariante.
Estabelecemos, assim, que Cϕ = ±kP ⊥ CP ⊥ kϕ.
Agora, se kP ⊥ CP ⊥ k =
6 0, então ϕ seria um autovetor de C com autovalor não-nulo, o que significa
que ϕ ∈ M, pela definição de M. Ora, se ϕ 6= 0, isso não é possı́vel, pois o único vetor que M e M⊥
têm em comum é o vetor nulo. Concluı́mos daı́ que kP ⊥ CP ⊥ k = 0, ou seja, P ⊥ CP ⊥ = 0. Logo, por
(26.102), CP ⊥ = 0. Isso, por sua vez, diz-nos que para todo ψ ∈ M⊥ vale Cψ = CP ⊥ ψ = 0.
Assim, concluı́mos que C aniquila todo o sub-espaço M⊥ , ou seja, que M⊥ é constituı́do por au-
tovetores de C com autovalor zero. Pelo Teorema da Decomposição Ortogonal, Teorema 25.2, página
1229, todo vetor ψ ∈ H pode ser escrito na forma ψ = ψM + ψM⊥ , com ψM ∈ M e ψM⊥ ∈ M⊥ . Logo,
Cψ = CψM ∈ M, pois M é invariante por C. Como M é de dimensão finita, o fato que Cψ ∈ M para
todo ψ ∈ H está precisamente dizendo-nos que C é de posto finito.
É também fácil de se ver que se C é de posto finito então C tem um conjunto finito de autovalores.
Isso completa o que querı́amos provar.
II.4. Se C não é de posto finito, vimos no item II.3 que σp (C) não é um conjunto finito. Como, pelo
h i
item II.1, σp (C) está contido no intervalo fechado e limitado (ou seja, compacto) − kCk, kCk , σp (C)
deve possuir pelo menos um ponto de acumulação (Teorema de Bolzano-Weierstrass). Seja x0 um

desses pontos de acumulação de σp (C) e vamos supor que x0 6= 0. Como x0 é um ponto de acumulação
de σp (C), temos em cada intervalo aberto (x0 − ǫ, x0 + ǫ), com ǫ > 0, infinitos autovalores de C.
Tomemos ǫ pequeno o suficiente de modo que 0 6∈ (x0 − ǫ, x0 + ǫ), ou seja, tomemos ǫ > 0 mas tal que
|x0 | > ǫ. Tomemos também uma coleção contável λn , n ∈ N, de autovalores distintos de C contidos no
intervalo (x0 − ǫ, x0 + ǫ). É claro que |λn | > |x0 | − ǫ para todo n. Seja, para cada n ∈ N, um autovetor
φn de C com autovalor λn e com kφn k = 1. Como os autovalores são distintos, vale hφn , φm i = δn, m .
Assim, para n 6= m,
kCφn −Cφm k2 = kλn φn −λm φm k2 = h(λn φn −λm φm ), (λn φn −λm φm )i = |λn |2 +|λm |2 > 2(|x0 |−ǫ)2 .
Como 2(|x0 | − ǫ)2 não depende de m e n, isso está dizendo-nos que Cφn , n ∈ N, não é uma seqüência
de Cauchy, assim como nenhuma de suas sub-seqüências. Isso contraria o fato de C ser compacto.
Logo, x0 6= 0 não pode ser ponto de acumulação de autovalores de C. Como pelo menos um ponto de
acumulação deve existir, esse deve ser o ponto x0 = 0.
h i
II.5. Tomemos em − kCk, kCk um intervalo fechado [a, b] que não contém 0. Se [a, b] contivesse
infinitos autovalores de C, então haveria em [a, b] um ponto de acumulação de tais autovalores, o
que h Assimi[a, b] ∩ σp (C) é um conjunto finito. Portanto, conjuntos como
h já vimos iser impossı́vel.
−kCk, − kCk
n
∩ σp (C) e kCk
n
, kCk ∩ σp (C) são finitos para todo n ≥ 1, n ∈ N. Como
[∞
kCk kCk
σp (C) \ {0} = −kCk, − ∪ , kCk ∩ σp (C) ,
n=1
n n
concluı́mos que o lado direito é uma união contável de conjuntos contáveis (finitos). Logo, σp (C) \ {0}
é contável e, portanto, σp (C) é contável.
Isso completa a prova da parte II.
Estamos agora prontos para abordar o Teorema Espectral para operadores compactos e auto-
adjuntos.
• O Teorema Espectral para operadores compactos auto-adjuntos
Para o enunciar o Teorema Espectral para operadores compactos auto-adjuntos e para simplificar
sua demonstração precisamos acertar algumas convenções.
Se C é um operador compacto e auto-adjunto agindo em um espaço de Hilbert H, vimos no Teorema
26.28 que o conjunto de seus autovalores é contável (e até mesmo finito, caso C seja de posto finito)
e cada autovalor não-nulo é finitamente degenerado. Vamos denotar por λn , n ∈ N, o conjunto dos
autovalores não-nulos, convencionando que se um autovalor λ tem multiplicidade k então ele aparece
k, vezes seguidas na contagem, de forma que tenhamos, digamos, λm = · · · = λm+k−1 = λ. Com
isso, a seqüência λn , n ∈ N, contém cada autovalor repetido o número de vezes correspondente à
sua multiplicidade. Podemos convencionar também que os autovalores são ordenados de tal forma
que |λk | ≤ |λl | para todo k ≥ l, ou seja, de forma que a seqüência |λn |, n ∈ N seja não-crescente.
Sabemos que autovetores correspondentes a autovalores distintos são ortogonais entre si. O sub-espaço
Mλ gerado pelos autovetores de autovalor λ tem dimensão k, a multiplicidade de λ. Com isso, podemos
encontrar em Mλ um conjunto ortonormal de k autovetores φm , . . . , φm+k−1 . Constituı́mos dessa forma

um conjunto ortonormal φn , n ∈ N, de autovetores de C, cada qual com autovalor λn : Cφn = λn φn ,
para todo n ∈ N. Vamos denotar por Pn o projetor ortogonal relativo a cada autovetor φn : para todo
ψ ∈ H vale Pn ψ := hφn , ψi φn .
Caso C seja de posto finito, então as seqüências λn , n ∈ N, φn , n ∈ N e Pn , n ∈ N são, em verdade,
seqüências finitas.
Lembramos também que caso C não seja de posto finito, então 0 é o único ponto de acumulação da
seqüência λn , n ∈ N (novamente pelo Teorema 26.28), o que implica limn→∞ λn = 0, fato que usaremos
adiante.
Com essas convenções e com essa notação, temos o seguinte:
Teorema 26.29 (Teorema Espectral para Operadores Compactos Auto-adjuntos) Seja C um
operador compacto e auto-adjunto agindo em um espaço de Hilbert H. Então, a seqüência de opera-
N
X
dores de posto finito λn Pn , N ∈ N, converge a C na norma de B(H). Assim, para todo ψ ∈ H
n=1
tem-se ∞ ∞
X X
Cψ = λn Pn ψ = λn hφn , ψi φn . (26.103)
n=1 n=1
2
Enfatizamos que o espaço de Hilbert H, no enunciado acima, não é necessariamente separável.

Como Cφn = λn φn , a expressão (26.103) significa também que para todo ψ ∈ H,
∞
X
Cψ = hφn , ψi Cφn .
n=1
Compare-se isso às afirmações do Teorema 26.27, página 1345.
Prova do Teorema 26.29. Seja Pn := [φ1 , . . . , φn ] o sub-espaço de H gerado pelos vetores φ1 , . . . , φn .

Por ser de dimensão finita, Pn é um sub-espaço fechado de H. Para cada N ∈ N, N ≥ 1, defina-se
N
X
KN := C − λn Pn .
n=1
P
Caso kKM k = 0 para algum M ∈ N, então C = M n=1 λn Pn e a prova está completa. Caso kKN k =
6 0
para todo N ∈ N, procedemos da seguinte forma.
Como os vetores φn formam um conjunto ortonormal, vale Pi φj = hφi , φj iHφi = δi, j φi. Logo, se
1 ≤ l ≤ N, tem-se
N
X
KN φl = Cφl − λn Pn φ l = λl φ l − λl φ l = 0
n=1
o que significa dizer que KN aniquila o sub-espaço PN .

Os Pj ’s são auto-adjuntos e compactos (por serem de posto finito) e, portanto, cada KN é também
compacto e auto-adjunto. O Teorema 26.28, página 1352, garante, então, que KN possui um autovalor
igual a kKN k ou a −kKN k. Seja ψ um autovetor não-nulo correspondente. Teremos KN ψ = cN ψ onde
cN = kKN k ou cN = −kKN k. Como KN aniquila o sub-espaço PN , essa igualdade e a hipótese que
cN 6= 0 implicam que ψ ∈ (PN )⊥ .
Para ver isso, lembremos que pelo Teorema da Decomposição Ortogonal, Teorema 25.2, página
1229, podemos escrever ψ = χ + ξ, onde χ ∈ PN e ξ ∈ (PN )⊥ . Como KN é auto-adjunto e aniquila
todo vetor de PN , vale hχ, KN ψiH = hKN χ, ψiH = 0. Como, KN ψ = cN ψ, isso diz-nos que
0 = cN hχ, ψiH = cN hχ, χiH = cN kχk2 , provando que χ = 0 e que ψ = ξ ∈ (PN )⊥ .
Agora, o fato que ψ ∈ (PN )⊥ implica Pn ψ = 0 para todo 1 ≤ n ≤ N. Logo, KN ψ = Cψ e a
igualdade KN ψ = cN ψ significa Cψ = cN ψ, ou seja, kKN k ou −kKN k é um autovalor de C.
Quando definimos a seqüência λn , n ∈ N, convencionamos colocar consecutivamente autovalores
de multiplicidade repetida e ordená-los de modo que |λn |, n ∈ N seja uma seqüência não-crescente.
Isso implica que se cN = ±kKN k é um autovalor de C cujo autovetor não pertence a Pn , então temos
|cN | ≤ |λN |, ou seja, kKN k ≤ |λN |. Agora, também pelo Teorema 26.28, limN →∞ |λN | = 0, o que
implica limN →∞ kKN k = 0. Isso é precisamente o que querı́amos provar.
• Base ortonormal completa de autovetores de um operador compacto auto-adjunto
Seja C um operador compacto e auto-adjunto agindo em um espaço de Hilbert (não necessariamente

separável) H. Seja B1 = {φn | n ∈ N}, como acima, um conjunto ortonormal contável de autovetores
de C com autovalores não-nulos. Seja T o fecho do sub-espaço gerado pelos vetores φn , n ∈ N. É fácil
de ver que se ψ ∈ T ⊥ , então ψ ∈ Ker (C). De fato, para todo ψ ∈ T ⊥ vale hφn , ψiH = 0 para todo
n e, por (26.103), isso implica Cψ = 0. Vemos, portanto, que H é uma soma direta dos sub-espaços
fechados T e Ker (C). Como Ker (C) é fechado, é um espaço de Hilbert e, portanto, possui uma base
ortonormal completa (não necessariamente contável) B0 . Todos os vetores dessa base são autovetores
de C com autovalor nulo. O conjunto B0 ∪ B1 será, portanto, uma base ortogonal completa em H,
formada por autovalores (nulos ou não) de C. Concluı́mos então a prova do seguinte teorema:
Teorema 26.30 Seja C um operador compacto e auto-adjunto agindo em um espaço de Hilbert (não
necessariamente separável) H. Então H possui uma base ortonormal completa formada por autovetores
(com autovalores nulos ou não) de C. 2
Esse teorema pode também ser demonstrado sem evocar-se o Teorema espectral. Para tal, considere-
se o sub-espaço fechado A de H formado pela soma direta de T e Ker (C). Ou seja, A é o sub-espaço
fechado gerado por todos os autovetores de C (com autovalores nulos ou não). Como A é mantido
invariante por C, então A⊥ também o é (Corolário 26.2, página 1286). Se P ⊥ é o projetor ortogonal
sobre A⊥ , então o fato de A⊥ ser invariante por C significa CP ⊥ = P ⊥ CP ⊥ . Agora, P ⊥ CP ⊥ é
obviamente compacto e auto-adjunto (Proposição 26.41, página 1342). Vamos supor que kP ⊥ CP ⊥ k = 6
⊥ ⊥ ⊥ ⊥
0. Pelo Teorema 26.28, existirá φ ∈ H, φ 6= 0, tal que P CP φ = cφ, onde c = ±kP CP k. Essa
expressão implica φ ∈ A⊥ (devido ao fator P ⊥ do lado esquerdo). Assim, ela afirma que Cφ = cφ. Mas
isso diz-nos que φ é autovalor de C, o que só é possı́vel se φ ∈ A. Logo kP ⊥ CP ⊥ k = 0, mas isso, por
sua vez, implica CP ⊥ = 0, pois CP ⊥ = P ⊥ CP ⊥ . Logo, para todo ψ ∈ A⊥ teremos Cψ = CP ⊥ ψ = 0,
o que implica ψ ∈ Ker (C). Agora, Ker (C) ⊂ A e o único vetor que A e A⊥ têm em comum é o vetor
nulo. Provamos então que se ψ ∈ A⊥ então ψ = 0, ou seja A = H. Pela definição, isso diz precisamente
que o conjunto ortonormal B0 ∪ B1 , que gera A, é uma base ortonormal completa em H, encerrando
novamente a prova.
Os Teoremas 26.28 e 26.30 foram demonstrados por Hilbert34 , Schmidt35 , Riesz36 e Schauder37 . O
Teorema Espectral para operadores compactos auto-adjuntos foi provado por Hilbert em 1906, sendo o
restante da teoria (re)elaborado pelos demais autores por volta de 1908. Esses trabalhos são os marcos
iniciais da Análise Funcional. Para mais detalhes históricos desses importantes desenvolvimentos, vide
[35].
• O caso de operadores compactos não-auto-adjuntos
O Teorema Espectral demonstrado acima para operadores compactos e auto-adjuntos pode ser,
como veremos, estendido para operadores compactos não-auto-adjuntos. Já observamos, porém, que
nem todo operador compacto em espaços de dimensão infinita possui autovalores. Assim, esperamos
alguma diferença em relação ao caso auto-adjunto, pois na decomposição espectral √ (26.103) são os
autovalores λn de C que comparecem. A observação crucial vem do fato que |C| := C ∗ C é compacto
e auto-adjunto (Proposição 26.45, página 1348) e, pelo Teorema 26.28, página 1352, possui autovalores,
valendo inclusive o Teorema 26.29.
Seja C um operador compacto mas não necessariamente auto-adjunto e seja C = U|C| sua decom-
posição polar (Teorema 26.22, página 1319). Pela Proposição 26.45, página 1348, sabemos que |C| é
compacto, auto-adjunto e positivo. Podemos, pelo Teorema Espectral para operadores compactos e
auto-adjuntos, Teorema 26.29, página 1356, escrever
∞
X
|C| = µn hφn , · i φn ,
n=1
onde µn são os autovalores positivos de |C| (os quais são positivos pois |C| é um operador positivo) e
φn os correspondentes autovetores normalizados. Usando a decomposição polar C = U|C|, temos então
X∞
C = µn hφn , · i Uφn .
n=1
Lembremos que, pelo Teorema da Decomposição Polar (Teorema 26.22, página 1319), Ker (U) =
Ker (|C|) = Ker (C), de modo que Uφn 6= 0 se µn > 0.
Em resumo, o que concluı́mos desses comentários é o seguinte:
Teorema 26.31 (Decomposição Espectral para Operadores Compactos) Seja C um operador
compacto agindo em um espaço de Hilbert H. Então existem números positivos µn , n ∈ N e conjuntos
ortonormais φn , n ∈ N, e ψn , n ∈ N, em H tais que
X∞
C = µn hφn , · i ψn , (26.104)
n=1
34
35
36
37
Juliusz Pawel Schauder (1899-1943). Schauder foi tragicamente assassinado pela Gestapo.
a convergência da série de operadores do lado esquerdo se dando na norma de B(H). Se C for de posto
finito, a soma acima será finita. Assim, para todo ψ ∈ H podemos escrever
∞
X
Cψ = µn hφn , ψi ψn , (26.105)
n=1
A expressão (26.104) está também dizendo-nos que todo operador compacto C pode ser aproximado
em norma por operadores de posto finito. Isso generaliza o Teorema 26.27, página 1345, pois aqui não
precisamos supor que H seja separável. 2
• Valores singulares de um operador compacto
Os números µn que comparecem em (26.104) e (26.105) são denominados valores singulares do

operador compacto C. Vemos que trata-se dos autovalores de |C|. O operador C não necessariamente
tem autovalores mas sempre tem valores singulares e, por isso, há que se fazer a distinção entre ambos
os conceitos.
• Operadores Nucleares
Já comentamos à página 1346 que nem todo operador compacto agindo em espaços de Banach pode
ser aproximado por operadores de posto finito. Para espaços de Hilbert, no entanto, isso é verdade,
como atesta a expressão (26.105). No entanto, essa mesma expressão motiva uma importante definição
que apresentaremos e discutiremos brevemente aqui: a de operadores nucleares, noção introduzida por
Grothendieck38 .
Sejam X e Y dois espaços de Banach. Um operadorP limitado N : X → Y é dito ser um operador
nuclear se existirem constantes µn > 0, n ∈ N, com ∞ n=1 µn < ∞, funcionais lineares contı́nuos
†
ln :∈ X com kln kX† = 1 para todo n ∈ N e vetores yn ∈ Y com kyn kY = 1 para todo n ∈ N, tais que
∞
X
Nx = µn ln (x) yn , (26.106)
n=1
para todo x ∈ X.
P
A condição ∞ n=1 µn < ∞, é incluı́da por ser suficiente para garantir convergência do lado direito
da expressão (26.106). Pela expressão (26.105), vemos que um operador compacto em um espaço de
Hilbert é nuclear se e somente se a seqüência de seus valores singulares for somável.
E. 26.22 Exercı́cio-exemplo. Seja ψn , n ∈ N, um conjunto ortonormal de vetores em um espaço de

Hilbert H e seja Pn o projetor ortogonal sobre ψn . O operador
X∞
1
C = Pn
n=1
n
é compacto (vide o exemplo da equação (26.95)) mas não é nuclear. Mostre isso. 6
38
Alexander Grothendieck (1928-).
Como exercı́cio, deixamos ao leitor demonstrar as seguintes afirmações, válidas no contexto geral de
espaços de Banach: 1. todo operador de posto finito é nuclear (isso é evidente, aliás); 2. todo operador
nuclear é compacto; 3. toda combinação linear de dois operadores nucleares é novamente um operador
nuclear; 4. o produto (à direita ou à esquerda) de um operador nuclear por um operador contı́nuo é
novamente um operador nuclear. Vide [155].
26.7 O Teorema Espectral para Operadores Limitados Auto-

adjuntos em Espaços de Hilbert
Na presente seção trataremos do Teorema Espectral para operadores limitados auto-adjuntos agindo
em espaços de Hilbert em suas diversas formas. Seguiremos proximamente [116], mas completaremos
várias lacunas daquela exposição.
26.7.1 O Cálculo Funcional Contı́nuo e o Homomorfismo de Gelfand

P
Começamos com uma definição elementar. Se p(x) = a0 + nk=1 ak xk é um polinômio em Px ∈ C, e
T ∈ B(H), H sendo um espaço de Hilbert, define-se p(T ) ∈ B(H)
P por p(T ) := a0 1 + n k
k=1 ak T .
Convencionando que T 0 = 1, podemos escrever também p(T ) = nk=0 ak T k .
O seguinte lema resume alguns fatos fundamentais a respeito de polinômios de operadores auto-
adjuntos em espaços de Hilbert e é um caso particular da Proposição 26.29, página 1308, dispensando
demonstração.
Lema 26.6 Seja H um espaço de Hilbert e A ∈ B(H) um operador limitado e auto-adjunto. Seja
n
também p(x) = Σ ak xk um polinômio em x ∈ C. Então, o espectro de p(A) é a imagem por p do
k=0
espectro de A, ou seja,
σ(p(A)) = {p(λ), λ ∈ σ(A)} =: p(σ(A)) . (26.107)
Fora isso, kp(A)k = sup |p(λ)|. 2
λ∈σ(A)
Seja agora o espaço de Banach C(σ(A)) da funções complexas contı́nuas definidas no espectro
de A dotado da norma kf k∞ := supλ∈σ(A) |f (λ)| e seja P (σ(A)) o sub-espaço de C(σ(A)) formado
por polinômios. Sabemos pelo Teorema de Weierstrass que P (σ(A)) é denso em C(σ(A)). Vimos
também no Lema 26.6 que a aplicação φA ≡ φ : P (σ(A)) → B(H) dada por φ(p) = p(A) satisfaz
kφ(p)kH = kpk∞ . Ora, isso diz-nos que φ é limitada e, pelo Teorema BLT, Teorema 26.1, página 1254,
pode ser estendida unicamente e isometricamente ao fecho de P (σ(A)) que é C(σ(A)). Essa extensão
também será denotada por φ. Assim, para toda f ∈ C(σ(A)) podemos definir φ(f ) como limite em
norma de operadores φ(p), com p sendo polinômios que convergem a f na norma k · k∞ .
Denotaremos também sugestivamente φ(f ), para f ∈ C(σ(A)), por f (A). Tem-se os seguintes fatos
sobre φ(f ) (vide [116]).
Teorema 26.32 (Cálculo Funcional Contı́nuo) Seja H um espaço de Hilbert, seja A ∈ B(H)
auto-adjunto e seja φA ≡ φ : C(σ(A)) → B(H) definida acima. Para todo polinômio p vale φ(p) =
p(A). Como vimos, pelo Teorema BLT, Teorema 26.1, página 1254, tem-se kφ(f )kH = kf k∞ para toda
f ∈ C(σ(A)). Fora isso, valem as seguintes afirmações:
1. A aplicação φ é um ∗-homomorfismo algébrico, ou seja,
φ(αf + βg) = αφ(f ) + βφ(g) , φ(f g) = φ(f )φ(g) , φ(1) = 1 ,

φ(f )∗ = φ(f) ,
(26.108)
para todas f, g ∈ C(σ(A)) e todos α, β ∈ C. Como f g = gf , segue de (26.108) que φ(f )φ(g) =
φ(g)φ(f ) para todas f, g ∈ C(σ(A)).
2. Se f ≥ 0 tem-se também φ(f ) ≥ 0.
3. Se fn ∈ C(σ(A)), n ∈ N é uma seqüência de converge na norma k · k∞ a uma função f ∈

C(σ(A)) então φ(fn ) converge a φ(f ) na norma de B(H). Reciprocamente, se φ(fn ) converge
na norma de B(H), então existe f ∈ C(σ(A)) tal que limn→∞ φ(fn ) = φ(f ). Isso diz-nos que
{φ(f ), f ∈ C(σ(A))} é fechada na norma de B(H). Com a propriedade do item 1, isso significa
que {φ(f ), f ∈ C(σ(A))} é uma álgebra C∗ Abeliana com unidade.
4. Se ϕ ∈ H é um autovetor de A com autovalor λ0 , então φ(f )ϕ = f (λ0 )ϕ. Mais genericamente,

vale σ(φ(f )) = {f (λ), λ ∈ σ(A)}. 2
O ∗-homomorfismo φ : C(σ(A)) → B(H) é por vezes denominado homomorfismo de Gelfand39 .
Prova do Teorema 26.32. A demonstração desse teorema segue muito proximamente a demonstração do
Teorema 26.17, página 1309 e, de fato, quase todas as asserções acima são casos particulares daquele
teorema pois B(H) é uma álgebra C∗ com unidade. Para facilitar a leitor e destacar algumas poucas
especificidades, apresentamos a demonstração com detalhe.
Prova do item 1. A aplicação φ é limitada e, portanto, contı́nua. As propriedades (26.108), que carac-
terizam φ como um ∗-homomorfismo algébrico, são triviais de se verificar no subespaço denso P (σ(A))
e daı́ se estendem facilmente a todo C(σ(A)) por continuidade.
Prova do item 2. Se f ≥ 0 então f = g 2 para alguma g real e contı́nua. Logo, pela propriedade de
homomorfismo φ(f ) = φ(g 2 ) = φ(g)φ(g) = φ(g)∗φ(g), que é um operador positivo.
Prova do item 3. Tem-se kφ(fn ) − φ(f )k = kφ(f − fn )k = kf − fn k∞ . Logo, se kf − fn k∞ → 0, segue
kφ(fn ) − φ(f )k → 0. Reciprocamente, se φ(fn ) converge na norma de B(H), segue que φ(fn ) é uma
seqüência de Cauchy em B(H). Assim, como kφ(fn ) − φ(fm )k = kfn − fm k∞ , a seqüência fn é de
Cauchy em C(σ(A)) com a norma k · k∞ . Como C(σ(A)) é completo em relação a essa norma, existe
f ∈ C(σ(A)) à qual fn converge e, portanto, limn→∞ φ(fn ) = φ(f ).
Prova do item 4. Para provar que φ(f )ϕ = f (λ0 )ϕ caso Aϕ = λ0 ϕ, notemos em primeiro lugar que para
qualquer polinômio p vale, claramente, φ(p)ϕ = p(λ0 )ϕ. Se tomarmos uma seqüência de polinômios p
que converge a f na norma k · k∞ teremos o resultado desejado por continuidade.
1
Se λ não pertence à imagem de σ(A) por f então r := (f −λ) é contı́nua e, portanto, φ(r) está
bem definida e vale φ(r)φ(f − λ) = φ(f − λ)φ(r) = 1, pelas propriedades de homomorfismo, provando
39
que φ(f ) − λ1 é bijetora com inversa limitada e que, portanto, λ ∈ ρ(φ(f )), o conjunto resolvente de
φ(f ). Isso estabeleceu que o complemento da imagem de f , C \ {f (λ), λ ∈ σ(A)}, é um subconjunto
de ρ(φ(f )). Logo, σ(φ(f )) ⊂ {f (λ), λ ∈ σ(A)}. Vamos agora demonstrar a inclusão oposta. Seja
µ ∈ {f (λ), λ ∈ σ(A)}, ou seja, µ = f (λ0 ) para algum λ0 ∈ σ(A) e vamos supor que µ ∈ ρ(φ(f )), ou
seja, que F := φ(f ) − f (λ0)1 é bijetora. Seja agora P := φ(p) − p(λ0 )1 para algum polinômio p tal que
kf − pk∞ < ǫ. Teremos, F − P = φ(f − p) − (f (λ0 ) − p(λ0 ))1 e, assim,
kF − P k ≤ kφ(f − p)k + |f (λ0) − p(λ0 )| k1k = kf − pk∞ + |f (λ0) − p(λ0 )| ≤ 2kf − pk∞ < 2ǫ .
Agora, pelo Corolário 26.3, página 1297, se escolhermos esse ǫ pequeno o suficiente tal que kF − P k <
kF −1 k−1 , então P será invertı́vel em B(H), o que implica p(λ0 ) 6∈ σ(φ(p)) com λ0 ∈ σ(A). Isso
contraria (26.107). Logo, devemos ter µ 6∈ ρ(φ(f )), ou seja, µ ∈ σ(φ(f )), o que prova {f (λ), λ ∈
σ(A)} ⊂ σ(φ(f )), estabelecendo a igualdade desses dois conjuntos. Isso completa a prova do Teorema
26.32
Comentamos que a identificação σ(φ(f )) = {f (λ), λ ∈ σ(A)} não contraria o fato de σ(φ(f )) ser
fechado, pois a imagem de um conjunto compacto (no caso, σ(A)) por uma função contı́nua (no caso,
f ) é sempre um conjunto compacto (ou seja, fechado e limitado).
26.7.2 Generalizando o Cálculo Funcional Contı́nuo. As Medidas Espec-

trais
Seja daqui por diante A um operador auto-adjunto limitado fixo, definido em um espaço de Hilbert H.
O Teorema 26.32 é muito importante por permitir definir objetos como f (A) para uma função
contı́nua f definida no espectro de um operador auto-adjunto A agindo em um espaço de Hilbert.
Sucede, porém, que é possı́vel fazer ainda mais e definir f (A) mesmo para certas funções f que não
sejam contı́nuas. A necessidade de um tal resultado não é meramente um capricho matemático, mas é
importante para alcançarmos um resultado mais profundo, a saber, a versão por projetores espectrais
do teorema espectral da qual falaremos mais abaixo.
Nosso ponto de partida é a seguinte observação. Seja ψ ∈ H e seja f ∈ C(σ(A)). Então, a aplicação
f 7→ hψ, f (A)ψiH = hψ, φ(f )ψiH é claramente um funcional linear definido em C(σ(A)). Fora isso,
para todo f ∈ C(σ(A)) vale
Cauchy-Schwarz
|hψ, φ(f )ψiH| ≤ kφ(f )k kψk2 = kf k∞ kψk2 ,
provando que a aplicação C(σ(A)) ∋ f 7→ hψ, φ(f )ψiH é limitada e, portanto, contı́nua. Além disso, se
f ≥ 0, vimos pelo Teorema 26.32 que φ(f ) é um operador positivo. Isso significa que hψ, φ(f )ψiH ≥ 0
para todo ψ ∈ H. Por fim, se f ≡ 1, segue que φ(f ) = 1 e hψ, φ(f )ψiH = kψk2 < ∞.
Em resumo, provamos que para ψ ∈ H com a aplicação C(σ(A)) ∋ f 7→ hψ, φ(f )ψiH é um funci-
onal linear contı́nuo, positivo. Esses fatos aparentemente inocentes têm uma conseqüência profunda e
altamente não-trivial. Um clássico teorema de Análise conhecido como Teorema da Representação de
Riesz40 afirma que
40
Teorema 26.33 (Teorema da Representação de Riesz ou Teorema de Riesz-Markov) Seja X

um espaço topológico localmente compacto e Hausdorff e seja Cc (X) o espaço das funções contı́nuas
definidas em X que tenham suporte compacto. Então, se l : Cc (X) → C é um funcional linear positivo
em Cc (X), existe uma (única) medida positiva µ sobre uma σ-álgebra M que contém a σ-álgebra de
Borel de X tal que Z
l(f ) = f dµ .
X
para toda f ∈ Cc (X). A medida µ e a σ-álgebra M satisfaz µ(K) < ∞ para todo compacto K ⊂ X e é
regular, ou seja
µ(E) = inf{µ(V ), E ⊂ V, V aberto} (26.109)
para todo E ∈ M e
µ(E) = sup{µ(K), K ⊂ E, K compacto} (26.110)
para todo E ∈ M com µ(E) < ∞. Por fim, o espaço de medida produzido por M e µ é completo, ou
seja, se E ∈ M é tal que µ(E) = 0 então todo subconjunto de E pertence a M. 2
O enunciado do teorema acima foi extraı́do de [123], onde sua demonstração pode também ser encon-
trada41 . Alguns autores (por ex. [122]) referem-se a esse Teorema como Teorema de Riesz-Markov42 .
Em nosso caso, X = σ(A) não é apenas localmente compacto, mas compacto e, portanto, Cc (X) =
C(σ(A)). Podemos, então, escrever
Z
hψ , f (A)ψi = f dµψ, A (26.111)
σ(A)
para toda f ∈ C(σ(A)), onde denotamos a medida em σ(A), cuja existência é garantida pelo Teorema
26.33, por µψ, A para lembrar sua dependência em ψ e A.
A medida µψ, A é denominada medida espectral do operador A associada ao vetor ψ ∈ H.
No que se segue, estudaremos várias propriedades dessa medida. Por exemplo, provaremos no item
4 do Teorema 26.35, abaixo, que se ϕ ∈ H, com kϕk = 1, é um autovetor de A com autovalor λ0 , então
a medida µϕ, A é a medida de Dirac centrada em λ0 .
E. 26.23 Exercı́cio. Mostre que µαψ, A = |α|2µψ, A para todo α ∈ C. 6
A importância da relação (26.111) para nossa tarefa de estender o cálculo funcional para funções
não-contı́nuas é a seguinte. Apesar de a função f em (26.111) ser contı́nua, o lado esquerdo está bem
definido
R para qualquer função Boreliana limitada, ou seja, se g : σ(A) → C é Boreliana e limitada então
g dµ ψ, A está bem definida. A questão é: existe um operador g(A) ∈ B(H) tal que hψ , g(A)ψi =
Rσ(A)
σ(A)
g dµψ, A ? Mostraremos que, de fato, um tal operador pode ser definido por essa relação. A idéia é
41
Teorema 2.14 da edição [123].
42
Andrei Andreyevich Markov (1903-1979). O pai desse Markov, que tinha o mesmo nome que o filho e viveu entre 1856
e 1922, foi também um matemático célebre e foi o inventor das cadeias de Markov da teoria dos processos estocásticos,
entre outras coisas. O trabalho do segundo Markov contendo o teorema que citamos sobre funcionais lineares é: A.
Markov, “On mean values and exterior densities”, Mat. Sbornik N.S. 4 (46) (1938) 165-191. Para mais referências
históricas, vide [122].
explorar identidade de polarização para definir o que seria o equivalente aos produtos escalares gerais
hψ , g(A)φi e mostrar que esse equivalente é uma forma sesquilinear e bicontı́nua (em ψ e φ ∈ H), o
que, como veremos, permite definir o operador limitado g(A).
Este é o momento oportuno para introduzirmos a noção geral de forma sesquilinear bicontı́nua em
espaços de Hilbert e estabelecermos um resultado geral sobre essa noção.
• Formas sesquilineares bicontı́nuas
Uma forma sesquilinear43 S : H × H → C é dita ser bicontı́nua se existir M > 0 tal que |S(u, v)| ≤
M kuk kvk para todos u, v ∈ H. O seguinte resultado é fundamental para o que segue.
Proposição 26.46 Se S : H × H → C é uma forma sesquilinear bicontı́nua em um espaço de Hilbert
H então existe um operador limitado S, único, tal que
S(u, v) = hSu, vi
para todos u, v ∈ H. 2
Prova. Para cada u fixo, a aplicação v 7→ S(u, v) é um funcional linear contı́nuo. Assim, pelo Teorema
de Representação de Riesz para espaços de Hilbert, Teorema 25.8, página 1246, existe para cada u ∈ H
um vetor ηu tal que S(u, v) = hηu , vi. Seja S : H → H a função (que não pressupomos ser linear) que
associa u a ηu : S(u) = ηu . Escrevemos, portanto, S(u, v) = hS(u), vi para todos u, v ∈ H.
Como S é sesquilinear, tem-se S(α1 u1 +α2 u2 , v) = α1 S(u1 , v)+α2S(u2 , v), para todos u1 , u2 , v ∈ H
e α1 , α2 ∈ C. Assim,
hS(α1 u1 + α2 u2 ), vi = α1 hS(u1), vi + α2 hS(u2 ), vi
= hα1 S(u1 ), vi + hα2 S(u2 ), vi = h(α1 S(u1 ) + α2 S(u2)), vi ,

para todos u1 , u2, v ∈ H e α1 , α2 ∈ C, o que implica S(α1 u1 + α2 u2 ) = α1 S(u1 ) + α2 S(u2 ), ou seja, S
é linear. Pela hipótese de S ser bicontı́nua, tem-se |hSv, ui| ≤ Mkuk kvk para todos u, v ∈ H. Assim,
kSvk2 = |hSv, Svi| ≤ MkSvk kvk. Isso implica kSvk ≤ Mkvk para todo v ∈ H, provando que S é um
operador linear limitado. A unicidade de S é elementar.
• A construção do operador g(A)
No que segue, Bl (σ(A)) designará o conjunto de todas as funções complexas Borelianas e limitadas
definidas em σ(A).
Proposição 26.47 Para cada g ∈ Bl (σ(A)), Boreliana e limitada, a aplicação Sg : H × H → C
definida por
3 Z
1 X −n
Sg (u, v) := i g dµψn , A (26.112)
4 n=0 σ(A)
43
A definição de forma sesquilinear encontra-se à página 119.
onde ψn := u + in v, é uma aplicação sesqui-linear e bicontı́nua em H, sendo que |Sg (u, v)| ≤
kgk∞ kuk kvk para todos u, v ∈ H. Assim, pela Proposição 26.46, existe um operador limitado, que
denotaremos por g(A), tal que
Sg (u, v) = hu, g(A)vi
para todos u, v ∈ H. É claro também que
kg(A)k ≤ kgk∞ . (26.113)
Prova. Para cada função f contı́nua tem-se pela identidade de polarização (2.31), página 133, e por
(26.111), que
3 Z 3
1 X −n 1 X −n
Sf (u, v) = i f dµψn , A = i hψn , f (A)ψn i
4 n=0 σ(A) 4 n=0
3
1 X −n
= i h(u + in v), f (A)(u + in v)i = hu, f (A)vi ,
4 n=0
Isso mostra que Sf é sesquilinear e é bicontı́nua pois, por Cauchy-Schwarz, vale |hu, f (A)vi| ≤
kf (A)k kuk kvk. Queremos agora provar que essas propriedades estendem-se às formas Sg , com g ∈
Bl (σ(A)), e a idéia é explorar o fato que tais funções podem ser aproximadas por funções contı́nuas.
Mais especificamente, usaremos o seguinte resultado:
Teorema 26.34 (Teorema de Lusin) 44 Seja X um espaço localmente compacto e Hausdorff e seja
µ uma medida positiva sobre uma σ-álgebra M de X que contém a σ-álgebra de Borel de X tal que: 1)
µ(K) < ∞ para todo compacto K ⊂ X; 2) µ é regular, ou seja µ(E) = inf{µ(V ), E ⊂ V, V aberto}
para todo E ∈ M e µ(E) = sup{µ(K), K ⊂ E, K compacto} para todo E ∈ M com µ(E) < ∞; 3) o
espaço de medida produzido por M e µ é completo, ou seja, se E ∈ M é tal que µ(E) = 0 então todo
subconjunto de E pertence a M.
Suponha que g é uma função complexa e mensurável em X com a propriedade que g(x) = 0 se
x 6∈ B, sendo B ⊂ X tal que µ(B) < ∞. Então para todo ǫ > 0 existe f ∈ Cc (X) tal que

µ {x ∈ X| g(x) 6= f (x)} ≤ ǫ .
Além disso, f pode ser escolhida de forma que
sup |f (x)| ≤ sup |g(x)| .

x∈X x∈X
44
Nikolai Nikolaevich Lusin (ou Luzin) (1883-1950).
O enunciado do teorema acima foi extraı́do de [123], onde sua demonstração pode também ser encon-
trada45 . O Teorema 26.34 tem o seguinte corolário elementar, que usaremos adiante.
Corolário 26.14 Seja X é um espaço localmente compacto e Hausdorff e µj , j = 1, . . . , n, uma
coleção finita de medidas satisfazendo as condições do Teorema 26.34. Seja g é uma função complexa
e Boreliana em X com a propriedade que g(x) = 0 se x 6∈ B, sendo B ⊂ X tal que µj (B) < ∞,
j = 1, . . . , n. Então para todo ǫ > 0 existe f ∈ Cc (X) tal que

µj {x ∈ X| g(x) 6= f (x)} ≤ ǫ
para todo j = 1, . . . , n. Além disso, f pode ser escolhida de forma que
sup |f (x)| ≤ sup |g(x)| .

x∈X x∈X
Prova. Seja D := {x ∈ X| g(x) 6= f (x)}. Pelas hipóteses, as medidas µj têm em comum a σ-

álgebra de Borel em X, onde podemos definir a medida µ := µ1 + · · · + µn , a qual também satisfaz
todasas condições do Teorema 26.34. Logo, existe
f ∈ C c (X) com (µ 1 + · · · + µ n ) D ≤ ǫ, ou seja,
µ1 D + · · · + µn D ≤ ǫ, o que implica µj D ≤ ǫ para todo j = 1, . . . , n, pois as medidas são
positivas.
Note-se que as condições 1, 2 e 3 do enunciado do Teorema 26.34 são aquelas garantidas pelo Teorema
26.33 e, portanto, valem para as medidas µψ, A definidas em X = σ(A). A nós nos interessa o seguinte.
Pelo Teorema de Lusin, Teorema 26.34, se g ∈ Bl (σ(A)) é Boreliana e limitada então para todo ǫ> 0
existe f ∈ C(σ(A)) tal que µ(E) ≤ ǫ, onde E ⊂ σ(A) é o conjunto E := {x ∈ σ(A)| g(x) 6= f (x)} . É
claro disso que
Z Z Z

(f − g) dµψ, A ≤ |f − g| dµψ, A = |f − g| dµψ, A ≤ kf − gk∞ µ(E) ≤ 2kgk∞ ǫ ,

σ(A) σ(A) E
(26.114)
onde usamos o fato que, novamente pelo Teorema de Lusin, kf k∞ ≤ kgk∞, o que implica kf − gk∞ ≤
kf k∞ + kgk∞ ≤ 2kgk∞ . Para u, v ∈ H fixos e ǫ > 0 podemos, pelo Corolário 26.14, escolher
f ∈ C(σ(A)) de forma que Z
|f − g| dµψn, A ≤ 2kgk∞ ǫ (26.115)
σ(A)
para todos os quatro vetores ψn = u + in v, n = 0, . . . , 3. Assim, com u, v ∈ H fixos e para uma tal f
teremos
Z
1 X3 X3 Z
−n
|Sg (u, v) − Sf (u, v)| = i (g − f )dµψn , A ≤ |g − f |dµψn, A ≤ 8kgk∞ ǫ .
4 σ(A)
n=0 n=0 σ(A)
(26.116)
45
Teorema 2.24 da edição [123].
Com isso podemos provar que Sg é sesquilinear explorando o fato que Sf o é para toda f contı́nua. De
fato, para todos u, v1 , v2 ∈ H e α1 , α2 ∈ C, temos Sf (u, α1 v1 + α2 v2 ) − α1 Sf (u, v1 ) − α2 Sf (u, v2 ) = 0
se f for contı́nua e daı́ segue que

Sg (u, α1 v1 + α2 v2 ) − α1 Sg (u, v1 ) − α2 Sg (u, v2 )

= Sg (u, α1 v1 +α2 v2 )−α1 Sg (u, v1 )−α2 Sg (u, v2 ) − Sf (u, α1 v1 +α2 v2 )−α1 Sf (u, v1 )−α2 Sf (u, v2 )
≤ |Sg (u, α1 v1 + α2 v2 ) − Sf (u, α1 v1 + α2 v2 )|
+ |α1 | |Sg (u, v1 ) − Sf (u, v1 )| + |α2 | |Sg (u, v2 ) − Sf (u, v2 )| .
Por (26.116), os três últimos termos podem ser escolhidos tão pequenos quanto se queira pela escolha de
uma f ∈ C(σ(A)) apropriada (evocando o Corolário 26.14), o que nos leva a concluir que Sg (u, α1 v1 +
α2 v2 ) = α1 Sg (u, v1 ) + α2Sg (u, v2 ), estabelecendo a linearidade de Sg em relação ao segundo argumento.
A anti-linearidade em relação ao primeiro argumento é provada da mesma forma. Resta-nos mostrar
que Sg é bicontı́nua. Escolhendo novamente f ∈ C(σ(A)) de forma que |Sg (u, v) − Sf (u, v)| ≤ ǫ, para
algum ǫ > 0 qualquer (vide (26.116)), e usando que |Sf (u, v)| ≤ kf (A)k kuk kvk, teremos
|Sg (u, v)| = |Sg (u, v)−Sf (u, v)+Sf (u, v)| ≤ |Sg (u, v)−Sf (u, v)|+|Sf (u, v)| ≤ ǫ+kf (A)k kuk kvk .
(26.117)
Lembremos que kf (A)k = kf k∞ e que, pelo Teorema de Lusin, Teorema 26.34, podemos escolher f
de modo que kf k∞ ≤ kgk∞ . Assim, |Sg (u, v)| ≤ ǫ + kgk∞kuk kvk. Como isso vale para todo ǫ > 0,
concluı́mos que |Sg (u, v)| ≤ kgk∞ kuk kvk, provando que Sg é bicontı́nua. Isso completa a prova da
Proposição 26.47.
A Proposição 26.47 estabelece uma associação entre funções Borelianas limitadas g definidas em
σ(A) e operadores limitados g(A) agindo em H. Denotemos essa aplicação por φ̂ : Bl (σ(A)) → B(H),
ou seja, g(A) ≡ φ̂(g) A associação f 7→ f (A), para f contı́nua, é, como vimos no curso da demonstração
da Proposição 26.47, um caso particular, de modo que φ̂ : Bl (σ(A)) → B(H) é uma extensão da
aplicação φ : C(σ(A)) → B(H) do Cálculo Funcional Contı́nuo, Teorema 26.32. Sobre a aplicação φ̂
temos o seguinte teorema.
Teorema 26.35 (Cálculo Funcional Boreliano) Seja H um espaço de Hilbert, seja A ∈ B(H)
auto-adjunto e seja φˆA ≡ φ̂ : Bl (σ(A)) → B(H) definida acima. φ̂ é uma extensão de φ : C(σ(A)) →
B(H) do Teorema 26.32 e, portanto, para f ∈ C(σ(A)) vale φ̂(f ) = φ(f ) = f (A). Em particular, para
todo polinômio p vale φ̂(p) = p(A). Por (26.113), kφ̂(g)kH ≤ kgk∞ para toda g ∈ Bl (σ(A)). Fora isso,
1. A aplicação φ̂ é um ∗-homomorfismo algébrico, ou seja,
φ̂(αg + βh) = αφ̂(g) + β φ̂(h) , φ̂(gh) = φ̂(g)φ̂(h) , φ̂(1) = 1 ,

φ̂(g)∗ = φ̂(g) ,
(26.118)
para todas g, h ∈ Bl (σ(A)) e todos α, β ∈ C. Como gh = hg, segue de (26.118) que φ̂(g)φ̂(h) =
φ̂(h)φ̂(g) para todas g, h ∈ Bl (σ(A)).
2. Se g ≥ 0 tem-se também φ̂(g) ≥ 0.
3. Sejam g ∈ Bl (σ(A)) e gn ∈ Bl (σ(A)), n ∈ N, tais que lim gn (x) = g(x) para todo x ∈ σ(A) mas
n→∞
tais que existe M > 0 para o qual kgn k∞ < M para todo n ∈ N. Então, gn (A) converge a g(A)
na topologia forte, ou seja, para todo ψ ∈ H a seqüência gn (A)ψ converge a g(A)ψ.
4. Se ϕ ∈ H é um autovetor de A com autovalor λ0 , então µϕ, A é a medida de Dirac centrada em

λ0 e φ̂(g)ϕ = g(λ)ϕ para toda g ∈ Bl (σ(A)). Em geral tem-se σ(φ̂(g)) ⊂ {g(λ), λ ∈ σ(A)}. 2
Comentamos que no Teorema 26.32, página 1360, estabelecemos que σ(φ(f )) = {f (λ), λ ∈ σ(A)}
para f contı́nua. Tal propriedade não pode valer, em geral, para funções Borelianas limitadas, já pelo
fato de que a imagem de um conjunto compacto por uma função Boreliana limitada não é necessaria-
mente um conjunto compacto.

Prova do item 1. Como Sg (u, y) dada em (26.112) é claramente linear em g, concluı́mos que φ̂ também
o é: φ̂(αg + βh) = αφ̂(g) + β φ̂(h) para todas g, h ∈ Bl (σ(A)) e todas α, β ∈ C.
Para provar que φ̂(gh) = φ̂(g)φ̂(h) é suficiente provar que hu, (gh)(A)vi = hu, g(A)h(A)vi para
cada u, v ∈ H. Fixemos esse par de vetores e, evocando o Corolário 26.14, escolhamos f1 ∈ C(σ(A))
tal que
µψn , A ({x ∈ σ(A) : g(x) 6= f1 (x)}) ≤ ǫ
para todos os quatro vetores ψn = u + in h(A)v, n = 0, . . . , 3 e para os quatro vetores ψn = u + in v,
n = 0, . . . , 3. Fixada f1 , e evocando o Corolário 26.14, escolhamos f2 ∈ C(σ(A)) tal que
µψn , A ({x ∈ σ(A) : h(x) 6= f2 (x)}) ≤ ǫ
para todos os quatro vetores ψn = f1 (A)∗ u + in v, n = 0, . . . , 3 e para os quatro vetores ψn = u + in v,

n = 0, . . . , 3.
Com essas escolhas valem, como em (26.114)
Z
|f1 − g| dµψn, A ≤ 2kgk∞ ǫ
σ(A)
para todos os quatro vetores ψn = u + in h(A)v, n = 0, . . . , 3 e, portanto, como em (26.116),
|Sg (u, h(A)v) − Sf1 (u, h(A)v)| ≤ 8kgk∞ ǫ . (26.119)
Analogamente, Z
|f2 − h| dµψn , A ≤ 2khk∞ ǫ
σ(A)
para todos os quatro vetores ψn = f1 (A)∗ u + in v, n = 0, . . . , 3. e, portanto, como em (26.116),
|Sh (f1 (A)∗ u, v) − Sf2 (f1 (A)∗ u, v)| ≤ 8khk∞ ǫ . (26.120)

Como
n o n o[n o
x ∈ σ(A) : g(x)h(x) 6= f1 (x)f2 (x) ⊂ x ∈ σ(A) : g(x) 6= f1 (x) x ∈ σ(A) : h(x) 6= f2 (x)
(justifique!), segue também que

µψn , A x ∈ σ(A) : g(x)h(x) 6= f1 (x)f2 (x)

≤ µψn , A x ∈ σ(A) : g(x) 6= f1 (x) + µψn , A x ∈ σ(A) : h(x) 6= f2 (x) ≤ 2ǫ
para todos os quatro vetores ψn = u + in v, n = 0, . . . , 3. Isso implica, como em (26.114),

Z
|f1 f2 − gh| dµψn, A ≤ 4kghk∞ ǫ
σ(A)
para todos os quatro vetores ψn = u + in v, n = 0, . . . , 3 e, portanto, como em (26.116),
|Sgh (u, v) − Sf1 f2 (u, v)| ≤ 16kgk∞ ǫ . (26.121)
Teremos, fazendo uso de (26.119), (26.120) e (26.121),
|hu, (gh)(A)vi − hu, g(A)h(A)vi| = |Sgh (u, v) − Sg (u, h(A)v)|
= |Sgh (u, v) − Sf1 (u, h(A)v) − Sg (u, h(A)v) + Sf1 (u, h(A)v)|
≤ |Sgh (u, v) − Sf1 (u, h(A)v)| + |Sg (u, h(A)v) − Sf1 (u, h(A)v)|
(26.119)
≤ |Sgh (u, v) − Sf1 (u, h(A)v)| + 8kgk∞ ǫ
= |Sgh (u, v) − hu, f1 (A)h(A)vi| + 8kgk∞ǫ
= |Sgh (u, v) − hf1 (A)∗ u, h(A)vi| + 8kgk∞ ǫ
= |Sgh (u, v) − Sh (f1 (A)∗ u, v)| + 8kgk∞ ǫ
= |Sgh (u, v) − Sf2 (f1 (A)∗ u, v)
− Sh (f1 (A)∗ u, v) + Sf2 (f1 (A)∗ u, v)| + 8kgk∞ǫ

≤ |Sgh (u, v) − Sf2 (f1 (A)∗ u, v)|
+ |Sh (f1 (A)∗ u, v) − Sf2 (f1 (A)∗ u, v)| + 8kgk∞ ǫ
(26.120)
≤ |Sgh (u, v) − Sf2 (f1 (A)∗ u, v)| + 8(khk∞ + kgk∞ )ǫ
= |Sgh (u, v) − hf1 (A)∗ u, f2 (A)vi| + 8(khk∞ + kgk∞ )ǫ
= |Sgh (u, v) − hu, f1 (A)f2 (A)vi| + 8(khk∞ + kgk∞)ǫ
= |Sgh (u, v) − hu, (f1 f2 )(A)vi| + 8(khk∞ + kgk∞ )ǫ
= |Sgh (u, v) − Sf1 f2 (u, v)| + 8(khk∞ + kgk∞ )ǫ
(26.121)
≤ 16kghk∞ ǫ + 8(khk∞ + kgk∞)ǫ
= 8(2kghk∞ + khk∞ + kgk∞)ǫ .
Como ǫ é arbitrário, concluı́mos que hu, (gh)(A)vi = hu, g(A)h(A)vi para todos u, v ∈ H, o que im-
plica (gh)(A) = g(A)h(A), ou seja, φ̂(gh) = φ̂(g)φ̂(h), estabelecendo a propriedade de homomorfismo.
Provar que φ̂(g)∗ = φ̂(g) segue das seguintes linhas auto-explicativas:
3 Z
∗ 1X n
hv, g(A) ui = hu, g(A)vi = Sg (u, v) = i gdµψn , A
4 n=0 σ(A)
3
1X n
= i h(u + in v), g(A)(u + in v)i = hv, g(A)ui ,
4 n=0
sendo que a última igualdade é demonstrada explicitamente, expandindo-se o produto escalar na soma.
Isso estabeleceu que g(A)∗ = g(A), ou seja, φ̂(g)∗ = φ̂(g).
√
Prova do item 2. Se g é Boreliana limitada e positiva então g também o é (vide Proposição 23.13,
√ √ √ √ √
página 1177). Com isso, φ̂(g) = φ̂( g g) = φ̂( g)φ̂( g), que é um operador positivo, pois φ̂( g) =
√ √ √
φ̂ g = φ̂( g)∗ , já que g é real.
Prova do item 3. Sejam g ∈ Bl (σ(A)) e gn ∈ Bl (σ(A)), n ∈ N tais que lim gn (x) = g(x) para todo
n→∞
x ∈ σ(A) mas tais que existe M > 0 para o qual kgn k∞ < M para todo n ∈ N. Fixemos ψ ∈ H.
Tem-se que
k(gn (A) − g(A))ψk2 = hψ, (gn (A) − g(A))∗ (gn (A) − g(A))ψi
Z
= |gn − g|2 dµψ, A
σ(A)
Z
≤ kgn − gk∞ |gn − g| dµψ, A
σ(A)
Z
≤ (M + kgk∞ ) |gn − g| dµψ, A .
σ(A)
Neste ponto evocamos

Z o Teorema da Convergência Dominada, Teorema 23.6 da página 1161, o qual
garante46 que lim |gn − g| dµψ, A = 0. Assim, lim k(gn (A) − g(A))ψk = 0 para cada ψ ∈ H, o
n→∞ σ(A) n→∞
que significa que gn (A) → g(A) na topologia forte.
Prova do item 4. Seja ϕ ∈ H é um autovetor
R de A com autovalor λ0 . Adotemos kϕk = 1 e consideremos
a medida µϕ, A tal que hϕ, f (A)ϕi = σ(A) f dµϕ, A para f contı́nua (vide (26.111)). Pelo Teorema 26.32,
f (A)ϕ = f (λ0 )ϕ. Logo, por (26.114),
Z
f dµϕ, A = f (λ0 ) (26.122)
σ(A)
para toda função f ∈ C(σ(A)).

Vamos provar que µϕ, A ({λ0 }) é não-nula. Seja G um aberto contendo o conjunto fechado {λ0 }.
Então, F = σ(A) \ G é fechado. Pelo Lema de Urysohn47 existe uma função fu ∈ C(σ(A)) satisfazendo
0 ≤ fu (x) ≤ 1 para todo x ∈ σ(A) e tal que fu (λ0 ) = 1 e fu (x) = 0 para todo x ∈ F . Assim, fu pode
R (26.122)
ser não-nula apenas no aberto G. Logo, como σ(A) fu dµϕ, A = fu (λ0 ) = 1, vale
Z Z 0≤fu ≤1
1 = fu dµϕ, A = fu dµϕ, A ≤ µϕ, A (G) . (26.123)
σ(A) G
Pela regularidade da medida µϕ, A (propriedade (26.109), página 1363), vale

(26.123)
µϕ, A ({λ0 }) = inf{µϕ, A (G), {λ0 } ⊂ G, G aberto} ≥ 1. (26.124)
Evocando o Teorema de Lusin, Teorema 26.34, existe para todo ǫ > 0 uma função fǫ ∈ C(σ(A)) tal
R µϕ, A ({x ∈ σ(A) : g(x) 6= fǫ (x)}) ≤ǫR e kfǫ k∞ ≤ kgk∞ Como
que vimos (vide (26.114)), isso implica

σ(A) (g − fǫ ) dµϕ, A < 2kgk∞ ǫ, ou seja, σ(A) g dµϕ, A − fǫ (λ0 ) < 2kgk∞ ǫ e, portanto,
Z
g dµϕ, A = lim fǫ (λ0 ) .
σ(A) ǫ→0
46
Cada gn é dominada pela função constante M , a qual claramente pertence a L1 (σ(A), dµψ, A ).
47
Pavel Samuilovich Urysohn (1898-1924). Urysohn morreu tragicamente, afogado na costa da Bretanha. A demons-
tração do Lema de Urysohn pode ser encontrada em qualquer bom livro de topologia.
Vamos mostrar que limǫ→0 fǫ (λ0 ) = g(λ0 ). Se assim não fosse, terı́amos fǫ (λ0 ) 6= g(λ0 ) para
todo ǫ pequeno o suficiente, ou seja, para tais ǫ’s valeria λ0 ∈ {x ∈ σ(A) : g(x) 6= fǫ (x)}. Logo,
µϕ, A ({λ0 }) ≤ µϕ, A ({x ∈ σ(A) : g(x) 6= fǫ (x)}) < ǫ, o que implica µϕ, A ({λ0 }) = 0, contrariando
(26.124)48 . Com isso, estabelecemos que
Z
g dµϕ, A = g(λ0 ) (26.125)
σ(A)
para toda função Boreliana limitada g. Em particular,

R se B ⊂ σ(A) é um conjunto Boreliano e χB
é sua função caracterı́stica, então µϕ, A (B) = σ(A) χB dµϕ, A = χB (λ0 ). Isso está dizendo-nos que
µϕ, A = δ{λ0 } , a medida de Dirac centrada em λ0 (vide página 1062).
Para completar a prova que g(A)ϕ = g(λ0)ϕ para toda g ∈ Bl (σ(A)), notamos que
k(g(A) − g(λ0 )1)ϕk2 = hϕ, (g(A) − g(λ0 )1)∗ (g(A) − g(λ0 )1)ϕ i
Z
(26.125)
= |g − g(λ0)|2 dµϕ, A = |g(λ0) − g(λ0 )|2 = 0 ,
σ(A)
provando que g(A)ϕ = g(λ0 )ϕ.

1
Se λ não pertence ao fecho da imagem de σ(A) por g então r := (g−λ)
é Boreliana e limitada
e, portanto, φ̂(r) está bem definida e vale φ̂(r)φ̂(g − λ) = φ̂(g − λ)φ̂(r) = 1, pelas propriedades
de homomorfismo, provando que φ̂(g) − λ1 é bijetora com inversa limitada e que, portanto, λ ∈
ρ(φ̂(g)), o conjunto resolvente de φ̂(g). Isso estabeleceu que o complemento do fecho da imagem de g,
C \ {g(λ), λ ∈ σ(A)}, é um subconjunto de ρ(φ̂(g)). Logo, σ(φ̂(g)) ⊂ {g(λ), λ ∈ σ(A)}.
Com isso a demonstração do Teorema 26.35 está completa.
Uma das conseqüências mais importantes da extensão de φ a φ̂ reside no fato que agora podemos
definir operadores como φ̂(χB ) = χB (A), onde χB é a função caracterı́stica de um conjunto Boreliano
B de σ(A). Como veremos, podemos com o uso de tais operadores generalizar o Teorema Espectral
para operadores auto-adjuntos limitados, um fato de importância fundamental, inclusive para a Fı́sica
Quântica. Para tratar disso devemos primeiro discutir a noção geral de medidas com valores em
projeções ortogonais (mvpo’s).
26.7.3 Medidas com Valores em Projeções Ortogonais
Definição. Seja K um conjunto compacto (i.e., fechado e limitado) de R, doravante fixo. Vamos
denotar por B(K) a coleção de todos os conjuntos Borelianos de K. Uma associação EK ≡ E :
B(K) → B(H) que a cada conjunto Boreliano B ∈ B(K) associa um operador limitado EB é dita ser
uma medida com valores em projeções ortogonais (mvpo) se as seguintes condições forem satisfeitas.
1. Cada EB é um projetor ortogonal, ou seja, EB2 = EB e EB∗ = EB .

48
Esse argumento casualmente prova que fǫ (λ0 ) = g(λ0 ) para todo ǫ pequeno o suficiente, um resultado intuitivamente
esperado, já que µϕ, A ({λ0 }) 6= 0
2. E∅ = 0 e EK = 1.
3. EB1 EB2 = EB1 ∩B2 para todos B1 , B2 ∈ B(K).
4. Para toda coleção contável Bn , n ∈ N, de Borelianos em K satisfazendo Bk ∩ Bl = ∅ sempre que
k 6= l, tem-se
XN
E Bn = s−lim
S
EBn ,
n∈N N →∞
n=1
onde s−lim é o limite na topologia forte, ou seja, para todo ψ ∈ H vale

N
X
E S
Bn ψ = lim EBn ψ .
n∈N N →∞
n=1
A relevância dessa definição ficará clara com o Teorema 26.37, adiante. Notemos por ora que para cada
ψ ∈ H com ψ 6= 0 podemos definir, para todo B ∈ B(K),
νψ, E(B) := hψ, EB ψi . (26.126)
O ı́ndice E servirá para lembrar a dependência de ν da medida com valores em projeções ortogonais
{EB ∈ B(H), B ⊂ K, B Boreliano}.
Teremos, νψ, E(∅) = hψ, E∅ ψi = 0 e νψ, E(B) ≥ 0 para todo B, pois hψ, EB ψi = hψ, EB∗ EB ψi =
kEB ψk2 . Além disso, O item 4 da definição acima tem a seguinte conseqüência: se Bn , n ∈ N, é uma
coleção contável de Borelianos em K satisfazendo Bk ∩ Bl = ∅ sempre que k 6= l, então
! * N
+
[ X
νψ, E Bn = ψ, E S
Bn ψ = ψ, s−lim EBn ψ
n∈N N →∞
n∈N n=1
N
X N
X
= lim hψ, EBn ψi = lim νψ, E(Bn ) .
N →∞ N →∞
n=1 n=1
Essas propriedades estão dizendo-nos que νψ, E é uma medida positiva sobre a σ-álgebra de Borel de
K. Se kψk = 1, tem-se que νψ, E(K) = hψ, EK ψi = kψk2 = 1, e vemos nesse caso νψ, E é uma medida
de probabilidade em K.
Se assim é, podemos construir uma integral (de Lebesgue) sobre a medida Boreliana νRψ, E, tal como
desenvolvido no Capı́tulo 23, página 1119, e com a mesma teremos definidas as integrais gdνψ, E para
toda g Boreliana e limitada. Como mostraremos, seguindo passos semelhantes, mas não idênticos, à
construção dos operadores φ̂(A) ≡ g(A) feita acima (passos esses iniciados com aR Proposição 26.47 e
que culminaram com o Teorema 26.35), podemos construir
R a partir das integrais gdνψ, E operadores
limitados, que denotaremos por φE(g) ≡ gE, tais que gdνψ, E = hψ, gEψi para todo ψ ∈ H.
• Construindo os operadores φE(g) ≡ gE
Nossa construção dos operadores φE(g) ≡ gE assemelha-se àquela

R dos operadores φ̂(A) ≡ g(A) mas,
ao contrário daquele caso, não podemos partir do pressuposto que f dνψ, E = hψ, fEψi para f ∈ C(K)
contı́nua, pois os operadores fE não foram ainda definidos. Nossa estratégia será inicialmente definir
tais operadores para as funções Borelianas simples de K e, a partir delas, definir os operadores gE para
g Boreliana e limitada.
Seja X um conjunto e Y ⊂ X. Define-se a função caracterı́stica de Y , denotada χY : X → R por



 1, se x ∈ Y
χY (x) = .


 0, se x 6∈ Y
P
Seja, s = m k=1 αk χBk uma função simples Boreliana limitada definida em K, onde Bk ∈ B(K) e
αk , para todo k = 1, . . . , m. O conjunto de todas as funções
P simples Borelianas limitadas definida em
K será denotado por Sl (K). Definimos φE(s) ≡ sE := m k=1 k EBk . É elementar constatar que
α
φE(αr + βs) = αφE(r) + βφE(s) , φE(rs) = φE(r)φE(s) ,
φE(s)∗ = φE(s) , φE(1) = φE(χK ) = 1 , (26.127)
para todas r, s ∈ Sl (K) e todos α, β ∈ C. Como rs = sr, segue de que φE(r)φE(s) = φE(r)φE(s) para
todas r, s ∈ Sl (K). Assim, P
φE : Sl (K) → B(H) é um ∗-homomorfismo. Observe-se que se s ∈ Sl (K) é
representado na forma s = m k=1 αk χBk (com os Bk ’s disjuntos) então o espectro de s é {α1 , . . . , αm }
e ksk coincide com max{|α1 |, . . . , |αm |} = supx∈K |s(x)| ≡ ksk∞ .
Temos o seguinte análogo à Proposição 26.47, da página 1364:
Proposição 26.48 Para cada g ∈ Bl (K), Boreliana e limitada, a aplicação Sg : H × H → C definida
por
3 Z
1 X −n
Sg (u, v) := i g dνψn , E (26.128)
4 n=0 K
onde ψn := u + in v, é uma aplicação sesqui-linear e bicontı́nua em H, sendo que |Sg (u, v)| ≤
kgk∞ kuk kvk para todos u, v ∈ H. Assim, pela Proposição 26.46, existe um operador limitado, que
denotaremos por φE(g) ≡ gE, tal que
Sg (u, v) = hu, gE vi
para todos u, v ∈ H. Vale igualmente que
kgEk ≤ kgk∞ . (26.129)
Pm
Prova. Para cada função s ∈ Sl (K) da forma s = k=1 αk χBk tem-se pela identidade de polarização
(2.31), página 133, que

3 Z m 3 Z
1 X −n X 1 X −n
Ss (u, v) = i sdνψn , E = αk i χBk dνψn , E
4 n=0 K k=1
4 n=0 K
m
X 3
1 X −n
= αk i νψn , E(Bk )
k=1
4 n=0
m
X 3 3
(26.126) 1 X −n 1 X −n
= αk i hψn , EBk ψn i = i hψn , sE ψn i
k=1
4 n=0 4 n=0
3
1 X −n
= i h(u + in v), sE (u + in v)i
4 n=0
= hu, sE vi ,
Isso mostra que Ss , com s ∈ Sl (K), é sesquilinear e é bicontı́nua pois, por Cauchy-Schwarz, vale
|hu, sEvi| ≤ ksEk kuk kvk ≤ ksk∞ kuk kvk. Queremos agora provar que essas propriedades estendem-se
às formas Sg , com g ∈ Bl (K), e a idéia é explorar o fato que tais funções podem ser aproximadas por
funções simples. Mais especificamente, usaremos os seguintes fatos: pelo Lema 23.3, página 1145, e
pelo Corolário 23.2, se g ∈ Bl (K), existe uma seqüência sn ∈ Sl (K) tal que limn→∞ sn (x) = g(x) para
todo x ∈ K. Podemos escolhe-la de forma que supx∈K |sn (x)| ≤ supx∈K |g(x)| para todo n. Agora,
pelo Teorema da Convergência
R Dominada, Teorema 23.6, página 1161, segue do fato de a própria g ser
integrável que limn→∞ K |sn − g|dν = 0. Se ν é uma R soma finita de medidas, ν = ν1 + · · · + νl , segue
disso que para todo ǫ > 0 existe s ∈ Sl (K) tal que K |s − g|dνk < ǫ para todo k = 1, . . . , l e de modo
que supx∈K |s(x)| ≤ supx∈K |g(x)|.
Disso extraı́mos essencialmente a mesma conseqüência que em (26.116): para cada u, v ∈ H,
g ∈ Bl (K) e ǫ > 0 podemos encontrar s ∈ Sl (K) tal que |Sg (u, v) − Ss (u, v)| ≤ ǫ. Como em (26.117),
isso implica, |Sg (u, v)| = |Sg (u, v) − Ss (u, v) + Ss (u, v)| ≤ |Sg (u, v) − Ss (u, v)| + |Ss (u, v)| ≤
ǫ + ksEk kuk kvk e como ksEk ≤ ksk∞ ≤ kgk∞ temos também |Sg (u, v)| ≤ kgk∞kuk kvk para todo
u, v ∈ H.
Tendo provado que Sg é sesquilinear e bicontı́nua, concluı́mos novamente pela Proposição 26.46,
que existe um operador limitado φE(g) ≡ gE, tal que Sg (u, v) = hu, gE vi para todos u, v ∈ H com
kgEk ≤ kgk∞.
Sobre φE(g) : Bl (K) → B(H) vale o seguinte:

Teorema 26.36 (Cálculo Funcional Boreliano (versão para mvpo’s)) Seja H um espaço de Hil-
bert, K ⊂ R compacto e E : B(K) → B(H) uma medida com valores em projeções ortogonais e seja
φE : Bl (K) → B(H) definida acima. Então, kφE(g)kH ≤ kgk∞ para toda g ∈ Bl (K). Fora isso, valem
as seguintes afirmações:
1. A aplicação φE é um ∗-homomorfismo algébrico, ou seja,
φE(αg + βh) = αφE(g) + βφE(h) , φE(gh) = φE(g)φE(h) ,
φE(g)∗ = φE(g) , φE(1) = 1 , (26.130)

para todas g, h ∈ Bl (K) e todos α, β ∈ C. Como gh = hg, segue de (26.130) que φE(g)φE(h) =
φE(h)φE(g) para todas g, h ∈ Bl (K).
2. Se g ≥ 0 tem-se também φE(g) ≥ 0.
3. Sejam g ∈ Bl (K) e gn ∈ Bl (K), n ∈ N, tais que lim gn (x) = g(x) para todo x ∈ K mas tais
n→∞
que existe M > 0 para o qual kgn k∞ < M para todo n ∈ N. Então, φE(gn ) converge a φE(g) na
topologia forte, ou seja, para todo ψ ∈ H a seqüência φE(gn )ψ converge a φE(g)ψ. 2
Prova. As demonstrações dos itens 1 e 2 repetem os mesmos passos das demonstrações respectivas
do Teorema 26.35, apenas com a diferença que as funções Borelianas não são aqui aproximadas por
funções contı́nuas, mas por funções simples.
• Integração sobre uma medida com valores em projeções ortogonais
Por analogia à definição de integral sobre medidas, vamos escrever

Z Z
φE(g) ≡ gE ≡ g(λ) dEλ ≡ g(λ) dEλ ,
K
R
para denotar o operador obtido na Proposição 26.48 tal que hψ, gEψi = gdνψ, E para todo ψ ∈ H
com kψk = 1. Com essa notação, podemos também formalmente escrever
Z Z
hψ, gEψi ≡ g(λ) hψ, dEλ ψi ≡ g(λ) dhψ, Eλ ψi
e entender dhψ, Eλ ψi como uma nova notação para dνψ, E.

O fato de φE ser um ∗-homomorfismo entre as álgebras Bl (K) e B(H) (Teorema 26.36, página 1375)
expressa-se na nova notação da seguinte forma, que nada mais é que a (26.130):
Z Z Z
αg(λ) + βh(λ) dEλ = α g(λ) dEλ + β h(λ) dEλ , (26.131)
K K K
Z Z Z
(gh)(λ) dEλ = g(λ) dEλ h(λ) dEλ , (26.132)
K K K
Z ∗ Z
g(λ) dEλ = g(λ) dEλ , (26.133)
K K
Z Z Z
χK (λ) dEλ ≡ 1 dEλ ≡ dEλ = 1 , (26.134)
K K K
válidas para todas g, h ∈ Bl (K) e todos α, β ∈ C.

De particular importância é o operador obtido do monômio f (λ) = λ. Vamos denotá-lo por AE:
Z
AE := λ dEλ .
Mostraremos que a cada operador A limitado auto-adjunto existe uma única medida E com valores
em projeções ortogonais com a propriedade que AE = A.
26.7.4 Os Projetores Espectrais e o Teorema Espectral

Seja B ⊂ σ(A) um conjunto Boreliano. Então χB ∈ Bl (σ(A)). A introdução dos operadores φ̂(g) =
g(A) para g Boreliana e limitada permite-nos definir os operadores limitados PB := φ̂(χB∩σ(A) ) ≡
χB (A), denominados projetores espectrais do operador auto-adjunto A. Suas propriedades básicas estão
coletadas no seguinte teorema:
Teorema 26.37 Seja A um operador auto-adjunto agindo em um espaço de Hilbert H. Então a
associação P : B(σ(A)) → B(H) que a cada Boreliano de σ(A) associa um operador limitado dada por
B(σ(A)) ∋ B 7→ PB := φ̂(χB ) ≡ χB (A) ∈ B(H) é uma medida com valores em projeções ortogonais,
mais especificamente, tem-se
1. Cada PB é um projetor ortogonal, ou seja, PB2 = PB e PB∗ = PB .
2. P∅ = 0 e Pσ(A) = 1.
3. PB1 PB2 = PB1 ∩B2 para todos B1 , B2 ⊂ σ(A) Borelianos.
4. Se Bn , n ∈ N, é uma coleção contável de Borelianos em σ(A) satisfazendo Bk ∩ Bl = ∅ sempre

que k 6= l, então
XN
P Bn = s−lim
S
PBn ,
n∈N N →∞
n=1
onde s−lim é o limite na topologia forte, ou seja, para todo ψ ∈ H vale

N
X
P S
Bn ψ = lim PBn ψ .
n∈N N →∞
n=1
5. Se ψ ∈ H, vale
µψ, A (B) = hψ, PB ψi , (26.135)
para todo B ∈ B(σ(A)).
Os projetores PB com B ∈ B(σ(A)) são denominados projetores espectrais do operador A. 2


Prova do item 1. Como χ2B = χB e χB = χB , o item 1 segue do item 1 do Teorema 26.35.
Prova do item 2. χ∅ = 0 e, daı́, P∅ = φ̂(χ∅ ) = 0. Fora isso, χσ(A) coincide em σ(A) com o polinômio
constante igual a 1. Logo, pelo enunciado Teorema 26.35, tem-se Pσ(A) = φ̂(χσ(A) ) = φ̂(1) = 1.
Prova do item 3. χB1 χB2 = χB1 ∩B2 . Logo, pela propriedade de homomorfismo de φ̂, item 1 do Teorema
26.35, vale PB1 PB2 = φ̂(χB1 )φ̂(χB2 ) = φ̂(χB1 ∩B2 ) = PB1 ∩B2 .
P
Prova do item 4. A seqüência de funções Borelianas gN = N n=1 χBn satisfaz kgN k∞ = 1 para todo N,
pois os Bn são disjuntos e, portanto, cada ponto x ∈ σ(A) pode estar no máximo em um dos Bn ’s. É
também claro que para cada x ∈ σ(A)
N
X
χ S
Bn (x) = lim χBn (x) = lim gN (x) .
n∈N N →∞ N →∞
n=1
Portanto, pelo item 3 do Teorema 26.35, segue que

N
! N
X X
φ̂ χ S
Bn = s−lim φ̂ χBn = s−lim φ̂ (χBn ) ,
n∈N N →∞ N →∞
n=1 n=1
ou seja,
N
X
P S
Bn = s−lim PBn .
n∈N N →∞
n=1
R
Prova do item 5. A prova é elementar, pois µψ, A (B) = σ(A)
χB dµψ, A = hψ, χB (A)ψi ≡ hψ, PB ψi.
É evidente agora que νφ, P = µψ, A , pelo menos quando essas medidas estão restritas à σ-álgebra de
Borel de σ(A). Com o uso da notação introduzida acima, teremos
Z
g(A) = g(λ) dPλ (26.136)
σ(A)
para toda g ∈ Bl (σ(A)) e, em particular, podemos escrever o próprio operador auto-adjunto A na

forma Z
A = λ dPλ . (26.137)
σ(A)
As relações (26.131)-(26.134) ficam

Z Z Z
αg(λ) + βh(λ) dPλ = α g(λ) dPλ + β h(λ) dPλ , (26.138)
σ(A) σ(A) σ(A)
Z Z Z
(gh)(λ) dPλ = g(λ) dPλ h(λ) dPλ , (26.139)
σ(A) σ(A) σ(A)
Z ∗ Z
g(λ) dPλ = g(λ) dPλ , (26.140)
σ(A) σ(A)
Z Z Z
χσ(A) (λ) dPλ ≡ 1 dPλ ≡ dPλ = 1 , (26.141)
σ(A) σ(A) σ(A)
válidas para todas g, h ∈ Bl (σ(A)) e todos α, β ∈ C.
• Unicidade dos projetores espectrais
Se tivermos uma outra medida E com valores em projeções ortogonais tal que AE = A, será essa
medida
R idêntica
R à medida dos projetores espectrais P definida acima? A Rresposta é sim! De
R fato, se A =
σ(A)
λ dPλ = σ(A) λ dEλ vale para todo polinômio p a relação p(A) = σ(A) p(λ) dPλ = σ(A) p(λ) dEλ
(para isso, use (26.131)-(26.132) e (26.138)-(26.139)). Assim, para todo ψ ∈ H e todo polinômio p,
vale
Z Z Z Z
ψ, p(λ) dPλ ψ = ψ, p(λ) dEλ ψ , ou seja, p(λ) dµψ, A = p(λ) dνψ, E .
σ(A) σ(A) σ(A) σ(A)
R R
Pelo Teorema de Weierstrass, concluı́mos disso que σ(A) f dµψ, A = σ(A) f dνψ, E para toda função
contı́nua f ∈ C(σ(A)).
R Usando novamente
R o Teorema de Lusin, Teorema 26.34, e o Corolário 26.14,
obtem-se daı́ que σ(A) g dµψ, A = σ(A) g dνψ, E para toda função Boreliana limitada g ∈ Bl (σ(A)). Em
R R
particular, para um conjunto Boreliano B ⊂ σ(A), arbitrário, tem-se σ(A) χB dµψ, A = σ(A) χB dνψ, E,
ou seja, µψ, A (B) = νψ, E(B). Isso, por sua vez afirma, por (26.126) e por (26.135), que hψ, PB ψi =
hψ, EB ψi para todo ψ ∈ H, o que, pela identidade de polarização (expressão (2.31), página 133) implica
PB = EB . Como B é arbitrário, isso significa que as medidas com valores em projetores ortogonais P
e E coincidem, caso A = AE.
• O Teorema Espectral para operadores auto-adjuntos limitados
Chegamos assim ao seguinte:

Teorema 26.38 (Teorema Espectral) Seja H um espaço de Hilbert e seja A ∈ B(H) auto-adjunto.
Então existe uma única medida com valores em projeções ortogonais P : B(σ(A)) → B(H), a saber,
aquela estabelecida no Teorema 26.37, com B(σ(A)) ∋ B 7→ PB := φ̂(χB ) ≡ χB (A) ∈ B(H), tal que,
com a notação acima, Z
A = λ dPλ . (26.142)
σ(A)
Tem-se, também de modo único, Z

g(A) = g(λ) dPλ .
σ(A)
para toda g ∈ Bl (σ(A)) e de sorte que as relações (26.138)-(26.141) são válidas para todas g, h ∈
Bl (σ(A)) e todos α, β ∈ C. 2
A expressão (26.142) é denominada representação espectral, ou decomposição espectral do operador

auto-adjunto limitado A. O Teorema Espectral é de importância fundamental para a Fı́sica Quântica,
mas antes de discutirmos isso na Seção 26.7.5, façamos alguns comentários de natureza notacional.
• A notação de Dirac
Na Fı́sica Quântica, encontra-se para as expressões (26.136)-(26.137) a notação, dita notação de

Dirac49 , Z Z
A = λ d|λihλ| , g(A) = g(λ) d|λihλ| ,
σ(A) σ(A)
ou seja, nela identificamos dPλ ≡ d|λihλ|. Assim, na notação de Dirac (26.138)-(26.141) ficam
Z Z Z
αg(λ) + βh(λ) d|λihλ| = α g(λ) d|λihλ| + β h(λ) d|λihλ| ,
σ(A) σ(A) σ(A)
Z Z Z
(gh)(λ) d|λihλ| = g(λ) d|λihλ| h(λ) d|λihλ| ,
σ(A) σ(A) σ(A)
Z ∗ Z
g(λ) d|λihλ| = g(λ) d|λihλ| ,
σ(A) σ(A)
Z Z Z
χσ(A) (λ) d|λihλ| ≡ 1 d|λihλ| ≡ d|λihλ| = 1 ,
σ(A) σ(A) σ(A)
válidas para todas g, h ∈ Bl (σ(A)) e todos α, β ∈ C.

Advertimos o leitor que, ao contrário do que é lamentavelmente sugerido em muitos livros-texto de
Mecânica Quântica, não é sempre legı́timo interpretar o sı́mbolo |λihλ| como um projetor sobre um
autovetor |λi, pois nem todo λ ∈ σ(A) é um autovalor de A e |λi não necessariamente designa um
legı́timo vetor de H. A notação de Dirac é apenas isso: uma notação. Mais especificamente, é uma
notação para representar os fatos descritos no Teorema Espectral, Teorema 26.38.
Há uma pequena literatura matemática que pretende atender ao interesse de alguns fı́sicos no sentido
de atribuir um status extra-notacional às manipulações formais envolvendo os sı́mbolos “bra” hλ| e “ket”
|λi, através dos chamados “rigged Hilbert spaces”50 . Citemos aqui [116]: “We must emphasize that
49
Paul Adrien Maurice Dirac (1902-1984).
50
Vide, e.g., os trabalhos de John Roberts “The Dirac Bra and Ket Formalism”, J. Math. Phys. 7, 1097-1104 (1966)
e “Rigged Hilbert Spaces in Quantum Mechanics”, Commun. Math. Phys. 3, 98-119 (1966). O próprio Roberts não mais
valoriza esse tipo de abordagem.
we regard the spectral theorem as sufficient for any argument where a nonrigorous approach might rely
on the Dirac notation; thus, we only recommend the abstract rigged space approach to readers with a
strong emotional attachment to the Dirac formalism”.
26.7.5 A Relevância do Teorema Espectral para a Fı́sica Quântica (um

pouco de Fı́sica, finalmente)
• O Teorema Espectral e distribuições de probabilidade no espectro
Se ψ ∈ H é um vetor não-nulo do espaço de Hilbert H e g : Bl (σ(A)) → C é uma função Boreliana

limitada definida no espectro de um operador auto-adjunto e limitado A, sabemos pelas considerações
acima que Z Z
hψ, g(A)ψi = g dµψ, A = g(λ) dhψ, Pλ ψi .
σ(A) σ(A)
A medida µψ, A é uma medida positiva em σ(A) e se kφk = 1 sabemos também que
Z Z
dµψ, A = dhψ, Pλ ψi = 1 .
σ(A) σ(A)
Esses dois fatos estão dizendo-nos que µψ, A é uma medida de probabilidade em σ(A). Esse simples fato
matemático tem uma conseqüência significativa no contexto da Fı́sica Quântica, o qual está na raiz da
axiomatização e formalização da mesma em termos de espaços de Hilbert e de operadores agindo em
espaços de Hilbert. Para melhor compreendermos esse fato, façamos algumas considerações gerais.
• Algumas considerações gerais sobre teorias fı́sicas
A Fı́sica compõe-se de várias teorias, relacionadas entre si de diversas formas e que em maior ou
menor grau de aproximação descrevem o mundo observável. Podemos listar a Mecânica Clássica, a
Termodinâmica, a Mecânica Quântica, a Teoria Quântica de Campos Relativista, a Teoria da Relativi-
dade Geral e a Mecânica Estatı́stica. Essas diversas teorias possuem, porém, uma série de ingredientes
em comum. Qualquer teoria fı́sica deve saber especificar:
As grandezas fı́sicas observáveis e sua descrição matemática, a relações entre esses observáveis,
tais como relações de compatibilidade, relações algébricas etc.
O conjunto de valores que podem surgir de medidas individuais de observáveis.
A associação entre sistemas fı́sicos, os observáveis e as distribuições de probabilidade que descre-

vem medidas desses observáveis nos estados.
O conjunto dos estados puros.
A dinâmica dos observáveis e dos estados.
As simetrias dos sistemas fı́sicos descritos e suas implementações em estados e observáveis.

Vamos tentar discutir melhor alguns dos pontos acima.
• Observáveis e Distribuições de Probabilidade
Cada teoria fı́sica possui seu próprio conjunto de grandezas observáveis e um de seus objetivos prin-
cipais é descrever o resultado de medidas desses observáveis em sistemas fı́sicos. Seja A uma grandeza
fı́sica observável e C(A) o conjunto de valores possı́veis resultantes de medições de A (em qualquer
estado). É um fato experimental que medidas repetidas de um observável A, mantidas as mesmas
condições, ou seja, no mesmo estado fı́sico E do sistema estudado, não fornecem necessariamente o
mesmo valor em C(A), tendo um caráter aleatório.
É um fato observacional que uma sucessão idealmente infinita de medidas experimentais de A, todas
sob as mesmas condições fı́sicas do sistema em questão, deverá produzir uma distribuição estatı́stica
em C(A) definida por uma medida de probabilidade. Denominemos genericamente essas condições
fı́sicas por E (que pode concretamente representar um conjunto de parâmetros fı́sicos do sistema) e
por µE, A a medida de probabilidade em questão. Essa medida de probabilidade µE, A é uma função
tanto do conjunto de condições E que especifica o sistema quanto do observável A considerado. Essa
medida de probabilidade µE, A é denominada estado (ou estado fı́sico) do sistema em questão em relação
ao observável A. Como toda informação sobre as propriedades do sistema fı́sico, no que concerne ao
observável A, deve ser resultante da análise estatı́stica das medições experimentais de A no sistema,
concluı́mos que a medida de probabilidade µE, A , ou seja, o estado fı́sico do sistema, contém em si toda
informação disponı́vel sobre essas propriedades.
Aqui encontra-se embutido um princı́pio fı́sico (filosófico, se quiserem) que apenas a realidade ob-
jetiva proveniente da experimentação permite inferências sobre um sistema fı́sico, e essa realidade
manifesta-se na forma distribuições estatı́sticas nos conjuntos C(A) para os vários observáveis A com
os quais estudamos o sistema. Em outras palavras, a realidade de um sistema fı́sico só é alcançada com
base em experimentação e as inferências sobre o mesmo devem ser inferências estatı́sticas com base nos
dados experimentais. É somente com base nessas inferências que se pode determinar padrões gerais (se
houver) que conduzam à elaboração de leis fı́sicas e teorias para explicá-las com base em princı́pios mais
simples (postulados fı́sicos) e inferência matemática. Permitam-nos um comentário histórico-filosófico.
É uma crença geral dos fı́sicos, expressa pela primeira vez por Galilei5152 no séculos XVI-XVII, mas
com raı́zes mais profundas, que a formulação de teorias fı́sicas com base em idéias matemáticas, uma
construção da mente humana, seja possı́vel. Que tal tenha seja verdade, o que é corroborado pela
história da Fı́sica até agora, é talvez o maior enigma de toda a Ciência.
Há três possı́veis origens para a aleatoriedade, que mencionamos acima, observada na medição de
um observável em um sistema fı́sico, origens essas que podem ocorrer concomitantemente: ela pode ser
51
Galileo Galilei (1564-1642). “O livro da natureza não pode ser lido até aprendermos sua linguagem e nos tornarmos
familiares com os sı́mbolos no qual está escrito. E ele está escrito em linguagem matemática, e suas letras são triângulos,
cı́rculos e outras figuras geométricas, sem as quais é humanamente impossı́vel compreender uma única palavra e há
apenas um vagar perdido em um labirinto escuro”’. Il Saggiatore, 1623. Aos “triângulos e cı́rculos” acrescentarı́amos
modernamente equações diferenciais, medidas de probabilidade, operadores em espaços de Hilbert e álgebras C∗ .
52
O original de Galilei é “La filosofia è scritta in questo grandissimo libro che continuamente ci sta aperto innanzi a
gli occhi (io dico l’universo), ma non si può intendere se prima non s’impara a intender la lingua, e conoscer i caratteri,
ne’ quali è scritto. Egli è scritto in lingua matematica, e i caratteri sono triangoli, cerchi, ed altre figure geometriche,
senza i quali mezi è impossibile a intenderne umanamente parola; senza questi è un aggirarsi vanamente per un’oscuro
laberinto”.
proveniente de erros experimentais de medição, pode ser proveniente de um conhecimento incompleto

do sistema estudado, ou pode ser intrı́nseca do sistema descrito, fato identificado pela primeira vez na
Fı́sica Atômica.
Normalmente, na elaboração de teorias fı́sicas, considera-se a situação ideal na qual imprecisões
experimentais são negligenciadas. Ainda assim restam as duas outras fontes de aleatoriedade, as quais
então devem ser devidamente consideradas no arcabouço teórico. Mais adiante lembraremos como isso
é feito em alguns casos.
O fato que queremos enfatizar é que teorias fı́sicas devem ser capazes de associar a cada estado
fı́sico de um sistema e a cada observável uma distribuição de probabilidades que descreve uma sucessão
de medições daquele observável naquele estado. Note-se que isso não exclui teorias deterministas, como
a Mecânica Clássica, pois situações determinı́sticas também podem ser descritas por distribuições de
probabilidade, tais como distribuições delta de Dirac.
• Variâncias e estados puros
No processo de análise estatı́stica dos resultados de medições de um observável A de um sistema

fı́sico em um determinado estado várias grandezas desempenham um papel. Uma delas é o chamado
valor médio das medidas de A nessa distribuição, ou seja, sua esperança ou valor esperado, que será
denotado aqui por por hAiE . Outras grandezas relevantes são os momenta hAn iE , n ∈ N. É um
fato matemático bem conhecido (conseqüência do Teorema de Weierstrass, aliás) que se C(A) for um
conjunto compacto, então a medida de probabilidade µE, A pode ser recuperada a partir do conjunto
de momenta hAn iE , n ∈ N. 53
Outra grandeza estocástica importante é a chamada variância, dada por VarE (A) := hA2 iE −hAi2E =
h(A − hAiE )2 iE ≥ 0, que fornece uma indicação qualitativa do quanto os valores das medições de A
afastam-se de seu valor médio. Na Teoria de Probabilidades, o valor esperado (ou “esperança”) de
uma função mensurável (“variável aleatória”) A definida em um espaço amostral Ω e sua variância em
relação a uma medida de probabilidade µ em Ω são dadas por
Z Z
Eµ (A) ≡ hAiµ := A dµ , Varµ (A) := (A − hAiµ )2 dµ ,
Ω Ω
respectivamente.
Apesar de não ser a única grandeza estocástica que fornece esse tipo de informação qualitativa, a
variância é uma grandeza útil. Na Mecânica Quântica, por exemplo, o célebre princı́pio de incerteza
de Heisenberg54 é uma afirmação sobre a variância de dois observáveis (momento e posição em uma
mesma direção Cartesiana): Var(px ) Var(x) ≥ ~2 /4.
Na teoria de probabilidades, uma medida de probabilidades em um espaço amostral µ é dita ser pura
se não puder ser escrita como combinação linear convexa de duas outras medidas de probabilidades
do mesmo espaço amostral, ou seja, se não puder ser escrita na forma µ = αµ1 + (1 − α)µ2 onde µ1
53
Daı́ a importância de considerarmos observáveis A que sejam limitados, ou seja, para os quais C(A) seja compacto.
Como discutiremos, na Fı́sica Quântica C(A) é identificado com σ(A), o espectro de um operador auto-adjunto A. σ(A)
é compacto (fechado e limitado) se A for um operador auto-adjunto e limitado. Na chamada formulação algébrica das
Teorias Quânticas de Campos, todo o tratamento é feito considerando-se observáveis que sejam operadores auto-adjuntos
e limitados, em espaços de Hilbert ou de álgebras C∗ . Vide [54] ou [4].
54
Werner Karl Heisenberg (1901-1976).
e µ1 e µ2 são também medidas de probabilidade e 0 < α < 1. É um exercı́cio fácil mostrar que se
µ = αµ1 + (1 − α)µ2 , então
hAiµ = αhAiµ1 + (1 − α)hAiµ2
e h i2
Varµ (A) = αVarµ1 (A) + (1 − α)Varµ2 (A) + α(1 − α) hAiµ1 − hAiµ2 .
Disso concluı́mos que
Varµ (A) ≥ αVarµ1 (A) + (1 − α)Varµ2 (A) ≥ min{Varµ1 (A) , Varµ2 (A)}.
Assim, a variância Varµ (A) na medida não-pura µ é sempre maior ou igual à menor das duas variâncias
Varµ1 (A) ou Varµ2 (A). Entendemos, dessa forma, que se restringirmos as medidas µ a um certo conjunto
de medidas M sobre o espaço amostral, então os menores valores possı́veis das variâncias Varµ (A) de
uma função A fixa são alcançadas quando µ encontra-se no sub-conjunto das medidas de probabilidades
puras de M. Nesse sentido, as medidas de probabilidade puras representam aquelas com o menor desvio
possı́vel da grandeza representada por A do seu valor médio.
Dizemos que um sistema fı́sico está em um estado puro para um determinado observável A se µE, A for
pura. Os estados puros de um sistema fı́sico representam, assim, aqueles com menores “flutuações” da
grandeza observável A. Compreendemos, assim, que determinar quais os estados puros de um sistema
fı́sico e quais as variâncias de observáveis nesses estados puros fornece uma importante informação
sobre as menores flutuações possı́veis que podem ser observadas nesse sistema. Essa é uma importante
informação sobre o grau de aleatoriedade intrı́nseca (ou seja, não proveniente de erros experimentais
ou de conhecimento incompleto) da teoria fı́sica subjacente que descreve o sistema em questão.
Como discutiremos à página 1389, uma outra razão da importância dos estados puros reside no fato
que tanto na Mecânica Clássica quanto na Mecânica Quântica vale a afirmação que o conhecimento dos
valores esperados de um observável em todos os estados puros de um sistema determina univocamente
esse observável.
• O modelo da Mecânica Clássica
Na Mecânica Clássica todos os processos experimentais básicos de medida envolvem medidas de

posição e velocidade, as quais podem ser efetuadas simultânea e independentemente, de modo que, em
princı́pio, quaisquer funções envolvendo as coordenadas e os momenta de um sistema são grandezas
fı́sicas observáveis. É possı́vel constituir novos observáveis procedendo operações algébricas simples com
outros observáveis, tais como combinações lineares, produtos etc. É, portanto, conveniente considerar
a álgebra de todas as funções definidas no espaço de fase F do sistema considerado como constituindo
a coleção de todas as grandezas fı́sicas observáveis desse sistema. Como o resultado de uma medida
fı́sica é sempre um número real as grandezas fı́sicas observáveis devem ser funções do espaço de fase F
em números reais R. Por razões técnicas é conveniente tomar apenas a álgebra das funções definidas
no espaço de fase que sejam mensuráveis em relação à medida de Liouville55 dqdp, evitando assim
patologias matemáticas.
Uma caracterı́stica importante de sistemas clássicos é a possibilidade de medição simultânea e in-
dependente de quaisquer observáveis distintos. Tal caracterı́stica é denominada compatibilidade de
55
observáveis. Uma conseqüência da compatibilidade dos observáveis clássicos, a qual acabou implicita-
mente embutida nas observações acima, é que os mesmos formam uma álgebra comutativa.
Dado um observável assim abstratamente definido como sendo uma função f (q, p) podemos nos
perguntar que valores obteremos ao fazer uma medida desse observável em um certo instante de tempo?
A resposta é um tanto decepcionantemente óbvia: se as coordenadas do sistema considerado forem
naquele instante de tempo q0 e seus momenta p0 , então o valor medido de f será f (q0 , p0 ). A coleção
C(f ) de todos os possı́veis de resultados de medidas de f é, portanto, a imagem de f como função de
F em R.
Na Mecânica Clássica os estados fı́sicos são descritos por distribuições de probabilidade no espaço
de fase, de modo que valores médios de um observável f são dados por
Z
hf i = f (q, p) ρ(q, p) dqdp , (26.143)
F
R
com ρ(q, p) ≥ 0 e F ρ(q, p) dqdp = 1. Nesse sentido podemos identificar a função (ou medida) ρ com
o próprio estado do sistema, pois dela obtem-se univocamente as distribuições de probabilidade nos
conjuntos C(f ), que identificamos com a imagem das funções f : F → R.
Distribuições tipo medida delta de Dirac ρq0 , p0 (q, p) = δ(q − q0 )δ(p − p0 ) com
Z
hf iq0 , p0 = f (q, p)ρq0 , p0 (q, p) dqdp = f (q0 , p0 )
F
representam estados puros do sistema tratado e podem ser interpretadas como estados com informação
maximal. Para estados como ρq0 , p0 (q, p) = δ(q − q0 )δ(p − p0 ) tem-se certeza quanto a posições e
momenta dos constituintes do sistema e a variância da distribuição de f é nula, assim como as demais
flutuações, pois
Varq0 , p0 (f ) = hf 2 iq0 , p0 − hf i2q0 , p0 = f (q0 , p0 )2 − f (q0 , p0 )2 = 0 .
Em tais estados, medidas do observável f fornecem um e somente um valor, a saber, f (q0 , p0 ). Nenhuma
aleatoriedade ocorre, portanto, na medição de quaisquer observáveis quando o sistema encontra-se em
um estado puro clássico. A crença de que é sempre possı́vel fixar todos os parâmetros de um sistema
de modo a fixar completamente seu estado e de modo a eliminar toda aleatoriedade em medições
de observáveis é por vezes denominada “realismo”. A Mecânica Clássica, assim como toda a Fı́sica
Clássica, é nesse sentido realista. Essa caracterı́stica não é encontrada na Fı́sica Quântica, onde os
estados puros podem produzir variâncias não-nulas.
Na Mecânica Clássica não apenas estados puros têm interesse. Na Mecânica Estatı́stica Clássica,
por exemplo, considera-se também estados com distribuições do tipo
1
ρ(q, p) = δ(H(q, p) − E) (26.144)
V (E)
no chamado ensemble micro-canônico com R energia E, onde H(q, p) é o Hamiltoniano do sistema e V (E)
é a constante de normalização V (E) = F δ(H(q, p) − E) dqdp (suposta finita). No chamado ensemble
canônico adota-se o chamado estado de Gibbs56
1
ρ(q, p) = e−βH(q, p) , (26.145)
Z(β)
56
Josiah Willard Gibbs (1839-1903).
R −βH(q, p)
com a constante de normalização Z(β) = Fe dqdp suposta finita, β sendo o inverso da tempe-
ratura.
A dinâmica dos observáveis de um sistema mecânico clássico é definida pelo fluxo Hamiltoniano no
espaço de fase, o qual é caracterizado pelas equações de Hamilton57 ,
q̇ = −∂p H(q, p) , ṗ = ∂q H(q, p) ,
onde o Hamiltoniano H é uma função diferenciável definida no espaço de fase e satisfazendo condições
adequadas para garantir unicidade e existência de soluções (de preferência globais) para as equações
acima a partir de condições iniciais q(0) e p(0). Se qt e pt são soluções das equações de Hamilton, a
evolução de um observável f é expressa por ft (q, p) := f (qt , pt ). Assim, por (26.143),
Z Z
hf it := hft i = f (qt , pt ) ρ(q, p) dqdp = f (q, p) ρ(q−t , p−t ) dq−t dp−t .
F F
Como a medida de Liouville R dqdp é invariante por um fluxo Hamiltoniano (Teorema de Liouville),
concluı́mos que hf it = F f (q, p) ρt (q, p) dqdp, onde ρt (q, p) := ρ(q−t , p−t ) representa a evolução
temporal do estado descrito por ρ. Essa relação ensina-nos como a evolução dos observáveis na Mecânica
Clássica reflete-se na evolução dos estados.
Por (26.144) e (26.145), é evidente que as medidas dos ensemble micro-canônico e canônico são
invariantes pela evolução temporal (um requisito para que as mesmas descrevam estados de equilı́brio),
pois H(qt , pt ) = H(q, p) para todo t.
• O quadro da Fı́sica Quântica
Na Fı́sica Quântica não mais é verdade que os processos experimentais de medida envolvem medidas
de posição e velocidade, pois estas não podem ser feitas de modo independente e simultâneo. Perde-se,
portanto, a propriedade de compatibilidade de alguns observáveis. Como é bem sabido o desenvolvi-
mento histórico da Mecânica Quântica levou à proposição que os observáveis devem ser representados
por operadores auto-adjuntos agindo em um espaço de Hilbert. Um dos postulados adotados afirma
que medidas individuais de um observável representado por um operador A devem ser elementos do
espectro desse operador.
Segundo os postulados da Mecânica Quântica, os estados fı́sicos do sistema quântico com um número
finito de graus de liberdade (ou seja, descrevendo um número finito de partı́culas) são descritos por
“matrizes densidade”58 atuando em um espaço de Hilbert H, ou seja, operadores auto-adjuntos positivos
ρ com Tr (ρ) = 1 de modo que o valor médio de um conjunto idealmente infinito de medidas do
observável A no estado descrito por ρ são dadas por hAi = Tr (ρA).
A escolha de operadores auto-adjuntos para o papel de observáveis é motivada por duas proprieda-
des: 1o o espectro de um operador auto-adjunto é um sub-conjunto da reta real, fato condizente com
o postulado que afirma que medidas individuais de um observável devem ser elementos do espectro do
operador associado; 2o o teorema espectral
Pafirma que operadores auto-adjuntos podem ser representa-
dos por somas (ou integrais) do tipo A = λ∈σ(A) λ Pλ . Aqui, Pλ designa formalmente o projetor sobre
57
58
Cabe mencionar que boa parte da interpretação matemática da Fı́sica Quântica que apresentaremos de modo re-
sumido no que segue origina-se das contribuições de von Neumann. János von Neumann (1903-1957). Von Neumann
também adotou os nomes de Johann von Neumann e John von Neumann.
o sub-espaço de auto-vetores de A com auto-valor λ. Por σ(A) denota-se o espectro de A. O sı́mbolo

de soma empregado
R acima tem um sentido apenas formal, devendo ser substituı́do por um sı́mbolo de
integral A = σ(A) λ dPλ, no sentido descrito no Teorema Espectral, Teorema 26.38, página 1379.
A importância do Teorema Espectral na formalização de teorias quânticas é enorme, pois é através
dele que podemos obter as distribuições probabilı́sticas associadas a medidas de um observável A em
um dado estado. De fato, pela prescrição acima e pelo Teorema Espectral, tem-se
X
hAi = Tr (ρA) = λ pλ , (26.146)
λ∈σ(A)
onde pλ = Tr (ρPλ ). Agora, é claro que pλ ≥ 0 e

 
X X
pλ = Tr ρ Pλ  = Tr (ρ) = 1 .
λ∈σ(A) λ∈σ(A)
Esses dois fatos conjuntamente com (26.146) conduzem à interpretação que pλ representa a medida de
probabilidade em σ(A) que descreve distribuições de medidas dos valores do observável A no estado
descrito por ρ. Nesse sentido podemos identificar ρ com o próprio estado do sistema, pois dele obtem-se
univocamente as distribuições de probabilidade nos conjuntos C(A), que identificamos com os espectros
σ(A) dos operadores auto-adjuntos A.
As observações acima mostram que a interpretação de observáveis da Fı́sica Quântica usual em
termos de operadores auto-adjuntos agindo em espaços de Hilbert é coerente com o propósito básico de
descrever medidas experimentais de observáveis e suas distribuições de probabilidade. Comentamos de
passagem que o esquema acima pode ser ainda generalizado e abstraı́do no seguinte sentido. As álgebras
de observáveis de sistemas quânticos podem ser tomadas como álgebras C∗ abstratas e os estados fı́sicos
correspondem a estados sobre essas álgebras, ou seja, funcionais lineares positivos e normalizados. Nesse
contexto é igualmente possı́vel recuperar a descrição probabilista que esquematizamos acima. A grande
vantagem dessa descrição manifesta-se no tratamento de sistemas quânticos com um número infinito de
graus de liberdade, como na Mecânica Estatı́stica Quântica e na Teoria Quântica de Campos. Por ser
uma descrição independente de espaços de Hilbert, a descrição de observáveis em termos de álgebras C∗
permite descrever fenômenos tı́picos de sistemas número infinito de graus de liberdade, como regras de
super-seleção e transições de fase. Para aplicações em Fı́sica das álgebras C∗ remetemos às referências
[54], [4] e [18].
A evolução temporal de observáveis em um sistema com um número finito de graus de liberdade é
caracterizada por uma representação unitária fortemente contı́nua do grupo aditivo R (representando a
simetria de evolução temporal, para sistemas independentes do tempo): R ∋ t 7→ U(t), onde U(0) = 1,
U(t)U(t′ ) = U(t + t′ ) e U(t)−1 = U(t)∗ para todos t, t′ ∈ R. Se A é um observável, sua evolução será
dada por At := U(t)AU(t)∗ . Assim, hAit := hAt i = Tr (ρAt ) = Tr (ρU(t)AU(t)∗ ) e pela propriedade
cı́clica do traço, obtemos hAit = Tr (ρt A) onde ρt := U(t)∗ ρU(t). Essa expressão mostra como a
evolução dos observáveis reflete-se na evolução dos estados. O fato de a evolução U(t) ser fortemente
contı́nua garante, pelo Teorema de Stone59 (vide [116]) que existe um operador auto-adjunto (não
necessariamente limitado) H tal que U(t) = e−iHt/~ para todo t ∈ R. Com isso podemos (a menos
59
Marshall Harvey Stone (1903-1989).
de tecnicalidades relativas a domı́nios) transformar por diferenciação a relação At := U(t)AU(t)∗ na

equação de Heisenberg i~∂t At = [H, At ]. Para os estados teremos, analogamente, i~∂t ρt = −[H, ρt ].
Na Fı́sica Quântica a questão da compatibilidade de dois observáveis está diretamente ligada à
comutatividade dos operadores associados: dois observáveis só podem ser medidos simultaneamente
se os operadores correspondentes comutarem entre si. Essa questão é particularmente importante em
teorias quânticas de campos relativı́sticas, onde o chamado princı́pio de localidade de Einstein deve
ser respeitado. Esse princı́pio, um dos mais centrais em toda a Fı́sica, afirma que eventos separados
por intervalos tipo espaço não podem se relacionar causalmente. Esse princı́pio deve ser traduzido
nas teorias quânticas de campos relativı́sticas pela imposição que observáveis associados a pontos ou
regiões separadas por intervalo tipo espaço devem comutar entre si. As conseqüências dessa imposição
à estrutura das teorias quânticas de campos relativı́sticas são enormes, mas não nos cabe discutı́-las
aqui (vide, por exemplo, [54] e [4]).
Retornando a (26.146), estados puros de sistemas quânticos descritos em um espaço de Hilbert H
correspondem à situação na qual ρ é um projetor sobre um sub-espaço unidimensional de H: ρ = Pψ ,
ou seja, na notação de Dirac ρ = |ψihψ|, onde ψ ∈ H é um vetor normalizado kψk = 1. Assim, para
um estado puro com ρ = Pψ e kψk = 1 teremos hAiψ = hψ, Aψi.
O equivalente ao estado de Gibbs (26.145) à temperatura inversa β para um sistema quântico com
um número finito de partı́culas é ρβ = e−βH /Tr(e−βH ), caso o operador Hamiltoniano seja tal que
Tr(e−βH ) ≤ ∞ (o que é tipicamente o caso se o sistema é restrito a um volume espacial finito). Tais
operadores ρβ comutam com H e são, portanto, invariantes pela evolução temporal, como desejado
para estados de equilı́brio.
Um fato importante é que os estados puros podem apresentar variância não-nula para valores médios
de medidas de certos observáveis, o que não ocorre na Mecânica Clássica:

hA2 iψ − hAi2ψ = ψ, A2 ψ − (ψ, Aψ)2 6= 0,
a menos que ψ seja auto-vetor de A. De fato, para A auto-adjunto,
1 1
2

2
ψ, A ψ − (ψ, Aψ) = 2
ψ ⊗ ψ, (A ⊗ 1 − 1 ⊗ A) ψ ⊗ ψ = (A ⊗ 1 − 1 ⊗ A)ψ ⊗ ψ .
2
2 2
Portanto, se hA iψ − hAiψ = 0 tem-se (A ⊗ 1 − 1 ⊗ A)ψ ⊗ ψ = 0, ou seja, Aψ ⊗ ψ = ψ ⊗ Aψ, o que,
2 2
pela definição de produto tensorial, implica60 Aψ = λψ para algum número λ.

Assim, a interpretação usual da Mecânica Quântica admite que o caráter aleatório de medidas de
observáveis em estados puros de sistemas quânticos seja uma propriedade intrı́nseca desses sistemas,
não sendo devido a um conhecimento incompleto dos mesmos nem a erros de experimentação. Mais
ainda, o conhecimento do estado de um sistema em um dado instante de tempo não permitiria prever
o resultados de medidas individuais de observáveis nesse estado em instantes futuros.
A Fı́sica Quântica contraria nesse sentido a crença do determinismo clássico, ou seja, a crença
que a evolução de medidas experimentais de observáveis um sistema é completamente determinada
por condições iniciais. Vale, porém, uma outra forma de determinismo: a evolução dos estados de
um sistema, ou seja, de suas medidas de probabilidade, é determinada por condições iniciais desses
estados (por exemplo, através da equação de Schrödinger61 na Mecânica Quântica não-relativista). A
⊗ ψ = ψ⊗ Aψ o operador (|ψihψ|) ⊗ 1, onde |ψihψ|

60
Para o estudante: aplicando-se a ambos os lados da igualdade Aψ
é o projetor sobre ψ, tem-se (ψ, Aψ)(ψ ⊗ ψ) = ψ ⊗ Aψ, ou seja, ψ ⊗ (ψ, Aψ)ψ = ψ ⊗ Aψ, o que implica Aψ = (ψ, Aψ)ψ.
61
determinação precisa de como se dá essa evolução em sistemas fı́sicos concretos (na prática, de qual
é o operador Hamiltoniano que gera a evolução temporal) é uma das tarefas centrais da Fı́sica. No
caso da Fı́sica das Partı́culas Elementares, por exemplo, grandes progressos foram feitos nessa direção,
especialmente após os anos 70 do século XX, com o surgimento do chamado modelo padrão, mas a
tarefa ainda está longe de ser considerada concluı́da.
• A recuperação de um observável a partir dos seus valores esperados em estados puros
Façamos aqui um comentário sobre o papel especial desempenhado pelos estados puros tanto na
Mecânica Clássica quanto na Mecânica Quântica.
Como mencionamos, estados puros na Mecânica Clássica são caracterizados
R por medidas de Dirac no
espaço de fase ρq0 , p0 (q, p) = δ(q −q0 )δ(p−p0 ). Como hf iq0 , p0 = F f (q, p)ρq0 , p0 (q, p) dqdp = f (q0 , p0 ),
vemos que o conhecimento de todos os valores esperados de uma grandeza observável f em todos os
estados puros permite recuperar a função f (q, p) em todos os pontos do espaço de fase.
Teorias quânticas formuladas em espaços de Hilbert H têm a mesma caracterı́stica, a despeito do
fato de haver estados puros com variância não-nula. O conhecimento de todos os valores esperados em
estados puros hAiψ = hψ, Aψi com kψk = 1 permite, por meio da identidade de polarização (expressão
(2.31), página 133), identificar univocamente o operador auto-adjunto limitado A. De fato, dados dois
vetores u, v ∈ H, temos a identidade
3
X 3
X
−n
hu, Avi = i n 2
ku + i vk hψn , Aψn i = i−n kψn k2 hAiψn , (26.147)
n=0 n=0
u + in v
onde ψn := . Assim, se para cada par de vetores u, v ∈ H calcularmos ku + in vk2 e
ku + in vk
prepararmos o estado puro determinado pelos quatro vetores ψn (normalizados a 1) e medirmos os
quatro valores esperados de A nesses estados, hAiψn , teremos os produtos escalares hu, Avi por (26.147).
Em princı́pio tais operações são possı́veis, pois em princı́pio pode-se preparar um sistema em quaisquer
dos seus estados puros. Notemos que a determinação de todos os produtos escalares hu, Avi para todos
u, v ∈ H fixa o operador A, pois se um outro operador B é tal que hu, Avi = hu, Bvi para todos
u, v ∈ H, então A = B (assumindo ambos limitados).
Comentemos também que uma vez fixado o operador auto-adjunto A, o Teorema Espectral, Teorema
26.38, página 1379, garante a existência e unicidade
R dos projetores espectrais PB , B Boreliano em
σ(A), e da sua representação espectral A = σ(A) λdPλ. O conhecimento dos PB ’s permite recuperar
R
as medidas espectrais µψ, A (B) = hψ, PB ψi e com elas determinar as integrais σ(A) λn dhψ, Pλ ψi,
para todo n ∈ N, que identificamos, também pelo Teorema Espectral, com os momenta da grandeza
observável A: hAn iψ . Assim, o conhecimento de todos os primeiros momenta hAiψ para todo ψ ∈ H
com kψk = 1 permite determinar as medidas espectrais µψ, A e todos os demais momenta hAn iψ , n ∈ N.
Do ponto de vista da Teoria de Probabilidades essa é uma situação especial, pois nem sempre é possı́vel
recuperar os momenta de uma variável aleatória em uma famı́lia de medidas de probabilidade a partir
apenas do conhecimento dos primeiros momenta dessa variável aleatória nessa famı́lia.
Apêndice
26.A Prova do Teorema 26.18

√
A função complexa f (z) = 1 − z é analı́tica no disco unitário aberto D1 = {z ∈ C| |z| < 1} e tem
nesse domı́nio uma série de Taylor absolutamente convergente dada por
∞
X
f (z) = cn z n
n=0
onde
1 (2n − 3)!!
c0 = 1, c1 = − , e cn = − , n≥1.
2 (2n)!!
É bastante claro que |cn | ≤ 1 para todo n (mostre isso).
Em verdade, a série de Taylor de f (z) converge absolutamente no disco unitário fechado D1 = {z ∈
C| |z| ≤ 1}. Para ver isso notemos que os coeficientes cn são todos negativos, exceto quando n = 0.
Assim, tem-se para todo N ≥ 0,
XN
(|cn | + cn ) = 2c0 = 2,
n=0
ou seja,
N
X N
X
|cn | = 2 − cn .
n=0 n=0
Logo,
N
X N
X N
X √
|cn | = 2 − cn = 2 − lim cn tn ≤ 2 − lim 1−t = 2 . (26.A.1)
t→1− t→1−
n=0 n=0 n=0
Acima, limt→1− é o limite quando t aproxima-se de 1 pelos reais com valores menores que 1 (lembre-se
que a série de Taylor de f (z) não converge se |z|
PN> 1). nA desigualdade√ da terceira linha deve-se ao
fato de que, para t ∈ [0, 1), a série de Taylor n=0 cn t converge a 1 − t e é decrescente, pois os
P √
coeficientes cn são todos negativos para n ≥ 1, o que implica N n
n=0 cn t ≥ 1 − t. O sinal “−” inverte
o sentido da desigualdade para “≤”.
Com isso, para |z| ≤ 1,
N
X N
X
|cn | |z|n ≤ |cn | ≤ 2 (26.A.2)
n=0 n=0
62
para todo N, provando que a série de Taylor de f (z) converge absolutamente para |z| ≤ 1.
62
Os argumentos acima foram extraı́dos de [116].
Note-se também que, como f (z)2 = 1 − z, vale

 
∞
!2 ∞ X
∞ ∞
X X X  X 
1−z = cn z n = cn cm z m+n = zp  cn cm 
n=0 n=0 m=0 p=0 m+n=p
m, n≥0
   
∞
X ∞
 X  X  X 
= (c0 )2 + 2c0 c1 z + zp  cn cm  = 1 − z + zp  cn cm  , (26.A.3)
p=2 m+n=p p=2 m+n=p
m, n≥0 m, n≥0
o que nos leva a concluir, pela unicidade da série de Taylor, que

X
cn cm = 0, para todo p ≥ 2. (26.A.4)
m+n=p
m, n≥0
Usaremos essa identidade abaixo.
E. 26.24 Exercı́cio. Justifique todas as passagens acima a partir do fato que a série de Taylor de f
converge absolutamente para |z| ≤ 1. 6
Seja w um elemento da álgebra B tal que kwk ≤ 1. Defina-se para N ∈ N,

N
X
sN = cn w n ,
n=0
com a convenção que w 0 = 1. Vamos mostrar dois fatos sobre sN : primeiro que os sN formam uma
seqüência da Cauchy e segundo que essa seqüência converge a um elemento y tal que y 2 = 1 − w.
Mostremos que {sN , N ∈ N} é uma seqüência de Cauchy na álgebra B. Seja N < M. Temos
XM
sM − sN = cn w n . Logo,
n=N +1
M
X M
X M
X
n n
ksM − sN k ≤ |cn | kw k ≤ |cn | kwk ≤ |cn |
n=N +1 n=N +1 n=N +1
PN
Por (26.A.2), as somas parciais kN = n=0 |cn | são limitadas superiormente e, por formarem uma
seqüência
PM crescente, convergem, sendo portanto uma seqüência de Cauchy. Assim |kM − kN | =
n=N +1 n | pode ser feito arbitrariamente pequeno para M e N grandes o suficiente. Isso prova
|c
que sN , N ∈ N, é também uma seqüência de Cauchy na álgebra B. Como B é uma espaço de Banach,
a completeza assegura que sN converge a um elemento y da álgebra.
Mostremos agora que y 2 = 1 − w. Isso é equivalente a mostrar que lim (sN )2 = 1 − w (por que?).
N →∞
Agora  
N
! 2 N X N 2N
X X X  X 
(sN )2 = cn w n = cn cm w n+m = wp 
 c n c m
.

n=0 n=0 m=0 p=0 n+m=p
0≤n≤N
0≤m≤N
Para N > 2 podemos escrever

     
2N
X N 2N
 X  X  X  X  X 

p
w  cn cm  = (c0 ) 1 + 2c0 c1 w +
 2 p
w  
cn cm  + wp 
 c n c m
.

p=0 n+m=p p=2 n+m=p p=N +1 n+m=p
0≤n≤N 0≤n≤N 0≤n≤N
0≤m≤N 0≤m≤N 0≤m≤N
Como (c0 )2 1 + 2c0 c1 w = 1 − w, segue que

   
N
X 2N
 X  X  X 
(sN ) − (1 − w) =
2 p
w  
cn cm  + wp 
 c n c m
.

p=2 n+m=p p=N +1 n+m=p
0≤n≤N 0≤n≤N
0≤m≤N 0≤m≤N
Resta-nos provar que essas duas somas convergem a zero quando N → ∞. Na verdade, a primeira
soma é igual a zero, pois
   
N
X  X N
X  X
 
wp 
 c n c m
 =
 wp  cn cm 
p=2 n+m=p p=2 n+m=p
0≤n≤N m, n≥0
0≤m≤N
X
e, para p ≥ 2 vimos em (26.A.4) que cn cm = 0.
n+m=p
m, n≥0
Com isso, temos apenas que

 
2N
X  X 
(sN )2 − (1 − w) = wp 
 c n c m
.

p=N +1 n+m=p
0≤n≤N
0≤m≤N
Agora, para p ≥ 2,
N N p−N −1 p−N −1
X X X X X
cn cm = cn cp−n = cn cp−n − cn cp−n = − cn cp−n ,
n+m=p n=p−N n=0 n=0 n=0
0≤n≤N
0≤m≤N
N
X X
já que cn cp−n = cn cp = 0. Portanto,
n=0 m+n=p

2N 2N p−N −1 2N p−N −1
X X X X X X
k(sN )2 − (1 − w)k ≤ kwkp cn cm ≤ cn cp−n ≤ |cn | |cp−n|.
n+m=p
p=N +1 p=N +1 n=0 p=N +1 n=0
0≤n≤N
0≤m≤N
(26.A.5)
Agora,
2N p−N −1 N q
−1 X N −1 N −1
X X q=p−N −1
X X X
|cn | |cp−n| = |cn | |cq−n+N +1| = |cn | |cq−n+N +1|
p=N +1 n=0 q=0 n=0 n=0 q=n
N −1 N −1
!
X X
= |cn | |cq−n+N +1 |
n=0 q=n
N −1 2N −n
!
r=q−n+N +1
X X
= |cn | |cr |
n=0 r=N +1
N −1 2N
! N −1
! 2N
!
X X X X
≤ |cn | |cr | = |cn | |cr |
n=0 r=N +1 n=0 r=N +1
2N
X
(26.A.2)
≤ 2 |cr |. (26.A.6)
r=N +1
E. 26.25 Exercı́cio. Justifique todas as passagens acima. 6
Assim,
2N
X
k(sN )2 − (1 − w)k ≤ 2 |cr |. (26.A.7)
r=N +1
2N
X N
X
Já vimos, porém, que |cr | → 0 quando N → ∞, pois as somas parciais kN = |cr | formam
r=N +1 r=0
um seqüência de Cauchy. Portanto, o lado direito de (26.A.7) converge a zero quando N → ∞,
provando que y 2 = 1 − w.
Capı́tulo 27
Alguns Métodos de Aproximação de Funções
Conteúdo
27.1 Aproximação de Funções Contı́nuas por Polinômios . . . . . . . . . . . . . 1394
27.2 Aproximação por Polinômios Trigonométricos . . . . . . . . . . . . . . . . 1400
27.2.1 Preliminares . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1401
27.2.2 Polinômios Trigonométricos e Funções Contı́nuas e Periódicas . . . . . . . . . 1407
27.2.3 Convergência de Séries de Fourier . . . . . . . . . . . . . . . . . . . . . . . . 1410
27.2.4 Revisitando a Aproximação Uniforme de Funções Contı́nuas por Polinômios
Trigonométricos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1416
N a Fı́sica e também em diversas áreas da Matemática Aplicada, estamos muitas vezes in-
teressados em resolver problemas cuja solução não pode ser obtida exatamente. No caso
de equações diferenciais, por exemplo, são muito raras as situações nas quais uma solução
pode ser expressa em termos de funções “elementares”, tais como polinômios, exponenci-
ais, logaritmos, senos, co-senos ou combinações finitas das mesmas. Na grande maioria dos casos
apresentam-se métodos de solução em termos de aproximações que, sob hipóteses adequadas, podem
estar tão próximas quanto se queira da solução correta. É, portanto, uma questão importante desenvol-
ver métodos de aproximar funções com certas propriedades e é disso, basicamente, que trataremos neste
capı́tulo. Não pretendemos aqui esgotar o assunto, o que ademais seria impossı́vel, dada a sua extensão,
mas tratar de dois tipos fundamentais de aproximações de funções: as aproximações por polinômios e
as aproximações por polinômios trigonométricos. Este último tópico é o domı́nio das chamadas séries
de Fourier e suporemos que o leitor já possua alguma familiaridade com seus aspectos mais elementares
e suas aplicações. Como veremos, aproximações por polinômios e por polinômios trigonométricos são
dois assuntos relacionados. Ambos os métodos de aproximação estão também na raiz de muitos outros
desenvolvimentos, como na teoria dos espaços de Hilbert e mesmo em temas mais abstratos, como na
álgebra de operadores. Sua aplicação prática é enorme e ambos os assuntos têm dominado boa parte
das aplicações da Matemática a problemas de Fı́sica e de Engenharia desde o século XVIII.
27.1 Aproximação de Funções Contı́nuas por Polinômios
• O Teorema de Weierstrass
Um dos teoremas fundamentais da Análise é o chamado Teorema de Weierstrass1 que afirma que
toda função contı́nua definida em um intervalo fechado finito [a, b] da reta real pode ser uniformemente
1
Karl Theodor Wilhelm Weierstrass (1815-1897). O Teorema de Weierstrass data de 1885. A referência original pode
ser encontrada em [30].
1394
aproximada nesse intervalo por polinômios, ou seja, para todo ǫ > 0 podemos encontrar um polinômio
pǫ tal que |pǫ (x) − f (x)| ≤ ǫ para todo x ∈ [a, b]. Nestas Notas, fazemos uso desse importante teorema
em diversas ocasiões. Para futura referência enunciamos o teorema da seguinte forma:
Teorema 27.1 (Teorema de Weierstrass) Seja f uma função real ou complexa, contı́nua em um
intervalo fechado finito [a, b] ⊂ R. Então, f pode ser aproximada uniformemente por polinômios nesse
intervalo, ou seja, para todo ǫ > 0 existe um polinômio pǫ tal que kpǫ − f k∞ = sup |pǫ (x) − f (x)| ≤ ǫ.
x∈[a, b]
2
Há inúmeras demonstrações do Teorema 27.1 na literatura. Vide, por exemplo, [155] para uma
prova usando os chamados polinômios de Bernstein2 , dados, para uma função contı́nua f , definida no
intervalo [0, 1], por
Xn
n p
pn (x) := f (p/n) x (1 − x)n−p .
p=0
p
O texto [84] apresenta diversas demonstrações do Teorema 27.1, inclusive a interessantı́ssima demons-
tração original de Weierstrass, a qual faz uso de propriedades do chamado núcleo de calor (a saber, a
propriedade que o núcleo de calor forma uma seqüência delta de Dirac). Também muito interessante é
a demonstração encontrada em [47], talvez a mais elementar, e que aparentemente é devida a Lebesgue.
No que segue iremos provar uma forma mais forte do Teorema de Weierstrass, a saber:
Teorema 27.2 (Teorema de Weierstrass) Seja f uma função real ou complexa, contı́nua em um
intervalo fechado [a, b] ⊂ R e tal que suas k primeiras derivadas existam e sejam contı́nuas nesse inter-
valo. Então, f pode ser aproximada uniformemente por polinômios nesse intervalo e suas k primeiras
derivadas podem ser aproximadas uniformemente
pelas derivadas desses polinômios, ou seja, para todo
ǫ > 0 existe um polinômio pǫ tal que pǫ(l) − f (l) ∞ = sup |pǫ(l) (x) − f (l) (x)| ≤ ǫ para todo 0 ≤ l ≤ k.
x∈[a, b]
2
Como o leitor pode perceber essa generalização afirma que não apenas é possı́vel aproximar uni-
formemente funções contı́nuas em intervalos compactos por polinômios mas, no caso de a função ser k
vezes diferenciável, é possı́vel encontrar aproximantes polinomiais cujas k primeiras derivadas também
aproximam uniformemente as respectivas derivadas da função a ser aproximada.
Adiante, apresentaremos uma prova do teorema mais geral, Teorema 27.2. Seguiremos muito pro-
ximamente a demonstração apresentada em [30], demonstração essa aparentemente devida a Landau3
mas, para a facilidade do estudante, acrescentaremos alguns detalhes4 . Antes de iniciarmos a prova do
Teorema 27.2 precisamos fazer um comentário sobre um fato que usaremos.
• Certas extensões contı́nuas de funções

2
Sergi Natanovich Bernstein (1880-1968). Berstein introduziu os polinômios que levam seu nome em trabalho de 1911
sobre o Teorema de Weierstrass e interpolações polinomiais.
3
Edmund Georg Hermann Landau (1877–1938).
4
Nossa prova é também ligeiramente mais precisa que a de [30], pois lá o parâmetro δ (vide abaixo) é tomado na
forma 0 < δ < 1 mas, para evitar problemas em certos limites de integração, o correto é tomá-lo como faremos adiante.
Seja f uma função contı́nua definida em um intervalo fechado limitado [a, b] assumindo valores
reais ou complexos e que tenha suas k primeiras derivadas igualmente contı́nuas nesse intervalo. Seja
um intervalo fechado limitado [α, β] que contém [a, b] no seu interior, ou seja, com −∞ < α < a <
b < β < ∞. Então, existe pelo menos uma função f˜ definida em [α, β] com as seguintes propriedades:
1. f˜ coincide com f no intervalo [a, b].
2. f˜ e suas k primeiras derivadas são contı́nuas em [α, β].
3. f˜ e suas k primeiras derivadas anulam-se nos extremos α e β do intervalo [α, β].
A função f˜ é, assim, uma extensão de contı́nua de f ao intervalo [α, β] cujas k primeiras derivadas
são extensões contı́nuas das respectivas k primeiras derivadas de f ao intervalo [α, β]. Além disso, f˜
e suas k primeiras derivadas anulam-se nos extremos do intervalo [α, β] em que estão definidas.
Há infinitas funções f˜ com tais propriedades. Uma maneira de construir uma tal função é escolhê-la
de modo que seja idêntica a f no intervalo [a, b], seja infinitamente diferenciável nos intervalos [α, a)
e (b, β] mas de modo que limx→a f˜(l) (x) = f (l) (a) no intervalo [α, a) e limx→b f˜(l) (x) = f (l) (b) no
intervalo (b, β], para todo 0 ≤ l ≤ k.
Exemplo 27.1 Uma possı́vel escolha de uma função f˜ com as propriedades acima é a seguinte:




 f (x) , a≤x≤b









 !

 k
 X f (k) (a) l
˜
f(x) = (x − a) Fα, a (x) , α≤x<a ,
 l!

 l=0







 !

 Xk (k)

 f (b)

 (x − b)l (1 − Fb, β (x)) , b < x ≤ β
l=0
l!
onde, para u < v, a função Fu, v : [u, v] → [0, 1] é definida por

Z x
1 1 1
Fu, v (x) := exp − − dy , u ≤ x ≤ v,
Nu, v u (y − u)2 (y − v)2
Nu, v sendo a constante de normalização

Z v
1 1
Nu, v := exp − − dy .
u (y − u)2 (y − v)2
Essa função Fu, v é contı́nua, estritamente crescente, infinitamente diferenciável no intervalo u < x < v
e satisfaz
lim Fu, v (x) = 0, lim Fu, v (x) = 1, e lim Fu,(l)v (x) = lim Fu,(l)v (x) = 0, ∀l≥1.
x→u x→v x→u x→v
Com isso, é fácil ver que f˜ satisfaz as propriedades requeridas: é contı́nua e k-vezes diferenciável em
[α, β] e satisfaz
f˜(α) = 0 = f(β)
˜ , f˜(l) (α) = 0 = f˜(l) (β) , ∀ l ≥ 1 ,
(27.1)
f˜(l) (a) = f (l) (a) e f˜(l) (b) = f (l) (b) , ∀0≤l≤k ,
além de, obviamente, ser uma extensão de f . ◊
E. 27.1 Exercı́cio. Verifique as afirmações feitas acima. 6
Para o que segue, a forma especı́fica de f˜, como aquela do exemplo acima, não será relevante, apenas
suas propriedades.
• Prova do Teorema de Weierstrass
Daqui por diante, consideraremos sem perda de generalidade que [a, b] ⊂ (0, 1), ou seja, tomamos
0 < a ≤ b < 1, e consideraremos f˜ uma extensão de f a todo o intervalo [0, 1] com as propriedades
acima (adotando α = 0 e β = 1). Com uma tal função podemos definir os polinômios
Z 1
1 n
pn (x) := ˜
f(u) 1 − (u − x)2 du (27.2)
2Dn (0) 0
com x ∈ [0, 1], onde, para γ ∈ [0, 1], definimos
Z 1 n
Dn (γ) := 1 − v2 dv .
γ
Os pn são claramente polinômios de grau menor ou igual a 2n. Como veremos, esses polinômios são
aqueles que aproximam f com as propriedades requeridas. Para mostrar isso, fixemos x ∈ [a, b] e
comecemos observando que
Z 1 Z 1−x
1 n 1
pn (x) = f˜(u) 1 − (u − x)2 du
v=u−x
= ˜ + x) 1 − v 2 n dv
f(v
2Dn (0) 0 2Dn (0) −x
= A1 + A2 + A3 ,
com
Z −δ Z δ
1
2 n 1 n
A1 := ˜ + x) 1 − v
f(v dv, A2 := f˜(v + x) 1 − v 2 dv ,
2Dn (0) −x 2Dn (0) −δ
(27.3)
Z 1−x
1
A3 := ˜ + x) 1 − v 2 n dv ,
f(v
2Dn (0) δ
onde δ satisfaz 0 < δ < min{a, 1 − b} e será convenientemente fixado mais adiante5 . Vamos tratar de
estimar cada uma das três expressões Aj acima. Como f˜ é contı́nua no intervalo [0, 1], seu módulo

assume um valor máximo, que denotaremos por F , ou seja, em sı́mbolos, F := sup f˜(x). Com isso
x∈[0, 1]
podemos escrever que
Z 1−x Z 1−x
1 F n
|A3 | ≤ ˜ + x)| 1 − v 2 n dv ≤
|f(v 1 − v 2 dv
2Dn (0) δ 2Dn (0) δ
Z 1
F n Dn (δ)
≤ 1 − v 2 dv = F , (27.4)
2Dn (0) δ 2Dn (0)
onde, na última desigualdade, usamos que 1 − x ≤ 1. De forma totalmente análoga, prova-se que vale
também
Dn (δ)
|A1 | ≤ F . (27.5)
2Dn (0)
O termo A2 pode ser manipulado da seguinte forma. Usando a identidade
Rδ n
Rδ n
Dn (0) 0
[1 − v 2 ] dv + Dn (δ) −δ
[1 − v 2 ] dv + 2Dn (δ)
1 = = = ,
Dn (0) Dn (0) 2Dn (0)
escrevemos
Z δ
1 n
A2 ˜ − f(x)
:= f(x) ˜ ×1+ f˜(v + x) 1 − v 2 dv
2Dn (0) −δ
Z δ n
˜ Dn (δ) +
˜ − f(x)
= f(x)
1
f˜(v + x) − f˜(x) 1 − v 2 dv .
Dn (0) 2Dn (0) −δ
De (27.4), (27.5) e (27.6) extraı́mos, assim, que para x ∈ [a, b],

Z δ
˜ F Dn (δ) ˜ Dn (δ) 1 ˜

n
|pn (x) − f (x)| ≤ + f (x) + f (v + x) − f˜(x) 1 − v 2 dv .
Dn (0) Dn (0) 2Dn (0) −δ

˜ ˜
Como x ∈ [a, b], podemos substituir f por f no lado esquerdo. Fora isso, f(x) ≤ F e, assim,
chegamos a
Z δ
Dn (δ) 1 ˜ n
|pn (x) − f (x)| ≤ 2F + f(v + x) − f˜(x) 1 − v 2 dv .
Dn (0) 2Dn (0) −δ
Observemos neste ponto que uma função que seja contı́nua em um intervalo compacto, como f˜, é
uniformemente contı́nua nesse intervalo (Teorema 24.7, página 1213). Assim, para cada ǫ > 0 dado
5
Como 0 < δ < min{a, 1 − b} e x ∈ [a, b], segue que −δ > −x e δ < 1 − x. Assim, os três intervalos de integração em
(27.3) são crescentes.

˜
podemos encontrar um δ > 0, pequeno o suficiente e independente de x de forma que f(v+x)− f˜(x) <
ǫ desde que |v| < δ. Temos, portanto,
Z δ
Dn (δ) ǫ n
|pn (x) − f (x)| ≤ 2F + 1 − v 2 dv
Dn (0) 2Dn (0) −δ
Z δ
Dn (δ) ǫ n
= 2F + 1 − v2 dv
Dn (0) Dn (0) 0
Dn (δ) ǫ
= 2F + (Dn (0) − Dn (δ))
Dn (0) Dn (0)
Dn (δ)
= (2F − ǫ) +ǫ
Dn (0)
Dn (δ)
≤ 2F +ǫ.
Dn (0)
Para fechar a demonstração dessa parte, precisamos agora mostrar que para qualquer δ fixo com
0 < δ ≤ 1 a razão Dn (δ)/Dn (0) pode ser feita tão pequena quanto se queira, fazendo-se n crescer.
Como em [30], notamos que para v ∈ [0, 1] vale v 2 < v. Assim,
Z 1 Z 1
2 n 1
Dn (0) = (1 − v ) dv ≥ (1 − v)n dv = ,
0 0 n+1
calculando explicitamente a última integral. Paralelamente,
Z 1 Z 1
2 n 2 n
Dn (0) = (1 − v ) dv ≤ (1 − δ ) dv = (1 − δ 2 )n (1 − δ) ≤ (1 − δ 2 )n
δ δ
e, portanto,
Dn (δ)
≤ (n + 1)(1 − δ 2 )n .
Dn (0)
Como 0 < 1 − δ 2 < 1, o limite para n → ∞ do lado direito, acima, é zero. Assim, concluı́mos que para
n grande o suficiente, independente de x, tem-se |pn (x) − f (x)| ≤ 2ǫ. Isso estabelece que a seqüência
de polinômios pn converge uniformemente a f no intervalo [a, b]. Com isso provou-se o Teorema 27.1.
(l)
Vamos provar agora que para cada l com 1 ≤ l ≤ k as derivadas pn também convergem uniforme-
mente às derivadas f (l) quando n → ∞. Notemos que, pela definição de pn ,
Z 1
1 ∂l n
(l)
pn (x) = f˜(u) l 1 − (u − x)2 du .
2Dn (0) 0 ∂x
n
Agora, devido ao fato de a função [1 − (u − x)2 ] ser simétrica pela troca u ↔ x, vale
∂l
2 n l ∂
l
2 n
1 − (u − x) = (−1) 1 − (u − x) .
∂xl ∂ul
Assim,
Z 1
(−1)l ˜ ∂l
2 n
pn(l) (x) = f(u) 1 − (u − x) du
2Dn (0) 0 ∂ul
Z
∂ l−1 u=1 (−1)l−1 1 (1)
2 n ∂ l−1 n
int. por partes
= l˜
(−1) f (u) l−1 1 − (u − x) + f˜ (u) l−1 1 − (u − x)2 du .
∂u u=0 2Dn (0) 0 ∂u
| {z }
= 0 , pois f˜(0)=f˜(1)=0
Repetindo-se l vezes o processo de integração por partes e usando o fato que f˜ e suas derivadas anulam-
se em 0 e em 1, por construção, obtemos,
Z 1
1 n
(l)
pn (x) = f˜(l) (u) 1 − (u − x)2 du .
2Dn (0) 0
Já vimos, porém, que essa igualdade implica que pn converge uniformemente a f˜(l) no intervalo [a, b]
(l)
para n → ∞. Isso completa a prova do Teorema de Weierstrass, Teorema 27.2.
27.2 Aproximação por Polinômios Trigonométricos

Em um dos trabalhos mais influentes da história da Fı́sica e da Matemática, “Théorie Analytique de la
Chaleur”, escrito em 1822, Fourier6 lançou as bases da teoria da difusão do calor e, de maior interesse
aqui, da teoria das séries trigonométricas, posteriormente denominada, com mais generalidade, Análise
Harmônica.
A possibilidade de expandir certas funções em séries trigonométricas data dos trabalhos de Euler7
e de Daniel Bernoulli8 sobre o problema da corda vibrante (vide Seção 10.2, página 593), na primeira
metade do séc. XVIII.
Os primeiros trabalhos de Fourier sobre o problema da propagação de calor e sobre o uso das séries
de Fourier datam do perı́odo entre 1804 e 1807. Em dezembro desse último ano Fourier apresentou ao
Instituto Nacional de Paris um nota intitulada “Mémoire sur la propagation de la chaleur dans les corps
solides”, onde propunha que toda função periódica poderia ser expandida em uma série trigonométrica,
idéia inicialmente rejeitada, não totalmente sem razão, por um comitê formado por Lagrange, Laplace,
Monge e Lacroix. Parte do problema com a argumentação de Fourier era causado por uma certa con-
fusão existente à época quanto ao que se entende por uma função e pela ausência de demonstrações
matematicamente convincentes da parte de Fourier. O primeiro tratamento matematicamente correto
da convergência de séries de Fourier para uma certa classe de funções só foi fornecida por Dirichlet9 em
1828. Desde então o estudo das séries de Fourier engendrou um sem-número de desenvolvimentos ma-
temáticos importantes. Como exemplo, citamos o desenvolvimento na noção de integral de Riemann10 ,
6
Jean Baptiste Joseph Fourier (1768–1830).
7
8
9
Johann Peter Gustav Lejeune Dirichlet (1805–1859).
10
a qual foi motivada pela necessidade de controle mais preciso do decaimento dos coeficientes de séries
de Fourier. Vide comentários da Seção 23.1, página 1120.
Fourier chegou às expansões que levam seu nome procurando soluções de certas equações diferenci-
ais ligadas ao problema de propagação de calor em sólidos11 . Essa associação entre séries de Fourier e
equações diferenciais é de interesse em diversas outras áreas da Fı́sica e o leitor poderá encontrar exem-
plos de seu uso nos problemas do Capı́tulo 10, página 583. Nesta seção apresentaremos os resultados
básicos da teoria da aproximação de funções por séries trigonométricas.
Para o leitor interessado em um texto mais aprofundado, a referência clássica sobre séries trigo-
nométricas é [159]. Recomendamos também [79], [123], [117], [30] e [155]. Uma leitura muito estimu-
lante é [84]. Para um excelente texto em português, vide [36].
27.2.1 Preliminares
• Funções T -periódicas
Se T > 0, uma função f : R → C é dita ser T -periódica, ou periódica de perı́odo T se f (x+T ) = f (x)
para todo x ∈ R.
Se uma função f : [−T /2, T /2] → C é definida apenas em um intervalo [−T /2, T /2], podemos
sempre definir uma sua extensão12 T -periódica à toda reta real f˜ : R → C por f(x)
˜ = f (x mod T ). Por
essa razão sempre consideraremos aqui funções definidas em todo R. Note que se f : [−T /2, T /2] → C
é contı́nua, sua extensão f˜ : R → C só o será se f (−T /2) = f (T /2), de outra forma será apenas
contı́nua por partes, com descontinuidades nos pontos x tais que x mod T = T /2.

T0
É também útil recordar que se f0 : R → C é T0 -periódica, então f1 (x) = f0 T1 x é T1 -periódica.
Por essa razão, convencionamos só considerar aqui funções 2π-periódicas. Os resultados que seguirão
podem ser estendidos a funções T -periódicas por um simples re-escalonamento dos argumentos das
funções.
O seguinte resultado elementar será usado algumas vezes no que segue:
Lema 27.1 Sejam P e f duas funções contı́nuas e 2π-periódicas. Então,
Z π Z π
P (x − y)f (y) dy = P (y)f (x − y) dy (27.6)
−π −π
para todo x ∈ R. 2
11
Fourier atuou também na polı́tica e na administração pública e dedicou-se a problemas de propagação de calor em
função de seus interesses em Metalurgia, em parte com o propósito de melhorar o processo de produção de canhões
(Fourier foi um partidário oportunista de Napoleão) e em parte movido por um legı́timo interesse cientı́fico. Quando
jovem participou da aventura napoleônica no Egito, tendo trabalhado na edição da célebre “Description de l’Egypte”, o
livro-mãe da Egiptologia, completada em 1810.
12
Para a definição da noção de extensão de uma função, vide página 28.
Prova.
Z π Z x+π
P (x − y)f (y) dy = P (y)f (x − y) dy
−π x−π
Z π Z x−π
= P (y)f (x − y) dy − P (y)f (x − y) dy
−π −π
Z x+π
+ P (y)f (x − y) dy
π
Z π Z x+π
= P (y)f (x − y) dy − P (y − 2π)f (x − y + 2π) dy
−π π
Z x+π
+ P (y)f (x − y) dy
π
Z π Z x+π
periodicidade
= P (y)f (x − y) dy − P (y)f (x − y) dy
−π π
Z x+π
+ P (y)f (x − y) dy
π
Z π
= P (y)f (x − y) dy .
−π
• Polinômios trigonométricos
Uma função definida em R que seja da forma

n
X
p(x) = Am eimx ,
m=−n
com Am ∈ C e n ∈ N, n ≥ 0, é dita ser um polinômio trigonométrico de perı́odo 2π. Usando a bem

conhecida fórmula de Euler eiθ = cos(θ) + i sen(θ), todo polinômio trigonométrico no intervalo [−π, π]
pode ser escrito na forma alternativa equivalente
n
X n
X
p(x) = am cos(mx) + bm sen(mx) ,
m=0 m=1
com am , bm ∈ C, a qual envolve as funções seno e co-seno.
• Convergência pontual, uniforme e em L2

Para que o estudante possa melhor compreender as afirmações dos diversos teoremas sobre con-
vergência de séries trigonométricas e entender as sutilezas que as distinguem, recordemos brevemente
a distinção entre as noções de convergência mais empregadas.
Diz-se que uma seqüência de funções fn definidas em um intervalo [a, b] converge pontualmente a
uma função f se para cada x ∈ [a, b] valer lim fn (x) = f (x).
n→∞
Diz-se que uma seqüência de funções fn definidas em um intervalo [a, b] converge uniformemente a
uma função f se lim sup |fn (x) − f (x)| = 0.
n→∞ x∈[a, b]
Diz-se que uma seqüência

s de funções fn definidas em um intervalo [a, b] converge no sentido de L2
Z b
a uma função f se lim |fn (x) − f (x)|2 dx = 0.
n→∞ a
A convergência uniforme implica convergência pontual e implica convergência no sentido de L2 (para

intervalos compactos, como [a, b]). A recı́proca dessas duas afirmações, porém, não é necessariamente
verdadeira. No que segue estabeleceremos, sob diversas hipóteses, resultados sobre convergência, nos
diferentes sentidos de acima, para seqüências de polinômios trigonométricos.
• Séries trigonométricas, ou séries de Fourier
Dado um polinômio trigonométrico de perı́odo 2π

n
X eikx
p(x) = pk √ (27.7)
k=−n
2π
é fácil constatar, usando as relações de ortogonalidade

Z π
ei(n−m)x dx = 2πδm,n , m, n ∈ Z , (27.8)
−π
que os coeficientes pk podem ser expressos em termos de p por

Z π −ikx
e
pk = √ p(x) dx =: hek , pi , (27.9)
−π 2π
eikx
com ek (x) := √
2π
.
Uma questão natural é saber sob quais circunstâncias uma função f , 2π-periódica, pode ser expressa
como limite (em um sentido a ser precisado) de uma seqüência de polinômios trigonométricos como
n
X X∞
eikx eikx
f (x) = lim fk √ =: fk √ , (27.10)
n→∞
k=−n
2π k=−∞
2π
com os coeficientes fk independentes de n e dados por

Z π −ikx
e
fk = √ f (x) dx =: hek , f i . (27.11)
−π 2π
Uma série como (27.10)-(27.11), caso o limite exista, é denominada série de Fourier.
Os coeficientes fk são denominados coeficientes de Fourier da função f . De (27.11) vê-se que para
que todos os coeficientes de Fourier fk de uma função f existam basta que f seja integrável em [−π, π].
Para f integrável e m ∈ N as somas parciais
Xn Xn Z π −iky ikx
eikx e e
Sn (f, x) := fk √ = √ f (y) dy √ (27.12)
k=−n
2π k=−n −π 2π 2π
são denominadas somas parciais de Fourier da função f . A série de Fourier da função f se escreve
então como o limite n ∞
X eikx X eikx
lim Sn (f, x) := lim fk √ =: fk √
n→∞ n→∞
k=−n
2π k=−∞
2π
caso esse exista em algum sentido.
Como já mencionamos, foi Fourier o primeiro a propor expressões como (27.10)-(27.11). Coube a
seus sucessores estudar sobre quais hipóteses e em que sentido (27.10)-(27.11) são válidas.
Uma questão que então se coloca é identificar condições sobre f sob as quais a seqüência de
polinômios trigonométricos Sn (f, x) convirja pontualmente à função f , ou seja, para que o limite
limn→∞ Sn (f, x) de (27.10) exista e seja igual a f para todo x ∈ [−π, π] ou quase em toda parte.
Devido ao largo emprego de séries de Fourier na resolução de equações diferenciais essa não é apenas
uma questão acadêmica. No que segue, empenharemo-nos em apresentar respostas, ainda que parciais,
a essa questão e a outras congêneres.
• Um outro encontro com as séries de Fourier: a expansão de Laurent
Antes de prosseguirmos observemos que séries de Fourier convergentes ocorrem naturalmente no

contexto da teoria das funções analı́ticas de uma variável complexa.
Se g(z) é uma função analı́tica no interior de um anel Aab = {z ∈ C, a < |z| < b} ⊂ C, com
0 ≤ a < b, é bem sabido da teoria das funções de variável complexa que g pode ser representada em
Aab por uma série de Laurent13 centrada em z0 = 0:
X∞
g(z) = gn z n ,
n=−∞
a qual é absolutamente convergente para z ∈ Aab , sendo os coeficientes gn dados por

I
1 g(w)
gn = dw
2πi C w n+1
para todo n ∈ Z, com C sendo uma curva suave e fechada em Aab que dá uma volta em torno de
z0 = 0 no sentido anti-horário. Se tivermos a < 1 < b, o cı́rculo unitário S 1 = {z ∈ C, |z| = 1}
estará inteiramente contido em Aab . Nesse caso, se escolhermos z no cı́rculo unitário |z| = 1, podemos
escrever z = eiθ com −π < θ ≤ π. Definindo f (θ) := g(eiθ ), a expansão de Laurent fica
∞
X
f (θ) = gn einθ ,
n=−∞
13
que é uma expansão de f em termos de uma série trigonométrica. Tomando a curva C como sendo
também o cı́rculo unitário (ou seja, tomando w = eiϕ com −π < ϕ ≤ π), a expressão para os coeficientes
gn fica Z π
1
gn = f (ϕ)e−inϕ dϕ .
2π −π
Assim, obtemos para f a representação
∞ Z
X π
e−inϕ einθ
f (θ) = √ f (ϕ) dϕ √ . (27.13)
n=−∞ −π 2π 2π
Concluı́mos assim que se f (θ) é a restrição ao cı́rculo unitário de uma função analı́tica em Aab com
0 ≤ a < 1 < b (no caso, da função g), então f possui a representação em série de Fourier (27.13), a
qual, sob as hipóteses, converge absoluta e uniformemente para todo −π < ϕ ≤ π. Note que, sob essas
hipóteses, f é não apenas contı́nua, mas infinitamente diferenciável em relação a θ.
No que segue veremos que condições mais fracas sobre f podem ser impostas com idênticos resul-
tados.
• Seqüências delta de Dirac periódicas
Uma seqüência Kn , n ∈ N, de funções definidas em R é dita ser uma seqüência delta de Dirac14
periódica de perı́odo 2π se satisfizer
1. Kn é contı́nua e 2π-periódica para todo n ∈ N,
2. Kn (x) ≥ 0 para todo n ∈ N e todo x ∈ [−π, π].
3. Para todo n ∈ N, Z π
Kn (x)dx = 1 . (27.14)
−π
4. Para todo δ com 0 < δ < π vale

n o
lim sup Kn (x), δ ≤ |x| ≤ π = 0 . (27.15)
n→∞
Ou seja, para todo δ com 0 < δ < π a seqüência de funções Kn converge uniformemente à função
nula na região [−π, −δ] ∪ [δ, π].
As condições 3 e 4 exigem que as funções Kn fiquem mais e mais concentradas em torno do ponto
0 à medida em que n cresce, eventualmente com limn→∞ Kn (0) = ∞.
O seguinte fato sobre seqüências delta de Dirac é de fundamental importância para o que segue:
14
Paul Adrien Maurice Dirac (1902-1984). A idéia original das seqüência delta de Dirac não é de Dirac, pois já se
encontrava na demonstração original de Weierstrass do teorema que leva seu nome (Teorema 27.1, página 1395) e no já
mencionado trabalho de Fejér de 1900. Essas idéias originam-se provavelmente do trabalho de Dirichlet de 1828 sobre as
séries de Fourier.
Teorema 27.3 Seja f : R → C uma função contı́nua e 2π-periódica. Seja Kn uma seqüência delta de
Dirac no intervalo [−π, π]. Defina-se
Z π Z π
(27.6)
Fn (x) := Kn (x − y)f (y) dy = Kn (y)f (x − y) dy
−π −π
para todo n ∈ N. Então, a seqüência Fn é uma seqüência de funções contı́nuas e 2π-periódicas e

converge uniformemente a f em R:
lim kf − Fn k∞ = lim sup |f (x) − Fn (x)| = 0 .

n→∞ n→∞ x∈R
Prova. Que cada Fn é 2π-periódica e contı́nua é evidente (se não for → Exercı́cio!). Vamos agora
escrever Z π

f (x) − Fn (x) = f (x) − f (x − y) Kn (y) dy .
−π
Para cada δ com 0 < δ < π, podemos quebrar a última integral em três intervalos:
Z −δ Z δ Z π

f (x) −f (x−y) Kn (y) dy + f (x) −f (x−y) Kn (y) dy + f (x) −f (x−y) Kn (y) dy (27.16)
−π −δ δ
e denominaremos essas integrais I, II e III, respectivamente.

Comecemos estudando a integral II. Como f é contı́nua em um intervalo compacto, f é unifor-
memente contı́nua (Teorema 24.7, página 1213), o que significa dizer que para cada ǫ > 0 podemos
encontrar em δ > 0 independente de x, tal que |f (x) − f (x − y)| ≤ ǫ para todo y com |y| ≤ δ. Assim,
tomando um ǫ > 0 arbitrário, e adotando o δ correspondente em (27.16),
Z x+δ Z x+δ

f (x) − f (x − y) K (y)dy ≤ f (x) − f (x − y)Kn (y)dy
n
x−δ x−δ
Z x+δ Z π
≤ ǫ Kn (y)dy ≤ ǫ Kn (y)dy = ǫ .
x−δ −π
Passemos agora à integral I. Como f é contı́nua e 2π-periódica, |f | tem um máximo: F :=

supx∈R |f (x)| = supx∈[−π, π] |f (x)|. Logo,
Z −δ
Z −δ

f (x) − f (x − y) Kn (y)dy ≤ f (x) − f (x − y)Kn (y)dy

−π −π
Z −δ
≤ 2F Kn (y)dy
−π

≤ 2F (π − δ) sup Kn (y), δ ≤ |y| ≤ π .
Logo, por (27.15), podemos obter

Z −δ

f (x) − f (y) K (x − y)dy ≤ ǫ
n
−π
escolhendo n grande o suficiente, digamos n > N(ǫ), independente de x. Procedendo de forma análoga,
chega-se à mesma conclusão para a integral III. Dessa forma, concluı́mos que |f (x) − Fn (x)| ≤ 3ǫ para
n > N(ǫ), independente de x. Logo, kf − Fn k∞ ≤ 3ǫ para n > N(ǫ). Como isso vale para ǫ > 0
arbitrário a demonstração está completa.
27.2.2 Polinômios Trigonométricos e Funções Contı́nuas e Periódicas

A proposição que segue e sua demonstração são extraı́das do tratamento de [123].
Proposição 27.1 Para m ∈ N defina-se
m
1 1 + cos(x) 1 x 2m
Km (x) := = cos ,
Nm 2 Nm 2
onde Z π
m Z π 2m
1 + cos(y) y
Nm := dy = cos dy .
−π 2 −π 2
Então a seqüência Km é uma seqüência delta de Dirac de perı́odo 2π.
As constantes Nm são dadas por
(2m)! (2m − 1)!!
Nm = 2π = 2π , (27.17)
22m (m!)2 2m m!
para todo m ∈ N. 2
RProva. É evidente que Km (x) ≥ 0 para todo m ∈ N e que cada Km é contı́nua e 2π-periódica. Que
π
−π
Km (x)dx = 1 é também evidente pela definição do fator de normalização Nm . Precisamos apenas
provar a propriedade 4 da definição de seqüência delta de Dirac de perı́odo 2π.
A primeira coisa a fazerRé obter uma estimativa para o fator de normalização Nm . Como Km (x) é
π
uma função par, vale 1 = 2 0 Km (x)dx. Assim, usando o fato que 1 ≥ sen(x), vale
Z π m Z π m
1 1 + cos(y) 1 1 + cos(y)
1 = dx ≥ sen(x) dx
Nm 0 2 Nm 0 2
Z 2
u=1+cos(x) 1 2
= m
um du = ,
2 Nm 0 (m + 1)Nm
1 m+1
o que implica Nm
≤ 2
. A segunda observação é que
1
Kn′ (x) = − (1 + cos(x))m−1 sen(x) ,
2m Nm
que nos informa que Kn é decrescente no intervalo [0, π]. Portanto, se 0 < δ ≤ π vale para todo
x ∈ [δ, π] m m
1 1 + cos(δ) (m + 1) 1 + cos(δ)
Km (x) ≤ Km (δ) = ≤ .
Nm 2 2 2
m
(m+1) 1+cos(δ)
Logo, sup{Km (x), x ∈ [δ, π]} ≤ 2 2
e, como 1 + cos(δ) < 2 para 0 < δ ≤ π, segue que
lim sup{Km (x), x ∈ [δ, π]} = 0. Isso completa a demonstração que Km forma uma seqüência delta
m→∞
de Dirac 2π-periódica.
Para provar (27.17), notamos que pelo binômio de Newton
2m 2m
t 1 it/2 −it/2
2m 1 X 2m i(p−m)t
cos = 2m e + e = 2m e . (27.18)
2 2 2 p=0 p
Com isso, (27.17) segue facilmente das relações de ortogonalidade (27.8).
Chegamos agora ao importante

Teorema 27.4 Se f : R → C é contı́nua e 2π-periódica, então f pode ser aproximada uniformemente
em R por polinômios trigonométricos, ou seja, para todo ǫ > 0 existe um polinômio trigonométrico pǫ
tal que kf − pǫ k∞ < ǫ, onde kf − pǫ k∞ = sup |f (x) − pǫ (x)|. 2
x∈R
Esse teorema foi primeiramente demonstrado por Fejér15 em 1900 em uma forma ligeiramente
diferente, da qual falaremos mais adiante. Conforme exposto na Seção 9.3.3, página 574, o Teo-
rema 27.4, acima, tem por implicação a convergência da série de Fourier de (27.10) para funções
f ∈ L2 ([−π, π], dx), com a convergência se dando no sentido da norma de L2 ([−π, π], dx). Isso não
necessariamente implica a validade de (27.10) para todo ponto x ∈ [−π, π] (convergência pontual).
Prova do Teorema 27.4. Unindo o Teorema 27.3 à Proposição 27.1, concluı́mos que a seqüência de
funções contı́nuas e 2π-periódicas definida por
Z π 2m
1 x−y
Em (f, x) := cos f (y) dy
Nm −π 2
m ∈ N, aproxima uniformemente f em R. Por (27.18), segue que
2m √
X 2π 2m
Em (f, x) = 2m
fp−m ei(p−m)x , (27.19)
p=0
2 Nm p
onde Z π
1
fk := √ e−iky f (y) dy , k∈Z, (27.20)
2π −π
são os coeficientes de Fourier de f . Com (27.17), obtemos
m
X (m!)2 eipx
Em (f, x) = fp √ . (27.21)
p=−m
(m − p)!(m + p)! 2π
15
Lipót Fejér (1880–1959).
As expressões (27.19) e (27.21) mostram que Em (f, x) é um polinômio trigonométrico.
A afirmação a seguir é conseqüência do Teorema 27.4 e de (27.21).

Corolário 27.1 Se f : R → C é contı́nua e 2π-periódica, então f é univocamente determinada por
R π −iky
1
seus coeficientes de Fourier fk = √2π −π e f (y) dy, k ∈ Z. 2
Prova. Por (27.21) vemos que f pode ser recuperada a partir do conhecimento dos coeficientes fk .
Também pela mesma expressão, vemos que se f e g são contı́nuas, 2π-periódicas e têm os mesmos
coeficientes de Fourier, então Em (f, x) = Em (g, x) para todo x ∈ R e todo m ∈ N. Assim, pelo
Teorema 27.4, vale para todo x ∈ R que f (x) = lim Em (f, x) = lim Em (g, x) = g(x).
m→∞ m→∞
• Comentários sobre convergência pontual. Teoremas de Du Bois-Reymond e Carleson
O Teorema 27.4 afirma que f pode ser aproximada uniformemente por polinômios trigonométricos
Pnperı́odoikx2π. Surpreendentemente, porém, isso não implica que a série de Fourier Sn (f, x) =
de
k=−n fk e de uma função contı́nua f seja convergente em todo ponto x.
O estudante deve atentar para o fato que, por (27.12) e (27.21), Sm (f, x) e Em (f, x) são polinômios
trigonométricos distintos. Assim, a aproximação de f (x) contı́nua e 2π-periódica pela seqüência
Em (f, x), implicada pelo Teorema 27.4, não necessariamente implica a aproximação de f (x) por
sua série de Fourier Sm (f, x).
De fato, em 1873 Du Bois-Reymond16 exibiu um exemplo de uma função contı́nua e 2π-periódica
(e, portanto, para a qual o Teorema 27.4 se aplica) cuja série de Fourier diverge em x = 0. Apesar de
contı́nua, a função de Du Bois-Reymond não é diferenciável em x = 0 (ou mesmo Hölder-contı́nua).
Esse comentário é importante pois, como veremos na Proposição 27.5, página 1415, continuidade e
diferenciabilidade são suficientes para garantir a convergência pontual da série de Fourier.
Os passos da construção de Du Bois-Reymond podem ser acompanhados na referência [84] ou
em [79]. O leitor interessado que tenha algum conhecimento de Teoria Quântica de Campos poderá
deleitar-se em reconhecer que a construção de Du Bois-Reymond prenuncia certas idéias associadas a
transformações de escala e de grupo de renormalização.
O exemplo de Du Bois-Reymond pode ser aguçado ainda mais. Em 1966 Kahane17 e Katznelson18
provaram que: dado um conjunto de medida nula E em [−π, π], existe uma função f contı́nua e 2π-
periódica tal que supn∈N |Sn (f, x)| = ∞ para todo x ∈ E. Uma demonstração dessa afirmação pode
ser encontrada em [79]19 .
O resultado mais importante sobre a questão da convergência pontual da série de Fourier de funções
de quadrado integrável é devido a Carleson20 : se f é uma função de quadrado integrável em [−π, π],
16
Paul David Gustav Du Bois-Reymond (1831–1889).
17
Jean-Pierre Kahane.
18
Yitzhak Katznelson (1934–).
19
A referência original é: J-P Kahane and Y. Katznelson, “Sur les ensembles de divergence des séries trignométriques”,
Studia Mathematica, 26 305-306, (1966).
20
Lennart Axel Edvard Carleson (1923–). A referência original é: L. Carleson, “On convergence and growth of partial
sums of Fourier series”. Acta Math., 116, 135-157 (1966).
sua série de Fourier converge quase em toda parte, ou seja, pode divergir apenas em um conjunto de
medida nula.
Como mencionamos, para que possamos garantir convergência da série de Fourier de uma função f
em todo ponto x ∈ [−π, π] não basta requerer continuidade, sendo a adição da condição de diferencia-
bilidade suficiente para tal. A afirmação precisa será apresentada nas páginas que seguem (Proposição
27.5, página 1415).
27.2.3 Convergência de Séries de Fourier
• Os núcleos de Dirichlet
Dado um polinômio trigonométrico p, vimos em (27.7)-(27.9) que podemos escrever

Xn Z π Z π
1 −iky ikx
p(x) = e p(y) dy e = Dn (x − y) p(y) dy ,
k=−n
2π −π −π
onde, para cada n ∈ N, definimos

n
1 X ikx
Dn (x) := e . (27.22)
2π k=−n
Essas funções Dn são denominadas núcleos de Dirichlet. Perceba-se que expressões como (27.10),
(27.12) ou (27.13) podem ser re-escritas na forma
Z π Z π
Sm (f, x) = Dm (x − y)f (y) dy , f (x) = lim Dm (x − y)f (y) dy .
−π m→∞ −π
As questões que colocamos acima a respeito das séries de Fourier podem ser respondidas com um
melhor conhecimento dos núcleos de Dirichlet. Suas propriedades básicas encontram-se enunciadas na
proposição que segue.
Proposição 27.2 Definindo
n
1 X ikx
Dn (x) := e , (27.23)
2π k=−n
n ∈ N, valem as seguintes afirmações: cada Dn é uma função contı́nua, par e 2π-periódica. Vale
Z π
Dn (x) dx = 1 (27.24)
−π
para todo n ∈ N e vale a expressão mais explı́cita

1 sen (n + 21 )x 2n + 1
Dn (x) = , x 6= 0 , com Dn (0) = , (27.25)
2π sen x2 2π
também para todo n ∈ N. 2

Prova. Que cada Dn é contı́nua e 2π-periódica é evidente. Que cada Dn é uma função par é evidente
por (27.25), que provaremos abaixo. A relação (27.24) segue facilmente das relações de ortogonalidade
(27.8), pois
Z π n Z n
1 X π ikx X
Dn (x) dx = e dx = δk, 0 = 1 .
−π 2π k=−n −π k=−n
Para provar (27.25), escrevemos, para x 6= 0,

n 2n
1 X ikx e−inx X ikx
Dn (x) = e = e
2π k=−n 2π k=0

e−inx 1 − ei(2n+1)x
=
2π 1 − eix

1 e−inx − ei(n+1)x 1 e−i(n+1/2)x − ei(n+1/2)x 1 sen (n + 12 )x
= = = .
2π 1 − eix 2π e−ix/2 − eix/2 2π sen x2
Acima, na passagem da primeira para a segunda linha, usamos a bem-conhecida expressão da soma de
uma progressão geométrica
X m
1 − am+1
ak = , (27.26)
k=0
1 − a
válida para m ∈ N e a 6= 1. Que Dn (0) = (2n + 1)/2π é evidente pela definição (27.23).
Apesar de os núcleos de Dirichlet não serem uma seqüência delta de Dirac 2π-periódica, tal como
definido à página 1405 (faltam-lhe as propriedades 2 e 4 da definição daquelas), é possı́vel provar que,
sob hipóteses convenientes sobre a função f , seus efeitos são semelhantes àqueles descritos no Teorema
27.3, página 1406. As próximas páginas tratam disso.
• O Lema de Riemann-Lebesgue
Proposição 27.3 Sejam fk os coeficientes de Fourier de uma função contı́nua e 2π-periódica f : R →

C. Então, lim fk = 0. 2
k→±∞
Prova. Se f é contı́nua e 2π-periódica e ǫ > 0, existe, pelo Teorema 27.4, um polinômio trigonométrico
2π-periódico pǫ tal que |f (x) − pǫ (x)| ≤ ǫ para todo R π x ∈ [−π, π]. Como pǫ é um polinômio trigo-
nométrico, seus coeficientes de Fourier (pǫ )k = √12π −π pǫ (x)e−ikx dx anulam-se para todo |k| maior que
um dado K(ǫ) ∈ N. Assim, para |k| > K(ǫ) tem-se
Z π Z π Z π
1 1 1

|fk | = √ f (x)e−ikx
dx = √ (f (x) − pǫ (x))e−ikx
dx ≤ √ |f (x)−pǫ (x)|dx ≤ ǫ .
2π −π 2π −π 2π −π
Logo, provamos que para todo ǫ > 0 existe K(ǫ) > 0 tal que |fk | ≤ ǫ para todo |k| > K(ǫ). Por
definição, isso significa que lim fk = 0.
k→±∞
Essa proposição pode ser fortemente generalizada.

Teorema 27.5 (Lema de Riemann-Lebesgue) Seja f : [−π, π] → C uma função integrável (no
sentido de Lebesgue). Então, lim fk = 0. 2
k→±∞
Prova. Toda função integrável pode ser aproximada por uma função contı́nua eR2π-periódica na norma
π
L1 , ou seja, para cada ǫ > 0 existe uma função contı́nua e 2π-periódica fǫ tal que −π |f (x)−fǫ (x)|dx ≤ ǫ.
Rπ R π R π
Assim, de −π f (y) e−iky dy = −π (f (y) − fǫ (y)) e−iky dy + −π fǫ (y) e−iky dy, obtemos
Z π Z π Z π
√ √
2π|fk | = f (y) e−iky
dy ≤ |f (y) − fǫ (y)| dy + fǫ (y) e−iky
dy ≤ ǫ + 2π |(fǫ )k | .
−π −π −π
Pela Proposição
27.3, podemos obter |(fǫ )k | ≤ ǫ tomando |k| grande o suficiente e, assim, para tais k’s
vale |fk | ≤ 1 + √12π ǫ, completando a prova.
Nota. O Lema de Riemann-Lebesgue tem uma história interessante. Sua primeira demonstração
foi obtida por Riemann em uma tese, apresentada à Universidade de Göttingen em 1854 e publicada
em 1867, intitulada “Sobre a representabilidade de uma função por uma série trigonométrica”21 , para
a obtenção do tı́tulo de Privatdozent que lhe permitiria dar aulas na universidade (e cobrar por elas
dos alunos. Somente professores titulares eram contratados das universidades e recebiam salários das
mesmas). As regras exigiam que o candidato redigisse uma tese e apresentasse um seminário sobre um
tema diferente diante de uma banca. O candidato propunha quatro temas para o seminário dos quais
um era escolhido pelo decano da instituição. Riemann propôs três temas sobre Eletromagnetismo e
um sobre Geometria. No caso de Riemann o decano era ninguém menos que Gauss, que escolheu o
tema de Geometria, pois soubera que Riemann tinha idéias bastante originais a respeito. A escolha
não poderia ter sido melhor, pois o seminário de Riemann fez história22 e lançou as bases do que
hoje se denomina Geometria Riemanniana, cuja importância à Teoria da Relatividade Geral é bem-
conhecida. Mas a tese versava sobre séries de Fourier e para a obtenção dos seus resultados, em
particular, do que hoje é conhecido como Lema de Riemann-Lebesgue, Riemann percebeu a necessidade
de apresentar uma definição mais precisa da noção de integral do que era empregado até então. Nascia
ai a chamada integral de Riemann. O estudante poderá acompanhar em [36] uma demonstração do
Lema de Riemann-Lebesgue próxima à linha original de Riemann e aperceber-se da necessidade de
precisão da noção de integral naquele contexto. Nossa demonstração de acima seguiu outras linhas.
Posteriormente, Lebesgue estendeu a noção de integral de Riemann e reobteve uma prova do Teorema
27.5 para a classe das funções integráveis de Lebesgue.
• A condição de Dini
O seguinte teorema, devido a Dini23 , generaliza resultados anteriores de Dirichlet e desempenha um

papel importante no estudo da convergência de séries de Fourier. Suas conseqüências mais relevantes
serão enunciadas após sua demonstração.
21
O tı́tulo original é “Über die Darstellbarkeit einer Function durch eine trigonometrische Reihe”.
22
O conteúdo do seminário foi publicado sob o tı́tulo “Sobre as hipóteses que fundamentam a Geometria” (“Über die
Hypothesen welche der Geometrie zu Grunde liegen”).
23
Ulisse Dini (1845–1918).
Teorema 27.6 (Condição de Dini) Seja f : R → C integrável e 2π-periódica e seja x ∈ R tal que
1. Existem os dois limites laterais lim f (x + t) e lim f (x + t), que denotamos por f (x+ ) e f (x− ),
t→0+ t→0−
respectivamente.
2. Existe κ > 0 tal que Z κ

|Df (x, y)|
dy < ∞ , (27.27)
0 y
onde
Df (x, y) := f (x + y) + f (x − y) − (f (x+ ) + f (x− )) .
Então,
f (x+ ) + f (x− )
lim Sn (f, x) = .
n→∞ 2
2
Rπ
Prova. Usando (27.6) podemos escrever Sn (f, x) = −π Dn (y)f (x − y)dy. Como Dn é uma função par,
Rπ Rπ
a última integral pode também ser escrita como −π Dn (−y)f (x − y)dy = −π Dn (y)f (x + y)dy. Assim,
podemos escrever, Z
1 π
Sn (f, x) = Dn (y) f (x + y) + f (x − y) dy
2 −π
Usando também (27.24), obtemos
Z π Z π
f (x+ ) + f (x− ) 1
Sn (f, x) − = Dn (y)Df (x, y) dy = Dn (y)Df (x, y) dy , (27.28)
2 2 −π 0
A última igualdade provém do fato que Df (x, y) = Df (x, −y). Para 0 < δ < π podemos escrever
Z δ Z π
Sn (f, x) − f (x) = Dn (y)Df (x, y) dy + Dn (y)Df (x, y) dy . (27.29)
0 δ
Comecemos nossa análise pela primeira integral em (27.29). O integrando é

" y
#
1 sen n + 12 y 1 2 Df (x, y)
Dn (y)Df (x, y) = y
Df (x, y) = sen n + y y
.
2π sen 2 2 π sen 2
y
y
A função 2
π sen( y2 )
é crescente em todo intervalo [0, π] (mostre isso!) e, portanto, limitada superiormente
π
1 |Df (x, y)|
por 2
π sen( π2 )
= 12 . Assim, naquele intervalo, |Dn (y)Df (x, y)| ≤ 2 y
. Logo, para primeira integral
em (27.29) temos Z δ Z

1 δ |Df (x, y)|
Dn (y)Df (x, y) dy ≤ dy
0 2 0 y
R δ |D (x, y)|
Escolhendo δ pequeno o suficiente podemos obter 0 f y dy ≤ ǫ em função da condição (27.27).
Com esse δ assim fixado, passemos agora à segunda integral em (27.29). Usando (27.25), a mesma
fica
Z π Z π
iny eiy/2 Df (x, y) −iny e−iy/2 Df (x, y)
e χ[δ, π] (y) dy − e χ[δ, π] (y) dy (27.30)
0 2i sen(y) 0 2i sen(y)
onde χ[δ, π] é a função caracterı́stica do intervalo [δ, π]:



 1, y ∈ [δ, π] ,
χ[δ, π] (y) =


 0, y 6∈ [δ, π] .
iy/2
e Df (x, y) 1
Agora, as funções χ[δ, π] (y) 2i sen(y)
são integráveis (note que a singularidade de sen(y) em y = 0
é eliminada pelo fator χ[δ, π] (y)). Assim, aplica-se o Lema de Riemann-Lebesgue, Teorema 27.5, e as
integrais em (27.30) podem ser feitas menores que qualquer ǫ > 0 prescrito tomando |n| grande o
suficiente. Isso completa a demonstração.
• Condições de convergência pontual de séries de Fourier
Após o Teorema 27.6 a questão que naturalmente se coloca é saber para quais tipos de funções
f a condição de Dini é satisfeita. Há duas classes de funções de maior interesse (especialmente no
contexto de aplicações a equações diferenciais): as contı́nuas e as contı́nuas por partes. As proposições
que seguem reúnem esses casos.
Proposição 27.4 I. Suponha que f : R → C seja Hölder24 -contı́nua em um ponto x ∈ [−π, π], ou
seja, satisfaça
|f (x) − f (y)| ≤ α|x − y|β (27.31)
para todo y em um intervalo [x − κ, x + κ], para algum κ > 0, algum α ≥ 0 e algum β > 0. Então f
satisfaz a condição de Dini (27.27) em x.
II. Se f : R → C não for contı́nua em x mas existirem os limites laterais lim f (x + t) =: f (x+ ) e
t→0+
lim f (x + t) =: f (x− ) e de sorte que existam constantes κ > 0, M+ ≥ 0 e M− ≥ 0 tais que
t→0−

f (x + y) − f (x+ ) f (x − y) − f (x− )
≤ M+ e ≤ M+ (27.32)
y y
para todo 0 < y ≤ κ, então a condição de Dini (27.27) é satisfeita em x. 2
Prova. I. Por (27.31), f é contı́nua em x e, portanto, Df (x, y) = f (x + y) + f (x − y) − 2f (x). Assim,

para y ∈ [−κ, κ] valerá
(27.31)

|Df (x, y)| = f (x+y)−f (x) + f (x−y)−f (x) ≤ f (x+y)−f (x) + f (x−y)−f (x) = 2α|y|β .
24
Logo, Z Z
κ κ
|Df (x, y)| 2ακβ
dy ≤ 2α y β−1 dy = < ∞.
0 y 0 β
II. Para todo y ∈ (0, κ],

|Df (x, y)| f (x + y) − f (x+ ) + f (x − y) − f (x− )
=
y y

f (x + y) − f (x+ ) f (x − y) − f (x− )
≤ + = M+ + M− ,
y y
o que claramente implica a condição de Dini (27.27).
Chegamos às conseqüências mais relevantes da Condição de Dini:

Proposição 27.5 A. Se f : R → C é contı́nua, diferenciável para todo x ∈ R e 2π-periódica, então
lim Sn (f, x) = f (x)

n→∞
para todo x ∈ R, ou seja, a série de Fourier de f converge pontualmente a f .

B. Se f : R → C é contı́nua por partes e 2π-periódica e as derivadas laterais
f (x + s) − f (x) f (x + s) − f (x)
f ′ (x+ ) := lim e f ′ (x− ) := lim
s→0+ s s→0− s
existirem para todo x ∈ R, então
f (x+ ) + f (x− )
lim Sn (f, x) =
n→∞ 2
para todo x ∈ R. 2
Prova. A. Se f é contı́nua e diferenciável em x, então f é Hölder-contı́nua com β = 125 (justifique!).

B. Se existem f ′ (x± ), como definidos acima, então (27.32) valem (justifique!).
Que a série de Fourier de uma função contı́nua por partes converge ao valor médio (f (x+ )+f (x− ))/2
foi sugerido pelo próprio Fourier, com base em diversos exemplos, em seu trabalho de 1822 “Théorie
Analytique de la Chaleur” . A primeira demonstração correta foi obtida por Dirichlet em 1828. Antes
de Dirichlet, Poisson26 e Cauchy27 apresentaram demonstrações falhas. A natureza não-trivial dos erros
desses autores é discutida em [84].
25
Ou seja, f é Lipschitz-contı́nua.
26
27
27.2.4 Revisitando a Aproximação Uniforme de Funções Contı́nuas por

Polinômios Trigonométricos
• Somas de Cesàro
Se am , m ∈ N é uma seqüência de números complexos a expressão lim An , onde An é a seqüência

n→∞
Xn
das somas parciais An := am , caso o limite exista, define, como bem sabido, o que se denomina
m=0
uma série, a série associada à seqüência am . Assim, uma série convergirá se e somente se o limite
da seqüência formada pelas somas parciais acima convergir. Notacionalmente, uma série é também
X∞ Xn
denotada por am , caso o limite lim An = lim am exista.
n→∞ n→∞
m=0 m=0
A soma de Cesàro28 da seqüência am , ou série de Cesàro associada à seqüência am , é definida por

n n m
1 X 1 XX
lim Am = lim ap .
n→∞ n + 1 n→∞ n + 1
m=0 m=0 p=0
caso o limite exista. Como se vê, a série de Cesàro de uma seqüência am é formada pelo limite da
média das somas parciais da seqüência am .
É fácil demonstrar, mas não o faremos aqui, que se uma série converge a um valor a, então o limite
de sua série de Cesàro também existe e também vale a. O interessante sobre as séries de Cesàro é que
existem seqüências cujas séries não possuem limite, mas cujas séries de Cesàro convergem. Um exemplo
básico é a seqüência am = (−1)m . Suas somas parciais valem An = ((−1)n + 1)/2, ou seja, An = 1 se
n é par e An = 0 se n é ı́mpar. Claramente limn→∞ An não existe. Porém, sua série de Cesàro existe,
com n
1 X 1
lim Am = ,
n→∞ n + 1 2
m=0
como é fácil constatar.

Há diversos outros tipos de séries como a de Cesàro, que podem produzir somas convergentes para
séries não-convergentes. O texto clássico sobre esse assunto é “Divergent Series”, de G. H. Hardy29
[59], um estimulante texto, de rara elegância de estilo na literatura matemática.
• O núcleo de Fejér
Vamos agora redemonstrar o Teorema 27.4, lançando outra luz sobre seu significado.
Seja Fn (x) definida para todo x ∈ R por
n
1 X
Fn (x) := Dm (x) . (27.33)
n + 1 m=0
28
Ernesto Cesàro (1859–1906).
29
Godfrey Harold Hardy (1877–1947).
Como se vê, trata-se da média da soma parcial das seqüência dos núcleos de Dirichlet, ao estilo das
supracitadas médias de Cesàro. Cada função Fn é denominada núcleo de Fejér30.
Para o que segue é importante estabelecer algumas propriedades dos núcleos de Fejér, o que é feito
na próxima proposição, a qual estabelece que as funções Fn formam uma seqüência delta de Dirac
2π-periódica.
Proposição 27.6 Para todo n ∈ N os núcleos de Fejér Fn definidos em (27.33) satisfazem:
1. Fn é contı́nua, par e 2π-periódica.
2. Fn (x) ≥ 0 para todo x ∈ R.
3. Z π
Fn (y) dy = 1 .
−π
4. Valem as fórmulas mais explı́citas

 2
(n+1)
1 sen 2
x n+1
Fn (x) =   , x 6= 0 , Fn (0) = . (27.34)
x
2π(n + 1) sen 2
2π
5. Para todo δ com 0 < δ < π vale

n o
lim sup Fn (x), δ ≤ |x| ≤ π = 0 . (27.35)
n→∞
Ou seja, para todo δ com 0 < δ < π a seqüência de funções Fn converge uniformemente à função
nula na região [−π, −δ] ∪ [δ, π]. 2
Prova. O item 1 é evidente pelas propriedades correspondentes do núcleo de Dirichlet (Proposição 27.2,
página 1410). O item 3 é evidente por (27.24).
30
Lipót Fejér (1880–1959).
Xn
1 n+1
Por (27.25), vale Fn (0) = (2m + 1) = (prove isso!) e para x 6= 0,
2π(n + 1) m=0 2π
n
1 X sen (n + 21 )x
Fn (x) :=
2π(n + 1) m=0 sen x2
n h
X i
1 ix/2 inx −ix/2 −inx
= x
e e − e e
4πi(n + 1) sen 2 m=0
" n n
#
1 X X
= x
eix/2 einx − e−ix/2 e−inx
4πi(n + 1) sen 2 m=0 m=0

(27.26) 1 ix/2 1 − ei(n+1)x −ix/2 1 − e−i(n+1)x
= x
e −e
4πi(n + 1) sen 2
1 − eix 1 − e−ix
−1 h i
i(n+1)x −i(n+1)x
= 2 e − 2 + e
x
8π(n + 1) sen 2
−1 h i2
i(n+1)x/2 −i(n+1)x/2
= 2 e − e
x
8π(n + 1) sen 2
 2
(n+1)
1 sen 2
x
=   .
x
2π(n + 1) sen 2
Isso estabeleceu o item 4 e, por conseguinte, o item 2. Para demonstrar o item 5, consideremos x ∈ [δ, π]
para algum 0 < δ < π. Por (27.34),
!2
1 1
|Fn (x)| ≤ . (27.36)
2π(n + 1) sen x2
2
d 1 cos( x2 )
Agora, no intervalo [δ, π] tem-se dx sen x = − 3 < 0 o que significa dizer que a função
(2) ( sen( x2 ))
do lado direito de (27.36) é decrescente e, portanto, assume seu valor máximo em x = δ, o inı́cio do
intervalo [δ, π]. Logo,
!2
1 1
|Fn (x)| ≤ . (27.37)
2π(n + 1) sen 2δ
Essa desigualdade vale também no intervalo [−π, −δ], pois Fn é par. A desigualdade (27.37) implica
que lim |Fn (x)| = 0 uniformemente em [−π, −δ] ∪ [δ, π].
n→∞
Estabelecemos que Fn é uma seqüência delta de Dirac 2π-periódica e, se f é uma função contı́nua
e 2π-periódica sabemos pelo Teorema 27.3, página 1406, que
Z π
Fn (f, x) := Fn (x − y) f (y) dy
−π
converge uniformemente a f em R. Claro está que

n Z n
1 X π 1 X
Fn (f, x) = Dm (x − y) f (y) dy = Sm (f, x) ,
n + 1 m=0 −π n + 1 m=0
mostrando que Fn (f, x) é a média de Cesàro das somas parciais de Fourier. A afirmação que toda
função contı́nua e 2π-periódica pode ser aproximada uniformemente pela média de Cesàro de sua suas
somas de Fourier parciais é conhecida como Teorema de Fejér, resultado provado por aquele autor no
ano de 1900. Naturalmente, isso diz que toda função contı́nua e 2π-periódica pode ser aproximada
uniformemente por um polinômio trigonométrico, fato que já estudamos sob a forma do Teorema 27.4,
página 1408. A distinção entre o Teorema de Fejér e aquele teorema é o tipo de núcleo de Dirac usado
em ambos os casos e o fato de o Teorema de Fejér trazer uma relação com as médias de Cesàro.
Capı́tulo 28
Noções de Estruturas Algébricas
Conteúdo
28.1 Álgebras Universais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1421
28.2 Ação de Uma Álgebra Universal sobre uma Outra Álgebra Universal (*) 1428
A o aprofundar seu estudo de Matemática o estudante freqüentemente depara com conceitos

como o de grupo, semi-grupo, álgebra, anel, corpo, módulo etc. Nosso objetivo nessa seção
é apresentar definições básicas de tais conceitos acompanhadas, quando possı́vel, de alguns
exemplos relevantes. Nossa intenção não é de forma alguma a de cobrir esses assuntos e seus
resultados mais importantes, mas apenas a de introduzir ao leitor, de maneira mais ou menos unificada,
noções dessas estruturas algébricas, de modo que o mesmo possa encontrar aqui referências rápidas às
mesmas quando delas necessitar. O estudante já familiar com alguns desses conceitos (os conceitos
de grupo e álgebra são populares entre estudantes de Fı́sica) encontrará nessa exposição uma visão
unificada dos mesmos, a unificação se dando em torno de conceitos como o de álgebra universal, que
introduziremos a seguir.
Esta seção deve ser compreendida como uma continuação do Capı́tulo 1 e dispensa a leitura das
demais, exceto daquela. O leitor pode achar ser esta seção uma longa seqüência contendo apenas
definições e exemplos, com poucos resultados, o que é correto. Seu objetivo, porém, é apresentar várias
idéias comuns a várias áreas de um ponto de vista unificado. Incluir resultados importantes sobre
assuntos como álgebras ou teoria de grupos levaria estas notas muito além de seu objetivo e tornaria
suas dimensões grandes demais. Uma certa familiaridade prévia com alguns dos conceitos discutidos
ajudará a tornar a leitura mais fácil, motivante e menos abstrata.
• Operações e Relações
Sejam C e I dois conjuntos e consideremos o produto Cartesiano C I (o conceito de produto Carte-

siano de conjuntos foi definido na seção 1). Uma função f : C I → C é por vezes dita ser uma operação
sobre C. Se I é um conjunto finito, f é dita ser uma operação finitária sobre C.
Um conjunto R ⊂ C I d́ito ser uma relação em C. Se I é um conjunto finito, R é dito ser uma
relação finitária em C.
• Funções Finitárias
Sejam C e I dois conjuntos e consideremos funções f : C I → C. Se I é um conjunto finito

f : C I → C é dita ser uma função finitária sobre C ou operação finitária sobre C. Sem perda de
generalidade consideraremos aqui funções finitárias do tipo f : C n → C para algum n ∈ N. Se f é uma
função finitária para um dado n, f é dita ser uma função n-ária sobre C. Um exemplo de uma função
não finitária seria uma função do tipo f : C N → C que a cada seqüência em C associa um elemento de
1420
C.
Funções 2-árias serão chamadas aqui de funções binárias e funções 1-árias são chamadas de funções
unárias.
Por vezes iremos falar também de funções 0-árias sobre C, que consistem em funções f : {∅} → C.
Uma tal função tem por imagem simplesmente um√elemento fixo de C. Exemplos de funções 0-árias
sobre R seriam f (∅) = 1 ou f (∅) = 0 ou f (∅) = 2. Freqüentemente denotamos tais funções pelo
elemento
√ de C por ela associado. Nos três exemplos acima, poderı́amos denotar as funções por 1, 0 ou
2, respectivamente.
• Relações Finitárias
Há uma nomenclatura análoga para o caso de relações. Sejam C e I dois conjuntos e consideremos
relações R ⊂ C I . Se I é um conjunto finito R é dita ser uma relação finitária sobre C. Sem perda
de generalidade consideraremos aqui relações finitárias do tipo R ⊂ C n para algum n ∈ N. Se R é
uma relação finitária para um dado n, R é dita ser uma relação n-ária sobre C. Para o caso n = 1 as
relações são também chamadas de unárias e para o caso n = 2 são ditas binárias. Relações binárias
foram estudadas à página 24.
• Estruturas
Seja C um conjunto, F uma coleção de operações (não necessariamente finitárias) sobre C e seja
R uma coleção de relações (não necessariamente finitárias) em C. A tripla hC, F, Ri é dita ser uma
estrutura sobre C. Note-se que tanto F quanto R podem ser vazias.
Dado que operações sobre um conjunto C também são relações sobre C, a definição de estru-
tura acima poderia ser simplificada. É porém conveniente mantê-la como está, pois opções são de
importância especial.
Uma estrutura hC, Fi é dita ser uma estrutura algébrica e uma estrutura hC, Ri é dita ser uma
estrutura relacional. Deste segundo tipo de estrutura não trataremos aqui. Aqui estudaremos apenas
um tipo especial de estrutura algébrica, as chamadas álgebras universais, das quais veremos vários
exemplos importantes à toda a Matemática e à Fı́sica.
28.1 Álgebras Universais

Uma Álgebra Universal é constituida por um conjunto C e uma coleção F de funções finitárias sobre
C. A coleção F não precisa ser finita. Freqüentemente denotaremos uma álgebra universal por hC, Fi.
O estudo sistemático das álgebras universais foi iniciado por Withehead1 e Birkhoff2 , tendo Boole,
Hamilton, DeMorgan e Sylvester como precursores. Vamos a alguns exemplos.
1. Seja C = R e F = {s, m}, onde s e m são duas funções binárias dadas por s : R2 → R,
s(x, y) = x + y e m : R2 → R, s(x, y) = x · y.
1
Alfred North Withehead (1861-1947).
2
George David Birkhoff (1884-1944).
2. Seja C = Mat(n) (o conjunto das matrizes complexas n × n para um certo n ∈ N) e F = {s, m},
onde s e m são duas funções binárias dadas por s : C 2 → C, s(A, B) = A + B e m : C 2 → C,
s(A, B) = A · B.
3. Seja C o conjunto de todas as matrizes complexas n × m (para n e m ∈ N) e seja F = {c, s, t}
onde c : C → C é a função unária dada por c(A) = A (a matriz complexo-conjugada de A),
s : C 2 → C é a função binária dada por s(A, B) = A + B e t : C 3 → C é a função 3-ária dada
por t(A, B, C) = AB T C, onde B T é a transposta da matriz B.
Vários outros exemplos serão vistos abaixo. Algumas álgebras universais com propriedades especiais
recebem denominações próprias e são chamadas de grupos, semi-grupos, anéis, corpos, álgebras etc.
Vamos introduzı́-las adiante.
• Tipos de Operações e de Relações
Ainda um comentário sobre a nomenclatura.

Sejam C e I conjuntos e seja α : C I → C uma operação sobre o conjunto C. A cardinalidade de I
é dita ser o tipo da operação α. Assim, uma função n-ária é também dita ser de tipo n. Analogamente,
se R ⊂ C I é uma relação em C a cardinalidade de I é dita ser o tipo da relação R.
• Comentário Sobre a Notação
Antes de prosseguirmos, façamos uma observação sobre a notação que é costumeiramente adotada,
especialmente quando se trata de funções binárias.
Dado um conjunto C e uma função binária denotada por um sı́mbolo φ, a imagem de um par
(a, b) ∈ C 2 é comummente denotada por φ(a, b). É muito prático, por vezes, usar uma outra notação
e denotar φ(a, b) por a φ b. Essa notação é denominada mesofixa. Um exemplo claro desse uso está
na função soma, denotada pelo sı́mbolo + : C2 → C de dois números complexos. Denotamos +(z, w)
por z + w. Outro exemplo está na função produto · : C2 → C de dois números complexos. Denotamos
·(z, w) por z · w.
Essa notação será usada adiante para outras funções binárias além das funções soma e produto de
números ou matrizes.
Funções unárias também têm por vezes uma notação especial, freqüentemente do tipo exponencial.
Tal é o caso da operação que associa a cada elemento de um grupo à sua inversa, g 7→ g −1, ou o
caso da operação que associa a cada conjunto o seu complementar A 7→ Ac . Ou ainda o caso da
transposição de matrizes M 7→ M T , da conjugação de números complexos z 7→ z ∗ para o que usa-se
também sabidamente a notação z 7→ z.
• Comutatividade e Associatividade
Uma função binária χ : C 2 → C é dita ser comutativa se para quaisquer a e b ∈ C valer

χ(a, b) = χ(b, a),
ou seja, na nova notação, se
aχb = bχa.
Funções binárias comutativas são freqüentemente chamadas de Abelianas3.

Uma função binária χ : C 2 → C é dita ser associativa se para quaisquer a, b e c ∈ C valer
χ(a, χ(b, c)) = χ(χ(a, b), c),
ou seja, na nova notação, se

aχ(bχc) = (aχb)χc.
Vamos agora apresentar em seqüência vários exemplos de álgebras universais de importância em

Matemática. Em todos eles as funções de F são 0-árias, unárias ou binárias.
• Reticulados
Um reticulado4 sobre um conjunto C é uma álgebra universal hC, Fi onde F é um conjunto de duas
funções binárias denotadas por ∧ e ∨ (lê-se “e” e “ou”, respectivamente), F = {∧, ∨}, as quais são
supostas satisfazer as seguintes relações, validas para todos a, b e c ∈ C (usaremos a nova notação):
1. Idempotência:
a ∧ a = a, a ∨ a = a.
2. Comutatividade:
a ∧ b = b ∧ a, a ∨ b = b ∨ a.
3. Associatividade:
a ∧ (b ∧ c) = (a ∧ b) ∧ c,
a ∨ (b ∨ c) = (a ∨ b) ∨ c.
4. Absorvência5 :
a ∧ (a ∨ b) = a,
a ∨ (a ∧ b) = a.
Vamos a exemplos.
1. Seja C = P(B), para algum conjunto B e sejam as funções ∧ e ∨ definidas para todos a, b ⊂ B,
por a ∧ b = a ∪ b, a ∨ b = a ∩ b.
E. 28.1 Exercı́cio. Mostre que isso é um reticulado no sentido da definição acima. 6
2. Seja C = R e sejam as funções ∧ e ∨ definidas para todos a, b ∈ R, por a ∧ b = max{a, b},

a ∨ b = min{a, b}.

3
4
Denominado “lattice” em inglês e “Verband” em alemão.
5
Também denominada “Amalgamento”.
3. Uma generalização do caso acima. Seja C um conjunto linearmente ordenado (a definição está à
página 32) e sejam as funções ∧ e ∨ definidas para todos a, b ∈ C, por



 a, se a ≥ b
a ∧ b := ,


 b, de outra forma



 a, se a ≤ b
a ∨ b := .


 b, de outra forma
• Reticulados Distributivos
Um reticulado é dito ser distributivo se também forem satisfeitas as propriedades
1.
a ∧ (b ∨ c) = (a ∧ b) ∨ (a ∧ c).
2.
a ∨ (b ∧ c) = (a ∨ b) ∧ (a ∨ c).
E. 28.4 Exercı́cio. Nos exemplos acima quais reticulados são distributivos? 6
• Álgebras Booleanas
Uma álgebra Booleana6 é uma álgebra universal formada por um conjunto B e por uma famı́lia
F de cinco funções finitárias: duas binárias, denotadas por ∧ e ∨, uma função unária, denotada por
C e denominada “negação” ou “complemento” e duas funções 0-árias, denotadas genericamente por 0
e 1 (denominadas, obviamente, “zero” e “um”), as quais representam elementos fixos distintos de B.
As funções acima são supostas satisfazer aos seguintes requisitos: 1) B, ∧ e ∨ formam um reticulado
distributivo. 2) Para todo a ∈ B vale que 0 ∨ a = a e que 1 ∧ a = a. 3) Para todo a ∈ B vale que
a ∨ C(a) = 1 e que a ∧ C(a) = 0.
Exemplo Básico. Seja A um conjunto e tomemos B = P(A). Para a, b ∈ P(A) definamos a∧b = a∪b,
a ∨ b = a ∩ b, C(a) = A \ a, 0 = ∅, 1 = A. Como exercı́cio mostre que o sistema assim definido é uma
álgebra Booleana.
• Semi-grupos
6
George Boole (1815-1864).
Um semi-grupo é uma álgebra universal formada simplesmente por um conjunto S e por uma
operação binária associativa denotada por “·” e denominada “produto” ou “multiplicação”.
Exemplos. R dotado da operação de multiplicação usual é um semi-grupo (mas não um grupo. Vide
abaixo.). O mesmo pode ser dito de Mat(n), o conjunto das matrizes complexas n × n com o produto
usual de matrizes.
Outro exemplo importante é o seguinte. Seja C um conjunto e tomemos S = C C , o conjunto de
todas as funções de C em C. Então S é um semi-grupo com o produto formado pela composição de
funções: “◦”.
• Monóides
Um monóide é um semi-grupo, formado por um conjunto C e uma função binária associativa

denotada por “·” (produto), com a propriedade de existir em C um elemento e, denominado elemento
neutro, o qual é suposto satisfazer as seguintes duas propriedades:
a·e=a e e · a = a, (28.1)
para todo a ∈ C.
Note-se que um monóide pode ser também entendido como sendo uma álgebra universal hC, Fi,
onde C é um conjunto e F = {·, e} é formado por uma função binária associativa “·” (produto) e uma
função 0-ária e (com e ∈ C) com a propriedade de elemento neutro (28.1) em relação ao produto “·”.
Exemplo. R dotado da operação de multiplicação usual é um monóide onde o elemento neutro é o
número 1.
Exemplo. C dotado da operação de soma usual é um monóide onde o elemento neutro é o número
0.
Exemplo. Seja C um conjunto e tomemos S = C C , o conjunto de todas as funções de C em C.
Então S é um semi-grupo com o produto formado pela composição de funções: ◦. S é também um
monóide, onde o elemento neutro é a função identidade id(s) = s, ∀s ∈ C.
Contra-exemplo. O conjunto R+ = {x ∈ R, x > 0} é um semi-grupo (Abeliano) em relação à
operação de soma, mas não é um monóide.
• Grupos
Esta é uma das estruturas matemáticas mais importantes e o alcance de suas aplicações dispensa
comentários.
Um grupo é uma álgebra universal hC, Fi, onde C é um conjunto e F = {·, I, e} é formada por
uma função binária associativa “·” denominada produto, por uma função 0-ária e (com e ∈ C) com a
propriedade de elemento neutro (28.1) em relação ao produto “·” e por uma função unária I (chamada
de inversão), com a propriedade que
a · I(a) = I(a) · a = e
para todo a ∈ C. Freqüentemente denotamos I(a) = a−1 , que é chamado de “inversa” ou “elemento
inverso” de a. O elemento e é freqüentemente denominado identidade do grupo.
Note-se que todo grupo é um semi-grupo e também um monóide.

Contra-exemplos. O conjunto C0 = {x ∈ R, x > 1} é um semi-grupo em relação ao produto
de multiplicação usual mas não é um monóide. O conjunto C1 = {x ∈ R, x ≥ 1} é um monóide
(e portanto um semi-grupo) em relação ao produto de multiplicação usual mas não é um grupo. O
conjunto C2 = {x ∈ R, x > 0} é um grupo em relação ao produto de multiplicação usual.
Contra-exemplos. O conjunto C = Mat(n, C) de todas as matrizes n × n, n ∈ N, é um monóide
em relação ao produto usual de matrizes, mas não é um grupo, dado que nem todas as matrizes são
invertı́veis. Já o conjunto de todas as matrizes unitárias n × n é um grupo em relação ao produto usual
de matrizes (por que?).
Vamos nos abster de apresentar mais exemplos de grupos, dado que os mesmos são bem conhecidos
e que nenhuma lista de exemplos lhes faria jus.
Um semi-grupo, um monóide ou um grupo são ditos ser Abelianos ou comutativos se sua operação
de produto for comutativa. Neste caso o produto é por vezes denotado pelo sı́mbolo “+”.
• Anéis
Um anel é uma álgebra universal constituı́da por um conjunto R (“Ring” em inglês e alemão) e
uma coleção F = {+, ·, 0} formada por duas funções binárias comutativas e associativas, + e · e por
uma função 0-ária 0 ∈ R com as seguintes propriedades:
1. A álgebra universal hR, {+, 0}i é um grupo comutativo.
2. A álgebra universal hR, {·}i é um semi-grupo.
3. Propriedade distributiva. Para quaisquer a, b, c ∈ R valem
a · (b + c) = (a · b) + (a · c) e (b + c) · a = (b · a) + (c · a).
E. 28.5 Exercı́cio importante. Mostre que em um anel sempre vale que a · 0 = 0 para todo a ∈ R. 6
Exemplos. R, C, Q, Z e Mat(n, C) são exemplos de anéis com relação às operações usuais de soma
e multiplicação.
Apresentaremos em seqüência uma série de definições após as quais discutiremos exemplos relevan-
tes.
• Anéis com Unidade
Um anel com unidade é um anel hR, {+, ·, 0}i com a propriedade de existir em R um elemento 1,
chamado de unidade, com 1 6= 0, tal que a · 1 = 1 · a = a para todo a ∈ R.
Outro modo de dizer isso é dizer que um anel com unidade é uma álgebra universal hR, {+, ·, 0, 1}i
onde hR, {+, ·, 0}i é um anel e 1 é uma operação 0-ária tal que a · 1 = 1 · a = a para todo a ∈ R.
• Anéis sem Divisores de Zero

Dado um anel hR, {+, ·, 0}i um elemento não-nulo a ∈ R é dito ser um divisor de zero se existir
pelo menos um b ∈ R com b 6= 0 tal que a · b = 0 ou b · a = 0.
Se em um anel tivermos que a · b = 0 implica que ou a = 0 ou b = 0 ou ambos, então esse anel é
dito ser um anel sem divisores de zero.
Exemplos. C e R são anéis sem divisores de zero (com os produtos e somas usuais), mas os anéis
Mat(n, C), n > 1, têm divisores de zero (com o produto e soma usual), pois tem-se, por exemplo,
    
 1 0  0 0   0 0 
  = .
    
0 0 0 1 0 0
• Anel de Integridade
Um anel comutativo, com unidade e sem divisores de zero é dito ser um anel de integridade ou
também um domı́nio de integridade.
Para a relação entre anéis de integridade e corpos, vide adiante.
• Anéis de Divisão
Um anel de divisão é constituı́do por um conjunto R e uma coleção F = {+, ·, I, 0, 1} formada

por duas funções binárias comutativas e associativas, + e ·, uma função unária I (inversão) e por duas
funções 0-ária 0, 1 ∈ R, com 0 6= 1 e com as seguintes propriedades:
1. A álgebra universal hR, {+, ·, 0}i é um anel.
2. Para todo a ∈ R vale a · 1 = 1 · a = a.
3. O domı́nio de I é R \ {0} e para todo a no domı́nio vale I(a) · a = a · I(a) = 1.
Freqüentemente denota-se I(a) por a−1 .

Pelo fato de a operação I de inversão não ser definida em todo R (temos que excluir o elemento 0)
um anel de divisão não é uma álgebra universal mas o que se chama de uma álgebra universal parcial.
Para uma classificação mais detalhada desses sistemas vide, por exemplo, [52].
E. 28.6 Exercı́cio importante. Mostre que um anel de divisão não pode possuir divisores de zero.
Portanto, todo anel de divisão comutativo é também um anel de integridade. 6
Exemplos. Com as definições usuais R, C e Q são anéis de divisão mas Z não o é (falta a inversa).
Mat(n, C) com n > 1 também não é um anel de divisão com as definições usuais pois nem toda a
matriz é invertı́vel.
• Corpos
Um anel de divisão hR, {+, ·, I, 0, 1}i cujo produto “·” é comutativo é denominado um corpo7 .
Exemplos.
• Corpos Não-comutativos
Como a única distinção entre as definições de corpos e de anéis de divisão é que para os primeiros a
comutatividade do produto é requerida, diz-se também por vezes que anéis de divisão não-comutativos
são corpos não-comutativos.
• Corpos e Anéis de Integridade
É bem claro pelas definições que todo corpo é também um anel de integridade. A reciproca é
parcialmente válida:
Teorema 28.1 Todo anel de integridade finito é um corpo. 2
Prova. Se A é um anel de integridade, tudo que precisamos é mostrar que todo elemento não-nulo
de A é invertı́vel. Seja a um elemento de A \ {0}. Definamos a aplicação α : A \ {0} → A dada por
α(y) = ay.
Note que, como A é um anel de integridade o lado direito é não nulo pois nem a nem y o são. Assim,
α é em verdade uma aplicação de A \ {0} em A \ {0} e, como tal, é injetora, pois se ay = az, segue
que a(y − z) = 0, o que só é possı́vel se y = z, pois A é um anel de integridade e a 6= 0. Agora,
uma aplicação injetora de um conjunto finito em si mesmo tem necessariamente que ser sobrejetora
(por que?). Assim, α é uma bijeção de A \ {0} sobre si mesmo. Como 1 ∈ A \ {0}, segue que existe
y ∈ A \ {0} tal que ay = 1, ou seja, a tem uma inversa. Como a é um elemento arbitrário de A \ {0},
segue que todo elemento de A \ {0} tem inversa e, portanto, A é um corpo.
Anéis de integridade infinitos não são necessariamente corpos:
Anti-exemplo. Um exemplo de um anel de integridade que não é um corpo é o conjunto de todos
os polinômios de C em C com o produto e soma usuais. Em verdade, os únicos polinômios que tem
inverso multiplicativo são os polinômios constantes não nulos.
28.2 Ação de Uma Álgebra Universal sobre uma Outra Álgebra

Universal (*)
Algumas estruturas freqüentemente encontradas, como espaços vetoriais, álgebras e módulos, não se
enquadram no conceito de álgebras universais mas podem ser encarados como constituı́dos por pares
de álgebras universais dotadas de uma ação de uma das álgebras universais sobre a outra. A noção
abstrata de ação de uma álgebra universal sobre uma outra álgebra universal será vista mais adiante.
Inicialmente trataremos de definir os conceitos de espaços vetoriais, álgebras e módulos
7
Em inglês a palavra empregada é field. A expressão em português provavelmente provem do francês corp ou do
alemão Körper.
• Espaços Vetoriais
Assim como o conceito de grupo, o conceito de espaço vetorial é também um dos mais importantes
da Matemática e suas aplicações também dispensam comentários. O conceito de espaços vetorial não
se enquadra plenamente no de álgebra universal e envolve como ingredientes, um grupo Abeliano A e
um corpo K, conectados por um ação de K em A (definida abaixo).
Um espaço vetorial é formado por um grupo Abeliano A e por um corpo K e por uma aplicação
K × A → A, que denotamos simbolicamente por “·”,
K × A → A ∋ (α, v) 7→ α · v ∈ A,
1. Associatividade
α · (β · v) = (αβ) · v,
para todos α, β ∈ K, v ∈ A.
2. 1 · v = v para todo v ∈ A.
3. Distributividade em relação à soma no corpo: (α + β) · v = (α · v) + (β · v), para todos α, β ∈ K,
v ∈ A.
4. Distributividade em relação à soma no grupo Abeliano: α · (v + w) = (α · v) + (α · w), para todos
α ∈ K, v, w ∈ A.
Acima, no item 1, αβ representa o produto de α e β em K etc.

O produto “·”: K × A → A com as propriedades acima é um exemplo do que se chama de uma
ação de um corpo sobre um grupo Abeliano. O conceito mais geral de ação de uma álgebra universal
sobre uma outra será visto à página 1431.
Quando necessário denotaremos um espaço vetorial como uma tripla hA, K, ·i.
E. 28.7 Exercı́cio. Mostre que das definições acima segue que, num espaço vetorial hA, K, ·i, sempre
vale que 0 · v = 0 para todo v ∈ A. 6
Dado um espaço vetorial A formado por um anel A sobre o qual age um corpo K como definido
acima (usaremos também a notação hA, Ki), denotaremos aqui o produto α · v, α ∈ K, v ∈ A
simplesmente por α v.
• Álgebras
A definição de álgebra segue passos análogos aos da definição de espaço vetorial.

Uma álgebra é formada por um anel A e por um corpo K e por uma aplicação de K sobre A,
K × A → A, que denotamos simbolicamente por “·”,
K × A → A ∋ (α, v) 7→ α · v ∈ A
1. Considerando apenas a estrutura de A como grupo Abeliano, o par hK, Ai é um espaço vetorial.
2. Para todos α ∈ K e todos a, b ∈ A vale que
α · (a · b) = (α · a) · b = a · (α · b). (28.2)
O leitor pode convencer-se que uma álgebra pode ser também caracterizada como um espaço vetorial
V = hA, Ki (K corpo, A grupo Abeliano) dotado de um produto · : A × A → A de forma que
1. Com o produto “·” o conjunto A tem uma estrutura de anel.
2. A propriedade (28.2) acima é válida.
Daqui por diante denotaremos o produto α · v, α ∈ K, v ∈ A simplesmente por α v.
• Álgebras Associativas e Não-Associativas
Se numa álgebra o produto “·” definido entre os vetores do espaço vetorial for associativo a álgebra
é dita ser uma álgebra associativa, de outra forma ela é dita ser uma álgebra não-associativa.
O estudante não deve pensar que álgebras não-associativas são raras e desinteressantes. Em ver-
dade uma das primeiras álgebras com a qual estudantes de Fı́sica ou Matemática se deparam é não-
associativa, a saber, a álgebra do produto vetorial em R3 (denotado por ~a × ~b ou por ~a ∧ ~b).
E. 28.8 Exercı́cio. Mostre que para os vetores de base canônicos ~i, ~j e ~k tem-se (~i ×~i) × ~j = ~0 × ~j = ~0
mas ~i × (~i × ~j) = ~i × ~k = −~j 6= ~0. 6
• Álgebras de Lie
Aqui novamente estamos diante de um assunto vastı́ssimo e vamos limitar-nos às definições.
Uma álgebra de Lie é uma álgebras A cujo produto é não-comutativo e não-associativo mas para o
qual, porém, as seguintes propriedades são válidas:
a · b = −b · a (28.3)
para todos a e b ∈ A e
a · (b · c) + b · (c · a) + c · (a · b) = 0, (28.4)
para todos a, b e c ∈ A.
A propriedade (28.3) é denominada anti-comutatividade e a propriedade (28.4) é denominada iden-
tidade de Jacobi.
Para se compreender a importância da identidade de Jacobi na estrutura das álgebras de Lie,
notemos que, para um produto anti-comutativo (i.e. a · b = −b · a) a condição de associatividade
a · (b · c) = (a · b) · c fica
a · (b · c) + c · (a · b) = 0.
Compare-se esta relação com (28.4).
Por razões históricas o produto de dois elementos de um álgebra de Lie é mais freqüentemente
denotado pelo sı́mbolo [a, b] ao invés de a · b.
• Morfismos entre Álgebras Universais
Sejam hA, Ai e hB, Bi duas álgebras universais. Uma função ∆ : A → B é dita preservar o tipo
das operações de A se para todo α ∈ A a operação ∆(α) ∈ B tiver o mesmo tipo que a operação α.
Assim, uma aplicação que preserva o tipo leva aplicações unárias em unárias, aplicações binárias
em binárias etc.
Um morfismo da álgebra universal hA, Ai na álgebra universal hB, Bi é um par de aplicações
hD, ∆i com D : A → B e ∆ : A → B, onde ∆ é uma aplicação que preserva o tipo e de tal forma que
para todo α ∈ A tenhamos
D ◦ α = ∆(α) ◦ D
como aplicações An → B, onde n é o tipo de α.
Isso significa que para todo α ∈ A temos
D(α(a1 , . . . , an )) = ∆(α)(D(a1 ), . . . , D(an ))
para toda (a1 , . . . , an ) ∈ An , n sendo o tipo de α.
Exemplo. Sejam as álgebras universais hR+ , {·, 1}i e hR, {+, 0}i com as definições usuais e seja
o par h ln, Li, onde ln : R+ → R é o logaritmo neperiano e L : {·, 1} → {+, 0} dado por L(·) = +,
L(1) = 0. Então h ln, Li é um morfismo de hR+ , {·, 1}i em hR, {+, 0}i, dado que para todo
a, b ∈ R+ vale
ln(a · b) = ln(a) + ln(b).
• Ações de uma Álgebra Universal sobre uma outra Álgebra Universal
Por razões de completeza apresentaremos aqui a noção geral de ação de uma álgebra universal sobre
uma outra. A leitura desta seção pode ser omitida pois não afetará o que segue.
Vamos começar com algumas definições. Sejam A e B dois conjuntos e seja uma função G : A×B →
B.
Para todo n, m ∈ N definamos
G(n, 1) : An × B → B n tal que (a1 , . . . , an , b) 7→ (G(a1 , b), . . . , G(an , b))
com ai ∈ A, b ∈ B.
Para todo m, m ∈ N definamos
G(1, m) : A × B m → B m tal que (a, b1 , . . . , bm ) 7→ (G(a, b1 ), . . . , G(a, bm ))
com a ∈ A, bi ∈ B.
Para um conjunto C qualquer idC : C → C denota a identidade em C: idC (c) = c, ∀c ∈ C.
Fora isso, se γ : C → C é uma aplicação, denotaremos por γ (n) : An → An a aplicação tal que
γ (n) (c1 , . . . , cn ) = (γ(c1 ), . . . , γ(cn )).
Finalmente, para duas aplicações α : An → A e β : B m → B o par (α, β) denota a aplicação

A × B m → A × B dada por (α, β)(a1 , . . . , an , b1 , . . . , bm ) = (α(a1 , . . . , an ), β(b1 , . . . , bm ))).
n
Com isso podemos formular a definição desejada de ação de uma álgebra universal sobre uma outra.
Sejam hA, Ai e hB, Bi duas álgebras universais. Uma ação de hA, Ai sobre hB, Bi é um par
hG, Γi onde
G :A×B → B e Γ:A→B
são aplicações tais que Γ preserva tipos e as seguintes condições são válidas: Para quaisquer α ∈ A e
β ∈ B (cujos tipos serão n e m, respectivamente) tem-se que
G ◦ (α, β) = Γ(α) ◦ G(n, 1) ◦ (idAn , β) = β ◦ G(1, m) ◦ (α, idBm ) (28.5)
como aplicações An × B m → B.
De (28.5) segue que
G ◦ (α, idB ) = Γ(α) ◦ G(n, 1) ◦ (idAn , idB ) (28.6)
e
G ◦ (idA , β) = β ◦ G(1, m) ◦ (idA , idBm ). (28.7)
De (28.6) e (28.7) segue que

(n)
G(n, 1) ◦ (idAn , β) = β ◦ G(1, m) ◦j (28.8)
e (m)
G(1, m) ◦ (α, idBm ) = Γ(α) ◦ G(n, 1) ◦ k, (28.9)
onde j : An × B m → (A × B m )n é dada por
j(a1 , . . . , an , b1 , . . . , bm ) := (a1 , b1 , . . . , bm , a2 , b1 , . . . , bm , . . . , an , b1 , . . . , bm )
e k : An × B m → (An × B)m é dada por
k(a1 , . . . , an , b1 , . . . , bm ) := (a1 , . . . , an , b1 , a1 , . . . , an , b2 , . . . , a1 , . . . , an , bm ).
Das relações (28.8) e (28.9) segue que a condição (28.5) pode ser escrita como
(n) (m)
G ◦ (α, β) = Γ(α) ◦ β ◦ G(1, m) ◦ j = β ◦ Γ(α) ◦ G(n, 1) ◦ k. (28.10)
Observação. Acima estamos considerando idA , idB , como elementos de A, respectivamente de B, o

que sempre pode ser feito sem perda de generalidade.
Capı́tulo 29
O Limite Indutivo de Álgebras
V amos neste capı́tulo apresentar uma construção do chamado limite indutivo de certas famı́lias
de álgebras, em particular de álgebras de Banach. Tal construção é freqüentemente empre-
gada, por exemplo na teoria das álgebras C∗ onde é usada na construção de uma classe
importante de álgebras C∗ , as chamadas álgebras AF.
No caminho que seguiremos indicaremos primeiro como construir o chamado limite indutivo algébrico,
construção essa que pode ser efetuada não só em famı́lias de álgebras, mas também em famı́lias de gru-
pos, de anéis, de semi-grupos, de espaços vetoriais etc. A seguir trataremos do caso de espaços de
famı́lias de espaços de Banach e construiremos o chamado limite indutivo de Banach de (A, φ).
• O “Limite Indutivo Algébrico” de uma Famı́lia de Álgebras
Um conjunto I é dito ser um conjunto dirigido (“directed set”) se for dotado de uma relação de
ordem parcial, que denotaremos por “”, e se for dotado da seguinte propriedade: para quaisquer dois
elementos a e b de I existe pelo menos um terceiro elemento c ∈ I tal que a c e b c.
Seja I um conjunto dirigido que trataremos aqui como um conjunto de ı́ndices. Vamos estar aqui
supondo que associada a cada i ∈ I haja uma álgebra Ai e que, para cada par i, j ∈ I com i j haja
um morfismo de álgebra φij : Ai → Aj satisfazendo os seguintes requisitos:
1. Para todo i, j, k ∈ I com i j k, φik = φjk ◦ φij
2. Para todo i ∈ I, φii = idAi .
A propriedade 1) acima é chamada de “coerência”.

No que segue estaremos supondo que todas as álgebras Ai são álgebras em relação ao mesmo corpo
(por exemplo, C).
Uma coleção de álgebras e morfismos de álgebra com as propriedades acima é dito ser um sistema
indutivo de álgebras e denotaremos um tal sistema por (A, φ).
A tı́tulo de ilustração o leitor pode ter em mente o caso em que I = N e onde cada álgebra Ai é
uma sub-álgebra de Ai+1 , φi, i+1 sendo a inclusão de Ai em Ai+1 e φij := φi, i+1 ◦ φi+1, i+2 ◦ . . . ◦ φj−1, j ,
para todos i, j ∈ N com i < j.
G
Seja A = Ai a união disjunta das álgebras Ai . Lembramos que a união disjunta de uma famı́lia
i∈I [ [
Xi , i ∈ Λ, de conjuntos foi definida (página 28) como (x, i). Com o propósito de definir o
i∈Λ x∈Xi
conceito de limite indutivo associado ao sistema indutivo (A, φ) vamos definir em A uma relação de
equivalência. Sejam x ∈ Ai e y ∈ Aj . Dizemos que x ∼ y se existir pelo menos um k ∈ I com1
1
Lembramos que os sı́mbolos ∧ e ∨ representam os conectivos lógicos “e” e “ou”, respectivamente.
1433
(k i) ∧ (k j) tal que
φik (x) = φjk (y).
Vamos mostrar em primeiro lugar que tal realmente define uma relação de equivalência.
1. x ∼ x, x ∈ Ai . Para tal tome-se k = i.

2. Se x ∼ y então y ∼ x. Óbvio, pela definição.
3. Se x ∼ y e y ∼ z então x ∼ z. Sejam x ∈ Ai , y ∈ Aj e z ∈ Ak . Então existem k ′ e k ′′ tais que
(k ′ i) ∧ (k ′ j), (k ′′ j) ∧ (k ′′ k) com
φik′ (x) = φjk′ (y)
e
φjk′′ (y) = φkk′′ (z).
Seja então k ′′′ ∈ I com (k ′′′ k ′ ) ∧ (k ′′′ k ′′ ). Teremos
φik′′′ (x) = φk′ k′′′ ◦φik′ (x) = φk′k′′′ ◦φjk′ (y) = φjk′′′ (y) = φk′′ k′′′ ◦φjk′′ (y) = φk′′k′′′ ◦φkk′′ (z) = φkk′′′ (z).
Assim, φik′′′ (x) = φkk′′′ (z) com (k ′′′ i) ∧ (k ′′′ k), provando que x ∼ z.
Isto posto, denotaremos por Aφ a coleção das classes de equivalência de A pela relação ∼: Aφ :=
A/ ∼. Notemos que Aφ depende da coleção {Ai , i ∈ I} e dos morfismos φij usados.
Antes de prosseguirmos provemos o seguinte pequeno resultado, do qual faremos uso:
Lema 29.1 Para todo i ∈ I, todo a ∈ Ai e todos k, k ′ ∈ I com k i, k ′ i, tem-se que φik (a) ∼
φik′ (a). 2
Prova. Seja x ≡ φik (a) ∈ Ak , y ≡ φik′ (a) ∈ Ak′ e seja k ′′ ∈ I com (k ′′ k) ∧ (k ′′ k ′ ). Temos que
φkk′′ (x) = φkk′′ ◦ φik (a) = φik′′ (a)
e
φk′k′′ (y) = φk′k′′ ◦ φik′ (a) = φik′′ (a).
Logo, φkk′′ (x) = φk′ k′′ (y), provando que x ∼ y.
Este lema diz que, para todo i ∈ I, todo a ∈ Ai e todos k, k ′ ∈ I com k i, k ′ i, tem-se que
[φik (a)] = [φik′ (a)],
o que também diz que i ∈ I, todo a ∈ Ai e todo k ∈ I com k i temos
[a] = [φik (a)].
Podemos atribuir a Aφ uma estrutura de álgebra. Em primeiro lugar, se [x] é a classe de equivalência
associada a um elemento x, definimos α[x] := [αx]. Aqui α é um elemento qualquer do corpo de escalares
das álgebras.
É preciso demonstrar a independência dessa definição dos representantes tomados na classe, mas
isso é fácil de se verificar, pois se x′ ∼ x com x′ ∈ Aj e x ∈ Ai , existe k ∈ I com (k i) ∧ (k j) com
φik (x) = φjk (x′ ). Logo, φik (αx) = φjk (αx′ ), provando que (αx′ ) ∼ (αx), ou seja, que [αx′ ] = [αx].
Sejam x ∈ Ai , y ∈ Aj e (k i) ∧ (k j). Definimos
[x] + [y] := [φik (x) + φjk (y)].
É preciso demonstrar a independência dessa definição dos representantes tomados, assim como do k
adotado.
A independência de k é imediata, pois se (k ′ i) ∧ (k ′ j) então tomemos k ′′ ∈ I tal que
(k ′′ k) ∧ (k ′′ k ′ ). Denotando z1 = φik (x) + φjk (y) e z2 = φik′ (x) + φjk′ (y) teremos
φkk′′ (z1 ) = φik′′ (x) + φjk′′ (y) = φk′ k′′ (φik′ (x) + φjk′ (y)) = φk′ k′′ (z2 ),
mostrando que z1 ∼ z2 e que [φik (x) + φjk (y)] = [φik′ (x) + φjk′ (y)].
Vamos agora provar a independência da definição de [x] + [y] do representante tomado em [x]. A
independência em relação ao representante em [y] é análoga. Seja x′ ∈ Ai′ com x′ ∼ x e seja k ′ ∈ I
com (k ′ i) ∧ (k ′ i′ ) ∧ (k ′ j) e tal que φik′ (x) = φi′ k′ (x′ ). Temos que
φi′ k′ (x′ ) + φjk′ (y) = φik′ (x) + φjk′ (y).
Logo
[φi′ k′ (x′ ) + φjk′ (y)] = [φik′ (x) + φjk′ (y)] = [φik (x) + φjk (y)],
pela independência em k, provando o que se desejava.
Notemos também que para todo y,
[0] + [y] = [φik (0) + φjk (y)] = [φjk (y)] = [y],
mostrando que [0] é o elemento neutro da adição definida acima e que
[x] + (−1)[x] = [x] + [−x] = [φik (x) + φik (−x)] = [φik (x) − φik (x)] = [0].
As operações de multiplicação por escalar e de soma em que foram definidas acima dão a Aφ uma
estrutura de espaço vetorial. Vamos agora definir um produto em Aφ . Definimos
[x][y] := [φik (x)φjk (y)],
onde, novamente x ∈ Ai , y ∈ Aj e k é tal que (k i) ∧ (k j).

É preciso demonstrar a independência dessa definição dos representantes tomados, assim como do k
adotado. Para vermos a independência em relação ao k adotado, seja (k ′ i) ∧ (k ′ j) então tomemos
k ′′ ∈ I tal que (k ′′ k) ∧ (k ′′ k ′ ). Denotando z1 ≡ φik (x)φjk (y) e z2 ≡ φik′ (x)φjk′ (y) teremos, usando
o fato que os φ’s são morfismos de álgebra,
φkk′′ (z1 ) = φik′′ (x)φjk′′ (y) = φk′ k′′ (φik′ (x)φjk′ (y)) = φk′ k′′ (z2 ),
mostrando que z1 ∼ z2 e que [φik (x)φjk (y)] = [φik′ (x)φjk′ (y)].

Vamos agora provar a independência da definição de [x][y] do representante tomado em [x]. A

independência em relação ao representante em [y] é análoga. Seja x′ ∈ Ai′ com x′ ∼ x e seja k ′ ∈ I
com (k ′ i) ∧ (k ′ i′ ) ∧ (k ′ j) e tal que φik′ (x) = φi′ k′ (x′ ). Temos que
φi′ k′ (x′ )φjk′ (y) = φik′ (x)φjk′ (y).
Logo
[φi′ k′ (x′ )φjk′ (y)] = [φik′ (x)φjk′ (y)] = [φik (x)φjk (y)],
pela independência em k.
Notemos também, por fim, que para todo y,
[0][y] = [φik (0)φjk (y)] = [0φjk (y)] = [0].
O conjunto Aφ , dotado da estrutura algébrica definida acima, é chamado de limite indutivo algébrico
do sistema indutivo (A, φ).
• Alguns Exemplos
Vamos ilustrar a construção acima com exemplos. Seja I = N com a ordem usual e An = Mat(n, C),
a álgebra das matrizes complexas n × n.
Há três possı́veis morfismos de álgebra de Mat(2) em Mat(3), como indicado abaixo:
 
 
 0 0 0 
 
1 
 a b   
φ2, 3    :=  
  0 a b .
c d  
 
0 c d
 
 
 a 0 b 
a b  
2 
   
φ2, 3   :=  0 0 0 
  ,
c d  
 
c 0 d
 
 
 a b 0 
a b   
  
φ32, 3 

 :=  c d
  0 
,
c d  
 
0 0 0
E. 29.1 Exercı́cio. Mostre que os três φ’s definidos acima são homomorfismos de A2 em A3 e que são
os únicos homomorfismos desse tipo. 6
Há entre An e An+1 exatamente n + 1 homomorfismos. O exemplo acima ilustra como os mesmos
são obtidos: para uma matriz n × n a, φin, n+1 (a) é uma matriz (n + 1) × (n + 1) obtida inserindo-se
em a uma coluna na i-ésima posição e uma linha na i-ésima posição, ambas apenas com zeros:
 
 a1, 1 ... a1, i−1 0 a1, i ... a1, n 
 
 .. .. .. .. .. .. .. 
 . . . . . . . 
 
   
 
 a ai−1, n 
 a1, 1 . . . a1, n   i−1, 1 . . . ai−1, i−1 0 ai−1, i . . . 
   
 . ..   
φn, n+1  ..  :=  0 0 
i
 .. . .   ... 0 0 0 ... .
   
   
an, 1 . . . an, n  a ... ai, i−1 0 ai, i ... ai, n 
 i, 1 
 
 .. .. .. .. .. 
 .. .. 
 . . . . . . . 
 
 
an, 1 ... an, i−1 0 an, i ... an, n
Uma possı́vel coleção de morfismos coerentes é dada da seguinte forma. Seja a coleção {ia , a ∈ N}
onde, para a, o ı́ndice ia assume valores em {1, . . . , a + 1}. Sejam An e Am , com n < m, e
i
in ,...,im−1
φn, m := φin,n n+1 ◦ . . . ◦ φm−1,
m−1
m.
Note-se porém que morfismos com ı́ndices {in , . . . , im } distintos podem ainda assim ser idênticos. O
que distingue os morfismos entre si é a localização das linhas e colunas nulas.
Cada coleção I = {ia , a ∈ N} caracteriza (não univocamente) um limite indutivo algébrico AI.
E. 29.2 Exercı́cio. Suponha que adotemos um sistema indutivo onde I = N com a ordem usual,
n+1,...,m
An = Mat(n, C) e onde os morfismos são dados por φn, m , ou seja, com cada ia assumindo o valor
máximo possı́vel (última linha e coluna de zeros introduzida em cada etapa). Mostre que matrizes como
 
 
 a b 0 
a b  
   
  e  c d 0 
   
c d  
 
0 0 0
são equivalentes e que matrizes como

 
 
 0 0 0 
a b  
   
  e  0 a b ,
   
c d  
 
0 c d
não são equivalentes. 6
Vamos considerar outro exemplo. Seja s ∈ N fixo, s 6= 0, e I = {2n s, n ∈ N} com a ordem usual.
Seja An = Mat(2n s, C) e seja φn m definida da seguinte forma: para todo a ∈ Mat(2n s, C),
|⊕a⊕
φn m (a) := a {z. . . ⊕ a},
2m−n vezes
onde, para uma matriz N × N, a,  

 a 0N 
a⊕a = 

,

0N a
onde 0N é a matriz nula N × N e

 
 a 0N 0N 
 
 
a⊕a⊕a = 
 0N a 0N
,

 
 
0N 0N a
etc. Mais genericamente, para q ∈ N, q ≥ 2 e s ∈ N, s 6= 0, podemos tomar I = {q n s, n ∈ N} com a

ordem usual, An = Mat(q n s, C) e φn m definida da seguinte forma: para todo a ∈ Mat(q n s, C),
| ⊕a⊕
φn m (a) := a {z. . . ⊕ a} .
q m−n vezes
O limite indutivo algébrico assim obtido será caracterizado por q e s: A(q, s).
Vamos agora a mais um exemplo que, num caso especial, engloba o anterior. Seja {qi ∈ N, qi ≥
2, i ∈ N} uma seqüência de números naturais positivos maiores ou iguais a 2 e s ∈ N, s 6= 0. Seja
Q0 = s e Qn := sq1 · · · qn , n ≥ 1. Tomemos I = {Qn , n ∈ N} com a ordem usual, e An = Mat(Qn , C)
e φn m definida da seguinte forma. Sejam Tn ∈ Mat(qn , C), n ∈ N, n ≥ 1, matrizes idempotentes (ou
seja, que satisfazem Tn2 = Tn ) não nulas e definamos para todo a ∈ Mat(Qn , C)
φn, n+1 (a) = a ⊗ Tn+1 .
E. 29.3 Exercı́cio. Verifique que isso define um morfismo de álgebra entre Mat(Qn , C) e Mat(Qn+1 , C).
Por que razão a condição de idempotência Tn2 = Tn é importante? 6
Seja então para todo m > n
φn, m := φn, n+1 ◦ · · · ◦ φm−1, m .
Pela definição é claro que os φ’s assim definidos formam uma coleção coerente de morfismos. O limite
indutivo algébrico assim obtido será aqui denotado por A({q}, s, {T }).
E. 29.4 Exercı́cio. Verifique que o exemplo anterior, A(q, s), corresponde a tomar-se qn = 2 e Tn = 1q ,
n ∈ N. 6
Os exemplos acima serão discutidos com mais detalhe quando tratarmos das álgebras AF. Passemos
agora à seguinte discussão. Se as álgebras Ai , i ∈ I forem todas álgebras de Banach estamos muitas
vezes interessados em construir um limite indutivo que seja também uma álgebra de Banach. É preciso
para tal introduzir uma norma conveniente em A a partir das normas das álgebras Ai e construir seu
completamento. Há para tal uma série de problemas dos quais passaremos a tratar.
• O “Limite Indutivo de Banach” de uma Famı́lia de Álgebras de Banach
Vamos considerar agora a situação na qual as álgebras Ai são álgebras de Banach com norma k · ki .
O sistema (A, φ) é dito ser um sistema indutivo normado se todos os φi j forem contı́nuos (ou seja,
limitados) e se tivermos
lim sup kφi j kj < ∞.
j
Pelo teorema de Banach-Steinhaus (A, φ) é um sistema indutivo normado se e somente se tivermos

lim sup kφi j (x)kj < ∞. (29.1)
j
para todo i e para todo x ∈ Ai .

Podemos fazer de A uma álgebra semi-normada definindo
|||[x]||| := lim sup kφij (x)kj ,
ji
onde x ∈ Ai é um representante de [x].

Precisamos mostrar que a definição acima independe do representante tomado na classe. Para tal
usaremos a propriedade que denominamos “Invariância por Redução Inicial do Domı́nio” à página 1107.
Sejam x ∈ Ai e x′ ∈ Ai′ com x ∼ x′ e k ∈ I tal que (k i) ∧ (k i′ ) e
φik (x) = φi′ k (x′ ).
Definindo para n ∈ I
In := {m ∈ I| m n},
tem-se que
k|[x]k| = lim sup kφij (x)kj
j∈Ii
e
k|[x′ ]k| = lim sup kφi′ j (x)kj .
j∈Ii′
Nota: é um exercı́cio simples mostrar que In são também conjuntos dirigidos. A definição de lim sup
pode ser encontrada na Seção 22.4, à página 1106.
Dado o conjunto Ii escrevamos Ii = I0 ∪ J onde J := Ik e I0 := Ii \ J. Vamos mostrar que os
conjuntos I0 e J satisfazem as condições requeridas para a propriedade que denominamos “invariância
por redução inicial do domı́nio” à página 1107:
1. Para todo i0 ∈ I0 existe pelo menos um j ∈ J tal que i0 j.

2. J é um conjunto dirigido pela mesma relação de ordem .
3. Para todo j ∈ J vale que se l j então l ∈ J.
A propriedade 2 já foi observada acima. Se j ∈ Ik e l j então l k e portanto l ∈ Ik ≡ J,

provando 3. Para provar 1 notemos que se i0 ∈ Ii então, como Ii é um conjunto dirigido deve existir
j ∈ Ii tal que (j i0 ) ∧ (j k). A condição j k diz que j ∈ Ik ≡ J, provando 1.
Pela propriedade de invariância por redução inicial do domı́nio tem-se então que
k|[x]k| = lim sup kφij (x)kj = lim sup kφij (x)kj .

j∈Ii j∈Ik
Mutatis mutantis temos também que
k|[x′ ]k| = lim sup kφi′ j (x′ )kj = lim sup kφi′ j (x′ )kj .
j∈Ii′ j∈Ik
Porém, para j ∈ Ik
φij (x) = φkj ◦ φik (x) = φkj ◦ φi′ k (x′ ) = φi′ k (x′ ),
provando finalmente que
k|[x]k| = k|[x′ ]k|.
Uma vez estabelecido que k|[x]k| independe do representante tomado na classe [x] vamos agora
provar que |||[x]||| é de fato uma semi-norma.
Proposição 29.1 Para todas as classes [x] e [y] valem:
1. |||α[x]||| = |α| |||[x]|||;

2. |||[x] + [y]||| ≤ |||[x]||| + |||[y]|||;
3. |||[x][y]||| ≤ |||[x]||| · |||[y]|||.
Prova. A prova de 1 é elementar. Para provar 2 notemos o seguinte. Sejam x e y representantes

de [x] e [y], respectivamente, em Ai e Aj , respectivamente. Então, existe k com (k i) ∧ (k j) de
forma que
|||[x] + [y]||| = |||[φik (x) + φjk (y)]|||
= lim sup kφk j ′′ (φik (x) + φjk (y))k

j ′′ k
≤ lim sup kφi j ′′ (x)k + lim sup kφj j ′′ (y)k

j ′′ k j ′′ k
≤ lim sup kφi j ′′ (x)k + lim sup kφj j ′′ (y)k

j ′′ i j ′′ j
= |||[x]||| + |||[y]|||.
A prova de 3 é análoga. Sejam x, y, i, j como acima. Então existe k tal que
|||[x][y]||| = |||[φik (x)φjk (y)]|||
= lim sup kφk j ′′ (φik (x)φjk (y))k

j ′′ k
≤ lim sup kφi j ′′ (x)k kφj j ′′ (y)k

j ′′ k

≤ lim sup kφi j ′′ (x)k lim sup kφj j ′′ (y)k
j ′′ i j ′′ j
= |||[x]||| · |||[y]|||.
O limite indutivo normado de (A, φ) é então definido tomando-se o cociente de A com os vetores
em A com semi-norma ||| · ||| igual a zero. Nesse novo espaço ||| · k|| induz uma norma que também
denotaremos por ||| · |||.
O limite indutivo de Banach, ou simplesmente limite indutivo é definido tomando-se o completa-
mento do limite indutivo normado de (A, φ) na métrica definida pela norma ||| · |||. É evidente pela
construção que a álgebra assim obtida, que denotaremos por A∞ , é uma álgebra de Banach.
Seja Ai , i ∈ I, uma famı́lia de álgebras C∗ . Uma álgebra C∗ A é dita ser um limite indutivo das
álgebras Ai se existirem morfismos de álgebra C∗ fi : Ai → A para todo i ∈ I tais que ∪i∈I Ai seja
denso em norma em A.
Vamos no próximo item mostrar uma situação geral na qual o limite indutivo de uma famı́lia de
álgebras pode ser construı́do.
• O Limite Indutivo de Álgebras C ∗
Vamos considerar agora o caso em que as álgebras Ai sejam todas álgebras C∗ e que os morfismos φij
sejam *-morfismos, ou seja, tais que para todo i, j ∈ Λ, i j, e todo a ∈ Ai tenhamos φij (a∗ ) = φij (a)∗ .
Naturalmente que
kφij (a∗ a)kj = kφij (a∗ )φij (a)kj = kφij (a)∗ φij (a)kj = kφij (a)k2j
pela propriedade C∗ das álgebras Aj .

Em um tal caso diremos que o sistema indutivo (A, φ) é um sistema indutivo C∗ .
Definimos no limite indutivo algébrico das álgebras Ai a operação ∗ por [x]∗ = [x∗ ]. Vamos mostrar
que essa definição não depende do representante tomado na classe [x]. Seja para tal y ∈ [x] com x ∈ Ai
e y ∈ Aj e seja k ∈ Λ tal que (k i) ∧ (k j) e φik (x) = φjk (y). Segue que φik (x∗ ) = φik (x)∗ =
φjk (y)∗ = φjk (y ∗). Isso mostra que x∗ e y ∗ são equivalentes, que é o que se queria provar.
Desejamos agora provar a propriedade C∗ da semi-norma ||| · |||. Para tal notemos que, como x e
x∗ pertencem à mesma álgebra (digamos, Ai ) temos [x][x∗ ] = [x x∗ ] (por que?) e assim

2
∗ ∗ ∗
|||[x] [x]||| = |||[x x ]||| = lim sup kφij (x x )kj = lim sup kφij (x)k2j = lim sup kφij (x)kj = |||[x]|||2.
ji ji ji
Isso mostrou que a semi-norma ||| · ||| também satisfaz a propriedade C∗ e que o limite indutivo de
Banach de um sistema indutivo C∗ é também uma álgebra C∗ , que denotaremos por A∞ .
Vamos agora construir o sistema de morfismos fi de álgebra C∗ mencionado. Seja, para cada i ∈ Λ,
fi : Ai → A∞ , dado por Ai ∋ x 7→ [x] ∈ A∞ . Vamos verificar que, para cada i ∈ Λ, fi é de fato um
morfismo de álgebra C∗ . De fato, para todo x, y ∈ Ai temos fi (x+y) = [x+y] = [x]+[y] = fi (x)+fi (y)
(por que? Justifique a segunda igualdade) e fi (xy) = [xy] = [x][y] = fi (x)fi (y) (por que? Justifique
a segunda igualdade). Fora isso, como já vimos, fi (x∗ ) = [x∗ ] = [x]∗ = fi (x)∗ . Notemos também que,
por construção, ∪i∈Λ (Ai ) é denso em A∞ e assim A∞ é um limite indutivo C∗ da famı́lia Ai , i ∈ Λ.
Referências Bibliográficas
A lista bibliográfica abaixo contém livros-texto onde parte do material contido nestas notas também
pode ser encontrado e outros textos cuja leitura é igualmente recomendada.
[1] R. P. Agarwal e V. Lakshmikantham. Uniqueness and Nonuniqueness Criteria for Ordinary Diffe-
rential Equations. World Scientific (1993).
[2] Martin Aigner and Günter M. Ziegler. Proofs from THE BOOK. Springer Verlag (2001). Edição
brasileira: As Provas estão n’O LIVRO. Editora Edgard Blücher Ltda. (2002).
[3] L. H. Alves Monteiro. Sistemas Dinâmicos, (2002). Ed. Livraria da Fı́sica.
[4] Huzihiro Araki. Mathematical Theory of Quantum Fields. Oxford Science Publications. (1999).
[5] G. Arfken. Mathematical Methods for Physicists. Academic Press Inc. (1970).
[6] V. I. Arnold. Equações Diferenciais Ordinárias. Editora Mir. (1985).
[7] V. I. Arnold. Mathematical Methods of Classical Mechanics. Second Edition. Springer Verlag. (1989).
Versão em português: Métodos Matemáticos da Mecânica Clássica. Ed. Mir, Moscou (1987).
[8] E. Artin. The Gamma Function. Ed. Holt, Rinehart and Winston, New York (1964).
[9] W. B. Arveson. An Invitation to C ∗ -Algebras.
[10] Heinz Bauer. Maß- und Integrationstheorie. Ed. Walter de Gruyter. Berlin, New York. (1992).
[11] G. Birkhoff and G. C. Rota. Differential Equations.
[12] G. W. Bluman and S. Kumei. Symmetries and Differential Equations. Springer Verlag (1989).
[13] R. P. Boas Jr. Entire Functions. Academis Press. New Yourk. (1954).
[14] H. Bohr. Collected Mathematical Works. In Three Volumes. Dansk Matematisk Forening. Cope-
nhagen. (1952).
[15] W. E. Boyce and R. C. DiPrima. Elementary Differential Equations and Boundary Value Problems.
John Wiley and Sons. New York. (1986).
[16] Carmen Lys Ribeiro Braga. Notas de Fı́sica-Matemática: Equações Diferenciais, Funções de Green
e Distribuições. Editores: Walter F. Wreszinski, José F. Perez, Domingos H. U. Marchetti e João
Carlos Alves Barata. Ed. Livraria da Fı́sica, São Paulo. 1a edição, (2006).
1443
[17] O. Bratteli and D. W. Robinson. Operator Algebras and Quantum Statistical Mechanics I. Springer
Verlag. (1979).
[18] O. Bratteli and D. W. Robinson. Operator Algebras and Quantum Statistical Mechanics II. Springer
Verlag. (1979).
[19] F. Brauer and C. Castillo-Chávez. Mathematical Models in Population Biology and Epidemiology.
[20] G. Cain. Introduction to General Topology.
[21] Mauro S. D. Cattani. Elementos de Mecânica de Fluidos. Edgard Blücher LTDA, (1989).
[22] J. Cigler und H. C. Reichel. Topologie, Eine Grundvorlesung.
[23] C. Chevalley. Theory of Lie Groups.
[24] R. V. Churchill. Variáveis Complexas e suas Aplicações.
[25] E. A. Coddington. An Introduction to Ordinary Differential Equations. Dover Publications, Inc.

New York. (1989).
[26] E. A. Coddington and N. Levinson. Theory of Ordinary Differential Equations.
[27] C. Corduneanu. Almost Periodic Functions. Interscience Publishers - John Wiley & Sons (1968).
[28] R. Courant and F. John. Introduction to Calculus and Analysis. Vol. I Springer Verlag, Berlin,
(2000).
[29] R. Courant and F. John. Introduction to Calculus and Analysis. Vol. II Springer Verlag, Berlin,
(2000).
[30] R. Courant and D. Hilbert. Methods of Mathematical Physics. Vol. I John Wiley & Sons (1989).
[31] R. Courant and D. Hilbert. Methods of Mathematical Physics. Vol. II John Wiley & Sons (1989).
[32] Richard Courant e Herbert Robbins. O que é Matemática. Editora Ciência Moderna.
[33] K. R. Davidson. C ∗ -Algebras by Example.
[34] Philip J. Davis. Interpolation & Approximation. Dover Publications Inc. (1975).
[35] J. Dieudonnè. History of Functional Analysis. North Holland, (1981).
[36] D. G. de Figueiredo. Análise de Fourier e equações diferenciais parciais. Coleção Euclides. IMPA.
[37] H. M. Edwards Riemann’s Zeta Function. Dover Publications Inc. (1974).
[38] J. P. Elliott and P. G. Dawber. Symmetry in Physics.
[39] L. C. Evans. Partial Differential Equations. American Mathematical Society. (1998).
[40] K. J. Falconer The Geometry of Fractal Sets. Cambridge Univ. Press. (1985).
[41] A. Fazzio e K. Watari. Introdução à Teoria de Grupos.
[42] D. G. de Figueiredo e A. F. Neves. Equações Diferenciais Aplicadas. Coleção Matemática Univer-

sitária. IMPA.
[43] G. Frey. Elementare Zahlenthorie.
[44] J. P. Fernandez. Medida e Integração. Projeto Euclides. IMPA, CNPq. (1976). Livros Técnicos e
Cientı́ficos, Editora.
[45] A. Galindo e P. Pascual. Quantum Mechanics I. Springer Verlag. (1990).
[46] A. Galindo e P. Pascual. Quantum Mechanics II. Springer Verlag. (1990).
[47] L. Garding. Encontros com a Matemática. Ed. Universidade de Brası́lia. 2a. Edição (1997).
[48] P. R. Garabedian. Partial Differential Equations. AMS Chelsea Publishing. (1998).
[49] I. M. Gelfand, R. A. Minlos and Z. Ya. Shapiro. Representations of the rotation and Lorentz groups
and their applications.
[50] R. Geroch. Mathematical Physics. The University of Chicago Press. (1985).
[51] J. Glimm and A. Jaffe. Quantum Physics. A Functional Integral Point of View. Second Edition.
Springer-Verlag. (1987).
[52] G. Grätzer. Universal Algebra.
[53] Ronald L. Graham, Donald E. Knuth and Oren Patashnik. Concrete Mathematics - A Foundation
for Computer Science. Addison-Wesley Publishing Company. (1994).
[54] R. Haag. Local Quantum Physics. Second edition. Berlin Heidelberg: Springer Verlag (1996).
[55] P. R. Halmos. Teoria Ingênua dos Conjuntos. Ed. Polı́gono. (1970).
[56] P. R. Halmos. Measure Theory. Springer Verlag. (2000).
[57] Paul R. Halmos. Espaços Vetoriais de Dimensão Finita.
[58] G. H. Hardy and E. M. Wright. An Introduction to the Theory of Numbers. Oxford Univ. Press.
[59] G. H. Hardy. Divergent Series.. Second Edition (textually unaltered) (1991). AMS Chelsea Pu-
blishing. American Mathematical Society, Providence, Rhode Island.
[60] S. W. Hawking and G. F. R. Ellis. The Large Scale Structure of Space-Time. Cambridge Univ.
Press. (1973).
[61] S. Helgason. Geometric Analysis on Symmetric Spaces. Mathematical Surveys and Monographs,
vol. 39. American Mathematical Society. (1991).
[62] E. Henze. Einführung in die Maßtheorie.

[63] H. Heuser. Lehrbuch der Analysis. Teil 1. B. G. Teubner, Stuttgart (1993).
[64] H. Heuser. Lehrbuch der Analysis. Teil 2. B. G. Teubner, Stuttgart (1993).
[65] H. Heuser. Funktionalanalysis. B. G. Teubner, Stuttgart.
[66] H. Heuser. Gewöhnliche Differentialgleichungen. B. G. Teubner, Stuttgart.
[67] J. Hilgert und K.-H. Neeb. Lie Gruppen und Lie Algebren.
[68] E. Hille. Ordinary Differential Equations in the Complex Domain. Dover Publications Inc. (1997).
[69] Morris W. Hirsch, Stephen Smale and Robert L. Devaney. Differential Equations, Dynamical
Systems & An Introduction to Chaos. Elsevier, Academic Press. (2004)
[70] Harry Hochstadt. The Functions of Mathematical Physics. Dover Publications Inc. (1971).
[71] Harry Hochstadt. Differential Equations. A Modern Approach. Dover Publications Inc. (1975).
[72] J. Hofbauer and K. Sigmung. The Theory of Evolution and Dynamical Systems. Cambridge Uni-
versity Press, 1988.
[73] Chain Samuel Hönig Análise Funcional e o Problema de Sturm-Liouville. Editora Edgard Blücher
e Editora da Universidade de São Paulo. (1978). (Várias edições).
[74] Lars Hörmander The Analysis of Partial Diferential Operators. Vols. 1-4 Springer Verlag (1983-
1985).
[75] E. L. Ince. Ordinary Differential Equations. Longmans Green and Co. London. (1927).
[76] Rafael Iório Júnior e Valéria de Magalhães Iório, Equações Diferenciais Parciais: Uma Introdução.
Projeto Euclides, IMPA (1988).
[77] N. Jacobson. Lie Algebras.
[78] T. Kato Perturbation Theory of Linear Operators. Springer Verlag, Berlin-Heidelberg-New York
(1976).
[79] Yitzhak Katznelson. An Introduction to Harmonic Analysis. Dover Publications. (1978).
[80] Louis H. Kauffman. Knots and Physics. World Scientific Pub. Co. 3rd edition (2001).
[81] A. Kirillov. Éléments de la Theorie des Représentations.
[82] Konrad Knopp. Theory of Functions. Parts I and II. Dover Publications Inc. (1996).
[83] A. N. Kolmogorov and S. V. Fomin. Introductory Real Analysis. Dover Publications Inc.
[84] T. W. Körner Fourier Analysis. Cambridge University Press. (1996).
[85] S. G. Krantz e H. R. Parks The Implicit Function Theorem: History, Theory and Applications.
Birkhäuser (2002).
[86] Erwin Kreyszig. Introductory Functional Analysis with Applications. John Wiley and Sons Inc,
(1989).
[87] L. D. Landau e E. Lifchitz Curso de Fı́sica. Mecânica. Editora Mir, Moscou.
[88] L. D. Landau e E. Lifchitz. Curso de Fı́sica. Mecânica Quântica. Editora Mir, Moscou.
[89] L. D. Landau e E. Lifchitz. Mécanique des Fluides. Editora Mir, Moscou (1971).
[90] S. Lang. Algebra.
[91] S. Lang. Complex Analysis. Graduate Texts in Mathematics. Springer-Verlag, New York (1999).
[92] N. N. Lebedev. Special Functions & their Applications. Dover Publications Inc. (1972).
[93] T. D. Lee. Particle Physics. An Introduction to Field theory.
[94] Elliot H. Lieb and Michael Loss. Analysis.
[95] Elon L. Lima. Espaços Métricos. Projeto Euclides. IMPA, CNPq. (1977). Livros Técnicos e Ci-
entı́ficos, Editora.
[96] Elon L. Lima. Curso de Análise. Vol. 1. Projeto Euclides. IMPA, CNPq. (1976). Livros Técnicos
e Cientı́ficos, Editora.
[97] Elon L. Lima. Curso de Análise. Vol. 2. Projeto Euclides. IMPA, CNPq. (1981). Livros Técnicos
e Cientı́ficos, Editora.
[98] R. S. MacKay and J. D. Meiss, editors. Hamiltonian Dynamical Systems. A reprint selection.
Adam Hilger, Bristol and Philadelphia. (1987).
[99] Scott McCartney Eniac. The Triumphs and Tragedies of the World’s First Computer. Berkley
Books, New York. (1999).
[100] W. Magnus und F. Oberhettinger. Formel und Sätze für die speziellen Funktionen der mathema-
tischen Physik. Springer Verlag, (1948).
[101] G. Meinardus. Approximation von Funktionen und ihre numerische Behandlung. Springer-Verlag.
Berlin, Göttingen, Heidelberg, New York. (1964).
[102] Richard K. Miller. Non-linear Volterra Integral Equations. W. A. Benjamin, Inc. (1971).
[103] F. Miraglia. Teoria dos Conjuntos. Um Mı́nimo. Edusp 1991.
[104] D. S. Mitrinovic, J. E. Pecaric and A M Fink. Inequalities for functions and their integrals and
derivatives Kluver (1994)
[105] M. E. Munroe. Introduction to Measure and Integration. Addison-Wesley Publishing Company,

Inc. (1953).
[106] Gerard J. Murphy. C∗ -Algebras and Operator Theory. Academis Press. (1990).
[107] Leopoldo Nachbin. Topology and Order. Van Nostrand, Princeton, (1965).
[108] M. Naimark et A. Stern. Théorie des Représentations des Groups. Editions Mir. URSS. (1979).
[109] M. Nakahara. Geometry, Topology and Physics.
[110] John von Neumann. Mathematical Foundations of Quantum Mechanics. Princeton University
Press, 12a. edição (1996).
[111] H. M. Nussenzveig. Curso apresentado na 1a Escola de Verão Jorge André Swieca – Partı́culas
e Campos. (1981). Editado pela Sociedade Brasileira de Fı́sica. Edts. G. da C. Marques e R. C.
Shellard.
[112] Peter J. Olver Applications of Lie Groups to Differential Equations. Second Edition. Springer
Verlag (1993).
[113] I. G. Petrovsky. Lectures on Partial Differential Equations. Dover Publications Inc. (1991).
[114] L. S. Pontriaguin. Continuous Groups.
[115] D. Porter and D. S. G. Stirling. Integral Equations. Cambridge U. P. (1990).
[116] M. Reed and B. Simon. Methods of Modern Mathematical Physics. Vol. 1: Functional Analysis.
Academic Press. New York. (1972-1979).
[117] M. Reed and B. Simon. Methods of Modern Mathematical Physics. Vol. 2: Fourier Analysis,
Self-Adjointness. Academic Press. New York. (1972-1979).
[118] M. Reed and B. Simon. Methods of Modern Mathematical Physics. Vol. 3: Scattering Theory
Academic Press. New York. (1972-1979).
[119] M. Reed and B. Simon. Methods of Modern Mathematical Physics. Vol. 4. Academic Press. New
York. (1972-1979).
[120] Reinhild Remmert Classical Topics in Complex Function Theory. Graduate Texts in Mathema-
tics. Springer-Verlag, New York (1998).
[121] F. Riesz and B. Sz.-Nagy. Functional Analysis. Dover Inc, (1955).
[122] H. L. Royden. Real Analysis. Prentice Hall, Inc. (1988).
[123] W. Rudin. Real and Complex Analysis. McGraw-Hill Internatinal Editions. (1987).
[124] W. Rudin. Functional Analysis.
[125] H. Sagan. Boundary and Eigenvalue Problems in Mathematical Physics.
[126] J. J. Sakurai. Modern Quantum Mechanics Revised version. Addison-Wesley. (1994).
[127] J. J. Sakurai. Advanced Quantum Mechanics. Addison-Wesley. (1967).
[128] Luiz A. B. San Martin. Álgebras de Lie.

[129] Günter Sharf. Quantum Gauge Theories. A True Ghost Story. John Wiley and Sons, Inc. (2001).
[130] A. Schönhage. Approximationstheorie. Walter de Gruyter & Co. Berlin. New York. (1971).
[131] W. R. Scott. Group Theory.
[132] B. Simon. Representations of Finite and Compact Groups. Graduate Studies in Mathematics, vol.
10. Americam Mathematical Society. (1996).
[133] G. F. Simmons. Topology and Modern Analysis.
[134] L. J. Slater. Confluent Hypergeometric Functions. Cambridge University Press. (1960).
[135] Joel Smoller. Shock Waves and Reaction-Difusion Equations. Springer Verlag (1983).
[136] A. Sommerfeld. Partial Diferential Equations in Physics. Academic Press. (1949).
[137] J. Sotomayor. Lições de equações diferenciais ordinárias. Projeto Euclides, IMPA. (1979).
[138] M. Spivak. Calculus.
[139] P. Suppes. Axiomatic Set Theory. Dover Publications Inc.
[140] D’Arcy Wentworth Thompson. On Growth and Form. Dover Publications Inc. (Complete Revised
edition 1992) .
[141] A. F. Timan. Theory of Approximation of Functions of a Real Variable. Dover Publications Inc.
(1994).
[142] E. C. Titchmarsh. Theory of Functions. Oxford University Press, London and New York. (1939).
[143] E. C. Titchmarsh. (Revised by D. R. Heath-Brown). The Theory of the Riemann Zeta-Function.

Claendon Press, Oxford. (1986).
[144] F. G. Tricomi. Integral Equations. Dover Publications Inc.
[145] N. Ya. Vilenkin. Representations of Lie Groups and Special Functions. Kluwer (1993).
[146] F. W. Warmer. Foundations of Differentiable Manifolds and Lie Groups. Springer Verlag. (1983).
[147] G. N. Watson. A Treatise on the Theory of Bessel Functions. Second Edition. Cambridge Uni-
versity Press. (1966).
[148] Hermann Weyl. The Theory of Groups and Quantum Mechanics.
[149] B. Van der Waerden. Die gruppentheoretische Methode in der Quantenmechanik. Springer Verlag,
Berlin, (1932).
[150] S. Weinberg. The Quantum Theory of Fields. Vol. I. Foundations. Cambridge Univ. Press. (1995).
[151] S. Weinberg. The Quantum Theory of Fields. Vol. II. Modern Applications. Cambridge Univ.
Press. (1996).
[152] G. B. Whitham Linear and Nonlinear Waves. John Wiley and Sons, Inc. (1974).
[153] E. T. Whittaker and G. N. Watson. A Course of Modern Analysis.
[154] Eugene P. Wigner. Group Theory and Quantum Mechanics. (1931).
[155] K. Yosida. Functional Analysis Springer Verlag.
[156] N. You

USP - Curso de Física-Matemática

Enviado por

Dados do documento

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

USP - Curso de Física-Matemática

Enviado por

Direitos autorais:

Formatos disponíveis

Universidade de São Paulo

Departamento de Fı́sica Matemática

Versão de 23 de maio de 2006

1.6 Tópicos especiais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90

2 Espaços Vetoriais 100

II Tópicos de Álgebra Linear 153

3 Tópicos de Álgebra Linear. I 154

3.7 O Teorema de Decomposição de Jordan e a Forma Canônica de Matrizes . . . . . . . . 207

4 Tópicos de Álgebra Linear. II 238

III Equações Diferenciais 275

5 Equações Diferenciais Ordinárias. Uma Introdução 276

5.3.4 Dependência Contı́nua de Condições Iniciais e de Parâmetros . . . . . . . . . . . 300

6 Alguns Métodos de Resolução de Equações Diferenciais Ordinárias 302

7 Sistemas de Equações Diferenciais Ordinárias Lineares 322

7.8.3 Sı́mbolos de Riemann. Simetrias de Equações Fuchsianas de Segunda Ordem . . 398

8 Soluções de Equações Diferenciais Ordinárias Lineares no Plano Complexo 410

9 Propriedades de Algumas Funções Especiais 503

9.1.1 Definições e Considerações Preliminares . . . . . . . . . . . . . . . . . . . . . . . 504

10 Alguns Problemas Selecionados de Interesse Fı́sico 583

11 Rudimentos da Teoria das Equações Diferenciais Parciais 632

12 Introdução ao Problema de Sturm-Liouville 688

12.E Demonstração do Teorema 12.3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 732

13 Alguns Resultados sobre Equações Integrais 738

14 Grupos. Alguns Exemplos 758

14.6 O Grupo de Lorentz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 819

15 Grupos de Lie e Álgebras de Lie. Uma Breve Introdução 880

16 Uma Breve Introdução à Teoria das Representações de Grupos 917

V Topologia Geral, Teoria da Medida e Integração 938

17 Espaços Métricos 939

18 O Teorema do Ponto Fixo de Banach e Algumas de Suas Conseqüências 994

19 Espaços Topológicos e Espaços Mensuráveis. Definições e Propriedades Básicas 1031

19.2.4 Topologias e σ-álgebras Produto . . . . . . . . . . . . . . . . . . . . . . . . . . . 1047

21 A Medida de Lebesgue 1074

22 Continuidade e Convergência em Espaços Topológicos 1098

23 Elementos da Teoria da Integração 1119

23.3.3 A Integral de Lebesgue e sua Relação com a de Riemann . . . . . . . . . . . . . 1155

24 Alguns Tópicos Especiais em Topologia e Análise 1194

VI Análise Funcional 1222

25 Noções Básicas Sobre Espaços de Hilbert 1223

25.2 Aspectos Geométricos Básicos de Espaços de Hilbert . . . . . . . . . . . . . . . . . . . 1225

26 Operadores Lineares Limitados em Espaços de Banach e de Hilbert 1248

27 Alguns Métodos de Aproximação de Funções 1394

28 Noções de Estruturas Algébricas 1420

29 O Limite Indutivo de Álgebras 1433

Índice Remissivo 1451

João Carlos Alves Barata São Paulo, 23 de maio de 2006.

“O comportamento de um fı́sico em relação à Matemática é similar a de um ladrão inteligente em

 Se z é um número complexo denotaremos seu complexo conjugado por z. A notação z ∗ (mais

 O sı́mbolo A := B ou B =: A denota que A é definido pela expressão B. O sı́mbolo A ≡ B indica

 Se x = (x1 , . . . , xn ) e y = (y1 , . . . , yn ) são vetores complexos com n componentes (ou seja,

Trata-se do produto escalar usual em Cn .

 Se x = (x1 , . . . , xn ) e y = (y1 , . . . , yn ) são vetores complexos com n componentes (ou seja,

Trata-se de uma forma bilinear em Cn .

 Mat(R, n) ou Mat(n, R) designa o conjunto de todas as matrizes reais n × n. Mat(C, n) ou

 Se A é um elemento de Mat(R, n) ou de Mat(C, n), então T

 Se A é um operador linear em um espaço vetorial complexo (com um certo produto escalar),

 Denotaremos o operador identidade agindo em um espaço vetorial (a matriz identidade, agindo

 Dado um conjunto X 6= ∅, denota-se por P(X) a coleção de todos os sub-conjuntos de X. P(X)

 A topologia usual da reta real R será denotada aqui por τR .

 A σ-álgebra de Borel de R será (quase sempre) denotada aqui por M[τR ].

 O sı́mbolo 2 indica o fim de um enunciado. O sı́mbolo indica o fim de uma demonstração. O

 B(X) designa o conjunto de operadores limitados agindo em um espaço de Banach X. B(H)

 O domı́nio de um operador T (agindo em um espaço de Banach ou de Hilbert) será denotado

imaginária de um número complexo ou mesmo com a da parte imaginária de um operador agindo

Se z é um número complexo denotaremos seu complexo conjugado por z. A notação z ∗ (mais

O sı́mbolo A := B ou B =: A denota que A é definido pela expressão B. O sı́mbolo A ≡ B indica

Se x = (x1 , . . . , xn ) e y = (y1 , . . . , yn ) são vetores complexos com n componentes (ou seja,

Se x = (x1 , . . . , xn ) e y = (y1 , . . . , yn ) são vetores complexos com n componentes (ou seja,

Mat(R, n) ou Mat(n, R) designa o conjunto de todas as matrizes reais n × n. Mat(C, n) ou

Se A é um elemento de Mat(R, n) ou de Mat(C, n), então T

Se A é um operador linear em um espaço vetorial complexo (com um certo produto escalar),

Denotaremos o operador identidade agindo em um espaço vetorial (a matriz identidade, agindo

Dado um conjunto X 6= ∅, denota-se por P(X) a coleção de todos os sub-conjuntos de X. P(X)

A topologia usual da reta real R será denotada aqui por τR .

A σ-álgebra de Borel de R será (quase sempre) denotada aqui por M[τR ].

O sı́mbolo 2 indica o fim de um enunciado. O sı́mbolo indica o fim de uma demonstração. O

B(X) designa o conjunto de operadores limitados agindo em um espaço de Banach X. B(H)

O domı́nio de um operador T (agindo em um espaço de Banach ou de Hilbert) será denotado

1. Para todo a ∈ X tem-se que a a.

Também denota-se a relação a b por b a.

Seja X um conjunto dotado de uma ordem parcial denotada por e seja A ⊂ X.