Curso de Física-Matemática

Universidade de São Paulo
Instituto de Fı́sica
Departamento de Fı́sica Matemática
2005
Curso de Fı́sica-Matemática
Notas de Aula
João Carlos Alves Barata
Versão de 17 de junho de 2005
Estas notas ou sua versão mais recente podem ser encontradas no seguinte endereço WWW:
http://denebola.if.usp.br/∼jbarata/Notas de aula
Prefácio 14
Notação e Advertências 16
Índice
I Capı́tulos Introdutórios 19
1 Noções Básicas 20
1.1 Conjuntos, Relações e Funções . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
1.1.1 Relações e Funções . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
1.1.2 Relações de Ordem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
1.1.3 Cardinalidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
1.1.4 Ínfimos e Supremos de Famı́lias de Conjuntos . . . . . . . . . . . . . . . . . . . 42
1.2 Estruturas Algébricas Básicas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
1.2.1 Semi-grupos, Monóides e Grupos . . . . . . . . . . . . . . . . . . . . . . . . . . 45
1.2.2 Corpos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
1.2.3 Espaços Vetoriais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
1.2.4 Anéis, Álgebras e Módulos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
1.2.5 Mais sobre Anéis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
1.2.6 Ações e Representações . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
1.2.7 Morfismos, Homomorfismos, Epimorfismos, Isomorfismos, Monomorfismos, En-
domorfismos e Automorfismos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
1.3 Cosets, Sub-Grupos Normais e o Grupo Quociente. O Centro de um Grupo . . . . . . . 66
1.3.1 Cosets . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
1.3.2 Sub-Grupos Normais e o Grupo Quociente . . . . . . . . . . . . . . . . . . . . . 68
1.3.3 O Centro de um Grupo. Centralizadores e Normalizadores . . . . . . . . . . . . 70
1.4 O Produto Direto e o Produto Semi-Direto de Grupos . . . . . . . . . . . . . . . . . . . 72
1.5 Somas Diretas e Produtos Tensoriais . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
1.5.1 Discussão Informal Preliminar . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
1.5.2 Grupos Gerados por Conjuntos. Grupos Gerados por Relações . . . . . . . . . . 78
1.5.3 Somas Diretas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
1.5.4 Produtos Tensoriais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
1.5.5 Produtos Diretos e Somas Diretas Arbitrários . . . . . . . . . . . . . . . . . . . 82
1.5.6 Módulos e Derivações . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
2
3/1195
1.6 Tópicos Especiais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83

1.6.1 O Grupo de Grothendieck . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
1.6.2 Grupóides . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86
1.6.3 Quatérnions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
2 Espaços Vetoriais 93
2.1 Espaços Vetoriais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
2.1.1 Sub-Espaços e Espaços Quocientes . . . . . . . . . . . . . . . . . . . . . . . . . 93
2.1.2 Bases Algébricas de um Espaço Vetorial . . . . . . . . . . . . . . . . . . . . . . 94
2.1.3 O Dual Algébrico de um Espaço Vetorial . . . . . . . . . . . . . . . . . . . . . 100
2.2 Formas Lineares, Sesquilineares e Produtos Escalares em Espaços Vetoriais . . . . . . . 107
2.2.1 Formas Multilineares . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107
2.2.2 Formas Sesquilineares e as Desigualdades de Cauchy-Schwarz e Minkowski . . . 112
2.2.3 Produtos Escalares . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116
2.2.4 Exemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118
2.3 Normas em Espaços Vetoriais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120
2.4 Formas Bilineares e Sesquilineares em Espaços de Dimensão Finita . . . . . . . . . . . 126
2.5 Estruturas Complexas sobre Espaços Vetoriais Reais . . . . . . . . . . . . . . . . . . . . 131
II Tópicos de Álgebra Linear 140
3 Tópicos de Álgebra Linear I 141

3.1 Rudimentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141
3.2 Noções Básicas sobre o Espectro de uma Matriz . . . . . . . . . . . . . . . . . . . . . . 144
3.2.1 O Traço de uma Matriz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 150
3.3 Polinômios de Matrizes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 152
3.3.1 O Teorema de Hamilton-Cayley . . . . . . . . . . . . . . . . . . . . . . . . . . . 154
3.4 Matrizes Diagonalizáveis e o Teorema Espectral . . . . . . . . . . . . . . . . . . . . . . 159
3.4.1 Diagonalização Simultânea de Matrizes . . . . . . . . . . . . . . . . . . . . . . . 171
3.5 Matrizes Auto-adjuntas, Normais e Unitárias . . . . . . . . . . . . . . . . . . . . . . . . 175
3.6 Matrizes Triangulares . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 182
3.7 O Teorema de Decomposição de Jordan e a Forma Canônica de Matrizes . . . . . . . . 184
3.7.1 Resultados Preparatórios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 185
3.7.2 O Teorema da Decomposição de Jordan . . . . . . . . . . . . . . . . . . . . . . 190
4/1195
3.7.3 Matrizes Nilpotentes e sua Representação Canônica . . . . . . . . . . . . . . . . 193

3.7.4 A Forma Canônica de Matrizes . . . . . . . . . . . . . . . . . . . . . . . . . . . 197
3.8 Algumas Representações Especiais de Matrizes . . . . . . . . . . . . . . . . . . . . . . . 200
3.8.1 A Decomposição Polar de Matrizes . . . . . . . . . . . . . . . . . . . . . . . . . 200
3.8.2 O Teorema da Triangularização de Schur . . . . . . . . . . . . . . . . . . . . . . 202
3.8.3 A Decomposição QR e a Decomposição de Iwasawa (“KAN”) . . . . . . . . . . 205
4 Tópicos de Álgebra Linear II 210

4.1 Uma Topologia Métrica em Mat ( , n) . . . . . . . . . . . . . . . . . . . . . . . . . . . 211
4.2 Exponenciais, Logaritmos e Funções Analı́ticas de Matrizes . . . . . . . . . . . . . . . . 216
4.2.1 A Exponenciação de Matrizes e os Grupos GL( , n) e GL( , n) . . . . . . . . 224

4.3 A Fórmula de Lie-Trotter e a Fórmula do Comutador . . . . . . . . . . . . . . . . . . . 227

4.4 Aplicações Lineares em Mat ( , n) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 230
4.5 A Fórmula de Baker, Campbell e Hausdorff . . . . . . . . . . . . . . . . . . . . . . . . 236
4.6 A Fórmula de Duhamel e Algumas de suas Conseqüências . . . . . . . . . . . . . . . . 242
III Equações Diferenciais 247
5 Equações Diferenciais Ordinárias. Uma Introdução 248

5.1 Definição e Alguns Exemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 249
5.1.1 Equações Diferenciais Ordinárias Lineares . . . . . . . . . . . . . . . . . . . . . 251
5.1.2 Equações Ordinárias de Segunda Ordem. Exemplos de Interesse . . . . . . . . . 255
5.2 Sistemas de Equações Diferenciais Ordinárias . . . . . . . . . . . . . . . . . . . . . . . 257
5.3 Alguns Métodos de Solução de Equações Diferenciais Ordinárias . . . . . . . . . . . . . 262
5.3.1 Solução de Equações Ordinárias Lineares de Primeira Ordem . . . . . . . . . . . 262
5.3.2 As Equações de Bernoulli e de Riccati . . . . . . . . . . . . . . . . . . . . . . . 263
5.3.3 Integração de Equações Separáveis . . . . . . . . . . . . . . . . . . . . . . . . . 265
5.3.4 O Método de Variação de Constantes . . . . . . . . . . . . . . . . . . . . . . . . 266
5.3.5 O Método de Substituição de Prüfer . . . . . . . . . . . . . . . . . . . . . . . . 268
5.3.6 O Método de Inversão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 270
5.3.7 Solução de Equações Exatas e o Método dos Fatores Integrantes . . . . . . . . . 271
5.3.8 Soluções das Equações de D’Alembert-Lagrange e Clairaut . . . . . . . . . . . . 276
5.4 Discussão sobre Problemas de Valor Inicial . . . . . . . . . . . . . . . . . . . . . . . . . 280
5.4.1 Problemas de Valor Inicial. Patologias e Exemplos a se Ter em Mente . . . . . . 283
5/1195
5.4.2 Teoremas de Existência e Unicidade de Soluções . . . . . . . . . . . . . . . . . . 286

5.4.3 Soluções Globais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 288
5.4.4 Dependência Contı́nua de Condições Iniciais e de Parâmetros . . . . . . . . . . . 290
6 Sistemas de Equações Diferenciais Lineares 292

6.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 293
6.2 Unicidade e Existência de Soluções . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 293
6.2.1 Unicidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 293
6.2.2 Existência. A Série de Dyson . . . . . . . . . . . . . . . . . . . . . . . . . . . . 297
6.2.3 Propriedades de D(s, t) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 301
6.3 Equações com Coeficientes Constantes . . . . . . . . . . . . . . . . . . . . . . . . . . . 305
6.3.1 Alguns Exemplos e Aplicações . . . . . . . . . . . . . . . . . . . . . . . . . . . . 307
6.4 Teoria de Perturbações de Sistemas Lineares . . . . . . . . . . . . . . . . . . . . . . . . 311
6.5 Mais sobre a Série de Dyson. Produtos de Tempo Ordenado . . . . . . . . . . . . . . . 315
6.6 Sistemas de Equações Diferenciais Lineares no Plano Complexo . . . . . . . . . . . . . 318
6.6.1 O Caso Analı́tico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 319
6.6.2 Resolução por Séries de Potências . . . . . . . . . . . . . . . . . . . . . . . . . . 325
6.6.3 Sistemas com Pontos Singulares. Monodromia . . . . . . . . . . . . . . . . . . . 326
6.6.4 Sistemas com Pontos Singulares Simples . . . . . . . . . . . . . . . . . . . . . . 337
6.7 Sistemas Provenientes de EDO’s de Ordem m . . . . . . . . . . . . . . . . . . . . . . . 341
6.7.1 Pontos Singulares Simples em EDO’s de Ordem m . . . . . . . . . . . . . . . . . 342
6.7.2 Singularidades no Infinito . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 346
6.7.3 Alguns Exemplos de Interesse . . . . . . . . . . . . . . . . . . . . . . . . . . . . 348
7 Soluções de Equações Diferenciais Ordinárias Lineares no Plano Complexo 355

7.1 Soluções em Séries de Potências para Equações Regulares . . . . . . . . . . . . . . . . . 356
7.1.1 A Equação do Oscilador Harmônico Simples . . . . . . . . . . . . . . . . . . . . 357
7.1.2 A Equação de Legendre . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 358
7.1.3 A Equação de Hermite . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 362
7.1.4 A Equação de Airy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 365
7.1.5 A Equação de Chebyshev . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 367
7.1.6 O Caso de Equações Regulares Gerais . . . . . . . . . . . . . . . . . . . . . . . . 370
7.2 Solução de Equações Singulares Regulares. O Método de Frobenius . . . . . . . . . . . 372
7.2.1 Equações Singulares Regulares. O Caso Geral . . . . . . . . . . . . . . . . . . . 376
6/1195
7.2.2 A Equação de Euler Revisitada . . . . . . . . . . . . . . . . . . . . . . . . . . . 385

7.2.3 A Equação de Bessel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 388
7.2.4 A Equação de Laguerre . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 399
7.2.5 A Equação Hipergeométrica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 402
7.2.6 A Equação Hipergeométrica Confluente . . . . . . . . . . . . . . . . . . . . . . . 406
7.3 Algumas Equações Associadas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 409
7.3.1 A Equação de Legendre Associada . . . . . . . . . . . . . . . . . . . . . . . . . 409
7.3.2 A Equação de Laguerre Associada . . . . . . . . . . . . . . . . . . . . . . . . . . 411
7.3.3 A Equação de Bessel Esférica . . . . . . . . . . . . . . . . . . . . . . . . . . . . 412
7.A Prova da Proposição 7.1. Justificando os Polinômios de Legendre . . . . . . . . . . . . 414
7.B Provando (7.14) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 416
7.C Justificando os Polinômios de Hermite . . . . . . . . . . . . . . . . . . . . . . . . . . . 418
7.D Provando (7.20) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 420
7.E Porque λ deve ser um Inteiro Positivo na Equação de Laguerre . . . . . . . . . . . . . . 421
8 Propriedades de Algumas Soluções de Equações Diferenciais Ordinárias e Aplicações424

8.1 Discussão Preliminar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 425
8.1.1 Definições e Considerações Preliminares . . . . . . . . . . . . . . . . . . . . . . . 425
8.1.2 Relações de Ortogonalidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 428
8.1.3 Fórmulas de Rodrigues . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 430
8.1.4 Funções Geratrizes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 432
8.2 Propriedades de Algumas Funções Especiais . . . . . . . . . . . . . . . . . . . . . . . . 436
8.2.1 Propriedades dos Polinômios de Legendre . . . . . . . . . . . . . . . . . . . . . . 436
8.2.2 Propriedades dos Polinômios de Legendre Associados. Harmônicos Esféricos . . 442
8.2.3 Propriedades dos Polinômios de Hermite . . . . . . . . . . . . . . . . . . . . . . 452
8.2.4 Propriedades dos Polinômios de Laguerre . . . . . . . . . . . . . . . . . . . . . . 456
8.2.5 Propriedades dos Polinômios de Laguerre Associados . . . . . . . . . . . . . . . 460
8.2.6 Propriedades das Funções de Bessel . . . . . . . . . . . . . . . . . . . . . . . . . 463
8.2.7 Propriedades das Funções de Bessel Esféricas . . . . . . . . . . . . . . . . . . . . 478
8.3 Algumas Aplicações Selecionadas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 482
8.3.1 O Método de Separação de Variáveis . . . . . . . . . . . . . . . . . . . . . . . . 482
8.3.2 Uma Breve Discussão Sobre Unicidade de Soluções . . . . . . . . . . . . . . . . 485
8.3.3 As Equações de Helmholtz e de Laplace . . . . . . . . . . . . . . . . . . . . . . 491
8.3.4 O Problema da Corda Pendurada . . . . . . . . . . . . . . . . . . . . . . . . . . 499
7/1195
8.3.5 O Problema da Membrana Circular . . . . . . . . . . . . . . . . . . . . . . . . . 503

8.3.6 O Oscilador Harmônico na Mecânica Quântica e a Equação de Hermite . . . . . 506
8.3.7 O Átomo de Hidrogênio e a Equação de Laguerre Associada . . . . . . . . . . . 507
8.A Provando (8.44) à Força Bruta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 511
8.B Alguns Teoremas de Unicidade de Soluções de Equações Diferenciais Parciais . . . . . . 512
9 Introdução ao Problema de Sturm-Liouville 521

9.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 521
9.2 O Problema de Sturm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 526
9.2.1 Resolvendo o Problema de Sturm. A Função de Green . . . . . . . . . . . . . . 527
9.2.2 O Teorema de Green . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 530
9.3 O Problema de Sturm-Liouville . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 532
9.4 Propriedades Básicas dos Autovalores e das Autofunções de Problemas de Sturm-Liouville534
9.4.1 Realidade dos Autovalores. Ortogonalidade de Autofunções . . . . . . . . . . . . 534
9.4.2 A Simplicidade dos Autovalores . . . . . . . . . . . . . . . . . . . . . . . . . . . 537
9.4.3 Condições Suficientes para a Positividade dos Autovalores . . . . . . . . . . . . 538
9.5 A Equação Integral de Fredholm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 542
9.6 Uma Aplicação do Problema de Sturm-Liouville . . . . . . . . . . . . . . . . . . . . . . 545
9.7 Comentários Finais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 549
9.7.1 O Problema de Sturm-Liouville Singular . . . . . . . . . . . . . . . . . . . . . . 549
9.A Prova do Teorema 9.1. Existência e Unicidade . . . . . . . . . . . . . . . . . . . . . . . 551
9.B Prova da Proposição 9.1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 552
9.C Comentário Sobre o Determinante Wronskiano . . . . . . . . . . . . . . . . . . . . . . . 554
9.D Ausência de Autovalores em um Problema Singular . . . . . . . . . . . . . . . . . . . . 555
9.E Demonstração do Teorema 9.3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 556
9.F Prova da Desigualdade (9.E.22) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 560
IV Grupos 563
10 Grupos. Alguns Exemplos 564

10.1 O Grupo de Permutações . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 565
10.1.1 Ciclos, Transposições e Transposições Elementares . . . . . . . . . . . . . . . . . 566
10.2 Alguns Grupos Matriciais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 571
10.2.1 Os Grupos GL(n) e SL(n) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 571
8/1195
10.2.2 O Grupo de Borel e Grupo de Heisenberg . . . . . . . . . . . . . . . . . . . . . 574

10.2.3 Grupos Associados a Formas Bilineares e Sesquilineares . . . . . . . . . . . . . . 580
10.2.4 Os Grupos Ortogonais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 582
10.2.5 Os Grupos Unitários . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 583
10.3 Os Grupos SO(2), SO(3), SU(2) e SL( , 2) . . . . . . . . . . . . . . . . . . . . . . . . 584
10.3.1 Os Grupos SO(2), O(2), SO(1, 1) e O(1, 1) . . . . . . . . . . . . . . . . . . . . . 584
10.3.2 O Grupo SO(3) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 588
10.3.3 O Grupo SU(2) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 596
10.3.4 A Relação entre SO(3) e SU(2) . . . . . . . . . . . . . . . . . . . . . . . . . . . 599
10.3.5 O Grupo SL( , 2) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 602
10.4 Generalidades sobre os grupos SU(n) e SO(n) . . . . . . . . . . . . . . . . . . . . . . . 603
10.4.1 Os Grupos SU(n) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 604
10.4.2 O Grupo SU(3) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 607
10.4.3 Os Grupos SO(n) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 608
10.5 O Grupo Afim e o Grupo Euclidiano . . . . . . . . . . . . . . . . . . . . . . . . . . . . 613
10.6 O Grupo de Lorentz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 617
10.6.1 O Espaço-Tempo, a Noção de Intervalo e a Estrutura Causal . . . . . . . . . . . 618
10.6.2 A Invariância do Intervalo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 624
10.6.3 O Grupo de Lorentz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 627
10.6.4 Alguns Sub-Grupos do Grupo de Lorentz . . . . . . . . . . . . . . . . . . . . . . 628
10.6.5 A Estrutura do Grupo de Lorentz . . . . . . . . . . . . . . . . . . . . . . . . . . 632
10.6.6 Os Geradores do Grupo de Lorentz . . . . . . . . . . . . . . . . . . . . . . . . . 636
10.7 O Grupo de Poincaré . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 640
10.8 SL( , 2) e o Grupo de Lorentz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 643
10.A Prova do Teorema 10.8 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 652
10.B Um Isomorfismo entre SL( , 2)/{ , − } e L↑+ . . . . . . . . . . . . . . . . . . . . . . . 662
11 Grupos de Lie e Álgebras de Lie. Uma Breve Introdução 670

11.1 Variedades e Grupos de Lie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 671
11.2 Breves Considerações sobre Grupos Topológicos . . . . . . . . . . . . . . . . . . . . . . 673
11.3 Grupos de Lie Matriciais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 676
11.3.1 Uma Topologia Métrica em GL( , n) . . . . . . . . . . . . . . . . . . . . . . . . 676
11.3.2 O Grupo de Lie GL( , n) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 677
11.3.3 Sub-Grupos Uniparamétricos e seus Geradores . . . . . . . . . . . . . . . . . . . 680
9/1195
11.3.4 Sub-Grupos Uniparamétricos e Álgebras de Lie . . . . . . . . . . . . . . . . . . 683

11.3.5 Subgrupos Fechados de GL( , n) . . . . . . . . . . . . . . . . . . . . . . . . . . 688
11.4 A Relação entre Grupos de Lie Matriciais e suas Álgebras de Lie . . . . . . . . . . . . . 692
11.4.1 Álgebras de Lie Nilpotentes, Solúveis, Simples e Semi-Simples . . . . . . . . . . 693
11.4.2 Questões sobre a Exponenciação de Álgebras de Lie . . . . . . . . . . . . . . . . 697
11.4.3 Alguns Exemplos Especiais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 700
12 Uma Breve Introdução à Teoria das Representações de Grupos 706

12.1 Representações de Grupos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 706
12.2 Representações Irredutı́veis de SO(3) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 713
12.3 A Medida de Haar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 717
12.4 Representações de Grupos Compactos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 719
12.5 O Teorema de Peter-Weyl . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 720
V Topologia Geral, Teoria da Medida e Integração 726
13 Espaços Métricos 727

13.1 Métricas e Espaços Métricos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 729
13.2 Topologia de Espaços Métricos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 743
13.3 Pseudo-Métricas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 746
13.4 Espaços de Banach e de Hilbert . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 748
13.4.1 Espaços de Seqüências . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 750
13.A Algumas Desigualdades Básicas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 764
13.B Números reais e p-ádicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 766
13.C Aproximações para π . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 773
14 O Teorema do Ponto Fixo de Banach e Algumas de Suas Conseqüências 779

14.1 O Teorema de Ponto Fixo de Banach . . . . . . . . . . . . . . . . . . . . . . . . . . . . 780
14.1.1 Aplicação a Equações Numéricas. O Método de Newton . . . . . . . . . . . . . 782
14.1.2 Uma Generalização do Teorema de Ponto Fixo de Banach . . . . . . . . . . . . 786
14.2 As Equações Integrais de Fredholm e de Volterra . . . . . . . . . . . . . . . . . . . . . 787
14.3 Aplicações à Teoria das Equações Diferenciais Ordinárias . . . . . . . . . . . . . . . . . 795
14.3.1 O Teorema de Picard-Lindelöf . . . . . . . . . . . . . . . . . . . . . . . . . . . . 795
14.3.2 Generalizando o Teorema de Picard-Lindelöf. Soluções Globais . . . . . . . . . . 800
10/1195
14.3.3 Um Teorema de Comparação de Soluções de EDO’s . . . . . . . . . . . . . . . . 801

14.4 O Teorema da Função Implı́cita e o Teorema da Função Inversa . . . . . . . . . . . . . 805
14.4.1 O Teorema da Função Implı́cita . . . . . . . . . . . . . . . . . . . . . . . . . . . 805
14.4.2 O Teorema da Função Inversa . . . . . . . . . . . . . . . . . . . . . . . . . . . . 810
14.A O Lema de Grönwall . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 811
15 Espaços Topológicos e Espaços Mensuráveis. Definições e Propriedades Básicas 812

15.1 Definições, Propriedades Elementares e Exemplos . . . . . . . . . . . . . . . . . . . . . 813
15.2 Algumas Construções Especiais e Exemplos . . . . . . . . . . . . . . . . . . . . . . . . 818
15.2.1 Topologias e σ-álgebras Geradas . . . . . . . . . . . . . . . . . . . . . . . . . . . 818
15.2.2 Bases de Espaços Topológicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 822
15.2.3 Topologias e σ-álgebras Induzidas . . . . . . . . . . . . . . . . . . . . . . . . . . 828
15.2.4 Topologias e σ-álgebras Produto . . . . . . . . . . . . . . . . . . . . . . . . . . . 830
15.3 Interior e Fecho de Conjuntos em Espaços Topológicos . . . . . . . . . . . . . . . . . . 830
15.3.1 Fecho de Conjuntos em Espaços Métricos . . . . . . . . . . . . . . . . . . . . . . 834
16 Medidas 836
16.1 O Problema da Teoria da Medida . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 836
16.2 Medidas de Conjuntos. Definição, Exemplos e Propriedades Básicas . . . . . . . . . . . 839
16.3 Construindo Medidas. A Medida Exterior e o Teorema de Caratheodory . . . . . . . . 843
17 A Medida de Lebesgue 852

17.1 A Construção da Medida de Lebesgue . . . . . . . . . . . . . . . . . . . . . . . . . . . . 852
17.1.1 A σ-álgebra de Borel em e a Medida de Borel-Lebesgue . . . . . . . . . . . . 855
n
17.1.2 A Medida Produto e a Medida de Lebesgue em . . . . . . . . . . . . . . . . 858
17.2 Conjuntos de Cantor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 859
17.3 Bases de Hamel e a Medida de Lebesgue . . . . . . . . . . . . . . . . . . . . . . . . . . 871
18 Convergência, Pontos Limite e Pontos de Acumulação em Espaços Topológicos 876

18.1 Primeiras Definições . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 876
18.2 Espaços Hausdorff . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 878
18.3 O Limite do Ínfimo e o Limite do Supremo . . . . . . . . . . . . . . . . . . . . . . . . . 879
18.4 Redes e o Caso de Espaços Topológicos Gerais . . . . . . . . . . . . . . . . . . . . . . . 884
18.4.1 Redes em Espaços Métricos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 886
11/1195
19 Continuidade de Funções em Espaços Topológicos 888

19.1 Funções Contı́nuas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 888
19.2 Outras Caracterizações do Conceito de Continuidade em Espaços Topológicos . . . . . . 891
19.2.1 Continuidade e Convergência . . . . . . . . . . . . . . . . . . . . . . . . . . . . 892
20 Elementos da Teoria da Integração 895

20.1 Comentários Preliminares . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 896
20.2 A Integração no Sentido de Riemann . . . . . . . . . . . . . . . . . . . . . . . . . . . . 898
20.2.1 A Integral de Riemann Imprópria . . . . . . . . . . . . . . . . . . . . . . . . . . 907
20.2.2 Diferenciação e Integração em Espaços de Banach . . . . . . . . . . . . . . . . . 909
20.3 A Integração no Sentido de Lebesgue . . . . . . . . . . . . . . . . . . . . . . . . . . . . 914
20.3.1 Funções Mensuráveis e Funções Simples . . . . . . . . . . . . . . . . . . . . . . . 915
20.3.2 A Integral de Lebesgue. Integração em Espaços Mensuráveis . . . . . . . . . . . 921
20.3.3 A Integral de Lebesgue e sua Relação com a de Riemann . . . . . . . . . . . . . 930
20.3.4 Teoremas Básicos sobre Integração e Convergência . . . . . . . . . . . . . . . . . 933
20.3.5 Alguns Resultados de Interesse . . . . . . . . . . . . . . . . . . . . . . . . . . . 936
20.4 Os Espaços Lp e Lp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 938
20.4.1 As Desigualdades de Hölder e de Minkowski . . . . . . . . . . . . . . . . . . . . 941
20.4.2 O Teorema de Riesz-Fischer. Completeza . . . . . . . . . . . . . . . . . . . . . . 945
20.A Demonstração da Proposição 20.3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 946
20.B Caracterizações e Propriedades de Funções Mensuráveis . . . . . . . . . . . . . . . . . . 947
20.C Prova do Lema 20.3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 953
20.D Demonstração de (20.22) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 954
20.E A Equivalência das Definições (20.23) e (20.24) . . . . . . . . . . . . . . . . . . . . . . 955
20.F Prova do Teorema da Convergência Monótona . . . . . . . . . . . . . . . . . . . . . . . 957
20.G Prova do Lema de Fatou . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 958
20.H Prova do Teorema da Convergência Dominada . . . . . . . . . . . . . . . . . . . . . . . 959
20.I Prova dos Teoremas 20.2 e 20.3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 960
20.J Prova das Desigualdades de Hölder e Minkowski . . . . . . . . . . . . . . . . . . . . . . 963
20.K Prova do Teorema de Riesz-Fischer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 965
21 Alguns Tópicos Especiais em Topologia e Análise 968

21.1 Uma Coletânea de Definições . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 968
21.2 A Noção de Topologia Fraca . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 974
12/1195
21.3 A Topologia Produto de Espaços Topológicos . . . . . . . . . . . . . . . . . . . . . . . 975

21.4 O Teorema da Categoria de Baire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 977
21.5 Aproximação de Funções . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 978
21.5.1 Aproximação de Funções Contı́nuas por Polinômios . . . . . . . . . . . . . . . . 978
VI Análise Funcional 985
22 Noções Básicas Sobre Espaços de Hilbert 986

22.1 Aspectos Topológicos Básicos de Espaços de Hilbert . . . . . . . . . . . . . . . . . . . . 986
22.2 Aspectos Geométricos Básicos de Espaços de Hilbert . . . . . . . . . . . . . . . . . . . 988
22.2.1 Bases Ortonormais Completas em Espaços de Hilbert . . . . . . . . . . . . . . . 993
22.3 Funcionais Lineares e o Dual Topológico de um Espaço de Hilbert . . . . . . . . . . . . 1007
22.3.1 O Teorema da Representação de Riesz . . . . . . . . . . . . . . . . . . . . . . . 1008
23 Operadores Lineares Limitados em Espaços de Banach e de Hilbert 1011

23.1 Operadores Lineares em Espaços Vetoriais Normados . . . . . . . . . . . . . . . . . . . 1013
23.1.1 Espaços de Banach de Operadores . . . . . . . . . . . . . . . . . . . . . . . . . . 1017
23.1.2 O Dual Topológico de um Espaço de Banach . . . . . . . . . . . . . . . . . . . . 1021
23.1.3 O Teorema de Hahn-Banach e Algumas Conseqüências do Mesmo . . . . . . . . 1025
23.1.4 O Teorema de Banach-Steinhaus ou Princı́pio de Limitação Uniforme . . . . . . 1031
23.1.5 O Teorema da Aplicação Aberta e o Teorema do Gráfico Fechado . . . . . . . . 1032
23.2 Operadores Limitados em Espaços de Hilbert . . . . . . . . . . . . . . . . . . . . . . . 1040
23.2.1 O Adjunto de um Operador em um Espaço de Hilbert . . . . . . . . . . . . . . . 1042
23.3 Álgebras de Banach e Álgebras C∗ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1050
23.3.1 Álgebras de Banach . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1050
23.3.2 A Inversa de Operadores Limitados . . . . . . . . . . . . . . . . . . . . . . . . . 1053
23.3.3 O Espectro de Operadores em Álgebras de Banach . . . . . . . . . . . . . . . . 1059
23.3.4 O Homomorfismo de Gelfand em Álgebras C∗ . . . . . . . . . . . . . . . . . . . 1069
23.3.5 Raı́zes Quadradas de Operadores em Álgebras de Banach . . . . . . . . . . . . . 1072
23.3.6 Elementos Positivos de Álgebras C∗ . . . . . . . . . . . . . . . . . . . . . . . . . 1073
23.3.7 O Lema da Raiz Quadrada em espaços de Hilbert. A Decomposição Polar . . . 1077
23.4 Um Pouco sobre Estados e Representações de Álgebras C∗ . . . . . . . . . . . . . . . . 1081
23.5 O Espectro de Operadores em Espaços de Banach . . . . . . . . . . . . . . . . . . . . . 1091
23.6 Operadores Compactos em Espaços de Banach e de Hilbert . . . . . . . . . . . . . . . . 1100
13/1195
23.6.1 O Teorema Espectral para Operadores Compactos Auto-adjuntos . . . . . . . . 1112

23.7 O Teorema Espectral para Operadores Limitados Auto-adjuntos em Espaços de Hilbert 1120
23.7.1 O Cálculo Funcional Contı́nuo e o Homomorfismo de Gelfand . . . . . . . . . . 1121
23.7.2 Generalizando o Cálculo Funcional Contı́nuo. As Medidas Espectrais . . . . . . 1123
23.7.3 Medidas com Valores em Projeções Ortogonais . . . . . . . . . . . . . . . . . . . 1133
23.7.4 Os Projetores Espectrais e o Teorema Espectral . . . . . . . . . . . . . . . . . . 1137
23.7.5 A Relevância do Teorema Espectral para a Fı́sica Quântica (um pouco de Fı́sica,
finalmente) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1141
23.A Prova do Teorema 23.18 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1151
24 Noções de Estruturas Algébricas 1155

24.1 Álgebras Universais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1156
24.2 Ação de Uma Álgebra Universal sobre uma Outra Álgebra Universal (*) . . . . . . . . 1163
25 O Limite Indutivo de Álgebras 1168

14/1195
Prefácio
intenção básica destas Notas é fornecer a estudantes de Fı́sica noções matemáticas impor-
tantes para uma melhor compreensão de desenvolvimentos modernos da Fı́sica Teórica e da
Matemática.
De modo geral o texto é de leitura auto-suficiente, mas vez por outra algum estudo complementar
é sugerido. Estas Notas, porém, não são substituto à leitura dos bons livros sobre os assuntos aqui
tratados. Entretanto, procuramos apresentar (muitas vezes em exercı́cios!) o maior número possı́vel
de exemplos e contra-exemplos para as várias situações tratadas de modo a motivar melhor definições
e resultados, o que é menos comum em textos com tratamentos mais sistemáticos. Parte do material
pode ser encontrada em diversas fontes, citadas na bibliografia, mas a apresentação e sua ordem são
próprias. Há também nestas Notas demonstrações do próprio autor de resultados conhecidos que são,
por alguma razão, dificilmente encontradas na literatura.
Fazemos notar que estas notas estão ainda sendo trabalhadas e alguns capı́tulos e seções podem
vir a ser alterados, corrigidos ou acrescidos de material. Além disso, novos capı́tulos serão escritos. O
material já presente é, porém, útil a todos aqueles que queiram iniciar-se nos assuntos aqui expostos.
Versões atualizadas serão colocadas na “rede” (no endereço acima indicado) sempre que possı́vel.
O autor agradece a todos os que apresentarem sugestões. Fabulosas somas em dinheiro são ofere-
cidas a todos aqueles que encontrarem erros no texto. Entre os já aquinhoados encontram-se os Srs.
Matheus Grasselli, Alexandre T. Baraviera, Marcos V. Travaglia, Daniel Augusto Cortez, Djogo F. C.
Patrão, Cléber de Mico Muramoto, Katiúscia Nadyne Cassemiro, Urbano Lopes França Junior, Gus-
tavo Barbagallo de Oliveira, Priscila Vieira Franco Gondeck, Darielder Jesus Ribeiro, Henrique Scemes
Xavier, Daniel Augusto Turolla Vanzella, Leonardo Fernandes Dias da Motta, Krishnamurti José de
Andrade, Pedro Tavares Paes Lopes, Diego Cortegoso Assêncio, Fleury José de Oliveira Filho, Paulo
Henrique Reimberg, Fabı́ola Diacenco Xavier e Márcio André Prieto Aparı́cio Lopez aos quais somos
muito gratos por correções e sugestões.
As Seções 10.B, página 662, e 14.3.1, página 795, são de autoria de Daniel Augusto Cortez, a quem
especialmente agradecemos.
João Carlos Alves Barata São Paulo, 17 de junho de 2005.

Departamento de Fı́sica Matemática do IFUSP
15/1195
“O comportamento de um fı́sico em relação à Matemática é similar a de um ladrão inteligente em

relação ao código penal: ele estuda apenas o suficiente para evitar punições”.
I. M. Gelfand (1913-).
“A mente não é um vaso a ser repleto, mas uma tocha a ser acesa”.
Plutarco (46?-120).
“Talvez eu não tenha tido êxito em fazer as coisas difı́ceis tornarem-se fáceis, mas pelo menos eu nunca
fiz um assunto fácil tornar-se difı́cil”.
F. G. Tricomi (1897-1978).
“In science, self-satisfaction is death. Personal self-satisfaction is the death of the scientist. Collective
self-satisfaction is the death of the research. It is restlessness, anxiety, dissatisfaction, agony of mind
that nourish science”.
Jacques Lucien Monod (1910-1976), in New Scientist, 1976.
“Não existe nenhuma categoria da Ciência à qual se possa dar o nome de Ciência Aplicada. O que
existe são a Ciência e as aplicações da Ciência, intimamente ligadas, como frutos à árvore que os
gerou”.
Louis Pasteur (1822-1895), in “Pourquoi la France n’a pas trouvé d’hommes supérieurs au moment du
péril”, Revue Scientifique (Paris, 1871).
16/1195
Notação e Advertências
Para facilitar a consulta e a leitura, listamos aqui sem muitos comentários um pouco da notação
que empregaremos nestas Notas.
Se z é um número complexo denotaremos seu complexo conjugado por z. A notação z ∗ (mais

comum em textos de Fı́sica) pode ocorrer mais raramente.
O sı́mbolo A := B ou B =: A denota que A é definido pela expressão B. O sı́mbolo A ≡ B indica

que A e B são duas notações distintas para o mesmo objeto.
Se x = (x1 , . . . , xn ) e y = (y1 , . . . , yn ) são vetores reais com n componentes (ou seja, elementos
de n ) então definimos

hx, yi := x1 y1 + · · · + xn yn .

n
Trata-se do produto escalar usual em .
Se x = (x1 , . . . , xn ) e y = (y1 , . . . , yn ) são vetores complexos com n componentes (ou seja,

elementos de n ) então definimos
hx, yi := x1 y1 + · · · + xn yn .
n
Trata-se do produto escalar usual em .
Se x = (x1 , . . . , xn ) e y = (y1 , . . . , yn ) são vetores complexos com n componentes (ou seja,

elementos de n ) então definimos
hx, yi
:= x1 y1 + · · · + xn yn .
n
Trata-se de uma forma bilinear em .
Mat( , n) ou Mat(n, ) designa o conjunto de todas as matrizes reais n × n. Mat( , n) ou

Mat(n, ) designa o conjunto de todas as matrizes complexas n × n.

T
Se A é um elemento de Mat( , n) ou de Mat( , n), então

A designa a matriz transposta de

T
A, ou seja, a matriz cujos elementos de matriz ij são A ij = Aji .
Se A é um operador linear em um espaço vetorial complexo (com um certo produto escalar),

seu adjunto é denotado por A∗ . Em textos de Fı́sica é mais comum denotá-lo por A† , mas não
usaremos isso aqui.
Assim, se A ∈ Mat( , n), então A∗ será a adjunta de A (em relação ao produto escalar usual,
acima). O elemento de matriz ij de A∗ será (A∗ )ij = Aji .
Denotaremos o operador identidade agindo em um espaço vetorial (a matriz identidade, agindo

em um espaço vetorial de dimensão finita) pelo sı́mbolo . Esse sı́mbolo também representará a
unidade de uma álgebra.
17/1195
Designaremos um produto escalar entre dois vetores u e v sempre por hu, vi e nunca por (u, v),
para não causar confusão com a notação para par ordenado. Outra notação possı́vel é aquela
empregada freqüentemente em textos de Mecânica Quântica: hu | vi, mas faremos raramente uso
dessa notação.
Ainda sobre produtos escalares, seguiremos sempre a convenção dos textos de Fı́sica: um produto
escalar em um espaço vetorial sobre os complexos é linear em relação ao segundo argumento e
antilinear em relação ao primeiro. Assim, se α e β são números complexos, teremos hαu, βvi =
αβhu, vi. Textos de Matemática adotam por vezes a convenção oposta (ou mesmo ambas!).
Sobre o emprego das palavras função, aplicação, mapeamento, mapa, funcional, operador, operação,
produto e forma, que por vezes causam perplexidade em estudantes, remetemos ao comentário à
página 22.
Dado um conjunto X 6= ∅, denota-se por (X) a coleção de todos os sub-conjuntos de X. (X)

é denominado o conjunto das partes de X.
A topologia usual da reta real será denotada aqui por τ .

A σ-álgebra de Borel de será (quase sempre) denotada aqui por M[τ ].

A σ-álgebra dos sub-conjuntos de mensuráveis por Lebesgue será (quase sempre) denotada
aqui por MµL .
Para x ∈ , o sı́mbolo bxc designa o maior inteiro menor ou igual a x. O sı́mbolo dxe designa o

menor inteiro maior ou igual a x.
Há ainda nestas Notas um problema não totalmente sanado quando ao conjunto dos números
naturais . Em algumas seções adotou-se 0 ∈ , ou seja,
= {0, 1, 2, 3, . . .} em outras,

adotou-se 0 6∈ , ou seja, = {1, 2, 3, . . .}. Esperamos que isso seja definitivamente corrigido

futuramente. Por ora, pedimos atenção ao leitor.
O sı́mbolo 2 indica o fim de um enunciado. O sı́mbolo indica o fim de uma demonstração. O

sı́mbolo 6 indica o fim do enunciado de um exercı́cio. O sı́mbolo ◊ indica o fim do enunciado de
um exemplo.
B(X) designa o conjunto de operadores limitados agindo em um espaço de Banach X. B(H)

designa o conjunto de operadores limitados agindo em um espaço de Hilbert H.
C(L) designa o conjunto de todas as funções contı́nuas (reais ou complexas, dependendo do caso),
definidas em L (na topologia que se estiver considerando em L).
B(L) designa a coleção de todos os conjuntos Borelianos de L (em relação à topologia que se
estiver considerando em L). Bl (L) designa a coleção de todas as funções Borelianas (reais ou
complexas, dependendo do caso), definidas em L.
O domı́nio de um operador T (agindo em um espaço de Banach ou de Hilbert) será denotado

por D(T ) ou por Dom(T ). A imagem (“range”) de T será denotada por R(T ) ou por Ran (T )
ou, mais raramente, por Im (T ), mas essa última notação pode causar confusão com a da parte
18/1195
imaginária de um número complexo ou mesmo com a da parte imaginária de um operador agindo

em um espaço de Hilbert: Im (T ) := 2i1 (T − T ∗ ).
As noções de propriedade válida quase em toda parte e de propriedade genérica são definidas nas
páginas 858 e 970, respectivamente.
• Intervalos
Ainda não introduzimos os números reais nem a relação de ordem entre eles mas, como essas noções
são conhecidas, vamos colocar aqui uma palavra sobre a nomenclatura usada para descrever intervalos
da reta real. Para a < b ∈ o conjunto

(a, b) = {x ∈ , com a < x < b}
é dito ser um intervalo aberto. Para a ≤ b ∈ o conjunto
[a, b] = {x ∈ , com a ≤ x ≤ b}
é dito ser um intervalo fechado. Para a < b ∈ os conjuntos
[a, b) = {x ∈ , com a ≤ x < b}
e
(a, b] = {x ∈ , com a < x ≤ b}
são ditos ser intervalos semi-abertos (ou semi-fechados).
É importante dizer que a nomenclatura “aberto” ou “fechado” acima é usada independentemente
da topologia usada em (a noção de topologia será introduzida adiante).

Parte I
Capı́tulos Introdutórios
19
Capı́tulo 1
Noções Básicas
Conteúdo
1.1 Conjuntos, Relações e Funções . . . . . . . . . . . . . . . . . . . . . . . . . 21

1.1.1 Relações e Funções . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
1.1.2 Relações de Ordem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
1.1.3 Cardinalidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
1.1.4 Ínfimos e Supremos de Famı́lias de Conjuntos . . . . . . . . . . . . . . . . . . 42
1.2 Estruturas Algébricas Básicas . . . . . . . . . . . . . . . . . . . . . . . . . 44
1.2.1 Semi-grupos, Monóides e Grupos . . . . . . . . . . . . . . . . . . . . . . . . . 45
1.2.2 Corpos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
1.2.3 Espaços Vetoriais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
1.2.4 Anéis, Álgebras e Módulos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
1.2.5 Mais sobre Anéis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
1.2.6 Ações e Representações . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
1.2.7 Morfismos, Homomorfismos, Epimorfismos, Isomorfismos, Monomorfismos, En-
domorfismos e Automorfismos . . . . . . . . . . . . . . . . . . . . . . . . . . 64
1.3 Cosets, Sub-Grupos Normais e o Grupo Quociente. O Centro de um
Grupo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
1.3.1 Cosets . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
1.3.2 Sub-Grupos Normais e o Grupo Quociente . . . . . . . . . . . . . . . . . . . 68
1.3.3 O Centro de um Grupo. Centralizadores e Normalizadores . . . . . . . . . . . 70
1.4 O Produto Direto e o Produto Semi-Direto de Grupos . . . . . . . . . . . 72
1.5 Somas Diretas e Produtos Tensoriais . . . . . . . . . . . . . . . . . . . . . . 75
1.5.1 Discussão Informal Preliminar . . . . . . . . . . . . . . . . . . . . . . . . . . 75
1.5.2 Grupos Gerados por Conjuntos. Grupos Gerados por Relações . . . . . . . . 78
1.5.3 Somas Diretas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
1.5.4 Produtos Tensoriais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
1.5.5 Produtos Diretos e Somas Diretas Arbitrários . . . . . . . . . . . . . . . . . . 82
1.5.6 Módulos e Derivações . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
1.6 Tópicos Especiais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
1.6.1 O Grupo de Grothendieck . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
1.6.2 Grupóides . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86
1.6.3 Quatérnions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
20
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 1 21/1195
ste capı́tulo introdutório pretende (re)apresentar ao leitor uma série de noções matemáticas
básicas abrangendo rudimentos da teoria dos conjuntos e algumas estruturas algébricas. O
objetivo não é um tratamento extensivo dos diversos assuntos, já que vários deles serão desen-
volvidos em capı́tulos futuros. Trata-se quase de um guia de consulta onde são apresentadas,
junto com exemplos simples, várias noções e definições básicas que utilizaremos. O estudante deve
retornar a este capı́tulo sempre que necessário.
1.1 Conjuntos, Relações e Funções

Partiremos do pressuposto de serem familiares as noções básicas envolvendo conjuntos, como a noção
de pertinência x ∈ C, de união de dois conjuntos A ∪ B e de interseção de dois conjuntos A ∩ B.
Para A, B ⊂ X denotamos por A \ B a chamada diferença entre os conjuntos A e B, a saber
A \ B := {x ∈ X tal que x ∈ A mas x 6∈ B}. (1.1)
Por vezes usa-se a notação A − B para A \ B. Para A ⊂ X denota-se por A c o chamado complemento
de A em relação a X: Ac := X \ A. Note-se que ao usar-se o sı́mbolo Ac deve estar subentendido qual
o conjunto X ao qual o complemento se refere. É fácil ver que se A, B ⊂ X então A \ B = B c ∩ A.
Dizemos que um conjunto B ⊂ A é um subconjunto próprio de A se A \ B 6= ∅, ou seja, se houver
elementos em A que não estão em B.
Se A e B são conjuntos e A ∩ B = ∅ então A ∪ B é dita ser uma união disjunta de A e B.
Se X é um conjunto denota-se por (X) a coleção de todos os subconjuntos de X. (X) é por
vezes chamado de conjunto das partes de X. Por convenção adota-se sempre que ∅ ∈ (X). Assim,
dizer que A ⊂ X equivale a dizer A ∈ (X).
Por A4B denota-se a chamada diferença simétrica entre A e B:
A4B := (A ∪ B) \ (A ∩ B). (1.2)
E. 1.1 Exercı́cio. Mostre que A4B = B4A e que (A4B)4C = A4(B4C). 6
• Pares Ordenados
Um conceito básico importante em Matemática é o de par ordenado. O conceito de par ordenado

(a, b) formado por dois elementos genéricos a, b ∈ X é intuitivo. A intuição é que entende-se como par
ordenado uma lista de dois elementos sendo que um deles assume a posição de “primeiro” elemento
da lista (no caso, a) e o outro a de “segundo” (no caso, b). Formalmente define-se (a, b) como sendo
o conjunto {a, {b}}. Esta definição formal corresponde à intuição pois, no conjunto C = {a, {b}}, há
uma distinção entre o papel de a e de b, dado que a é um elemento do conjunto C, enquanto que b
é um elemento de um subconjunto de C, a saber do conjunto C \ {a}. Apesar de existir a definição
formal acima, recomenda-se ao estudante fiar-se inicialmente na intuição por trás do conceito.
Dados dois conjuntos A e B definimos por A × B o conjunto de todos os pares ordenados (a, b)
sendo a ∈ A e b ∈ B. O conjunto A × B é chamado de produto Cartesiano1 de A e B. Note que, em
geral, A × B 6= B × A. Por quê?
Mais adiante apresentaremos uma generalização da noção de produto Cartesiano de conjuntos.
1.1.1 Relações e Funções
• Relações
Sejam A e B conjuntos e seja o produto Cartesiano A × B. Um subconjunto de A × B é dito ser

uma relação binária, ou simplesmente relação entre A e B.
Exemplo. Seja A o conjunto de homens vivos e B o conjunto de mulheres vivas e seja R ⊂ A × B
o conjunto R := {(a, b), a é irmão de b}. R representa uma relação (de irmandade) entre homens e
mulheres.
Outros exemplos virão abaixo.
Dada uma relação G ⊂ A × B entre conjuntos A e B há duas noções importantes associadas: a de
domı́nio da relação e a de imagem da relação. Define-se por domı́nio de G o conjunto
Dom(G) := {a ∈ A tal que (a, b) ∈ G para algum b ∈ B}. (1.3)
Define-se por imagem de G o conjunto
Im(G) := {b ∈ B tal que (a, b) ∈ G para algum a ∈ A}. (1.4)
Note-se que Dom(G) ⊂ A e que Im(G) ⊂ B.
• Funções
Este é talvez o mais importante exemplo de relação. Sejam A e B conjuntos e F uma relação entre
A e B. Então, a relação F é dita ser uma função de A em B se Dom(F ) = A e se (a, b) ∈ F e
(a, b0 ) ∈ F só for possı́vel caso b = b0 . Em outras palavras, a cada elemento a de A a função associa um
e apenas um elemento b de B que faz o papel de segundo elemento do par ordenado (a, b). Este segundo
elemento associado pela função F ao elemento a, é mais conveniente denotá-lo por F (a). Assim, uma
função é o conjunto de pares {(a, F (a)) ∈ A × B, a ∈ A}. Freqüentemente denotamos uma função F
de A em B por F : A → B.
• Aplicações, Mapeamentos, Mapas, Funcionais, Operadores, Operações, Produtos etc.
Muito freqüentemente usam-se as palavras aplicação, mapeamento, mapa, funcional, operador,

operação, produto, transformação, forma, e talvez ainda outras, para designar certos tipos de funções
entre conjuntos. Essa abundância de palavras causa freqüentemente confusão e mesmo perplexidade
1
Assim chamado em honra a René Descartes (1596-1650). O adjetivo Cartesiano provem da latinização de seu nome
como Cartesius.
em estudantes recém-iniciados mas, em essência, todos esses objetos são funções, no sentido abstrato
que definimos acima.
O que difere seu uso é por vezes a tradição de certas áreas e os tipos de conjuntos que as funções
têm como domı́nio e imagem. A palavra “função”, propriamente, é mais freqüentemente empregada
quando se trata de funções numéricas, por exemplo de em ou de em . A palavra “funcional” 2

é freqüentemente empregada quando se trata de funções que levam vetores ou funções numéricas em
números. Um exemplo deR funcional é a função que leva funções reais contı́nuas f nas suas integrais
1
no intervalo [0, 1]: f 7→ 0 f (x)dx. A palavra “operador” tipicamente designa funções lineares entre
espaços vetoriais (como, por exemplo, as matrizes, que são funções lineares entre espaços vetoriais de
dimensão finita). “Produtos” ou “operações” freqüentemente designam funções de C × C em C, para
um conjunto C não-vazio qualquer, ou seja, funções de duas variáveis em um conjunto C, assumindo
valores no próprio conjunto C. A palavra “forma” por vezez designa certas funções bi-lineares de
V × V em ou , sendo V um espaço vetorial. As palavras “aplicação”, “mapa” e “mapeamento” são

freqüentemente empregadas para designar funções em áreas como Topologia, Geometria Diferencial ou
Sistemas Dinâmicos.
Certas palavras são empregadas para designar certas funções com propriedades especiais. Um
“homeomorfismo”, por exemplo, é uma função bijetora entre dois espaços topológicos que seja contı́nua
e cuja inversa seja também contı́nua. Um “difeomorfismo” é um homeomorfismo entre duas variedades
diferenciáveis que seja infinitamente diferenciável. Há ainda vários outros “morfismos”, como discutido
na Seção 1.2.7, à página 64.
Em verdade, é conveniente dispormos por vezes de uma certa variedade de palavras diferentes
simplesmente para evitarmos o emprego monótono e descolorido da palavra “função”. Com um pouco
de ironia, lembremos por fim a definição circular de Edward Teller: “An intelectual is someone who
thinks the same things and uses the same words as other intelectuals”.
• Imagens e pré-imagens de funções
Seja f : X → Y uma função. Se A ⊂ X, definimos

f (A) := {y ∈ Y | y = f (x) para algum x ∈ A}.
Se B ⊂ Y , definimos
f −1 (B) := {x ∈ X| f (x) ∈ B}.
f (A) é dita ser a imagem de A por f e f −1 (B) é dita ser a pré-imagem de B por f .
O uso do sı́mbolo f −1 para designar pré-imagem f −1 (B) de um conjunto B é uma escolha infeliz
(mas universalmente aceita), pois pode causar confusão com a noção de função inversa de f , que pode
não estar definida. O estudante deve estar atento.
• Funções Sobrejetoras, Injetoras e Bijetoras
Uma função F : A → B é dita ser sobrejetora se Im(F ) = B. Uma função F : A → B é dita

ser injetora ou injetiva se a cada b ∈ Im(F ) existir um e somente um elemento a ∈ Dom(F ) tal que
(a, b) ∈ F . Uma função que for sobrejetora e injetora é dita ser bijetora.
2
A palavra “funcional” foi empregada pela primeira vez na Matemática por Jacques Salomon Hadamard (1865-1963).
Seja uma função bijetora F ⊂ A × B. Então, a relação F −1 ⊂ B × A dada por
F −1 = {(b, a) tal que (a, b) ∈ F }
é, em verdade, uma função denominada função inversa de F . É claro que (F −1 )−1 = F .
• Famı́lias de Conjuntos
Seja X um conjunto não-vazio. Uma coleção F não-vazia de sub-conjuntos de X é por vezes dita
ser uma famı́lia de conjuntos (que são sub-conjuntos de algum X fica subentendito). Se F for uma
famı́lia de conjuntos e existirem um conjunto não-vazio I e uma função bijetora f : I → F, então
dizemos que a famı́lia F é indexada por I e os elementos de I são denominados ı́ndices. Se λ é um
ı́ndice, designaremos sua imagem pela função f simplesmente por Aλ ∈ F.
Uma indexação de uma coleção F não-vazia de sub-conjuntos de X sempre existe: podemos tomar
I = F e f a função identidade.
• Operações básicas com famı́lias de conjuntos
Sejam X e I conjuntos arbitrários não-vazios e seja associado a cada α ∈ I um sub-conjunto A α de

X. O conjunto I será freqüentemente denominado conjunto ou famı́lia de ı́ndices. Vamos introduzir
alguma notação a ser usada em todas estas Notas. Definimos
[
Aα := {x ∈ X tal que x ∈ Aα para algum α ∈ I} (1.5)
α∈I
e \
Aα := {x ∈ X tal que x ∈ Aα para todo α ∈ I}. (1.6)
α∈I
As definições acima implicam as importantes propriedades descritas na proposição que segue, cuja
demonstração deixamos como exercı́cio.
Proposição 1.1 Sejam B ⊂ X, X não-vazio, e {Aα ⊂ X, α ∈ I} uma coleção arbitrária de subcon-
juntos de X. Então valem as seguintes relações:
! !
[ \ \ [
B\ Aα = (B \ Aα ) , B\ Aα = (B \ Aα ) , (1.7)
α∈I α∈I α∈I α∈I
! !
\ \ [ [
Aα \B = (Aα \ B) , Aα \B = (Aα \ B) , (1.8)
! !
\ \ [ [
B∪ Aα = (B ∪ Aα ) , B∩ Aα = (B ∩ Aα ) , (1.9)
! !
[ [ \ \
B∪ Aα = (B ∪ Aα ) , B∩ Aα = (B ∩ Aα ) . (1.10)
As relações, (1.7) implicam

!c !c
[ \ \ [
Aα = (Aα )c , Aα = (Aα )c . (1.11)
• Propriedades elementares de funções
As seguintes proposições são importantes e freqüentemente usadas:

Proposição 1.2 Seja f : X → Y uma função e seja Λ um conjunto de ı́ndices. Se A λ ⊂ X para todo
λ ∈ Λ, então !
[ [
f Aλ = f (Aλ ) , (1.12)
λ∈Λ λ∈Λ
mas !
\ \
f Aλ ⊂ f (Aλ ) . (1.13)
λ∈Λ λ∈Λ
Se Bλ ⊂ Y para todo λ ∈ Λ, então

!
[ [
f −1 Bλ = f −1 (Bλ ) , (1.14)
λ∈Λ λ∈Λ
e !
\ \
f −1 Bλ = f −1 (Bλ ) . (1.15)
λ∈Λ λ∈Λ
2
A demonstração é elementar e é deixada como exercı́cio.

T T
EmT(1.13) não se pode provar a igualdade entre f λ∈Λ A λ e λ∈Λ f (Aλ ) e a razão é a seguinte:
se y ∈ λ∈Λ f (Aλ ) então y T ∈ f (Aλ ) para todo λ ∈ Λ. Assim, em cada Aλ existe um xλ com y = f (xλ ).
Mas pode ocorrer que em λ∈Λ Aλ não exista nenhum elemento x com y = f (x). O seguinte exemplo
ilustra isso. Seja f (x) = x2 definida em [−1, 1]. Tomemos A1 = [−1, 0], A2 = [0, 1]. Então,
f (A1 ) = [0, 1] e f (A2 ) = [0, 1]. Portanto, f (A1 ) ∩ f (A2 ) = [0, 1]. Porém, f (A1 ∩ A2 ) = f ({0}) = {0}.
apesar disso, vale o seguinte:
Proposição 1.3 Se f : X → Y é injetora então, se Aλ ⊂ X para todo λ ∈ Λ, vale
!
\ \
f Aλ = f (Aλ ) . (1.16)
λ∈Λ λ∈Λ
2

Em relação às operações de complemento e diferença de conjuntos temos o seguinte:
Proposição 1.4 Se f : X → Y é uma função e B, C ⊂ Y , então
c
f −1 (B c ) = f −1 (B) ,
f −1 (B \ C) = f −1 (B) \ f −1 (C) .
Aqui, B c = Y \ B. Fora isso, se f : X → Y é uma função injetora e sobrejetora e A, B ⊂ X, então
f (Ac ) = (f (A))c ,
f (A \ B) = f (A) \ f (B) .
Aqui, Ac = X \ A. 2
• A União Disjunta de uma Famı́lia Arbitrária de Conjuntos
Sejam, como acima, um conjunto I (não necessariamente finito ou contável) e Ai , i ∈ I, conjuntos

indexados por elementos de I. Os conjuntos Ai podem eventualmente possuir elementos comuns, ou
seja, pode haver elementos x que comparecem
S em vários conjuntos Ai . Porém, quando formamos a
união usual dos conjuntos Ai , ou seja, i∈I Ai , cada elemento x comparece apenas uma vez, mesmo que
pertença a vários Ai ’s. Por vezes estamos interessados em formar um outro tipo de união de conjuntos
onde essa possı́vel multiplicidade de cada elemento x possa ser levada em conta. A definição abaixo é,
para tal, das mais adequadas.
G
Definimos a união disjunta da famı́lia de conjuntos Ai como sendo o conjunto, denotado por Ai ,
i∈I
dado pela união de todos os pares ordenados (a, i) com i ∈ I, a ∈ Ai , ou seja,
G [ [
Ai := (a, i) .
i∈I i∈I a∈Ai
Uniões disjuntas desempenham um papel em várias áreas da Matemática. Na Geometria Diferencial,

por exemplo, o chamado fibrado tangente de uma variedade diferenciável é definido como a união
disjunta dos espaços tangentes à variedade.
• Extensões de Funções
Seja F : A → B uma função e suponha que A seja subconjunto de um outro conjunto A0 . Uma
função G : A0 → B é dita ser uma extensão de F se F e G coincidirem na parte comum de seus
domı́nios, que vem a ser o conjunto A, ou seja, se G(a) = F (a) para todo a ∈ A.
Se lembrarmos que uma função F : A → B é um subconjunto de A×B e que uma função G : A0 → B
é um subconjunto de A0 × B e se notarmos que A × B ⊂ A0 × B caso A ⊂ A0 , então uma definição
alternativa de extensão seria seguinte: uma função G é uma extensão de uma função F se F ⊂ G,
ambas entendidas como subconjuntos de A0 × B.
E. 1.2 Exercı́cio. Verifique a equivalência dessas duas definições do conceito de extensão de funções.
6
Como veremos, o conceito de extensão de funções é freqüentemente empregado na teoria dos ope-
radores lineares em espaços de Hilbert.
• O Produto Cartesiano de uma Famı́lia Arbitrária de Conjuntos
Já discutimos o conceito de produto Cartesiano de dois conjuntos A e B: A × B e com ele introdu-
zimos a noção de função. De posse dessa noção podemos, com vistas a uma generalização, apresentar
uma outra visão do conceito de produto Cartesiano de dois conjuntos, a saber, podemos dizer que A×B
é o conjunto de todas as funções f : {1, 2} → A ∪ B tais que f (1) ∈ A e f (2) ∈ B. A idéia é dizer que
cada par ordenado (a, b) com a ∈ A e b ∈ B é uma função onde o primeiro membro do par é a imagem
de 1 (por ser o primeiro) e o segundo a imagem de 2 (por ser o segundo). Essa idéia permite definir pro-
dutos Cartesianos de um número finito n de conjuntos A1 , A2 , . . . , An denotado por A1 × A2 × . . . × An
n
[
como sendo o conjunto de todas as funções f : {1, 2, . . . , n} → Aj satisfazendo f (j) ∈ Aj para todo
j=1
n
[
j ∈ {1, . . . , n}. A função f tem, por assim dizer, o papel de ordenar os elementos de Aj tomando-se
j=1
sucessivamente um elemento de cada Ai por vez. O produto Cartesiano A1 × A2 × . . . × An é assim
entendido como o conjunto formado por todas as ênuplas ordenadas (a1 , . . . , an ) com ai ∈ Ai .
Essa idéia pode ser generalizada ainda mais. Sejam I um conjunto não-vazio (não necessariamente
finito ou contável) e Ai , i ∈ I, conjuntos não-vazios indexados por elementos de I. Definimos então o
produto Cartesiano da famı́lia de conjuntos {Ai , i ∈ I}, denotado por
Y
Ai
i∈I
[
como sendo o conjunto de todas as funções f : I → Aj tais que f (x) ∈ Ax para todo x ∈ I. O
j∈I
Axioma da Escolha (página
Q 27) consiste na afirmação (ou melhor dizendo, na suposição, já que se trata
de um axioma) que i∈I Ai é não-vazio.
Se por ventura todos os conjuntos Ai forem idênticos então denota-se o produto Cartesiano acima
por AI . Assim, AI denota o conjunto de todas as funções de I em A.
{1, 2}
Desta forma ×
e
são duas notações distintas para o mesmo objeto, que também é
denotado simplesmente por
2
, como se sabe. Genericamente d designa {1,...,d} para d ∈ , d > 0.

• O Axioma da Escolha
O Axioma da Escolha consiste na seguinte afirmativa:

Seja As , s ∈ I, uma famı́lia de conjuntos não-vazios, onde I é um conjunto arbitrário (não-vazio)
de ı́ndices. Então, podemos construir um conjunto A tomando (“escolhendo”)[ um elemento a s de cada
conjunto As . Em termos mais técnicos, o axioma diz que há funções F : I → As tais que F (s) ∈ As
s∈I
Q
para todo s ∈ I, ou seja, o produto Cartesiano s∈I As é não vazio3 .
A primeira vista esse axioma parece constituir-se de uma obviedade. Sucede, porém, que, sobretudo
pelo fato de o conjunto I de ı́ndices ser arbitrário (podendo ser até um conjunto infinito e não-contável),
a afirmativa que o mesmo contém não pode ser derivada de princı́pios mais básicos. O axioma faz uma
afirmação de existência (de uma função como a F , ou de um conjunto como A formado por elementos
escolhidos de cada As ) que, geralmente, não pode ser demonstrada construtivamente, ou seja, por
exibição explı́cita de uma tal função F ou de um conjunto A.
Faremos uso explı́cito do Axioma da Escolha adiante quando exibirmos exemplos de conjuntos não-
mensuráveis. O Axioma da Escolha foi originalmente formulado por Zermelo4 em 1904 como parte da
sua demonstração do chamado Princı́po do Bom-Ordenamento, Teorema 1.1, página 34. Vide [50].
Uma tı́pica situação na qual se faz uso do Axioma da Escolha ocorre quando são dados um conjunto
X e uma uma relação de equivalência E em X e constrói-se um conjunto A ⊂ X tomando-se um
representante de cada classe de equivalência de X por E.
Nem sempre é possı́vel exibir explicitamente os elementos de A, mas assumimos (via Axioma da
Escolha) que um tal conjunto existe. Para ter-se em mente um caso onde uma tal situação ocorre,
tome-se o exemplo dado em (1.18), página 29.
• Relações de Equivalência
Outro tipo importante de relação é formado pelas chamadas relações de equivalência. Uma relação
E ⊂ A × A é dita ser uma relação de equivalência em um conjunto não-vazio A se os seguintes quesitos
forem satisfeitos:
1. (a, a) ∈ E para todo a ∈ A.

2. (a, b) ∈ E implica que (b, a) ∈ E.
3. (a, b) ∈ E e (b, c) ∈ E implicam que (a, c) ∈ E.
Se o par (a, b) pertence a uma relação de equivalência E então a e b são ditos serem equivalentes
E
segundo E. Quase sempre usa-se a notação a ∼ b, ou simplesmente a ∼ b, para indicar que dois
elementos são equivalentes segundo uma relação de equivalência dada.
Seja A um conjunto e E ⊂ A × A uma relação de equivalência em A. Para cada a ∈ A podemos
definir o conjunto
E(a) := {a0 ∈ A tal que (a, a0 ) ∈ E}. (1.17)
Esse conjunto é chamado de classe de equivalência de a (pela relação de equivalência E).
E. 1.3 Exercı́cio. Seja A um conjunto e E ⊂ A × A é uma relação de equivalência em A. Suponha que

a, b ∈ A e que a ∼ b segundo E. Prove que E(a) = E(b). 6
E. 1.4 Exercı́cio importante. Prove que se A é um conjunto e E ⊂ A × A é uma relação de equivalência

em A então A é a união disjunta de classes de equivalência de seus elementos. 6
3
Q
Para a definição do produto Cartesiano s∈I As , vide página 27.
4
Ernst Friedrich Ferdinand Zermelo (1871-1953).
E. 1.5 Exercı́cio. Seja o conjunto dos números reais e seja a relação W ⊂ × definida por
W := {(x, y) ∈ × tal que x − y ∈ }, (1.18)
onde é o conjunto dos números racionais. Prove que W é uma relação de equivalência. 6
• Relações de Compatibilidade
Seja P um conjunto. Uma relação de compatibilidade em P é um conjunto C ⊂ P × P com as

seguintes propriedades:
1. Se γ e γ 0 são tais que (γ, γ 0 ) ∈ C, então (γ 0 , γ) ∈ C.
2. Para todo γ ∈ P vale (γ, γ) 6∈ C.
Para uma dada relação de compatibilidade C denotamos γ ∼C γ 0 caso (γ, γ 0 ) ∈ C e dizemos que
γ e γ 0 são C-compatı́veis. Caso contrário, denotamos γ 6∼C γ 0 se (γ, γ 0 ) 6∈ C e dizemos que γ e γ 0 são
C-incompatı́veis.
Se uma dada relação C é subentendida, denotamos simplesmente γ ∼ γ 0 caso (γ, γ 0 ) ∈ C e dizemos
simplesmente que γ e γ 0 são compatı́veis.
Relações de compatibilidade são importantes na Mecânica Estatı́stica, especialmente nas chamadas
expansões de polı́meros e de “clusters”.
Exemplo. Seja X um conjunto não-vazio e P = (X) \ {∅}, a coleção de todos os subconjuntos
não-vazios de X. Uma relação de compatibilidade em P é a seguinte: A ∼ B ⇐⇒ A ∩ B = ∅.
Verifique.
1.1.2 Relações de Ordem

Seja X um conjunto não-vazio. Uma relação R ⊂ X × X é dita ser uma relação de ordem parcial em
X, ou simplesmente uma relação de ordem em X, se as seguintes condições forem satisfeitas:
1. Para todo a ∈ X tem-se que (a, a) ∈ R.
2. Se (a, b) ∈ R e (b, a) ∈ R então forçosamente a = b.
3. Se (a, b) ∈ R e (b, c) ∈ R então (a, c) ∈ R.
Se X possui uma ordem parcial R, X é chamado de conjunto parcialmente ordenado por R. Em

textos matemáticos em lı́ngua inglesa, conjuntos parcialmente ordenados são freqüêntemente denomi-
nados posets (de “partially ordered sets”). A noção de conjunto parcialmente ordenado foi introduzida
por Hausdorff5
5
Felix Hausdorff (1868-1942). Hausdorff foi um dos criadores da Topologia e da moderna Teoria dos Conjuntos.
Perseguido pelo nacional-socialismo, suicidou-se em 1942 para evitar ser enviado a um campo de concentração.
Exemplo. Seja X um conjunto e (X) a coleção de todos os sub-conjuntos de X. Podemos estabe-

lecer em (X) uma relação R do seguinte tipo: para A, B ⊂ X tem-se (A, B) ∈ R se A ⊂ B. Como
exercı́cio deixamos ao estudante mostrar que esta é uma relação de ordem parcial de acordo com a
definição acima. Este exemplo ilustra também por que chamar tal relação de ordem de “parcial”. A
razão é que nem todo par (A, B) é elemento de R pois, para dois conjuntos A e B arbitrários, nem
sempre vale que A ⊂ B ou que B ⊂ A (por exemplo se A ∩ B = ∅).
Em função da analogia com essa relação de ordem usual dos números reais é costume, dada uma
relação de ordem R qualquer, indicar que (a, b) ∈ R através da notação a b. Por vezes, o sı́mbolo
≤ é também usado, mas tentaremos empregá-lo apenas para denotar a relação de ordem usual entre
números reais.
• Relações de Ordem Total
Outro conceito importante é o de relação de ordem total. Uma ordem parcial R em um conjunto X
é dita ser uma relação de ordem total se para todo a, b ∈ X tem-se que (a, b) ∈ R ou que (b, a) ∈ R.
Se X possui uma relação de ordem total R então X é dito ser totalmente ordenado ou linearmente
ordenado. Assim, se X é um conjunto dotado de uma relação de ordem parcial, dizemos que um
sub-conjunto A ⊂ X é linearmente ordenado se a b ou b a para todo a, b ∈ A.
• Exemplos
Exemplo. Seja o conjunto de números reais e a relação de ordem (x, y) ∈ R se x − y for um

número negativo ou nulo (ou seja, se x ≤ y). Mostre que essa é uma relação de ordem total em .
Contra-exemplo. Seja C um conjunto não-vazio qualquer. Então, (C) é ordenado pela inclusão de
conjuntos: A B se e somente se A ⊂ B. Porém (C) não é linearmente ordenado pois se A ∩ B = ∅
não podemos dizer que A B nem que B A.
2 3
E. 1.6 Exercı́cio. Você consegue construir uma relação de ordem em ou em ? E uma relação de
ordem total? 6
• Mais Exemplos
Seja o conjunto dos números naturais . Podemos estabelecer em a relação de ordem usual onde

dizemos que x ≤ y se x − y for um número negativo ou nulo. Esta relação é uma relação de ordem
total. O leitor não deve pensar que essa é a única relação de ordem total existente em . Um outro
exemplo é o seguinte.
Vamos estabelecer uma relação de ordem em que denotaremos pelo sı́mbolo p−i . Sejam a,

b ∈ . Se a e b forem pares dizemos que a p−i b se a ≤ b. Se a e b forem ı́mpares dizemos que a p−i b

se a ≤ b. Se a é par e b é ı́mpar então dizemos sempre que a p−i b.
E. 1.7 Exercı́cio. Mostre que a relação p−i estabelece uma relação de ordem total em . 6
Um exemplo análogo pode ser construı́do em . Vamos estabelecer uma relação de ordem em

que denotaremos pelo sı́mbolo r−i . Sejam x, y ∈ . Se x e y forem racionais dizemos que x r−i y se

x ≤ y. Se x e y forem irracionais dizemos que x r−i y se x ≤ y. Se x é racional e y é irracional então

dizemos sempre que x r−i y.
E. 1.8 Exercı́cio. Mostre que a relação r−i estabelece uma relação de ordem total em . 6
• Ordem Lexicográfica
É possı́vel estabelecer uma relação de ordem total em 2 da seguinte forma: dizemos que (x1 , x2 ) L

(y1 , y2 ) se x1 < y1 ou se x1 = y1 e x2 ≤ y2 . Essa relação de ordem é denominada relação de ordem

lexicográfica de 2 .
Essa definição pode ser facilmente generalizada. Seja X um conjunto totalmente ordenado por uma
relação de ordem total X . Então, X n pode ser totalmente ordenado dizendo-se (x1 , . . . , xn ) L
(y1 , . . . , yn ) se houver um j ∈ {1, . . . , n}, tal que xi = yi para todo i < j e xj X yj .
S∞Seja nX um conjunto totalmente ordenado por uma relação de ordem total X e seja Seja X =
n=1 X . Podemos estabelecer em X uma ordem total X , também denominada lexicográfica, da
seguinte maneira. Sejam m, n ∈ e p = min{m, n}. Então, dizemos (x1 , . . . , xm ) X (y1 , . . . , yn ) se

(x1 , . . . , xp ) L (y1 , . . . , yp ) no sentido dado no parágrafo anterior, ou se (x1 , . . . , xp ) = (y1 , . . . , yp ),

mas m < n.
E. 1.9 Exercı́cio. Por que essas relações de ordem são denominadas “lexicográficas”? Pense na maneira
como palavras (de tamanho arbitrário!) são ordenadas em um dicionário. 6
Podemos ainda estender a definição de ordem lexicográfica. Seja X um conjunto totalmente orde-
nado por uma relação de ordem total X e seja Y um conjunto totalmente ordenado por uma relação
de ordem total Y . Então, X Y pode ser totalmente ordenado dizendo-se X Y 3 x L y ∈ X Y se houver
um j ∈ Y , tal que x(i) = y(i) para todo i Y j e x(j) X y(j).
Exemplo. Sejam f, g, duas funções de em . Dizemos que f L g se existir y ∈
tal que
f (x) = g(x) para todo x < y mas f (y) ≤ g(y). Lembrando que o conjunto de todas as funções de
em é , vê-se que essa definição coincide com a dada acima.

• Conjuntos Dirigidos
Um conjunto I é dito ser um conjunto dirigido (“directed set”) se for dotado de uma relação de
ordem parcial, que denotaremos por “”, e se for dotado da seguinte propriedade: para quaisquer dois
elementos a e b de I existe pelo menos um terceiro elemento c ∈ I tal que a c e b c.
Exemplo. é um conjunto dirigido com a relação de ordem usual.
Exemplo. é um conjunto dirigido com a relação de ordem r−i definida acima.
Exemplo. Seja o conjunto n , n = 1, 2, . . ., e seja I o conjunto de todos os abertos limitados de n

(um conjunto é limitado se for subconjunto de alguma bola aberta de raio finito centrada na origem).
Mostre que I é um conjunto dirigido pela relação de ordem de inclusão: A B se A ⊂ B. Note que
essa relação de ordem não é uma relação de ordem total.
Contra-Exemplo. Seja X um conjunto não-vazio e seja I = (X) \ {X}, ou seja, I é a coleção

de todos os subconjuntos de X, exceto o próprio X. Podemos ter em I uma relação de ordem (de
inclusão) dizendo que A B se A ⊆ B. Notemos, porém, que I não é um conjunto dirigido pois
para A ∈ I, A 6= ∅ temos X \ A ∈ I mas não existe em I nenhum conjunto que contenha A e X \ A
simultaneamente como subconjuntos.
Exemplo. Causalidade de Einstein. Seja 4 o espaço-tempo quadri-dimensional de Minkowski e
sejam E0 = (t0 , x0 , y0 , z0 ) e E1 = (t1 , x1 , y1 , z1 ) dois eventos em 4 . Dizemos que o evento E0 precede
causalmente o evento E1 , (em notação simbólica E0 Einstein E1 ), se t0 ≤ t1 e se
c2 (t1 − t0 )2 − (x1 − x0 )2 − (y1 − y0 )2 − (z1 − z0 )2 ≥ 0 ,
onde c é a velocidade da luz.

4 4
E. 1.10 Exercı́cio. Mostre que Einstein é uma relação de ordem em e que é um conjunto dirigido
por essa relação. 6
• Redes e Seqüências
Seja I um conjunto dirigido com respeito à uma relação de ordem parcial . Se M é um conjunto
não-vazio, uma função f : I → M é denominada uma rede em M baseada no conjunto dirigido I com
respeito a ou, simplesmente, uma rede6 em M .
Uma seqüência em M é uma rede baseada em , que é um conjunto dirigido com respeito à ordem

usual dos naturais, ou seja, é uma função f : → M .
A noção de rede é importante, por exemplo, no estudo de funções contı́nuas em espaços topológicos
gerais e na definição da noção de convergência (vide Capı́tulo 18, página 876).
Se f : → M é uma seqüência em M , os elementos f (n) de sua imagem são freqüentemente

denotados por uma notação com ı́ndices: fn . É também comum denotar-se a própria seqüência por
{fn , n ∈ } ou por {fn }n∈ , que, estritamente falando, representam a imagem de f em M .

• Máximos e Mı́nimos
Se X é um conjunto dotado de uma relação de ordem parcial (que denotamos por ) diz-se que
um elemento z ∈ X é um máximo de X se x z para todo x ∈ X. Se z e z 0 são máximos de X então,
por hipótese, valem ambas as relações z z 0 e z 0 z, o que implica z = z 0 . Assim, se X possuir um
máximo ele é único, e é denotado por max(X).
Se A ⊂ X, a relação de ordem parcial em X induz uma relação de ordem parcial em A. Com essa
relação, podemos definir max(A), se existir, como o elemento de A tal que a max(A) para todo
a ∈ A. Note que, por definição, max A ∈ A.
Analogamente, um elemento a é dito ser um mı́nimo de X se a x para todo x ∈ X. Se a e a0
são mı́nimos de X então, por hipótese, valem ambas as relações a a0 e a0 a, o que implica a = a0 .
Assim, se X possuir um mı́nimo ele é único, e é denotado por min(X).
6
Alguns autores em lı́ngua portuguesa preferem usar a palavra reticulado em lugar de rede.
• Elementos Maximais e Minimais
Seja X é um conjunto dotado de uma relação de ordem parcial (que denotamos por ).
Um elemento z ∈ X é dito ser maximal se não existir x ∈ X, x 6= z tal que z x.
Um elemento a ∈ X é dito ser minimal se não existir x ∈ X, x 6= a tal que x a.
Os elementos maximais e minimais de um conjunto parcialmente ordenado X, se exitirem, não são
necessariamente únicos, como mostra o seguinte exemplo.
E. 1.11 Exercı́cio-Exemplo. Considere no plano 2 o quadrado fechado Q = [0, 1] × [0, 1], ou seja, os

elementos de Q são pares ordenados (x, y) ∈ 2 com 0 ≤ x ≤ 1 e 0 ≤ y ≤ 1. Estabelecemos em Q

uma relaçao de ordem (parcial!) da seguinte forma: (x, y) (x 0 , y 0 ) se x = x0 e se y ≤ y 0 . Em palavras,

(x, y) (x0 , y 0 ) se ambos os pontos estiverem em uma mesma linha vertical, mas (x, y) estiver mais baixo
que (x0 , y 0 ). Cheque que isso é, de fato, uma relação de ordem, mas que não é uma ordem total, pois não
se pode comparar pontos que estão em linhas verticais diferentes.
Com essa definição convença-se que todos os elementos da forma (x, 1) são maximais. Porém, se x
for diferente de x0 , não se pode nem dizer que (x, 1) (x0 , 1) nem que (x0 , 1) (x, 1). Igualmente,
convença-se que todos os elementos da forma (x, 0) são minimais.
Note também que para a existência de elementos maximais é importante que Q contenha pontos na aresta
de cima e (com coordenada y = 1), analogamente, para a existência de elementos minimais é importante
que Q contenha pontos aresta de baixo (com coordenada y = 0). Por exemplo, se você definir a mesma
relação de ordem no quadrado aberto (0, 1) × (0, 1) não há mais elementos maximais ou minimais. 6
Se um conjunto não-vazio e parcialmente ordenado X possuir um único elemento maximal, este

elemento é denominado o maior elemento de X. Reciprocamente, se um conjunto não-vazio e parcial-
mente ordenado X possuir um único elemento minimal, este elemento é denominado o menor elemento
de X.
• Conjuntos Bem-Ordenados
Um conjunto X dotado de uma relação parcial de ordem é dito ser um conjunto bem-ordenado
se todo subconjunto A não vazio de X tem um elemento mı́nimo em A.
E. 1.12 Exercı́cio. Mostre que todo conjunto bem-ordenado segundo uma relação parcial de ordem é
também totalmente ordenado segundo a mesma relação. 6
E. 1.13 Exercı́cio. A recı́proca não é, entretanto, verdadeira. Mostre que é totalmente ordenado pela

relação usual de ordem entre números reais, mas não é um conjunto bem-ordenado. 6
E. 1.14 Exercı́cio. Mostre que o conjunto dos números naturais é bem-ordenado. 6
A importância de conjuntos bem-ordenados é que a eles se aplica uma generalização do bem-

conhecido método de indução matemática, muito empregado em demonstrações de teoremas, deno-
minada princı́pio de indução transfinita. O estudante interessado encontrará em [50] uma excelente
referência introdutória. Nesta mesma referência o estudante interessado encontrará uma demonstração
do seguinte e importante resultado, devido a Zermelo7 :
Teorema 1.1 (Teorema do Bom-Ordenamento) Se X é um conjunto não-vazio então é possı́vel
encontrar uma relação de ordem em X tal que X é bem-ordenado por essa relação. 2
Incidentalmente, o Teorema 1.1 junto com a afirmação do Exercı́cio E. 1.12 informam que todo
conjunto não-vazio possui ao menos uma relação de ordem total.
• Majorantes e Minorantes
Seja X um conjunto dotado de uma ordem parcial denotada por e seja A ⊂ X. Se existe t ∈ X
tal que a t para todo a ∈ A dizemos que t é um majorante de A, ou um limitante superior 8 de A.
Analogamente, se existe h ∈ X tal que h a para todo a ∈ A dizemos que h é um minorante de A
ou um limitante inferior9 de A.
• Conjuntos Limitados
Seja X um conjunto dotado de uma ordem parcial denotada por . Um conjunto A ⊂ X que tenha
pelo menos um majorante é dito ser um conjunto limitado superiormente. Um conjunto A ⊂ X que
tenha pelo menos um minorante é dito ser um conjunto limitado inferiormente.
• Ínfimo e Supremo
Seja X um conjunto dotado de uma ordem parcial denotada por e seja A ⊂ X.

O mı́nimo do conjunto de majorantes de A, se existir, é dito ser o supremo de A e é indicado por
sup(A). Note que o supremo de A, se existir, é único, por ser o mı́nimo de um conjunto. Assim, s ∈ X
é dito ser o supremo de A se for um majorante de A e se s t para todo t que seja majorante de A.
Note que o supremo de um conjunto A ⊂ X não é necessariamente um elemento de A, ao contrário do
que ocorre com o máximo de A (caso exista).
O máximo do conjunto dos minorantes de A, se existir, é dito ser o ı́nfimo de A e é indicado por
inf(A). Note que o ı́nfimo de A, se existir, é único, por ser o máximo de um conjunto. Assim, i é o
ı́nfimo de A se for um minorante de A e se h i para todo h que seja minorante de A. Note que o
ı́nfimo de um conjunto A ⊂ X não é necessariamente um elemento de A, ao contrário do que ocorre
com o mı́nimo de A (caso exista).
É interessante notar o seguinte. Dado um conjunto X dotado de uma ordem parcial poderı́amos nos
perguntar se todo subconjunto limitado superiormente de X possui um supremo ou, analogamente, se
todo subconjunto de X limitado inferiormente possui um ı́nfimo. A validade ou não dessas propriedades
depende de X e da relação de ordem em questão. Por exemplo, para X = , o conjunto dos racionais
7
Ernst Friedrich Ferdinand Zermelo (1871-1953).
8
A expressão “limite superior” é também usada na literatura, mas deve ser evitada para não causar confusão com a
noção de limite.
9
A expressão “limite inferior” é também usada na literatura, mas deve ser evitada para não causar confusão com a
noção de limite.
com a relação de ordem usual, verifica-se que a propriedade não é valida. Tomemos A = {x ∈ , x 2 <
2}. Claramente esse conjunto é limitado inferior e superiormente mas não possui nem supremo nem
ı́nfimo (por quê?). Para X = e X ∈ (com as relações de ordem usuais) a propriedade é, porém,

válida.
E. 1.15 Exercı́cio. Tome X = com a relação de ordem usual. Mostre que inf((−1, 1)) = −1 e que

sup((−1, 1)) = 1. Note que −1 e 1 não são elementos de (−1, 1). 6
E. 1.16 Exercı́cio. Suponha que A e B sejam dois sub-conjuntos de um conjunto X dotado de uma
ordem total e que inf(A) e inf(B) existam. Mostre então que
inf(A ∪ B) = min{inf(A), inf(B)}.
E. 1.17 Exercı́cio. Suponha que A e B sejam dois sub-conjuntos de um conjunto X dotado de uma
ordem total e que sup(A) e sup(B) existam. Mostre então que
sup(A ∪ B) = max{sup(A), sup(B)}.
• O Lema de Zorn
Uma das afirmativas fundamentais de toda a Matemática usual é o seguinte resultado, conhecido
como lema de Zorn, em homenagem a um dos seus formuladores10 :
Lema 1.1 (Lema de Kuratowski-Zorn) Seja X um conjunto não-vazio e uma relação de ordem
parcial em X. Suponha que todo sub-conjunto linearmente ordenado de X tenha pelo menos um majo-
rante em X. Então, todo sub-conjunto linearmente ordenado de X tem algum majorante em X que é
também um elemento maximal de X. Implicitamente isso está dizendo que, sob as hipóteses, X possui
ao menos um elemento maximal. 2
Para uma demonstração do Lema de Zorn, vide, por exemplo, [50].
E. 1.18 Exercı́cio. Verifique que se X = [0, 1] é ordenado pela relação de ordem usual todo sub-
conjunto de X tem um majorante em X e que 1 é um desses possı́veis majorantes. Verifique que 1 é um
elemento maximal de X. 6
E. 1.19 Exercı́cio. Verifique que se X = [0, 1) é linearmente ordenado pela relação de ordem usual e
nem todo sub-conjunto de X tem um majorante em X (tente, por exemplo, sub-conjuntos do tipo [a, 1)
com 0 ≤ a < 1). Verifique que X não tem um elemento maximal. 6
10
Max August Zorn (1906-1993). Em verdade, o Lema de Zorn foi primeiramente descoberto por Kazimierz Kuratowski
(1896-1980). O trabalho de Kuratowski data de 1922 e o de Zorn de 1935.
E. 1.20 Exercı́cio. Cheque se as hipóteses do Lema de Zorn são satisfeitas ou não nos quadrados abertor
e fechados do Exemplo E. 1.11, página 33. 6
O Lema de Zorn é “equivalente” ao chamado Axioma da Escolha (vide página 27), ou seja, admitir
um como verdadeiro leva a demonstrar a validade do segundo. Essa equivalência não será provada
aqui (vide, por exemplo, [50]). Toda a Matemática usual é fundada na aceitação de um ou de outro
como verdadeiro e, em princı́pio, uma nova Matemática pode ser construı́da (com resultados distintos
dos da Matemática usual) se esses dois axiomas forem substituı́dos por um terceiro inequivalente. A
relevância de tais Matemáticas em Fı́sica é uma questão em aberto.
1.1.3 Cardinalidade
• A Noção de Cardinalidade de Conjuntos
Seja K uma coleção de conjuntos. Dados dois conjuntos A e B da coleção K, dizemos que A e
B são equivalentes se houver uma função bijetora de A sobre B, ou seja, se houver uma função com
domı́nio igual a A e imagem igual a B tal que a cada elemento b ∈ B existe um único elemento a ∈ A
com f (a) = b.
E. 1.21 Exercı́cio. Mostre que essa é uma relação de equivalência entre os conjuntos da coleção K. 6
Para dois conjuntos que são equivalentes no sentido acima diz-se também que os mesmos têm a
mesma cardinalidade. Ou seja, dois conjuntos têm a mesma cardinalidade se e somente se houver uma
função bijetora entre eles.
Um conjunto A é dito ter n elementos (para um número natural n) se for equivalente ao conjunto
{1, . . . , n}.
Nota. Esta última definição pressupõe que o conceito de número natural já seja conhecido. Outra construção mais simples em termos de
pressupostos é feita de modo informal como segue: diz-se que um conjunto tem um elemento se for equivalente ao conjunto {∅}; que um
conjunto tem dois elementos se for equivalente ao conjunto {∅, {∅}}; que tem três elementos se for equivalente ao conjunto {∅, {∅, {∅}}} e assim
por diante. Em verdade essa construção permite produzir uma definição do conceito de número natural: o número “um” é, grosseiramente
falando, o nome dado à classe de equivalência formada pelos conjuntos equivalentes ao conjunto {∅}; o número “dois” é o nome dado à classe
de equivalência do conjunto {∅, {∅}}; o número “três” é nome dado à classe de equivalência do conjunto {∅, {∅, {∅}}} e assim por diante.
Aliás, o número “zero” é o nome dado à classe de equivalência de ∅. O números naturais seriam então o conjunto de todas as classes de
equivalência construı́das dessa forma. Esta definição11 do conceito de número natural, devida a von Neumann12 , pressupõe apenas conhecidos
conceitos primitivos como os de conjuntos, classes de equivalência e de conjunto vazio. O leitor poderá encontrar uma discussão extensa sobre
a definição de números naturais em [119, 89, 50].
Diz-se que um conjunto A é finito se tiver a cardinalidade de {1, . . . , n} para algum n ∈ . A é

dito ser infinito se não for finito.
E. 1.22 Exercı́cio. Seja A um conjunto finito com n elementos. Mostre que (A) tem 2 n elementos.
11
J. von Neumann “Zur Einführung transfiniten Zahlen”, Acta Szeged 1 (1923) 199-208.
12
János von Neumann (1903-1957). Von Neumann também adotou os nomes de Johann von Neumann e John von
Neumann.
• Conjuntos Contáveis
Um conjunto A é dito ser contável se for finito ou se tiver a cardinalidade do conjunto dos números
naturais, ou seja, se for finito ou se existir uma função bijetora f : → A cujo domı́nio é
e cuja
imagem é todo A.
Nota. Por vezes conjuntos contáveis que não são finitos são chamados de conjuntos enumeráveis. Não
há, infelizmente, unidade nessa nomenclatura mas empregá-la-emos aqui se vier a ser necessário.
Vamos agora provar alguns teoremas fundamentais sobre conjuntos contáveis (cuja importância,
apesar da aparente simplicidade dos enunciados, não pode ser subestimada pois seu alcance estende-se
por toda a Matemática, em particular, por muito do que veremos no restante do curso).
Precisamos da seguinte proposição:
Proposição 1.5 Um conjunto é contável se e somente se for equivalente a um subconjunto de . 2
Prova. Por definição todo conjunto contável A (finito ou não) é equivalente a algum subconjunto de
(no pior dos casos ao próprio ).
Provemos então a recı́proca. Seja A equivalente a um subconjunto Z de . Se Z for finito A
também o será e portanto contável. Suponhamos então que Z não é finito. Vamos construir uma
função bijetora F :→ Z. A mesma é definida da seguinte forma
F (1) = min Z,
F (n) = min{Z \ {F (1), F (2), . . . , F (n − 1)}} para n = 2, 3, . . . .
É fácil ver que F é bijetora e que sua imagem é Z (faça isso). Assim, Z é enumerável e, portanto, A
também o é.
Esta proposição tem uma conseqüência simples:

Proposição 1.6 Se A é um conjunto contável e B ⊂ A então B é contável. 2
Prova. Se A é contável e B ⊂ A então B é equivalente a um subconjunto de e, portanto, pela

proposição anterior, B é contável.
Chegamos um importante teorema:

Teorema 1.2 O produto Cartesiano × é contável. 2
Prova. Seja a função G : ×

→ dada por G(a, b) = 2a 3b . A imagem dessa função é um

subconjunto próprio de mas essa função é bijetora: a cada elemento z de sua imagem há um e
somente um par (a, b) de números naturais tais que 2a 3b = z (por quê?). Assim, fica provado pela
Proposição 1.5 que × é contável.

Note que, como × não é finito (por quê?) é um conjunto enumerável.

Esse último teorema tem uma conseqüência de grande importância:
Teorema 1.3 O conjunto + dos números racionais positivos é um conjunto contável. 2
Prova. Todo racional positivo é da forma p/q onde p e q ∈ são irredutı́veis ou primos entre si (ou

seja, não há “cancelamentos” que permitam escrever p/q = a/b com a < p e b < q). Assim, há uma
correspondência um-a-um entre + e o subconjunto de × formado por todos os pares (p, q) onde p

e q são primos entre si. Como × é contável, a Proposição 1.6 diz então que + é também contável.

E. 1.23 Exercı́cio. Prove que o conjunto dos números inteiros e o conjunto dos números racionais
são conjuntos contáveis. 6
Um fato também importante é que há conjuntos de números que não são contáveis. O exemplo
mais importante é o dos números reais.
Teorema 1.4 O conjunto dos números reais não é contável. 2
Prova. Para provar isso basta mostrar que há um subconjunto de que não é contável. Considere o
conjunto U de todos os números reais do intervalo [0, 1) tais que apenas os dı́gitos 0 ou 1 aparecem
em sua representação decimal. Por exemplo, números como 0, 001101 ou 0, 1 ou 0 ou 0, 1011 ou
1/9 = 0, 11111 . . . são elementos de U . De modo mais preciso, U é o subconjunto do intervalo [0, 1)
formado por todos os números u que podem pode ser escritos da forma
X∞
dn (u)
u = n
,
n=1
10
onde dn (u) ∈ {0, 1} para todo n ≥ 1. dn (u) é o n-ésimo dı́gito do número u na base decimal. Note
que dois elementos u e v de U são iguais se e somente se dn (u) = dn (v) para todo n (prove isso!).
Vamos provar que U não é um conjunto contável. Para isso vamos supor o oposto, ou seja, que U
é contável e veremos que essa hipótese leva a um absurdo. Vamos supor que haja uma função bijetora
f: → U cuja imagem é U . Considere o número real a definido por
X∞
1 − dn (f (n))
a = n
.
n=1
10
Como 1 − dn (f (n)) é igual a 0 ou a 1 (por que?), segue obviamente que a é um elemento de U .

Entretanto, é fácil ver que a não faz parte da imagem da função f . Para ver isso note que se a fosse
um elemento da imagem de f haveria um inteiro m tal que f (m) = a. Mas isso significa então que o
m-ésimo dı́gito de a seria dm (a) = dm (f (m)). Mas pela definição do próprio a, o seu m-ésimo dı́gito é
1 − dm (f (m)). Assim, terı́amos que dm (f (m)) = 1 − dm (f (m)) o que não é possı́vel.
Concluı́mos então que a é um elemento de U mas não pode ser um elemento da imagem da função f .
Isso é uma contradição, pois supomos justamente que a imagem da f era todo o conjunto U . Portanto,
U não é contável e, assim, também não o é.

Nota. É fácil ver que, em verdade, poderı́amos substituir a base decimal, usada na representação do
conjunto U acima, por qualquer base b ∈ com b > 2. Ou seja, se considerarmos o conjunto U b de

todos os reais u do intervalo [0, 1] representáveis na base b, b ∈ , b > 2, da forma
X∞
dn (u)
u = n
.
n=1
b
onde dn (u) ∈ {0, 1}, então, repetindo o que fizemos acima, verı́amos que Ub não é contável. Claramente
U = U10 .
Nota. O caso da base binária b = 2 foi excluı́do da última nota pois nele não vale a unicidade da
representação dos elementos de U2 na forma
X∞
dn (u)
u = .
n=1
2n
onde dn (u) ∈ {0, 1}. Para ver isso, faça o exercı́cio seguinte.
E. 1.24 Exercı́cio. Mostre que na base binária 0, 1 e 0, 01111111 . . . representam o mesmo número, a
saber, o número 1/2. Sugestão: use a fórmula da progressão geométrica infinita para calcular quanto vale
0, 01111111 . . .. 6
Nota. Os conjuntos Ub , b > 2, são exemplos de uma classe de conjuntos chamados de conjuntos
de Cantor13 . Tornaremos a reencontrar tais conjuntos quando falarmos de Teoria da Medida (vide
Capı́tulo 17, especialmente Seção 17.2, página 859.).
Ainda sobre os números reais, tem-se também o seguinte fato, que para referência futura formulamos
como uma proposição.
2
Proposição 1.7 e têm a mesma cardinalidade. 2
Prova. É suficiente mostrar que (0, 1) e (0, 1) × (0, 1) têm a mesma cardinalidade, pois a função
x → (1 + tanh(x))/2 é uma bijeção de em (0, 1). Fixemos para cada x ∈ (0, 1) uma representação

decimal x = 0, d1 d2 d3 . . . com dn ∈ {0, . . . , 9}. Seja F : (0, 1) → (0, 1) × (0, 1) definida por
F (0, d1 d2 d3 d4 . . .) := ( 0, d1 d3 d5 d7 . . . , 0, d2 d4 d6 d8 . . . ) .
F é bijetora e F −1 : (0, 1) × (0, 1) → (0, 1) é dada por
F −1 (( 0, a1 a2 a3 a4 . . . , 0, b1 b2 b3 b4 . . . )) = 0, a1 b1 a2 b2 a3 b3 a4 b4 . . . .
13
Georg Ferdinand Ludwig Philipp Cantor (1845-1918).
Finalizamos com um outro teorema de grande importância:

[
Teorema 1.5 Se Ci , i ∈ , são conjuntos contáveis então C = Ci também o é. 2
i∈
Prova. Se cada Ci é contável então para cada i ∈ há uma função bijetora gi :
→ Ci cuja imagem
é Ci . Defina-se então a função G : ( × ) → C dada por G(a, b) = ga (b). Esta função não é, em

geral, bijetora, pois podem existir elementos comuns entre conjuntos Ci e Cj com i 6= j e terı́amos
gi (m) = gj (n) para algum n e m. Entretanto, a imagem de G é C.
Considere então em × a seguinte relação de equivalência: o par (a, b) é equivalente ao par

(c, d) se e somente se ga (b) = gc (d). O conjunto × pode ser então, como já observamos, escrito

como a união disjunta de suas classes de equivalência pela relação acima. Construamos então um
subconjunto K de × tomando-se um e somente um elemento de cada classe de equivalência escolhido

arbitrariamente (usamos aqui o Axioma da Escolha para afirmar que tal construção é possı́vel).
Defina então agora a função H : K → C dada por H(a, b) = ga (b) para (a, b) ∈ K. Pela própria
construção do conjunto K essa função H é bijetora e sua imagem é C. Como K é um subconjunto de
× que é contável, temos que K também o é e, portanto, C é contável.

• Números Reais Algébricos e Transcendentes
Na reta real diz-se que um número x é um número algébrico se x for raiz de um polinômio do tipo
P (t) = a0 + a1 t + a2 t2 + · · · + an tn ,
para algum n ∈ , onde os coeficientes a0 , . . . , an são números racionais. Um tal polinômio é dito ser

um polinômio racional.
racional p − qt. Há também
Todo número racional p/q é também algébrico pois é raiz do polinômio √
muitos números irracionais que são algébricos. Por exemplo, o número 2 é raiz do polinômio ra-
cional −2 + t2 e, portanto, é algébrico. Os números reais que não são algébricos são chamados de
transcendentes.
E. 1.25 Exercı́cio. Prove que o conjunto de todos os números algébricos da reta real é um conjunto
contável. Use para tal o fato de que os racionais formam um conjunto contável. 6
O exercı́cio anterior pode ser usado para concluir que existem números transcendentes (que não
são raiz de nenhum polinômio racional) pois os reais, como sabemos, não são contáveis enquanto,
segundo o exercı́cio, os algébricos o são. Deve, portanto, haver uma coleção não-contável de números
transcendentes na reta real.
Historicamente, a existência de números transcendentes foi estabelecida (por outros argumentos)
por Liouville14 em 1851. Em 1874, Cantor15 demonstrou a afirmação do exercı́cio acima, provando que
14
Joseph Liouville (1809-1882).
15
o conjunto de todos os números algébricos da reta real é um conjunto contável.
E. 1.26 Exercı́cio. Seja 0 = e 1 o conjunto dos números algébricos, definidos como o conjunto de
todos os zeros reais de polinômios com coeficientes racionais. Definimos 2 como o conjunto de todos os
zeros reais de polinômios com coeficientes em 1 . Sucessivamente, definimos n , n ≥
S∞1 como o conjunto
de todos os zeros reais de polinômios com coeficientes em n−1 . Seja também = n=0 n . Mostre que
todos os n e são conjuntos contáveis e, portanto, subconjuntos próprios de . 6
• Os números e e π são irracionais e transcendentes
Sabe-se que os números e e π são irracionais e transcendentes.

As provas de que e e e2 são irracionais foram primeiramente obtidas por Euler16 em 1737. Uma
prova que e é irracional pode ser encontrada nestas Notas à página 734 ou, por exemplo, em [118] ou
[53].
A prova de que π é irracional não é tão simples quanto a de que e é irracional. A demonstração de
que π é irracional foi primeiramente obtida por Lambert17 em 1768 e consistiu em provar que se r é
um número racional não-nulo então nem er nem tan(r) podem ser racionais. Como tan(π/4) = 1, que
é racional, segue que π/4 deve ser irracional.
A demonstração de que e é transcendente foi obtida pela primeira vez por Hermite 18 em 1873.
A demonstração de que π é transcendente foi obtida pela primeira vez por Lindemann19 em 1882.
Um fato de grande interesse é que provar que π é algébrico seria equivalente 20 a resolver o célebre
problema da quadratura do cı́rculo, que consiste em achar um método através do qual, “apenas com
régua e compasso” constrói-se um quadrado cuja área é igual a de um cı́rculo de raio 1. √ Tal seria
possı́vel caso houvessem meios de se construir um segmento de reta cujo comprimento seja π. Esse
problema clássico da geometria Euclidiana ficou em aberto por cerca de dois mil anos (!), tendo sido
resolvido negativamente em 1882 por Lindemann quando este provou, justamente, que π não é um
número algébrico, concluindo assim a impossibilidade da construção proposta.
Para provas de que e é transcendente vide, por exemplo, [118] ou [53]. Para provas que π é irracional
e transcendente e para uma série de outros resultados congêneres, vide [53].
• Produtos Cartesianos e Contabilidade
É interessante notar que produtos Cartesianos contáveis de conjuntos contáveis não são, geralmente,
conjuntos contáveis. Considere como exemplo o produto Cartesiano
Y
K := {0, 1} = {0, 1} ,
i∈
16
Leonhard Euler (1707-1783).
17
Johann Heinrich Lambert (1728-1777).
18
Charles Hermite (1822-1901). A prova original da transcendência de e encontra-se em Comptes rendus, 77 18-24
(1873).
19
Carl Louis Ferdinand von Lindemann (1852-1939). A prova original da transcendência de π encontra-se em Math.
Ann. 20, 213-225 (1882).
20
Para uma bela discussão sobre isso, vide [27].
que é denominado espaço de Cantor21 . Podemos mostrar que K não é contável. Cada elemento de K
é uma função d : → {0, 1}. Podemos assim associar univocamente a cada d o número real

∞
X d(n)
n=1
10n
que é um elemento do conjunto U ⊂ definido acima. Por outro lado, todo elemento de U pode ser

escrito assim para um único d ∈ K. Assim, K e U têm a mesma cardinalidade e, portanto, K não é
contável pois U , como já vimos, não o é.
E. 1.27 Exercı́cio. Mostre que todos os conjuntos Ub , definidos acima, com b > 2, tem a mesma
cardinalidade de K (e, portanto, a mesma cardinalidade entre si). 6
1.1.4 Ínfimos e Supremos de Famı́lias de Conjuntos

Seja I um conjunto arbitrário de ı́ndices e {Ai , i ∈ I}\ uma coleção de conjuntos indexados por
elementos de I. Chama-se por vezes o conjunto inf Ai := Ai de ı́nfimo da coleção {Ai , i ∈ I} e o
i∈I
[ i∈I
conjunto sup Ai := Ai de supremo da coleção {Ai , i ∈ I}.
i∈I
i∈I
Essas noções S
coincidem com as noções de ı́nfimo e supremo apresentadas à página 34 se conside-
rarmos em X = i∈I Ai a relação de ordem definida pela inclusão de conjuntos: se A, B ⊂ X dizemos
que A B se A ⊂ B.
E. 1.28 Exercı́cio. Mostre isso. 6
• Limites do Ínfimo e Limites do Supremo de Famı́lias de Conjuntos
Seja {An , n ∈ } uma coleção contável de subconjuntos de um conjunto X. Define-se um conjunto

chamado de limite do ı́nfimo da coleção, denotado por limAn , como sendo o conjunto dado por
∞ \
[ ∞
limAn := Ak .
n=1 k=n
O chamado limite do supremo da coleção, denotado por limAn , é o conjunto definido por
∞ [
\ ∞
limAn := Ak .
n=1 k=n
Se considerarmos a relação de ordem entreTconjuntos definida pela inclusão de conjuntos, é de

se notar que a seqüência de conjuntos Bn := ∞ k=n Ak , n ∈ , está ordenada de forma crescente

S Bn Bm se n ≤ m) e limAn é seu supremo. Analogamente, a seqüência de conjuntos

(ou seja,
Cn := ∞ k=n Ak , n ∈ , está ordenada de forma decrescente (ou seja, Cn Cm se n ≥ m) e limAn é

seu ı́nfimo.
21
E. 1.29 Exercı́cio. Justifique a seguinte afirmativa: limAn é o conjunto de todos os pontos x de X que
pertencem a todos os conjuntos An exceto a no máximo um número finito deles. Dizemos, nesse caso, que
x pertence a quase todos os An ’s). 6
E. 1.30 Exercı́cio. Justifique a seguinte afirmativa: limAn é o conjunto de todos os pontos x de X que
pertencem um número infinito de conjuntos An . Dizemos, nesse caso, que x pertence freqüentemente aos
An ’s). 6
• Convergência de seqüências de conjuntos
Chegamos a uma definição importante: dizemos que uma coleção contável de conjuntos {A n , n ∈ }
converge a um conjunto A se
limAn = limAn = A.
Se uma coleção contável de conjuntos {An , n ∈ } converge a um conjunto A, então A é dito ser o

n→∞
limite de An , e escrevemos, como usualmente, A = lim An , ou ainda An −→ A.
n→∞
E. 1.31 Exercı́cio. Justifique a seguinte afirmativa: lim An só existe se não há pontos x ∈ X que,
n→∞
simultaneamente, pertençam a infinitos conjuntos A n e não pertençam a infinitos conjuntos An . 6
E. 1.32 Exercı́cio. Seja a famı́lia contável de subconjuntos de dada por A n = [0, 10] se n for par e

An = [0, 5] se n for ı́mpar. Determine limAn e limAn e limn→∞ An se este existir. 6
E. 1.33 Exercı́cio. Seja a famı́lia contável de subconjuntos de dada por A n = [0, 1] se n for par e

An = [2, 3] se n for ı́mpar. Determine limAn e limAn e lim An , se este existir. 6

n→∞
E. 1.34 Exercı́cio. Seja a famı́lia contável de subconjuntos de dada por

1 1
An = − , 1+
n+1 n+1
com n ∈ . Determine limAn , limAn e lim An , se este existir. 6

n→∞
E. 1.35 Exercı́cio. Seja a famı́lia contável de subconjuntos de dada por

1 1
An = , 1−
n+2 n+2
com n ∈ . Determine limAn , limAn e lim An , se este existir. 6

n→∞
E. 1.36 Exercı́cio. Crie seus próprios exemplos de famı́lias contáveis A n de subconjuntos de e estude
seus limAn , limAn e lim An , se este existir. 6
n→∞
1.2 Estruturas Algébricas Básicas

Ainda atentos ao caráter introdutório apresentaremos aqui definições e exemplos das estruturas algébricas
mais comuns.
• Operações e Relações
Sejam C e I dois conjuntos não-vazios e consideremos o produto Cartesiano C I (o conceito de

produto Cartesiano de conjuntos foi definido à página 27). Uma função f : C I → C é por vezes dita
ser uma operação sobre C. Se I é um conjunto finito, f é dita ser uma operação finitária sobre C.
Um conjunto R ⊂ C I é dito ser uma relação em C. Se I é um conjunto finito, R é dito ser uma
relação finitária em C.
• Funções Finitárias
Sejam C e I dois conjuntos e consideremos funções f : C I → C. Se I é um conjunto finito

f : C I → C é dita ser uma função finitária sobre C ou operação finitária sobre C. Sem perda de
generalidade consideraremos aqui funções finitárias do tipo f : C n → C para algum n ∈ . Se f é uma

função finitária para um dado n, f é dita ser uma função n-ária sobre C. Um exemplo de uma função
não finitária seria uma função do tipo f : C → C que a cada seqüência em C associa um elemento de

C.
Funções 2-árias serão chamadas aqui de funções binárias e funções 1-árias são chamadas de funções
unárias.
Por vezes iremos falar também de funções 0-árias sobre C, que consistem em funções f : {∅} → C.
Uma tal função tem por imagem simplesmente um√elemento fixo de C. Exemplos de funções 0-árias
sobre seriam f (∅) = 1 ou f (∅) = 0 ou f (∅) = 2. Freqüentemente denotamos tais funções pelo
elemento de C por ela associado. Nos três exemplos acima, poderı́amos denotar as funções por 1, 0 ou
√
2, respectivamente.
• Relações Finitárias
Há uma nomenclatura análoga para o caso de relações. Sejam C e I dois conjuntos e consideremos
relações R ⊂ C I . Se I é um conjunto finito R é dita ser uma relação finitária sobre C. Sem perda
de generalidade consideraremos aqui relações finitárias do tipo R ⊂ C n para algum n ∈ . Se R é
uma relação finitária para um dado n, R é dita ser uma relação n-ária sobre C. Para o caso n = 1 as
relações são também chamadas de unárias e para o caso n = 2 são ditas binárias. Relações binárias
foram estudadas à página 22.
• Estruturas
Seja C um conjunto, F uma coleção de operações (não necessariamente finitárias) sobre C e seja
R uma coleção de relações (não necessariamente finitárias) em C. A tripla hC, F, Ri é dita ser uma
estrutura sobre C. Note-se que tanto F quanto R podem ser vazias.
Dado que operações sobre um conjunto C também são relações sobre C, a definição de estrutura
acima poderia ser simplificada. É porém conveniente mantê-la como está, pois funções são de im-
portância especial.
Uma estrutura hC, Fi é dita ser uma estrutura algébrica e uma estrutura hC, Ri é dita ser uma
estrutura relacional.
• Tipos de Operações e de Relações
Ainda um comentário sobre a nomenclatura.

Sejam C e I conjuntos e seja α : C I → C uma operação sobre o conjunto C. A cardinalidade de I
é dita ser o tipo da operação α. Assim, uma função n-ária é também dita ser de tipo n. Analogamente,
se R ⊂ C I é uma relação em C a cardinalidade de I é dita ser o tipo da relação R.
• Comentário Sobre a Notação
Antes de prosseguirmos, façamos uma observação sobre a notação que é costumeiramente adotada,
especialmente quando se trata de funções binárias.
Dado um conjunto C e uma função binária denotada por um sı́mbolo φ, a imagem de um par
(a, b) ∈ C 2 é comummente denotada por φ(a, b). É muito prático, por vezes, usar uma outra notação
e denotar φ(a, b) por a φ b. Essa notação é denominada mesofixa. Um exemplo claro desse uso está
na função soma, denotada pelo sı́mbolo + : 2 → de dois números complexos. Denotamos +(z, w)
por z + w. Outro exemplo está na função produto · : 2 → de dois números complexos. Denotamos
·(z, w) por z · w.
Essa notação será usada adiante para outras funções binárias além das funções soma e produto de
números ou matrizes.
Funções unárias também têm por vezes uma notação especial, freqüentemente do tipo exponencial.
Tal é o caso da operação que associa a cada elemento de um grupo à sua inversa, g 7→ g −1 , ou o
caso da operação que associa a cada conjunto o seu complementar A 7→ A c . Ou ainda o caso da
transposição de matrizes M 7→ M T , da conjugação de números complexos z 7→ z ∗ para o que usa-se
também sabidamente a notação z 7→ z.
1.2.1 Semi-grupos, Monóides e Grupos
• Semi-grupos
Um semi-grupo é um conjunto não-vazio S dotado de uma operação binária S × S → S denotada

por “·” e denominada produto tal que a seguinte propriedade é satisfeita.
1. Associatividade. Para todos a, b e c ∈ S vale (a · b) · c = a · (b · c).
• Monóides
Um monóide é um conjunto não-vazio M dotado de uma operação binária M × M → M denotada

por “·” e denominada produto tal que as seguintes propriedades são satisfeitas.
1. Associatividade. Para todos a, b e c ∈ M vale (a · b) · c = a · (b · c).
2. Elemento neutro. Existe um (único!) elemento e ∈ M , denominado elemento neutro, tal que
g · e = e · g = g para todo g ∈ M .
Observação A unicidade do elemento neutro é garantida pela observação que se houvesse e 0 ∈ M

tal que g · e0 = e0 · g = g para todo g ∈ M terı́amos e0 = e0 · e = e.
• Grupos
Uma das noções mais fundamentais de toda a Matemática é a de grupo. Um grupo é um conjunto
não-vazio G dotado de uma operação binária G × G → G denotada por “·” e denominada produto e de
uma operação unária G → G (bijetora) denominada inversa, denotada pelo expoente “ −1 ”, tais que as
seguintes propriedades são satisfeitas.
1. Associatividade. Para todos a, b e c ∈ G vale (a · b) · c = a · (b · c).
2. Elemento neutro. Existe um (único!) elemento e ∈ G, denominado elemento neutro, tal que
g · e = e · g = g para todo g ∈ G.
3. Inversa. Para cada g ∈ G existe um (único!) elemento h ∈ G tal que g · h = h · g = e. Esse

elemento é denominado a inversa de g e denotado por g −1 .
Observações.
1. A unicidade do elemento neutro é garantida pela observação que se houvesse e 0 tal que g · e0 =
e0 · g = g para todo g ∈ G terı́amos e0 = e0 · e = e.
2. Analogamente se estabelece a unicidade da inversa, pois se g, h ∈ G são tais que h · g = g · h = e,

teremos g −1 = g −1 · e = g −1 · (g · h) = (g −1 · g) · h = e · h = h.
3. A função G 3 g 7→ g −1 ∈ G, que associa cada elemento de G à sua inversa, é um exemplo de uma

função unária.
4. Como e · e = e segue que e−1 = e.
5. Para todo g ∈ G vale (g −1 )−1 = g pois, usando a associatividade,
(g −1 )−1 = ( g −1 )−1 · e = (g −1 )−1 · (g −1 · g) = ((g −1 )−1 · g −1 ) · g = e · g = g .
Um grupo é dito ser comutativo ou Abeliano22 se a · b = b · a para todos a, b ∈ G. Essa nomenclatura

se aplica também a semi-grupos e monóides.
É evidente que todo grupo é um monóide e que todo monóide é um semi-grupo.
22
Niels Henrik Abel (1802-1829).
Existe uma construção canônica devida a Grothendieck, que discutimos à página 84, que permite
construir um grupo Abeliano a partir de um semi-grupo Abeliano dado. Essa construção é importante
em várias áreas da Matemática. O leitor interessado poderá passar sem perda à discussão da página
84.
• Exemplos Simples
1. O conjunto S = {1, 2, 3, . . .} é um semi-grupo em relação à operação de soma usual. O conjunto

M = {0, 1, 2, 3, . . .} é um monóide em relação à operação de soma usual, sendo o elemento
neutro e = 0. O conjunto G = = {. . . , −2, −1, 0, 1, 2, . . .} é um grupo em relação à
operação de soma usual, sendo o elemento neutro e = 0 e a inversa n−1 = −n.
2. dotado da operação de multiplicação usual é um monóide onde o elemento neutro é o número

1. Não é um grupo, pois 0 não tem inversa multiplicativa.
3. O conjunto {x ∈ , x > 0} é um semi-grupo Abeliano em relação à operação de soma, mas não

é um monóide.
4. O conjunto + = {x ∈
, x ≥ 0} é um monóide Abeliano em relação à operação de soma mas
não um grupo.
5. O conjunto dos números inteiros é um grupo Abeliano em relação à operação usual de soma
de números inteiros. Esse grupo é comummente denotado por ( , +), para lembrar o conjunto
considerado (no caso, ) e a operação considerada nesse conjunto (no caso, +) .
6. O conjunto dos números racionais é um grupo Abeliano em relação à operação usual de soma
de números racionais. Esse grupo é comummente denotado por ( , +).
7. O conjunto \ {0} = {r ∈ , r 6= 0} é um grupo Abeliano em relação à operação usual de

produto de números racionais. Esse grupo é comummente denotado por ( , ·).
8. O conjunto dos números reais é um grupo Abeliano em relação à operação usual de soma de

números reais. Esse grupo é comummente denotado por ( , +).
9. O conjunto dos números complexos é um grupo Abeliano em relação à operação usual de soma
de números complexos. Esse grupo é comummente denotado por ( , +).
10. O conjunto \ {0} = {x ∈ , x 6= 0} é um grupo Abeliano em relação à operação usual de

produto de números reais. Esse grupo é comummente denotado por ( , ·).
11. O conjunto \ {0} = {z ∈ , z 6= 0} é um grupo Abeliano em relação à operação usual de

produto de números complexos. Esse grupo é comummente denotado por ( , ·).
12. Mat( , n), o conjunto das matrizes complexas n × n com o produto usual de matrizes é apenas
um monóide.
13. Mat( , n), o conjunto das matrizes complexas n × n é um grupo em relação à operação de soma
de matrizes.
14. O conjunto GL( , n) de todas as matrizes reais n × n com determinante não-nulo (e, portanto,

invertı́veis) é um grupo em relação a operação de produto usual de matrizes. GL( , n) é não-
Abeliano.
15. O conjunto GL( , n) de todas as matrizes complexas n × n com determinante não-nulo (e,
portanto, invertı́veis) é um grupo em relação a operação de produto usual de matrizes. GL( , n)
é não-Abeliano.
16. Seja X um conjunto não-vazio. Então (X) é um grupo Abeliano em relação à operação de
diferença simétrica A4B, A, B ∈ X, definida em (1.2), página 21. De fato, o Exercı́cio E. 1.1,
página 21, garante associatividade e comutatividade, o elemento neutro é o conjunto vazio ∅ e
para todo A ∈ (X) tem-se A−1 = A. Verifique!
17. Outro exemplo importante é o seguinte. Seja C um conjunto não-vazio e tomemos S = C C , o
conjunto de todas as funções de C em C. Então, S é um monóide com o produto formado pela
composição de funções: f ◦ g, e onde o elemento neutro é a função identidade id(s) = s, ∀s ∈ C.
O sub-conjunto de C C formado pelas funções bijetoras é um grupo não-Abeliano, onde o produto
é a composição de funções, o elemento neutro é a função identidade e o elemento inverso de uma
função f : C → C é a função inversa f −1 . Esse grupo é denominado grupo de permutações do
conjunto C e denotado por P erm(C).
E. 1.37 Exercı́cio. Em caso de dúvida, prove todas as afirmações acima. 6
• Sub-grupos
Seja G um grupo em relação a uma operação “·” e cujo elemento neutro seja e. Um subconjunto
H de G é dito ser um sub-grupo de G se for também por si só um grupo em relação à mesma operação,
ou seja, se
1. e ∈ H,
2. h1 · h2 ∈ H para todos h1 ∈ H e h2 ∈ H,
3. h−1 ∈ H para todo h ∈ H.
Todo grupo G sempre possui pelo menos dois sub-grupos: o próprio G e o conjunto {e} formado
apenas pelo elemento neutro de G.
É fácil verificar que ( , +) e ( , +) são sub-grupos de ( , +). É fácil ver que SL( , n), o

conjunto de todas as matrizes reais n × n com determinante igual a 1, é um sub-grupo de GL( , n).
Idem para SL( , n) em relação a GL( , n).
• Os Grupos n
O bem conhecido algoritmo de Euclides23 afirma que, dado n ∈ , n > 0, então todo número inteiro

z pode ser escrito de maneira única na forma z = qn + r, onde q ∈ e r ∈ {0, 1, . . . , n − 1}.

23
Euclides de Alexandria (≈ 325 A.C, ≈ 265 A.C.).
O número r é denominado resto da divisão de z por n e é também denotado por r = z mod n.

Seja n um inteiro positivo maior ou igual a 2 e seja o conjunto {0, 1, . . . , n − 1}. Vamos definir
uma operação binária em {0, 1, . . . , n − 1}, denominada soma e denotada pelo sı́mbolo “+”, da
seguinte forma:
α + β = [α + β] mod n
para todos α, β ∈ {0, 1, . . . , n − 1}. Acima [α + β] representa a soma usual de números inteiros em
.
E. 1.38 Exercı́cio. Prove que a operação de soma definida acima é uma operação binária de {0, 1, . . . , n−
1} e mostre que a mesma é associativa, comutativa e tem 0 como elemento neutro. 6
E. 1.39 Exercı́cio. Para cada a ∈ {0, 1, . . . , n − 1}, defina a−1 = (n − a) mod n. Mostre que
a−1 ∈ {0, 1, . . . , n − 1} e que a + a−1 = 0. 6
Os dois exercı́cios acima provam que {0, 1, . . . , n − 1} é um grupo Abeliano em relação à operação
de soma definida acima. Esse grupo é denominado grupo n .
•
+ estendido
O conjunto + = {x ∈ , x ≥ 0} é um semi-grupo Abeliano em relação à operação de soma e

em relação à operação de produto e vale ainda a propriedade distributiva a(b + c) = ab + ac. + é
também, sabidamente, um conjunto linearmente ordenado pela relação de ordem usual.

Vamos abaixo descrever um outro conjunto linearmente ordenado que contém + e é também um
semi-grupo Abeliano em relação à operação de soma e em relação à operação de produto e vale ainda
a propriedade distributiva.
Definimos um conjunto, que denotaremos por R+ , juntando a + um conjunto formado por um
elemento, elemento esse que denotaremos provisoriamente por ω, com ω 6∈ + , para o qual certas
relações algébricas serão definidas. Seja R+ = + ∪ {ω} e definimos as operações de soma e produto

em R+ da seguinte forma: se a e b são elementos de + suas soma e produto são definidos como

usualmente. Fora isso, valem
1. a + ω = ω + a = ω, para todo a ∈
+.
2. ω + ω = ω.
3. aω = ωa = ω, para todo a ∈
+, a 6= 0.
4. 0ω = ω0 = 0.
5. ωω = ω.
E. 1.40 Exercı́cio. Verifique que R+ é um semi-grupo Abeliano em relação à operação de soma e em

relação à operação de produto definidas acima e que vale ainda a propriedade distributiva. 6
R+ é linearmente ordenado tomando-se em
+ a relação de ordem usual e fixando-se a < ω para

todo a ∈ + .
É bastante claro que na definição abstrata acima o objeto representado pelo sı́mbolo ω desempenha o
papel formalmente desempenhado por um número infinito positivo. A construção das relações algébricas
acima prescinde, porém, dessa noção, pois ω pode ser qualquer objeto (fora de + ).
Com um certo abuso de linguagem, é costume, substituir o sı́mbolo ω pelo sı́mbolo ∞, dando
a entender que ω representa algo como um número infinito positivo. É comum também denotar-se
R+ = [0, ∞].
E. 1.41 Exercı́cio. Que problemas surgem quando se tenta estender a construção acima para o conjunto
de todos os reais? 6
1.2.2 Corpos
Um corpo24 é um conjunto não-vazio C dotado de duas operações binárias, denotadas por + e ·,
denominadas soma e produto, respectivamente, satisfazendo o seguinte: para α, β e γ ∈ C quaisquer,
valem
1. A operação de soma tem as seguintes propriedades:
(a) Comutatividade: α + β = β + α
(b) Associatividade: α + (β + γ) = (α + β) + γ
(c) Elemento neutro: existe um elemento 0 ∈ C, chamado de zero, tal que α + 0 = α para todo
α ∈ C.
(d) Para cada α ∈ C existe um único elemento denotado por β com a propriedade α + β = 0.
Esse elemento é mais comummente denotado por −α.
2. A operação de produto tem as seguintes propriedades:
(a) Comutatividade: α · β = β · α
(b) Associatividade: α · (β · γ) = (α · β) · γ
(c) Elemento neutro: existe um elemento 1 ∈ C, chamado de unidade, tal que α · 1 = α para
todo α ∈ C.
(d) Para cada α ∈ C, α 6= 0, existe um único elemento denotado por β com a propriedade
α · β = 1. Esse elemento é mais comummente denotado por α−1 .
3. O produto é distributivo em relação à adição: α · (β + γ) = α · β + α · γ.
Note-se que corpos são grupos comutativos em relação à operação de soma e monóides comutativos
em relação à operação de produto.
24
Em inglês a palavra empregada é field. A expressão em português provavelmente provem do francês corp ou do
alemão Körper.
Os elementos de um corpo são por vezes denominados escalares.

Exemplos. É fácil verificar que , e são corpos em relação às operações usuais de soma e
produto. O conjunto das matrizes n × n para qualquer n ≥ 2 com o produto usual de matrizes não é
um corpo pois, entre outras razões, o produto não é comutativo.
Em um corpo C sempre vale que α · 0 = 0 para todo α ∈ C. De fato, como 0 = 0 + 0, segue que
α · 0 = α · (0 + 0) = α · 0 + α · 0.
Somando-se a ambos os lados o elemento inverso −α · 0 teremos
α · 0 + (−α · 0) = α · 0 + α · 0 + (−α · 0),
ou seja,
0 = α · 0 + 0 = α · 0,
como querı́amos provar. Pela comutatividade do produto vale também 0 · α = 0 para todo α ∈ C.
Vamos exibir outros exemplos menos triviais de corpos.
√
• Os Corpos ( p), com p Primo
√
E. 1.42 Exercı́cio. Mostre que o conjunto de todos os números reais da forma a + b 2, com a e b
racionais, é um corpo. 6
√
O corpo do exemplo acima é denotado por ( 2).
E. 1.43 Exercı́cio. Seja p um número primo. Mostre que o conjunto de todos os números reais da forma
√
a + b p, com a e b racionais, é um corpo. 6
√
O corpo do exemplo acima é denotado por ( p).
√
E. 1.44 Exercı́cio. Mostre que o conjunto de todos os números reais da forma a + b 2 com a e b
inteiros não é um corpo. 6
• Os Corpos p, com p Primo
O bem conhecido algoritmo de Euclides25 afirma que, dado n ∈ , n > 0, então todo número inteiro

z pode ser escrito de maneira única na forma z = qn + r, onde q ∈ e r ∈ {0, 1, . . . , n − 1}.

O número r é denominado resto da divisão de z por n e é também denotado por r = z mod n.
Seja n um inteiro positivo maior ou igual a 2 e seja n o conjunto {0, 1, . . . , n − 1}. Vamos definir
operações de soma e produto em n da seguinte forma:
α + β = [α + β] mod n e α · β = [αβ] mod n.
Acima [α + β] e [αβ] são a soma e o produto usuais em .
Temos o seguinte teorema:
25
Euclides de Alexandria (≈ 325 A.C, ≈ 265 B.C.).
Teorema 1.6 O conjunto n é um corpo com as operações acima definidas se e somente se n for um
número primo. 2
Prova. As operações de soma e produto definidas acima são automaticamente comutativas, associativas
e distributivas (por que?). Fora isso sempre vale que −α = n − α para todo α ∈ n . Resta-nos estudar
a existência de elementos inversos α−1 . Vamos supor que n seja um corpo. Então, a ∈ {2, . . . , n − 1}
tem uma inversa em n , ou seja, um número b ∈ {1, . . . , n − 1} tal que a · b = 1. Lembrando a
definição de produto em n , isso significa que existe um inteiro r tal que ab = rn + 1. Mas isso implica
1 n
b− =r .
a a
Como o lado esquerdo não é um número inteiro, o lado direito também não pode ser. Isso diz então que
n/a não pode ser inteiro para nenhum a ∈ {2, . . . , n − 1}, ou seja, n não tem divisores e é, portanto,
um primo. Resta-nos mostrar que p é efetivamente um corpo quando p é primo, o que agora se reduz
a mostrar que para todo a ∈ p existe um elemento inverso.
Para apresentar a demonstração, recordemos três conceitos da teoria de números. 1. Sejam dois
números inteiros f e g, dizemos que f divide g se g/f ∈ . Se f divide g, denotamos esse fato por
f |g. 2. Sejam dois números inteiros f e g. O máximo divisor comum de f e g, denotado mdc(f, g) é
o maior inteiro m tal que m|f e m|g. 3. Dois números inteiros f e g são ditos ser primos entre si se
mdc(f, g) = 1.
A demonstração da existência de inverso em p será apresentada em partes. Vamos primeiro
demonstrar a seguinte afirmativa.
Lema 1.2 Se f e g são dois números inteiros quaisquer então existem inteiros k 0 e l0 tais que
mdc(f, g) = k 0 f + l0 g.
Prova. Seja m = mdc(f, g). Seja M o conjunto de todos os números positivos que sejam da forma
kf + lg com k e l inteiros. Seja m0 o menor elemento de M . Note que como os elementos de M são
positivos, esse menor elemento existe. Claramente
m0 = k 0 f + l 0 g (1.19)
para algum k 0 e l0 . Como, por definição, m|f e m|g, segue que m|m0 , o que só é possı́vel se
m0 ≥ m. (1.20)
Vamos agora demonstrar por contradição que m0 |f . Se isso não fosse verdade, existiriam (pelo algoritmo
de Euclides) inteiros α e β com
0 < β < m0 (1.21)
tal que
f = αm0 + β.
Usando (1.19) isso diz que
β = f − α(k 0 f + l0 g) = (1 − αk 0 )f + (−αl0 )g.
Mas, como β > 0 isso diz que β ∈ M . Logo, β ≥ m0 , contradizendo (1.21). Logo m0 |f . De maneira
totalmente análoga prova-se que m0 |g. Portanto m0 ≤ mdc(f, g) = m. Lembrando que havı́amos
provado (1.20), segue que m = m0 e, portanto m = k 0 f + l0 g, demonstrando o Lema.
Corolário 1.1 Se f e g são dois números inteiros primos entre si então existem inteiros k 0 e l0 tais
que
1 = k 0 f + l0 g.
2
Prova. Pela definição, como f e g são dois números inteiros primos entre si segue que mdc(f, g) = 1.
Para finalmente demonstrarmos a existência de inverso em p , com p primo, seja a ∈ {1, . . . , p−1}.
É óbvio que a e p são primos entre si (por que?). Assim, pelo corolário, existem inteiros r e s com
1 = sa − rp.
Isso diz que sa = rp + 1. Logo, definindo b ∈ p como sendo b = s mod p teremos
ba = (s mod p)a = (rp + 1) mod p = 1,
ou seja, b = a−1 , completando a demonstração.
• Caracterı́stica de um Corpo
Seja C um corpo e 1 sua unidade. Para um número natural n definimos n · 1 = 1| + ·{z

· · + 1}.
n vezes
Define-se a caracterı́stica de C como sendo o menor número natural não-nulo n tal que n · 1 = 0.
Se um tal número não existir, diz-se que o corpo tem caracterı́stica zero.
√
Exemplos. , , , ( 2) têm caracterı́stica zero. p , p primo, tem caracterı́stica p. Mostre isso.

E. 1.45 Exercı́cio. Mostre que a caracterı́stica de um corpo é ou igual a zero ou é um número primo.
Sugestão: Mostre primeiro que (nm) · 1 = (n · 1)(m · 1) para quaisquer números naturais n e m. Use então
o fato que todo natural pode ser decomposto em um produto de fatores primos e use o fato que, em um
corpo, se a · b = 0 então ou a ou b ou ambos são zero (ou seja, todo corpo é um anel de integridade: não
tem divisores de zero). 6
1.2.3 Espaços Vetoriais

Um espaço vetorial V sobre um corpo K é um conjunto de elementos chamados vetores dotado de uma
operação “+”: V × V → V denominada soma e também de um produto por escalares “·”: K × V → V
com as seguintes propriedades:
1. A cada par u, v ∈ V de vetores é associado um elemento u + v ∈ V , denominado soma de u e v,

(a) A soma é comutativa:

u+v =v+u
para todos u, v ∈ V ,
(b) A soma é associativa:
u + (v + w) = (u + v) + w
para todos u, v, w ∈ V ,
(c) Existe um único vetor denotado por 0, denominado vetor nulo, tal que
u+0=u
para todo u ∈ V ,
(d) A cada u ∈ V existe associado um único vetor denotado por −u tal que
u + (−u) = 0.
2. A cada par α ∈ K, u ∈ V existe associado um vetor denotado por α · u ∈ V , denominado produto

de u por α, de forma que
(a) O produto por escalares é associativo:
α · (β · u) = (αβ) · u,
para todos α, β ∈ K e u ∈ V , onde αβ é o produto de α por β em K,

(b) 1 · u = u para todo u ∈ V , onde 1 é a unidade de K,
(c) O produto por escalares é distributivo em relação à soma de vetores:
α · (u + v) = α · u + α · v,
para todo α ∈ K e todos u, v ∈ V ,

(d) O produto por escalares é distributivo em relação à soma de escalares:
(α + β) · u = α · u + β · u,
para todos α, β ∈ K e todo u ∈ V .
Note-se que espaços vetoriais são grupos comutativos em relação à operação de soma.
E. 1.46 Exercı́cio. Mostre usando os postulados acima que 0·u = 0 para todo u ∈ V , onde, permitindo-
nos um certo abuso de linguagem, o 0 do lado esquerdo representa o zero do corpo K e o do lado direito o
vetor nulo de V . 6
Nomenclatura. Os elementos de um corpo sobre os quais um espaço vetorial se constitui são

freqüentemente denominados escalares.
Notação. É freqüente omitir-se o sı́mbolo “·” de produto por escalares quando nenhuma confusão é
possı́vel.
Anti-exemplo. Tomemos o conjunto dos reais com a operação de soma usual, um corpo p com p
primo e o produto p × → , α · x, α ∈ p e x ∈ dada pelo produto usual em . Essa estrutura

não forma um espaço vetorial. A regra distributiva
(α + β) · x = α · x + β · x
não é satisfeita para todo α, β ∈ p. Acima, α · x é o produto usual em .
É quase desnecessário mencionar o quão importantes espaços vetoriais são no contexto da Fı́sica,
onde, porém, quase somente espaços vetoriais sobre o corpo dos reais ou dos complexos aparecem.
Discutiremos mais aspectos básicos da teoria dos espaços vetoriais na Seção 2.1, página 93.
1.2.4 Anéis, Álgebras e Módulos
• Anéis
Um anel é um conjunto A dotado de duas operações binárias denotadas por “+” e “·” e denominadas
soma e produto, respectivamente, tais que A é um grupo Abeliano em relação à operação de soma e
um semi-grupo em relação à operação de produto. Por fim, a operação de produto é distributiva em
relação à soma: para quaisquer a, b e c ∈ A valem a · (b + c) = a · b + a · c e (a + b) · c = a · c + b · c.
Como usual, denotamos por −a a inversa aditiva do elemento a de um anel.
Se 0 é o elemento neutro de um anel A em relação à operação de soma, então a · 0 = 0 pois, como
0 = 0 + 0, tem-se pela propriedade distributiva a · 0 = a · 0 + a · 0, que implica 0 = a · 0 − (a · 0) =
a · 0 + a · 0 − (a · 0) = a · 0.
• Álgebras
Uma álgebra é um espaço vetorial V sobre um corpo K dotado de uma operação de produto binária
“·” dita produto da álgebra, de modo que as seguintes propriedades são satisfeitas
1. O produto da álgebra é distributivo em relação a soma vetorial: para todos a, b e c ∈ V valem
a · (b + c) = a · b + a · c e (a + b) · c = a · c + b · c.
2. O produto por escalares comuta com o produto da álgebra e é distributivo em relação a ele: para
todos a, b ∈ V e α ∈ K vale
α(a · b) = (αa) · b = a · (αb).
Uma álgebra V é dita ser uma álgebra comutativa ou Abeliana26 se para todos a, b ∈ V tivermos
a · b = b · a.
Uma álgebra V é dita ser uma álgebra associativa se para todos a, b e c ∈ V tivermos
a · (b · c) = (a · b) · c.
Álgebras associativas são anéis.
Notação. Se A é uma álgebra associativa, podemos sem ambigüidade denotar o produto de dois de seus
elementos a, b ∈ A simplesmente por por ab. Pela mesma razão, em uma álgebra associativa produtos
triplos como a(bc) e (ab)c podem ser escritos sem ambigüidade como abc.
Devemos dizer que há muitas álgebras importantes encontradas na Fı́sica que não são nem comu-
tativas nem associativas. Por exemplo, a álgebras do produto vetorial em 3 não é nem comutativa

nem associativa.
• Álgebras de Lie
Uma classe especialmente importante de álgebras não-comutativas e não-associativas é formada

pelas chamadas álgebras de Lie.
Uma álgebra L (sobre um corpo K) é dita ser uma álgebra de Lie27 se seu produto, além das
propriedades 1 e 2 da página 55, satisfizer
1. Anti-comutatividade. Para todos a, b ∈ L vale a · b = −b · a.
2. Identidade de Jacobi28 . Para todos a, b e c ∈ L vale
a · (b · c) + c · (a · b) + b · (c · a) = 0. (1.22)
Por razões históricas o produto de dois elementos de uma álgebra de Lie é denotado pelo sı́mbolo
[a, b] em lugar de a · b.
26
27
Marius Sophus Lie (1842-1899).
28
Carl Gustav Jacob Jacobi (1804-1851).
Seja A uma álgebra associativa. Podemos associar a A uma álgebra de Lie definindo o produto
[a, b] = ab − ba para a, b ∈ A. A anti-comutatividade é óbvia e a identidade de Jacobi segue do fato
que
[a, [b, c]] + [c, [a, b]] + [b, [c, a]]
= a(bc − cb) − (bc − cb)a + c(ab − ba) − (ab − ba)c + b(ca − ac) − (ca − ac)b
= abc − acb − bca + cba + cab − cba − abc + bac + bca − bac − cab + acb
= 0,
como facilmente se constata.
• Exemplos Básicos de Álgebras de Lie
Todos os exemplos aqui exibidos são relevantes na teoria dos grupos de Lie.
3
E. 1.47 Exercı́cio. Mostre que dotado do produto vetorial usual é uma álgebra de Lie. 6
E. 1.48 Exercı́cio. Mostre que Mat ( , n) (ou Mat ( , n)), o conjunto de todas as matrizes n × n

reais (complexas) é uma álgebra de Lie com relação ao produto [A, B] = AB − BA. 6
E. 1.49 Exercı́cio. Mostre que o subconjunto de Mat ( , n) (ou de Mat ( , n)) formado pelas matrizes

com traço nulo é uma álgebra de Lie com relação ao produto [A, B] = AB − BA. 6
E. 1.50 Exercı́cio. Mostre que o subconjunto de Mat ( , n) (ou de Mat ( , n)) formado pelas matrizes

anti-simétricas, ou seja, tais que AT = −A, é uma álgebra de Lie com relação ao produto [A, B] =
AB − BA. 6
E. 1.51 Exercı́cio. Mostre que o subconjunto de Mat ( , n) formado pelas matrizes anti-autoadjuntas,
ou seja, tais que A∗ = −A, é uma álgebra de Lie (sobre o corpo dos reais!) com relação ao produto
[A, B] = AB − BA. 6
E. 1.52 Exercı́cio. Conclua igualmente que o subconjunto de Mat ( , n) formado pelas matrizes anti-
autoadjuntas, ou seja, tais que A∗ = −A, e de traço nulo (Tr (A) = 0) é uma álgebra de Lie (sobre o corpo
dos reais!) com relação ao produto [A, B] = AB − BA. 6
E. 1.53 Exercı́cio. Fixada uma matriz B ∈ Mat ( , n), mostre que o subconjunto de Mat ( , n)

formado pelas matrizes A com a propriedade AB = −BAT é uma álgebra de Lie real com relação ao
produto [A, B] = AB − BA. 6
E. 1.54 Exercı́cio. Fixada uma matriz B ∈ Mat ( , n), mostre que o subconjunto de Mat ( , n)
formado pelas matrizes A com a propriedade AB = −BA∗ é uma álgebra de Lie real com relação ao
produto [A, B] = AB − BA. 6
Tratemos agora de exibir um exemplo básico de uma álgebra de Lie de dimensão infinita.
• Colchetes de Poisson
Sejam f (p, q) e g(p, q), com f : 2 → e g : 2 → , duas funções reais, infinitamente

diferenciáveis, de duas variáveis reais p e q. Definimos os colchetes de Poisson 29 de f e g, denotados

por {f, g}, por
∂f ∂g ∂f ∂g
{f, g} := − .
∂p ∂q ∂q ∂p
É claro que {f, g} é igualmente uma função infinitamente diferenciável de p e q.
Os colchetes de Poisson satisfazem as seguintes propriedades: para quaisquer funções f, g e h como
acima, valem
1. Linearidade. {f, αg + βh} = α{f, g} + β{f, h} para quaisquer α, β ∈ . Analogamente

{αf + βg, h} = α{f, h} + β{g, h}.
2. Anti-simetria. {f, g} = −{g, f }.
3. Identidade de Jacobi30 . {f, {g, h}} + {h, {f, g}} + {g, {h, f }} = 0.
4. Identidade de Leibniz31 . {f, gh} = {f, g}h + g{f, h}.
E. 1.55 Exercı́cio importante. Verifique a validade das quatro propriedades acima. 6
As propriedades 1 e 2 e 3 indicam que o conjunto das funções 2 → infinitamente diferenciáveis

é uma álgebra de Lie com o produto definido pelos colchetes de Poisson. Trata-se de uma álgebra de
Lie de dimensão infinita.
A definição acima dos colchetes de Poisson pode ser facilmente generalizada para variedades dife-
renciáveis de dimensão par, mas não trataremos disso aqui por ora. Os colchetes de Poisson desempe-
nham um papel importante na Mecânica Clássica.
E. 1.56 Exercı́cio. Mostre que matrizes A, B, C de Mat ( , n) (ou de Mat ( , n)) também satisfazem

uma identidade de Leibniz: [A, BC] = [A, B]C + B[A, C]. Em verdade, essa identidade é válida em
qualquer álgebra associativa. Mostre isso também (a prova é idêntica ao caso de matrizes). 6
• Módulos
Seja A um anel. Um A-módulo à esquerda é um grupo Abeliano M (cujo produto, seguindo a

convenção, denotaremos por “+”) dotado de uma função A × M → M que a cada par a ∈ A, m ∈ M
29
Siméon Denis Poisson (1781-1840).
30
Carl Gustav Jacob Jacobi (1804-1851).
31
Gottfried Wilhelm von Leibniz (1646-1716).
associa um elemento de M denotado por a · m com as seguintes propriedades: para todos a, b ∈ A e

todos m, n ∈ M
1. a · (m + n) = a · m + a · n,
2. (a + b) · m = a · m + b · m,
3. a · (b · m) = (ab) · m,
4. Se A possuir uma identidade e, então e · m = m.
Seja A um anel. Um A-módulo à direita é um grupo Abeliano M dotado de uma função M ×A → M

que a cada par a ∈ A, m ∈ M associa um elemento de M denotado por m · a com as seguintes
propriedades: para todos a, b ∈ A e todos m, n ∈ M
1. (m + n) · a = m · a + n · a,
2. m · (a + b) = m · a + m · b,
3. (m · b) · a = m · (ba),
4. Se A possuir uma identidade e, então m · e = m.
Sejam A e B dois anéis. Um bimódulo em relação a A e B é um grupo Abeliano M dotado de

duas funções A × M → M e M × B → M que a cada a ∈ A, b ∈ B e m ∈ M associam elementos de
M denotados por a · m e m · b, respectivamente, de modo que M seja um A-módulo à esquerda e um
B-módulo à direita e de modo que valha
1. a · (m · b) = (a · m) · b para todos a ∈ A, b ∈ B, m ∈ M .
1.2.5 Mais sobre Anéis

Apresentaremos em seqüência uma série de definições após as quais discutiremos exemplos relevantes.
• Anéis com Unidade
Um anel com unidade é um anel R com a propriedade de existir em R um elemento 1, chamado de

unidade, com 1 6= 0, tal que a · 1 = 1 · a = a para todo a ∈ R.
• Anéis sem Divisores de Zero
Dado um anel R um elemento não-nulo a ∈ R é dito ser um divisor de zero se existir pelo menos
um b ∈ R com b 6= 0 tal que a · b = 0 ou b · a = 0.
Se em um dado anel a relação a · b = 0 só for possı́vel se a = 0 ou b = 0 ou ambos, então esse anel
é dito ser um anel sem divisores de zero.
Exemplos. e são anéis sem divisores de zero (com os produtos e somas usuais), mas os anéis

Mat(n, ), n > 1, têm divisores de zero (com o produto e soma usual), pois tem-se, por exemplo,

1 0 0 0 0 0
= .
0 0 0 1 0 0
E. 1.57 Exercı́cio. Mostre que em 4 tem-se 2 · 2 = 0, ou seja, 2 é um divisor de zero. Há outros
divisores de zero? 6
E. 1.58 Exercı́cio. Mostre que em n existem divisores de zero caso n não seja um número primo. 6
• Anéis de Integridade
Um anel comutativo (ou seja, cujo produto é comutativo), com unidade e sem divisores de zero é
dito ser um anel de integridade ou também um domı́nio de integridade.
Para a relação entre anéis de integridade e corpos, vide adiante.
• Anéis de Divisão
Um anel R é dito ser um anel de divisão se possuir uma unidade multiplicativa 1, i.e., um elemento
tal que para todo a ∈ R vale a · 1 = 1 · a = a e se para todo a ∈ R, a 6= 0, existir uma inversa
multiplicativa em R, ou seja, um elemento denotado por a−1 tal que a · a−1 = a−1 · a = 1.
E. 1.59 Exercı́cio importante. Mostre que um anel de divisão não pode possuir divisores de zero.
Portanto, todo anel de divisão comutativo é também um anel de integridade. 6
Exemplos. Com as definições usuais , e são anéis de divisão mas não o é (falta a inversa).

Mat(n, ) com n > 1 também não é um anel de divisão com as definições usuais pois nem toda a
matriz é invertı́vel.
Outro exemplo de anel de divisão (não comutativo!) são os quatérnions, que serão discutidos à
página 87.
• Álgebras de Divisão
Uma álgebra A é dita ser uma álgebra de divisão se possuir uma unidade multiplicativa 1, i.e., um
elemento tal que para todo a ∈ A vale a · 1 = 1 · a = a e se para todo a ∈ A, a 6= 0, existir uma inversa
multiplicativa em A, ou seja, um elemento denotado por a−1 tal que a · a−1 = a−1 · a = 1.
• Corpos
Todo anel de divisão cujo produto “·” é comutativo é um corpo (verifique).
• Corpos Não-comutativos
Como a única distinção entre as definições de corpos e de anéis de divisão é que para os primeiros a
comutatividade do produto é requerida, diz-se também por vezes que anéis de divisão não-comutativos
são corpos não-comutativos.
• Corpos e Anéis de Integridade
É bem claro pelas definições que todo corpo é também um anel de integridade. A reciproca é
parcialmente válida:
Teorema 1.7 Todo anel de integridade finito é um corpo. 2
Prova. Se A é um anel de integridade, tudo que precisamos é mostrar que todo elemento não-nulo de
A é invertı́vel. Seja a um elemento de A \ {0}. Definamos a aplicação α : A \ {0} → A dada por
α(y) = ay.
Note que, como A é um anel de integridade o lado direito é não nulo pois nem a nem y o são. Assim,
α é, em verdade, uma aplicação de A \ {0} em A \ {0} e, como tal, é injetora, pois se ay = az, segue
que a(y − z) = 0, o que só é possı́vel se y = z, pois A é um anel de integridade e a 6= 0. Agora,
uma aplicação injetora de um conjunto finito em si mesmo tem necessariamente que ser sobrejetora
(por que?). Assim, α é uma bijeção de A \ {0} sobre si mesmo. Como 1 ∈ A \ {0}, segue que existe
y ∈ A \ {0} tal que ay = 1, ou seja, a tem uma inversa. Como a é um elemento arbitrário de A \ {0},
segue que todo elemento de A \ {0} tem inversa e, portanto, A é um corpo.
Anéis de integridade infinitos não são necessariamente corpos:

Anti-exemplo. Um exemplo de um anel de integridade que não é um corpo é o conjunto de todos
os polinômios de em com o produto e soma usuais. Em verdade, os únicos polinômios que têm
inverso multiplicativo são os polinômios constantes não-nulos.
1.2.6 Ações e Representações
• Ações
Seja M um conjunto não-vazio e G um grupo. Uma função α : G × M → M é dita ser uma ação à
esquerda de G sobre M se as seguintes condições forem satisfeitas:
1. Para todo g ∈ G a função α(g, ·) : M → M é bijetora32 .
2. Se e é a identidade de G então α(e, ·) : M → M é a função identidade: α(e, x) = x para todo

x ∈ M.
32
Para g ∈ G fixo, α(g, ·) : M → M denota a função M 3 m 7→ α(g, m) ∈ M , ou seja, a função que a cada m ∈ M
associa α(g, m) ∈ M .
3. Para todos g, h ∈ G e todo x ∈ M vale
α(g, α(h, x)) = α(gh, x). (1.23)
Uma função β : G × M → M é dita ser uma ação à direita de G sobre M se as seguintes condições
forem satisfeitas
1. Para todo g ∈ G a função β(g, ·) : M → M é bijetora.
2. Se e é a identidade de G então β(e, ·) : M → M é a função identidade: β(e, x) = x para todo

x ∈ M.
3. Para todos g, h ∈ G e todo x ∈ M vale
β(g, β(h, x)) = β(hg, x). (1.24)
Note-se que a distinção básica entre (1.23) e (1.24) é a ordem do produto no grupo. Se G é Abeliano
não há distinção entre uma ação à direita ou à esquerda.
E. 1.60 Exercı́cio. Seja α : G × M → M uma ação à esquerda de um grupo G em um conjunto M .

Mostre que β : G × M → M definida por β(g, x) = α(g −1 , x) é uma ação à direita de G em M . 6
É freqüente encontrar-se outras notações para designar ações de grupos em conjuntos. Uma ação à
esquerda α(g, x) é freqüentemente denotada por αg (x), de modo que a relação (1.23) fica αg (αh (x)) =
αgh (x). Para uma ação à direita, (1.24) fica βg (βh (x)) = βhg (x).
Talvez a notação mais conveniente seja denotar uma ação à esquerda α(g, x) simplesmente por g · x
ou apenas gx. A relação (1.23) fica g(hx) = (gh)x. Para uma ação à direita β(g, x) a notação fica x · g,
ou apenas xg, de modo que (1.24) fica (xh)g = x(hg). Essa notação justifica o uso da nomenclatura à
direita ou à esquerda para classificar as ações.
Seja F uma coleção de funções bijetoras de um conjunto M em si mesmo. Uma ação α : G×M → M
é dita ser uma ação de G em M pela famı́lia F se para todo g ∈ G as funções α(g, ·) : M → M forem
elementos do conjunto F.
E. 1.61 Exercı́cio. Seja G = SO(n) o grupo de todas as matrizes reais n × n ortogonais (ou seja, tais
que RT = R−1 , onde RT denota a transposta de R). Seja M o conjunto de todas as matrizes reais n × n
simétricas (ou seja, tais que AT = A). Mostre que αR (A) := RART , com R ∈ SO(n) e A ∈ M, é uma
ação à esquerda de G em M . Com as mesmas definições, mostre que β R (A) := RT AR é uma ação à direita
de G em M.
Sugestão. O único ponto que poderia ser difı́cil para alguns seria mostrar que, para cada R fixo, α R é
bijetora, ou seja, é sobrejetora e injetora. Para mostrar que α R é sobrejetora, note que se A é uma matriz
simétrica qualquer, podemos trivialmente escrever A = R(R T AR)RT , mostrando que A = αR (B), onde
B = RT AR é simétrica. Para provar que αR é injetora note que, se RA1 RT = RA2 RT , segue facilmente,
multiplicando-se por RT à esquerda e por R à direita, que A1 = A2 . 6
E. 1.62 Exercı́cio. Seja G = SU(n) o grupo de todas as matrizes complexas n × n unitárias (ou seja,
tais que U ∗ = U −1 , onde U ∗ denota a adjunta de U : U ∗ = U T ). Seja M o conjunto de todas as matrizes
complexas n × n Hermitianas (ou seja, tais que A∗ = A). Mostre que αU (A) := U AU ∗ , com U ∈ SU(n)
e A ∈ M, é uma ação à esquerda de G em M. Com as mesmas definições, mostre que β U (A) := U ∗ AU é
uma ação à direita de G em M. 6
• Órbita de uma ação
Seja G um grupo e α : G × M → M uma ação (à esquerda ou à direita) de G sobre um conjunto

não-vazio M . Para m ∈ M , definimos a órbita de m pela ação α como sendo o conjunto Orb α (m) :=
{αg (m), g ∈ G} ⊂ M .
Claro está que para todo m ∈ M vale m ∈ Orbα (m).
E. 1.63 Exercı́cio. Mostre que para todo m ∈ M vale a afirmação que para todo m 0 ∈ Orbα (m) tem-se
Orbα (m0 ) = Orbα (m). 6
E. 1.64 Exercı́cio. Conclúa que se existe m ∈ M tal que Orbα (m) = M , então Orbα (m0 ) = M para
todo m0 ∈ M . 6
• Transitividade e Espaços Homogêneos
O fato descrito no Exercı́cio E. 1.64 conduz naturalmente às seguintes definições.

Seja G um grupo e α : G × M → M uma ação (à esquerda ou à direita) de G sobre um conjunto
não-vazio M . Dizemos que α age transitivamente em M se existir m ∈ M tal que {α g (m), g ∈ G} = M .
Em palavras, α age transitivamente em M se existir pelo menos um elemento de M cuja órbita é todo
M . Pelo Exercı́cio E. 1.63, se um elemento de M possui essa propriedade, então todos a possuem.
Se uma ação α age transitivamente em M dizemos que M é um espaço homogêneo do grupo G pela
a ação α, ou simplesmente um espaço homogêneo do grupo G.
• Representações de Grupos
Uma representação de um grupo é uma ação a esquerda do mesmo em um espaço vetorial pela
famı́lia das aplicações lineares invertı́veis agindo nesse espaço vetorial.
Sejam G um grupo e V um espaço vetorial sobre um corpo K. Uma representação de G em V é
uma função π : G × V → V tal que para todo g ∈ G as funções π(g, ·) : V → V sejam lineares e
bijetivas e satisfazem π(e, v) = v e π(g, π(h, v)) = π(gh, v) para todos g, h ∈ G e todo v ∈ V .
Devido à linearidade é conveniente denotar π(g, v) por π(g)v. Uma representação satisfaz assim:
1. Para todo g ∈ G, π(g) é uma aplicação linear bijetora de V em V :
π(g)(αu + βv) = απ(g)u + βπ(g)v
para todos α, β ∈ K e todos u, v ∈ V .

2. π(e) = , o operador identidade em V .

3. Para todos g, h ∈ G vale
π(g)π(h) = π(gh).
• Representações de Álgebras
Seja A uma álgebra sobre um corpo K e V um espaço vetorial sobre o mesmo corpo. Uma repre-
sentação de A em V é uma famı́lia de funções lineares de V em V , {π(a), a ∈ A}, satisfazendo
1. Para todo a ∈ A, π(a) : V → V é uma aplicação linear, ou seja
π(a)(αu + βv) = απ(a)u + βπ(a)v
para todos α, β ∈ K e todos u, v ∈ V .

2. Para todos α, β ∈ K e todos a, b ∈ A vale
π(αa + βb) = απ(a) + βπ(b).
3. Para todos a, b ∈ A
π(ab) = π(a)π(b).
Uma representação π de uma álgebra A em um espaço vetorial V é dita ser uma representação fiel
se π(a) = 0 só ocorrer para a = 0.
Uma representação π de uma álgebra A em um espaço vetorial V é dita ser uma representação
não-degenerada se π(a)v = 0 para todo a ∈ A só ocorrer para v = 0.
1.2.7 Morfismos, Homomorfismos, Epimorfismos, Isomorfismos, Mono-

morfismos, Endomorfismos e Automorfismos
Dos radicais gregos hómos: semelhante, igual; mónos: um, sozinho; epi: sobre; ı́sos: semelhante, igual; endon: para dentro, dentro; autós:
próprio, mesmo e morphé: forma.
Nesta seção nos limitaremos a listar algumas definições básicas que serão usadas e desenvolvidas no
restante do texto, onde também exemplos serão apresentados. A pretensão não é a de desenvolver os
assuntos, mas de apresentar as definições para referência futura.
Em termos informais um morfismo entre duas estruturas de um mesmo tipo (dois grupos, dois
espaços vetoriais, duas álgebras, dois anéis etc.) é uma função entre as mesmas que respeita as operações
de produto lá definidas.
• Morfismos em Grupos
Dados dois grupos G e H, com unidades eG e eH , respectivamente, uma função φ : G → H é dita

ser um homomorfismo ou morfismo de grupos se φ(eG ) = eH e se φ(a · b) = φ(a) · φ(b) para todos
a, b ∈ G.
Dados dois grupos G e H, com unidades eG e eH , respectivamente, uma função φ : G → H é dita

ser um anti-homomorfismo se φ(eG ) = eH e se φ(a · b) = φ(b) · φ(a) para todos a, b ∈ G. Por exemplo,
a aplicação φ : G → G tal que φ(g) = g −1 é um anti-homomorfismo (verifique).
Um homomorfismo φ : G → H entre dois grupos é dito ser um monomorfismo se for injetivo.
Um homomorfismo φ : G → H entre dois grupos é dito ser um epimorfismo se for sobrejetor.
Um homomorfismo φ : G → H entre dois grupos é dito ser um isomorfismo se for bijetor, em cujo
caso a aplicação inversa φ−1 : H → G é também um homomorfismo.
Se dois grupos G e H forem tais que exista um isomorfismo φ entre ambos dizemos que G e H são
isomorfos (por φ) e denotamos esse fato por G 'φ H, ou simplesmente por G ' H.
E. 1.65 Exercı́cio importante. Mostre que a relação de isomorfia entre grupos é uma relação de
equivalência. 6
Um homomorfismo ρ de um grupo G em si mesmo ρ : G → G é dito ser um endomorfismo de G.

Um isomorfismo α de um grupo G em si mesmo α : G → G é dito ser um automorfismo de G.
Um exemplo básico de automorfismo é o seguinte: seja g ∈ G fixo. Definimos αg : G → G por
αg (a) = g −1 ag para todo a ∈ G.
E. 1.66 Exercı́cio. Mostre que para cada g ∈ G fixo, αg é um homomorfismo e que sua inversa é αg−1 .
6
Um automorfismo de um grupo G é dito ser um automorfismo interno se for da forma αg para

algum g ∈ G.
Muitas das definições apresentadas acima têm seus análogos em outras estruturas, como espaços
vetoriais, álgebras, anéis, módulos etc. Trataremos de alguns casos.
• Morfismos em Espaços Vetoriais
Sejam U e V dois espaços vetoriais sobre o mesmo corpo K. Uma função φ : U → V é dita ser um
homomorfismo ou morfismo de espaços vetoriais se φ(α1 u1 + α2 u2 ) = α1 φ(u1 ) + α2 φ(u2 ) para todos
α1 , α2 ∈ K e todos u1 , u2 ∈ U .
Sejam U e V dois espaços vetoriais sobre o mesmo corpo K. Uma função φ : U → V é dita ser um
isomorfismo de espaços vetoriais se for um morfismo de espaços vetoriais, e se for bijetora.
Se dois espaços vetoriais U e V sobre o mesmo corpo forem tais que exista um isomorfismo φ entre
ambos dizemos que U e V são isomorfos (por φ) e denotamos esse fato por U 'φ V , ou simplesmente
por U ' V .
E. 1.67 Exercı́cio importante. Mostre que a relação de isomorfia entre espaços vetoriais é uma relação
de equivalência. 6
Em espaços vetoriais os conceitos de mono-, endo- e e automorfismo não são muito empregados.
Em verdade, morfismos de espaços vetoriais são mais freqüentemente denominados operadores lineares
ou aplicações lineares, como matrizes, por exemplo.
No caso de espaços vetoriais sobre o corpo dos complexos existem também os conceitos de anti-
homomorfismo, anti-isomorfismo etc. Sejam U e V dois espaços vetoriais sobre . Uma função φ :
U → V é dita ser um anti-homomorfismo ou anti-morfismo de espaços vetoriais se φ(α 1 u1 + α2 u2 ) =
α1 φ(u1 )+α2 φ(u2 ) para todos α1 , α2 ∈ e todos u1 , u2 ∈ U . O conceito de anti-isomorfismo é análogo.
• Morfismos em Álgebras
Sejam A e B duas álgebras (sobre o mesmo corpo K, como espaços vetoriais). Uma função φ :
A → B é dita ser um homomorfismo ou morfismo de álgebras se for um morfismo de espaços vetoriais
(ou seja φ(α1 a1 + α2 a2 ) = α1 φ(a1 ) + α2 φ(a2 ) para todos α1 , α2 ∈ K e todos a1 , a2 ∈ A) e se
φ(a1 · a2 ) = φ(a1 ) · φ(a2 ) para todos a1 , a2 ∈ A.
Sejam A e B duas álgebras sobre o mesmo corpo K. Uma função φ : A → B é dita ser um
isomorfismo de álgebras se for um morfismo de álgebras e se for bijetora.
Se duas álgebras A e B sobre o mesmo corpo forem tais que exista um isomorfismo φ entre ambos
dizemos que A e B são isomorfas (por φ) e denotamos esse fato por A 'φ B, ou simplesmente por
A ' B.
E. 1.68 Exercı́cio importante. Mostre que a relação de isomorfia entre álgebras é uma relação de
equivalência. 6
Um morfismo de álgebra ρ de uma álgebra A em si mesma ρ : A → A é dito ser um endomorfismo

de A.
1.3 Cosets, Sub-Grupos Normais e o Grupo Quociente. O

Centro de um Grupo
1.3.1 Cosets
• Cosets à esquerda, ou “left cosets”
Seja G um grupo e H um sub-grupo de G. Podemos definir em G uma relação de equivalência, que

denotaremos por ∼H l (o sub-ı́ndice “l” denotando “left”) dizendo que dois elementos x e y de G são
−1
equivalentes se x y ∈ H. Representaremos por x ∼H l y o fato de x e y serem equivalentes no sentido
acima.
E. 1.69 Exercı́cio importante. Verifique que a definição acima corresponde de fato a uma relação de
equivalência. 6
Denotemos por (G/H)l a coleção das classes de equivalência de G pela relação ∼H

l . O conjunto
(G/H)l é denominado coset à esquerda de G por H, ou left coset de G por H.
Seja [·]l a aplicação G → (G/H)l que associa a cada elemento de G a classe de equivalência a qual
o elemento pertence. A aplicação [·]l é denominada aplicação quociente à esquerda associada a H.
Note-se que [·]l é sobrejetora mas, em geral, não é injetora, pois se g 0 ∼H 0

l g então [g ]l = [g]l . Com isso,
os elementos de (G/H)l poderão ser denotados por [g]l com g ∈ G, o que freqüentemente faremos.
Podemos identificar [g]l com o conjunto gH = {gh, h ∈ H} ⊂ G. De fato, g 0 ∈ gH se e somente se
existe h ∈ H tal que g 0 = gh e, portanto, se e somente se g −1 g 0 ∈ H, ou seja, se e somente se g ∼H 0
l g.
• Cosets à direita, ou “right cosets”
Seja G um grupo e H um sub-grupo de G. Podemos definir em G uma relação de equivalência, que

denotaremos por ∼H r (o sub-ı́ndice “r” denotando “right”) dizendo que dois elementos x e y de G são
equivalentes se xy −1 ∈ H. Representaremos por x ∼H r y o fato de x e y serem equivalentes no sentido
acima.
E. 1.70 Exercı́cio importante. Verifique que a definição acima corresponde de fato a uma relação de
equivalência. 6
Denotemos por (G/H)r a coleção das classes de equivalência de G pela relação ∼H

r . O conjunto
(G/H)r é denominado coset à direita de G por H, ou right coset de G por H.
Seja [·]r a aplicação G → (G/H)r que associa a cada elemento de G a classe de equivalência a qual o
elemento pertence. A aplicação [·]r é denominada aplicação quociente à direita associada a H. Note-se
que [·]r é sobrejetora mas, em geral, não é injetora, pois se g 0 ∼H 0
r g então [g ]r = [g]r . Com isso, os
elementos de (G/H)r poderão ser denotados por [g]r com g ∈ G, o que freqüentemente faremos.
Podemos identificar [g]r com o conjunto Hg = {hg, h ∈ H} ⊂ G. De fato, g 0 ∈ Hg se e somente se
existe h ∈ H tal que g 0 = hg e, portanto, se e somente se g 0 g −1 ∈ H, ou seja, se e somente se g 0 ∼H
r g.
Doravante, denotaremos ∼H H
l simplesmente por ∼l e ∼r por ∼r , ficando o subgrupo H subentendido.
• Ação à esquerda de G sobre (G/H)l
É sempre possı́vel definir uma ação à esquerda de G sobre o coset à esquerda (G/H) l , a qual age
transitivamente em (G/H)l (vide definição à página 63). Isso faz de (G/H)l um espaço homogêneo de
G (vide definição à página 63).
Seja G um grupo, H um sub-grupo de G e seja o coset à esquerda (G/H)l , definido acima. Defina
α : G × (G/H)l → (G/H)l tal que G × (G/H)l 3 (g, [f ]l ) 7→ αg ([f ]l ) := [gf ]l ∈ (G/H)l .
Então, α define uma ação à esquerda de G sobre (G/H)l . De fato, tem-se que
1. Para cada g ∈ G, αg : (G/H)l → (G/H)l é bijetora, pois se existem f1 , f2 ∈ G tais que

[gf1 ]l = [gf2 ]l , então gf1 ∼l gf2 , ou seja, (gf1 )−1 (gf2 ) ∈ H, ou seja, (f1 )−1 f2 ∈ H. Isso estabelece
que f1 ∼l f2 , ou seja, que [f1 ]l = [f2 ]l , provando que αg : (G/H)l → (G/H)l é injetora. Note-se
que αg : (G/H)l → (G/H)l é sobrejetora, pois αg ([g −1 f ]l ) = [f ]l e variando f em G, [f ]l varre
todo (G/H)l .
2. Para a identidade e ∈ G, αe ([f ]l ) = [ef ]l = [f ]l para todo f ∈ G, provando que αe : (G/H)l →

(G/H)l é a aplicação identidade.
3. Para todos g, h ∈ G vale αg (αh ([f ]l )) = αg ([hf ]l ) = [ghf ]l = αgh ([f ]l ) para qualquer f ∈ G.
Isso provou que α : G × (G/H)l → (G/H)l é uma ação à esquerda de G em (G/H)l .

Não é difı́cil ver que a ação α age transitivamente em (G/H)l . De fato, se e é a unidade de G, então
αg ([e]l ) = [g]l e variando g por todo G a imagem [g]l varre todo (G/H)l .
• Ação à direita de G sobre (G/H)r
É sempre possı́vel definir uma ação à direita de G sobre o coset à direita (G/H) r , a qual age
transitivamente em (G/H)r (vide definição à página 63). Isso faz de (G/H)r um espaço homogêneo de
G (vide definição à página 63).
Seja G um grupo, H um sub-grupo de G e seja o coset à direita (G/H)r , definido acima. Defina
β : G × (G/H)r → (G/H)r tal que G × (G/H)r 3 (g, [f ]r ) 7→ βg ([f ]r ) := [f g]r ∈ (G/H)r .
Então, β define uma ação à direita de G sobre (G/H)r . De fato, tem-se que
1. Para cada g ∈ G, βg : (G/H)r → (G/H)r é bijetora, pois se existem f1 , f2 ∈ G tais que

[f1 g]r = [f2 g]r , então f1 g ∼r f2 g, ou seja, (f1 g)(f2 g)−1 ∈ H, ou seja, f1 (f2 )−1 ∈ H. Isso
estabelece que f1 ∼r f2 , ou seja, que [f1 ]r = [f2 ]r , provando que βg : (G/H)r → (G/H)r é
injetora. Note-se que βg : (G/H)r → (G/H)r é sobrejetora, pois βg (f [g −1 ]r ) = [f ]r e variando f
em G, [f ]r varre todo (G/H)r .
2. Para a identidade e ∈ G, βe ([f ]r ) = [f e]r = [f ]r para todo f ∈ G, provando que βe : (G/H)r →
(G/H)r é a aplicação identidade.
3. Para todos g, h ∈ G vale βg (βh ([f ]r )) = βg ([f h]r ) = [f hg]r = βhg ([f ]r ) para qualquer f ∈ G.
Isso provou que β : G × (G/H)r → (G/H)r é uma ação à direita de G em (G/H)r .

Não é difı́cil ver que a ação β age transitivamente em (G/H)r . De fato, se e é a unidade de G,
então αg ([e]r ) = [g]r e variando g por todo G a imagem [g]r varre todo (G/H)r .
Os cosets (G/H)l e (G/H)r podem ser identificados e transformados em grupos se uma certa
hipótese for feita sobre o sub-grupo H e sua relação com G. Esse é nosso assunto na Seção 1.3.2.
1.3.2 Sub-Grupos Normais e o Grupo Quociente
• Sub-Grupos Normais
Seja G um grupo. Um sub-grupo N de G é dito ser normal se gng −1 ∈ N para todo g ∈ G e todo
n ∈ N . Se N é um sub-grupo normal de G denotamos esse fato escrevendo N G. Observe que todo
sub-grupo de um grupo Abeliano G é normal.
E. 1.71 Exercı́cio. Sejam G e H dois grupos e ϕ : G → H um homomorfismo. Mostre que Ran (ϕ) :=
{ϕ(g)| g ∈ G} é um sub-grupo de H. 6
E. 1.72 Exercı́cio importante. Sejam G e H dois grupos e ϕ : G → H um homomorfismo. Seja e H a

unidade de H. Mostre que Ker (ϕ) := {g ∈ G| ϕ(g) = eH } é um sub-grupo normal de G. 6
Nota sobre a nomenclatura dos dois exercı́cios acima. O sı́mbolo Ran provém da palavra inglesa “range” (“alcance”, em português) e é
freqüentemente empregado como sinônimo da imagem de uma função ou aplicação. O sı́mbolo Ker provem do inglês “kernel” (“núcleo” ou
“caroço”, em português).
• Cosets por subgrupos normais
Nesse contexto, a seguinte proposição é fundamental.

Proposição 1.8 Seja G um grupo e seja N um sub-grupo de G. Então, uma condição necessária e
suficiente para que possamos identificar (G/N )l com (G/N )r , ou seja, para que tenhamos [g]l = [g]r
para todo g ∈ G, é que N G, ou seja, que N seja um sub-grupo normal de G. 2
Prova. Por definição, g 0 ∈ [g]l se e somente existe n ∈ N tal que g −1 g 0 = n, o que é verdade se e
somente se g 0 g −1 = gng −1 . Mas g 0 ∈ [g]r se e somente se g 0 g −1 ∈ N . Assim [g]l = [g]r para todo g ∈ G
se e somente se gng −1 ∈ N para todo g ∈ G e n ∈ N , o que é verdade se somente se N é um subgrupo
normal de G.
Com isso, caso N G, definimos [g] := [g]l = [g]r para todo g ∈ G e definimos o coset de G por N
por G/N := (G/N )l = (G/N )r , ou seja, G/N = {[g], g ∈ G}.
Advertência. O leitor deve ser advertido aqui que, infelizmente, é comum na literatura denotar o
coset à esquerda (G/H)l por G/H, mesmo quando H não é normal (vide, por exemplo, [114] ou [55],
entre outros). Evitaremos fazer isso, pois isso pode levar a uma confusão de conceitos.
• Ações à direita e à esquerda sobre o coset por um subgrupo normal
Se H é um subgrupo qualquer de G, definimos páginas acima uma ação transitiva à esquerda

α : G × (G/H)l → (G/H)l e uma ação transitiva à direita β : G × (G/H)r → (G/H)r . Fica claro
pela Proposição 1.8 que se N G, podemos definir tanto
α : G × (G/N ) → G/N tal que G × (G/N ) 3 (g, [f ]) 7→ αg ([f ]) := [gf ] ∈ G/N
como uma ação à esquerda de G sobre G/N quanto
β : G × (G/N ) → G/N tal que G × (G/N ) 3 (g, [f ]) 7→ βg ([f ]) := [f g] ∈ G/N
como uma ação à direita de G sobre G/N . Ambas as ações agem transitivamente.
• O Grupo Quociente de G por N

Sub-grupos normais são importantes, pois com eles podemos fazer da coleção de classes de equi-
valência G/N um grupo, denominado grupo quociente de G por N . A construção é a seguinte.
Seja N G. Podemos fazer de G/N um grupo definindo o produto como [g]N [h]N = [gh]N . É
muito fácil ver que, se esta expressão está bem definida, ela de fato representa um produto associativo
na coleção de classes de equivalência G/N . O elemento neutro seria a classe [e] N , onde e é a identidade
de g. Por fim, [g]−1 −1
N = [g ]N . O ponto não trivial é mostrar que a definição de produto como
[g]N [h]N = [gh]N faz sentido, ou seja, é independente dos elementos tomados nas classes de g e h. Para
isso precisaremos que N seja normal.
O que temos de fazer é mostrar que se g 0 ∼N g e h0 ∼N h então g 0 h0 ∼N gh, ou seja, precisamos
mostrar que se g 0 g −1 ∈ N e h0 h−1 ∈ N então g 0 h0 (gh)−1 ∈ N . Mas, de fato, tem-se que
g 0 h0 (gh)−1 = g 0 h0 h−1 g −1 = (g 0 g −1 )[g(h0 h−1 )g −1 ].
Agora, por hipótese, h0 h−1 ∈ N . Daı́, como N é normal (é aqui que essa hipótese entra pela primeira
vez), g(h0 h−1 )g −1 ∈ N . Como, também pela hipótese, g 0 g −1 ∈ N e N é um sub-grupo, concluı́mos que
g 0 h0 (gh)−1 ∈ N , ou seja, g 0 h0 ∼N gh. Assim [g]N [h]N = [gh]N está bem definido e faz das classes G/N
um grupo. Esse grupo é denominado de grupo quociente de G por N .
A noção de grupo quociente é muito importante na teoria de grupos e iremos explorar algumas das
aplicações nessas notas. Adiante usarêmo-la para construir a noção de produto tensorial e soma direta
de vários objetos, tais como grupos, álgebras etc. A noção de grupo quociente é importante por permitir
estudar a relação de certos grupos entre si. Mais adiante, por exemplo, mostraremos que o grupo SO(3)
é isomorfo ao grupo SU (2)/{ , − }, um resultado de direto interesse fı́sico na Mecânica Quântica. A
noção de grupo quociente é também muito importante em problemas combinatórios envolvendo grupos,
mas não falaremos disso aqui. Para uma discussão mais ampla, vide [113], [114] ou [93].
1.3.3 O Centro de um Grupo. Centralizadores e Normalizadores
• O Centro de um Grupo
Seja G um grupo. O conjunto dos elementos de G que têm a propriedade de comutarem com todos
os elementos de G é denominado o centro do grupo G e é freqüentemente denotado por 33 Z(G). Em
sı́mbolos:
Z(G) := {h ∈ G| hg = gh para todo g ∈ G} .
Note que Z(G) nunca é um conjunto vazio, pois o elemento neutro de G sempre pertence e Z(G).
Em alguns grupos, porém, esse pode ser o único elemento de Z(G). Esse é o caso, por exemplo, do
grupo de permutações de n elementos (por que?).
E. 1.73 Exercı́cio. Mostre que Z(G) é sempre um subgrupo Abeliano de G. 6
É elementar constatar que para qualquer grupo G, seu centro Z(G) é um subgrupo normal de G.
É igualmente elementar constatar que se G é Abeliano então Z(G) = G.
33
O emprego da letra Z provavelmente provem da palavra alemã “Zentrum”.
• Centralizadores e Normalizadores
Seja G um grupo e F um sub-conjunto não vazio de G.

Dado um elemento h ∈ G, denotamos por hF h−1 o conjunto de todos os elementos de G que sejam
da forma hf h−1 para algum f ∈ F , ou seja, hF h−1 := {hf h−1 , f ∈ F }.
O chamado normalizador de F (em G), denotado por N (F, G) (ou simplesmente por N (F ), quando
G é subentendido), é o conjunto de todos os elementos g ∈ G tais que gF g −1 = F .
O chamado centralizador de F (em G), denotado por C(F, G) (ou simplesmente por C(F ), quando
G é subentendido), é o conjunto de todos os elementos de G que comutam com todos os elementos de
F:
C(F, G) := {g ∈ G| gf = f g para todo f ∈ F }.
E. 1.74 Exercı́cio. Mostre que o centralizador de F ⊂ G é um sub-grupo de G. 6
E. 1.75 Exercı́cio. Se F ⊂ G, mostre que o normalizador N (F ) ≡ N (F, G) de F em G é um sub-grupo

de G. Mostre que se F é um subgrupo de G então F é normal em relação a N (F ) (ou seja, F N (F )) e
que se H é um subgrupo de G tal que F é normal em relação a H (ou seja, F H), então H ⊂ N (F ) e,
portanto, N (F ) é o maior subgrupo de G em relação ao qual F é normal. 6
• O Centro de GL( , n)
Como exercı́cio vamos determinar o centro de GL( , n). Se A ∈ Z(GL( , n)) então AB = BA
para toda B ∈ GL( , n). Tomemos, em particular, uma matriz B da forma B = + E a, b , onde E a, b ,
com a, b ∈ {1, . . . , n}, é a matriz cujo elemento ij é nulo a menos que i = a e que j = b, em cujo
caso (E a, b )ij = 1. Em sı́mbolos, (E a, b )ij = δia δjb . (Antes de prosseguir, convença-se que + E a, b ∈
GL( , n), notando que det( + E a, b ) 6= 0). Agora, como AB = BA, segue que AE a, b = E a, b A. Pela
regra de produto de matrizes, isso significa
n
X n
X
(AE a, b )ij = Aik (E a, b )kj = Aik δka δjb = Aia δjb
k=1 k=1
q
n
X n
X
a, b a, b
(E A)ij = (E )ik Akj = δia δkb Akj = Abj δia .
k=1 k=1
Assim, Aia δjb = Abj δia . Tomando-se j = b, concluı́mos Aia = Abb δia . Como a e b são arbitrários,
concluı́mos dessa igualdade que Abb = λ, constante independente de b. Daı́, Aia = λδia , o que significa
que A = λ . Como det(A) 6= 0, devemos ter λ 6= 0.
Para futura referência expressamos nossas conclusões na forma de uma proposição:
Proposição 1.9 O centro do grupo GL( , n), ou seja, Z(GL( , n)), coincide com o conjunto de
todas as matrizes da forma λ , com λ 6= 0, ou seja, é o conjunto das matrizes não-nulas que são
múltiplos da unidade. Em sı́mbolos,
Z(GL( , n)) = {λ , λ ∈ , λ 6= 0} .
Como conseqüência podemos afirmar que se uma matriz A ∈ Mat ( , n) comuta com todas as demais
matrizes de Mat ( , n) então A = λ para algum λ ∈ . 2
E. 1.76 Exercı́cio. Mostre que o centro de SL( , n) é o conjunto de todas as matrizes da forma λ ,
com λ ∈ satisfazendo λn = 1. Mostre que esse grupo é isomorfo ao grupo n . 6
E. 1.77 Exercı́cio. Mostre que o centro de SL( , n) é o conjunto de todas as matrizes da forma λ ,

com λ ∈ satisfazendo λn = 1. Esse grupo é { } quando n é ı́mpar e { , − } quando n é par. (Lembre-se

que SL( , n) é formado apenas por matrizes reais).

6
1.4 O Produto Direto e o Produto Semi-Direto de Grupos

Vamos aqui descrever dois procedimentos importantes que permitem construir um grupo a partir de
dois outros grupos dados.
Sejam G e H dois grupos, cujas identidades são eG e eH , respectivamente. É por vezes muito
importante fazer do produto Cartesiano G × H um grupo.
• O Produto Direto de Grupos
A maneira mais fácil é definir o produto de dois pares ordenados (g1 , h1 ), (g2 , h2 ), com g1 , g2 ∈ G
e h1 , h2 ∈ H, por
(g1 , h1 ) · (g2 , h2 ) := (g1 g2 , h1 h2 ).
O leitor pode facilmente se convencer que esse produto é associativo, que (e G , eH ) é o elemento neutro
e que (g, h)−1 = (g −1 , h−1 ).
Isso faz de G × H um grupo, denominado produto direto de G e H. Esse grupo é por vezes denotado
por G ⊗ H.
E. 1.78 Exercı́cio. Mostre que G ⊗ H e H ⊗ G são isomorfos. 6
A definição acima pode ser amplamente generalizada. Seja Gs ,Qs ∈ Λ, uma coleção de grupos
indexados por s ∈ Λ. ConsideremosSo produto Cartesiano G := s∈Λ Gs , definido como sendo a
Λ → s∈Λ Gs , com f (s) ∈ Gs . Então, podemos fazer de G um grupo
coleção de todasQas funções f :Q
definindo para s∈Λ f1 (s) , s∈Λ f2 (s) ∈ G o produto
! ! !
Y Y Y
f1 (s) · f2 (s) = f1 (s)f2 (s) .
s∈Λ s∈Λ s∈Λ
Como facilmente se vê, esse produto faz de G um grupo, denominado produto direto da coleção de
grupos Gs , s ∈ Λ.
• O Produto Semi-Direto de Grupos
Dados dois grupos G e H há uma outra maneira de fazer de G × H um grupo além do produto
direto. Para tal é necessário que exista uma ação de G em H por automorfismos de H. Expliquemos
melhor isso.
Lembremos que um automorfismo α de um grupo H é um isomorfismo de H em si mesmo α : H →
H. Uma ação (à esquerda) de G sobre H por automorfismos é um função α : G × H → H tal que a
cada par (g, h) ∈ G × H associa um elemento denotado por αg (h) de H de tal forma que as seguintes
condições sejam satisfeitas:
1. Para todo g ∈ G, a função αg (·) : H → H é um automorfismo de H, ou seja, αg (h)αg (h0 ) =

αg (hh0 ), sendo que αg (·) : H → H é bijetora com (αg )−1 = αg−1 .
2. Para todo h ∈ H vale αeG (h) = h.
3. Para todo h ∈ H vale αg (αg0 (h)) = αgg0 (h) para quaisquer g, g 0 ∈ G.
Acima eG e eH são as unidades de G e H, respectivamente.
E. 1.79 Exercı́cio-exemplo. Um exemplo importante é o seguinte. Seja N G. Então, com n ∈ N ,

αg (n) := gng −1 define uma ação (à esquerda) de G sobre N por automorfismos. Verifique! 6
Pela definição geral, tem-se pelas propriedades 1, 2 e 3 acima que para quaisquer g ∈ G e h ∈ H
αg (eH )h = αg (eH )αg (αg−1 (h)) = αg (eH αg−1 (h)) = αg (αg−1 (h)) = h,
o que implica αg (eH ) = eH para todo g ∈ G.

Se G e H são grupos e α : G × H → H é uma ação à esquerda de G sobre H por automorfismos,
então podemos definir em G×H um produto de dois pares ordenados (g1 , h1 ), (g2 , h2 ), com g1 , g2 ∈ G
e h1 , h2 ∈ H, por
(g1 , h1 ) · (g2 , h2 ) := (g1 g2 , h1 αg1 (h2 )).
E. 1.80 Exercı́cio importante. Mostre que esse produto é associativo, que (e G , eH ) é a unidade e que
para quaisquer g ∈ G, h ∈ H tem-se (g, h)−1 = (g −1 , αg−1 (h−1 )). 6
Com isso G × H adquire a estrutura de um grupo, denominado produto semi-direto de G por H

pelo automorfismo α : G × H → H, ou simplesmente produto semi-direto de G por H quando um
automorfismo α : G × H → H especı́fico é subentendido. Na literatura o produto semi-direto de G por
H é denotado de várias formas: por G ×α H, por G ⊗α H, por Gsα H, ou por por GsH quando um
automorfismo α : G × H → H especı́fico é subentendido. Nestas notas adotaremos as duas últimas
formas.
• Exemplos
I. Seja G um grupo e N G. Então, para g1 , g2 ∈ G e n1 , n2 ∈ N o produto
(g1 , n1 ) · (g2 , n2 ) := (g1 g2 , n1 g1 n2 g1−1 )
define o grupo GsN , produto semi-direto de um grupo G por um sub-grupo normal N através do
automorfismo natural.
II. Considere o grupo G, formado por todos os números reais não-nulos com o produto dado pela
multiplicação usual e o grupo H, formado por todos os reais com o produto dado pela soma: G =
( \ {0}, ·) e H = ( , +).

Para todo a ∈ \ {0} e x ∈ definimos α : G × H → H por αa (x) := ax. Para cada a ∈ G, tem-se

que αa é bijetora, com inversa dada por α1/a . Fora isso, αa (x) + αa (y) = ax + ay = a(x + y) = αa (x + y).
Assim, αa é um automorfismo (condição 1. da definição acima). Fora isso, para todo x ∈ H, α 1 (x) = x
(condição 2.). Por fim, para todo x ∈ H, αa (αb (x)) = abx = αab (x), para quaisquer a, b ∈ G (condição
3.). Concluı́mos que α é uma ação à esquerda de G sobre H por automorfismos.
Assim, fazemos de G × H um grupo Gsα H com o produto
(a, x) · (b, y) := (ab, x + ay) .
O elemento neutro é o par (1, 0) e (a, x)−1 = (1/a, −x/a).

Para interpretar o que esse grupo Gsα H significa, vamos definir uma ação34 Γ de Gsα H sobre o
conjunto da seguinte forma. Para (a, x) ∈ Gsα H e z ∈ , definimos

Γ((a, x), z) := az + x.
Para verificar que isso é uma ação notemos as seguintes propriedades: i. para cada (a, x) fixo
Γ((a, x), z) é uma função bijetora de em (lembre-se que a 6= 0). ii. Para todo z ∈ ,

Γ((1, 0), z) = z.
iii. Γ((a, x), Γ((b, y), z)) = Γ((a, x), bz + y) = a(bz + y) + x = abz + (x + ay)
= Γ((ab, x + ay), z) = Γ((a, x) · (b, y), z).
Isso mostrou que Γ é uma ação de Gsα H sobre o conjunto . Como vemos, a ação de um elemento

(a, x) consiste em uma combinação de uma multiplicação por a 6= 0 seguida por uma translação por
x ∈ . Isso exibe o significado geométrico do grupo Gsα H. Vamos a um outro exemplo semelhante.

III. Considere o conjunto de todas as operações do espaço tridimensional que envolvem rotações e
translações. Por exemplo, considere-se a operação na qual cada vetor ~x é primeiramente rodado por
uma matriz de rotação R ∈ SO(3) e em seguida é transladado por um vetor ~x0 :
~x 7→ R~x + ~x0 . (1.25)
A composição de duas de tais operações conduz à transformação ~x 7→ R 0 (R~x + ~x0 ) + ~x00 , ou seja,
~x 7→ (R0 R)~x + ~x00 + R0 ~x0 . (1.26)

34
O conceito de ação de um grupo em um conjunto foi definido à página 61.
O espaço vetorial 3 é naturalmente um grupo Abeliano em relação à adição de vetores. Se R ∈

SO(3), αR (~x0 ) := R~x0 define uma ação por automorfismos de SO(3) sobre 3 . A expressão (1.26)
inspira a definição do produto semi-direto SO(3)sα 3 por
(R0 , ~x00 ) · (R, ~x0 ) = (R0 R, ~x00 + R0~x0 ).
E. 1.81 Exercı́cio. Verifique que a transformação (1.25) define uma ação à esquerda do grupo SO(3)s α 3
sobre o conjunto 3 . 6
n
Definição. Os grupos En := SO(n)sα são denominados grupos Euclidianos3536 .
IV. Seja V um espaço vetorial (e, como tal, um grupo Abeliano em relação à soma de vetores) e seja
Aut(V ) a coleção de todas as aplicações lineares bijetoras de V em V .
n n
Por exemplo V = e Aut( ) é o conjunto de todas as matrizes reais n × n invertı́veis.
Então, fazemos de Aut(V ) × V um grupo, definindo
(A, v) · (B, u) := (AB, v + Au).
Esse grupo é por vezes denominado grupo afim do espaço vetorial V .

Observação. O caso V = corresponde exatamente ao exemplo II, acima.
Mencionamos, por fim, que o grupo de Poincaré, introduzido à página 628, é também um exemplo
de um grupo definido como um produto semi-direto de dois grupos, a saber, o produto semi-direto do
grupo das transformações de Lorentz com grupo das translações no espaço-tempo.
1.5 Somas Diretas e Produtos Tensoriais
1.5.1 Discussão Informal Preliminar

Nesta seção apresentaremos duas maneiras distintas de construir grupos Abelianos a partir de dois
grupos Abelianos dados, que são o chamado produto tensorial de dois grupos e a chamada soma direta
de dois grupos. As construções precisas (especialmente a do produto tensorial) são um tanto elaboradas,
mas as idéias por trás delas são simples, de modo que tentaremos primeiramente apresentá-las de modo
elementar para depois (a partir da Seção 1.5.2) nos dedicarmos à sua definição precisa.
Essas construções prestam-se também a definir o produto tensorial e a soma direta de espaços
vetoriais (sobre um mesmo corpo), o que também discutiremos.
Na Seção 1.5.5 serão apresentadas mais generalizações envolvendo (uma coleção arbitrária) de grupos
não necessariamente Abelianos.
Um comentário pertinente (destinado aos estudantes mais avançados) é que as construções de
produto tensorial e soma direta de espaços vetoriais que apresentaremos adiante correspondem às noções
35
36 n
Para alguns autores, os grupos Euclidianos são os grupos O(n)sα .
de produto tensorial e soma direta algébricos. Isso significa que outras estruturas, como uma topologia,
ou propriedades, como completeza, não são necessariamente herdadas pela construção. Assim, por
exemplo, o produto tensorial algébrico de dois espaços de Banach não é necessariamente um espaço de
Banach. Para tal é necessário introduzir um completamento extra, que pode não ser único.
• A Noção de Soma Direta de Dois Grupos
Sejam A e B dois grupos Abelianos, com identidades eA e eB (e cujas operações de produto de-
notaremos ambas pelo mesmo sı́mbolo “+”). Desejamos encontrar uma maneira de fazer do produto
Cartesiano A × B um grupo também. Uma maneira de fazer isso é definir a “soma” de dois pares
ordenados (a, b), (a0 , b0 ) ∈ A × B por
(a, b) + (a0 , b0 ) := (a + a0 , b + b0 ). (1.27)
O leitor pode facilmente constatar que essa operação é uma operação binária de A × B em si mesmo,
que ela é associativa, que tem por elemento neutro o par (eA , eB ) e que para cada (a, b) ∈ A × B
a inversa é (a, b)−1 = (−a, −b), onde −a é o elemento inverso de a em A, e analogamente para −b.
Portanto, com esse produto, A × B é um grupo.
Com essa estrutura, facilmente se verifica que A × B torna-se um grupo Abeliano, denominado
soma direta de A e B ou produto direto37 de A e B e denotado pelo sı́mbolo A ⊕ B. Com essa estrutura
de grupo em mente, os pares ordenados (a, b) são freqüentemente denotados pelo sı́mbolo a ⊕ b.
• A Noção de Soma Direta de Dois Espaços Vetoriais
Sejam U e V dois espaços vetoriais em relação a um mesmo corpo que, sem perda de generalidade,
consideraremos doravante como sendo o corpo dos complexos. U e V são dois grupos Abelianos em
relação às respectivas operações de soma de vetores. Assim, pela construção acima, podemos definir o
grupo U ⊕ V . Esse objeto ainda não tem uma estrutura de espaço vetorial (sobre os complexos), pois
não dissemos como definir o produto de um elemento de U ⊕ V por um escalar α ∈ . Isso é feito da
seguinte forma, para u ∈ U , v ∈ V , define-se α(u ⊕ v) por
α(u ⊕ v) := (αu) ⊕ (αv). (1.28)
E. 1.82 Exercı́cio. Constate que, com essa definição, U ⊕ V torna-se um espaço vetorial, ou seja,
verifique que são válidos os postulados da definição formal de espaço vetorial dados à página 54. 6
Esse espaço vetorial que denotaremos por U ⊕ V , é denominado soma direta dos espaços U e V

ou produto direto38 de U e V .
• A Noção de Produto Tensorial de Dois Grupos
37
A distinção entre produto direto e soma direta só se faz quando uma coleção não-finita de grupos é envolvida. Vide
Seção 1.5.5.
38
A distinção entre produto direto e soma direta só se faz quando uma coleção não-finita de espaços vetoriais é
envolvida. Vide Seção 1.5.5.
A definição de produto tensorial de dois grupos Abelianos A e B, que denotaremos por A ⊗ B,

é distinta da de soma direta. A idéia básica, porém, é a mesma, ou seja, tentar fazer do produto
Cartesiano A × B um grupo, mas a regra de produto é muito diferente daquela dada em (1.27). Em
primeiro lugar, os elementos de A ⊗ B são somas formais finitas de pares ordenados de A × B como
(a, b) + (a0 , b0 ),
mas não impomos a relação (1.27). O que realmente entendemos por “soma formal” será explicado
adiante, quando definirmos o conceito de grupo Abeliano livremente gerado por um conjunto, uma
noção muito simples. Por ora fiquemos apenas com a noção intuitiva. Para dar a A ⊗ B uma estrutura
de grupo, desejamos impor algumas condições às somas formais acima. Primeiramente impomos que
(a, b) + (a0 , b0 ) = (a0 , b0 ) + (a, b),
para todos a, a0 ∈ A, b, b0 ∈ B. Em segundo lugar, impomos que
(a + a0 , b) = (a, b) + (a0 , b)
e que
(a, b + b0 ) = (a, b) + (a, b0 )
para todos a, a0 ∈ A, b, b0 ∈ B. O estudante deve notar que essas imposições são mais limitadas que
aquelas de (1.27). Note também que as imposições acima são inspiradas na bem-conhecida propriedade
de transitividade de produtos e somas de números reais ou complexos: (x+x0 )y = xy +x0 y e x(y +y 0) =
xy + xy 0 .
E. 1.83 Exercı́cio. Mostre que com as regras de soma dadas acima todos os pares (e A , b) e (a, eB )
são identificados entre si e com o elemento neutro da operação de soma de pares ordenados. Fora isso, o
elemento inverso de um par (a, b) é (−a, b) = (a, −b). Mostre que, com isso, A ⊗ B é um grupo Abeliano,
denominado Produto Tensorial dos Grupos Abelianos A e B. 6
Com essa estrutura de grupo em mente, os pares ordenados (a, b) são freqüentemente denotados
pelo sı́mbolo a ⊗ b.
• A Noção de Produto Tensorial de Dois Espaços Vetoriais
Sejam U e V dois espaços vetoriais em relação a um mesmo corpo que, sem perda de generalidade,
consideraremos doravante como sendo o corpo dos complexos. U e V são dois grupos Abelianos em
relação às respectivas operações de soma de vetores. Assim, pela construção acima, podemos definir o
grupo U ⊗ V . Esse objeto ainda não tem uma estrutura de espaço vetorial (sobre os complexos), pois
não dissemos como definir o produto de um elemento de U ⊗ V por um escalar α ∈ . Isso é feito da
seguinte forma, para u ∈ U , v ∈ V , define-se α(u ⊗ v) impondo
α(u ⊗ v) := (αu) ⊗ (v) = (u) ⊗ (αv). (1.29)
O estudante deve comparar essa regra de produto por escalares com a regra 1.28.
Para elementos de U ⊗ V que sejam somas finitas, como por exemplo u ⊗ v + u0 ⊗ v 0 , impomos
α (u ⊗ v + u0 ⊗ v 0 ) := α (u ⊗ v) + α (u0 ⊗ v 0 )
= (αu) ⊗ v + (αu0 ) ⊗ v 0 = u ⊗ (αv) + u0 ⊗ (αv 0 ).

E. 1.84 Exercı́cio. Constate que, com essa definição, U ⊗ V torna-se um espaço vetorial, ou seja,
verifique que são válidos os postulados da definição formal de espaço vetorial dados à página 54. 6
Esse espaço vetorial que denotaremos por U ⊗ V , é denominado produto tensorial dos espaços U

e V.
Vamos agora tentar formalizar as noções que apresentamos acima, apresentando suas definições
matemáticas precisas. O leitor que acredita ter entendido o que apresentamos acima pode dispensar-se
de ler o restante da presente seção.
1.5.2 Grupos Gerados por Conjuntos. Grupos Gerados por Relações
• Suporte de uma função
Seja f : X → G uma função de um conjunto não-vazio X em um grupo G. O suporte de f , denotado

por supp (f ), é o conjunto de todos os pontos x ∈ X tais que f (x) 6= e, onde e é a unidade de G:
supp (f ) := {x ∈ X| f (x) 6= e}. Uma função f : X → G é dita ser de suporte finito se seu suporte for
um conjunto finito.
• Grupo Abeliano Livremente Gerado por um Conjunto
Uma noção importante que usaremos adiante é a de grupo Abeliano livremente gerado por um
conjunto X. Seja X um conjunto. Seja F (X) a coleção de todas as funções de suporte finito de X
em . É fácil ver que F (X) tem naturalmente uma estrutura de grupo Abeliano, definindo, para f ,
f 0 ∈ F (X) o produto de f e f 0 como sendo o elemento f f 0 = (f + f 0 ) de F (X) dado por
(f + f 0 )(x) = f (x) + f 0 (x). (1.30)
para todo x ∈ X. É claro que esse (f + f 0 ) tem suporte finito. O elemento neutro e de F (X) é
claramente a função identicamente nula. Pelo fato de F (X) ter essa estrutura natural de grupo F (X)
é denominado grupo Abeliano livremente gerado pelo conjunto X.
Para x ∈ X vamos denotar por δx a função caracterı́stica de x:

1, se y = x
δx (y) := . (1.31)
0, se y 6= x
Claramente δx ∈ F (X). Dado que cada f ∈ F (X) tem suporte finito, pode-se escrevê-lo da forma
N
X
f = a n δ xn , (1.32)
n=1
para valores de N e dos an ’s dependentes de f , com {x1 , . . . , xN } = supp f e com ai ∈ para

i = 1, . . . , N .
Com um flagrante abuso de linguagem é costume escrever (1.32) da forma

N
X
f = a n xn , (1.33)
n=1
onde fica, por assim dizer, subentendido que aqui os xn ’s representam não os elementos de X mas sim
suas funções caracterı́sticas (X pode ser um conjunto qualquer, de modo que operações como soma de
elementos de X ou multiplicação de elementos de X por um inteiro podem não serem sequer definidas).
É fácil verificar que F (X) é um grupo Abeliano livre (daı́ seu nome), o que quer dizer que não há em
F (X) nenhuma relação não trivial entre seus elementos, a não ser aquela que lhe confere Abelianidade:
f f 0 f −1 f 0 −1 = e.
• Relações e Grupos Gerados Módulo Relações
Vamos passar agora a uma construção muito importante, a de grupo Abeliano livremente gerado
por um conjunto módulo relações. Vamos apresentar essa construção de forma bem geral.
Seja J um conjunto (em princı́pio arbitrário) de ı́ndices e sejam então, para cada j ∈ J, elementos
de F (X) dados por
n(j)
X
rj = αj, i xj, i (1.34)
i=1
onde, para cada j ∈ J, n(j) ∈ e, para todo j ∈ J e i ∈ {1, . . . , n(j)}, tem-se αj, i ∈ e xj, i ∈ X com

xj, i 6= xj, i0 se i 6= i0 . Denotamos R := {rj , j ∈ J}. Os elementos de R serão chamados “relações”.

Seja então R o subgrupo de F (X) formado por todos os elementos de F (X) que são combinações
lineares finitas de rj ’s com coeficientes em :
s ∈ R ⇐⇒ s = s1 rj1 + · · · + sm rjm , (1.35)

para certos si ∈ em∈ , que dependem de s. R é dito ser o subgrupo de F (X) gerado pelos rj ’s.
Por ser um subgrupo de um grupo Abeliano, R é normal. Assim, podemos definir o “grupo Abeliano
livremente gerado por X, módulo as relações R” como sendo o grupo F (X)/R. Note-se que [R] R = e,
o que equivale a dizer que os elementos de R são identificados como zero (daı́ serem chamados de
“relações”, pois refletem identidades que não existiam em F (X) e que estão sendo agora impostas em
F (X)/R).
Vamos ilustrar as definições e construções acima apresentando as definições de soma direta e produto
tensorial de dois grupos Abelianos e, em seguida, de dois espaços vetoriais. As definições de acima são
particularmente relevantes para o conceito de produto tensorial.
1.5.3 Somas Diretas
• A Soma Direta de dois Grupos Abelianos

Sejam A e B dois grupos Abelianos cujo produto de grupo denotaremos aditivamente: com o
sı́mbolo +. Seja X = A × B. Seja em F (X) = F (A × B) o conjunto R de relações dado por
R := {r ∈ F (X)| r = (a + a0 , b + b0 ) − (a, b) − (a0 , b0 ), com a, a0 ∈ A e b, b0 ∈ B}. (1.36)
Seja R = R(A × B) o subgrupo de F (A × B) gerado por R. Chegamos assim à definição do grupo

Abeliano A ⊕ B, a soma direta de A e B, que é definido como A ⊕ B := F (A × B)/R(A × B).
Notação. Para a ∈ A e b ∈ B denotaremos por a ⊕ b o elemento de A ⊕ B que corresponde (na notação

discutida acima) à função δ(a, b) .
• A Soma Direta de dois Espaços Vetoriais
Sejam U e V dois espaços vetoriais (sobre ). Como U e V são dois grupos Abelianos, o grupo
Abeliano U ⊕ V está definido pelo procedimento acima. Isso, entretanto, ainda não faz de U ⊕ V um
espaço vetorial.
Para isso é preciso definir o produto de um escalar por um elemento de U ⊕ V . Definimos então o
produto de um escalar α ∈ por um elemento u ⊕ v ∈ U ⊗ V como sendo o elemento (αu) ⊕ (αv), ou
seja,
α(u ⊕ v) := (αu) ⊕ (αv).
É fácil constatar que, com essa definição, U ⊕ V torna-se um espaço vetorial (vide a definição formal

de espaço vetorial à página 54), que denotaremos por U ⊕ V . O assim definido espaço vetorial U ⊕ V

é denominado a soma direta dos espaços vetoriais U e V sobre o corpo .
1.5.4 Produtos Tensoriais

A definição de produtos tensoriais é mais delicada e faz uso mais forte do conceito de grupo livremente
gerado por um conjunto.
• O Produto Tensorial de dois Grupos Abelianos
Sejam A e B dois grupos Abelianos cujo produto de grupo denotaremos aditivamente: com o
sı́mbolo +. Seja X = A × B. Seja em F (X) = F (A × B) o conjunto R de relações dado por
R := {r ∈ F (X)| r = (a + a0 , b) − (a, b) − (a0 , b)
ou r = (a, b + b0 ) − (a, b) − (a, b0 ), com a, a0 ∈ A e b, b0 ∈ B}. (1.37)
Seja R = R(A × B) o subgrupo de F (A × B) gerado por R. Chegamos assim à definição do grupo

Abeliano A ⊗ B, o produto tensorial de A e B, que é definido como A ⊗ B := F (A × B)/R(A × B).
Notação. Para a ∈ A e b ∈ B denotaremos por a ⊗ b o elemento de A ⊗ B que corresponde (na notação

discutida acima) à função δ(a, b) .
• O Produto Tensorial de dois Espaços Vetoriais

Sejam U e V dois espaços vetoriais (sobre ). Como U e V são dois grupos Abelianos, o grupo
Abeliano U ⊗ V está definido pelo procedimento da última sub-seção. Isso, entretanto, ainda não faz
de U ⊗ V um espaço vetorial. Para isso tomemos X = U ⊗ V e consideremos o sub-espaço de F (X)
definido por
R := {r ∈ F (U ⊗ V )| r = (αu) ⊗ v − u ⊗ (αv), com α ∈ , u ∈ U, v ∈ V }. (1.38)
Como antes, seja R = R(U ⊗ V ) o subgrupo gerado por R. Definimos agora um novo grupo Abeliano
U ⊗ V como U ⊗ V := F (U ⊗ V )/R(U ⊗ V ).

U ⊗ V é por ora apenas mais um grupo Abeliano, mas podemos adicionar-lhe uma estrutura de

espaço vetorial da seguinte forma.

Primeiramente é preciso definir o produto de um escalar por um elemento de U ⊗ V . Para elementos
da forma u ⊗ v com u ∈ U e v ∈ V , definimos então o produto α(u ⊗ v), para α ∈ por

α(u ⊗ v) := (αu) ⊗ v = u ⊗ (αv).

A última igualdade segue da definição de U ⊗ V .
Os demais elementos de U ⊗ V são da forma de combinações lineares finitas com coeficientes

inteiros de elementos como u ⊗ v, ou seja, são da forma

n
X
ck (uk ⊗ vk )
k=1
para algum n > 0 e ck ∈ . Para os mesmos definimos

n
! n
X X
α ck (uk ⊗ vk )
:= ck α (uk ⊗ vk )
k=1 k=1
n
X n
X
= ck (αuk ) ⊗ vk =
ck uk ⊗ (αvk ).

k=1 k=1
É fácil constatar que, com essa definição, U ⊗ V torna-se um espaço vetorial (vide a definição

formal de espaço vetorial à página 54), que também denotaremos por U ⊗ V . O assim definido espaço
vetorial U ⊗ V é denominado produto tensorial dos espaços vetoriais U e V sobre o corpo .

• O Produto Tensorial de dois Módulos sobre uma Álgebra Associativa
Vamos aqui a uma definição que nos será importante. Sejam M e N dois bimódulos sobre uma
álgebra associativa A, ambos supostos serem espaços vetoriais sobre o corpo dos complexos. Conforme a
sub-seção anterior podemos definir o espaço vetorial M ⊗ N . Entretanto, em muitos casos é necessário

definir um outro tipo de produto tensorial entre M e N .

Para tal seja X = M ⊗ N e definamos em F (X) o conjunto de relações

R := {r ∈ F (X)| r = (ma) ⊗ n − m ⊗ (an), com a ∈ A, m ∈ M, n ∈ N }.

(1.39)
Definamos então R = R(M ⊗ N ) como o subgrupo gerado por R e o produto tensorial

M ⊗A N := F (M ⊗ N )/R(M ⊗ N ).

(1.40)
Podemos fazer de M ⊗A N um módulo, digamos à direita, sobre A tomando o produto
a · (m ⊗A n) := (ma) ⊗A n = m ⊗A (an). (1.41)
Faremos uso freqüente desse produto tensorial adiante. O mais importante para nós será a identi-
dade (ma) ⊗A n = m ⊗A (an) válida em todo M ⊗A N para todo a ∈ A.
1.5.5 Produtos Diretos e Somas Diretas Arbitrários

Aqui apresentaremos as definições de produtos diretos e somas diretas de coleções arbitrárias de grupos
(não necessariamente Abelianos) e de espaços vetoriais.
• Produto Direto e Soma Direta de Coleções Arbitrárias de Grupos
Seja J um conjunto arbitrário de ı́ndices e G := {Gi , i ∈ J} uma coleção de grupos. Seja

o produto Cartesiano := ×i∈J Gi . Podemos fazer de um grupo definindo o produto de dois
elementos 3 g = ×a∈J ga , 3 h = ×b∈J hb como g · h = ×a∈J (ga ha ). Com essa estrutura é dito
Y
ser o produto direto dos grupos Gi , i ∈ J e será denotado por p = Gi .
i∈J
ppossui um subgrupo importante, aquele formado por elementos ×a∈J ga ∈ p onde apenas um
número finito de ga ’s é distinto da identidade ea doM
respectivo grupo Ga . Esse subgrupo é dito ser a
soma direta dos Gi ’s , i ∈ J e é denotado por s = Gi .
i∈J
• Soma Direta de Coleções Arbitrárias de Espaços Vetoriais
Se {Vi , i ∈ J} é uma coleção de espaços vetoriais que, em particular,

L são grupos Abelianos, cai
definida, pelo apresentado na sub-seção anterior, a soma direta s := i∈J Vi , definida primeiramente

como grupo Abeliano. s pode ser feito um espaço vetorial definindo-se, para um escalar genérico α ∈ ,

α · (×a∈J va ) := ×a∈J (αva ), (1.42)
para todo ×a∈J va ∈
s.
Um caso especial que irá nos interessar é o seguinte: seja M um bimódulo sobre uma álgebra
associativa A e tomemos J = e Vn = M ⊗A n ≡ M ⊗A · · · ⊗A M . O exposto acima permite definir a
| {z }

M n vezes
soma direta M ⊗A n .
n∈
1.5.6 Módulos e Derivações

Seja A uma álgebra sobre com identidade e e seja M um bimódulo sobre A. Uma aplicação linear
δ : A → M é dita ser uma derivação de A em M se satisfaz a regra de Leibniz39 :
δ(ab) = aδ(b) + δ(a)b, (1.43)

para todos a, b ∈ A.
Vamos a alguns exemplos.
Exemplo 1. Seja A uma álgebra sobre com unidade e e M = A ⊗ A com os seguintes produtos

de bimódulo:
a · (b ⊗ c) := (ab) ⊗ c, (1.44)
(b ⊗ c) · a := b ⊗ (ca). (1.45)
Deixa-se ao leitor verificar a associatividade dos produtos de bimódulo nesse caso. Defina-se
δ(a) := a ⊗ e − e ⊗ a. (1.46)
Deixa-se ao leitor verificar a validade da regra de Leibniz nesse exemplo. Note-se também que, por
essa definição, δ(e) = 0.
Exemplo 2. Seja A uma álgebra sobre com unidade e e M = A ⊗ A com os seguintes produtos

de bimódulo:
a · (b ⊗ c) := (ab) ⊗ c, (1.47)
(b ⊗ c) · a := b ⊗ (ca) − (bc) ⊗ a. (1.48)

Deixa-se ao leitor verificar a associatividade dos produtos de bimódulo nesse caso. Defina-se
δ(a) := e ⊗ a. (1.49)
Deixa-se ao leitor verificar a validade da regra de Leibniz nesse exemplo. Note-se também que, por
essa definição, δ(e) = e ⊗ e 6= 0.
Exemplo 3. Exemplo importante de derivações pode ser visto em álgebras de Lie. Seja A uma
álgebra de Lie vista como um bimódulo sobre si mesma. Seja z um elemento fixo da álgebra e seja a
aplicação dz : A → A dada por dz (a) = [z, a]. É fácil verificar (faça!) usando a identidade de Jacobi
(1.22) que
dz ([a, b]) = [dz (a), b] + [a, dz (b)]
para todo a, b ∈ A. Assim, tem-se que a cada z ∈ A é associada uma derivação d z .
1.6 Tópicos Especiais

Esta seção é formada por alguns assuntos independentes que, embora relevantes, não se enquadram na
exposição introdutória que pretendı́amos ter nas seções anteriores.
39
1.6.1 O Grupo de Grothendieck

Vamos agora descrever uma construção que permite obter um grupo Abeliano a partir de um semi-grupo
Abeliano dado. Um grupo construı́do por esse procedimento é chamado de grupo de Grothendieck 40
associado ao semi-grupo Abeliano em questão. Grupos de Grothendieck desempenham um papel im-
portante em várias áreas da Matemática, como por exemplo na chamada K-teoria.
Seja um semi-grupo Abeliano S (não necessariamente dotado de um elemento neutro) cujo produto
denotamos pelo sı́mbolo +.
Consideremos em primeiro lugar o produto Cartesiano S × S e vamos introduzir lá uma relação de
equivalência da seguinte forma: dois pares (a, b) e (a0 , b0 ) ∈ S × S são equivalentes, (a, b) ∼ (a0 , b0 ),
se existir pelo menos um elemento p ∈ S tal que
a + b0 + p = a0 + b + p. (1.50)
Vamos mostrar que isso define de fato uma relação de equivalência. Em primeiro lugar é claro que
(a, b) ∼ (a, b) para qualquer par (a, b) ∈ S 2 = S × S, dado que aqui, para verificar (1.50), basta tomar
qualquer elemento p ∈ S. Em segundo lugar é evidente que se (a, b) ∼ (a0 , b0 ) então (a0 , b0 ) ∼ (a, b).
Finalmente, vamos mostrar que se (a, b) ∼ (c, d) e (c, d) ∼ (e, f ) então (a, b) ∼ (e, f ). Por hipótese
existem p e p0 ∈ S tais que
a+d+p=b+c+p e c + f + p 0 = d + e + p0 .
Daqui extraı́mos que
(a + d + p) + (c + f + p0 ) = (b + c + p) + (d + e + p0 ),
ou seja, que
a + f + p00 = b + e + p00 ,
onde p00 = d + c + p + p0 . Essa relação diz precisamente que (a, b) ∼ (e, f ), completando a prova de
que temos assim uma relação de equivalência em S 2 .
Vamos então considerar agora o conjunto K(S) := S 2 / ∼ de todas as classes de equivalência defi-
nidas acima. Vamos construir em K(S) uma estrutura de grupo Abeliano, cujo produto denotaremos
por +. Dadas duas classes [(a, b)] e [(c, d)] definimos
[(a, b)] + [(c, d)] := [(a + c, b + d)].
Note-se que por essa definição tem-se (verifique!)
[(a, b)] + [(c, d)] = [(c, d)] + [(a, b)]
para todo a, b, c, d ∈ S.
A primeira coisa a fazer é mostrar que essa definição independe dos elementos tomados nas classes.
Para isto basta provar que se (a0 , b0 ) ∼ (a, b) então (a + c, b + d) ∼ (a0 + c, b0 + d). Se (a0 , b0 ) ∼ (a, b)
então existe p ∈ S tal que
a + b0 + p = a0 + b + p.
40
Alexander Grothendieck (1928-).
Somando-se c + d a ambos os lados tiramos
(a + c) + (b0 + d) + p = (a0 + c) + (b + d) + p
que é precisamente a afirmativa que (a + c, b + d) ∼ (a0 + c, b0 + d).

É igualmente fácil verificar que para quaisquer x, y ∈ S tem-se que (x, x) ∼ (y, y) e que, portanto,
[(x, x)] = [(y, y)]. Vamos provar que há em K(S) um elemento neutro. Este é precisamente a classe
e := [(x, x)] com x ∈ S arbitrário. Note-se que, para qualquer par (a, b) ∈ S 2 teremos
[(a, b)] + [(x, x)] = [(a + x, b + x)] = [(a, b)] ,
pois (a + x + b) + p = (b + x + a) + p para qualquer p ∈ S.

Falta-nos provar a associatividade do produto e a existência de uma inversa para cada elemento de
K(S). Para a associatividade, notemos que

[(a, b)] + [(c, d)] + [(e, f )] := [(a, b)] + [(c + e, d + f )] = [(a + c + e, b + d + f )] ,

[(a, b)] + [(c, d)] + [(e, f )] := [(a + c, b + d)] + [(e, f )] = [(a + c + e, b + d + f )] .
Para provar a existência de inversa notemos que para cada par (a, b) ∈ S 2 podemos tomar [(a, b)]−1 :=
[(b, a)] pois
[(a, b)] + [(a, b)]−1 = [(a, b)] + [(b, a)] = [(a + b, a + b)] = e .
Isso mostrou que K(S) tem uma estrutura de grupo Abeliano. Este é o chamado grupo de Grothen-
dieck associado ao semi-grupo Abeliano S.
Como de costume, denotaremos [(a, b)]−1 por −[(a, b)]. Assim, −[(a, b)] = [(b, a)].
E. 1.85 Exercı́cio. Seja o monóide Abeliano dos números naturais contendo o 0 com a soma usual.
Mostre que K( ) ' .
6
O exercı́cio acima indica a possibilidade de se definir os números inteiros a partir dos naturais.
Os inteiros seriam, por definição, o grupo de Grothendieck do monóide Abeliano dos naturais com a
operação de soma usual.
E. 1.86 Exercı́cio. Seja o monóide Abeliano 1 dos números naturais maiores ou iguais a 1 com o

produto dado pela multiplicação usual. Mostre que K( 1 ) ' + , o grupo dos racionais positivos (sem o

zero) com o produto dado pela multiplicação usual. 6
O exercı́cio acima indica a possibilidade de se definir os números racionais positivos a partir dos
naturais. Os racionais seriam, por definição, o grupo de Grothendieck do monóide Abeliano dos naturais
com a operação de produto usual.
Para cada elemento a de um monóide Abeliano M podemos associar um elemento de K(M ) por
M 3 a 7→ [a] := [(a, 0)] ∈ K(M ). É fácil ver que todo elemento [(a, b)] de K(M ) pode ser escrito da
forma [(a, b)] = [a]−[b] e que [a]−[b] = [a0 ]−[b0 ] se e somente se existir p ∈ M com a+b0 +p = a0 +b+p.
1.6.2 Grupóides
Um grupóide é definido da seguinte forma. É dado um conjunto C e um subconjunto C0 ⊂ C, o qual
é a imagem de duas funções unárias p e c (chamadas de “partida” e “chegada”), ou seja, p : C → C 0 ,
c : C → C0 . Os elementos de C0 são pontos fixos de p e de c, ou seja,
c(α) = α e p(α) = α
para todo α ∈ C0 (aqui denotaremos os elementos de C por letras gregas).
Define-se em C × C um subconjunto (ou seja, uma relação em C), que denotaremos por RC , da
seguinte forma:
RC := {(α, β) ∈ C 2 | p(α) = c(β)}.
É também dada uma função binária RC → C, que denotaremos por “·” e que denominaremos
“produto”, a qual satisfaz as seguintes hipóteses:
1. Associatividade: α · (β · γ) = (α · β) · γ sempre que os produtos estejam definidos, ou seja, se

(β, γ), (α, β · γ), (α, β) e (α · β, γ) forem todos elementos de RC
2. Para todo (α, β) ∈ RC temos p(α · β) = p(β).
3. Para todo (α, β) ∈ RC temos c(α · β) = c(α).
4. Para todo α ∈ C temos α · p(α) = α.
5. Para todo α ∈ C temos c(α) · α = α.
Fora isso, existe para cada α ∈ C uma assim chamada inversa bilateral α −1 ∈ C a qual satisfaz
α · α−1 = c(α) e α−1 · α = p(α). Note que, por essa definição, tem-se que, para todo α0 ∈ C0 ,
α0 · α0−1 = α0−1 · α0 = α0 .
Estes ingredientes definem um grupóide. Note-se que um grupóide não necessariamente contem um
“elemento neutro” (vide exemplos).
Exemplo. Caminhos. Este exemplo é um protótipo da definição de grupóide acima, ou seja, aquela
possivelmente foi criada tendo o mesmo como exemplo-guia.
Seja I o intervalo fechado [0, 1] e vamos considerar o conjunto C de todas as funções contı́nuas de
I em um espaço topológico Hausdorff qualquer (por exemplo 2 ). Um elemento γ de C é uma curva

orientada contı́nua em 2 que tem um ponto de partida γ(0) e um ponto de chegada γ(1).

Podemos introduzir uma relação de equivalência em C da seguinte forma: duas curvas α e β ∈ C

são equivalentes (α ∼ β) se existir uma bijeção contı́nua b : I → I com b(0) = 0, b(1) = 1, tal que
α = β ◦ b. Vamos denominar por C as classes de equivalência de C pela relação de equivalência acima:
C := C/ ∼.
O conjunto C0 é o subconjunto de C formado pelas classes de equivalência de curvas constantes:
[α] ∈ C0 ⇐⇒ α(t) = α(t0 ), ∀t, t0 ∈ I.
Definimos as funções unárias p e c da seguinte forma: p([γ]) é a classe de equivalência da curva
constante que a todo t ∈ I associa o ponto γ(0) de 2 , o ponto de partida de γ; c([γ]) é a classe de

equivalência da curva constante que a todo t ∈ I associa o ponto γ(1) de 2 , o ponto de chegada de γ.

Dados dois elementos em C queremos agora definir o seu produto. A idéia a ser seguida é que o
produto de duas curvas é definido apenas quando o ponto de chegada da primeira coincide com o ponto
de partida da segunda e resulta em uma curva única unindo o ponto de partida da primeira com o
ponto de chegada da última. Matematicamente isso é feito definindo-se o produto [β] · [α] como sendo
a classe de equivalência da curva β ∗ α definida pela composição

α(2t), para 0 ≤ t ≤ 1/2
β ∗ α(t) := .
β(2t − 1), para 1/2 < t ≤ 1
Claramente β ∗ α só é um elemento de C (ou seja, uma curva contı́nua) se α(1) = β(0).
Por fim a inversa bilateral de [α] é definida como sendo a classe [α −1 ], onde α−1 (t) = α(1 − t).
Deixamos para o leitor como exercı́cio mostrar que a estrutura definida acima é a de um grupóide.
Notemos que para a composição ∗ acima não vale a associatividade: (α ∗ β) ∗ γ 6= α ∗ (β ∗ γ), se
ambos os lados estiverem definidos (por que?). No entanto, as curvas (α ∗ β) ∗ γ e α ∗ (β ∗ γ) são
equivalentes no sentido da definição acima e de tal forma que para o produto “·” definido nas classes
C vale a associatividade [α] · ([β] · [γ]) = ([α] · [β]) · [γ], se ambos os lados estiverem definidos (por
que?). Essa é a razão de termos feito a construção nas classes C e não diretamente em C. Esse fato
já deve ser familiar ao leitor que conheça o conceito de grupo de homotopia de espaços topológicos.
O grupóide apresentado acima e o grupo de homotopia são, aliás, fortemente aparentados e ao leitor
sugere-se pensar sobre qual a conexão entre ambos.
Exemplo. Relações de equivalência. Seja K um conjunto no qual haja uma relação de equivalência
R ⊂ K × K. Tomamos C = R e C0 = {(x, x), x ∈ K} ⊂ R. Definimos
1. p((x, y)) := (x, x), ∀x, y ∈ K com x ∼ y.
2. c((x, y)) := (y, y), ∀x, y ∈ K com x ∼ y.
3. Produto: (x, y) · (y, z) := (x, z), ∀x, y, z ∈ K com x ∼ y ∼ z.
4. Inversa bilateral: (x, y)−1 := (y, x).
É fácil de se verificar (faça-o) que a estrutura assim definida é a de um grupóide.
1.6.3 Quatérnions
Vamos nesta seção tratar brevemente de um tipo de álgebra que possui algumas aplicações interessantes
na teoria de grupos e outros lugares, a chamada álgebra dos quatérnions.
Dado um espaço vetorial como 2 há várias maneiras de definir no mesmo um produto de modo a

fazer do mesmo uma álgebra. Por exemplo, podemos definir em 2 o produto
(x1 , x2 ) · (y1 , y2 ) = (x1 y1 , x2 y2 ), (1.51)
que é associativo e comutativo, como também o produto
(x1 , x2 ) · (y1 , y2 ) = (x1 y1 − x2 y2 , x1 y2 + x2 y2 ), (1.52)

que é igualmente associativo e comutativo (Exercı́cio. Verifique).

O produto (1.51) faz de 2 uma álgebra isomorfa a ⊗ , ou seja, a duas cópias da álgebra usual

dos números reais. O produto (1.52) faz de 2 uma álgebra isomorfa à dos números complexos . (Em

verdade, os números complexos são definidos como sendo a álgebra 2 com o produto (1.52)!).
3
Em podemos definir igualmente vários tipos de produtos, tais como o produto
(x1 , x2 , x3 ) · (y1 , y2 , y3 ) = (x1 y1 , x2 y2 , x3 y3 ), (1.53)
que é igualmente associativo e comutativo; o produto
(x1 , x2 , x3 ) · (y1 , y2 , y3 ) = (x1 y1 , x2 y2 − x3 y3 , x2 y3 + x3 y2 ), (1.54)
também associativo e comutativo ou ainda um produto como
(x1 , x2 , x3 ) · (y1 , y2 , y3 ) = (x2 y3 − x3 y2 , x3 y1 − x1 y3 , x1 y2 − x2 y1 ), (1.55)
que não é nem associativo nem comutativo. O produto (1.53) faz de 3 uma álgebra isomorfa a
⊗ ⊗ (três cópias da álgebra dos reais). O produto (1.54) faz de 3 uma álgebra isomorfa a ⊗

e o produto (1.55) é o bem conhecido produto vetorial.

O que se pode então fazer em 4 ? Naturalmente poder-se-ia definir em

4
várias álgebras imitando
o que fizemos acima. Por exemplo, com o produto
(x1 , x2 , x3 , x4 ) · (y1 , y2 , y3 , y4 ) = (x1 y1 , x2 y2 , x3 y3 , x4 y4 ), (1.56)

4
torna-se uma álgebra associativa e comutativa isomorfa a ⊗ ⊗ ⊗ . Com o produto
(x1 , x2 , x3 , x4 ) · (y1 , y2 , y3 , y4 ) = (x1 y1 − x2 y2 , x1 y2 + x2 y1 , x3 y3 − x4 y4 , x3 y4 + x4 y3 ), (1.57)

4
torna-se uma álgebra associativa e comutativa isomorfa a ⊗ . Com o produto
(x1 , x2 , x3 , x4 ) · (y1 , y2 , y3 , y4 ) = (x2 y3 − x3 y2 , x3 y1 − x1 y3 , x1 y2 − x2 y1 , x4 y4 ) (1.58)

4 3
torna-se uma álgebra não-associativa e não-comutativa isomorfa a ⊗ , com o produto vetorial

na componente 3 .
Há também outros produtos que são meras variantes das listadas acima (ache algumas). Existe,
porém, um outro produto não trivial, denominado produto quaterniônico, que faz de 4 uma álgebra
associativa mas não-comutativa e com unidade. Esse produto foi descoberto por W. R. Hamilton 41 .
A história da descoberta desse produto em 4 , feita em 1843, é muito interessante e representou um

marco na história da Álgebra. Esse produto é o seguinte
(x0 , x1 , x2 , x3 ) · (y0 , y1 , y2 , y3 ) =
(x0 y0 −x1 y1 −x2 y2 −x3 y3 , x0 y1 +y0 x1 +x2 y3 −x3 y2 , x0 y2 +y0 x2 +x3 y1 −x1 y3 , x0 y3 +y0 x3 +x1 y2 −x2 y1 ).
(1.59)
41
William Rowan Hamilton (1805-1865). W. R. Hamilton foi também o inventor do chamado formalismo Hamiltoniano
da Mecânica Clássica.
E. 1.87 Exercı́cio. Mostre que o produto acima é associativo. 6
O espaço vetorial 4 dotado do produto acima é denominado álgebra dos quatérnions ou álgebra

quaterniônica e é denotada freqüentemente por . A álgebra é associativa mas não é comutativa.

tem uma unidade, a saber, o vetor (1, 0, 0, 0) ∈ 4 .
E. 1.88 Exercı́cio. Mostre que não é uma álgebra comutativa. 6
E. 1.89 Exercı́cio. Mostre que (1, 0, 0, 0) é a unidade de . 6
Há uma maneira melhor de representar o produto quaterniônico que a expressão (1.59). Vamos
escrever os vetores da base canônica de 4 como

e0 = (1, 0, 0, 0), e1 = (0, 1, 0, 0), e2 = (0, 0, 1, 0), e3 = (0, 0, 0, 1),
de modo que todo x ∈ 4 pode ser escrito na forma x = x0 e0 + x1 e1 + x2 e2 + x3 e3 . O produto

quaterniônico pode então ser definido pelo produto dos elementos da base canônica, que segue as
seguintes regras:
4
1. e0 é a unidade da álgebra: x · e0 = e0 · x = x para todo x ∈ .
2. (e1 )2 = (e2 )2 = (e3 )2 = −e0 .
3. ei ej = −ej ei para todo i 6= j com i, j = 1, 2, 3.
4. e1 e2 = e3 , e2 e3 = e1 e e3 e1 = e2 .
E. 1.90 Exercı́cio. Verifique que essas regras reproduzem perfeitamente (1.59). 6
Além de ser de manipulação mais simples, essas regras permitem representar a álgebra quaterniônica
de um modo talvez mais familiar, a saber, em termos de certas matrizes complexas 2 × 2.
• Quatérnions e Álgebras de Matrizes 2 × 2
Sejam a e b dois números complexos e seja M (a, b) a matriz

a b
M (a, b) = ,
−b a
onde z é o complexo conjugado de z ∈ . É fácil de se ver que o conjunto de todas as matrizes dessa
forma é uma álgebra:
M (a, b)M (c, d) = M (ac − bd, ad + bc).
E. 1.91 Exercı́cio. Verifique! 6

Existe um isomorfismo entre a álgebra dos quatérnions e essa álgebra de matrizes 2 × 2. Basta
associar (bijetivamente!) a cada quádrupla (x0 , x1 , x2 , x3 ) a matriz M (x0 + ix3 , x2 + ix1 ):

x0 + ix3 x2 + ix1
x = (x0 , x1 , x2 , x3 ) ←→ =: M (x). (1.60)
−x2 + ix1 x0 − ix3
É fácil verificar então (faça!) que o produto quaterniônico é respeitado por essa associação:
M (x)M (y) = M (x · y),

4
onde, acima, x · y é o produto quaterniônico de x e y ∈ .
Note-se que por essa associação tem-se
M (x) = M (x0 e0 + x1 e1 + x2 e2 + x3 e3 ) = x0 M (e0 ) + x1 M (e1 ) + x2 M (e2 ) + x3 M (e3 ),
com
M (e0 ) = , M (e1 ) = iσ1 , M (e2 ) = iσ2 , M (e3 ) = iσ3 ,
onde
1 0
=
0 1
e
0 1 0 −i 1 0
σ1 = , σ2 = e σ3 =
1 0 i 0 0 −1
são as chamadas matrizes de Pauli42 , que satisfazem
1. (σ1 )2 = (σ2 )2 = (σ3 )2 = ,
2. σi σj = −σj σi para todo i 6= j e
3. σ1 σ2 = iσ3 , σ2 σ3 = iσ1 , σ3 σ1 = iσ2 .
E. 1.92 Exercı́cio. Verifique essas propriedades. 6
• Sub-álgebras Abelianas
possui algumas sub-álgebras Abelianas.
E. 1.93 Exercı́cio. Mostre que 1 := {x ∈ 4 , x = x0 e0 + x1 e1 = (x0 , x1 , 0, 0)} é uma sub-álgebra

Abeliana de que é isomorfa à álgebra dos complexos. 6
4
E. 1.94 Exercı́cio. Mostre o mesmo para 2 := {x ∈ , x = x0 e0 + x2 e2 = (x0 , 0, x2 , 0)} e
4
3 := {x ∈ , x = x0 e0 + x3 e3 = (x0 , 0, 0, x3 )}.
6
42
Wolfgang Pauli (1900-1958).
E. 1.95 Exercı́cio. Será possı́vel fazer de 4 um espaço vetorial complexo? Seja α ∈

e considere para
x ∈ 4 o produto do escalar α pelo vetor x definido por

α · x = (Re(α)e0 + Im(α)e1 ) · x,
onde o produto do lado direito é o o produto quaterniônico. Mostre que isso faz de 4 um espaço vetorial
sobre o corpo dos complexos. Para isto verifique as propriedades definidoras de um espaço vetorial listadas
à página 54. 6
E. 1.96 Exercı́cio. No exercı́cio anterior há outros produtos do escalar α pelo vetor x que podem ser
considerados:
α · x = (Re(α)e0 + Im(α)e2 ) · x,
ou
α · x = (Re(α)e0 + Im(α)e3 ) · x,
ou mesmo
α · x = x · (Re(α)e0 + Im(α)e1 )
4 4
etc. Mostre que todos esses seis produtos de escalares α ∈ por vetores x ∈ fazem de um espaço
vetorial sobre o corpo dos complexos. 6
• é um anel de divisão
É fácil ver que a álgebra dos quatérnions é um anel de divisão (vide página 60), ou seja, todo
x ∈ 4 , x 6= 0, tem uma inversa em relação ao produto quaterniônico. Do isomorfismo M definido em

(1.60) acima vê-se que
det(M (x)) = det (M (x0 + ix1 , x2 + ix3 )) = (x0 )2 + (x1 )2 + (x2 )2 + (x3 )2
e, portanto, M (x) tem uma matriz inversa sempre que x 6= 0.

4
De fato, definindo-se para x = x0 e0 + x1 e1 + x2 e2 + x3 e3 ∈ o conjugado quaterniônico
x = x 0 e0 − x 1 e1 − x 2 e2 − x 3 e3
e do fato facilmente constatável que43
x · x = (x0 )2 + (x1 )2 + (x2 )2 + (x3 )2 ∈
é fácil ver que para x 6= 0 tem-se

−1 1 4
x = x ∈ ,
x·x

ou seja x−1 · x = x · x−1 = e0 .
E. 1.97 Exercı́cio. Verifique. 6

43
Com um abuso de linguagem identificamos aqui ((x0 )2 +(x1 )2 +(x2 )2 +(x3 )2 )e0 ∈ 4
com (x0 )2 +(x1 )2 +(x2 )2 +(x3 )2 ∈
.
Note que por ser um anel de divisão, não tem divisores de zero: x · y = 0 se e somente se x = 0
ou y = 0.
• Norma Quaterniônica
Em uma álgebra A uma função N : A →
+ que satisfaça
N (a · b) = N (a)N (b)
para todo a, b ∈ A e N (a) = 0 ⇐⇒ a = 0 é dita ser uma norma algébrica.

Em e tem-se a norma algébrica N (z) = |z|, o módulo ou valor absoluto de z.
também possui
uma norma algébrica. Para x ∈ 4 a expressão

N (x) = x · x
define44 uma norma algébrica em .
E. 1.98 Exercı́cio. Verifique que a mesma satisfaz N (x · y) = N (x)N (y). 6
Há um teorema devido a Hurwitz45 que afirma que há apenas quatro álgebras que são álgebras de
divisão46 e possuem uma norma algébrica: , , e a chamada álgebra dos octônions, da qual não

falaremos aqui. Esta última, por sinal, não é associativa.

A álgebra possui várias outras propriedades interessantes, mas vamos encerrar aqui nossa ex-
posição introdutória. O leitor interessado poderá encontrar mais sobre nos bons livros de álgebra,
especialmente nos mais antigos.
44
Vide nota de rodapé 43, página 91.
45
Adolf Hurwitz (1859-1919).
46
Vide definição à página 60
Capı́tulo 2
Espaços Vetoriais
Conteúdo
2.1 Espaços Vetoriais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
2.1.1 Sub-Espaços e Espaços Quocientes . . . . . . . . . . . . . . . . . . . . . . . . 93
2.1.2 Bases Algébricas de um Espaço Vetorial . . . . . . . . . . . . . . . . . . . . . 94
2.1.3 O Dual Algébrico de um Espaço Vetorial . . . . . . . . . . . . . . . . . . . . 100
2.2 Formas Lineares, Sesquilineares e Produtos Escalares em Espaços Veto-
riais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107
2.2.1 Formas Multilineares . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107
2.2.2 Formas Sesquilineares e as Desigualdades de Cauchy-Schwarz e Minkowski . . 112
2.2.3 Produtos Escalares . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116
2.2.4 Exemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118
2.3 Normas em Espaços Vetoriais . . . . . . . . . . . . . . . . . . . . . . . . . . 120
2.4 Formas Bilineares e Sesquilineares em Espaços de Dimensão Finita . . . 126
2.5 Estruturas Complexas sobre Espaços Vetoriais Reais . . . . . . . . . . . . 131
noção de espaço vetorial que introduzimos na Seção 1.2.3, página 54, é da maior importância
na Fı́sica e na Matemática. Neste capı́tulo vamos desenvolvê-la com mais detalhe. Particular
atenção será dada às noções de forma multilinear, forma sesquilinear, produto escalar e norma
em espaços vetoriais.
2.1 Espaços Vetoriais
2.1.1 Sub-Espaços e Espaços Quocientes
• Sub-espaços
Seja V um espaço vetorial sobre um corpo K. Um subconjunto W de V é dito ser um sub-espaço

de V (sobre o mesmo corpo K) se para todo α, β ∈ K e todo u, v ∈ W valer que αu + βv ∈ W . É
evidente que um sub-espaço de um espaço vetorial é por si só um espaço vetorial.
• Quocientes
Se W é um sub-espaço de um espaço vetorial V sobre um corpo K, então é possı́vel definir em V

uma relação de equivalência EW ⊂ V × V da seguinte forma: dizemos que (u, v) ∈ V × V pertence a
EW se u − v ∈ W .
93
E. 2.1 Exercı́cio. Mostre que isso de fato define uma relação de equivalência em V . 6
Seguindo a notação usual denotaremos também essa relação de equivalência pelo sı́mbolo ∼ W :
u ∼W v se u − v ∈ W .
Denotemos por V /W o conjunto das classes de equivalência de V pela relação E W . Denotaremos
por [u] ∈ V /W a classe de equivalência que contem o vetor u ∈ V .
Com esses ingredientes podemos transformar V /W em um espaço vetorial sobre K. Isso se dá
definindo em V /W uma soma e um produto por escalares. O vetor nulo será a classe de equivalência
[0] que contém o vetor 0. Como subconjunto de V , a classe [0], aliás, vem a ser o conjunto W (por
que?).
Se [u] e [v] são as classes de equivalência que contêm os elementos u e v, respectivamente, de V ,
então definimos
[u] + [v] = [u + v].
E. 2.2 Exercı́cio. Mostre que essa definição é coerente, no sentido que independe dos representantes (u
e v) escolhidos nas classes. 6
E. 2.3 Exercı́cio. Mostre que essa operação de soma é comutativa e associativa. 6
E. 2.4 Exercı́cio. Mostre que [u] + [0] = [u] para todo u ∈ V . 6
Analogamente, a operação de multiplicação por escalares é definida por
α[u] = [αu],
para todo u ∈ V .
E. 2.5 Exercı́cio. Mostre que essa definição é coerente, no sentido que independe do representante u
escolhido na classe. 6
E. 2.6 Exercı́cio. Mostre que o conjunto V /W é, portanto, um espaço vetorial sobre o corpo K com as
operações definidas acima. 6
O espaço vetorial V /W assim obtido é denominado espaço quociente de V por W .
2.1.2 Bases Algébricas de um Espaço Vetorial
• Dependência Linear
Um conjunto finito u1 , . . . , un ∈ V de vetores é dito ser linearmente dependente se existir um

conjunto de escalares α1 , . . . , αn ∈ V , nem todos nulos, tais que
α1 u1 + · · · + αn un = 0.
Um conjunto arbitrário de vetores é dito ser linearmente independente se não possuir nenhum sub-
conjunto finito que seja linearmente dependente.
• Combinações Lineares
Para um conjunto finito de vetores {u1 , . . . , un } ⊂ V e de escalares {α1 , . . . , αn } ⊂ K, uma

expressão como
α 1 u1 + · · · + α n un
é dita ser uma combinação linear dos vetores u1 , . . . , un .
• Varredura Linear
Seja C ⊂ V um conjunto de vetores. A varredura linear (“linear span”) de C, denotado por

span (C) é o conjunto de todos os vetores de V que podem ser escritos como uma combinação linear
finita de elementos de C.
• Bases Algébricas em Espaços Vetoriais
Aqui I designa um conjunto arbitrário não-vazio de ı́ndices.

Uma base algébrica1 em um espaço vetorial V é um conjunto B = {bi , i ∈ I} de vetores linearmente
independentes tais que span (B) = V e tais que qualquer vetor u de V pode ser escrito de modo único
como uma combinação linear finita de elementos de B.
Se B é uma base algébrica, então para cada u ∈ V existem univocamente definidos α1 , . . . , αn ∈ K
e i1 , . . . , in ∈ I tais que:
u = α 1 b i1 + · · · + α n b in .
Os seguintes teoremas podem ser demonstrados com uso do Lema de Zorn (omitiremos as demons-
trações aqui. Vide, por exemplo, [59]).
Teorema 2.1 Todo espaço vetorial V possui uma base algébrica, exceto o espaço vetorial trivial V =
{0}. 2
Teorema 2.2 Dado um espaço vetorial V (não trivial), todas as bases algébricas em V têm a mesma
cardinalidade. 2
• Dimensão Algébrica
Um espaço vetorial é dito ser de dimensão algébrica finita se possuir uma base algébrica finita. Se
um espaço vetorial V tem dimensão algébrica finita, sua dimensão algébrica, ou simplesmente dimensão
é definida como sendo o número de elementos de sua base.
Nem todo espaço vetorial tem uma base algébrica finita (vide exemplos abaixo). De modo geral,
se um espaço vetorial possui uma base algébrica, sua dimensão algébrica é definida como sendo a
1
Também denominada “base de Hamel”. Georg Hamel (1877-1954)
cardinalidade de suas bases algébricas (pelo Teorema 2.2 acima são todas iguais).
Exemplo 1. V = n sobre o corpo dos complexos ou V = n sobre o corpo dos reais. Tais são bem

conhecidos exemplos-protótipo de espaços vetoriais de dimensão finita (= n).

Seja P = conjunto de todos os polinômios de uma variável real com coeficientes complexos: P n (t) ∈
P,
Pn (t) = an tn + · · · + a1 t + a0
com t ∈ , ai ∈ , é dito ser um polinômio de grau n se an 6= 0.
Exemplo 2. V = P sobre o corpo dos complexos. Este é claramente um espaço vetorial de dimensão
infinita. V possui uma base algébrica, a saber, o conjunto de todos os polinômios da forma b n = tn ,
n = 0, 1, 2, . . ..
Exemplo 3. V = sobre o corpo dos reais. O conjunto dos reais sobre o corpo dos reais é também

um espaço vetorial de dimensão 1, a saber, uma possı́vel base é formada pelo elemento 1: B = {1}, já
que, obviamente, qualquer elemento x ∈ pode ser escrito como x = x · 1, com x no corpo dos reais.

Esse exemplo pode parecer banal, e de fato o é, mas leva a um anti-exemplo curioso que mostra
que a dimensão algébrica de um espaço vetorial é também fortemente dependente do corpo de escalares
utilizado.
Exemplo 4. V = sobre o corpo dos racionais.
A surpresa aqui é que este não é um espaço vetorial de dimensão algébrica finita: não existe um
conjunto finito {x1 , . . . , xm } de números reais tais que todo x ∈ possa ser escrito como
x = r 1 x1 + · · · + r m xm ,
onde os números ri são racionais. A razão é que, como é um conjunto contável, a coleção de números
que se deixam escrever como o lado direito é uma coleção contável (tem a mesma cardinalidade de
m
). O conjunto , porém, não é contável.

Um resultado um tanto surpreendente diz, porém, que esse espaço vetorial possui uma base algébrica,
ou seja, existe um conjunto H ⊂ tal que para cada x ∈
existe um conjunto finito h1 , . . . , hn

de elementos de H e um conjunto finito de racionais r1 , . . . , rn tais que x = r1 h1 + · · · + rn hn . A

demonstração da existência de uma tal base faz uso do Lema de Zorn e pode ser encontrada em [16]
ou [17]. Essa base é denominada base de Hamel de .
Uma conseqüência curiosa da existência de bases de Hamel em será discutida no tópico que se
inicia à página 97.
Outros exemplos menos dramáticos que mostram a dependência da dimensão com o corpo utilizado
são os seguintes: sejam V1 = sobre o corpo dos complexos e V2 = sobre o corpo dos reais. V1 tem
dimensão 1, mas V2 tem dimensão 2.
Mais adiante faremos uso do seguinte resultado:
Teorema 2.3 Se em um espaço vetorial V existir um conjunto {v1 , . . . , vn } de n vetores linearmente
independentes, então a dimensão algébrica de V é maior ou igual a n. 2
Prova. A demonstração é feita por absurdo. Suponhamos que haja uma base B = {b 1 , . . . , bk } em V
com k < n. Então podemos escrever
v 1 = α 1 b1 + · · · + α k bk .
pois B é uma base. Nem todos os αi podem ser nulos. Supondo que αk seja um elemento não-nulo,
podemos escrever
bk = (αk )−1 (v1 − α1 b1 − · · · − αk−1 bk−1 ) (2.1)
Analogamente, temos que
v 2 = β 1 b1 + · · · + β k bk
e, usando (2.1), podemos escrever
v2 = γ1 b1 + · · · + γk−1 bk−1 + λ1 v1 .
Os γi não podem ser todos nulos, pois de outra forma terı́amos v2 = λ1 v1 , contrariando a hipótese
de os vi ’s serem linearmente independentes. Suponhamos que γk−1 seja o elemento não-nulo, podemos
escrever bk−1 como uma combinação linear envolvendo {b1 , . . . , bk−2 } e os vetores v1 e v2 . Prosseguindo,
concluiremos após k passos que
vk+1 = λ01 v1 + · · · + λ0k vk
contrariando a hipótese de que os vi ’s são linearmente independentes.
• Automorfismos descontı́nuos do grupo ( , +)
Nota para os estudantes mais avançados.

Neste tópico usaremos as bases de Hamel da reta real para ilustrar uma patologia cuja existência
é por vezes mencionada na teoria de grupos, a saber, a existência de automorfismos descontı́nuos do
grupo ( , +).

Considere-se a equação f (x + y) = f (x) + f (y) para todo x, y ∈ . Podemos nos perguntar:
que funções f : → podem satisfazê-la? É bastante claro que funções do tipo f (x) = cx, com
c constante real, satisfazem f (x + y) = f (x) + f (y) para todo x, y ∈ . Fora isso, f (x) = cx são
contı́nuas e são bijeções de em (a menos que c = 0).

Serão essas as únicas funções com a propriedade f (x + y) = f (x) + f (y) para todo x, y ∈ ? Será
que há outras funções com essa propriedade e que não sejam contı́nuas? Será que há outras funções com
essa propriedade, não-contı́nuas, e que também sejam bijeções de em ? A resposta a essa última
pergunta é muito curiosa e conduz a uma classe de funções cuja existência ilustra algumas dificuldades
encontradas na teoria de grupos.
Provemos em primeiro lugar a seguinte afirmação:
Proposição 2.1 Se f : → satisfizer f (x + y) = f (x) + f (y) para todo x, y ∈
e f for contı́nua
em toda reta real , então f é da forma f (x) = cx para algum c, constante real.
2
Historicamente esse pequeno resultado é devido a Cauchy2 .

2
Augustin Louis Cauchy (1789-1857).
Prova. Seja f contı́nua satisfazendo f (x + y) = f (x) + f (y) para todo x, y ∈ e f : → . É claro
que, tomando x = y = 0 tem-se f (0) = f (0 + 0) = 2f (0) e, portanto f (0) = 0. Segue facilmente daı́
que 0 = f (0) = f (x + (−x)) = f (x) + f (−x) e, portanto f (−x) = −f (x) para todo x ∈ .
Seja agora p inteiro positivo e x real, ambos arbitrários. Teremos que f (px) = f ((p − 1)x + x) =
f ((p − 1)x) + f (x) = f ((p − 2)x) + 2f (x) etc. Repetindo p vezes esse proceder, concluı́mos que
f (px) = pf (x). Como f (−x) = −f (x), essa relação vale para p negativo também. Seja agora q
inteiro, não-nulo. Então, pelo que acabamos de provar, f (1) = f (q/q) = qf (1/q) e concluı́mos que
f (1/q) = f (1)/q. Se então tivermos um número racional r da forma r = p/q, com p inteiro e q inteiro
não-nulo, teremos que f (r) = f (p/q) = pf (1/q) = (p/q)f (1) = rf (1). Finalizamos a prova evocando
a continuidade de f e o fato que todo x real pode ser aproximado por um número racional: seja
x ∈ e rn , n ∈ , uma seqüência de números racionais que coverge a x, i.e., x = lim n→∞ rn . Então

f (x) = f (limn→∞ rn ) = limn→∞ f (rn ) = (limn→∞ rn ) f (1) = xf (1). Na segunda igualdade usamos a
hipótese (crucial!) que f é contı́nua em toda parte. Denotando f (1) = c a afirmação está provada.
Com esse resultado em mãos podemos nos perguntar: haverá funções não-contı́nuas que satisfazem
f (x + y) = f (x) + f (y)? Talvez surpreendentemente, a resposta é positiva. Não só há funções não
contı́nuas com essa propriedade, mas há dentre elas funções bijetoras de em . Funções com tais
caracterı́sticas um tanto patológicas podem ser construı́das com o uso das assim chamadas bases de
Hamel da reta real. Detalhemos.
Seja o espaço vetorial V dos números reais sob o corpo dos racionais. Como consideramos páginas
acima, esse espaço vetorial tem dimensão algébrica infinita, mas existe uma base H ⊂ de V , não-
contável, denominada base de Hamel, tal que todo elemento x de pode ser escrito como combinação

linear finita (única!) por racionais de elementos de H, ou seja, para todo x ∈ existe um n (que
depende de x), racionais r1 , . . . , rn (que dependem de x) e elementos h1 , . . . , hn de H (que também

dependem de x) tais que x pode ser escrita (de forma única!) como x = r1 h1 + · · · + rn hn . Denomina-
remos essa expressão a decomposição de x em H.
Notemos que se x e y são números reais e x = r1 h1 + · · · + rn hn e y = r10 h01 + · · · + rm 0
h0m são suas
decomposições em H, então a decomposição de x + y é r1 h1 + · · · + rn hn + r10 h01 + · · · + rm0
h0m .
Vamos definir uma função f : → , da seguinte forma. Primeiramente fixamos seus valores

nos elementos de H tomando, para cada h ∈ H, f (h) := fh ∈ , onde os números fh são escolhidos

arbitrariamente. Em segundo lugar, para qualquer x ∈ , e cuja decomposição em H seja x =

r1 h1 + · · · + rn hn , definimos f (x) := r1 f (h1 ) + · · · + rn f (hn ) = r1 fh1 + · · · + rn fhn . Assim, se x e y são

números reais e x = r1 h1 + · · · + rn hn e y = r10 h01 + · · · + rm 0
h0m são suas decomposições em H, teremos
f (x + y) = r1 fh1 + · · · + rn fhn + r10 fh01 + · · · + rm
0
fh0m = f (x) + f (y).
O leitor pode convencer-se que há, para cada base de Hamel H, infinitas funções desse tipo (devido
à arbitrariedade da escolha dos fh ’s) e que todas são descontı́nuas, exceto se escolhermos fh = ch para
todo h ∈ H, com uma constante c fixa.
Espertamente, podemos tomar f como uma bijeção de H em H, ou seja, podemos escolher3 fh ∈ H
para todo h ∈ H e de modo que para todo h ∈ H exista um g ∈ H único tal que fg = h. Uma situação
trivial dessas é aquela na qual f é a identidade quando restrita a H: fh = h para todo h ∈ H, mas
outras escolhas são também possı́veis. Se f for uma bijeção de H em H, é fácil de se ver que imagem
3
Que tal é possı́vel é garantido pelo axioma da escolha −→ Exercı́cio.
de f no domı́nio é toda a reta real (mostre isso)!

Além disso, uma tal f , bijetora enquanto função de H em H, é igualmente bijetora como função
de em . Mostremos isso. Sejam x e y ∈
com decomposições x = r1 h1 + · · · + rn hn e y =

s1 g1 + · · · + sm gm com rj , sk ∈ e hj , gk ∈ H e suponhamos que f (x) = f (y). Isso significa que

r1 fh1 + · · · + rn fhn = s1 fg1 + · · · + sm fgm . Como cada fhj e cada fgk é elemento de H, essa igualdade
só é possı́vel se m = n, se fhj = fgπ(j) e se rj = sπ(j) para todo j = 1, . . . , n, onde π é um elemento do
grupo de permutações de n elementos (ou seja, é uma bijeção de {1, . . . , n} em si mesmo). Como f é
uma bijeção de H em si mesmo, segue que hj = gπ(j) para todo j = 1, . . . , n. Assim,
n
X n
X n
X
x = r j hj = sπ(j) gπ(j) = sj gj = y,
j=1 j=1 j=1
e, portanto, f : → é bijetora.
Uma função que satisfaça f (x + y) = f (x) + f (y) para todo x, y ∈ e f : → representa um
endomorfismo do grupo ( , +). O que aprendemos no último parágrafo pode ser expresso na linguagem

da teoria de grupos como a afirmação que existem automorfismos de ( , +) que não são contı́nuos.
Esse fato ilustra algumas situações patológicas que são por vezes encontradas ou mencionadas no
estudo de grupos contı́nuos. Com o uso de funções f desse tipo é possı́vel, por exemplo, construir
sub-grupos uniparamétricos não-contı́nuos de um grupo de Lie dado ou representações não-contı́nuas
de tais sub-grupos.
Assim, por exemplo, se A é uma matriz real n × n antisimétrica, então O(t) = exp(tA), t ∈ é um
subgrupo uniparamétrico contı́nuo de SO(n), pois O(0) = e O(t)O(t0 ) = O(t+t0 ) para todos t, t0 ∈ ,
sendo os elementos de matriz de O(t) funções contı́nuas de t. Se agora definirmos P (t) = exp(f (t)A),
t ∈ , para uma função f : → , patológica como acima (ou seja, satisfazendo f (x+y) = f (x)+f (y)

para todo x, y ∈ , bijetora mas descontı́nua), ainda teremos P (0) = e P (t)P (t0 ) = P (t + t0 ) para

todos t, t0 ∈ , mas os elementos de matriz de P (t) não são funções contı́nuas de t.

• Bases Topológicas em Espaços Vetoriais
Nota para os estudantes mais avançados.

O conceito de base algébrica não deve ser confundido com o de base topológica, conceito esse per-
tencente ao contexto dos espaços vetoriais topológicos:
Uma base topológica em um espaço vetorial topológico V é um conjunto B = {b i , i ∈ I} de vetores
linearmente independentes tais que span (B) é um conjunto denso em V , ou seja, o fecho de span (B)
é V .
Uma base topológica é dita ser base topológica completa se não possuir nenhum subconjunto próprio
que também seja uma base topológica.
A dimensão topológica de um espaço vetorial é então definida como sendo a cardinalidade das bases
topológicas completas de V .
Para ilustrar como os conceitos de base algébrica e base topológica são diferentes, consideremos
novamente o seguinte Exemplo 4 acima:
Exemplo 5. V = sobre o corpo dos racionais, com a topologia usual sobre , tem uma base
topológica completa de dimensão finita: B = {1}. De fato, o conjunto {r · 1, r ∈ } é denso em .

Esse espaço vetorial possui então uma dimensão topológica igual a um.
Definição. Um espaço vetorial topológico sobre o corpo dos reais ou dos complexos é dito ser separável
se possuir uma base topológica contável.
2.1.3 O Dual Algébrico de um Espaço Vetorial

Seja V um espaço vetorial sobre um corpo K (por exemplo, o corpo ). Uma aplicação l : V → K,
definida sobre todo V , é dita ser um funcional linear se
l(αx + βy) = αl(x) + βl(y)
para todo x, y ∈ V e todo α, β ∈ K.
E. 2.7 Exercı́cio. Mostre que, de acordo com a definição acima, vale para qualquer funcional linear l
que l(0) = 0. 6
O conjunto de todos os funcionais lineares de V em K é denominado espaço dual algébrico de V e

denotado V 0 . O conjunto V 0 é feito um espaço vetorial (sobre K), através da seguinte relação:
(αl + βm)(x) := l(αx) + m(βx),
para todo l e m ∈ V 0 ; α, β ∈ K e todo x ∈ V . O vetor nulo de V 0 é o funcional linear que associa

trivialmente todo vetor de V a zero: l(x) = 0, ∀x ∈ V .
O seguinte teorema é verdadeiro e será implicitamente usado várias vezes no que segue. Sua de-
monstração é, como veremos, elementar mas instrutiva.
Teorema 2.4 Seja um espaço vetorial V sobre um corpo K. Se um vetor v tem a propriedade que
l(v) = 0 para todo l ∈ V 0 então v = 0. 2
Prova. Seja B uma base algébrica em V . Para cada elemento b ∈ B podemos associar um funcional
linear lb , definido da seguinte forma. Como todo w ∈ V pode ser escrito como uma combinação linear
finita de elementos de B, podemos sempre escrever
w = wb b + w 0 ,
onde w 0 é uma combinação linear finita de elementos de B \ {b} e wb ∈ K. (É claro que wb = 0 caso b
não compareça na decomposição de w em uma soma finita de elementos de B).
Definimos então
lb (w) = wb ,
para todo vetor w ∈ V . É um exercı́cio simples mostrar que, para cada b ∈ B, a aplicação lb : V → K
dada acima é um funcional linear.

Seja então v um vetor como no enunciado do teorema. Se l(v) = 0 para todo l ∈ V 0 , vale obvi-
amente que lb (v) = 0 para todo b ∈ B. Isso, porém, trivialmente implica que v = 0, completando a
demonstração.
Notação. Para x ∈ V e l ∈ V 0 é muito freqüente, e graficamente conveniente, usar-se a notação hl, xi

em lugar de l(x).
Se A e B são espaços vetoriais e A ⊂ B então B 0 ⊂ A0 .
E. 2.9 Exercı́cio. Justifique essa última afirmativa. 6
• O Dual Topológico de um Espaço Vetorial
Seja V um espaço vetorial topológico. O conjunto de todos os funcionais lineares contı́nuos sobre
V é dito ser o dual topológico de V . O dual topológico será denotado nestas notas por V † . Note-se que
V † ⊂ V 0.
• Exemplos de Funcionais Lineares
Exemplo 1. Seja V = n , sobre o corpo dos complexos. Seja a1 , . . . , an um conjunto fixo de

números complexos. Para qualquer vetor z = (z1 , . . . , zn ) ∈ n defina-se
l(z) = a1 z1 + · · · + an zn .
n
Então l é um funcional linear em .
Em verdade, é possı́vel demonstrar a recı́proca: em n todo funcional linear é da forma acima

para algum conjunto {a1 , . . . , an }. Essa afirmativa é um caso particular de um teorema importante
conhecido como “Lema de Riesz”, que será demonstrado no contexto mais geral dos chamados espaços
de Hilbert, dos quais n é um exemplo.
Seja P o conjunto de todos os polinômios de uma variável real com coeficientes complexos: P n (t) ∈ P,
Pn (t) = an tn + · · · + a1 t + a0
com t ∈ , ai ∈ , é dito ser um polinômio de grau n se an 6= 0. O conjunto P é claramente um espaço

vetorial sobre os complexos.

Exemplo 2. Para cada t0 ∈ e p ∈ P,
l(p) = p(t0 )
é um funcional linear em P.
Esse exemplo pode ser generalizado:

Exemplo 3. Sejam t1 , . . . , tn ∈ , distintos, e a1 , . . . , an números complexos. Para todo p ∈ P,

definamos
l(p) = a1 p(t1 ) + · · · + an p(tn ).
Então l é um funcional linear em P.
O último exemplo pode ser fortemente generalizado nos dois exemplos que seguem.
Exemplo 3. Seja (a, b) um intervalo finito de e h uma função complexa integrável nesse intervalo
Rb

(ou seja, a |h(t)|dt ≤ ∞). Então,

Z b
l(p) = h(t) p(t) dt
a
está definida para todo p ∈ P e define um funcional linear em P.
E. 2.13 Exercı́cio. Justifique as duas últimas afirmativas. 6

2
Exemplo 4. Seja a função g(x) = e−x . Então
Z ∞
l(p) = g(t) p(t) dt.
−∞
está definida para todo p ∈ P e define um funcional linear em P.
E. 2.14 Exercı́cio. Justifique as duas últimas afirmativas. 6
• A Relação entre V e V 0
Vamos aqui discutir o fato que sempre existe uma maneira (não-canônica, vide abaixo) de associar
vetores de um espaço vetorial V com elementos de seu dual algébrico V 0 .
Seja V um espaço vetorial sobre um corpo K e B ⊂ V uma base algébrica em V . Seja FB a coleção
de todas as funções de B em K. Afirmamos que existe uma bijeção de FB sobre V 0 , ou seja, esses dois
conjuntos podem ser identificados nesse sentido.
Para tal, seja f ∈ FB . Definimos uma aplicação I : FB → V 0 da seguinte forma. Como todo x ∈ V
pode ser escrito como uma combinação linear finita de elementos de B, digamos, x = α1 bi1 +· · ·+αn bin ,
escrevemos
I(f )(x) = α1 f (bi1 ) + · · · + αn f (bin ).
I(f ) é um funcional linear pois, se escrevemos y = αn+1 bin+1 + · · · + αn+m bin+m , teremos
I(f )(x + y) = α1 f (bi1 ) + · · · + αn+m f (bin+m )
= α1 f (bi1 ) + · · · + αn f (bin ) + αn+1 f (bin+1 ) + · · · + αn+m f (bin+m )
= I(f )(x) + I(f )(y). (2.2)

Isso então mostrou que I(f ) é de fato um elemento de V 0 para cada f ∈ FB . Vamos mostrar o reverso:
que a cada elemento l de V 0 há um elemento gl de FB associado e que I(gl ) = l. Seja novamente
x = α1 bi1 + · · · + αn bin ∈ V e seja l um elemento de V 0 . Tem-se
l(x) = α1 l(bi1 ) + · · · + αn l(bin ).
Definimos então gl : B → K por

gl (b) = l(b)
para todo b ∈ K. Pela definição
I(gl )(x) = α1 gl (bi1 ) + · · · + αn gl (bin ) = α1 l(bi1 ) + · · · + αn l(bin ) = l(x) (2.3)
para todo x ∈ V . Logo I(gl ) = l como querı́amos.

A aplicação I : FB → V 0 é, portanto, uma bijeção entre esses dois conjuntos. Notemos, porém, que
essa bijeção não é canônica no sentido que a mesma depende da base adotada. Se trocarmos B por
outra base a bijeção altera-se.
De posse desses fatos podemos entender a relação entre V e V 0 da seguinte forma. Seja o subconjunto
GB de FB formado por todas as funções que assumem valores não-nulos (no corpo K) apenas para um
conjunto finito de B, ou seja, para g ∈ GB existe um conjunto finito Bg = {b1 , . . . , bn } ⊂ B tal que g
é não-nula nos elementos de Bg , mas é nula em B \ Bg .
Os conjuntos GB e V podem ser identificados no seguinte sentido. Afirmamos que existe uma bijeção
J : GB → V . Tal é fácil de ver se lembrarmos que os elementos de V podem ser escritos como uma
combinação linear finita de elementos de B. De fato, para g ∈ GB definimos
J(g) = g(b1 )b1 + · · · + g(bn )bn ∈ V
onde {b1 , . . . , bn } = Bg . Reciprocamente, se x ∈ V e x = α1 bi1 + · · · + αn bin , definimos gx ∈ GB por
gx (bia ) = αa , a = 1, . . . , n
e
gx (b) = 0,
se b 6∈ {bi1 , . . . , bin }. É fácil ver então que
J(gx ) = g(bi1 )bi1 + · · · + g(bin )bin = α1 bi1 + · · · + αn bin = x , (2.4)
o que mostra que J é bijetora. Notemos novamente que essa bijeção também não é canônica, no sentido
que a mesma depende da base adotada. Se trocarmos B por outra base a bijeção altera-se.
E. 2.15 Exercı́cio importante. Mostre agora que J −1 : V → Gb é linear, ou seja, J −1 (αx + βy) =
αJ −1 (x) + βJ −1 (y) para todos x, y ∈ V e todos α, β ∈ K. 6
Juntando o discutido acima, concluı́mos que φ1 = I ◦ J −1 é uma aplicação linear injetora de V em

0
V . A mesma, porém, não é “natural”, pois depende da base algébrica B escolhida.
Assim, fixada uma base B em V há uma maneira de associar todos os elementos de V com elementos
do seu dual algébrico. Notemos porém que pode haver elementos de V 0 aos quais não correspondem tais
identificações, ou seja, a imagem de φ1 = I ◦ J −1 é tipicamente (especialmente em dimensão infinita)

um subconjunto próprio de V 0 .
Exemplo. Seja P o espaço vetorial dos polinômios em definido acima. Seja T = {ti ∈ , i ∈ },

um conjunto contável de pontos distintos da reta real e seja q(t) = q0 + q1 t + · · · + qn tn , polinômio.

Definamos lq ∈ V 0 por
lq (p) = q0 p(t0 ) + q1 p(t1 ) + · · · + qn p(tn ).
E. 2.16 Exercı́cio. Mostre que a aplicação P 3 q → lq ∈ V 0 é linear e injetora. 6
E. 2.17 Exercı́cio. Será que com o conjunto T fixado todo elemento de V 0 seria da forma lq para algum
q?. Pense. Inspire-se nos exemplos 3 e 4 da página 102. O que acontece para conjuntos T diferentes? 6
Comentário. Mais interessante que a relação entre V e V 0 , é a relação de V com o dual algébrico de
V 0 , o chamado bi-dual algébrico de V e denotado por (V 0 )0 , assunto que discutiremos agora. A razão
é que, ao contrário do que tipicamente ocorre entre V e V 0 , há sempre uma aplicação linear injetora
entre V e (V 0 )0 que é natural, ou seja, independente de escolhas de bases.
Outro interesse na relação entre V e (V 0 )0 reside no fato que a mesma revela-nos, como veremos,
uma profunda distinção entre espaços vetoriais de dimensão finita e infinita.
• O Bi-dual Algébrico de um Espaço Vetorial
Se V é um espaço vetorial sobre um corpo K já observamos que V 0 é também um espaço vetorial
sobre o mesmo corpo. Assim, V 0 tem também seu dual algébrico que é denominado bi-dual algébrico
de V .
O bi-dual algébrico de um espaço vetorial V é o espaço (V 0 )0 . Como vimos nas páginas anteriores,
existe pelo menos uma aplicação linear injetiva de V em V 0 . Chamemos esta aplicação de φ1 . Ana-
logamente, existe pelo menos uma aplicação linear injetiva φ2 de V 0 em (V 0 )0 . A composição φ2 ◦ φ1
fornece uma aplicação linear injetiva de V em (V 0 )0 . Como φ1 e φ2 dependem de escolhas de base, a
composição φ2 ◦ φ1 também depende, não sendo, assim, natural.
Ao contrário do que ocorre na relação entre V e V 0 , podemos sempre encontrar uma aplicação
linear injetiva de V em (V 0 )0 que é natural: independente de base. Vamos denotá-la por λ. Definimos
λ : V → (V 0 )0 da seguinte forma: para x ∈ V , λ(x) é o elemento de (V 0 )0 que associa a cada l ∈ V 0 o
valor l(x):
λ(x)(l) = l(x).
E. 2.18 Exercı́cio. Mostre que λ : V → (V 0 )0 é linear. 6
E. 2.19 Exercı́cio. Mostre que λ : V → (V 0 )0 é injetora. Sugestão: use o Teorema 2.4, enunciado e
demonstrado na página 100. 6
É transparente pela definição de λ que a mesma é independente de bases e, portanto, “natural”. A

relação entre x ∈ V e um elemento de (V 0 )0 mostrada acima é tão direta que quase poderı́amos dizer que
V é um subconjunto de (V 0 )0 : V ⊂ (V 0 )0 . Alguns autores, abusando um pouco da linguagem, chegam

mesmo a escrever uma tal relação de inclusão. Mais correta, no entanto é a relação λ(V ) ⊂ (V 0 )0 .
Poderı́amos nesse momento nos perguntar: quando podemos eventualmente ter λ(V ) = (V 0 )0 ? Para
o caso de espaços vetoriais sobre o corpo dos reais ou dos complexos resposta é simples e um tanto
surpreendente e se expressa no seguinte teorema.
Teorema 2.5 Seja V um espaço vetorial sobre o corpo dos reais ou dos complexos. Então λ(V ) = (V 0 )0
se e somente se V é um espaço vetorial de dimensão finita. 2
Este teorema revela uma importante distinção entre espaços de dimensão finita e infinita. Em
dimensão finita todos os funcionais lineares do dual algébrico de V 0 são da forma λ(x) para algum
vetor x. Em dimensão infinita, porém, há certamente elementos em (V 0 )0 que não são dessa forma.
Assim, ao tomarmos duais duplos em dimensão infinita sempre obtemos espaços vetoriais “maiores”, o
que não ocorre em dimensão finita.
Prova. Seja V um espaço vetorial sobre um corpo K = ou .

Caso de dimensão finita. Vamos em primeiro lugar supor que V é de dimensão finita e denotemos
por dim V sua dimensão. Seja também B = {b1 , . . . , bn } uma base de V . É claro que o número de
elementos de B é n = dim V .
É fácil mostrar que o conjunto {λ(b1 ), . . . , λ(bn )} é linearmente independente em (V 0 )0 . De fato, se
existirem escalares αi tais que
α1 λ(b1 ) + · · · + αn λ(bn ) = 0
ou seja,
λ(α1 b1 + · · · + αn bn ) = 0
terı́amos para todo l ∈ V 0
λ(w)(l) = l(w) = 0
onde w = α1 b1 + · · · + α1 bn . Isso, porém, implica w = 0 (pelo Teorema 2.4, página 100), o que implica
α1 = · · · = αn = 0.
Isso claramente diz que dim (V 0 )0 ≥ dim V . Afirmamos que a igualdade só se dá se λ(V ) = (V 0 )0 .
De fato, se λ(V ) = (V 0 )0 então todo elemento de (V 0 )0 é da forma
λ(α1 b1 + · · · + αn bn ) = α1 λ(b1 ) + · · · + αn λ(bn )
e, portanto {λ(b1 ), . . . , λ(bn )} é uma base em (V 0 )0 e dim (V 0 )0 = dim V . Se, por outro lado, λ(V ) é um
subconjunto próprio de (V 0 )0 , existem elementos v 00 ∈ (V 0 )0 tais que v 00 − α1 λ(b1 ) − · · · − αn λ(bn ) 6= 0
para todos αi ∈ K. Portanto, {v 00 , λ(b1 ), . . . , λ(bn )} é um conjunto de n + 1 vetores linearmente
independentes. Logo dim (V 0 )0 > n = dim V , pelo Teorema 2.3, página 96.
Vamos então mostrar que obrigatoriamente tem-se que dim (V 0 )0 = dim V , provando o teorema.
Como vimos quando discutimos a relação entre V e V 0 à página 102, V 0 é equivalente ao conjunto
FB de todas as funções de B em K, enquanto que V é equivalente ao conjunto GB formado por todas
as funções que assumem valores não-nulos (no corpo K) apenas para um conjunto finito de B. Como
B tem um número finito de elementos, sucede GB = FB (por que?). Logo V e V 0 são equivalentes:
existe uma bijeção linear ϕ1 entre ambos.
A aplicação ϕ1 leva a base B em uma base ϕ1 (B) em V 0 . Para ver isso, notemos que todo elemento
l ∈ V 0 é da forma l = ϕ1 (v), para algum v ∈ V . Como todo v ∈ V é da forma v = α1 b1 +· · ·+αn bn , segue
que todo elemento l ∈ V 0 é da forma α1 ϕ1 (b1 )+· · ·+αn ϕ1 (bn ). Como ϕ1 é bijetora, {ϕ1 (b1 ), . . . , ϕ1 (bn )}
é um conjunto de vetores linearmente independentes pois se existirem escalares β1 , . . . , βn tais que
β1 ϕ1 (b1 ) + · · · + βn ϕ1 (bn ) = 0
terı́amos ϕ1 (β1 b1 + · · · + βn bn ) = 0 o que implica β1 b1 + · · · + βn bn = 0, pois ϕ1 é bijetora. Isso porém
implica β1 = · · · = βn = 0, pois {b1 , . . . , bn } é uma base. Assim, ϕ1 (B) = {ϕ1 (b1 ), . . . , ϕ1 (bn )} é uma
base em V 0 e, portanto, dim V 0 = n = dim V .
Analogamente, tem-se que V 0 e (V 0 )0 são equivalentes e, portanto, existe uma bijeção linear ϕ2 entre
ambos que leva a base ϕ1 (B) em uma base ϕ2 ◦ ϕ1 (B) em (V 0 )0 . Portanto, dim V 0 = dim (V 0 )0 .
Logo dim V = dim V 0 = dim (V 0 )0 , como querı́amos provar.
Caso de dimensão infinita. No caso de dimensão infinita desejamos mostrar que sempre há elementos
em (V 0 )0 que não são da forma λ(x) para algum x ∈ V .
Abaixo K é o corpo dos reais ou dos complexos.
Vamos primeiro delinear a estratégia a ser seguida. Seja B uma base em V (fixa daqui por diante).
Como sabemos, existe uma aplicação linear bijetora φ : FB → V 0 . Uma função s : B → K, s ∈ FB
é dita ser limitada se existir um M > 0 tal que |s(b)| < M para todo b ∈ B. Seja LB o conjunto de
todas as funções limitadas de B em K. É claro que LB ⊂ FB . Vamos mostrar o seguinte: não existe
nenhum vetor não-nulo v ∈ V com a propriedade que
λ(v)(β) = 0
para todo β ∈ φ(LB ). Seja v = α1 b1 + · · · + αm bm um tal vetor para o qual λ(v)(β) = 0. Isso significa
que para todo β ∈ φ(LB )
0 = λ(v)(β) = β(v) = α1 β(b1 ) + · · · + αm β(bm ).
Tomemos funcionais βi ’s da forma

1, se b = bi
βi (b) =
0, de outra forma
para i = 1, . . . , m. Como todo βi é um elemento de φ(LB ) (por que?), terı́amos 0 = βi (v) = αi para
todo i, o que implica v = 0.
A conclusão é que nenhum elemento de (V 0 )0 que seja da forma λ(v) para algum v ∈ V não-nulo
pode anular todos os elementos de φ(LB ) ⊂ V 0 . A estratégia que seguiremos será a de exibir um
elemento de (V 0 )0 que tem precisamente a propriedade de anular todos os elementos de φ(LB ). Um tal
elemento não pode pertencer, portanto, a λ(V ), o que mostra que λ(V ) é um subconjunto próprio de
(V 0 )0 no caso de dimensão infinita.
Seja u ∈ V 0 \ φ(LB ) e U o sub-espaço de V 0 gerado por u. Todo elemento l ∈ V 0 pode ser escrito
de modo único na forma
l = au + y
onde a ∈ K e y pertence ao sub-espaço complementar de U . Definamos α(l) = a. É claro que α ∈ (V 0 )0
e que α aniquila todo elemento de φ(LB ), pois estes pertencem ao sub-espaço complementar de U (por
que?). Assim, α ∈ (V 0 )0 mas α 6∈ λ(V ).
2.2 Formas Lineares, Sesquilineares e Produtos Escalares em

Espaços Vetoriais
2.2.1 Formas Multilineares

Seja V um espaço vetorial sobre um corpo K (por exemplo, os reais ou os complexos) e n um número
inteiro positivo. Uma n-forma multilinear4 em V é uma função ω : V n → K que seja linear em cada um
dos seus argumentos, ou seja, para todo α, β ∈ K, todos v1 , . . . , vn ∈ V , vi0 ∈ V e todo i = 1, . . . , n
vale
ω (v1 , . . . , vi−1 , (αvi + βvi0 ), vi+1 , . . . , vn ) =
αω (v1 , . . . , vi−1 , vi , vi+1 , . . . , vn ) + βω (v1 , . . . , vi−1 , vi0 , vi+1 , . . . , vn ) (2.5)
O seguinte fato importante é conseqüência imediata da definição acima: se ω é uma n-forma mul-
tilinear então
ω (v1 , . . . , vi−1 , 0, vi+1 , . . . , vn ) = 0
para todo i, ou seja, se um dos argumentos é o vetor nulo a forma se anula.
E. 2.20 Exercı́cio. Prove isso. Sugestão: o que acontece se escolhermos α = β = 0? 6
Um fato importante é o seguinte: o conjunto de todas as n-formas lineares em um espaço vetorial

V sobre um corpo K é igualmente um espaço vetorial sobre K. Para tal procede-se da seguinte forma:
para duas n-formas lineares ω1 e ω2 e dois escalares α1 , α2 ∈ K define-se a combinação linear α1 ω1 +α2 ω2
como sendo a n-forma linear que a toda n-upla de vetores v1 , . . . , vn ∈ V associa
(α1 ω1 + α2 ω2 )(v1 , . . . , vn ) = α1 ω1 (v1 , . . . , vn ) + α2 ω2 (v1 , . . . , vn ).
E. 2.21 Exercı́cio. Complete os detalhes da prova que o conjunto de todas as n-formas lineares em um
espaço vetorial V sobre um corpo K forma um espaço vetorial sobre K. 6
• Formas Bilineares
De particular interesse é o caso n = 2, em cujo caso as formas são denominadas bilineares: uma
forma bilinear é uma função ω : V 2 → K que seja linear em cada um dos seus dois argumentos, ou
seja, para todo α, β ∈ K, todos u, v, w ∈ V , valem
ω(u, (αv + βw)) = αω(u, v) + βω(u, w),
ω((αu + βv), w) = αω(u, w) + βω(v, w).

4
Também chamada n-forma linear ou simplesmente n-forma.
Um exemplo básico importante é o seguinte. Seja V = n o espaço vetorial (sobre o corpo dos

reais) formado por n-uplas de números reais: V = {x = (x1 , . . . , xn ), xi ∈ }. Uma forma bilinear
em V é dada por
Xn
hx, yi = xk y k .
(2.6)
k=1
Outro exemplo é
ωA (x, y) = hx, Ayi ,
onde A é uma matriz n × n real qualquer.
• Formas Bilineares Não-Degeneradas
Uma forma bilinear ω é dita ser uma forma bilinear não-degenerada se satisfizer a seguinte condição:
se para todo vetor v valer ω(v, u) = 0, então u = 0.
• Formas Bilineares Não-Singulares
Seja V um espaço vetorial e ω uma forma bilinear em V . Para u ∈ V fixo a aplicação lu (v) = ω(u, v)
é um funcional linear em V , ou seja, um elemento do espaço dual V 0 . Se a aplicação l : V → V 0 que
associa cada u ∈ V ao funcional linear lu acima for um isomorfismo de espaços vetoriais a forma bilinear
ω é dita ser uma forma bilinear não-singular.
Há vários outros tipos de formas multilineares que são importantes, como por exemplo as chamadas
formas multilineares alternantes e, dentre estas as formas simpléticas.
• Formas Alternantes
Uma n-forma linear ω em um espaço vetorial V sobre um corpo K é dita ser alternante (ou anti-
simétrica) se satisfizer
ω (v1 , . . . , vi−1 , vi , vi+1 , vi+2 , . . . , vn ) = −ω (v1 , . . . , vi−1 , vi+1 , vi , vi+2 , . . . , vn ) (2.7)
para todos os vetores v1 , . . . , vn ∈ V e todo i = 1, . . . , n − 1. Em palavras, quando trocamos de

lugar dois argumentos vizinhos quaisquer a forma troca de sinal.
Deve ser bem claro que essa definição equivale à seguinte afirmação: se ω é uma n-forma linear
alternante, então para todo π ∈ Sn , o grupo de permutações de n elementos, vale

ω vπ(1) , . . . , vπ(n) = (sinalπ) ω (v1 , . . . , vn ) , (2.8)
para todos os vetores v1 , . . . , vn ∈ V , onde sinalπ é o sinal da permutação π (definido à página 569).
E. 2.22 Exercı́cio. Está claro? 6
Nomenclatura. Se ω é n-forma linear alternante, n é dito ser o grau de ω.

O conjunto de todas as n-formas lineares alternantes em um espaço vetorial V sobre um corpo K é
igualmente um espaço vetorial sobre K: para duas n-formas lineares alternantes ω1 e ω2 e dois escalares
α1 , α2 ∈ K define-se a combinação linear α1 ω1 + α2 ω2 como sendo a n-forma linear que a toda n-upla
de vetores v1 , . . . , vn ∈ V associa
(α1 ω1 + α2 ω2 )(v1 , . . . , vn ) = α1 ω1 (v1 , . . . , vn ) + α2 ω2 (v1 , . . . , vn ).
É fácil constatar que a n-forma linear assim definida é também alternante.
E. 2.23 Exercı́cio. Complete os detalhes da prova que o conjunto de todas as n-formas lineares alter-
nantes em um espaço vetorial V sobre um corpo K forma um espaço vetorial sobre K. 6
• Formas Simpléticas
Formas bilineares alternantes não-degeneradas são denominadas formas simpléticas 5. Formas sim-
pléticas são importantes em algumas áreas da Fı́sica, como por exemplo na mecânica clássica e no
estudo de métodos de quantização.
Assim, uma forma simplética em um espaço vetorial V sobre um corpo K é uma forma bilinear
para a qual
ω(u, v) = −ω(v, u)
para todos os vetores u, v ∈ V e tal que se ω(u, v) = 0 para todo v, então u = 0.
n
Um exemplo básico importante no caso do espaço vetorial V = e que, como veremos na Seção
2.4, é o caso geral é o seguinte:
ωA (x, y) = hx, Ayi ,
onde A é uma matriz n × n real anti-simétrica, ou seja, que satisfaz AT = −A, o que equivale a dizer
que seus elementos de matriz satisfazem Aij = −Aji . Fora isso, pela condição de não-degenerescência
A tem que ser invertı́vel, pois se hx, Ayi = 0 para todo y, então hAT x, yi = 0 para todo y, o

que só é possı́vel se AT x = 0. Isso implicaria que det(A) = det(AT ) = 0. Uma conseqüência do
fato de A ter de ser invertı́vel é que n tem que ser par. De fato, a condição A T = −A diz que
det(A) = det(−AT ) = (−1)n det(AT ) = (−1)n det(A). Portanto, se n é ı́mpar terı́amos det(A) = 0.
• Algumas Propriedades Básicas de Formas Lineares Alternantes
É evidente pela definição que se ω é uma n-forma alternante então ω (v1 , . . . , vn ) = 0 caso haja
vi = vj para algum par i 6= j. Em particular, para formas simpléticas ω(u, u) = 0 para todo u ∈ V .
E. 2.24 Exercı́cio. A propriedade mencionada no último parágrafo é equivalente à definição de forma

linear alternante: se ω é uma n-forma linear e ω (v1 , . . . , vn ) = 0 sempre que vi = vj para algum par i 6= j,
então ω é alternante. Prove isso. Sugestão: para i 6= j defina a forma bilinear ω ij (vi , vj ) := ω (v1 , . . . , vn )
onde todos os vetores v1 , . . . , vn estão fixos exceto vi e vj . Usando agora que ωij (x + y, x + y) = 0,
mostre que ωij (vi , vj ) = −ωij (vj , vi ) para todo vi e vj . A afirmação principal segue disso (por que?). 6
A seguinte proposição sobre formas lineares alternantes é importante:

5
Do grego symplektikós: que serve para ligar, trançado, enlaçado.
Proposição 2.2 Se ω é uma n-forma linear alternante e v1 , . . . , vn são vetores linearmente dependentes,
então
ω (v1 , . . . , vn ) = 0.
2
E. 2.25 Exercı́cio. Prove isso. 6
• Formas Alternantes Maximais
A Proposição 2.2 tem uma conseqüência imediata: se V é um espaço vetorial de dimensão n e ω é

uma forma linear alternante de ordem m > n, então ω = 0.
E. 2.26 Exercı́cio. Por quê? 6
Assim, em um espaço de dimensão n o grau máximo de uma forma alternante é n. Formas alternan-
tes de grau máximo são ditas formas alternantes maximais. Vamos mais adiante estudar como são essas
formas maximais, mas antes, precisamos discutir alguns fatos importantes sobre formas alternantes em
espaços de dimensão finita.
Em um espaço vetorial V de dimensão n o espaço vetorial das formas alternantes maximais é
unidimensional. Para ver isso notemos o seguinte. Seja {b1 , . . . , bn } uma base em V . Sejam agora ω1
e ω2 duas formas alternantes maximais em V e seja x1 , . . . , xn uma n-upla de vetores de V . Como
{b1 , . . . , bn } é uma base, podemos sempre escrever
n
X
xi = αij bj ,
j=1
para todo i = 1, . . . , n. Assim,

n
X n
X
ω1 (x1 , . . . , xn ) = ··· α1j1 · · · αnjn ω1 (bj1 , . . . , bjn )
j1 =1 jn =1
e, analogamente,
n
X n
X
ω2 (x1 , . . . , xn ) = ··· α1j1 · · · αnjn ω2 (bj1 , . . . , bjn ).
j1 =1 jn =1
Ocorre que ω1 (bj1 , . . . , bjn ) é zero caso ocorram dois ı́ndices jk iguais. Por isso, podemos reescrever
as expressões acima da seguinte forma:
X
ω1 (x1 , . . . , xn ) = α1j(1) · · · αnj(n) ω1 (bj(1) , . . . , bj(n) )
j∈Sn
e, analogamente, X
ω2 (x1 , . . . , xn ) = α1j(1) · · · αnj(n) ω2 (bj(1) , . . . , bj(n) ) ,
j∈Sn
onde, acima, Sn é o conjunto de todas as bijeções de {1, . . . , n} em si mesmo (o chamado grupo de

permutações de n elementos).
E. 2.27 Exercı́cio. Justifique. 6
Como ω1 é uma forma alternante maximal, tem-se que
ω1 (bj(1) , . . . , bj(n) ) = sinal(j) ω1 (b1 , . . . , bn ).
Assim, !
X
ω1 (x1 , . . . , xn ) = α1j(1) · · · αnj(n) sinal(j) ω1 (b1 , . . . , bn )
j∈Sn
e, analogamente,
!
X
ω2 (x1 , . . . , xn ) = α1j(1) · · · αnj(n) sinal(j) ω2 (b1 , . . . , bn ).
j∈Sn
Como se vê nessas últimas expressões, ω1 (x1 , . . . , xn ) e ω2 (x1 , . . . , xn ) diferem apenas pelos fatores
ω1 (b1 , . . . , bn ) e ω2 (b1 , . . . , bn ), respectivamente. Como esses fatores são apenas números (elementos
do corpo K), são proporcionais um ao outro. Isso prova então que ω1 (x1 , . . . , xn ) e ω2 (x1 , . . . , xn )
são proporcionais um ao outro para toda n-upla x1 , . . . , xn e isso era o que querı́amos provar.
Com as observações acima chegamos ao importante conceito de forma determinante.
• A Forma Determinante
Como observamos acima, todas as n-formas lineares alternantes maximais de um espaço vetorial
V de dimensão n são proporcionais umas às outras. Assim, o conhecimento de uma forma alternante
maximal determina todas as outras.
A forma determinante6 ωdet em um espaço vetorial V de dimensão n é a n-forma linear alternante
maximal tal que ωdet (b1 , . . . , bn ) = 1 no caso em que {b1 , . . . , bn } é a base canônica de V :
     
1 0 0
0  1  0
     
0  0   
b1 =   , b2 =   , . . . , bn =  ...  .
 ..   ..   
. . 0
0 0 1
Assim, X
ωdet (x1 , . . . , xn ) = α1j(1) · · · αnj(n) sinal(j),
j∈Sn
onde αij é a j-ésima componente do vetor xi na base canônica.

6 3
Também chamada de forma volume, pois em , ωdet (x1 , x2 , x3 ) é igual ao volume do paralelepı́pedo descrito pelos
vetores x1 , x2 , x3 .
Como observamos, todas as outras n-formas lineares alternantes maximais de V são proporcionais
a ωdet .
• Determinante de Matrizes
Sejam x1 , . . . , xn vetores, representados na base canônica por vetores-coluna

 
αi1
 .. 
xi =  .  .
αin
Denotamos por [[x1 , . . . , xn ]] a matriz n × n construı́da de forma que sua a-ésima coluna seja o
vetor-coluna xa , ou seja  
α11 · · · αn1
 ..  .
[[x1 , . . . , xn ]] =  ... ..
. . 
α1n · · · αnn
É evidente que toda matriz M (n × n) pode ser escrita na forma M = [[x1 , . . . , xn ]] para algum
conjunto de vetores x1 , . . . , xn que representam suas colunas.
Define-se então o determinante da matriz M como sendo
det(M ) := ωdet (x1 , . . . , xn ).
Cremos que o conceito de determinante de matrizes e suas propriedades básicas sejam bem conhe-
cidos do estudante.
2.2.2 Formas Sesquilineares e as Desigualdades de Cauchy-Schwarz e Min-

kowski
• Formas Sesquilineares. Definições
Seja V um espaço vetorial complexo. Uma forma sesquilinear7 é uma função ω : V × V → que
satisfaz as seguintes propriedades:
1. Linearidade em relação à segunda variável:
ω(u, αv + βw) = αω(u, v) + βω(u, w),
para todos os vetores u, v e w e para todos os números complexos α e β.

2. Anti-linearidade em relação à primeira variável:
ω(αu + βv, w) = αω(u, w) + βω(v, w),

7
Do radical grego sesqui: um e meio.
para todos os vetores u, v e w e para todos os números complexos α e β.

É imediato pela definição que toda forma sesquilinear ω se anula no vetor nulo, ou seja,
ω(u, 0) = ω(0, u) = 0,
para todo vetor u.
Uma forma sesquilinear é dita ser uma forma sesquilinear Hermitiana se satisfizer:
3. Simetria por conjugação complexa:
ω(u, v) = ω(v, u),
para todos os vetores u e v.

Uma forma sesquilinear é dita ser uma forma sesquilinear positiva se satisfizer
4. Positividade. Para todo u ∈ V ,
ω(u, u) ≥ 0.
Abaixo (Teorema 2.6, página 113) provaremos que toda forma sesquilinear positiva é automatica-
mente Hermitiana. Lá provaremos também que se ω é uma forma sesquilinear positiva então vale
que |ω(u, v)|2 ≤ ω(u, u) ω(v, v) para todos os vetores u e v. Essa desigualdade é conhecida como
Desigualdade de Cauchy-Schwarz.
Uma forma sesquilinear é dita ser uma forma sesquilinear não-degenerada se satisfizer:
5. Não-degenerescência. Se um vetor u é tal que vale ω(u, v) = 0 para todo vetor v, então u = 0.
Nomenclatura. Uma forma sesquilinear que não é não-degenerada é dita ser degenerada.
• Formas sesquilineares não-singulares
Seja V um espaço vetorial e ω uma forma sesquilinear em V . Para u ∈ V fixo a aplicação l u (v) =
ω(u, v) é um funcional linear em V , ou seja, um elemento do espaço dual V 0 . Se a aplicação anti-linear
l : V → V 0 que associa cada u ∈ V ao funcional linear lu acima for um anti-isomorfismo8 de espaços
vetoriais a forma sesquilinear ω é dita ser uma forma sesquilinear não-singular.
• A Desigualdade de Cauchy-Schwarz
De importância fundamental na teoria das formas sesquilineares é o seguinte teorema, que apresenta-
nos a importante desigualdade de Cauchy9 -Schwarz10 .
Teorema 2.6 Se ω é uma forma sesquilinear positiva, então é também Hermitiana, ou seja,
ω(u, v) = ω(v, u) ,
8
Definido à página 66.
9
10
Karl Herman Amandus Schwarz (1843-1921).
para todos os vetores u e v. Fora isso vale a desigualdade de Cauchy-Schwarz: para todos os vetores u
e v,
|ω(u, v)|2 ≤ ω(u, u) ω(v, v). (2.9)
Por fim, se ω é uma forma sesquilinear positiva e não-degenerada então ω(u, u) = 0 se e somente se
u = 0. 2
Prova. Faremos uso do fato que, para qualquer número complexo λ e quaisquer vetores u e v vale, pela
hipótese de positividade,
ω(u + λv, u + λv) ≥ 0.
Escrevendo-se explicitamente o lado esquerdo temos a desigualdade
|λ|2 ω(v, v) + λ ω(u, v) + λ ω(v, u) + ω(u, u) ≥ 0.
E. 2.29 Exercı́cio. Verifique isso. 6
Vamos agora escrever λ na forma λ = x + iy, onde x é a parte real de λ e y sua parte imaginária.
A última expressão fica
f (x, y) := (x2 + y 2 )ω(v, v) + (x + iy)ω(u, v) + (x − iy)ω(v, u) + ω(u, u) ≥ 0.
Vamos decompor ω(u, v) e ω(v, u) nas suas partes reais e imaginárias, escrevendo
ω(u, v) = α + iβ e ω(v, u) = γ + iδ, (2.10)
onde α, β, γ e δ ∈ . Ficamos com
f (x, y) = (x2 + y 2 )ω(v, v) + (xα − yβ) + i(xβ + yα) + (xγ + yδ) + i(xδ − yγ) + ω(u, u) ≥ 0. (2.11)
Como f (x, y) tem que ser real (e ≥ 0) segue que a parte imaginária da expressão acima deve ser nula
e, como ω(v, v) e ω(u, u) são reais, devemos ter
0 = (xβ + yα) + (xδ − yγ) = x(β + δ) + y(α − γ).
Como isso deve valer para todos x, y ∈ , segue que β = −δ e α = γ. Comparando com (2.10), isso
diz que
ω(u, v) = ω(v, u),
provando que ω é Hermitiano.
Com as relações β = −δ e α = γ a expressão (2.11) fica
f (x, y) = (x2 + y 2 )ω(v, v) + 2(xα − yβ) + ω(u, u). (2.12)

Vamos agora considerar dois casos: um onde ω(v, v) = 0 e outro onde ω(v, v) 6= 0. No primeiro
f (x, y) = 2(xα − yβ) + ω(u, u).
Assim, como ω(u, u) ≥ 0 pela positividade, a condição f (x, y) ≥ 0 é possı́vel para todos x e y ∈
se e somente se α = β = 0, ou seja, se e somente se ω(u, v) = 0 para todo u. Aqui a desigualdade de

Cauchy-Schwarz (2.9) é trivialmente satisfeita, pois ambos os lados são iguais a zero.
Passemos ao caso ω(v, v) 6= 0. Resta-nos provar a desigualdade de Cauchy-Schwarz (2.9) para esse
caso. Podemos reescrever o lado direito de (2.12) como
" 2 2 # 2
α β α + β2
f (x, y) = ω(v, v) x + + y− + ω(u, u) − .
ω(v, v) ω(v, v) ω(v, v)
Daı́, constatamos que f (x, y) ≥ 0 para todos x e y ∈ se e somente se

2
α + β2
ω(u, u) − ≥ 0,
ω(v, v)
ou seja, se e somente se
ω(u, u)ω(v, v) ≥ α2 + β 2 .
O lado direito é, porém, |ω(u, v)|2 , e a última desigualdade significa
|ω(u, v)|2 ≤ ω(u, u)ω(v, v),
que é a desigualdade de Cauchy-Schwarz que querı́amos demonstrar.

Finalmente, se ω é uma forma sesquilinear positiva e não-degenerada e um certo vetor u é tal que
ω(u, u) = 0, segue pela desigualdade de Cauchy-Schwarz que ω(u, v) = 0 para todo v, o que implica
u = 0, pois ω é não-degenerada.
• A Desigualdade de Minkowski
A desigualdade de Cauchy-Schwarz tem uma conseqüência de certa importância, a chamada De-

sigualdade de Minkowski: Se ω é uma forma sesquilinear positiva (em particular, se ω é um produto
escalar) então, para todos os vetores u e v, vale
ω(u − v, u − v)1/2 ≤ ω(u, u)1/2 + ω(v, v)1/2 . (2.13)

A demonstração é simples:
ω(u − v, u − v) = ω(u, u) − ω(u, v) − ω(v, u) + ω(v, v)
= ω(u, u) − 2Re (ω(u, v)) + ω(v, v)
≤ ω(u, u) + 2 |ω(u, v)| + ω(v, v)
≤ ω(u, u) + 2ω(u, u)1/2 ω(v, v)1/2 + ω(v, v)

2
= ω(u, u)1/2 + ω(v, v)1/2 ,
que é o que se queria demonstrar. Acima, na passagem da terceira para a quarta linha, usamos a
desigualdade de Cauchy-Schwarz.
2.2.3 Produtos Escalares
• Produtos Internos ou Produtos Escalares
Uma forma sesquilinear positiva ω é dita ser um produto escalar ou produto interno se satisfizer:
6. ω(u, u) = 0 se e somente se u = 0.
A proposição seguinte apresenta uma definição alternativa de produto escalar.
Proposição 2.3 Uma forma sesquilinear positiva é um produto escalar se e somente se for não-
degenerada. 2
Prova. Se ω é um produto escalar, então se u é tal que ω(u, v) = 0 para todo v, vale em particular
(tomando v = u) que ω(u, u) = 0 e, portanto, u = 0. Assim, todo o produto escalar é não-degenerado.
Reciprocamente, pelo Teorema 2.6, página 113, se ω é uma forma sesquilinear positiva e não-degenerada,
então vale automaticamente que ω(u, u) = 0 se e somente se u = 0
• Notações para produtos escalares
Seguindo a convenção, denotaremos freqüentemente produtos escalares de dois vetores u e v não

por ω(u, v) mas por hu, vi. É freqüente também denotar um produto escalar de dois vetores u e v por
(u, v). Essa notação pode causar confusão com a de par ordenado e por isso a evitamos. Em textos
de Fı́sica é comum encontrar também a chamada notação de Dirac para produtos escalares: hu|vi. Por
diversas razões não compartilhamos do entusiasmo de alguns com essa notação e também a evitamos.
• Detalhando a definição de produto escalar
Como o conceito de produto escalar é muito importante, vamos detalhá-lo um pouco mais antes de
passarmos a exemplos.
Um produto escalar ou produto interno em um espaço vetorial V sobre o corpo dos complexos é
uma função V × V → , denotada por hu, vi, para u, v ∈ V , com as seguintes propriedades:
1. O produto escalar é linear na segunda variável:

hu, αv + βwi = αhu, vi + βhu, wi
para todos u, v e w ∈ V e todos α, β ∈ .
2. O produto escalar é anti-linear na primeira variável:
hαu + βv, wi = αhu, wi + βhv, wi
para todos u, v e w ∈ V e todos α, β ∈ , onde α é o complexo conjugado de α ∈ .
3. Conjugação complexa:
hu, vi = hv, ui
para todos u, v ∈ V .
4. Para todo u ∈ V
h0, ui = hu, 0i = 0.
5. Positividade. Para todo vetor u não-nulo

hu, ui > 0.
Nota. Alguns postulados da definição de produto escalar acima são redundantes, pois nem todos são
independentes. Nós os listamos apenas para ressaltar sua relevância individual. Por exemplo, o item
2 segue de 1 e 3 (por que?). O item 4 segue de 1 e 2 (por que?). Os itens 1, 2 e 5 implicam o item 3
(como veremos no Teorema 2.6). Independentes são apenas 1, 2 e 5 ou 1, 3 e 5.
Para um produto escalar de dois vetores vale a seguinte e importantı́ssima desigualdade, conhecida
como Desigualdade de Cauchy-Schwarz:
|hu, vi|2 ≤ |hu, ui||hv, vi|.
A demonstração (mais geral) é apresentada no Teorema 2.6, página 113.
Advertência. Em livros de Matemática definição de produto escalar é por vezes apresentada de forma
que se tenha linearidade na segunda variável e anti-linearidade na primeira variável acima. A convenção
que adotamos é oposta e é seguida, felizmente, por 100% dos textos de Fı́sica.
• Formas Sesquilineares Positivas e Produtos Escalares
Se V é um espaço vetorial dotado de uma forma sesquilinear positiva ω, existe uma maneira canônica
de construir a partir de V e ω um outro espaço vetorial dotado de um produto escalar.
Seja ω uma forma sesquilinear positiva em um espaço vetorial V . Então, existe um espaço vetorial
Ṽ , um produto escalar ω̃ e uma aplicação linear sobrejetora E : V → Ṽ tais que
ω̃(E(u), E(v)) = ω(u, v)
e que E(u) = 0 em Ṽ caso ω(u, u) = 0.

Para a mencionada construção, notemos em primeiro lugar que o conjunto de todos os vetores u
com a propriedade que ω(u, u) = 0 formam um sub-espaço de V . De fato, se u e v são dois vetores
desse tipo, teremos que
ω(αu + βv, αu + βv) = |α|2 ω(u, u) + αβω(u, v) + αβω(v, u) + |β|2 ω(v, v) = 0,
pois ω(u, u) = ω(v, v) = 0, por hipótese, e pois ω(v, u) = ω(u, v) = 0 em função da condição de
ω ser positivo (pela desigualdade de Cauchy-Schwarz). Vamos denominar esse sub-espaço por Z. O
espaço vetorial quociente Ṽ = V /Z (vide a construção da página 93) tem as propriedades desejadas.
A aplicação E : V → Ṽ é a aplicação que associa cada elemento de v de V à sua classe de equivalência
[v]: E : V 3 v 7→ [v] ∈ Ṽ . Definimos então ω̃ por
ω̃([u], [v]) = ω(u, v).
É um exercı́cio simples (faça) mostrar que essa definição de fato independe dos representantes, no caso
u e v, tomados nas classes [u] e [v].
E. 2.32 Exercı́cio. Mostre que ω̃ é de fato um produto escalar em Ṽ . 6
• Produtos escalares e formas simpléticas reais
Seja V um espaço vetorial complexo dotado de um produto escalar h·, ·i. Então, a expressão
ω(u, v) := Im(hu, vi)
u, v ∈ V , define uma forma simplética real em V . As condições de antisimetria (ω(u, v) = −ω(v, u))
e de linearidade por combinações lineares com escalares reais são elementares de se constatar. Que
ω é não-degenerada, segue do fato que se ω(u, v) = 0 para todo u valeria, tomando u = −iv, 0 =
Im(h − iv, vi) = hv, vi, o que implica v = 0.
Na Seção 2.5, página 131, veremos que, sob hipóteses adequadas, toda forma simplética real é a
parte imaginária de um produto escalar em um espaço complexo.
2.2.4 Exemplos
Para ilustrar os conceitos apresentados acima, passemos a alguns exemplos.
• Exemplos de Formas Sesquilineares e Produtos Escalares

n
Exemplo 2.1 Seja V = . Um exemplo de produto escalar é dado pelo produto escalar usual:
n
X
ω(u, v) = hu, vi
:= uk v k , (2.14)
k=1
onde u = (u1 , . . . , un ) e v = (v1 , . . . , vn ). ◊

n
Exemplo 2.2 Seja V = . Um exemplo de produto escalar é dado por
ω(u, v) = hAu, Avi ,
onde u = (u1 , . . . , un ), v = (v1 , . . . , vn ) e onde A é uma matriz n × n invertı́vel. ◊

n
Exemplo 2.3 Exemplo de uma forma sesquilinear Hermitiana que não é positiva. Seja V = e seja
ω dado por
Xn
ω(u, v) = hu, Avi = uk Akl vl ,

k, l=1
onde A é uma matriz n × n auto-adjunta, ou seja, seus elementos de matriz satisfazem A kl = Alk .
A assim definida ω é uma forma sesquilinear Hermitiana, mas em geral pode não ser positiva. Um
0 −i
caso concreto é o seguinte. Tomemos V = 2 e A = . Então, é fácil ver que ω(u, u) =
i 0
hu, Aui = i(u1 u2 − u1 u2 ) = −2Im(u1 u2 ), que pode ser negativo ou mesmo nulo. Assim, essa ω não é

positiva. É fácil ver, porém, que essa ω é não-degenerada (mostre isso!). ◊

n
Exemplo 2.4 Exemplo de uma forma sesquilinear que não é Hermitiana. Seja V = e seja dado
por
Xn
ω(u, v) = hu, Avi = uk Akl vl ,

k, l=1
onde A é uma matriz n × n que não é auto-adjunta, ou seja, Akl 6= Alk para pelo menos um elemento
de matriz Akl . A assim definida ω é uma forma sesquilinear,
mas em geral pode não ser Hermitiana.
0 1
Um caso concreto é o seguinte. Tomemos V = 2 e A = . Então, é fácil ver que
0 0
ω(u, v) = hu, Avi = u1 v2 ,
enquanto que ω(v, u) = v1 u2 . Logo, ω(u, v) e ω(v, u) podem ser distintos e ω não é Hermitiana. Fora
isso, essa ω também não é positiva e é degenerada (mostre isso!). ◊
Exemplo 2.5 Exemplo de uma forma sesquilinear positiva mas que não é um produto escalar. Seja
V = n e seja ω dado por
ω(u, v) = hAu, Avi
onde A é uma matriz n × n não-invertı́vel. Então, existe u0 não-nulo tal que Au0 = 0. Daı́, segue que
ω(u0 , v) = hAu0 , Avi = 0 para todo v e, portanto, ω é degenerada e ω(u0 , u0 ) = 0.

2 1 0
Um caso concreto é o seguinte. Tomemos V = eA= . Note que A não é invertı́vel
0 0
b 0
(por que?). Aqui temos que ω(u, v) = u1 v1 . Note que todo vetor da forma u = é tal que
u2
Aub = 0 e, portanto ω(ub , v) = 0 para todo v. ◊
Na Seção 2.4, página 126, mostraremos como é a forma geral de formas bilineares, sesquilineares
e produtos escalares nos espaços de dimensão finita n e n . Tratemos agora de dois exemplos em

espaços vetoriais de dimensão infinita.

Exemplo 2.6 Seja V = C([a, b]) o espaço vetorial das funções contı́nuas complexas de um intervalo
fechado [a, b] da reta real (a < b). Seja p uma função contı́nua estritamente positiva definida em [a, b],
ou seja, p(x) > 0 para todo x ∈ [a, b]. Então, a expressão
Z b
ω(f, g) = f (x)g(x) p(x)dx ,
a
para funções f e g de V define um produto escalar em V (justifique!). ◊
Exemplo 2.7 Seja V = C([0, 1]) o espaço vetorial das funções contı́nuas complexas de um intervalo
fechado [0, 1] da reta real. Seja p uma função tal que p é contı́nua e estritamente positiva no intervalo
[0, 1/2) e identicamente nula no intervalo [1/2, 1]. Então, a expressão
Z 1
ω(f, g) = f (x)g(x) p(x)dx ,
0
para funções f e g de V define uma forma sesquilinear positiva em V , que não é um produto escalar
(justifique!). ◊
Exemplo
Pn 2.8 Considere o espaço vetorial n e o produto escalar usual: ω(u, v) = hu, vi =
i=1 ui vi . A desigualdade de Cauchy-Schwarz implica

2 ! n !
Xn Xn X

ui v i ≤ |uj |2 |vk |2 . (2.15)

i=1 j=1 k=1
E. 2.33 Exercı́cio. R Considere o espaço vetorial das funções contı́nuas no intervalo [0, 1] e o produto
1
escalar ω(f, g) = 0 f (x)g(x) dx. Tomando as funções f (x) = x e g(x) = ex , use a desigualdade de
√
Cauchy-Schwarz para mostrar que e ≥ 7. 6
E. 2.34 Exercı́cio. Tente livremente obter outras desigualdades interessantes do mesmo estilo usando
esse método. 6
2.3 Normas em Espaços Vetoriais

Aqui trataremos exclusivamente de espaços vetoriais sobre o corpo dos complexos.
• Normas
Uma norma é uma função V → usualmente denotada por k · k, com as seguintes propriedades.
1. Para todo v ∈ V tem-se kvk ≥ 0.
2. kvk = 0 se e somente se v for o vetor nulo: v = 0.

3. Para qualquer α ∈ e qualquer v ∈ V tem-se kαvk = |α|kvk.
4. Para quaisquer vetores u e v ∈ V tem-se ku + vk ≤ kuk + kvk.
Por 3 e 4, vale que

kαu + βvk ≤ |α|kuk + |β|kvk
para quaisquer α, β ∈ e quaisquer vetores u e v ∈ V .
Nota. As quatro condições acima, em verdade, não são logicamente independentes e listamo-as devido
à sua importância individual. Assim, por exemplo, a condição de positividade 1 segue das condições 4
e 3. Isso será mostrado logo abaixo (página 121) quando falarmos de semi-normas. Note também que,
pelo item 3 acima, tem-se k0k = 0 (tome α = 0).
Nota. A condição 4, acima, é de particular importância e é denominada desigualdade triangular.

Um espaço vetorial pode ter várias normas. Vide exemplos abaixo.
• Equivalência entre Normas
Definição. Duas normas k · k1 e k · k2 em um espaço vetorial V são ditas equivalentes se existirem duas
constantes positivas c1 e c2 , com 0 < c1 ≤ c2 , tais que
c1 kvk1 ≤ kvk2 ≤ c2 kvk1
para todo vetor v ∈ V .
E. 2.35 Exercı́cio. Mostre que a relação de equivalência entre normas é uma relação de equivalência.
6
Tem-se o seguinte teorema, cuja demonstração pode ser encontrada, por exemplo, em [133]:
Teorema 2.7 Em um espaço vetorial de dimensão finita sobre ou todas as normas são equiva-
lentes. 2
A afirmação desse teorema é freqüentemente falsa em espaços de dimensão infinita. A importância

da noção de equivalência de normas se manifesta no fato que duas normas equivalentes geram a mesma
topologia métrica.
• Semi-Normas
Uma semi-norma é uma função V → usualmente denotada por k·k, com as seguintes propriedades.
1. Para todo v ∈ V tem-se kvk ≥ 0.
2. Para qualquer α ∈ e qualquer v ∈ V tem-se kαvk = |α|kvk.
3. Para quaisquer vetores u e v ∈ V tem-se ku + vk ≤ kuk + kvk.

Note-se que, pelo item 2, vale para uma semi-norma que k0k = 0. É evidente pelas definições que
toda norma é uma semi-norma. A diferença entre norma e semi-norma é que para uma semi-norma a
relação kvk = 0 não necessariamente implica v = 0.
Para uma semi-norma (ou norma) vale a desigualdade

kak ≥ ka − bk − kbk , (2.16)
para quaisquer a, b ∈ V . Como faremos uso da mesma no futuro, vamos apresentar sua demonstração
aqui, que é uma conseqüência direta da desigualdade triangular.
A desigualdade triangular diz-nos que
ka − bk ≤ kak + kbk (2.17)
e que
kbk = ka − (a − b)k ≤ kak + ka − bk. (2.18)
De (2.17) segue que
kak ≥ ka − bk − kbk
e de (2.18) que
kak ≥ −(ka − bk − kbk).
Quando dois números reais x e y são tais que x ≥ y e x ≥ −y então x ≥ |y|. Assim, as duas últimas
desigualdades dizem que

kak ≥ ka − bk − kbk ,
que é o que querı́amos provar.
Essa desigualdade diz, incidentalmente, que kak ≥ 0 para todo vetor de V . Isso mostra que o item
1 da definição de semi-norma e de norma é supérfluo.
Note-se também que se fizermos em (2.16) as substituições a → a − b, b → −b, obtemos

kak − kbk ≤ ka − bk, (2.19)
para quaisquer a, b ∈ V . Essa forma da desigualdade será empregada algumas vezes nestas notas.
• Equivalência entre Semi-Normas
Há uma noção de equivalência entre semi-normas que é idêntica à de equivalência entre normas.
• A Norma Associada a um Produto Escalar
Se ω é um produto escalar em um espaço vetorial V existe associada a ω uma norma k · k ω dada

por
kvkω = ω(v, v)1/2 ,
v ∈V.
E. 2.36 Exercı́cio. Mostre que os postulados da definição de norma são de fato satisfeitos. 6
• Invariância de Normas Associadas a Produtos Escalares
Se uma norma em um espaço vetorial V é produzida por um produto escalar, como acima, existe
naturalmente um grupo de transformações lineares de V em V que mantem essa norma invariante.
Esse grupo é discutido
pna Seção 10.2.3, página 580. Por exemplo, a chamada norma Euclidiana de n ,
n
definida por kxk = hx, xi para x ∈
, é invariante pelo grupo O(n) das matrizes ortogonais, ou

seja, das matrizes R, reais n × n, que satisfazem RT R = . Isso significa que kRxk = kxk para toda
R ∈ O(n). O grupo O(n) e seus amigos são discutidos na Seção 10.2.4, página 582 e seguintes.
• A Desigualdade Triangular
Talvez a principal importância da desigualdade de Minkowski (2.13) seja a seguinte. Vamos supor
que ω seja um produto escalar. Então podemos definir11 uma métrica ou distância entre dois vetores
a e b por
dω (a, b) := ka − bkω = ω(a − b, a − b)1/2 .
Como ω é um produto escalar, segue que dω (a, b) = 0 se e somente se a = b (por que?). É também
claro que dω (a, b) = dω (b, a) (por que?). Fora isso, segue da desigualdade de Minkowski que para
quaisquer vetores a, b e c vale
dω (a, b) ≤ dω (a, c) + dω (c, b).
Para ver isso, note que
dω (a, b) = ω(a − b, a − b)1/2
= ω((a − c) − (b − c), (a − c) − (b − c))1/2
≤ ω(a − c, a − c)1/2 + ω(b − c, b − c)1/2
= dω (a, c) + dω (c, b).
Acima, na passagem da segunda à terceira linha, usamos a desigualdade de Minkowski com u = a − b

e v = b − c.
A desigualdade dω (a, b) ≤ dω (a, c) + dω (c, b) é importante no estudo de propriedades topológicas
de espaços vetoriais e é denominada desigualdade triangular (pergunta ao estudante: de onde vem esse
nome?).
Note que a desigualdade triangular vale também se ω não for um produto escalar, mas apenas uma
forma sesquilinear positiva (por que?). Nesse caso é também verdade que d ω (a, b) = dω (b, a), porém,
não é mais verdade que dω (a, b) = 0 se e somente se a = b e, por isso, dω é dita ser uma pseudo-métrica.
• Norma e Produto Escalar

11
As noções de métrica e de espaços métricos serão discutidas no Capı́tulo 13.
Se um espaço vetorial V possuir um produto

p escalar então, como observamos, é possı́vel definir nele
uma norma da seguinte forma: kuk = hu, ui, u ∈ V .
A norma assim definida possui duas propriedades importantes que mencionamos aqui: a identidade
do paralelogramo e a identidade de polarização.
Identidade do paralelogramo: Para todos os vetores u, v ∈ V vale
ku + vk2 + ku − vk2 = 2kuk2 + 2kvk2 . (2.20)
Prova. Tem-se simplesmente pelas definições que
ku + vk2 = kuk2 + hu, vi + hv, ui + kvk2
e
ku − vk2 = kuk2 − hu, vi − hv, ui + kvk2 .
Somando-se ambas tem-se o resultado.
E. 2.37 Exercı́cio. Por que essa relação é chamada “identidade do paralelogramo”? 6
Identidade de polarização: Para todos os vetores u, v de um espaço vetorial complexo V vale

3
1 X −n
hu, vi = i ku + in vk2 ,
4 n=0
ou seja,
4hu, vi = ku + vk2 − ku − vk2 − iku + ivk2 + iku − ivk2 .
Prova. Exercı́cio. Expanda o lado direito e verifique a igualdade.
E. 2.38 Exercı́cio. Por que essa relação é chamada “identidade de polarização”? 6
Notemos que, com a definição dada acima de norma associada a um produto escalar, a desigualdade
de Cauchy-Schwarz fica
|hu, vi| ≤ kukkvk.
• A Identidade de Polarização
A identidade de polarização mencionada acima é um caso especial de uma outra ligeiramente mais
geral, também denominada identidade de polarização. Seja A um operador linear em um espaço vetorial
V sobre os complexos e sejam u e v elementos de seu domı́nio. Então vale que
3
1 X −n
hu, Avi = i h(u + in v), A(u + in v)i. (2.21)
4 n=0

Tomando-se A como o operador identidade reobtem-se a identidade anterior.

A relação (2.21) mostra que se para um operador linear A conhecermos todas as quantidades
hψ, Aψi para todos os vetores ψ ∈ V , então conhecemos também todas as quantidades hu, Avi para
todos u, v ∈ V .
Para a fı́sica quântica a identidade de polarização (2.21) diz que se A for um observável (operador
auto-adjunto), então o conhecimento de todos os valores esperados de A, ou seja, das quantidades
hψ, Aψi com kψk = 1 e dos produtos escalares hu, vi para vetores com kuk = kvk = 1, fixa todas as
probabilidades de transição |hu, Avi|2 , pois
3
1 X −n
hu, Avi = i hψn , Aψn i (2 + in hu, vi + i−n hv, ui), (2.22)
4 n=0
onde
1 1
ψn = n
(u + in v) = p (u + in v).
ku + i vk n −n
2 + i hu, vi + i hv, ui
• Uma conseqüência da identidade de polarização
A relação (2.21) permite-nos facilmente provar a seguinte afirmação, freqüentemente empregada:

Proposição 2.4 Se um operador linear A agindo em um espaço vetorial complexo V satisfaz hu, Aui =
0 para todo vetor u ∈ V então A = 0. 2
Para matrizes reais em espaços vetoriais reais não vale uma afirmativa tão forte. Por exemplo,
se V = n P e A for uma matriz anti-simétrica, ou seja AT = −A, então vale automaticamente que

hx, Axi = na, b=1 xa Aab xb = 0, pois Aab = −Aba para todo x ∈ n . Porém, A pode ser não-nula.

Todavia, para matrizes simétricas vale o seguinte:

Proposição 2.5 Seja M ∈ Mat ( , n) uma matriz simétrica (ou seja, tal que M T = M ) para a qual

valha que hx, M xi = 0 para todo x ∈ n . Então M = 0.

2
n
Prova. Se M é uma matriz simétrica, é fácil verificar que para quaisquer vetores u e v ∈ tem-se
1
hu, M vi = [h(u + v), M (u + v)i − h(u − v), M (u − v)i ] .
4

(Para provar isso expanda o lado direito e use que hu, M vi = hv, M ui , pois M é simétrica). Logo,

da hipótese sobre M , segue que hu, M vi = 0 para todos u e v ∈ n e, portanto, M = 0

• Obtendo Produtos Escalares a Partir de Normas
Nas últimas páginas vimos que podemos obter uma norma a partir de um produto escalar. Podemos
nos perguntar: se uma norma for dada em um espaço vetorial, seria possı́vel obter um produto escalar
a partir dessa norma?
A chave para responder isso é sugerida pelas identidades do paralelogramo e de polarização, ambas
válidas para normas definidas a partir de produtos escalares: Se uma norma satisfaz a identidade do
paralelogramo, ou seja, se
ku + vk2 + ku − vk2 = 2kuk2 + 2kvk2 .
para todos os vetores u, v ∈ V , então um produto escalar pode ser definido por
3
1 X −n
hu, vi = i ku + in vk2 .
4 n=0
A demonstração que o lado direito define de fato um produto escalar é engenhosa, a principal dificuldade
consiste em demonstrar a linearidade do produto escalar (item 1 da definição de produto escalar).
Omitiremos a demonstração aqui, que pode ser encontrada, por exemplo na seção 16.8 e seguintes da
referência [72]. Vide também [132].
Mencionemos por fim que nem toda norma satisfaz a identidade do paralelogramo e, portanto, nem
sempre é possı́vel definir um produto escalar a partir de uma norma.
E. 2.40 Exercı́cio. Seja o espaço vetorial V = C([0, 1], ) das funções contı́nuas do intervalo [0, 1]
assumindo valores complexos e seja a norma kf k∞ = supx∈[0, 1] |f (x)|. Mostre que a identidade do pa-
ralelogramo não é satisfeita para as funções f (x) = x e g(x) = 1, x ∈ [0, 1], que são elementos de V .
6
E. 2.41 Exercı́cio. Seja o espaço vetorial V = n , com n ≥ 2. Para a = (a1 , . . . , an ) ∈ n a expressão

kakp := [|a1 |p + · · · + |an |p ]1/p , define uma norma em V = n , caso p ≥ 1. Mostre que essa norma viola
a identidade do paralelogramo para todo p 6= 2. Para tal considere os vetores u = (1, 0, 0, . . . , 0) e
v = (0, 1, 0, . . . , 0). A norma k · kp será discutida com mais detalhe no Capı́tulo 13. 6
2.4 Formas Bilineares e Sesquilineares em Espaços de Di-

mensão Finita
É possı́vel estabelecer a forma geral de uma forma bilinear ou sesquilinear em certos espaços vetoriais,
como os espaços de dimensão finita n ou n . É o que discutiremos nesta seção.

Faremos uso do chamado Teorema da Representação de Riesz, que afirma o seguinte.

Teorema 2.8 (Teorema da Representação de Riesz) Seja l um funcional linear contı́nuo em um
espaço de Hilbert H (com um produto escalar h·, ·iH ). Então existe φ ∈ H, único, tal que
l(x) = hφ, xiH , ∀x ∈ H.
A demonstração desse importante teorema pode ser encontrada na Seção 22.3.1, página 1008. No-
temos que esse teorema se aplica aos espaços vetoriais n ou n , pois os mesmos são espaços de Hilbert

em relação aos produtos escalares h·, ·i e h·, ·i , respectivamente, definidos em (2.6) e (2.14) (páginas

108 e 118).
• Continuidade
Vamos provar a seguinte afirmação: toda forma bilinear em n é contı́nua (em ambas as variáveis),

o mesmo valendo para formas bilineares ou sesquilineares em n .

Vamos provar a afirmação para as formas sesquilineares em n . Os outros casos são idênticos. Seja
ω uma forma sesquilinear em n . Para vetores x, y ∈ n , y 6= 0, escrevemos
ω(x, y) = kyk ω(x, y/kyk), (2.23)

p
onde kyk = hy, yi . Notemos então que se v é um vetor de norma igual a 1 e {b1 , . . . , bn } é uma

base ortonormal em n então v = v1 b1 + · · · + vn bn com |vj | ≤ 1. Assim,
ω(x, v) = v1 ω(x, b1 ) + · · · + vn ω(x, bn )
e, portanto,
|ω(x, v)| ≤ |ω(x, b1 )| + · · · + |ω(x, bn )|
Para cada x fixo o lado direito é uma constante Kx e não depende de v. Aplicando isso a (2.23),
teremos
|ω(x, y)| ≤ kykKx .
Isso mostra que
lim |ω(x, y)| = 0
y→0
para todo x fixo. Como ω(x, y) é linear na segunda variável, segue que
lim ω(x, y) = ω(x, y0 )

y→y0
para todo y0 ∈ n , provando a continuidade de ω na segunda variável. A prova para a primeira variável
é idêntica. Os casos em que ω é bilinear em n ou em n é análogo.

n
• Formas Sesquilineares em
n n
Seja ω uma forma sesquilinear em . Então, pelo que acabamos de ver, para cada x ∈
n
lx : → , lx (y) = ω(x, y)
é um funcional linear e contı́nuo. Pelo Teorema da Representação de Riesz existe um único vetor
ηx ∈ n tal que lx (y) = hηx , yi para todo y ∈ n , ou seja,

ω(x, y) = hηx , yi .
n
Seja A a função que a cada x ∈ associa o (único!) vetor ηx com a propriedade acima: A(x) = ηx .
Tem-se,
ω(x, y) = hA(x), yi . (2.24)
Afirmamos que A é um operador linear, ou seja, A(α1 x1 + α2 x2 ) = α1 A(x1 ) + α2 A(x2 ) para todos
os números complexos α1 e α2 e todos os vetores x1 e x2 . De fato, por (2.24),
hA(α1 x1 + α2 x2 ), yi = ω(α1 x1 + α2 x2 , y)
= α1 ω(x1 , y) + α2 ω(x2 , y)
= α1 hA(x1 ), yi + α2 hA(x2 ), yi
= hα1 A(x1 ) + α2 A(x2 ), yi .
n
Assim, para todo y ∈ tem-se
h [A(α1 x1 + α2 x2 ) − α1 A(x1 ) − α2 A(x2 )] , yi = 0,
o que implica
A(α1 x1 + α2 x2 ) = α1 A(x1 ) + α2 A(x2 ),
que é o que querı́amos provar. Assim, A é em verdade um operador linear. Resumimos esses fatos no
seguinte teorema:
n
Teorema 2.9 Para toda forma sesquilinear ω em existe uma matriz n × n complexa Aω tal que
ω(x, y) = hAω x, yi
n
para todos x, y ∈ . 2
n
Esse teorema estabelece assim a forma geral das formas sesquilineares em .
n
• Formas Bilineares em
n n
Seja ω uma forma bilinear em . Então, para cada x ∈
n
lx : → : lx (y) = ω(x, y)
é um funcional linear e contı́nuo. Pelo Teorema da Representação de Riesz existe um único vetor
ηx ∈ n tal que lx (y) = hηx , yi , ou seja,

ω(x, y) = hηx , yi .
Seja A a função que a cada x ∈ n associa o (único!) vetor ηx com a propriedade acima: A(x) = ηx .

De maneira análoga ao que fizemos acima podemos provar que A é um operador linear, ou seja, uma
matriz n × n real e ω(x, y) = hAx, yi .
Resumimos esses fatos no seguinte teorema:

n
Teorema 2.10 Para toda forma bilinear ω em existe uma matriz n × n real Aω tal que
n
n
Esse teorema estabelece assim a forma geral das formas bilineares em .
n
• Formas Bilineares em
n
Seja ω uma forma bilinear em . Então
ωs (x, y) = ω(x, y)
define uma forma sesquilinear em n , onde x = (x1 , . . . , xn ) para x = (x1 , . . . , xn ) ∈ n

. Pelo que
provamos acima, portanto, existe uma matriz complexa Aω tal que
ωs (x, y) = hAω x, yi .
n
para todos x, y ∈ , ou seja,
ω(x, y) = hAω x, yi ,
n
para todos x, y ∈ .
Note que isso também diz que
ω(x, y) = hAω x, yi ,
onde Aω é o complexo conjugado da matriz Aω .

Resumimos esses fatos no seguinte teorema:
n
Teorema 2.11 Para toda forma bilinear ω em existe uma matriz n × n complexa Aω tal que
n
n
Esse teorema estabelece assim a forma geral das formas bilineares em .
• Formas Simpléticas
Se ω é uma forma bilinear alternante em n ou n , ou seja, ω é bilinear e ω(x, y) = −ω(y, x),

então ω é da forma ω(x, y) = hA x, yi onde A é uma matriz anti-simétrica, ou seja, AT = −A. De

fato, como hx, yi = hy, xi e como ω(x, y) = −ω(y, x), segue que

hA x, yi
= −hA y, xi
= −h y, AT xi
= −hAT x, yi .
n n
Como isso vale para todo x, y ∈ (ou ), tem-se AT = −A.
n n
Isso determina a forma geral de uma forma bilinear alternante em ou .
Se ω é uma forma simplética, ou seja, ω é uma forma bilinear alternante não-degenerada, então A
tem que ser também invertı́vel. De fato, se hAx, yi = 0 para todo y, então Ax = 0. Se A é invertı́vel

isso só é possı́vel se x = 0.

Uma conseqüência do fato de A ter de ser invertı́vel é que n tem que ser par. De fato, a condição
AT = −A diz que det(A) = det(−AT ) = (−1)n det(AT ) = (−1)n det(A). Portanto, se n é ı́mpar
terı́amos det(A) = 0.
A conclusão é que formas simpléticas só ocorrem nos espaços de dimensão finita n ou n se a
dimensão n for par, e nesse caso, têm a forma ω(x, y) = hAx, yi , onde A é invertı́vel e satisfaz
AT = −A.
n
• Formas Sesquilineares Hermitianas em
n
Se ω é uma forma sesquilinear Hermitiana em , tem-se ω(x, y) = ω(y, x). Se A é a matriz tal
que hAx, yi = ω(x, y), então

hAx, yi = hAy, xi = hx, Ayi = hA∗ x, yi ,
onde A∗ := AT é a adjunta de A. Como a última relação vale para todo x, y ∈ n

, tem-se A = A∗ , ou
seja, A é uma matriz auto-adjunta.
n
Portanto, a forma geral de uma forma sesquilinear Hermitiana em é hAx, yi , onde A é uma

matriz auto-adjunta.
n
• Produtos Escalares em
Se ω é um produto escalar em n , ω é sesquilinear Hermitiana e ω(x, x) > 0 se x 6= 0. Se A é a

matriz tal que hAx, yi = ω(x, y), então

hAx, xi > 0 (2.25)

se x 6= 0. Uma conseqüência disso é o seguinte: se vi é um dos autovetores de A com autovalor λi ,
então λi > 0. De fato, tomando x = vi em (2.25), teremos12 0 < hAvi , vi i = λi hvi , vi i , o que implica
λi > 0. Esse fato, em particular, nos diz que A é invertı́vel (pois o determinante de A é o produto de
seus autovalores).
Outra conseqüência dessas observações é a seguinte. É bem sabido que os autovetores vi de uma
matriz auto-adjunta A podem ser escolhidos de modo a formar uma √ base ortonormal (vide Teorema
3.12, página 179). Vamos definir uma matriz B de modo que Bvi = λi vi para todos os autovetores
vi de A. Isso define a ação de B nos vetores de uma base e, portanto, B fica definida em toda parte 13 .
É fácil provar que B assim definida é também auto-adjunta, B ∗ = B, e que B 2 = A. Claramente
B é também invertı́vel e tem autovalores > 0.
E. 2.42 Exercı́cio. Mostre esses fatos. 6
Disso concluı́mos que

ω(x, y) = hAx, yi
= hBx, Byi .
n
Em resumo, se ω é um produto escalar em então existe uma (única) matriz auto-adjunta Bω ,
invertı́vel e com autovalores > 0 tal que
ω(x, y) = hBω x, Bω yi
n
para todo x, y ∈ .
12
Lembre-se que os autovalores de uma matriz auto-adjunta são sempre números reais.
13
Para o estudante mais avançado: aqui poderı́amos usar também o teorema espectral, Teorema 3.4.
2.5 Estruturas Complexas sobre Espaços Vetoriais Reais

Seja V um espaço vetorial real. Em V está, portanto, definido um produto por escalares reais: x v ∈ V ,
onde x ∈ e v ∈ V . Sob certas circunstâncias é possı́vel transformar V em um espaço vetorial complexo

definindo um produto por escalares complexos: z · v ∈ V para z ∈ e v ∈ V . Também sob hipóteses,

um produto escalar complexo pode ser definido em V .
Suponha que exista um operador linear J : V → V , agindo em V , com a propriedade J 2 = − ,
onde denota o operador identidade. Se z ∈ é da forma z = x + iy com x, y ∈ , defina-se em V o
produto por escalares complexos por
(x + iy) · v := xv + yJv . (2.26)
As seguintes propriedades poder ser facilmente verificadas como exercı́cio:
1. O produto por escalares complexos (2.26) é associativo:
α · (β · u) = (αβ) · u ,
para todos α, β ∈ e u ∈ V , onde αβ é o produto de α por β em ,
2. 1 · u = u para todo u ∈ V .
3. O produto por escalares complexos (2.26) é distributivo em relação à soma de vetores:
α · (u + v) = α · u + α · v ,
para todo α ∈ e todos u, v ∈ V .
4. O produto por escalares complexos (2.26) é distributivo em relação à soma de escalares:
(α + β) · u = α · u + β · u ,
para todos α, β ∈ e todo u ∈ V .
Portanto, pela definição da Seção 1.2.3, página 54, V é um espaço vetorial complexo com o produto
definido acima. Vamos denotar por VJ esse espaço vetorial complexo, para não confundı́-lo com V , que
é um espaço vetorial real. Note que os vetores de V e de VJ são os mesmos, mas V e VJ representam
estruturas diferentes. VJ é dito ser uma estrutura complexa sobre o espaço vetorial real V .
Uma questão de grande interesse, especialmente no contexto das chamadas álgebras CAR e CCR
(vide [15]) que descrevem as álgebras de comutação e anticomutação canônicas da Mecânica Quântica
e das Teorias Quânticas de Campos (que descrevem modelos fermiônicos14 e bosônicos15 ), é saber se
é possivel introduzir um produto escalar complexo no espaço complexo VJ . Como veremos no que
segue, tal é possivel se houver em V uma forma simplética real ou um produto escalar real satisfazendo
certas hipóteses. Desenvolveremos primeiro as idéias gerais e apresentaremos exemplos posteriormente,
à página 135.
14
Enrico Fermi (1901-1954).
15
Satyendra Nath Bose (1894-1974).
• Formas simpléticas reais e produtos escalares reais
Para mostrar como construir produtos escalares complexos no espaço complexo V J precisamos do
seguinte resultado preparatório, que tem interesse por si só, por estabelecer uma relação entre formas
simpléticas16 reais e produtos escalares reais.
Lema 2.1 Seja V um espaço vetorial real e suponha que exista um operador linear J : V → V
satisfazendo J 2 = − . Valem as seguintes afirmações
I. Se ε : V × V → é um produto escalar real em V satisfazendo
ε(Ju, v) = −ε(u, Jv)
para todos u , v ∈ V , então σ : V × V → definida para todos u, v ∈ V por
σ(u, v) := ε(Ju, v) = −ε(u, Jv) (2.27)
é uma forma simplética real e satisfaz

(a) σ(Ju, v) = −σ(u, Jv) para todos u , v ∈ V ,
(b) σ(u, Ju) ≥ 0 para todo u ∈ V .
II. Se σ : V × V → é uma forma simplética real em V satisfazendo
(b) σ(u, Ju) ≥ 0 para todo u ∈ V ,
então ε : V × V → definida para todos u, v ∈ V por
ε(u, v) := σ(u, Jv) = −σ(Ju, v) (2.28)
é um produto escalar real e satisfaz

(a) ε(Ju, v) = −ε(u, Jv) para todos u , v ∈ V .
2
Prova da parte I. Pelas hipóteses, ε é um produto escalar real e, portanto, é uma forma bilinear real,
positiva, simétrica e não-degenerada. Que σ definida em (2.27) é uma forma bilinear é evidente. Para
todos u, v ∈ V tem-se
simetria
σ(u, v) = ε(Ju, v) = −ε(u, Jv) = −ε(Jv, u) = −σ(v, u) ,
provando que σ é uma forma alternante. Se σ(u, v) = 0 para todo v ∈ V , então ε(Ju, v) = 0 para
todo v ∈ V . Mas como ε é não-degenerada, segue que Ju = 0, o que implica u = 0, pois J 2 = − . Isso
provou que σ é não degenerada e, portanto, é uma forma simplética. Note-se agora que
σ(u, Jv) = ε(Ju, Jv) = −ε(u, J 2 v) = ε(u, v) = −σ(Ju, v) .

16
Para a definição, vide página 109.
Por fim, σ(u, Ju) = ε(Ju, Ju) ≥ 0, pois ε é um produto escalar. Pelo mesmo motivo, ε(Ju, Ju) = 0
se e somente se Ju = 0. Como J 2 = − , isso implica u = 0. Isso provou as afirmações da parte I.
Prova da parte II. Pelas hipóteses, σ é uma forma simplética real e, portanto, é uma forma bilinear real,
alternante e não-degenerada. Que ε definida em (2.28) é uma forma bilinear é evidente. Para todos
u, v ∈ V tem-se
alternância
ε(u, v) = σ(u, Jv) = −σ(Ju, v) = σ(v, Ju) = ε(u, v) ,
provando que ε é uma forma simétrica. Se ε(u, v) = 0 para todo v ∈ V , então σ(u, Jv) = 0 para todo
v ∈ V . Mas como σ é não-degenerada, segue que u = 0, provando que ε é uma forma não-degenerada.
Para todo u tem-se também ε(u, u) = σ(u, Ju) ≥ 0, por hipótese, provando que ε é uma forma
positiva. Assim, pela Proposição 2.3, página 116, ε é um produto escalar. Note-se agora que, por
definição, ε(u, v) = −σ(Ju, v) para todos u , v ∈ V . Disso segue que σ(u, v) = ε(Ju, v) e que
ε(u, Jv) = −σ(Ju, Jv) = σ(u, J 2 v) = −σ(u, v) = −ε(Ju, v) .
Isso provou as afirmações da parte II.
• Produtos escalares complexos sobre estruturas complexas
A proposição que segue mostra como se pode construir em VJ um produto escalar complexo se for
fornecida uma forma simplética real ou um produto escalar real em V satisfazendo certas hipóteses.
Proposição 2.6 Suponhamos que V seja um espaço vetorial real e que exista J : V → V , um operador
linear em V , satisfazendo J 2 = − . Então valem as seguintes afirmações:
A. Se existir uma forma simplética real σ : V × V → satisfazendo

(b) σ(u, Ju) ≥ 0 para todo u ∈ V 17 ,
então, V × V 3 (u, v) 7→ hu, viJ, σ ∈ definida por
hu, viJ, σ := σ(u, Jv) + iσ(u, v)
para todos u, v ∈ V , é um produto escalar complexo sobre a estrutura complexa V J .
B. Se existir um produto escalar real ε : V × V → satisfazendo
(a) ε(Ju, v) = −ε(u, Jv) para todos u , v ∈ V ,
então, V × V 3 (u, v) 7→ hu, viJ, ε ∈ definida por
hu, viJ, ε := ε(u, v) + iε(Ju, v)
para todos u, v ∈ V , é um produto escalar complexo sobre a estrutura complexa V J .

17
Em [15] essa última condição não é mencionada, mas ela é necessária.
Prova. Mostremos em primeiro lugar que as hipóteses das partes A e B são equivalentes. Pelo Lema 2.1,
página 132, a existência de uma forma simplética real σ satisfazendo as hipóteses da parte A implica
a existência de um produto escalar real ε dado por ε(u, v) := σ(u, Jv) = −σ(Ju, v) satisfazendo as
hipóteses da parte B, sendo que, por essa definição de ε,
σ(u, Jv) + iσ(u, v) = ε(u, v) + iε(Ju, v) . (2.29)
Reciprocamente, também pelo Lema 2.1, página 132, a existência de um produto escalar real ε sa-
tisfazendo as hipóteses da parte B implica a existência de uma forma simplética real σ dada por
σ(u, v) := ε(Ju, v) = −ε(u, Jv) satisfazendo as hipóteses da parte A, sendo que, por essa definição
de σ, a igualdade (2.29) é também válida. Assim, é suficiente provarmos, digamos, a parte A.
Prova da parte A. É evidente que para quaisquer u, v, w ∈ V valem
h(u + v), wiJ, σ = hu, wiJ, σ + hv, wiJ, σ , hu, (v + w)iJ, σ = hu, viJ, σ + hu, wiJ, σ .
Além disso,
hv, uiJ, σ = σ(v, Ju) + iσ(v, u) = −σ(Ju, v) − iσ(u, v) = σ(u, Jv) − iσ(u, v) = hu, viJ, σ .
(2.30)
Para x, y ∈ tem-se também

hu, (x + iy) · viJ, σ = hu, xv + yJviJ, σ
= hu, xviJ, σ + hu, yJviJ, σ
= σ(u, xJv) + iσ(u, xv) + σ(u, yJ 2 v) + iσ(u, yJv)
J 2 =−
= σ(u, xJv) + iσ(u, xv) + σ(u, −yv) + iσ(u, yJv)

= x σ(u, Jv) + iσ(u, v) + iy σ(u, Jv) + iσ(u, v)
= (x + iy)hu, viJ, σ .
Pela propriedade (2.30), isso implica também h(x + iy) · u, viJ, σ = (x − iy)hu, viJ, σ , mostrando que
h·, ·iJ, σ é uma forma sesquilinear.
Pelas hipóteses, tem-se hu, uiJ, σ = σ(u, Ju) ≥ 0, mostrando que h·, ·iJ, σ é positiva. Se 0 =
hu, viJ, σ = σ(u, Jv) + iσ(u, v) para todo u, segue que σ(u, v) = 0 para todo u, o que implica que
v = 0, pois σ é não-degenerada (pela nossa definição de forma simplética). Isso mostrou que h·, ·i J, σ
é não-degenerada. Assim, h·, ·iJ, σ é uma forma sesquilinear positiva e não-degenerada e pelo Teorema
2.6, página 113, segue que hu, uiJ, σ = 0 se e somente se u = 0. Isso mostrou que h·, ·iJ, σ é um produto
escalar complexo em VJ .
• Exemplos
Vamos primeiramente estudar o caso de espaços de dimensão finita. Vale a seguinte proposição:
Proposição 2.7 Um espaço vetorial real V de dimensão finita admite uma estrutura complexa (não
necessariamente única) se e somente se tiver dimensão par. 2
Prova. Se J é um operador linear agindo no espaço vetorial real de dimensão finita V , podemos
representá-lo como uma matriz. Se J 2 = − então, tomando-se o determinante de ambos os lados,
temos (det(J))2 = (−1)n , onde n é a dimensão de V . Como o lado esquerdo é positivo, n tem que
ser par. Reciprocamente, vamos supor que V tenha dimensão par, digamos 2m. Desejamos mostrar
que existe um operador linear agindo em V satisfazendo J 2 = − . Uma possı́vel escolha é a seguinte.
Como V tem dimensão par podemos encontrar dois subespaços V1 e V2 , ambos de dimensão m, com
V = V1 ⊕ V2 . Como V1 e V2 têm a mesma dimensão, são isomorfos, e existe um operador linear
A : V1 → V2 que é bijetivo (o Exemplo 2.9, abaixo, deixará isso mais claro. Um tal operador não é
necessariamente único, mas isso não representa um problema). Todo elemento v ∈ V pode ser escrito
da forma v = v1 ⊕ v2 com v1 ∈ V1 e v2 ∈ V2 . Podemos definir Jv = J(v1 ⊕ v2 ) := (−Av2 ) ⊕ (Av1 ). É
trivial, então, verificar que J 2 = − , como desejado.
Exemplo 2.9 Seja V um espaço vetorial real de dimensão 2m. Em alguma base, podemos representar
v ∈ V na forma de um vetor-coluna:
   
v1 −vm+1
 ..   .. 
 .   . 
   
 vm   −v2m 
v =   . Defina-se, então, Jv :=   , (2.31)
vm+1   v1 
 .   . 
 ..   .. 
v2m vm
ou seja, em forma matricial, na mesma base,

m − m
J =
m m
sendo m e m matrizes m × m. É elementar verificar que J 2 = − 2m , como desejado.

A escolha de J indicada acima dependeu de uma particular decomposição de V em dois sub-
espaços de dimensão m. Há várias outras decomposições possı́veis, que fornecem outros operadores J
e, portanto, outras estruturas complexas. Permanecendo no exemplo acima, é fácil ver que, se x, y ∈ ,
então o produto por escalares complexos fica

     
v1 v1 xv1 − yvm+1
 ..   ..   .. 
 .   .   . 
     
 vm   vm   xvm − yv2m 
(x + iy) ·   := (x + yJ)   =   . (2.32)
vm+1  vm+1  xvm+1 + yv1 
 .   .   .. 
 ..   ..   . 
v2m v2m xv2m + yvm
Seguindo ainda o exemplo de (2.31) e (2.32) para V = 2m , vamos ilustrar a Proposição 2.6 e

produto escalar complexo para ( 2m )J . Adotemos para ε o produto escalar usual:

2m
X
ε(u, v) := uk vk = u1 v1 + · · · + u2m v2m .
k=1
Temos que
ε(Ju, v) = −um+1 v1 − · · · − u2m vm + u1 vm+1 + · · · + um v2m
e que
ε(u, Jv) = −u1 vm+1 − · · · − um v2m + um v1 + · · · + u2m vm
2m
Logo ε(Ju, v) = −ε(u, Jv) e podemos aplicar a Proposição 2.6, obtendo em ( )J o produto escalar
hu, viJ, ε = ε(u, v) + iε(Ju, v)

= u1 v1 + · · · + u2m v2m + i − um+1 v1 − · · · − u2m vm + u1 vm+1 + · · · + um v2m
= u1 (v1 + ivm+1 ) + · · · + um (vm + iv2m ) + um+1 (vm+1 − iv1 ) + · · · u2m (v2m − ivm )
= (u1 + ium+1 )(v1 + ivm+1 ) + · · · + (um + iu2m )(vm + iv2m ) .
E. 2.43 Exercı́cio. Verifique que hu, λ · viJ, ε = λhu, viJ, ε para todo λ ∈ . 6
Entendemos, assim, que a estrutura complexa que estudamos consiste nesse caso em identificar
bijetivamente 2m e m por

 
v1  
 . . v 1 + iv m+1
 .   
   
2m  vm   . 
3   ←→  .
.  ∈ m
v
 m+1   

 .   
 .. 
vm + iv2m
v2m
m
e adotar em o produto escalar complexo h·, ·i usual (definido à página 16).
◊
Vejamos como as idéias de acima podem ser generalizadas e de modo a incluir espaços de dimensão
infinita.
Exemplo 2.10 Se V é um espaço vetorial real de (dimensão finita ou não) é sempre possı́vel encontrar
um operador linear J satisfazendo J 2 = − se V possuir dois subespaços V1 e V2 com V = V1 ⊕ V2
e tais que existe A : V1 → V2 , linear e bijetora (em dimensão finita isso requer que V1 e V2 tenham a
mesma dimensão e, portanto, que V tenha dimensão par, como mencionado na Proposição 2.7). De
fato, para v ∈ V da forma v = v1 ⊕ v2 com v1 ∈ V1 e v2 ∈ V2 , definindo Jv := (−A−1 v2 ) ⊕ (Av1 ) é fácil
constatar que J 2 = − .
Para um tal J o produto por um escalar complexo λ = x + iy, com x, y ∈ , fica definido por

λ·(v1 ⊕v2 ) := (x+yJ)(v1 ⊕v2 ) = x(v1 ⊕v2 )+y (−A−1 v2 ) ⊕ (Av1 ) = (xv1 −yA−1 v2 )⊕(xv2 +yAv1 ) .
Se V é um espaço de Hilbert real separável com uma base {φk , k ∈ }, podemos tomar V1 e V2
como os espaço gerados por {φk , k ∈ , k par} e {φk , k ∈ , k ı́mpar}, respectivamente. Uma

possı́vel escolha para a bijeção linear A : V1 → V2 seria

∞
! ∞
X X
A a2m φ2m = a2m φ2m+1 ,
m=0 m=0
para a qual !
∞
X ∞
X
−1
A a2m+1 φ2m+1 = a2m+1 φ2m ,
m=0 m=0
ou seja, em termos de elementos da base, Aφ2m = φ2m+1 e A−1 φ2m+1 = φ2m para todo m ≥ 0. Com
essa definição, terı́amos
" ∞ ! ∞
!# " ∞
! ∞
!#
X X X X
J a2m φ2m ⊕ a2m+1 φ2m+1 = − a2m+1 φ2m ⊕ a2m φ2m+1 .
m=0 m=0 m=0 m=0
O produto com escalares complexos λ = x + iy, com x, y ∈ , fica definido por
∞ ∞
! ∞
!
X X X
(x + iy) · a m φm = (xa2m − ya2m+1 )φ2m ⊕ (xa2m+1 + ya2m )φ2m+1 .
m=0 m=0 m=0
Para um tal J o produto por um escalar complexo λ = x + iy com x, y ∈ fica definido por

λ·(v1 ⊕v2 ) := (x+yJ)(v1 ⊕v2 ) = x(v1 ⊕v2 )+y (−A−1 v2 ) ⊕ (Av1 ) = (xv1 −yA−1 v2 )⊕(xv2 +yAv1 ) .
∞
X ∞
X ∞
X
Para α, β ∈ V da forma α = α m φm , β = βm φm e ε(α, β) := αm βm , o produto escalar
m=0 m=0 m=0
real usual, constatamos que
∞
X ∞
X ∞
X ∞
X
ε(α, Jβ) = − α2m β2m+1 + α2m+1 β2m e que ε(Jα, β) = − α2m+1 β2m + α2m β2m+1 .
m=0 m=0 m=0 m=0
Assim, ε(α, Jβ) = −ε(Jα, β) e pela parte B da Proposição 2.6, página 133, hα, βiJ, ε := ε(α, β) +
iε(Jα, β) é um produto escalar complexo. Explicitamente, tem-se
∞
X
hα, βiJ, ε = (α2m + iα2m+1 )(β2m + iβ2m+1 ) .
m=0
E. 2.44 Exercı́cio. Verifique! Verifique também que hα, λ · βiJ, ε = λhα, βiJ, ε para todo λ ∈ . 6
A forma simplética real associada a ε pela parte I do Lema 2.1, página 132, é
∞
X ∞
X
σ(α, β) = −ε(α, Jβ) = α2m β2m+1 − α2m+1 β2m .
m=0 m=0
◊
Exemplo 2.11 Uma situação que não se deve deixar de comentar é a seguinte. Se V é um espaço
vetorial complexo com um produto escalar complexo h·, ·i, V é naturalmente também um espaço
vetorial real, sendo que, como comentamos à página 118, σ(u, v) := Im(hu, vi) u, v ∈ V , define
uma forma simplética real em V . Definindo em V o operador linear Ju = iu, tem-se J 2 = − . A
multiplicação por escalares complexos não apresenta novidades: para x, y ∈ e u ∈ V vale, pela
definição, (x + iy) · u = xu + yJu = (x + iy)u.

É fácil constatar que σ(u, Jv) = Im(hu, ivi) = −Im(hiu, vi) = −σ(Ju, v) e que σ(u, Ju) =
Im(hu, iui) = hu, ui ≥ 0. Assim, pela parte A da Proposição 2.6, página 133, hu, viJ, σ := σ(u, Jv) +
iσ(u, v) é um produto escalar complexo em V . No entanto, é facil ver que nesse caso hu, vi J, σ =
Im(hu, ivi) + iIm(hu, vi) = Re(hu, vi) + iIm(hu, vi) = hu, vi.
O produto escalar real ε associado a σ pela parte II do Lema 2.1, página 132, é
ε(u, v) = σ(u, Jv) = Im(hu, ivi) = Re(hu, vi) .
É interessante notar também que se tivéssemos adotado Ju = −iu, u ∈ V , terı́amos ainda para
σ(u, v) = Im(hu, vi) que σ(u, Jv) = −σ(Ju, v). Porém, σ(u, Ju) = −hu, ui ≤ 0, violando a
condição de positividade. ◊
Exemplo 2.12 Uma situação um pouco diferente é a seguinte. Seja V um espaço vetorial complexo
dotado de um produto escalar complexo h·, ·i. Sejam V1 e V2 dois sub-espaços ortogonais de V
(ortogonais segundo o produto escalar h·, ·i). Encarando V como um espaço real, definamos o operador
linear J : V → V por J(v1 ⊕ v2 ) = i(v1 ⊕ (−v2 )), onde v1 ∈ V1 e v2 ∈ V2 . É claro que J 2 = − . A
multiplicação por escalares complexos x + iy, com x, y ∈ , fica
(x + iy) · (v1 ⊕ v2 ) = x(v1 ⊕ v2 ) + yJ(v1 ⊕ v2 ) = ((x + iy)v1 ) ⊕ ((x − iy)v2 ) ,
ou seja, λ · (v1 ⊕ v2 ) = (λv1 ) ⊕ (λv2 ), para todos λ ∈ , v1 ∈ V1 e v2 ∈ V2 .

É também fácil constatar que para o produto escalar real ε(u, v) = Re(hu, vi) vale a relação
ε(u, Jv) = −ε(Ju, v) (para isso é essencial que V1 e V2 sejam ortogonais segundo h·, ·i).
O forma simplética real σ associada a ε pela parte I do Lema 2.1, página 132, é, tomando u = u 1 ⊕u2 ,
v = v1 ⊕ v2 , com u1 , v1 ∈ V1 e u2 , v2 ∈ V2 ,
σ(u, v) := ε(Ju, v) = Im (hu1 , v1 i) − Im (hu2 , v2 i) ,
como facilmente se verifica.

Pela parte B da Proposição 2.6, página 133, hu, viJ, ε := ε(u, v) + iε(Ju, v) é um produto escalar
complexo. Por essa definição, tem-se, tomando u = u1 ⊕ u2 , v = v1 ⊕ v2 , com u1 , v1 ∈ V1 e u2 , v2 ∈ V2 ,
hu, viJ, ε = h(u1 ⊕ u2 ), (v1 ⊕ v2 )iJ, ε
= Re(hu1 , v1 i) + Re(hu2 , v2 i) + i (Re(hiu1 , v1 i) + Re(h − iu2 , v2 i))
= Re(hu1 , v1 i) + Re(hu2 , v2 i) + iIm(hu1 , v1 i) − iIm(hu2 , v2 i)
= hu1 , v1 i + hu2 , v2 i .
E. 2.45 Exercı́cio. Verifique também que hu, λ · viJ, ε = λhu, viJ, ε para todo λ ∈ . 6
◊
Parte II
Tópicos de Álgebra Linear
140
Capı́tulo 3
Tópicos de Álgebra Linear I
Conteúdo
3.1 Rudimentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141

3.2 Noções Básicas sobre o Espectro de uma Matriz . . . . . . . . . . . . . . . 144
3.2.1 O Traço de uma Matriz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 150
3.3 Polinômios de Matrizes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 152
3.3.1 O Teorema de Hamilton-Cayley . . . . . . . . . . . . . . . . . . . . . . . . . . 154
3.4 Matrizes Diagonalizáveis e o Teorema Espectral . . . . . . . . . . . . . . . 159
3.4.1 Diagonalização Simultânea de Matrizes . . . . . . . . . . . . . . . . . . . . . 171
3.5 Matrizes Auto-adjuntas, Normais e Unitárias . . . . . . . . . . . . . . . . 175
3.6 Matrizes Triangulares . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 182
3.7 O Teorema de Decomposição de Jordan e a Forma Canônica de Matrizes 184
3.7.1 Resultados Preparatórios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 185
3.7.2 O Teorema da Decomposição de Jordan . . . . . . . . . . . . . . . . . . . . . 190
3.7.3 Matrizes Nilpotentes e sua Representação Canônica . . . . . . . . . . . . . . 193
3.7.4 A Forma Canônica de Matrizes . . . . . . . . . . . . . . . . . . . . . . . . . . 197
3.8 Algumas Representações Especiais de Matrizes . . . . . . . . . . . . . . . 200
3.8.1 A Decomposição Polar de Matrizes . . . . . . . . . . . . . . . . . . . . . . . . 200
3.8.2 O Teorema da Triangularização de Schur . . . . . . . . . . . . . . . . . . . . 202
3.8.3 A Decomposição QR e a Decomposição de Iwasawa (“KAN”) . . . . . . . . . 205
principal objetivo deste capı́tulo é apresentar a demonstração do Teorema Espectral para

matrizes diagonalizáveis, em particular, para matrizes auto-adjuntas (resultado de grande
relevância para a Mecânica Quântica) e a demonstração do Teorema de Decomposição de
Jordan para matrizes gerais. Sempre trabalharemos no contexto de espaços vetoriais de
dimensão finita n sobre o corpo dos complexos. A leitura deste capı́tulo pressupõe serem conhecidos
do leitor alguns conceitos básicos de Álgebra Linear, tais como o conceito de determinante de matrizes,
suas propriedades e métodos de cálculo. Este capı́tulo será continuado no Capı́tulo 4, página 210, onde
outros aspectos de álgebras de matrizes serão explorados.
3.1 Rudimentos
• Alguma Notação
141
O conjunto de todas as matrizes m×n com entradas complexas será denotado aqui por Mat ( , m, n).
O conjunto de todas as matrizes quadradas n × n com entradas complexas será denotado simplesmente
por Mat ( , n).
Dado um conjunto de n números complexos α1 , . . . , αn , denotaremos por diag (α1 , . . . , αn ) a
matriz A ∈ Mat ( , n) cujos elementos Aij são definidos da seguinte forma:

αi , se i = j
Aij = .
0, se i 6= j
Uma tal matriz é dita ser diagonal pois apenas os elementos de sua diagonal principal são eventualmente
não-nulos. Na representação usual  
α1 · · · 0
 
A =  ... . . . ...  .
0 · · · αn
A mais popular dentre as matrizes diagonais é a matriz identidade, que denotaremos por nestas notas:
 
1 ··· 0
 
= diag (1, . . . , 1) =  ... . . . ...  .
0 ··· 1
Denotaremos por a, b a matriz a × b cujos elementos de matriz são todos nulos. Denotaremos por
l a matriz identidade l × l. Por vezes, quando não houver perigo de confusão, poderemos omitir os
sub-ı́ndices e escrever a, b simplesmente como e l simplesmente como .
Sejam x1 , . . . , xn vetores, representados na base canônica por vetores-coluna
 
xa1
 
xa =  ...  .
xan
Denotaremos por [[x1 , . . . , xn ]] a matriz n × n construı́da de forma que sua a-ésima coluna seja o
vetor-coluna xa , ou seja  
x11 · · · xn1
 
[[x1 , . . . , xn ]] =  ... . . . ...  . (3.1)
1 n
xn · · · x n
Essa notação é útil por permitir a seguinte observação. Seja B uma matriz qualquer. Então,
B[[x1 , . . . , xn ]] = [[Bx1 , . . . , Bxn ]]. (3.2)
Essa relação é provada observando-se a regra de multiplicação de matrizes: a a-ésima coluna de

B[[x1 , . . . , xn ]] é
B11 xa1 + · · · + B1n xan
.. , (3.3)
.
a a
Bn1 x1 + · · · + Bnn xn
que vem a ser as componentes de Bxa , representado como vetor-coluna na base canônica.
Ainda sobre essa notação, vale a seguinte identidade útil, cuja demonstração (elementar) deixamos
como exercı́cio: se D = diag (d1 , . . . , dn ) é uma matriz diagonal, então
[[x1 , . . . , xn ]] D = [[d1 x1 , . . . , dn xn ]] . (3.4)
Seja V um espaço vetorial dotado de um produto escalar h·, ·i. Dizemos que dois vetores u e v são
perpendiculares (em relação ao produto escalar h·, ·i) se hu, vi = 0.
Se v1 , . . . , vk são vetores em um espaço vetorial V , denotamos por [v1 , . . . , vk ] o sub-espaço gerado
pelos vetores v1 , . . . , vk , ou seja, a coleção de todos os vetores que são combinações lineares dos vetores
v1 , . . . , vk :
[v1 , . . . , vk ] = {α1 v1 + · · · + αk vk , α1 , . . . , αk ∈ }.
Denotamos por [v1 , . . . , vk ]⊥ o subespaço de todos os vetores perpendiculares a todos os vetores

de [v1 , . . . , vk ]:
[v1 , . . . , vk ]⊥ = { w ∈ V | hw, (α1 v1 + · · · + αk vk )i = 0 para todos α1 , . . . , αk ∈ }.
• Um resultado útil
Mais abaixo usaremos o seguinte fato:

Proposição 3.1 Seja M ∈ Mat ( , n) uma matriz da seguinte forma
 
A k, n−k
M =  ,
B C
onde A é uma matriz k × k, B é uma matriz (n − k) × k e C é uma matriz (n − k) × (n − k). Então
det(M ) = det(A) det(C) .
Prova. O primeiro ingrediente da prova é a constatação que

    
A k, n−k A k, n−k k k, n−k
M =   =   
B C B n−k n−k, k C
   
A k, n−k k k, n−k k k, n−k
=     .
n−k, k n−k B n−k n−k, k C

Com isso, temos pela regra do determinante de um produto de matrizes que

     
A k, n−k k k, n−k k k, n−k
det(M ) = det   det   det   .
n−k, k n−k B n−k n−k, k C
Agora, pela regra de Laplace de cálculo de determinantes, é fácil constatar (faça-o!) que
   
A k, n−k k k, n−k
det   = det(A), det   = det(C) .
n−k, k n−k n−k, k C
e  
k k, n−k
det   = 1.
B n−k
Isso completa a prova.
3.2 Noções Básicas sobre o Espectro de uma Matriz
• O Espectro de uma Matriz
Seja A ∈ Mat ( , n) uma matriz n × n com entradas complexas. No estudo das propriedades de
A é de grande importância saber para quais números complexos λ a matriz λ − A é invertı́vel e para
quais não é.
Chegamos às seguintes importantes definições.
Definição. Um número complexo λ é dito ser um elemento do espectro de A ∈ Mat ( , n) se a matriz

λ − A não possuir uma inversa.
Definição. Um número complexo λ é dito ser um elemento do conjunto resolvente de A ∈ Mat ( , n)

se a matriz λ − A possuir uma inversa.
Em outras palavras, o espectro de A ∈ Mat ( , n), denotado por σ(A), é o conjunto de todos os
λ ∈ para os quais a matriz λ − A não tem inversa.
O conjunto resolvente de A ∈ Mat ( , n), denotado por ρ(A), é o conjunto de todos os λ ∈ para
os quais a matriz λ − A tem inversa.
É evidente que σ(A) e ρ(A) são conjuntos complementares, ou seja, σ(A) ∩ ρ(A) = ∅ mas σ(A) ∪
ρ(A) = .
Um fato importante é que λ −A é não-invertı́vel se e somente se det(λ −A) = 0. Assim, um número
complexo λ é um elemento do espectro de uma matriz A se e somente se for tal que det(λ − A) = 0.
Chegamos ao importante conceito de polinômio caracterı́stico de uma matriz.
• O Polinômio Caracterı́stico de uma Matriz
Seja A ∈ Mat ( , n) uma matriz cujos elementos de matriz são Aij . Para λ ∈ a expressão
 
λ − A11 −A12 ··· −A1n
 −A21 λ − A22 ··· −A2n 
 
det(λ − A) = det  .. .. .. .. 
 . . . . 
−An1 ··· · · · λ − Ann
define, como facilmente se constata pelos métodos usuais e bem conhecidos de cálculo de determinantes,
um polinômio de grau n na variável λ, com coeficientes complexos, os quais dependem dos elementos
de matriz Aij de A. Esse polinômio é denominado polinômio caracterı́stico de A e desempenha um
papel muito importante no estudo de propriedades de matrizes.
Denotaremos por vezes por pA o polinômio caracterı́stico de uma matriz A ∈ Mat ( , n). Como
todo polinômio complexo de grau n, pA possui n raı́zes, não necessariamente distintas no plano com-
plexo (teorema fundamental da álgebra). As raı́zes do polinômio caracterı́stico p A são denominadas
autovalores da matriz A. Assim, o espectro de uma matriz A coincide com o conjunto de seus auto-
valores. O estudo de autovalores de matrizes é de grande importância na Álgebra Linear e em suas
aplicações à Teoria das Equações Diferenciais, à Geometria, à Teoria dos Sistemas Dinâmicos e à Fı́sica,
especialmente à Fı́sica Quântica.
Seja A ∈ Mat ( , n) uma matriz e sejam α1 , . . . , αr , 1 ≤ r ≤ n, seus autovalores distintos, cada
qual com multiplicidade a1 , . . . , ar , respectivamente, ou seja, cada αi é uma raiz de ordem ai ∈ do
polinômio caracterı́stico de A:
r
Y
q(λ) = det(λ − A) = (λ − αi )ai .
i=1
A quantidade ai é um número inteiro positivo e é denominado multiplicidade algébrica do autovalor α i .

Note-se que como o número de raı́zes de pA (contando as multiplicidades) é exatamente igual a seu
grau, segue facilmente que a seguinte relação é válida:
r
X
ai = n, (3.5)
i=1
ou seja, a soma das multiplicidades algébricas dos autovalores de uma matriz A ∈ Mat ( , n) é n.
Uma conseqüência elementar disso é a seguinte proposição útil:
Proposição 3.2 Seja A ∈ Mat ( , n) uma matriz e sejam α1 , . . . , αr , 1 ≤ r ≤ n, seus autovalores
distintos, cada qual com multiplicidade algébrica a1 , . . . , ar , respectivamente. Então
r
Y
det(A) = (αk )ak . (3.6)
k=1
2
Qr ak
q(λ) = det(λ −A) =
Prova. Por definição, o polinômio caracterı́stico de A éQ k=1 (λ−αk ) . Tomando
n r ak n
λ = 0 e usando (3.5), teremos que det(−A) = (−1) k=1 (αk ) . Porém, det(−A) = (−1) det(A) e a
proposição está demonstrada.
Essa proposição diz que o determinante de uma matriz é o produto de seus autovalores, incluindo
a multiplicidade algébrica.
• Matrizes Similares. Transformações de Similaridade
Duas matrizes A ∈ Mat ( , n) e B ∈ Mat ( , n) são ditas similares se existir uma matriz invertı́vel
P ∈ Mat ( , n) tal que P −1 AP = B.
Para uma matriz invertı́vel P ∈ Mat ( , n) fixa, a transformação que leva cada matriz A ∈
Mat ( , n) à matriz P −1 AP é denominada transformação de similaridade.
Sabemos que o determinante é invariante por transformações de similaridade, pois para toda matriz
A vale det(A) = det(P −1 AP ).
O determinante não é o único objeto associado a uma matriz que é invariante por transformações
de similaridade. O polinômio caracterı́stico e, portanto, o conjunto de seus autovalores (incluindo as
multiplicidades), também o é. Isso pode ser visto da seguinte forma.
Sejam A e B duas matrizes similares com B = P −1 AP para algum P . O polinômio caracterı́stico
de A é pA (λ) = det(λ − A) e o de B é pB (λ) = det(λ − B). Pela invariância do determinante vale
pA (λ) = det(λ − A) = det(P −1 (λ − A)P ) = det(λ − P −1 AP ) = det(λ − B) = pB (λ). (3.7)
Assim, A e B têm o mesmo polinômio caracterı́stico e, portanto, seus autovalores são iguais, incluindo
suas multiplicidades.
• Comentário sobre Matrizes Bijetoras
Em parte do que segue estaremos implicitamente usando a seguinte proposição:

Proposição 3.3 Uma matriz A ∈ Mat ( , n) é bijetora se e somente se Av = 0 valer apenas para
v = 0. 2
Prova. Se A é bijetora, então existe A−1 . Logo, aplicando-se A−1 à esquerda na igualdade Av = 0,
obtem-se v = 0. Vamos agora provar a recı́proca: vamos supor que Av = 0 vale apenas para v = 0 e
provar que A é injetora e sobrejetora e, portanto, bijetora.
Prova-se que A é injetora por absurdo. Se A não é injetora, então, existem vetores x e y com x 6= y
mas com Ax = Ay. Como A é linear, isso implica A(x − y) = 0. Pela hipótese que Av = 0 vale apenas
para v = 0, segue que x = y, uma contradição.
Para provarmos que A é sobrejetora procedemos da seguinte forma. Seja {e 1 , . . . , en } uma base
em n . Vamos primeiramente mostrar que {Ae1 , . . . , Aen } é um conjunto linearmente independente
de vetores em n (e, portanto, uma base em n ). Suponhamos que assim não o seja e que existam
números complexos α1 , . . . , αn , não todos nulos, tais que α1 Ae1 + · · · + αn Aen = 0. Pela linearidade
de A, segue que A (α1 e1 + · · · + αn en ) = 0. Novamente, pela hipótese que Av = 0 vale apenas para
v = 0, segue que α1 e1 + · · · + αn en = 0. Isso, porém, diz que os vetores {e1 , . . . , en } são linearmente
dependentes, o que é absurdo.
Logo, {Ae1 , . . . , Aen } é um conjunto de n vetores linearmente independente em n e, portanto, é
uma base nesse espaço. Assim, qualquer x ∈ n pode ser escrito como uma combinação linear tal como
x = β1 Ae1 + · · · + βn Aen = A (β1 e1 + · · · + βn en ). Isso mostra que x está na imagem de A. Como x é
arbitrário, segue que A é sobrejetora.
Um corolário evidente é o seguinte:

Corolário 3.1 Se uma matriz A ∈ Mat ( , n) não é bijetora (ou seja, se não possui inversa), então
existe um vetor não-nulo v tal que Av = 0. 2
• Autovetores
Seja λ0 um autovalor de uma matriz A. Então λ0 − A não tem inversa. Logo, como V = n é um
espaço vetorial de dimensão finita, existe pelo Corolário 3.1 acima pelo menos um vetor não-nulo v tal
que (λ0 − A)v = 0, ou seja, Av = λ0 v. Chegamos a mais uma importante definição:
Definição. Um vetor não-nulo v é dito ser um autovetor de uma matriz A se houver λ 0 ∈ tal que
Av = λ0 v.
6 0 então λ0 − A não tem inversa.

Note-se que se um tal λ0 satisfaz a relação acima para algum v =
λ0 é então um elemento do espectro de A, ou seja, um autovalor. λ0 é dito ser o autovalor associado
ao autovetor v.
Uma observação importante é a seguinte. Sejam v1 e v2 dois autovetores aos quais está associado o
mesmo autovalor, ou seja, Av1 = λ0 v1 e Av2 = λ0 v2 . Então, para quaisquer números complexos c1 e
c2 o vetor v = c1 v1 + c2 v2 também satisfaz Av = λ0 v. De fato,
Av = A(c1 v1 + c2 v2 ) = c1 Av1 + c2 Av2 = c1 λ0 v1 + c2 λ0 v2 = λ0 (c1 v1 + c2 v2 ) = λ0 v.
A conclusão a que se chega é que, para cada autovalor αi de uma matriz A, a coleção formada pelo
vetor nulo e todos os autovetores de A com autovalor αi é um subespaço vetorial. Vamos denotar esse
subespaço por E(αi ) ou simplesmente Ei .
Se αi e αj são autovalores distintos de A então os sub-espaços de autovetores E(α i ) e E(αj ) têm
em comum apenas o vetor nulo, ou seja, E(αi ) ∩ E(αj ) = {0}. Isso é fácil de provar, pois se w é tal
que Aw = αi w e Aw = αj w então, subtraindo-se uma relação da outra terı́amos 0 = (αi − αj )w, que
implica w = 0, já que αi 6= αj .
Essas considerações nos levam a mais um conceito importante: o de multiplicidade geométrica de
um autovalor.
• A Multiplicidade Geométrica de um Autovalor

Além do conceito de multiplicidade algébrica de um autovalor, há também o conceito de multipli-

cidade geométrica de um autovalor, do qual trataremos agora.
Como antes seja A ∈ Mat ( , n) uma matriz e sejam α1 , . . . , αr , 1 ≤ r ≤ n, seus autovalores
distintos, cada qual com multiplicidade algébrica a1 , . . . , ar , respectivamente.
Acima introduzimos os sub-espaços Ei = E(αi ), definidos como sendo os sub-espaços gerados por
todos os autovetores que têm αi como autovalor. A multiplicidade geométrica de um autovalor αi é
definida como sendo a dimensão do subespaço Ei , ou seja, como sendo o número máximo de autovetores
linearmente independentes com autovalor αi .
É importante advertir de imediato o leitor do fato que a multiplicidade algébrica e multiplicidade
geométrica de autovalores nem sempre coincidem. Isso é bem ilustrado no seguinte exemplo simples.
Seja
0 1
A = .
0 0
Seu polinômio caracterı́stico é

λ −1
pa (λ) = det(λ − A) = det = λ2 .
0 λ
Assim, seu (único) autovalor é 0 com multiplicidade algébrica 2. Quais os seus autovetores? São aqueles
vetores que satisfazem Av = 0. Denotando v como um vetor coluna

a
v = ,
b
a relação Av = 0 significa
0 1 a b
= = 0.
0 0 b 0
Logo b = 0 e todos os autovetores são da forma

a
v = ,
0
a ∈ . É evidente que o subespaço gerado pelos autovetores com autovalor zero tem dimensão 1.
Assim, a multiplicidade algébrica do autovalor zero é 2 mas a sua multiplicidade geométrica é 1.
• A Multiplicidade Algébrica e a Multiplicidade Geométrica
Apesar de a multiplicidade algébrica e a multiplicidade geométrica de um autovalor nem sempre

coincidirem, há uma relação de ordem entre eles. A saber, é possı́vel mostrar que a multiplicidade
geométrica de um autovalor é sempre menor ou igual à sua multiplicidade algébrica.
Isso segue das seguintes considerações. Seja λ0 um autovalor de A ∈ Mat ( , n) e E(λ0 ) o subespaço
gerado pelos autovetores com autovalor λ0 , e cuja dimensão denotaremos por d. Vamos escolher uma
base v1 , . . . , vd , vd+1 , . . . , vn onde os primeiros d vetores são elementos de E(λ0 ). Nessa base a matriz
A tem a forma
D d, n−d
,
A3 A4
 
onde D é uma matriz d × d diagonal D = diag λ0 , . . . , λ0 , A4 é uma matriz (n − d) × (n − d) e

| {z }
d vezes
A3 é uma matriz (n − d) × d. Alguns segundos (minutos?) de meditação, usando pela Proposição 3.1
da página 143, nos levam a concluir que o polinômio caracterı́stico de A é dado por
det(λ − A) = (λ − λ0 )d det(λ − A4 ).
Isso mostra que a multiplicidade algébrica de λ0 é pelo menos igual a d, sua multiplicidade geométrica.
E. 3.2 Exercı́cio. Realize a meditação sugerida acima. 6
• Matrizes Simples
O que foi exposto acima leva-nos naturalmente ao conceito de matriz simples que, como veremos
mais adiante, está intimamente ligado ao problema da diagonalizabilidade de matrizes.
Definição. Uma matriz A ∈ Mat ( , n) é dita ser simples se cada autovalor de A tiver uma multipli-
cidade algébrica igual à sua multiplicidade geométrica.
Deixamos para o leitor provar o seguinte fato: toda matriz diagonal é simples.
Adiante faremos uso da seguinte proposição.

Proposição 3.4 Se A ∈ Mat ( , n) é uma matriz simples e P ∈ Mat ( , n) é invertı́vel então P −1 AP
é também simples. 2
Prova. Já vimos (página 146) que A e P −1 AP têm o mesmo polinômio caracterı́stico e, portanto,
os mesmos autovalores, incluindo suas multiplicidades algébricas. Seja λ0 um desses autovalores com
multiplicidade algébrica d e sejam v1 , . . . , vd um conjunto de d autovetores linearmente indepen-
dentes de A. Os vetores P −1 v1 , . . . , P −1 vd são autovetores de P −1 AP com autovalor λ0 . De fato,
(P −1 AP ) P −1 vi = P −1 Avi = λ0 P −1 vi . Fora isso os d vetores P −1 v1 , . . . , P −1 vd são também linear-
mente independentes. Para ver isso, suponha houvesse constantes c1 , . . . , cd tais que
c1 P −1 v1 + · · · + cd P −1 vd = 0.
Multiplicando-se à esquerda por P terı́amos c1 v1 + · · · + cd vd = 0. Como v1 , . . . , vd são linearmente
independentes as constantes ci têm que ser todas nulas, provando que os vetores P −1 v1 , . . . , P −1 vd
são também linearmente independentes.
Isso prova que a multiplicidade geométrica do autovalor λ0 é pelo menos igual a d. Como ela não
pode ser maior que d (página 148), conclui-se que é igual a d provando a proposição.
A seguinte proposição elementar é por vezes útil para verificar se uma matriz é simples.
Proposição 3.5 Se todos os n autovalores de uma matriz A ∈ Mat ( , n) forem distintos então A é
simples. 2
Prova. Se os autovalores de A são α1 , . . . , αn , todos distintos, então cada um tem multiplicidade

algébrica igual a 1. Forçosamente, sua multiplicidade geométrica é também igual a 1, já que a multi-
plicidade geométrica não pode ser maior que a algébrica.
Ressaltemos que a recı́proca da proposição acima não é verdadeira: uma matriz pode ser simples e
possuir autovalores com multiplicidade algébrica maior que 1.
3.2.1 O Traço de uma Matriz
• O Traço de uma Matriz
Seja A ∈ Mat ( , n), cujos elementos de matriz são Aij , i, j = 1, . . . n. Sejam λ1 , . . . , λn seus n
autovalores (não necessariamente distintos e repetidos conforme sua multiplicidade).
Definimos o traço de A como sendo a soma de seus n autovalores:
n
X
Tr (A) := λa .
a=1
Uma conclusão que se tira dessa definição é que se duas matrizes são similares, então ambas têm o
mesmo traço, ou seja, para qualquer matriz invertı́vel P e qualquer matriz A vale

Tr P −1 AP = Tr (A). (3.8)
A razão reside na observação feita acima que duas matrizes similares têm o mesmo conjunto de auto-
valores e, portanto, o mesmo traço.
Temos a seguinte e importante proposição:
Proposição 3.6 O traço de uma matriz A ∈ Mat ( , n) é igual a soma dos elementos de sua diagonal
principal, ou seja,
Xn X n
Tr (A) := λa = Aaa . (3.9)
a=1 a=1
2
Prova. A demonstração consistirá em se calcular o coeficiente de λn−1 no polinômio caracterı́stico p(λ)

de A de dois modos diferentes. O polinômio caracterı́stico de A é
 
λ − A11 −A12 · · · −A1n
 −A21 λ − A22 · · · −A2n 
 
p(λ) = det(λ − A) = det  .. .. . .. .
.. .
 . . 
−An1 ··· · · · λ − Ann
P
As técnicas de cálculo de determinantes nos dizem que o coeficiente de λn−1 é − ni=1 Aii . Por exemplo,
para o caso n = 2

λ − A11 −A12
p(λ) = det = λ2 − λ(A11 + A22 ) + A11 A22 − A12 A21 .
−A21 λ − A22
E. 3.4 Exercı́cio. Convença-se da veracidade da afirmativa acima para o caso de n arbitrário. 6
Por outro lado, os autovalores de A, λ1 , . . . , λn , são por definição as raı́zes do polinômio carac-
terı́stico. Logo,
p(λ) = (λ − λ1 )(λ − λ2 ) · · · (λ − λn ).
Expandindo-se essa expressão, conclui-se que o coeficiente de λn−1 é
−(λ1 + · · · + λn ) = −Tr (A).
E. 3.5 Exercı́cio. Certo? 6
Do exposto acima, conclui-se que o coeficiente de λn−1 no polinômio caracterı́stico de A é

n
X
− Aii = −(λ1 + · · · + λn ) = −Tr (A),
i=1
o que termina a prova.
Essa proposição leva a duas outras propriedades igualmente importantes: a linearidade do traço e
a chamada propriedade cı́clica do traço.
Proposição 3.7 (A Linearidade do Traço) Sejam A, B ∈ Mat ( , n) e α, β ∈ . Então
Tr (αA + βB) = αTr (A) + βTr (B) .
Prova. A prova é imediata por (3.9).
É curioso notar que a linearidade do traço vista acima é evidente por (3.9), mas não é nem um
pouco evidente pela definição do traço de uma matriz como soma de seus autovalores, pois os auto-
valores individuais de αA + βB não são em geral combinações lineares dos autovalores de A e de B,
especialmente no caso em que A e B não comutam.
Proposição 3.8 (A Propriedade Cı́clica do Traço) Sejam A, B ∈ Mat ( , n). Então
Tr (AB) = Tr (BA).
2
Prova. Pelo que vimos acima, tem-se

n n n
! n n
! n
X X X X X X
Tr (AB) = (AB)ii = Aij Bji = Bji Aij = (BA)jj = Tr (BA).
i=1 i=1 j=1 j=1 i=1 j=1
Na segunda e quarta igualdades usamos a regra de produto de matrizes. Na terceira igualdade apenas
trocamos a ordem das somas.
Novamente vale aqui o comentário que a propriedade cı́clica expressa na Proposição 3.8 não é
nada evidente pela definição do traço de uma matriz como soma de seus autovalores. Os autovalores
individuais de produto de matrizes AB não são em geral iguais aos do produto BA.
Mais adiante, demonstraremos uma outra propriedade importante do traço que o relaciona com
o determinante,
a saber, provaremos que para qualquer matriz A, real ou complexa, n × n, tem-se
A Tr (A)
det e = e . Vide Proposição 4.7, página 222.
3.3 Polinômios de Matrizes
• Polinômios de Matrizes
Seja p um polinômio de grau m:

p(x) = am xm + · · · + a1 x + a0
com x ∈ , aj ∈ e am 6= 0. Para uma matriz A ∈ Mat ( , n) definimos o polinômio matricial p(A)
por
p(A) = am Am + · · · + a1 A + a0 .
Obviamente p(A) é também uma matriz n × n com entradas complexas.
Se as raı́zes do polinômio p forem α1 , . . . , αr , com multiplicidades m1 , . . . , mr , respectivamente,
então r
Y
p(x) = am (x − αj )mj ,
j=1
para todo x ∈ . É fácil provar, então, que

r
Y
p(A) = am (A − αj )mj .
j=1
E. 3.6 Exercı́cio. Justifique isso. 6
E. 3.7 Exercı́cio. Mostre que se D = diag (d1 , . . . , dn ) e q é um polinômio então

q(D) = diag (q(d1 ), . . . , q(dn )) .
6
E. 3.8 Exercı́cio. Suponha que A = P −1 DP , onde D = diag (d1 , . . . , dn ). Se q é um polinômio

mostre que
q(A) = P −1 q(D)P = P −1 diag (q(d1 ), . . . , q(dn )) P.
6
• O Polinômio Mı́nimo
Vamos mostrar que para cada matriz A ∈ Mat ( , n) sempre existe pelo menos um polinômio p
com a propriedade que p(A) = .
Para tal notemos primeiramente que Mat ( , n) é um espaço vetorial complexo de dimensão n 2 .
De fato toda a matriz A ∈ Mat ( , n), cujos elementos de matriz são Aij ∈ pode ser trivialmente
escrita na forma n Xn
X
A = Aab E ab
a=1 b=1
onde E ab ∈ Mat ( , n) são matrizes cujos elementos de matriz são (E ab )ij = δi,a δj,b , ou seja, todos os
elementos de matriz de E ab são nulos, exceto o elemento a, b, que vale 1.
Assim, vemos que as matrizes {E ab , a = 1, . . . , n, b = 1, . . . , n} formam uma base em Mat ( , n),

mostrando que Mat ( , n) é um espaço vetorial de dimensão n2 . Isto posto, temos que concluir que
qualquer conjunto de mais de n2 matrizes não-nulas em Mat ( , n) é linearmente dependente.
Se uma das matrizes Ak , k = 1, . . . , n2 , for nula, digamos Aq = , então p(x) = xq , tem
a propriedade que p(A) = 0, que é o que desejamos provar. Se, por outro lado, as matrizes A k ,
2
k = 1, . . . , n2 , são todas não-nulas, então conjunto { , A, A2 , . . . , An } é linearmente dependente,
pois possui n2 + 1 elementos. Portanto, existem constantes c0 , . . . , cn2 , nem todas nulas, tais que
2
c 0 + c 1 A + c 2 A 2 + · · · + c n2 A n = .
Como o lado esquerdo é um polinômio em A, fica provada nossa afirmação que toda matriz possui um
polinômio que a anula. Chegamos às seguintes definições:
Definição. Polinômio Mônico. Um polinômio p : → de grau n é dito ser mônico se for da

forma
p(x) = xn + an−1 xn−1 + · · · + a1 x + a0 ,
ou seja, se o coeficiente do monômio de maior grau (no caso, xn ) for igual a 1. Note-se que polinômios
mônicos nunca são identicamente nulos.
Definição. Polinômio Mı́nimo de uma Matriz. Dada uma matriz A ∈ Mat ( , n), o polinômio
mı́nimo de A é o polinômio mônico de menor grau que é anulado em A, ou seja, é o polinômio não-nulo
de menor grau da forma
M (x) = xm + am−1 xm−1 + · · · + a1 x + a0
para o qual M (A) = .
As considerações acima mostram que um tal polinômio sempre existe e que tem grau no máximo
igual a n2 . Essa é, no entanto, uma estimativa exagerada para o grau do polinômio mı́nimo de uma
matriz A ∈ Mat ( , n) pois, como veremos abaixo, o polinômio mı́nimo de uma matriz A ∈ Mat ( , n)
tem, na verdade, grau menor ou igual a n. Isso é um corolário de um teorema conhecido como Teorema
de Hamilton-Cayley, que demonstraremos abaixo.
Finalizamos com um teorema básico que garante a unicidade do polinômio mı́nimo e estabelece sua
relação com outros polinômios que anulam A.
Teorema 3.1 O polinômio mı́nimo M de uma matriz A ∈ Mat ( , n) é único. Fora isso se P é um
polinômio não identicamente nulo que também se anula em A, ou seja, P (A) = , então P é divisı́vel
por M , ou seja, existe um polinômio F tal que P (x) = F (x)M (x) para todo x ∈ . 2
Demonstração. Dada uma matriz A ∈ Mat ( , n), o polinômio mı́nimo de A é o polinômio de menor
grau da forma
M (x) = xm + am−1 xm−1 + · · · + a1 x + a0
para o qual M (A) = . Vamos supor que haja outro polinômio N da forma
N (x) = xm + bm−1 xm−1 + · · · + b1 x + b0
para o qual N (A) = . Subtraindo um do outro terı́amos o polinômio
(M − N )(x) = (am−1 − bm−1 )xm−1 + · · · + (a1 − b1 )x + (a0 − b0 ),
que tem grau menor ou igual a m − 1 e para o qual vale (M − N )(A) = M (A) − N (A) = − = .
Como, por hipótese, não há polinômios não-nulos com grau menor que o de M que anulam A, isso é
uma contradição, a menos que M = N . Isso prova a unicidade.
Seja P um polinômio não identicamente nulo para o qual valha P (A) = . Se p é o grau de P ,
deve-se ter p ≥ m, onde m é o grau do polinômio mı́nimo de A. Logo, pelos bem conhecidos fatos sobre
divisão de polinômios, podemos encontrar dois polinômios F e R, cujos graus são, respectivamente
p − m e r com 0 ≤ r < m, tais que
P (x) = F (x)M (x) + R(x),
para todo x ∈ . Ora, isso diz que
P (A) = F (A)M (A) + R(A).
Como P (A) = e M (A) = , isso implica R(A) = . Como, porém, o grau de R é menor que m,
tem-se que R deve ser identicamente nulo. Isso completa a prova.
3.3.1 O Teorema de Hamilton-Cayley

Vamos aqui demonstrar um teorema sobre matrizes que será usado mais adiante de várias formas, em
particular no Teorema Espectral, o chamado Teorema de Hamilton1 -Cayley2 . Esse teorema fornece
1
Sir William Rowan Hamilton (1805-1865).
2
Arthur Cayley (1821-1895).
também, como veremos, um método eficiente para o cálculo da inversa de matrizes. Cayley e Hamilton
demonstraram casos particulares do teorema para matrizes 2 × 2, 3 × 3 (Cayley) e 4 × 4 (Hamilton).
A primeira demonstração geral é devida a Frobenius3 . Cayley, Hamilton e Sylvester4 estão entre os
fundadores modernos da teoria das matrizes5 .
Teorema 3.2 (Teorema de Hamilton-Cayley) Seja A ∈ Mat ( , n) e seja q(x) = det(x − A) o
polinômio caracterı́stico de A (e que tem grau n). Então q(A) = . 2
Prova. Desejamos mostrar que para todo vetor y ∈ n vale q(A)y = 0. Se y = 0 isso é trivial. Se
y 6= 0 mas com Ay = 0 então
q(A)y = (−1)n λ1 · · · λn y,
onde λ1 , · · · , λn são os autovalores de A. Mas a própria relação Ay = 0 indica que um dos autovalores
é igual a zero. Logo q(A)y = 0. Mais genericamente, se y 6= 0 e {y, Ay} não for um conjunto de vetores
linearmente independentes, então Ay e y são proporcionais, ou seja, existe um autovalor, digamos, λ n
tal que Ay = λn y. Nesse caso também tem-se
n−1
!
Y
q(A)y = (A − λi ) (A − λn )y = 0,
i=1
pois (A − λn )y = Ay − λn y = 0.
Seja então y daqui por diante um vetor fixado, não-nulo e tal que {y, Ay} é um conjunto de dois
vetores não-nulos e linearmente independentes.
n
Como o espaço tem dimensão n, nem todos os conjuntos de vetores da forma
{y, Ay, A2 y, . . . , Aj y}
são formados por vetores não-nulos linearmente independentes. Por exemplo, se j ≥ n, o conjunto
{y, Ay, A2 y, . . . , Aj y} não pode ser formado por vetores não-nulos linearmente independentes pois
seu número excede a dimensão do espaço.
Seja k o maior número tal que {y, Ay, A2 y, . . . Ak−1 y} é um conjunto de vetores não-nulos e
linearmente independentes. É claro que 1 < k ≤ n.
É claro também, pela definição de k, que
Ak y = hk y + hk−1 Ay + · · · + h1 Ak−1 y, (3.10)
para constantes h1 , . . . , hk .
Vamos denominar z1 = Ak−1 y, z2 = Ak−2 y, . . . , zk = y, ou seja, zj = Ak−j y, j = 1, . . . , k, todos
não-nulos por hipótese. Caso k < n, escolhamos ainda vetores zk+1 , . . . , zn de modo que o conjunto
{z1 , . . . , zn } forme uma base em n .
Coloquemo-nos agora a seguinte questão: qual é a forma da matriz A nessa base? No sub-espaço
gerado pelos vetores {z1 , . . . , zk } tem-se o seguinte: para i = 2, . . . , k vale Azi = zi−1 . Além disso, por
3
Ferdinand Georg Frobenius (1849-1917)
4
James Joseph Sylvester (1814-1897).
5
Muitos certamente se surpreenderão em saber que Cayley e Sylvester eram originalmente advogados.
(3.10), Az1 = h1 z1 + h2 z2 + · · · + hk zk . Isso mostra que o subespaço gerado pelos vetores {z1 , . . . , zk }
é invariante pela ação de A e o operador linear A, no mesmo subespaço, tem a forma
 
h1 1 0 . . . 0 0
 .. 
 h2 0 1 . 0 0
 . .. . . . . . . .. 
 .. . . . . .
 . (3.11)
 . 
hk−2 0 0 . . 1 0
 
hk−1 0 0 . . . 0 1
hk 0 0 . . . 0 0
E. 3.10 Exercı́cio. Justifique isso. 6
Se designarmos por P o operador que realiza essa mudança de base, o operador linear A na base
{z1 , . . . , zn } tem, portanto, a forma A0 = P −1 AP , onde

0 A1 k, n−k
A = ,
A2 A3
onde A1 é a matriz k×k definida em (3.11), A2 é uma matriz (n−k)×k e A3 é uma matriz (n−k)×(n−k).
Não nos será necessário especificar os elementos das matrizes A2 e A3 .
Outros segundos (minutos?) de meditação, usando a Proposição 3.1 da página 143, nos levam a
concluir que o polinômio caracterı́stico q pode ser escrito como
q(x) = det(x − A0 ) = det(x − A1 ) det(x − A3 ) .
(O estudante deve recordar-se que as matrizes A e A0 , por serem similares, têm o mesmo polinômio
caracterı́stico).
Vamos denominar qk (x) = det(x − A1 ) e rk (x) = det(x − A3 ). Claramente, q(x) = qk (x)rk (x).
Não será necessário, no que segue, calcular rk , mas precisaremos calcular qk . Como esse pequeno
resultado tem interesse independente, vamos formulá-lo como um lema, para futura referência.
Lema 3.1 Para h1 , . . . , hk ∈ , tem-se
 
x − h1 −1 0 . . . 0 0
 . 
 −h2 x −1 . . 0 0
 . .. .. .. .. 
 .. . . . . 

qk (x) := det   = xk − (h1 xk−1 + · · · + hk−1 x + hk ) . (3.12)
. 
 −hk−2 0 0 . . −1 0 
 
 −hk−1 0 0 . . . x −1
−hk 0 0 ... 0 x
2
Prova. A prova é feita por indução. Para k = 2 vale

x − h1 −1
q2 (x) = det = x2 − h1 x − h2 .
−h2 x
Para k > 2, tem-se, pelas bem conhecidas regras de cálculo de determinantes,

   
x − h1 −1 0 0 x − h1 −1 0 0
 ..   .. 
 −h2 x . 0 0  −h2 x 0. 0
   . 
qk (x) = x det  ... .. ..
. .  + 1 det  .. .. ..
. . 
   
 −hk−2 0 x −1  −hk−2 0 x −1
−hk−1 0 ... 0 x (k−1)×(k−1) −hk 0 ... 0 0 (k−1)×(k−1)
 
−1 0 ... 0 0
 . 
x −1 . . 0 0
 .. .. .. . 
= xqk−1 (x) + (−1) k−1+1
(−hk ) det 
 . . . .. 

 .. 
0 0 . −1 0 
0 0 . . . x −1 (k−2)×(k−2)
= xqk−1 (x) + (−1)k+1 hk (−1)k−2
= xqk−1 (x) − hk (3.13)
E. 3.11 Exercı́cio. Complete os detalhes. 6
Assim, se pela hipótese indutiva qk−1 é da forma
qk−1 (x) = xk−1 − (h1 xk−2 + · · · + hk−2 x + hk−1 ),
segue de (3.13) que
qk (x) = x(xk−1 − (h1 xk−2 + · · · + hk−2 x + hk−1 )) − hk
= xk − (h1 xk−1 + · · · + hk−2 x2 + hk−1 x + hk ) (3.14)
como querı́amos provar.
Retomando, temos que q(A)y = qk (A)rk (A)y = rk (A)qk (A)y. Sucede, porém, que qk (A)y = 0. De
fato, pelo cômputo acima,
qk (A)y = Ak y − h1 Ak−1 y − · · · − hk−2 A2 y − hk−1 Ay − hk y
que é igual a zero por (3.10). Logo q(A)y = 0. Como y foi escolhido arbitrário, segue que q(A) = ,
demonstrando o Teorema de Hamilton-Cayley, Teorema 3.2.
• O Teorema de Hamilton-Cayley e a Inversa de Matrizes

O Teorema de Hamilton-Cayley fornece-nos um método de calcular a inversa de matrizes não-

singulares. De fato, se q(x) = xn + an−1 xn−1 + · · · + a1 x + a0 é o polinômio caracterı́stico de uma matriz
não-singular A, então o Teorema de Hamilton-Cayley afirma que
An + an−1 An−1 + · · · + a1 A + a0 = ,
ou seja,
A An−1 + an−1 An−2 + · · · + a2 A + a1 = −a0 .
Isso tem por implicação
1
A−1 = − An−1 + an−1 An−2 + · · · + a2 A + a1 .
a0
Nota. Usando a definição de polinômio caracterı́stico q(x) = det(x − A), é evidente (tomando-se
x = 0) que a0 = (−1)n det(A). Assim, a0 =6 0 se e somente se A for não-singular.
Em muitos casos é bastante eficiente calcular A−1 usando essa fórmula, pois a mesma envolve poucas
operações algébricas em comparação com outros métodos, o que é uma vantagem para valores grandes
de n. Compare, por exemplo, com a regra de Laplace6 para o cálculo de A−1 , que envolve o cômputo
de n2 + 1 determinantes de sub-matrizes de A.
E. 3.12 Exercı́cio. Use esse método para calcular a inversa das suas matrizes não-singulares favoritas.
6
• De volta ao polinômio mı́nimo
O Teorema 3.1, página 154, e o Teorema de Hamilton-Cayley, juntos, permitem-nos precisar algo a
respeito da forma geral do polinômio mı́nimo de uma matriz.
Se A ∈ Mat ( , n) tem r autovalores distintos α1 , . . . , αr , cada qual com multiplicidade algébrica
a1 , . . . , ar , respectivamente, então seu polinômio caracterı́stico q é da forma
r
Y
q(x) = (x − αk )ak .
k=1
Pelo Teorema de Hamilton-Cayley, q(A) = 0 e, portanto, pelo Teorema 3.1, M , o polinômio mı́nimo
de A, divide q. Logo, M deve ser da forma
s
Y
M (x) = (x − αkl )bl , (3.15)
l=1
onde s ≤ r, {αk1 , . . . , αks } ⊂ {α1 , . . . , αr } e onde 0 < bl ≤ akl para todo 1 ≤ l ≤ s. Seja agora,
porém, vm 6= 0 um autovetor de A com autovalor αm Segue do fato que M (A) = 0 que
s
Y s
Y
0 = M (A)vm = (A − αkl )bl vm = (αm − αkl )bl vm .
l=1 l=1
6
Pierre-Simon Laplace (1749-1827).
Q
Logo, sl=1 (αm − αkl )bl = 0 e isso implica que αm ∈ {αk1 , . . . , αks }. Como isso vale para todo
1 ≤ m ≤ r, segue que {α1 , . . . , αr } ⊂ {αk1 , . . . , αks } e, portanto, {α1 , . . . , αr } = {αk1 , . . . , αks }.
Nossa conclusão é resumida no seguinte:
Proposição 3.9 Seja A ∈ Mat ( , n) com r autovalores distintos α1 , . . . , αr ∈ , cada qual com
multiplicidade algébrica a1 , , . . . , ar , sendo 1 ≤ r ≤ n. Então M , o polinômio mı́nimo de A, é da
forma
Yr
M (x) = (x − αk )bk , (3.16)
k=1
∀x ∈ , onde 0 < bl ≤ al para todo 1 ≤ l ≤ r. Em particular, se A ∈ Mat ( , n) tiver exatamente n

autovalores distintos, teremos que bl = al = 1 para todo 1 ≤ l ≤ n, e
n
Y
M (x) = q(x) = (x − αk ),
k=1
∀x ∈ . 2
3.4 Matrizes Diagonalizáveis e o Teorema Espectral
• Matrizes Diagonalizáveis
Vamos agora apresentar uma noção intimamente ligada à de matriz simples introduzida acima
(página 149), mas de importância maior.
Definição. Uma matriz A ∈ Mat ( , n) é dita ser diagonalizável se existir uma matriz invertı́vel
P ∈ Mat ( , n) tal que P −1 AP é uma matriz diagonal, ou seja,
 
d1 · · · 0
 
P −1 AP = D = diag (d1 , . . . , dn ) =  ... . . . ...  .
0 · · · dn
É fácil de se ver que os elementos da diagonal de D são os autovalores de A. De fato, se A é

diagonalizável por P , vale para seu polinômio caracterı́stico
p(λ) = det(λ − A) = det(P −1 (λ − A)P ) = det(λ − P −1 AP ) = det(λ − D)

 
λ − d1 · · · 0
 ..  = (λ − d ) · · · (λ − d ),
= det  ... ..
. .  1 n
0 · · · λ − dn
o que mostra que os di são as raı́zes do polinômio caracterı́stico de A e, portanto, seus autovalores.
E. 3.13 Exercı́cio. Justifique todas as passagens acima. 6

• Diagonalização de Matrizes
O próximo teorema é fundamental no estudo de matrizes diagonalizáveis.

Teorema 3.3 Uma matriz A ∈ Mat ( , n) é diagonalizável se e somente se possuir um conjunto de
n autovetores linearmente independentes, ou seja, se e somente se o sub-espaço gerado pela coleção de
todos os autovetores de A possuir dimensão n. 2
Prova. Vamos primeiro provar que se A ∈ Mat ( , n) possui um conjunto de n autovetores linearmente
independentes então A é diagonalizável. Para tal vamos construir a matriz P que diagonaliza A.
Seja {v 1 , . . . , v n } um conjunto de n autovetores linearmente independentes de A, cujos autovalores
são {d1 , . . . , dn }, respectivamente. Vamos denotar as componentes de v i na base canônica por vji ,
j = 1, . . . , n. Seja a matriz P definida por P = [[v 1 , . . . , v n ]], ou seja,
 
v11 · · · v1n
 
P =  ... . . . ...  .
vn1 · · · vnn
Como se vê pela construção, a a-ésima coluna de P é formada pelas componentes do vetor v a . Por
(3.2), segue que
AP = [[Av 1 , . . . , Av n ]] = [[d1 v 1 , . . . , dn v n ]].
Por (3.4) vale, porém, que
  
v11 · · · v1n d1 · · · 0
  
[[d1 v 1 , . . . , dn v n ]] =  ... . . . ...   ... . . . ...  = P D.
vn1 · · · vnn 0 · · · dn
Portanto, AP = P D. Como, por hipótese, as colunas de P são formadas por vetores linearmente
independentes, tem-se que det(P ) 6= 0 (por que?). Logo, P é invertı́vel e, portanto, P −1 AP = D, como
querı́amos demonstrar.
Vamos provar agora a afirmação recı́proca que se A é diagonalizável, então possui n autovetores
linearmente independentes. Suponha que exista P tal que
 
d1 · · · 0
 
P −1 AP = D =  ... . . . ...  .
0 · · · dn
É evidente que os vetores da base canônica

     
1 0 0
0  1  0 
     
     
e 1 = 0  , e 2 = 0  , ..., en =  ... 
 ..   ..   
. . 0 
0 0 1
são autovetores de D com Dea = da ea . Logo, v a = P ea são autovetores de A, pois
Av a = AP ea = P Dea = P (da ea ) = da P ea = da v a .
Provar que os vetores v a são linearmente independentes é fácil. Suponha que existam números com-
plexos α1 , . . . , αn tais que
α1 v 1 + · · · + αn v n = 0.
Multiplicando-se à esquerda por P −1 terı́amos
α1 e1 + · · · + αn en = 0.
Como os ea são obviamente linearmente independentes, segue que α1 = · · · = αn = 0, provando que os

v a são linearmente independentes.
• Matrizes Diagonalizáveis e Matrizes Simples
Vamos agora discutir a relação entre os conceitos de matriz diagonalizável e o de matriz simples,
conceito esse introduzido à página 149. Tem-se a saber o seguinte fato:
Proposição 3.10 Uma matriz A ∈ Mat ( , n) é diagonalizável se e somente se for simples, ou
seja, se e somente se a multiplicidade algébrica de cada um dos seus autovalores coincidir com sua
multiplicidade geométrica. 2
Prova. Se A é diagonalizável existe P tal que P −1 AP = D, diagonal. Como toda matriz diagonal, D
é simples. Escrevamos D na forma
 
D = diag α1 , . . . , α1 , . . . , αr , . . . , αr ,  .
| {z } | {z }
a1 vezes ar vezes
Um conjunto de n-autovetores de D linearmente independentes é fornecido pelos vetores da base

canônica:      
1 0 0
0  1  0 
     
     .. 
e 1 = 0  , e 2 = 0  , . . . , e n = . .
 ..   ..   
. . 0 
0 0 1
Os vetores e1 , . . . , ea1 geram o subespaço de autovetores com autovalor α1 de D etc.
Para a matriz A, os vetores P e1 , . . . , P ea1 geram o subespaço de autovetores com autovalor α1 etc.
É claro que a dimensão desse subespaço é a1 , pois P e1 , . . . , P ea1 são linearmente independentes, já
que os vetores da base canônica e1 , . . . , ea1 o são. Como isso também vale para os demais autovalores
concluı́mos que A é simples.
Resta-nos agora mostrar que se A ∈ Mat ( , n) é simples então A é diagonalizável. Como antes,
sejam α1 , . . . , αr , 1 ≤ r ≤ n, seus autovalores distintos, cada qual com multiplicidade algébrica
a1 , . . . , ar , respectivamente, e seja E(αi ) o subespaço gerado pelos autovetores com autovalor αi .

Como A é simples, tem-se que a dimensão de E(αi ) é ai . Já observamos (página 147) que sub-espaços
E(αi ) associados a autovalores distintos têm em comum apenas o vetor nulo.Pr Assim, se em cada E(α i )
escolhermos ai vetores independentes, teremos ao todo um conjunto de i=1 ai = n autovetores (vide
(3.5)) linearmente independentes de A. Pelo Teorema 3.3, A é diagonalizável, completando a prova.
• Projetores
Uma matriz E ∈ Mat ( , n) é dita ser um projetor se satisfizer
E 2 = E.
Discutiremos várias propriedades importantes de projetores adiante, especialmente de uma classe

especial de projetores denominados projetores ortogonais. Por ora, vamos mostrar duas propriedades
que usaremos logo abaixo quando discutirmos o teorema espectral.
A primeira propriedade é a afirmação que se λ é um autovalor de um projetor E então ou λ é igual
a zero ou a um. De fato se v é um autovetor associado a um autovalor λ de E, tem-se que Ev = λv e
E 2 v = λ2 v. Como E 2 = E, segue que λ2 v = λv. Logo λ(λ − 1) = 0 e, portanto, λ = 0 ou λ = 1.
A segunda propriedade é uma conseqüência da primeira: o traço de um projetor E ∈ Mat ( , n) é
um número inteiro positivo ou nulo, mas menor ou igual a n. De fato, pela definição, o traço de um
projetor E é a soma de seus autovalores. Como os mesmos valem zero ou um a soma é um inteiro
positivo ou nulo. Como há no máximo n autovalores a soma não pode exceder n. Na verdade, o único
projetor cujo traço vale exatamente n é a identidade e o único projetor cujo traço vale exatamente 0
é a matriz nula (por que?).
Essas observações têm a seguinte conseqüência que usaremos adiante. Se E 1 , . . . , Er são r projetores
não-nulos com a propriedade que
Xr
= Ea
a=1
então r ≤ n. Para ver isso, basta tomar o traço de ambos os lados dessa expressão:
r
X
Tr ( ) = Tr (Ea ). (3.17)
a=1
O lado esquerdo vale n enquanto que o lado direito é uma soma de r inteiros positivos. Obviamente
isso só é possı́vel se r ≤ n.
• O Teorema Espectral
O chamado Teorema Espectral é um dos mais importantes teoremas de toda a Álgebra Linear e, em
verdade, de toda Análise Funcional, já que o mesmo possui generalizações para operadores limitados
e não-limitados (auto-adjuntos) agindo em espaços de Hilbert. Dessas generalizações trataremos na
Seção 23.6.1, página 1112, para o caso dos chamados operadores compactos e na Seção 23.7, página
1120, para o caso geral de operadores limitados auto-adjuntos. Nessa versão mais geral o teorema
espectral é de importância fundamental para a interpretação da Fı́sica Quântica. Vide discussão da

Seção 23.7.5, página 1141.
Teorema 3.4 (O Teorema Espectral para Matrizes) Uma matriz A ∈ Mat ( , n) é diagona-
lizável se e somente se existirem r ∈ , escalares α1 , . . . , αr e projetores E1 , . . . , Er ∈ Mat ( , n)

tais que
X r
A = αa E a , (3.18)
a=1
r
X
= Ea (3.19)
a=1
e
Ei Ej = δi, j Ej .
Os escalares α1 , . . . , αr vêm a ser os autovalores de A. 2
Adiante demonstraremos uma versão um pouco mais detalhada desse importante teorema (Teorema
3.5, abaixo).
Os projetores Ea que surgem em (3.18) são denominados projetores espectrais de A. A decomposição
(3.18) é freqüentemente denominada decomposição espectral de A.
Prova do Teorema 3.4. Se A ∈ Mat ( , n) é diagonalizável existe P ∈ Mat ( , n) tal que P −1 AP =
D = diag (λ1 , . . . , λn ), onde λ1 , . . . , λn são os autovalores de A. Como pode haver autovalores
repetidos, vamos denotar por {α1 , . . . , αr }, 1 ≤ r ≤ n, o conjunto de autovalores distintos de A.
É bem claro que podemos escrever
r
X
D = α a Ka
a=1
onde as matrizes Ka são todas matrizes diagonais, cujos elementos diagonais são ou 0 ou 1 e tais que
r
X
Ka = . (3.20)
a=1
As matrizes Ka são simplesmente definidas de modo a terem elementos de matriz iguais a 1 nas posições
da diagonal ocupadas pelo autovalor αa em D e zero nos demais. Formalmente,

 1, se i = j e (D)ii = αa
(Ka )ij = 0, se i = j e (D)ii 6= αa .

0, se i 6= j
Por exemplo, se  
2 0 0 0
0 3 0 0
D = 
0

0 2 0
0 0 0 4
teremos      
1 0 0 0 0 0 0 0 0 0 0 0
0 0 0 0 0 1 0 0 0 0 0 0
D = 2
0
+3 +4 .
0 1 0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0 0 0 1
É fácil constatar que as matrizes Ka têm a seguinte propriedade:
Ka Kb = δa, b Ka . (3.21)
De fato, é evidente que (Ka )2 = Ka para todo a, pois Ka é diagonal com zeros ou uns na diagonal.
Analogamente, se a 6= b Ka Kb = 0, pois os zeros ou uns aparecem em lugares distintos das diagonais
das duas matrizes.
Como A = P DP −1 , tem-se que
r
X
A = αa E a ,
a=1
onde Ea := P Ka P −1 . É fácil agora provar que

r
X
= Ea
a=1
e que
Ei Ej = δi, j Ej .
De fato, por (3.20),
r r r
!
X X X
Ea = P Ka P −1 = P Ka P −1 = P P −1 = .
a=1 a=1 a=1
Analogamente, tem-se por (3.21),
Ea Eb = P Ka P −1 P Kb P −1 = P Ka Kb P −1 = δa, b P Ka P −1 = δa, b Ea .
Vamos agora provar a recı́proca. Vamos supor que A possua a representação (3.18), onde os E a ’s
satisfazem as propriedades enunciadas.
Notemos primeiramente que para todo vetor x, os vetores Ek x ou são nulos ou são autovetores de
A. De fato, por (3.18)
Xr
AEk x = αj Ej Ek x = αk Ek x.
j=1
Logo ou Ek x = 0 ou Ek x é autovetor de A.
Como há no máximo n autovetores, o espaço por eles gerado tem dimensão menor ou igual a n.
Por (3.19), porém, vale para todo vetor x que
r
X
x = x = Ek x .
k=1
Para x não-nulo, alguns dos Ek x, acima, devem ser não-nulos e, portanto, autovetores de A. Assim,
todo vetor x pode ser escrito como uma combinação linear de autovetores de A, o que significa que
o espaço gerado por esses autovetores tem dimensão exatamente igual a n. Pelo teorema 3.3, A é
diagonalizável. Isso completa a demonstração.
O Teorema Espectral, Teorema 3.4, pode ser formulado de um modo mais detalhado (Teorema
3.5). A principal utilidade dessa outra formulação é a de fornecer mais informações sobre os projetores
espectrais Ea (vide expressão (3.24), abaixo). Obtem-se também nessa nova formulação mais condições
necessárias e suficientes à diagonalizabilidade e que podem ser úteis, como veremos, por exemplo, no
Teorema 3.12 provado adiante (página 170).
Teorema 3.5 (Teorema Espectral para Matrizes. Versão Detalhada) Seja A ∈ Mat ( , n).
São equivalentes as seguintes afirmações:
1. A possui n autovetores linearmente independentes, ou seja, o sub-espaço gerado pelos autovetores

de A tem dimensão n.
2. A é diagonalizável, ou seja, existe uma matriz P ∈ Mat ( , n) invertı́vel tal que P −1 AP é uma
matriz diagonal diag (d1 , . . . , dn ), onde os di ’s são autovalores de A.
n
3. Para todo vetor x ∈ e todo escalar λ ∈ tais que (A − λ )2 x = 0, vale que (A − λ )x = 0.
4. Se x é um vetor não-nulo tal que (A − λ )x = 0 para algum λ ∈ então não existe nenhum
vetor y com a propriedade que (A − λ )y = x.
5. Todas as raı́zes do polinômio mı́nimo de A têm multiplicidade 1.
6. Existem r ∈ , escalares α1 , . . . , αr e projetores E1 , . . . , Er ∈ Mat ( , n), denominados

projetores espectrais de A, tais que

Xr
A = αa E a .
a=1
Além disso, as matrizes Ea satisfazem
r
X
= Ea (3.22)
a=1
e
Ei Ej = δi, j Ej . (3.23)
Os projetores espectrais Ek do item 6, acima, podem ser expressos em termos de polinômios da matriz
A:
1
Ek = mk (A) , (3.24)
mk (αk )
para todo k, 1 ≤ k ≤ r, onde os polinômios mk são definidos por
M (x) = (x − αk )mk (x) ,
M sendo o polinômio mı́nimo de A. 2
Demonstração. A prova da equivalência será feita demonstrando-se sucessivamente as seguintes im-

plicações: 1 → 2, 2 → 3, 3 → 4, 4 → 5, 5 → 6, 6 → 1. Que 1 implica 2 já foi demonstrado no Teorema
3.3, página 160.
2 → 3. Seja D = P −1 AP diagonal. D = diag (d1 , . . . , dn ). Seja (A − λ )2 x = 0. Segue que
P −1 (A − λ )2 P y = 0
onde y = P −1 x. Logo,
(D − λ )2 y = 0,
ou seja,
(d1 − λ)2 y1 = 0
..
.
(dn − λ)2 yn = 0,
onde yj são as componentes de y:  

y1
 .. 
y =  . .
yn
Agora, é evidente que se (da − λ)2 ya = 0 então (da − λ)ya = 0. Logo
(D − λ )y = 0.
Usando-se y = P −1 x e multiplicando-se à direita por P , concluı́mos que
0 = P (D − λ )P −1 x = (P DP −1 − λ )x = (A − λ )x,
3 → 4. A prova é feita por contradição. Vamos supor que para algum vetor x 6= 0 exista λ ∈ tal que
(A − λ )x = 0. Suponhamos também que exista vetor y tal que (A − λ )y = x. Terı́amos
(A − λ )2 y = (A − λ )x = 0.
Pelo item 3 isso implica (A − λ )y = 0. Mas isso diz que x = 0, uma contradição.
4 → 5. Seja M o polinômio mı́nimo de A, ou seja, o polinômio mônico7 de menor grau tal que M (A) = 0.
Vamos mostrar que todas as raı́zes de M têm multiplicidade 1. Vamos, por contradição, supor
que haja uma raiz, λ0 , com multiplicidade maior ou igual a 2. Terı́amos, para x ∈ ,
M (x) = p(x)(x − λ0 )2 .
7
A definição de polinômio mônico está à página 153.
Assim, M (A) = p(A)(A − λ0 )2 = 0. Como M é, por definição, o polinômio de menor grau que
zera em A, segue que
p(A)(A − λ0 ) 6= 0.
Assim, existe pelo menos um vetor z tal que p(A)(A − λ0 )z 6= 0. Vamos definir um vetor x por
x := p(A)(A − λ0 )z. Então
(A − λ0 )x = (A − λ0 )p(A)(A − λ0 )z = p(A)(A − λ0 )2 z = M (A)z = 0,
pois M (A) = 0. Agora, pela definição,
x = (A − λ0 )y
onde y = p(A)z. Pelo item 4, porém, isso é impossı́vel.
5 → 6. Pela hipótese que as raı́zes de M são simples segue da expressão (3.16) da Proposição 3.9, página
159, que para x ∈ ,
Yr
M (x) = (x − αj ) ,
j=1
onde αj são as raı́zes de M e que coincidem com os r autovalores distintos de A. Para k = 1, . . . , r

defina-se os polinômios mk por
M (x) =: (x − αk )mk (x),
ou seja,
r
Y
mk (x) := (x − αj ).
j=1
j6=k
É claro que mk (αj ) = 0 ⇐⇒ j 6= k (por que?).

Vamos agora definir mais um polinômio, g, da seguinte forma:
r
X 1
g(x) = 1 − mk (x).
mk (αk )
k=1
Como os polinômios mk têm grau r − 1, o polinômio g tem grau menor ou igual a r − 1. Porém,
observe-se que, para todos os αj , j = 1, . . . , r, vale
r
X 1 mj (αj )
g(αj ) = 1 − mk (αj ) = 1 − = 0
k=1
mk (αk ) mj (αj )
Assim, g tem pelo menos r raı́zes distintas! O único polinômio de grau menor ou igual a r − 1
que tem r raı́zes distintas é o polinômio nulo. Logo, concluı́mos que
r
X 1
g(x) = 1 − mk (x) ≡ 0
k=1
mk (αk )
para todo x ∈ . Isso significa que todos os coeficientes de g são nulos. Assim, para qualquer
matriz B tem-se g(B) = 0. Para a matriz A isso diz que
r
X 1
= mk (A).
k=1
mk (αk )
Definindo-se
1
Ek := mk (A), (3.25)
mk (αk )
concluı́mos que
r
X
= Ek . (3.26)
k=1
Para todo k vale 0 = M (A) = (A − αk )mk (A), ou seja, Amk (A) = αk mk (A). Pela definição de
Ek isso significa
AEk = αk Ek .
Assim, multiplicando-se ambos os lados de (3.26) por A, segue que
r
X
A = αk E k .
k=1
Para completar a demonstração de 6, resta-nos provar que Ei Ej = δi, j Ej .

Para i 6= j tem-se pela definição dos Ek ’s que
1
Ei Ej = mi (A)mj (A)
mi (αi )mj (αj )
  
r r
1 Y  Y 
=  (A − αk )  (A − αl )
mi (αi )mj (αj ) k=1 l=1
k6=i l6=j
 
r
" r #
1  Y  Y
=  (A − αk ) (A − αl )
mi (αi )mj (αj ) k=1 l=1
k6=i, k6=j
 
r
Y
1  
=  (A − αk ) M (A)
mi (αi )mj (αj ) k=1
k6=i, k6=j
= 0,
pois M (A) = 0. Resta-nos provar que Ej2 = Ej para todo j. Multiplicando-se ambos os lados de
(3.26) por Ej teremos
Xr
Ej = Ej Ek = E j Ej ,
k=1
já que Ej Ek = 0 quando j 6= k. Isso completa a demonstração do item 6.
6 → 1. Notemos primeiramente que para todo vetor x, os vetores Ek x ou são nulos ou são autovetores
de A. De fato, por 6,
Xr
AEk x = αj Ej Ek x = αk Ek x.
j=1
Logo, ou Ek x = 0 ou Ek x é autovetor de A. O espaço gerado pelos autovetores de A obviamente

tem dimensão menor ou igual a n. Por (3.26), porém, vale para todo vetor x que
r
X
x = x = Ek x.
k=1
Assim, todo vetor x pode ser escrito como uma combinação linear de autovetores de A, o que
significa que o espaço gerado pelos autovetores tem dimensão exatamente igual a n.
Isso completa a demonstração do Teorema 3.5.
Destacamos ao leitor o fato de que a expressão (3.24) permite representar os projetores espectrais
diretamente em termos da matriz diagonalizável A.
• Diagonalizabilidade de Projetores
A proposição abaixo é uma aplicação simples do Teorema 3.5 a projetores. A mesma será usada
abaixo quando falarmos de diagonalização simultânea de matrizes.
Proposição 3.11 Seja E ∈ Mat ( , n) um projetor, ou seja, tal que E 2 = E. Então E é diagona-
lizável. 2
Prova. Seja E ∈ Mat ( , n) um projetor. Definamos E1 = E e E2 = − E. Então E2 é também um

projetor, pois
(E2 )2 = ( − E)2 = − 2E + E 2 = − 2E + E = − E = E2 .
Tem-se também que E1 E2 = 0, pois
E1 E2 = E( − E) = E − E 2 = E − E = 0.
Fora isso, é óbvio que = E1 + E2 e que E = α1 E1 + α2 E2 , com α1 = 1 e α2 = 0. Ora, isso tudo

diz que E satisfaz precisamente todas as condições do item 6 do Teorema 3.5. Portanto, pelo mesmo
teorema, E é diagonalizável.
• O Cálculo Funcional para Matrizes Diagonalizáveis
O Teorema Espectral tem o seguinte corolário, muitas vezes conhecido como cálculo funcional.
Teorema 3.6 (Cálculo Funcional) Seja A ∈ Mat ( , n) uma matriz diagonalizável e seja
r
X
A = αa E a .
a=1
sua decomposição espectral, de acordo com o Teorema Espectral, o Teorema 3.4. Então para qualquer
polinômio p vale
X r
p(A) = p(αa )Ea . (3.27)
a=1
2
Prova. Tem-se, pelas propriedades dos Ea ’s,

r
X r
X r
X
2
A = αa αb E a E b = αa αb δa, b Ea = (αa )2 Ea .
a, b=1 a, b=1 a=1
Analogamente, mostra-se que

r
X
m
A = (αa )m Ea ,
a=1
para qualquer m ∈ . O resto da prova é trivial.
E. 3.15 Exercı́cio. Usando (3.27) demonstre novamente o teorema de Hamilton-Cayley, agora apenas
para matrizes diagonalizáveis. 6
• Uma Condição Suficiente para Diagonalizabilidade
Até agora estudamos condições necessárias e suficientes para que uma matriz seja diagonalizável.
Vimos que uma matriz A ∈ Mat ( , n) é diagonalizável se e somente se for simples ou se e somente
se tiver n autovetores linearmente independentes ou se e somente se puder ser representada na forma
espectral, como em (3.18). Nem sempre, porém, é imediato verificar essas hipóteses, de modo que é
útil saber de condições mais facilmente verificáveis e que sejam pelo menos suficientes para garantir
diagonalizabilidade. Veremos abaixo que é, por exemplo, suficiente que uma matriz seja auto-adjunta
ou normal para garantir que ela seja diagonalizável.
Uma outra condição útil é aquela contida na seguinte proposição.
Proposição 3.12 Se A ∈ Mat ( , n) tem n autovalores distintos então A é diagonalizável. 2
Prova. Isso é imediato pelas Proposições 3.5 e 3.10, das páginas 149 e 161, respectivamente.
Observação. A condição mencionada na última proposição é apenas suficiente, pois há obviamente
matrizes diagonalizáveis que não têm autovalores todos distintos.
Outra forma de provar a Proposição 3.12 é a seguinte. Seja {λ1 , . . . , λn } o conjunto dos n
autovalores de A, todos distintos. O polinômio caracterı́stico de A é q(x) = (x − λ 1 ) · · · (x − λn ). Como
as raı́zes de q têm, nesse caso, multiplicidade 1, segue pela Proposição 3.9, página 159, que o polinômio
mı́nimo de A, M , coincide com o polinômio caracterı́stico de A: q(x) = M (x), ∀x ∈ . Logo, o
polinômio mı́nimo M de A tem também raı́zes com multiplicidade 1. Assim, pelo item 5 do Teorema
3.5, página 165, A é diagonalizável.
E. 3.16 Exercı́cio. Demonstre a seguinte afirmação: se os autovalores de uma matriz A são todos iguais
então A é diagonalizável se e somente se for um múltiplo de . Sugestão: use o Teorema Espectral ou a
forma geral do polinômio mı́nimo (3.16). 6
Segue da afirmativa desse exercı́cio que matrizes triangulares superiores com diagonal principal
constante, ou seja, da forma
 
α A12 . . . A1(n−1) A1n
 0 α . . . A2(n−1) A2n 
 
 .. . . .
. 
A = . . .  ,
 
0 0 . . . α A(n−1)n 
0 0 ... 0 α
só são diagonalizáveis se todos os elementos acima da diagonal principal forem nulos, ou seja, se A ij = 0,
∀j > i. Naturalmente, a mesma afirmativa é válida para matrizes da forma AT , triangulares inferiores
com diagonal principal constante.
3.4.1 Diagonalização Simultânea de Matrizes

Uma matriz A ∈ Mat ( , n) é dita ser diagonalizada por uma matriz P ∈ Mat ( , n) se P −1 AP for
uma matriz diagonal.
Uma questão muito importante é saber quando duas matrizes diagonalizáveis podem ser diagona-
lizadas por uma mesma matriz P . A resposta é fornecida no próximo teorema.
Teorema 3.7 (Diagonalização Simultânea de Matrizes) Duas matrizes diagonalizáveis A e B ∈
Mat ( , n) podem ser diagonalizadas pela mesma matriz P ∈ Mat ( , n) se e somente se AB = BA,
ou seja, se e somente se comutarem entre si. 2
Prova. A parte fácil da demonstração é provar que se A e B podem ser diagonalizadas pela mesma
matriz P então A e B comutam entre si. De fato
P −1 (AB − BA)P = (P −1 AP )(P −1 BP ) − (P −1 BP )(P −1 AP ) = 0,
pois P −1 AP e P −1 BP são ambas diagonais e matrizes diagonais sempre comutam entre si (por que?).
Assim, P −1 (AB − BA)P = 0 e, portanto, AB = BA.
Vamos agora passar a mostrar que se AB = BA então ambas são diagonalizáveis por uma mesma
matriz P .
Sejam α1 , . . . , αr os r autovalores distintos de A e β1 , . . . , βs os s autovalores distintos de B.

Evocando o teorema espectral, A e B podem ser escritos de acordo com suas decomposições espec-
trais como r
X
A = αi EiA
i=1
e s
X
B = βj EjB ,
j=1
onde, de acordo com (3.24),

 −1  

Yr 
 r
Y 
EiA = (αi − αk )  (A − αk ) , i = 1, . . . , r (3.28)

 k=1 
 k=1
k6=i k6=i
e  −1  

Ys 
 s
Y 
EjB = (βj − βk )  (B − βk ) , j = 1, . . . , s. (3.29)

 k=1 
 k=1
k6=j k6=j
Como A e B comutam entre si e como EiA e EjB , dados em (3.28)-(3.29), são polinômios em A e B,
respectivamente, segue que EiA e EjB também comutam entre si para todo i e todo j.
Com isso, vamos definir
Qi, j = EiA EjB = EjB EiA
para i = 1, . . . , r e j = 1, . . . , s.
Note-se que os Qi, j ’s são projetores pois
Q2i, j = (EiA EjB )(EiA EjB ) = (EiA )2 (EjB )2 = EiA EjB = Qi, j .
Fora isso, é fácil ver que,
Qi, j Qk, l = δi, k δj, l Qi, j . (3.30)
Note-se também que

r X
X s
= Qi, j , (3.31)
i=1 j=1
pois ! !
r X
X s r X
X s r
X s
X
Qi, j = EiA EjB = EiA EjB = = .
i=1 j=1 i=1 j=1 i=1 j=1
Afirmamos que podemos escrever

r X
X s
A = γi,A j Qi, j (3.32)
i=1 j=1
e s
r X
X
B = γi,B j Qi, j , (3.33)
i=1 j=1
onde γi,A j = αi e γi,B j = βj . De fato, com essas definições,

r X
s r X
s r
! s
!
X X X X
γi,A j Qi, j = αi EiA EjB = αi EiA EjB = A = A.
i=1 j=1 i=1 j=1 i=1 j=1
Para B a demonstração é análoga.

Nas relações (3.32) e (3.33) é possı́vel fazer simplificações em função do fato de que nem todos os
projetores Qi, j são não-nulos. Seja Q1 . . . , Qt a lista dos projetores Qi, j não-nulos, ou seja,
{Q1 . . . , Qt } = {Qi, j | Qi, j 6= 0, i = 1, . . . , r e j = 1, . . . , s}.
É evidente por (3.30) que os Qk ’s são projetores e que
Qk Ql = δk, l Qk .
Por (3.31), tem-se

t
X
= Qk (3.34)
k=1
e por (3.32) e (3.33)

t
X
A = χA
k Qk (3.35)
k=1
t
X
B = χB
k Qk (3.36)
k=1
onde as constantes χA
k e χB
k estão relacionadas de modo óbvio com γi,A j e γi,B j , respectivamente.
Em (3.35) e (3.36) vemos que A e B, por serem diagonalizáveis e por comutarem entre si, têm
decomposições espectrais com os mesmos projetores espectrais. Note-se também que, pela observação
feita no tópico Projetores, à página 162 (vide equação (3.17)), tem-se 1 ≤ t ≤ n.
Vamos agora completar a demonstração que A e B podem ser diagonalizados por uma mesma matriz
invertı́vel P .
Seja Ek o subespaço dos autovetores de Qk com autovalor 1. Sub-espaços Ek ’s diferentes têm em
comum apenas o vetor nulo. De fato, se k 6= l e w é um vetor tal que Qk w = w e Ql w = w então, como
Qk Ql = 0 segue que
0 = (Qk Ql )w = Qk (Ql w) = Qk w = w.
Seja dk a dimensão do subespaço Ek e seja
u1k , . . . , udkk
um conjunto de dk vetores linearmente independentes em Ek . Notemos que dk coincide com a multiplici-

dade algébrica do autovalor 1 de Qk , pois, conforme diz a Proposição 3.11, o projetor Qk é diagonalizável
e, portanto, é uma matriz simples (Proposição 3.10).
P P
Como = tk=1 Qk , tem-se, tomando-se o traço, que n = tk=1 dk .
Pelas definições, temos que
Ql uak = δk, l uak , (3.37)
pois Qk uak = uak e, portanto, Ql uak = Ql (Qk uak ) = (Ql Qk )uak = 0 para k 6= l.
Afirmamos que o conjunto de vetores
u11 , . . . , ud11 , u12 , . . . , ud22 , . . . u1t , . . . , udt t (3.38)
é um conjunto de n vetores linearmente independentes. De fato, suponha que existam constantes c k, j

tais que
X t Xdk
ck, j ujk = 0.
k=i j=1
Aplicando-se à direita Ql terı́amos

dl
X
cl, j ujl = 0,
j=1
o que só é possı́vel se cl, j = 0 para todo j pois u1l , . . . , udl l , foram escolhidos linearmente independentes.
Como l é arbitrário, concluı́mos que cl, j = 0 para todo l e todo j, o que mostra que o conjunto de
vetores em (3.38) é linearmente independente.
Seja então a matriz P ∈ Mat ( , n) definida por
P = [[u11 , . . . , ud11 , u12 , . . . , ud22 , . . . u1t , . . . , udt t ]].
P é invertı́vel pois o conjunto (3.38) é linearmente independente (e, portanto, det(P ) 6= 0).
Tem-se,
AP = [[Au11 , . . . , Aud11 , Au12 , . . . , Aud22 , . . . , Au1t , . . . , Audt t ]]
Pt
Escrevendo A = l=1 χA
l Ql (3.35) e usando (3.37), temos
t
X
Auak = χA a A a
l Q l uk = χ k uk .
l=1
Assim,
A d1 A d1
AP = [[χA 1 A 1 A 1 A dt
1 u1 , . . . , χ1 u1 , χ2 u1 , . . . , χ2 u1 , . . . , χt ut , . . . , χt ut ]] = P DA ,
onde  
DA = diag χA , . . . , χA A A A A
1 , χ2 , . . . , χ2 , . . . , χt , . . . , χt .
| 1 {z } | {z } | {z }
d1 vezes d2 vezes dt vezes
Portanto,
P −1 AP = DA .
Analogamente,
BP = [[Bu11 , . . . , Bud11 , Bu12 , . . . , Bud22 , . . . Bu1t , . . . , Budt t ]].
Pt
Escrevendo B = l=1 χB
l Ql (3.36) temos,
B d1 B d2
BP = [[χB 1 B 1 B 1 B dt
1 u1 , . . . , χ1 u1 , χ2 u2 , . . . , χ2 u2 , . . . , χt ut , . . . , χt ut ]] = P DB ,
onde  
DB = diag χB , . . . , χB B B B B
1 , χ2 , . . . , χ2 , . . . , χt , . . . , χt .
| 1 {z } | {z } | {z }
d1 vezes d2 vezes dt vezes
Portanto,
P −1 BP = DB .
Isso provou que A e B são diagonalizáveis pela mesma matriz invertı́vel P . A demonstração do
Teorema 3.7 está completa.
3.5 Matrizes Auto-adjuntas, Normais e Unitárias
• A Adjunta de uma Matriz
Seja V um espaço vetorial dotado de um produto escalar h·, ·i e seja A : V → V um operador

linear. Um operador linear A∗ que para todos u, v ∈ V satisfaça
hu, Avi = hA∗ u, vi
é dito ser o operador adjunto de A. Em espaços vetoriais gerais não é óbvio (e nem sempre verdadeiro!)
que sempre exista o adjunto de um operador linear A dado. Há muitos casos, porém, nos quais isso
pode ser garantido8 . Aqui trataremos do caso dos espaços V = n com o produto escalar usual.
n
Sejam u = (u1 , . . . , un ) e v = (v1 , . . . , vn ) dois vetores de para os quais define-se o produto
escalar usual n
X
hu, vi = uk v k .
k=1
Um operador linear A é representado (na base canônica) por uma matriz cujos elementos de matriz
são Aij , com i, j ∈ {1, . . . , n}.
É um exercı́cio simples (faça!) verificar que o operador adjunto A∗ de A é representado (na base
canônica) por uma matriz cujos elementos de matriz são (A∗ )ij = Aji , com i, j ∈ {1, . . . , n}. Ou
seja, a matriz adjunta de A é obtida (na base canônica!) transpondo-se A e tomando-se o complexo
conjugado de seus elementos.
Os seguintes fatos são importantes:
8
Tal é o caso dos chamados operadores lineares limitados agindo em espaços de Hilbert, para os quais sempre é possı́vel
garantir a existência do adjunto.
n
Proposição 3.13 Se A e B são dois operadores lineares agindo em então
(αA + βB)∗ = αA∗ + βB ∗
para todos α, β ∈ . Fora isso,
(AB)∗ = B ∗ A∗ .
Por fim, vale para todo A que (A∗ )∗ = A. 2
Deixamos a demonstração como exercı́cio para o leitor.

A operação Mat ( , n) 3 A 7→ A∗ ∈ Mat ( , n) é demoninada operação de adjunção de matrizes.
Como vimos na Proposição 3.13, a operação de adjunção é anti-linear e é um anti-homomorfismo
algébrico.
• Os espectro e a operação de adjunção
Seja A ∈ Mat ( , n). Como já vimos, o espectro de A, σ(A), é o conjunto de raı́zes de seu
polinômio caracterı́stico, definido por pA (z) = det(z − A), z ∈ . Como para toda B ∈ Mat ( , n)
vale det(B ∗ ) = det(B) (por quê?), segue que pA (z) = det(z − A) = det(z − A∗ ) = pA∗ (z), ou seja,
pA∗ (z) = pA (z). Com isso, provamos a seguinte afirmação:
Proposição 3.14 Seja A ∈ Mat ( , n). Então, λ ∈ σ(A) se e somente se λ ∈ σ(A∗ ), ou seja, λ é um
autovalor de A se e somente se λ é um um autovalor de A∗ .
Em sı́mbolos, as afirmações acima são expressas pela igualdade σ(A) = σ(A∗ ).
• Matrizes Hermitianas, Normais e Unitárias
Vamos agora a algumas definições muito importantes.
Definição. Um operador linear em n é dito ser simétrico, Hermitiano ou auto-adjunto se A = A∗ , ou

seja, se para todos u, v ∈ V satisfizer
hu, Avi = hAu, vi.
Advertência. Em espaços vetoriais de dimensão finita as noções de operador simétrico, Hermitiano

ou auto-adjunto são sinônimas. Em espaços vetoriais de dimensão infinita, porém, há uma distinção
entre essas noções relativa a problemas com o domı́nio de definição de operadores.
Definição. Um operador linear em n

é dito ser normal se AA∗ = A∗ A. Ou seja, A é normal se comuta
com seu adjunto.
Definição. Um operador linear em n é dito ser unitário se A∗ A = AA∗ = . É claro que todo
operador unitário é normal e que um operador é unitário em n se e somente se A∗ = A−1 . Note que
se A é unitário então, para todos u, v ∈ V , tem-se
hAu, Avi = hu, vi.
n
Definição. Se A é um operador linear em define-se a parte real de A por
1
Re (A) = (A + A∗ )
2
e a parte imaginária de A por
1
Im (A) = (A − A∗ ).
2i
É claro que essas definições foram inspiradas nas relações análogas para números complexos. Note
também que
A = Re (A) + iIm (A).
É importante notar que para qualquer operador linear A em n sua parte real e imaginária são
ambas operadores Hermitianos: (Re (A))∗ = Re (A) e (Im (A))∗ = Im (A).
Para operadores normais tem-se a seguinte proposição, que será útil adiante e serve como caracte-
rização alternativa do conceito de operador normal.
n
Proposição 3.15 Um operador linear agindo em é normal se e somente se sua parte real comuta
com sua parte imaginária. 2
Deixamos a demonstração (elementar) como exercı́cio para o leitor.

A importância das definições acima reside no seguinte fato, que demonstraremos adiante: matrizes
Hermitianas e matrizes normais são diagonalizáveis. Antes de tratarmos disso, vamos discutir algumas
propriedades do espectro de matrizes Hermitianas e de matrizes unitárias.
• Os Autovalores de Matrizes Hermitianas e de Matrizes Unitárias
Os seguintes teoremas têm importância fundamental para o estudo de propriedades de matrizes

Hermitianas e de matrizes unitárias.
Teorema 3.8 Os autovalores de uma matriz Hermitiana são sempre números reais. 2
Prova. Seja A Hermitiana, λ um autovalor de A e v 6= 0 um autovetor de A com autovalor λ. Como

A é Hermitiana tem-se
hv, Avi = hAv, vi.
Como v é um autovetor, o lado esquerdo vale λhv, vi e o lado direito vale λhv, vi. Logo, (λ−λ)hv, vi =
0. Como v 6= 0 isso implica λ = λ, ou seja, λ é real.

2 1
Note-se que a recı́proca desse teorema é falsa. A matriz tem autovalores reais (2 e 3) mas
0 3
não é Hermitiana.
Para matrizes unitárias temos

Teorema 3.9 Os autovalores de uma matriz unitária são sempre números complexos de módulo 1. 2
Prova. Seja A unitária, λ um autovalor de A e v 6= 0 um autovetor de A com autovalor λ. Como A é

unitária tem-se
hAv, Avi = hv, vi.
Como v é um autovetor, o lado esquerdo vale λλhv, vi. Assim, (|λ|2 − 1)hv, vi = 0. Como v 6= 0 isso
implica |λ| = 1.
• Operadores Simétricos e Unitários. Ortogonalidade de Autovetores
Teorema 3.10 Os autovetores associados a autovalores distintos de uma matriz simétrica são ortogo-
nais entre si. 2
Prova. Seja A simétrica e λ1 , λ2 dois de seus autovalores, que suporemos distintos. Seja v1 autovetor
de A com autovalor λ1 e v2 autovetor de A com autovalor λ2 . Temos, por A ser simétrico,
hv1 , Av2 i = hAv1 , v2 i.
O lado esquerdo vale λ2 hv1 , v2 i e o lado direito λ1 hv1 , v2 i (lembre-se que λ1 é real). Assim
(λ2 − λ1 )hv1 , v2 i = 0.
Como λ2 6= λ1 , segue que hv1 , v2 i = 0, que é o que se queria provar.
Teorema 3.11 Os autovetores associados a autovalores distintos de uma matriz unitária são ortogo-
nais entre si. 2
Prova. Seja U unitária e sejam λ1 , λ2 dois de seus autovalores, sendo que suporemos λ1 6= λ2 . Seja v1
autovetor de U com autovalor λ1 e v2 autovetor de U com autovalor λ2 . Temos, por U ser unitário,
hU v1 , U v2 i = hv1 , U ∗ U v2 i = hv1 , v2 i.
O lado esquerdo vale λ2 λ1 hv1 , v2 i = λλ21 (lembre-se que λ1 é um número complexo de módulo 1 e,
portanto λ1 = λ−1
1 ). Assim
λ2
− 1 hv1 , v2 i = 0.
λ1
Como λ2 6= λ1 , segue que hv1 , v2 i = 0, que é o que se queria provar.
• Projetores Ortogonais
Um operador linear E agindo em n

é dito ser um projetor ortogonal se E 2 = E e se E ∗ = E.
Projetores ortogonais são importantes na decomposição espectral de matrizes auto-adjuntas, como
veremos.
Note-se que nem todo projetor é ortogonal. Por exemplo

1 0
E =
1 0
é um projetor (E 2 = E) mas não é ortogonal (E ∗ =

6 E). O mesmo vale para

1 0
E = .
2 0
Um exemplo importante de projetor ortogonal é representado por projetores sobre sub-espaços uni-
dimensionais
p gerados por vetores. Seja v um vetor cuja norma assumiremos ser 1, ou seja, kvk =
hv, vi = 1. Definimos o projetor Pv sobre o sub-espaço gerado por v por
Pv u := hv, ui v,
para todo vetor u. Provemos que Pv é um projetor ortogonal. Por um lado, tem-se
Pv2 u = hv, ui Pv v = hv, ui hv, vi v = hv, ui v = Pv u,
o que mostra que Pv2 = Pv . Por outro lado, para quaisquer vetores a e b, usando as propriedades de
linearidade, anti-linearidade e conjugação complexa do produto escalar, tem-se
ha, Pv bi = ha, hv, bi vi = hv, bi ha, vi = hha, vi v, bi = hhv, ai v, bi = hPv a, bi,
provando que Pv∗ = Pv . Isso mostra que Pv é um projetor ortogonal.

Um fato crucial sobre projetores como Pv é o seguinte. Se u e v são dois vetores ortogonais, ou seja,
se hu, vi = 0 então Pu Pv = Pv Pu = 0. Para provar isso notemos que para qualquer vetor a vale
Pu (Pv a) = Pu (hv, ai v) = hv, ai Pu v = hv, ai hu, vi u = 0.
O mesmo se passa para Pv (Pu a).
• Matrizes Auto-adjuntas e Diagonalizabilidade
Vamos aqui demonstrar a seguinte afirmação importante: toda matriz auto-adjunta é diagonalizável.
Uma outra demonstração (eventualmente mais simples) dessa afirmação pode ser encontrada na Seção
3.8.2, página 202. Vide Teorema 3.23, página 204.
Teorema 3.12 Se A ∈ Mat ( , n) é auto-adjunta então A é diagonalizável. Fora isso, A possui n
autovetores mutuamente ortogonais. A matriz P que diagonaliza A (ou seja, tal que P −1 AP é diagonal)
pode ser escolhida unitária, ou seja, tal que P −1 = P ∗ . 2
Prova. A demonstração que A é diagonalizável será feita construindo-se uma representação espectral
para A. Seja λ1 um autovalor de A e v1 um autovetor de A com autovalor λ1 normalizado de tal forma
que kv1 k = 1. Vamos definir um operador A1 por
A 1 = A − λ 1 Pv 1 .
Como A e Pv1 são auto-adjuntos e λ1 é real, segue que A1 é igualmente auto-adjunto.
Afirmamos que A1 v1 = 0 e que [v1 ]⊥ é um sub-espaço invariante por A1 . De fato,
A1 v1 = Av1 − λ1 Pv1 v1 = λ1 v1 − λ1 v1 = 0.
Fora isso, se w ∈ [v1 ]⊥ tem-se
hA1 w, v1 i = hw, A1 v1 i = 0,
mostrando que A1 w é também elemento de [v1 ]⊥ .
O operador A1 restrito a [v1 ]⊥ é também auto-adjunto (por que?). Seja λ2 um de seus autovalores
com autovetor v2 ∈ [v1 ]⊥ , que escolhemos com norma 1. Seja
A 2 = A 1 − λ 2 Pv 2 = A − λ 1 Pv 1 − λ 2 Pv 2 .
Como λ2 também é real A2 é igualmente auto-adjunto. Fora isso afirmamos que A2 anula os vetores
do sub-espaço [v1 , v2 ] e mantem [v1 , v2 ]⊥ invariante. De fato,
A2 v1 = Av1 − λ1 Pv1 v1 − λ2 Pv2 v1 = λ1 v1 − λ1 v1 − λ2 hv2 , v1 iv2 = 0
pois hv2 , v1 i = 0. Analogamente,
A2 v2 = A1 v2 − λ2 Pv2 v2 = λ2 v2 − λ2 v2 = 0.
Por fim, para quaisquer α, β ∈ e w ∈ [v1 , v2 ]⊥ tem-se
hA2 w, (αv1 + βv2 )i = hw, A2 (αv1 + βv2 )i = 0
Prosseguindo indutivamente, construiremos um conjunto de vetores v1 , . . . , vn , todos com norma
1 e com va ∈ [v1 , . . . , va−1 ]⊥ e um conjunto de números reais λ1 , . . . , λn tais que
A n = A − λ 1 Pv 1 − · · · − λ n Pv n
anula-se no sub-espaço [v1 , . . . , vn ]. Ora, como estamos em um espaço de dimensão n e os vetores vk
são mutuamente ortogonais, segue que [v1 , . . . , vn ] deve ser o espaço todo, ou seja, An = 0. Provamos
então que
A = λ 1 Pv 1 + · · · + λ n Pv n . (3.39)
Vamos provar agora que essa é a representação espectral de A. Como os v k ’s são mutuamente
ortogonais, é evidente que Pvk Pvl = δk, l Pvk . Resta-nos provar que Pv1 + · · · + Pvn = . Como
v1 , . . . , vn formam uma base, todo vetor x pode ser escrito como uma combinação linear
x = α 1 v1 + · · · + α n vn . (3.40)
Tomando-se o produto escalar com va , e usando o fato que os vk ’s são mutuamente ortogonais, tem-se
αa = hva , xi.
Assim, (3.40) pode ser escrita como
x = hv1 , xiv1 + · · · + hvn , xivn = Pv1 x + · · · + Pvn x = (Pv1 + · · · + Pvn ) x.
Como isso vale para todo vetor x, segue que
Pv 1 + · · · + P v n = .
Assim, A possui uma representação espectral como (3.18). Pelo Teorema Espectral 3.4, A é diagona-
lizável.
Por (3.39), vemos que Ava = λa va (verifique!). Logo os λa ’s são autovalores de A e os va ’s
seus autovetores. Assim, se A é auto-adjunto, podemos escontrar n autovetores de A mutuamente
ortogonais, mesmo que sejam autovetores com o mesmo autovalor. Isso generaliza o Teorema 3.10.
Pelo que já vimos A é diagonalizada por P −1 AP , onde podemos escolher P = [[v 1 , . . . , v n ]]. É fácil
verificar, porém, que P é unitária. De fato, é um exercı́cio simples (faça!) mostrar que
 
hv1 , v1 i · · · hv1 , vn i
 .. .. .. 
P ∗P =  . . . .
hvn , v1 i · · · hvn , vn i
Como hva , vb i = δa, b , a matriz do lado direito é igual a , mostrando que P ∗ P = P P ∗ = e que,
portanto, P é unitária.
Para concluir essa discussão, temos:

Proposição 3.16 Uma matriz A ∈ Mat ( , n) é auto-adjunta, se e somente se for diagonalizável por
uma transformação de similaridade unitária e se seus autovalores forem reais. 2
Prova. Se A ∈ Mat ( , n) é diagonalizável por uma transformação de similaridade unitária e seus

autovalores são reais, ou seja, existe P unitária e D diagonal real com P ∗ AP = D, então A = P DP ∗
e A∗ = P D ∗ P ∗ . Como D é diagonal e real, vale D ∗ = D e, portanto, A∗ = P DP ∗ = A, provando que
A é auto-adjunta. A recı́proca já foi provada acima.
• Matrizes Normais e Diagonalizabilidade
O teorema que afirma que toda matriz simétrica é diagonalizável tem a seguinte conseqüência:
Teorema 3.13 Se A ∈ Mat ( , n) é normal então A é diagonalizável. 2
Prova. Já vimos que toda matriz A pode ser escrita na forma A = Re (A) + iIm (A) onde Re (A)
e Im (A) são auto-adjuntas. Vimos também que se A é normal Re (A) e Im (A) comutam entre si
(Proposição 3.15). Pelo Teorema 3.7, Re (A) e Im (A) podem ser simultaneamente diagonalizados.
Observação. Como no caso auto-adjunto, o operador que faz a diagonalização pode ser escolhido
unitário. De fato, vale uma afirmativa ainda mais forte.
Teorema 3.14 Uma matriz A ∈ Mat ( , n) é normal se e somente se for diagonalizável por um
operador unitário. 2
Prova. Resta provar apenas que se A é diagonalizável por um operador unitário P então A é normal.
Seja D = P ∗ AP . Tem-se D ∗ = P ∗ A∗ P (por que?). Assim,
A∗ A − AA∗ = P D ∗ P ∗ P DP ∗ − P DP ∗ P D ∗ P ∗ = P (D ∗ D − DD ∗ )P ∗ = 0
já que D ∗ e D comutam por serem diagonais (duas matrizes diagonais quaisquer sempre comutam. Por
quê?). Isso completa a prova que A é normal.
Uma outra demonstração (eventualmente mais simples) dessa afirmação pode ser encontrada na
Seção 3.8.2, página 202. Vide Teorema 3.24, página 205.
3.6 Matrizes Triangulares

Uma matriz S ∈ Mat ( , n) é dita ser triangular superior se forem nulos os elementos abaixo da diagonal
principal, ou seja, se Sij = 0 sempre que i > j. Note que esses não precisam ser necessariamente os
únicos elementos nulos de S.
Uma matriz I ∈ Mat ( , n) é dita ser triangular inferior se forem nulos os elementos acima da
diagonal principal, ou seja, se Iij = 0 sempre que i < j. Note que esses não precisam ser necessariamente
os únicos elementos nulos de I.
Proposição 3.17 Matrizes triangulares superiores possuem as seguintes propriedades:
1. A matriz identidade é uma matriz triangular superior.
2. O produto de duas matrizes triangulares superiores é novamente uma matriz triangular superior.
3. O determinante de uma matriz triangular superior é o produto dos elementos da sua diagonal.
Assim, uma matriz triangular superior é invertı́vel se e somente se não tiver zeros na diagonal.
4. Se uma matriz triangular superior é invertı́vel, sua inversa é novamente uma matriz triangular
superior. 2
As afirmações acima permanecem verdadeiras trocando “matriz triangular superior” por “matriz tri-
angular inferior”.
Prova. Os três primeiros itens são elementares. Para provar o item 4 usa-se o fato bem conhecido (a
chamada “regra de Laplace9 ”) que para qualquer matriz A ∈ Mat ( , n) o elemento ij da sua matriz
9
inversa (se houver) é dado por

∆(A)ji
A−1 ij
= (−1)i+j , (3.41)
det(A)
onde ∆(A)ij é o determinante da matriz (n − 1) × (n − 1) obtida eliminando-se a i-ésima linha e a
j-ésima coluna da matriz A. (A matriz ∆(A) é por vezes denominada matriz dos co-fatores de A). É
fácil de constatar que se S é uma matriz triangular superior, tem-se ∆(S)ji = 0 se i > j. Logo, S −1 é
triangular superior, se existir.
As propriedades acima atestam que o conjunto das matrizes n × n triangulares superiores invertı́veis
forma um grupo, denominado por alguns autores Grupo de Borel10 de ordem n e denotado por GBn ( ).
O seguinte resultado sobre matrizes triangulares superiores será usado diversas vezes adiante.
Lema 3.2 Uma matriz triangular superior S ∈ Mat ( , n) é normal (ou seja, satisfaz SS ∗ = S ∗ S) se
e somente se for diagonal. 2
Prova. Se S é diagonal, S é obviamente normal pois S ∗ é também diagonal e matrizes diagonais sempre
comutam entre si. Provaremos a recı́proca, o que será feito por indução. Para n = 1 não há o que
provar. Se n = 2, S é da forma S = ( a0 cb ), com a, b, c ∈ . A condição SS ∗ = S ∗ S significa
2 2
|a| + |b|2 bc |a| ba
= ,
cb |c|2 ab |b|2 + |c|2
o que implica b = 0, provando que S é diagonal. Procedemos agora por indução, supondo n > 2 e que
o lema seja válido para matrizes (n − 1) × (n − 1) triangulares superiores normais. Se S ∈ Mat ( , n)
é triangular superior, S é da forma
   
b 1 0
a bT  ..   .. 
S= , sendo a ∈ , b =  .  , = . ,
C
bn−1 0
ambas b e com n − 1 linhas, sendo C uma matriz (n − 1) × (n − 1) triangular superior. A condição

SS ∗ = S ∗ S significa 2 2
|a| + bT b bT C ∗ |a| abT
= ,
Cb CC ∗ ab B + C ∗ C
sendo B a matriz cujos elementos são Bij = bi bj . Disso extraı́mos que bT b = 0, ou seja, |b1 |2 + · · · +
|bn−1 |2 = 0 e, portanto, b = . Com isso, ficamos com CC ∗ = C ∗ C, ou seja, C é normal. Como C é
triangular superior então, pela hipótese indutiva, C é diagonal. Isso, mais o fato provado que b é nulo,
implica que S é diagonal, provando o lema.
10
Armand Borel (1923-2003).
3.7 O Teorema de Decomposição de Jordan e a Forma Canônica

de Matrizes
Nas seções anteriores demonstramos condições que permitem diagonalizar certas matrizes. Nem todas
as matrizes, porém, podem ser diagonalizadas. Podemos nos perguntar, no entanto, quão próximo
podemos chegar de uma matriz diagonal.
Mostraremos nesta seção que toda matriz A pode ser levada (por uma transformação de simila-
ridade) à uma forma próxima à diagonal, denominada forma canônica de Jordan 11 . Resumidamente
(a afirmação precisa será apresentada mais adiante), mostraremos que existe uma matriz P tal que
P −1 AP tem a seguinte forma:
 
λ1 γ 1 0 0 · · · 0 0
 0 λ2 γ2 0 · · · 0 0 
 
 0 0 λ 3 γ3 · · · 0 0 
 
 .. 
 0 0 0 λ4 . 0 0 , (3.42)
. .. .. .. . . .. .. 
 .. . . . . . 
. 

 0 0 0 0 · · · λn−1 γn−1 
0 0 0 0 ··· 0 λn
onde λ1 , . . . , λn são os autovalores de A e onde os γi valem 1 ou 0, mas que forma que a matriz
diagonal  
λ1 0 0 0 ··· 0 0
 0 λ2 0 0 ··· 0 0
 
 0 0 λ3 0 ··· 0 0
 
 .. 
 0 0 0 λ4 . 0 0 , (3.43)
. .. .. .. .. .. .. 
 .. . . . . . .
 
0 0 0 0 · · · λn−1 0 
0 0 0 0 ··· 0 λn
e a matriz supra-diagonal  
0 γ1 0 0 ··· 0 0
0 0 γ 2 0 ··· 0  0
 
0 0 0 γ 3 ··· 0  0
 
 .. 
0 0 0 0 . 0 0 , (3.44)
. . . . .. .. .. 
 .. .. .. .. . . . 
 
0 0 0 0 ··· 0 γn−1 
0 0 0 0 ··· 0 0
comutam entre si.
O resultado central que provaremos, e do qual as afirmativas feitas acima seguirão, diz que toda
matriz A pode ser levada por uma transformação do tipo P −1 AP a uma matriz da forma D + N , onde
11
Marie Ennemond Camille Jordan (1838-1922). A forma canônica de matrizes foi originalmente descoberta por
Weierstrass (Karl Theodor Wilhelm Weierstrass (1815-1897)) e redescoberta por Jordan em 1870.
D é diagonal e N é nilpotente (ou seja, tal que N q = 0 para algum q) e tais que D e N comutam:
DN = N D. Essa é a afirmativa principal do célebre “Teorema da Decomposição de Jordan”, que
demonstraremos nas páginas que seguem.
Esse Teorema da Decomposição de Jordan generaliza os teoremas sobre diagonalizabilidade de
matrizes: para matrizes diagonalizáveis tem-se simplesmente N = 0 para um P conveniente.
Antes de nos dedicarmos à demonstração desses fatos precisaremos de alguma preparação.
3.7.1 Resultados Preparatórios
• Somas Diretas de Sub-Espaços
Seja V um espaço vetorial e V1 e V2 dois de seus sub-espaços. Dizemos que V é a soma direta de V1
e V2 se todo vetor v de V puder ser escrito de modo único da forma v = v1 + v2 com v1 ∈ V1 e v2 ∈ V2 .
Se V é a soma direta de V1 e V2 escrevemos V = V1 ⊕ V2 .
• Sub-espaços Invariantes
n
Um subespaço E de é dito ser invariante pela ação de uma matriz A, se Av ∈ E para todo v ∈ E.
Se V = V1 ⊕ V2 e tanto V1 quanto V2 são invariantes pela ação de A, escrevemos A = A1 ⊕ A2 onde
Ai é A restrita a Vi . Se escolhermos uma base em V da forma {v1 , . . . , vm , vm+1 , . . . , vn }, onde
{v1 , . . . , vm } é uma base em V1 e {vm+1 , . . . , vn } é uma base em V2 , então nessa base A terá a forma

A1 m, n−m
A = . (3.45)
n−m, m A2
onde A1 ∈ Mat ( , m) e A2 ∈ Mat ( , n − m).
E. 3.21 Exercı́cio. Justifique a forma (3.45). 6
A representação (3.45) é dita ser uma representação em blocos diagonais de A, os blocos sendo as
sub-matrizes A1 e A2 .
Um fato relevante que decorre imediatamente de (3.45) e da Proposição 3.1, página 143, e que
usaremos freqüentemente adiante, é que se A = A1 ⊕ A2 então
det(A) = det(A1 ) det(A2 ).
• Operadores Nilpotentes
Seja V um espaço vetorial e N : V → V um operador linear agindo em V . O operador N é dito ser

nilpotente se existir um inteiro positivo q tal que N q = 0. O menor q para o qual N q = 0 é dito ser o
ı́ndice de N .
Vamos a alguns exemplos.  

0 1 0
N = 0 0 1
0 0 0
é uma matriz nilpotente de ı́ndice 3.
 
0 a c
N = 0 0 b 
0 0 0
com a 6= 0 e b 6= 0 é uma matriz nilpotente de ı́ndice 3.
  

0 0 0 0 1 0
N =  0 0 1 e N =  0 0 0
0 0 0 0 0 0
são matrizes nilpotentes de ı́ndice 2.
O seguinte fato sobre os autovalores de operadores nilpotentes será usado adiante.

Proposição 3.18 Se N ∈ Mat ( , n) é nilpotente então seus autovalores são todos nulos. Isso implica
que seu polinômio caracterı́stico é qN (x) = xn , x ∈ . Se o ı́ndice de N é q então o polinômio mı́nimo
de N é mN (x) = xq , x ∈ . 2
No Corolário 3.2, página 193, demonstraremos que uma matriz é nilpotente se e somente se seus
autovalores forem todos nulos.
Prova da Proposição 3.18. Se N = 0 o ı́ndice é q = 1 e tudo é trivial. Seja N 6= 0 com ı́ndice q > 1.
Seja v 6= 0 um autovetor de N com autovalor λ: N v = λv. Isso diz que 0 = N q v = λq v. Logo λq = 0
e, obviamente, λ = 0. É claro então que qN (x) = xn . Que o polinômio mı́nimo é mN (x) = xq segue
do fato que mN (x) deve ser um divisor de qn (x) (isso segue do Teorema 3.1 junto com o Teorema de
Hamilton-Cayley, Teorema 3.2). Logo mN (x) é da forma xk para algum k ≤ n. Mas o menor k tal que
mN (N ) = N k = 0 é, por definição, igual a q. Isso completa a prova.
Mais sobre matrizes nilpotentes será estudado na Seção 3.7.3 onde, em particular, discutiremos a
chamada forma canônica de matrizes nilpotentes.
• O Núcleo e a Imagem de um Operador Linear

Seja V um espaço vetorial e A : V → V um operador linear agindo em V .

O núcleo de A é definido como o conjunto de todos os vetores que são anulados por A:
N(A) = {x ∈ V | Ax = 0}.
A imagem de A é definida por
R(A) = {x ∈ V | ∃ y ∈ V tal que x = Ay}.
Afirmamos que N(A) e R(A) são dois sub-espaços de V . Note-se primeiramente que 0 ∈ N(A) e
0 ∈ R(A) (por que?). Fora isso, se x e y ∈ N(A) então, para quaisquer escalares α e β,
A(αx + βy) = αAx + βAy = 0,
provando que combinações lineares αx+βx0 também pertencem a N(A). Analogamente se x e x0 ∈ R(A)
então existem y e y 0 ∈ V com x = Ay, x0 = Ay 0 . Logo
αx + βx0 = A(αy + βy 0 ),
provando que combinações lineares αx + βy também pertencem a R(A).

Para um operador A fixado, e k ∈ , vamos definir
Nk = N(Ak )
e
Rk = R(Ak ).
Esses sub-espaços Nk e Rk são invariantes por A. De fato, se x ∈ Nk , então Ak (Ax) = A(Ak x) = A0 = 0,
mostrando que Ax ∈ Nk . Analogamente, se x ∈ Rk então x = Ak y para algum vetor y. Logo,
Ax = A(Ak y) = Ak (Ay), mostrando que Ax ∈ Rk .
Afirmamos que
Nk ⊂ Nk+1 (3.46)
e que
Rk ⊃ Rk+1 .
As demonstrações dessas afirmativas são quase banais. Se x ∈ Nk então Ak x = 0. Isso obviamente
implica Ak+1 x = 0. Logo x ∈ Nk+1 e, portanto, Nk ⊂ Nk+1 . Analogamente, se x ∈ Rk+1 então existe y
tal que x = Ak+1 y. Logo x = Ak (Ay), o que diz que x ∈ Rk . Portanto Rk+1 ⊂ Rk .
Isso diz que os conjuntos Nk formam uma cadeia crescente de conjuntos:
{0} ⊂ N1 ⊂ N2 ⊂ · · · ⊂ Nk ⊂ · · · ⊂ V, (3.47)
e os Rk formam uma cadeia decrescente de conjuntos:
V ⊃ R1 ⊃ R2 ⊃ · · · ⊃ Rk ⊃ · · · ⊃ {0}. (3.48)
Consideremos a cadeia crescente (3.47). Como os conjuntos Nk são sub-espaços de V , é claro que a
cadeia não pode ser estritamente crescente se V for um espaço de dimensão finita, ou seja, deve haver
um inteiro positivo p tal que Np = Np+1 . Seja p o menor número inteiro para o qual isso acontece.
Afirmamos que para todo k ≥ 1 vale Np = Np+k .
Vamos provar isso. Se x ∈ Np+k então Ap+k x = 0, ou seja, Ap+1 (Ak−1 x) = 0. Logo, Ak−1 x ∈ Np+1 .
Dado que Np = Np+1 , isso diz que Ak−1 x ∈ Np , ou seja, Ap (Ak−1 x) = 0. Isso, por sua vez, afirma que
x ∈ Np+k−1 . O que fizemos então foi partir de x ∈ Np+k e concluir que x ∈ Np+k−1 . Se repetirmos
a argumentação k vezes concluiremos que x ∈ Np . Logo, Np+k ⊂ Np . Por (3.46) tem-se, porém, que
Np ⊂ Np+k e, assim, Np+k = Np .
Assim, a cadeia (3.47) tem, no caso de V ter dimensão finita, a forma
{0} ⊂ N1 ⊂ N2 ⊂ · · · ⊂ Np = Np+1 = · · · = Np+k = · · · ⊂ V. (3.49)
Como dissemos, p será daqui por diante o menor inteiro para o qual Np = Np+1 . O lema e o teorema
que seguem têm grande importância na demonstração do Teorema de Decomposição de Jordan.
Lema 3.3 Com as definições acima, Np ∩ Rp = {0}, ou seja, os sub-espaços Np e Rp têm em comum
apenas o vetor nulo. 2
Demonstração. Seja x tal que x ∈ Np e x ∈ Rp . Isso significa que Ap x = 0 e que existe y tal que
x = Ap y. Logo, A2p y = Ap x = 0, ou seja, y ∈ N2p . Pela definição de p tem-se que N2p = Np . Assim,
y ∈ Np . Logo Ap y = 0. Mas, pela própria definição de y valia que Ap y = x. Logo x = 0.
Esse lema tem a seguinte conseqüência importante.

Teorema 3.15 Com as definições acima vale que V = Np ⊕ Rp , ou seja, cada x ∈ V pode ser escrito
de modo único na forma x = xn + xr , onde xn ∈ Np e xr ∈ Rp . 2
Demonstração. Seja m a dimensão de Np e seja {u1 , . . . , um } uma base em Np . Vamos estender essa
base, incluindo vetores {vm+1 , . . . , vn } de modo que {u1 , . . . , um , vm+1 , . . . , vn } seja uma base
em V . Afirmamos que {Ap vm+1 , . . . , Ap vn } é uma base em Rp . Seja x ∈ Rp e seja y ∈ V tal que
x = Ap y. Como todo vetor de V , y pode ser escrito como combinação linear de elementos da base
{u1 , . . . , um , vm+1 , . . . , vn }:
Xm Xn
y = α i ui + αi v i .
i=1 i=m+1
Logo,
m
X n
X n
X
p p
x = α i A ui + αi A v i = αi A p v i . (3.50)
i=1 i=m+1 i=m+1
Os vetores {Ap vm+1 , . . . , Ap vn } são linearmente independentes. Isso se mostra com o seguinte argu-
mento. Se existirem escalares βm+1 , . . . , βn tais que
n
X
βi Ap vi = 0,
i=m+1
então terı́amos !
n
X
Ap βi v i = 0,
i=m+1
ou seja,
n
X
βi v i ∈ N p .
i=m+1
Isso implica que existem constantes γ1 , . . . , γm tais que

n
X m
X
βi v i = γ i ui ,
i=m+1 i=1
pois os vetores {u1 , . . . , um } são uma base em Np . Ora, como {u1 , . . . , um , vm+1 , . . . , vn } são linear-
mente independentes, segue que os βi ’s e os γj ’s são todos nulos. Isso prova que {Ap vm+1 , . . . , Ap vn }
são linearmente independentes e, portanto, por (3.50), formam uma base em Rp .
Isso incidentalmente provou que a dimensão de Rp é n − m. Temos, portanto, que
dim (Np ) + dim (Rp ) = dim (V ) .
Para i = m + 1, . . . , n defina-se ui = Ap vi . Afirmamos que o conjunto de vetores
{u1 , . . . , um , um+1 , . . . , un } = {u1 , . . . , um , Ap vm+1 , . . . , Ap vn }
é também linearmente independente e, portanto, forma uma base em V . Suponhamos que haja cons-
tantes escalares α1 , . . . , αn tais que
n m n
!
X X X
0 = α i ui = α i ui + A p αi v i .
i=1 i=1 i=m+1
Isso implica, obviamente, !

m
X n
X
αi ui = −Ap αi v i .
i=1 i=m+1
O lado esquerdo dessa igualdade é um elemento de Np (pois u1 , . . . , um são uma base em Np ), enquanto
que o lado esquerdo é obviamente um elemento da imagem de Ap , ou seja, de Rp . Contudo, já vimos
(Lema 3.3) que o único vetor que Np e Rp têm em comum é o vetor nulo. Logo,
m
X
α i ui = 0 (3.51)
i=1
e n
X
αi Ap vi = 0. (3.52)
i=m+1
A relação (3.51) implica α1 = · · · = αm = 0, pois {u1 , . . . , um } é uma base em Np . A relação (3.52)

implica αm+1 = · · · = αn = 0, pois {Ap v1 , . . . , Ap vm } é uma base em Rp . Assim, todos os αi ’s são
nulos, provando que {u1 , . . . , um , um+1 , . . . , un } = {u1 , . . . , um , Ap vm+1 , . . . , Ap vn } é um

conjunto de n vetores linearmente independentes.
Conseqüentemente, todo x ∈ V pode ser escrito na forma
n m n
!
X X X
x = α i ui = α i ui + A p αi v i .
i=1 i=1 i=m+1
| {z } | {z }
xn ∈Np xr ∈Rp
Provar a unicidade dessa decomposição fica como exercı́cio. Isso completa a demonstração.
Uma das coisas que o teorema que acabamos de demonstrar diz é que, dado um operador A, o
espaço V pode ser decomposto em uma soma direta de dois sub-espaços, invariantes por A: um onde
A é nilpotente, Np , e outro onde A é invertı́vel, Rp . A é nilpotente em Np pois Ap x = 0 para todo
elemento x de Np . A é invertı́vel em Rp pois se x ∈ Rp é tal que Ax = 0 isso implica x ∈ N1 ⊂ Np .
Mas x só pode pertencer a Np e a Rp se for nulo. Logo, em Rp , Ax = 0 se e somente se x = 0, provando
que A é invertı́vel12 . Para referência futura formulemos essa afirmativa na forma de um teorema:
Teorema 3.16 Se A é um operador linear não-nulo agindo em um espaço vetorial V = n então é
possı́vel decompor V em dois sub-espaços invariantes por A, V = S ⊕ T, de forma que A restrito a S é
nilpotente, enquanto que A restrito a T é invertı́vel. 2
Esse será o teorema básico do qual extrairemos a demonstração do Teorema de Decomposição de

Jordan.
3.7.2 O Teorema da Decomposição de Jordan

Chegamos agora ao resultado mais importante desta seção, o Teorema da Decomposição de Jordan 13 ,
um importante teorema estrutural sobre matrizes de importância em vários campos, por exemplo na
teoria das equações diferenciais ordinárias. Para tais aplicações, vide Capı́tulo 6, página 292.
O Teorema da Decomposição de Jordan também tem certa relevância na Teoria de Grupos, e o
usaremos para provar que toda matriz n × n complexa invertı́vel (ou seja, todo elemento do grupo
GL( , n)) pode ser escrita como exponencial de outra matriz (Proposição 4.11, página 224). No
Capı́tulo 4 usaremos o Teorema da Decomposição de Jordan para provar a identidade útil det(e A ) =
eTr (A) , válida para qualquer matrix n × n real ou complexa. (Proposição 4.7, página 222).
• Enunciado e Demonstração do Teorema da Decomposição de Jordan
Teorema 3.17 (Teorema da Decomposição de Jordan) Seja A um operador linear agindo no

espaço V = n e seja {α1 , . . . , αr } o conjunto de seus autovalores distintos. Então existem r
12
Lembre-se que esse argumento só funciona em espaços vetoriais V que tenham dimensão finita, o que estamos supondo
aqui.
13
Marie Ennemond Camille Jordan (1838-1922). A forma canônica de matrizes (que será discutida mais adiante) foi
originalmente descoberta por Weierstrass (Karl Theodor Wilhelm Weierstrass (1815-1897)) e redescoberta por Jordan
em 1870.
sub-espaços S1 , . . . , Sr tais que V = S1 ⊕ . . . ⊕ Sr e tais que cada Si é invariante por A. Ou seja,

A = A1 ⊕ . . . ⊕ Ar , onde Ai é A restrita a Si . Fora isso, cada Ai , é da forma Ai = αi i + Ni , onde i é
a matriz identidade em Si e onde Ni é nilpotente. Por fim, a dimensão si de cada subespaço Si é igual
à multiplicidade algébrica do autovalor αi . 2
Demonstração. Seja {α1 , . . . , αr } o conjunto dos autovalores distintos de A e seja ni a multiplicidade

algébrica do autovalor αi . Seja A1 = A − α1 . Pelo Teorema 3.16, página 190, V pode ser escrito como
V = S1 ⊕ T1 , onde S1 e T1 são invariantes por A1 , sendo A1 nilpotente em S1 e invertı́vel em T1 . Assim,
A1 é da forma A1 = N1 ⊕ M1 com N1 nilpotente e M1 invertı́vel. Logo
A = α1 + A1 = (α1 S1 + N1 ) ⊕ (α1 T1 + M1 ), (3.53)
onde S1 é a matriz identidade em S1 etc. Vamos mostrar que a dimensão de S1 é igual à multiplicidade
algébrica de α1 . Por (3.53) o polinômio caracterı́stico de A é
qA (λ) = det(λ − A) = det((λ − α1 ) S1 − N1 ) det((λ − α1 ) T1 − M1 ).
Se qN1 denota o polinômio caracterı́stico de N1 , tem-se
det((λ − α1 ) S1 − N1 ) = qN1 (λ − α1 ) = (λ − α1 )s1 ,
onde, na última igualdade, usamos a Proposição 3.18, página 186, sobre a forma do polinômio carac-
terı́stico de uma matriz nilpotente. Daı́, segue que
qA (λ) = (λ − α1 )s1 qM1 (λ − α1 ),
sendo qM1 o polinômio caracterı́stico de M1 . Como M1 é invertı́vel, M1 não tem o zero como autovalor.
Logo, qM1 (0) 6= 0. Portanto s1 é igual à multiplicidade de α1 como raiz de qA , ou seja, é igual a n1 , a
multiplicidade algébrica de α1 .
A idéia agora é prosseguir decompondo agora o operador α1 T1 + M1 que aparece em (3.53) da
mesma maneira como fizermos acima com A.
Seja A0 = α1 T1 + M1 e que age em T1 , que é um espaço de dimensão n − n1 . Definimos A2 =
A 0 − α 2 T1 .
Evocando novamente o Teorema 3.16, página 190, T1 pode ser escrito como T1 = S2 ⊕ T2 , onde S2
e T2 são invariantes por A2 , sendo A2 nilpotente em S2 e invertı́vel em T2 . Assim, V = S1 ⊕ S2 ⊕ T2 .
Agindo em T1 = S2 ⊕ T2 , A2 é da forma A2 = N2 ⊕ M2 com N2 nilpotente e M2 invertı́vel. Logo
A0 = α 2 T1 + A2 = (α2 S2 + N2 ) ⊕ (α2 T2 + M2 ). (3.54)
Vamos, como acima, mostrar que a dimensão de S2 é igual à multiplicidade algébrica de α2 .

Pela definição,
A = (α1 S1 + N1 ) ⊕ A0 = (α1 S1 + N1 ) ⊕ (α2 S2 + N2 ) ⊕ (α2 T2 + M2 ).
Logo,
qA (λ) = det ((λ − α1 ) S1 − N1 ) det ((λ − α2 ) S2 − N2 ) det ((λ − α2 ) T2 − M2 ).
Portanto, pelos mesmos argumentos usados acima,

qA (λ) = (λ − α1 )n1 (λ − α2 )s2 qM2 (λ − α2 ).
Como M2 é invertı́vel, M2 não tem autovalor zero e, assim, qM2 (0) 6= 0. Logo, s2 = n2 . T2 é assim um
sub-espaço de dimensão n − n1 − n2 .
Prosseguindo nas mesmas linhas, após r passos chegaremos a um sub-espaço Tr de dimensão n −
n1 − · · · − nr = 0 (por (3.5), página 145). Aı́, teremos V = S1 ⊕ · · · ⊕ Sr , onde cada Si tem dimensão
ni e
A = (α1 S1 + N1 ) ⊕ · · · ⊕ (αr Sr + Nr )
onde os Ni ’s são todos nilpotentes. Isso completa a demonstração.
Um corolário importante do Teorema de Decomposição de Jordan é o seguinte:

Teorema 3.18 Para toda matriz A ∈ Mat ( , n) existe uma matriz invertı́vel P ∈ Mat ( , n) tal que
P −1 AP = D + N , onde D é uma matriz diagonal formada pelos autovalores de A e N é uma matriz
nilpotente e de tal forma que D e N comutam: DN = N D.
Conseqüentemente, toda matriz A ∈ Mat ( , n) pode ser escrita na forma A = A d + An com
Ad An = An Ad , sendo Ad diagonalizável e An nilpotente, a saber, Ad = P DP −1 e An = P N P −1 , com
D e N dados acima. 2
Demonstração do Teorema 3.18. O Teorema 3.17 está dizendo que, numa base conveniente, A tem a
forma de blocos diagonais
 
α1 s 1 + N 1 0 ··· 0
   
A1 0 · · · 0  
 0 α 2 s2 + N 2 · · · 0 
 0 A2 · · · 0   
   
A =  .. .. . . ..  =  , (3.55)
 . . . .   .. .. . . .. 
 . . . . 
0 0 · · · Ar  
 
0 0 · · · α r sr + N r
ou seja,
A = D + N,
onde  
α1 s 1 0 ··· 0  
 0 α · · · 0 
 2 s2 
D =  .. .. . . . . , α1 , . . . , αr , . . . , αr 
..  = diag |α1 , .{z } | {z }
 . . . . 
s1 vezes sr vezes
0 0 · · · α r sr
e  
N1 0 · · · 0
 0 N2 · · · 0 
 
N =  .. .. . . ..  . (3.56)
 . . . . 
0 0 · · · Nr
Acima si é a dimensão do sub-espaço Si .

É fácil de se ver que N é uma matriz nilpotente, pois se o ki é o ı́ndice de Ni (ou seja, ki é o menor
inteiro positivo para o qual Niki = 0), então para k := max (k1 , . . . , kr ) tem-se
 
(N1 )k 0 ··· 0
 0 (N2 )k · · · 0 
 
N k =  .. .. .. ..  = 0.
 . . . . 
0 0 · · · (Nr )k
Em verdade, k = max (k1 , . . . , kr ) é o ı́ndice de N (por que?).

Por fim, como cada Ni comuta com αi si , fica claro que D e N comutam. Isso completa a demons-
tração.
Corolário 3.2 Uma matriz M ∈ Mat ( , n) é nilpotente se e somente se todos os seus autovalores
forem nulos. 2
Prova. A Proposição 3.18, página 186, afirma que se M é nilpotente todos os seus autovalores são
nulos. O Teorema 3.18, página 192, afirma que se os autovalores de M são nulos, então existe P tal
que P −1 M P = N , nilpotente. Isso implica que M é nilpotente.
3.7.3 Matrizes Nilpotentes e sua Representação Canônica

Os teoremas que estudamos acima nesta seção revelam a importância de matrizes nilpotentes. Um fato
relevante é que elas podem ser representadas de uma forma especial, denominada forma canônica, da
qual traremos logo abaixo. Antes, alguma preparação se faz necessária.
Seja N ∈ Mat ( , n) uma matriz nilpotente de ı́ndice q, ou seja, N q = 0, mas N q−1 6= 0. Para uso
futuro, provemos o seguinte lema:
Lema 3.4 Seja N uma matriz nilpotente de ı́ndice q. Estão existe um vetor v 6= 0 tal que os q vetores
v, N v, N 2 v, ..., N q−1 v , (3.57)
são linearmente independentes. Fora isso, o subespaço q-dimensional J v, q := hv, N v, N 2 v, . . . , N q−1 vi

de V gerado por esses q vetores é invariante por N . 2
Prova. Se q = 1, então N = 0 e não há nada a provar, pois a afirmação é trivialmente verdadeira para
qualquer v 6= 0. Seja então q > 1 (em cujo caso N 6= 0, trivialmente). Sabemos, por hipótese, que
a matriz N q−1 é não-nula. Isso significa que existe pelo menos um vetor v 6= 0 tal que N q−1 v 6= 0.
Fixemos um tal vetor. É imediato que os vetores N v, N 2 v, . . . , N q−1 v são todos não-nulos pois,
se tivéssemos N j v = 0 para algum 1 ≤ j < q − 1, então, aplicando-se N q−1−j à esquerda, terı́amos
N q−1 v = 0, uma contradição.
Sejam agora α1 , . . . , αq escalares tais que
α1 v + α2 N v + α3 N 2 v + · · · + αq N q−1 v = 0. (3.58)
Aplicando-se N q−1 nessa igualdade e lembrando que N q = 0, concluı́mos que α1 N q−1 v = 0. Como
N q−1 v 6= 0, segue que α1 = 0 e, com isso, (3.58) fica
α2 N v + α3 N 2 v + · · · + αq N q−1 v = 0. (3.59)
Aplicando agora N q−2 nessa igualdade concluı́mos que α2 = 0. Prosseguindo, concluı́mos depois de
q passos que todos os escalares αj são nulos. Isso prova que os q vetores de (3.57) são linearmente
independentes.
Que o subespaço Jv, q definido acima é invariante por N é evidente pois, para quaisquer escalares
β1 , . . . , βq , tem-se

N β1 v + β2 N v + · · · + βq N q−1 v = β1 N v + β2 N 2 v + · · · + βq−1 N q−1 v ∈ Jv, q .
O seguinte teorema é central para o que segue.

Teorema 3.19 Se N é uma matriz nilpotente de ı́ndice q agindo em V e v um vetor com a propriedade
que N q−1 v 6= 0, então existe um subespaço K de V tal que Jv, q ∩ K = {0}, tal que V = Jv, q ⊕ K e tal
que K é também invariante por N . 2
Prova.14 A prova é feita por indução em q. Note-se que se q = 1, então N = 0 e a afirmativa é trivial,
pois podemos tomar como v qualquer vetor não-nulo, Jv, q seria o subespaço gerado por esse v e K o
subespaço complementar a v, que é trivialmente invariante por N , pois N = 0.
Vamos supor então que a afirmação seja válida para matrizes nilpotentes de ı́ndice q − 1 e provar
que a mesma é válida para matrizes nilpotentes de ı́ndice q. O que desejamos é construir um subespaço
K com as propriedades desejadas, ou seja, tal que V = Jv, q ⊕ K, sendo K invariante por N .
Seja V0 = R(N ) o conjunto imagem de N . Sabemos que V0 é um subespaço de V e que é invariante
por N . Fora isso, N é nilpotente de ı́ndice q − 1 agindo em V0 (por que?)
Seja v0 = N v ∈ V0 . É claro que N q−2 v0 = N q−1 v 6= 0. Assim, pelo Lema 3.57, o subespaço
(q − 1)-dimensional
Jv0 , q−1 = hv0 , N v0 , . . . , N q−2 v0 i = hN v, N 2 v, . . . , N q−1 vi = JN v, q−1 ,
que é um sub-espaço de V0 , é invariante por N e, da hipótese indutiva, concluı́mos que existe um

subespaço K0 de V0 que é invariante por N tal que JN v, q−1 ∩ K0 = {0} e tal que V0 = JN v, q−1 ⊕ K0 .
Seja agora K1 := {x ∈ V | N x ∈ K0 }. Vamos provar a seguinte afirmação:
14
Extraı́da, com modificações, de [52].
I. Todo vetor x de V pode ser escrito na forma x = y + z onde y ∈ Jv, q e z ∈ K1 .

Para provar isso, notemos que para qualquer x ∈ V vale certamente que N x ∈ V0 . Portanto,
como pela hipótese indutiva V0 = JN v, q−1 ⊕ K0 , podemos escrever N x = y 0 + z 0 , com y 0 ∈ JN v, q−1
e z 0 ∈ K0 . Como y 0 ∈ JN v, q−1 , y 0 é da forma de uma combinação linear y 0 = α1 N v + · · · +
αq−1 N q−1 v = N y, onde y := α1 v + α2 N v + · · · + αq−1 N q−2 v é um elemento de Jv, q . Logo,
z 0 = N (x − y). Como z 0 ∈ K0 , segue que z := x − y ∈ K1 . Assim, x = y + z, com y ∈ Jv, q e
z ∈ K1 . Isso provou I.
Note que a afirmação feita em I não significa que V = Jv, q ⊕ K1 , pois os sub-espaços Jv, q e K1
podem ter uma intersecção não-trivial. Tem-se, porém, o seguinte:
II. Jv, q ∩ K0 = {0}.

Provemos essa afirmação. Seja x ∈ Jv, q ∩ K0 . Como x ∈ Jv, q , x é da forma x = α1 v + α2 N v +
· · · + αq N q−1 v. Logo N x = α1 N v + α2 N 2 v + · · · + αq−1 N q−1 v ∈ JN v, q−1 . Agora, como x ∈ K0 e,
por hipótese, K0 é invariante por N , segue que N x ∈ K0 . Logo, N x ∈ JN v, q−1 ∩ K0 . Todavia,
mencionamos acima que JN v, q−1 ∩ K0 = {0}. Logo, N x = 0, ou seja, 0 = N x = α1 N v + α2 N 2 v +
· · · + αq−1 N q−1 v. Como os vetores N v, . . . , N q−1 v são linearmente independentes, concluı́mos
que α1 = · · · αq−1 = 0. Logo, x = αq N q−1 v. Isso significa que x ∈ JN v, q−1 . Demonstramos,
então, que se x ∈ Jv, q ∩ K0 então x ∈ JN v, q−1 ∩ K0 mas, como JN v, q−1 ∩ K0 = {0}, segue que
x = 0. Isso conclui a prova de II.
III. K0 e Jv, q ∩ K1 , são dois sub-espaços disjuntos de K1 .

A demonstração é muito simples. É evidente que Jv, q ∩ K1 é subespaço de K1 . Como K0 é
invariante pela ação de N , segue que se x ∈ K0 então N x ∈ K0 . Pela definição, isso diz que
x ∈ K1 e concluı́mos que K0 é um subespaço e K1 .
Que K0 e Jv, q ∩ K1 são sub-espaços disjuntos, segue do fato que
II
K0 ∩ (Jv, q ∩ K1 ) = K1 ∩ (Jv, q ∩ K0 ) = K1 ∩ {0} = {0} .
A afirmação III implica que K1 = (Jv, q ∩ K1 ) ⊕ K0 ⊕ K00 para algum subespaço K00 de K1 (não
necessariamente único). Seja agora K := K0 ⊕ K00 . Note que K1 = (Jv, q ∩ K1 ) ⊕ K e, portanto,
(Jv, q ∩ K1 ) ∩ K = {0} . (3.60)
Provaremos que esse K possui as propriedades desejadas, ou seja, que V = Jv, q ⊕K, sendo K invariante
por N . Isso é feito em três passos.
1. Jv, q e K são sub-espaços disjuntos, ou seja, Jv, q ∩ K = {0}, pois, como K ⊂ K1 , segue que
K = K ∩ K1 e, portanto,
(3.60)
Jv, q ∩ K = Jv, q ∩ (K ∩ K1 ) = (Jv, q ∩ K1 ) ∩ K = {0} .
2. Jv, q ⊕K contem os vetores de Jv, q e de (Jv, q ∩K1 )⊕K = K1 . Por I, isso implica que Jv, q ⊕K = V .
3. K é invariante por N , pois o fato que K ⊂ K1 , implica, pela definição de K1 , que N K ⊂ N K1 ⊂

K0 ⊂ K.
A prova do Teorema 3.19 está completa
A principal conseqüência do Teorema 3.19 é a seguinte.

Proposição 3.19 Seja N ∈ Mat ( , n) uma matriz nilpotente de ı́ndice q. Então existem
1. um inteiro positivo r, com 1 ≤ r ≤ n,
2. r números inteiros positivos n ≥ q1 ≥ q2 ≥ · · · ≥ qr ≥ 1, com q1 + · · · + qr = n,
3. r vetores v1 , . . . , vr satisfazendo N qj vj = 0 mas N qj −1 vj 6= 0, j = 1, . . . , r,
tais que
V = J v1 , q1 ⊕ · · · ⊕ J vr , qr .
2
Prova. Se q = 1 então N = 0. Basta tomar r = n e escolher v1 , . . . , vn uma base qualquer em V . Os

qj ’s são todos iguais a 1.
Consideremos então q > 1 com N 6= 0. Tomemos q1 = q. Pelo Teorema 3.19, existem um vetor
v1 6= 0 e um subespaço K 1 , invariante por N tais que
V = J v1 , q1 ⊕ K 1 .
Como K 1 é invariante por N , podemos também dizer que a matriz N é nilpotente quando restrita
a K 1 (já que é nilpotente em todo V ). Denotemos por q2 o ı́ndice de N quando restrita a K 1 . É claro
que q2 ≤ q = q1 .
Assim, podemos aplicar o Teorema 3.19 para a matriz N restrita a K 1 e concluir que existe v2 6= 0
em K 1 e um subespaço K 2 de K 1 , invariante por N , tais que K 1 = Jv2 , q2 ⊕ K 2 . Note que N q2 v2 = 0,
pois v2 ∈ K 1 .
Com isso, temos
V = J v1 , q1 ⊕ J v2 , q2 ⊕ K 2 .
Novamente K 2 é invariante por N e, como K 2 é um sub-espaço de K 1 . O ı́ndice de N em K 2 será
q3 ≤ q 2 ≤ q 1 .
O espaço V tem dimensão finita. Assim, a prova se concluı́ repetindo o procedimento acima um
número finito r de vezes. Note que N qj vj = 0, pois N q1 v1 = 0, e vj ∈ K j−1 para todo j = 2, . . . , r.
Pela construção acima, é claro que q1 + · · · + qr = n, a dimensão de V , e que os n vetores
v1 , N v1 , . . . , N q1 −1 v1 , v2 , N v2 , . . . , N q2 −1 v2 , . . . , vr , N vr , . . . , N qr −1 vr
são linearmente independentes e formam uma base em V . Vamos denotá-los (na ordem em que aparecem
acima) por b1 , . . . , bn .
Note agora que, pela construção, N bj = bj+1 , para j em cada um dos conjuntos
{1, . . . , q1 − 1}, {1 + q1 , . . . , q1 + q2 − 1}, {1 + q1 + q2 , . . . , q1 + q2 + q3 − 1},
... {1 + q1 + · · · + qr−1 , . . . , q1 + · · · + qr − 1} , (3.61)
com l = 0, . . . , r − 1, sendo que N bj = 0 para todo j na forma q1 + · · · + ql , l = 1, . . . , r.
E. 3.25 Exercı́cio impotante para compreender o que segue. Justifique as últimas afirmações. 6
Isso significa que na base b1 , . . . , bn os elementos de matriz de N são todos nulos exceto aqueles na
forma Nj, j+1 com j em algum dos conjuntos listados em (3.61), em cujo caso Nj, j+1 = 1. Pictoriamente,
isso diz-nos que na base b1 , . . . , bn a matriz N assume uma forma genericamente ilustrada na Figura
3.1. Essa é a denominada forma canônica da matriz nilpotente N ou representação canônica da matriz
nilpotente N , que descrevemos mais detalhadamente no que segue.
Os elementos da diagonal principal são todos nulos. Os únicos elementos não-nulos da matriz
podem estar localizados apenas na diagonal imediatamente acima da principal, ou seja, aquela diagonal
formada por elementos de matriz do tipo Nj, j+1 com j = 1, . . . , n − 1. Chamaremos essa diagonal de
primeira supra-diagonal. Os elementos da primeira supra-diagonal podem ser 0 ou 1, da forma seguinte:
a primeira supra-diagonal possuirá r fileiras. As primeiras r − 1 fileiras são formadas por q j elementos,
j = 1, . . . , n − 1, sendo os primeiros qj − 1 elementos iguais a 1 e o último igual a 0. A última fileira
terá qr − 1 elementos iguais a 1. Assim, se qr = 1, o último elemento da primeira supra-diagonal será
nulo, proveniente da (r − 1)-ésima fileira (essa é a única forma de aparecer um zero no último elemento
da primeira supra-diagonal).
Note que zeros consecutivos podem ocorrer, se tivermos alguns qj ’s iguais a 1. Note também que
os elementos da primeira supra-diagonal podem ser todos nulos (o que valerá se r = n, em cujo caso
q1 = · · · = rn = 1. Isso só pode ocorrer se N = 0 e, nesse caso, q = 1) ou todos iguais a 1 (o que valerá
se r = 1, em cujo caso q1 = n).
3.7.4 A Forma Canônica de Matrizes

Finalizamos esta seção e nossa discussão sobre o Teorema da Decomposição de Jordan e suas con-
seqüências reunindo o que descobrimos até aqui.
Se A ∈ Mat ( , n) o Teorema 3.17, página 191 ensinou-nos que numa base conveniente (ou seja,
0 1 (q − 1) vezes
1
} 1
0
1
(q − 1) vezes
2
0
N =
} 1
0
0
1
1
0
0 (q − 1) vezes
r
1
0 } 1
0
Figura 3.1: Forma canônica tı́pica de uma matriz nilpotente N . Os elementos da primeira supra-
diagonal podem valer 0 ou 1. Todos os demais elementos de matriz são nulos.
por uma transformação de similaridade P0−1 AP0 ), toda matriz A tem a forma de blocos diagonais:
 
α1 n1 + N 1 0 ··· 0
   
A1 0 · · · 0  
 0 α 2 n2 + N 2 · · · 0 
 0 A2 · · · 0   
−1    
P0 AP0 =  .. .. . . ..  =  , (3.62)
 . . . .   .. .. . . .. 
 . . . . 
0 0 · · · Ar  
 
0 0 · · · α r nr + N r
sendo α1 , . . . , αr os autovalores distintos de A. O j-ésimo bloco é de tamanho nj × nj , sendo que nj

é a multiplicidade algébrica do autovalor αj . As matrizes Nj são nilpotentes.
Cada matriz Nj pode ser levada à sua forma canônica Njc (tal como explicado em (3.1) e no que se
lhe segue) em uma base conveniente, ou seja, por uma transformação de similaridade Pj−1 Nj Pj . Assim,
definindo  
P1 0 · · · 0
 0 P2 · · · 0 
 
P =  .. .. . . ..  (3.63)
. . . .
0 0 · · · Pr
vemos que P −1 (P0−1 AP0 )P = (P0 P )−1 A(P0 P ), sendo que, por (3.62),
 −1 
P1 (α1 n1 + N1 ) P1 0 ··· 0
 
 
 0 P2−1 (α2 n2 + N2 ) P1 ··· 0 
 
 
P −1 (P0−1 AP0 )P =  
 .. .. .. .. 
 . . . . 
 
 
0 0 · · · Pr−1 (αr nr + N r ) Pr
 
α1 n1 + N1c 0 ··· 0
 
 
 0 α2 + N2c · · · 0 
 n2 
 
=  . (3.64)
 .. .. .. .. 
 . . . . 
 
 
0 0 · · · αr nr + Nrc
A matriz final de (3.64) é denominada forma canônica da matriz A, ou forma canônica de Jordan
da matriz A. Como dissemos, toda matriz A assume essa forma numa certa base. Devido ao fato de
todos as sub-matrizes nilpotentes Njc terem a forma canônica, os únicos elementos não-nulos da forma
canônica da matriz A podem estar ou na diagonal principal (sendo estes os autovalores de A, cada
um aparecendo em uma fileira de nj elementos), ou na primeira supra-diagonal, sendo que estes valem
apenas 0 ou 1 e seguem as regras descritas acima. Isso é ilustrado na Figura 3.2,
A Figura 3.2, mostra a forma canônica de uma matriz que possui 4 autovalores distintos α 1 , α2 , α3
e α4 . A primeira supra-diagonal é formada pela seqüência de números
γ11 , . . . , γ1a , 0, γ11 , . . . , γ1b , 0, γ11 , . . . , γ1c , 0, γ11 , . . . , γ1d , (3.65)
sendo que os γij assumem apenas os valores 0 ou 1, de acordo com as regras explicadas acima quando
discutimos a forma canônica de matrizes nilpotentes. Todos os elementos fora da diagonal principal e
da primeira supradiagonal são nulos. O primeiro bloco é de dimensão (a + 1) × (a + 1), o segundo bloco
é de dimensão (b + 1) × (b + 1) etc., sendo a + 1 a multiplicidade algébrica de α1 , b + 1 a multiplicidade
algébrica de α2 etc.
É interessante notar que na primeira supra-diagonal, sempre ocorrem zeros nos pontos localizados
fora dos blocos, ou seja, nos pontos onde ocorrem transições entre dois autovalores distintos (indicados
por setas na Figura 3.2). Esses são os zeros que ocorrem explicitamente na lista (3.65).
Por fim, comentamos que a forma canônica não é exatamente única, pois é possı́vel ainda fazer
transformações de similaridade que permutem os blocos de Jordan da matriz. Além disso, dentro de
cada sub-espaço invariante (onde cada bloco age) é possı́vel fazer certas permutações dos elementos da
base, de modo a preservar a diagonal e permutar os γi ’s da primeira supradiagonal.
3.8 Algumas Representações Especiais de Matrizes

Nas seções anteriores apresentamos algumas formas especiais de representar matrizes com determinadas
caracterı́sticas, como aquelas expressas no Teorema Espectral e no Teorema de Jordan. Nesta seção
apresentaremos outras representações, relevantes em certos contextos, como a decomposição polar.
3.8.1 A Decomposição Polar de Matrizes

É bem conhecido o fato de que todo√número complexo z pode ser escrito na forma polar z = |z|e iθ , onde
|z| ≥ 0 e θ ∈ . Tem-se que |z| = zz e eiθ = z|z|−1 . Há uma afirmação análoga válida para matrizes

A ∈ Mat ( , n), a qual é muito útil, e da qual trataremos nesta seção. Antes de enunciarmos esse
resultado de forma mais precisa (o Teorema da Decomposição Polar, Teorema 3.20, abaixo), façamos
algumas observações preliminares.
Seja A ∈ Mat ( , n) e seja a matriz A∗ A. Notemos primeiramente que (A∗ A)∗ = A∗ A∗∗ = A∗ A, ou
seja, A∗ A e auto-adjunta. Pelo Teorema 3.12, página 179, é possı́vel encontrar um conjunto ortonormal
{vk , k = 1, . . . , n} de autovetores de A∗ A, com autovalores dk , k = 1, . . . , n, respectivamente, sendo
que a matriz
P := [[v1 , . . . , vn ]] (3.66)
(para a notação, vide (3.1)) é unitária e diagonaliza A∗ A, ou seja, P ∗ (A∗ A)P = D, sendo D a matriz
diagonal D := diag (d1 , . . . , dn ), cujos elementos da diagonal são os autovalores de A∗ A. Os autovalores
dk são todos maiores ou iguais a zero. De fato, se vk 6= 0 é um autovetor de A∗ A com autovalor dk ,
teremos dk kvk k2 = dk hvk , vk i = hvk , Bvk i = hvk , A∗ Avk i = hAvk , Avk i = kAvk k2 . Logo,

dk = kAvk k2 /kvk k2 ≥ 0.
Com esses fatos à mão, vamos definir uma matriz diagonal, que denotaremos sugestivamente por
√ √ 2
D , por D 1/2 := diag ( d1 , . . . , dn ). Tem-se que D 1/2 = D, uma propriedade óbvia15 . Note-se
1/2
∗ √
também que D 1/2 = D 1/2 , pois cada dk é real.
√
Definamos agora a matriz A∗ A, por
√
A∗ A := P D 1/2 P ∗ . (3.67)
√ √ ∗ ∗ √
Essa matriz A∗ A é auto-adjunta, pois A∗ A = P D 1/2 P ∗ = P D 1/2 P ∗ = A∗ A. Observemos que
√ 2
A∗ A = P (D 1/2 )2 P ∗ = P DP ∗ = A∗ A. Disso segue que
√ 2 2
√
det A∗ A = det A∗ A = det(A∗ A) = det(A∗ ) det(A) = det(A) det(A) = | det(A)|2 .
15
√ √
Essa não é a única matriz com essa propriedades, pois qualquer matriz do tipo diag (± d1 , . . . , ± dn ), com os
sinais ± escolhidos independentemente uns dos outros, também tem como quadrado a matriz D.
√ √
Provamos assim que det A∗ A = | det(A)| e, portanto, A∗ A é invertı́vel se e somente se A o for.
√
Alguns autores denotam a matriz A∗ A por |A|, por analogia com o módulo de um número com-
plexo. Podemos agora formular e demonstrar o resultado que procuramos:
Teorema 3.20 (Teorema da Decomposição Polar) Seja A ∈ Mat ( , n). Então existe uma ma-
triz unitária U ∈ Mat ( , n) tal que √
A = U A∗ A . (3.68)
Se A é invertı́vel, então U é univocamente determinada. A representação (3.68) é denominada repre-
sentação polar de A. 2
Prova. Sejam, como acima, dk , k = 1, . . . , n os autovalores de A∗ A com autovetores respectivos vk ,

k = 1, . . . , n. Sabemos pelo Teorema 3.12, página 179 que podemos escolher os vk ’s de forma que
hvk , vl i = δk l .

Como vimos acima, os autovalores dk satisfazem dk ≥ 0. Sem perda de generalidade, vamos supô-los
ordenados de forma que dk > 0 para todo k = 1, . . . , r e dk = 0 para todo k = r + 1, . . . , n. Com essa
escolha, tem-se que
Avk = 0 para todo k = r + 1, . . . , n , (3.69)
pois de A∗ Avk = 0, seque que 0 = hvk , A∗ Avk i = hAvk , Avk i = kAvk k2 .

Para k = 1, . . . , r, sejam wk os vetores definidos da seguinte forma:

1
wk := √ Avk , k = 1, . . . , r . (3.70)
dk
É fácil ver que

1 1 dk dk
hwk , wl i = √ hAvk , Avl i = √ hA∗ Avk , vl i = √ hvk , vl i = √ δk l = δ k l
dk dl

dk dl

dk dl

dk dl
para todos k, l = 1, . . . , r. Assim, o conjunto de vetores {wk , k = 1, . . . , r} forma um conjunto

ortonormal. A eles podemos acrescentar um novo conjunto {wk , k = r + 1, . . . , n}, escolhido ar-
bitráriamente, de vetores ortonormais pertenentes ao complemento ortogonal do sub-espaço gerado por
{wk , k = 1, . . . , r} e construir assim, um conjunto ortonormal {wk , k = 1, . . . , n}.
Sejam agora a matriz P , definida em (3.66) e as seguintes matrizes de Mat ( , n):
Q := [[w1 , . . . , wn ]] , U := QP ∗
(para a notação, vide (3.1)). Como {vk , k = 1, . . . , n} e {wk , k = 1, . . . , n} são dois conjuntos
ortonormais, segue que P e Q são matrizes unitárias (por quê?) e, portanto, U também é unitária.
√ √
É fácil ver que AP = QD 1/2 , onde D 1/2 = diag d1 , . . . , dn , De fato,
(3.66) (3.2)
AP = A[[v1 , . . . , vn ]] = [[Av1 , . . . , Avn ]]
(3.69)
= [[Av1 , . . . , Avr 0, . . . , 0]]
(3.70) p p
= [[ d1 w1 , . . . , dr wr 0, . . . , 0]]
(3.4)
[[w1 , . . . , wn ]]D 1/2 = QD 1/2 .
=
(3.67) √
Agora, de AP = QD 1/2 , segue que A = QD 1/2 P ∗ = U P D 1/2 P ∗ = U A∗ A, que é o que querı́amos
provar.
Para mostrar√ que U é univocamente
√ determinado se A for √invertı́vel, suponhamos que exista U 0
∗ 0 ∗
tal que A = U A A = U A A. Como comentamos √ acima,
√ A∗ A é invertı́vel se e somente se A
o for. Logo, se A é invertı́vel, a igualdade U A∗ A = U 0 A∗ A implica U = U 0 , estabelecendo a
unicidade. Caso A não seja invertı́vel a arbitrariedade de U reside na escolha dos vetores ortogonais
{wk , k = r + 1, . . . , n}.
O seguinte corolário é elementar:

Teorema 3.21 Seja A ∈ Mat ( , n). Então existe uma matriz unitária V ∈ Mat ( , n) tal que
√
A = AA∗ V . (3.71)
Se A é invertı́vel, então V é univocamente determinada. 2
∗ ∗
p √
Prova. Para a matriz A , (3.68) diz-nos que A = U (A ∗ )∗ A ∗ = U AA∗ para alguma matriz
√ 0 √ 0
unitária U0 . Como AA∗ é auto-adjunta, segue que A = AA∗ U0 . Identificando V = U0∗ , obtemos o
∗
que desejamos.
O Teorema da Decomposição Polar pode ser generalizado para abranger operadores limitados agindo
em espaços de Hilbert (vide Teorema 23.22, página 1080) e mesmo para abranger operadores não-
limitados agindo em espaços de Hilbert (vide [99]).
3.8.2 O Teorema da Triangularização de Schur

O teorema que apresentamos abaixo, devido a Schur16 , é semelhante, mas não idêntico, ao Teorema de
Jordan: toda matriz de Mat ( , n) pode ser levada por uma transformação de similaridade induzida
por uma matriz unitária a uma matriz triangular superior (para a definição, vide Seção 3.6, página
182). Esse teorema é alternativamente denominado Teorema da Triangularização de Schur ou Teorema
da Decomposição de Schur. Como veremos, esse teorema pode ser usado para fornecer uma outra
demonstração (eventualmente mais simples) da diagonalizabilidade de matrizes auto-adjuntas e de
matrizes normais por matrizes unitárias.
16
Issai Schur (1875-1941).
Teorema 3.22 (Teorema da Decomposição de Schur) Seja A ∈ Mat ( , n). Então existe U ∈
Mat ( , n), unitária, e S ∈ Mat ( , n), triangular superior, tais que A = U ∗ SU . Os elementos da
diagonal de S são os autovalores de A. 2
Antes de provarmos esse teorema, mencionemos um corolário evidente:

Corolário 3.3 Seja A ∈ Mat ( , n). Então existe V ∈ Mat ( , n), unitária, e I ∈ Mat ( , n),
triangular inferior, tais que A = V ∗ IV . Os elementos da diagonal de I são os autovalores de A. 2
Prova do Corolário 3.3. Pelo Teorema 3.22, a matriz A∗ pode ser escrita da forma A∗ = V ∗ SV , com V
unitária e S triangular superior. Logo, A = V ∗ S ∗ V . Porém, S ∗ ≡ I é triangular inferior.
Também pelo Teorema 3.22, os autovalores de A∗ são os elementos diagonais de S, que são o
complexo conjugado dos elementos diagonais de S ∗ ≡ I. Mas os autovalores de A são o complexo
conjugado dos autovalores de A∗ (pela Proposição 3.14, página 176) e, portanto, são os elementos
diagonais de I.
Prova do Teorema 3.22. Comecemos observando que se A = U ∗ SU com U unitário, então A e S têm o
mesmo polinômio caracterı́stico e, portanto, os mesmos autovalores, incluindo a multiplicidade (vide a
discussão
Qn em torno de (3.7), página 146). Mas o polinômio caracterı́stico de S é p S (x) = det(x − S) =
k=1 (x − Skk ), pois S é triangular superior e, portanto, os autovalores de S são os elementos de sua
diagonal. Passemos à demonstração da afirmativa principal, ou seja, que A = U ∗ SU com U unitário e
S triangular superior.
Seja n ≥ 2 e v1 um autovetor de A com autovalor λ1 e kv1 k = 1. Seja U (1) uma matriz unitária da
(1) (1) (1)
forma U (1) = [[u1 , . . . , un ]] com u1 = v1 , ou seja, cuja primeira coluna é o vetor v1 . Então,
 (1) (1)

λ1 b1 ··· bn−1
 (1) (1) 
(1) (3.2)
0
(1) 
a11 ··· a1(n−1) 
AU
(1) (1) (1) (1) (1)
= [[Au1 , . . . , Aun ]] = [[λ1 u1 , Au2 , . . . , Aun ]] = U  . .. .. 
.. 
 .. . . . 
(1) (1)
0 a(n−1)1 · · · a(n−1)(n−1)
(1) (1)
para certos bk e akl , k, l = 1, . . . , n − 1, onde
n−1
X
(1) (1) (1) (1) (1)
Auk = b k u1 + alk ul+1 , k = 2, . . . , n . (3.72)
l=1
Para simplificar a notação, definimos

 (1)
    (1) (1) 
b1 0 a11 ··· a1(n−1)
   ..   
b(1) =  ...  , n−1 = . , A(1) =  ... ..
.
..
.  ,
(1) (1) (1)
bn−1 0 a(n−1)1 · · · a(n−1)(n−1)
( n−1 tendo n − 1 linhas) e escrevemos a identidade (3.72) como

T
(1) ∗ (1) λ1 b(1)
U AU = (1)
. (3.73)
n−1 A
Para n = 2 isso demonstra o teorema, pois afirma que

!
(1)
(1) ∗ λ1 b 1
U AU (1) = (1) ,
0 a11
sendo o lado direito uma matriz triangular superior. Para n > 2 procedemos por indução. Supondo a
afirmação válida para matrizes (n − 1) × (n − 1), então existe uma matriz unitária V ∈ Mat ( , n − 1)
tal que V ∗ A(1) V = S (1) ,sendo S (1) triangular superior. Assim, definindo a matriz unitária U (2) ∈
1 T
Mat ( , n) por U (2) := n−1
n−1
V
, teremos por (3.73),
∗ ∗ ∗
U (1) U (2) AU (1) U (2) = U (2) U (1) AU (1) U (2)
T
T T

1 n−1 λ1 b(1) 1 n−1
= ∗
n−1 V n−1 A(1) n−1 V
T
λ1 V T b(1)
=
n−1 V ∗ A(1) V
T
λ1 V T b(1)
= ,
n−1 S (1)
que é triangular superior, pois S (1) o é. Como U (1) U (2) é unitária (pois U (1) e U (2) o são), o teorema
está provado.
Comentário. Toda matriz triangular superior S pode ser escrita na forma D + N , sendo D a matriz
diagonal formada pela diagonal de S (ou seja, Dii = Sii para todo i = 1, . . . , n) e N é nilpotente (pois
é triangular superior, mas com diagonal nula). Assim, o Teorema 3.22 afirma que toda matriz A pode
ser levada à forma D + N por uma transformação de similaridade unitária. Porém, o Teorema 3.22 não
garante (nem é verdade, em geral) que D e N comutem. Assim, o Teorema 3.22 é distinto do Teorema
de Jordan, Teorema 3.18, página 192.
O Teorema 3.22 tem por corolário o seguinte teorema, já provado anteriormente por outros meios
(Teorema 3.12, página 179, e Proposição 3.16, página 181).
Teorema 3.23 Uma matriz A ∈ Mat ( , n) é auto-adjunta, se e somente se for diagonalizável por
uma transformação de similaridade unitária e se seus autovalores forem reais. 2
Prova. Pelo Teorema 3.22, existe uma matriz unitária U tal que U ∗ AU = S, sendo S triangular superior
cujos elementos diagonais são os autovalores de A. Assim, se A = A∗ , seque que S ∗ = (U ∗ AU )∗ =
U ∗ A∗ U = U ∗ AU = S. Mas para uma matriz triangular superior S, a igualdade S = S ∗ implica que S

é diagonal e os elementos da diagonal são reais.
Reciprocamente, se A ∈ Mat ( , n) é diagonalizável por uma transformação de similaridade unitária
e seus autovalores são reais, ou seja, existe U unitária e D diagonal real com U ∗ AU = D, então
A = U DU ∗ e A∗ = U D ∗ U ∗ . Como D é diagonal e real, vale D ∗ = D e, portanto, A∗ = U DU ∗ = A,
provando que A é auto-adjunta.
Pelo Teorema 3.22, se A ∈ Mat ( , n) é uma matriz normal e U ∗ AU = S, com U unitária e S

triangular superior, então S é normal (justifique!). Assim, junto com o Lema 3.2, página 183, provamos
o seguinte:
Teorema 3.24 Uma matriz A ∈ Mat ( , n) é normal se e somente se for diagonalizável por uma
transformação de similaridade unitária. 2
Essas afirmações foram demonstradas por outros meios no Teorema 3.14, página 182.
3.8.3 A Decomposição QR e a Decomposição de Iwasawa (“KAN”)

O propósito desta seção é apresentar a chamada decomposição de Iwasawa 17 , ou decomposição KAN 18 ,
de matrizes invertı́veis, Teorema 3.26. Esse teorema tem relação com a teoria dos grupos de Lie, como
discutiremos brevemente ao final. Os dois primeiros resultados preparatórios abaixo, Proposição 3.20
e Teorema 3.25 (Decomposição QR), têm interesse por si só.
Proposição 3.20 Seja R ∈ Mat ( , n) uma matriz triangular superior cujos elementos diagonais são
não-nulos (i.e., R é invertı́vel). Então, podemos escrever R = AN , onde A ∈ Mat ( , n) é a matriz
diagonal formada com a diagonal de R: A = diag (R11 , . . . , Rnn ), e N ∈ Mat ( , n) é uma matriz
triangular superior cujos elementos diagonais são iguais a 1. 2
17
Kenkichi Iwasawa (1917-1998).
18
Infelizmente não há uniformidade na literatura quanto à denominação dessa decomposição. Vamos chamá-la de
“decomposição de Iwasawa” pois a mesma é um caso particular (para o grupo GL( , n) das matrizes complexas n × n
invertı́veis) de um teorema mais geral da teoria dos grupos de Lie, denominado Teorema da Decomposição de Iwasawa,
que afirma que todo elemento g de um grupo de Lie semi-simples pode ser escrito como produto de um elemento k de
um sub-grupo compacto maximal, por um elemento a de um subgrupo Abeliano (real) e por um elemento n de um
sub-grupo nilpotente (ou seja, cuja álgebra de Lie é nilpotente): g = kan. Em Alemão, as palavras compacto, Abeliano e
nilpotente são “Kompakt”, “Abelsch” e “Nilpotent”, daı́ a denominação “decomposição KAN ” para essa decomposição,
denominação essa encontrada em alguns textos.
Prova. É fácil constatar que (abaixo m ≡ n − 1)

     R12 R1n 
R11 R12 · · · · · · R1n R11 0 · · · · · · 0 1 R11 · · · ··· R11
 .   .  .. 
 0 R22 . . R2n   0 R22 . . 0  0 1 . R2n

 . .   . .   .. 
R22
R =  .. .. .. ..   .. .. .. ..  . ... ... .. 
 .. . . .  =  .. . . .   .. . .  .
 ..   ..  .. 
 0 . Rmm Rmn   0 . Rmm 0  0 . 1 Rmn 
Rmm
0 ··· ··· 0 Rnn 0 ··· ··· 0 Rnn 0 ··· ··· 0 1
| {z }| {z }
A N
O estudante deve comparar as afirmações do teorema a seguir com o Teorema da Decomposição

Polar, Teorema 3.20, página 201, e com o Teorema da Decomposição de Schur, Teorema 3.22, página
203.
Teorema 3.25 (Teorema da Decomposição QR) Seja M ∈ Mat ( , n) uma matriz invertı́vel.
Então M pode ser escrita na forma M = QR, onde Q ∈ Mat ( , n) é unitária e R ∈ Mat ( , n) é
triangular superior, sendo que os elementos diagonais de R são estritamente positivos.
Prova do Teorema 3.25. Seja M = [[m1 , . . . , mn ]]. Como M é invertı́vel, os vetores mk , k = 1, . . . , n,

são linearmente independentes, ou seja, formam uma base em n . Podemos, portanto, usar o procedi-
mento de ortogonalização de Gram19 -Schmidt20 e construir uma nova base ortonormal de vetores qj ,
j = 1, . . . , n, a partir dos vetores ml , l = 1, . . . , n. Tais vetores são definidos por
j−1
X
mj − hql , mj i ql
m1 l=1
q1 = , qj = , j = 2, . . . , n .
km1 k j−1
X

m
j − hq l , m j i q l

l=1
Como é fácil verificar, tem-se hqi , qj i = δi j para todos i, j = 1, . . . , n. As relações acima implicam

trivialmente
j−1
j−1
X X

m1 = q1 km1 k , m j = q j m j − hql , mj i ql + ql hql , mj i , j = 2, . . . , n ,

l=1 l=1
19
Jørgen Pedersen Gram (1850-1916).
20
Erhard Schmidt (1876-1959).
relações estas que podem ser escritas em forma matricial como

 
R11 hq1 , m2 i ··· ··· hq1 , mn i
 
 
 .. 
 0 R22 . ··· hq2 , mn i 
 

 
 . .. .. .. .. 
[[m1 , . . . , mn ]] = [[q1 , . . . , qn ]] R, onde R := 
 .. . . . .  ,

 
 
 .. 
 0 . R(n−1)(n−1) hqn−1 , mn i 
 
 
0 ··· ··· 0 Rnn
(3.74)
com
j−1
X

R11 = km1 k , Rjj = m j − hql , mj i ql , j = 2, . . . , n .

l=1
E. 3.27 Exercı́cio. Convença-se da validade da relação (3.74). 6
Definindo Q := [[q1 , . . . , qn ]], a relação (3.74) diz-nos que M = QR, sendo R triangular superior
(como se vê) e Q unitária (pois os vetores ql , l = 1, . . . , n, são ortonormais). Isso completa a prova do
Teorema 3.25.
Chegamos assim ao importante Teorema da Decomposição de Iwasawa para matrizes invertı́veis:

Teorema 3.26 (Teorema da Decomposição de Iwasawa, ou Decomposição KAN ) Seja M ∈
Mat ( , n) uma matriz invertı́vel. Então M pode ser escrita de modo único na forma M = KAN ,
onde K ∈ Mat ( , n) é uma matriz unitária, A ∈ Mat ( , n) é a uma matriz diagonal, tendo elementos
diagonais estritamente positivos, e N ∈ Mat ( , n) é uma matriz triangular superior cujos elementos
diagonais são iguais a 1. 2
Prova. A afirmação que M pode ser escrita na forma M = KAN , com K, A e N com as propriedades
acima segue imediatamente da Proposição 3.20 e do Teorema 3.25, dispensando demonstração. O único
ponto a se demonstrar é a unicidade dessa decomposição.
Vamos então supor que para algum M ∈ Mat ( , n) existam K, K0 ∈ Mat ( , n), matrizes
unitárias, A, A0 ∈ Mat ( , n), matrizes diagonais, tendo elementos diagonais estritamente positivos, e
N, N0 ∈ Mat ( , n) matrizes triangulares superiores cujos elementos diagonais são iguais a 1, tais que
M = KAN = K0 A0 N0 .
Segue imediatamente disso que K0−1 K = A0 N0 N −1 A−1 . O lado esquerdo dessa igualdade é uma
matriz unitária e, portanto, normal. O lado direito é uma matriz triangular superior (pela Proposição
3.17, página 182). Pelo Lema 3.2, página 183, A0 N0 N −1 A−1 deve ser uma matriz diagonal D. Assim,
temos que K0−1 K = D e A0 N0 N −1 A−1 = D. A primeira dessas relações diz-nos que D é unitária.
A segunda diz-nos que N0 N −1 = A−1 −1
0 DA, ou seja, N0 = D0 N , onde D0 := A0 DA é diagonal (por
ser o produto de três matrizes diagonais). Agora, N e N0 são matrizes triangulares superiores cujos
elementos diagonais são iguais a 1. Portanto, a relação N0 = D0 N com D0 diagonal só é possı́vel se
D0 = (de outra forma haveria elementos na diagonal de N ou de N0 diferentes de 1), estabelecendo
que N = N0 .
Provamos, assim, que A−1 −1
0 DA = , ou seja, D = A0 A . Agora, A e A0 são diagonais, tendo na
diagonal números reais positivos. Logo, D também é diagonal e tem na diagonal números reais positivos
e, portanto, D = D ∗ . Como D é unitária (como observado linhas acima), segue que D 2 = . Logo,
os elementos Dkk da diagonal de D satisfazem Dkk = ±1, para todo k = 1, . . . , n (os sinais podendo
ser distintos para k’s distintos). Agora, como A0 = DA e como A e A0 têm na diagonal números reais
positivos, não podemos ter Dkk = −1 para algum k e, portanto, D = . Conseqüentemente, K = K0
e A = A0 , estabelecendo a unicidade desejada.
Note o leitor que o conjunto das matrizes unitárias de Mat ( , n) forma um sub-grupo de GL( , n)
(o grupo das matrizes complexas n × n invertı́veis). O conjunto das matrizes diagonais de Mat ( , n)
tendo elementos diagonais estritamente positivos é igualmente um sub-grupo de GL( , n). Por fim,
o conjunto das matrizes triangulares superiores de Mat ( , n) cujos elementos diagonais são iguais
a 1 é também um sub-grupo de GL( , n). Assim, o Teorema 3.26 afirma que cada elemento de
GL( , n) pode ser escrito de modo único como produto de elementos de cada um desses três sub-
grupos. Esse é um caso particular de um teorema da teoria dos grupos de Lie conhecido como Teorema
da Decomposição de Iwasawa.
1
α γ1
1
0
a
γ1
0 α1 0
α
2
γ
1
2
0
0
b
0 γ
2
α2 0
1
α γ
3 3
0
c
γ
3
0 α
0 3 0
α
4
γ1
4
0
d
γ
4
0 α
4
Figura 3.2: Forma canônica de uma matriz com 4 autovalores distintos α1 , α2 , α3 e α4 . Os γ’s
assumem apenas os valores 0 ou 1, de acordo com as regras explicadas acima. Todos os elementos fora
da diagonal principal e da primeira supradiagonal são nulos. As setas indicam zeros que ocorrem na
primera supradiagonal nos pontos onde ocorre transição entre os blocos, conseqüência do fato de esses
elementos estarem fora dos blocos.
Capı́tulo 4
Tópicos de Álgebra Linear II
Conteúdo
4.1 Uma Topologia Métrica em Mat ( , n) . . . . . . . . . . . . . . . . . . . . . 211
4.2 Exponenciais, Logaritmos e Funções Analı́ticas de Matrizes . . . . . . . . 216
4.2.1 A Exponenciação de Matrizes e os Grupos GL( , n) e GL( , n) . . . . . . . 224

4.3 A Fórmula de Lie-Trotter e a Fórmula do Comutador . . . . . . . . . . . 227

4.4 Aplicações Lineares em Mat ( , n) . . . . . . . . . . . . . . . . . . . . . . . . 230
4.5 A Fórmula de Baker, Campbell e Hausdorff . . . . . . . . . . . . . . . . . 236
4.6 A Fórmula de Duhamel e Algumas de suas Conseqüências . . . . . . . . 242
presente capı́tulo diferencia-se do anterior por explorar aspectos mais topológicos de álgebras
de matrizes. Portanto, uma certa familiaridade com as noções básicas de espaços métricos
(vide Capı́tulo 13) é útil. Discutiremos a definição de funções analı́ticas de matrizes, em
particular, a exponencial e o logaritmo. Nosso principal objetivo, porém, é provar as seguintes
relações: para matrizes A, B ∈ Mat ( , n), valem:
Fórmula de Lie1 -Trotter2 . m
1 1
exp (A + B) = lim exp A exp B . (4.1)
m→∞ m m
Fórmula do comutador:
m2
1 1 1 1
exp ([A, B]) = lim exp A exp B exp − A exp − B . (4.2)
m→∞ m m m m
Série de Lie: X∞
1
exp(B)A exp(−B) = A + [B, [B, . . . , [B , A] . (4.3)
m! | {z }
m=1 m vezes
Fórmula de Baker-Campbell-Hausdorff3 (sobre a convergência, vide comentário adiante):

1 1 1
exp(A) exp(B) = exp A + B + [A, B] + [A, [A, B]] + [B, [B, A]] + · · · . (4.4)
2 12 12
Fórmula de Duhamel4 : Z 1
exp(A + B) = exp(A) + exp (1 − s)(A + B) B exp sA ds , (4.5)
0
da qual se obtem a série de Duhamel:
" Z t ∞ Z t Z t1 Z m
#
X tm−1 Y
−t1 A
e t(A+B)
= e tA
+ e t1 A
Be dt1 + ··· e−tk A Betk A
dtm · · · dt1 . (4.6)
0 m=2 0 0 0 k=1
1
Marius Sophus Lie (1842-1899).
2
Hale Freeman Trotter (1931-)
3
Henry Frederick Baker (1866-1956). John Edward Campbell (1862-1924). Felix Hausdorff (1868-1942).
4
Jean Marie Constant Duhamel (1797-1872).
210
A série dentro da exponencial no lado direito de (4.4) é um tanto complexa, mas envolve apenas
comutadores múltiplos de A e B. A expressão completa encontra-se em (4.46), página 237. Ao
contrário das fórmulas que lhe precedem e sucedem, a fórmula de Baker-Campbell-Hausdorff não é
válida para quaisquer matrizes A e B pois, no caso geral, a convergência da série do lado direito só
pode ser estabelecida para matrizes suficientemente “pequenas”, a saber, tais que kAk e kBk sejam
√

ambas menores que 12 ln 2 − 22 ≈ 0, 12844 . . .. A definição de norma operatorial de matrizes será

apresentada adiante. Claro é que, nos casos felizes em que os comutatores múltiplos das matrizes A e
B se anulam a partir de uma certa ordem, a série do lado direito será finita e, portanto, convergente.
Comentamos ao leitor mais avançado que as expressões acima (e suas demonstrações abaixo) valem
não apenas para álgebras de matrizes, mas também no contexto mais geral de álgebras-∗ de Banach.
As fórmulas acima são empregadas em várias áreas da Fı́sica (como na Mecânica Quântica, na
Mecânica Estatı́stica e na Teoria Quântica de Campos) e da Matemática (como na Teoria de Grupos).
Faremos uso delas, por exemplo, nos Capı́tulos 10 e 11. Suas provas serão apresentadas, pela ordem,
na Proposição 4.12, página 227, na Proposição 4.13, página 232, no Teorema 4.1 da Seção 4.5, página
236 e na Seção 4.6, página 242. A única demonstração que se pode classificar como complexa é a da
fórmula de Baker-Campbell-Hausdorff, as demais são simples. No correr das páginas seguintes outras
identidades úteis, não listadas acima, serão obtivas.
4.1 Uma Topologia Métrica em Mat ( , n)

Discutiremos nesta seção uma topologia métrica natural em Mat ( , n) a qual usaremos na Seção 4.2
para definir certas funções analı́ticas de matrizes, tais como a exponencial e o logaritmo.
Recordando, Mat ( , n) é o conjunto de todas as matrizes complexas n×n e GL( , n) ⊂ Mat ( , n)
é o conjunto de todas as matrizes complexas n × n invertı́veis. Como já observamos, GL( , n) é um
grupo.
• Normas de Matrizes. A Norma Operatorial
Seja V um espaço vetorial de dimensão finita, como n ou np , dotado de uma norma k · kV . Para

n
3 u = (u1 , . . . , un ), por exemplo, podemos adotar kuk n := |u1 |2 + · · · + |un |2 . Vamos denotar

por L(V ) o conjunto de todas as aplicações lineares de V em V . É bem sabido que L(V ) é igualmente
um espaço vetorial. Por exemplo, L( n ) = Mat ( , n) e L( n ) = Mat ( , n).

Com uso da norma de V é possı́vel definir uma norma também em L(V ). Para A ∈ L(V ) define-se
kAukV
kAkL(V ) := sup .
u∈V kukV
u6=0
E. 4.1 Exercı́cio. Mostre que k · kL(V ) assim definida é, de fato, uma norma no espaço vetorial L(V ).
6
Observação. Note que

kAkL(V ) = sup kAukV .
u∈V
kukV =1
Para A ∈ L(V ), a norma kAkL(V ) definida acima é denominada norma operatorial. Como co-
mentaremos abaixo, há outras normas em L( n ) e L( n ) que não a norma operatorial, mas que são

equivalentes àquela.
Observação. É uma conseqüência imediata da definição de norma operatorial que
kAukV ≤ kAkL(V ) kukV (4.7)
para todo vetor u ∈ V .

A norma operatorial tem a seguinte propriedade importante: para A, B ∈ L(V ) quaisquer, tem-se
kABkL(V ) ≤ kAkL(V ) kBkL(V ) .
E. 4.2 Exercı́cio importante. Mostre isso. Sugestão: use (4.7). 6
Observação. Em Mat ( , n) é possı́vel provar que kA∗ kMat (
, n) = kAkMat (
, n) . Vide Teorema
23.11, página 1042.
É importante comentar que o procedimento de construção de normas em L(V ) pode ser repetido.
Como L(V ) é igualmente um espaço vetorial normado e de dimensão finita, podemos definir uma norma
em L(L(V )) (o conjunto de todas as aplicações lineares de L(V ) em L(V )) definindo para A ∈ L(L(V ))
kAAkL(V )
kAkL(L(V )) := sup .
A∈L(V ) kAkL(V )
A6=0
E assim por diante para todos os espaços de aplicações L(L(· · · L(V )) · · · ).

Vamos a um exemplo. Tomemos V = n , L(V ) = Mat ( , n). Seja uma matriz X ∈ Mat ( , n)
fixa. Com ela poderemos definir um elemento denotado por ad[X] de L(Mat ( , n)) por
ad[X]A := [X, A] = XA − AX, A ∈ Mat ( , n).
É evidente que ad[X] é uma aplicação linear de Mat ( , n) em Mat ( , n), ou seja, um elemento de
L(Mat ( , n)). Note-se que
kXA − AXkMat (
, n)
kad[X]kL(Mat (
, n)) = sup
A∈L(V ) kAkMat ( , n)
A6=0
kXAkMat ( , n) + kAXkMat (

, n)
≤ sup
A∈L(V ) kAkMat ( , n)
A6=0
≤ 2kXkMat (
, n) . (4.8)
Daqui para a frente denotaremos a norma operatorial de matrizes em n por k · k ou simplesmente
por k · k. Além da norma operatorial, há outras normas que podem ser definidas em L( n ). Para
A ∈ Mat ( , n) podemos, por exemplo, definir as seguintes normas:
kAk∞ := max |Aab |, (4.9)
a, b = 1, ..., n
n X
X n
kAk1 := |Aab |, (4.10)
a=i b=1
n X
n
!1/2
X
kAk2 := |Aab |2 , (4.11)
a=i b=1
n X
n
!1/p
X
kAkp := |Aab |p , com p ≥ 1. (4.12)
a=i b=1
A expressão (4.12) generaliza (4.10) e (4.11).
E. 4.3 Exercı́cio. Mostre que (4.9)-(4.12) de fato definem normas em Mat ( , n). (Note que (4.10)-
(4.11) são casos particulares de (4.12)). Use a desigualdade de Minkowski (página 758) para (4.12). 6
E. 4.4 Exercı́cio. A norma (4.11) tem uma interpretação interessante. Mostre que,
hA, Bi = Tr (A∗ B), A, B ∈ Mat ( , n),
define um produto
pescalar em p
Mat ( , n). Mostre que (4.11) é a norma associada a esse produto escalar,
ou seja, kAk2 = hA, Ai = Tr (A∗ A). 6
Observação. É importante lembrar o Teorema 2.7, mencionado à página 121, que afirma que em
espaços vetoriais de dimensão finita todas as normas são equivalentes. Assim, em Mat ( , n) a norma
operatorial kAk e as normas kAk∞ e kAkp com p ≥ 1 são todas equivalentes. Note-se, porém, que

a propriedade da norma operatorial kABk ≤ kAk kBk não é necessariamente compartilhada por

outras normas. Em geral, tem-se kABk ≤ ckAk kBk para alguma constante c > 0.
E. 4.5 Exercı́cio. Seja D ∈ Mat ( , n) uma matriz diagonal: D = diag (d1 , . . . , dn ) com dk ∈ .
Mostre que kDk = max{|d1 |, . . . , |dn |}, ou seja, para matrizes diagonais kDk = kDk∞ .

6
• Equivalência entre normas matriciais
Aqui denotaremos a norma operatorial de uma matriz A por kAk.

Sejam ei , i = 1, . . . , n os vetores da base canônica de n , ou seja, os vetores cuja j-ésima
componente é (ei )j = δij . Se A ∈ Mat ( , n), é claro que a i-ésima componente do vetor Aej é
(Aej )i = Aij . Daı́,
X n
kAej k2
= |Aij |2 .

2
kej k
i=1
Logo, para todo j,

( n
)
kAvk2 kAej k2 X
kAk2 := sup ≥ max = max |Aij |2 . (4.13)

v∈ n kvk2
j=1, ..., n kej k2
j=1, ..., n
i=1
v6=0
Pn
Tem-se também o seguinte. Para qualquer vetor v ∈ n , vale (Av)i = j=1 Aij vj . Assim, pela
desigualdade de Cauchy-Schwarz (2.15), página 120,
n
! n ! n
!
X X X
2 2 2 2
|(Av)i | ≤ |Aij | |vk | = |Aij | kvk2 .
j=1 k=1 j=1
Daı́, !
n
X n X
X n
kAvk2 =
|(Av)i |2 ≤ |Aij |2 kvk2 .

i=1 i=1 j=1
Logo,
Xn X n
2 kAvk2
kAk := sup ≤ |Aij |2 . (4.14)

v∈ n kvk2 i=1 j=1

v6=0
n
X
Como |Aij |2 ≥ max |Aij |2 , segue de (4.13) que
i=1, ..., n
i=1
kAk2 ≥ max max |Aij |2 .

j=1, ..., n i=1, ..., n
Logo, para todo i, j vale |Aij | ≤ kAk, ou seja,
kAk∞ ≤ kAk.
De (4.14) vemos também que

n X
X n n X
X n
kAk2 ≤ |Aij |2 ≤ kAk2∞ = n2 kAk2∞ .
i=1 j=1 i=1 j=1
Concluı́mos assim que em Mat ( , n)
kAk∞ ≤ kAk ≤ nkAk∞ . (4.15)
A expressão (4.15) mostra-nos que caso tenhamos uma seqüência de matrizes A m com kAm k → 0
quando m → ∞, então cada elemento de matriz (Am )ij também converge a zero quando m → ∞. E
vice-versa: Se (Am )ij → 0 para todos ij quando m → ∞, então kAm k → 0 quando m → ∞.
Nota. Antes de prosseguirmos, comentemos também que as duas desigualdades (4.15) são optimais,
ou seja, não podem ser melhoradas para matrizes genéricas. Por exemplo, é evidente que k k ∞ = 1
e que k k = 1. Assim, pelo menos nesse caso tem-se a igualdade na primeira desigualdade de (4.15).
Há também um caso em que se tem a igualdade na segunda desigualdade de (4.15). Considere-se a
matriz M cujos elementos de matriz são todos iguais a 1, ou seja, Mij = 1 para todos i, j. Seja o
vetor u de n cujas componentes são todas iguais a 1, ou seja, ui = 1 para todo i. É elementar ver
kM uk
que M u = nu. Logo = n. Portanto, kM k ≥ n e kM k∞ = 1. Assim, kM k ≥ nkM k∞ e, da

kuk
segunda desigualdade de (4.15), concluı́mos que, nesse caso, kM k = nkM k∞ .
A desigualdade (4.14) significa que kAk ≤ kAk2 . Ao mesmo tempo, a desigualdade (4.13) mostra
que
X n X n Xn
2 2
nkAk = kAk ≥ |Aij |2 = kAk22 .
j=1 j=1 i=1
Logo, concluı́mos que em Mat ( , n)

1
√ kAk2 ≤ kAk ≤ kAk2 . (4.16)
n
E. 4.6 Exercı́cio. Mostre que em Mat ( , n)

1
kAk1 ≤ kAk ≤ nkAk1 . (4.17)
n2
n
X
Sugestão: Mostre primeiro que kAk∞ ≤ |Aij | ≤ n2 kAk∞ ou seja
i, j=1
kAk∞ ≤ kAk1 ≤ n2 kAk∞ . (4.18)
e, então, use (4.15). 6
E. 4.7 Exercı́cio. Mostre que as desigualdades (4.18) também não podem ser melhoradas. 6
Nota. As expressões (4.15), (4.16), (4.17) e (4.18) mostram-nos de modo explı́cito que em Mat ( , n)
as normas k·k, k·k∞, k·k1 e k·k2 são equivalentes (vide definição à página 121). Como já mencionamos,
em espaços de dimensão finita todas as normas matriciais são equivalentes.
A importância de se introduzir uma norma em L(V ) é que podemos dessa forma introduzir uma
noção de distância entre elementos desse conjunto, ou seja, podemos definir uma métrica em L(V )
por d(A, B) = kA − Bk. Deixamos para o leitor a tarefa de demonstrar que isso de fato define uma
métrica em L(V ). Com isso, fazemos de L(V ) um espaço dotado de uma topologia métrica. Fora
isso, o importante Teorema 23.2 demonstrado à página 1020 afirma que L(V ) será um espaço métrico
completo se V o for. Logo, como n e n são sabidamente espaços vetoriais completos, assim o serão

Mat ( , n), Mat ( , n), assim como L(Mat ( , n)) etc. É possı́vel dessa forma falar de convergência de

seqüências e séries de matrizes de Mat ( , n), Mat ( , n), assim como de elementos de L(Mat ( , n))

etc. Abaixo faremos uso repetido desse fato fundamental.

4.2 Exponenciais, Logaritmos e Funções Analı́ticas de Matri-

zes
No estudo da teoria de grupos e em outras áreas é muito conveniente definir certas funções de operadores
lineares, tais como exponenciais, logaritmos etc. Já abordamos a definição da exponenciação de matrizes
nos capı́tulos 3 e 6. Vamos aqui tentar uma abordagem mais geral.
• Séries de Potências de Matrizes
Seja A ∈ Mat ( , n) uma matriz n × n complexa e seja {am m ∈ } uma seqüência de números
complexos. A expressão
∞
X N
X
am Am = lim am Am = a 0 + a 1 A + a 2 A2 + a 3 A3 + · · ·
N →∞
m=0 m=0
é dita ser uma série de potências convergente, caso o limite acima exista em Mat ( , n).
Nota. Adotaremos sempre a convenção que A0 = .

A seguinte proposição é fundamental:
∞
X ∞
X
m
Proposição 4.1 A séria de potências am A é convergente se |am | kAkm < ∞.

2
m=0 m=0
P∞
A importância dessa proposição reside no fato que m=0 |am |kAkm é uma série numérica e, portanto,

mais simples de lidar.

N
X
Prova. Sejam as somas parciais SN := am Am . Teremos para M < N ,
m=0

X
N N
X
m
kSN − SM k
= am A ≤ |am | kAkm .

m=M +1
m=M +1
P PN
Agora, como a série numérica ∞m=0 |a m | kAk m
converge, s N := m=0 |am | kAk
m
é uma seqüência de
PN

m
Cauchy. Logo m=M +1 |am | kAk pode ser feito menor que qualquer > 0 dado, desde que escolhamos

M e N grandes o suficiente. Logo SN é também uma seqüência de Cauchy no espaço métrico completo
Mat ( , n). Portanto, SN converge em Mat ( , n) quando N → ∞.
• Funções Analı́ticas de Matrizes
A Proposição 4.1 conduz à seguinte definição. Seja r > 0 e Dr = {z ∈ | |z| < r} o disco aberto
de raio r centrado em 0 no plano complexo. Seja f : Dr → uma função analı́tica em Dr . Como bem
sabemos, f pode ser expressa em termos de uma série de potências (série de Taylor centrada em z 0 = 0):
P
f (z) = ∞ m
onde fm = f (m) (0)/m!. É bem sabido também que essa série é absolutamente
m=0 fm z ,P
convergente em Dr : ∞ m
m=0 |fm | |z| < ∞, se |z| < r. Podemos então definir
∞
X
f (A) := fm Am
m=0
para toda a matriz A com kAk < r, pois a proposição acima garante que a série de matrizes do lado

direito converge a alguma matriz de Mat ( , n), que denotamos por f (A), fazendo uma analogia óbvia
com a função numérica f .
A seguinte proposição sobre essas funções de matrizes será freqüentemente usada no que seguirá.
Proposição 4.2 I. Sejam f e g duas funções analı́ticas no mesmo domı́nio D r . Definamos (f +
g)(z) := f (z) + g(z) e (f g)(z) := f (z)g(z), z ∈ Dr . Então, para A ∈ Mat ( , n) com kAk < r
teremos f (A) + g(A) = (f + g)(A) e f (A)g(A) = g(A)f (A) = (f g)(A).

II. Sejam f e g duas funções analı́ticas, com domı́nios Drf e Drg , respectivamente, e tais que a
imagem de g esteja contida no domı́nio de f . Podemos então definir f ◦ g(z) := f (g(z)). Então, para
A ∈ Mat ( , n) com kAk < rg teremos f (g(A)) = f ◦ g(A).

Prova. ←→ Exercı́cio.
Note-se que a parte I da proposição acima afirma que existe um homomorfismo da álgebra das
funções analı́ticas em um domı́nio Dr ⊂ e Mat ( , n).
Vamos mais adiante usar o seguinte resultado, que essencialmente afirma que as matrizes f (A)
definidas acima, com f analı́tica em um domı́nio Dr ⊂ , dependem continuamente de A.
P∞ em kum domı́nio Dr ⊂ , com f tendo a série

Proposição 4.3 Seja f função complexa analı́tica
de Taylor absolutamente convergente f (z) = k=0 fk z , |z| < r. Seja também Bm , m ∈ , uma
seqüência de matrizes de Mat ( , n) tais que limm→∞ kBm k = 0. Então, para todo A ∈ Mat ( , n)

com kAk < r tem-se

lim f (A + Bm ) = f (A).
m→∞
2
Prova. Comecemos com um comentário sobre o enunciado do teorema. Para que f (A + B m ) esteja
definido é necessário que kA + Bm kC < r. Como kA + Bm kC ≤ kAk + kBm k e kAk < r, a condição

é satisfeita para m grande o suficiente, pois limm→∞ kBm k = 0. Assim, estaremos supondo que m é

grande o suficiente de modo que kBm k < para algum tal que kAk + < r. Feita essa ressalva,

passemos à demonstração.
A prova da proposição segue como conseqüência das duas observações seguintes. A primeira é que
para quaisquer matrizes X, Y ∈ Mat ( , n) e qualquer k inteiro positivo tem-se a seguinte identidade
algébrica:
Xk−1
k k
X −Y = X p (X − Y ) Y k−1−p . (4.19)
p=0
Para provar isso, basta expandir a soma do lado direito e mostrar, após alguns cancelamentos, que
obtem-se o lado esquerdo (faça!).
P∞A segunda observação é que se f é analı́tica em Dr , sua

P derivada também o é. Assim, f 0 (z) =
k=0 kfk z
k−1
converge absolutamente para |z| < r, ou seja, ∞ k=0 k|fk | |z|
k−1
< ∞ sempre que |z| < r.
Assim,
∞
X
f (A + Bm ) − f (A) = fk (A + Bm )k − Ak .
k=0
Usando (4.19) com X = A + Bm e Y = A, teremos

∞
X k−1
X
f (A + Bm ) − f (A) = fk (A + Bm )p Bm Ak−1−p .
k=0 p=0
Logo,
∞
X k−1
X
kf (A + Bm ) − f (A)k
≤ kBm k
|fk | kA + Bm kp kAkk−1−p .

k=0 p=0
Agora, como dissemos, kA + Bm k < kAk + < r e, obviamente, kAk < kAk + < r. Portanto,

∞
X k−1
X ∞
X
kf (A + Bm ) − f (A)k
≤ kBm k
|fk | (kAk + )k−1 = kBm k

k|fk | (kAk + )k−1 .

k=0 p=0 k=0
Como comentamos acima, a soma do lado direito é finita. Como, porém, kBm k → 0 para m → ∞,
teremos limm→∞ kf (A + Bm ) − f (A)k = 0, que é o que querı́amos provar.

• Exponenciais e Logaritmos de Matrizes
Com as definições apresentadas acima, podemos definir exponenciais e logaritmos de matrizes.

Temos,
∞
X
A 1 m
exp(A) ≡ e := A (4.20)
m=0
m!
para toda matriz A ∈ Mat ( , n), pois a série de Taylor da função exponencial converge absolutamente
em todo o plano complexo.
Analogamente, podemos definir
X∞
(−1)m−1 m
ln( + A) = A (4.21)
m=1
m
para toda matriz A ∈ Mat ( , n) com kAk < 1, pois a série de Taylor da função ln(1 + z) converge

absolutamente em D1 .
Nota. Para kA − k < 1 podemos definir ln(A) por ln(A) := ln( + (A − )).

E. 4.8 Exercı́cio. Usando a Proposição 4.2, mostre que (exp(A)) m = exp(mA) para toda matriz
A ∈ Mat ( , n) e todo m ∈ . Mostre também que
exp(ln( + A)) = +A
para toda matriz A ∈ Mat ( , n) com kAk < 1 e que

ln (exp(B)) = B
para toda matriz B ∈ Mat ( , n) com k exp(B) − k < 1.
Note que
X∞
1 m X∞
1

k exp(B) − k
= B ≤ kBkm = ekBk − 1.
m=1 m! m!

m=1
Assim, a condição k exp(B) − k < 1 é satisfeita se kBk < ln 2.

Sobre a exponencial de matrizes temos o seguinte:

Proposição 4.4 Existe uma bola aberta Br (0) de raio r > 0 centrada em 0 em Mat ( , n) tal que
a aplicação exp : Mat ( , n) → Mat ( , n) definida acima é um homeomorfismo (em verdade, um
difeomorfismo) entre Br (0) e sua imagem, exp(Br (0)), a qual é uma vizinhança aberta da matriz
identidade . 2
X∞
1 m
Prova. Temos que, para todo A ∈ Mat ( , n), exp(A) − = A + ϕ(A), onde ϕ(A) := A . É
m=2
m!
fácil ver que kϕ(A)k
kAk
→ 0 para kAk → 0. exp(A) − é contı́nua e diferenciável em uma vizinhança de 0
(em verdade, em toda parte) e sua derivada em 0 é a identidade. A afirmação da Proposição 4.4 segue
então do bem conhecido Teorema da Aplicação Inversa (vide, por exemplo, [84]).
Junto com o último exercı́cio, isso prova a seguinte proposição:

Proposição 4.5 Para toda matriz A ∈ Mat ( , n) com kA − k < 1 tem-se
exp(ln(A)) = A.
Para toda matriz B ∈ Mat ( , n) com kBk < ln 2 tem-se

ln (exp(B)) = B. (4.22)
• Exponenciais de Matrizes. Comutatividade
Para dois números complexos z e w é bem conhecida a validade da propriedade exp(z) exp(w) =
exp(z + w) da função exponencial. Podemos nos perguntar: será essa propriedade válida também
para matrizes? A resposta é que em geral tal relação não é válida, apenas em certos casos especiais.
A questão de determinar o produto de exponenciais de matrizes tem grande importância em várias
manipulações algébricas e muito do que seguirá abordará esse problema.
Lembremos a primeiramente a seguinte proposição.
Proposição 4.6 Se A, B ∈ Mat ( , n) são duas matrizes que comutam, ou seja, AB = BA, então
eA+B = eA eB = eB eA . (4.23)
A propriedade (4.23) é familiar quando A e B são números, mas não é óbvia quando A e B são
matrizes. De fato a relação acima é geralmente falsa caso A e B sejam matrizes que não comutam.
No caso em que A e B não comutam o produto eA eB pode ser computado com uso da fórmula de
Baker-Campbell-Hausdorff, discutida na Seção 4.5, página 236.
Prova de (4.23). Pela definição
X∞ X∞
A+B 1 m 1
e = + (A + B) = (A + B)m ,
m=1
m! m=0
m!
onde convencionamos que (A + B)0 = . Como A e B comutam, vale a regra do binômio de Newton5
X m
m m p m−p
(A + B) = AB .
p=0
p
E. 4.9 Exercı́cio. Por quê? Vale a regra do binômio de Newton no caso de A e B não comutarem?
Teste alguns exemplos. 6
Assim,
X∞ X m X∞ X m
A+B 1 m p m−p 1
e = A B = Ap B m−p .
m=0 p=0
m! p m=0 p=0
(m − p)!p!
Agora, vale a seguinte regra de mudança de ordem de somas:
∞ X
X m ∞ X
X ∞
(· · · ) = (· · · ).
m=0 p=0 p=0 m=p
Logo, !
∞ X
X ∞ X∞ ∞
X
1 1 p 1
eA+B = p m−p
AB = A B m−p .
p=0 m=p
(m − p)!p! p=0
p! m=p
(m − p)!
5
Isaac Newton (1643-1727).
Agora, com a mudança de variável l = m − p,

∞
X ∞
X
1 m−p 1 l
B = B = eB .
m=p
(m − p)! l!
l=0
Assim,
X∞
A+B 1 p B
e = A e = e A eB .
p=0
p!
Analogamente se prova que eA+B = eB eA .
Podemos nos perguntar: o que ocorre se A e B não comutarem? Há alguma maneira de calcular
exp(A + B) em termos de produtos de exp(A) e exp(B) nesse caso? A resposta a essas questões é dada
por três fórmulas muito importantes, a fórmula de Lie-Trotter, a fórmula do comutador e a fórmula de
Baker-Campbell-Hausdorff, das quais trataremos mais adiante.
• Algumas Propriedades de Funções Analı́ticas de Matrizes
Os exercı́cios seguintes, os quais são muito simples de provar, apresentam afirmativas freqüentemente
usadas sobre funções analı́ticas de matrizes.
E. 4.11 Exercı́cio. Usando a definição (4.20), mostre que

P −1 exp(A)P = exp P −1 AP (4.24)
para matrizes n × n reais ou complexas A e P , sendo P invertı́vel. 6
E. 4.12 Exercı́cio. Usando a definição (4.20), mostre que

exp(A)T = exp AT e que exp(A)∗ = exp (A∗ )
para A ∈ Mat ( , n) ou A ∈ Mat ( , n). 6
Os exercı́cios acima podem ser facilmente generalizados:

∞
X
E. 4.13 Exercı́cio. Seja f (z) := fm z m uma série de potências convergente para |z| < r0 para algum
m=0
r0 > 0. Então para A ∈ Mat ( , n) com kAk < r0 tem-se
∞
!T ∞ ∞
!∗ ∞
X X X X
T m
fm A m
= fm A e fm A m
= fm (A∗ )m ,
m=0 m=0 m=0 m=0
∞
X

T
ou seja, f (A) = f A T ∗ ∗
e f (A) = f (A ), onde f (z) := fm z m = f (z). Prove essas afirmativas.
m=0
Prove também que !
∞
X ∞
X
−1
m
P fm A m
P = fm P −1 AP ,
m=0 m=0
ou seja, P −1 f (A)P = f (P −1 AP ). 6
Também muito útil é a afirmação contida no seguinte exercı́cio:

∞
X ∞
X
E. 4.14 Exercı́cio. Sejam f (z) = fm z m e g(z) = gm z m duas séries de potências convergentes
m=0 m=0
em |z| < r1 e |z| < r2 , respectivamente. Sejam A e B ∈ Mat ( , n) duas matrizes com kAk < r 1 e
kBk < r2 tais que AB = BA. Então f (A)g(B) = g(B)f (A). Prove isso. 6
• O Determinante de Exponenciais de Matrizes
O Teorema de Decomposição de Jordan (Teorema 3.18, página 192) permite-nos demonstrar o

seguinte resultado muito útil sobre o determinante de exponenciais de matrizes.
Proposição 4.7 Seja A ∈ Mat ( , n) ou A ∈ Mat ( , n). Então vale que

det eA = eTr (A) . (4.25)
É suficiente que provemos (4.25) para matrizes complexas primeiro, pois matrizes reais podem ser
obtidas de matrizes complexas do limite quando a parte imaginária dos elementos de matriz vai a zero
e a continuidade, tanto do lado direito quanto do lado esquerdo de (4.25) em relação aos elementos de
matriz de A, garante a validade daquela expressão para matrizes reais também.
Para a prova precisamos de um lema preparatório simples.
Lema 4.1 Se D ∈ Mat ( , n) é uma matriz diagonal complexa n × n, então

det eD = eTr (D) .
Igualmente, se N ∈ Mat ( , n) é uma matriz nilpotente complexa n × n, então

det eN = eTr (N ) = 1.
Prova. A parte referente à matriz diagonal é a mais fácil. Suponhamos que D é a matriz diagonal
D = diag (d1 , . . . , dn ), sendo que os elementos da diagonal são os autovalores de D. Segue que eD

é a matriz diagonal D = diag ed1 , . . . , edn . Assim, pela Proposição 3.2, página 145, det eD =
ed1 +···+dn = eTr (D) .
Tratemos agora da parte referente à matriz nilpotente N . Iremos provar provar que se N é nilpotente
todos os autovalores de eN são iguais a 1. Pela Proposição 3.18, página 186, os autovalores de N são
todos nulos, Assim, se φ é um autovetor de N teremos eN φ = φ, ou seja, φ é autovetor de eN com
autovalor 1. Infelizmente isso não nos permite concluir diretamente que todos os demais autovetores
de eN tem a mesma propriedade, mas, como veremos, isso é verdade.
Vamos supor que o ı́ndice de N seja k, ou seja, N k+1 = 0. Assim,
Xk
N 1 m
e = + N .
m=1
m!
Seja ψ 6= 0 um autovetor de eN com autovalor λ e suponhamos que λ 6= 1. De eN ψ = λψ tem-se
Xk
1 m
(λ − 1)ψ = N ψ (4.26)
m=1
m!
e, assim, aplicando N k a ambos os lados, concluı́mos que
(λ − 1)N k ψ = 0,
já que no lado direito aparecem potências como N k+1 ψ, N k+2 ψ etc., todas nulas. Como λ 6= 1, devemos
ter N k ψ = 0. Retornando a (4.26), podemos reescrevê-la como
k−1
X 1 m
(λ − 1)ψ = N ψ
m=1
m!
eliminando o termo com N k ψ. Aplicando N k−1 a ambos os lados, concluı́mos que
(λ − 1)N k−1 ψ = 0,
já que no lado direito aparecem potências como N k ψ, N k+1 ψ etc., todas nulas. Como λ 6= 1, devemos
ter N k−1 ψ = 0. Prosseguindo dessa forma concluiremos por fim que N ψ = 0. Assim, eN ψ = ψ = ψ,
provando que λ = 1, uma contradição.
A conclusão
é que todos os autovalores de eN são iguais a 1, e pela Proposição 3.2, página 145,
det eN = 1. Notemos que, pelaProposição 3.18, página 186, os autovalores de N são todos nulos e,
assim, Tr (N ) = 0. Logo, det eN = 1 = eTr (N ) . Isso completa a prova do lema.
Prova da Proposição 4.7. Pelo Teorema de Decomposição de Jordan, existe uma matriz invertı́vel
T tal que A = T −1 (D + N )T , onde D é diagonal, N é nilpotente e DN = N D. Logo,

eA = exp T −1 (D + N )T = T −1 exp(D + N )T = T −1 exp(D) exp(N )T.
Portanto,

det eA = det T −1 eD eN T = det T −1 det eD det eN det (T ) = det eD det eN ,
pois det (T −1 ) = 1/ det (T ). Assim, pelo Lema 4.1, pela Proposição 3.7 e pela propriedade (3.8),

det eA = eTr (D) eTr (N ) = eTr (D+N ) = eTr (T (D+N )T ) = eTr (A) ,
−1
completando a prova.
4.2.1 A Exponenciação de Matrizes e os Grupos GL( , n) e GL( , n)
Recordemos que GL( , n) (respectivamente, GL( , n)) designa o grupo das matrizes invertı́veis

complexas (reais) n × n. Aqui discutiremos a relação entre a exponenciação de matrizes e esses grupos.
Essa discussão terá um papel mais relevante quando tratarmos da teoria dos grupos de Lie e álgebras
de Lie nos Capı́tulos 10 e 11.
Em primeiro lugar, tem-se a seguinte proposição elementar:
Proposição 4.8 A aplicação exp definida em (4.20) é uma aplicação de Mat ( , n) em GL( , n)
(ou, correspondentemente, de Mat ( , n) em GL( , n)).
2
Prova. É evidente pela definição (4.20) que exp(0) = . Tudo o que se deseja provar é que para
qualquer A ∈ Mat ( , n) então exp(A) é invertı́vel. Ora, por (4.23), é elementar constatar que
exp(A)−1 = exp(−A).
Tem-se também o seguinte:

Proposição 4.9 Para n ≥ 2 as aplicações exp : Mat ( , n) → GL( , n) e exp : Mat ( , n) →
GL( , n) não são injetoras.

2
Prova. Para matrizes complexas, basta constatar que, no exemplo das matrizes diagonais na forma
D = diag (2πk1 i, . . . , 2πkn i, ) com kl ∈ , tem-se exp(D) = .

0 1
Para matrizes reais, considere-se a matriz real A(α) := αJ onde J := , α ∈ . Como
−1 0

facilmente se vê, tem-se para m ∈ , A(α)2m = (−1)m (α)2m e A(α)2m+1 = (−1)m (α)2m+1 J. Daı́,

como facilmente se verifica por (4.20),

cos α sen α
exp(A(α)) = cos(α) + sen (α)J = .
− sen α cos α
Logo, exp(A(2πk)) = para todo k ∈ . Assim a exponenciação de matrizes reais 2 × 2 não pode ser
injetora. É fácil, a partir desse exemplo, construir outros para matrizes reais n × n com n ≥ 2.
Agora veremos duas proposições nas quais as matrizes reais e complexas se diferenciam.
Proposição 4.10 As aplicações exp : Mat ( , n) → GL( , n), n ≥ 1, não são sobrejetoras.
2
Proposição 4.11 As aplicações exp : Mat ( , n) → GL( , n), n ≥ 1, são sobrejetoras. 2
Prova da Prop. 4.10. Pela Proposição 4.25, o determinante da exponencial de qualquer matriz real é
positivo. Ora, existem em GL( , n) matrizes com determinante negativo. Logo, a exponenciação de

matrizes reais não pode ser sobrejetora.

Comentário. Sobre matrizes reais é possı́vel dizer mais que o enunciado da Proposição 4.10 e sua
prova. Em verdade, não são apenas as matrizes com determinante negativo que estão fora da imagem
da exponenciação de matrizes reais. Há algumas com determinante positivo que também estão fora.
Se M é uma matriz real invertı́vel então seus autovalores são as raı́zes do polinômio caracterı́stico
p(x) = det(x − M ). Como M é real, esse polinômio tem coeficientes reais e, como é bem sabido, as
raı́zes de polinômios com coeficientes reais ou são números reais ou são pares de números complexos
complexo-conjugados
uns dos outros. Por exemplo, as raı́zes do polinômio caracterı́stico da matriz
0 1
são ±i. De qualquer forma, uma matriz com determinante positivo pode, digamos, ter duas
−1 0
raı́zes negativas distintas simples, como é, por exemplo, o caso da matriz
 
1 0 0
0 −1 0  . (4.27)
0 0 −2
Isso posto, estudemos os autovalores das matrizes da forma eA com A real. Esses são as raı́zes do
polinômio caracterı́stico p(x) = det(x − eA ). Como toda matriz real é também membro de Mat ( , n)
podemos aplicar o Teorema da Decomposição de Jordan (Teorema 3.18, página 192) e afirmar que
existe uma matriz invertı́vel complexa P tal que P −1 AP = D + N com D diagonal, N nilpotente,
DN = N D, sendo que D tem na diagonal os autovalores da matriz real A. Assim, pela propriedade
do determinante,

p(x) = det(x − eA ) = det P −1 (x − eA )P = det(x − eD eN ).
É fácil de ver daı́6 que os autovalores de eA são os elementos da diagonal da matriz diagonal eD , que
são, como comentamos acima, exponenciais dos autovalores da matriz real A. Podemos nos perguntar:
podem os elementos da diagonal de eD serem números negativos? A resposta é sim, mas para isso é
necessário que A tenha um autovalor complexo cuja parte imaginária seja da forma (2k + 1)π, com k
inteiro. Ora, como A é real, existe pelo que comentamos acima, um outro autovalor complexo de A cuja
parte imaginária é da forma −(2k + 1)π, pois os autovalores complexos aparecem em pares complexo-
conjugados. Isso diz-nos que os autovalores negativos de eA tem multiplicidade par! Ora, isso nem
sempre é o caso para matrizes invertı́veis, como mostra o exemplo do último parágrafo. Assim, matrizes
reais com determinante positivo e com pelo menos um autovalor negativo com multiplicidade ı́mpar
não estão na imagem da exponencial de nenhuma matriz real. Tal é o caso da matriz de (4.27). Em
verdade, mesmo matrizes com determinante positivo e com autovalores negativos com multiplicidade
par podem não estar na imagem da exponencial. Tal é o caso das matrizes −1 a
0 −1 com a 6= 0 (mostre
isso).
Prova da Prop. 4.11. A Proposição 4.11 afirma que toda matriz complexa invertı́vel n × n pode ser
escrita como exponencial de outra matriz complexa n × n. Provemos isso. Seja A ∈ GL( , n). Pelo
Teorema da Decomposição de Jordan (Teorema 3.18, página 192) existe uma matriz invertı́vel P tal que
P −1 AP = D + N com D diagonal, N nilpotente, DN = N D, sendo que D tem na diagonal principal
os autovalores da matriz A. Esse último fato diz-nos que D não tem autovalores nulos e, portanto, é
também invertı́vel.
6
Pois numa base conveniente a matriz eD eN é uma matriz triangular superior, tendo na diagonal principal os elementos
da diagonal de eD .
Podemos assim escrever D + N = D( + D −1 N ). O que faremos agora é provar os seguintes fatos:

1. D pode ser escrita como D = eF para alguma matriz F conveniente. 2. + D −1 N pode ser escrita
como + D −1 N = eG para alguma matriz G conveniente. 3. Podemos escolher F e G de modo que
F G = GF . Desses três fatos concluı́mos que P −1 AP = exp(F + G) e, portanto, A = exp (M ), onde
M = P (F + G)P −1 . Isso prova o que desejamos.
Prova de 1. Sejam α1 , . . . , αl os autovalores distintos de D. Pelo Teorema Espectral (vide Teorema
X l
3.4, página 163, ou Teorema 3.5, página 165) podemos escrever D = αj Ej , onde as matrizes Ej
j=1
satisfazem (3.22) e (3.23) e, de acordo com (3.24), podem ser expressas como polinômios em D (um fato
1
que será usado mais abaixo): Ej = mj (α j)
mj (D). (Os polinômios mj foram definidos na demonstração
do Teorema 3.5). Seja, para cada j, um número complexo fj escolhido de forma que exp(fj ) = αj .
Encontrar tais fj ’s sempre é possı́vel pois os αj ’s são não-nulos, já que D é invertı́vel. Se definirmos
l
X
F := fj Ej
j=1
é fácil constatar por (3.22) e (3.23) que exp(F ) = D (faça!). Isso prova 1. Note que, pelo que
comentamos acima, vale
Xl
fj
F = mj (D) , (4.28)
j=1
mj (αj )
ou seja, F pode ser expressa como um polinômio em D.
Prova de 2. Como D −1 e N comutam (por que?), segue que D −1 N é nilpotente de ordem, digamos,
k+1
k, ou seja (D −1 N ) = 0. Assim, para z ∈ escolhido de modo que kzD −1 N k < 1, o logaritmo de
−1
+ zD N está bem definido e vale (vide (4.21))
Xk
(−z)m m
G(z) = − D −1 N . (4.29)
m=1
m
Sabemos pela Proposição 4.5 que nesse caso em que kzD −1 N k < 1, ou seja, |z| < 1/kD −1 N k, temos
exp(G(z)) = + zD −1 N . (4.30)
Queremos agora provar que essa igualdade vale para todo z. Usando novamente o fato que as matrizes
k+1
D −1 e N comutam entre si, o fato que (D −1 N ) = 0 e o fato que a soma em (4.29) é finita, teremos
k
!
X (−z)m m
exp(G(z)) = exp − D −1 N
m=1
m
k
Y
(−z)m m
= exp − D −1 N
m=1
m
k
" k
#
Y X (−1)l (−z)ml ml
= + D −1 N .
m=1 l=1
l! ml
Como as somas a produtos acima são finitos (conseqüência da nilpotência de D −1 N ), constatamos que
exp(G(z)) é um polinômio em z para todo z ∈ . Ora, já verificamos acima que, quando |z| é pequeno,
exp(G(z)) é igual ao polinômio em z dado por + zD −1 N . Como polinômios são funções analı́ticas
em toda parte isso implica que exp(G(z)) = + zD −1 N para todo z ∈ . Em particular, para z = 1,
o que significa que + D −1 N = exp(G), onde
Xk
(−1)m+1 m
G ≡ G(1) = D −1 N . (4.31)
m=1
m
E. 4.15 Exercı́cio. Usando a definição (4.31), prove explicitamente que exp(G) = + D −1 N . 6
Prova de 3. Por (4.28), F é um polinômio em D. Assim, F comuta com D −1 e com N . Logo,

por (4.31), F comuta com G. Isso é o que querı́amos provar e, assim, a prova da Proposição 4.11 está
completa.
4.3 A Fórmula de Lie-Trotter e a Fórmula do Comutador

Há duas expressões envolvendo produtos de exponenciais de matrizes que são bastante úteis. São as
fórmulas conhecidas como fórmula de Lie-Trotter7 e fórmula do comutador. A fórmula de Lie-Trotter
é importante não apenas no estudo de grupos de Lie matriciais mas também na Mecânica Estatı́stica
e na Mecânica Quântica, onde é freqüentemente empregada. A fórmula de Lie-Trotter, por exemplo, é
usada na Mecânica Estatı́stica para relacionar sistemas quânticos de spin a sistemas clássicos de spin.
Proposição 4.12 Para quaisquer matrizes A, B ∈ Mat ( , n) valem:
Fórmula de Lie-Trotter:
m
1 1
exp (A + B) = lim exp A exp B . (4.32)
m→∞ m m
Fórmula do Comutador:
m2
1 1 1 1
exp ([A, B]) = lim exp A exp B exp − A exp − B . (4.33)
m→∞ m m m m
2
7
A fórmula de Lie-Trotter foi originalmente demonstrada por Lie (Marius Sophus Lie (1842-1899)) e posteriormente
generalizada por vários autores, entre eles Trotter (Hale Freeman Trotter (1931-)) em “On the Product of Semi-Groups
of Operators”. Proc. Amer. Math. Soc. 10, 545-551 (1959). O leitor poderá encontrar várias dessas generalizações (por
exemplo para operadores auto-adjuntos não-limitados agindo em espaços de Hilbert) em [99]. O assunto é ainda hoje
objeto de pesquisa.
Prova. Vamos primeiramente provar a fórmula de Lie-Trotter8 e posteriormente passar à fórmula do

comutador. Começamos definindo, para m ∈ ,

1 1
Sm := exp A exp B ,
m m

1
Tm := exp (A + B) .
m
Note-se que (Tm )m = exp (A + B) e que tudo o que desejamos é provar que (Sm )m converge a
exp (A + B), ou seja,
lim k(Sm )m − (Tm )m k = 0.
m→∞
Precisamos, portanto, estudar (Sm )m − (Tm )m . Para isso, é útil empregarmos a identidade algébrica
(4.19). Daquela relação e das propriedades da norma operatorial, segue que
m−1
X
m
k(Sm ) − (Tm ) k m
≤ kSm kp kSm − Tm k kTm km−1−p .

(4.34)
p=0
Pela definição, temos para qualquer matriz M ∈ Mat ( , n)

X ∞
1 k X∞
1

k exp (M ) k =
M ≤ kM kk = ekM k .
k! k!

k=0 k=0
Assim,
1 1
kSm k
≤
exp m A
exp
B
≤ e(kAk +kBk )/m

m
e kTm k ≤ e(kAk

+kBk )/m
. Retornando a (4.34), teremos
m−1
X
m m (kAk +kBk )(m−1)/m
k(Sm ) − (Tm ) k
≤ e kSm − Tm k
≤ mkSm − Tm k e(kAk
+kBk )
.
p=0
Na última desigualdade usamos que (m − 1)/m < 1 e que kSm − Tm k não depende de p.
Como se vê da última expressão, tudo que que temos que fazer para provar k(S m )m − (Tm )m k vai
a zero quando m → ∞ é provar que kSm − Tm k vai a zero com 1/m2 quando m cresce. Isso é feito

escrevendo as expressões explı́citas para Sm e Tm em termos da série de Taylor da função exponencial:

1 1 1
Sm − Tm = exp A exp B − exp (A + B)
m m m
" ∞
#" ∞
# " ∞
#
1 X m−k k 1 X m−k k 1 X m−k
= + A+ A + B+ B − + (A + B) + (A + B)k .
m k=2
k! m k=2
k! m k=2
k!
8
Para a fórmula de Lie-Trotter seguiremos aqui a demonstração de [99].
Expandindo-se a última linha, e identificando os termos em 1/m, é fácil constatar que

1 1 1 1 1
Sm − T m = + A + B − − (A + B) + 2 Sm = Sm ,
m m m m m2
onde Sm é uma série, um tanto complicada, mas convergente em norma e tal que lim m→∞ kSm k =
finito. Assim,
1
mkSm − Tm k ≤
kSm k
m
e, portanto,
lim k(Sm )m − (Tm )m k = 0.
m→∞
Isso demonstrou a fórmula de Lie-Trotter. O estudante mais avançado pode facilmente convencer-se
que precisamente a mesma demonstração se aplica ao contexto de operadores limitados agindo em
espaços de Banach.
Para a fórmula do comutador usaremos outro procedimento. Definimos

1 1 1 1
Um := exp A exp B exp − A exp − B
m m m m
e teremos
" ∞
#" ∞
#
1 1 2 X m−k k 1 1 2
X m−k k
Um = + A+ A + A + B+ B + B
m 2m2 k=3
k! m 2m2 k=3
k!
" ∞
#" ∞
#
1 1 2 X (−m)−k k 1 1 X (−m) −k
× − A+ A + A − B+ B2 + Bk .
m 2m2 k=3
k! m 2m2 k=3
k!
Com um pouco de paciência podemos expandir o produto dos quatro fatores do lado direito e constatar
(faça!) que os termos envolvendo 1/m se cancelam e o termo proporcional a 1/m 2 é AB − BA (outros
termos como (1/m2 )A2 e (1/m2 )B 2 também se cancelam. Verifique!). Ou seja, ficamos com
1 1
Um = + (AB − BA) + Rm , (4.35)
m2 m3
onde m13 Rm são os termos restantes da expansão. Rm é uma expressão complicada, mas envolvendo
séries convergentes e de tal forma que limm→∞ kRm k é finito.

Isso diz que para m grande o suficiente a norma de Um − é pequena e, assim, podemos tomar o
logaritmo de Um , definido por ln(Um ) = ln( + (Um − )). Por (4.35) e pela expansão do logaritmo
teremos
ln(Um ) = ln( + (Um − ))

1 1
= ln + 2 (AB − BA) + 3 Rm
m m
1 1 0
= (AB − BA) + R ,
m2 m3 m
ou seja,
1 0
m2 ln(Um ) = [A, B] +
R , (4.36)
m m
onde R0m é novamente uma expressão complicada, mas envolvendo séries convergentes e de tal forma
que limm→∞ kR0m k é finito. Como limm→∞ m1 R0m = 0 podemos escrever, pela Proposição 4.3,

1 0
exp([A, B]) = lim exp [A, B] + Rm .
m→∞ m
Agora, por (4.36),

1 0 2 2
exp [A, B] + Rm = exp m2 ln(Um ) = (exp (ln(Um )))m = (Um )m .
m
Logo,
2
exp([A, B]) = lim (Um )m .
m→∞
Isso é o que desejávamos provar9 .
E. 4.16 Exercı́cio. Demonstre a fórmula de Lie-Trotter usando as idéias da prova da fórmula do

comutador. 6
4.4 Aplicações Lineares em Mat ( , n)

O conjunto de matrizes Mat ( , n) é naturalmente um espaço vetorial complexo de dimensão finita n 2 ,
pois combinações lineares de matrizes complexas n × n são novamente matrizes complexas n × n e a
matriz nula faz o papel de vetor nulo. Como tal, há várias aplicações lineares agindo em Mat ( , n).
Vamos nesta seção exibir e estudar algumas dessas aplicações e discutir suas relações. Os resultados aos
quais chegaremos são de interesse por si só, mas nossa intenção é também a de preparar a demonstração
da fórmula de Baker-Campbell-Hausdorff.
• As Aplicações ad
Dada uma matriz X ∈ Mat ( , n) fixa podemos definir uma aplicação linear ad[X] em Mat ( , n),
ad[X] : Mat ( , n) → Mat ( , n) por
ad[X](A) := [X, A] = XA − AX.
para toda matriz A ∈ Mat ( , n).

9
O estudante pode estar curioso (ou perplexo) sobre o por quê de não finalizamos a demonstração partindo de (4.36),
2
escrevendo m2 ln(Um ) = ln((Um )m ) e tomando diretamente daı́ o limite m → ∞. A razão é que o fato de Um ser próximo
2 2
de em norma não garante que (Um )m também o seja. Assim, o logaritmo de (Um )m pode não fazer sentido. Para
evitar esse transtorno lógico é mais conveniente finalizar a demonstração com uso da função exponencial de matrizes,
para a qual tais problemas de definição não ocorrem.
• As Aplicações Ad
Analogamente, seja G ∈ GL( , n) uma matriz invertı́vel fixa. Podemos definir uma aplicação linear
Ad[G] em Mat ( , n), Ad[G] : Mat ( , n) → Mat ( , n) por
Ad[G](A) := GAG−1 .
• Definindo a Exponenciação de ad
Denotaremos por (ad[X])p ou ad[X]p a p-ésima potência de ad[X]:

ad[X]p (A) = [X, [X, . . . , [X , A].
| {z }
p vezes
Aqui, p = 1, 2, . . .. Para facilitar a notação em aplicações futuras, convencionaremos que ad[X] 0 (A) =
A para toda matriz A ∈ Mat ( , n).
Dado que ad[X] é uma aplicação linear em um espaço vetorial de dimensão finita, sua exponencial
é bem definida. Definimos Exp[ad[X]] como sendo a aplicação linear no espaço das matrizes complexas
n × n, Exp[ad[X]] : Mat ( , n) → Mat ( , n) dada por
X∞ X∞
1 1
Exp[ad[X]](A) := (ad[X])m (A) := A + (ad[X])m (A),
m=0
m! m=1
m!
X∞
1
= A+ [X, [X, . . . , [X , A]
m! | {z }
m=1 m vezes
para toda A ∈ Mat ( , n). A convergência da série é automaticamente garantida pelas observações da
Seção 4.2.
• A Relação entre ad e Ad
Há uma relação elegante entre as aplicações ad e Ad, a qual se expressa na seguinte proposição:
Proposição 4.13 Seja X ∈ Mat ( , n) qualquer. Então
Ad[exp(X)] = Exp[ad[X]] , (4.37)
ou seja, para toda matriz A ∈ Mat ( , n) vale
X∞
1
exp(X)A exp(−X) = A + (ad[X])m (A), (4.38)
m=1
m!
ou seja,
X∞
1
exp(X)A exp(−X) = A + [X, [X, . . . , [X , A]
m! | {z }
m=1 m vezes
1 1
= A + [X, A] + [X, [X, A]] + [X, [X, [X, A]]] + · · · . (4.39)
2! 3!
Comentário 1. A expressão (4.38) ou (4.39) é comummente denominada série de Lie, mas alguns
autores também a denominam fórmula de Baker-Campbell-Hausdorff. Reservaremos esse nome apenas
para a expressão (4.46), adiante.
Comentário 2. As expressões (4.38) e (4.39) são empregadas de várias formas na Mecânica Quântica,
na Mecânica Estatı́stica Quântica e na Teoria Quântica de Campos, especialmente na Teoria de Per-
turbações e nas Teorias de Calibre.
Prova. Seja t ∈ e sejam A e X matrizes complexas n × n fixas quaisquer. Definamos

X∞
tm
Γ1 (t) := Exp[ad[tX]](A) = A + (ad[X])m (A)
m=1
m!
e
Γ2 (t) := Ad[exp(tX)](A) = exp(tX)A exp(−tX).
Vamos mostrar que Γ1 (t) = Γ2 (t) para todo t provando para isso que ambas satisfazem a mesma
equação diferencial linear com a mesma condição inicial.
É trivial constatar que Γ1 (0) = Γ2 (0) = A. Pela definição tem-se
X∞
d tm−1
Γ1 (t) = (ad[X])m (A)
dt m=1
(m − 1)!
∞
!
X tm−1
= ad[X] (ad[X])m−1 (A)
m=1
(m − 1)!
∞
!
X tm
= ad[X] (ad[X])m (A)
m=0
m!
= ad[X] (Exp[ad[tX]](A))
= ad[X](Γ1 (t)).
Em resumo, Γ1 (t) satisfaz

d
Γ1 (t) = ad[X](Γ1 (t)).
dt
d
Analogamente, calculemos Γ (t).
dt 2
Aplicando a regra de Leibniz10 ,
d d
Γ2 (t) = (exp(tX)A exp(−tX))
dt dt
= X exp(tX)A exp(−tX) − exp(tX)A exp(−tX)X
= ad[X](exp(tX)A exp(−tX))
= ad[X](Γ2 (t)).
Em resumo, Γ2 (t) satisfaz

d
Γ2 (t) = ad[X](Γ2 (t)).
dt
Constatamos assim que Γ1 (t) e Γ2 (t) satisfazem a mesma equação diferencial com a mesma condição
inicial. Pelo Teorema de existência e unicidade de soluções de sistemas de equações diferenciais lineares
com coeficientes constantes discutido na Seção 6.2, isso implica que Γ1 (t) = Γ2 (t) para todo t ∈ e,
em particular para t = 1, que é a afirmação do teorema.
Comentário. O teorema acima e sua demonstração exemplificam uma situação não muito incomum,
onde apresenta-se um resultado que é muito difı́cil de ser provado por um procedimento mas muito
fácil de ser demonstrado por outro. Tente o leitor demonstrar a identidade (4.38) expandindo as
exponenciais do lado direito em suas séries de Taylor, ou seja, escrevendo
∞ X
X ∞
(−1)l
exp(X)A exp(−X) = X k AX l
k=0 l=0
k!l!
e reordenando as somas de modo a obter o lado esquerdo de (4.38)! Ainda que seja possı́vel provar
(4.38) dessa forma, um tal procedimento é muitı́ssimo mais complexo que aquele que empregamos, e
que faz apenas uso de um fato básico bem conhecido da teoria das equações diferenciais.
E. 4.17 Exercı́cio. Tenha a idéia certa antes de tentar resolver qualquer problema. 6
• A Aplicação Diferencial Exponencial dexp
Seja F (t) uma matriz complexa n × n cujos elementos de matriz (F (t))ij são funções diferenciáveis
em relação a t. Seja também F 0 (t) a matriz cujo elemento ij é dtd (F (t))ij . Em palavras, F 0 (t) é obtida
diferenciando cada elemento de matriz de F (t).
Vamos nos colocar o seguinte problema: como calcular dtd exp(F (t))? O estudante apressado poderia
imaginar que dtd exp(F (t)) = exp(F (t))F 0 (t). Isso é, todavia, em geral falso, pois essa regra de derivação
não vale para matrizes! Isso é assim, pois a matriz F 0 (t) não necessariamente comuta com a matriz
10
F (t). Tem-se, em verdade, que para todo m = 1, 2, 3, . . .,

 
m−1
X
d d  
m
(F (t)) = F (t) · · · F (t) = F (t)k F 0 (t)F (t)m−k−1 .
dt dt | {z }
k=0
m vezes
Conseqüentemente,
X∞ Xn−1
d 1
exp(F (t)) = F (t)k F 0 (t)F (t)n−k−1 . (4.40)
dt n=1
n!
k=0
Isso motiva a seguinte definição. Para X ∈ Mat ( , n) fixo, definimos uma aplicação linear
dexp[X] : Mat ( , n) → Mat ( , n), denominada aplicação diferencial exponencial, por
X∞ Xn−1
1 k
dexp[X](A) := X AX n−k−1 , (4.41)
n=1 k=0
n!
para todo A ∈ Mat ( , n).
E. 4.18 Exercı́cio. Mostre que a série do lado direito está bem definida, ou seja, que é convergente para
todos X e A. 6
Com essa definição podemos, por (4.40), escrever

d
exp(F (t)) = dexp[F (t)](F 0 (t)). (4.42)
dt
Para uma expressão alternativa para a derivada da exponencial de uma matriz dependente de um
parâmetro, vide equação (4.61), página 243.
Por razões que ficarão claras adiante quando provarmos a fórmula de Baker, Campbell e Hausdorff,
é conveniente expressar dexp[X] em termos de ad[X]. Como veremos, é possı́vel fazer isso e o resultado
está expresso na Proposição 4.14 que apresentaremos e demonstraremos a seguir.
Antes, porém, duas definições. Para z ∈ definimos a função complexa φ(z) por
X∞
1 − e−z (−1)m m
φ(z) := = z . (4.43)
z m=0
(m + 1)!
Como a série de Taylor do lado direito converge para todo z ∈ , φ(z) é uma função inteira, ou seja, é
analı́tica em toda parte.
Pelos nossos comentários da Seção 4.2, podemos definir para todo X ∈ Mat ( , n) uma aplicação
linear Φ[X] : Mat ( , n) → Mat ( , n) dada por
Φ[X] := φ(ad[X]), (4.44)
ou seja, Φ[X] é a aplicação que a todo A ∈ Mat ( , n) associa a matriz Φ[X](A) dada por
X∞
(−1)m
Φ[X](A) = ad[X]m (A). (4.45)
m=0
(m + 1)!
Pelos comentários da Seção 4.2 a série do lado direito converge para todos X, A ∈ Mat ( , n).
Proposição 4.14 Com as definições apresentadas acima, vale para todos A, X ∈ Mat ( , n) a
expressão
dexp[X](A) = exp(X) Φ[ad[X]](A) ,
ou seja, !
X∞
(−1)m
dexp[X](A) = exp(X) ad[X]m (A) .
m=0
(m + 1)!
2
Também como comentado acima, é inútil tentar provar a proposição partindo de (4.41) e aplicando
força-bruta. A demonstração usará uma série de truques elegantes.
Prova. Vamos definir, para A, X ∈ Mat ( , n) fixas e t ∈ ,
H(t) := t dexp[tX](A).
A idéia é descobrir uma equação diferencial que H(t) satisfaz e, em seguida, resolvê-la. Note-se que,
pela definição, H(0) = 0. Como veremos, resolver a equação diferencial é tarefa relativamente fácil.
Um pouco mais trabalhoso é encontrar a equação diferencial. Para isso temos que calcular a derivada
de H(t) em relação a t.
Pela definição de H(t) e de dexp[tX](A) em (4.41), tem-se
∞ X
n−1 n
!
d d d X t
H(t) = (t dexp[tX](A)) = X k AX n−k−1
dt dt dt n=1 k=0
n!
∞ X
X n−1 X∞ X n
tn−1 k n−k−1 tn k
= X AX = X AX n−k
n=1 k=0
(n − 1)! n=0 k=0
n!
∞ X
X n ∞
X ∞ X
X n
tn k n−k tn n tn
= A+ X AX = A+ AX + X k AX n−k
n=1 k=0
n! n=1
n! n=1 k=1
n!
∞ n
! ∞ X
n ∞ X
n
X t X tn X tn
n k n−k
= A + X + X AX = A exp(tX) + X k AX n−k
n=1
n! n=1 k=1
n! n=1 k=1
n!
∞ X
n
!
X tn−1
= A exp(tX) + tX X k−1 AX n−k
n=1 k=1
n!
∞ X
n−1 n−1
!
X t
= A exp(tX) + tX X k AX n−k−1
n=1 k=0
n!
= A exp(tX) + X (t dexp[tX](A)) = A exp(tX) + XH(t) .

Em resumo, H(t) satisfaz a equação diferencial

d
H(t) = XH(t) + A exp(tX),
dt
com a condição inicial H(0) = 0.
Como estudamos à página 301 da Seção 6.2.2, a solução geral da equação matricial
d
M(t) = XM(t) + G(t)
dt
é Z t
M(t) = exp(tX)M(0) + exp((t − s)X)G(s)ds.
0
Assim, como H(0) = 0 e G(t) = A exp(tX), teremos

Z t
H(t) = exp((t − s)X)A exp(sX) ds
0
Z t Z t
= exp(tX) exp(−sX)A exp(sX) ds = exp(tX) Ad[exp(−sX)](A) ds
0 0
Z t Z tX∞
(4.37) (−s)m
= exp(tX) Exp[−ad[sX]](A) ds = exp(tX) ad[X]m (A) ds
0 0 m=0 m!
X∞ Z t X∞
(−1)m m m (−1)m tm+1
= exp(tX) ad[X] (A) s ds = exp(tX) ad[X]m (A)
m=0
m! 0 m=0
(m + 1)!
X∞
(−1)m tm
= t exp(tX) ad[X]m (A)
m=0
(m + 1)!
(4.45)
= t exp(tX) Φ[tX](A) .
Essa expressão vale para todo t ∈ . Tomando t = 1, teremos H(1) = exp(X)Φ[X](A), ou seja,
dexp[X](A) = exp(X) Φ[X](A),
Reunindo todos esses resultados, estamos agora preparados para provar a fórmula de Baker, Camp-
bell e Hausdorff.
4.5 A Fórmula de Baker, Campbell e Hausdorff

A presente seção é dedicada á demonstração do seguinte teorema.
Teorema 4.1 (Fórmula de Baker-Campbell-Hausdorff

) Para A, B ∈ Mat ( , n) tais que kAk
√

1 2
e kBk sejam ambas menores que 2 ln 2 − 2 ≈ 0, 12844 . . ., vale

exp(A) exp(B) = exp(A ∗ B),

com
k
!
X X X (−1)k Y 1
A∗B = A+B+ ···
k, l≥0 a1 , b1 ≥0 ak , bk ≥0
l!(k + 1)(b1 + · · · + bk + 1) i=1
ai !bi !
k+l>0 a1 +b1 >0 ak +bk >0
× ad[A]a1 ad[B]b1 · · · ad[A]ak ad[B]bk ad[A]l (B). (4.46)

Os primeiros termos de (4.46) são
1 1 1
A ∗ B = A + B + [A, B] + [A, [A, B]] + [B, [B, A]] + · · · (4.47)
2 12 12
2
Comentário. A expressão (4.46) é a célebre fórmula de Baker11 , Campbell12 e Hausdorff13 , que desem-
penha um papel importante no estudo de grupos de Lie e outras áreas. Advertimos que, devido à sua
complexidade e devido à restrição quanto à norma das matrizes A e B, a fórmula de Baker-Campbell-
Hausdorff tem um escopo de aplicações relativamente limitado no que concerne a cômputos de produtos
de exponenciais. A mesma fórmula, porém, presta-se à demonstração de vários teoremas, especialmente
na teoria dos grupos de Lie. Uma situação interessante na qual a fórmula de Baker-Campbell-Hausdorff
pode ser empregada é aquela na qual comutadores de ordem suficientemente grande das matrizes A e
B se anulam, pois aı́ o lado direito de (4.46) ou (4.47) tem um número finito de termos. Tal ocorre nas
chamadas álgebras de Lie nilpotentes. O leitor que procura um exemplo simples do uso de (4.47) pode
interessar-se em ler sobre o chamado grupo de Heisenberg na Seção 10.2.2, página 574.
Prova do Teorema 4.1. A estratégia que empregaremos para provar a fórmula de Baker, Campbell
e Hausdorff é muito semelhante àquela empregada na demonstração da Proposição 4.14. Seja, para
A, B ∈ Mat ( , n) fixas tais que kAk < ln(2)/2 e kBk < ln(2)/2, a matriz14

G(t) := ln (exp(A) exp(tB)) , (4.48)

para t ∈ [−1, 1]. Vamos identificar uma equação diferencial satisfeita por G(t), e em seguida resolvê-la.
Comecemos procurando calcular a derivada de G(t) em relação a t. Isso é uma tarefa mais difı́cil do
que parece e procederemos de modo indireto. É conveniente calcular primeiro a derivada de exp(G(t)).
Por um lado temos que
exp(G(t)) = exp(A) exp(tB)
11
Henry Frederick Baker (1866-1956).
12
John Edward Campbell (1862-1924).
13
Felix Hausdorff (1868-1942).
14
A condição kAk < ln(2)/2 e kBk < ln(2)/2 garante que k exp(A) exp(tB) − k < 1 para todo t ∈ [−1, 1]. Assim,
o logaritmo de exp(A) exp(tB) em (4.48) está definido.
e, portanto,
d d
exp(G(t)) = exp(A) exp(tB) = exp(A) exp(tB)B.
dt dt
Por outro tem-se, pela definição da aplicação dexp, que
d
exp(G(t)) = dexp[G(t)](G0 (t)).
dt
Portanto,
dexp[G(t)](G0 (t)) = exp(A) exp(tB)B.
Usando a Proposição 4.14 essa última igualdade pode ser escrita como
exp(G(t)) Φ[G(t)](G0 (t)) = exp(A) exp(tB)B,
o que implica que
Φ[G(t)](G0 (t)) = exp(−G(t)) exp(A) exp(tB)B = exp(−tB) exp(−A) exp(A) exp(tB)B = B.
Resumindo, tem-se
Φ[G(t)](G0 (t)) = B. (4.49)
0
A idéia que agora perseguiremos é tentar inverter essa expressão de modo a obter G (t) (que aparece
no argumento de Φ no lado esquerdo).
Para isso faremos uso do seguinte lema:
Lema 4.2 Sejam as funções complexas
1 − e−z
φ(z) := , z∈ ,
z
já definida em (4.43) e
z ln(z)
ψ(z) := , |z − 1| < 1.
z−1
Então vale
ψ(ez )φ(z) = 1
para todo z tal que |z| < ln 2. 2
Prova. Usando a expansão em série de Taylor da função ln, podemos escrever

X (−1)k−1 ∞
ln(z) ln(1 + (z − 1))
ψ(z) := z = z = z (z − 1)k−1 . (4.50)
z−1 z−1 k=1
k
Isso mostra que ψ(z) é analı́tica na região |z − 1| < 1.

X∞
z z 1 m
Agora, se |z| < ln 2, tem-se que |e − 1| < 1, pois e − 1 = z e
m=1
m!
X∞ X∞
z 1 m 1
|e − 1| ≤ |z| < (ln 2)m = eln 2 − 1 = 1.
m=1
m! m=1
m!
Assim, ez está dentro da região onde ψ é analı́tica, onde vale que

z
z e z 1 − e−z
ψ(e )φ(z) = = 1,
ez − 1 z
O uso que faremos desse lema é o seguinte. Seja X ∈ Mat ( , n) qualquer. Por analogia com a
definição de Φ[X] em (4.44), definimos
Ψ[X] := ψ(Exp[ad[X]]) = ψ(Ad[exp(X)])
Assim,
Ψ[X]Φ[X] := ψ(Exp[ad[X]])φ(ad[X]) = id,
onde id é a aplicação identidade: id(A) := A, para toda A ∈ Mat ( , n). Portanto, aplicando Ψ[G(t)]
a (4.49), teremos
G0 (t) = Ψ[G(t)](B).
Essa é a equação diferencial procurada e que é satisfeita por G(t), com a condição inicial G(0) = A.
Para prosseguir devemos escrevê-la de forma mais conveniente.
Pela definição da aplicação Ad, é bem fácil ver que
Ad[eX eY ] = Ad[eX ]Ad[eY ].
Assim,
Ψ[G(t)] = ψ (Ad[exp(G(t)))]) = ψ (Ad[exp(A) exp(tB))])
= ψ (Ad[exp(A)] Ad[exp(tB))]) = ψ (Exp[ad[A]] Exp[ad[tB]]) .
A equação diferencial para G(t) assume, portanto, a forma
G0 (t) = ψ (Exp[ad[A]] Exp[ad[tB]]) (B), (4.51)
com G(0) = A.
Antes de passarmos à resolução dessa equação, comentemos brevemente que o lado direito de (4.51)
está bem definido desde que a norma de Exp[ad[A]] Exp[ad[tB]] seja menor que ln(2), devido à definição
de ψ. Uma conta simples, mas que omitiremos aqui, garante que isso se dá desde que kAk e kBk
√

1 2
sejam ambas menores que 2 ln 2 − 2 ≈ 0, 12844 . . ..
Isto posto, nossa tarefa agora é resolver (4.51), o que pode ser feito por uma simples integração.
Teremos, portanto,
Z t Z t
0
G(t) − G(0) = G (s) ds = ψ (Exp[ad[A]] Exp[ad[sB]]) (B) ds.
0 0
Tomando-se t = 1 teremos
Z 1
A B

ln e e = A+ ψ (Exp[ad[A]] Exp[ad[sB]]) (B) ds. (4.52)
0
Estando já na reta final, resta-nos calcular a integral do lado direito, o que pode ser feito com o uso
da expansão em série de ψ dada em (4.50) e um pouco de paciência. É o que faremos.
Por (4.50), teremos
ψ (Exp[ad[A]] Exp[ad[sB]]) (B)

∞
X (−1)k−1
= (Exp[ad[A]] Exp[ad[sB]]) (Exp[ad[A]] Exp[ad[sB]] − id)k−1 (B)
k=1
k
" ∞
#
X (−1)k−1
= (Exp[ad[A]] Exp[ad[sB]] − id)k−1 Exp[ad[A]] Exp[ad[sB]](B)
k=1
k
" ∞
#
X (−1)k−1 k−1
= (Exp[ad[A]] Exp[ad[sB]] − id) Exp[ad[A]](B), (4.53)
k=1
k
onde, na última passagem usamos o fato óbvio que
Exp[ad[sB]](B) = Ad[exp(sB)](B) = exp(sB)B[exp(−sB) = B.
Desejamos escrever esta última expressão diretamente em termos das aplicações ad[A]] e ad[sB].
O último fator, Exp[ad[A]], é simplesmente
X∞
1
Exp[ad[A]] = ad[A]l . (4.54)
l=0
l!
Fora isso,
X∞ X ∞ X
1 1
Exp[ad[A]] Exp[ad[sB]] − id = ad[A]a ad[sB]b − id = sb ad[A]a ad[B]b .
a=0 b=0
a!b! a, b≥0
a!b!
a+b>0
Com isso,
(Exp[ad[A]] Exp[ad[sB]] − id)k−1
X X sb1 +···+sk−1
= ··· ad[A]a1 ad[B]b1 · · · ad[A]ak−1 ad[B]bk−1 . (4.55)
a1 , b1 ≥0 ak−1 , bk−1 ≥0
a1 !b1 ! · · · ak−1 !bk−1 !
a1 +b1 >0 ak−1 +bk−1 >0
Inserindo-se (4.54) e (4.55) em (4.53) tem-se
Z 1
ψ (Exp[ad[A]] Exp[ad[sB]]) (B) ds
0
Z ∞ X
∞ k−1
!
1X X X k−1 b1 +···+bk−1 Y
(−1) s 1
= ···
0 k=1 l=0 a1 , b1 ≥0 ak−1 , bk−1 ≥0
l!k i=1
ai !bi !
a1 +b1 >0 ak−1 +bk−1 >0
× ad[A]a1 ad[B]b1 · · · ad[A]ak−1 ad[B]bk−1 ad[A]l (B) ds. (4.56)

Trocando-se a integral pelas somas
Z 1
ψ (Exp[ad[A]] Exp[ad[sB]]) (B) ds
0
∞ X
∞ k−1
!
X X X (−1)k−1 Y 1
= ···
k=1 l=0 a1 , b1 ≥0 ak−1 , bk−1 ≥0
l!k i=1
ai !bi !
a1 +b1 >0 ak−1 +bk−1 >0
Z 1
a1 b1 ak−1 bk−1 l
× ad[A] ad[B] · · · ad[A] ad[B] ad[A] (B) sb1 +···+bk−1 ds
0
∞ X
∞ k−1
!
X X X (−1)k−1 Y 1
= ···
k=1 l=0 a1 , b1 ≥0 ak−1 , bk−1 ≥0
l!k(b1 + · · · + bk−1 + 1) i=1
ai !bi !
a1 +b1 >0 ak−1 +bk−1 >0
× ad[A]a1 ad[B]b1 · · · ad[A]ak−1 ad[B]bk−1 ad[A]l (B)
∞ X
∞ k
!
X X X (−1)k Y 1
= ···
k=0 l=0 a1 , b1 ≥0 ak , bk ≥0
l!(k + 1)(b1 + · · · + bk + 1) i=1
ai !bi !
a1 +b1 >0 ak +bk >0
× ad[A]a1 ad[B]b1 · · · ad[A]ak ad[B]bk ad[A]l (B). (4.57)

Na última igualdade fizemos apenas a mudança de variáveis k → k + 1.

Retornando a (4.52), temos então ln eA eB = A ∗ B, onde
∞ X
∞ k
!
X X X (−1)k Y 1
A∗B = A+ ···
k=0 l=0 a1 , b1 ≥0 ak , bk ≥0
l!(k + 1)(b1 + · · · + bk + 1) i=1
ai !bi !
a1 +b1 >0 ak +bk >0
× ad[A]a1 ad[B]b1 · · · ad[A]ak ad[B]bk ad[A]l (B) (4.58)

É fácil ver que o termo com k = l = 0 nas somas do lado direito é igual a B. Com essa identificação,
finalmente chega-se a (4.46).
Como já comentamos a convergência é garantida se kAk e kBk forem
√

ambas menores que 12 ln 2 − 22 ≈ 0, 12844 . . ..
E. 4.20 Exercı́cio importante. Colecionando os termos com a1 + b1 + · · · + ak + bk + l ≤ 2 em (4.46),

mostre que os primeiros termos de A ∗ B são aqueles dados em (4.47), página 237. 6
Comentário. Um comentário que adiantamos é que, como discutiremos melhor no Capı́tulo 11, o
produto “∗” expresso em (4.46), define uma estrutura de grupo em sub-álgebras de Lie nilpotentes de
Mat ( , n). De fato, é possı́vel provar que “∗” é um produto associativo (pois o produto de exponenciais
de matrizes é associativo) e é fácil ver que A ∗ 0 = A e que A ∗ (−A) = 0 para toda matriz A. Com
isso, a matriz nula é o elemento neutro do grupo e −A é a inversa de A. Isso também mostra que é por
vezes possı́vel construir um produto associativo a partir de outro não-associativo, como o comutador
de matrizes.
4.6 A Fórmula de Duhamel e Algumas de suas Conseqüências

Nesta seção demonstraremos a Fórmula de Duhamel15 :
Z 1

exp(A + B) = exp(A) + exp (1 − s)(A + B) B exp sA ds , (4.59)
0
válida para quaisquer matrizes A, B ∈ Mat ( . n), e estudaremos algumas de suas conseqüências. A
demonstração é simples. Diferenciando-se es(A+B) e−sA em relação a s, tem-se

d s(A+B) −sA d s(A+B) −sA s(A+B) d −sA
e e = e e +e e
ds ds ds

s(A+B) −sA s(A+B) −sA
= e (A + B) e +e (−A) e
= es(A+B) B e−sA .
Integrando-se ambos os lados entre 0 e t, obtem-se
Z t
t(A+B) −tA
e e − = es(A+B) B e−sA ds ,
0
de onde segue que Z t

e t(A+B)
= e tA
+ es(A+B) B e−(s−t)A ds ,
0
15
Jean Marie Constant Duhamel (1797-1872).
A mudança de variável de integração s → t − s conduz a

Z t
t(A+B) tA
e = e + e(t−s)(A+B) B esA ds . (4.60)
0
Para t = 1, isso reduz-se a (4.59), que é o que querı́amos provar. De (4.60) podem ser extraı́das várias
relações úteis, que trataremos agora.
• Derivada de uma exponencial em relação a um parâmetro
Uma das conseqüências mais úteis da fórmula de Duhamel é uma relação para a derivada da ex-
ponencial de uma matriz que depende de um parâmetro. Seja A(λ) ∈ Mat ( . n) uma matriz que
depende contı́nua e diferenciavelmente de um parâmetro λ. Então vale
Z 1
d A(λ) (1−s)A(λ) d
e = e A(λ) esA(λ) ds . (4.61)
dλ 0 dλ
Essa relação tem aplicações em equações diferenciais e na Mecânica Estatı́stica, dentro e fora do
equilı́brio. Alguns autores também denominam-na fórmula de Duhamel. O leitor deve compará-la
à expressão alternativa (4.42). Passemos à demonstração.
Sendo A(λ) diferenciável, vale, para todo suficientemente pequeno,
d
A(λ + ) = A(λ) + A(λ) + R(λ, ), (4.62)
dλ
onde
1
lim R(λ, ) = 0 . (4.63)
→0
Tem-se, então,

d def. 1
exp(A(λ)) = lim exp(A(λ + )) − exp(A(λ))
dλ →0

(4.62) 1 d
= lim exp A(λ) + A(λ) + R(λ, ) − exp (A(λ))
→0 dλ
Z 1
(4.59) 1 A(λ) (1−s)(A(λ)+ dA (λ)+R(λ, )) dA sA(λ) A(λ)
= lim e + e dλ (λ) + R(λ, ) e ds − e
→0 0 dλ
Z 1
(1−s)(A(λ)+ dA (λ)+R(λ, )) dA sA(λ)
= lim e dλ (λ) e ds
→0 0 dλ
Z 1
(1−s)(A(λ)+ dA (λ)+R(λ, )) 1 sA(λ)
+ lim e dλ R(λ, ) e ds
→0 0
Z 1 Z 1
(1−s)A(λ) dA sA(λ) (1−s)A(λ) 1 sA(λ)
= e (λ) e ds + e lim R(λ, ) e ds
0 dλ 0 →0
Z 1
(4.63) (1−s)A(λ) dA
= e (λ) esA(λ) ds ,
0 dλ
como querı́amos demonstrar.
• Iterando a fórmula de Duhamel
Na expressão (4.60) exponenciais do tipo eλ(A+B) aparecem em ambos os lados. Isso sugere que
podemos inserir iterativamente (4.60) dentro de si mesma de modo a obter outras expressões recorrentes,
como apresentado nas passagens auto-explicativas abaixo. Partindo de (4.60) e repetindo a iteração
duas vezes, tem-se
Z t
t(A+B) tA
e = e + e(t−s1 )(A+B) B es1 A ds1
0
Z t Z t−s1
tA (t−s1 )A (t−s1 −s2 )(A+B) s2 A
= e + e + e Be ds2 B es1 A ds1
0 0
Z t Z tZ t−s1
= e tA
+ e (t−s1 )A
Be s1 A
ds1 + e(t−s1 −s2 )(A+B) B es2 A B es1 A ds2 ds1
0 0 0
Z t
tA
= e + e(t−s1 )A B es1 A ds1 +
0
Z tZ t−s1 Z t−s1 −s2
(t−s1 −s2 )A (t−s1 −s2 −s3 )(A+B) s3 A
e + e Be ds3 B es2 A B es1 A ds2 ds1
0 0 0
Z t Z tZ t−s1
= e tA
+ e (t−s1 )A
Be s1 A
ds1 + e(t−s1 −s2 )A B es2 A B es1 A ds2 ds1
0 0 0
Z tZ t−s1 Z t−s1 −s2
+ e(t−s1 −s2 −s3 )(A+B) B es3 A B es2 A B es1 A ds3 ds2 ds1 .
0 0 0
Repetindo-se N vezes o procedimento, teremos

" Z t
e t(A+B)
= e tA
+ e−s1 A B es1 A ds1
0
N Z tZ Z m−1
#
X t−s1 t−s1 −···−sm−1 Y
+ ··· e−(s1 +···+sm )A B esm−k A
dsm · · · ds1
m=2 0 0 0 k=0
Z tZ t−s1 Z t−s1 −···−sm m

Y
+ ··· e(t−s1 −···−sm+1 )(A+B) B esm+1−k A dsm+1 · · · ds1 ,(4.64)
0 0 0 k=0
para todo N ∈ , N ≥ 2, sendo que convencionamos definir a produtória de matrizes da esquerda

L
Y
para a direita, ou seja, na forma Mk = M1 · · · ML (é necessário fixar uma convenção devido à
k=1
não-comutatividade do produto de matrizes). Com as mudanças de variáveis
t1 = t − s1 s1 = t − t1
t2 = t − (s1 + s2 ) s2 = t1 − t2
.. , .. ,
. .
tm = t − (s1 + · · · + sm ) sm = tm−1 − tm
podemos reescrever as integrais entre colchetes acima na forma
" Z t N Z t Z t1 Z tm−1 m−1 #
X Y
et(A+B) = + et1 A B e−t1 A dt1 + ··· etm−k A B e−tm−k A dtm · · · dt1 etA
0 m=2 0 0 0 k=0
Z tZ t−s1 Z t−s1 −···−sm m

Y
(t−s1 −···−sm+1 )(A+B)

+ ··· e B esm+1−k A dsm+1 · · · ds1 . (4.65)
0 0 0 k=0
Substituindo A → A∗ e B → B ∗ na expressão acima, tomando a adjunta da expressão resultante e

usando o fato que, para qualquer matriz M ∈ Mat ( , n), vale (exp (M ∗ ))∗ = exp(M ), obtem-se
" Z t N Z t Z t1 Z tm−1 Y
m
#
X
et(A+B) = etA + e−t1 A B et1 A dt1 + ··· e−tk A B etk A dtm · · · dt1
0 m=2 0 0 0 k=1
Z tZ Z "m+1 #
t−s1 t−s1 −···−sm Y
+ ··· esk A B e(t−s1 −···−sm+1 )(A+B) dsm+1 · · · ds1 . (4.66)
0 0 0 k=1
Para matrizes ou elementos de uma álgebra-∗ de Banach é possı́vel tomar o limite N → ∞ nas
expressões (4.64)-(4.66), como na proposição que segue.
Proposição 4.15 Sejam matrizes A, B ∈ Mat ( , n). Então,
" Z t
e t(A+B)
= e tA
+ e−s1 A B es1 A ds1
0
∞ Z tZ Z m−1
#
X t−s1 t−s1 −···−sm−1 Y
+ ··· e−(s1 +···+sm )A B esm−k A
dsm · · · ds1 , (4.67)
m=2 0 0 0 k=0
ou, equivalentemente,
" Z t ∞ Z tZ Z m
#
X t1 tm−1 Y
−t1 A
e t(A+B)
= e tA
+ e t1 A
B e dt1 + ··· e−tk A B etk A
dtm · · · dt1 , (4.68)
0 m=2 0 0 0 k=1
para todo t ∈ , a convergência sendo uniforme para t em compactos. As expansões em série acima

são denominadas séries de Duhamel. 2
Prova. A prova consiste em mostrar que o limite N → ∞ de (4.64) ou (4.66) existe. Tomemos
provisoriamente t ∈ [−T, T ] para
algum T > 0. Para τ ∈ [−T, T ], tem-se keτ A k ≤ e|τ |kAk ≤ eT kAk .
Seja M := max eT kAk , eT kA+Bk . Tem-se
Z Z Z tm−1 Y
t t1 m

−tk A tk A
··· e Be dtm · · · dt1
0 0 0
k=1
Z tZ t1 Z tm−1 m
2m m (M 2 kBk|t|)
≤ M kBk ··· dtm · · · dt1 =
0 0 0 m!
e, analogamente,
Z Z Z t−s1 −···−sm
t t−s1 m
Y (M kBk|t|)m+1
t−(s1 +···+sm+1 )(A+B) sm+1−k A
··· e Be dsm+1 · · · ds1 ≤ M .
0 0 0 (m + 1)!
k=0
As duas desigualdades provam a convergência uniforme para t ∈ [−T, T ]. Como T é arbitrário, a

convergência se dá para todo t ∈ .
Na Seção 6.4, página 311, apresentamos uma generalização da expressão (4.68), a chamada série de
Dyson para da teoria de perturbações (vide, em particular, a expressão (6.26)).
• Outros resultados análogos
O método de demonstração da fórmula de Duhamel apresentado acima pode ser empregado na

obtenção de outros resultados. Sejam novamente matrizes A, B ∈ Mat ( , n). Então, vale
Z t
tB
[A, e ] = e(t−s)B [A, B]esB ds . (4.69)
0
d

Para a prova, observamos que ds
e−sB Ae sB
= e−sB [A, B]esB (justifique!). Integrando-se ambos os
lados de 0 a t, obtem-se Z t
−tB
e Ae tB
−A = e−sB [A, B]esB ds . (4.70)
0
Multiplicando-se à esquerda por etB chega-se à expressão (4.69). Expressões como (4.69) são emprega-
das na teoria de perturbações na Mecânica Quântica.
Parte III
Equações Diferenciais
247
Capı́tulo 5
Equações Diferenciais Ordinárias. Uma Introdução
Conteúdo
5.1 Definição e Alguns Exemplos . . . . . . . . . . . . . . . . . . . . . . . . . . 249

5.1.1 Equações Diferenciais Ordinárias Lineares . . . . . . . . . . . . . . . . . . . . 251
5.1.2 Equações Ordinárias de Segunda Ordem. Exemplos de Interesse . . . . . . . 255
5.2 Sistemas de Equações Diferenciais Ordinárias . . . . . . . . . . . . . . . . 257
5.3 Alguns Métodos de Solução de Equações Diferenciais Ordinárias . . . . . 262
5.3.1 Solução de Equações Ordinárias Lineares de Primeira Ordem . . . . . . . . . 262
5.3.2 As Equações de Bernoulli e de Riccati . . . . . . . . . . . . . . . . . . . . . . 263
5.3.3 Integração de Equações Separáveis . . . . . . . . . . . . . . . . . . . . . . . . 265
5.3.4 O Método de Variação de Constantes . . . . . . . . . . . . . . . . . . . . . . 266
5.3.5 O Método de Substituição de Prüfer . . . . . . . . . . . . . . . . . . . . . . . 268
5.3.6 O Método de Inversão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 270
5.3.7 Solução de Equações Exatas e o Método dos Fatores Integrantes . . . . . . . 271
5.3.8 Soluções das Equações de D’Alembert-Lagrange e Clairaut . . . . . . . . . . 276
5.4 Discussão sobre Problemas de Valor Inicial . . . . . . . . . . . . . . . . . . 280
5.4.1 Problemas de Valor Inicial. Patologias e Exemplos a se Ter em Mente . . . . 283
5.4.2 Teoremas de Existência e Unicidade de Soluções . . . . . . . . . . . . . . . . 286
5.4.3 Soluções Globais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 288
5.4.4 Dependência Contı́nua de Condições Iniciais e de Parâmetros . . . . . . . . . 290
este capı́tulo apresentaremos uma breve introdução à teoria das equações diferenciais or-
dinárias, abordando vários assuntos que serão aprofundados em outros capı́tulos. Na Fı́sica,
equações diferenciais são representações matemáticas diretas ou indiretas de leis naturais e
não é de surpreender, portanto, o papel central que as mesmas nela desempenham. Pode-se,
sem medo de exagero, afirmar que o desenvolvimento da Fı́sica moderna pós-Newtoniana só se tornou
possı́vel quando se compreendeu a importância de se expressar as leis básicas da natureza em termos
de equações diferenciais e quando se desenvolveram métodos de resolução das mesmas. Desde o século
XVIII as equações diferenciais tornaram-se não apenas um dos principais instrumentos teóricos de
trabalho dos fı́sicos, mas a linguagem mesma pela qual as leis da Fı́sica se expressam.
Um exemplo básico é segunda lei de Newton da Mecânica Clássica, que popularmente consiste na
afirmação que para uma partı́cula de massa m (movendo-se em, digamos, em uma dimensão, do ponto
de vista de um referencial inercial) o produto de sua massa por sua aceleração é igual à força que age
sobre ela. Se y(t) é a posição da partı́cula (em um sistema de referência inercial) e a força F que age
sobre ela em um instante de tempo t depender apenas do tempo t, da posição y(t) no instante t e
248
da velocidade ẏ(t) no mesmo instante t, então a segunda lei de Newton assume a forma da equação
diferencial ordinária de segunda ordem
mÿ(t) = F (t, y(t), ẏ(t)) .
A Fı́sica apresenta outros exemplos de leis que se expressam em termos de equações diferenciais (parci-
ais), tais como as leis do Eletromagnetismo (equações de Maxwell), da Mecânica dos Fluidos (equações
de Euler e de Navier-Stokes), da Mecânica Quântica (equações de Schrödinger, de Klein-Gordon e de
Dirac), na Teoria da Relatividade Geral (equação de Einstein) etc.
Atualmente, o estudo das equações diferenciais e suas aplicações estende-se a outras sub-áreas da
Fı́sica, tais como a quı́mica, a biologia, a economia, finanças etc. , Para excelentes introduções, legı́veis
profundas e abrangentes, à teoria das equações diferenciais ordinárias, recomendamos [5] e [63].
5.1 Definição e Alguns Exemplos

Vamos iniciar nossa discussão tentando, de um modo geral e abstrato, definir o que se entende por uma
equação diferencial ordinária (que, seguindo a praxe, abreviaremos por EDO).
• Definição geral de EDOs
Seja n ≥ 1 um número natural e seja G(x1 , . . . xn+2 ) uma função (real ou complexa) de n + 2
variáveis (reais ou complexas). Entende-se por uma equação diferencial ordinária de ordem n de uma
função (incógnita) y de uma variável t associada à função G a equação
G(t, y(t), y 0 (t), . . . , y (n) (t)) = 0 . (5.1)
Assim sendo, o número n é dito ser a ordem da equação.
Um exemplo (escolhido arbitrariamente, sem aplicação prática conhecida) seria o caso da função de
três variáveis
G(x1 , x2 , x3 ) = x21 + sen (x2 ) − 3x1 cos(x3 ) . (5.2)
A equação diferencial ordinária de primeira ordem associada a essa função seria
t2 + sen (y(t)) − 3t cos(y 0 (t)) = 0 . (5.3)
É evidente que só faz sentido associar uma equação diferencial a uma função G de n + 2 variáveis,
como acima, se a mesma possuir zeros, ou seja, se a equação algébrica G(x 1 , . . . , xn+2 ) = 0 possuir
soluções (reais ou complexas, dependendo do interesse). Por exemplo, se G(x1 , x2 , x3 ) é uma função
de três variáveis reais ou complexas da forma G(x1 , x2 , x3 ) = |x1 |2 + |x2 |2 + |x3 |2 + 1 então não há
nenhuma equação diferencial associada à mesma, já que não há números reais ou complexos tais que
G(x1 , x2 , x3 ) = 0 e, portanto, a equação |t|2 + |y(t)|2 + |y 0 (t)|2 + 1 = 0, ainda que possa ser escrita,
trivialmente não possui qualquer solução.
Em muitos casos a equação algébrica G(x1 , . . . xn+2 ) = 0 permite escrever de modo único (ao menos
em uma região finita) a variável xn+2 em termos das demais:
xn+2 = F (x1 , . . . xn+1 ) , (5.4)
onde F é alguma função de n+1 variáveis. Condições para isso são garantidas pelo importante Teorema
da Função Implı́cita (vide Seção 14.4, página 805, ou qualquer bom livro-texto sobre funções de várias
variáveis). Nesses casos felizes, a equação diferencial para G equivale (ao menos localmente) à equação
y (n) (t) = F (t, y(t), . . . , y (n−1) (t)) . (5.5)
Nos casos em que G é tal que não permite a separação global da dependência de x n+2 como em (5.4) a
equação diferencial é dita ser implı́cita. Equações implı́citas são por vezes difı́ceis de lidar. Trataremos
da solução de algumas delas na Seção 5.3, página 262. Um exemplo de uma equação implı́cita foi
apresentado em (5.2)-(5.3). Outro exemplo é a equação diferencial (associada à conservação de energia
mecânica de uma partı́cula de massa m se movendo em uma dimensão sob a ação de um potencial U ):
m
(ẏ(t))2 + U (y(t)) = E ,
2
onde E é uma constante.
Daqui por diante estaremos mais freqüentemente interessados em equações diferenciais de ordem
n da forma (5.5) para alguma função de n + 1 variáveis F . Para ilustrar equações do tipo (5.5),
apresentemos mais alguns exemplos.
Exemplo 5.1 Sejam m, ρ e k constantes positivas e f uma função de uma variável. Seja G a função
de quatro variáveis
G(x1 , x2 , x3 , x4 ) = mx4 + kx2 + ρx3 − f (x1 ) .
É evidente que para a equação algébrica G(x1 , x2 , x3 , x4 ) = 0 podemos escrever
x4 = F (x1 , x2 , x3 ) ,
onde
1
F (x1 , x2 , x3 ) = − (kx2 + ρx3 − f (x1 )) .
m
A equação diferencial (de segunda ordem) associada a essa função F é ÿ(t) = F (t, y(t) ẏ(t)), ou
seja
mÿ(t) + ρẏ(t) + ky(t) = f (t) .
O estudante pode imediatamente reconhecer que se trata da equação do oscilador harmônico amortecido
submetido a uma força dependente do tempo f (t). ◊
Vamos a outros exemplos escritos diretamente em termos da função F .

Exemplo 5.2 Sejam g e l duas constantes positivas e seja F a função
g
F (x1 , x2 , x3 ) = − sen (x2 ) .
l
A equação diferencial (de segunda ordem) associada a essa função F é
g
ÿ(t) = − sen (y(t)) .
l
O estudante pode imediatamente reconhecer que se trata da equação do pêndulo simples. ◊
Exemplo 5.3 (Equação de van der Pol) Sejam µ e k constantes e
F (x1 , x2 , x3 ) = −µx3 (x22 − 1) − kx2 .
A equação diferencial (de segunda ordem) associada a essa função F é
y 00 (t) + µy 0 (t)(y(t)2 − 1) + ky(t) = 0 .
Esta equação é conhecida como equação de van der Pol, em honra ao engenheiro que a propôs como a
equação básica para o triodo (uma espécie de “avô” do transistor). ◊
Exemplo 5.4 Sejam α e β constantes e
F (x1 , x2 ) = −αx2 + βx22 .
A equação diferencial (de primeira ordem) associada a essa função F é
y 0 (t) = −αy(t) + βy(t)2 .
Essa equação aparece em vários problemas, por exemplo no estudo da evolução de populações. ◊
Vários outros exemplos serão apresentados adiante.
5.1.1 Equações Diferenciais Ordinárias Lineares

No estudo das equações diferenciais é muito útil classificar equações que possuam certas propriedades
comuns. Uma classificação muito importante é aquela que separa as equações diferenciais em lineares
e não-lineares e as primeiras em homogêneas e não-homogêneas.
• Equações diferenciais ordinárias lineares
Seja a equação diferencial ordinária de ordem n
y (n) (t) = F (t, y(t), . . . , y (n−1) (t)) . (5.6)
Se a função F (x1 , . . . xn+1 ) for uma função linear das variáveis x2 , . . . xn+1 , então (5.6) é dita ser
linear. Em um tal caso, F (x1 , . . . xn+1 ) é da forma
F (x1 , . . . xn+1 ) = f1 (x1 ) + f2 (x1 )x2 + · · · + fn+1 (x1 )xn+1 ,
para certas funções de uma variável f1 , . . . , fn+1 .

É fácil constatar que toda equação diferencial ordinária e linear de ordem n é da forma
y (n) (t) + an−1 (t)y (n−1) (t) + · · · + a1 (t)y 0 (t) + a0 (t)y(t) = f (t) , (5.7)
para funções reais ou complexas a0 , . . . , an−1 e f . Veremos inúmeros exemplos adiante (vide Seção
5.1.2).
Equações que não são lineares são (obviamente) ditas ser não-lineares. Exemplos são a equação do
pêndulo simples
ẍ(t) + sen (x(t)) = 0
e a de van der Pol
ÿ(t) + µẏ(t)(y(t)2 − 1) + ky(t) = 0 .
Equações não-lineares são em muitos sentidos mais “complexas” que equações lineares e têm sido
objeto de intenso estudo nas últimas décadas. Neste texto não trataremos de métodos de resolução de
equações não-lineares, com exceção das equações de Bernoulli e Riccati, discutidas mais adiante, e dos
métodos recursivos desenvolvidos no Capı́tulo 14 para as equações integrais de Fredholm e de Volterra.
• Equações diferenciais ordinárias lineares a coeficientes constantes
Caso as funções a0 , . . . , an−1 em (5.7) sejam constantes, a equação (5.7) é dita ser a coeficientes
constantes. Como discutiremos, há um método geral para obter soluções de equações diferenciais
ordinárias lineares a coeficientes constantes (para qualquer ordem n).
• Equações lineares homogêneas e não-homogêneas
Caso a função f seja identicamente nula, a equação (5.7) é dita ser homogênea. De outra forma, se
f não for identicamente nula, equação (5.7) é dita ser não-homogênea.
Equações lineares e homogêneas têm uma propriedade de grande importância, o chamado princı́pio
de sobreposição, do qual trataremos agora.
• O princı́pio de sobreposição para equações lineares homogêneas
Seja uma equação diferencial ordinária linear e homogênea de ordem n

y (n) (t) + an−1 (t)y (n−1) (t) + · · · + a1 (t)y 0 (t) + a0 (t)y(t) = 0 . (5.8)
O chamado princı́pio de sobreposição é a afirmativa que se y a e yb são duas soluções de (5.8) então
combinações lineares arbitrárias αya + βyb são também soluções de (5.8). Aqui α e β são números reais
(k) (k)
ou complexos arbitrários. A prova é simples. A k-ésima derivada de αya + βyb é αya + βyb . Assim,
substituindo-se y por αya + βyb no lado esquerdo de (5.8), teremos
(αya + βyb )(n) + an−1 (t)(αya + βyb )(n−1) + · · · + a1 (t)(αya + βyb )0 + a0 (t)(αya + βyb ) =
(n) (n−1)
(αya(n) + βyb ) + an−1 (t)(αya(n−1) + βyb ) + · · · + a1 (t)(αya0 + βyb0 ) + a0 (t)(αya + βyb ) =
 
α ya(n) + an−1 (t)ya(n−1) + · · · + a1 (t)ya0 + a0 (t)ya 

| {z }
=0
 
(n) (n−1)
+ β yb + an−1 (t)yb + · · · + a1 (t)yb0 + a0 (t)yb  = 0 .
| {z }
=0
Uma conclusão importante que se extrai do princı́pio de sobreposição é que o conjunto de todas
as soluções de uma equação diferencial ordinária linear e homogênea é um espaço vetorial, real ou
complexo, dependendo do caso.
Como o estudante facilmente percebe, o princı́pio de sobreposição vale também para sistemas de
equações diferenciais ordinárias lineares e homogêneas, assim como para equações diferenciais parciais
lineares e homogêneas, tais como as equações de difusão, de onda, de Laplace, as equações de Maxwell no
vácuo, a equação de Schrödinger e muitas outras equações da Fı́sica. Nelas o princı́pio de sobreposição
é amplamente empregado.
Historicamente, o princı́pio de sobreposição era conhecido desde os primeiros estudos sobre equações
diferenciais no século XVIII, mas foi através dos trabalhos de Helmholtz1 sobre acústica que sua im-
portância foi inteiramente percebida na resolução de equações diferenciais (ordinárias e parciais) lineares
de interesse fı́sico. A influência de Helmholtz não pode ser subestimada, mesmo no que concerne a
aplicações práticas: a leitura de Helmholtz, que também inventara um dispositivo eletromecânico para
a produção artificial do som de vogais, inspirou Bell2 a realizar experiências de transmissão simultânea
de múltiplos sinais de código Morse3 em uma única linha telegráfica, empregando freqüências distintas
para cada mensagem. Tais experiências conduziram Bell em 1876 à invenção do telefone.
• O caso de equações lineares não-homogêneas
Vamos colocar a seguinte questão. Vale o princı́pio de sobreposição para equações diferenciais
ordinárias lineares não-homogêneas? Para tentar responder isso, considere-se a equação não-homogênea
y (n) (t) + an−1 (t)y (n−1) (t) + · · · + a1 (t)y 0 (t) + a0 (t)y(t) = f (t) (5.9)
e sejam ya e yb duas soluções. Como acima, consideremos uma combinação linear αya + βyb e tentemos
repetir o que fizemos no caso homogêneo. Assim, substituindo-se y por αya + βyb no lado esquerdo de
(5.9), teremos
(αya + βyb )(n) + an−1 (t)(αya + βyb )(n−1) + · · · + a1 (t)(αya + βyb )0 + a0 (t)(αya + βyb ) =
(n) (n−1)
(αya(n) + βyb ) + an−1 (t)(αya(n−1) + βyb ) + · · · + a1 (t)(αya0 + βyb0 ) + a0 (t)(αya + βyb ) =
 
 
α ya(n) + an−1 (t)ya(n−1) + · · · + a1 (t)ya0 + a0 (t)ya 
| {z }
= f (t)
 
 (n) (n−1) 
+ β yb + an−1 (t)yb + · · · + a1 (t)yb0 + a0 (t)yb  = (α + β)f (t) .
| {z }
= f (t)
O que concluı́mos é que αya + βyb somente é uma nova solução de (5.9) se α + β = 1. Portanto, se ya
e yb são soluções de (5.9) então αya + (1 − α)yb é também solução de (5.9) para qualquer α.
1
Hermann Ludwig Ferdinand von Helmholtz (1821-1894).
2
Alexander Graham Bell (1847-1922).
3
Samuel Finley Breese Morse (1791-1872).
Vimos que o princı́pio de sobreposição para equações não-homogêneas não se dá para α e β ar-
bitrários. Não se pode mais, portanto, dizer que o conjunto de soluções de uma equação não-homogênea
como (5.9) é um espaço vetorial, mas sim um espaço convexo.
Há ainda uma outra propriedade importante satisfeita pelas soluções de equações não-homogêneas.
Seja ynh uma solução particular da equação não-homogênea (5.9) e yh solução particular da equação
homogênea (5.8), a qual difere de (5.9) apenas pelo fato de ter-se f (t) = 0. Então tem-se que
y = αyh + ynh (5.10)
é também solução da equação não-homogênea (5.9) para qualquer constante α. Para ver isso, inserimos
y = αyh + ynh no lado esquerdo de (5.9) e teremos
(αya + ynh )(n) + an−1 (t)(αyh + ynh )(n−1) + · · · + a1 (t)(αyh + ynh )0 + a0 (t)(αyh + ynh ) =
(n) (n) (n−1) (n−1)

(αyh + ynh ) + an−1 (t)(αyh + ynh ) + · · · + a1 (t)(αyh0 + ynh
0
) + a0 (t)(αyh + ynh ) =
 
(n) (n−1)
α yh + an−1 (t)yh + · · · + a1 (t)yh0 + a0 (t)yh 
| {z }
=0
 
 (n) (n−1) 0 
+ ynh + an−1 (t)ynh + · · · + a1 (t)ynh + a0 (t)ynh  = f (t) .
| {z }
= f (t)
O que aprendemos com isso é que se tivermos uma solução particular de uma equação linear não-
homogênea obtemos uma outra solução mais geral adicionando a esta uma solução da equação linear
homogênea associada. Essa propriedade é muito útil na solução de equações não-homogêneas.
• Equações diferenciais ordinárias com retardo
Apenas por curiosidade informamos que não apenas equações diferenciais do tipo (5.1) ou (5.5)
são objeto de interesse e de pesquisa. Um outro tipo são as chamadas equações com retardo, as quais
existem em diversas formas. Uma dessas forma é a seguinte. Sejam T0 , . . . , Tn1 constantes positivas.
Uma equação com retardo (fixo) é uma equação da forma
y (n) (t) = F (t, y(t − T0 ), . . . , y (n−1) (t − Tn−1 )). (5.11)
A diferença com relação a (5.5) é que aqui y (n) no instante t não depende de y, . . . , y n−1 no mesmo
instante t, mas em instantes anteriores.
Um exemplo interessante é o seguinte. Suponha que y(t) designe a população de uma espécie de
seres vivos vivendo em um certo habitat. O número de falecimentos por causas naturais (como doenças)
no intervalo t e t+dt é tipicamente proporcional a y(t) (justifique!). Assim, se a espécie não se reproduz,
a variação dy da população no intervalo t e t + dt será dy = −αy(t)dt para uma certa constante α,
ou seja, y satisfará a equação diferencial y 0 (t) = −αy(t), que é uma equação de primeira ordem sem
retardo. Agora, admitamos que a espécie se reproduz. O número de cruzamentos entre elementos da
espécie no intervalo t e t + dt é tipicamente proporcional a y(t)2 (justifique!). Se admitirmos que o
número de nascimentos no intervalo entre t e t + dt é proporcional ao de cruzamentos ocorridos em
t − T0 (descontando assim o tempo de gestação T0 ) a equação diferencial para y terá que ser modificada
para
y 0 (t) = −αy(t) + β(y(t − T0 ))2
para uma certa constante β. Esta é uma equação de primeira ordem com retardo.
Há vários outros tipos de equações com retardo, por exemplo, aquelas onde os tempos de retardo
Ti não são fixos, mas dependem de t ou mesmo de y. Tais equações aparecem no Eletromagnetismo,
onde o retardo é devido à finitude da velocidade da luz.
O estudo de equações com retardo requer outros métodos que não aqueles que discutiremos aqui e
é atualmente assunto ativo de pesquisa, encontrando aplicações mesmo fora da Fı́sica, em áreas tais
como a Epidemiologia - como o exemplo acima ilustra - onde os retardos são tipicamente conseqüência
quer de tempos de gestação quer de tempos de latência (de doenças).
5.1.2 Equações Ordinárias de Segunda Ordem. Exemplos de Interesse

Para futura referência vamos aqui listar uma série de equações diferenciais lineares de segunda ordem
de particular interesse.
1. A equação linear de segunda ordem e homogênea (forma geral):
a(t)ÿ + b(t)ẏ + c(t)y = 0 ,
com a(t) não-identicamente nula.
2. Equação linear de segunda ordem não-homogênea (forma geral) :
a(t)ÿ(t) + b(t)ẏ(t) + c(t)y(t) = f (t) ,
com a(t) e f (t) não-identicamente nulas.
3. A equação de Euler4 :
t2 ÿ(t) + at ẏ(t) + by(t) = 0 ,
onde a e b são constantes.
4. A equação de Hill5 :
ÿ(t) + (λ + P (t))y(t) = 0 ,
onde P (t) é uma função periódica e λ constante. Um caso particular importante é o da equação
de Mathieu:
4
5
George William Hill (1838-1914).
5. A equação de Mathieu6 :
ÿ(t) + (a + b cos(ωt))y(t) = 0 ,
com a, b e ω constantes.
6. A equação de Bessel7 :
x2 y 00 (x) + xy 0 (x) + (x2 − ν 2 )y(x) = 0 ,
ν∈ .
7. A equação de Legendre8 :
(1 − x2 )y 00 (x) − 2xy 0 (x) + λ(λ + 1)y(x) = 0 ,
λ∈ .
8. A equação de Hermite9 :
y 00 (x) − 2xy 0 (x) + λy(x) = 0 ,
λ∈ .
9. A equação de Airy10 :
y 00 (x) − xy(x) = 0 .
10. A equação de Laguerre11 :
xy 00 (x) + (1 − x)y 0 (x) + λy(x) = 0 ,
λ∈ .
11. A equação de Chebyshev12 :
(1 − x2 )y 00 (x) − xy 0 (x) + λ2 y(x) = 0 ,
λ∈ .
12. A equação Hipergeométrica13 :
z(1 − z)y 00 (z) + [c − (1 + a + b)z]y 0 (z) − aby(z) = 0 ,
a, b, c constantes.
13. A equação Hipergeométrica Confluente:
zy 00 (z) + [c − z]y 0 (z) − ay(z) = 0 ,
a, c constantes.
O leitor interessado poderá encontrar na Seção 8.3, página 482, problemas fı́sicos dos quais emergem
algumas das equações listadas acima.
6
Emile-Léonard Mathieu (1835-1890).
7
Friedrich Wilhelm Bessel (1784-1846).
8
Adrien-Marie Legendre (1752-1833).
9
Charles Hermite (1822-1901).
10
George Biddell Airy (1801-1892).
11
Edmond Nicolas Laguerre (1834-1886).
12
Pafnuty Lvovich Chebyshev (1821-1894).
13
Assim denominada pois sua solução envolve uma generalização da série geométrica.
5.2 Sistemas de Equações Diferenciais Ordinárias

Um sistema de equações diferenciais ordinárias envolvendo m funções desconhecidas y 1 , . . . , ym de
uma variável é um conjunto de equações do tipo
(n ) (n −1) (n −1)
y1 1 (t) = F1 (t; y1 , y10 , . . . , y1 1 ; . . . ; ym , ym
0
, . . . , ym m ) ,
(n ) (n −1) (n −1)
y2 2 (t) = F2 (t; y1 , y10 , . . . , y1 1 ; . . . ; ym , ym
0
, . . . , ym m ) ,
.. (5.12)
.
(n ) (n1 −1) (n −1)
ym m (t) = Fm (t; y1 , y10 , . . . , y1 0
; . . . ; ym , ym , . . . , ym m ),
onde cada Fi é uma função de um certo número de variáveis e nk são números inteiros maiores ou
iguais a 1. Para cada yj tem-se, portanto, uma equação de ordem nj , na qual comparecem também as
demais funções yk e suas derivadas de ordem até nk − 1.
Sistemas de equações diferenciais ordinárias são muito freqüentes em Fı́sica. Considere-se, por
exemplo, um sistema isolado de m partı́culas de massas Mi e coordenadas x~i , i = 1, . . . , m, interagindo
de forma que a partı́cula j exerce sobre a partı́cula i uma força F~ij (x~i − x~j ). A segunda lei de Newton
fica X
Mi x~¨i (t) = F~ij (x~i (t) − x~j (t)) ,
j6=i
i = 1, . . . , m, que é um sistema de equações diferenciais ordinárias.
• O sistema de Lotka-Volterra
Um outro exemplo de sistema de equações diferenciais é o chamado sistema de caça-presa de Lotka 14

e Volterra15 , empregado no estudo de evolução de populações16 . Esse sistema é da forma
ṗ1 (t) = −α1 p1 (t) + β1 p1 (t)p2 (t)
, (5.13)
ṗ2 (t) = +α2 p2 (t) − β2 p1 (t)p2 (t)
onde αi e βi , i = 1, 2 são constantes positivas. O sistema de Lotka-Volterra descreve a evolução de duas
populações de acordo com um modelo de interação entre caça (a população p 1 ) e presa (a população
p2 ).
A idéia do modelo é a seguinte: p1 representa uma população que se alimenta da população p2 . Esta,
alimenta-se de recursos do habitat. Tenha-se em mente, por exemplo, a situação onde p 1 representa
uma população de raposas que se alimentam de coelhos, representados por p2 . Estes, sendo herbı́voros,
alimentam-se de plantas de seu habitat. Se as duas populações estão isoladas, p1 tende a desaparecer
(por falta de alimento) exponencialmente com uma taxa α1 . Já p2 cresce exponencialmente com uma
taxa α2 , por não ter inimigos naturais. Assim, quando as duas populações estão isoladas, suas evoluções
são descritas pelo sistema
ṗ1 (t) = −α1 p1 (t)
. (5.14)
ṗ2 (t) = +α2 p2 (t)
14
Alfred James Lotka (1880-1949).
15
Vito Volterra (1860-1940).
16
O modelo foi proposto em 1920 por Lotka para o estudo de certas reações quı́micas e em 1926 por Volterra, em uma
tentativa de modelar a evolução de populações de peixes e tubarões do mar Adriático. Para uma referência histórica,
vide V. Volterra “Leçons sur la Théorie Mathématique de la Lutte pour la Vie”. Gauthier-Villars et Cie., Paris, 1931.
Postas em contato, as populações começam a interagir, e de modo que p1 tem uma chance de sobre-
vivência por se alimentar de p2 , que ganha agora um predador. As chances de sobrevivência de p1 são
proporcionais ao número de encontros entre elementos de p1 e de p2 no habitat, pois em um encontros
um elemento de p1 pode eventualmente matar um elemento de p2 e, assim, alimentar-se. Esse número
de encontros é grosseiramente proporcional ao produto das duas populações p 1 p2 (por que?). Assim, a
taxa de sobrevivência de p1 deve ser acrescida de um termo como β1 p1 (t)p2 (t), enquanto que a taxa de
sobrevivência de p2 deve ser subtraı́da de um termo como β2 p1 (t)p2 (t). Esses termos levam ao sistema
de Lotka-Volterra acima. O resultado da evolução de um tal sistema é ilustrado na Figura 5.1.
Figura 5.1: A evolução do sistema de Lotka-Volterra para três condições iniciais distintas. O eixo
horizontal é a população p1 e o vertical p2 . Note que a evolução se dá em ciclos periódicos fechados,
uma caracterı́stica especial do sistema de Lotka-Volterra.
Também estudado em modelos de ecologia é o modelo de competição de Lotka-Volterra, descrito

pelo sistema
ṗ1 (t) = α1 p1 (t) − β1 p1 (t)2 − γ1 p1 (t)p2 (t)
. (5.15)
ṗ2 (t) = α2 p2 (t) − β2 p2 (t)2 − γ2 p1 (t)p2 (t)
Acima βi e γi são positivos, mas αi podem ser positivos ou negativos. Na primeira equação, o termo
+α1 p1 (t) descreve o crescimento (ou decrescimento) da população p1 por consumir recursos de seu
habitat (supostamente ilimitados), se reproduzir e morrer. O termo −β1 p1 (t)2 descreve, por exemplo,
a taxa de propagação de doenças fatais entre elementos da população p 1 , que é proporcional ao número
de encontros de elementos da espécie p1 com elementos da espécie p1 . Esse número é grosseiramente
proporcional a p21 (por que?). O termo −γ1 p1 (t)p2 (t) descreve a competição entre as duas espécies cujas
populações são p1 e p2 .
Também muito estudados17 são os modelos do tipo Lotka-Volterra com n espécies, caracterizados
17
Para um trabalho recente, vide P. Duarte R. L. Fernandez e W. M. Oliva “Dynamics on the attractor of the Lotka-
Volterra equations”. J. Diff. Equations 149, 143-189 (1998) e referências lá citadas.
pelo sistema de equações

n
X
ṗj (t) = αj pj (t) + βjk pj (t) pk (t) , j = 1, . . . , n .
k=1
Mais generalidades sobre o modelo de Lotka-Volterra e sobre outras aplicações de equações diferen-
ciais em modelos ecológicos e epidemiológicos podem ser encontradas, por exemplo, em [9] e [2]. Para
outra referência sobre o modelo de Lotka-Volterra e assuntos correlatos, vide [66].
Comparados à realidade dos sistemas biológicos os modelos apresentados acima são bastante sim-
plificados, deixando de lado vários efeitos possivelmente relevantes, tais como reprodução sexuada
(machos só se reproduzem com fêmeas, não com outros machos, fêmeas idem), imunidade ou não a
doenças por parte das populações, tempos de gestação, ausência de reprodução durante a gestação,
tempos de latência de doenças, limitação dos recursos do habitat, surgimento aleatório de mutações e
vários outros fatores. Há toda uma área de pesquisa voltada à modelagem realista de sistemas biológicos
e eco-sistemas. Alguns modelos estudados chegam a ser extremamente complexos, envolvendo dezenas
de equações e de incógnitas. Para uma referência atualizada sobre modelagem de sistemas biológicos,
vide [9] ou [66].
• Sistemas de primeira ordem
O sistema de equações diferenciais ordinárias mais básico é o de primeira ordem:

y˙1 (t) = F1 (t, y1 , . . . , ym ) ,
y˙2 (t) = F2 (t, y1 , . . . , ym ) ,
.. (5.16)
.
y˙m (t) = Fm (t, y1 , . . . , ym ) ,
onde cada Fi é uma função de m + 1 variáveis. É conveniente simplificarmos um pouco a expressão

(5.16). Introduzindo os vetores de m componentes
 
y1
 .. 
Y =  .  ∈ m
ym
m+1 m
e as funções F : →
   
F1 (t, y1 , . . . , ym ) F1 (t, Y )
 ..   .. 
F (t, Y ) =  .  =  . 
Fm (t, y1 , . . . , ym ) Fm (t, Y )
a expressão (5.16) fica

Ẏ (t) = F (t, Y (t)) . (5.17)
Como veremos logo adiante, todo sistema de equações diferenciais ordinárias pode ser escrito como
um sistema equações diferenciais ordinárias de primeira ordem, escrito quer na forma (5.16), quer na
forma (5.17), para algum m e para alguma função F : m+1 → m .
• Sistemas lineares de primeira ordem
Muito importantes são os sistemas de m equações diferenciais ordinárias lineares de primeira ordem,
os quais têm a forma
ẏ1 (t) = a11 (t)y1 (t) + · · · + a1m (t)ym (t) + b1 (t) ,
ẏ2 (t) = a21 (t)y1 (t) + · · · + a2m (t)ym (t) + b2 (t) ,
.. (5.18)
.
ẏm (t) = am1 (t)y1 (t) + · · · + amm (t)ym (t) + bm (t) ,
para certas funções aij e bj de t.
No casos em que as funções bj acima são identicamente nulas o sistema é dito ser homogêneo. Caso
contrário, é dito ser não-homogêneo.
• Representação matricial de sistemas lineares
Como veremos, é muito conveniente escrever o sistema linear (5.18) acima em notação matricial.
De fato, definindo,
     
y1 (t) a11 (t) · · · a1m (t) b1 (t)
   ..  ,  
Y (t) =  ...  , A(t) :=  ... ..
. .  B(t) =  ...  ,
ym (t) am1 (t) · · · amm (t) bm (t)
podemos escrever o sistema (5.18) como
Ẏ (t) = A(t)Y (t) + B(t) ,
como facilmente se vê. Sistemas lineares de primeira ordem serão estudados em detalhe no Capı́tulo 6
onde, em particular, faremos uso abundante da notação matricial acima.
• Equivalência entre equações de ordem n e sistemas de EDOs
Provaremos agora um fato simples, mas de grande relevância, tanto teórica quanto em aplicações
(analı́ticas ou numéricas), a saber, que toda equação diferencial ordinária de ordem n é equivalente a
um sistema de n equações de primeira ordem.
Seja a equação diferencial ordinária de ordem n
y (n) (t) = F (t, y(t), . . . , y (n−1) (t)) . (5.19)
Definindo yk (t) := y (k−1) (t), para todo k = 1, . . . , n, teremos y1 (t) = y(t) e

ẏ1 (t) = y2 (t) ,
ẏ2 (t) = y3 (t) ,
.. (5.20)
.
ẏn−1 (t) = yn (t) ,
ẏn (t) = F (t, y1 (t), . . . , yn (t)) .
Este é um sistema como (5.16), onde, aqui,

F1 (t, y1 , . . . , yn ) = y2 ,
F2 (t, y1 , . . . , yn ) = y3 ,
..
.
Fn−1 (t, y1 , . . . , yn ) = yn ,
Fn (t, y1 , . . . , yn ) = F (t, y1 (t), . . . , yn (t)) .
Isso mostra que toda equação diferencial ordinária de ordem n, como (5.19), equivale a um sistema de
n equações de primeira ordem, como (5.20).
E. 5.2 Exercı́cio importante. Seja a equação diferencial ordinária linear de ordem n
y (n) (t) + an−1 (t)y (n−1) (t) + · · · + a1 (t)y 0 (t) + a0 (t)y(t) = f (t) .
Determine o sistema linear de n equações de primeira ordem equivalente e mostre que o mesmo pode ser
escrito na forma matricial
Ẏ (t) = A(t)Y (t) + B(t) ,
onde    
y(t) 0
 
y 0 (t)   0
   
 
..   ..
Y (t) :=   ,
. B(t) :=   .
 (n−2)   
y (t)  0 
(n−1)
y (t) f (t)
e A(t) é a matriz n × n
 
0 1 0 0 ··· 0
 
 
 0 0 1 0 ··· 0 
 
 
 .. .. .. 
 .. .. .. 
 . . . . . . 
 
A(t) :=   .
 .. 
 0 0 0 . 1 0 
 
 
 
 0 0 0 ··· 0 1 
 
 
−a0 (t) −a1 (t) −a2 (t) ··· −an−2 (t) −an−1 (t)
Equação matriciais como a de acima serão estudadas com mais detalhe no Capı́tulo 6. 6
E. 5.3 Exercı́cio. Mostre que todo sistema de equações diferenciais ordinárias como (5.12) equivale
a um sistema de equações de primeira ordem. Sugestão: use a mesma idéia de acima, dando nomes às
(nj )
derivadas yi que aparecem no lado direito de (5.12). 6
5.3 Alguns Métodos de Solução de Equações Diferenciais Or-

dinárias
Nesta seção apresentaremos alguns métodos de solução de equações diferenciais ordinárias. Todos
os métodos apresentados têm sua validade e sua eficácia limitadas a certas classes de equações. No
Capı́tulo 7, página 355, desenvolveremos com bastante detalhe métodos de solução de equações lineares
baseados em expansões, a saber, o método de expansão em séries de potências e o método de Frobenius,
válidos para equações diferenciais lineares gozando de certas propriedades de analiticidade. Com o
propósito de centrar a discussão nos métodos de solução, não trataremos aqui de questões relativas
à continuidade de soluções em relação a parâmetros e condições iniciais e ao domı́nio de validade de
soluções. Essas questões serão discutidas na Seção 5.4, página 280. Métodos iterativos, perturbativos
ou numéricos também não serão discutidos aqui. Dada a profusão de métodos de solução de equações
diferenciais (uma ciência que se desenvolve já há mais de trezentos anos!), nossa apresentação será,
reconhecidamente, limitada. Para um texto introdutório sobre equações diferenciais ordinárias centrado
em métodos de solução, vide [13].
5.3.1 Solução de Equações Ordinárias Lineares de Primeira Ordem
• Solução de equações lineares de primeira ordem
Equações diferenciais ordinárias lineares de primeira ordem são particularmente interessantes pois,
sob hipóteses simples, é possı́vel apresentar soluções gerais para as mesmas e de modo relativamente
fácil. Este tópico é dedicado a isso. Infelizmente a mesma facilidade não é encontrada para o caso das
equações diferenciais lineares de ordem dois ou maior.
Considere-se a equação diferencial ordinária linear de primeira ordem
ẏ(t) + a(t)y(t) = b(t) , (5.21)
para funções a e b : → , contı́nuas. Vamos mostrar como resolver uma tal equação. Para tal,
defina-se Z t
p(t) := exp a(τ )dτ .
0
Multiplicando-se (5.21) por p(t) e usando o fato que ṗ(t) = a(t)p(t), teremos
d
[p(t)y(t)] = p(t)b(t) ,
dt
donde conclui-se que
Z t Z t
1 −1

y(t) = y(0) + p(s)b(s) ds = p(t) y(0) + p(t)−1 p(s) b(s) ds . (5.22)
p(t) 0 0

Essa expressão representa a solução geral de (5.21), a qual depende do valor de y(0), a ser especifi-
cado (condição inicial).
E. 5.5 Exercı́cio. A solução (5.22) é da

R forma (5.10), pois p(t) −1 é solução da equação homogênea
t
ẏ(t) + a(t)y(t) = 0 enquanto que p(t)−1 0 b(τ )p(τ ) dτ é solução particular da equação não-homogênea
(5.21). Verifique essas afirmações. 6
Rt
Naturalmente, para o cálculo explı́cito de y é necessário calcular a integral 0 a(τ )dτ que aparece
Rt
na definição de p, assim como, numa segunda etapa, a integral 0 b(τ )p(τ )dτ . Como essas funções são
conhecidas, isso pode ser possı́vel, em princı́pio, mas nem sempre obtem-se fórmulas explı́citas para as
mencionadas integrais. Ainda assim, (5.22) representa a solução completa do problema. Na pior das
hipóteses as integrais mencionadas podem ser calculadas numericamente de modo aproximado.
A solução (5.22) de (5.21) pode ser reobtida com o método dos fatores integrantes, tal como descrito
no Exemplo 5.7, página 273.
5.3.2 As Equações de Bernoulli e de Riccati
• A equação de Bernoulli
Para a e b : → , ambas contı́nuas, a equação diferencial ordinária não-linear homogênea de

primeira ordem
ẏ(t) + a(t)y(t) + b(t)y(t)2 = 0 (5.23)
é denominada equação de Bernoulli18 . Apesar desta equação ser um dos representantes mais simples
da classe das equações diferenciais não-lineares, a não-linearidade da mesma não acrescenta nenhuma
barreira à sua solubilidade, pois a simples substituição y(t) = 1/v(t) conduz à equação
v̇(t) − a(t)v(t) − b(t) = 0
que é linear e tem por solução (vide acima)

Z t
1
v(t) = v(0) + b(τ )p(τ ) dτ ,
p(t) 0
onde Z t
p(t) := exp − a(τ ) dτ .
0
Portanto, a solução geral de (5.23) é
p(t)
y(t) = Z t .
v(0) + b(τ )p(τ ) dτ
0
18
Jacob Bernoulli (1654-1705). Vide nota histórica à página 265.
E. 5.7 Exercı́cio. Determine a solução geral da equação de Bernoulli generalizada
ẏ(t) + a(t)y(t) + b(t)y(t)n = 0 ,

1
n 6= 1. Sugestão: Defina v por y(t) = v(t) 1−n e proceda como acima. 6
As equações de Bernoulli são um caso particular de uma classe maior de equações diferenciais
ordinárias não-lineares, as chamadas equações de Riccati generalizadas.
• A equação de Riccati generalizada
Para a, b e c : → , contı́nuas, a equação diferencial ordinária não-linear não-homogênea de

primeira ordem
ẏ(t) + a(t)y(t) + b(t)y(t)2 + c(t) = 0 (5.24)
é denominada equação de Riccati19 .
Ao contrário da equação de Bernoulli, a equação de Riccati generalizada não é, em geral, solúvel.
Apenas em casos particulares há soluções mais ou menos explı́citas para as mesmas, normalmente em
termos de expansões em série, como expansões em série de potências.
Apesar de sua não-solubilidade genérica (em contraposição com a equação de Bernoulli, que é
também não-linear mas solúvel), é possı́vel obter a solução geral de (5.24) se uma solução particular
sua for conhecida. De fato, se u é uma solução particular conhecida de (5.24) então a solução geral é
da forma
y(t) = u(t) + v(t) ,
onde v obedece à equação de Bernoulli
v̇(t) + [a(t) + 2b(t)u(t)]v(t) + b(t)v(t)2 = 0 .
E. 5.8 Exercı́cio. Verifique, substituindo y = u + v em (5.24) e usando a hipótese que u é solução de

(5.24). 6
Assim, conhecida a função u, a solução geral da equação de Riccati generalizada é

p1 (t)
y(t) = u(t) + Z t ,
w0 − b(τ )p1 (τ ) dτ
0
onde w0 = 1/(y(0) − u(0)), para y(0) 6= u(0), é uma constante e onde

Z t
p1 (t) := exp [a(τ ) + 2b(τ )u(τ )] dτ .
0
19
Jacopo Francesco Riccati (1676-1754).
Observemos que qualquer equação diferencial ordinária linear homogênea de segunda ordem associa-
se naturalmente a uma equação de Riccati generalizada. De fato, dada a equação
ẅ(t) + a(t)ẇ(t) + b(t)w(t) = 0 ,
Z t
com a e b : → contı́nuas, o Ansatz w(t) = exp y(τ )dτ conduz a
0
ẏ(t) + a(t)y(t) + y 2 (t) + b(t) = 0 ,

que é uma equação de Riccati generalizada.
• Nota Histórica
A equação de Riccati generalizada deve seu nome ao matemático e conde veneziano Iacopo Francesco Riccati (1676-1754), que estudou
a equação diferencial
y 0 (x) = α y 2 (x) + xn ,
` ´
(5.25)
com α constante e n ∈ , em monografia publicada em 1724 sem, no entanto, resolvê-la. A equação
y 0 (x) = y 2 (x) + x2 (5.26)
fora previamente estudada por Johann Bernoulli (1667-1748) em trabalho de 1694, sem que este apresentasse solução para a mesma. Jacob
Bernoulli (1654-1705), que honrou com seu nome a equação (5.23), resolvida por ele em 1696, também estudara (5.26) e encontrara em 1703
uma solução para a mesma em termos de uma razão de série de potências, que então expressou como uma série de potências simples. Somente
em 1841 Joseph Liouville (1809-1882) demonstrou que a solução de (5.26) não pode ser expressa em termos de funções elementares. Em
notação moderna a solução geral de (5.26) é
„ 2« „ 2 «1
x x
0
AJ−3/4 + J3/4
B 2 2 C
y(x) = x B „ 2« „ 2 «C A ,
@ x x
J−1/4 − AJ1/4
2 2
onde A é uma constante e Jν são funções de Bessel de primeiro tipo e ordem ν.
Equações do tipo (5.25) são hoje denominadas simplesmente equações de Riccati. A associação do nome de Riccati a tais equações (e
não dos nomes de Johann Bernoulli ou Jacob Bernoulli) é parcialmente devida ao fato de (5.25) ser ligeiramente mais geral que (5.26) e
às referências ao trabalho de Riccati feitas por outro Bernoulli, Daniel Bernoulli (1700-1782), que estudou as equações (5.25) em trabalho
datado de 1725. Daniel Bernoulli menciona que soluções de equações como (5.25) foram obtidas anteriormente por Johann Bernoulli, Nicolaus
Bernoulli e Nicolaus Bernoulli II. A desconsideração de Daniel Bernoulli pela contribuição prévia de seu tio Jacob Bernoulli deve-se talvez à
rivalidade deste com seu irmão Johann Bernoulli, pai de Daniel Bernoulli, mas talvez seja meramente conseqüência do fato de sua época não
estar ainda preparada para aceitar soluções de equações diferenciais em termos de séries infinitas. De fato, em seu trabalho, Daniel Bernoulli
preocupou-se em apontar casos em que (5.25) pode ser resolvida por séries finitas, a saber, quando n é a forma −4m/(2m ± 1), com m inteiro.
O método acima descrito de obter a solução geral da equação de Riccati generalizada a partir de uma solução particular é devido a
Leonhard Euler (1707-1783) e publicado em 1764.
Para mais notas históricas sobre as equações (5.25) e (5.26) e sua relação com as funções de Bessel, vide por exemplo [125], Capı́tulo I.
5.3.3 Integração de Equações Separáveis

Entre as equações diferenciais de resolução mais simples encontram-se as chamadas equações separáveis.
Uma equação diferencial ordinária de primeira ordem é dita ser uma equação separável 20 se for da forma
y 0 (x) = f (x)g(y(x)) , (5.27)
20
Há também uma noção de equação separável na teoria das equações diferenciais parciais (vide Seção 8.3.1, página
482), mas trata-se de outra coisa.
para funções f e g convenientes. Consideremos a condição inicial y(x0 ) = y0 para algum x0 . Definindo,
Z x Z x
1
A(x) := ds e B(x) := f (s)ds ,
x0 g(s) x0
caso as integrais existam, teremos,

d 1
A(y(x)) = A0 (y(x))y 0 (x) = y 0 (x) e B 0 (x) = f (x) .
dx g(y(x))
d
Logo, dx A(y(x)) = B 0 (x) e A(y(x)) = B(x) + c, c sendo uma constante. Como B(x0 ) = 0, segue que
c = A(y0 ). Se a função A possuir uma inversa em algum aberto em torno de y0 , teremos
y(x) = A−1 (B(x) + A(y0 ))
como solução de (5.27) em um aberto em torno de x0 .

É interessante notar que, pelo Teorema da Função Inversa21 , A é invertı́vel em um aberto torno de
y0 se A for contı́nua e A0 (y0 ) 6= 0. Assim, a condição g(y10 ) 6= 0 garante a existência da solução y dada
acima em uma vizinhança de x0 .
E. 5.11 Exercı́cio. Determine a solução de
3x7 − 5x2 − 1
y 0 (x) = ,
1 + y2
com y(0) = 0. 6
E. 5.12 Exercı́cio. Determine a solução de
(1 + x2 )
y 0 (x) = ,
cos(y(x))
com y(0) = y0 . Estude os vários casos. 6
5.3.4 O Método de Variação de Constantes

Seja a equação linear não-homogênea
y 00 (x) + a(x)y 0 (x) + b(x)y(x) = f (x) , (5.28)
definida em um certo intervalo aberto I ⊂ , com f contı́nua por partes, e vamos supor que sejam

conhecidas duas soluções independentes y1 e y2 da equação homogênea y 00 (x)+a(x)y 0 (x)+b(x)y(x) = 0.

O método de variação de constantes consiste em determinar funções v 1 e v2 tais que a combinação
yv (x) = v1 (x)y1 + v2 (x)y2 (x) , (5.29)

21
Vide Seção 14.4, página 805, ou qualquer bom livro de Cálculo de funções de várias variáveis, por exemplo, [24, 83, 84]
seja solução da equação não-homogênea (5.28). A denominação do método como de “variação de

constantes”, uma contradição em termos, provem do fato de que, como é bem sabido, a solução geral
da equação homogênea é v1 y1 (x) + v2 y2 (x) para v1 e v2 constantes.
Substituindo (5.29) em (5.28), e usando as hipóteses que y100 + ay10 + by1 = 0 e y200 + ay20 + by2 = 0,
obtem-se
[v10 y1 + v20 y2 ]0 + a[v10 y1 + v20 y2 ] + [v10 y10 + v20 y20 ] = f . (5.30)
E. 5.13 Exercı́cio. Complete os detalhes que levam à última expressão. 6
Para determinar as duas funções v1 e v2 é preciso acrescentar mais uma equação diferencial envol-
vendo ambas as funções. A escolha dessa equação extra é essencialmente arbitrária, mas uma análise
de (5.30) mostra ser muito conveniente impor a relação v10 y1 + v20 y2 = 0 pois a expressão v10 y1 + v20 y2
aparece nos dois primeiros termos. Com isso, chegamos ao sistema de equações
v10 y1 + v20 y2 = 0 ,
v10 y10 + v20 y20 = f ,
que são equações algébricas para v10 e v20 , fornecendo
y1 f y2 f
v10 = − , v20 = + ,
y1 y20− y10 y2 y1 y20 − y10 y2
cujas soluções são

Z x Z x
y2 (s)f (s) y1 (s)f (s)
v1 (x) = − 0 0
ds + c1 , v2 (x) = + ds + c2 ,
x0 y1 (s)y2 (s) − y1 (s)y2 (s) x0 y1 (s)y2 (s) − y10 (s)y2 (s)
0
sendo x0 ∈ I e c1 , c2 duas constantes de integração. A expressão Wy1 , y2 (x) := y1 (x)y20 (x) − y10 (x)y2 (x)
é denominada determinante Wronskiano22 e não se anula pois, por hipótese, y1 e y2 são independentes.
Assim, a solução procurada yv (x) = v1 (x)y1 (x) + v2 (x)y2 (x) tem a forma
Z x
y1 (s)y2 (x) − y1 (x)y2 (s)
yv (x) = [c1 y1 (x) + c2 y2 (x)] + f (s) ds
x0 y1 (s)y20 (s) − y10 (s)y2 (s)
Z x
y1 (s)y2 (x) − y1 (x)y2 (s)
= [c1 y1 (x) + c2 y2 (x)] + f (s) ds ,
x0 Wy1 , y2 (s)
para um ponto x0 ∈ I arbitrário e constantes arbitrárias c1 e c2 a serem fixadas por condições iniciais
em x0 . O estudante deve observar que o termo [· · · ] da última expressão acima é uma solução da
equação homogênea e o último é uma solução particular da equação não-homogênea.
Uma observação simples permite reescrever a última expressão de uma forma por vezes mais con-
22
Conde Josef Hoëné de Wronski (1778-1853).
veniente. Se a é contı́nua por partes, é fácil constatar que
Z s
d
Wy1 , y2 (s) exp a(τ ) dτ
ds x0
" # Z
h i h i s
= y200 (s) + a(s)y20 (s) + b(s)y2 (s) y1 (s) − y100 (s) + a(s)y10 (s) + b(s)y1 (s) y2 (s) exp a(τ ) dτ
x0
= 0,
pois y1 e y2 são soluções da equação homogênea. Com isso, concluı́mos que

Z s
Wy1 , y2 (s) = Wy1 , y2 (x0 ) exp − a(τ ) dτ .
x0
Sempre podemos escolher as funções y1 e y2 de forma que satisfaçam y1 (x0 ) = 1, y10 (x0 ) = 0, y2 (x0 ) = 0,
y20 (x0 ) = 1. Nesse caso Wy1 , y2 (x0 ) = 1 e concluı́mos que
Z x Z s
yv (x) = [c1 y1 (x) + c2 y2 (x)] + exp a(τ ) dτ y1 (s)y2 (x) − y1 (x)y2 (s) f (s) ds .
x0 x0
Com essas escolhas, é fácil ver que yv (x0 ) = c1 e yv0 (x0 ) = c2 .

No Capı́tulo 6, página 292, o método de variação de constantes será reencontrado por outros ca-
minhos e será tratado com mais generalidade, de modo a também incluir equações de ordem n e não
apenas de segunda ordem, como fizemos acima.
5.3.5 O Método de Substituição de Prüfer

Esse elegante método aplica-se à solução de certas equações diferenciais ordinárias e lineares e ho-
mogêneas de segunda ordem da forma
0
p(x)y 0 (x) + q(x)y(x) = 0 , (5.31)
para x ∈ (a, b) ⊂ , sendo p contı́nua e diferenciável, p(x) > 0 e q contı́nua. O chamado método de

substituição de Prüfer23 consiste em definir duas novas funções ρ e θ por
y(x) = ρ(x) sen (θ(x)) , p(x)y 0 (x) = ρ(x) cos(θ(x)) (5.32)
e transformar o problema de resolver a equação diferencial de segunda ordem para y no problema de

resolver um sistema de duas equações diferenciais de primeira ordem para ρ e θ. Como o leitor pode
perceber, a mudança acima pode ser interpretada como a passagem a coordenadas polares no espaço de
23
Ernst Paul Heinz Prüfer (1896-1934). A referência para trabalho de Prüfer é H. Prüfer, “Neue Herleitung der
Sturm-Liouvilleschen Reihenentwicklung stetiger Funktionen”. Math. Ann., 95, 499-518 (1926).
fase bidimensional definido por (y(x), p(x)y 0 (x)). Obtemos o sistema equações para ρ e θ da seguinte
forma. Em primeiro lugar, observamos que diferenciando a equação do lado esquerdo de (5.32), tem-se
y 0 (x) = ρ0 (x) sen (θ(x)) + ρ(x) cos(θ(x))θ 0 (x) .
Multiplicando-se por p e usando a equação do lado direito de (5.32), obtemos
ρ0 (x)p(x) sen (θ(x)) + ρ(x)p(x) cos(θ(x))θ 0 (x) = ρ(x) cos(θ(x)) .
Em segundo lugar, inserindo-se a equação do lado direito de (5.32) em (5.31), tem-se
ρ0 (x) cos(θ(x)) − ρ(x) sen (θ(x))θ 0 (x) = −q(x)ρ(x) sen (θ(x)) .
Dessas duas últimas igualdades podemos facilmente obter ρ0 e θ 0 :

2 1 2
θ 0 (x) = q(x) sen (θ(x)) + cos(θ(x)) ,
p(x)

0 ρ(x) 1
ρ (x) = − q(x) sen (2θ(x)) ,
2 p(x)
Esse é o sistema de equações procurado. Um aspecto notável do mesmo é que a primeira equação
envolve apenas θ. Se for possı́vel resolver essa equação, obtendo a função θ(x), a solução da segunda
equação seria Z x
1 1
ρ(x) = ρ(a) exp − q(y) sen (2θ(y)) dy ,
2 a p(y)
e, pela pela primeira equação de (5.32), terı́amos a solução
Z x
1 1
y(x) = ρ(a) exp − q(y) sen (2θ(y)) dy sen (θ(x)) .
2 a p(y)
Outro aspecto interessante do método de substituição de Prüfer reside no fato de que, como y(x) =
ρ(x) sen (θ(x)), os zeros de y coincidem com os pontos onde θ(x) = nπ, n ∈ . Vários fatos sobre esses
zeros podem ser obtidos a partir dessa observação.
Uma feliz situação particular na qual a equação para θ pode ser resolvida facilmente é aquela na
1
qual p(x) = q(x), em cujo caso ficamos com θ 0 (x) = q(x), ρ0 (x) = 0, ou seja,
Z x
θ(x) = θ(a) + q(y) dy ρ(x) = ρ(a) .
a
Assim, terı́amos pela primeira equação de (5.32) a solução geral

Z x
y(x) = c1 sen q(y) dy + c2 ,
a
para duas constantes c1 e c2 (aqui, c1 ≡ ρ(a) e c2 ≡ θ(a)).

E. 5.15 Exercı́cio. Resolva a equação do oscilador harmônico simples ẍ + ω 02 x = 0 usando o método

acima. Sugestão: reescreva a equação tomando p(x) = ω 0−1 e q(x) = ω0 . 6
E. 5.16 Exercı́cio. Obtenha a solução da equação

0
−α 0
x y (x) + xα y(x) = 0 ,
α∈ , em um intervalo (a, b). 6
5.3.6 O Método de Inversão

Esse método pode ser aplicado quando a solução y de uma equação diferencial ordinária for uma função
invertı́vel em algum aberto do seu domı́nio de definição. A idéia é transformar a equação para y em
uma equação para a inversa de y, que pode eventualmente ser de resolução mais simples.
Se f é invertı́vel em um aberto A e f −1 é sua inversa, então f (f −1 (z)) = z. Supondo ambas dife-
renciáveis, a regra da cadeia diz-nos que f 0 (f −1 (z))(f −1 )0 (z) = 1 e, portanto, f 0 (f −1 (z)) = 1/(f −1 )0 (z).
diferenciando-se mais uma vez tem-se f 00 (f −1 (z)) = −(f −1 )00 (z)/[(f −1 )0 (z)]3 . Prosseguindo assim, é
possı́vel sucessivamente expressar todas as derivadas de f em função de derivadas de f −1 .
Com essas relações, vemos que uma equação diferencial de primeira ordem F (x, y(x), y 0 (x)) = 0
transforma-se na equação
−1 1
F y (z), z, −1 0 = 0.
(y ) (z)
e uma equação diferencial de segunda ordem F (x, y(x), y 0 (x), y 00 (x)) = 0 transforma-se na equação

−1 1 (y −1 )00 (z)
F y (z), z, −1 0 , − −1 0 = 0,
(y ) (z) [(y ) (z)]3
e assim analogamente para equações de ordem superior. Em alguns casos tais equações transformadas
podem ser mais fáceis de resolver que a original e a solução y pode ser obtida – ao menos localmente
– invertendo a solução y −1 . Ilustraremos o método em dois exemplos.
Exemplo 5.5 Seja a equação diferencial de primeira ordem
1
y 0 (x) = ,
a(y(x)) x + b(y(x)) xα
onde a e b são duas funções contı́nuas e α ∈ . Pela transformação acima, essa equação equivale a
1 1
= , ou seja, (y −1 )0 (z) = a(z) y −1 (z) + b(z) (y −1 (z))α ,
(y −1 )0 (z) a(z) y −1 (z) + b(z) (y −1 (z))α
que se trata de uma equação de Bernoulli generalizada para y −1 . A solução de equações de Bernoulli
foi apresentada na Seção 5.3.2, página 263. ◊
Exemplo 5.6 Considere a equação de segunda ordem y 00 (x) + xy(x)(y 0 (x))3 = 0. Pela transformação
de acima, essa equação equivale a
3
(y −1 )00 (z) −1 1
− −1 0 + y (z) z = 0 ou seja, (y −1 )00 (z) − zy −1 (z) = 0 ,
[(y ) (z)]3 (y −1 )0 (z)
que se trata da equação de Airy para y −1 . A solução da equação de Airy pode ser obtida pelo método
de expansão em série de potências. Vide Seção 7.1.4, página 365. ◊
5.3.7 Solução de Equações Exatas e o Método dos Fatores Integrantes
• Equações exatas de primeira ordem
Seja D ⊂ 2 é um domı́nio aberto e simplesmente conexo e sejam definidas em D duas funções

diferenciáveis A1 (x1 , x2 ) e A2 (x1 , x2 ). A equação diferencial

A1 (x, y(y)) + A2 (x, y(x))y 0 (x) = 0 (5.33)
é dita ser uma equação exata se
∂A1 ∂A2
(x1 , x2 ) − (x1 , x2 ) = 0 (5.34)
∂x2 ∂x1
para todo (x1 , x2 ) ∈ D. Uma equação exata pode ser resolvida em termos de uma equação implı́cita
pelo método que segue.
A condição (5.34) diz-nos que o campo bidimensional A ~ = (A1 , A2 ) é irrotacional. Como D é
simplesmente conexo, A ~ pode ser escrito como o gradiente de uma função U . Essa situação é análoga
ao que ocorre na Mecânica Clássica quando se lida com forças conservativas, as quais podem ser
expressas como o gradiente de um potencial.
De fato, sejam (a, b), (x1 , x2 ) ∈ D e seja C uma curva diferenciável orientada de (a, b) a (x1 , x2 )
inteiramente contida em D: C = {(w1 (s), w2 (s)) ∈ D, s ∈ [0, 1]}, onde as funções w1 (s) e w2 (s) são
contı́nuas e diferenciáveis e satisfazem (w1 (0), w2 (0)) = (a, b), (w1 (1), w2 (1)) = (x1 , x2 ). Defina-se a
função U : D → como sendo a integral de linha do campo A

~ ao longo de C do ponto (a, b) ao ponto
(x1 , x2 ):
Z (x1 , x2 ) Z (x1 , x2 )
U (x1 , x2 ) := ~ ~ · dw
A(w) ~ = A1 (w1 , w2 )dw1 + A2 (w1 , w2 )dw2
(a, b) C (a, b) C
Z
1
dw1 dw2
= A1 (w1 (s), w2 (s)) + A2 (w1 (s), w2 (s)) ds . (5.35)
0 ds ds
Como D é simplesmente conexa, o Teorema de Green e a condição (5.34) implicam que essa integral
não depende da particular curva C adotada, mas apenas dos pontos extremos (a, b) e (x 1 , x2 ). Pela
definição de U é imediato que
∂U ∂U
(x1 , x2 ) = A1 (x1 , x2 ) e (x1 , x2 ) = A2 (x1 , x2 ) (5.36)
∂x1 ∂x2
em todo D. Assim, a equação (5.33) pode ser escrita como
∂U ∂U d
(x, y(x)) + (x, y(x))y 0 (x) = 0, ou seja, U (x, y(x)) = 0 .
∂x1 ∂x2 dx
Dessa forma, concluı́mos que a solução da equação (5.33) é a solução da equação implı́cita
U (x, y(x)) = U0 ,
caso essa exista. Aqui U0 é uma constante. Se estivermos interessados na condição inicial y(x0 ) =
y0 , para (x0 , y0 ) ∈ D, teremos U0 = U (x0 , y0 ). Pelo Teorema da Função Implı́cita24 , a equação
U (x, y(x)) = U (x0 , y0 ) terá uma solução y(x) em uma vizinhança de x0 satisfazendo y(x0 ) = y0 se U
∂U
for contı́nua e diferenciável em torno de (x0 , y0 ) e se ∂x 2
(x0 , y0 ) 6= 0, ou seja, se A2 (x0 , y0 ) 6= 0.
E. 5.17 Exercı́cio. Mostre que a equação diferencial
(3x2 − y(x)2 − 7) − (ey(x) + 2xy(x) + 1)y 0 (x) = 0
é exata e mostre que suas soluções são soluções da equação implı́cita
y(x) − y(x)2 + ey(x) + 7x − x3 = constante.
• Método dos Fatores Integrantes
Dada uma equação diferencial como
B1 (x, y(x)) + B2 (x, y(x))y 0 (x) = 0 , (5.37)
com B1 (x1 , x2 ) e B2 (x1 , x2 ) definidas em um domı́nio D ⊂ 2 , aberto e simplesmente conexo, nem

sempre ocorre de a condição de exatidão ∂B 1

∂x2
(x1 , x2 ) − ∂B
∂x1
2
(x1 , x2 ) = 0 ser satisfeita. Em alguns casos,
porém, ao multiplicarmos a equação (5.37) por uma fator ω(x, y(x)) convenientemente escolhido, a
equação pode transformar-se em uma equação exata, a qual pode, então, ser resolvida pelo método
descrito acima. Um tal ω, se existir, será denominado fator integrante da equação (5.37).
Definindo A1 (x1 , x2 ) := ω(x1 , x2 )B1 (x1 , x2 ) A2 (x1 , x2 ) := ω(x1 , x2 )B2 (x1 , x2 ), desejamos
determinar quais funções ω tornam válida a condição (5.34), ou seja, desejamos determinar a solução
ω da equação diferencial parcial linear de primeira ordem

∂ω ∂ω ∂B1 ∂B2
B1 (x1 , x2 ) (x1 , x2 ) − B2 (x1 , x2 ) (x1 , x2 ) + ω(x1 , x2 ) (x1 , x2 ) − (x1 , x2 ) = 0 .
∂x2 ∂x1 ∂x2 ∂x1
(5.38)
Resolver essa equação pode não ser possı́vel, ou pode ser uma tarefa ainda mais difı́cil que resolver
a equação original (5.37) por outros meios. Em certos casos ela pode ser resolvida pelo método das
caracterı́sticas, do qual falaremos adiante, mas há duas situações especiais que tornam a solução simples:
24
Vide Seção 14.4, página 805, ou qualquer bom livro de Cálculo de funções de várias variáveis, por exemplo, [24, 83, 84]

1 ∂B1 ∂B2
I. (x1 , x2 ) − (x1 , x2 ) = α(x1 ), uma função apenas da variável x1 .
B2 (x1 , x2 ) ∂x2 ∂x1
Nesse caso, (5.38) fica
B1 (x1 , x2 ) ∂ω ∂ω
(x1 , x2 ) − (x1 , x2 ) + ω(x1 , x2 )α(x1 ) = 0 .
B2 (x1 , x2 ) ∂x2 ∂x1
Escolhendo ω(x1 , x2 ) = ω(x1 ), uma função apenas da variável x1 , essa equação simplifica-se para
ω 0 (x1 ) − ω(x1 )α(x1 ) = 0 ,
cuja solução é Z
x1
ω(x1 ) = c exp + α(ξ)dξ
a
sendo a e c arbitrários (sem perda, podemos escolher c = 1).

1 ∂B1 ∂B2
II. (x1 , x2 ) − (x1 , x2 ) = β(x2 ), uma função apenas da variável x2 .
B1 (x1 , x2 ) ∂x2 ∂x1
Nesse caso, (5.38) fica
∂ω B2 (x1 , x2 ) ∂ω
(x1 , x2 ) − (x1 , x2 ) + ω(x1 , x2 )β(x2 ) = 0 .
∂x2 B1 (x1 , x2 ) ∂x1
Escolhendo ω(x1 , x2 ) = ω(x2 ), uma função apenas da variável x2 , essa equação simplifica-se para
ω 0 (x2 ) + ω(x2 )β(x2 ) = 0 ,
cuja solução é Z
x2
ω(x2 ) = d exp − β(ξ)dξ
b
sendo b e d arbitrários (sem perda, podemos escolher d = 1).
Exemplo 5.7 Revisitando a equação (5.21) e reencontrando sua solução (5.22).

A equação y 0 (x)+a(x)y(x) = b(x) pode serescrita na forma (5.37) comB1 (x1 , x2 ) = a(x1 )x2 −b(x1 )
e B2 (x1 , x2 ) = 1. Tem-se aqui que B2 (x11 , x2 ) ∂B
∂x2
1
(x1 , x2 ) − ∂B
∂x1
2
(x1 , x2 ) = a(x1 ) e vale, portanto, a
condição do item I, acima, sendo o fator integrante dado por
Z x1
ω(x1 ) = exp a(ξ)dξ
x0
com x0 arbitrário. Assim,

Z x1 Z x1

A1 (x1 , x2 ) = exp a(ξ)dξ a(x1 )x2 − b(x1 ) e A2 (x1 , x2 ) = exp a(ξ)dξ .
x0 x0
Com Z x1 Z x1 Z χ
U (x1 , x2 ) = x2 exp a(ξ)dξ − b(χ) exp a(ξ)dξ dχ
x0 x0 x0
constata-se que
∂U ∂U
A1 (x1 , x2 ) = (x1 , x2 ) e A2 (x1 , x2 ) = (x1 , x2 ) .
∂x1 ∂x2
E. 5.18 Exercı́cio. Obtenha U calculando a integral em (5.35) para alguma curva C conveniente. 6
Pelo que vimos, a solução da equação diferencial satisfaz a equação implı́cita U (x, y(x)) = U 0 ,
sendo U0 uma constante. Para uma condição inicial y(x0 ) = y0 , tem-se U0 = U (x0 , y0 ) = y0 e a
equação implı́cita U (x, y(x)) = y0 fica
Z x Z x Z χ
y(x) exp a(ξ)dξ − b(χ) exp a(ξ)dξ dχ = y0 ,
x0 x0 x0
cuja solução é
Z x Z x Z χ
y(x) = exp − a(ξ)dξ y0 + b(χ) exp a(ξ)dξ dχ ,
x0 x0 x0
que é precisamente a solução dada em (5.22), como facilmente se constata. ◊
• Equações exatas de ordem n
Veremos agora como as idéias de acima podem ser generalizadas para equações de ordem n.
Seja F (x, x0 , x1 , . . . , xn ) uma função de n + 2 variáveis que define uma equação diferencial
ordinária de ordem n:
F x, y(x), y 0 (x), . . . , y (n) (x) = 0 . (5.39)
Essa equação é dita ser exata se existir uma função diferenciável U (x, x 0 , x1 , . . . , xn−1 ) de n + 1
variáveis tal que
F (x, x0 , x1 , . . . , xn ) =
∂U ∂U ∂U
(x, x0 , x1 , . . . , xn−1 ) + x1 (x, x0 , x1 , . . . , xn−1 ) + · · · + xn (x, x0 , x1 , . . . , xn−1 ) ,
∂x ∂x0 ∂xn−1
(5.40)
então a equação (5.39) torna-se
∂U 0 (n−1)

0 ∂U 0 (n−1)

x, y(x), y (x), . . . , y (x) + y (x) x, y(x), y (x), . . . , y (x)
∂x ∂x0
(n) ∂U 0 (n−1)

+···+y (x) x, y(x), y (x), . . . , y (x) = 0 ,
∂xn−1
d
ou seja, U x, y(x), y 0 (x), . . . , y (n−1) (x) = 0 e, portanto, vale
dx

U x, y(x), y 0 (x), . . . , y (n−1) (x) = U0 , (5.41)
onde U0 é uma constante,

fixada pelos n “valores iniciais” y(x0 ), y 0 (x0 ), . . . , y (n−1) (x0 ), para algum
ponto x0 : U0 = U x0 , y(x0 ), y 0 (x0 ), . . . , y (n−1) (x0 ) .
A expressão (5.41) é uma nova equação diferencial para y, mas de ordem no máximo igual a n − 1.
Assim, toda equação exata de ordem n pode ser transformada em uma equação de ordem menor, a
qual poderá eventualmente ser resolvida por algum dos métodos disponı́veis.
Caro é por (5.40) que a equação (5.39) é da forma

A1 x, y(x), y 0 (x), . . . , y (n−1) (x) + A2 x, y(x), y 0 (x), . . . , y (n−1) (x) y (n) (x) = 0 , (5.42)
onde
∂U ∂U
A1 (x, x0 , x1 , . . . , xn−1 ) = (x, x0 , x1 , . . . , xn−1 ) + x1 (x, x0 , x1 , . . . , xn−1 ) (5.43)
∂x ∂x0
∂U
+ · · · + xn−1 (x, x0 , x1 , . . . , xn−1 ) ,
∂xn−2
∂U
A2 (x, x0 , x1 , . . . , xn−1 ) = (x, x0 , x1 , . . . , xn−1 ) . (5.44)
∂xn−1
As expressões (5.42)-(5.44) generalizam (5.33)-(5.36), do caso de equações exatas de ordem n = 1.

Naquele caso sabı́amos que a relação (5.34) é necessária e suficiente (caso D seja simplesmente conexo)
para garantir exatidão, ou seja, a existência de uma função U com as propriedades desejadas. No caso
n > 1, infelizmente não há modo simples de expressar as condições necessárias e suficientes para que
A1 e A2 tenham a forma dada em (5.43) e (5.44), respectivamente.
Exemplo 5.8 Seja V diferenciável e f = −V 0 . A equação diferencial de segunda ordem my 00 (x) −
f (y(x)) = 0 não é exata, mas multiplicando-a por y 0 (x), ficamos com y 0 (x)(my 00 (x) − f (y(x))) = 0, que
pode ser escrita como F (x, y(x), y 0 (x), y 00 (x)) = 0 para F (x, x0 , x1 , x2 ) = x1 (mx2 − f (x0 )) e para
essa F , podemos encontrar uma função U (x, x0 , x1 ) tal que a condição de exatidão (5.40) é satisfeita.
De fato, essa função é U (x, x0 , x1 ) = m2 x21 + V (x0 ) (verifique!). A nova equação (5.41) fica nesse caso
m 0
(y (x))2 + V (y(x)) = U0 = constante.
2
O estudante pode reconhecer nisso a equação
q da conservação da energia em uma dimensão. Pode-
mos então, localmente, escrever y 0 (x) = ± m2 (U0 − V (y(x))), cuja solução, após integração, é obtida
invertendo localmente Z
dy
x = ± q + constante.
2
m
(U0 − V (y))
◊
E. 5.19 Exercı́cio. Use o procedimento descrito acima para resolver a equação do oscilador harmônico
simples my 00 (x) + ky(x) = 0, m > 0, k > 0 6
5.3.8 Soluções das Equações de D’Alembert-Lagrange e Clairaut

Uma equação diferencial de primeira ordem da forma
xA(y 0 (x)) + B(y 0 (x)) − y(x) = 0 , (5.45)
com A e B contı́nuas e diferenciáveis, é denominada equação de D’Alembert 25 ou equação de Lagrange26 .

No caso em que A(z) ≡ z, a equação é conhecida como equação de Clairaut 27 :

xy 0 (x) − y(x) + B(y 0 (x)) = 0 . (5.46)
Diferenciando a equação (5.45) em relação a x, obtem-se

A(y 0 (x)) + xA0 (y 0 (x)) + B 0 (y 0 (x)) y 00 (x) − y 0 (x) = 0 .
Definindo v(x) = y 0 (x), isso diz que

A(v(x)) − v(x) + xA (v(x)) + B (v(x)) v 0 (x) = 0 .
0 0
(5.47)
No que segue apresentaremos soluções das equações de acima, começando com a equação de Clairaut
(5.46) e depois tratando da equação de D’Alembert-Lagrange (5.45).
• Soluções da equação de Clairaut. A solução singular
No caso em que A(z) ≡ z (equação de Clairaut) a equação (5.47) reduz-se a

x + B 0 (v(x)) v 0 (x) = 0 . (5.48)
Há duas formas de satisfazer essa equação: a. impondo v 0 (x) = 0 ou, b. impondo x + B 0 (v(x)) = 0.
a. Impondo-se v 0 (x) = 0, tem-se y(x) = c0 x + c1 , com c0 e c1 constantes. Essas constantes, porém,

não são independentes, pois (5.46) tem que ser satisfeita. Inserindo y(x) = c0 x + c1 em (5.46)
obtem-se c1 = B(c0 ). Assim, uma solução de (5.46) é
y1 (x) ≡ y1 (x, c0 ) = c0 x + B(c0 ) ,
que depende de um parâmetro livre c0 .

25
Jean Le Rond d’Alembert (1717-1783).
26
Joseph-Louis Lagrange (1736-1813).
27
Alexis Claude Clairaut (1713-1765).
b. Aqui impomos x + B 0 (v(x)) = 0, obtendo localmente v(x) = (B 0 )−1 (−x). Lembramos, porém,
que (5.46) impõe uma relação entre y e v: y(x) = xv(x) + B(v(x)). Assim, uma segunda solução
de (5.46) é dada (localmente) por
y2 (x) = x(B 0 )−1 (−x) + B((B 0 )−1 (−x)) .
O fato notável sobre a solução y2 é que a mesma não depende de nenhum parâmetro livre (que pode-
ria ser fixado, eventualmente, por uma condição inicial). Soluções desse tipo são denominadas soluções
singulares28 de equações diferenciais. Tecnicamente, a definição de solução singular é a seguinte. Uma
solução ys de uma equação diferencial ordinária de primeira ordem é dita ser uma solução singular se
for tangente a cada solução geral yg dessa equação, ou seja, se para todo x no domı́nio de definição da
equação houver uma solução geral yg tal que ys (x) = yg (x) e ys0 (x) = yg0 (x).
E. 5.20 Exercı́cio. Mostre que a solução y2 (x) = x(B 0 )−1 (−x) + B((B 0 )−1 (−x)) é tangente às soluções
y1 (x) = c0 x + B(c0 ). Sugestão: use o fato (e prove-o!) que x(B 0 )−1 (−x) + B((B 0 )−1 (−x)) é uma primitiva
de (B 0 )−1 (−x). 6
Geometricamente, uma solução singular pode ser visualizada da seguinte forma. Desenha-se no
plano (x, y) a famı́lia de todas as curvas (x, yg (x)), x ∈ , para todas as soluções gerais yg . A solução

singular corresponde à curva envoltória dessa famı́lia de curvas.

A equação de Clairaut, com sua solução singular, foi resolvida pelo mesmo em 1734.
Uma terceira solução de (5.47) poderia ser obtida procedendo de modo ligeiramente distinto do
que foi feito na segunda solução. Resolvendo localmente em v a equação x + B 0 (v(x)) = 0, obtem-se
v(x) = (B 0 )−1 (−x). Como v(x) = y 0 (x), obtem-se aparentemente uma terceira solução por integração:
y3 (x) = C(x) + c2 , c2 sendo uma constante e C(x) sendo uma primitiva de (B 0 )−1 (−x), ou seja, tal que
C 0 (x) = (B 0 )−1 (−x). Essa solução aparenta ter um parâmetro livre e aparenta ser distinta da solução
y2 , mas isso não é verdade. É preciso ainda impor que y3 satisfaça (5.46), ou seja, devemos impor que
x(B 0 )−1 (−x) − C(x) − c2 + B((B 0 )−1 (−x)) = 0 .

0 −1 0 −1 0 −1
(O leitor
deve observar que x(B ) (−x) + B((B ) (−x)) é também uma primitiva de (B ) (−x),
d
pois dx x(B 0 )−1 (−x) + B((B 0 )−1 (−x)) = (B 0 )−1 (−x) como facilmente se verifica). Daı́, devemos ter
c2 = C(x) − (x(B 0 )−1 (−x) + B((B 0 )−1 (−x))) e, portanto, y3 (x) = x(B 0 )−1 (−x) + B((B 0 )−1 (−x)), que
coincide com a solução y2 .
Exemplo 5.9 Considere a equação de Clairaut
xy 0 (x) − y(x) + (y 0 (x))2 = 0 . (5.49)
Nesse caso, B(z) = z 2 , B 0 (z) = 2z e (B 0 )−1 (w) = w/2. Assim, as duas soluções encontradas acima são
y1 (x) ≡ y1 (x, c0 ) = c0 x + (c0 )2 e y2 (x) = −x2 /4, como facilmente se constata. ◊
28
Trata-se de uma nomenclatura infeliz, pois o a expressão “singular” é usada com vários outros significados na
literatura das equações diferenciais.
E. 5.21 Exercı́cio. Verifique que as soluções y1 (x, c0 ) e y2 (x) dadas no exemplo acima são de fato
soluções de (5.49). Mostre explicitamente que y2 (x) = −x2 /4 é uma solução singular no sentido da
definição dada acima, ou seja, para todo x existe c0 tal que y2 (x) = y1 (x, c0 ) e y20 (x) = y10 (x, c0 ). Desenhe
várias das curvas (x, y1 (x, c0 )), x ∈ , para vários valores de c0 ∈ e visualize a curva envoltória dessa

famı́lia de curvas, a qual corresponderá à curva (x, y 2 (x)), x ∈ , da solução singular.

6
E. 5.22 Exercı́cio. Determine as soluções y1 e y2 da equação de Clairaut

xy 0 (x) − y(x) + (y 0 (x))4 = 0 ,
e resolva as mesmas questões propostas no Exercı́cio E. 5.21. 6
• Soluções da equação de D’Alembert-Lagrange
Daqui por diante suporemos que A(z) 6≡ z. Como veremos, a equação (5.47) pode ser resolvida
com o uso do método dos fatores integrantes para obter uma equação exata e depois resolvê-la como
tal. Assim como (5.45), a equação (5.47) é uma equação de primeira ordem, mas a dependência em v 0
é muito mais simples. Em verdade, identificando
B1 (x, v(x)) = A(v(x)) − v(x) e B2 (x, v(x)) = xA0 (v(x)) + B 0 (v(x)) ,
ou seja, para,
B1 (x1 , x2 ) = A(x2 ) − x2 e B2 (x1 , x2 ) = x1 A0 (x2 ) + B 0 (x2 ) ,
a equação (5.47) tem a forma (5.37). A condição de exatidão (5.34) não é satisfeita (verifique!) e
desejamos saber se um fator integrante pode ser encontrado. É fácil ver que nesse caso

1 ∂B1 ∂B2 1
(x1 , x2 ) − (x1 , x2 ) = =: β(x2 ) ,
B1 (x1 , x2 ) ∂x2 ∂x1 A(x2 ) − x2
uma função apenas da variável x2 . Vale, assim, o caso II da página 273, e o fator integrante é
Z x2
1
ω(x2 ) = exp dξ .
b (A(ξ) − ξ)
Assim, definindo
Z x2
1
A1 (x1 , x2 ) := ω(x2 )B1 (x1 , x2 ) = (A(x2 ) − x2 ) exp dξ
b (A(ξ) − ξ)
Z x2
0 0 1
A2 (x1 , x2 ) := ω(x2 )B2 (x1 , x2 ) = (x1 A (x2 ) + B (x2 )) exp dξ
b (A(ξ) − ξ)
a equação A1 (x, v(x)) + A1 (x, v(x))v 0 (x) = 0, obtida multiplicando (5.47) por ω(v(x)), é exata. É
fácil verificar que nesse caso
Z x2 Z x2 Z χ
1 0 1
U (x1 , x2 ) = x1 (A(x2 ) − x2 ) exp dξ + B (χ) exp dξ dχ .
b (A(ξ) − ξ) b b (A(ξ) − ξ)
(5.50)
E. 5.23 Exercı́cio. Prove isso! 6
Assim, a solução para (5.47) é dada por U (x, v(x)) = c0 , c0 sendo uma constante. Agora, para a
obtenção das soluções desejadas de (5.45) há dois procedimentos:
a. Observa-se que a equação (5.45) pode ser lida como xA(v(x)) + B(v(x)) = y(x), que relaciona v
e y. Ao menos em princı́pio, podemos resolver essa equação para v e obter v(x) = I(x, y(x)).
Inserindo isso em U (x, v(x)) = c0 , obtemos U (x, I(x, y(x))) = c0 . Essa equação pode ser, ao
menos em princı́pio, resolvida em y para fornecer uma solução y1 (x), dependente de um parâmetro
livre c0 .
b. Resolve-se localmente a equação U (x, v(x)) = c0 para v, obtendo-se v(x) = H(x, c0 ) para alguma
função H. Observa-se que a equação (5.45) pode ser lida como y(x) = xA(v(x)) + B(v(x)), que
fornece y se v é dado. Assim, y2 (x) = xA(H(x, c0 )) + B(H(x, c0 )) é uma segunda solução de
(5.45). É de se notar que a solução y2 depende de um parâmetro livre c0 .
Um terceiro procedimento seria resolver localmente a equação R U (x, v(x)) = c 0 para v, obtendo
v(x) = H(x, c0 ) para alguma função H, donde se extrai y3 (x) = H(x, c0 )dx + c1 , c1 sendo uma nova
constante. Para que se tenha uma solução de (5.45) é preciso inserir essa solução naquela equação, o
que implica y3 (x) = xA(H(x, c0 )) + B(H(x, c0 )), mostrando que essa terceira solução é idêntica à y2 .
Exemplo 5.10 A equação diferencial (2x√ + 1)y 0 (x) − y(x) = 0 pode ser facilmente resolvida por in-
tegração, fornecendo a solução y0 (x) = k 2x + 1, k sendo uma constante. Para ilustrar o método
de solução desenvolvido acima, escrevemos essa equação diferencial na forma de uma equação de
D’Alembert-Lagrange:
2xy 0 (x) − y(x) + y 0 (x) = 0 . (5.51)
Aqui temos A(z) = 2z, B(z) = z, B 0 (z) = 1. Para a função U tem-se por (5.50) (tomamos aqui b = 1,
sem perda de generalidade)
Z x2 Z x2 Z χ
1 1
U (x1 , x2 ) = x1 x2 exp dξ + exp dξ dχ
1 ξ 1 1 ξ
Z x2
2 1 1
= x 1 x2 + χ dχ = x1 + x22 − .
1 2 2
q 0
c0
A equação U (x, v(x)) = c0 fica, então, (2x + 1)v(x)2 = c00 (com c00 = 2c0 + 1). Assim, v(x) = ± 2x+1 .
q 0 p
c0
Assim, H(x, c00 ) = ± 2x+1 e a solução y2 fica y2 (x) = ± c00 (2x + 1), que coincide em forma com a
solução y0 .
Para a solução y1 começamos por notar que (5.51) diz-nos que y(x) = (2x + 1)v(x) e, portanto,
v(x) = I(x, y(x)) = p y(x)/(2x + 1). A equação U (x, I(x, y(x))) = c0 fica y(x)2 /(2x + 1) − 1 = c0 , cuja
solução é y1 (x) = ± c00 (2x + 1), também idêntica em forma à solução y0 . O fato de as soluções y1 e y2
coincidirem decorre de (5.51) ser uma equação linear, apresentando apenas uma solução, dependente
de um parâmetro (vide Seção 5.3.1, página 262). ◊
Exemplo 5.11 Considere a equação diferencial

α 0
2xy 0 (x) − y(x) − (y (x))3 = 0 , (5.52)
3
α 6= 0 sendo uma constante. Essa é uma equação de D’Alembert-Lagrange com A(z) = 2z, B(z) =
− α3 z 3 , B 0 (z) = −αz 2 . Para a função U tem-se, por (5.50) (tomamos aqui b = 1, sem perda de
generalidade),
Z x2 Z x2 Z χ
1 2 1
U (x1 , x2 ) = x1 x2 exp dξ − α χ exp dξ dχ
1 ξ 1 1 ξ
Z x2
2 α
= x 1 x2 − α χ3 dχ = x1 x22 − (x42 − 1) .
1 4
A equação U (x, v(x)) = c0 fica v(x)4 − 4x

α
v(x)2 − c00 = 0 (com c00 = − 4cα0 − 1) cujas quatro soluções são
s r
2x x2
v(x) = ± ± + (c00 )2 .
α α2

Por (5.52), y(x) = v(x) 2x − α3 v(x)2 e, assim, obtem-se quatro soluções
r !s r
4x (−α) 4x2 0 2 2x 4x2
y2 (x) = ± ± + (c 0 ) ± + (c00 )2 , (5.53)
3 3 α2 α α2
sendo que os dois últimos sinais ± devem ser escolhidos iguais.

Para obter as soluções y1 é preciso primeiro resolver em v a equação de terceiro grau y(x) =
2xv(x) − α3 v(x)3 . Para soluções de equações de terceiro grau, vide, por exemplo, [118]. ◊
E. 5.24 Exercı́cio. Verifique que (5.53) é, de fato, uma solução de (5.52). 6
5.4 Discussão sobre Problemas de Valor Inicial
• Problemas de valor inicial
Aprendemos na Seção 5.3.1, página 262, que a solução de equações diferenciais ordinárias lineares
de primeira ordem (eq. (5.21)) é dada pela expressão (5.22). É de se notar que esta última expressão
depende da fixação de um valor para a função y em t = 0: y(0). Há outros exemplos simples em
que essa necessidade pode ser vista de modo explı́cito. Considere-se a equação do oscilador harmônico
simples ẍ + ω02 x = 0. A solução geral dessa equação é x(t) = A cos(ω0 t) + B sen (ω0 t), onde A e B
são duas constantes arbitrárias. Para determiná-las é preciso fornecer duas informações extras sobre
a função, por exemplo, sua posição e sua velocidade em um instante de tempo. Se x0 e v0 forem a
posição e velocidade no instante t = 0, então é fácil constatar que A = x 0 e B = v0 /ω0 . Outro par de
informações é também eventualmente possı́vel. Por exemplo, podemos fornecer posição e velocidade
em outro instante de tempo que não t = 0, ou em dois instantes de tempo distintos, um para a posição,
outro para a velocidade. Em muitos casos é possı́vel fixar a solução desejada informando apenas a
posição em dois instantes de tempo distintos ou as velocidades em dois instantes de tempo distintos.
De modo geral, para a determinação completa da solução de uma equação diferencial ordinária
de ordem n é preciso fornecer n informações sobre o valor da função e/ou suas derivadas em certos
instantes29 .
O tipo de situação mais comum para a determinação completa da solução de uma equação diferencial
ordinária de ordem n, especialmente em problemas da Mecânica, é aquele na qual são fornecidas
informações sobre a função e suas n − 1 primeiras derivadas em um único instante de tempo, digamos
t = 0. Tais problemas são conhecidos como problemas de valor inicial, ou problemas de Cauchy 30 .
O exemplo do oscilador harmônico acima é um tı́pico problema de valor inicial: qual é a função que
satisfaz a equação diferencial ẍ + ω02 x = 0 e satisfaz x(0) = x0 e v(0) = v0 , para certos números x0 e v0
dados? Resposta: x(t) = x0 cos(ω0 t) + (v0 /ω0 ) sen (ω0 t).
Assim, o problema de valor inicial associado à equação de ordem n
y (n) (t) = F (t, y(t), . . . , y (n−1) (t)) .
consiste em determinar a solução dessa equação que satisfaça
y(0) = y1 , ẏ(0) = y2 , ÿ(0) = y3 , . . . , y (n−1) (0) = yn ,
para certos números dados y1 , . . . , yn , os quais são denominados condições iniciais ou dados iniciais.
Após definirmos o que se entende por problema de valor inicial, uma série de questões se coloca.
1. Todo problema de valor inicial tem solução? 2. Se tiver, é única? 3. Há condições suficientes para
garantir que uma solução exista? 4. E para que seja única? 5. E se existir solução, será ela válida
para todo t? 6. Há condições suficientes para garantir que uma solução exista para todo t? 7. Há
condições suficientes para garantir continuidade da solução em relação às condições iniciais? 8. Há
condições suficientes para garantir continuidade da solução em relação aos parâmetros que ocorrem na
equação?
Por várias razões as questões acima são muito importantes. Naturalmente, a melhor maneira de
mostrar que um problema de valor inicial tem solução é exibindo a solução. Isso, porém, nem sempre
é factı́vel, pois muitas equações são difı́ceis, ou mesmo impossı́veis, de se resolver de modo explı́cito.
Por exemplo, a equação do pêndulo simples θ̈ + gl sen (θ) = 0 tem solução para quaisquer condições
iniciais, mas essa solução não pode ser apresentada de forma fechada em termos de funções elementares
conhecidas, apenas em termos de expansões ou das chamadas funções elı́pticas. Vide, por exemplo,
[76]. (Para um tratamento da equação do pêndulo em termos de equações integrais, vide Seção 14.2,
página 787, destas Notas). Daı́ a importância da questão 3: é muitas vezes necessário saber a priori
se uma solução existe antes de tentar encontrá-la.
Saber a priori se um problema de valor inicial tem solução e se essa solução é única pode ser
importante para justificar métodos de solução. Muitas vezes, ao encontrarmos a solução de um problema
29
Uma exceção notável é a equação de Clairaut, discutida na Seção 5.3.8, página 276, que possui uma solução, dita
solução singular, não depende de nenhum parâmetro livre.
30
de valor inicial perguntamo-nos se a solução encontrada é única. Por exemplo, pode-se facilmente
constatar que as funções x(t) = x0 cos(ω0 t) + (v0 /ω0 ) sen (ω0 t) são soluções da equação do oscilador
harmônico simples ẍ + ω02 x = 0 com as condições iniciais x(0) = x0 e v(0) = v0 . O que, porém, garante
que não há outras funções que também sejam solução dessa equação para essas condições iniciais? Nisso
reside a importância da questão 4: em se sabendo a priori que a solução é única (esse é o caso para a
equação do oscilador harmônico simples) não é necessário procurar outras soluções.
Equações diferenciais de interesse em Fı́sica tipicamente dependem de certos parâmetros. Por
exemplo, a equação do oscilador harmônico simples, acima, depende do parâmetro ω 0 , a equação do
pêndulo simples depende de g/l. Saber se a dependência de uma solução depende continuamente
de condições iniciais ou de parâmetros é importante em aplicações, por exemplo em Fı́sica, pois em
problemas reais tais dados são freqüentemente fornecidos com imprecisões e é, portanto, importante
poder garantir que erros pequenos no conhecimento dessas grandezas têm efeitos igualmente pequenos
nas soluções (ao menos para tempos não muito afastados do instante inicial).
Comecemos por dizer que a resposta às questões 1 e 2 é negativa. Veremos exemplos logo adiante.
Uma resposta às questões 3 e 4 será apresentada na forma de dois teoremas importantes, o de Peano
(Teorema 5.1, página 286), que fornece condições suficientes para garantir existência de soluções, e o
de Picard-Lindelöf (Teorema 5.2, página 287. Vide também sua generalização para espaços de Banach,
Teorema 14.3, página 796), que fornece condições suficientes para garantir existência e unicidade de
soluções. Mostraremos em exemplos que a resposta à questão 5 é também negativa. Uma resposta
parcial à questão 6 (que é chamado de problema da existência de soluções globais) será discutida na
Seção 5.4.3, página 288, e as demonstrações dos resultados lá apresentados encontram-se na Seção
14.3.2, página 800. As questões 7 e 8 são discutidas à página 290 e, com mais detalhe, na Seção 14.3.3,
página 801. Vide Teorema 14.6, página 802, sua demonstração e os comentários que se lhe seguem.
Referências para várias dessas questões são [1], [37], [21], [10] e [60].
• Problemas bem-postos
Um comentário sobre nomenclatura. Na literatura sobre a teoria das equações diferenciais (or-
dinárias ou parciais), um problema no qual se possa garantir existência, unicidade e continuidade de
soluções em relação a condições iniciais e de contorno (estabilidade) é dito ser um problema bem-posto.
• Outros problemas que não de valor inicial
Como já mencionamos acima, há outros problemas que não o de valor inicial. Pode-se querer fixar
a função em dois pontos, por exemplo. Problemas desse tipo são muito comuns em equações ordinárias
obtidas pelo método de separação de variáveis em problemas de equações diferenciais parciais com
certas condições de contorno. Trataremos abundantemente desse tipo de problema quando discutirmos
o Problema de Sturm-Liouville no Capı́tulo 9, página 521.
Outros problemas envolvem outros tipos de exigência sobre a solução. Por exemplo, que ela seja
finita em certos pontos, ou de quadrado integrável. Esse último caso é comummente encontrado na
Mecânica Quântica.
5.4.1 Problemas de Valor Inicial. Patologias e Exemplos a se Ter em

Mente
Nesta seção listaremos alguns exemplos instrutivos de problemas de valor inicial que exibem compor-
tamento patológico, como inexistência ou não unicidade de solução ou inexistência de solução global,
ou seja, inexistência de solução válida em toda a reta real. É instrutivo ter alguns desses exemplos em
mente. Na Seção 5.4.2, página 286, e na Seção 5.4.3, página 288, apresentaremos condições suficientes
para evitar essas patologias.
• Inexistência de solução
Exemplo 5.12 (Inexistência de solução) Considere-se o problema de valor inicial no qual procura-se
a solução da equação
1
ẏ(t) =
t
que satisfaça a condição inicial y(0) = 0. Esse problema não possui nenhuma solução. ◊
1
ẏ(t) = −
y(t)
que satisfaça a condição inicial y(0) = 0. Esse problema não possui nenhuma solução que seja real para
t > 0. ◊
a solução da equação p
ẏ(t) = 1 − y(t)2
que satisfaça a condição inicial y(0) = 2. Esse problema não possui nenhuma solução real. ◊
Exemplo 5.15 (Inexistência de solução) (De [63]) Considere-se o problema de valor inicial no qual
procura-se a solução da equação
ẏ(t) = H(y(t)) ,
onde
1, y < 0
H(y) := ,
−1, y ≥ 0
com a condição inicial y(0) = 0. Esse problema não possui nenhuma solução. Para entender por que,
observe que se y(0) = 0 então, pela equação diferencial, y 0 (0) = −1, o que implica y(t) é decrescente
para t próximo de 0, tornando-se negativa para t positivo próximo de 0. Mas para y negativo ẏ(t) vale
1 e y é crescente, uma contradição. ◊
ẏ(t) = 2(y(t))3/2
que satisfaça a condição inicial y(0) = 1. Esse problema não possui nenhuma solução real. ◊
• Não-unicidade de soluções
Exemplo 5.17 (Não-unicidade de soluções) Considere-se o problema de valor inicial no qual procura-
se a solução da equação
ẏ(t) = 3(y(t))2/3
que satisfaça a condição inicial y(0) = 0. Esse problema não tem solução única. Por exemplo, as
funções
y1 (t) ≡ 0 e y2 (t) = t3
ambas satisfazem a equação diferencial e y1 (0) = y2 (0) = 0. ◊
O Exemplo 5.17, acima, foi encontrado por Peano em 1890. Há várias outras soluções, como vemos
na seguinte generalização.
Exemplo 5.18 (Não-unicidade de soluções) Seja 0 < β < 1. Considere-se o problema de valor inicial
no qual procura-se a solução da equação
1
ẏ(t) = |y(t)|β
1−β
que satisfaça a condição inicial y(0) = 0. Esse problema não tem solução única: a função y(t) ≡ 0,
∀t ∈ , assim como, para todos c1 ≤ 0, c2 ≥ 0, as funções

 1

 −(c1 − t) 1−β , t ≤ c1




yc1 , c2 (t) = 0, c1 < t < c 2 , (5.54)





 (t − c ) 1−β
1
2 , t ≥ c2
 1 
 −(c1 − t) 1−β , t ≤ c1  0, t < c2
yc1 (t) = , yc2 (t) = (5.55)
  1
0, t > c1 (t − c2 ) 1−β , t ≥ c2
satisfazem a equação diferencial e anulam-se em t = 0. ◊
E. 5.31 Exercı́cio. Verifique! Desenhe gráficos de várias funções y c1 , c2 (t), yc1 (t) e yc2 (t) para vários
valores de c1 ≤ 0, c2 ≥ 0. 6
• Inexistência de soluções globais
Exemplo 5.19 (Solução que só existe em um intervalo finito) A equação diferencial é aquela apre-
sentada no Exemplo 5.15, acima, com condição inicial y(0) = y0 > 0. Para −∞ < t < y0 a solução é
y(t) = y0 − t mas para t ≥ y0 surge a contradição discutida no Exemplo 5.15 e a equação diferencial
não mais possui solução. ◊
Exemplo 5.20 (Solução que diverge em tempo finito) Considere-se o problema de valor inicial no qual
procura-se a solução real da equação
ẏ(t) = y(t)2 ,
t∈ , que satisfaça a condição inicial y(0) = y0 ∈ , y0 6= 0. A solução é
1
y(t) = 1 (5.56)
y0
−t
a qual diverge para t = 1/y0 . ◊
Exemplo 5.21 (Solução que diverge em tempo finito) Considere-se a equação diferencial
ẏ(t) = 1 + y(t)2 ,
t ∈ . Sua solução é y(t) = tan(t + k), onde k é fixada por uma condição inicial. Se, por exemplo,

tomarmos y(0) = y0 , então k = arctan(y0 ). Essa solução, porém, existe apenas no intervalo aberto
(−k − π2 , −k + π2 ), pois tan(t + k) diverge nos extremos. ◊
Exemplo 5.22 (Solução que diverge em tempo finito) Considere-se uma partı́cula de massa m que se
move em uma dimensão sob a ação de um potencial repulsivo U (x) = − k4 x4 , com k > 0, com condição
inicial x(0) = 0, ẋ(0) = v0 > 0. Sua equação de movimento (a segunda lei de Newton) é
ẍ(t) − k 0 x(t)3 = 0 ,
onde k 0 = k/m. Qual o tempo que essa partı́cula leva para, partindo de x(0) = 0, chegar ao infinito?
A resposta é Z ∞
dx
T0→∞ = q ,
2 k 4
0
m
E + 4x
mv02
onde E = 2
> 0 é a energia mecânica da partı́cula. ◊
E. 5.32 Exercı́cio. Justifique a expressão dada acima para T 0→∞ . 6
Para E > 0 a integral acima é finita (Justifique!). Logo, a partı́cula leva um tempo finito para chegar
ao infinito, ou seja, x(t) diverge em tempo finito. Isso mostra que a solução da equação diferencial
ẍ(t) − k 0 x(t)3 = 0, com k 0 > 0 e v0 > 0, existe apenas em um intervalo finito de valores de t.
E. 5.33 Exercı́cio. Mostre que o mesmo se passa com as equações diferenciais ẍ(t) − k 0 x(t)d = 0, para
todo d > 1, desde que k 0 > 0. O que acontece se k 0 < 0? O que acontece se k 0 > 0 mas d ≥ 1? 6
5.4.2 Teoremas de Existência e Unicidade de Soluções

Os vários exemplos dados acima não devem causar uma impressão negativa sobre problemas de valor
inicial pois, em verdade, os mesmos refletem patologias nem sempre encontradas na “prática” (entenda-
se, na Fı́sica). No caso da Mecânica, por exemplo, assim como em outras áreas da Fı́sica, pode-se
garantir existência e unicidade de solução da “maioria” dos problemas de valor inicial. Os exemplos
de acima advertem-nos, porém, da necessidade de alguns teoremas gerais que forneçam pelo menos
condições suficientes para garantir existência e/ou unicidade de problemas de valor inicial. Na teoria
das equações diferenciais ordinárias os mais importantes desses teoremas são os de Peano 31 e de Picard32 -
Lindelöf33 , os quais enunciaremos agora.
Teorema 5.1 Teorema de Peano (Existência de Soluções). Seja a equação diferencial ordinária
real de primeira ordem
ẏ(t) = F (t, y(t)) (5.57)
(F sendo não-identicamente nula) com a condição inicial
y(t0 ) = y0 . (5.58)
2
com y0 ∈ . Seja F : → contı́nua no retângulo fechado
R = { (t, y) : |t − t0 | ≤ a, |y − y0 | ≤ b } , (5.59)
com a, b > 0, sendo, portanto, limitada em R. Seja
M := max |F (t, y)| . (5.60)

(t, y)∈R
Então, o problema de valor inicial descrito pelas relações (5.57) e (5.58) apresenta pelo menos uma
solução. Além disso, essa solução existe pelo menos no intervalo fechado [t 0 − β, t0 + β], onde

b
β := min a, . (5.61)
M
2
Em essência, o que esse teorema afirma é que se pode garantir a existência de soluções do problema
de valor inicial descrito pelas relações (5.57) e (5.58) se pelo menos a função F for contı́nua em um
retângulo centrado na condição inicial.
31
Giuseppe Peano (1858-1932). O Teorema de Peano data de 1886.
32
Charles Émile Picard (1856-1941).
33
Ernst Leonard Lindelöf (1870-1946). Seus trabalhos sobre existência e unicidade de soluções de equações diferenciais
ordinárias datam de 1890.
A prova desse teorema, que é baseada no importante teorema de Ascoli-Arzelà, não será apresentada
aqui e remetemos os estudantes aos bons livros (por exemplo, [37], [1], [21], [10] ou [60]).
O estudante pode (deve) verificar que os Exemplos 5.12 a 5.16, página 283, não satisfazem as
condições do Teorema de Peano, daı́ não haver solução naqueles casos.
O teorema de Peano garante condições suficientes para existência, mas não unicidade de solução. O
estudante também pode (deve) verificar que os Exemplos 5.17 e 5.18, página 284 acima, satisfazem as
condições do teorema de Peano, mas para eles não vale a unicidade. É preciso requerer mais da função
F para ter-se unicidade da solução. Isso é obtido com o próximo teorema.
Teorema 5.2 Teorema de Picard-Lindelöf (Existência e Unicidade de Soluções). Seja a
equação diferencial ordinária real de primeira ordem
ẏ(t) = F (t, y(t)) (5.62)
2
(F : → sendo não-identicamente nula) com a condição inicial
y(t0 ) = y0 , (5.63)
2
com y0 ∈ . Seja F : → contı́nua no retângulo fechado
R = { (t, y) : |t − t0 | ≤ a, |y − y0 | ≤ b } , (5.64)
com a, b > 0, sendo, portanto, limitada em R. Seja
M := max |F (t, y)| . (5.65)
(t, y)∈R
Suponha ainda que F seja Lipschitz contı́nua em R com relação ao seu segundo argumento, ou seja,
existe uma constante k (denominada constante de Lipschitz) tal que para todos (t, y), (t, v) ∈ R valha
|F (t, y) − F (t, v)| ≤ k |y − v| . (5.66)
Então, o problema de valor inicial descrito pelas relações (5.62) e (5.63) apresenta uma única solução.
Além disso, essa solução existe pelo menos no intervalo fechado [t 0 − β, t0 + β], onde

b
β := min a, . (5.67)
M
Uma condição suficiente para que a condição de Lipschitz acima se cumpra é que ∂ y f (t, y) exista e
seja limitada em todo R , em cujo caso a constante de Lipschitz seria dada por k := sup |∂y f (t, y)|.
(t, y)∈R
2
A prova do Teorema de Picard-Lindelöf será apresentada com bastante generalidade no Capı́tulo

14, página 779. Vide Teorema 14.3, página 796.
É importante notar que a condição de F ser Lipschitz34 contı́nua em R com relação ao seu segundo
argumento pode ser obtida de uma condição mais forte, a saber, que a derivada parcial ∂ y F (t, y) de
F em relação ao segundo argumento seja contı́nua em R. De fato, da relação
Z v
F (t, v) − F (t, u) = ∂y F (t, y) dy ,
u
34
Rudolf Otto Sigismund Lipschitz (1832-1903).

segue facilmente que F (t, v) − F (t, u) ≤ k|v − u|, onde k := max |∂y F (t, y)|, que é uma constante
(t, y)∈R
finita se ∂y F (t, y) for contı́nua em R. Assim, em essência, o que o Teorema de Picard-Lindelöf afirma
é que se pode garantir a existência e a unicidade de soluções do problema de valor inicial descrito pelas
relações (5.62) e (5.63) se pelo menos a função F e sua derivada parcial ∂ y F (t, y) forem contı́nuas em
um retângulo centrado na condição inicial.
Como comentário final, afirmamos que os teoremas de Peano e Picard-Lindelöf podem ser facilmente
estendidos para sistemas de equações diferenciais de primeira ordem (em verdade, o Teorema 14.3,
página 796, já é enunciado com essa generalidade). Como toda equação diferencial de ordem n é
equivalente a um tal sistema, essas generalizações garantem condições suficientes para existência ou
unicidade de solução de equações diferenciais ordinárias de qualquer ordem.
No caso de equações diferenciais parciais não existem teoremas tão fortes relativos à existência
e unicidade de problemas de valor inicial como há no caso de equações diferenciais ordinárias. Um
dos resultados mais importantes nessa direção, porém, é o Teorema de Cauchy-Kovalevskaya 35 . Seu
enunciado e sua demonstração podem ser encontrados, por exemplo, em [25, 26].
5.4.3 Soluções Globais

Vimos nos Exemplos 5.19 a 5.22 (página 285) que há equações diferencias cujas soluções, ainda que
existam e sejam eventualmente únicas, não são globais, ou seja, não podem ser definidas em toda
reta real. A questão que naturalmente se coloca é a de encontrar condições suficientes para garantir
a existência de soluções globais. Essa é uma vasta questão e nos limitaremos aqui a apresentar o
resultado mais simples, o Teorema 5.3, abaixo. Igualmente importante é a questão de se demonstrar
que uma determinada equação diferencial não possui soluções globais (se tal puder ser o caso). Um dos
principais resultados da Teoria da Relatividade Geral e da Cosmologia, a existência do chamado “big
bang” em uma classe bastante grande de modelos para o universo, foi tratado como um problema de
não-existência de soluções globais de determinadas equações diferenciais. Vide [54].
O seguinte teorema, cuja demonstração é apresentada com mais generalidade na Seção 14.3.2, página
800, apresenta condições suficientes para a existência de soluções globais.
Teorema 5.3 (Existência e unicidade de soluções globais) Seja F : 2 → contı́nua em todo
2
. Suponhamos também que para todo a > 0, a função F seja Lipschitz contı́nua em relação ao seu
segundo argumento na faixa

Fa, t0 = (t, y) ∈ 2 : |t − t0 | ≤ a , y ∈ arbitrário ,

ou seja, para cada a > 0 existe uma constante ka (eventualmente dependente de a e denominada
constante de Lipschitz) tal que para todos (t, y), (t, v) ∈ Fa, t0 vale |F (t, y) − F (t, v)| ≤ ka |y − v|.
Então, para qualquer x0 ∈ , o problema de valor inicial ẋ(t) = F (t, x(t)) com x(t0 ) = x0 apresenta

uma solução única válida para todo t ∈ .
Uma condição suficiente para que a condição de Lipschitz acima se cumpra é que ∂ y F (t, y) exista
em todo 2 e seja limitada em cada faixa Fa, t0 , em cujo caso as constantes de Lipschitz podem ser

escolhidas como ka := sup |∂y F (t, y)|. 2

(t, y)∈Fa, t0
35
Sofia Vasilyevna Kovalevskaya (1850-1891).
E. 5.34 Exercı́cio. Mostre que a equação diferencial não-linear ẋ = cos(x) satisfaz as condições do
Teorema 5.3 e, portanto, possui soluções globais. Mostre explicitamente, por integração, que as soluções
são dadas por x(t) = arctan ( senh (t + c)), onde c é uma constante a ser fixada pela condição inicial. Por
essa expressão explı́cita contata-se claramente que as soluções existem para todo t ∈ . 6
E. 5.35 Exercı́cio(de [20]). Mostre que a equação diferencial não-linear
x3 e t
ẋ = + t2 cos(x)
1 + x2
satisfaz as condições do Teorema 5.3. Sugestão: mostre que para esse caso

∂F (y 4 + 3y 2 ) t ∂F
(t, y) = e − t2 sen (y) e, portanto, em cada faixa Fa, t0 , (t, y) ≤ 3ea + a2 ,
∂y 2
(1 + y ) ∂y
e podemos adotar ka = 3ea + a2 para cada a > 0. 6
E. 5.36 Exercı́cio. A equação diferencial não-linear ẋ = x 2 não satisfaz as condições do Teorema 5.3,
pois a condição de Lipschitz requerida não é satisfeita em nenhuma faixa F a, t0 . Mostre isso. Com efeito,
vimos no Exemplo 5.20, da página 285 que essa equação não possui soluções globais. Vide também os
comentários da página 290 sobre esse problema. 6
E. 5.37 Exercı́cio. Faça o mesmo para o Exemplo 5.21, página 285. 6
• Comentários sobre soluções globais. O Exemplo 5.17
Analisemos agora o Exemplo 5.17, página 284 sob a luz dos Teoremas de Peano e de Picard-Lindelöf.
Aqui, F (t, y) = 3y 2/3 , t0 = 0, y0 = 0. Tomando-se um retângulo fechado centrado em (t0 , y0 ) = (0, 0),
ou seja, R = { (t, y) : |t| ≤ a, |y| ≤ b }, constata-se elementarmente que F é contı́nua e que
M := max |F (t, y)| = max 3y 2/3 = 3b2/3 .

(t, y)∈R y∈[−b, b]
Assim, o Teorema de Peano n garante o a existência de solução para o intervalo fechado [−β, β], onde
b
b1/3
β := min a, M = min a, 3 (vide (5.61)). Os valores de a e de b podem ser escolhidos arbitra-
riamente grandes, sem violar a condição de continuidade de F . Conclui-se disso que podemos tomar β
arbitrariamente grande. Assim, nesse particular exemplo, o Teorema de Peano garante-nos a existência
de uma solução global, para todo t. Isso condiz com a observação que a solução identicamente nula,
bem como as soluções (5.54) e (5.55) existem para todo t.
Por fim, é fácil verificar que a função F (t, y) = 3y 2/3 não satisfaz a condição de Lipschitz |F (t, y) −
F (t, v)| ≤ k|y − v| para nenhum k em nenhum retângulo centrado em (0, 0). Para isso observe que
se tomássemos v = 0 e y ≥ 0, a condição de Lipschitz diria que 3y 2/3 ≤ ky, ou seja, 3y −1/3 ≤ k. Mas
uma tal desigualdade é impossı́vel, pois para y → 0 o lado esquerdo diverge!
Isso justifica por que não se pode aplicar Picard-Lindelöf nesse caso (e a solução, de fato, não é
única).
• Comentários sobre soluções globais. O Exemplo 5.20
O fato de o Teorema de Peano em princı́pio garantir apenas uma região conservadora de validade
de solução, a saber o intervalo [t0 − β, t0 + β], onde β é dado pela expressão (5.61), não está em
desacordo com os exemplos: há sistemas satisfazendo as condições do Teorema de Peano para os quais
não há soluções globais, ou seja, soluções que existem para todo t ∈ . O Exemplo 5.20, página

285, é um tal caso. Vamos reanalisá-lo sob a luz dos Teoremas de Peano e Picard-Lindelöf, estudando
particularmente o que o Teorema de Peano nos diz sobre a região de existência de solução.
É bastante claro que no Exemplo 5.20 tem-se F (t, y) = y 2 , e t0 = 0 com y0 > 0. Tomando-se
um retângulo fechado centrado em (t0 , y0 ) = (0, y0 ), ou seja, R = { (t, y) : |t| ≤ a , |y − y0 | ≤ b },
constata-se elementarmente que F é contı́nua e que
M := max |F (t, y)| = max y 2 = (y0 + b)2 .

(t, y)∈R y∈[y0 −b, y0 +b]
O Teorema de Peano n garante ao existência de solução para o intervalo fechado [−β, β], onde β :=
b
b
min a, M = min a, (y0 +b) 2 . O valor de a pode ser escolhido arbitrariamente grande, sem alterar
o valor de M e sem violar a condição de continuidade de F . Conclui-se disso que podemos tomar
b
β = .
(y0 + b)2
Para qual escolha de b a constante β assume seu maior valor? É um exercı́cio fácil (faça-o!) mostrar
que o lado direito da última expressão assume seu máximo em b = y0 , em cujo caso
1
β = .
4y0
Assim, o Teorema de Peano garante existência de solução no intervalo [− 4y10 , 4y10 ]. Sabemos, porém
que a solução (5.56) existe em um intervalo maior (e que contenha t = t0 = 0), a saber (−∞, y10 ).
O que se aprende disso é que o intervalo de solução obtido pela estimativa (5.61) nem sempre é
maximal, mas nem por isso contradiz-se o fato de nesse caso não haver solução válida para todo t.
Para sabermos se a solução é única, devemos estudar as condições do Teorema de Picard-Lindelöf.
Sabemos que F (t, y) − F (t, v) = y 2 − v 2 = (y + v)(y − v) . Logo, |F (t, y) − F (t, v)| = |y + v| |y − v|
e, para y e v no intervalo [y0 − b, y0 + b], tem-se |y + v| ≤ 2(y0 + b). Assim, adotando-se k = 2(y0 + b),
vale a condição de Lipschitz
|F (t, y) − F (t, v)| ≤ k|y − v|
para todos (t, y), (t, v) ∈ R. Assim, a solução do problema do Exemplo 5.20 será única para quaisquer
a e b que se tome.
5.4.4 Dependência Contı́nua de Condições Iniciais e de Parâmetros

Conforme mencionamos na página 281, é importante determinarmos condições sob as quais a solução
de um problema de valor inicial é contı́nua em relação às condições iniciais e a parâmetros que ocorram
na equação diferencial. Essas questões são respondidas com bastante generalidade e detalhe na Seção
14.3.3, página 801. Vide Teorema 14.6, página 802, sua demonstração e comentários que se lhe seguem.
Os resultados encontram-se resumidos nos dois teoremas abaixo, os quais valem também para sistemas
de equações diferenciais ordinárias.
Teorema 5.4 Seja a equação diferencial ordinária real de primeira ordem ẏ(t) = F (t, y(t)) (F :
2
→ sendo não-identicamente nula) com a condição inicial y(t0 ) = y0 , com y0 ∈ e suponhamos

que sejam satisfeitas as condições descritas no Teorema 5.2, página 287, de modo que se garanta a
existência de uma solução única y(t, y0 ) do problema de valor inicial em um intervalo [t0 − β, t0 + β].
Então, existe uma vizinhança J de y0 ∈ onde a solução y(t, y0 ) depende continuamente de y0 . Mais

precisamente, existe uma constante κ > 0 e uma vizinhança T de t0 contida em [t0 − β, t0 + β] tal que
vale |y(t, y0 ) − y(t, y00 )| ≤ κ|y0 − y00 |eκ|t−t0 | para todo y00 ∈ J e todo t ∈ T . 2
Teorema 5.5 Seja a equação diferencial ordinária real de primeira ordem e dependente de um parâmetro
p: ẏ(t) = F (t, y(t), p) (F : 2 → sendo não-identicamente nula) com a condição inicial y(t0 ) = y0 ,

com y0 ∈ e suponhamos que sejam satisfeitas as condições descritas no Teorema 5.2, página 287,
de modo que se garanta a existência de uma solução única y(t, p) do problema de valor inicial em um
intervalo [t0 − β, t0 + β]. Suponhamos também que F seja contı́nua e continuamente diferenciável em
relação a p em alguma vizinhança. Então, y(t, p) depende continuamente de p nessa vizinhança. 2
Capı́tulo 6
Sistemas de Equações Diferenciais Lineares
Conteúdo
6.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 293

6.2 Unicidade e Existência de Soluções . . . . . . . . . . . . . . . . . . . . . . . 293
6.2.1 Unicidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 293
6.2.2 Existência. A Série de Dyson . . . . . . . . . . . . . . . . . . . . . . . . . . . 297
6.2.3 Propriedades de D(s, t) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 301
6.3 Equações com Coeficientes Constantes . . . . . . . . . . . . . . . . . . . . . 305
6.3.1 Alguns Exemplos e Aplicações . . . . . . . . . . . . . . . . . . . . . . . . . . 307
6.4 Teoria de Perturbações de Sistemas Lineares . . . . . . . . . . . . . . . . . 311
6.5 Mais sobre a Série de Dyson. Produtos de Tempo Ordenado . . . . . . . 315
6.6 Sistemas de Equações Diferenciais Lineares no Plano Complexo . . . . . 318
6.6.1 O Caso Analı́tico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 319
6.6.2 Resolução por Séries de Potências . . . . . . . . . . . . . . . . . . . . . . . . 325
6.6.3 Sistemas com Pontos Singulares. Monodromia . . . . . . . . . . . . . . . . . 326
6.6.4 Sistemas com Pontos Singulares Simples . . . . . . . . . . . . . . . . . . . . . 337
6.7 Sistemas Provenientes de EDO’s de Ordem m . . . . . . . . . . . . . . . . 341
6.7.1 Pontos Singulares Simples em EDO’s de Ordem m . . . . . . . . . . . . . . . 342
6.7.2 Singularidades no Infinito . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 346
6.7.3 Alguns Exemplos de Interesse . . . . . . . . . . . . . . . . . . . . . . . . . . . 348
remos neste capı́tulo estudar sistemas de equações diferenciais lineares ordinárias, com par-
ticular atenção a sistemas de equações diferenciais lineares associados a equações diferenciais
lineares de ordem n. Demonstraremos alguns teoremas básicos e apresentaremos métodos de
solução, com particular destaque para a série de Dyson. Alguns exemplos de interesse fı́sico
serão discutidos com certo detalhe. Inicialmente trataremos sistemas dependentes de uma variável real
e mais adiante generalizaremos nossos resultados para sistemas dependentes de uma variável complexa.
Tal generalização é particularmente importante para o tratamento de sistemas de equações diferenciais
provenientes de equações diferenciais ordinárias linerares de ordem n, já que métodos de resolução de
tais equações, como o método de Frobenius, estão intimamente relacionados a propriedades analı́ticas
dos coeficientes da equação. O presente capı́tulo será continuado no Capı́tulo 7, onde discutiremos a
solução de equações diferenciais ordinárias linerares de ordem 2 utilizando o método de expansões em
série, e utilizando o método de Frobenius. Em seguida, no Capı́tulo 8, estudaremos propriedades de
algumas das soluções de maior interesse em Fı́sica.
292
6.1 Introdução
Seja t uma variável real, A(t) uma matriz m × m cujos elementos Aij (t), i, j = 1, . . . , m, são funções
contı́nuas (reais ou complexas) dadas de t e seja F (t) um vetor coluna
 
f1 (t)
 
F (t) =  ... 
fm (t)
onde fi (t), i = 1, . . . , m são igualmente funções contı́nuas (reais ou complexas) dadas de t.

Se Y (t) é um vetor coluna  
y1 (t)
 
Y (t) =  ... 
ym (t)
a equação diferencial
Ẏ (t) = A(t)Y (t) + F (t) (6.1)
é denominada um sistema linear de equações diferenciais de primeira ordem, cujas incógnitas são as m
funções y1 (t), . . . , ym (t).
Caso F for identicamente nula o sistema é dito ser homogêneo e, caso contrário, não-homogêneo.
Estaremos aqui interessados em estudar esses sistemas de equações diferenciais quando uma condição
inicial é fornecida, ou seja, quando o valor de Y (t) em um ponto t0 é especificado, tipicamente o valor
de Y (t) em t = 0: Y (0) = Y0 , com  
y10
 .. 
Y0 =  .  ,
0
ym
y10 , . . . ym
0
sendo constantes (reais ou complexas).
6.2 Unicidade e Existência de Soluções
6.2.1 Unicidade
Iremos mais adiante mostrar que, sob as hipóteses acima, o sistema (6.1), submetido a uma condição
inicial Y (0) = Y0 , sempre possui solução. Iremos em verdade exibir um método aproximativo para o
cálculo da solução.
Para preparar essa discussão devemos primeiramente demonstrar a unicidade da solução, ou seja,
precisamos mostrar que se houver uma função Y (t) satisfazendo Ẏ (t) = A(t)Y (t) + F (t) e Y (0) = Y0 ,
então não há outra função distinta de Y com essas propriedades. O fato de a solução ser única será de
importância quando discutirmos um método para calcular a solução.
Vamos considerar primeiro o caso mais simples onde a equação é homogênea Ẏ (t) = A(t)Y (t) e a
condição inicial é Y (0) = 0. Partiremos desse caso mais simples para poder tratar melhor depois o caso
geral. Integrando-se ambos os lados da igualdade Ẏ (t) = A(t)Y (t) entre 0 e t e usando que Y (0) = 0,
tem-se Z t
Y (t) = A(t1 )Y (t1 ) dt1 . (6.2)
0
Essa relação é uma identidade a ser satisfeita pela função Y (t) que eventualmente é solução da equação
Ẏ (t) = A(t)Y (t) com a condição inicial Y (0) = 0. Observemos que a função Y aparece no lado esquerdo
e também dentro da integral. Como a identidade acima vale para todo t, tem-se também que
Z t1
Y (t1 ) = A(t2 )Y (t2 ) dt2 .
0
Inserindo-se isso na penúltima identidade, tem-se

Z t Z t1
Y (t) = A(t1 ) A(t2 )Y (t2 ) dt2 dt1 ,
0 0
ou seja, Z tZ t1
Y (t) = A(t1 )A(t2 ) Y (t2 ) dt2 dt1 .
0 0
Repetindo-se esse procedimento n vezes chega-se à seguinte identidade:
Z t Z t1 Z tn−1
Y (t) = ··· A(t1 )A(t2 ) · · · A(tn ) Y (tn ) dtn dtn−1 · · · dt1 . (6.3)
0 0 0
Lembrando que Y (t) é um vetor cujas componentes são funções yi (t) essa última identidade significa
para a a-ésima componente
m Z t Z t1
X Z tn−1
ya (t) = ··· (A(t1 )A(t2 ) · · · A(tn ))ab yb (tn ) dtn dtn−1 · · · dt1 . (6.4)
b=1 0 0 0
Acima, (A(t1 )A(t2 ) · · · A(tn ))ab é o elemento ab da matriz A(t1 )A(t2 ) · · · A(tn ), formada pelo produto
de n matrizes.
De acordo com a regra de produto de matrizes, (A(t1 )A(t2 ) · · · A(tn ))ab é dado por
m X
X m m
X
(A(t1 )A(t2 ) · · · A(tn ))ab = ··· Aak1 (t1 )Ak1 k2 (t2 ) · · · Akn−1 b (tn ).
k1 =1 k2 =1 kn−1 =1
A relação (6.4) fica então

m X
X m X
m m
X Z tZ t1 Z tn−1
ya (t) = ··· ··· Aak1 (t1 )Ak1 k2 (t2 ) · · · Akn−1 b (tn ) yb (tn ) dtn dtn−1 · · · dt1 .
b=1 k1 =1 k2 =1 kn−1 =1 0 0 0
Essa relação implica a seguinte desigualdade

Xm X m Xm Xm Z t Z t1 Z tn−1
|ya (t)| ≤ ··· ··· |Aak1 (t1 )| |Ak1 k2 (t2 )| · · · |Akn−1 b (tn )||yb (tn )|dtn dtn−1 · · · dt1 .
b=1 k1 =1 k2 =1 kn−1 =1 0 0 0
(6.5)
Vamos agora supor (provisoriamente) que t é limitado a um intervalo [0, T ] para algum T > 0
finito. Vamos definir
α = max max |Aij (t)| (6.6)
t∈[0, T ] i, j∈{1, ..., m}
e
M = max max |yi (t)|,
t∈[0, T ] i∈{1, ..., m}
ou seja α é o máximo valor alcançado pelo módulo dos elementos de matriz A ij (t) quando t varia
no intervalo [0, T ] e M é o máximo valor alcançado pelo módulo de todas as componentes y i (t) de
Y quando t varia no intervalo [0, T ]. Note-se que as mencionadas funções são limitadas pois, por
hipótese, são contı́nuas, e o intervalo [0, T ] é finito.
Retornando a (6.5), como todos os |Aij (tk )| são menores ou iguais a α e todos os |yb (tn )| são menores
ou iguais a M , tem-se que
m X
X m X
m m
X Z tZ t1 Z tn−1
|ya (t)| ≤ ··· ··· αn M dtn dtn−1 · · · dt1 . (6.7)
b=1 k1 =1 k2 =1 kn−1 =1 0 0 0
O fator αn deve-se ao fato que
|Aak1 (t1 )| |Ak1 k2 (t2 )| · · · |Akn−1 b (tn )| ≤ α · · α} = αn .

| ·{z
n vezes
Claramente, vale que

m X
X m m
X Z tZ t1 Z tn−1 m X
X m m
X Z tZ t1 Z tn−1
n n
··· ··· α M dtn · · · dt1 = α M ··· ··· dtn · · · dt1 ,
b=1 k1 =1 kn−1 =1 0 0 0 b=1 k1 =1 kn−1 =1 0 0 0
pois α e M são constantes. Fora isso, é bem fácil constatar que

Z t Z t1 Z tn−1
tn
··· dtn dtn−1 · · · dt1 = .
0 0 0 n!
E. 6.1 Exercı́cio importante. A última igualdade pode ser facilmente provada por indução. Faça-o. 6
Assim, a desigualdade (6.7) fica

m m m
tn X X
n
X
|ya (t)| ≤ α M ··· 1.
n! b=1 k =1 k =1
1 n−1
É evidente, agora, que

m X
X m m
X
··· 1 = mn
b=1 k1 =1 kn−1 =1
pois há n somas sucessivas, em cada uma o ı́ndice assume m valores e o somando é sempre constante
(não depende dos ı́ndices).
Concluı́mos que
(αmt)n
|ya (t)| ≤ M . (6.8)
n!
Essa desigualdade deve ser satisfeita para t ∈ [0, T ] pela a-ésima componente da solução Y da
equação Ẏ = A(t)Y (t) com condição inicial Y (0) = 0. É importante notar, porém, que o lado esquerdo
não depende de n, que é simplesmente o número de vezes que repetimos a identidade (6.2) para obter
(6.3). O que ocorre, porém, se tomarmos n → ∞? É bem sabido que para qualquer x ≥ 0 fixo tem-se
xn
lim = 0.
n→∞ n!
Assim, tomando-se em (6.8) o limite n → ∞ em ambos os lados, conclui-se que ya (t) = 0 para todo a
e todo t ∈ [0, T ]. Como T foi escolhido arbitrário, segue que ya (t) = 0 para todo t e todo a.
Em resumo, concluı́mos que se Y é solução da equação Ẏ = A(t)Y (t) com condição inicial Y (0) = 0
então Y (t) = 0 para todo t. Não há, portanto, outra solução que não a função nula para a equação
homogênea Ẏ = A(t)Y (t) com condição inicial Y (0) = 0.
O que podemos dizer do caso geral da equação Ẏ = A(t)Y (t) + F (t) com uma condição inicial
Y (0) = Y0 ? Vamos supor que Y e X são duas soluções satisfazendo a mesma condição inicial, ou seja,
Y (0) = X(0) = Y0 . Definindo Z(t) = Y (t) − X(t) tem-se Z(0) = Y (0) − X(0) = Y0 − Y0 = 0 e
Ż(t) = Ẏ (t) − Ẋ(t) = A(t)Y (t) + F (t) − (A(t)X(t) + F (t)) = A(t)(Y (t) − X(t)) = A(t)Z(t).
Assim, Z é solução da equação homogênea Ż(t) = A(t)Z(t) com a condição inicial Z(0) = 0. Pelo
que acabamos de ver, Z é identicamente nula, o que prova que Y = X.
Isso provou então que a equação Ẏ = A(t)Y (t) + F (t) com uma condição inicial Y (0) = Y0 tem
também solução única, se houver. Provaremos adiante que há uma solução e mostraremos como calculá-
la.
Finalmente, observamos que todas as conclusões apresentadas acima permanecem se a condição
inicial for fixada não em t = 0 mas num ponto t0 qualquer.
• Uma propriedade da solução das equações homogêneas
As demonstrações que apresentamos acima têm mais uma conseqüência para as soluções das equações
homogêneas Ẏ (t) = A(t)Y (t), conseqüência essa da qual faremos uso mais adiante. Tem-se, a saber,
o seguinte: a solução Y (t) de uma equação homogênea Ẏ (t) = A(t)Y (t) anula-se em um ponto t0 ,
Y (t0 ) = 0 se e somente se Y (t) for nula para todo t.
A prova disso segue da seguinte observação. Se Y (t0 ) = 0 então
Z t
Y (t) = A(t1 )Y (t1 ) dt1 .
t0
Como em (6.3), concluı́mos que

Z t Z t1 Z tn−1
Y (t) = ··· A(t1 )A(t2 ) · · · A(tn ) Y (tn ) dtn dtn−1 · · · dt1 .
t0 t0 t0
Prosseguindo como antes, concluiremos que

(αm|t − t0 |)n
|ya (t)| ≤ M , (6.9)
n!
onde
α = max max |Aij (t)|
t∈[0, T ] i, j∈{1, ..., m}
e
M = max max |yi (t)|
t∈[0, T ] i∈{1, ..., m}
o intervalo [0, T ] sendo escolhido grande o suficiente para conter t e t0 .

Tomando o limite n → ∞ em (6.9), concluı́mos que ya (t) = 0. Como isso vale para um t arbitrário,
segue que Y (t) é identicamente nula, que é o que querı́amos provar.
6.2.2 Existência. A Série de Dyson

Uma vez demonstrada a unicidade da eventual solução de uma equação como Ẏ = A(t)Y (t) + F (t)
com condição inicial Y (0) = Y0 precisamos demonstrar que a solução existe. E a melhor maneira de
demonstrar a existência de solução de uma equação diferencial é exibindo uma.
Para s e t reais, seja D(t, s) a matriz m × m definida por
X∞ Z t Z t1 Z tn−1
D(t, s) := + ··· A(t1 )A(t2 ) · · · A(tn ) dtn dtn−1 · · · dt1 . (6.10)
n=1 s s s
Seja também D(t) definida por D(t) = D(t, 0), ou seja,

D(t) = + ··· A(t1 )A(t2 ) · · · A(tn ) dtn dtn−1 · · · dt1 . (6.11)
n=1 0 0 0
Algumas páginas adiante (página 303) provaremos que vale entre D(t, s) e D(t) a seguinte relação:
D(t, s) = D(t)D(s)−1 .
A série do lado direito de (6.10) e (6.11) é freqüentemente denominada série de Dyson 1 , denominação
esta empregada especialmente em textos sobre Mecânica Quântica e Teoria Quântica da Campos.
Afirmamos que a equação Ẏ = A(t)Y (t) + F (t) com uma condição inicial Y (0) = Y0 tem solução,
a qual é dada por Z t
Y (t) = D(t)Y0 + D(t, s)F (s) ds . (6.12)
0
A demonstração será feita provando-se que o lado direito satisfaz a equação diferencial e a condição
inicial. Como a solução é única (pelo provado acima), infere-se que não pode haver outra que não
1
Freeman J. Dyson (1923-). Denominamos a série de (6.10) e (6.11) série de Dyson, pois essa nomenclatura é
comummente empregada na Mecânica Quântica e na Teoria Quântica de Campos. Dyson chegou a essa série estudando
problemas de teoria de perturbações na Teoria Quântica de Campos. Sua origem, porém, remonta pelo menos a trabalhos
de Volterra de 1890. Em Teoria Quântica de Campos aquelas séries são também denominadas “exponenciais de tempo
ordenado”.
(6.12). Note-se, em particular, que pelo dito acima, a equação homogênea Ẏ = A(t)Y (t) com condição
inicial Y (0) = Y0 tem por solução
Y (t) = D(t)Y0 .
O estudante deve ter em mente que a expressão (6.12) generaliza o método de variação de constantes
apresentado na Seção 5.3.4, página 266. De fato, como veremos adiante, D(t, s) é idêntica à matriz
Wronskiana das soluções linearmente independentes da equação homogênea.
Comecemos por mostrar que as séries que aparecem em (6.10) e (6.11) são convergentes, sem o que
ambas as expressões não fariam sentido. Denotando por Dab (t, s) o elemento ab da matriz D(t, s),
temos
Dab (t, s) = ab + ··· (A(t1 )A(t2 ) · · · A(tn ))ab dtn dtn−1 · · · dt1
n=1 s s s
∞ X
X m X
m m
X Z tZ t1 Z tn−1
= δa b + ··· ··· Aak1 (t1 )Ak1 k2 (t2 ) · · · Akn−1 b (tn ) dtn · · · dt1 .
n=1 k1 =1 k2 =1 kn−1 =1 s s s
Limitando provisoriamente t e s a um intervalo finito [0, T ] e usando a definição de α dada em (6.6),

temos
X∞ Xm Xm Z t Z t1 Z tn−1

|Dab (t, s)| ≤ 1 + ··· ··· |Aak1 (t1 )| |Ak1 k2 (t2 )| · · · Akn−1 b (tn ) dtn · · · dt1
n=1 k1 =1 kn−1 =1 s s s
∞
X m
X m
X Z tZ t1 Z tn−1
n
≤ 1+ α ··· ··· dtn · · · dt1
n=1 k1 =1 kn−1 =1 s s s
∞
X m m
n |t − s|n X X
≤ 1+ α ··· 1
n=1
n!
k1 =1 kn−1 =1
∞
X |t − s|n n−1
≤ 1+ αn m
n=1
n!
1 αm|t−s|
= 1+ e −1
m
Isso mostra que, para cada elemento de matriz ab, a série do lado direito de (6.10) é absolutamente
convergente, e isso para todo s e t.
Para mostrar que (6.12) representa de fato a solução procurada, vamos mostrar que
∂
D(t, s) = A(t)D(t, s). (6.13)
∂t
Isso, em particular, diz que
d
D(t) = A(t)D(t). (6.14)
dt
De fato,
( ∞ Z tZ Z )
∂ ∂ X t1 tn−1
D(t, s) = + ··· A(t1 )A(t2 ) · · · A(tn ) dtn dtn−1 · · · dt1 .
∂t ∂t n=1 s s s
( Z Z tZ
t t1
d
= + A(t1 ) dt1 + A(t1 )A(t2 ) dt2 dt1
dt s s s
Z tZ Z )
t1 t2
+ A(t1 )A(t2 )A(t3 ) dt3 dt2 dt1 + · · ·
s s s
Z t Z tZ t2
= 0 + A(t) + A(t)A(t2 ) dt2 + A(t)A(t2 )A(t3 ) dt3 dt2 + · · ·
s s s
Z t Z tZ t2
= A(t) + A(t2 ) dt2 + A(t2 )A(t3 ) dt3 dt2 + · · ·
s s s
Z t Z tZ t1
= A(t) + A(t1 ) dt1 + A(t1 )A(t2 ) dt2 dt1 + · · ·
s s s
= A(t)D(t, s),
como querı́amos provar. Acima, na passagem da quarta para a quinta linha, fizemos uma série de
mudanças de nomes das variáveis de integração, chamando t2 de t1 , t3 de t2 etc.
De maneira análoga prova-se também que
∂
D(t, s) = −D(t, s)A(s).
∂s
E. 6.2 Exercı́cio. Faça isso. 6
É também evidente pela definição (6.10) que para todo t vale D(t, t) = . Analogamente, vale
D(0) = . Retornando à equação (6.12), notemos que calculando o lado direito em t = 0 temos
Z 0
Y (0) = D(0)Y0 + D(0, s)F (s) ds = Y0 + 0 = Y0
0
mostrando que o lado direito de (6.12) satisfaz a condição inicial Y (0) = Y0 . Derivando o lado direito
de (6.12) em relação a t, tem-se

Z t
d d
Ẏ (t) = D(t)Y0 + D(t, s)F (s) ds
dt dt 0
Z t
∂
= A(t)D(t)Y0 + D(t, t)F (t) + D(t, s)F (s) ds
0 ∂t
Z t
= A(t)D(t)Y0 + F (t) + A(t)D(t, s)F (s) ds
0
Z t
= A(t) D(t)Y0 + D(t, s)F (s) ds + F (t).
0
= A(t)Y (t) + F (t),

provando que lado direito de (6.12) satisfaz a equação diferencial. Como a solução é única, ela deve ser
aquela dada em (6.12).
• Observações
A série de Dyson em (6.10) e (6.11) fornece a solução do sistema de equações Ẏ (t) = A(t)Y (t)+F (t)
através de (6.12). Devemos fazer notar, porém, que a série de Dyson não é o único meio de obter soluções
dessas equações. Em alguns casos particulares outros métodos podem ser mais eficazes, especialmente
se estivermos interessados em obter soluções em termos de funções conhecidas ou de expansões em
série. Tal é o caso, por exemplo, se os elementos de matriz de A(t) e F (t) são funções analı́ticas de t
ou possuem singularidades “fracas”, quando o chamado método de expansão em série de potências ou
o método de Frobenius podem ser empregados (vide para tal o Capı́tulo 7, página 355,). Em muitos
casos a série de Dyson não é útil quando se pretende obter soluções explı́citas, devido à complexidade
de se calcular explicitamente os produtos de matrizes A(t1 ) · · · A(tn ) e suas integrais.
A série de Dyson é, porém, bastante eficiente quando o interesse é obter soluções por métodos
numéricos, já que a mesma é rapidamente convergente. A série de Dyson é também muito útil quando
se tem pela frente problemas de teoria de perturbações. Isso será discutido com mais detalhe na Seção
6.4. Foi, aliás, estudando problemas de teoria de perturbações na Teoria Quântica de Campos que
Dyson chegou àquela série, inspirado provavelmente nos métodos iterativos de solução da equação
integral de Volterra (o leitor interessado pode estudar o tratamento da equação integral de Volterra
feito na Seção 14.2, página 787, mas isso é dispensável para o que segue).
A série de Dyson possui generalizações para espaços de Hilbert e de Banach e mesmo quando A(t) é
uma famı́lia de operadores não-limitados. O leitor interessado poderá estudá-las em Methods of Modern
Mathematical Physics, vol. II, de Michael Reed e Barry Simon.
Um caso particular importante da solução via série de Dyson é aquele no qual a matriz A(t) é
constante, ou seja, não depende da variável t. Trataremos disso na Seção 6.3. Outras representações e
propriedades da série de Dyson são apresentadas no Apêndice 6.5, página 315.
• Equações Matriciais
Até agora estudamos equações da forma Ẏ (t) = A(t)Y (t) + F (t), com condição inicial Y (0) = Y0 ,
onde A(t) é uma matriz m × m e onde Y e F são vetores coluna com m componentes:
   
y1 (t) f1 (t)
   
Y (t) =  ...  , F (t) =  ...  .
ym (t) fm (t)
Consideremos agora a equação Ṁ(t) = A(t)M(t)+G(t), com condição inicial M(0) = M0 , onde A(t),
G(t) e M(t) são matrizes m × m, a incógnita sendo a matriz M(t). Veremos facilmente que podemos
tratar esse problema com os mesmos métodos do anterior, onde a incógnita era um vetor coluna Y de
m componentes e não uma matriz quadrada.
De fato, como toda matriz m × m, as matrizes M(t) e G(t) são da forma (para notação, vide página
142)
M(t) = [[M1 (t), . . . , Mm (t)]], G(t) = [[G1 (t), . . . , Gm (t)]],
onde Mi (t) e Gi (t) são vetores coluna com m componentes, representando a i-ésima coluna das matrizes
M(t) e G(t), respectivamente.
Nessa notação a equação diferencial Ṁ(t) = A(t)M(t) + G(t) fica
[[Ṁ1 (t), . . . , M˙m (t)]] = [[A(t)M1 (t), . . . , A(t)Mm (t)]] + [[G1 (t), . . . , Gm (t)]],
ou seja, tem-se um conjunto de m sistemas de equações independentes
Ṁi (t) = A(t)Mi (t) + Gi (t), i = 1, . . . , m (6.15)
do tipo que tratamos acima, onde as incógnitas são vetores coluna.

Para cada uma dessas equações vale o teorema de unicidade de soluções que provamos acima. Assim
concluı́mos que a equação matricial Ṁ(t) = A(t)M(t) + G(t), com condição inicial M(0) = M0 tem
solução única.
A solução de cada equação (6.15) é
Z t
Mi (t) = D(t)Mi (0) + D(t, s)Gi (s) ds, i = 1, . . . , m.
0
Reunindo as colunas Mi novamente na matriz M, temos

Z t
M(t) = D(t)M0 + D(t, s)G(s) ds
0
como solução única de Ṁ(t) = A(t)M(t) + G(t), com condição inicial M(0) = M0 .
6.2.3 Propriedades de D(s, t)

Consideremos novamente a equação homogênea Ẏ (t) = A(t)Y (t) com a condição inicial Y (0) = Y0 .
Sabemos que sua solução é dada por Y (t) = D(t)Y0 , onde D(t) é dada em (6.11).
Sejam ek os vetores da base canônica

     
1 0 0
0  1  0 
     
     
e 1 = 0  , e 2 = 0  , ..., em =  ...  .
 ..   ..   
. . 0 
0 0 1
Definimos
Y k (t) = D(t)ek
para k = 1, . . . , m. Cada Y k (t) é solução da equação homogênea Ẏ (t) = A(t)Y (t) com a condição
inicial Y (0) = ek .
Um vetor Y0 representando uma condição inicial genérica
 
y10
 
Y0 =  ...  (6.16)
0
ym
pode ser escrita na base canônica como

m
X
Y0 = yk0 ek .
k=1
Assim, se Y (t) é solução da equação homogênea Ẏ (t) = A(t)Y (t) com a condição inicial Y (0) = Y0
temos que
m
X Xm
0 k
Y (t) = D(t)Y0 = yk D(t)e = yk0 Y k (t). (6.17)
k=1 k=1
Em resumo, todas as soluções da equação homogênea Ẏ (t) = A(t)Y (t) podem ser escritas como com-
binações lineares das funções Y 1 (t), . . . , Y m (t), os coeficientes sendo as componentes yk0 do vetor Y0
na base canônica.
Em virtude dessas e de outras propriedades que ainda estudaremos é importante estudar as funções
Y (t). O conjunto de funções {Y 1 (t), . . . , Y m (t)} é denominado sistema fundamental ou sistema inte-
k
gral ou ainda base integral de soluções da equação Ẏ (t) = A(t)Y (t). O conceito de sistema fundamental
de soluções foi introduzido por Fuchs2 em 1866.
Importante nesse contexto é a matriz cujas colunas são formadas pelos vetores coluna Y k . Defina-se
(para a notação vide apêndice 3.1, página 142)
W (t) = [[Y 1 (t), . . . , Y m (t)]].
Essa matriz é denominada matriz Wronskiana3 ou matriz fundamental.

2
Lazarus Immanuel Fuchs (1833-1902).
3
Tem-se, porém, o seguinte. Pela definição Y k (t) = D(t)ek . Portanto,
[[Y 1 (t), . . . , Y m (t)]] = [[D(t)e1 , . . . , D(t)em ]] = D(t)[[e1 , . . . , em ]] = D(t) = D(t) ,
pois [[e1 , . . . , em ]] = .
O fato que
D(t) = [[Y 1 (t), . . . , Y m (t)]] (6.18)
mostra que a matriz de Dyson (6.11) é idêntica à matriz Wronskiana e, portanto, podemos determinar
D(t) calculando-se os vetores Y 1 (t), . . . , Y m (t). Esse procedimento para determinar D(t) pode ser
mais fácil que calcular a série de Dyson do lado direito de (6.11).
A identidade (6.18) será também usada para outros propósitos, um deles será mostrar que D(t) é
uma matriz invertı́vel.
Vamos, de fato, mostrar que para todo t o conjunto {Y 1 (t), . . . , Y m (t)} é um conjunto de vetores
linearmente independente. Suponhamos o oposto, ou seja, que haja constantes α1 , . . . , αm nem todas
nulas, tais que
α1 Y 1 (t0 ) + · · · + αm Y m (t0 ) = 0
para algum t0 . Sabemos por (6.16)-(6.17) que a função
Y (t) = α1 Y 1 (t) + · · · + αm Y m (t)
é solução de Ẏ (t) = A(t)Y (t) com a condição inicial

 
α1
 
Y (0) = Y0 =  ...  .
αm
Pela hipótese, Y (t0 ) = 0. Pelo observado no tópico “Uma propriedade da solução das equações ho-
mogêneas” da página 296, isso implica que Y (t) = 0 para todo t. Logo α1 = · · · = αm = 0, uma
contradição que prova que os vetores {Y 1 (t), . . . , Y m (t)} devem ser linearmente independentes para
todo t.
Se os vetores {Y 1 (t), . . . , Y m (t)} são linearmente independentes para todo t, então o determinante
da matriz Wronskiana [[Y 1 (t), . . . , Y m (t)]] nunca se anula.
O determinante
W(t) = det [[Y 1 (t), . . . , Y m (t)]]
é dito ser o Wronskiano do sistema linear homogêneo Ẏ (t) = A(t)Y (t). Como acabamos de ver W(t) 6= 0
para todo t.
Como a matriz Wronskiana é idêntica à matriz de Dyson (6.11), concluı́mos que o determinante
daquela matriz nunca se anula. Isso significa que a matriz inversa D(t)−1 existe para todo t.
• A relação entre D(t, s) e D(t)

Com o fato em mãos que existem as inversas D(t)−1 para todo t, vamos demonstrar agora a seguinte
identidade importante: para todo s e todo t vale
D(t, s) = D(t)D(s)−1 . (6.19)
A prova é simples. Seja s fixo daqui por diante. Sejam A(t) = D(t, s) e B(t) = D(t)D(s)−1 .
Queremos provar que A(t) = B(t) para todo t. Observemos que A(s) = D(s, s) = e que B(s) =
D(s)D(s)−1 = . Logo, A e B são iguais no ponto t = s. Fora isso,
d ∂ (6.13)
A(t) = D(t, s) = A(t)D(t, s) = A(t)A(t)
dt ∂t
e
d d (6.14)
B(t) = D(t) D(s)−1 = A(t)D(t)D(s)−1 = A(t)B(t).
dt dt
Assim, A e B são iguais no ponto t = s e satisfazem a mesma equação homogênea Ṁ (t) = A(t)M (t).
Pelos teoremas de unicidade que estabelecemos, segue que A(t) = B(t) para todo t, que é o que
querı́amos provar.
Com isso, podemos escrever a solução (6.12) de Ẏ (t) = A(t)Y (t) + F (t), com a condição inicial
Y (0) = Y0 , como
Z t
Y (t) = D(t)Y0 + D(t)D(s)−1 F (s) ds
0
Z t
−1
= D(t) Y0 + D(s) F (s) ds .
0
Outro fato que se pode agora provar é o seguinte. Se Y (t) é solução da equação homogênea
Ẏ (t) = A(t)Y (t) com a condição inicial Y (0) = Y0 , então para todo s e todo t
Y (t) = D(t, s)Y (s).
De fato, Y (s) = D(s)Y0 . Portanto, D(t, s)Y (s) = D(t)D(s)−1 D(s)Y0 = D(t)Y0 = Y (t).
• A regra de composição para D(t, s)
A relação (6.19) tem a seguinte conseqüência, cuja prova é agora elementar: para todos r, s e t vale
D(t, s) = D(t, r)D(r, s). (6.20)
Essa expressão é denominada regra de composição para as matrizes de Dyson D(t, s). Note que é
muito mais difı́cil prová-la usando apenas a definição (6.10)!
E. 6.3 Exercı́cio para masoquistas. Prove (6.20) usando apenas (6.10). 6
• Solução para condição inicial em instante arbitrário

Uma conseqüência das últimas observações é que se para a equação Ẏ (t) = A(t)Y (t) + F (t) for
dada uma “condição inicial” não em t = 0, mas em t = t0 , Y (t0 ) = Yt0 , a solução é então dada por
Z t
Y (t) = D(t, t0 )Yt0 + D(t, s)F (s) ds. (6.21)
t0
Mais propriedades da série de Dyson são discutidas no Apêndice 6.5, página 315.
6.3 Equações com Coeficientes Constantes

Vamos aqui estudar sistemas de equações lineares de primeira ordem com coeficientes constantes como
Ẏ (t) = AY (t) + F (t), com condição inicial Y (0) = Y0 , onde A é uma matriz constante, ou seja, seus
elementos de matriz não dependem da variável t. Esse é um caso particular do que vimos acima.
A série de Dyson nesse caso fica
∞ Z tZ
X t1 Z tn−1
D(t, s) = + ··· An dtn dtn−1 · · · dt1
n=1 s s s
∞
X Z tZ t1 Z tn−1
n
= + A ··· dtn dtn−1 · · · dt1
n=1 s s s
∞
X (t − s)n
= + An .
n=1
n!
Por analogia com a bem conhecida série de Taylor da função exponencial, define-se, para uma matriz
A,
X∞
A 1 n
exp(A) = e = + A . (6.22)
n=1
n!
Assim,
D(t, s) = eA(t−s)
e
D(t) = eAt .
A convergência de (6.22) já foi provada quando tratamos da convergência da série de Dyson no caso
geral.
Assim, a solução de Ẏ (t) = AY (t) + F (t), com a condição inicial Y (0) = Y0 , é dada, segundo (6.12),
por Z t
At
Y (t) = e Y0 + eA(t−s) F (s)ds.
0
O que se pode dizer sobre a dependência em t dos elementos de matriz de eAt ? Há dois casos
básicos a considerar. O primeiro é o caso em que A é diagonalizável; o segundo caso em que A não é
diagonalizável.
• Caso diagonalizável
Se A é diagonalizável então existe uma matriz P tal que P −1 AP = D onde D é uma matriz diagonal,
tendo na diagonal os autovalores de A. Assim,
∞
X
At tn
e = + An
n=1
n!
( ∞ n
)
X t
= P + P −1 An P P −1
n=1
n!
( ∞ n
)
X t
= P + (P −1 AP )n P −1
n=1
n!
( ∞ n
)
X t
= P + Dn P −1
n=1
n!
= P eDt P −1 .
Agora, se D = diag (λ1 , . . . , λm ), então eDt = diag (eλ1 t , . . . , eλm t ). É claro pela igualdade
eAt = P eDt P −1 que os elementos de matriz de eAt serão da forma
m
X

eAt ab
= ckab eλk t ,
k=1
ou seja, serão combinações lineares de exponenciais do produto de autovalores de A com t. Os coefici-

entes ckab são constantes e dados em função dos elementos de matriz de P e P −1 .
• Caso não-diagonalizável
Caso A não seja diagonalizável, o teorema da decomposição de Jordan (na forma do Teorema 3.18,
página 192) nos garante que existe uma matriz P tal que P −1 AP = D + N , onde: 1) D é uma matriz
diagonal, cujos elementos da diagonal são os autovalores de A; 2) N é uma matriz nilpotente com
ı́ndice, digamos, q; 3) D e N comutam.
Portanto, como D e N comutam,
exp(At) = P exp(P −1 AP t)P −1 = P exp(Dt + N t)P −1 = P exp(Dt) exp(N t)P −1 ,
onde aqui usamos a Proposição 4.6, da página 220. Agora,
exp(Dt) = diag (eλ1 t , . . . , eλm t )

e
∞ n q−1 n
X t X t
n
exp(N t) = + N = + N n.
n=1
n! n=1
n!
Observe-se que a série do lado direito é truncada em n = q pois N q = 0, já que N é nilpotente com
ı́ndice q. Assim, eN t é uma matriz cujos elementos são polinômios em t de grau menor que q.
Fica claro, fazendo-se o produto eDt eN t , que os elementos de matriz de eAt serão agora da forma
m
X
At

e ab
= ckab (t) eλk t ,
k=1
ou seja, serão combinações lineares de exponenciais do produto de autovalores de A com t. Há, porém,
uma diferença em relação ao caso diagonalizável, a saber, os coeficientes c kab (t) não são mais constantes,
mas são agora polinômios em t de grau menor que q e são dados em função dos elementos de matriz
de P e P −1 .
6.3.1 Alguns Exemplos e Aplicações

Vamos aqui tratar um exemplo simples e bem conhecido proveniente da Mecânica Clássica e que ilustra
bem conceitos que introduzimos nas seções anteriores. Trata-se do problema do oscilador harmônico
amortecido forçado.
Como é bem sabido, esse sistema é descrito pela equação diferencial linear de segunda ordem
mẍ(t) = −kx(t) − γ ẋ(t) + f (t)
que nada mais é que a segunda lei de Newton para uma partı́cula de massa m ligada a uma mola de
constante k e se movendo em um meio (viscoso) que exerce sobre a partı́cula uma força do tipo −γv(t)
(v(t) é a velocidade da partı́cula no instante t). Fora isso age sobre a partı́cula mais uma força externa
que depende apenas do tempo: f (t). Acima m > 0, k ≥ 0 e γ ≥ 0.
Dividindo a equação acima por m, podemos escrevê-la como
ẍ(t) = −ω02 x(t) − ρẋ(t) + g(t)
onde r
k γ 1
ω0 = , ρ = , g(t) = f (t).
m m m
Podemos, por um método comummente usado, transformar essa equação de segunda ordem em um
sistema de duas equações de primeira ordem. Definindo v(t) = ẋ(t), ficamos com
ẋ(t) = v(t)
v̇(t) = −ω02 x(t) − ρv(t) + g(t) (6.23)
Isso pode ser escrito na seguinte forma matricial:
Ẏ (t) = AY (t) + F (t),

onde
x(t) 0 1 0
Y (t) = , A = , F (t) = .
v(t) −ω02 −ρ g(t)
A matriz A tem coeficientes constantes. Aprendemos nas seções anteriores que a solução dessa
equação, com uma condição inicial que fixa a posição e a velocidade da partı́cula em t = 0

x(0) x0
Y (0) = = ,
v(0) v0
é dada por Z t
At
Y (t) = e Y0 + eA(t−s) F (s) ds. (6.24)
0
Como se vê, precisamos calcular agora eAt para a matriz A dada acima.
A primeira questão que devemos nos colocar é se a matriz A é diagonalizável ou não. Seus autova-
lores são p p
−ρ + ρ2 − 4ω02 −ρ − ρ2 − 4ω02
λ1 = e λ2 = .
2 2
Os autovetores associados podem ser escolhidos na forma

 p   p 
−ρ − ρ2 − 4ω02 −ρ + ρ2 − 4ω02
 2ω02   2ω02 
v1 = 
,
 v 2 = 

.

1 1

p
Como facilmente se vê, caso ρ2 − 4ω02 6= 0, ou seja, caso ρ 6= 2ω0 , a matriz A tem dois autovalores
distintos e é, portanto, diagonalizável. Se, porém, ρ = 2ω0 , tem-se v1 = v2 e a matriz A não é mais
simples e, portanto, não é diagonalizável.
Vamos tratar esses dois casos separadamente. O leitor é convidado a fazer como exercı́cio todos os
cálculos que forem deixados indicados.
• O caso ρ 6= 2ω0
Nesse caso A é diagonalizável pela matriz P = [[v1 , v2 ]], ou seja

 √ 
−ρ+ ρ2 −4ω02
λ1 0 √0 2
P −1 AP = D = =  2 ,
0 λ2 −ρ− ρ −4ω02
0 2
onde  p p 
−ρ − ρ2 − 4ω02 −ρ + ρ2 − 4ω02
 2ω02 2ω02 
P = [[v1 , v2 ]] = 

.

1 1
Calculando-se a inversa, tem-se
 p 
ω02 −ρ + ρ2 − 4ω02
− p 2 p 
 ρ − 4ω02 2 ρ2 − 4ω02 
 
P −1 =  p .
 2 
 ω2 ρ + ρ − 4ω0 
2
p 0 p
ρ2 − 4ω02 2 ρ2 − 4ω02
Daı́, segue que

 
λ1 t
−λ2 eλ1 t + λ1 eλ2 t e λ1 t − e λ2 t
e 0  1 .
eAt = P eDt P −1 = P P −1 = p
0 e λ2 t ρ2 − 4ω02 ω02 −eλ1 t + eλ2 t λ1 e λ1 t
− λ2 e λ2 t
(6.25)
O leitor é convidado agora a escrever as fórmulas explı́citas para x(t) e v(t) que advêm de (6.24).
Para x(t), por exemplo, obtem-se
Z t
−ρt/2 ρx0 + 2v0 1
x(t) = e x0 cos(ω1 t) + sen (ω1 t) + e−ρ(t−s)/2 sen (ω1 (t − s))f (s) ds,
2ω1 mω1 0
onde r
ρ2
ω1 = ω02 − .
4
Essa expressão vale tanto para ω0 > ρ/2 quanto para ω0 < ρ/2. Nesse segundo caso ω1 torna-se um
número imaginário puro:
ω1 = iω2 ,
onde r
ρ2
ω2 = − ω02
4
é real. A solução para x(t) fica
Z t
−ρt/2 ρx0 + 2v0 1
x(t) = e x0 cosh(ω2 t) + senh (ω2 t) + e−ρ(t−s)/2 senh (ω2 (t − s))f (s) ds.
2ω2 mω2 0
• O caso ρ = 2ω0 > 0
Nesse caso a matriz A fica

0 1
A = 2 .
− ρ4 −ρ
A pode ser levada à sua forma de Jordan (vide Seção 3.7.4, página 197 e antecedentes) J = P −1 AP ,
onde  
 ρ   ρ  4
− 1 1 0 − 2
 2   2   ρ 
    −1  
J =   , P =   , P =  .
ρ ρ 2  2 
0 − − 0 1
2 4 ρ
Note-se que J = D + N , onde
 ρ 
− 0  
 2  0 1
D = 

, N =  .
ρ 0 0
0 −
2
É fácil verificar que D e N comutam e que N 2 = 0. Assim,
eAt = P e(D+N )t P −1 = P eDt eN t P −1 ,
sendo que
 ρt 
e− 2 0
eDt =  
− ρt
0 e 2
e  
1 t
eN t = + Nt =  .
0 1
Portanto,  
ρt −ρt/2 −ρt/2
 1+ e te 
 2 
e At
= 

.

 ρ2 t ρt 
− e−ρt/2 1− e−ρt/2
4 2
Z
−ρt/2 ρ 1 t
x(t) = e 1 + t x0 + t v 0 + (t − s)e−ρ(t−s)/2 f (s) ds.
2 m 0
• O caso ρ = 0
Analisemos também o caso ρ = 0, que corresponde à ausência do termo de amortecimento −γv(t)

na equação de movimento da partı́cula. Nesse caso

0 1
A =
−ω02 0
λ1 = iω0 , λ2 = −iω0 e, por (6.25),

 1 
cos(ω0 t) sen (ω0 t)
 ω0 
eAt =  .
−ω0 sen (ω0 t) cos(ω0 t)
Z t
v0 1
x(t) = x0 cos(ω0 t) + sen (ω0 t) + sen (ω0 (t − s))f (s) ds,
ω0 mω0 0
• O caso k = 0, γ = 0. Partı́cula submetida a força externa dependente do tempo
Nesse caso, usando a notação anterior,
ẍ(t) = g(t),
ou seja,
Ẏ (t) = AY (t) + F (t)
com
0 1
A = .
0 0
A é nilpotente com A2 = 0. Logo

At 1 t
e = + At = .
0 1
Z
1 t
x(t) = (x0 + v0 t) + (t − s)f (s) ds .
m 0
f 2
Por exemplo, no caso de f ser constante, segue disso a conhecidı́ssima relação x(t) = x 0 + v0 t + 2m
t .
6.4 Teoria de Perturbações de Sistemas Lineares

Existem muitos problemas, especialmente na Mecânica Clássica e na Mecânica Quântica, que têm a
seguinte estrutura. Procura-se encontrar a solução de uma equação linear homogênea Ẏ (t) = A(t)Y (t),
com a condição inicial Y (0) = Y0 , sendo que A(t) é da forma
A(t) = L + I(t)
onde L é uma matriz constante e I(t) pode depender do tempo mas é, em um sentido a ser precisado,
“pequena”. Por exemplo, I(t) pode ser da forma I(t) = λJ(t), onde λ é uma constante “pequena”.
Se I fosse zero a solução seria Y (t) = eLt Y0 . Deve-se esperar que se I for pequena a solução de
Ẏ (t) = A(t)Y (t) não deve estar muito afastada de Y (t) = eLt Y0 e a presença de I(t) deve perturbar a
solução Y (t) = eLt Y0 apenas ligeiramente. Como determinar a perturbação que I provoca? Esse tipo
de problema é muito freqüentemente encontrado em Fı́sica.
Vamos usar aqui a série de Dyson para tratar esse problema no contexto acima de sistemas lineares.
O primeiro passo consiste em definir um novo vetor coluna X(t) por
X(t) = e−Lt Y (t).
Vamos verificar qual condição inicial e qual equação diferencial X(t) obedece. Tem-se que X(0) =
Y (0) = Y0 . Fora isso
d −Lt
Ẋ(t) = e Y (t)
dt
= −Le−Lt Y (t) + e−Lt Ẏ (t)
= −Le−Lt Y (t) + e−Lt A(t)Y (t)
= −Le−Lt Y (t) + e−Lt (L + I(t))Y (t)
= e−Lt I(t)Y (t)
= e−Lt I(t)eLt X(t).

Assim, definindo-se
˜
I(t) = e−Lt I(t)eLt ,
concluı́mos que X(t) satisfaz
˜
Ẋ(t) = I(t)X(t).
Pela série de Dyson, a solução dessa equação com a condição inicial X(0) = Y 0 é
(∞ Z Z Z tn−1 )
X t t1
X(t) = Y0 + ··· ˜ 1 )I(t
I(t ˜ 2 ) · · · I(t
˜ n ) dtn dtn−1 · · · dt1 Y0 .
n=1 0 0 0
Retornando a Y (t) = eLt X(t), temos

(∞ Z Z Z )
X t t1 tn−1
Lt
Y (t) = e Y0 + e Lt
··· ˜ 1 )I(t
I(t ˜ 2 ) · · · I(t
˜ n ) dtn dtn−1 · · · dt1 Y0 . (6.26)
n=1 0 0 0
De modo mais explı́cito, isso é

Y (t) = eLt Y0
(∞ Z Z Z )
X t t1 tn−1
Lt −Lt1 L(t1 −t2 ) L(t2 −t3 ) L(tn−1 −tn ) Ltn
+e ··· e I(t1 )e I(t2 )e ···e I(tn )e dtn · · · dt1 Y0 .
n=1 0 0 0
Vamos supor que I(t) seja da forma I(t) = λJ(t). Substituindo na última expressão obtemos a
solução expressa em termos de uma série de potências em λ:
Y (t) = eLt Y0
(∞ Z tZ Z )
X t1 tn−1
+ eLt λn ··· e−Lt1 J(t1 )eL(t1 −t2 ) J(t2 )eL(t2 −t3 ) · · · eL(tn−1 −tn ) J(tn )eLtn dtn · · · dt1 Y0
n=1 0 0 0
Z t Z t Z t1
Lt Lt −Lt1 Lt1 2 Lt −Lt1 L(t1 −t2 ) Lt2
= e Y0 +λe e J(t1 )e dt1 Y0 +λ e e J(t1 )e J(t2 )e dt2 dt1 Y0 +· · · .
0 0 0
Nessa forma é possı́vel ver as correções que o termo I(t) = λJ(t) adiciona à solução e Lt Y0 quando
λ é uma constante pequena. A correção de primeira ordem em λ é
Z t
Lt −Lt1 Lt1
λe e J(t1 )e dt1 Y0 .
0
A de segunda ordem em λ é
Z t Z t1
2 Lt −Lt1 L(t1 −t2 ) Lt2
λ e e J(t1 )e J(t2 )e dt2 dt1 Y0
0 0
etc.
Todas essa expressões são empregadas em Mecânica Quântica.
• Um problema de teoria de perturbações
Consideremos o problema de uma partı́cula de massa m presa a uma mola de constante k(t) =
k0 + λk1 (t) onde λ é um número pequeno, e sem nenhuma força adicional agindo sobre a partı́cula. Ou
seja, a constante de mola tem uma pequena dependência temporal e desejamos estudar o efeito dessa
pequena perturbação sobre a solução obtida quando λ = 0, a qual é, sabidamente,
v0
x0 cos(ω0 t) + sen (ω0 t),
ω0
onde ω02 = k0 /m.
A equação de movimento é mẍ(t) = −k(t)x(t), ou seja,

2 λk1 (t)
ẍ(t) = − ω0 + x(t),
m
que em forma de um sistema de duas equações de primeira ordem fica
Ẏ (t) = A(t)Y (t),
onde
x(t)
Y (t) = ,
v(t)
e
A(t) = A + λJ(t),
com
0 1
A =
−ω02 0
e
0 0
J(t) = .
− m1 k1 (t) 0
Pelas expressões obtidas na Seção 6.4, a solução em primeira ordem em λ é

Z t
At At −At1 At1
e Y0 + λe e J(t1 )e dt1 Y0 .
0
De modo mais explı́cito, isso é igual a

 1 
cos(ω0 t)x0 + sen (ω0 t)v0
 ω0 
 +
−ω0 sen (ω0 t)x0 + cos(ω0 t)v0
 
 1  1 2
λ 
cos(ω0 t) sen (ω0 t) Z t − sen (ω0 t1 ) cos(ω0 t1 )x0 + mω0 sen (ω0 t1 )v0 
ω0   
  k1 (t1 )   dt1 .
ω0 0  1 
−ω0 sen (ω0 t) cos(ω0 t) − cos2 (ω0 t1 )x0 + sen (ω0 t1 ) cos(ω0 t1 )v0
m
Para a posição x(t), a correção de primeira ordem em λ à solução não perturbada
1
cos(ω0 t)x0 + sen (ω0 t)v0
ω0
é " Z
t
λ 1
cos(ω0 t) k1 (t1 ) − sen (ω0 t1 ) cos(ω0 t1 )x0 + sen 2 (ω0 t1 )v0 dt1
ω0 0 mω0
Z #
t
1 1
+ sen (ω0 t) k1 (t1 ) − cos2 (ω0 t1 )x0 + sen (ω0 t1 ) cos(ω0 t1 )v0 dt1 .
ω0 0 m
O cálculo explı́cito dessas integrais depende da forma de k1 (t).
O leitor é convidado nesse momento a ler nos bons livros de Mecânica Clássica (por ex., Arnold [6],
Landau-Lifchitz [76]) algo sobre o assunto “ressonância paramétrica”.
• Comentário final sobre as séries perturbativas
Se λ for pequeno e t não for muito grande a aproximação de primeira ordem em λ é uma aproximação
razoavelmente boa para a solução. As correções de ordem superior em λ podem também ser calculadas,
embora seu cômputo fique cada vez mais complexo, como se vê pela expressões (6.26) e seguintes.
Para t → ∞ os termos individuais da série perturbativa (6.26) podem divergir com t, sem que a
solução x(t) seja ela mesmo divergente. Esse tipo de comportamento não é tão estranho assim se nos
lembrarmos, por exemplo, do que acontece com a série da Taylor da função seno (ou co-seno):
X∞
(−1)n 2n+1 2n+1
sen (λt) = λ t
n=0
(2n + 1)!
Os primeiros termos são

λ3 3 λ5 5
t +λt − t +··· .
6 120
Cada um deles diverge quanto t → ∞ (para qualquer λ 6= 0 fixo, não importa o quão grande ou
pequeno) mas a função sen (λt) permanece limitada.
A lição a se aprender é que certas expansões podem não ser boas quando se deseja estudar o
comportamento para t grande das soluções. Tal é o caso da série de Taylor acima e da série de Dyson
(em muitos casos). Para estudar o comportamento para t grande é preciso procurar expansões que
sejam uniformemente convergentes em t para toda a reta real.
6.5 Mais sobre a Série de Dyson. Produtos de Tempo Orde-

nado
• A função degrau, ou função de Heaviside
Define-se a chamada função degrau ou função de Heaviside4 , θ(s), s ∈ , por

1, se s ≥ 0
θ(s) := .
0, se s < 0
Defina-se também, para t1 , . . . , tm ∈ ,
Θm (t1 , . . . , tm ) := θ(tm−1 − tm )θ(tm−2 − tm−1 ) · · · θ(t1 − t2 ) .
É bastante fácil de constatar pela definição que

1, se tm ≤ tm−1 ≤ · · · ≤ t1
Θm (t1 , . . . , tm ) := . (6.27)
0, de outra forma
Seja Sm o grupo de permutações de m ı́ndices {1, . . . , m}. Os elementos π de Sm são bijeções

de {1, . . . , m} em si mesmo. Há um importante fato sobre a função Θm : se os m números reais
t1 , . . . , tm forem todos distintos entre si, então
X
Θm (tπ(1) , . . . , tπ(m) ) = 1 . (6.28)
π∈Sm
4
Oliver Heaviside (1850-1925).
Para prová-la, observe-se que, devido ao fato de ser totalmente ordenado, para uma m-upla t 1 , . . . , tm ∈

composta de elementos distintos existe um e somente um elemento π0 ∈ Sm tal que tπ0 (m) < . . . <
tπ0 (1) . Assim, por (6.27), segue que há no lado esquerdo de (6.28) apenas um termo não-nulo: aquele
que corresponde a π0 , e esse termo vale 1, também devido a (6.27). A condição de os pontos t1 , . . . , tm
serem todos distintos entre si é importante nesse raciocı́nio, mas o conjunto dos pontos que não a
satisfazem é um conjunto de medida nula em m . Daı́, podemos afirmar que (6.28) vale quase em toda

a parte em m (ou seja, vale em todo m , exceto em um sub-conjunto de medida nula).

• Reescrevendo a série de Dyson.
Pretendemos apresentar uma outra maneira de representar a série de Dyson (6.11):

X∞ Z t Z t1 Z tm−1
D(t) = + ··· A(t1 )A(t2 ) · · · A(tm ) dtm dtm−1 · · · dt1 . (6.29)
m=1 0 0 0
da qual certas conseqüências podem ser mais facilmente extraı́das. O leitor há de notar que nas integrais
em (6.29) as variáveis t1 , . . . , tm aparecem ordenadas na forma 0 ≤ tm ≤ tm−1 ≤ · · · ≤ t1 ≤ t. Dessa
forma, no produto de matrizes A(t1 )A(t2 ) · · · A(tm ) os fatores aparecem ordenados (da esquerda para
a direita) de acordo com a ordem temporal decrescente dos argumentos.
Devido à propriedade (6.27) de Θm (t1 , . . . , tm ), podemos reescrever (6.29) na forma
∞ Z t
X Z t
D(t) = + ··· Θm (t1 , . . . , tm )A(t1 )A(t2 ) · · · A(tm ) dtm dtm−1 · · · dt1 . (6.30)
m=1 0 0
Note o leitor que uma diferença entre (6.29) e (6.30) está nos limites superiores das integrações, que
passam a ser todos iguais a t, o que é permitido pela introdução dos fatores Θm (t1 , . . . , tm ) nos
integrandos, fatores esses que se anulam caso a restrição tm ≤ tm−1 ≤ · · · ≤ t1 seja violada.
Se F (t1 , . . . , tm ) é uma função de m variáveis, tem-se evidentemente que
Z t Z t Z t Z t
··· F (t1 , . . . , tm ) dtm dtm−1 · · · dt1 = ··· F (tπ(1) , . . . , tπ(m) ) dtm dtm−1 · · · dt1 ,
0 0 0 0
para qualquer permutação π ∈ Sm .
E. 6.7 Exercı́cio. Justifique! Sugestão: mudança de variáveis mais a observação que o hipercubo [0, t] m
é invariante por permutações das coordenadas. 6
Assim, como Sm possui m! elementos, segue trivialmente que

Z Z t Z Z t
t
1 X t
··· F (t1 , . . . , tm ) dtm dtm−1 · · · dt1 = ··· F (tπ(1) , . . . , tπ(m) ) dtm dtm−1 · · · dt1 ,
0 0 m! π∈S 0 0
m
pois os termos somados no lado direito são todos iguais. Aplicando essa simples identidade a (6.30),
tem-se
X∞ Z Z t
1 X t
D(t) = + ··· Θm (tπ(1) , . . . , tπ(m) )A(tπ(1) )A(tπ(2) ) · · · A(tπ(m) ) dtm dtm−1 · · · dt1 .
m=1
m! π∈S 0 0
m
(6.31)
Vamos definir
X
T A(t1 )A(t2 ) · · · A(tm ) := Θm (tπ(1) , . . . , tπ(m) )A(tπ(1) )A(tπ(2) ) · · · A(tπ(m) ) . (6.32)
π∈Sn
Para uma m-upla (t1 , . . . , tm ) ∈ [0, t]m composta de elementos distintos, existe um e somente
um elemento π0 ∈ Sm tal que tπ0 (m) < . . . < tπ0 (1) . Segue disso que o lado direito de (6.32) vale
A(tπ0 (1) )A(tπ0 (2) ) · · · A(tπ0 (m) ). O leitor deve observar que esse produto aparece ordenado da esquerda
para a direita na ordem decrescente dos argumentos. Por essa razão a expressão do lado esquerdo de
(6.32) é denominada produto de tempo ordenado das matrizes A, denotada por T (A(t 1 ) · · · A(tm )):
Com essa notação podemos escrever (6.31) na forma
X∞ Z t Z t
1
D(t) = + ··· T A(t1 )A(t2 ) · · · A(tm ) dtm dtm−1 · · · dt1 . (6.33)
m=1
m! 0 0
Essa forma de representar a série de Dyson é freqüentemente empregada na Teoria Quântica de

Campos, sendo que lá as matrizes A(t) são substituı́das por operadores com valores em distribuições
e os produtos de tempo ordenado são definidos em um sentido distribucional e de forma iterativa, de
modo a permitir um tratamento de problemas de renormalização. Para uma referência moderna sobre
tais assuntos, vide [111].
• O caso comutativo
Uma situação particular de interesse é aquela na qual as matrizes A(s) comutam para valores
distintos do argumento, ou seja, A(s)A(s0 ) = A(s0 )A(s) para todos s, s0 . Tal é o caso, por exemplo,
se A(s) forem matrizes 1 × 1, ou se forem diagonais, ou ainda se forem da forma A(s) = f (s)B para
alguma matriz constante B e alguma função real ou complexa f . Sob essa hipótese de comutatividade,
tem-se que para todo π ∈ Sm
A(tπ(1) )A(tπ(2) ) · · · A(tπ(m) ) = A(t1 )A(t2 ) · · · A(tm )
pois a ordem dos fatores não importa, devido à comutatividade. A expressão (6.31) fica, então,
X∞ Z t Z t"X #
1
D(t) = + ··· Θm (tπ(1) , . . . , tπ(m) ) A(t1 )A(t2 ) · · · A(tm ) dtm dtm−1 · · · dt1
m=1
m! 0 0 π∈S m
X∞ Z t Z t
(6.28) 1
= + ··· A(t1 )A(t2 ) · · · A(tm ) dtm dtm−1 · · · dt1
m=1
m! 0 0
X∞ Z t m
comut. 1
= + A(τ )dτ
m=1
m! 0
Z t
def.
= exp A(τ )dτ . (6.34)
0
Usando que D(t, s) = D(t)D(s)−1 , obtem-se

Z t
D(t, s) = exp A(τ )dτ . (6.35)
s
Concluı́mos que no caso comutativo, a solução da equação Ẏ = A(t)Y (t) + F (t) com uma condição
inicial Y (0) = Y0 dada em (6.12) fica
Rt
Z t R
t
A(τ )dτ
Y (t) = e 0 Y0 + e s A(τ )dτ F (s) ds . (6.36)
0
O estudante pode constatar que no caso n = 1 (um sistema com uma única equação de primeira ordem)
a expressão acima corresponde precisamente à solução dada em (5.22), página 262.
6.6 Sistemas de Equações Diferenciais Lineares no Plano Com-

plexo
Em (6.1), e em tudo que vimos até aqui, consideramos sistemas lineares de equações diferenciais onde a
variável t é assumida real. Para muitos propósitos importantes, alguns dos quais discutiremos abaixo, é
conveniente alargar um pouco o domı́nio de nossas considerações e discutir sistemas lineares de equações
diferenciais definidas no plano complexo.
Por simplicidade trataremos apenas equações homogêneas, caso em que se encontra a maioria das
aplicações. A Seção 6.7.3, página 348, discute exemplos. Para referências gerais sobre o assunto,
recomendamos [117] e [62].
Seja A(z) uma matriz m × m complexa cujos elementos Aij (z), i, j = 1, . . . , m, são funções de uma
variável complexa z em um certo domı́nio aberto e simplesmente conexo comum D do plano complexo:
D ⊂ . Consideremos a equação diferencial linear e homogênea
Y 0 (z) = A(z)Y (z), (6.37)
onde Y (z) denota um vetor coluna de funções complexas
 
y1 (z)
 
Y (z) =  ...  .
ym (z)
Estaremos aqui interessados em estudar esses sistemas de equações diferenciais quando uma condição
inicial é fornecida, ou seja, quando o valor de Y (z) em um ponto z0 ∈ D é especificado:
 
y10
 
Y (z0 ) =: Y0 =  ...  ,
0
ym
com y10 , . . . , ym
0
sendo constantes complexas. Notemos que ao procurarmos soluções Y (z) de (6.37)
é implicitamente sub-entendido que as mesmas funções Y (z) sejam analı́ticas, pois apenas funções
analı́ticas são diferenciáveis.
6.6.1 O Caso Analı́tico

Comecemos pelo caso no qual a matriz A(z) é analı́tica em um domı́nio aberto simplesmente conexo
D, ou seja, todos os seus elementos de matriz Aij (z) são funções analı́ticas de z em D. Uma primeira
pergunta importante diz respeito à unicidade da solução da equação diferencial Y 0 (z) = A(z)Y (z),
z ∈ D, com a condição Y (z0 ) = Y0 para algum z0 ∈ D. Essa pergunta pode ser respondida usando
nosso resultado anterior (do começo deste capı́tulo) que garante unicidade de solução de sistemas
lineares de equações diferenciais com variáveis reais.
De fato, seja z(t), t ∈ [0, 1], uma curva arbitrária contı́nua e diferenciável em D e tal que z(0) = z 0 .
Sejam Y1 e Y2 duas soluções analı́ticas de Y 0 (z) = A(z)Y (z), z ∈ D, com a mesma condição Y1 (z0 ) =
Y2 (z0 ) = Y0 . Sejam X1 (t) := Y1 (z(t)) e X2 (t) := Y2 (z(t)). Definamos também B(t) := ż(t)A(z(t)).
Notemos que B(t) é uma matriz contı́nua em t, pois A(z) é analı́tica.
É fácil, então, constatar que X1 e X2 são ambos soluções da equação diferencial
Ẋ(t) = B(t)X(t), t ∈ [0, 1],
com a condição X(0) = Y0 . Pelas nossas considerações anteriores, isso implica X1 (t) = X2 (t), ∀t ∈
[0, 1], ou seja, Y1 (z(t)) = Y2 (z(t)), ∀t ∈ [0, 1]. Como a curva z(t) é arbitrária e sua imagem pode
estar em todo D, isso implica Y1 (z) = Y2 (z) para todo z ∈ D. Isso prova a unicidade da solução de
Y 0 (z) = A(z)Y (z), z ∈ D, com condição Y1 (z0 ) = Y2 (z0 ) = Y0 .
Uma vez garantida a unicidade da solução, tentemos exibı́-la. O que faremos é seguir a inspiração
fornecida pela série de Dyson, estudada anteriormente, e tentar generalizá-la para o plano complexo.
• A série de Dyson no plano complexo
Seja então D um domı́nio aberto simplesmente conexo do plano complexo e A(z) analı́tica em D e
limitada em D. Seja também z0 ∈ D.
Uma vez demonstrada a unicidade da eventual solução de uma equação como Y 0 (z) = A(z)Y (z)
com condição Y (z0 ) = Y0 precisamos demonstrar que a solução existe. O que faremos é generalizar
nossas considerações anteriores sobre a série de Dyson para o plano complexo.
Para z e w ∈ D , seja D(z, w) a matriz m × m definida por
X∞ Z z Z z1 Z zn−1
D(z, w) = + ··· A(z1 )A(z2 ) · · · A(zn ) dzn dzn−1 · · · dz1 . (6.38)
n=1 w w w
Acima, todas as integrações complexas são feitas em uma curva C, simples, orientada de w a z e
inteiramente contida em D. Para cada n os pontos z1 , . . . , zn são ordenados em sentido crescente
ao longo de C. Mais precisamente, denotamos por C a curva contı́nua e diferenciável C : [0, 1] → D
parametrizada por t ∈ [0, 1] com w = C(0), z = C(1). Então, para cada n, tem-se zk = C(tk ),
1 ≤ k ≤ n, com 0 ≤ t1 ≤ · · · ≤ tn ≤ 1.
Devido ao fato de A ser analı́tica no domı́nio simplesmente conexo D, a matriz D(z, w) não depende
da particular curva orientada C adotada que conecta w a z (justifique isso!).
Afirmamos que a equação Y 0 (z) = A(z)Y (z) com uma condição Y (z0 ) = Y0 tem solução, a qual é
dada por
Y (z) = D(z, z0 )Y0 (6.39)
A demonstração será feita provando-se que o lado direito satisfaz a equação diferencial e a condição
inicial. Como a solução é única (pelo provado acima), infere-se que não pode haver outra.
Comecemos por mostrar que a série que aparece em (6.38) é convergente, sem o que aquela expressão
não faria sentido. O leitor facilmente constatará que o que faremos é uma simples imitação da prova
anterior para a reta real, dado que somente faremos uso da hipótese de que A(z) é limitada em D.
Sejam z e w dois pontos de um domı́nio D sob as hipóteses acima (D é aberto e simplesmente
conexo) e seja Cw→z uma curva contı́nua, diferenciável, orientada, ligando w a z e inteiramente contida
em D. Para z 0 ∈ Cw→z , denotemos por l(z 0 ) ≡ lCw→z (z 0 ) o comprimento medido de w a z 0 ao longo
da curva Cw→z . A função l : Cw→z → + é bijetora e, portanto, possui uma inversa, o que nos

permite parametrizar os pontos de Cw→z pelo comprimento l medido ao longo de Cw→z a partir de w.
Denotaremos por z 0 (l) essa parametrização, ou seja, z 0 (l) é o ponto de Cw→z cuja distância a w ao longo
de Cw→z é l ∈ + .
É um fato bemZ conhecido da teoria das funções de variáveis complexas que se f : D → é ao menos
contı́nua5 , então f (z 0 )dz 0 , a integral de f de w a z ao longo da curva Cw→z , pode ser estimada
Cw→z
por Z Z
l(z)
0
f (z )dz ≤ 0
|f (z 0 (l))| dl . (6.40)

Cw→z 0
Denotando por Dab (z, w) o elemento ab da matriz D(z, w), temos

∞ Z
X z Z z1 Z zn−1
Dab (z, w) = ab + ··· (A(z1 )A(z2 ) · · · A(zn ))ab dzn dzn−1 · · · dz1
n=1 w w w
∞ X
X m X
m m
X Z z Z z1 Z zn−1
= δa b + ··· ··· Aak1 (z1 )Ak1 k2 (z2 ) · · · Akn−1 b (zn ) dzn · · · dz1 .
n=1 k1 =1 k2 =1 kn−1 =1 w w w
Definindo como antes

α := max max |Aab (z)| ,
a, b z∈D
5
Essa condição pode ser enfraquecida.
aplicando (6.40) e escrevendo l1 ≡ l(zj ), j = 1, . . . , n, temos

∞ X
X m m
X Z l(z) Z l1 Z ln−1
|Dab (z, w)| ≤ 1 + ··· ···
n=1 k1 =1 kn−1 =1 0 0 0

|Aak1 (z 0 (l1 ))| |Ak1 k2 (z 0 (l2 ))| · · · Akn−1 b (z 0 (ln )) dln · · · dl1
∞
X m
X m
X Z l(z) Z l1 Z ln−1
n
≤ 1+ α ··· ··· dln · · · dl1
n=1 k1 =1 kn−1 =1 0 0 0
∞
X n m
X m
X
n l(z)
≤ 1+ α ··· 1
n=1
n! k1 =1 kn−1 =1
∞
X n
n l(z)
≤ 1+ α mn−1
n=1
n!
1 αml(z)
= 1+ e −1 .
m
Acima, usamos o fato, demonstrável por indução, que
Z l(z) Z l1 Z ln−1
l(z)n
··· dln · · · dl1 = . (6.41)
0 0 0 n!
Como mencionamos, l(z) é a distância de w a z ao longo da curva de integração, ou seja, é o comprimento

total dessa curva. Se D for um domı́nio convexo, podemos tomar a curva de integração como sendo
a linha reta que une w a z, em cujo caso teremos l(z) = |z − w|. Não precisamos, no entanto, supor
convexidade de D.
Provamos então que, para cada elemento de matriz ab, a série do lado direito de (6.38) é absoluta-
mente convergente, e isso para todo w e z ∈ D. Como, para cada N ∈ , as funções
N X
X m X
m m
X Z z Z z1 Z zn−1
fN (z, w) = δab + ··· ··· Aak1 (z1 )Ak1 k2 (z2 ) · · · Akn−1 b (zn ) dzn · · · dz1 .
n=1 k1 =1 k2 =1 kn−1 =1 w w w
são analı́ticas em D (pois integrais de funções analı́ticas são também analı́ticas), concluı́mos do exposto
acima que cada elemento de matriz Dab (z, w) é o limite uniforme (por quê?) da seqüência de funções
analı́ticas fN (z, w). Um teorema importante da análise complexa (vide e.g. [121]) afirma que sob essas
circunstâncias Dab (z, w) é também analı́tica em D.
Para mostrar que (6.39) representa de fato a solução procurada, vamos mostrar que
∂
D(z, w) = A(z)D(z, w). (6.42)
∂z
De fato,
( ∞ Z Z Z )
∂ ∂ X z z1 zn−1
D(z, w) = + ··· A(z1 )A(z2 ) · · · A(zn ) dzn dzn−1 · · · dz1 .
∂z ∂z n=1 w w w
( Z Z Z
z z z1
∂
= + A(z1 ) dz1 + A(z1 )A(z2 ) dz2 dz1
∂z w w w
Z Z Z )
z z1 z2
+ A(z1 )A(z2 )A(z3 ) dz3 dz2 dz1 + · · ·
w w w
Z z Z z Z z2
= 0 + A(z) + A(z)A(z2 ) dz2 + A(z)A(z2 )A(z3 ) dz3 dz2 + · · ·
w w w
Z z Z z Z z2
= A(z) + A(z2 ) dz2 + A(z2 )A(z3 ) dz3 dz2 + · · ·
w w w
Z z Z z Z z1
= A(z) + A(z1 ) dz1 + A(z1 )A(z2 ) dz2 dz1 + · · ·
w w w
= A(z)D(z, w),
como querı́amos provar. Acima, na passagem da quarta para a quinta linha, fizemos uma série de
mudanças de nomes das variáveis de integração, chamando z2 de z1 , z3 de z2 etc.
De maneira análoga prova-se também que
∂
D(z, w) = −D(z, w)A(w).
∂w
E. 6.8 Exercı́cio. Faça! 6
É também evidente pela definição (6.38) que para todo z vale D(z, z) = . Notemos que, por (6.39),
Y (z0 ) = D(z0 , z0 )Y0 = Y0 , mostrando que o lado direito de (6.39) satisfaz a condição Y (z0 ) = Y0 .
Derivando o lado direito de (6.39) em relação a z, tem-se
∂
Y 0 (z) = D(z, z0 )Y0 = A(z)D(z, z0 )Y0 = A(z)Y (z) ,
∂z
provando que o lado direito de (6.39) satisfaz a equação diferencial. Como a solução é única, ela deve
ser aquela dada em (6.39).
De maneira análoga ao caso real podemos igualmente provar que vale a regra de composição
D(z1 , z3 ) = D(z1 , z2 )D(z2 , z3 ) , (6.43)
para quaisquer z1 , z2 e z3 contidos no domı́nio simplesmente conexo onde A é analı́tica.

E. 6.9 Exercı́cio. Prove (6.43) mostrando que ambos os lados satisfazem as mesmas equações diferenciais
e as mesmas condições iniciais. 6
• A equação não-homogênea
E. 6.10 Exercı́cio importante. Para A e F analı́ticas em um domı́nio aberto e simplesmente conexo D

e limitadas em D, mostre que a solução geral da equação não-homogênea Y 0 (z) = A(z)Y (z) + F (z) com
condição Y (z0 ) = Y0 , z0 ∈ D é
Z z
Y (z) = D(z, z0 )Y0 + D(z, w)F (w)dw , (6.44)
z0
onde D(z, z0 ) foi definida acima e a integração do lado direito é tomada em qualquer curva simples,
contı́nua e diferenciável em D, pois D e F são analı́ticas em D. 6
• Analiticidade da solução
Uma importante conclusão que tiramos da análise acima é que, sob a hipótese que A é analı́tica
em D e limitada em D, então a solução Y da equação homogênea Y 0 (z) = A(z)Y (z) com condição
Y (z0 ) = Y0 , z0 ∈ D é igualmente analı́tica em D pois, como vimos, D(z, z0 ) é analı́tica em z.
• Soluções nulas
Há uma conseqüência das considerações acima que é bastante elementar, possuindo, porém, im-
plicações profundas, como veremos, por exemplo, quando discutirmos equações com pontos singulares.
Expressaremos essa conseqüência em forma de uma proposição:
Proposição 6.1 Seja a equação homogênea Y 0 (z) = A(z)Y (z) onde A(z) é analı́tica em um domı́nio
aberto e simplesmente conexo D. Então, se Ys (z) é uma solução dessa equação que se anula em um
ponto z0 ∈ D, ou seja, Ys (z0 ) = 0, vale Ys (z) = 0 para todo z ∈ D. 2
Essa proposição diz que se a solução de uma equação linear homogênea Y 0 (z) = A(z)Y (z) anula-se
em algum ponto de D (com A(z) analı́tica em um domı́nio aberto e simplesmente conexo D), então
ela anula-se em todo D. A prova é a simples observação que, pelo que vimos, a solução é dada por
Y (z) = D(z, z0 )Y (z0 ).
• Equações Matriciais Complexas
Até agora estudamos equações da forma Y 0 (z) = A(z)Y (z), com condição Y (z0 ) = Y0 , onde A(z) é
uma matriz m × m analı́tica em um domı́nio aberto e simplesmente conexo D que contem z0 e onde Y
é um vetor coluna com m componentes:
 
y1 (z)
 
Y (z) =  ...  .
ym (z)
Consideremos agora a equação M0 (z) = A(z)M(z), com condição M(z0 ) = M0 , onde A(z) e M(z)
são matrizes m × m, a incógnita sendo a matriz M(z) e a matriz A(z) sendo analı́tica em um domı́nio
aberto e simplesmente conexo D. Veremos facilmente que podemos tratar esse problema com os mesmos
métodos do anterior, onde a incógnita era um vetor coluna Y de m componentes e não uma matriz
quadrada. De fato, como toda matriz m × m, a matriz M(z) é da forma (para notação, vide página
142)
M(z) = [[M1 (z), . . . , Mm (z)]],
onde Mi (z) são vetores coluna com m componentes, representando a i-ésima coluna da matriz M(t).
Nessa notação a equação diferencial M0 (z) = A(z)M(z) fica
[[M10 (z), . . . , Mm
0
(z)]] = [[A(z)M1 (z), . . . , A(z)Mm (z)]],
ou seja, tem-se um conjunto de m sistemas de equações independentes
Mi0 (z) = A(z)Mi (z), i = 1, . . . , m (6.45)
do tipo que tratamos acima, onde as incógnitas são vetores coluna.

Para cada uma dessas equações valem todas as afirmações provadas acima. Assim concluı́mos que
a equação matricial M0 (z) = A(z)M(z), com condição M(z0 ) = M0 , tem solução única, a qual é dada
por
Mi (z) = D(z, z0 )Mi (z0 ), i = 1, . . . , m.
Reunindo as colunas Mi novamente na matriz M, temos
M(z) = D(z, z0 )M0
como solução única de M0 (z) = A(z)M(z), com condição M(z0 ) = M0 .

A partir do exposto acima é fácil demonstrar a validade da composição D(z, z 0 ) = D(z, z1 )D(z1 , z0 )
para quaisquer pontos z0 , z1 e z do domı́nio aberto e simplesmente conexo D. Como D(z0 , z0 ) = ,
isso em particular diz que toda matriz D(z, z0 ) é invertı́vel com D(z, z0 )−1 = D(z0 , z).
Uma simples mas importante observação que se pode fazer é que, como a matriz fundamental
D(z, z0 ) é invertı́vel, M(z) será invertı́vel para todo z ∈ D se e somente se M0 o for. Ou seja, se
a solução da equação M0 (z) = A(z)M(z), com A(z) analı́tica em um domı́nio aberto simplesmente
conexo D é analı́tica em um ponto de D, então o é em todo D.
Vamos aqui discutir propriedades dessas equações diferenciais matriciais homogêneas, com A(z)
uma matriz m × m analı́tica em um domı́nio aberto e simplesmente conexo D. Se M1 (z) é uma
solução desta equação, constata-se trivialmente que, para qualquer matriz m × m constante C, a
matriz M2 (z) = M1 (z)C é igualmente solução de M0 (z) = A(z)M(z), bastando para tal multiplicar a
equação à direita por C.
A seguinte afirmação recı́proca é também verdadeira:
Proposição 6.2 Se M1 (z) e M2 (z) são duas soluções invertı́veis de M0 (z) = A(z)M(z), com A(z)
analı́tica em um domı́nio aberto e simplesmente conexo D, então existe uma matriz constante invertı́vel
C tal que M2 (z) = M1 (z)C para todo z ∈ D. 2
Prova. Para ver isso, seja z0 um ponto arbitrário de D e defina-se M01 = M1 (z0 ) e M02 = M2 (z0 ). Seja
então C := (M01 )−1 M02 . Então, teremos que M3 (z), definida por M3 (z) = M2 (z) − M1 (z)C é também
solução da equação M0 (z) = A(z)M(z), mas que obviamente anula-se em z0 . Com isso, pela Proposição
6.1, M3 (z) é identicamente nula em todo D, ou seja, M2 (z) = M1 (z)C para todo z ∈ D.
Conseqüências dessas observações serão discutidas na Seção 6.6.3.
6.6.2 Resolução por Séries de Potências

A possibilidade, revelada acima, de se apresentar a solução da equação homogênea Y 0 (z) = A(z)Y (z)
com condição Y (z0 ) = Y0 , z0 ∈ D, em termos da matriz D(z, w) (a qual depende apenas de A) é
interessante do ponto de vista teórico mas nem sempre do ponto de vista prático, pois nem sempre é
possı́vel computar a série infinita de integrais de produtos de matrizes que compõe D(z, w) (a série de
Dyson). No entanto, uma das conclusões teóricas da análise acima, a saber, o fato de Y ser analı́tica,
aponta para um outro método de resolução, esse sim mais simples de ser usado em aplicações. Trata-se
do Método de Séries de Potências que descreveremos agora.
O fato de Y ser analı́tica nos diz a priori que Y pode ser expressa por uma série de Taylor
convergente centrada em z0 :
X∞
Y (z) = (z − z0 )n Yn , (6.46)
n=0
onde Yn são vetores-coluna constantes com m componentes, tal qual Y (z). Note-se que, pela expressão
acima, Y (z0 ) = Y0 . Para ver isso, tome z = z0 em ambos os lados da expressão.
Como a matriz A é igualmente analı́tica em torno de z0 , A pode ser expressa por uma série de
Taylor convergente centrada em z0 :
∞
X
A(z) = (z − z0 )n An ,
n=0
onde An são igualmente matrizes m × m constantes. Com isso, a equação diferencial Y 0 (z) = A(z)Y (z)
fica
∞ ∞
! ∞ !
X X X
(n + 1)(z − z0 )n Yn+1 = (z − z0 )k Ak (z − z0 )l Yl
n=0 k=0 l=0
∞ X
X ∞
= (z − z0 )k+l Ak Yl
k=0 l=0
∞
X n
X
= (z − z0 )n An−p Yp , (6.47)
n=0 p=0
o que nos leva a concluir que

n
1 X
Yn+1 = An−p Yp , ∀n ≥ 0. (6.48)
n + 1 p=0
E. 6.11 Exercı́cio importante. Complete os detalhes das deduções que levam a (6.47) e (6.48). 6
A expressão (6.48) nos permite obter os vetores Yn recursivamente a partir de Y0 . Com isso, a
solução Y (z) fica determinada por sua série de Taylor (6.46). Esse é o método de resolução por séries
de potências. Por exemplo, para n = 0, (6.48) nos dá
Y1 = A 0 Y0 .
Para n = 1, (6.48) nos dá

1 1
Y2 = (A1 Y0 + A0 Y1 ) = A1 + A20 Y0 ,
2 2
e assim por diante. Os primeiros termos da solução Y (z) são, então,
(z − z0 )2
Y (z) = Y0 + (z − z0 )A0 Y0 + A1 + A20 Y0 + · · ·
2

(z − z0 )2 2

= + (z − z0 )A0 + A 1 + A 0 + · · · Y0 . (6.49)
2
Isso permite-nos identificar a expressão entre colchetes {· · · } como sendo a expansão em série de
Taylor de D(z, z0 ).
E. 6.12 Exercı́cio. Determine Y3 e Y4 em termos de Y0 . 6
E. 6.13 Exercı́cio importante. Desenvolva o método de expansão em série de potências para a resolução
da equação não-homogênea Y 0 (z) = A(z)Y (z) + F (z) com condição Y (z0 ) = Y0 , z0 ∈ D, onde A e F são
analı́ticas em um domı́nio simplesmente conexo D e limitadas em D. 6
6.6.3 Sistemas com Pontos Singulares. Monodromia

Nas páginas anteriores consideramos equações diferenciais como Y 0 (z) = A(z)Y (z) onde A(z) era
suposta ser analı́tica em um certo domı́nio aberto e simplesmente conexo D. Há inúmeros problemas
importantes nos quais essa situação não é encontrada, de modo que devemos afrouxar um pouco as
condições sobre a analiticidade de A(z). Consideraremos aqui a situação na qual A é analı́tica dentro
de um anel aberto Az0 , a, b centrado em z0 ∈ com raio interno a e raio externo b definido por
n o
Az0 , a, b := z ∈ a < |z − z0 | < b ,
sendo 0 ≤ a < b (os casos em que a = 0 e/ou b = ∞ podem ser também permitidos). Vide Figura
6.1. Uma tı́pica situação na qual isso ocorre se dá quando A(z0 ), ou seja, alguns de seus elementos de
matriz, tem uma singularidade tipo pólo ou essencial6 em um ponto z0 . Em verdade, interessaremo-nos
mais pelo caso de singularidades tipo pólo, caso que, felizmente, corresponde à maioria das aplicações.
6
Para o estudante que queira recordar esses conceitos sugerimos, por exemplo, [19].
Notemos que a hipótese de A(z) ser analı́tica em um anel Az0 , a, b significa que A(z) pode ser expressa
em uma série de Laurent7 convergente (vide e.g. [19]) em Az0 , a, b :
∞
X
A(z) = (z − z0 )m Am .
m=−∞
Notemos que um anel Az0 , a, b é a união domı́nios abertos e simplesmente conexos do tipo Sz0 , a, b (φ1 , φ2 ),
b
a
z0
Figura 6.1: Um anel do tipo Az0 , a, b .
com 0 < φ2 − φ1 < 2π, onde

Sz0 , a, b (φ1 , φ2 ) := z ∈ | z − z0 = ρeiφ , com a < ρ < b e φ1 < φ < φ2 .
Denominaremos essas regiões setores. Vide Figura 6.2.
• Monodromia
Se tomarmos z1 e z dentro do anel Az0 , a, b , podemos encontrar um setor Sz0 , a, b (φ1 , φ2 ) que contem
ambos os pontos (se, por exemplo, na representação polar, z1 = ρ1 eiθ1 e z = ρeiθ , podemos tomar
φ1 < min{θ1 , θ} mod 2π e φ2 < max{θ1 , θ} mod 2π). Como A é analı́tica dentro de um tal setor
e o mesmo é simplesmente conexo, podemos representar a matriz de Dyson D(z, z1 ) na forma (6.38)
7
Pierre Alphonse Laurent (1813-1854).
φ
2
b φ
a 1
z0
Figura 6.2: Em cinza, um setor Sz0 , a, b (φ1 , φ2 ) no interior do anel Az0 , a, b .
com as integrais tomadas em um caminho orientado de z1 a z inteiramente contido no interior de

Sz0 , a, b (φ1 , φ2 ) (e, portanto, de Az0 , a, b ). Isso permite definir D(z, z1 ) dentro de cada setor.
Uma questão muito importante para o que segue é saber o que ocorre com a matriz D(z, z 1 ) se,
fixando z1 , fizermos z dar uma volta de 2π em torno do ponto z0 . Mais precisamente, consideremos os
pontos z(φ) definidos por z(φ) := (z − z0 )eiφ + z0 . Como é fácil constatar, ao variarmos φ entre 0 e 2π,
z(φ) move-se em um cı́rculo de raio |z − z0 | centrado em z0 e orientado em sentido anti-horário, sendo
que z(0) = z(2π) = z. Para 0 ≤ φ < 2π, os pontos z1 e z(φ) estão dentro de algum setor simplesmente
conexo de Az0 , a, b e podemos escrever, por (6.43), D(z(φ), z1 ) = D(z(φ), z)D(z, z1 ).
Consideremos a matriz D(z(φ), z). A mesma pode ser expressa na forma (6.38), sendo que podemos
tomar como caminho de integração o arco de cı́rculo orientado no sentido anti-horário C(φ) que vai de
z a z(φ) (lembremo-nos que |z(φ) − z0 | = |z − z0 |). Vide Figura 6.3. A para a matriz D(z, z1 ) podemos
tomar o caminho de integração C1 da Figura 6.3. A medida em que φ aproxima-se de 2π, o caminho
de integração aproxima-se do cı́rculo fechado de raio |z − z0 | (indicado por C na Figura 6.3), orientado
de z a z no sentido anti-horário. Vemos assim que
lim D(z(φ), z1 ) = M D(z, z1 ) onde M := lim D(z(φ), z) .

φ→2π φ→2π
Pela definição e pela representação (6.38),

X∞ I Z w1 Z wn−1
M = + ··· A(w1 )A(w2 ) · · · A(wn ) dwn dwn−1 · · · dw1 , (6.50)
n=1 z z z
H
onde por z
entende-se a integração (na variável w1 ) de z a z tomada ao longo do cı́rculo fechado C de
C1
C(φ)
z1
φ
z0
z(φ)
Figura 6.3: O arco de cı́rculo orientado no sentido anti-horário C(φ) que vai de z a z(φ).
raio |z − z0 |, orientado de z a z no sentido anti-horário. Como se percebe, esse cı́rculo corresponde ao

arco C(2π).
Devido à expressão (6.50), é fácil constatar que M , não depende da particular curva C tomada
unindo z a z, desde que essa curva dê exatamente uma volta em torno de z0 sentido anti-horário
sem abandonar Az0 , a, b . Devido ao fato de o integrando ser analı́tico dentro de todos os setores de
Az0 , a, b , podemos deformar continuamente o caminho de integração sem alterar seu valor, desde que
não se abandone Az0 , a, b . Podemos, assim, tomar como caminho de integração em (6.50) qualquer curva
fechada que dê uma volta completa no sentido anti-horário em torno de z0 ao longo do anel Az0 , a, b ,
sem sair do mesmo. Em particular, vemos com esse argumento que M também não depende do ponto
z.
A matriz M é denominada matriz de monodromia associada à matriz A(z) em Az0 , a, b . Se M 6= ,
dizemos que D(z, z1 ) possui uma monodromia não-trivial.
Caso M 6= (veremos exemplos logo adiante), a matriz de Dyson D(z, z1 ) não é uma função
unı́voca, ou seja, quando a variável z dá uma volta de 2π em torno de z0 , D(z, z1 ) não volta ao
mesmo valor. Esse fenômeno é bem conhecido na teoria das funções de variável complexa e é associado
à presença de singularidades do tipo ponto de ramificação. Por exemplo, para a função complexa
ln(z), z 6= 0, vale lim ln(zeiφ ) = ln(z) + 2πi e para a função complexa z γ , z 6= 0, com γ 6∈ , vale
φ→2π
iφ γ 2πγi γ
lim (ze ) = e z .
φ→2π
• Mais propriedades da matriz de monodromia
Um comentário que será importante é que toda matriz de monodromia é invertı́vel. Para ver-
mos isso, notemos que pela definição, M = limφ→2π D(z(φ), z). Assim, considerando o ponto z(π)
(escolhido de forma arbitrária, porém conveniente), tem-se pela fórmula de composição (6.43) que
M = limφ→2π D(z(φ), z) = limφ→2π D(z(φ), z(π))D(z(π), z) = Db (z, z(π))Da (z(π), z), sendo que
Da (z 0 , z) envolve integrações ao longo de um arco Ca , orientado de z a z(π), e Db (z, z(π)) envolve
integrações ao longo do arco Cb , orientado de z(π) a z. Ambos os arcos estão contidos em Az0 , a, b . A
união Ca ∪ Cb é uma curva fechada que dá exatamente uma volta completa no sentido anti-horário em
torno de z0 ao longo do anel Az0 , a, b , sem sair do mesmo. Ambas as matrizes Da (z 0 , z) e Db (z, z 0 ) são
invertı́veis. Portanto, a matriz M também o é.
Um segundo comentário é que a matriz de monodromia comuta com D(z, z1 ) e com A(z) para
todos z, z1 ∈ Az0 , a, b . Para ver isso, considere a curva C, fechada, orientada, inteiramente contida em
Az0 , a, b , indicada na Figura 6.4. Essa curva é a fronteira deH uma região simplesmente conexa, portanto,
se f (z) é uma função analı́tica em Az0 , a, b , sua integral C f (w) dw ao longo de C é nula. Por essa
razão, tem-se que
X∞ I Z w1 Z wn−1
+ ··· A(w1 )A(w2 ) · · · A(wn ) dwn dwn−1 · · · dw1 = , (6.51)
n=1 C z z
pois todas as integrais ao lado direito se anulam (os integrandos são analı́ticos). A curva C pode
ser continuamente deformada à curva fechada indicada na Figura 6.5 sem alterar a igualdade (6.51).
Tem-se agora, porém, que o percurso ao longo de C pode ser caminhado pelo seguinte conjunto de
percursos sucessivos: 1) partindo do ponto z1 ao longo da curva C1 até o ponto z; 2) partindo de z ao
longo da curva fechada C2 , orientada no sentido anti-horário, até de volta a z; 3) partindo de z até z1 ,
ao longo da curva C3 ; 4) partindo de z1 ao longo da curva fechada C4 , orientada no sentido horário, até
de volta a z1 . Essas considerações e a expressão para M em (6.50) em termos de integrações ao longo
de um circuito arbitrário fechado que dá uma volta no sentido anti-horário em torno de z 0 , levam-nos
a concluir que (6.51) significa que
M −1 D(z1 , z)M D(z, z1 ) = .
Como D(z1 , z) = D(z, z1 )−1 , concluı́mos que M D(z, z1 ) = D(z, z1 )M , ou seja, M e D(z, z1 )
comutam para quaisquer z, z1 ∈ Az0 , a, b . Derivando em relação a z, obtemos M A(z)D(z, z1 ) =
A(z)D(z, z1 )M e tomando z1 = z, segue que M A(z) = A(z)M , ou seja, M e A(z) comutam para
qualquer z ∈ Az0 , a, b .
Os dois exercı́cios que seguem exibem mais propriedades de matrizes de monodromia em certos
casos.
E. 6.14 Exercı́cio. Monodromia no caso comutativo. Considere o caso em que A(z) é uma matriz
analı́tica no anel Az0 , a, b e tal que A(z)A(z 0 ) = A(z 0 )A(z) para todos z, z 0 ∈ Az0 , a, b . Usando (6.35),
página 318, e (6.50), mostre que I
M = exp A(w) dw , (6.52)
H
a integral sendo tomada ao longo de qualquer curva fechada que dê exatamente uma volta completa no
sentido anti-horário em torno de z0 ao longo do anel Az0 , a, b , sem sair do mesmo. 6
z0
Figura 6.4: A curva fechada orientada C.
E. 6.15 Exercı́cio. Sejam A(z) matrizes n × n analı́ticas no anel A z0 , a, b . Suponha que dentro de
Az0 , a, b existam n2 pontos distintos z1 , . . . , zn2 com a propriedade que as n2 matrizes A(z1 ), . . . , A(zn2 )
são linearmente independentes. Mostre que isso implica que M = η para algum η ∈ , η 6= 0. Sugestão:
explore o fato que M A(z) = A(z)M para todo z ∈ Az0 , a, b . 6
Antes de examinarmos as conseqüências da existência de uma monodromia não-trivial para a matriz

D(z, z1 ) , devemos mostrar exemplos concretos onde se tem M 6= .
• Monodromia não trivial. Um exemplo
O seguinte exemplo8 é ilustrativo. Seja A(z) = z −1 R, onde R é a matriz constante

λ 1
R = , (6.53)
0 λ
sendo λ um número complexo fixo arbitrário. Claramente A(z) é singular em z0 = 0 e analı́tica em

todo anel A0, b = {z ∈ | 0 < |z| < b}, com qualquer b > 0. Tomando z1 ∈ A0, b , fixo, a matriz de
8
Esse exemplo é extraı́do com pequenas modificações de [117].
C1 C3
z1
C2
z0
C4
Figura 6.5: A curva fechada orientada C composta dos segmentos orientados C 1 , C2 , C3 e C4 . Os

pontos z1 e z.
Dyson D(z, z1 ) é dada por9 !

λ
z 1 ln zz1
D(z, z1 ) = , (6.54)
z1 0 1
∂
pois, como facilmente se constata, essa matriz satisfaz ∂z
D(z, z1 ) = A(z)D(z, z1 ) e D(z1 , z1 ) = .
E. 6.16 Exercı́cio. As matrizes A(z) = z −1 R, acima, comutam para valores diferentes de z. Por essa
razão, D(z, z1 ) pode ser calculada com o uso da expressão (6.35), página 318. Obtenha (6.54) dessa forma.
6
Fixando-se z1 , é fácil verificar que

iφ λ iφ ! λ !
iφ ze 1 ln zez1 2πiλ z 1 ln z
z1
+ 2πi
lim D(ze , z1 ) = lim = e = M D(z, z1 ) ,
φ→2π φ→2π z1 0 1 z1 0 1
com a matriz de monodromia M sendo dada por

2πiλ 1 2πi
M = e . (6.55)
0 1
9
Em tudo o que segue utilizaremos o chamado ramo principal do logaritmo de uma variável complexa z. Ou seja, se
z∈ tem a decomposição polar z = |z|eiφ com −π ≤ φ < π, então ln(z) = ln |z| + iφ.
E. 6.17 Exercı́cio. Obtenha (6.55) fazendo uso da relação (6.52), válida no caso comutativo. Verifique
explicitamente que M A(z) = A(z)M para todo z ∈ A0, b . Vide Exercı́cio E. 6.14. 6
E. 6.18 Exercı́cio. Mostre, fazendo uso da relação (6.52), que para qualquer matriz R a matriz de
monodromia associada às funções A(z) = z −p R, com p ∈ , p =
6 1, é M = , ou seja, a monodromia é
trivial. 6
A existência de monodromias não-triviais em equações singulares do tipo que consideramos aqui é

um fato relevante que, como veremos, tem conseqüências sobre a forma geral das soluções.
• Um comentário sobre a matriz de monodromia
Como já observamos, toda matriz de monodromia M é invertı́vel. Vamos mostrar que para cada
M existe uma matriz Γ tal que M = e2πiΓ . Por exemplo, para a M dada em (6.55) podemos tomar
Γ = R, onde R é dada em (6.53) (verifique!). Para a prova geral, vamos primeiro escrever M na sua
forma de Jordan (vide Teorema 3.18, página 192): seja T invertı́vel tal que T −1 M T = D + N onde D
é diagonal, N é nilpotente e DN = N D. Definimos, então,
1
Γ := T ln D + ln( + D −1 N ) T −1 .
2πi
Antes de prosseguirmos comentemos que essa expressão está bem definida. De fato, D é uma matriz
diagonal D = diag (d1 , . . . , dm ), tendo na diagonal os autovalores de M . Como M é invertı́vel, nenhum
desses autovalores é nulo, assim ln D está bem definida como ln D = diag (ln(d1 ), . . . , ln(dm )). Fora
P −1 k
isso, ln( + D −1 N ) é dada (já que D e N comutam) por ∞ k k
k=0 (−1) (D ) N , que é uma soma finita,
pois N é nilpotente.
Isto posto, dado que ln D e ln( + D −1 N ) comutam (por que?), é fácil então ver que

e2πiΓ = T exp ln D + ln( + D −1 N ) T −1

= T exp (ln D) exp ln( + D −1 N ) T −1
= T D( + D −1 N )T −1 = T (D + N )T −1
= M,
Logo abaixo usaremos a matriz Γ e o fato agora provado que M = e2πiΓ para extrair algumas
conclusões sobre a forma geral das soluções com pontos singulares do tipo aqui tratado. Para isso,
faremos uso da matriz eln(z−z0 )Γ . Vamos discutir sua forma geral. Como toda matriz, Γ pode ser
conduzida à sua forma de Jordan por uma transformação de similaridade: existe matriz Q invertı́vel
tal que QΓQ−1 = D0 + N0 onde D0 é diagonal, N0 é nilpotente e D0 N0 = N0 D0 . Com isso,
eln(z−z0 )Γ = Q−1 eln(z−z0 )(D0 +N0 ) Q = Q−1 eln(z−z0 )D0 eln(z−z0 )N0 Q.
Se a matriz D0 for a matriz diagonal diag (γ1 , . . . , γm ) então a matriz eln(z−z0 )D0 é a matriz diagonal
diag ((z − z0 )γ1 , . . . , (z − z0 )γm ). Por outro lado, como N0 é nilpotente de ı́ndice menor ou igual a m
(ou seja N0m = 0), os elementos de matriz de eln(z−z0 )N0 são polinômios em ln(z − z0 ) de ordem menor
ou igual a m − 1. Conseqüentemente, cada elemento de matriz eln(z−z0 )Γ ab é da forma
m−1 m
!
X X
ln(z−z0 )Γ
e ab
= (z − z0 )γl Cab
kl
(ln(z − z0 ))k (6.56)
k=0 l=1
kl
para certas constantes complexas Cab (algumas podendo ser nulas).
Note-se que os γl são, em geral, números complexos: os autovalores de Γ.
E. 6.19 Exercı́cio importante. Complete os detalhes que levam a (6.56). 6
Observação importante. Como a expansão de eln(z−z0 )N0

m−1
X
ln(z−z0 )N0
e = + (ln(z − z0 ))k N0k
k=1
contem o termo , a expansão (6.56) sempre contem um termo não-nulo do tipo (ln(z − z 0 ))k com
k = 0, ou seja, há um termo não-nulo que não envolve potências de ln(z − z0 ). Essa observação será
lembrada adiante.
• A Forma Geral das Soluções
Essa discussão é baseada na referência [117], cuja leitura recomendamos.
Seja a equação Y 0 (z) = A(z)Y (z) com A(z) analı́tica no anel Az0 , a, b e seja como antes D(z, z1 ),
z, z1 ∈ Az0 , a, b , uma matriz fundamental dessa equação com uma matriz de monodromia M = e2πiΓ .
Para z1 fixo, seja S(z) a matriz definida por
S(z) = e− ln(z−z0 )Γ D(z, z1 ) .
Pelas hipóteses sobre D(z, z1 ) e pelas propriedades da função logaritmo, S(z) é analı́tica em cada setor
Sz0 , a, b (φ1 , φ2 ) com 0 < φ2 − φ1 < 2π.
Consideremos o que ocorre com S(z) quando a variável z dá uma volta de 2π em torno de z 0 , ou

seja, comparemos S(z) com10 limφ→2π S (z − z0 )eiφ + z0 . Temos que
!

lim S (z − z0 )eiφ + z0 = lim exp − ln((z − z0 )eiφ )Γ D (z − z0 )eiφ + z0 , z1
φ→2π φ→2π

− ln((z−z0 ))Γ
−iφΓ iφ

= e lim e lim D (z − z0 )e + z0 , z1
φ→2π φ→2π
= e− ln((z−z0 ))Γ e−2πiΓ M D(z, z1 )
= e− ln((z−z0 ))Γ M −1 M D(z, z1 )
= e− ln((z−z0 ))Γ D(z, z1 )
= S(z) .
Isso diz-nos que S(z) é contı́nua no anel Az0 , a, b . Como é analı́tica em cada setor Sz0 , a, b (φ2 , φ1 ) com
0 < φ2 − φ1 < 2π, concluı́mos que S(z) é analı́tica em Az0 , a, b . Se pudermos tomar o raio interno do
anel arbitrariamente pequeno, S(z) pode ser singular em z0 . Essa singularidade, porém, se houver,
será do tipo pólo ou do tipo singularidade essencial, mas não do tipo ponto de ramificação, pois isso
contrariaria o fato de S(z) ser analı́tica em qualquer anel centrado em z0 .
Resumimos nossos conclusões em forma de uma proposição.
Proposição 6.3 Seja a equação Y 0 (z) = A(z)Y (z) com A(z) matriz m × m analı́tica no anel Az0 , a, b
e seja como antes D(z, z1 ), com z, z1 ∈ Az0 , a, b , uma matriz fundamental dessa equação com matriz
de monodromia M = e2πiΓ . Então, para z1 fixo, D(z, z1 ) é da forma
D(z, z1 ) = eln(z−z0 )Γ S(z), (6.57)
onde S(z) é analı́tica no anel Az0 , a, b . Se pudermos tomar o raio interno do anel arbitrariamente
pequeno, S(z) pode ser singular em z0 , a singularidade, se houver, sendo do tipo pólo ou do tipo
singularidade essencial.
Conseqüentemente, por (6.56), cada elemento de matriz D(z, z1 )ab , para z1 fixo, é da forma
m−1
XX m
D(z, z1 )ab = (z − z0 )γl (ln(z − z0 ))k Fab
kl
(z) , (6.58)
k=0 l=1
kl
a, b = 1, . . . , m, onde cada função Fab (z) é analı́tica no anel Az0 , a, b . Novamente, se pudermos
kl
tomar o raio interno do anel arbitrariamente pequeno, cada Fab (z) pode ser singular em z0 . Essa
singularidade, se houver, é do tipo pólo ou do tipo singularidade essencial. As constantes complexas γ l
são os autovalores de Γ. Os termos com k = 0 são não-nulos. 2
10
Note que, para z e z0 fixos, quando φ varia de 0 a 2π os pontos (z − z0 )eiφ + z0 descrevem um cı́rculo orientado no
sentido anti-horário no plano complexo e centrado em z0 . Esse cı́rculo tem raio |z − z0 |, inicia-se e termina em z.
E. 6.20 Exercı́cio importante. Complete os detalhes que conduzem a (6.58). 6
E. 6.21 Exercı́cio. Qual a relação entre os expoentes γl e os autovalores da matriz de monodromia M ?

Sugestão: pela construção acima, os expoentes γl são os autovalores de Γ e M = e2πiΓ . 6
• O Método de Frobenius
A forma geral das matrizes fundamentais apresentada acima sugere e justifica um método de solução
para o caso de sistemas de equações lineares provenientes de uma equação diferencial ordinária de ordem
m (vide Seção 6.7):
y (m) (z) + am−1 (z)y (m−1) (z) + · · · a1 (z)y 0 (z) + a0 (z)y(z) = 0, (6.59)
onde as funções a0 (z), . . . , am−1 (z) são analı́ticas em
Az0 , b := {z ∈ | 0 < |z − z0 | < b}.
O método consiste em procurar soluções na forma y(z) = (z − z0 )γ (ln(z − z0 ))k f (z), para algum γ ∈ ,
algum k = 0, . . . , m − 1, inteiro e f (z) analı́tica no anel Az0 , b . Como f possui uma singularidade tipo
pólo ou essencial em z0 , ela pode ser representada em Az0 , b por uma série de Laurent convergente (vide
e.g. [19]):
X∞
f (z) = cn (z − z0 )n .
n=−∞
A tarefa consiste em determinar γ ∈ , k = 0, . . . , m − 1, e os coeficientes cn de modo que a equação

(6.59) seja satisfeita.
Esse método é conhecido como método de Frobenius11 . Em certos casos esse método é muito eficaz,
fornecendo soluções para uma classe muito grande de equações diferenciais de interesse. Mais sobre ele,
adiante.
Note-se que, pela observação importante da página 334, sempre há pelo menos uma solução que
não envolve potências de ln(z − z0 ).
• Singularidades tipo pólo de S(z). Pontos Singulares Regulares
Retornando à (6.57), façamos alguns comentários sobre as singularidades de S(z) em z 0 .

Como dissemos, caso z0 seja um ponto singular de A(z), a matriz S(z), sendo analı́tica em Az0 , b , ou
possui uma singularidade do tipo pólo em z0 ou uma singularidade essencial. No caso de a singularidade
ser do tipo pólo (de qualquer ordem), z0 é dito ser um ponto singular regular12 da equação Y 0 (z) =
A(z)Y (z).
11
Ferdinand Georg Frobenius (1849-1917).
12
Comentário. A expressão “ponto singular regular” parece conter uma contradição em termos pois, na teoria das
funções de variáveis complexas, os adjetivos “singular” e “regular” são comummente empregados como antônimos. A
expressão “ponto singular regular” aparentemente provem de uma tradução imprecisa do Alemão, mas manteve-se, por
razões históricas, em várias lı́nguas. Na expressão “ponto singular regular” o adjetivo “regular” deve ser entendido no
sentido de “comum”, “ordinário”. Com isso pretende-se dizer que a singularidade em z 0 não é do tipo mais grave, como
no caso de singularidades essenciais.
No caso de z0 ser um ponto singular regular uma simplificação importante pode ser feita.
Se S(z) tem um pólo de ordem l em z0 , então S(z) = (z − z0 )−l S0 (z), onde S0 (z) é analı́tica em z0 .
Com isso, a forma geral (6.57) pode ser reescrita como
0
D(z, z1 ) = S0 (z) eln(z−z0 )Γ ,
onde Γ0 = Γ − l .
Como se constata, é a mesma forma de (6.57), envolvendo apenas uma redefinição da matriz Γ,
sendo que agora o fator S0 (z) é uma matriz analı́tica. O ponto importante é que a conclusão (6.58)
sobre a forma geral dos elementos de matriz de D(z, z1 ) é igualmente válida, sendo que agora, porém,
kl
as funções Fab (z) são funções analı́ticas de z em z0 e não apenas no anel Az0 , b .
Nesse caso, então, o método de Frobenius discutido acima adquire o seguinte aspecto: procura-se
soluções na forma
∞
X
y(z) = (z − z0 )γ (ln(z − z0 ))k cn (z − z0 )n
n=0
e tenta-se determinar γ, k e os coeficientes cn de modo que a equação diferencial seja satisfeita. Esse
método é eficaz e, em muitos casos, prático, fornecendo soluções para várias equações diferenciais de
interesse na Fı́sica. Mais sobre o método de Frobenius pode ser encontrado nos bons livros sobre
equações diferenciais e Fı́sica-Matemática ou no Capı́tulo 7, com exemplos.
A questão que se coloca então é: quando ocorre que S(z) possui apenas singularidades do tipo
pólo em z0 ? A resposta depende do tipo de singularidade que a própria matriz A(z) possui em z0 .
Começaremos a discutir isso na Seção 6.6.4.
6.6.4 Sistemas com Pontos Singulares Simples

Nesta seção seguiremos muito proximamente a discussão da Seção 2 do capı́tulo V da referência [117],
cuja leitura recomendamos fortemente.
De especial importância em aplicações são equações diferenciais Y 0 (z) = A(z)Y (z) nas quais A(z)
possui um pólo simples em z0 , ou seja, A(z) é da forma A(z) = (z − z0 )−1 A0 (z), onde A0 (z) é analı́tica
em z0 . Nesse caso, em que z0 é um pólo simples de A(z), dizemos que z0 é um ponto singular simples
da equação diferencial.
Essa situação é também particularmente feliz pois, como veremos, nesse caso z 0 é um ponto singular
regular. Isso é o conteúdo do seguinte teorema:
Teorema 6.1 Se z0 é um ponto singular simples da equação diferencial Y 0 (z) = A(z)Y (z), ou seja,
A0 (z) := (z − z0 )A(z) é analı́tica em z0 , então z0 é um ponto singular regular dessa equação, ou seja,
S(z) (definida acima) tem no máximo uma singularidade tipo pólo em z 0 . 2
Prova. (Extraı́da de [117], com ligeiras modificações). Comecemos com alguns comentários prepa-
ratórios.
1. Para uma matriz complexa m×m qualquer K denotamos por kKk sua norma operatorial, definida
por
kKvk
kKk := sup ,
v∈ m , v6=0 kvk

p
onde, para v = (v1 , . . . , vm ) ∈ m , definimos a norma vetorial kvk := |v1 |2 + · · · + |vm |2 .
2. Para qualquer elemento ab de uma matriz K vale

v
u m
uX
|Kab | ≤ t |Kcb |2 = kKeb k ,
c=1
onde eb é o vetor da base canônica cuja b-ésima componente é 1 e as demais são nulas. Como é
óbvio, keb k = 1. Assim,

kKeb k
kKvk
|Kab | ≤ ≤ sup =: kKk. (6.60)

keb k
v∈
m , v6=0 kvk
E. 6.23 Exercı́cio. Justifique a segunda desigualdade. 6
3. Da definição da norma operatorial de uma matriz K, é evidente que vale kKvk ≤ kKk kvk
para qualquer vetor v. Pela definição, é bem fácil constatar desse fato que norma operatorial de
um produto de matrizes satisfaz
kKLk ≤ kKk kLk, (6.61)
para quaisquer matrizes complexas m × m K e L.
4. Por (2.19), vale que | kKk − kLk | ≤ kK − Lk para quaisquer matrizes m × m complexas K e L.
Se, em particular B(z) for uma matriz analı́tica na variável complexa z, a desigualdade
| kB(z1 )k − kB(z2 )k | ≤ kB(z1 ) − B(z2 )k
implica
d
kB(z)k ≤ kB 0 (z)k. (6.62)
dz
Agora passemos à demonstração do teorema.

Com z, z1 ∈ Az0 , b e z1 fixo, vamos denotar D(z, z1 ) por Φ(z). Obviamente, Φ(z) satisfaz
Φ0 (z) = A(z)Φ(z) = (z − z0 )−1 A0 (z)Φ(z). (6.63)
Vamos escrever, para z ∈ Az0 , b ,

z = z0 + reiθ .
Assim, r > 0 mede a distância de z a z0 . Vamos também definir, para r > 0,

f (r, θ) := kΦ (z)k = Φ z0 + reiθ = D z0 + reiθ , z1 .
Temos que
∂f ∂
Φ z0 + reiθ = ∂z d kΦ (z)k = eiθ d kΦ (z)k .
(r, θ) =
∂r ∂r ∂r dz dz
Assim,

∂f d
(r, θ) = kΦ (z)k
∂r dz
por (6.62)
≤ kΦ0 (z)k

(z − z0 )−1 A0 (z)Φ(z) = 1 kA0 (z)Φ(z)k
por (6.63)
≤
r
por (6.61) 1 1
≤ kA0 (z)k kΦ(z)k = kA0 (z)k Φ z0 + reiθ
r r
1
= kA0 (z)k f (r, θ)
r
C
≤ f (r, θ),
r
onde C := sup kA0 (z)k. Note-se que C é finito pois, por hipótese, A0 (z) é analı́tica em torno de z0 .
|z−z0 |<a
C
Obviamente, o fato que ∂f
∂r
(r, θ) ≤ f (r, θ) implica
r
∂f C
(r, θ) + f (r, θ) ≥ 0.
∂r r
Obviamente, essa relação diz que
1 ∂f C
(r, θ) + ≥ 0,
f (r, θ) ∂r r
ou seja,
∂
ln r C f (r, θ) ≥ 0.
∂r
Integrando essa expressão entre r e r1 (com 0 < r < r1 < a. Doravante, r1 estará fixo.), temos
C
r1 f (r1 , θ)
ln ≥ 0.
r C f (r, θ)
Para x positivo, ln x ≥ 0 implica x ≥ 1. Assim, r1C f (r1 , θ) ≥ r C f (r, θ). Isso implica
d
f (r, θ) ≤ ,
rC
com d := max0≤θ≤2π r1C f (r1 , θ). Com o que vimos, estabelecemos que
d
kΦ (z)k ≤
|z − z0 |C
para todo z ∈ Az0 , b com |z − z0 | < r1 . Sabemos que S(z) = e− ln(z−z0 )Γ Φ (z). Logo, com |z − z0 | < r1 ,
d − ln(z−z )Γ
kS(z)k ≤ kΦ (z)k e− ln(z−z0 )Γ ≤ C
e 0 . (6.64)
|z − z0 |

Vamos agora concentrar-nos em e− ln(z−z0 )Γ . Como é fácil de se ver, vale para qualquer matriz B e
qualquer número complexo β

βB X∞
β k X ∞
|β|k k X∞
|β|k
e = + k
B ≤ 1+ kB k ≤ 1 + kBkk = e|β| kBk .
k! k! k!
k=1 k=1 k=1
Para qualquer número complexo w = |w|eiφ , tem-se ln w = ln |w| + iφ (vide nota-de-rodapé 9, à

página 332) e, portanto, | ln w|2 = (ln |w|)2 + (φ)2 ≤ (| ln |w|| + |φ|)2 . Logo, | ln w| ≤ | ln |w|| + |φ| ≤
| ln |w|| + π. Se |w| < 1 isso pode ser escrito como
| ln w| ≤ − ln |w| + π.
Assim, escolhendo |z − z0 | < 1, teremos

− ln(z−z )Γ kΓk kΓk eπkΓk
e 0 ≤ e| ln(z−z0 )|kΓk = e| ln(z−z0 )| ≤ e− ln |z−z0 | eπ = .
|z − z0 |kΓk
Retornando a (6.64), concluı́mos que para |z − z0 | < r1 e |z − z0 | < 1, tem-se

d0
kS(z)k ≤ ,
|z − z0 |p
onde p := C + kΓk ≥ 0 e d0 = deπkΓk . Logo, por (6.60), vale para cada elemento de matriz S(z)ab de
S(z)
lim |z − z0 |p |S(z)ab | ≤ d0 ,
z→z0
sendo, portanto, finito. Isso implica que para qualquer inteiro k maior que p tem-se que a matriz
(z − z0 )k S(z) é analı́tica em z0 , implicando que S(z) tem uma singularidade tipo pólo em z0 .
• Um comentário
A recı́proca do Teorema 6.1 não é verdadeira: um contra-exemplo (de [117]) sendo o caso em que

0 1
A(z) = ,
2z −2 0
que claramente tem um pólo de ordem dois em z0 = 0. Não se trata, portanto, de uma singularidade
simples. Para esse caso, porém, tem-se, para todo z, z1 ∈ Az0 , b ,
 −1 
2z z1 + z 2 z1−2 z 2 z1−1 − z −1 z12
1
D(z, z1 ) =  .
3 −2 −1
2(zz1 − z −2 z1 ) 2zz1 + z −2 z12
Claramente z0 = 0 é um ponto singular regular, já que D(z, z1 ) tem um pólo de ordem 2 em z0 = 0.
∂
E. 6.26 Exercı́cio. Para A e D dados acima, verifique que ∂z D(z, z1 ) = A(z)D(z, z1 ) e que
D(z1 , z1 ) = . Verifique que a matriz de monodromia de D(z, z1 ) é . 6
• A forma geral das soluções no caso de singularidades simples
A conclusão mais importante do teorema 6.1 diz respeito à forma geral das soluções de equações
com pontos singulares simples. Resumimos tudo no seguinte teorema.
Teorema 6.2 Seja a equação Y 0 (z) = A(z)Y (z) com A(z) matriz m × m analı́tica no anel Az0 , b
(para algum b > 0), z0 sendo um ponto singular simples dessa equação diferencial, ou seja, A 0 (z) :=
(z − z0 )A(z) é analı́tica em z0 . Seja como antes D(z, z1 ), z, z1 ∈ Az0 , b , uma matriz fundamental
dessa equação com matriz de monodromia M = e2πiΓ . Então, para z1 fixo, D(z, z1 ) é da forma
D(z, z1 ) = eln(z−z0 )Γ S(z), onde S(z) é analı́tica no anel Az0 , b e tem no máximo uma singularidade
tipo pólo em z0 . Isso significa que S(z) é da forma S(z) = (z − z0 )−l S0 (z), para algum inteiro l ≥ 0,
onde S0 é analı́tica em z0 . Com isso, definindo Γ0 = Γ − l , concluı́mos que D(z, z1 ) é da forma
0
D(z, z1 ) = eln(z−z0 )Γ S0 (z), (6.65)
Conseqüentemente, cada elemento de matriz D(z, z1 )pq , para z1 fixo, é da forma

m−1
XX m
D(z, z1 )pq = (z − z0 )γl (ln(z − z0 ))k Fpq
kl
(z) , (6.66)
k=0 l=1
kl
p, q = 1, . . . , m, onde as funções Fpq (z) são analı́ticas em z0 , podendo, portanto, ser expressas por
séries de Taylor centradas nesse ponto. As constantes complexas γ l são os autovalores de Γ0 . Os termos
com k = 0 são não-nulos. 2
6.7 Sistemas Provenientes de EDO’s de Ordem m

Considere-se a equação diferencial linear homogênea complexa de ordem m
y (m) (z) + am−1 (z)y (m−1) (z) + · · · a1 (z)y 0 (z) + a0 (z)y(z) = 0, (6.67)
onde as m funções a0 , . . . , am−1 são analı́ticas em um domı́nio aberto simplesmente conexo comum D.
É fácil constatar (faça!) que essa equação equivale ao sistema
Y 0 (z) = A(z)Y (z),
onde  
y(z)
 y 0 (z) 
 
Y (z) :=  ..  (6.68)
 . 
y (m−1) (z)
e A(z) é a matriz m × m
 
0 1 0 0 ··· 0
 
 
 0 0 1 0 ··· 0 
 
 
 .. .. .. 
 .. .. .. 
 . . . . . . 
 
A(z) :=   , (6.69)
 .. 
 0 0 0 . 1 0 
 
 
 
 0 0 0 ··· 0 1 
 
 
−a0 (z) −a1 (z) −a2 (z) ··· −am−2 (z) −am−1 (z)
a qual é analı́tica em D, por assim o serem as funções a0 , . . . , am−1 , em cujo caso aplicam-se as
conclusões supra-citadas, ou seja, a solução y(z) é igualmente analı́tica em D. Para futura referência
coletamos essa conclusão no seguinte teorema
Teorema 6.3 Seja a equação diferencial linear homogênea complexa de ordem m
y (m) (z) + am−1 (z)y (m−1) (z) + · · · a1 (z)y 0 (z) + a0 (z)y(z) = 0
e suponhamos que as funções a0 , . . . , am−1 são todas analı́ticas em um domı́nio aberto e simplesmente
conexo D. Então as soluções da equação são igualmente analı́ticas em D. Em particular, se D contiver
um disco aberto Daz0 := {z ∈ | |z − z0 | < a}, centrado em z0 e de raio a > 0, então as soluções da
equação podem ser expressas em termos de uma série de potências
∞
X
y(z) = cn (z − z0 )n ,
n=0
a qual converge (absolutamente) pelo menos no disco aberto D az0 , ou seja, pelo menos para todo z ∈
tal que |z − z0 | < a. 2
6.7.1 Pontos Singulares Simples em EDO’s de Ordem m
• Introdução e motivação
Seja o sistema de equações Y 0 (z) = A(z)Y (z) procedente de uma EDO linear complexa homogênea
de ordem m como (6.67), com Y (z) como em (6.68) e A(z) dada em (6.69), definida em um domı́nio
D do plano complexo. Seja também z0 ∈ D.
Vamos supor que z0 seja um ponto singular de A(z), ou seja, A(z) não é analı́tica em z = z0 . É
bastante claro que se as funções ak (z), k = 0, . . . , m − 1, tiverem no máximo um pólo de ordem 1 em
z0 = 0, ou seja, se as funções (z − z0 )ak (z), k = 0, . . . , m − 1, forem todas analı́ticas em z0 , então z0
será um ponto singular regular de Y 0 (z) = A(z)Y (z), pois, teremos Y 0 (z) = (z − z0 )−1 A0 (z)Y (z), onde
A0 (z) := (z − z0 )A(z) é analı́tica em z0 . Assim, nesse caso, valeriam todas as importantes conclusões
a que chegamos na Seção 6.6.4, página 337, especialmente aquelas expressas no Teorema 6.2, página
341.
Sucede que há condições ainda menos restritivas sobre as funções ak (z), k = 0, . . . , m − 1, para as
quais as importantes conclusões sobre a forma geral da solução, expressas no Teorema 6.2, também se
aplicam. A saber, tal é o caso se as funções (z − z0 )m−k ak (z), k = 0, . . . , m − 1, forem todas analı́ticas
em z0 , ou seja, se cada função ak (z) tiver no máximo um pólo de ordem m − k em z0 .
No que segue iremos primeiramente justificar as afirmativas do último parágrafo para depois extrair
as conclusões pertinentes. Esse caminho nos conduzirá a uma noção mais abrangente do conceito de
ponto singular simples de equações diferenciais lineares complexas homogêneas de ordem m como (6.67).
• A noção de ponto singular simples para EDOs de ordem m
Seja então Y 0 (z) = A(z)Y (z) com Y (z) como em (6.68) e com A(z) dada em (6.69), definida em
um domı́nio aberto e simplesmente conexo D com z0 ∈ D. Vamos definir um novo vetor coluna
Ỹ (z) := E(z)Y (z),
onde E(z) é a matriz diagonal m × m

 
1 0 0 ··· 0 0
 
 
0 (z − z0 ) 0 ··· 0 0 
 
 
 
 . 
0 0 (z − z0 )2 . . 0 0 
 
E(z) :=   , (6.70)
. .. .. .. .. .. 
 .. . . . . . 
 
 
 
0 0 0 (z − z0 )m−2 0 
 
 
0 0 0 ··· 0 (z − z0 )m−1
ou seja, E(z) é a matriz diagonal com E(z)kk = (z − z0 )k−1 , 1 ≤ k ≤ m.

O porquê de procedermos essa mudança de Y para Ỹ através dessa matriz E ficará claro logo
abaixo. Diferenciando-se Ỹ (z), teremos, para z 6= z0 ,
Ỹ 0 (z) = E(z)Y 0 (z) + E 0 (z)Y (z)
= E(z)A(z)Y (z) + E 0 (z)E(z)−1 Ỹ (z)
= E(z)A(z)E(z)−1 Ỹ (z) + E 0 (z)E(z)−1 Ỹ (z),

ou seja, definindo h i
Ã(z) := (z − z0 ) E(z)A(z)E(z)−1 + E 0 (z)E(z)−1 , (6.71)
obtemos,
Ỹ 0 (z) = (z − z0 )−1 Ã(z)Ỹ (z). (6.72)
Para prosseguirmos (e para finalmente entendermos por que fizemos a mudança de Y para Ỹ ), é
muito importante calcularmos explicitamente a matriz Ã(z) definida acima.
E. 6.27 Exercı́cio muito importante. Calcule explicitamente a matriz Ã(z) definida acima. Use (6.71),
(6.69) e (6.70). 6
O resultado é
 
0 1 0 ··· 0 0 0
 
 
 0 1 1 0 0 0 
 
 
 
 .. 
 0 0 2 . 0 0 0 
 
 
 .. .. .. .. .. 
Ã(z) =  . . . . .  ,
 
 
 
 0 0 0 m−3 1 0 
 
 
 
 0 0 0 ··· 0 m−2 1 
 
 
b0 (z) b1 (z) b2 (z) ··· bm−3 (z) bm−2 (z) bm−1 (z)
onde
b0 (z) := −(z − z0 )m a0 (z),
b1 (z) := −(z − z0 )m−1 a1 (z),
b2 (z) := −(z − z0 )m−2 a2 (z),
..
.
bm−2 (z) := −(z − z0 )2 am−2 (z),
bm−1 (z) := −(z − z0 )am−1 (z) + (m − 1).
Como exemplo, tem-se no caso de particular interesse fı́sico das equações de segunda ordem
y 00 (z) + a1 (z) y 0 (z) + a0 (z) y(z) = 0

 
y(z)
1 0
que E(z) = , Ỹ (z) =  , e
0 z − z0
(z − z0 )y 0 (z)
 
0 1
Ỹ 0 (z) = (z − z0 )−1 Ã(z)Ỹ (z), com Ã(z) =  .
−(z − z0 )2 a0 (z) −(z − z0 )a1 (z) + 1
De volta ao caso geral, vemos que se as funções bk (z), 0 ≤ k ≤ m − 1, forem todas analı́ticas em
torno de z0 , então Ã(z) será analı́tica em torno de z0 e, portanto, o sistema (6.72) será um sistema com
um ponto singular simples em z0 . Coloquemos, assim, a seguinte definição:
Definição. Seja a equação diferencial linear homogênea complexa de ordem m
y (m) (z) + am−1 (z)y (m−1) (z) + · · · a1 (z)y 0 (z) + a0 (z)y(z) = 0. (6.73)
Um ponto z0 ∈ é dito ser um ponto singular simples, ou ponto singular regular dessa equação se pelo
menos uma das funções ak (z) for singular em z0 mas de modo que todas as funções (z − z0 )m−k ak (z),
k = 0, . . . , m − 1, sejam analı́ticas em z0 . Isso significa que cada função ak (z) ou é analı́tica em z0 ou
tem um pólo em z0 cuja ordem deve no máximo ser m − k, sendo que supostamente pelo menos uma
das funções ak (z) é singular em z0 .
Isso significa que um ponto z0 é um ponto singular simples se A(z) não é analı́tica em z = z0 mas
se Ã(z) é analı́tica em z = z0 .
Assim, por exemplo, dizemos que z0 é um ponto singular simples da equação de segunda ordem (ou
seja, para m = 2) dada por y 00 (z) + a1 (z) y 0 (z) + a0 (z) y(z) = 0 se a0 (z) tiver um pólo de ordem no
máximo 2 em z0 ou se a1 (z) tiver um pólo de ordem no máximo 1 em z0 , ou ambos. Vários exemplos
são apresentados e discutidos na Seção 6.7.3.
No caso de z0 ser um ponto singular simples de uma equação como (6.73), aplicam-se os resultados
da Seção 6.6.4, página 337, às soluções de (6.72). Discutiremos adiante as implicações deste fato.
• Soluções de equações com pontos singulares simples
Unindo as observações acima com o Teorema 6.2 chegamos à seguinte importante conclusão.
Teorema 6.4 Seja a equação diferencial linear homogênea complexa de ordem m
y (m) (z) + am−1 (z)y (m−1) (z) + · · · a1 (z)y 0 (z) + a0 (z)y(z) = 0
e seja z0 um ponto singular simples dessa equação, ou seja pelo menos uma das funções a k (z) é singular
em z0 mas de modo que todas as funções (z − z0 )m−k ak (z), k = 0, . . . , m − 1, sejam analı́ticas em z0 .
Então as soluções da equação diferencial são combinações lineares de soluções da forma
yγ, k (z) = (z − z0 )γ (ln(z − z0 ))k fγ, k (z),
para certos γ ∈ , k = 0, . . . , m − 1 e fγ, k analı́tica em torno de z0 .
Por fim, pela observação importante da página 334, sempre há pelo menos uma solução que não
envolve potências de ln(z − z0 ), ou seja, há sempre pelo menos uma solução com k = 0. 2
• A equação de Euler
Um exemplo-protótipo de uma equação com um ponto singular simples é a equação de Euler de

ordem m:
z m y (m) (z) + z m−1 bm−1 y (m−1) (z) + · · · zb1 y 0 (z) + b0 y(z) = 0 ,
onde bm−1 , . . . , b0 são constantes. Nesse caso tem-se
bm−1 bm−2 b0
am−1 (z) = , am−2 (z) = , ..., a0 (z) =
z z2 zm
e, claramente, essa equação possui um ponto singular simples em z0 = 0. No caso m = 2 a equação de
Euler é
z 2 y 00 (z) + zb1 y 0 (z) + b0 y(z) = 0 ,
cujas soluções são, caso (1 − b1 )2 − 4b0 6= 0,
y(z) = αz γ+ + βz γ− (6.74)
onde p
1 − b1 ± (1 − b1 )2 − 4b0
γ± =
2
ou, caso (1 − b1 )2 − 4b0 = 0,
y(z) = αz γ0 + β ln(z) z γ0 (6.75)
onde
1 − b1
γ0 = .
2
Acima, α e β são constantes arbitrárias. Essas soluções ilustram as afirmações do Teorema 6.4.
E. 6.28 Exercı́cio importante. Verifique todas as afirmações feitas acima. 6
• Um Teorema de Fuchs
Há um importante teorema, devido a Fuchs, que estabelece uma recı́proca do Teorema 6.4: se toda
solução da equação
y (m) (z) + am−1 (z)y (m−1) (z) + · · · + a1 (z)y 0 (z) + a0 (z)y(z) = 0 (6.76)
for uma combinação linear de funções da forma (z − z0 )γ (ln(z − z0 ))k fγ, k (z), para certos γ ∈ ,
k = 0, . . . , m − 1 e fγ, k analı́ticas em torno de z0 , então z0 é um ponto singular simples de (6.76), ou
seja, todas as funções (z − z0 )m−k ak (z), k = 0, . . . , m − 1, são analı́ticas em z0 . Uma demonstração
pode ser encontrada em [117].
6.7.2 Singularidades no Infinito

Seja a equação diferencial linear homogênea complexa de ordem m
y (m) (z) + am−1 (z)y (m−1) (z) + · · · a1 (z)y 0 (z) + a0 (z)y(z) = 0.

Em muitas situações deseja-se estudar o comportamento dessas equações e suas soluções para |z| ten-
dendo a infinito e, para tal, presta-se muitas vezes estudar propriedades das soluções como funções de
1/z. Com isso poderı́amos, por exemplo, perguntar-nos se a solução pode ser expressa em termos de
uma série de potências em 1/z etc., e usar os métodos já discutidos para obter essa expansão, caso ela
exista, e, dessa forma, conhecer a solução para |z| grande.
Por simplicidade limitaremos nossa discussão a equações de segunda ordem13
y 00 (z) + a1 (z) y 0 (z) + a0 (z) y(z) = 0. (6.77)
Façamos a mudança de variáveis w = 1/z. Definindo u(w) = y(z) = y(1/w), teremos

00 2 a1 (1/w) a0 (1/w)
u (w) + − 2
u0 (w) + u(w) = 0. (6.78)
w w w4
E. 6.29 Exercı́cio. Confira. 6
Chamaremos essa equação “versão no infinito” da equação (6.77). Claramente essa equação equivale
a
U 0 (w) = C(w)U (w),
com
u(w) 0 1
U (w) := , C(w) := ,
u0 (w) −c0 (w) −c1 (w)
onde
a0 (1/w)
c0 (w) := ,
w4
2 a1 (1/w)
c1 (w) := − .
w w2
Analogamente ao que fizemos anteriormente, podemos transformar esse sistema no sistema equiva-
lente
1
Ũ 0 (w) = C̃(w)Ũ (w),
w
onde
Ũ (w) := E(w)U (w), C̃(w) := w E(w)C(w)E(w)−1 + E 0 (w)E(w)−1 ,
 
u(w)
1 0
com E(w) = , Ũ (w) =  e
0 w 0
wu (w)
 
  0 1
0 1  
C̃(w) =   =  
1 .
2
 a0 1 a 1
−w c0 (w) −wc1 (w) + 1 − w
−1 + w
w2 w
Por analogia com nossas noções prévias, façamos as seguintes definições:
13
Para uma discussão mais geral, vide [117].
1. Diremos que a equação (6.77) é analı́tica no infinito se C(w) for analı́tica em torno de w = 0.
2. Diremos que a equação (6.77) tem uma singularidade no infinito se C(w) não for analı́tica em
torno de w = 0.
3. Diremos que a equação (6.77) tem uma singularidade simples no infinito (ou que z 0 = ∞ é um
ponto singular simples de (6.77)) se C(w) não for analı́tica em torno de w = 0 mas C̃(w) o for,
ou seja, se c0 (w) tiver um pólo de ordem no máximo 2 em w = 0 ou se c1 (w) tiver um pólo de
ordem no máximo 1 em w = 0, ou ambos.
Vários exemplos são discutidos na Seção 6.7.3.
6.7.3 Alguns Exemplos de Interesse

Nesta seção analisaremos algumas equações diferenciais de importância na Fı́sica-Matemática previa-
mente mencionadas na Seção 5.1.2, página 255, à luz do que discutimos neste capı́tulo.
E. 6.30 Exercı́cio importante. Complete os detalhes de todos os cálculos apresentados nos exemplos
que seguem. 6
1. A equação de segunda ordem com coeficientes constantes
y 00 (z) + by 0 (z) + cy(z) = 0,
onde b e c são constantes, corresponde a

 
0 1
A(z) =  .
−c −b
Assim, a equação é regular em todo z0 ∈ .

Ponto no infinito. A versão no infinito da equação de segunda ordem com coeficientes constantes
é
00 2 b c
u (w) + − 2 u0 (w) + 4 u(w) = 0.
w w w
Claramente, z0 = ∞ é um ponto singular irregular da equação de segunda ordem com coeficientes
constantes.
2. A equação de Euler
z 2 y 00 (z) + az y 0 (z) + b y(z) = 0,
ou seja,
a 0 b
y 00 (z) + y (z) + 2 y(z) = 0,
z z
onde a e b são constantes, corresponde a

 
0 1
 
A(z) =  .
b a
− −
z2 z
Para z0 = 0 tem-se  
0 1
Ã(z) =  .
−b −a + 1
Assim, z0 = 0 é um ponto singular simples da equação de Euler.
Ponto no infinito. A versão no infinito da equação de Euler é
2−a 0 b
u00 (w) + u (w) + 2 u(w) = 0.
w w
Claramente, z0 = ∞ é um ponto singular simples da equação de Euler.
3. A equação de Bessel
z 2 y 00 (z) + z y 0 (z) + (z 2 − ν 2 ) y(z) = 0,
ou seja,
00 1 0 ν2
y (z) + y (z) + 1 − 2 y(z) = 0,
z z
onde ν ∈ , corresponde a

 
0 1
 
A(z) =  2 .
ν 1
−1 −
z2 z
Para z0 = 0 tem-se  
0 1
Ã(z) =  .
ν 2 − z2 0
Assim, z0 = 0 é um ponto singular simples da equação de Bessel.
Ponto no infinito. A versão no infinito da equação de Bessel é

00 1 0 1 ν2
u (w) + u (w) + − u(w) = 0.
w w4 w2
Claramente, c0 tem um pólo de ordem 4 em w = 0. Assim, z0 = ∞ é um ponto singular irregular

da equação de Bessel.
4. A equação de Legendre
(1 − z 2 ) y 00 (z) − 2z y 0 (z) + λ(λ + 1) y(z) = 0,

ou seja,
2z λ(λ + 1)
y 00 (z) − 2
y 0 (z) + y(z) = 0,
1−z 1 − z2
onde λ ∈ , corresponde a
 
0 1
 
A(z) =  .
λ(λ + 1) 2z
−
1 − z2 1 − z2
Claramente percebe-se que a equação de Legendre é analı́tica no domı́nio simplesmente conexo
D formado pelo disco aberto de raio 1: D = {z ∈ : |z| < 1}. Concluı́mos que as soluções da
equação de Legendre são analı́ticas nesse domı́nio D.
Os pontos z0 = ±1 são pontos singulares da equação de Legendre.
Para z0 = 1 teremos  
0 1
 
Ã(z) =  ,
λ(λ + 1)(z − 1) 1−z
1+z 1+z
que é analı́tica em z0 = 1.
Para z0 = −1 teremos  
0 1
 
Ã(z) =  ,
λ(λ + 1)(z + 1) 1+z
z−1 1−z
que é analı́tica em z0 = −1.
Vemos então que os pontos z0 = ±1 são pontos singulares simples da equação de Legendre.
Ponto no infinito. A versão no infinito da equação de Legendre é

00 2w 0 1 λ(1 + λ)
u (w) + u (w) + 2 u(w) = 0.
w2 − 1 w w2 − 1
Claramente, z0 = ∞ é um ponto singular simples da equação de Legendre.
5. A equação de Hermite
y 00 (z) − 2z y 0 (z) + λ y(z) = 0,
onde λ ∈ , corresponde a
0 1
A(z) = .
−λ 2z
Concluı́mos que a equação de Hermite é analı́tica em todo o plano complexo, assim sendo também
as suas soluções.
Ponto no infinito. A versão no infinito da equação de Hermite é

00 2 2 λ
u (w) + + 3 u0 (w) + 4 u(w) = 0.
w w w
Claramente, c0 tem um pólo de ordem 4 em w = 0 e c1 tem um pólo de ordem 3 em w = 0.

Assim, z0 = ∞ é um ponto singular irregular da equação de Hermite.
6. A equação de Airy
y 00 (z) − z y(z) = 0.
corresponde a
0 1
A(z) = .
z 0
Concluı́mos que a equação de Airy é analı́tica em todo o plano complexo, assim sendo também
as suas soluções.
Ponto no infinito. A versão no infinito da equação de Airy é
2 0 1
u00 (w) + u (w) − 5 u(w) = 0.
w w
Claramente, c0 tem um pólo de ordem 5 em w = 0. Assim, z0 = ∞ é um ponto singular irregular
da equação de Airy.
7. A equação de Laguerre
zy 00 (z) + (1 − z) y 0 (z) + λ y(z) = 0,
ou seja,
00 1 λ
y (z) + −1 y 0 (z) + y(z) = 0,
z z
onde λ ∈ , corresponde a  
0 1
 
A(z) =  .
λ 1
− 1−
z z
0 1
Ã(z) =  .
−λz z
Assim, z0 = 0 é um ponto singular simples da equação de Laguerre.
Ponto no infinito. A versão no infinito da equação de Laguerre é

00 1 1 λ
u (w) + + 2 u0 (w) + 3 u(w) = 0.
w w w

Assim, z0 = ∞ é um ponto singular irregular da equação de Laguerre.
8. A equação de Chebyshev
(1 − z 2 ) y 00 (z) − z y 0 (z) + λ2 y(z) = 0,
ou seja,
z λ2
y 00 (z) − y 0
(z) + y(z) = 0,
1 − z2 1 − z2
onde λ ∈ , corresponde a  
0 1
 
A(z) =  .
λ z
−
1 − z2 1 − z2
Claramente percebe-se que a equação de Chebyshev é analı́tica no domı́nio simplesmente conexo
D formado pelo disco aberto de raio 1: D = {z ∈ : |z| < 1}. Concluı́mos que as soluções da
equação de Chebyshev são analı́ticas nesse domı́nio D.
Os pontos z0 = ±1 são pontos singulares da equação de Chebyshev.
0 1
 
Ã(z) =  ,
λ(z − 1) 1
1+z 1+z
Para z0 = −1 teremos  
0 1
 
Ã(z) =  ,
λ(z + 1) 1
z−1 1−z
que é analı́tica em z0 = −1.
Vemos então que os pontos z0 = ±1 são pontos singulares simples da equação de Chebyshev.
Ponto no infinito. A versão no infinito da equação de Chebyshev é

00 1 1 0 1 λ2
u (w) + 2− u (w) + 2 u(w) = 0.
w 1 − w2 w w2 − 1
Claramente, z0 = ∞ é um ponto singular simples da equação de Chebyshev.
9. A equação hipergeométrica
z(1 − z) y 00 (z) + [c − (1 + a + b)z] y 0 (z) − ab y(z) = 0,
ou seja,
00 c − (1 + a + b)z ab
y (z) + y 0 (z) − y(z) = 0,
z(1 − z) z(1 − z)
com a, b, c constantes, corresponde a

 
0 1
 
A(z) = 

.
ab (1 + a + b)z − c 
z(1 − z) z(1 − z)
Seus pontos singulares são z0 = 0 e z0 = 1.

0 1
 
Ã(z) =  ,
abz (a + b)z − c + 1
1−z 1−z
0 1
 
Ã(z) =  ,
ab(z − 1) −(a + b)z + c
−
z z
Assim, z0 = 0 e z0 = 1 são pontos singulares simples da equação hipergeométrica.
Ponto no infinito. A versão no infinito da equação hipergeométrica é

00 1 (2 − c)w + a + b − 1 ab
u (w) + u0 (w) − 2 u(w) = 0.
w w−1 w (w − 1)
Claramente, z0 = ∞ é um ponto singular simples da equação hipergeométrica.
10. A equação hipergeométrica confluente
z y 00 (z) + [c − z] y 0 (z) − a y(z) = 0,
ou seja, c
00 a
y (z) + − 1 y 0 (z) − y(z) = 0,
z z
com a, c constantes, corresponde a
 
0 1
 
A(z) =  .
a c
1−
z z
0 1
Ã(z) =  ,
az z−c+1
que é analı́tica em z0 = 0. Assim, z0 = 0 é um ponto singular simples da equação de hiper-

geométrica confluente.
Ponto no infinito. A versão no infinito da equação hipergeométrica confluente é

00 2−c 1 a
u (w) + + 2 u0 (w) − 3 u(w) = 0.
w w w

Assim, z0 = ∞ é um ponto singular irregular da equação hipergeométrica confluente.
Capı́tulo 7
Soluções de Equações Diferenciais Ordinárias
Lineares no Plano Complexo
Conteúdo
7.1 Soluções em Séries de Potências para Equações Regulares . . . . . . . . . 356

7.1.1 A Equação do Oscilador Harmônico Simples . . . . . . . . . . . . . . . . . . . 357
7.1.2 A Equação de Legendre . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 358
7.1.3 A Equação de Hermite . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 362
7.1.4 A Equação de Airy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 365
7.1.5 A Equação de Chebyshev . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 367
7.1.6 O Caso de Equações Regulares Gerais . . . . . . . . . . . . . . . . . . . . . . 370
7.2 Solução de Equações Singulares Regulares. O Método de Frobenius . . . 372
7.2.1 Equações Singulares Regulares. O Caso Geral . . . . . . . . . . . . . . . . . . 376
7.2.2 A Equação de Euler Revisitada . . . . . . . . . . . . . . . . . . . . . . . . . . 385
7.2.3 A Equação de Bessel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 388
7.2.4 A Equação de Laguerre . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 399
7.2.5 A Equação Hipergeométrica . . . . . . . . . . . . . . . . . . . . . . . . . . . . 402
7.2.6 A Equação Hipergeométrica Confluente . . . . . . . . . . . . . . . . . . . . . 406
7.3 Algumas Equações Associadas . . . . . . . . . . . . . . . . . . . . . . . . . . 409
7.3.1 A Equação de Legendre Associada . . . . . . . . . . . . . . . . . . . . . . . . 409
7.3.2 A Equação de Laguerre Associada . . . . . . . . . . . . . . . . . . . . . . . . 411
7.3.3 A Equação de Bessel Esférica . . . . . . . . . . . . . . . . . . . . . . . . . . . 412
7.A Prova da Proposição 7.1. Justificando os Polinômios de Legendre . . . . 414
7.B Provando (7.14) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 416
7.C Justificando os Polinômios de Hermite . . . . . . . . . . . . . . . . . . . . . 418
7.D Provando (7.20) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 420
7.E Porque λ deve ser um Inteiro Positivo na Equação de Laguerre . . . . . 421
rataremos no presente capı́tulo de apresentar soluções de equações diferenciais ordinárias

lineares e homogêneas, regulares ou com pontos singulares regulares. Por simplicidade, e
para atender ao interesse de problemas fı́sicos, trataremos apenas de equações de segunda
ordem mas, em essência, tudo o que faremos facilmente se generaliza para equações de ordem
superior. Nossa abordagem estará centrada no chamado método de expansão em série de potências
(para equações regulares) e no método de Frobenius (para equações com singularidades regulares).
355
Estudaremos tanto casos gerais (com razoável detalhe) quanto equações particulares de interesse em
Fı́sica.
Em um certo sentido, o presente capı́tulo dá continuidade ao Capı́tulo 6, mas dele só utilizaremos
os Teoremas 6.3 e 6.4, das páginas 342 e 345, respectivamente. Esses teoremas fundamentais são as
justificativas dos métodos de solução que empregaremos.
Comentamos ainda que trataremos as equações diferenciais como equações no plano complexo ainda
que, na Fı́sica, o interesse tipicamente resida em equações na reta real pois, como discutimos no Capı́tulo
6, a natureza das soluções e a justificativa dos métodos de solução são melhor entendidas quando
abandonamos as limitações da reta real de modo a explorar a estrutura analı́tica das equações e suas
soluções.
Por vezes, omitiremos detalhes de cálculos e o estudante é convidado a completá-los como exercı́cio.
Apesar de alguns desses cálculos omitidos serem reconhecidamente entediantes (não só os omitidos,
aliás), o estudante deverá fazê-los ao menos uma vez na vida, pois não é possı́vel apoderar-se do
conhecimento aqui desenvolvido apenas por meio de leitura passiva.
O tratamento que faremos de soluções de equações gerais é bastante detalhado, um tanto mais do
que o por vezes encontrado na literatura. Os resultados gerais estão resumidos nos Teoremas 7.1 e 7.2,
adiante. O tratamento de certas equações particulares de interesse em Fı́sica (como as de Legendre,
Hermite, Airy, Chebyshev, Bessel e Laguerre) é razoavelmente completo e várias propriedades espe-
ciais das soluções, tais como relações de ortogonalidade, relações de recorrência, fórmulas do tipo de
Rodrigues, representações integrais etc. (todas importantes na resolução de problemas de Fı́sica) são
discutidas com detalhe no Capı́tulo 8, página 424. Uma omissão é um estudo detalhado do comporta-
mento assintótico de certas soluções. Esperamos que futuramente essa lacuna possa ser completada.
Exemplos selecionados de problemas de Fı́sica onde algumas das equações particulares que discu-
timos se apresentam (e a conseqüente resolução desses problemas) poderão ser encontrados na Seção
8.3, página 482, à qual remetemos os estudantes interessados em adquirir um pouco de motivação.
A leitura daquela seção requer um conhecimento parcial das soluções das equações diferenciais e suas
propriedades, de modo que o estudante deverá alternar sua leitura com a do material que a precede
nos Capı́tulos 7 e 8.
Todas as equações particulares tratadas, suas soluções e propriedades dessas soluções, são ampla-
mente discutidas na vasta literatura pertinente e a ela remetemos os estudantes interessados. Vide, por
exemplo, [107], [130], [79], [4], [125], [21], [64], [65], [10], [25], [26], [37], [117], [62], [60].
7.1 Soluções em Séries de Potências para Equações Regulares

Vamos na presente seção ilustrar o Teorema 6.3 da página 342 estudando a solução por série de potências
de algumas equações diferenciais ordinárias, homogêneas de segunda ordem e regulares de interesse
(especialmente em Fı́sica). Boa parte dos métodos apresentados nos exemplos aplicam-se a equações
de ordem maior que dois, mas não trataremos de tais generalizações aqui pois elas pouco apresentam
de especial e seu interesse na Fı́sica é reduzido.
Na Seção 7.2, página 372, ilustraremos o Teorema 6.4, página 345, tratando de forma semelhante
várias equações singulares regulares de interesse pelo método de Frobenius.
Conforme demonstramos em páginas anteriores (Teorema 6.3, página 342), se a equação diferencial
linear homogênea de segunda ordem
y 00 (z) + a(z)y 0 (z) + b(z)y(z) = 0 (7.1)
for tal que os coeficientes a(z) e b(z) são funções analı́ticas de z em torno de um ponto z 0 , então suas
soluções serão igualmente analı́ticas em torno desse ponto e poderemos procurar resolvê-la em termos
de séries de potência centradas em z0 :
∞
X
y(z) = cn (z − z0 )n . (7.2)
n=0
O chamado método de série de potências consiste precisamente em inserir o Ansatz (7.2) na equação
(7.1) e determinar recursivamente os coeficientes cn . Pelas conclusões obtidas anteriormente, resumidas
no Teorema 6.3 da página 342, a solução obtida deve ser convergente pelo menos no maior disco aberto
centrado em z0 no qual ambas as funções a(z) e b(z) sejam também analı́ticas.
Ilustraremos a aplicação desse método na resolução da equação do oscilador harmônico simples e
nas equações de Legendre, Hermite, Airy e Chebyshev, todas equações de interesse em Fı́sica. Ao final
discutiremos a solução do problema geral.
7.1.1 A Equação do Oscilador Harmônico Simples

Por razões pedagógicas, vamos começar discutindo uma equação diferencial bastante simples e familiar.
Seja a bem-conhecida equação do oscilador harmônico simples
y 00 (z) + ω02 y(z) = 0 , (7.3)
a(z) = 0 e b(z) = ω02 , ambas analı́ticas em toda parte. Procuremos

onde ω0 é uma constante. Nesse caso P
então uma solução da forma y(z) = ∞ n
n=0 cn z (com z0 = 0). É fácil ver que
∞
X ∞
X ∞
X
0 n−1 n−1 n→n+1
y (z) = ncn z = ncn z = (n + 1)cn+1 z n ,
n=0 n=1 n=0
ou seja,
∞
X
0
y (z) = (n + 1)cn+1 z n (7.4)
n=0
e que
∞
X ∞
X ∞
X
n→n+1
y 00 (z) = n(n + 1)cn+1 z n−1 = n(n + 1)cn+1 z n−1 = (n + 1)(n + 2)cn+2 z n ,
n=0 n=1 n=0
ou seja,
∞
X
00
y (z) = (n + 1)(n + 2)cn+2 z n . (7.5)
n=0
Inserindo-se (7.4) e (7.5) em (7.3), obtem-se

∞ h
X i
(n + 1)(n + 2)cn+2 + ω02 cn z n = 0 .
n=0
Como essa última relação supostamente vale para todo z, tem-se forçosamente que os fatores entre
colchetes são todos nulos (por que?):
−ω02
(n + 1)(n + 2)cn+2 + ω02 cn = 0 , ou seja cn+2 = cn (7.6)
(n + 1)(n + 2)
para todo n ≥ 0. A solução dessa última equação recursiva é
(−1)k ω02k (−1)k ω02k
c2k = c0 , c2k+1 = c1 .
(2k)! (2k + 1)!
com k ≥ 0. Essas expressões relacionam todos os coeficientes cn com os dois primeiros coeficientes, c0
e c1 .
P
Inserindo isso na expressão y(z) = ∞ n
n=0 cn z , tem-se
∞
X ∞
X ∞
X ∞
X
2k 2k+1 (−1)k ω 2k 0 2k (−1)k ω 2k 0
y(z) = c2k z + c2k+1 z = c0 z + c1 z 2k+1
k=0 k=0 k=0
(2k)! k=0
(2k + 1)!
∞
X ∞
(−1)k c1 X (−1)k
= c0 (ω0 z)2k + (ω0 z)2k+1
(2k)! ω0 (2k + 1)!
k=0 k=0
c1
= c0 cos(ω0 z) + sen (ω0 z) .
ω0
Na última passagem pudemos identificar as duas séries de potências com as séries de Taylor (em
torno de 0) das funções seno e co-seno. Notemos que em problemas menos simples, como os que
encontraremos adiante, nem sempre será possı́vel identificar as séries resultantes com as séries de Taylor
de funções previamente conhecidas, o que nos conduzirá à definição de novas funções, as chamadas
funções especiais.
É de se notar que a solução final, y(z) = c0 cos(ω0 z) + ωc10 sen (ω0 z), é analı́tica em toda a parte como
função de z, o que já era esperado do fato de as funções a(z) e b(z) serem funções analı́ticas em toda
parte (duas constantes).
Obtivemos, assim, a bem-conhecida solução do oscilador harmônico simples em termos de uma
combinação linear das funções seno e co-seno. Os coeficientes c0 e c1 podem ser determinados se mais
condições forem impostas à solução. Por exemplo, se impusermos “condições iniciais” y(0) = y 0 e
y 0 (0) = v0 , obtemos c0 = y0 e c1 = v0 .
7.1.2 A Equação de Legendre

A equação diferencial
(1 − z 2 )y 00 (z) − 2zy 0 (z) + λ(λ + 1)y(z) = 0 (7.7)
é denominada equação de Legendre1 de ordem2 λ. Em princı́pio, adotamos λ ∈ , arbitrário, mas na

maioria das aplicações em Fı́sica apenas valores especiais de λ são considerados, a saber, λ é tomado
um inteiro não-negativo.
A equação de Legendre e uma parente próxima, a equação de Legendre associada, tratada na Seção
7.3.1, página 409, surgem em vários problemas de Fı́sica, do Eletromagnetismo à Mecânica Quântica.
Tipicamente ambas surgem quando da resolução da equação de Helmholtz pelo método de separação
de variáveis em coordenadas esféricas em três dimensões. Vide Seção 8.3, página 482.
A equação de Legendre acima pode ser posta na forma padrão (7.1) com
−2z λ(λ + 1)
a(z) = e b(z) = .
1 − z2 1 − z2
Claramente, ambas as funções são analı́ticas emPum disco de raio 1 centrado em z 0 = 0. É, portanto,
legı́timo procurarmos soluções na forma y(z) = ∞ n
n=0 cn z (com z0 = 0). Tais soluções serão analı́ticas
pelo menos no disco de raio 1 centrado em z0 = 0.
Inserindo-se (7.4)-(7.5) em (7.7), obtem-se
∞
X ∞
X ∞
X ∞
X
n n+2 n+1
(n + 1)(n + 2)cn+2 z − (n + 1)(n + 2)cn+2 z −2 (n + 1)cn+1 z +λ(λ + 1) cn z n = 0 .
n=0
|n=0 {z } |n=0 {z } n=0
I II
(7.8)
É fácil ver que
∞
X ∞
X ∞
X
n+2 n+2
I := (n + 1)(n + 2)cn+2 z = (n + 1)(n + 2)cn+2 z = (n − 1)n cn z n , (7.9)
n=0 n=−1 n=1
onde, na última igualdade, fizemos a mudança de variáveis n → n − 2. Analogamente,

∞
X ∞
X
II := (n + 1)cn+1 z n+1 = ncn z n , (7.10)
n=0 n=1
onde fizemos a mudança de variáveis n → n − 1. Assim, (7.8) fica

∞
X ∞
X ∞
X ∞
X
n n n
(n + 1)(n + 2)cn+2 z − (n − 1)n cn z − 2 ncn z + λ(λ + 1) cn z n = 0 ,
n=0 n=1 n=1 n=0
ou seja,
" #
∞
X
2c2 + λ(λ + 1)c0 + (n + 1)(n + 2)cn+2 − (n − 1)n + 2n − λ(λ + 1) cn z n = 0 .
n=1
Como (n − 1)n + 2n = n(n + 1), obtemos o seguinte conjunto de equações

2c2 + λ(λ + 1)c0 = 0 ,

(n + 1)(n + 2)cn+2 − n(n + 1) − λ(λ + 1) cn = 0 , ∀n ≥ 1 .
1
2
Aqui a palavra “ordem” não deve ser confundida com a ordem da equação diferencial, que é dois.
Essas expressões fornecem as seguintes equações recursivas para os coeficientes c n :

n(n + 1) − λ(λ + 1)
cn+2 = cn , ∀n ≥ 0 . (7.11)
(n + 1)(n + 2)
De maneira análoga ao que ocorre no caso do oscilador harmônico simples (vide (7.6)), podemos
expressar todos os coeficientes cn com n par em termos de c0 e todos os coeficientes cn com n ı́mpar
em termos de c1 . Mais precisamente, tem-se
k−1
" # k−1
1 Y λ(λ + 1) Y λ(λ + 1)
c2k = 2l(2l + 1) − λ(λ + 1) c0 = − 1− c0 ,
(2k)! l=0 2k l=1
2l(2l + 1)
k−1
" # k−1
1 Y 1 Y λ(λ + 1)
c2k+1 = (2l + 1)(2l + 2) − λ(λ + 1) c1 = 1− c1 .
(2k + 1)! l=0 2k + 1 l=0 (2l + 1)(2l + 2)
Para λ ∈ genérico concluı́mos que a solução geral da equação de Legendre é da forma

(0) (1)
y(z) = c0 yλ (z) + c1 yλ (z) ,
onde
∞ k−1
!
(0)
X z 2k Y
yλ (z) = 2l(2l + 1) − λ(λ + 1) (7.12)
k=0
(2k)! l=0
∞ k−1
!
(1)
X z 2k+1 Y
yλ (z) = (2l + 1)(2l + 2) − λ(λ + 1) (7.13)
k=0
(2k + 1)! l=0
Conforme comentamos, sabemos a priori que ambas as séries acima convergem para |z| < 1. O que
ocorre caso |z| = 1? Isso é respondido na seguinte proposição, cuja demonstração encontra-se no
Apêndice 7.A, página 414 (vide também [107] para uma outra prova semelhante):
Proposição 7.1 Caso λ ∈ não seja um inteiro não-negativo par, a série em (7.12) diverge em

z = ±1. Caso λ ∈ não seja um inteiro positivo ı́mpar, a série em (7.13) diverge em z = ±1.

Essa proposição ensina-nos que as soluções (7.12) e (7.13) da equação de Legendre serão divergentes
em z = ±1 caso λ não seja um inteiro não-negativo e isso para qualquer escolha de c 0 e c1 não-nulos.
Em aplicações, porém, é muito importante ter-se soluções finitas no intervalo fechado real [−1, 1] de
valores de z. A única esperança que resta reside na situação na qual λ é um inteiro não-negativo e, de
(0) (1)
fato, podemos verificar que em tal caso yλ é finita se λ for par e que yλ é finita se λ for ı́mpar.
• Os Polinômios de Legendre
Contemplando a expressão (7.12) facilmente constata-se que no caso em que λ = 2n, um inteiro
não-negativo par, tem-se
n k−1
!
(0)
X z 2k Y
y2n (z) := 2l(2l + 1) − 2n(2n + 1) ,
k=0
(2k)! l=0
que é um polinômio de grau 2n em z.

Analogamente, contemplando a expressão (7.13) facilmente se constata que no caso em que λ =
2n + 1, um inteiro positivo ı́mpar, tem-se
n k−1
!
(1)
X z 2k+1 Y
y2n+1 (z) := (2l + 1)(2l + 2) − (2n + 1)(2n + 2) ,
k=0
(2k + 1)! l=0
que é um polinômio de grau 2n + 1 em z.

Assim, vemos que no caso de λ ser um inteiro não-negativo a equação de Legendre tem uma solução
(0) (1)
finita em toda a parte, a saber, o polinômio c0 y2n (z), caso λ = 2n, par, ou o polinômio c1 y2n+1 (z), caso
λ = 2n + 1, ı́mpar. Definimos, então,
 !


m/2
X z 2k k−1
Y

 (0)

 c0 ym (z) = c0 2l(2l + 1) − m(m + 1) , m par

 (2k)!
k=0 l=0
Pm (z) := .

 (m−1)/2
!

 X z 2k+1 Y
k−1

 c y (1)
(z) = c (2l + 1)(2l + 2) − m(m + 1) , m ı́mpar

 1 m 1
(2k + 1)!
k=0 l=0
É claro pela definição acima que Pm é um polinômio de grau m e o coeficiente do monômio de maior
grau, z m , vale !
m/2−1
1 Y
c0 2l(2l + 1) − m(m + 1) , para m par
m! l=0
e !
(m−3)/2
1 Y
c1 (2l + 1)(2l + 2) − m(m + 1) , para m ı́mpar.
m! l=0
Por razões históricas, convenciona-se escolher c0 e c1 de modo que o coeficiente do monômio de maior
grau de Pm seja igual a 2m(2m)!
(m!)2
. Como facilmente se constata após alguns cálculos entediantes, isso
conduz à seguinte expressão para os polinômios Pm (z):
bm/2c
X (−1)a (2m − 2a)!
Pm (z) := z m−2a , (7.14)
a=0
2m (m − a)! (m − 2a)! a!
onde bm/2c é o maior inteiro menor ou igual a m/2, ou seja,

 m
jmk  2 , m par,
:=
2  m−1
2
, m ı́mpar.
A prova de (7.14) pode ser encontrada no Apêndice 7.B, página 416.
E. 7.1 Exercı́cio. Tente provar (7.14) sem ler o Apêndice 7.B. 6

A expressão (7.14) define os assim denominados polinômios de Legendre de grau m, cada qual é
solução da equação de Legendre de ordem m
(1 − z 2 )y 00 (z) − 2zy 0 (z) + m(m + 1)y(z) = 0 ,
com m inteiro não-negativo. Como comentamos, essa equação possui, para cada m inteiro não-negativo,
uma segunda solução que é, porém, divergente para z → ±1.
Os quatro primeiros polinômios de Legendre são
1 3 3 5
P0 (z) = 1 , P1 (z) = z , P2 (z) = − + z 2 , P3 (z) = − + z 3 ,
2 2 2 2
como facilmente se vê pela definição acima.
Os polinômios de Legendre possuem várias propriedades importantes, tais como relações de orto-
gonalidade, fórmulas de recorrência etc., as quais serão discutidas na Seção 8.2.1, página 436. Também
remetemos o estudante à literatura pertinente supracitada.
7.1.3 A Equação de Hermite

y 00 (z) − 2zy 0 (z) + λy(z) = 0, (7.15)
com λ ∈ é denominada equação de Hermite3 . Essa equação é famosa por surgir em um problema
básico da Mecânica Quântica, a saber, o problema do oscilador harmônico. Vide Seção 8.3.6, página
506. Comparando à forma padrão (7.1), constatamos que aqui
a(z) = −2z e b(z) = λ .
Ambas essas funções são analı́ticas em todo o plano complexo e, pelo Teorema 6.3 da página 342, assim
serão as soluções da equação de Hermite, sendo que
P∞podemos encontrá-las através de uma expansão
n
em série de potências em torno de z0 = 0: y(z) = n=0 cn z .
∞
X ∞
X ∞
X
n n+1
(n + 1)(n + 2)cn+2 z − 2 (n + 1)cn+1 z +λ cn z n = 0 . (7.16)
n=0 n=0 n=0
| {z }
II
A soma II pode ser escrita como em (7.10) e, assim, (7.16) fica

∞
X ∞
X ∞
X
(n + 1)(n + 2)cn+2 z n − 2 ncn z n + λ cn z n = 0 ,
n=0 n=1 n=0
ou seja,
∞ h
X i
2c2 + λc0 + (n + 1)(n + 2)cn+2 + (λ − 2n) cn z n = 0 ,
n=1
3
o que implica
2c2 + λc0 = 0 ,
(n + 1)(n + 2)cn+2 + (λ − 2n) cn = 0 , ∀n≥1.

2n − λ
cn+2 = cn , ∀n≥0. (7.17)
(n + 1)(n + 2)
Assim como no caso do oscilador harmônico simples e no caso da equação de Legendre, os coeficientes
cn com n par são proporcionais a c0 e os coeficientes cn com n ı́mpar são proporcionais a c1 . Mais
precisamente, tem-se
k−1
λ λ Y
c2 = − c0 , c2k = −c0 (4l − λ) , k≥2,
2 (2k)! l=1
Y k
1
c2k+1 = c1 (4l − 2 − λ) , k≥1.
(2k + 1)!
l=1
Desta forma, chegamos à seguinte solução geral da equação de Hermite:

(0) (1)
y(z) = c0 yλ (z) + c1 yλ (z) ,
onde
X∞ k−1 ∞ k
(0) λ 2 z 2k Y (1)
X z 2k+1 Y
yλ (z) := 1 − z − λ (4l − λ) , yλ (z) := z + (4l − 2 − λ) .
2 k=2
(2k)! l=1 k=1
(2k + 1)! l=1
Conforme comentamos, o Teorema 6.3 da página 342 garante-nos que ambas as séries acima convergem
(0) (1)
absolutamente para todo z ∈ , fazendo de yλ e yλ funções inteiras de z.
• Os Polinômios de Hermite
No caso em que z é restrita a ser uma variável real, chamêmo-la x, é possı́vel demonstrar que se λ
for real e as séries acima forem infinitas, então ambas comportam-se, para |x| grande, como funções que
crescem mais rápido que exp(x2 /2). Isso é provado no Apêndice 7.C, página 418, e, por outros meios,
em [79] ou em [77]. No contexto da Mecânica Quântica esse fato é indesejado, pois conduz a funções de
onda que não são de quadrado integrável (vide Seção 8.3.6, página 506). Assim, interessa-nos investigar
sob quais circunstâncias as séries acima podem ser reduzidas a polinômios.
Como vemos facilmente por (7.17), isso se dá apenas quando λ for um número inteiro não-negativo
e par: λ = 2m, com m = 0, 1, 2, . . . etc. De fato, se λ = 2m, com m = 0, 1, 2, . . . etc., a expressão
(0)
(7.17) diz-nos que 0 = cm+2 = cm+4 = cm+6 = · · · etc. Assim, caso m for par, yλ será um polinômio
(1)
de ordem m e caso m for ı́mpar, yλ será um polinômio de ordem m.
Defina-se, assim,


 m/2 (0)

 (−2) (m − 1)!! y2m (z), para m par,

Hm (z) := (7.18)



 (m+1)/2 (1)
 −(−2) (m!!) y2m (z), para m ı́mpar,
ou seja,
  m


 2m 2 X2
z 2k k−1
Y



 (−2)m/2 (m − 1)!! 1 − z − 2m (4l − 2m) , para m par,

 2 (2k)!
 k=2 l=1
Hm (z) :=   (7.19)

 m−1

 X z
2 2k+1 Yk



 −(−2)(m+1)/2 (m!!) z + (4l − 2(m + 1)) , para m ı́mpar.
 (2k + 1)!
k=1 l=1
De maneira compacta, podemos escrever isso da seguinte forma

bm/2c
X (−1)k m!
Hm (z) := (2z)m−2k . (7.20)
k=0
k! (m − 2k)!
A demonstração pode ser encontrada no Apêndice 7.D, página 420.
E. 7.2 Exercı́cio. Tente mostrar isso sem ler o Apêndice 7.D. 6
As funções Hm (z) são polinômios de grau m e são denominados polinômios de Hermite. Os fatores
(−2)m/2 (m − 1)!! e −(−2)(m+1)/2 (m!!) provêm de uma convenção histórica sobre a normalização dos
polinômios de Hermite. Os quatro primeiros são
H0 (z) = 1 , H1 (z) = 2z , H2 (z) = −2 + 4z 2 , H3 (z) = −12z + 8z 3 ,
como facilmente se vê pela definição acima.

Cada polinômio de Hermite Hm é solução da equação de Hermite
y 00 (z) − 2zy 0 (z) + 2my(z) = 0,
com m inteiro positivo. Como mencionamos, essa equação possui ainda uma segunda solução que,
embora finita para todo z ∈ , cresce muito rapidamente quando z é real e |z| → ∞, o que elimina seu
interesse no contexto da Mecânica Quântica (especificamente, no problema do oscilador harmônico).
Os polinômios de Hermite possuem várias propriedades importantes, tais como relações de orto-
gonalidade, fórmulas de recorrência etc., que serão discutidas na Seção 8.2.3, página 452. Também
remetemos o estudante à literatura pertinente supracitada.
7.1.4 A Equação de Airy

y 00 (z) − zy(z) = 0.
é denominada equação de Airy4 . Essa equação surge em vários contextos, como por exemplo no estudo
da propagação de ondas eletromagnéticas em meios com ı́ndice de refração variável, no estudo da
reflexão de ondas de radio na atmosfera e na Mecânica Quântica, mais especificamente na equação de
Schrödinger de uma partı́cula que se move em uma dimensão sob um potencial que cresce linearmente
com a posição.
Comparando à forma padrão (7.1), constatamos que aqui a(z) = 0 e b(z) = −z. Ambas essas
funções são analı́ticas em todo o plano complexo e, pelo Teorema 6.3 da página 342, assim serão as
soluções da equação de Airy, sendo que
P podemos encontrá-las através de uma expansão em série de
potências em torno de z0 = 0: y(z) = ∞ c
n=0 n z n
.
Inserindo-se (7.5) em (7.15), obtem-se
∞
X ∞
X
n
(n + 1)(n + 2)cn+2 z − cn z n+1 = 0 . (7.21)
n=0 n=0
| {z }
III
A expressão III pode ser escrita como

∞
X ∞
X
n+1
III = cn z = cn−1 z n
n=0 n=1
pela mudança n → n − 1. Assim, a equação de Airy diz-nos que

∞
X ∞
X
n
(n + 1)(n + 2)cn+2 z − cn−1 z n = 0 ,
n=0 n=1
ou seja,
∞ h
X i
2c2 + (n + 1)(n + 2)cn+2 − cn−1 z n = 0 .
n=1
Com isso, devemos ter
c2 = 0 , (n + 1)(n + 2)cn+2 − cn−1 = 0, ∀n≥1.
ou seja,
cn
c2 = 0 , cn+3 = , ∀n≥0. (7.22)
(n + 2)(n + 3)
O conjunto de coeficientes {cn , n = 0, 1, 2, . . .} é a união dos seguintes três conjuntos disjuntos:
{c3k , k = 0, 1, 2, . . .} = {c0 , c3 , c6 , c9 , . . .}
{c3k+1 , k = 0, 1, 2, . . .} = {c1 , c4 , c7 , c10 , . . .}
{c3k+2 , k = 0, 1, 2, . . .} = {c2 , c5 , c8 , c11 , . . .}

4
George Biddell Airy (1801-1892).
As relações de recorrência de (7.22) implicam que os coeficientes do primeiro conjunto acima são
proporcionais a c0 , que os coeficientes do segundo conjunto acima são proporcionais a c1 e que os
coeficientes do terceiro conjunto acima são proporcionais a c2 . Porém, como c2 = 0, concluı́mos que os
coeficientes do terceiro conjunto são todos nulos. Logo,
∞
X ∞
X
y(z) = c3k z 3k + c3k+1 z 3k+1 .
k=0 k=0
As relações de recorrência de (7.22) dizem-nos que

1 1
c3k = c0 , c3k+1 = c1 e c3k+2 = 0 ,
3k k! (3k − 1)!!! 3k k! (3k + 1)!!!
para todo k ≥ 0. Assim, a solução geral da equação de Airy é

"∞ # "∞ #
X z 3k X z 3k+1
y(z) = c0 + c1 . (7.23)
k=0
3k k! (3k − 1)!!! k=0
3k k! (3k + 1)!!!
Como 3k k! = (3k)!!! (por que?), podemos reescrever isso como

"∞ # "∞ #
X z 3k X z 3k+1
y(z) = c0 + c1 .
k=0
(3k)!!! (3k − 1)!!! k=0
(3k)!!! (3k + 1)!!!
• As funções de Airy de primeiro e de segundo tipo
Há ainda uma outra maneira de reescrever (7.23), a saber, usando as identidades

3k Γ k + 32 3k Γ k + 43
(3k − 1)!!! = , (3k + 1)!!! = , (7.24)
Γ 32 Γ 34
sendo, para x ≥ 0, Z ∞
Γ(x) := e−t tx−1 dt (7.25)
0
a bem conhecida Função Gama de Euler, a qual satisfaz
Γ(x + 1) = xΓ(x) . (7.26)
assim como a assim denominada fórmula de duplicação

√
Γ(x)Γ(x + 1/2) = 21−2x πΓ(2x) . (7.27)
E. 7.3 Exercı́cio. Demonstre a fórmula de duplicação (7.27). 6
E. 7.4 Exercı́cio. Usando (7.26) prove (7.24). 6

Com isso, podemos escrever a solução (7.23) da equação de Airy como

"X ∞ 3k
# "X ∞ 3k+1
#
2 z 4 z
y(z) = c0 Γ 2
+ c1 Γ 4
. (7.28)
3 3 2k k! Γ k + 3
3 3 2k k! Γ k + 3
k=0 k=0
Essa expressão pode ser escrita como combinação linear das seguintes funções:
∞
X X∞
z 3k z 3k+1
Ai(z) := − ,
k=0
32k+2/3 k! Γ k + 23 k=0
3 2k+4/3 k! Γ k + 4
3
" ∞ ∞
#
X z 3k X z 3k+1
Bi(z) := 31/2 + ,
k=0
32k+2/3 k! Γ k + 23 k=0
3 2k+4/3 k! Γ k + 4
3
as quais são denominadas funções de Airy de primeiro tipo e de segundo tipo, respectivamente. As
funções Ai(z) e Bi(z) foram definidas como acima por convenção histórica. Ambas são analı́ticas
para todo z ∈ e representam soluções da equação de Airy. Propriedades dessas funções podem ser
estudadas em [79].
7.1.5 A Equação de Chebyshev

(1 − z 2 )y 00 (z) − z y 0 (z) + λ2 y(z) = 0 (7.29)
é denominada equação de Chebyshev5 . Em princı́pio adotamos λ ∈ arbitrário, mas o maior interesse
estará no caso em que λ é um inteiro não-negativo.
A equação de Chebyshev acima pode ser posta na forma padrão (7.1) com
−z λ2
a(z) = e b(z) = .
1 − z2 1 − z2
Claramente, ambas as funções são analı́ticas emPum disco de raio 1 centrado em z 0 = 0. É, portanto,
legı́timo procurarmos soluções na forma y(z) = ∞ n
n=0 cn z (com z0 = 0). Tais soluções serão analı́ticas
pelo menos no disco de raio 1 centrado em z0 = 0.
∞
X ∞
X ∞
X ∞
X
n n+2 n+1 2
(n + 1)(n + 2)cn+2 z − (n + 1)(n + 2)cn+2 z − (n + 1)cn+1 z +λ cn z n = 0 . (7.30)
n=0
|n=0 {z } |n=0 {z } n=0
I II
Novamente, I e II são dadas como em (7.9) e (7.10), respectivamente, e, portanto, (7.30) fica
∞
X ∞
X ∞
X ∞
X
n n n 2
(n + 1)(n + 2)cn+2 z − (n − 1)n cn z − ncn z + λ cn z n = 0 ,
n=0 n=1 n=1 n=0
5
Pafnuty Lvovich Chebyshev (1821-1894).
ou seja, " #
∞
X
2c2 + λ2 c0 + (n + 1)(n + 2)cn+2 − (n − 1)n + n − λ2 cn z n = 0 .
n=1
Como (n − 1)n + n = n2 , obtemos o seguinte conjunto de equações
2c2 + λ2 c0 = 0 ,

(n + 1)(n + 2)cn+2 − n2 − λ2 cn = 0 , ∀n ≥ 1 .
Essas expressões fornecem as seguintes equações recursivas para os coeficientes c n :
n2 − λ 2
cn+2 = cn , ∀n ≥ 0 . (7.31)
(n + 1)(n + 2)
De maneira análoga ao que fizemos em exemplos anteriores, podemos expressar todos os coeficientes c n
com n par em termos de c0 e todos os coeficientes cn com n ı́mpar em termos de c1 . Mais precisamente,
tem-se
k−1
" #
1 Y
c2k = (2l)2 − λ2 c0 ,
(2k)! l=0
k−1
" #
1 Y
2 2
c2k+1 = (2l + 1) − λ c1 .
(2k + 1)! l=0
Para λ ∈ genérico concluı́mos que a solução geral da equação de Chebyshev é da forma

(0) (1)
y(z) = c0 yλ (z) + c1 yλ (z) ,
onde
∞ k−1
" #
(0)
X z 2k Y
yλ (z) = 1+ (2l)2 − λ2 , (7.32)
k=1
(2k)! l=0
∞ k−1
" #
(1)
X z 2k+1 Y 2 2
yλ (z) = z+ (2l + 1) − λ . (7.33)
k=1
(2k + 1)! l=0
• Os Polinômios de Chebyshev
Como mencionamos, o principal interesse reside no caso em que λ é um inteiro não-negativo: λ = m.

(0) (1)
Nesse caso é fácil ver que ym (z) será um polinômio de grau m, caso m seja par e ym (z) será um
polinômio de grau m, caso m seja ı́mpar. Esses polinômios são

m/2 k−1
" #
X z 2k Y
(0)
ym (z) = 1 + (2l)2 − m2 , m par,
(2k)!
k=1 l=0
(m−1)/2 k−1
" #
X z 2k+1 Y
(1)
ym (z) = z + (2l + 1)2 − m2 , m ı́mpar.
(2k + 1)!
k=1 l=0
Por uma convenção histórica, costuma-se redefinir esses polinômios multiplicando-os por uma constante
dependente de m de modo a fazer o coeficiente do monômio de maior grau, z m , igual a 2m−1 . Após
alguns cálculos entediantes o estudante poderá convencer-se que, com essa convenção, os polinômios
acima podem ser escritos de uma forma compacta como
bm/2c
m X (−1)k (m − k − 1)!
Tm (z) := (2z)m−2k , (7.34)
2 k=0 k! (m − 2k)!
ou ainda como
bm/2c
X
p m p
Tm (z) = (−1) z m−2p 1 − z 2 , (7.35)
p=0
2p
ambas válidas para todo m = 0, 1, 2, 3, 4, . . .. Os polinômios assim definidos são denominados

polinômios de Chebyshev, os quais desempenham um papel central na teoria da aproximação. Vide,
por exemplo, [29], [120], [112] ou [87].
Os quatro primeiros polinômios de Chebyshev são
T0 (z) = 1 , T1 (z) = z , T2 (z) = 2z 2 − 1 , T3 (z) = 4z 3 − 3z .
Uma das mais curiosas e importantes propriedades dos polinômios de Chebyshev Tm é a seguinte
identidade:
Tm (z) = cos m arccos(z) , (7.36)
a qual pode ser facilmente demonstrada a partir da expressão (7.35). Vide exercı́cio abaixo.
Demonstrar diretamente a validade das expressões (7.34), (7.35) e (7.36) pode ser trabalhoso, por
envolver o uso de várias identidades combinatórias um tanto complicadas. O procedimento mais prático
é provar que todas essas expressões satisfazem a equação de Chebyshev e as mesmas condições iniciais,
por exemplo em z = 0.
De (7.36) segue a interessante propriedade de composição
Tn (Tm (z)) = Tnm (z), (7.37)
válida para todos n, m não-negativos.

E. 7.5 Exercı́cio resolvido. Prove (7.35) a partir de (7.36). Sugestão: defina y = arccos(z) e escreva
o lado direito como

cos m arccos(z) = cos(my)
1 imy
= e + e−imy
2
1
= [(cos y + i sen y)m + (cos y − i sen y)m ]
2
1 h √ m √ m i
= z + i 1 − z2 + z − i 1 − z2
2
" m m #
1 X m m−p √ p X m √ p
= z i 1 − z2 + z m−p −i 1 − z 2 .
2 p=0 p p=0
p
É muito fácil ver que nas duas somas acima os termos com p ı́mpar cancelam-se mutuamente. Assim,
ficamos com
bm/2c
X
p m p
cos m arccos(z) = (−1) z m−2p 1 − z 2 ,
p=0
2p
que é o que querı́amos. Para provar (7.36) a partir de (7.35), basta ler as linhas acima do fim para o começo.
6
7.1.6 O Caso de Equações Regulares Gerais

Nas páginas acima resolvemos em vários exemplos particulares a equação
y 00 (z) + a(z)y 0 (z) + b(z)y(z) = 0 (7.38)
em casos em que os coeficientes a(z) e b(z) são funções analı́ticas de z em torno de um ponto z 0 . Para
tal, evocando o Teorema 6.3, página 342, procuramos soluções na forma de séries de potências:
∞
X
y(z) = cn (z − z0 )n . (7.39)
n=0
Vamos agora mostrar como o método que descrevemos se aplica ao caso geral no qual as funções a(z)
e b(z) são também dadas em termos de séries de potências:
∞
X ∞
X
n
a(z) = an (z − z0 ) , b(z) = bn (z − z0 )n .
n=0 n=0
Usando novamente (7.4) e (7.5) a equação (7.38) fica (adotamos daqui para frente z 0 = 0, sem perda
de generalidade)
∞ ∞
! ∞ ! ∞
! ∞ !
X X X X X
n n n n n
(n + 1)(n + 2)cn+2 z + an z (n + 1)cn+1 z + bn z cn z . (7.40)
n=0 n=0 n=0 n=0 n=0
P∞ P∞
Para o produto de duas séries de potência p=0 αp z p e q=0 βq z q vale
∞
! ∞
! ∞ X
∞ ∞ n
!
X X X X X
p q p+q
αp z βq z = α p βq z = αn−m βm zn . (7.41)
p=0 q=0 p=0 q=0 n=0 m=0
Assim, (7.40) fica

∞ ∞ n
! ∞ n
!
X X X X X
(n + 1)(n + 2)cn+2 z n + an−m (m + 1)cm+1 zn + bn−m cm z n = 0,
n=0 n=0 m=0 n=0 m=0
ou seja,
∞ h
X n
X n
X i
(n + 1)(n + 2)cn+2 + (m + 1)an−m cm+1 + bn−m cm z n = 0,
n=0 m=0 m=0
o que implica
Xn
1
cn+2 = − (m + 1)an−m cm+1 + bn−m cm (7.42)
(n + 1)(n + 2) m=0
para todo n ≥ 0. Observe que essa expressão determina cn+2 em termos de c0 , c1 , . . . , cn+1 . Assim,
apenas fixando c0 e c1 podemos determinar todos os demais coeficientes cn através da expressão recursiva
acima.
Como dissemos,
P∞ os resultados que nos conduziram ao Teorema 6.3, página 342, garantem-nos que
n
a série y(z) = n=0 cn z assim obtida é convergente na mesma região em que convergem as séries
de a(z) e b(z), de modo que não precisamos provar isso. Alguns autores (por exemplo,P∞ [107]) usam
n
as expressões recursivas (7.42) para demonstrar a convergência da série y(z) = n=0 cn z . Como
dissemos, pelo nosso proceder isso não é mais necessário, mas o estudante interessado é convidado a
estudar essa outra (elegante) demonstração no texto supracitado.
Para futura referência, resumimos nossas conclusões sobre equações regulares no seguinte teorema.
Teorema 7.1 (Solução de equações regulares por expansão em série de potências) Considere-
se a equação diferencial
y 00 (z) + a(z)y 0 (z) + b(z)y(z) = 0 , (7.43)
z ∈ , com a(z) e b(z) analı́ticas em torno de z0 e expressas em termos de suas séries de Taylor em
torno de z0 como
X∞ X∞
n
a(z) = an (z − z0 ) , b(z) = bn (z − z0 )n ,
n=0 n=0
séries estas supostas absolutamente convergentes em |z − z0 | < r, para algum r > 0. Então a solução
geral da equação (7.43) pode ser expressa em termos de uma expansão em série de potências em z − z 0 :
∞
X
y(z) = cn (z − z0 )n ,
n=0
onde os coeficientes cn podem ser obtidos através das relações recursivas

Xn
1
cn+2 = − (m + 1)an−m cm+1 + bn−m cm , ∀n≥0,
(n + 1)(n + 2) m=0
a partir dos dois primeiros coeficientes c0 e c1 , arbitrários. A expansão em série de potências para y(z)
converge absolutamente pelo menos na região |z − z0 | < r, onde representa uma função analı́tica. 2
7.2 Solução de Equações Singulares Regulares. O Método de

Frobenius
Na presente seção ilustraremos o Teorema 6.4, página 345, estudando a solução, por um método
devido a Frobenius6 , de algumas equações diferenciais ordinárias, homogêneas de segunda ordem e
singulares regulares de interesse (especialmente em Fı́sica). Boa parte dos métodos apresentados nos
exemplos aplicam-se a equações de ordem maior que dois, mas não trataremos de tais generalizações
aqui pois elas pouco apresentam de especial e seu interesse na Fı́sica é reduzido.
Vale aqui novamente a advertência sobre a omissão de alguns detalhes de cálculos, sendo o estudante
novamente convidado a completá-los como exercı́cio (todos merecem ser feitos ao menos uma vez na
vida). Todas as equações particulares tratadas e suas soluções são amplamente discutidos na vasta
literatura pertinente, por exemplo, aquela listada à página 356.
Conforme demonstramos em páginas anteriores (Teorema 6.3, página 342), se a equação diferencial
linear homogênea de segunda ordem
a(z) 0 b(z)
y 00 (z) + y (z) + y(z) = 0 (7.44)
(z − z0 ) (z − z0 )2
a(z)
for tal que a(z) e b(z) são funções analı́ticas de z em torno de um ponto z0 , então o coeficiente (z−z0 )
b(z)
tem no máximo uma singularidade de tipo polo de ordem 1 em z0 e o coeficiente (z−z 0)
2 tem no máximo
uma singularidade de tipo polo de ordem 2 em z0 . Assim, pelas nossas definições prévias, z0 é um ponto
singular regular da equação (7.44). Nesse caso, o Teorema 6.3, página 342, diz-nos que ou a equação
(7.44) tem duas soluções independentes da forma
∞
X
γ
y(z) = (z − z0 ) cn (z − z0 )n . (7.45)
n=0
P
onde γ ∈ e a série ∞ n
n=0 cn (z − z0 ) é absolutamente convergente para |z − z0 | < r (e, portanto, repre-
senta uma função analı́tica em torno de z0 ) ou então a equação (7.44) tem duas soluções independentes,
uma da forma (7.45) e outra da forma
∞
X ∞
X
0
y(z) = (z − z0 )γ (ln(z − z0 )) cn (z − z0 )n + (z − z0 )γ vn (z − z0 )n . (7.46)
n=0 n=0
6
Ferdinand Georg Frobenius (1849-1917).
P P∞
onde, novamente as séries ∞ n
n=0 cn (z − z0 ) e
n
n=0 vn (z − z0 ) são absolutamente convergentes para
|z − z0 | < r (e, portanto, representam funções analı́ticas em torno de z0 ). Em ambos os casos acima
r > 0 é o raio do maior disco aberto centrado em z0 dentro do qual a(z) e b(z) são analı́ticas.
O chamado método de Frobenius consiste precisamente em inserir-se o Ansatz (7.45) na equação
(7.44) e determinar recursivamente os coeficientes cn , assim como o expoente γ. Caso duas soluções
distintas sejam encontradas dessa forma, o problema está resolvido. Caso se encontre apenas uma
solução, então uma segunda solução da forma (7.46) deve ser procurada através da determinação
recursiva dos coeficientes cn e vn , assim como dos expoentes γ e γ 0 .
Ao contrário do que fizemos no caso de equações regulares, quando primeiro exploramos exemplos
particulares para depois tratarmos do caso geral, é mais conveniente no presente contexto que nos apo-
deremos primeiramente da análise geral para depois tratarmos de equações especı́ficas, pois uma visão
prévia das complicações envolvidas nos auxiliará a evitar certas armadilhas ocultas no tratamento
de equações singulares regulares particulares7 . Ilustraremos o método de Frobenius apresentando a
resolução da equação de Euler, da equação de Bessel, da equação de Laguerre e das equações hiper-
geométrica e hipergeométrica confluente, todas de interesse em Fı́sica.
O principal teorema que demonstraremos, o qual resume os resultados do método de Frobenius e
expressa a solução de uma equação singular regular homogênea de segunda ordem geral, é o seguinte:
Teorema 7.2 (Solução de equações singulares regulares pelo método de Frobenius) Seja a
equação diferencial
(z − z0 )2 y 00 (z) + (z − z0 )a(z)y 0 (z) + b(z)y(z) = 0 , (7.47)
z ∈ , com a(z) e b(z) analı́ticas em torno de z0 e expressas em termos de suas séries de Taylor em
torno de z0 como
X∞ X∞
n
a(z) = an (z − z0 ) , b(z) = bn (z − z0 )n ,
n=0 n=0
séries estas supostas absolutamente convergentes em |z − z0 | < r, para algum r > 0.

Seja definido o polinômio de segundo grau
f (x) := x(x − 1) + a0 x + b0 = x2 + (a0 − 1)x + b0 ,
e considere-se a equação algébrica

f (x) = 0 , (7.48)
a qual é denominada equação indicial. Sejam γ± as soluções dessa equação no plano complexo:
p p
1 − a0 − (a0 − 1)2 − 4b0 1 − a0 + (a0 − 1)2 − 4b0
γ− = e γ+ = .
2 2
Então a equação (7.47) possui duas soluções independentes y 1 (z) e y2 (z), válidas pelo menos na região
0 < |z − z0 | < r. A forma dessas soluções varia conforme as seguintes condições complementares sobre
γ− e γ+ : 1. γ− − γ+ 6∈ , 2. γ− − γ+ = 0 ou 3. γ− − γ+ ∈ \ {0}, como enumeramos a seguir:
7
O estudante é convidado a não entrar em pânico diante da aparente complexidade de algumas expressões que
obteremos. Na maioria das equações diferenciais de interesse as funções a(z) e b(z) são apenas polinômios de grau 0, 1
ou 2 e as expressões obtidas no tratamento geral se simplificam um tanto.
1. Caso γ− − γ+ 6∈ .
Nesse caso tem-se
∞
X ∞
X
γ− n γ+
y1 (z) = (z − z0 ) cn (γ− )(z − z0 ) e y2 (z) = (z − z0 ) cn (γ+ )(z − z0 )n , (7.49)
n=0 n=0
onde
n−1 h
X i
1
cn (γ± ) = − (m + γ± )an−m + bn−m cm (γ± ) , (7.50)
f (γ± + n) m=0
para todo n ≥ 1. Essas expressões recursivas permitem-nos obter todos os c n (γ− ) a partir de um
c0 (γ− ) não-nulo arbitrário e, respectivamente, todos os cn (γ+ ) a partir de um c0 (γ+ ) não-nulo
arbitrário.
2. Caso γ− − γ+ = 0.
p
Neste caso (a0 − 1)2 − 4b0 = 0 e γ− = γ+ = γ0 com
1 − a0
γ0 :=
2
e tem-se
∞
X ∞
X
γ0 n γ0
y1 (z) = (z−z0 ) cn (γ0 ) (z−z0 ) e y2 (z) = y1 (z) ln(z−z0 )+(z−z0 ) vn (γ0 ) (z−z0 )n ,
n=0 n=0
(7.51)
onde
n−1 h
X i
1
cn (γ0 ) = − (m + γ0 )an−m + bn−m cm (γ0 ) (7.52)
f (γ0 + n) m=0
para todo n ≥ 1, e
" n
1 X
vn (γ0 ) = − − 2(n + γ0 ) − 1 cn (γ0 ) − an−m cm (γ0 )
f (γ0 + n) m=0
n−1 h
#
X i
+ (m + γ0 )an−m + bn−m vm (γ0 ) , ∀ n ≥ 1 , (7.53)
m=0
onde os coeficientes cn (γ0 ) são obtidos recursivamente a partir de um c0 (γ0 ) não-nulo arbitrário
e os coeficientes vn (γ0 ) são obtidos recursivamente a partir dos coeficientes cm (γ0 ) e a partir de
um v0 (γ0 ) arbitrário (mas que pode ser escolhido igual a zero).
3. Caso γ− − γ+ ∈ \ {0}.
p
Neste caso γ− − γ+ = − (a0 − 1)2 − 4b0 é um inteiro não-nulo. Definamos então
p

n0 = (a0 − 1)2 − 4b0 .
Claro está que n0 ∈ {1, 2, 3, 4, . . .}. Definamos também
γ1 := γ− , γ2 := γ+ , caso γ− − γ+ ≥ 1, ou
(7.54)
γ1 := γ+ , γ2 := γ− , caso γ+ − γ− ≥ 1.
Com essas definições tem-se

γ1 = γ 2 + n0 .
Então,
∞
X ∞
X
γ1 n γ2
y1 (z) = (z −z0 ) cn (γ1 )(z −z0 ) e y2 (z) = Ay1 (z) ln(z −z0 )+(z −z0 ) vn (z −z0 )n ,
n=0 n=0
(7.55)
onde
n−1 h
X i
1
cn (γ1 ) = − (m + γ1 )an−m + bn−m cm (γ1 ) , (7.56)
f (γ1 + n) m=0
para n ≥ 1 e
 n−1
 1 X



 − (m + γ2 )an−m + bn−m vm , para 1 ≤ n ≤ n0 − 1 ,

 f (γ2 + n) m=0




vn = arbitrário , para n = n0 ,



 " #

 n−1

 1 X

 − f (γ + n) −Agn−n0 +
 (m + γ2 )an−m + bn−m vm , para n > n0 ,
2 m=0
(7.57)
onde,
0 −1
nX
1
A = − [(m + γ2 )an0 −m + bn0 −m ] vm (7.58)
c0 (γ1 ) n0 m=0
e n
X
gn = [2(n + γ1 ) − 1] cn (γ1 ) + an−m cm (γ1 ) , n≥0. (7.59)
m=0
As expressões recursivas para cn (γ1 ) dependem de um c0 (γ1 ) não-nulo e arbitrário e as expressões

recursivas para vn dependem também de um v0 arbitrário.
Todas as séries de potência em z − z0 apresentadas acima convergem absolutamente pelo menos na

região |z − z0 | < r e nela representam, portanto, funções analı́ticas. 2
Para a demonstração desse teorema devotaremos toda a Seção 7.2.1. Em uma primeira leitura o
estudante poderá dispensar-se de um estudo detalhado da demonstração e passar mais rapidamente
aos exemplos discutidos na Seção 7.2.2, página 385, e seguintes.
7.2.1 Equações Singulares Regulares. O Caso Geral

Daqui para frente, sem perda de generalidade, adotaremos z0 = 0.
Seja, então, a equação (7.44) escrita agora na forma
z 2 y 00 (z) + za(z)y 0 (z) + b(z)y(z) = 0 (7.60)
com a(z) e b(z) analı́ticas em torno de z0 = 0 e expressas em termos de suas séries de Taylor em torno
de 0 como ∞ ∞
X X
n
a(z) = an z , b(z) = bn z n .
n=0 n=0
Sob a luz do Teorema 6.4, página 345, procuraremos primeiramente uma solução na forma
∞
X
y(z) = cn z n+γ . (7.61)
n=0
Antes de iniciarmos nossa análise, comentemos que, sem perda de generalidade, podemos sempre adotar
o primeiro coeficiente, c0 , como não-nulo: c0 6= 0. Isso se deve ao seguinte. Se cm fosse o primeiro
coeficiente não-nulo, terı́amos
X∞
y(z) = cn z n+γ .
n=m
Agora, com a mudança de variável n0 = n − m ficarı́amos com

∞
X 0
y(z) = cn0 +m z n +(γ+m)
n0 =0
redefinindo c0n0 := cn0 +m e γ 0 = γ + m, ficarı́amos com

∞
X ∞
X
0 0 0
y(z) = c0n0 z n +γ = c0n z n+γ .
n0 =0 n=0
A última expressão possui a mesma estrutura de (7.61) mas, como se vê, o primeiro coeficiente é
c00 = cm , que é não-nulo, por hipótese.
Isto posto, passemos a analisar o que se passa inserindo a expressão (7.61) em (7.60). Para (7.61)
valem ∞
X
y 0 (z) = (n + γ)cn z n+γ−1 (7.62)
n=0
e ∞
X
00
y (z) = (n + γ)(n + γ − 1)cn z n+γ−2 , (7.63)
n=0
a equação (7.60) fica

∞ ∞
! ∞ ∞
! ∞
X X X X X
n+γ n n+γ n
(n + γ)(n + γ − 1)cn z + an z (n + γ)cn z + bn z cn z n+γ = 0.
n=0 n=0 n=0 n=0 n=0
Usando novamente (7.41), isso fica

∞ ∞ n
! ∞ n
!
X X X X X
(n + γ)(n + γ − 1)cn z n+γ + an−m (m + γ)cm z n+γ + bn−m cm z n+γ = 0.
n=0 n=0 m=0 n=0 m=0
ou seja,
∞
" n
! n
!#
X X X
(n + γ)(n + γ − 1)cn + an−m (m + γ)cm + bn−m cm z n+γ = 0
n=0 m=0 m=0
que implica
h i
γ(γ − 1) + a0 γ + b0 c0 = 0 ,
h i n−1 h
X i
(n + γ)(n + γ − 1) + a0 (n + γ) + b0 cn = − an−m (m + γ) + bn−m cm , ∀n ≥ 1 .
m=0
para todo n ≥ 0. Como c0 6= 0, temos que
γ(γ − 1) + a0 γ + b0 = 0 , (7.64)
h i n−1 h
X i
(n + γ)(n + γ − 1) + a0 (n + γ) + b0 cn = − an−m (m + γ) + bn−m cm , ∀ n ≥ 1 . (7.65)
m=0
A equação (7.64) é denominada na literatura equação indicial, por ser uma equação algébrica (de
segundo grau) para o ı́ndice γ. Antes de escrevermos a solução dessa equação, denotemos por f o
polinômio de segundo grau
f (x) = x(x − 1) + a0 x + b0 = x2 + (a0 − 1)x + b0 .
As equações (7.64) e (7.65) podem, claramente, ser reescritas como
f (γ) = 0 , (7.66)
n−1 h
X i
f (γ + n) cn = − an−m (m + γ) + bn−m cm , ∀n ≥ 1 . (7.67)
m=0
A equação f (γ) = 0 é uma equação algébrica de segundo grau, cujas soluções são
p p
1 − a0 − (a0 − 1)2 − 4b0 1 − a0 + (a0 − 1)2 − 4b0
γ− = e γ+ = .
2 2
Assim, a equação indicial f (γ) = 0 obriga o ı́ndice γ a ser γ− ou γ+ . Há dois casos a considerar: o
caso γ− − γ+ 6∈ e o caso γ− − γ+ ∈ . Trataremos primeiramente do caso γ− − γ+ 6∈ , que é o mais
simples.
• O caso γ− − γ+ 6∈
Como a diferença γ− − γ+ não é um número inteiro, tem-se em particular que γ− 6= γ+ . Fora isso,
como γ− e γ+ são os dois únicos zeros (distintos) do polinômio f (x), tem-se que f (γ± + n) 6= 0 para
todos n ≥ 1 inteiros. Se assim não fosse e houvesse n0 ∈ com, digamos, f (γ+ + n0 ) = 0 valeria
γ− = γ+ + n0 , ou seja, γ− − γ+ = n0 , que é inteiro: uma contradição. Com isso, podemos de (7.67)
obter
n−1 h
X i
1
cn (γ± ) = − an−m (m + γ± ) + bn−m cm (γ± )
f (γ± + n) m=0
n−1 h
X i
1
= − a n−m (m + γ ± ) + b n−m cm (γ± ) , (7.68)
(γ± + n)2 + (a0 − 1)(γ± + n) + b0 m=0
para todo n ≥ 1. Essas expressões recursivas permitem-nos obter todos os c n (γ− ) a partir de um c0 (γ− )
não-nulo arbitrário e, respectivamente, todos os cn (γ+ ) a partir de um c0 (γ+ ) não-nulo arbitrário.
Concluı́mos assim, que no caso γ− − γ+ 6∈ a equação diferencial (7.60) (com z0 = 0) possui duas
soluções linearmente independentes y1 (z) e y2 (z), dadas por
∞
X ∞
X
y1 (z) = cn (γ− )z n+γ− e y2 (z) = cn (γ+ )z n+γ+ ,
n=0 n=0
com cn (γ± ) dadas por (7.68), a solução geral sendo uma combinação linear de ambas. As constantes
c0 (γ− ) e c0 (γ+ ) são não-nulas e arbitrárias.
• O caso γ− − γ+ ∈
O caso γ− −γ+ ∈ subdivide-se em dois: o caso γ− −γ+ = 0 e o caso γ− −γ+ ∈ \{0}. Comecemos
com o primeiro.
• O caso γ− = γ+
O caso γ− = γ+ ocorre se e somente se (a0 − 1)2 − 4b0 = 0 e, portanto, tem-se γ− = γ+ = γ0 , com

1 − a0
γ0 := . (7.69)
2
Note-se que se (a0 − 1)2 − 4b0 = 0 a equação f (x) = 0 tem apenas γ0 por raiz e, portanto, f (n + γ0 ) 6= 0
para todo n ≥ 1. Conseqüentemente, os coeficientes cn com n ≥ 1 serão dados recursivamente por
(vide (7.67))
n−1 h
X i
1
cn (γ0 ) = − an−m (m + γ0 ) + bn−m cm (γ0 )
f (γ0 + n) m=0
X
n−1 h i
1
= − 2
an−m (m + γ0 ) + bn−m cm (γ0 ) , (7.70)
(γ0 + n) + (a0 − 1)(γ0 + n) + b0 m=0
para todo n ≥ 1. Como se constata, a última expressão relaciona cn com os coeficientes anteriores
cn−1 , . . . , c0 . Assim, fixando apenas c0 todos os demais estão determinados. Obtemos dessa forma,
para o caso (a0 − 1)2 − 4b0 = 0 a solução
∞
X
y1 (z) = cn (γ0 ) z n+γ0 , (7.71)
n=0
onde os coeficientes cn (γ0 ) são obtidos recursivamente de (7.70) a partir de um c0 arbitrário. Pelo
Teorema 6.4, página 345, a série acima será convergente (ao menos na região onde as séries de a(z) e
b(z) convergem).
Com esse proceder obtivemos apenas uma solução da equação diferencial (7.60). Como a mesma
é de segunda ordem, uma segunda solução deverá existir. Novamente, o Teorema 6.4, página 345,
indica-nos que essa segunda solução pode ter uma singularidade logarı́tmica. Podemos procurar essa
segunda solução seguindo um procedimento devido a D’Alembert8 , que consiste em procurar soluções
da forma
y2 (z) = Ay1 (z) ln(z) + v(z) , (7.72)
sendo y1 (z) a solução já conhecida em (7.71) e onde A é uma constante a ser determinada, assim como
a função v(z). Note-se que o Ansatz (7.72) está de acordo com o Teorema 6.4, página 345, que prevê a
ocorrência de soluções com uma singularidade logarı́tmica. A especialidade do Ansatz de D’Alembert
está em espertamente9 prever que o fator que multiplica ln(z) é a primeira solução y1 (z).
Substituindo (7.72) na equação (7.60), obtem-se a seguinte equação para v(z):

z 2 v 00 (z) + za(z)v 0 (z) + b(z)v(z) = −A 2zy10 (z) + (a(z) − 1)y1 (z) . (7.73)
Como facilmente se verifica, o lado direito é dado pela expansão

∞
X
−A fn z n+γ0 , (7.74)
n=0
onde n
X
fn = [2(n + γ0 ) − 1] cn (γ0 ) + an−m cm (γ0 ) . (7.75)
m=0
P
A equação (7.74) sugere que uma solução para v(z) deve ser procurada na forma v(z) = ∞ n=0 vn z
n+γ0
.
Inserindo isso em (7.73) tem-se
" n h
#
X∞ X i X∞
(n + γ0 )(n + γ0 − 1)vn + (m + γ0 )an−m + bn−m vm z n+γ0 = −A fn z n+γ0 ,
n=0 m=0 n=0
8
9
Na literatura matemática o truque é por vezes denominado método de redução de D’Alembert e pode ser usado em
várias equações diferenciais de segunda ordem para se obter uma segunda solução da equação a partir de uma primeira
solução conhecida.
que implica
n h
X i
(n + γ0 )(n + γ0 − 1)vn + (m + γ0 )an−m + bn−m vm = −Afn
m=0
para todo n ≥ 0. Para n = 0 a relação acima é

h i
γ0 (γ0 − 1) + a0 γ0 + b0 v0 = −Af0 ,
que é uma identidade trivial, já que γ0 (γ0 − 1) + a0 γ0 + b0 = 0 e que f0 = γ0 [2γ0 − 1 + a0 ] c0 (γ0 ) = 0,
por (7.69). Para n ≥ 1 tem-se, porém,
" n−1 h
X i
#
1
vn = − −Afn + (m + γ0 )an−m + bn−m vm , ∀ n ≥ 1 ,
(γ0 + n)2 + (γ0 + n)(a0 − 1) + b0 m=0
(7.76)
o que permite obter recursivamente todos os vn a partir de v0 . Expressando-se os fn ’s como em (7.75),
tem-se
" n
X
1
vn (γ0 ) = − 2
−[2(n + γ0 ) − 1] cn (γ0 ) − an−m cm (γ0 )
(γ0 + n) + (γ0 + n)(a0 − 1) + b0 m=0
n−1 h
#
X i
+ (m + γ0 )an−m + bn−m vm , ∀ n ≥ 1 , (7.77)
m=0
que expressa os vn ’s em termos dos coeficientes cn (γ0 ) de y1 (z), os quais, por sua vez, são dados pelas
relações recursivas (7.70)10 , e de v0 (γ0 ) arbitrário.
Observemos, por fim, que A deve, nesse caso, ser forçosamente não-nulo, pois se tomássemos A = 0
verı́amos por (7.77) que os coeficientes vn satisfazem as mesmas relações de recorrência dos cn (γ0 ).
Assim, v(z) e y1 (z) não seriam linearmente independentes. Podemos, portanto, adotar sem perda de
generalidade A = 1.
Resumindo nossas conclusões, caso (a0 − 1)2 − 4b0 = 0, a solução da equação diferencial (7.60) (com
z0 = 0) possui duas soluções linearmente independentes y1 (z) e y2 (z), dadas por
∞
X ∞
X
n+γ0
y1 (z) = cn (γ0 )z e y2 (z) = y1 (z) ln(z) + vn (γ0 )z n+γ0 ,
n=0 n=0
com γ0 = (1 − a0 )/2, com os cn (γ0 )’s dados em (7.70) e com os vn (γ0 )’s dados em (7.77), tomando-se
A = 1. As constantes c0 (γ) e v0 (γ) são não-nulas e arbitrárias.
É de se notar que, como A é não-nulo, uma das soluções possui uma singularidade logarı́tmica.
• O caso γ− − γ+ ∈ \ {0}
10
Vide nota de rodapé da página 373.
Esse último caso, com a generalidade com que o abordamos aqui, é o mais complexo e o estu-
dante poderá dispensar seu estudo detalhado em uma primeira leitura, atendo-se preferencialmente aos
exemplos das equações de Bessel e Laguerre, das quais trataremos adiante.
O caso γ− − γ+ ∈ \ {0} é semelhante ao caso anterior onde γ− = γ+ , a principal diferença sendo
que aqui podem ocorrer situações onde A = 0, de modo que ambas as soluções podem ser livres de
singularidades logarı́tmicas. De fato, sabe-se de equações particulares onde tem-se A = 0 (um exemplo
sendo a equação de Bessel de ordem 1/2) e de equações particulares onde tem-se A 6= 0 (um exemplo
sendo a equação de Bessel de ordem 1).
p
Comecemos com algumas definições. O caso γ− − γ+ ∈ \ {0} só pode ocorrer se (a0 − 1)2 − 4b0
for um inteiro não nulo. Definamos então
p

n0 = (a0 − 1)2 − 4b0 .
Claro está que n0 ∈ {1, 2, 3, 4, . . .}. Como γ− − γ+ é um inteiro não-nulo, definamos também
γ1 := γ− , γ2 := γ+ , caso γ− − γ+ ≥ 1, ou
(7.78)
γ1 := γ+ , γ2 := γ− , caso γ+ − γ− ≥ 1.
Com essas definições, está sempre garantido que
γ1 = γ 2 + n0 .
Isso diz-nos que para todo n ≥ 1 a expressão f (γ1 +n) não pode se anular, pois se assim o fosse terı́amos
forçosamente γ1 + n = γ2 , ou seja, n = −n0 , um absurdo, já que n0 ≥ 1. Por outro lado, existe um
único valor de n para o qual f (γ2 + n) se anula, a saber n = n0 .
Com isso em mente, vemos que para a solução γ = γ1 da equação indicial, a expressão (7.67)
permite-nos obter todos os coeficientes cn a partir de um c0 não nulo:
n−1 h
X i
1
cn (γ1 ) = − an−m (m + γ1 ) + bn−m cm (γ1 )
f (γ1 + n) m=0
n−1 h
X i
1
= − a n−m (m + γ 1 ) + b n−m cm (γ1 ) , (7.79)
(γ1 + n)2 + (a0 − 1)(γ1 + n) + b0 m=0
para todo n ≥ 1. Isso fornece-nos a primeira solução da equação diferencial (7.60) (com z 0 = 0):
∞
X
y1 (z) = cn (γ1 )z n+γ1 , (7.80)
n=0
com os cn (γ1 ) dados em (7.79) em termos de c0 (γ1 ), arbitrário mas não-nulo.

Passemos a procurar a segunda solução independente da equação diferencial (7.60).
O caso da solução γ = γ2 da equação indicial requer cuidado pois, como comentamos, vale que
f (γ2 + n0 ) = 0. Assim, para n = n0 a equação (7.67) só faz sentido se o lado direito for igualmente
nulo:
0 −1h
nX i
an0 −m (m + γ2 ) + bn0 −m cm (γ2 ) = 0 . (7.81)
m=0
Essa relação pode ou não ser satisfeita, dependendo da equação diferencial tratada. Por exemplo, no
caso da equação de Bessel de ordem semi-inteira (ou seja, de ordem 1/2, 3/2, 5/2 etc.) verifica-se que
a relação (7.81) é satisfeita. Já no caso da equação de Bessel de ordem inteira verifica-se que a relação
(7.81) não é satisfeita. Isso será discutido explicitamente na Seção 7.2.3, página 388.
Devemos, portanto, separar provisoriamente os dois casos: aquele no qual (7.81) é satisfeita e aquele
no qual não é. Posteriormente veremos que essa separação é supérflua, mas por ora ela é logicamente
necessária.
Na situação feliz em que (7.81) é satisfeita, o coeficiente cn0 (γ2 ) fica indeterminado e pode ser
escolhido livremente, já que as equações recursivas (7.67) não o fixam e nada mais há para fixá-los.
Com isso, as equações recursivas (7.67) determinam todos os demais coeficientes c n (γ2 ), n ≥ 1, n 6= n0 ,
a partir de um c0 (γ2 ) não-nulo mas arbitrário. Assim, obtemos a solução
∞
X
y2 (z) = cn (γ2 )z n+γ2 , (7.82)
n=0
com
n−1 h
X i
1
cn (γ2 ) = − an−m (m + γ2 ) + bn−m cm (γ2 )
f (γ2 + n) m=0
n−1 h
X i
1
= − an−m (m + γ2 ) + bn−m cm (γ2 ) , (7.83)
(γ2 + n)2 + (a0 − 1)(γ2 + n) + b0 m=0
para todo n ≥ 1, n 6= n0 e cn0 (γ2 ) = constante arbitrária11 .

Resta-nos ainda tratar do caso em que a relação (7.81) não é satisfeita. Aqui, devemos proceder
como fizemos no caso γ− = γ+ e procurar uma solução na forma y2 (z) = Ay1 (z) ln(z) + v(z), com A
sendo uma constante e y1 sendo a solução já conhecida (7.80). Substituindo isso na equação (7.60),
obtem-se novamente a equação (7.73) para v(z).
Como facilmente se verifica, o lado direito de (7.73) é dado pela expansão
∞
X ∞
X
n+γ1
−A gn (γ1 )z = −A gn (γ1 )z n+n0 +γ2 , (7.84)
n=0 n=0
onde, como antes,

n
X
gn (γ1 ) = [2(n + γ1 ) − 1] cn (γ1 ) + an−m cm (γ1 ) , n≥0, (7.85)
m=0
os coeficientes cm (γ1 ) sendo dados por (7.79).

11
O que ocorre se, por opção, escolhermos cn0 (γ2 ) não-nulo? Nesse caso terı́amos um termo a mais em y2 (z) do tipo
cn0 z n0 +γ2 = cn0 z γ1 . Esse termo se adicionaria na solução geral ao termo c0 (γ1 )z γ1 proveniente da solução y1 (z), ou
seja, corresponderia a uma nova escolha da constante arbitrária c0 (γ1 ), não representando, assim, nenhuma mudança na
solução geral.
A equação (7.84) sugere que uma solução para v(z) deve ser procurada na forma
∞
X
v(z) = vn z n+γ2 .
n=0
Inserindo isso em (7.73) tem-se
∞
" n
! n
!#
X X X
(n + γ2 )(n + γ2 − 1)vn + an−m (m + γ2 )vm + bn−m vm z n+γ2
n=0 m=0 m=0
∞
X
= −A gn−n0 (γ1 )z n+γ2 ,
n=n0
o que implica
n h
X i
(n + γ2 )(n + γ2 − 1)vn + (m + γ2 )an−m + bn−m vm = 0, n = 0, . . . , n0 − 1 , (7.86)
m=0
n h
X i
(n + γ2 )(n + γ2 − 1)vn + (m + γ2 )an−m + bn−m vm = −Agn−n0 (γ1 ), ∀n ≥ n0 . (7.87)
m=0
Para n = 0 a relação (7.86) tem a forma

h i
γ2 (γ2 − 1) + a0 γ2 + b0 v0 = 0,
mas como o fator entre colchetes é f (γ2 ) = 0, concluı́mos que essa relação é trivialmente satisfeita e,
assim, v0 pode ser escolhido livremente. Para 1 ≤ n ≤ n0 − 1, (7.86) implica que
n−1 h
X i
1
vn = − (m + γ2 )an−m + bn−m vm
f (γ2 + n) m=0
n−1 h
X i
1
= − (m + γ )a
2 n−m + b n−m vm (7.88)
(γ2 + n)2 + (a0 − 1)(γ2 + n) + b0 m=0
Para n = n0 a relação (7.87) é
h i 0 −1h
nX i
(n0 + γ2 )(n0 + γ2 − 1) + a0 (n0 + γ2 ) + b0 vn0 + (m + γ2 )an0 −m + bn0 −m vm
m=0
= −A[2γ1 − 1 + a0 ] c0 (γ1 ) .
Como (n0 + γ2 )(n0 + γ2 − 1) + a0 (n0 + γ2 ) + b0 = f (n0 + γ2 ) = f (γ1 ) = 0, ficamos apenas com

0 −1
nX
p
[(m + γ2 )an0 −m + bn0 −m ] vm = −A[2γ1 − 1 + a0 ] c0 (γ1 ) = ∓A (a1 − 1)2 − 4b0 c0 (γ1 ) , (7.89)
m=0
o sinal ∓ dependendo
p de se ter γ1 = γ+ ou γ1 = γ− , respectivamente. É fácil ver, porém, que em
qualquer caso ∓ (a1 − 1)2 − 4b0 = −n0 . A relação (7.89) fixa A:
nX
0 −1
1
A = − [(m + γ2 )an0 −m + bn0 −m ] vm , (7.90)
c0 (γ1 ) n0 m=0
com os vm fixados na expressão (7.88) em função de v0 6= 0 arbitrário.
O coeficiente vn0 não é fixado por nenhuma das relações anteriores e pode ser escolhido livremente.
Sua presença adiciona um termo do tipo vn0 z n0 +γ2 = vn0 z γ1 à solução geral e aplica-se novamente o
comentário de rodapé da página 382.
Para n > n0 , tem-se ainda por (7.87)
" n−1 h
#
1 X i
vn = − −Agn−n0 (γ1 ) + an−m (m + γ2 ) + bn−m vm
f (γ2 + n) m=0
" n−1 h
X i
#
1
= − 2
−Agn−n0 (γ1 ) + an−m (m + γ2 ) + bn−m vm .
(γ2 + n) + (γ2 + n)(a0 − 1) + b0 m=0
(7.91)
com os gn (γ1 ) fixados em (7.85) em termos dos coeficientes cm (γ1 ) da solução y1 (z).
As expressões (7.88), (7.90) e (7.91) permitem fixar todos os vn ’s e a constante A em termos de v0 6= 0
e de vn0 , arbitrários. Observemos, A não é forçosamente nulo, nem pode ser escolhido arbitrariamente.
Sobre a constante A vale ainda uma observação importante.
• A condição (7.81) e a constante A
Observe o leitor que as relações de recorrência (7.88), que fixam os v m ’s com m = 0, . . . , n0 − 1, são
idênticas às de (7.83), que fixam todos os cm (γ2 )’s, em particular aqueles com m = 0, . . . , n0 − 1. Os
vm ’s são fixados por um v0 inicial não-nulo e os cm (γ2 )’s por um c0 (γ2 ) inicial não-nulo. Contemplando
aquelas relações de recorrência, um minuto de meditação nos leva a perceber que todos os v m são
proporcionais a v0 e que todos os cm (γ2 ) são proporcionais a c0 (γ2 ). Como as relações de recorrência
são idênticas, concluı́mos que
v0
vm = cm (γ2 ) para todo m = 0, . . . , n0 − 1 .
c0 (γ2 )
Agora, pela expressão (7.90), A é proporcional a
0 −1
nX n0 −1
v0 X
[(m + γ2 )an0 −m + bn0 −m ] vm = [(m + γ2 )an0 −m + bn0 −m ] cm (γ2 ) .
m=0
c0 (γ2 ) m=0
A última soma, porém, é idêntica àquela de (7.81)! Assim, percebemos que, sob a hipótese que (7.81)
não é satisfeita, tem-se que A 6= 0.
Por outro lado, se (7.81) é satisfeita, então A = 0. Mas se A = 0, as relações de recorrência (7.91)
tornam-se também idênticas àquelas de (7.83), que fixam todos os cm (γ2 )’s. Concluı́mos então, que
nesse caso em que A = 0 (ou seja, sob (7.60)) vale também
v0
vm = cm (γ2 ) ,
c0 (γ2 )
mas agora para todo m ≥ 0. Assim, para A = 0 a solução y2 (z) = A ln(z)y1 (z)+v(z) reduz-se (a menos
de uma constante multiplicativa trivial) à solução para y2 (z) dada em (7.82), obtida sob a condição
(7.81).
Nesse sentido, a condição (7.81) é supérflua e podemos unificar as soluções que obtivemos nos casos
em que (7.81) é ou não é satisfeita e resumir nossas conclusões da seguinte forma:
Para γ− − γ+ 6∈ \ {0}, a equação diferencial (7.60) (com z0 = 0) tem duas soluções independentes
y1 (z) e y2 (z), onde:
∞
X ∞
X
n+γ1
y1 (z) = cn (γ1 )z e y2 (z) = Ay1 (z) ln(z) + vn z n+γ2 ,
n=0 n=0
onde os cn (γ1 ), n ≥ 1, também estão definidos em (7.79) a partir de um c0 (γ1 ) não-nulo arbitrário e
onde os vn ’s com n ≥ 1, n 6= n0 , e a constante A são fixados em (7.88), (7.90) e (7.91) em termos de
v0 6= 0 e de vn0 , arbitrários.
Como mencionamos, há casos em que A = 0, exemplos sendo as equação de Bessel de ordem
semi-inteira e a equação de Euler, para certos parâmetros.
Com tudo isso a demonstração do Teorema 7.2 está completa e podemos passar ao estudo de
exemplos particulares.
7.2.2 A Equação de Euler Revisitada

A equação de Euler12 (de segunda ordem) é a equação diferencial
z 2 y 00 (z) + azy 0 (z) + by(z) = 0,
onde a e b são constantes. Comparando com a forma (7.47), vemos que z0 = 0 é um ponto singular
regular da equação, vemos que a(z) = a e que b(z) = b. Assim, no presente caso tem-se

a, para n = 0 b, para n = 0
an = , bn = .
0, para n ≥ 1 0, para n ≥ 1
12
Leonhard Euler (1707-1783). Um dos matemáticos mais prolı́ficos e influentes de todos os tempos, Euler foi um dos
fundadores da teoria das equações diferenciais e deixou contribuições seminais em inúmeros campos da Matemática e
da Fı́sica. A equação de Euler apresentada abaixo é uma das várias que levam seu nome. Há uma outra equação de
Euler na Mecânica dos Fluidos, assim como fórmulas de Euler, invariantes de Euler, métodos de Euler, Ansätze de Euler,
multiplicadores de Euler, constantes de Euler, ângulos de Euler, problemas de Euler, conjecturas de Euler, teoremas de
Euler etc. Boa parte da notação matemática usada atualmente é também sua invenção (por exemplo, o sı́mbolo f 0 para
denotar a derivada de uma função f ou o uso da letra e para designar o número 2, 7182818 . . .).
A equação de Euler já foi resolvida à página 346, onde encontramos as soluções (6.74) e (6.75).
Vamos tratá-la aqui sob a luz do Teorema 7.2, página 373. Se procurarmos uma solução na forma
∞
X
y(z) = cn z n+γ , (7.92)
n=0
com ∞
X
0
y (z) = (n + γ)cn z n+γ−1 (7.93)
n=0
e ∞
X
00
y (z) = (n + γ)(n + γ − 1)cn z n+γ−2 , (7.94)
n=0
a equação de Euler fica

∞
X ∞
X ∞
X
(n + γ)(n + γ − 1)cn z n+γ + a(n + γ)cn z n+γ + bcn z n+γ = 0
n=0 n=0 n=0
ou seja,
∞ h
X i
(n + γ)(n + γ − 1)cn + a(n + γ)cn + bcn z n+γ = 0,
n=0
o que implica
f (n + γ) cn = 0 ∀ n ≥ 0.
onde f é o polinômio de segundo grau.
f (x) := x(x − 1) + ax + b = x2 + (a − 1)x + b .
Sem perda de generalidade,

P∞ podemos sempre adotar c0 6= P0, pois se cm fosse o primeiro coeficiente
∞ 0
não-nulo, a série n=0 cn z n+γ
poderia ser reescrita como n=0 c0n z n+γ com c0n := cn+m e γ 0 = γ + m,
que tem a mesma forma genérica mas com c00 6= 0.
Assim, devemos impor f (γ) = 0, o que possui duas soluções:
p p
1 − a − (a − 1)2 − 4b 1 − a + (a − 1)2 − 4b
γ− = e γ+ = .
2 2
Se γ− − γ+ não for um inteiro, a equação f (γ± + n) = 0 não é satisfeita para nenhum n ≥ 1 inteiro.
A razão é a seguinte: f é um polinômio de segundo grau e, portanto, possui apenas duas soluções.
Assim, se f (γ± + n) = 0 terı́amos γ± + n = γ∓ , o que implica que γ− − γ+ é inteiro, uma contradição.
Nesse caso, então, temos que adotar cn = 0 para todo n ≥ 1 e as soluções da equação de Euler ficam
y1 (z) = z γ− e y2 (z) = z γ+ . (7.95)
No caso de γ− = γ+ = γ0 = (1 − a)/2, tem-se por (7.51) uma solução na forma

∞
X ∞
X
γ0 n γ0
y1 (z) = z cn (γ0 )z e uma segunda na forma y2 (z) = y1 (z) ln(z) + z vn (γ0 )z n ,
n=0 n=0
com os cn dados em (7.52) e os vn dados em (7.53). Observando (7.52), constata-se que nesse caso
cn (γ0 ) = 0 para todo n, exceto n = 0, pois apenas a0 e b0 podem ser não-nulos. Igualmente, observando
(7.53) constata-se que vn (γ0 ) é proporcional a cn (γ0 ) para todo n ≥ 1 e, com isso, apenas v0 pode ser
não-nulo. Assim, temos nesse caso, tomando c0 = v0 = 1,
y1 (z) = z γ0 e y2 (z) = z γ0 ln(z) + z γ0 .
O termo z γ0 na expressão de y2 (z) é o próprio y1 (z), de modo que podemos tomar como soluções
linearmente independentes as seguintes:
y1 (z) = z γ0 e y2 (z) = z γ0 ln(z) . (7.96)
Por fim, consideremos

p o caso em que γ− − γ+ é um inteiro não-nulo. Definamos γ1 e γ2 como em
(7.54), com n0 = | (a − 1)2 − 4b|.
γ1
P∞ n
Então
P∞ uma solução será y 1 (z) = z n=0 cn (γ1 )z e a outra terá a forma y2 (z) = Ay1 (z) ln(z) +
γ2 n
z n=0 vn z onde aqui os cn são dados em (7.56), os vn são dados em (7.57) e A é dada em (7.58).
Contemplando (7.56) constata-se que cn (γ1 ) = 0 para todo n ≥ 1, pois apenas a0 e b0 podem
ser não-nulos, sendo que podemos escolher c0 = 1, livremente. Disso concluı́mos que y1 (z) = z γ1 . Por
(7.58) tem-se que A = 0 pois, no caso da equação de Euler, an0 −m = bn0 −m = 0 para m = 0, . . . , n0 −1.
Por (7.57), tem-se analogamente

 0, para 1 ≤ n ≤ n0 − 1 ,
vn = arbitrário , para n = n0 ,

0, para n > n0 ,
Assim, apenas v0 e vn0 são arbitrários, sendo que v0 deve ser não-nulo. Escolhendo v0 = 1 e vn0 = 0,
segue que y2 (z) = z γ2 . Concluindo, vale aqui que
y1 (z) = z γ1 e y2 (z) = z γ2 . (7.97)
Todos esses resultados coincidem, como deveria ser, com aqueles obtidos em (6.74) e (6.75), página
346 e seguintes.
O estudo das soluções da equações de Euler é útil na resolução de equações com singularidades
regulares mais gerais como
z 2 y 00 (z) + za(z)y 0 (z) + b(z)y(z) = 0
pela seguinte razão. Próximo ao ponto singular z0 = 0, podemos aproximar a(z) ≈ a0 e b(z) ≈ b0 , já
que esses são os primeiros termos das expansões de Taylor de a(z) e b(z). Assim, para |z| pequeno o
suficiente, a equação aproxima-se de
z 2 y 00 (z) + a0 z y 0 (z) + b0 y(z) = 0
que é uma equação de Euler com a = a0 e b = b0 . Com isso, vemos que as soluções da equação
geral se aproximam para |z| pequeno daquelas encontradas em (7.95), (7.96) ou (7.97), dependendo
do caso. Esse proceder permite-nos, face a uma equação singular regular geral, estudar qual tipo de
singularidade deve ocorrer próximo ao ponto singular e, com isso, perceber qual das soluções descritas
no Teorema 7.2, página 373, se aplica. Em verdade, a resolução da equação indicial (7.48) fornece o
mesmo tipo de informação.
7.2.3 A Equação de Bessel

Uma das equações diferenciais mais importantes dentro da classe que temos estudado é a equação
de Bessel, a qual surge em vários problemas aplicados. A mesma pode ser encontrada, por exemplo,
quando da resolução da equação de Helmholtz em duas dimensões em coordenadas polares ou em três
dimensões em coordenadas esféricas (levando às chamadas funções de Bessel esféricas). Vide para tal
a Seção 8.3, página 482. Para alguns comentários históricos sobre a origem das equações de Bessel e
das funções de Bessel, vide página 464.
z 2 y 00 (z) + zy 0 (z) + (z 2 − ν 2 )y(z) = 0,
com z ∈ , onde ν ∈ é uma constante, é denominada equação de Bessel13 de ordem ν. Comparando
com a forma (7.47), vemos que z0 = 0 é um ponto singular regular da equação, vemos que a(z) = 1 e
que b(z) = z 2 − ν 2 . Assim, no presente caso tem-se

 −ν 2 , para n = 0
1, para n = 0
an = , bn = 1, para n = 2 .
0, para n ≥ 1 
0, para n = 1 ou n ≥ 3
A equação indicial (7.48) conduz às soluções
γ− = −ν e γ+ = ν .
Há, portanto, três casos a considerar: 1. o caso em que 2ν 6∈ , 2. o caso em que 2ν = 0 e 3. o caso
em que 2ν ∈ \ {0}. Observe o leitor que as condições 2 e 3 correspondem a ν semi-inteiro ou inteiro.
Os dois casos são os mais relevantes em Fı́sica. O caso de ν inteiro conduz às chamadas funções de
Bessel e o caso de ν semi-inteiro conduz às chamadas funções de Bessel esféricas as quais surgem, por
exemplo, em problemas de propagação de ondas em duas ou três dimensões, respectivamente. Vide
Seção 7.3.3, página 412. Para a origem das funções de Bessel, vide nota histórica à página 464.
Caso 1. 2ν 6∈ .
Nesse caso tem-se duas soluções
∞
X
y± = cn (±ν)z n±ν ,
n=0
com cn (±ν) dados por (7.50):

n−1 h
X i
1
cn (±ν) = − (m ± ν)an−m + bn−m cm (±ν) .
n(n + ±2ν) m=0
Podemos nos concentrar apenas nos coeficientes cn (+ν), pois os coeficientes cn (−ν) podem ser obtidos
fazendo-se ν → −ν. Vale
n−1 h
X i
1
cn (ν) = − (m + ν)an−m + bn−m cm (ν) , (7.98)
n(n + 2ν) m=0
13
e tem-se
c1 (ν) = 0 ,
1
c2 (ν) = − c0 (ν) ,
2(2 + 2ν)
1
cn (ν) = − cn−2 (ν), n ≥ 3.
n(n + 2ν)
Com isso, fica claro que
(−1)k
c2k (ν) = c0 (ν) , k≥0.
(2k)!! (2 + 2ν)(4 + 2ν) · · · (2k + 2ν)
c2k+1 (ν) = 0 , k≥0.
E. 7.8 Exercı́cio importante. Mostre isso! 6
A última expressão pode ser reescrita como

(−1)k
c2k (ν) = c0 (ν) , k≥0.
k! 22k (1 + ν)(2 + ν) · · · (k + ν)
c2k+1 (ν) = 0 , k≥0,

onde usamos que (2 + 2ν)(4 + 2ν) · · · (2k + 2ν) = 2k (1 + ν)(2 + ν) · · · (k + ν) e também que (2k)!! = 2k k!.
Como a função Γ definida em (7.25)-(7.26) satisfaz
Γ(k + 1 + ν) = Γ(1 + ν)(1 + ν)(2 + ν) · · · (k + ν) ,
podemos ainda escrever
(−1)k Γ(1 + ν)
c2k (ν) = c0 (ν) , k≥0.
k! 22k Γ(k + 1 + ν)
c2k+1 (ν) = 0 , k≥0.

Por convenção histórica adota-se
1
c0 (ν) =
2ν Γ(1 + ν)
e chega-se com isso à expressão
∞
X (−1)k z 2k+ν
Jν (z) := . (7.99)
k=0
k! Γ(k + 1 + ν) 2
Essa função representa uma das soluções da equação de Bessel de ordem ν para o caso considerado e
é denominada função de Bessel de primeiro tipo e ordem ν. Como comentamos, uma segunda solução
é obtida fazendo-se ν → −ν:
X∞
(−1)k z 2k−ν
J−ν (z) := .
k=0
k! Γ(k + 1 − ν) 2
Concluı́mos, assim, com a constatação que a solução geral da equação de Bessel de ordem ν para o
caso 2ν 6∈ é
α1 Jν (z) + α2 J−ν (z) ,
onde α1 e α2 são constantes arbitrárias.
Por convenção histórica, é costume considerar-se também uma combinação linear particular de
J±ν (z), a saber a seguinte:
Jν (z) cos(νπ) − J−ν (z)
Nν (z) := . (7.100)
sen (νπ)
Essa função Nν (z) também representa uma das soluções da equação de Bessel de ordem ν (por ser uma
combinação linear de duas outras) e é denominada função de Bessel de segundo tipo e ordem ν, ou
ainda função de Neumann14 de ordem ν.
Concluı́mos, assim, que a solução geral da equação de Bessel de ordem ν para o caso 2ν 6∈ também
pode ser escrita em termos das funções Jν e Nν na forma
β1 Jν (z) + β2 Nν (z) ,
onde β1 e β2 são constantes arbitrárias.

O estudante deve notar que as funções J±ν (z) e Nν (z), para 2ν não-inteiro, são analı́ticas em toda
a parte, exceto em z = 0, onde possuem um ponto de ramificação devido ao fator z ±ν = exp(±ν ln(z)).
Caso 2. 2ν = 0.
No caso em questão aplicam-se
P as soluções (7.51), (7.52) e (7.53). Aqui tem-se γ 0 = (1 − a0 )/2 = 0
e para y1 tem-se y1 (z) = ∞ c
n=0 n (0)z n
, com (por (7.52))
1 Xh i
n−1
cn (0) = − 2 man−m + bn−m cm (0) .
n m=0
Essas relações são idênticas àquelas de (7.98) (tomando-se aqui ν = 0) e, assim, tem por solução
(−1)k Γ(1) (−1)k

c2k (0) = c 0 (0) , = c0 (0) , k≥0,
k! 22k Γ(k + 1) (k!)2 22k
c2k+1 (0) = 0 , k≥0
onde usamos que Γ(1) = 1 e Γ(k + 1) = k!. Por convenção histórica adota-se
c0 (0) = 1

(−1)k z 2k
X∞
J0 (z) = 2
. (7.101)
k=0
(k!) 2
Essa função representa uma das soluções da equação de Bessel de ordem 0 e é denominada função de
Bessel de primeiro tipo e ordem 0.
14
Carl Neumann (1832-1925).
Para a segunda solução y2 teremos, por (7.51),

∞
X
y2 (z) = J0 (z) ln(z) + vn z n ,
n=0
com os vn dados em (7.53). Como o estudante pode facilmente verificar, adotando-se v0 = 0, obtem-se
para esses coeficientes as seguintes expressões:
(−1)k+1
v2k = hk , k≥0,
(k!)2 22k
v2k+1 = 0 , k≥0
onde
h0 := 0 , (7.102)
Xn
1 1 1 1
hn := 1 + + + · · · + = , ∀n≥1. (7.103)
2 3 n l=1
l
Note-se que v0 = 0.
E. 7.9 Exercı́cio importante. Verifique! 6
Com isso, a segunda solução y2 (z) será

∞
X (−1)k+1 z 2k
y2 (z) = J0 (z) ln(z) + hk . (7.104)
k=1
(k!)2 2
Por convenção histórica, costuma-se considerar também uma particular combinação das soluções
J0 (z) e y2 (z):
!
2 2 z X∞
(−1) k+1
hn z 2k
N0 (z) := y2 (z) + (γ − ln(2))J0 (z) = γ + ln J0 (z) + 2
,
π π 2 k=1
(k!) 2
(7.105)
15 16 17
onde γ é a chamada constante de Euler -Mascheroni , definida por :

1 1 1
γ := lim (hn − ln(n)) = lim 1 + + + · · · + − ln(n) ≈ 0, 5772156649 . . . .
n→∞ n→∞ 2 3 n
Essa função N0 (z) também representa uma das soluções da equação de Bessel de ordem 0 (por ser
uma combinação linear de duas outras) e é denominada função de Bessel de segundo tipo e ordem 0,
ou ainda função de Neumann de ordem 0.
15
16
Lorenzo Mascheroni (1750-1800).
17
Essa constante foi introduzida por Euler em 1735, o qual calculou seus 16 primeiros dı́gitos decimais. Em 1790,
Mascheroni calculou seus 32 primeiros dı́gitos decimais, dos quais apenas os primeiros 19 estavam corretos.
Concluı́mos, assim, com a constatação que a solução geral da equação de Bessel de ordem 0 é
α1 J0 (z) + α2 N0 (z) ,

O estudante deve notar que a primeira solução J0 (z) é uma função analı́tica para todo z ∈ (pois
a série em (7.101) converge absolutamente para todo z (mostre isso!)). Já a solução N 0 (z) é também
analı́tica em toda parte, exceto em z = 0, onde possui uma singularidade logarı́tmica.
Caso 3. 2ν ∈ \ {0}.
Como a equação de Bessel é invariante por ν → −ν, podemos sem perda de generalidade tomar
aqui 2ν um inteiro positivo. Como veremos, há dois casos a considerar: a. ν é um inteiro positivo e
b. ν é um semi-inteiro positivo, ou seja, no caso a. tem-se ν = 1, 2, 3, 4, . . . enquanto que no caso
b. tem-se ν = 1/2, 3/2, 5/2, . . ..
Caso a. ν = 1, 2, 3, 4, . . ..
Vamos aqui escrever ν = p, com p sendo um inteiro positivo: p = 1, 2, 3, 4, . . ..
Com essas convenções, tem-se que γ1 = p, γ2 = −p e n0 = 2p. As soluções y1 e y2 são aquelas dadas
em (7.55), (7.56) e (7.57):
∞
X ∞
X
p n −p
y1 (z) = z cn (p)z e y2 (z) = Ay1 (z) ln(z) + z vn z n ,
n=0 n=0
onde, segundo (7.56), as constantes cn (p) satisfazem

n−1 h
X i
1
cn (p) = − (m + p)an−m + bn−m cm (p)
f (p + n) m=0
para n ≥ 1. Novamente, essas relações são idênticas àquelas de (7.98) e, assim, suas soluções são
(−1)k Γ(1 + p) (−1)k p!

c2k (p) = c 0 (p) = c0 (p) , k≥0.
k! 22k Γ(k + 1 + p) k! 22k (k + p)!
c2k+1 (p) = 0 , k≥0,
onde usamos que Γ(1 + p) = p! e Γ(k + 1 + p) = (k + p)!. Por convenção histórica adota-se
1
c0 (p) =
2p p!
∞
X (−1)k z 2k+p
Jp (z) = .
k! (k + p)! 2
k=0
Essa função representa uma das soluções da equação de Bessel de ordem p (com p = 1, 2, 3, 4, . . .) e
é denominada função de Bessel de primeiro tipo e ordem p.
O leitor é convidado a constatar que a expressão (7.101) para J0 (z) é idêntica a essa se tomarmos
p = 0.
Procuremos agora a segunda solução y2 (z):
∞
X
y2 (z) = AJp (z) ln(z) + z −p vn (p)z n .
n=0
Por (7.57),
 n−1
 1 X



 − (m − p)an−m + bn−m vm (p) , para 1 ≤ n ≤ 2p − 1 ,

 f (n − p) m=0




vn (p) = arbitrário , para n = 2p ,



 " #

 n−1

 1 X


 − f (n − p) −Agn−2p + (m − p)an−m + bn−m vm (p) , para n > 2p,
m=0
(7.106)
A constante A é dada em (7.58) e, para o presente caso, tem-se
2p−1
1 X 2p p!
A = − [(m − p)a2p−m + b2p−m ] vm (p) = − v2p−2 (p) .
2p c0 (p) m=0 2p
Agora, por (7.57),

2p−3
1 X
v2p−2 (p) = − (m − p)a2p−2−m + b2p−2−m vm (p) ,
f (p − 2) m=0
de onde se vê imediatamente que

1
v2p−2 (p) = v2p−4 (p), p≥2,
22 (p− 1)
e, portanto,
1
v2p−2 (p) = v0 (p), p≥2.
22(p−1) (p − 1)!
Logo, A = −4v0 (p). Adotando-se v0 (p) = −1/4 teremos A = 1 e
∞
X
−p
y2 (z) = Jp (z) ln(z) + z vn (p)z n .
n=0
com
 n−1
 1 X



 − (m − p)a n−m + b n−m vm (p) , para 1 ≤ n ≤ 2p − 1 ,

 f (n − p) m=0




vn (p) = arbitrário , para n = 2p ,



 " #

 n−1

 1 X

 − f (n − p) −gn−2p +
 (m − p)an−m + bn−m vm (p) , para n > 2p,
m=0
(7.107)
com os gn dados em (7.59) em termos de cn (p).
Um cálculo um pouco trabalhoso, que nos poupamos de apresentar em detalhe, conduz ao seguinte
resultado:
1 X (p − n − 1)! z 2n−p 1 X (−1)n (hn + hn+p ) z 2n+p

p−1 ∞
y2 (z) = Jp (z) ln(z) − − ,
2 n=0 n! 2 2 n=0 n! (n + p)! 2
com p = 1, 2, 3, 4, . . ..
E. 7.10 Exercı́cio. Tome uma hora livre e mostre isso. 6
O leitor é convidado
P a constatar que a expressão (7.104) é idêntica a essa se tomarmos p = 0 (com
a convenção que −1 n=0 · · ) = 0).
(·
Por convenção histórica, costuma-se considerar também uma particular combinação das soluções
Jp (z) e y2 (z):
2
Np (z) := y2 (z) + (γ − ln(2))Jp (z) =
π
!
2 z 1 X (p − n − 1)! z 2n−p 1 X (−1)n (hn + hn+p ) z 2n+p
p−1 ∞
γ + ln Jp (z) − − , (7.108)
π 2 2 n=0 n! 2 2 n=0 n! (n + p)! 2
onde γ é a constante de Euler-Mascheroni mencionada acima. Essa função Np (z) também representa
uma das soluções da equação de Bessel de ordem p (por ser uma combinação linear de duas outras) e
é denominada função de Bessel de segundo tipo e ordem p, ou ainda função de Neumann de ordem p.
Concluı́mos, assim, com a constatação que a solução geral da equação de Bessel de ordem p, p =
1, 2, 3, 4, . . ., é
α1 Jp (z) + α2 Np (z) ,
O estudante deve notar que a primeira solução Jp (z) é uma função analı́tica para todo z ∈ (pois
a série em (7.101) converge absolutamente para todo z (mostre isso!)). Já a solução N p (z) é também
analı́tica em toda parte, exceto em z = 0, onde possui uma singularidade logarı́tmica assim como um
polo de ordem p.
Advertência. O estudante deve ser advertido do fato de não haver, infelizmente, uniformidade na
literatura quanto à definição exata das várias funções de Neumann N ν apresentadas acima, pois alguns
textos, especialmente alguns mais antigos, adotam para Nν uma combinação linear com constantes
ligeiramente diferentes daquelas de (7.100), (7.105) ou (7.108). A convenção que adotamos é a mais
freqüente modernamente. As funções de Neumann são também por vezes denotadas por Y ν .
Precisamos estudar ainda o caso em que ν é um número semi-inteiro onde, diferentemente do caso
que acabamos de estudar, as soluções independentes são ambas livres de singularidades logarı́tmicas.
Caso b. ν = 1/2, 3/2, 5/2, . . ..
Vamos convencionar escrever ν = q + 1/2, com q = 0, 1, 2, . . .. Teremos aqui n 0 = (2q + 1),
γ1 = ν = q + 1/2 e γ2 = −ν = −q − 1/2. As soluções y1 e y2 são aquelas dadas em (7.55), (7.56) e
(7.57):
∞
X ∞
X
q+1/2 n −q−1/2
y1 (z) = z cn (q)z e y2 (z) = Ay1 (z) ln(z) + z vn (q)z n ,
n=0 n=0
onde, segundo (7.56), as constantes cn (q) satisfazem

n−1
X
1 1
cn (q) = − m+q+ an−m + bn−m cm (q) , (7.109)
f n + q + 21 m=0 2
para n ≥ 1. Novamente, essas relações são idênticas àquelas de (7.98) com ν substituı́do por q + 1/2 e,
assim, suas soluções são

(−1)k Γ 1 + q + 12
c2k (q) = c0 (q) , k ≥ 0 .
k! 22k Γ k + 1 + q + 12
c2k+1 (q) = 0 , k≥0,
onde usamos Γ(1 + q + 1/2) = q!Γ(1/2) e Γ(k + 1 + q + 1/2) = (k + q)!Γ(1/2). Adotando

1
c0 (q) = ,
2q+1/2 Γ 1 + q + 12
chegamos à expressão
∞
X (−1)k z 2k+q+1/2
Jq+1/2 (z) := .
k=0
k! Γ(k + 1 + q + 1/2) 2
Essa função representa uma das soluções da equação de Bessel de ordem q + 1/2 com q = 0, 1, 2, . . .
e é denominada função de Bessel de primeiro tipo e ordem q + 1/2.
Passemos agora à segunda solução
∞
X
y2 (z) = AJq+1/2 (z) ln(z) + vn (q)z n−q−1/2 .
n=0
Por (7.57),
 n−1

 −1 X 1

 m−q− an−m + bn−m vm (q) , 1 ≤ n ≤ 2q ,

 f n − q − 21 m=0 2





vn (q) = arbitrário , n = 2q + 1 ,



 ( )

 n−1

 −1 X 1

 f n − q − 1 −Agn−2q−1 +
 m−q−
2
an−m + bn−m vm (q) , n > 2q + 1,
2 m=0
onde,
2q
1 X 1
A = − m−q− a2q+1−m + b2q+1−m vm (q) (7.110)
c0 (q) (2q + 1) m=0 2
Para 1 ≤ n ≤ 2q tem-se
−1
vn (q) = vn−2 (q) . (7.111)
f (n − q − 21 )
Porém,
−1 1
v1 (q) = 1 0−q− a1 + b1 v0 (q) = 0 ,
f ( 2 − q) 2
pois a1 = b1 = 0. Conjuntamente com (7.111), isso diz-nos que vn (q) = 0 para todo n ı́mpar com
1 ≤ n ≤ 2q. A importância dessa observação reside no seguinte. Por (7.110) vê-se facilmente que
1
A = − v2q−1 (q) .
c0 (q) (2q + 1)
Portanto, tem-se no caso presente que A = 0 e, assim, a segunda solução é livre de singularidades
logarı́tmicas. Além disso, com A = 0 as expressões recursivas para vn (q) simplificam-se para
 n−1

 −1 X 1

 m−q− an−m + bn−m vm (q) , 1 ≤ n ≤ 2q ,

 f n − q − 21 m=0 2





vn (q) = arbitrário , n = 2q + 1 , (7.112)



 ( n−1 )



 −1 X 1

 f n − q − 1
 m−q−
2
an−m + bn−m vm (q) , n > 2q + 1.
2 m=0
Como já vimos, para 1 ≤ n ≤ 2q os vn (q) com n ı́mpar são nulos. Como v2q+1 é arbitrário, é
conveniente escolhê-lo igual a zero também. Com isso, as relações (7.112) ficam idênticas àquelas de
(7.98) com ν substituı́do por −(q + 1/2) e, assim, suas soluções são

(−1)k Γ 1 − q − 21
v2k (q) = v0 (q) , k ≥ 0 .
k! 22k Γ k + 1 − q − 21
v2k+1 (q) = 0 , k≥0,

Adotando
1
v0 (q) = ,
2−q−1/2 Γ 1 − q − 12
chagamos à seguinte expressão:
∞
X (−1)k z 2k−q−1/2
J−q−1/2 (z) = .
k=0
k! Γ k + 1 − q − 12 2
Essa função representa uma segunda solução da equação de Bessel de ordem q+1/2 com q = 0, 1, 2, . . .
e é denominada função de Bessel de primeiro tipo e ordem −(q + 1/2).
Concluı́mos, assim, que a solução geral da equação de Bessel de ordem q+1/2 com q = 0, 1, 2, 3, . . .,
é
α1 Jq+1/2 (z) + α2 J−q−1/2 (z) ,
Podemos definir também as funções de Neumann de ordem q + 1/2 em analogia com (7.100), mas
aqui, tem-se
Jq+1/2 (z) cos((q + 1/2)π) − J−q−1/2 (z)
Nq+1/2 (z) := = (−1)q+1 J−q−1/2 (z) . (7.113)
sen ((q + 1/2)π)
De qualquer forma, a solução geral da equação de Bessel de ordem q + 1/2 com q = 0, 1, 2, 3, . . ., é
β1 Jq+1/2 (z) + β2 Nq+1/2 (z) ,
onde β1 e β2 são constantes arbitrárias.

O estudante é convidado a constatar que Jq+1/2 (z) é uma função analı́tica para todo z ∈ , z 6= 0,
mas em z = 0 possui uma singularidade como z q+1/2 , que é uma singularidade do tipo ponto ramificação
(de grau 2). Paralelamente, J−q−1/2 (z) (e, portanto, Nq+1/2 (z)) é analı́tica para todo z 6= 0, mas possui
em z = 0 uma singularidade como z −q−1/2 , que é uma singularidade do tipo ponto ramificação (de grau
−2). Essas afirmações são ilustradas no próximo exercı́cio.
E. 7.11 Exercı́cio semi-resolvido. Com q = 0 tem-se pelas nossas definições acima

∞
X (−1)k z 2k+1/2 ∞
X (−1)k z 2k−1/2
J1/2 (z) = e J−1/2 (z) = .
k=0
k! Γ(k + 1 + 1/2) 2 k=0
k! Γ k + 12 2
Usando as identidades
√
Γ(3/2) (2k + 1)!! π (2k + 1)!!
Γ(k + 1 + 1/2) = = ,
2k 2 2k
2k k! = (2k)!! , (2k + 1)!!(2k)!! = (2k + 1)! , (2k)!!(2k − 1)!! = (2k)! ,
(prove-as!) teremos,
r ∞ r ∞
−1/2 2 X (−1)k −1/2 2 X (−1)k 2k
J1/2 (z) = z z 2k+1 , e J−1/2 (z) = z z ,
π k=0 (2k + 1)! π k=0 (2k)!
e reconhecemos que
r r
2 sen (z) 2 cos(z)
J1/2 (z) = e J−1/2 (z) = . (7.114)
π z 1/2 π z 1/2
Observe ainda que r
1/2 2 sen (z)
J1/2 (z) = z ,
π z
sen (z)
sendo que z
é uma função analı́tica para todo z ∈ , inclusive em z = 0 (por que?).
Complete os detalhes faltantes de todos os cálculos indicados acima. 6
E. 7.12 Exercı́cio. Verifique por cálculo explı́cito que as funções sen (z)/z 1/2 e cos(z)/z 1/2 são, de fato,
soluções da equação de Bessel de ordem ν = 1/2. 6
Para futura referência, reunimos nossos resultados sobre as soluções da equação de Bessel no seguinte
teorema:
Teorema 7.3 (Soluções da equação de Bessel) Seja a equação de Bessel de ordem ν ∈
z 2 y 00 (z) + zy 0 (z) + (z 2 − ν 2 )y(z) = 0,
com z ∈ .
1. Caso ν 6∈ duas soluções independentes são Jν (z) e J−ν (z), onde

∞
X (−1)k z 2k+ν
Jν (z) := . (7.115)
k=0
k! Γ(k + 1 + ν) 2
Definindo
Jν (z) cos(νπ) − J−ν (z)
Nν (z) := ,
sen (νπ)
as funções Jν (z) e Nν (z) são também duas soluções independentes.
2. Caso ν ∈ podemos, sem perda de generalidade, adotar ν ≥ 0, pois a equação de Bessel é
invariante pela mudança ν → −ν. Com essa convenção, duas soluções independentes são J ν (z)
e Nν (z), onde
∞
X (−1)k z 2k+ν X∞
(−1)k z 2k+ν
Jν (z) := = (7.116)
k=0
k! Γ(k + 1 + ν) 2 k=0
k! (k + ν)! 2
e
Nν (z) :=
!
2 z 1 X (ν − n − 1)! z 2n−ν 1 X (−1)n (hn + hn+ν ) z 2n+ν
ν−1 ∞
γ + ln Jν (z) − − ,
π 2 2 n=0 n! 2 2 n=0 n! (n + ν)! 2
sendo que
Xn
1 1 1 1
h0 := 0 , hn := 1 + + + · · · + = , ∀n≥1.
2 3 n l=1
l
e γ é a constante de Euler-Mascheroni: γ := lim (hn − ln(n)) ≈ 0, 5772156649 . . ..
n→∞
As funções Jν (z), ν ∈ , são denominadas funções de Bessel de primeiro tipo e ordem ν, ou

simplesmente funções de Bessel de ordem ν. As funções Nν (z), ν ∈ , são denominadas funções de
Bessel de segundo tipo e ordem ν, ou funções de Neumann de ordem ν. 2
Comentário. O caso em que ν é semi-inteiro está incluı́do no caso 1, acima: ν 6∈ .
• Nota sobre as funções de Bessel de ordem inteira negativa
Até o momento definimos as funções de Bessel Jν através das expressões (7.115) e (7.116), mas
apenas para ν’s que não sejam inteiros negativos. A expressão (7.115) contem uma função Γ(x) no
denominador e Γ(x) diverge se x for inteiro negativo. Por isso, em princı́pio (7.115) não está definida
para ν’s inteiros negativos.
A experiência mostrou, porém, que é conveniente definir Jν para ν’s que sejam inteiros negativos
através da seguinte expressão:
J−m (z) := (−1)m Jm (z) , (7.117)
para todo m ∈ e todo z ∈ . Note que, como a equação de Bessel é invariante pela troca ν → −ν,

J−m definida acima é solução da equação de Bessel de ordem ±m. A conveniência dessa convenção não
pode ser apreciada no momento, mas irá manifestar-se quando discutirmos algumas propriedades das
funções de Bessel na Seção 8.2.6, que inicia-se na página 463, tais como as relações de recorrência e a
função geratriz.
E. 7.13 Exercı́cio. Mostre que com a convenção acima vale
J−m (−z) = Jm (z), ∀m∈ ,
Sugestão: Jm (z) é uma soma de monômios da forma z 2k+m e vale (−z)2k+m = (−1)m z 2k+m . 6
7.2.4 A Equação de Laguerre

A equação de Laguerre18 é a equação diferencial
zy 00 (z) + (1 − z)y 0 (z) + λy(z) = 0,
com z ∈ , onde λ ∈ é uma constante.

A equação de Laguerre, e uma parente próxima, a equação de Laguerre associada, apresentada
na Seção 7.3.2, página 411, emergem em um dos problemas mais importantes da Fı́sica, a equação
18
Edmond Nicolas Laguerre (1834-1886).
de Schrödinger para o átomo de hidrogênio em coordenadas esféricas. Vide Seção 8.3.7, página 507.
A equação de Laguerre é também um caso particular da equação hipergeométrica confluente, a ser
discutida na Seção 7.2.6, página 406.
Comparando com a forma (7.47), vemos que z0 = 0 é um ponto singular regular da equação, vemos
que a(z) = 1 − z e que b(z) = λz. Assim, no presente caso tem-se

 1, para n = 0
λ, para n = 1
an = −1, para n = 1 , bn = .
 0, para n = 0 ou n ≥ 2
0, para n ≥ 2
É elementar constatar-se que, para essa equação, γ− = γ+ = 0 e, portanto, estamos no caso 2 do

Teorema 7.2 da página 373 com f (x) = x2 , γ0 = 0,
∞
X ∞
X
n
y1 (z) = cn z e y2 (z) = y1 (z) ln(z) + vn z n , (7.118)
n=0 n=0
onde
1 Xh i
n−1
λ−n+1
cn = − 2 man−m + bn−m cm = − cn−1 , n≥2,
n m=0 n2
e
" n−1 h
#
1 n
X X i
vn = − 2 − 2n − 1 cn − an−m cm + man−m + bn−m vm
n m=0 m=0
" #
1 λ−n+1
= − 2 −2n cn + cn−1 − vn−1 , ∀n ≥ 1 , (7.119)
n n2
Adotando-se c0 = 1, obtem-se para n ≥ 1

n−1
(−1)n Y (−1)n Γ(λ + 1)
cn = (λ − l) =
(n!)2 l=0 (n!)2 Γ(λ − n + 1)
e y1 (z) fica
∞ n−1
! ∞
X (−1)n Y X (−1)n Γ(λ + 1)
y1 (z) = 1 + (λ − l) zn = 1 + zn . (7.120)
n=1
(n!)2 l=0 n=1
(n!) 2 Γ(λ − n + 1)
A situação de maior interesse em Fı́sica é aquela na qual λ é um inteiro positivo: λ = m ∈ .
A razão disso será explicada detalhadamente no Apêndice 7.E, página 421, mas adiantamos que nos
casos em que λ não é um inteiro positivo a solução y1 cresce muito rapidamente (exponencialmente)
quando z é restrito ao eixo real positivo. Esse comportamento é inadequado em várias aplicações, por
exemplo no clássico problema do átomo de hidrogênio da Mecânica Quântica, o que leva ao descarte
de tais soluções.
Já no caso em que λ é um inteiro positivo, λ = m ∈ , a solução dada em (7.120) reduz-se a um

polinômio de grau m:
m n−1
! m
X (−1)n Y X (−1)n m!
n
y1 (z) = 1 + 2
(m − l) z = 1 + 2 (m − n)!
zn
n=1
(n!) l=0 n=1
(n!)
Xm
(−1)n m
= zn
n=0
n! n
Os chamados polinômios de Laguerre, denotados por Lm (z), são definidos como m! vezes o polinômio
acima19 : m
X
n m! m
Lm (z) := (−1) zn . (7.121)
n=0
n! n
Os quatro primeiros são
L0 (z) = 1, L1 (z) = 1 − z, L2 (z) = 2 − 4z + z 2 , L3 (z) = 6 − 18z + 9z 2 − z 3 .
É fácil provar, também, que a seguinte expressão é válida (vide página 457):
dm m −z
Lm (z) = ez z e . (7.122)
dz m
Os polinômios de Laguerre Lm (z) são, portanto, uma das soluções da equação de Laguerre (com
λ = m)
zy 00 (z) + (1 − z)y 0 (z) + my(z) = 0, (7.123)
com z ∈ , onde m ∈ . De acordo com (7.118), uma segunda solução é dada na forma
∞
X
y2 (z) = Lm (z) ln(z) + vn z n ,
n=0
onde os coeficientes vn são dados em (7.119) em termos dos coeficientes cn dos polinômios de Laguerre.
Após cálculos um tanto maçantes, chega-se à seguinte expressão:
m
X
m! k m
y2 (z) = Lm (z) ln(z) + (−1) (hm−k − hm − 2hk ) z k
k=1
k! k
∞
X (k − 1)!
+ (−1)m z m+k ,
k=1
(m + 1)2 (m + 2)2 · · · (m + k)2
onde hn está definido em (7.102)-(7.103).
E. 7.14 Exercı́cio. Mostre isso. Sugestão: tire uma tarde livre. 6

19
O fator de normalização m! tem origem histórica. O leitor deve ser advertido do fato, já lamentado páginas acima,
que em alguns textos outra normalização é empregada.
E. 7.15 Exercı́cio. Caso o leitor não deseje fazer o exercı́cio anterior, poderá contentar-se com a tarefa
mais simples de verificar que a expressão acima é, de fato, uma solução de (7.123). 6
Essa segunda solução é raramente empregada em problemas de Fı́sica, especialmente devido à

singularidade logarı́tmica que apresenta.
Mais propriedades dos polinômios de Laguerre serão estudadas na Seção 8.2.4, página 456.
7.2.5 A Equação Hipergeométrica

z(1 − z)y 00 (z) + [γ − (1 + α + β)z]y 0 (z) − αβy(z) = 0, (7.124)
para z ∈ e com α, β e γ ∈ constantes, é denominada equação hipergeométrica, ou equação de
20
Gauß , quem a primeiro estudou. A razão do interesse nessa equação reside em três fatos. Primeiro, a
equação hipergeométrica é (a menos de multiplicação trivial por uma constante) a única equação linear
homogênea de segunda ordem com apenas três pontos singulares regulares em 0, 1 e ∞ (vide discussão
à página 352). Segundo, há várias equações diferenciais de interesse que podem ser transformadas em
equações hipergeométricas e, com isso, pode-se estudar certas propriedades de várias funções especi-
ais, tais como seu comportamento assintótico, a partir das propriedades correspondentes de funções
hipergeométricas. Terceiro, suas soluções possuem muitas simetrias. A equação hipergeométrica é uma
das equações diferenciais ordinárias mais estudadas, sendo suas soluções riquı́ssimas em propriedades.
Sua abordagem completa está muito além das pretensões destas Notas e, para um tratamento deta-
lhado, recomendamos as referências [64], [117], [130], [79], [62] e outras. Propriedades combinatórias
envolvendo as séries hipergeométricas e suas generalizações podem ser encontradas em [48].
Vamos aqui apresentar as soluções da equação hipergeométrica (7.124) em termos de expansões em
torno de seu ponto singular regular z0 = 0. O leitor poderá encontrar em [117] soluções de (7.124)
expressas como expansões em torno dos outros pontos singulares regulares z 0 = 1 e z0 = ∞. O interesse
nessas últimas expansões é um tanto menor, especialmente pois as mesmas podem ser expressas em
termos das soluções obtidas em torno de z0 = 0. Reescrevemos (7.124) na forma
a(z) 0 b(z)
y 00 (z) +
y (z) + 2 y(z) = 0, (7.125)
z z
sendo a(z) e b(z) analı́ticas em |z| < 1, a saber,
X∞ X∞
γ − (1 + α + β)z n
a(z) = = an z = γ + (γ − 1 − α − β)z n ,
1−z n=0 n=1
X∞ X∞
αβz n
b(z) = − = bn z = (−αβ)z n .
1−z n=0 n=1
20
Carl Friedrich Gauß (1777-1855). Um dos maiores e mais influentes matemáticos de todos os tempos, Gauß dedicou-
se também intensamente a problemas de Fı́sica, Astronomia, Matemática Aplicada e mesmo Engenharia (é um dos
co-inventores do telégrafo) e encontrou as equações hipergeométricas em estudos de Geodesia, assunto a que se dedicou
quando da construção das primeiras linhas férreas da Alemanha. Seus trabalhos nessa área também inspiraram uma das
suas muitas contribuições importantes à matemática pura: a formulação de geometrias não-Euclidianas.
A equação indicial, neste caso, é
f (x) = x(x − 1) + γx = x(x + γ − 1) = 0
e temos
γ− = 1 − γ e γ+ = 0 .
Há, assim, três casos a considerar: 1. γ − 1 6∈ , ou seja, γ 6∈ . 2. γ = 1. 3. γ − 1 ∈ \ {0}, ou

seja, γ ∈ mas γ 6= 1.
Caso 1. γ − 1 6∈ , ou seja, γ 6∈ .
Aqui, de acordo com (7.49) e (7.50), as soluções são
∞
X ∞
X
y1 (z) = z 1−γ cn z n e y2 (z) = dn z n , (7.126)
n=0 n=0
onde
n−1 h i 1 Xh i
X n−1
1
cn = − (m + 1 − γ)an−m + bn−m cm , dn = − man−m + bn−m dm ,
f (1 − γ + n) m=0 f (n) m=0
para todo n ≥ 1. Nesse caso, porém, não é tão simples resolver recursivamente essas equações, pelo
menos na maneira como estão expressas acima. É muito mais fácil obter as relações recursivas de
outra forma: inserindo (7.126) na equação diferencial ainda na forma (7.124). Com esse procedimento,
começando pela solução y2 (z), obtem-se alegremente para os coeficientes dn a seguinte relação recursiva:
(α + n)(β + n)
dn+1 = dn , (7.127)
(n + 1)(γ + n)
para todo n ≥ 0.
Convencionando-se tomar d0 = 1, chegamos a

(α)n (β)n
dn = , n≥1,
n!(γ)n
onde, para n ≥ 1,
n−1
Y Γ(x + n)
(x)n := x(x + 1) · · · (x + n − 1) = (x + l) = ,
l=0
Γ(x)
são os denominados sı́mbolos de Pochhammer21 . Com isso, obtemos para a solução y2 a expressão
∞
X ∞
(α)n (β)n Γ(γ) X Γ(α + n)Γ(β + n) z n
F (α, β, γ, z) := 1 + zn = . (7.128)
n=1
n!(γ)n Γ(α)Γ(β) n=0 Γ(γ + n) n!
21
Leo August Pochhammer (1841-1920).
Essa função, introduzida por Gauß em cerca de 1812, é denominada função hipergeométrica, deno-
minação aparentemente criada por Kummer22 em 1836. Contribuı́ram à teoria das funções hiper-
geométricas nomes como Euler, Gauß, Kummer e Riemann. Na literatura F (α, β, γ, z) é muitas
vezes denotada por 2 F1 (α, β, γ, z)23 .
Repetindo considerações anteriores, F (α, β, γ, z) é analı́tica como função de z pelo menos na
região |z| < 1. No caso em que α ou β são inteiros não-positivos, é fácil ver que F (α, β, γ, z)
reduz-se a um polinômio e é, portanto, analı́tica em toda parte. Exceto nesses casos, a série que define
F (α, β, γ, z) é divergente para |z| > 1, como se vê pelo teste da razão, pois
(α)n+1 (β)n+1 n+1

(n+1)!(γ)n+1 z |α + n| |β + n|
(α)n (β)n = |z| ,
zn (n + 1) |γ + n|
n!(γ)n
que para n grande aproxima-se de |z| > 1. Casualmente, o mesmo argumento prova convergência da
série hipergeométrica (7.128) para |z| < 1.
Fazemos ainda notar que a expressão acima para F (α, β, γ, z) está definida mesmo para o caso em
que γ é um inteiro positivo e, portanto, representa uma solução da equação hipergeométrica naquele
caso. Para γ nulo ou um inteiro negativo, digamos γ = −m, o denominador (γ)n anula-se para n > m
e a expressão para F (α, β, γ, z) deixa de fazer sentido.
Para obtermos a outra solução inserimos y1 de (7.126) na equação diferencial ainda na forma (7.124)
e obtemos alegremente para os coeficientes cn a relação
(n + α + 1 − γ)(n + β + 1 − γ)
cn+1 = cn ,
(n + 1)(n + 2 − γ)
para todo n ≥ 0.
Alguns segundos de contemplação nos levam a concluir que essas relações são idênticas àquelas de
(7.127), desde que lá façamos as seguintes modificações: α → α + 1 − γ, β → β + 1 − γ e γ → 2 − γ.
Por trás dessa aparente coincidência residem propriedades de simetria da equação hipergeométrica. O
leitor poderá encontrar essa discussão nos textos supra-citados.
Assim, tomando-se também c0 = 1, concluı́mos que a outra solução é
z 1−γ F (α + 1 − γ, β + 1 − γ, 2 − γ, z) .
Fazemos ainda notar que F (α + 1 − γ, β + 1 − γ, 2 − γ, z) está definida mesmo para o caso em que
γ é um inteiro não-positivo e, portanto, z 1−γ F (α + 1 − γ, β + 1 − γ, 2 − γ, z) representa uma solução
da equação hipergeométrica naquele caso.
22
Ernst Eduard Kummer (1810-1893).
23
A explicação da notação 2 F1 é a seguinte: o “2” à esquerda indica a presença de dois sı́mbolos de Pochhammer no
numerador dos termos da série hipergeométrica (7.128). O “1” à direita indica a presença de um sı́mbolo de Pochhammer
no denominador. Há generalizações da série (7.128) que definem as chamadas funções hipergeométricas generalizadas, de-
notadas por k Fl , e que contêm k sı́mbolos de Pochhammer no numerador e l no denominador. Mais abaixo encontraremos
as funções hipergeométricas confluentes, que são do tipo 1 F1 .
Resumindo nossas conclusões, para o caso γ 6∈ a solução geral da equação hipergeométrica (7.124)
expressa em termos de uma expansão em torno do ponto singular regular z0 = 0 é
A1 z 1−γ F (α + 1 − γ, β + 1 − γ, 2 − γ, z) + A2 F (α, β, γ, z) .
onde A1 e A2 são constantes arbitrárias.
Caso 2. γ = 1.
P
Aqui γ− = γ+ = γ0 = 0. Nesse caso a primeira solução é da forma y1 (z) = ∞ n
n=0 cn z e, de modo
análogo, obtemos
(α + n)(β + n)
cn+1 = cn , (7.129)
(n + 1)2
para todo n ≥ 0. Assim, a primeira solução é
X∞ X∞
(α)n (β)n n 1 zn
F (α, β, 1, z) = 1 + z = Γ(α + n)Γ(β + n) .
n=1
(n!)2 Γ(α)Γ(β) n=0 (n!)2
Pelo mesmo argumento de acima, a expansão em série do lado direito converge para |z| < 1 e diverge
para |z| > 1.
Pelo Teorema 7.2, página 373, a segunda solução tem a forma
∞
X
F (α, β, 1, z) ln(z) + vn z n ,
n=0
com os vn dados em (7.53) em termos dos cn de acima. A expressão que se obtem é um tanto complexa
e evitamos colocá-la aqui. O leitor poderá encontrá-la, por exemplo, em [117].
Caso 3. γ − 1 ∈ \ {0}, ou seja, γ ∈ mas γ 6= 1.
Há dois casos a distinguir: a. γ > 1 e b. γ ≤ 0.
No caso a, γ = m, com m > 1 inteiro. Aqui tem-se n0 = m − 1, γ1 = γ+ = 0 e γ2 = γ− = 1 − m.
Como já observamos acima, uma solução é dada por F (α, β, m, z). Uma segunda solução será da
forma ∞
X
AF (α, β, m, z) ln(z) + z 1−m vn z n ,
n=0
com os vn e A dados como em (7.57) e (7.58) a partir dos coeficientes cn de F (α, β, m, z). Novamente,
a expressão que se obtem é complexa e remetemos o estudante a, e.g., [117].
No caso b, γ = −m, com m ≥ 0 inteiro. Aqui tem-se n0 = m + 1, γ1 = γ− = 1 + m e γ2 = γ+ = 0.
Como já observamos acima, uma solução é dada por z 1+m F (α + 1 + m, β + 1 + m, 2 + m, z). Uma
segunda solução será da forma
∞
X
Az 1+m F (α + 1 + m, β + 1 + m, 2 + m, z) ln(z) + vn z n ,
n=0
com os vn e A dados como em (7.57) e (7.58) a partir dos coeficientes cn de z 1+m F (α + 1 + m, β +

1 + m, 2 + m, z). Novamente, a expressão que se obtem é complexa e remetemos o estudante a, e.g.,
[117].
Com isso encerramos nossa breve excursão às funções hipergeométricas e remetemos o estudante
interessado em um maior aprofundamento à literatura supra-citada.
7.2.6 A Equação Hipergeométrica Confluente

zy 00 (z) + [γ − z]y 0 (z) − αy(z) = 0, (7.130)
para z ∈ e com α e γ ∈ constantes, é denominada equação hipergeométrica confluente ou equação
de Kummer. A mesma pode ser obtida da equação hipergeométrica por um procedimento de limite
no qual a singularidade regular de z0 = 1 daquela equação é feita imergir (“confluir”, daı́ o nome)
na singularidade regular de z0 = ∞. Esse processo pode ser descrito da seguinte forma. Façamos na
equação hipergeométrica
z(1 − z)y 00 (z) + [γ − (1 + α + β)z]y 0 (z) − αβy(z) = 0
a mudança de variáveis ζ = βz. A mesma assume a forma (verifique!)

ζ d2 y α+β+1 dy
ζ 1− 2
+ γ− ζ − αy = 0 .
β dζ β dζ
Tomando-se agora o limite |β| → ∞ obtemos a forma (7.130). Vide, e.g., [117] ou [64]. A equação
hipergeométrica confluente possui uma singularidade regular em z0 = 0 e uma irregular em z0 = ∞
(vide discussão à página 353).
Assim como no caso da equação hipergeométrica, há várias equações diferenciais de interesse que
podem ser transformadas em equações hipergeométricas confluentes. Os exemplos mais evidentes são
a equação de Laguerre, Seção 7.2.4, página 399, que corresponde a γ = 1 e α = −λ, e a equação de
Laguerre associada, Seção 7.3.2, página 411, que corresponde a γ = m + 1 e α = −(n − m). Com
isso, pode-se estudar certas propriedades de várias funções especiais, tais como seu comportamento
assintótico, a partir das propriedades correspondentes de funções hipergeométricas confluentes.
Para a equação hipergeométrica confluente tem-se
[γ − z] 0 αz
y 00 (z) + y (z) − 2 y(z) = 0
z z
e assim, comparando com a forma padrão (7.44), temos
a(z) = γ − z, e b(z) = −αz .
Logo, 
 γ, para n = 0
−α, para n = 1
an = −1, para n = 1 , bn = .
 0, para n = 0 ou n ≥ 2
0, para n ≥ 2
A equação indicial é, portanto,
f (x) = x(x + γ − 1) ,
cujas raı́zes são
γ− = 1 − γ e γ+ = 0 ,
tal como para a equação hipergeométrica. Há, assim, três casos a considerar: 1. γ − 1 6∈ , ou seja,
γ 6∈ . 2. γ = 1. 3. γ − 1 ∈ \ {0}, ou seja, γ ∈ mas γ 6= 1.
Caso 1. γ − 1 6∈ , ou seja, γ 6∈ .
Aqui, de acordo com (7.49) e (7.50), as soluções são
∞
X ∞
X
1−γ n
y1 (z) = z cn z e y2 (z) = dn z n , (7.131)
n=0 n=0
onde
n−1 h i 1 Xh i
X n−1
1
cn = − (m + 1 − γ)an−m + bn−m cm , dn = − man−m + bn−m dm ,
f (1 − γ + n) m=0 f (n) m=0
para todo n ≥ 1. Assim,

n+α−γ n+α−1
cn = cn−1 , dn = dn−1 ,
n(n + 1 − γ) n(n + γ − 1)
o que conduz a
(α + 1 − γ)n (α)n
cn = c0 , dn = d0 , (7.132)
n!(2 − γ)n n!(γ)n
Tomando d0 = 1 a solução y2 assume a forma
X∞ ∞
(α)n n Γ(γ) X Γ(α + n) z n
1 F1 (α, γ, z) := 1 + z = . (7.133)
n=1
n!(γ) n Γ(α) n=0
Γ(γ + n) n!
Esta função é denominada função hipergeométrica confluente ou, por vezes, função de Kummer.
E. 7.18 Exercı́cio. Prove, usando diretamente as definições, a seguinte relação entre as funções hiper-
geométricas confluentes e as funções hipergeométricas:

z
1 F1 (α, γ, z) = lim F α, β, γ, .
|β|→∞ β
6
Aplicando o teste da razão à série de (7.133)

(α)n+1
n+1
(n+1)!(γ)n+1 z |α + n|
= |z| ,
(α) n
z n (n + 1) |γ + n|
n!(γ)n
vemos que a mesma converge para todo z, pois para cada z fixo o lado direito torna-se menor que 1
para n grande o suficiente. Assim, 1 F1 (α, γ, z) é analı́tica para todo z ∈ .
Fazemos ainda notar que a expressão acima para 1 F1 (α, γ, z) está definida mesmo para o caso em
que γ é um inteiro positivo e, portanto, representa uma solução da equação hipergeométrica confluente
naquele caso. Para γ nulo ou um inteiro negativo, digamos γ = −m, o denominador (γ) n anula-se para
n > m e a expressão para F (α, γ, z) deixa de fazer sentido.
Passemos agora à solução y1 . Alguns segundos de contemplação das expressões de (7.132) conduzem-
nos à percepção que a relação entre cn e c0 equivale à relação entre dn e d0 com a troca α → α + 1 − γ
e γ → 2 − γ (tal como se fez no caso da equação hipergeométrica, acima). Assim, convencionando-se

também c0 = 1 tem-se que a solução y1 (z) é dada por
z 1−γ 1 F1 (α + 1 − γ, 2 − γ, z) .
Fazemos ainda notar que 1 F1 (α + 1 − γ, 2 − γ, z) está definida mesmo para o caso em que γ é
um inteiro não-positivo e, portanto, z 1−γ 1 F1 (α + 1 − γ, 2 − γ, z) representa uma solução da equação
hipergeométrica confluente naquele caso.
Resumindo, para o caso γ 6∈ a solução geral da equação hipergeométrica confluente (7.130) é
A1 z 1−γ 1 F1 (α + 1 − γ, 2 − γ, z) + A2 1 F1 (α, γ, z) ,
onde A1 e A2 são constantes arbitrárias.

Caso 2. γ = 1.
Esse é o caso da equação de Laguerre.
P∞
Aqui γ− = γ+ = γ0 = 0. Nesse caso a primeira solução é da forma y1 (z) = n=0 cn z n e, de modo
análogo, obtemos
(α + n)
cn+1 = cn , (7.134)
(n + 1)2
para todo n ≥ 0. Assim, a primeira solução é
X∞ ∞
(α)n n 1 X zn
F
1 1 (α, 1, z) = 1 + 2
z = Γ(α + n) 2
.
n=1
(n!) Γ(α) n=0
(n!)
Pelo Teorema 7.2, página 373, a segunda solução tem a forma

∞
X
1 F1 (α, 1, z) ln(z) + vn z n ,
n=0
com os vn dados em (7.53) em termos dos cn de acima. A expressão que se obtem é um tanto complexa
e evitamos colocá-la aqui.
Caso 3. γ − 1 ∈ \ {0}, ou seja, γ ∈ mas γ 6= 1.
Esse é o caso da equação de Laguerre associada.
Há dois casos a distinguir: a. γ > 1 e b. γ ≤ 0.
No caso a, γ = m, com m > 1 inteiro. Aqui tem-se n0 = m − 1, γ1 = γ+ = 0 e γ2 = γ− = 1 − m.
Como já observamos acima, uma solução é dada por 1 F1 (α, m, z). Uma segunda solução será da forma
∞
X
1−m
A 1 F1 (α, m, z) ln(z) + z vn z n ,
n=0
com os vn e A dados como em (7.57) e (7.58) a partir dos coeficientes cn de 1 F1 (α, m, z). Novamente,
a expressão que se obtem é complexa e a omitimos aqui.
No caso b, γ = −m, com m ≥ 0 inteiro. Aqui tem-se n0 = m + 1, γ1 = γ− = 1 + m e γ2 = γ+ = 0.

Como já observamos acima, uma solução é dada por z 1+m 1 F1 (α + 1 + m, 2 + m, z). Uma segunda
solução será da forma
∞
X
1+m
Az 1 F1 (α + 1 + m, 2 + m, z) ln(z) + vn z n ,
n=0
com os vn e A dados como em (7.57) e (7.58) a partir dos coeficientes cn de z 1+m 1 F1 (α+1+m, 2+m, z).
Novamente, a expressão que se obtem é complexa e é omitida aqui.
Com isso encerramos nossa breve excursão às funções hipergeométricas confluentes. Para um tra-
tamento extensivo da equação hipergeométrica confluente e propriedades de suas soluções, vide [116],
[64] ou [130].
7.3 Algumas Equações Associadas

Algumas das equações tratadas acima possuem parentes próximos com os quais se relacionam amisto-
samente. Vamos estudar algumas delas.
7.3.1 A Equação de Legendre Associada

A equação de Legendre associada é equação diferencial
µ2
(1 − z 2 )y 00 (z) − 2zy 0 (z) + λ(λ + 1)y(z) − y(z) = 0 . (7.135)
1 − z2
Como é fácil de se constatar, os pontos ±1 são pontos singulares regulares da equação de Legendre
associada. Repare também que para µ = 0 recupera-se a equação de Legendre usual
(1 − z 2 )y 00 (z) − 2zy 0 (z) + λ(λ + 1)y(z) = 0 . (7.136)
O principal interesse na equação (7.135) se dá no caso em que µ é um número inteiro, µ = m ∈ ,

situação que corresponde à maioria das aplicações. Nesse caso, um truque feliz permite-nos encontrar
as soluções sem termos de recorrer ao método de Frobenius.
Tudo começa com a observação que a equação de Legendre usual e a equação de Legendre associada
podem ser transformadas em uma mesma equação. Se em (7.135) fizermos a substituição (já adotando
µ = m ∈ ) y(z) = (1 − z 2 )m/2 v(z), obtemos para v a equação

(1 − z 2 )v 00 (z) − 2(m + 1)z v 0 (z) + λ(λ + 1) − m(m + 1) v(z) = 0 . (7.137)
E. 7.19 Exercı́cio importante. Mostre isso. Sugestão: um pouco de paciência. 6
Se, por outro lado, tomarmos a equação (7.136) e a derivarmos m vezes, obtemos
00 0
(1 − z 2 ) y (m) (z) − 2(m + 1)z y (m) (z) + λ(λ + 1) − m(m + 1) y (m) (z) = 0 . (7.138)
E. 7.20 Exercı́cio importante. Mostre isso. Sugestão: use a regra de Leibniz para calcular as derivadas

dm 2 00 dm 0
dz m
(1 − z )y (z) e dz m zy (z) . 6
Comparando (7.137) com (7.138), constatamos que ambas são a mesma equação. Com isso, vemos
que se yL é a solução geral da equação de Legendre e yLa é a solução geral da equação de Legendre
(m)
associada, então (1 − z 2 )−m/2 yLa (z) e yL (z) devem ser proporcionais, já que obedecem à mesma
equação (7.137). Com isso, obtemos que a solução geral da equação de Legendre associada pode ser
obtida da solução geral da equação de Legendre por
(m)
yLa (z) = km (1 − z 2 )m/2 yL (z) ,
km sendo constantes de normalização a serem convencionadas.
Coloquemo-nos agora a questão: qual solução yL da equação de Legendre devemos adotar? Isso
certamente depende do tipo de problema considerado, mas na maioria das aplicações procuramos
resolver a equação de Legendre associada no intervalo [−1, 1] e procuramos soluções que sejam finitas
em todo esse intervalo, incluindo as bordas ±1. Ora, já vimos que as únicas soluções da equação
de Legendre usual que permanecem limitadas nos extremos ±1 (assim como suas derivadas) são os
polinômios de Legendre Pl (z), os quais ocorrem como solução apenas no caso λ = l, um inteiro não-
negativo. Obtemos assim que as soluções de interesse da ação de Legendre associada que são limitadas
em todo o intervalo fechado [−1, 1] ocorrem para λ = l, um inteiro não-negativo, e são dadas por
dm
Plm (z) := (1 − z 2 )m/2 Pl (z) , (7.139)
dz m
onde Pl é o polinômio de Legendre de grau l. É claro que Plm (z) é nulo se m > l (pois Pl é um polinômio
de grau l).
As funções Plm definidas acima são denominadas polinômios de Legendre associados, ainda que
não sejam realmente polinômios em z no caso em que m é ı́mpar (devido ao fator (1 − z 2 )m/2 )24 e
desempenham um papel importante na resolução de equações diferenciais parciais em 3 dimensões
em coordenadas esféricas, tais como a equação de Laplace e de Helmholtz. A eles estão intimamente
relacionados os chamados harmônicos esféricos, dos quais falaremos na Seção 8.2.2, página 442, e que
desempenham um papel na Mecânica Quântica (orbitais atômicos), na Teoria de Grupos (representações
do grupo SO(3)), no Eletromagnetismo (emissão de ondas eletromagnéticas por antenas) etc.
As funções Plm estão definidas acima para l inteiro não-negativo, ou seja l = 0, 1, 2, 3, . . ., e m
inteiro com 0 ≤ m ≤ l (pois para m > l o lado direito de (7.139) anula-se). Cada Plm é solução da
equação de Legendre associada
m2
(1 − z 2 )y 00 (z) − 2zy 0 (z) + l(l + 1)y(z) − y(z) = 0 . (7.140)
1 − z2
Na Seção 8.2.1, que se inicia à página 436, mostraremos que os polinômios de Legendre podem ser
escritos como
1 dl 2 l

Pl (z) = l (z − 1) ,
2 l! dz l
24
Se, no entanto, substituirmos z por cos θ, com 0 ≤ θ ≤ π, o que costumeiramente se faz em aplicações, P lm (cos θ)
torna-se um polinômio trigonométrico, ou seja, um polinômio em cos θ e sen θ, já que (1 − z 2 )m/2 torna-se ( sen (θ))m .
Essa é a razão dessa nomenclatura. Vide expressão (8.53), página 446.
expressão essa conhecida como fórmula de Rodrigues para os polinômios de Legendre. Assim, obtemos
l+m
1 2 m/2 d
Plm (z) = l (1 − z ) 2 l
(z − 1) , (7.141)
2 l! dz l+m
expressão válida para 0 ≤ m ≤ l, com l um inteiro não-negativo: l = 0, 1, 2, 3, . . .. Caso m > l, o
lado direito se anula.
Um ponto interessante, porém, é que a expressão do lado direito de (7.141) está bem definida para
quaisquer l e m com l + m ≥ 0, ou seja, também para m’s negativos tais que m ≥ −l. Assim, (7.141)
está definida para todo m inteiro com −l ≤ m ≤ l 25 .
Da expressão (7.141), entendida para todo l inteiro não-negativo e −l ≤ m ≤ l, é possı́vel mostrar
que
(l − m)! m
Pl−m (z) = (−1)m P (z) .
(l + m)! l
Essa relação, que é relevante para os chamados harmônicos esféricos, mostra que P l−m (z) é também
solução da equação de Legendre associada (7.140), por ser proporcional a P lm (z). Trataremos disso
na Seção 8.2.2, página 442, onde outras propriedades dos polinômios de Legendre associados serão
apresentadas e sua relação com os harmônicos esféricos discutida.
7.3.2 A Equação de Laguerre Associada

A equação de Laguerre associada é a equação diferencial
xy 00 + (m + 1 − x)y 0 + (n − m)y = 0 . (7.142)
O principal interesse nessa equação reside no caso onde m e n são inteiros satisfazendo 0 ≤ m ≤ n.
Como o leitor facilmente constata, trata-se de um caso particular da equação hipergeométrica confluente
(7.130). A equação de Laguerre associada surge da equação de Schrödinger para o átomo de hidrogênio
quando a mesma é resolvida pelo método de separação de variáveis em coordenadas esféricas.
A solução dessa equação pode ser obtida diretamente da solução da equação de Laguerre usual
xy 00 + (1 − x)y 0 + ny = 0 (7.143)
pois esta, quando diferenciada m vezes em relação à x, transforma-se exatamente na equação (7.142).
E. 7.21 Exercı́cio. Verifique! Sugestão: regra de Leibniz. 6
Assim, se y é solução de (7.143) segue que y (m) é solução de (7.142). Concluı́mos que as únicas
soluções de (7.142) que são regulares em x = 0 são da forma

(m) dm dm x d
n
n −x
Ln (x) = Ln (x) = e (x e ) . (7.144)
dxm dxm dxn
a última igualdade sendo proveniente de (7.122) ou de (8.86).
25
De passagem, comentamos que a relação −l ≤ m ≤ l desempenha um papel na teoria do momento angular na
Mecânica Quântica, mas isso não é nosso assunto aqui.
(m)
Os polinômios Ln são denominados polinômios de Laguerre associados. Os polinômios de Laguerre
associados surgem, como dissemos, na resolução da equação de Schrödinger para o átomo de hidrogênio
em coordenadas esféricas. Vide Seção 8.3.7, página 507. Junto com os harmônicos esféricos, definidos à
página 450, os polinômios de Laguerre associados definem a forma dos orbitais eletrônicos do átomo de
hidrogênio e (de forma aproximada) de átomos hidrogenóides. A forma desses orbitais é de importância
fundamental no estudo de átomos e moléculas e suas ligações quı́micas.
Usando (7.121), é fácil constatar que
n−m
X
n k n!
Ln(m) (x) = (−1)m
(−1) xk .
k=0
k! m + k
Mais propriedades dos polinômios de Laguerre associados serão estudadas na Seção 8.2.5, página
460.
7.3.3 A Equação de Bessel Esférica

z 2 y 00 (z) + 2zy 0 (z) + (z 2 − σ(σ + 1))y(z) = 0 ,
para z ∈ , com σ ∈ , constante, é denominada equação de Bessel esférica de ordem σ.
A equação de Bessel esférica surge, por exemplo, quando da resolução da equação de Helmholtz em
três dimensões em coordenadas esféricas (vide Seção 8.3, página 482) e, portanto, é importante para o
estudo da propagação de ondas ou de fenômenos de difusão em três dimensões.
Se definirmos v(z) = z 1/2 y(z), obtemos para v a equação diferencial
2 !
1
z 2 v 00 (z) + zv 0 (z) + z 2 − σ + v(z) = 0 ,
2
que nada mais é que a equação de Bessel usual de ordem σ + 12 . Conseqüentemente as soluções da
equação de Bessel esférica são da forma
Jσ+ 1 (z) Nσ+ 1 (z)

y(z) = A √2 + B √2 ,
z z
onde A e B são constantes arbitrárias.

Em função disso, definem-se as chamadas funções de Bessel esféricas de ordem ν por
r
π
jν (z) := J 1 (z) , (7.145)
2z ν+ 2
e as chamadas funções de Neumann esféricas de ordem ν por
r
π
nν (z) := N 1 (z) . (7.146)
2z ν+ 2
É bastante claro que as funções nν (z) são singulares em z = 0, enquanto que as funções jν (z) não
divergem em z = 0, sendo até mesmo funções inteiras (analı́ticas em toda parte) para ν inteiro não-
negativo.
Um caso de particular interesse é aquele no qual σ = l ∈ . Nesse caso, podemos escrever a solução
geral da equação de Bessel esférica na forma
y(z) = ajl (z) + bnl (z) ,
com a e b constantes arbitrárias, onde

r
π
jl (z) := J 1 (z) , e (7.147)
2z l+ 2
r r
π (7.113) l+1 π
nl (z) := Nl+ 1 (z) = (−1) J 1 (z) . (7.148)
2z 2 2z −(l+ 2 )
Note que, por (7.114), tem-se
sen (z) cos(z)

j0 (z) = e n0 (z) = − . (7.149)
z z
Algumas propriedades das funções de Bessel esféricas serão estudadas na Seção 8.2.7, página 478.
Apêndices
7.A Prova da Proposição 7.1. Justificando os Polinômios de

Legendre
∞
X
Provaremos a Proposição 7.1 apenas para o caso da série c2k z 2k , pois a demonstração para a série
k=0
∞
X
c2k+1 z 2k+1 é, mutatis mutantis, idêntica.
k=0
Caso λ ∈ seja um inteiro não-negativo par, a série em (7.12) torna-se um polinômio e é, con-

seqüentemente, finita para todo z ∈ .

Consideremos, então, que λ ∈ não é um inteiro não-negativo par. Tomemos a série em (7.12)

somada, para simplificar, a partir de k = 2 e calculada em z = ±1 (tomamos c0 = 1, sem perda de

generalidade):
X∞ X ∞ k−1
1 Y λ(λ + 1)
c2k = −λ(λ + 1) 1− .
k=2 k=2
2k l=1 2l(2l + 1)
Consideremos, para N > 2,
N
X N
X k−1
1 Y λ(λ + 1)
c2k = 1− .
2k 2l(2l + 1)
k=2 k=2 l=1
Se λ(λ + 1) ≤ 0 teremos que

Y
k−1
λ(λ + 1)

1− ≥ 1,
2l(2l + 1)
l=1
pois os fatores são positivos e maiores que 1. Logo,

N
X XN k−1 N
1 Y λ(λ + 1) X 1
c2k = 1− ≥ .
k=2 k=2
2k l=1
2l(2l + 1) k=2
2k
XN XN
1
Portanto, como lim diverge, isso prova que lim c2k diverge, completando a prova.
N →∞
k=2
2k N →∞
k=2
Se λ(λ + 1) > 0 devemos proceder de outra forma. É claro que existe k0 ∈ , k0 > 2, tal que
λ(λ + 1)
0 < < 1, (7.A.1)
2k0 (2k0 + 1)
λ(λ+1)
o que implica 1 − 2l(2l+1)
> 0 para todo l > k0 . Escolhendo N > k0 , podemos escrever
N
X k0
X N
X
c2k = c2k + c2k
k=2 k=2 k=k0 +1
k0
X 0 −1
kY X
N k−1
λ(λ + 1) 1 Y λ(λ + 1)
= c2k + 1− 1− . (7.A.2)
k=2 l=1
2l(2l + 1) k=k0 +1
2k l=k
2l(2l + 1)
0
Podemos escrever
k−1
Y k−1
X !
λ(λ + 1) λ(λ + 1)
1− = exp ln 1 − ,
l=k0
2l(2l + 1) l=k
2l(2l + 1)
0
λ(λ+1)
pois 1 − 2l(2l+1)
> 0 para todo l ≥ k0 .
Agora, se 0 ≤ x ≤ M para algum 0 < M < 1, então vale
ln(1 − M )
ln(1 − x) ≥ x . (7.A.3)
M
Isso pode ser provado de diversas formas, por exemplo usando a concavidade da função logaritmo, que
garante que
ln αa + (1 − α)b ≥ α ln(a) + (1 − α) ln(b) ,
para todo 0 ≤ α ≤ 1 e todo 0 < a < b. Tomando a = 1 − M , b = 1 e α = x/M , estabelece-se (7.A.3).

λ(λ+1) λ(λ+1)
Com isso, e como 0 < 2l(2l+1)
≤ 2k0 (2k0 +1)
=: M , para todo l ≥ k0 , temos que
k−1
X ! k−1
!
λ(λ + 1) ln(1 − M ) X λ(λ + 1)
exp ln 1 − ≥ exp ,
l=k0
2l(2l + 1) M l=k
2l(2l + 1)
0
Agora,
k−1
X X∞
λ(λ + 1) λ(λ + 1)
≤ < ∞,
l=k
2l(2l + 1) l=k
2l(2l + 1)
0 0
X∞
λ(λ + 1)
pois a série acima é convergente. Assim, definindo K := , teremos que
l=k
2l(2l + 1)
0
k−1
X ! k−1
!
λ(λ + 1) ln(1 − M ) X λ(λ + 1) ln(1 − M )
exp ln 1 − ≥ exp ≥ exp K
l=k0
2l(2l + 1) M l=k
2l(2l + 1) M
0
já que, por (7.A.1), ln(1 − M ) < 0.

Dessa forma, retornando a (7.A.2), temos que
k −1 !
X N Xk0 Y 0
λ(λ + 1)
N
X 1
k−1
X λ(λ + 1)

c2k − c2k = 1− exp ln 1 −
2l(2l + 1) 2k 2l(2l + 1)
k=2 k=2 l=1 k=k0 +1 l=k 0
k −1
Y0
λ(λ + 1) ln(1 − M )
N
X 1

≥ 1− exp K .
2l(2l + 1) M 2k
l=1 k=k0 +1
N
X XN
1
Como o limite lim diverge, concluı́mos que lim c2k também diverge, completando a
N →∞
k=k0 +1
2k N →∞
k=2
prova.
7.B Provando (7.14)

Vamos considerar apenas o caso em que m é par, pois o caso em que m é ı́mpar pode ser tratado de
forma totalmente análoga. Temos que
m/2 k−1
!
X z 2k Y
(0)
Pm (z) = c0 ym (z) = c0 2l(2l + 1) − m(m + 1) ,
(2k)!
k=0 l=0
Como dissemos, a convenção é escolher c0 de modo que o coeficiente do monômio de maior grau do
polinômio acima seja 2m(2m)!
(m!)2
. Assim, devemos ter
m
−1 !
1 Y2
(2m)!
c0 2l(2l + 1) − m(m + 1) = ,
m! l=0 2m (m!)2
ou seja,
m
−1 !−1
(2m)! Y
2
c0 = m 2l(2l + 1) − m(m + 1) .
2 m! l=0
Com isso m !−1
m/2 −1
X z 2k (2m)! Y
2
Pm (z) = 2l(2l + 1) − m(m + 1) .

k=0
(2k)! 2m m! l=k
m
Façamos agora a mudança de variável k → 2
− k. Ficamos com
m/2
m
−1 !−1
X z m−2k (2m)! Y
2
Pm (z) = 2l(2l + 1) − m(m + 1) .

(m − 2k)! 2m m!
k=0 l= m
2
−k
m
Façamos ainda a mudança de variável l → 2
− l. Obtemos,
m/2 k
!−1
X zm−2k
(2m)! Y
Pm (z) = (m − 2l)(m − 2l + 1) − m(m + 1) .
k=0
(m − 2k)! 2m m! l=1
Entretanto,
(m − 2l)(m − 2l + 1) − m(m + 1) = −2l(2m − 2l + 1) ,
como facilmente se vê. Agora, com isso,
k
!−1 k
!−1
Y Y
(m − 2l)(m − 2l + 1) − m(m + 1) = −2l(2m − 2l + 1)
l=1 l=1
k
! k
!
Y 1 Y 1
= (−1)k
l=1
2l l=1
2m − 2l + 1
m
Y
(2m − 2l + 1)
(−1)k l=k+1
= m
(2k)!! Y
(2m − 2l + 1)
l=1
Ym
(−1)k
= (2m − 2l + 1)
(2k)!! (2m − 1)!! l=k+1
m−k
Y
l→l+k (−1)k
= (2(m − k) − 2l + 1)
(2k)!! (2m − 1)!! l=1
(−1)k
= (2(m − k) − 1)!! .
(2k)!! (2m − 1)!!
Assim, !
m/2
X (−1)k z m−2k (2m)! (2(m − k) − 1)!!
Pm (z) = .
k=0
2m (m − 2k)! m! (2k)!! (2m − 1)!!
Vale, porém,
!
(2m)! (2(m − k) − 1)!! (2m)! (2(m − k) − 1)!! (2(m − k))!!
=
m! (2k)!! (2m − 1)!! m! (2k)!! (2m − 1)!! (2(m − k))!!
(2m)! (2(m − k))!

=
m! (2m − 1)!! (2k)!! (2(m − k))!!
(2m)!! (2m − 2k)!

=
m! (2k)!! (2(m − k))!!
2m m! (2m − 2k)!
=
m! 2k k! 2m−k (m − k)!
(2m − 2k)!
= ,
k! (m − k)!
onde, na penúltima passagem, usamos que (2p)!! = 2p p! para todo p ∈ . Com isso,
m/2
X (−1)k z m−2k (2m − 2k)!
Pm (z) = ,
k=0
2m (m − 2k)! k! (m − k)!
que é a expressão (7.14) para m par.

O caso em que m é ı́mpar é análogo e é deixado como exercı́cio.
7.C Justificando os Polinômios de Hermite

Tomaremos aqui z = x ∈ e consideraremos apenas a série
X∞ k−1
(0) λ 2 x2k Y
yλ (x) := 1 − x − λ (4l − λ) ,
2 k=2
(2k)! l=1
com λ ∈ mas λ 6= 2m para m um inteiro positivo par (o que faz da série acima uma série infinita),

(1)
pois o tratamento da série yλ é idêntico.

Seja s > 1, arbitrário mas fixo, e escolhamos k0 > 2 tal que 1 − 4kλ0 > 1s . Note que se λ ≤ 0, isso
é válido para todo k0 > 2 enquanto que, se λ > 0, devemos tomar

λs
k0 > max , 2 . (7.C.4)
4(s − 1)
Escrevemos
Xk0 k−1 ∞ k−1
(0) λ 2 x2k Y X x2k Y
yλ (x) := 1 − x − λ (4l − λ) − λ (4l − λ) .
2 k=2
(2k)! l=1 k=k +1
(2k)! l=1
0
É fácil verificar que

∞
X k−1 ∞ k−1
x2k Y X
k−1 2k (k − 1)! Y λ
(4l − λ) = 4 x 1−
k=k0 +1
(2k)! l=1 k=k0 +1
(2k)! l=1 4l
k0 −1 ! ∞ k−1
1 Y λ X
k 2k (k − 1)! Y λ
= 1− 4 x 1− .
4 l=1 4l k=k0 +1
(2k)! l=k 4l
0
∞
X k−1
k 2k (k − 1)! Y λ
Vamos agora nos concentrar na série 4 x 1− . Pela escolha de k0 , sabemos
k=k0 +1
(2k)! l=k 4l
0
que para l ≥ k0 , vale
λ λ 1
1− ≥ 1− >
4l 4k0 s
e, portanto,
k−1
Y
λ 1
1− > .
4l sk−k0
l=k0
Além disso,
(2k)! = (2k)!! (2k − 1)!! = 2k k! (2k − 1)!! < 22k (k!)2 ,
pois

k 1 3 5 1
(2k−1)!! = (2k−1)(2k−3)(2k−5) · · · 1 = 2 k− k− k− · · · < 2k k(k−1)(k−2) · · · 1 .
2 2 2 2
Logo,
∞
X k−1 ∞ 2 k
k 2k (k− 1)! Y λ k0
X 1 x
4 x 1− > s
k=k0 +1
(2k)! l=k 4l k=k +1
k(k!) s
0 0
∞
X k
k0 1 x2
> s
k=k0 +1
(k + 1)! s
∞ 2 k+1
s X k0 1 x
= s 2
x k=k +1 (k + 1)! s
0
k=k
X 0 +1
k !
sk0 +1 x2 /s 1 x2
= e − .
x2 k=0
k! s
2
Kex /s − p(x)
(0)
Tudo isso mostra que yλ (x) é maior que , onde K é uma constante (que depende
x2
de λ, s e k0 ) e p(x) é um polinômio de grau 2k0 + 2 em x. Como s é arbitrário, vemos que o produto
(0) 2
yλ e−x /2 diverge para |x| → ∞, já que podemos escolher 1/s > 1/2, tomando26 1 < s < 2.
No contexto do problema do oscilador harmônico na Mecânica Quântica (vide Seção 8.3.6, página
(0) 2
506) esse comportamento é inaceitável, pois o produto yλ e−x /2 representa uma função de onda, que
deve ser de quadrado integrável em . Isso força-nos a tomar λ = 2m com m um inteiro positivo e

(0)
par, de modo a reduzir yλ (x) a um polinômio.
(1)
Para yλ (x) as considerações são análogas e não iremos repeti-las aqui.
26 (0) 2
/2
Por (7.C.4), tomar s próximo de 1 aumenta o grau do polinômio p(x), mas não altera o fato que y λ (x)e−x diverge
para |x| → ∞
7.D Provando (7.20)

Consideraremos apenas o caso em que m é par, pois o caso em que m é ı́mpar é tratado analogamente.
Para m par, tem-se
 m

X2 2k k−1
Y
z
Hm (z) = (−2)m/2 (m − 1)!! 1 − m z 2 − 2m (4l − 2m) .
(2k)!
k=2 l=1
m
Fazendo a mudança de variáveis k → 2
− k, teremos
 m m

−2 −k−1
X
2
z m−2k 2Y
Hm (z) = (−2)m/2 (m − 1)!! 1 − m z 2 − 2m (4l − 2m) .
(m − 2k)!
k=0 l=1
Tem-se que
m m
−k−1 −k−1
2 Y m
2 Y
−k−1
(4l − 2m) = (−2) 2 (m − 2l)
l=1 l=1
m
−1
Y
2
(m − 2l)
m l=1
−k−1
= (−2) 2
m
−1
Y
2
(m − 2l0 )
l0 = m
2
−k
m
−1
Y
2
(m − 2l)
l0 → m −l0 m
−k−1 l=1 m (m − 2)!!
= 2
(−2) 2 = (−2) 2 −k−1 .
k
Y (2k)!!
2l0
l0 =1
Logo,
 m

−2
X
2
zm−2k
m (m − 2)!! 
Hm (z) = (−2)m/2 (m − 1)!! 1 − m z 2 − 2m (−2) 2 −k−1
k=0
(m − 2k)! (2k)!!
m
−2
m X
2
(−1)k m!
2
= (−2) (m − 1)!! 1 − m z
2 + (2z)m−2k
k=0
(m − 2k)! k!
m
X2
(−1)k m!
= (2z)m−2k , (7.D.5)
k=0
(m − 2k)! k!
já que
(2p)! (2p)!! (2p − 1)!!

m (m−1)!! (m−2)!! = m!, que (2k)!! = 2k k! e que = = 2p (2p−1)!! .
p! p!
A expressão (7.D.5) coincide com (7.20) para m par. O caso em que m é ı́mpar é análogo e é deixado
como exercı́cio.
7.E Porque λ deve ser um Inteiro Positivo na Equação de

Laguerre
Justificaremos aqui por que consideramos λ um inteiro positivo na equação de Laguerre. Temos dois
casos a tratar: a. λ < 0 e b. λ > 0 mas λ não-inteiro. Em aplicações, especialmente na Mecânica
Quântica, a variável z é um número real positivo (uma coordenada radial). Vamos então doravante
tomar z real e positivo e escrever z = r > 0.
Se λ não for um inteiro positivo a série (7.120) acima é uma série infinita. Podemos escrever
n−1
Y n−1
Y Y
n−1
λ

n
(−1) (λ − l) = −λ (l − λ) = −λ(n − 1)! 1− . (7.E.6)
l=0 l=1 l=1
l
Se λ < 0, a última expressão fica

Y
n−1
|λ|

|λ|(n − 1)! 1+
l=1
l
e "n−1 #
∞
X Y
1 |λ|
y1 (r) = 1 + |λ| 1+ rn .
n=1
n(n!) l=1
l

1 1 |λ|
Agora, n
> n+1
e 1+ l
> 1. Assim,
∞
X 1 |λ| r
y1 (r) > 1 + |λ| rn = 1 + (e − 1 − r) .
n=1
(n + 1)! r
Disso concluı́mos que y1 (r) cresce da ordem de er quando r → ∞. O problema com isso é que em
várias aplicações tal comportamento é indesejado. No problema do átomo de hidrogênio da Mecânica
Quântica, por exemplo, o produto e−r/2 y1 (r) representa a função de onda radial de um elétron de
momento angular nulo sob um potencial coulombiano27 . Pelo visto acima, se λ < 0 a função de onda
cresceria para r → ∞ pelo menos como e+r/2 , não podendo, assim, ser uma função de quadrado in-
tegrável em 3 , uma condição fundamental ligada à interpretação probabilı́stica da Mecânica Quântica.

Assim, soluções com λ < 0 devem ser descartadas nesse contexto.

27
Vide Seção 8.3.7, página 507, ou qualquer bom livro de Mecânica Quântica.
Tratemos agora do caso em que λ é positivo, mas não é um número inteiro. Por (7.E.6), podemos
escrever, para n − 1 ≥ 2dλe,
2dλe−1 n−1
n−1
Y Y λ Y λ

n
(−1) (λ − l) = −λ(n − 1)! 1− 1− ,
l=0 l=1
l l
l=2dλe
onde dλe é o menor inteiro maior ou igual a λ. Assim,

"n−1 #  
2dλe
X Y ∞
X n−1
Y
(−1)n 1  λ  n
y1 (r) = 1 + (λ − l) rn + L 1− r ,
n=1
(n!)2 l=0
n (n!) l
n=2dλe+1 l=2dλe
com
2dλe−1
Y λ
L := −λ 1− .
l=1
l
n−1
Y
λ
A razão de escrevermos essa expressão dessa forma reside no fato que, agora, 1− é um
l
l=2dλe
produto de termos positivos, sendo que, para l ≥ 2dλe tem-se
λ
1− ≥ α
l
onde
λ 2dλe − λ dλe + (dλe − λ) dλe 1
α := 1 − = = > = .
2dλe 2dλe 2dλe 2dλe 2
Com isso, para a última soma do lado direito vale
 
X∞ n−1
Y ∞
X
1  λ  n 1
1− r ≥ (α)n−2dλe r n
n (n!) l n (n!)
n=2dλe+1 l=2dλe n=2dλe+1
∞
X 1
= K (αr)n
n (n!)
n=2dλe+1
∞
X 1
> K (αr)n
(n + 1)!
n=2dλe+1

K αr
= e − P (αr)
αr
2dλe+1
X 1
onde K := α −2dλe
, P (αr) := (αr)n é um polinômio de grau 2dλe + 1 e α > 1/2.
n=0
n!
Disso concluı́mos que para r → ∞, |y1 (r)| cresce mais rápido que eαr com α > 1/2. Assim, um
produto como e−r/2 y1 (r), que como dissemos representa a função de onda radial de um elétron de
momento angular nulo sob um potencial coulombiano, não é de quadrado integrável no espaço 3 , uma

condição fundamental ligada à interpretação probabilı́stica da Mecânica Quântica. Assim, soluções

com λ > 0, mas λ não-inteiro, devem também ser descartadas nesse contexto.
Capı́tulo 8
Propriedades de Algumas Soluções de Equações
Diferenciais Ordinárias e Aplicações
Conteúdo
8.1 Discussão Preliminar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 425

8.1.1 Definições e Considerações Preliminares . . . . . . . . . . . . . . . . . . . . . 425
8.1.2 Relações de Ortogonalidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . 428
8.1.3 Fórmulas de Rodrigues . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 430
8.1.4 Funções Geratrizes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 432
8.2 Propriedades de Algumas Funções Especiais . . . . . . . . . . . . . . . . . 436
8.2.1 Propriedades dos Polinômios de Legendre . . . . . . . . . . . . . . . . . . . . 436
8.2.2 Propriedades dos Polinômios de Legendre Associados. Harmônicos Esféricos . 442
8.2.3 Propriedades dos Polinômios de Hermite . . . . . . . . . . . . . . . . . . . . . 452
8.2.4 Propriedades dos Polinômios de Laguerre . . . . . . . . . . . . . . . . . . . . 456
8.2.5 Propriedades dos Polinômios de Laguerre Associados . . . . . . . . . . . . . . 460
8.2.6 Propriedades das Funções de Bessel . . . . . . . . . . . . . . . . . . . . . . . 463
8.2.7 Propriedades das Funções de Bessel Esféricas . . . . . . . . . . . . . . . . . . 478
8.3 Algumas Aplicações Selecionadas . . . . . . . . . . . . . . . . . . . . . . . . 482
8.3.1 O Método de Separação de Variáveis . . . . . . . . . . . . . . . . . . . . . . . 482
8.3.2 Uma Breve Discussão Sobre Unicidade de Soluções . . . . . . . . . . . . . . . 485
8.3.3 As Equações de Helmholtz e de Laplace . . . . . . . . . . . . . . . . . . . . . 491
8.3.4 O Problema da Corda Pendurada . . . . . . . . . . . . . . . . . . . . . . . . . 499
8.3.5 O Problema da Membrana Circular . . . . . . . . . . . . . . . . . . . . . . . 503
8.3.6 O Oscilador Harmônico na Mecânica Quântica e a Equação de Hermite . . . 506
8.3.7 O Átomo de Hidrogênio e a Equação de Laguerre Associada . . . . . . . . . . 507
8.A Provando (8.44) à Força Bruta . . . . . . . . . . . . . . . . . . . . . . . . . 511
8.B Alguns Teoremas de Unicidade de Soluções de Equações Diferenciais
Parciais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 512
ste capı́tulo dá continuidade ao Capı́tulo 7 e concentra-se no estudo de propriedades especiais

de algumas das funções lá apresentadas como soluções de equações diferenciais de interesse.
Nossos principais objetivos são a dedução das relações de ortogonalidade de certas funções, a
dedução das chamadas fórmulas de Rodrigues e de relações de recorrência para as mesmas e
também a determinação de suas funções geratrizes. Essas propriedades, que serão devidamente definidas
424
e discutidas na Seção 8.1, são úteis para a resolução de equações diferenciais, especialmente aquelas
provenientes de problemas envolvendo equações diferenciais parciais submetidas a certas condições
iniciais e/ou de contorno. Exemplos de aplicações a problemas fı́sicos são discutidos na Seção 8.3, página
482. Ainda que nosso tratamento seja tão completo quanto possı́vel, dentro do escopo relativamente
limitado que pretendemos, repetimos aqui a recomendação das referências listadas no Capı́tulo 7 à
página 356.
8.1 Discussão Preliminar

Na próxima seção, a Seção 8.2, tencionamos apresentar ao leitor certas propriedades de algumas das
funções encontradas como solução de equações diferenciais de interesse em Fı́sica, propriedades essas
cuja utilidade maior manifesta-se especialmente, como mencionado, na resolução de equações diferen-
ciais parciais submetidas a certas condições iniciais e/ou de contorno. Na presente seção prepararemos
o terreno discutindo algumas idéias gerais.
As idéias gerais que apresentaremos envolvem 1. as chamadas relações de ortogonalidade, que gene-
ralizam aquelas bem-conhecidas da teoria das séries de Fourier; 2. as chamadas fórmulas de Rodrigues,
úteis para a obtenção de relações de recorrência entre funções e 3. as chamadas funções geratrizes, das
quais outras propriedades úteis são extraı́das, como por exemplo representações integrais para certas
funções.
Os exemplos principais dos quais trataremos a seguir, na Seção 8.2, envolvem os polinômios de
Legendre, de Hermite e de Laguerre e as funções de Bessel, todas de importância na resolução de
problemas do Eletromagnetismo, de Mecânica Quântica, da Mecânica dos Fluidos e de outras áreas.
8.1.1 Definições e Considerações Preliminares

No Capı́tulo 7 tratamos nossas equações diferenciais como equações no plano complexo. Para a dis-
cussão das chamadas relações de ortogonalidade devemos considerar apenas equações diferenciais de
uma variável real. De qualquer forma, na absoluta maioria das equações diferenciais de interesse em
Fı́sica a função incógnita y é uma função de uma variável real, digamos, x, e assim consideraremos
aqui.
Em muitas das equações diferenciais de interesse em Fı́sica a variável x é restrita a uma região J ⊂
da reta real, sendo J um intervalo fechado (tal como [a, b]), aberto (tal como (a, b)) ou semi-aberto
(tal como (a, b] ou [a, b)). Podem também ocorrer intervalos infinitos, tais como J = (−∞, ∞), ou
semi-infinitos, como J = (0, ∞) ou J = [0, ∞). Denotaremos por J 0 o interior do intervalo J, ou
seja, J 0 é o maior intervalo aberto contido em J. Por exemplo, se J = [a, b] teremos J 0 = (a, b), se
J = [0, ∞) então J 0 = (0, ∞) e se J é aberto então J 0 = J.
Até aqui escrevemos nossas equações lineares homogêneas de segunda ordem na forma
y 00 (x) + a(x)y 0 (x) + b(x)y(x) = 0
(agora já adotando como variável x ∈ J). Em muitos problemas de interesse essa equação pode ser
escrita de outra forma, denominada por alguns autores de forma canônica, e que será importante para
o que segue:
(p(x)y 0 (x))0 + q(x)y(x) + µ r(x)y(x) = 0, (8.1)
onde,
1. p(x) é real, contı́nua e diferenciável em J 0 e p(x) > 0 para todo x ∈ J 0 .
2. q é real e contı́nua em J.
(8.2)
3. r(x) é real e contı́nua em J 0 e r(x) > 0 para todo x ∈ J 0 .
4. µ é uma constante.
As condições de positividade de p e r em J 0 são as mais importantes. Note-se que não excluiremos que
p e r possam se anular (ou mesmo divergir) nos extremos do intervalo J 1 .
Como o leitor pode facilmente constatar, a relação entre essas funções é a seguinte:
p0 (x) 1
a(x) = , b(x) = (q(x) + µr(x)) .
p(x) p(x)
Dadas a(x) e b(x), a primeira relação acima fixa p(x) (a menos de uma constante), a saber,
Z x
0 0
p(x) = exp a(x )dx + const. .
0
Já a segunda nem sempre fixa q(x) e r(x) univocamente, tudo dependendo da condição de positividade
sobre r(x), que foi mencionada acima, ou de qual parâmetro se deseja tomar por µ. Na maioria dos
casos, porém, q e r podem ser fixados univocamente, o que ficará claro nos exemplos que seguem.
Várias das equações diferenciais de segunda ordem das quais tratamos no Capı́tulo 7 podem ser
escritas na forma canônica em algum intervalo J conveniente2 . Vamos a alguns exemplos que nos
interessarão:
A equação do oscilador harmônico simples: y 00 (x) + λy(x) = 0. Aqui p(x) = 1, q(x) = 0,

r(x) = 1 e µ = λ. Vários tipos de intervalos J aparecem em problemas. No problema da corda
vibrante, por exemplo, pode-se adotar J = [0, L], L sendo o comprimento da corda.
A equação de Legendre (1 − x2 )y 00 (x) − 2xy 0 (x) + λ(λ + 1)y(x) = 0 é tipicamente considerada
no intervalo J = [−1, 1] e pode ser escrita como
0
1 − x2 y 0 (x) + λ(λ + 1)y(x) = 0.
Aqui p(x) = (1 − x2 ), q(x) = 0, r(x) = 1 e µ = λ(λ + 1).

Note que p(x) > 0 em J 0 = (−1, 1), mas anula-se nos extremos x = ±1. Já a função r(x) é
positiva em todo J = [−1, 1].
1
O caso em que p e r permanecem finitas e positivas nos extremos do intervalo J é particularmente importante no
chamado Problema de Sturm-Liouville regular, tratado no Capı́tulo 9.
2
A conveniência é ditada pelo problema fı́sico subjacente.
A equação de Hermite y 00 (x) − 2xy 0 (x) + λy(x) = 0, é tipicamente considerada no intervalo

J = (−∞, ∞) e pode ser escrita como
2 0 2
e−x y 0 (x) + λe−x y(x) = 0.
2 2
Aqui p(x) = e−x , q(x) = 0, r(x) = e−x e µ = λ.
Note que p(x) > 0 e r(x) > 0 em todo J = (−∞, ∞).
A equação de Chebyshev (1 − x2 )y 00 (x) − x y 0 (x) + λ2 y(x) = 0 é tipicamente considerada no

intervalo J = [−1, 1] e pode ser escrita como
√ 0 1
0
1 − x y (x) + λ2 √
2 y(x) = 0.
1 − x2
√ √
Aqui p(x) = 1 − x2 , q(x) = 0, r(x) = 1/ 1 − x2 e µ = λ2 .
Note que p(x) > 0 em J 0 = (−1, 1), mas anula-se nos extremos x = ±1. Já a função r(x) é
positiva em todo J = (−1, 1), mas diverge nos extremos x = ±1.
A equação de Laguerre xy 00 (x)+(1−x)y 0 (x)+λy(x) = 0 é tipicamente considerada no intervalo

J = [0, ∞) e pode ser escrita como
0
xe−x y 0 (x) + λe−x y(x) = 0.
Aqui p(x) = xe−x , q(x) = 0, r(x) = e−x e µ = λ.

Note que p(x) > 0 em J 0 = (0, ∞), mas anula-se no extremo x = 0. Já a função r(x) é positiva
em todo J = [0, ∞).
A equação de Bessel e a equação de Bessel esférica também podem ser escritas desta forma canônica.
Porém, o tratamento das relações de ortogonalidade que se segue exige para elas algumas adaptações
e postergaremos sua discussão paras as Seções 8.2.6 e 8.2.7, adiante.
Daqui para frente vamos escrever o intervalo J, finito ou não, na forma J := (A, B) ⊂ .
Para uma função u definida em J que seja pelo menos duas vezes diferenciável, vamos definir o
operador diferencial L por
(Lu)(x) := (p(x)u0 )0 + q(x)u . (8.3)
A equação (8.1) fica simplificada na forma
(Ly)(x) + λ r(x)y(x) = 0 . (8.4)
Se λ for um número tal que a equação (8.4) for satisfeita para alguma função u λ (que em geral
dependerá de λ), então diz-se que λ é um autovalor e uλ é dito ser a auto-função associada ao autovalor
λ. Essa nomenclatura surge por analogia com os conceitos de autovalor e auto-vetor de matrizes na
álgebra linear3 .
3 1
Estritamente falando λ e uλ são auto-valores, respectivamente, auto-funções, do operador M = − r(x) L.
8.1.2 Relações de Ortogonalidade

O teorema que agora apresentamos expressa uma da mais importantes propriedades das soluções das
equações diferenciais discutidas acima: as chamadas relações de ortogonalidade.
Teorema 8.1 Considere-se a equação diferencial Lu(x) + µr(x)u(x) = 0 definida no intervalo (não
necessariamente finito) J = (A, B), com p, q e r satisfazendo as condições enumeradas em (8.2).
Sejam λ1 e λ2 ∈ com λ1 6= λ2 e suponhamos que uλ1 e uλ2 sejam funções não-nulas que satisfazem

Luλ1 (x) + λ1 r(x)uλ1 (x) = 0 e Luλ2 (x) + λ2 r(x)uλ2 (x) = 0 , (8.5)
em J = (A, B) e suponhamos ainda que os limites4

0 0
lim p(b) uλ1 (b)uλ2 (b) − uλ1 (b)uλ2 (b) e lim p(a) uλ1 (a)u0λ2 (a) − u0λ1 (a)uλ2 (a)
b→B− a→A+
existam e satisfaçam

0 0 0 0
lim p(b) uλ1 (b)uλ2 (b) − uλ1 (b)uλ2 (b) = lim p(a) uλ1 (a)uλ2 (a) − uλ1 (a)uλ2 (a) . (8.6)
b→B− a→A+
Então, Z B
uλ1 (x) uλ2 (x) r(x) dx = 0 . (8.7)
A
2
Prova. Seja (a, b), com A < a < b < B, qualquer intervalo finito contido em J 0 . Consideremos a
expressão Z b
(λ1 − λ2 ) uλ1 (x) uλ2 (x) r(x) dx .
a
Como λ1 e λ2 são reais, isso pode ser escrito por (8.5) como
Z b Z b
(λ1 r(x)uλ1 (x)) uλ2 (x) dx − uλ1 (x) (λ2 r(x)uλ2 (x)) dx
a a
Z b Z b
= uλ1 (x) (Luλ2 )(x) dx − (Luλ1 )(x) uλ2 (x) dx .
a a
4
Os limites lim e lim significam os limites à esquerda e à direita, respectivamente.
x→Y− x→Y+
Agora, para quaisquer u e v duas vezes diferenciáveis definidas em (a, b) vale, usando-se integração
por partes,
Z b Z b Z b
0 0
v(x) (Lu)(x) dx = v(x)(p(x)u ) dx + v(x)q(x)u(x) dx
a a a
Z b b Z b
0
= − v 0 (x)(p(x)u0 ) dx + vpu + v(x)q(x)u(x) dx
a a a
Z b b b Z b
0

= u(pv 0 )0 0
dx + vpu − v pu + v(x)q(x)u(x) dx
a a a a
Z b b b
0 0
= (Lv)(x) u(x) dx + vpu − v pu , (8.8)
a a a
ou seja, Z Z
b b b b
0 0
v(x) (Lu)(x) dx − (Lv)(x) u(x) dx = vpu − v pu . (8.9)
a a a a
Assim, concluimos que
Z b b b

(λ1 − λ2 ) uλ1 (x) uλ2 (x) r(x) dx = uλ1 pu0λ2 − u0λ1 puλ2
a a a

= p(b) uλ1 (b)u0λ2 (b) − u0λ1 (b)uλ2 (b) − p(a) uλ1 (a)u0λ2 (a) − u0λ1 (a)uλ2 (a) .
Conseqüentemente, tem-se pelas hipóteses,
Z B
(λ1 − λ2 ) uλ1 (x) uλ2 (x) r(x) dx
A

= lim p(b) uλ1 (b)u0λ2 (b) − u0λ1 (b)uλ2 (b) − lim p(a) uλ1 (a)u0λ2 (a) − u0λ1 (a)uλ2 (a) = 0 .
b→B− a→A+
Z B
Como λ1 6= λ2 , isso implica uλ1 (x) uλ2 (x) r(x) dx = 0, como querı́amos provar.
A
A relação (8.7) diz-nos que uλ1 e uλ2 são ortogonais em relação ao produto escalar
Z B
hf, gir := f (x)g(x) r(x) dx , (8.10)
A
RB
definido no conjunto de todas as funções f : J → tais que A |f (x)|2 r(x) dx < ∞. Essas relações
de ortogonalidade são de suma importância em aplicações, especialmente na resolução de equações
diferenciais parciais sob certas condições de contorno. O leitor interessado em exemplos pode passar
diretamente à Seção 8.2, página 436. Aplicações à solução de equações diferenciais parciais de interesse
em Fı́sica serão vistas na Seção 8.3, página 482.
Há várias condições sob as quais (8.6) é satisfeita. Por exemplo, ela será satisfeita se p(A) = p(B) =
0 e se uλ1 , uλ2 e suas derivadas não divergirem em A e B. Outra condição sob a qual (8.6) é satisfeita
se dá, no caso em que (A, B) é um intervalo finito, sob a hipótese que p(A) e p(B) sejam finitos e que
uλ1 e uλ2 satisfaçam condições de contorno em A e B do tipo
α1 y(A) + α2 y 0 (A) = 0 , (8.11)
β1 y(B) + β2 y 0 (B) = 0 , (8.12)
onde α1 , α2 , β1 , β2 são constantes fixadas, sendo (α1 , α2 ) 6= (0, 0) e (β1 , β2 ) 6= (0, 0). Esse último
tipo de situação é discutido com detalhe no Capı́tulo 9, página 521, especialmente no Lema 9.1 da
página 535.
8.1.3 Fórmulas de Rodrigues

As idéias desta pequena seção serão melhor ilustradas nos exemplos da Seção 8.2.
Consideremos a equação diferencial (p(x)y 0 (x))0 + q(x)y(x) + µ r(x)y(x) = 0, ou seja, Ly + µry = 0,
com p, q e r satisfazendo as condições enumeradas em (8.2) e suponhamos também que r seja uma
função infinitamente diferenciável de x. Consideremos que o intervalo J onde a equação é considerada
seja J = [−1, 1]. Para n = 0, 1, 2, . . ., sejam definidas as funções
!
1 dn
pn (x) := r(x)(1 − x2 )n . (8.13)
r(x) dxn
É fácil ver que se m < n, então Z 1

xm pn (x) r(x) dx = 0 , (8.14)
−1
ou seja, cada pn é ortogonal, segundo o produto escalar h·, ·ir definido em (8.10), a todos os polinômios
de grau menor que n. Para provar (8.14), basta escrever
Z 1 Z 1 !
n
d
xm pn (x) r(x) dx = xm n r(x)(1 − x2 )n dx
−1 −1 dx

dk
e fazer n vezes integração por partes, lembrando que a expressão dxk
r(x)(1 − x2 )n , com k < n,
sempre contem um fator (1 − x2 ) que se anula em ±1.
E. 8.1 Exercı́cio importante. Faça isso! 6
Se as funções pn forem elas mesmas polinômios de grau n, o que ocorre em vários casos, concluı́mos
que Z 1
pm (x) pn (x) r(x) dx = 0 ,
−1
sempre que m 6= n. Isso significa que os polinômios pn (x) são ortogonais dois-a-dois segundo o produto
escalar h·, ·ir no intervalo J = [−1, 1].
Várias equações diferenciais do tipo mencionado acima, definidas em um intervalo finito [−1, 1], têm
soluções polinomiais, como por exemplo, a equação de Legendre e de Chebyshev. Como as mesmas,
pelo Teorema 8.1, são ortogonais em relação ao produto escalar h·, ·ir no intervalo J = [−1, 1]5 ,
as considerações acima sugerem que as soluções polinomiais possam ser escritas, a menos de uma
constante multiplicativa, na forma (8.13). Isso é, de fato, verdade para várias equações importantes
(como as de Legendre e Chebyshev) e da expressão (8.13) será possı́vel obter várias propriedades
daqueles polinômios. Isso será melhor discutido nos exemplos que trataremos na Seção 8.2.
A expressão (8.13) é denominada fórmula de Rodrigues6 .
E. 8.2 Exercı́cio. Generalize a fórmula de Rodrigues (8.13) para um intervalo J = [a, b] finito arbitrário.
Sugestão: procure uma transformação linear que mapeie bijetivamente [−1, 1] em [a, b]. 6
As fórmulas de Rodrigues podem ser generalizadas para equações diferenciais definidas em intervalos
não-finitos, como J = (0, ∞) ou J = (−∞, ∞). Tratemos disso.
Para o caso J = (0, ∞) devemos supor novamente que r(x) seja infinitamente diferenciável, mas
devemos ainda supor que r(x) seja limitada em x = 0 e que r(x) e todas as suas derivadas r (m) (x)
caiam no infinito mais rápido que qualquer potência, ou seja lim x→∞ xk r (m) (x) = 0 para todo k ≥ 0 e
m ≥ 0. Definimos, nesse caso,
1 dn n

pn (x) := r(x) x . (8.15)
r(x) dxn
É fácil ver que se m < n, então Z ∞
xm pn (x) r(x) dx = 0 , (8.16)
0
Para ver isso, escrevemos novamente
Z Z !
∞ ∞
dn
xm pn (x) r(x) dx = xm r(x) xn dx
0 0 dxn
e fazemos integração
por partes, usando que limx→∞ xk r (m) (x) = 0 para todos k ≥ 0 e m ≥ 0 e que a

dk n
expressão dx k r(x)x , com k < n, sempre contem um fator x que se anula em 0.
E. 8.3 Exercı́cio importante. Complete os detalhes. 6
Em certos exemplos, como na equação de Laguerre, as funções pn são polinômios na variável x.

Nesses casos, temos então que Z ∞
pm (x) pn (x) r(x) dx = 0 ,
0
5
Veremos isso explicitamente nos exemplos da Seção 8.2
6
Benjamin Olinde Rodrigues (1794-1851). Rodrigues foi banqueiro e matemático amador, nascido na França, mas de
origem judaico-portuguesa. Encontrou a fórmula que leva seu nome apenas para o caso dos polinômios de Legendre. A
generalização aqui apresentada é posterior. Rodrigues também deu contribuições para a teoria dos quatérnions e para o
grupo SO(3) (vide Proposição 10.5, página 593). Apesar de banqueiro, Rodrigues foi lı́der do partido socialista francês.
escalar h·, ·ir no intervalo J = (0, ∞). Como antes, isso sugere que as soluções polinomiais de certas
equações diferenciais definidas no intervalo J = (0, ∞) possam ser escritas, a menos de uma constante
multiplicativa, na forma sugerida pela fórmula de Rodrigues (8.15). Veremos que tal é o caso para os
polinômios de Laguerre e isso nos permitirá obter algumas relações úteis sobre aqueles polinômios.
Para o caso J = (−∞, ∞) devemos supor novamente que r(x) seja infinitamente diferenciável,
mas devemos ainda supor que r(x) e todas as suas derivadas r (m) (x) caiam no infinito mais rápido que
qualquer potência, ou seja lim|x|→∞ |x|k |r (m) (x)| = 0 para todo k ≥ 0 e m ≥ 0. Definimos, nesse caso,
1 dn
pn (x) := r(x) . (8.17)
r(x) dxn
É fácil ver que se m < n, então Z ∞

xm pn (x) r(x) dx = 0 , (8.18)
−∞
Para ver isso, escrevemos novamente
Z ∞ Z
m
∞
m dn
x pn (x) r(x) dx = x r(x) dx
−∞ −∞ dxn
e fazemos integração por partes, usando que lim|x|→∞ |x|k |r (m) (x)| = 0 para todos k ≥ 0 e m ≥ 0.
E. 8.4 Exercı́cio importante. Complete os detalhes. 6
Em certos exemplos, como na equação de Hermite, as funções pn são polinômios na variável x.

Nesses casos, temos então que Z ∞
pm (x) pn (x) r(x) dx = 0 ,
−∞
escalar h·, ·ir no intervalo J = (−∞, ∞). Como antes, isso sugere que as soluções polinomiais de
certas equações diferenciais definidas no intervalo J = (−∞, ∞) possam ser escritas, a menos de uma
constante multiplicativa, na forma sugerida pela fórmula de Rodrigues (8.17). Veremos que tal é o caso
para os polinômios de Hermite e isso nos permitirá obter algumas relações úteis sobre os mesmos.
8.1.4 Funções Geratrizes

Funções geratrizes desempenham um elegante papel no estudo de propriedades de seqüências numéricas,
em análise combinatória e no estudo de certas seqüências de funções (ilustraremos essa afirmação
estudando com elas, logo abaixo, a chamada seqüência de Fibonacci). Faremos adiante uso de funções
geratrizes para demonstrar algumas propriedades úteis de algumas das soluções que encontramos no
Capı́tulo 7, como os polinômios de Legendre, de Hermite, de Laguerre, de Chebyshev e as funções de
Bessel.
O leitor poderá encontrar na bela referência [48] uma vasta coleção de identidades combinatórias in-
teressantes que podem ser engenhosamente demonstradas com o uso de funções geratrizes de seqüências,
assim como outras referências à literatura pertinente.
• Funções geratrizes
Seja {an , n ∈ } uma seqüência de números reais ou complexos. Define-se a função geratriz da

seqüência {an , n ∈ } como sendo a função dada por

∞
X
G{an } (t) := a n tn .
n=0
Essa definição pressupõe que a série de potências em t do lado direito seja convergente em alguma
região do plano complexo, digamos |t| < T , para algum T > 0. Isso nem sempre é o caso. Por exemplo,
se an = n! a série acima tem raio de convergência nulo.
• Funções geratrizes exponenciais
A função geratriz exponencial da seqüência {an , n ∈ } é definida por

∞
X an
E{an } (t) := tn .
n=0
n!
Essa definição pressupõe que a série de potências em t do lado direito seja convergente em alguma
região do plano complexo, digamos |t| < T .
• Funções geratrizes de Dirichlet
Para certos tipos de seqüências é conveniente

P∞ definir outro tipo de função geratriz, substituindo os
n
monômios t por outras funções de t: n=0 an Sn (t). O exemplo mais importante desse tipo de função
geratriz é aquele no qual se toma Sn (t) = 1/nt , n ≥ 1. Isso nos conduz à próxima definição.
A função geratriz de Dirichlet7 da seqüência {an , n ∈ } é definida por
∞
X an
D{an } (t) := ,
n=1
nt
desde que a série do lado direito convirja com a variável t em alguma região do plano complexo.
A mais famosa das funções geratrizes de Dirichlet é a função zeta de Riemann 8 , que é a função
geratriz de Dirichlet da seqüência constante an = 1, n ≥ 1:
X∞
1
ζ(s) := .
n=1
ns
Como facilmente se vê, a série do lado direito converge na região do plano complexo definida por
Re(s) > 1. A função zeta de Riemann desempenha um papel de grande importância na teoria das
funções de variável complexa e na teoria de números, pois várias de suas propriedades estão relacionadas
a propriedades do conjunto de números primos. Vide, e.g., [53], [121], [122] ou [32].
Os três tipos de funções geratrizes definidas acima têm várias propriedades algébricas interessantes,
como mostrado nos três exercı́cios que seguem.
7
Johann Peter Gustav Lejeune Dirichlet (1805-1859).
8
Georg Friedrich Bernhard Riemann (1826-1866).
E. 8.5 Exercı́cio. Se {an } e {bn } são duas seqüências cujas funções geratrizes G {an } (t) e G{bn } (t) têm
uma região de convergência comum, mostre que
G{an } (t) G{bn } (t) = G{cn } (t) ,
onde n
X
cn = an−p bp .
p=0
E. 8.6 Exercı́cio. Se {an } e {bn } são duas seqüências cujas funções geratrizes exponenciais E {an } (t) e
E{bn } (t) têm uma região de convergência comum, mostre que
E{an } (t) E{bn } (t) = E{cn } (t) ,
onde n
X n
cn = an−p bp .
p=0
p
6
E. 8.7 Exercı́cio. Se {an } e {bn } são duas seqüências cujas funções geratrizes de Dirichlet D {an } (t) e
D{bn } (t) têm uma região de convergência comum, mostre que
D{an } (t) D{bn } (t) = D{cn } (t) ,
onde n
X
cn = an/p bp .
p=1
n/p inteiro
• Um exemplo. A seqüência de Fibonacci
Seja an , n = 1, 2, 3, 4 . . ., a seqüência definida recursivamente da seguinte forma:
a0 = 1, a1 = 1, an+2 = an+1 + an , ∀n≥0.
Essa seqüência é denominada seqüência de Fibonacci9 . Os primeiros elementos da seqüência de Fibo-

nacci são 1, 1, 2, 3, 5, 8, 13, 21, 34, 55... Cada elemento da seqüência de Fibonacci é a soma de seus
dois antecessores.
Fibonacci introduziu a seqüência que leva seu nome em um problema de seu livro Liber abbaci,
de 1202 (livro esse que introduziu o sistema decimal arábico na Europa, em substituição ao sistema
de algarismos romanos, usado até então): “Um certo homem coloca um casal de coelhos em um local
9
Leonardo Pisano, cognominado “Fibonacci” (1170-1250).
cercado de muros por todos os lados. Quantos pares de coelhos podem ser produzidos a partir daquele
casal em um ano se for suposto que a cada mês cada casal gera um novo casal, o qual se torna fértil
em um mês”. A resposta (supondo que nenhum coelho morre) é que, após n meses, tem-se a n pares de
coelhos, sendo an dado acima. Trata-se provavelmente do primeiro modelo de evolução de populações.
A seqüência de Fibonacci é surpreendentemente rica em propriedades, sendo possivelmente uma das
mais pesquisadas da história, existindo até mesmo uma publicação periódica (“Fibonacci Quarterly”)
dedicada a seu estudo.
No intuito de ilustrar a utilidade de funções geratrizes de seqüências, vamos demonstrar a seguinte
identidade para os elementos da seqüência de Fibonacci:
 
√ !n+1 √ !n+1
1 1+ 5 1− 5
an = √  −  , (8.19)
5 2 2
válida para todo n ≥ 0. Essa expressão permite obter cada an diretamente em termos de n.
A função geratriz da seqüência de Fibonacci é
∞
X
F (t) = a n tn . (8.20)
n=0
Mostremos primeiramente que a série de potências do lado direito tem um raio de convergência não-
nulo. Pelo teste da razão vale, para n > 0,

an+1 tn+1
= an+1 |t| = an + an−1 |t| = 1 + an−1 |t| ≤ 2|t| ,
a n tn an an an
pois an−1
an
≤ 1, já que a seqüência de Fibonacci é crescente. Logo, a série converge absolutamente pelo
menos na região |t| < 1/2. A verdadeira região de convergência é um pouco maior (como veremos
adiante), mas não precisaremos desse fato por ora, pois tudo o que necessitamos é da existência de um
raio de convergência não-nulo, o que justifica as manipulações que faremos.
Façamos uso da definição da seqüência de Fibonacci para obter uma fórmula explı́cita para F (t).
Temos que
∞
X
F (t) = 1 + t + a n tn
n=2
∞
X ∞
X ∞
X
n n
= 1+t+ (an−1 + an−2 ) t = 1+t+ an−1 t + an−2 tn
n=2 n=2 n=2
∞
X ∞
X
n 2
= 1+t+t an t + t a n tn
n=1 n=0
= 1 + t + t(F (t) − 1) + t2 F (t) .

Assim, (1 − t − t2 )F (t) = 1 e, portanto,
1
F (t) = .
1 − t − t2
A idéia agora é obter a expansão em série de Taylor de F (t) em torno de t = 0 e compará-la a (8.20),
para assim obter uma expressão explı́cita para os an ’s. Para isso, ao invés de calcularmos as derivadas
de F em t = 0, é mais fácil proceder da seguinte forma. Escrevemos 1 − t − t2 = −(t − γ1 )(t − γ2 ) onde
√ √
5−1 5+1
γ1 = , γ2 = − .
2 2
Assim,

1 1 1 1 1
F (t) = = − = −
1 − t − t2 (t − γ1 )(t − γ2 ) γ1 − γ 2 γ1 − t γ2 − t
" ! !#
1 1 1 1 1
= √ t −
5 γ 1 1 − γ1 γ2 1 − γt2
∞
1 X 1 1
= √ − tn
5 n=0 γ1n+1 γ2n+1
∞
1 X
= √ (−γ2 )n+1 − (−γ1 )n+1 tn
5 n=0
 
∞ √ !n+1 √ !n+1
X 1  1+ 5 1− 5
= √ −  tn ,
n=0
5 2 2
onde usamos que 1/γ1 = −γ2 . Comparando com (8.20) obtemos (8.19), como querı́amos.√ Da última
expressão, vê-se também que o raio de convergência da série de potências que define F é ( 5 − 1)/2 ≈
0, 618 . . ..
8.2 Propriedades de Algumas Funções Especiais

Vamos agora então reunir o conhecimento acumulado acima para obter várias propriedades úteis de
algumas das funções especiais que encontramos como soluções de equações diferenciais de interesse.
As várias identidades que provaremos podem ser obtidas de diferentes modos, de sorte que o leitor
certamente encontrará na literatura demonstrações alternativas àquelas aqui apresentadas.
8.2.1 Propriedades dos Polinômios de Legendre
• Relações de ortogonalidade para os polinômios de Legendre

0
A equação de Legendre ((1 − x2 ) y 0 (x)) + λ(λ + 1)y(x) = 0, é tipicamente considerada no intervalo
J = [−1, 1]. Aqui, p(x) = (1 − x2 ), q(x) = 0, r(x) = 1 e µ = λ(λ + 1). A função p(x) anula-se nos
extremos ±1 do intervalo J = [−1, 1].
Os polinômios de Legendre Pm (x) foram definidos em (7.14) por

bm/2c
X (−1)a (2m − 2a)!
Pm (x) := m
xm−2a , (8.21)
a=0
2 (m − a)! (m − 2a)! a!
onde bm/2c é o maior inteiro menor ou igual a m/2, e são soluções da equação de Legendre com
µ = m(m + 1), sendo (as únicas) soluções da equação de Legendre que permanecem limitadas nos
pontos ±1.
Como p(x) anula-se nos extremos ±1 e os Pm (x) são limitados nesses pontos, vale para os polinômios
de Legendre a relação (8.6) e concluı́mos pelo Teorema 8.1 que
Z 1
Pn (x)Pm (x) dx = 0 (8.22)
−1
para todo n 6= m, com m, n = 0, 1, 2, 3, . . .. Notemos que isso implica

Z 1
xk Pm (x) dx = 0 (8.23)
−1
para todo k < m, pois os monômios xk podem ser escritos como combinações lineares dos polinômios
Pn ’s com n < m. Para calcular as integrais de (8.22) no caso n = m, podemos elegantemente usar as
relações
0 0
Pn+1 (x) = (2n + 1)Pn (x) + Pn−1 (x) , n≥0, (8.24)
e
Pn (1) = 1 , Pn (−1) = (−1)n , n≥0, (8.25)
as quais serão demonstradas mais abaixo (relações (8.30) e (8.34), respectivamente) como conseqüência
da fórmula de Rodrigues para os polinômios de Legendre. De fato, por integração por partes, tem-se
Z 1 1 Z 1
0
Pn (x)Pn+1 (x) dx = Pn (x)Pn+1 (x) − Pn0 (x)Pn+1 (x) dx .
−1 −1 −1
1 R1

Por (8.25), Pn (x)Pn+1 (x) = 1 + (−1)2n = 2. Por (8.23), −1
Pn0 (x)Pn+1 (x) dx = 0, pois Pn0 (x) é
−1
seguramente um polinômio de grau n − 1. Assim,
Z 1 Z 1
0 (8.24) 0

2 = Pn (x)Pn+1 (x) dx = Pn (x) (2n + 1)Pn (x) + Pn−1 (x) dx
−1 −1
Z 1
= (2n + 1) Pn (x)2 dx ,
−1
R1 0 0
pois, novamente por (8.23), −1
Pn (x)Pn−1 (x) dx = 0, já que Pn−1 (x) é um polinômio de grau n − 2.
Isso provou que Z 1
2
Pn (x)Pm (x) dx = δn, m , (8.26)
−1 2n + 1
para todos m, n ≥ 0. Estas são as relações de ortogonalidade para os polinômios de Legendre.

Em muitas situações práticas é conveniente expressar (8.26) através da mudança de variável x =
cos θ, com 0 ≤ θ ≤ π. Ficamos com
Z π
2
Pn (cos θ)Pm (cos θ) sen (θ) dθ = δn, m , (8.27)
0 2n + 1
para todos m, n ≥ 0.
• Fórmula de Rodrigues para os polinômios de Legendre
Pelas nossas considerações gerais sobre as fórmulas de Rodrigues, podemos presumir que os po-
linômios Pm , por serem ortogonais entre si (vide (8.22)), possam ser expressos na forma (8.13) com
r(x) = 1, ou seja,
dm 2 m

Pm (x) = Km m (1 − x ) ,
dx
onde Km são constantes que dependem
P da normalização adotada. De fato, essa pressuposição é correta
pois, escrevendo (1 − x2 )m = m a=0 a
m
(−1) m−a 2m−2a
x (binômio de Newton) e notando que


 (2m − 2a)! m−2a
m  x , para 0 ≤ a ≤ bm/2c
d 2m−2a (m − 2a)!
x = (8.28)
dxm 


0, para bm/2c + 1 ≤ a ≤ m
(justifique!), concluı́mos facilmente que

m
dm 2 m
dm X m
(1 − x ) = (−1)m−a x2m−2a
dxm dxm a=0 a
bm/2c
dm X m
= (−1)m−a x2m−2a
dxm a=0 a
bm/2c
X
m−a m (2m − 2a)! m−2a
= (−1) x
a=0
a (m − 2a)!
bm/2c
X (−1)a (2m − 2a)!
m m
= (−1) 2 m! xm−2a
a=0
2m (m − a)!(m − 2a)!a!
= (−1)m 2m m! Pm (x) .
Assim, Km = (−1)m /(2m m!) e
1 dm 2 m

Pm (x) = (x − 1) , (8.29)
2m m! dxm
como pressuposto. Essa expressão é conhecida como fórmula de Rodrigues para os polinômios de
Legendre e é válida para todo m ≥ 0, inteiro.
De (8.29) outras relações úteis podem ser extraı́das, nosso próximo assunto.
• Relações de recorrência para os polinômios de Legendre
Vamos aqui demonstrar as seguintes relações válidas para os polinômios de Legendre:

0 0
Pn+1 (x) = (2n + 1)Pn (x) + Pn−1 (x) , (8.30)
0
Pn+1 (x) = xPn0 (x) + (n + 1)Pn (x) , (8.31)
nPn (x) = xPn0 (x) − Pn−1

0
(x) , (8.32)
(n + 1)Pn+1 (x) = (2n + 1)xPn (x) − nPn−1 (x) , (8.33)
Pn (1) = 1 , Pn (−1) = (−1)n . (8.34)
Todas as relações acima têm aplicações (vimos isso quando provamos as relações de ortogonali-
dade para os Pn ’s). A relação (8.33) é particularmente interessante por permitir determinar os P n ’s
recursivamente a partir dos dois primeiros: P0 (x) = 1 e P1 (x) = x.
d
Comecemos por provar (8.30). Como dx
(x2 − 1)n+1 = 2(n + 1)x(x2 − 1)n , segue da fórmula de
Rodrigues para Pn+1 que
0 1 dn+1 h 2 n
i
Pn+1 (x) = 2(n + 1)x(x − 1)
2n+1 (n + 1)! dxn+1
1 dn h 2 n 2 2 n−1
i
= (x − 1) + 2nx (x − 1)
2n n! dxn
1 dn h 2 n 2 n−1
i
= n (2n + 1)(x − 1) + 2n(x − 1)
2 n! dxn
0
= (2n + 1)Pn (x) + Pn−1 (x) ,
provando (8.30). Por outro lado, começando pela primeira linha obtida acima, e usando-se a regra de
Leibniz, tem-se
0 1 dn+1 h 2 n
i
Pn+1 (x) = n x(x − 1)
2 n! dxn+1
n+1 p n+1−p
1 X n+1 d d 2 n
= n x (x − 1)
2 n! p=0 p dxp dxn+1−p
1 dn+1 2 n (n + 1) dn 2
= x (x − 1) + (x − 1)n
2n n! dxn+1 2n n! dxn
= xPn0 (x) + (n + 1)Pn (x) ,
provando (8.31). A relação (8.32) é obtida subtraindo-se (8.31) de (8.30). Por fim, para obter (8.33),
multiplicamos (8.30) por x e escrevemos
0 0
(2n + 1)xPn (x) = xPn+1 (x) − xPn−1 (x)
0

= xPn+1 (x) − Pn0 (x) + Pn0 (x) − xPn−1
0
(x)
(8.32)
= (n + 1)Pn+1 (x) + Pn0 (x) − xPn−1
0
(x)
(8.31)
= (n + 1)Pn+1 (x) + nPn−1 (x) .
Disso (8.33) segue imediatamente.
Por fim, vamos provar (8.34) por indução. Como P0 (x) = 1 e P1 (x) = x, as relações acima valem
para n = 0 e n = 1. Supondo-as válidas para n−1 e n, teremos por (8.33) que (n+1)P n+1 (1) = (2n+1)−
n = (n+1), o que implica Pn+1 (1) = 1 e (n+1)Pn+1 (−1) = −(2n+1)(−1)n +n(−1)n = (n+1)(−1)n+1 ,
o que implica Pn+1 (−1) = (−1)n+1 . Isso encerra a demonstração de (8.30)-(8.34).
• A função geratriz dos polinômios de Legendre
A função geratriz dos polinômios de Legendre é

∞
X 1
L(x, t) := Pn (x) tn = √ , (8.35)
n=0
1 − 2tx + t2
válida para |t| < 1 e |x| ≤ 1. Essa relação tem diversas demonstrações, a mais elegante sendo a seguinte
∂
(de [64]). Calculando-se ∂t L(x, t) e usando-se (8.33), tem-se
X∞ ∞
X
∂
L(x, t) = nPn (x) tn−1 = (n + 1)Pn+1 (x) tn
∂t n=1 n=0
∞ h
X i
(8.33)
= (2n + 1)xPn (x) − nPn−1 (x) tn
n=0
∞
X ∞
X ∞
X
n n
= 2x nPn (x) t + x Pn (x) t − nPn−1 (x) tn
n=0 n=0 n=0
∞
X ∞
X ∞
X
n n
= 2x nPn (x) t + x Pn (x) t − (n + 1)Pn (x) tn+1
n=0 n=0 n=0
∞ ∞ ∞
∂ X n
X
n 2 ∂
X
= 2xt Pn (x) t + (x − t) Pn (x) t − t Pn (x) tn
∂t n=0 n=0
∂t n=0
∂
= (2xt − t2 ) L(x, t) + (x − t)L(x, t) .
∂t
Assim, L(x, t) satisfaz a equação diferencial

1 ∂ (x − t)
L(x, t) = .
L(x, t) ∂t 1 − 2xt + t2
1∂
O lado direito é − ln 1 − 2xt + t2 . Logo,
2 ∂t
exp(l(x))
L(x, t) = √ ,
1 − 2tx + t2
onde l(x) é, em princı́pio, uma função arbitrária. Lembrando, porém, que L(x, 0) = P0 (x) = 1 para
todo x, obtem-se de imediato que l(x) = 0 para todo x. Isso estabelece (8.35), como querı́amos.
• Representações integrais para os polinômios de Legendre
A bem-conhecida Fórmula Integral de Cauchy, afirma que, para uma função f analı́tica em um
domı́nio aberto simplesmente conexo D, vale
Z
(n) n! f (w)
f (z) = dw , (8.36)
2πi C (w − z)n+1
para todo z ∈ D, onde a curva C é uma curva diferenciável fechada inteiramente contida em D e dá
precisamente uma volta no sentido anti-horário em torno de z. Combinando a fórmula de Rodrigues e
a Fórmula Integral de Cauchy, obtem-se imediatamente
Z
1 (w 2 − 1)l
Pl (z) = l+1 dw , (8.37)
2 πi C (w − z)l+1
onde C é uma curva fechada e diferenciável no plano complexo dando uma volta em torno de z no sentido
anti-horário. Essa expressão é conhecida como representação integral de Schläfli 10 dos polinômios de
Legendre.
Uma conseqüência dessa representação é a seguinte expressão:
Z π l
1
Pl (z) = z + i(1 − z 2 )1/2 cos(φ) dφ , (8.38)
2π −π
válida para |z| < 1. A demonstração dessa expressão será apresentada mais adiante como caso parti-
cular de uma identidade mais geral (expressão (8.49), abaixo), válida para os polinômios de Legendre
associados. Como a equação de Legendre é invariante pela mudança l → −(l + 1) (verifique que l(l + 1)
é levado em si mesmo por essa transformação!), vale também a identidade11
Z π
1 1
Pl (z) = l+1 dφ . (8.39)
2π −π
z + i(1 − z 2 )1/2 cos(φ)
10
Ludwig Schläfli (1814-1895).
11
Esse argumento envolvendo a transformação l → −(l + 1) é ainda incompleto, mas pode-se provar que o lado direito
de (8.39) é de fato igual ao esquerdo, pois é regular e satisfaz a equação de Legendre. Deixamos os detalhes como
exercı́cio.
Para z real no intervalo [−1, 1], podemos escrever, como é comum em aplicações, z = cos(θ) com
0 ≤ θ ≤ π e com isso as duas identidades acima ficam
Z π l Z π
1 1 1
Pl (cos(θ)) = cos(θ) + i sen (θ) cos(φ) dφ = l+1 dφ .
2π −π 2π −π
cos(θ) + i sen (θ) cos(φ)
Usando o binômio de Newton podemos usar a primeira identidade para escrever Pl (cos(θ)) como
um polinômio em cos θ e sen θ:
l p Z π
1 X l p l−p p
Pl (cos(θ)) = i cos(θ) sen (θ) cos(φ) dφ
2π p=0 p −π
X (−1)q l 2q
bl/2c l−2q 2q
= cos(θ) sen (θ)
q=0
22q 2q q
bl/2c
X (−1)q l! l−2q 2q
= cos(θ) sen (θ) .
q=0
22q (l − 2q)! (q!)2
E. 8.9 Exercı́cio. Prove que no intervalo (−1, 1) vale

∞
P0 (x) 5P2 (x) X (−1)m+1 (2m − 3)! (4m + 1)
|x| = + + P2m (x) . (8.40)
2 8 m=2
22m−1 (m + 1)! (m − 2)!
Z 1
Sugestão: para calcular integrais como xP2m (x)dx pode-se usar (8.30) e/ou (8.33), integração por
0
(−1)m (2m − 1)!!
partes e os fatos que Pn (1) = 1, ∀n ∈ e P2m (0) = , ∀m ∈ , m ≥ 1, o qual segue de
2m m!

(8.21). 6
8.2.2 Propriedades dos Polinômios de Legendre Associados. Harmônicos

Esféricos
Na Seção 7.3.1, página 409, introduzimos a equação de Legendre associada (7.135) e mostramos que
para λ = l ∈ e µ = m ∈ a mesma possui soluções da forma

dm
Plm (z) := (1 − z 2 )m/2 Pl (z) , (8.41)
dz m
para z ∈ com |z| < 1, onde Pl é o polinômio de Legendre de grau l. É claro que Plm (z) é nulo se
m > l (pois Pl é um polinômio de grau l). A relação (8.41), como dissemos na Seção 7.3.1, define os
chamados polinômios de Legendre associados12 , ainda que eles não sejam exatamente polinômios na
variável z.
Vimos também que, devido à fórmula de Rodrigues para os polinômios de Legendre, podemos
escrever Plm (z) como
l+m
m 1 2 m/2 d 2 l
Pl (z) = l (1 − z ) (z − 1) , (8.42)
2 l! dz l+m
para z ∈ com |z| < 1 e 0 ≤ m ≤ l. Lá notamos também que essa expressão faz sentido mesmo para
m inteiro negativo, mas tal que −l ≤ m ≤ l. Assim, definimos
l−m
−m 1 2 −m/2 d 2 l
Pl (z) = l (1 − z ) (z − 1) , (8.43)
2 l! dz l−m
também com 0 ≤ m ≤ l e para z ∈ com |z| < 1. Afirmamos que
(l − m)! m
Pl−m (z) = (−1)m P (z) . (8.44)
(l + m)! l
Essa relação é importante por mostrar que Pl−m (z) é também uma solução da equação de Legendre
associada, por ser proporcional a Plm (z). Fora isso a expressão acima é relevante para os chamados
harmônicos esféricos, dos quais trataremos mais abaixo.
Apresentaremos duas demonstrações de (8.44), ambas instrutivas. Uma “à força bruta”, usando
diretamente as definições, é desenvolvida no Apêndice 8.A, página 511. Uma segunda, mais gentil, será
vista logo abaixo e usa uma representação integral dos polinômios de Legendre associados.
• Representações integrais para os polinômios de Legendre associados
Nossa intenção agora é obter algumas representações integrais úteis para os polinômios de Legendre
associados mas, en passant, encontraremos uma outra demonstração mais gentil da identidade (8.44).
d k
2 l
As expressões (8.42) e (8.43) envolvem derivadas do tipo dz k (z − 1) para k = l + m e k = l − m,
dk 2 l
respectivamente. Procuremos primeiramente expressar genericamente dz k (z − 1) em termos de certas
integrais. Tomemos provisoriamente z real no intervalo aberto −1 < z < 1. Pela Fórmula Integral de
Cauchy (8.36), podemos escrever13
Z
dk 2 l k! (w 2 − 1)l
(z − 1) = dw , (8.45)
dz k 2πi C (w − z)k+1
onde C é uma curva fechada e diferenciável no plano complexo, dando uma volta em torno de z no
sentido anti-horário. Escolhemos a curva C dada por C := {w ∈ | |w − z| = (1 − z 2 )1/2 }, de modo
que podemos escrever todo ponto w de C na forma
w = z + i(1 − z 2 )1/2 eiφ

12
O leitor deve ser advertido que, lastimavelmente, não há uniformidade na literatura quanto à definição dos polinômios
de Legendre associados. Alguns autores (e.g., [79]) introduzem um fator (−1) m no lado direito de (8.41). Assim, algumas
das expressões que obtemos aqui podem divergir das correspondentes encontradas em alguns textos e o leitor deve
compará-las cuidadosamente. A definição que seguimos é a recomendada pela American Mathematical Society.
13
As idéias que se seguem provavelmente originam-se dos trabalhos de Schläfli. Nossas fontes são [64] e [130], que
seguimos com adaptações.
com −π ≤ φ ≤ π. Com isso, a integral em w sobre C pode ser escrita como uma integral em φ e para
isso, usa-se
dw = −(1 − z 2 )1/2 eiφ dφ ,
w − z = i(1 − z 2 )1/2 eiφ ,
w 2 − 1 = −(1 − z 2 ) (e2iφ + 1) + 2iz(1 − z 2 )1/2 eiφ

2
2 1/2 iφ eiφ + e−iφ
= 2 i(1 − z ) e + 2iz(1 − z 2 )1/2 eiφ
2

= 2i(1 − z 2 )1/2 eiφ z + i(1 − z 2 )1/2 cos(φ) .
Assim,
Z
dk 2 k! (w 2 − 1)l
k
(z − 1)l = dw
dz 2πi C (w − z)k+1
l
Z π 2i(1 − z 2 )1/2 eiφ z + i(1 − z 2 )1/2 cos(φ)
k!
= −(1 − z 2 )1/2 k+1
eiφ dφ
2πi −π (i(1 − z 2 )1/2 eiφ )
Z π l
2 (l−k)/2 2l il−k k! 2 1/2
= (1 − z ) z + i(1 − z ) cos(φ) ei(l−k)φ dφ
2π −π
e assim,
Z
dk 2 l
l l−k
2 (l−k)/2 2 i k! π 2 1/2
l
k
(z − 1) = (1 − z ) z + i(1 − z ) cos(φ) cos (l − k)φ dφ , (8.46)
dz 2π −π
Z π
l
pois z + i(1 − z 2 )1/2 cos(φ) sen ((l − k)φ) dφ = 0, pelo fato de o integrando ser uma função
−π
ı́mpar.
Aplicando (8.46) às expressões (8.42) e (8.43) de Plm e Pl−m (adotando k = l + m e k = l − m,
respectivamente), chegamos a
Z
m i−m (l + m)! π l
Pl (z) = z + i(1 − z 2 )1/2 cos(φ) cos − mφ dφ ,
2πl! −π
Z π l
i+m (l − m)!
Pl−m (z) = z + i(1 − z 2 )1/2 cos(φ) cos + mφ dφ ,
2πl! −π
e comparando-as, extraı́mos que
(l + m)! −m
Plm (z) = (−1)m P (z) . (8.47)
(l − m)! l
Com isso, encontramos uma segunda demonstração de (8.44). As identidades acima foram provadas
para z real em −1 < z < 1, mas valem para todo z complexo com |z| < 1 (e mesmo em z = ±1), pois
lá Plm (z) e Pl−m (z) têm uma extensão analı́tica única.
Coletemos o que provamos acima. Aplicando (8.45) à definição (8.42) de P lm (z), agora para todo
m ∈ com −l ≤ m ≤ l, chegamos à expressão
Z
m (l + m)! 2 m/2 (w 2 − 1)l
Pl (z) = l+1 (1 − z ) l+m+1
dw , (8.48)
2 πi l! C (w − z)
onde C é uma curva fechada e diferenciável no plano complexo dando uma volta em torno de z no
sentido anti-horário. Essa expressão generaliza a representação de Schläfli (8.37) para os polinômios
de Legendre. Como conseqüência, estabelecemos também logo acima a representação integral
Z
m i−m (l + m)! π l
Pl (z) = z + i(1 − z 2 )1/2 cos(φ) cos mφ dφ , (8.49)
2πl! −π
válida para |z| < 1 e para todo l ∈ e todo m ∈ com −l ≤ m ≤ l.

Assim como a equação de Legendre, a equação de Legendre associada é invariante pela transformação
l → −(l + 1). Assim, vale também14
Z π
m im l! 1
Pl (z) = l+1 cos mφ dφ , (8.50)
2π(l − m)! −π 2 1/2
z + i(1 − z ) cos(φ)
onde acima usamos o fato que (l+m)!

l!
= (l + m)(l + m − 1) · · · (l + 1) é levado pela transformação
l!
l → −(l + 1) em (−1 − l + m)(−2 − l + m) · · · (−l) = (−1)m (l)(l + 1) · · · (l − m + 1) = (l−m)! .
Em aplicações é comum tomar-se z real no intervalo [−1, 1] e escrever z = cos(θ) com 0 ≤ θ ≤ π.
Com isso, as duas identidades acima ficam
Z
m i−m (l + m)! π l
Pl (cos(θ)) = cos(θ) + i sen (θ) cos(φ) cos mφ dφ , (8.51)
2πl! −π
Z π
m im l! 1
Pl (cos(θ)) = l+1 cos mφ dφ . (8.52)
2π(l − m)! −π
cos(θ) + i sen (θ) cos(φ)
Através do binômio de Newton, a primeira identidade pode ser usada para expressar P lm (cos(θ)) como
14
Esse argumento envolvendo a transformação l → −(l + 1) é ainda incompleto, mas pode-se provar que o lado direito
de (8.50) é de fato igual ao esquerdo, pois é regular e satisfaz a equação de Legendre associada. Deixamos os detalhes
como exercı́cio.
um polinômio em cos θ e sen θ:

l l−p p Z π p
i−m (l + m)! X p l
Plm (cos(θ)) = i cos(θ) sen (θ) cos(φ) cos mφ dφ ,
2πl! p=0
p −π
b l−|m|
X 2 c
−m+|m| (l + m)! (−1)q l 2q + |m| l−2q−|m| 2q+|m|
= i cos(θ) sen (θ)
2|m| l! q=0
22q 2q + |m| q
b l−|m|
X 2 c
(l + m)! (−1)q l−2q−|m| 2q+|m|
= i−m+|m| cos(θ) sen (θ) .
2|m| q=0
22q (l − 2q − |m|)! (q + |m|)! q!
(8.53)
Note que i−m+|m| = 1 se m ≥ 0 e i−m+|m| = (−1)m se m < 0, de modo que Plm (cos(θ)) é real se
0 ≤ θ ≤ π. A expressão (8.53) é por vezes utilizada na prática para expressar os harmônicos esféricos
(que definiremos abaixo) como polinômios em cos θ e sen θ. Logo adiante faremos uso da mesma no
estudo das relações de ortogonalidade das funções Plm .
• A função geratriz dos polinômios de Legendre associados
Usando (8.41), (8.35) e a identidade, válida para m ≥ 0,
dm 1 (2m)! m 1
m
(1 − 2tx + t2 )− 2 = m t (1 − 2tx + t2 )−m− 2
dx 2 m!
(prove-a!) é fácil mostrar que
∞
X m
m (2m)! (1 − x2 ) 2
Pl+m (x) tl = m , (8.54)
l=0
2 m! (1 − 2tx + t2 )m+ 21
válida para todo m ≥ 0.
A expressão (8.54) é também denominada função geratriz dos polinômios de Legendre associados.
A expressão (8.54) tem poucas aplicações diretas, mas pode ser usada para demonstrar outras relações
sobre os polinômios de Legendre associados.
• Relações de recorrência para os polinômios de Legendre associados
Os polinômios de Legendre associados satisfazem uma série de relações de recorrência. Listemos as

mais relevantes:

2mx
Plm+1 (x) = √ Pl (x) − l(l + 1) − m(m − 1) Plm−1 (x) ,
m
1−x 2
m+1
√
Pl+1 (x) = (2l + 1) 1 − x2 Plm (x) + Pl−1
m+1
(x) ,
√
(2l + 1) 1 − x2 Plm (x) = (l + m)(l + m − 1)Pl−1
m−1 m−1
(x) − (l − m + 1)(l − m + 2)Pl+1 (x) ,
(2l + 1)xPlm (x) = (l + m)Pl−1

m m
(x) + (l − m + 1)Pl+1 (x) ,
√ d
2 1 − x2 Plm (x) = Plm+1 (x) − (l + m)(l − m + 1)Plm−1 (x) .
dx
As demonstrações podem ser obtidas da seguinte forma: 1. a partir das relações de recorrência dos
polinômios de Legendre (8.30)-(8.34) com uso da definição (8.41); 2. a partir de (8.42) ou, em alguns
casos, 3. com o uso da função geratriz (8.54). Deixamos as demonstrações como exercı́cio.
E. 8.11 Exercı́cio. Prove todas as relações acima. Sugestão: tente por conta própria seguir as sugestões
do último paragrafo. Senão, consulte a literatura supracitada, mas com as seguintes precauções: a. dife-
rentes textos apresentam definições diferentes dos Plm , o que conduz a relações de recorrência distintas das
de acima; b. nem todos os livros-texto15 provam todas as relações e c. alguns contêm erros. 6
• Relações de ortogonalidade para os polinômios de Legendre associados
Obteremos agora relações de ortogonalidade para os polinômios de Legendre associados, relações

essas de grande importância na Análise Harmônica e que inspiram a definição dos chamados harmônicos
esféricos.
A equação de Legendre associada (7.135) é considerada na maioria das aplicações no intervalo
[−1, 1], como já mencionamos. A mesma, em analogia com a equação de Legendre, pode ser escrita
como
m2
((1 − x2 )y 0 (x))0 + l(l + 1)y(x) − y(x) = 0 , (8.55)
1 − x2
onde aqui já nos restringimos ao caso l ∈ , m ∈ com −l ≤ m ≤ l. Como se vê, temos aqui
p(x) = (1 − x2 ), mas podemos fazer as seguintes escolhas
m2
1) q(x) = − , r(x) = 1, µ = l(l + 1) ,
1 − x2
1
2) q(x) = l(l + 1), r(x) = , µ = −m2 .
1 − x2
Analisaremos essas duas opções em separado. O caso 1 é o mais interessante, especialmente devido a
sua aplicação para os harmônicos esféricos. O caso 2 não é de grande interesse e o leitor pode dispensar
15
Segundo o Houaiss, “livros-textos” ou “livros-texto” são dois plurais gramaticalmente corretos para “livro-texto”,
assim como “espaços-tempos” e “espaços-tempo” são plurais aceitáveis para “espaço-tempo”.
sua leitura, se o desejar16 .

Caso 1) A primeira questão que aqui se coloca é se a condição (8.6) é satisfeita para funções P lm (x) e
0
Plm
0 (x) com l ≤ l , ou seja, se
1
m m 0 m m 0
p(x) Pl (x) (Pl0 (x)) − Pl0 (x) (Pl (x)) = 0, (8.56)
−1
0
com l ≤ l . A maneira mais fácil de discutir isso é escrever x = cos(θ) e, como
d m 1 d m
Pl0 (x) = − P 0 (cos θ),
dx sen (θ) dθ l
e p(x) = sen (θ)2 , (8.56) fica
d d m θ=π

sen (θ) Plm (cos θ) Plm
0 (cos θ) − P m
l0 (cos θ) P l (cos θ) . (8.57)
dθ dθ θ=0
d
Agora, por (8.53), Plm (cos θ) é um polinômio trigonométrico, e assim o é também dθ Plm (cos θ). Logo,
ambos são finitos em θ = 0 e θ = π. Como, porém, sen θ anula-se nesses extremos, concluı́mos que
(8.57) é nula, confirmando a validade de (8.6) no caso em questão. Concluı́mos assim, pelo Teorema
8.1, página 428, que deve valer Z 1
Plm (x) Plm
0 (x) dx = 0 (8.58)
−1
sempre que l 6= l0 .
R1
Interessamo-nos agora pelo caso l 0 = l. Caso l = l0 = 0 vale P00 (x) = 1 e −1 (P00 )2 dx = 2. Para
R1
calcular −1 (Plm (x))2 dx com l > 0 podemos proceder de diferentes maneiras, a mais direta sendo a
seguinte. Usando (8.44) e as expressões (8.42) e (8.43) para Plm e Pl−m , respectivamente, escrevemos
Z 1 Z 1
m (l + m)!
m m
Pl (x) Pl (x) dx = (−1) Plm (x)Pl−m (x) dx
−1 (l − m)! −1
Z 1
(−1)m (l + m)! dl+m 2 dl−m 2
= (x − 1)l l
(x − 1) dx
22l (l!)2 (l − m)! −1 dxl+m dxl−m
Z 1
int. por partes l−m vezes (−1)l (l + m)! d2l 2
= (x − 1) (x2 − 1)l dx
l
22l (l!)2 (l − m)! −1 dx2l
Z 1
(2l)! (l + m)!
= (1 − x2 )l dx
2 (l!)2 (l − m)!
2l
−1

(2l)! (l + m)! 2 (2l)!!
=
2 (l!)2 (l − m)!
2l (2l + 1)!!
2 (l + m)!
= .
2l + 1 (l − m)!
16
O caso 2 é um tanto patológico (pois a função r(x) diverge em ±1 e não é integrável) e é evitado por quase todos os
livros-texto.
Na terceira linha aplicamos integração por partes l − m vezes. Isso é justificado pois, como facilmente
dp 2 l 2 l−p
se vê por indução, derivadas como dx p (x − 1) , com 0 ≤ p < l são proporcionais a (x − 1) e, por
(2l)! (2l)!!
isso, os termos de fronteira se anulam. Na última passagem usamos o fato que (2l+1)!! = 2l+1 e o fato
que (2l)!! = 2l l!. Na penúltima passagem usamos a identidade
Z 1
(2l)!!
(1 − x2 )l dx = 2 , (8.59)
−1 (2l + 1)!!
R1
a qual pode ser provada da seguinte forma. Seja Al := −1 (1 − x2 )l dx. Então, para l > 0,
Z 1 Z 1
2 l dx
Al := (1 − x ) dx = (1 − x2 )l dx
−1 −1 dx
1 Z 1
int. por partes 2 l
= x(1 − x ) +2l x2 (1 − x2 )l−1 dx = −2lAl + 2lAl−1 .
−1
| {z } −1
=0
2l
Assim, Al = A
2l+1 l−1
e como A0 = 2, segue (8.59).
Demonstramos, assim, as relações de ortogonalidade
Z 1
2 (l + m)!
Plm (x) Plm0 (x) dx = δl, l0 , (8.60)
−1 2l + 1 (l − m)!
válidas para todo l, l0 ∈ e m, m0 ∈ com −l ≤ m ≤ l e −l0 ≤ m0 ≤ l0 . É por vezes útil expressar

essas relações com a mudança de variáveis x = cos θ:

Z π
2 (l + m)!
Plm (cos θ) Plm
0 (cos θ) sen θ dθ = δl, l0 . (8.61)
0 2l + 1 (l − m)!
Essa forma das relações de ortogonalidade dos polinômios de Legendre associados será particularmente
relevante para os harmônicos esféricos, como veremos adiante.
Caso 2) A primeira questão que aqui se coloca é se a condição (8.6) é satisfeita para funções P lm (x) e
0
Plm (x), com |m| 6= |m0 | (lembre-se o leitor que µ = −m2 e, portanto µ 6= µ0 equivale a |m| 6= |m0 |), ou
seja, se 0 0 1
m m m0 m 0
p(x) Pl (x) Pl (x) − Pl (x) (Pl (x)) = 0. (8.62)
−1
0
sempre que |m| 6= |m |. A mesma análise feita para o caso 1 mostra que isso é verdadeiro, confirmando
a validade de (8.6) no caso em questão. Concluı́mos assim, pelo Teorema 8.1, página 428, que deve
valer
Z 1 Z π
m m0 1 0 1
Pl (x) Pl (x) 2
dx = 0, ou seja, Plm (cos θ) Plm (cos θ) dθ = 0, (8.63)
−1 1−x 0 sen (θ)
sempre que |m| 6= |m0 |. A expressão (8.53) ensina-nos que Plm (cos θ) é proporcional a ( sen θ)|m| . Logo,
0
como |m| 6= |m0 |, sempre haverá no produto Plm (cos θ)Plm (cos θ) pelo menos um fator sen θ para
compensar o sen1 θ , o que mostra que o integrando em (8.63) é limitado. O caso |m0 | = |m| é um tanto
patológico (a integral diverge se m = m0 = 0), difı́cil de demonstrar e sem conseqüências práticas
relevantes, de modo que nos limitamos a apresentar o resultado final17 :

 0, se |m0 | 6= |m|,







 ∞, se m0 = m = 0,
Z 1 

1 
m m0
Pl (x) Pl (x) dx = (−1)m (8.64)
−1 1 − x2 
 , se − m0 = m > 0,

 m





 1 (l + m)!

 , se m0 = m > 0.
m (l − m)!
Note o leitor que a condição m > 0 só pode ocorrer se l > 0.
Como já dissemos, as relações (8.64) são menos importantes na prática que as de (8.60). Essas
inspiram uma definição importante: a dos harmônicos esféricos.
• Os Harmônicos Esféricos
No espaço n , n ≥ 2, o conjunto de pontos que distam de uma unidade da origem formam a assim

chamada esfera unitária18 , denotada por S n−1 :

n o
S n−1 := (x1 , . . . , xn ) ∈ n (x1 )2 + · · · + (xn )2 = 1 .

O conjunto S 1 é o cı́rculo unitário e seus pontos podem ser descritos por um único ângulo ϕ com
−π ≤ ϕ ≤ π: n o

S 1 := cos ϕ, sen ϕ ∈ 2 , −π ≤ ϕ ≤ π .

Como se vê, os pontos correspondentes a ϕ = ±π são identificados. O conjunto S 2 é a esfera unitária

e seus pontos podem ser descritos por dois ângulos: ϕ e θ, com −π ≤ ϕ ≤ π e 0 ≤ θ ≤ π:
n o
S 2 := sen (θ) cos(ϕ), sen (θ) sen ϕ, cos(θ) ∈ 3 , −π ≤ ϕ ≤ π, 0 ≤ θ ≤ π .

Novamente, os pontos correspondentes a ϕ = ±π são identificados e para os pontos correspondentes a

θ = 0 e θ = π o ângulo ϕ é indeterminado.
Os chamados Harmônicos Esféricos são as funções definidas por
s
2l + 1 (l − m)! m
Ylm (θ, ϕ) := (−1)m P (cos(θ)) eimϕ , (8.65)
4π (l + m)! l
onde 0 ≤ θ ≤ π, −π ≤ ϕ ≤ π, l ∈ em∈ com −l ≤ m ≤ l. Note-se que

r
2l + 1
Yl0 (θ, ϕ) = Pl (cos(θ)) ,
4π
17
Para uma referência mais detalhada, vide [86], pag. 74.
18
Há aqui um abuso de linguagem, pois S n−1 é, estritamente falando, a superfı́cie da esfera.
onde Pl são os polinômios de Legendre.

Mais uma vez o leitor deve ser advertido da existência de outras convenções sobre a definição dos
harmônicos esféricos (alguns autores substituem o fator (−1)m por im ).
Os harmônicos esféricos são solução da equação diferencial parcial

1 ∂ ∂Y m2 ∂ 2 Y
( sen θ) (θ, ϕ) − (θ, ϕ) + l(l + 1)Y (θ, ϕ) = 0 ,
sen θ ∂θ ∂θ ( sen θ)2 ∂ϕ2
que é encontrada quando da resolução da equação de Helmholtz ou de Laplace em três dimensões
em coordenadas esféricas, assim como no problema do átomo de hidrogênio na Mecânica Quântica ou
qualquer outro problema quântico em três dimensões no qual o potencial seja esfericamente simétrico.
Vide equação (8.194) e seguintes.
É um exercı́cio relevante verificar que, devido à relação (8.44), tem-se, com a definição acima,
Yl−m (θ, ϕ) = (−1)m Ylm (θ, ϕ) . (8.66)
No cı́rculo unitário S 1 valem as bem-conhecidas relações de ortogonalidade

Z Z π
em0 em dl = em0 (ϕ) em (ϕ) dϕ = δm, m0 (8.67)
S1 −π
onde, para m ∈ ,
1
em (ϕ) := √ eimϕ , −π ≤ ϕ ≤ π,
2π
dl = dϕ sendo a medida de comprimento do cı́rculo unitário S 1 . Usando as relações de ortogonalidade
(8.67) e as relações de ortogonalidade (8.61), é fácil constatar que
Z Z πZ π
m0 m 0 m
Yl0 Yl dΩ = Ylm
0 (θ, ϕ) Yl (θ, ϕ) sen (θ) dθ dϕ = δm, m0 δl, l0 (8.68)
S2 −π 0
para todos l, l0 ∈ e todos m, m0 ∈ com −l0 ≤ m0 ≤ l0 e −l ≤ m ≤ l, onde dΩ = sen (θ) dθ dϕ é a

medida de área na esfera unitária S 2 em coordenada polares. Essas são as relações de ortogonalidade dos
harmônicos esféricos, as quais desempenham um relevante papel na resolução de problemas envolvendo
certas equações diferenciais parciais em três dimensões que tenham simetria esférica. Os harmônicos
esféricos surgem na importante solução de um problema fundamental da Mecânica Quântica, o problema
do átomo de hidrogênio. As formas dos orbitais eletrônicos, de importância fundamental no estudo de
átomos e moléculas e suas ligações quı́micas, estão intimamente relacionadas às funções Y lm (θ, ϕ) e
aos polinômios de Laguerre associados.
Como se percebe da comparação de (8.67) com (8.68), os harmônicos esféricos desempenham na
esfera unitária S 2 o mesmo papel que as funções em desempenham no cı́rculo S 1 : formam um conjunto
ortonormal em relação à medida de área dΩ = sen (θ) dθ dϕ. Assim como as funções e m formam um
conjunto ortonormal completo para as funções definidas em S 1 , o que nos permite expressar funções
f (ϕ), periódicas de perı́odo 2π, contı́nuas por partes ou apenas de quadrado integrável, em termos de
uma série de Fourier:
∞
X Z π
f (ϕ) = cm em (ϕ) com cm := em (ϕ) f (ϕ) dϕ ,
m=−∞ −π
os harmônicos esféricos também formam um conjunto ortonormal completo para as funções definidas
em S 2 . Assim, em um sentido a ser precisado, todas as funções f (θ, ϕ) definidas em S 2 , e que sejam
contı́nuas por partes ou apenas de quadrado integrável, podem ser escritas em termos de uma série
envolvendo harmônicos esféricos. Essa série é dada por
∞ X
X l Z π Z π
m
f (θ, ϕ) = cl, m Yl (θ, ϕ), com cl, m := Ylm (θ, ϕ) f (θ, ϕ) sen (θ) dθ dϕ ,
l=0 m=−l −π 0
e é uma espécie de generalização para a esfera S 2 da série de Fourier. Essas considerações justificam a
denominação de “harmônicos esféricos” para as funções Ylm .
Os harmônicos esféricos também desempenham um papel na teoria de representações do grupo
SO(3). Há também generalizações dos harmônicos esféricos para as esferas S n com n ≥ 3. Essas
generalizações são estudadas, por exemplo, em [64].
8.2.3 Propriedades dos Polinômios de Hermite
• Relações de ortogonalidade para os polinômios de Hermite

0
2 2
A equação de Hermite e−x y 0 (x) + λe−x y(x) = 0 é tipicamente considerada no intervalo J =
2 2
(−∞, ∞). Aqui p(x) = e−x , q(x) = 0, r(x) = e−x e µ = λ. Note que p(x) > 0 e r(x) > 0 em todo
J = (−∞, ∞). Os polinômios de Hermite Hm (x) foram definidos em (7.20) por
bm/2c
X (−1)k m!
Hm (x) := (2x)m−2k . (8.69)
k=0
k! (m − 2k)!
onde bm/2c é o maior inteiro menor ou igual a m/2, e são soluções da equação de Hermite com µ = 2m.
Como p(x) decai a zero para x → ±∞ e os Hm (x) são polinômios, vale para os polinômios de
Hermite a relação (8.6) e concluı́mos pelo Teorema 8.1 que
Z ∞
2
Hn (x)Hm (x) e−x dx = 0 (8.70)
−∞
para todo n 6= m, com m, n = 0, 1, 2, 3, . . .. Para calcular as integrais acima no caso n = m,

podemos elegantemente usar as relações
Hn+1 (x) = 2xHn (x) − 2nHn−1 (x) , (8.71)

R∞ 2
as quais serão provadas mais abaixo (expressão (8.78)). Seja An := −∞
(Hn (x))2 e−x dx. Tem-se que
Z ∞
2
2nAn−1 = (2nHn−1 (x)) Hn−1 (x) e−x dx
−∞
Z ∞ Z ∞
(8.71) −x2 2
= (2xHn (x)) Hn−1 (x) e dx − Hn+1 (x) Hn−1 (x) e−x dx
−∞
| −∞ {z }
= 0 por (8.70)
Z ∞
2
= Hn (x) (2xHn−1 (x)) e−x dx
−∞
Z ∞ Z ∞
(8.71) −x2 2
= Hn (x) Hn (x) e dx + (2n − 2) Hn (x) Hn−2 (x) e−x dx
−∞
| −∞ {z }
= 0 por (8.70)
= An .
R∞ 2 √
Logo, An = (2n)An−1 , ou seja, An = (2n)!! A0 = 2n n! A0 . Como A0 = −∞ e−x dx = π, concluı́mos
que Z ∞
2 √
Hn (x)Hm (x) e−x dx = 2n n! π δn, m , (8.72)
−∞
para todo m, n ≥ 0. Estas são as relações de ortogonalidade dos polinômios de Hermite.
• A função geratriz exponencial dos polinômios de Hermite
Vamos aqui considerar a função geratriz exponencial dos polinômios de Hermite e provar que
∞
X Hn (x) 2
tn = e2xt−t . (8.73)
n=0
n!
Usando-se diretamente (8.69) e separando-se na soma n’s pares de n’s ı́mpares, segue que
X∞ X∞ ∞
Hn (x) n H2m (x) 2m X H2m+1 (x) 2m+1
t = t + t
n=0
n! m=0
(2m)! m=0
(2m + 1)!
∞ X
X m ∞ X
X m
(−1)k (2x)2m−2k t2m (−1)k (2x)2m+1−2k t2m+1
= +
m=0 k=0
k! (2m − 2k)! m=0 k=0
k! (2m + 1 − 2k)!
X∞ X ∞ ∞ ∞
(−1)k (2x)2m−2k t2m X X (−1)k (2x)2m+1−2k t2m+1
= +
k=0 m=k
k! (2m − 2k)! k=0 m=k
k! (2m + 1 − 2k)!
X∞ X ∞ ∞ ∞
m→m+k (−1)k (2x)2m t2m+2k X X (−1)k (2x)2m+1 t2m+1+2k
= +
k=0 m=0
k! (2m)! k=0 m=0
k! (2m + 1)!
∞
! ∞
! ∞
! ∞
!
X (−1)k t2k X (2xt)2m X (−1)k t2k X (2xt)2m+1
= +
k=0
k! m=0
(2m)! k=0
k! m=0
(2m + 1)!
∞
!
X (2xt)n
−t2
= e
n=0
n!
2
= e2xt−t ,
• Fórmula de Rodrigues para os polinômios de Hermite
Pelas nossas considerações gerais sobre as fórmulas de Rodrigues, podemos presumir que os po-
linômios Hm , por serem ortogonais entre si (vide (8.70)), possam ser expressos na forma (8.17) com
2
r(x) = e−x , ou seja,
n
2 d 2
Hn (x) = Kn ex n
e−x ,
dx
onde Km são constantes que dependem da normalização adotada. De fato, essa pressuposição é correta
2
pois, multiplicando (8.73) por e−x , obtem-se
X∞ 2
−(x−t)2 Hm (x)e−x m
e = t . (8.74)
m=0
m!
Encarando o lado direito como a expansão em série de Taylor em t, em torno de t = 0, da função do
lado esquerdo, concluı́mos que
2 d n
−(x−t)
2
Hn (x)e−x = e ,
dtn t=0
d d
para todo n ≥ 0. Com a mudança de variável u = x − t, dt
= − du , ficamos com

−x2 n d
n
−u2 dn −x2
Hn (x)e = (−1) e = (−1)n e .
dun u=x dxn
Assim,
dn −x2 2
Hn (x) = (−1)n ex e , (8.75)
dxn
para todo n ≥ 0. Essa é a fórmula de Rodrigues dos polinômios de Hermite.
• Relações de recorrência para os polinômios de Hermite
Tomando-se a derivada em x de (8.75), é elementar constatar que

Hn0 (x) = 2xHn (x) − Hn+1 (x) . (8.76)
Ao mesmo tempo,
dn+1 −x2
2
Hn+1 (x) = (−1)n+1 ex e
dxn+1
n

x2 d d −x2
= (−1)n+1 e e
dxn dx
dn −x2
2
= 2(−1)n ex xe
dxn
X n p n−p
Leibniz n x2 n d d −x2
= 2(−1) e x e
p=0
p dxp dxn−p

n x2 dn −x2 dn−1 −x2
= 2(−1) e x n e + n n−1 e
dx dx
= 2xHn (x) − 2nHn−1 (x) .

Assim, Hn+1 (x) = 2xHn (x)−2nHn−1 (x). Note que, como H0 (x) = 1 e H1 (x) = 2x, essa identidade vale
também para n = 0, convencionando que H−1 (0) ≡ 0. Reunindo isso com (8.76), somos conduzidos a
Hn0 (x) = 2nHn−1 (x), n ≥ 0. Resumindo, obtemos as seguintes relações:
Hn0 (x) = 2xHn (x) − Hn+1 (x) , (8.77)
Hn+1 (x) = 2xHn (x) − 2nHn−1 (x) , (8.78)
Hn0 (x) = 2nHn−1 (x) , (8.79)

válidas para todo n ≥ 0 com a convenção H−1 (0) ≡ 0. Estas expressões são bastante úteis. A relação
(8.78), por exemplo, permite obter recursivamente todos os Hn ’s a partir de H0 (x) = 1 e H1 (x) = 2x.
Em livros de Mecânica Quântica o estudante poderá aprender que algumas das propriedades dos
polinômios de Hermite que obtivemos acima podem ser provadas com o uso dos chamados operadores
de criação e aniquilação.
8.2.4 Propriedades dos Polinômios de Laguerre
• Relações de ortogonalidade para os polinômios de Laguerre

0
A equação de Laguerre (xe−x y 0 (x)) + λe−x y(x) = 0 é tipicamente considerada no intervalo J =
[0, ∞). Para ela tem-se p(x) = xe−x , q(x) = 0, r(x) = e−x e µ = λ. Note que p(x) > 0 em J 0 = (0, ∞),
e anula-se em x = 0 e no infinito. Além disso, r(x) > 0 em todo J = [0, ∞). Os polinômios de Laguerre
foram definidos em (7.121) por
X m
n m! m
Lm (x) := (−1) xn (8.80)
n=0
n! n
e representam soluções da equação de Laguerre em J = [0, ∞) para µ = m. É bastante claro que para
os polinômios de Laguerre vale a condição (8.6) e, portanto, pelo Teorema 8.1, segue que
Z ∞
Ln (x)Lm (x) e−x dx = 0 (8.81)
0
para todo n 6= m, com m, n = 0, 1, 2, 3, . . .. Notemos também aqui que (8.81) implica

Z ∞
xk Lm (x) e−x dx = 0 (8.82)
0
para todo k < m, pois os monômios xk podem ser escritos como combinações lineares dos polinômios
Ln ’s com n < m. Para calcular as integrais de (8.81) no caso m = n podemos fazer uso da identidade
L0n+1 (x) = (n + 1)L0n (x) − (n + 1)Ln (x) , (8.83)
que será demonstrada mais abaixo (expressão (8.87)). Com ela, vê-se que
Z ∞ Z ∞
2 −x
(n + 1) Ln (x) e dx = Ln (x) (n + 1)Ln (x) e−x dx
0 0
Z ∞ Z ∞
(8.83)
= (n + 1) Ln (x)L0n (x) e −x
dx − Ln (x)L0n+1 (x) e−x dx
|0 {z 0
}
= 0 por (8.82)
∞ Z ∞
int. por partes −x
= −Ln (x)Ln+1 (x)e + L0n (x)Ln+1 (x) e−x dx
0
|0 {z }
= 0 por (8.82)
Z ∞
− Ln (x)Ln+1 (x) e−x dx
|0 {z }
= 0 por (8.81)
(8.80)
= Ln (0)Ln+1 (0) = (n + 1)(n!)2 .
Concluı́mos assim que Z ∞

Ln (x)Lm (x) e−x dx = (n!)2 δn, m (8.84)
0
para todos n, m ≥ 0. Estas são as relações de ortogonalidade para os polinômios de Laguerre.
• Fórmula de Rodrigues para os polinômios de Laguerre
Pela ortogonalidade dos polinômios de Laguerre (8.81), podemos presumir, sob a luz das consi-
derações da Seção 8.1.3, página 430, que os polinômios de Laguerre satisfazem, por (8.15), uma relação
como
1 dm m

x d
m
m −x

Lm (x) := Km r(x) x = K m e x e , (8.85)
r(x) dxm dxm
onde Km é uma constante dependente da normalização adotada. De fato, pela regra de Leibniz,
m Xm m−p p
x d m −x x m d m d −x
e x e = e x e
dxm p=0
p dxm−p dxp
Xm
p m m! p (8.80)
= (−1) x = Lm (x) .
p=0
p p!
Assim, Km = 1 e concluı́mos que

dm m −x
Lm (x) = ex x e , (8.86)
dxm
para todo m ≥ 0. Esta é a fórmula de Rodrigues para os polinômios de Laguerre.
• Relações de recorrência para os polinômios de Laguerre
Por (8.86), é elementar constatar que
dm+1 m+1 −x x d
m+1
d m+1 −x
L0m+1 (x) = ex x e + e x e
dxm+1 dxm+1 dx
dm+1 m −x x d
m+1
m+1 −x

= Lm+1 (x) + (m + 1)ex x e − e x e
dxm+1 dxm+1
(8.86) dm+1 m −x d dm m −x
= (m + 1)ex x e = (m + 1)ex x e
dxm+1 dx dxm

x d −x
= (m + 1)e e Lm (x)
dx
= −(m + 1)Lm (x) + (m + 1)L0m (x) .
Estabelecemos assim que
L0m+1 (x) = (m + 1)L0m (x) − (m + 1)Lm (x) , (8.87)

m ≥ 0. Essa é uma das fórmulas de recorrência para os polinômios de Laguerre, a qual empregamos
acima para provar as relações de ortogonalidade (8.84) no caso m = n. Há uma segunda, da qual
trataremos agora. Pela fórmula de Rodrigues vale
(8.86) dm dm
Lm (x) = ex m xm e−x = ex m x xm−1 e−x
dx dx
Xm p
Leibniz x m d dm−p m−1 −x

= e x x e
p=0
p dxp dxm−p
x dm m−1 −x
x d
m−1
m−1 −x

= e x m x e + me x e
dx dxm−1
d −x
= ex x e Lm−1 (x) + mLm−1 (x)
dx
= −xLm−1 (x) + xL0m−1 (x) + mLm−1 (x) .
Estabelecemos que
Lm (x) = −xLm−1 (x) + xL0m−1 (x) + mLm−1 (x) (8.88)
o que também implica (fazendo m → m + 1)
Lm+1 (x) = −xLm (x) + xL0m (x) + (m + 1)Lm (x) . (8.89)
Multiplicando ambos os lados de (8.88) por −m e somando o resultado a (8.89), teremos:
Lm+1 (x) − mLm (x) = −xLm (x) + xL0m (x) + (m + 1)Lm (x) + mxLm−1 (x) − mxL0m−1 (x) − m2 Lm−1 (x) .
(8.90)
(8.87)
Por (8.87), os termos xL0m (x) − mxL0m−1 (x) valem x(L0m (x) − mL0m−1 (x)) = −mxLm−1 (x). Introdu-
zindo isso de volta a (8.90), inferimos que
Lm+1 (x) = (2m − x + 1)Lm (x) − m2 Lm−1 (x) .
Resumindo nossas conclusões, estabelecemos as seguintes relações:

L0m+1 (x) = (m + 1)L0m (x) − (m + 1)Lm (x) , (8.91)
Lm+1 (x) = (2m − x + 1)Lm (x) − m2 Lm−1 (x) . (8.92)

Essas relações são denominadas fórmulas de recorrência para os polinômios de Laguerre. A relação
(8.92), em particular, permite obter recursivamente todos os Lm (x)’s a partir de L0 (x) = 1 e L1 (x) =
1 − x.
• A função geratriz exponencial dos polinômios de Laguerre
Partindo de (8.80) obtemos para a função geratriz exponencial dos polinômios de Laguerre
X∞
Lm (x) m
L(x, t) := t
m=0
m!
o seguinte desenvolvimento19 :
∞ X
X m
1 n m
L(x, t) = (−1) xn t m
m=0 n=0
n! n
∞ X
X ∞
1 n m
= (−1) xn t m
n=0 m=n
n! n
∞ ∞
!
X xn X m
= (−1)n tm . (8.93)
n=0
n! m=n
n
Agora,
∞
X ∞
m m m→m+n tn X (m + n)! m
t = t
m=n
n n! m=0 m!
∞ ∞
!
tn X dn m+n tn d n X
= t = tn tm
n! m=0 dtn n! dtn m=0

tn d n tn
=
n! dtn 1−t
n p n−p
Leibniz tn X n d n d −1
= t (1 − t)
n! p=0 p dtp dtn−p
n
tn X n n! n−p (n − p)!
= t
n! p=0 p (n − p)! (1 − t)n−p+1
n n−p n
tn X n t tn t tn
= = 1+ = .
1 − t p=0 p 1−t 1−t 1−t (1 − t)n+1
Retornando com isso a (8.93), temos

∞ n
1 X (−1)n xt
L(x, t) = ,
1 − t n=0 n! 1−t
e assim concluı́mos que

xt
exp −
1−t
L(x, t) = . (8.94)
1−t
Essa é a função geratriz exponencial dos polinômios de Laguerre.
19
Assumimos |t| e |x| pequenos o suficiente para justificar as diversas manipulações que faremos.
8.2.5 Propriedades dos Polinômios de Laguerre Associados

A equação de Laguerre associada
xy 00 + (m + 1 − x)y 0 + (n − m)y = 0 , (8.95)
com m e n inteiros com 0 ≤ m ≤ n, é tipicamente considerada no intervalo J = [0, ∞). A mesma

pode ser ser levada à forma canônica (8.1), transformando-se em
(xm+1 e−x y 0 (x))0 + (n − m)xm e−x y(x) = 0 .
Tem-se, portanto, p(x) = xm+1 e−x , q(x) = 0, r(x) = xm e−x e µ = n − m. Uma alternativa talvez
melhor é tomar-se p(x) = xm+1 e−x , q(x) = −mxm e−x , r(x) = xm e−x e µ = n. Note-se que p(x) e r(x)
são os mesmos em ambas as escolhas.
Os polinômios de Laguerre associados foram definidos em (7.144) e expressões seguintes por 20
n−m
X
dm dm dn n −x n k n!
Ln(m) (x) = L n (x) = x
e (x e ) = (−1) (−1)m
xk , (8.96)
dxm dxm dxn k=0
k! m + k
(m)
com 0 ≤ m ≤ n. O polinômio Ln é a única solução de (8.95) que é regular em x = 0.
E. 8.12 Exercı́cio. Mostre que

(−1)m n! x −m dn−m n −x

Ln(m) (x) = e x x e .
(n − m)! dxn−m
6
(m)
É bastante elementar constatar que, com m fixo, as funções Ln com n ≥ m satisfazem (8.6) para
o intervalo J = [0, ∞). Assim, vale que
Z ∞
(m)
Ln(m) (x) Ln0 (x) xm e−x dx = 0 (8.97)
0
sempre que n 6= n0 . Para calcular a integral acima no caso n0 = n fazemos uso da relação (8.104),
que será demonstrada logo adiante. Tomando (8.104), substituindo n → n − 1 e multiplicando-a por
(m)
n−1 Ln (x), obtemos
(n − m) (m) 2 (m) (m)

Ln (x) = (2n − m − x − 1)Ln−1 (x)Ln(m) (x) − (n − 1)2 Ln−2 (x)Ln(m) (x) .
n
(m)
Tomando (8.104) e multiplicando-a por (n + 1)−1 Ln−1 (x), obtemos
(n + 1 − m) (m) 2
(m) (m) (m)
Ln+1 (x)Ln−1 (x) = (2n − m − x + 1)Ln(m) (x)Ln−1 (x) − n2 Ln−1 (x) .
n+1
20
Mais uma vez advertimos o leitor do fato de haver várias convenções distintas quanto à definição dos polinômios de
Laguerre associados na literatura. Para comparação, polinômios de Laguerre associados definidos em [79], que denotamos
(m) (−1)m (m)
aqui por L Lm m
n (x), diferem dos nossos Ln (x) da seguinte forma: L Ln (x) = (n+m)! Ln+m (x).
Subtraindo uma expressão da outra, obtemos
(n − m) (m) 2 (n + 1 − m) (m) (m)

Ln (x) − Ln+1 (x)Ln−1 (x)
n n+1
2
(m) (m) (m)
= −2Ln−1 (x)Ln(m) (x) − (n − 1) 2
Ln−2 (x)Ln(m) (x) +n 2
Ln−1 (x) .
Multiplicando agora esta expressão por xm e−x , integrando entre 0 e ∞ e usando (8.97), ficamos com
Z ∞ 2 Z ∞ 2
m −x n3 (m)
(m)
Ln (x) x e dx = Ln−1 (x) xm e−x dx .
0 (n − m) 0
A indução pode ser feita diminuindo n até atingir o valor m, de onde extraı́mos que
Z ∞ 2 Z ∞ 2
m −x (n!)3
(m)
Ln (x) x e dx = 3 (n − m)!
L (m)
m (x) xm e−x dx .
0 (m!) 0
(m) R∞
Pela última igualdade em (8.96), tem-se Lm (x) = (−1)m m!. Ao mesmo tempo, 0 xm e−x dx = m!.
Assim, Z ∞ 2 (n!)3
Ln(m) (x) xm e−x dx = .
0 (n − m)!
Essa expressão pressupõe, naturalmente, 0 ≤ m ≤ n.
Concluı́mos assim que com nossas definições
Z ∞
(m) (n!)3
Ln(m) (x) Ln0 (x) xm e−x dx = δn, n0 . (8.98)
0 (n − m)!
Essas são as relações de ortogonalidade dos polinômios de Laguerre associados.
Comentário para o leitor mais avançado. Ao contrário da lenda, as relações de ortogonalidade (8.98)
não são as relações de ortogonalidade da parte radial das auto-funções de energia do átomo de hi-
drogênio. Os polinômios de Laguerre associados possuem um outro tipo de relação de ortogonalidade,
a saber, Z ∞
ρ ρ 0”
2 p2l+4 ((p + l)!)3
“
(2l+1) (2l+1) − ρ2 p+p 0 2l+2
Lp0 +l L p+l e pp ρ dρ = δ p, p 0 . (8.99)
0 p0 p (p − l − 1)!
válida para todo p, p0 inteiros positivos (não-nulos), as quais discutiremos na Seção 8.3.7, página 507.
Lamentavelmente, poucos livros-texto de Mecânica Quântica discutem esse ponto quando tratam do
átomo de hidrogênio. Uma exceção, um tanto surpreendentemente, é [4].
• Uma conseqüência de (8.98) empregada no estudo do átomo de hidrogênio
As relações (8.98) implicam um resultado que é usado no contexto do átomo de hidrogênio. Trata-se
do seguinte: no caso n = n0 (8.98) diz-nos que
Z ∞
(m)
2 m −x (n!)3
Ln (x) x e dx = .
0 (n − m)!
No problema do átomo de hidrogênio surge a necessidade de se determinar a integral

Z ∞
2 m+1 −x
Ln(m) (x) x e dx (8.100)
0
que difere da anterior pois o fator xm é substituı́do por xm+1 . Essa última integral pode ser calculada
empregando-se a relação
(n + 1 − m) (m) (m)
xLn(m) (x) = − Ln+1 (x) + (2n − m + 1)Ln(m) (x) − n2 Ln−1 (x) ,
n+1
que será provada logo abaixo (expressão (8.104)). Inserindo-a em (8.100) e usando as relações de
ortogonalidade (8.98), obtem-se facilmente
Z ∞
2 m+1 −x (n!)3
Ln(m) (x) x e dx = (2n − m + 1) . (8.101)
0 (n − m)!
Essa expressão será usada quando da normalização das auto-funções de energia do átomo de hidrogênio.
• Relações de recorrência para os polinômios de Laguerre associados

(m)
Se explorarmos a primeira igualdade em (8.96), que define os polinômios Ln , algumas fórmulas
de recorrência para os polinômios de Laguerre associados podem ser obtidas diretamente daquelas dos
polinômios de Laguerre listadas em (8.91)-(8.92) simplesmente diferenciando-as m vezes em relação a
x. Como facilmente se constata, obtem-se
(m+1)
Ln+1 (x) = (n + 1)Ln(m+1) (x) − (n + 1)Ln(m) (x) , (8.102)
(m) (m)
Ln+1 (x) = (2n − x + 1)Ln(m) (x) − mL(m−1)
n (x) − n2 Ln−1 (x) , (8.103)
(m) 0 (m+1)
onde, em (8.102), usamos o fato evidente que Ll (x) = Ll (x).
(m−1) 1 (m) (m)
Tomando (8.102) e trocando m → m − 1, obtem-se Ln (x) = − (n+1) Ln+1 (x) + Ln (x). Inserindo
isso em (8.103), obtem-se
(m) (m)
(n + 1 − m)Ln+1 (x) = (n + 1)(2n − m − x + 1)Ln(m) (x) − n2 (n + 1)Ln−1 (x) . (8.104)
Essas relações são denominadas fórmulas de recorrência para os polinômios de Laguerre associados.
• A função geratriz exponencial dos polinômios de Laguerre associados
A partir da definição (8.96) e de (8.94) é elementar constatar que a função geratriz exponencial dos
polinômios de Laguerre associados é dada por
X∞ (m)
Ll (x) l (−1)m tm xt
Las. (x, t) := t = m+1
exp − . (8.105)
l=m
l! (1 − t) 1 − t
dm
A soma acima começa com l = m pois L (x)
dxm l
= 0 caso m > l.
• A equação de Laguerre generalizada
A assim denominada equação de Laguerre generalizada é a equação diferencial
zy 00 (z) + (α + 1 − z)y 0 (z) + ny(z) .
com n ∈ e α > −1, real. Trata-se de uma variante da equação de Laguerre associada, pois α aqui
não é necessariamente um inteiro.
E. 8.13 Exercı́cio. Mostre que essa equação tem uma solução da forma de um polinômio
n
X
n Γ(n + α + 1) k
Lαn (z) := (−1) k
z .
k=0
k Γ(k + α + 1)

dn n+α −x
Lαn (x) = ex x−α x e ,
dxn
x > 0. 6

Z ∞
Lαn (x)Lαm (x) xα e−x dx = 0
0
se m 6= n. Calcule a integral no caso m = n. 6
E. 8.16 Exercı́cio. Para α = m, inteiro, mostre que
(n − m)! (m)
Lαn (x) = (−1)m Ln (x) .
n!
6
8.2.6 Propriedades das Funções de Bessel

Na presente seção apresentaremos algumas das propriedades mais importantes e mais empregadas das
funções de Bessel, especialmente as de ordem inteira. Devido à sua importância em um sem-número de
problemas aplicados, as funções de Bessel e de Neumann têm sido intensamente estudadas nos últimos
duzentos anos e foi coletado um enorme conjunto de informações sobre as mesmas, gerando uma vasta
literatura. Por isso, nossas pretensões aqui são relativamente modestas. Um texto clássico sobre o
assunto é [125]. Outros excelentes são [130], [64] e [79], mas todas as referências listadas à página 356
tratam do assunto com maior ou menor grau de profundidade.
No estudo das propriedades das funções de Bessel Jν (x) procederemos de um modo ligeiramente
diferente do que fizemos acima. Isso se dá por várias razões. Uma delas é que as funções de Bessel não
são polinômios, ao contrário dos casos de acima. Outra é a natureza das relações de ortogonalidade
dessas funções.
• Origens
As funções de Bessel surgem em vários problemas da Fı́sica-Matemática, especialmente envolvendo a

resolução de certas equações diferenciais em coordenadas cilı́ndricas. O mais célebre desses problemas é
aquele que estuda as vibrações de uma membrana circular (um tambor), problema encontrado em vários
livros-texto e que estudamos na Seção 8.3.5, página 503. Esse problema foi tratado pela primeira vez
por Euler21 em 1764, antecedendo a Bessel. Em verdade, certas funções de Bessel surgiram antes ainda,
em 1703, na resolução da chamada equação de Riccati22 por Jacob Bernoulli23 (vide nota histórica à
página 265) e em 1732, em trabalhos de Daniel Bernoulli24 sobre o problema da corda vibrante e suas
variantes (vide problema da corda pendurada na Seção 8.3.4, página 499). O trabalho do astrônomo
Bessel25 no qual as funções que levam seu nome foram (re)encontradas é bem posterior e data de 1817.
O problema que conduziu Bessel não foi o de resolver uma equação diferencial, mas o de determinar
coeficientes de Fourier que descrevem a trajetória de um planeta em movimento periódico em uma órbita
elı́ptica em torno do Sol e obedecendo a segunda lei de Kepler26 , segundo a qual o raio-vetor que conecta
o Sol ao planeta em questão varre áreas iguais em tempos iguais27 . Bessel obteve para esses coeficientes
uma expressão integral que é a representação integral das funções de Bessel que apresentamos em
(8.131), mais abaixo. Posteriormente, identificou-se que esses coeficientes representavam as funções
previamente tratadas por Daniel Bernoulli e Euler, mas as mesmas acabaram sendo nomeadas em
honra a Bessel. Em seu trabalho, em verdade, Bessel estendeu resultados anteriores de Lagrange 28 , de
1769, o qual também dedicou-se à questão de determinar os coeficientes de Fourier que expressam como
função do tempo a distância ao Sol de um planeta em órbita elı́ptica, calculando os três primeiros.
A determinação desses coeficientes de Fourier não é um mero exercı́cio acadêmico, pois é importante
para cálculos, via teoria de perturbações, da influência gravitacional que os planetas exercem entre si
e da conseqüente previsão de desvios das suas órbitas elı́pticas. O estudo matemático de perturbações
periódicas ou quase-periódicas em sistemas mecânicos (ou em equações diferenciais, em geral) é um
vasto assunto de pesquisa que tem desafiado inúmeros pesquisadores até a atualidade.
Bessel é também autor de dois outros importantes feitos cientı́ficos, a proposição da existência de
estrelas binárias e a medição da distância ao Sol de uma outra estrela.
Bessel foi um dos primeiros a propor a existência de estrelas binárias, prevendo em 1834 a existência
de uma companheira da estrela Sirius. Tal previsão foi possı́vel em função de medidas de alta precisão,
21
22
Iacopo Francesco Riccati (1676-1754).
23
Jacob Bernoulli (1654-1705).
24
Daniel Bernoulli (1700-1782).
25
26
Johannes Kepler (1571-1630).
27
Como todo estudante de Fı́sica bem sabe, isso é conseqüência da conservação do momento angular sob uma força
central.
28
Joseph-Louis Lagrange (1736-1813).
que Bessel produziu durante anos, da posição de várias estrelas. Tais medidas indicavam um movimento
elı́ptico periódico de Sirius cuja origem não poderia ser explicada em termos de movimentos da Terra
ou do sistema solar. Bessel propôs que esse movimento fosse devido à presença de uma outra estrela
menos brilhante nas proximidades de Sirius e que ambas orbitassem em torno do centro de massa
comum, explicando assim as observações. Em 1840, Bessel anunciou a observação de tais movimentos
periódicos em outra estrela, a estrela Procyon.
A existência da companheira de Sirius foi confirmada por observações feitas em 1862 por A. G.
Clark29 e a de Procyon em 1896, por J. M. Schaeberle30 , ambas após a morte de Bessel. As estatı́sticas
atuais indicam que cerca de metade das estrelas da nossa galáxia é composta por estrelas binárias.
Há também sistemas triplos de estrelas (α Centauri sendo o exemplo mais popularmente conhecido),
quádruplos ( Lyrae) etc.
Um problema matemático, levantado pela primeira vez por Laplace31 em 1785 e ainda hoje em
aberto, ao qual nomes como o de Poincaré32 deram importantes contribuições, é o de saber se sistemas
múltiplos como esses, ou como o nosso próprio sistema solar, são estáveis. Esse problema deu origem
a uma importante área de pesquisa atual, a teoria dos sistemas dinâmicos33 . Métodos como os que
Bessel e outros empregaram para a detecção de sistemas binários são empregados hoje em dia para a
detecção de planetas orbitando estrelas, outro tema atual de pesquisa.
Bessel foi também o primeiro, em 1838, a determinar a distância ao Sol de uma outra estrela, usando
para tal o método de paralaxe. A estrela em questão foi 61 Cygni e Bessel calculou sua distância ao
Sol como sendo de cerca de 10 anos-luz. O valor atualmente aceito é de cerca de 10,7 anos-luz, ou
3,3 parsecs. Com esse trabalho, Bessel contribuiu para o estudo das escalas de distância cosmológicas,
tarefa em implementação até os nossos dias.
• Relações de recorrência para as funções de Bessel
Seja a função de Bessel Jν (x) definida em (7.99) por

∞
X (−1)k x 2k+ν
Jν (x) := . (8.106)
k=0
k! Γ(k + 1 + ν) 2
Consideremos provisoriamente ν diferente de 0 ou de um inteiro negativo (pois Γ(x) diverge se x é um

29
Alvan Graham Clark (1832-1897).
30
John Martin Schaeberle (1853-1924).
31
32
Jules Henri Poincaré (1854-1912).
33
Em verdade, boa parte da topologia moderna foi criada por Poincaré no seu tratamento do problema de estabilidade.
inteiro negativo). Multiplicando Jν por xν e diferenciando em relação a x, obtem-se

∞ 2k+ν
d ν d X (−1)k 1
(x Jν (x)) = (x)2k+2ν
dx dx k=0 k! Γ(k + 1 + ν) 2
X∞ 2k+ν−1
(−1)k (k + ν) 1
= (x)2k+2ν−1
k=0
k! Γ(k + 1 + ν) 2
∞
X (−1)k x 2k+ν−1
ν
= x
k=0
k! Γ(k + ν) 2
= xν Jν−1 (x) .
Multiplicando Jν por x−ν e diferenciando em relação a x, obtem-se analogamente
∞ 2k+ν
d d X (−1)k 1
−ν
x Jν (x) = (x)2k
dx dx k=0 k! Γ(k + 1 + ν) 2
∞
X 2k+ν−1
(−1)k 1
= (x)2k−1
k=1
(k − 1)! Γ(k + 1 + ν) 2
∞
X (−1)k x 2k+ν−1
−ν
= x
k=1
(k − 1)! Γ(k + 1 + ν) 2
∞
X (−1)k x 2k+ν+1
k→k+1 −ν
= −x
k! Γ(k + 2 + ν) 2
k=0
= −x−ν Jν+1 (x) .

Provamos assim que, para ν 6= 0, −1, −2, −3 . . .,
d ν d
(x Jν (x)) = xν Jν−1 (x) e x−ν Jν (x) = −x−ν Jν+1 (x) . (8.107)
dx dx
Adotando-se a já mencionada definição J−m (x) = (−1)m Jm (x), para m inteiro positivo ou zero, vemos
que a expressão acima também vale para ν = 0, −1, −2, −3 . . ..
E. 8.17 Exercı́cio. Mostre isso! 6
Para ν = 0, a segunda relação em (8.107) diz-nos que

J00 (x) = −J1 (x) . (8.108)
Expandindo as derivadas em (8.107), teremos que

xν Jν0 (x) + νxν−1 Jν (x) = xν Jν−1 (x) e
x−ν Jν0 (x) − νx−ν−1 Jν (x) = −x−ν Jν+1 (x) ,

ou seja,
xJν0 (x) = xJν−1 (x) − νJν (x) e xJν0 (x) = νJν (x) − xJν+1 (x) . (8.109)
Somando e subtraindo essas duas expressões uma da outra obtemos as seguintes relações importantes:
1
Jν0 (x) = Jν−1 (x) − Jν+1 (x) , (8.110)
2
1
Jν+1 (x) = 2νJν (x) − xJν−1 (x) . (8.111)
x
Essas relações, válidas para todo ν ∈ , são denominadas relações de recorrência das funções de Bessel.
A segunda delas permite, por exemplo, obter todas as funções Jm com m inteiro positivo a partir de
J0 e J1 . Na verdade, por (8.108), basta conhecer J0 e sua derivada.
Resumindo, obtivemos as seguintes relações
d ν
(x Jν (x)) = xν Jν−1 (x) , (8.112)
dx
d
x−ν Jν (x) = −x−ν Jν+1 (x) , (8.113)
dx
xJν0 (x) = xJν−1 (x) − νJν (x) , (8.114)
xJν0 (x) = νJν (x) − xJν+1 (x) , (8.115)
1
Jν0 (x) = Jν−1 (x) − Jν+1 (x) , (8.116)
2
1
Jν+1 (x) = 2νJν (x) − xJν−1 (x) , (8.117)
x
válidas para todo ν ∈ e todo x ∈ , x 6= 0.
Expressões análogas às de acima são também válidas para as funções N ν (x).
• A relação entre Jn e J0 , n ∈
A segunda expressão em (8.107) diz-nos que

1 d
x−ν Jν (x) = −x−(ν+1) Jν+1 (x) .
x dx
Disso segue imediatamente que
n
1 d
x−ν Jν (x) = (−1)n x−(ν+n) Jν+n (x) , (8.118)
x dx
válida para todo ν, x ∈ en∈ . No caso particular em que ν = 0, obtem-se,
n
n n 1 d
Jn (x) = (−1) x (J0 (x)) , (8.119)
x dx
válida para todo x ∈ e n ∈ . A expressão (8.119) generaliza (8.108) e guarda certa semelhança
com as fórmulas de Rodrigues.
E. 8.18 Exercı́cio. Obtenha (8.118) e (8.119) diretamente da definição (8.106). 6
• A função geratriz das funções de Bessel
A determinação da função geratriz das funções de Bessel é importante, entre outras razões, por nos
permitir obter representações integrais para as funções de Bessel, representações essas que assumem
uma grande relevância em várias aplicações.
Tomemos as funções de Bessel de ordem inteira definidas por
∞
X (−1)k x 2k+m
Jm (x) := , (8.120)
k=0
k! (k + m)! 2
para m ≥ 0, convencionando-se que J−m (x) = (−1)m Jm (x) (vide (7.117) e a discussão que lhe acom-
panha). Vamos aqui considerar a função geratriz definida por
∞
X
J(x, t) := tm Jm (x)
m=−∞
para t 6= 0 e vamos provar que

∞
X
m x 1
t Jm (x) = exp t− . (8.121)
m=−∞
2 t
Dessa importante relação serão extraı́dos vários fatos úteis sobre as funções de Bessel de ordem inteira.
Antes de provarmos isso, mostremos que J(x, t) está bem definida. Por (8.120), vale
∞
X 1 x 2k+m 1 x m X 1
∞ x 2k 1 x m |x/2|2

|Jm (x)| ≤ ≤ = e ,
k=0
k! (k + m)! 2 m! 2 k=0 k! 2 m! 2
de modo que
∞
X ∞ m
X 1
|J(x, t)| ≤ |J0 (x)| + m
|t| |Jm (x)| + |Jm (x)|
t
m=1 m=1
m
1 x m
X∞ X∞
|x/2|2 1 xt |x/2|2
≤ |J0 (x)| + e +e ,
m=1
m! 2 m=1
m! 2t
sendo que as últimas somas são convergentes para todo x ∈ e todo t ∈ com t 6= 0, o que prova que
J(x, t) é analı́tica para todo x ∈ e todo t ∈ com t 6= 0.
Podemos com isso demonstrar (8.121) de modo bem simples, tomando a derivada parcial em relação
a x de J(x, t), derivando termo a termo na soma (o que é permitido, devido à analiticidade) e usando
(8.110):
∞
X
∂ 0
J(x, t) = t m Jm (x) (8.122)
∂x m=−∞
∞ ∞
(8.110) 1 X m 1 X m
= t Jm−1 (x) − t Jm+1 (x) (8.123)
2 m=−∞ 2 m=−∞
∞ ∞
k=m−1,
l=m+1 t X k t−1 X l
= t Jk (x) − t Jl (x) (8.124)
2 k=−∞ 2 l=−∞

1 1
= t− J(x, t) . (8.125)
2 t
∂

Assim, J(x, t) satisfaz a equação diferencial ∂x
t) = 21 t − 1t J(x, t), cuja solução geral é
J(x,

x 1
J(x, t) = f (t) exp t− ,
2 t
para alguma função f (t). Agora, como Jm (0) = 0 para m 6= 0 e J0 (0) = 1, segue que J(0, t) = 1, o
que implica f (t) = 1, provando (8.121).
Estudando a demonstração acima o leitor poderá reconhecer a importância de definir-se J −m (x) =
(−1)m Jm (x), para m inteiro positivo ou zero.
• Fórmula de adição das funções de Bessel
Uma das relações mais úteis que advêm de (8.121) é a seguinte:

∞
X
Jm (x + y) = Jn (x)Jm−n (y) , (8.126)
n=−∞
válida para todo m ∈ e todos x, y ∈ . Essa expressão é denominada por alguns autores fórmula
de adição das funções de Bessel (a “adição”, aqui, refere-se à adição dos argumentos da função no
lado esquerdo). As funções de Bessel satisfazem várias outras relações de adição do tipo de acima e
remetemos o leitor à literatura supracitada (por exemplo, à referência [64]) para generalizações.
A demonstração de (8.126) é obtida de (8.121) calculando-se o produto J(x, t)J(y, t) de duas
formas: por um lado,

x 1 y 1
J(x, t)J(y, t) = exp t− exp t−
2 t 2 t

x+y 1
= exp t−
2 t
∞
X
= tm Jm (x + y) . (8.127)
m=−∞
Por outro lado,

∞
! ∞
!
X X
J(x, t)J(y, t) = tk Jk (x) tl Jl (y)
k=−∞ l=−∞
∞
X ∞
X
= tk+l Jk (x)Jl (y)
k=−∞ l=−∞
∞ ∞
!
X X
= tm Jn (x)Jm−n (y) . (8.128)
m=−∞ n=−∞
Comparando-se (8.127) a (8.128) obtem-se (8.126).

Se em (8.126) tomarmos y = −x e m = 0, e usarmos que Jn (x) = J−n (−x) e que J0 (0) = 1,
obteremos ∞
X 2 2 ∞
X 2
1 = Jn (x) = J0 (x) + 2 Jn (x) . (8.129)
n=−∞ n=1
Como Jn (x) é real para x ∈ , isso ensina-nos que

1
|J0 (x)| ≤ 1 e |Jn (x)| ≤ √ ,
2
para todo x ∈ e n 6= 0, n inteiro.
E. 8.19 Exercı́cio. Justifique! 6
É possı́vel estabelecer limites superiores mais precisos para |Jn (x)|, mas não trataremos disso aqui.
• Representações integrais das funções de Bessel
A relação (8.121) tem vários usos, um deles é o de fornecer uma representação integral para as
funções de Bessel, com a qual outras propriedades podem ser obtidas. A relação (8.121) foi provada
para todo x ∈ e t ∈ com t 6= 0. Tomemos t com |t| = 1, ou seja, tomemos t da forma t = eiϕ , com
−π ≤ ϕ ≤ π. Obtemos,
∞
X
eix sen (ϕ) = Jm (x)eimϕ . (8.130)
m=−∞
O ponto interessante é que podemos interpretar o lado direito como sendo a série de Fourier na variável
ϕ da função periódica de perı́odo 2π do lado esquerdo, de onde tiramos que
Z π Z π
1 ix sen (ϕ) −imϕ 1
Jm (x) = e e dϕ = eix sen (ϕ)−imϕ dϕ ,
2π −π 2π −π
para todo m ∈ . Usando eia = cos(a) + i sen (a), tem-se
Z π Z π
1 i
Jm (x) = cos (x sen (ϕ) − mϕ) dϕ + sen (x sen (ϕ) − mϕ) dϕ .
2π −π 2π −π
A segunda integral do lado direito é nula, pois o integrando é uma função ı́mpar em ϕ. Como o
integrando da primeira integral do lado direito é uma função par em ϕ, segue que
Z π Z
1 1 π
Jm (x) = cos (x sen (ϕ) − mϕ) dϕ = cos (x sen (ϕ) − mϕ) dϕ , (8.131)
2π −π π 0
válida para todo m ∈ . Essa expressão é a importante representação integral da função de Bessel
Jm (x), m ∈ .
Tomando-se t = ieiϕ em (8.121), obtem-se
∞
X
ix cos(ϕ)
e = im Jm (x)eimϕ . (8.132)
m=−∞
de onde se extrai Z π
(−i)m
Jm (x) = eix cos(ϕ)−imϕ dϕ . (8.133)
2π −π
É fácil obter daı́ que

Z π
(−1)m
J2m (x) = cos x cos(ϕ) − 2mϕ dϕ ,
2π −π
Z π
(−1)m
J2m+1 (x) = sen x cos(ϕ) − (2m + 1)ϕ dϕ .
2π −π
para todo m = 0, 1, 2, . . .. De (8.133) segue, em particular, a relação

Z π
1
J0 (x) = eix cos(ϕ) dϕ . (8.134)
2π −π
Aplicações dessa identidade encontram-se nos Exercı́cios E. 8.20 e E. 8.21.
2
E. 8.20 Exercı́cio. Seja f : → integrável e seja
Z
1
F[f ](~
p) := f (~x)e−i~p·~x d2 ~x
2π 2
e p~ · ~x = p1 x1 + p2 x2 . Suponha que f depende

sua transformada de Fourier, onde ~x = (x1 , x2 ), p~ = (p1 , p2 )p
apenas da coordenada radial: f (~x) = f (r), com r = k~xk = x21 + x22 . Mostre que
Z ∞
F[f ](~
p) = f (r)J0 (pr)r dr ,
0
onde p = |~
p|. 6

2 f0 , 0 ≤ r ≤ R
E. 8.21 Exercı́cio. Seja f : → definida por f (~x) = f (r) = , sendo f0 e R
0, r > R

constantes com R > 0. Mostre que

f0 R
F[f ](~
p) = J1 (pR) .
p
Sugestão: De (8.107) segue que xJ0 (x) = (xJ1 (x))0 . 6
• Propriedades adicionais
De (8.130) podemos extrair mais algumas relações de interesse. Mostremos algumas aqui. Separando
a parte real e a parte imaginária de ambos os lados de (8.130), teremos
X∞
cos x sen (ϕ) = Jm (x) cos(mϕ) ,
m=−∞
∞
X
sen x sen (ϕ) = Jm (x) sen (mϕ) .
m=−∞
m
Usando que J−m (x) = (−1) Jm (x), obtemos alguns cancelamentos que conduzem a
X∞
cos x sen (ϕ) = J0 (x) + 2 J2k (x) cos(2kϕ) , (8.135)
k=1
∞
X
sen x sen (ϕ) = 2 J2k−1 (x) sen ((2k − 1)ϕ) . (8.136)
k=1
Em particular, para ϕ = π/2, isso diz-nos que

∞
X
cos(x) = J0 (x) + 2 (−1)k J2k (x) , (8.137)
k=1
∞
X
sen (x) = 2 (−1)k+1 J2k−1 (x) . (8.138)
k=1
Tomando ϕ = 0 em (8.135), segue também a identidade

∞
X
1 = J0 (x) + 2 J2k (x) .
k=1
De (8.135)-(8.136), obtem-se também, usando as bem-conhecidas relações de ortogonalidade das

funções seno e co-seno,
Z
1 π Jm (x), m par
cos x sen ϕ cos(mϕ)dϕ = .
π 0 0, m ı́mpar
Z
1 π 0, m par
sen x sen ϕ sen (mϕ)dϕ = .
π 0 J m (x), m ı́mpar
Outras identidades podem ser obtidas a partir das várias apresentadas de acima, ou com os mesmos
métodos, mas encerramos aqui nossa apresentação das mesmas, convidando o leitor a um passeio
à literatura pertinente às funções de Bessel. Nossa intenção agora é a de discutir as relações de
ortogonalidade para as funções de Bessel.
• Zeros das funções de Bessel
Antes de entrarmos na discussão sobre as relações de ortogonalidade para as funções de Bessel em

J = [0, 1] precisamos fazer alguns comentários sobre os zeros das funções de Bessel. Os seguintes
teoremas são válidos:
Teorema 8.2 As funções Jn (z), com n ∈ , não possuem zeros complexos e possuem uma coleção
infinita enumerável de zeros reais, todos simples, exceto z = 0, que é um zero de ordem |m| de J m (z)
para m ∈ , m 6= 0. Os zeros de Jn (z), com n ∈ , não possuem pontos de acumulação em . Como
Jn (x) = (−1)n Jn (−x), vemos que os zeros de Jn (x) são simétricos em relação ao ponto x = 0. Fora
isso, como J−n (x) = (−1)n+1 Jn (x), os zeros de Jn (x) coincidem com os de J−n (x). Por fim, os zeros
positivos das funções de Bessel de ordem inteira positiva possuem a seguinte propriedade de alternância:
entre dois zeros positivos sucessivos de Jn existe um zero de Jn−1 e um de Jn+1 , para todos n ≥ 0. 2
Teorema 8.3 Seja ν real e suponha que | arg z| < π. Então Jν (z) possui uma coleção infinita enu-
merável de zeros reais e positivos e um número 2N (ν) de zeros conjugados complexos, sendo que
1. N (ν) = 0 se ν > −1 ou ν = −1, −2, −3, . . .,

2. N (ν) = m se −m − 1 < ν < m, m = 1, 2, 3, . . ..
Os zeros reais positivos de Jν (z), com ν real, não possuem pontos de acumulação em
+. 2
Teorema 8.4 Para ν ≥ 0 a função Jν0 (z) possui apenas zeros simples, exceto em z = 0 e entre dois
zeros sucessivos de Jν0 (z) há exatamente um zero de Jν (z). 2
O teorema seguinte é particularmente útil na resolução de problemas envolvendo condições de

contorno mistas.
Teorema 8.5 Para A e B reais e ν real com ν > −1 a equação
AJν (z) + BzJν0 (z)
para | arg z| < π possui uma coleção enumerável de zeros reais positivos e no caso em que ν + A/B ≥
0, também não possui raı́zes complexas. Caso ν + A/B < 0, AJ ν (z) + BzJν0 (z) possui duas raı́zes
imaginárias puras. 2
Os enunciados acima foram extraı́dos de [79], [64] e [60] e suas demonstrações podem ser encontradas
em [125] ou (parcialmente) em [64]. Não as apresentaremos aqui, mas o leitor não deve ser desestimulado
a estudá-las pois as mesmas são elementares e utilizam-se essencialmente apenas do material que já
apresentamos aqui.
• As relações de ortogonalidade das funções de Bessel no intervalo [0, 1]
Em muitos problemas, por exemplo, naquele em que estudamos os modos de vibração de uma
membrana circular, estamos interessados nas soluções da equação de Bessel em um intervalo finito
fechado. Consideraremos, para fixar idéias, o caso em que o intervalo é J = [0, 1]. Em uma tal
situação encontraremos relações de ortogonalidade, as quais são muito importantes na resolução de
certos problemas envolvendo equações diferenciais parciais submetidas a condições iniciais e de contorno.
Devido aos comentários que fizemos acima sobre os zeros das funções de Bessel consideraremos no
que segue apenas o caso em que ν é real.
Seja para um dado α ∈ a função fα (x) := Jν (αx). É fácil verificar que fα (x) é solução da equação
ν2
(xy 0 (x))0 − y(x) + α2 xy(x) = 0 . (8.139)
x
E. 8.22 Exercı́cio importante. Verifique isso. 6
Como α aparece elevada ao quadrado na expressão acima podemos sem perda de generalidade
considerar α > 0 (o caso α = 0 é trivial, pois corresponde a uma função constante: f 0 (x) = Jν (0)).
Nosso principal resultado será o seguinte teorema, o qual estabelece uma classe bastante geral de
relações de ortogonalidade para as funções de Bessel. Essas relações de ortogonalidade são de suma
importância nas aplicações dessas funções à solução de certas equações diferenciais submetidas a certas
condições iniciais e de contorno.
Teorema 8.6 Seja ν ≥ 0 e sejam fixados certos números reais A, B com (A, B) 6= (0, 0) satisfazendo
ν + A/B ≥ 0, caso B 6= 0 (vide Teoremas 8.2-8.5). Seja também ZνA, B o conjunto de todos os números
α > 0 tais que
AJν (α) + BαJν0 (α) = 0 , (8.140)
ou seja,
ZνA, B := {α > 0| AJν (α) + BαJν0 (α) = 0} . (8.141)
Pelo Teorema 8.5, esse conjunto é não-vazio e enumerável. Então a condição (8.6) do Teorema 8.1,
página 428, com J = [0, 1], é satisfeita para todas as funções f α (x) = Jν (αx) com α ∈ ZνA, B e,
portanto, para α, β ∈ ZνA, B com α 6= β valem as relações de ortogonalidade (com r(x) = x)
Z 1
fα (x)fβ (x) x dx = 0 ,
0
ou seja, Z 1
Jν (αx)Jν (βx) x dx = 0 . (8.142)
0
para todos α, β ∈ ZνA, B com α 6= β. Para todos α, β ∈ ZνA, B , tem-se
Z 1
δα, β 0 2 ν2 2
Jν (αx)Jν (βx) x dx = (Jν (α)) + 1 − 2 (Jν (α))
0 2 α

(8.115) δα, β 2 2ν 2
= (Jν (α)) − Jν (α)Jν+1 (α) + (Jν+1 (α)) . (8.143)
2 α
Essa expressão é denominada relação de ortogonalidade das funções de Bessel. Note que há uma relação
de ortogonalidade para cada tripla (ν, A, B) com ν ≥ 0 e (A, B) 6= (0, 0) e ν + A/B ≥ 0, B 6= 0, pois
cada tripla (ν, A, B) fixa o conjunto WνA, B .
A relação (8.140) corresponde a condições de contorno freqüentemente encontradas na resolução de
equações diferenciais parciais da Fı́sica, como por exemplo no problema de propagação de ondas em
uma membrana circular (um tambor). No caso A = 1, B = 0 o conjunto Z ν1, 0 coincide com o dos zeros
da função de Bessel Jν (x). No caso A = 0, B = 1 o conjunto Zν0, 1 coincide com o dos zeros da função
Jν0 (x).
Em particular, se ν ≥ 0 e αkν é o k-ésimo zero da função Jν (x) no intervalo (0, ∞), então
Z 1
ν
ν
(Jν0 (αkν ))2 (Jν+1 (αkν ))2
Jν αk x Jν αl x x dx = δk, l = δk, l . (8.144)
0 2 2
Analogamente, se ν ≥ 0 e βkν é o k-ésimo zero da função Jν0 (x) no intervalo (0, ∞), então
Z 1 2 !
ν (Jν (βkν ))2
Jν βkν x Jν βlν x x dx = δk, l 1 − . (8.145)
0 βkν 2
Dessa relação percebemos incidentalmente que βkν > ν para todo k, pois o lado esquerdo é certamente
positivo quando k = l. 2
Prova do Teorema 8.6. Podemos encarar a equação (8.139) como sendo da forma canônica (8.1) para o
2
intervalo J = (0, 1] com p(x) = x, q(x) = − νx , r(x) = x e µ = α2 . Perguntemo-nos agora se para duas
funções fα (x) := Jν (αx) e fβ (x) := Jν (βx) a condição (8.6) do Teorema 8.1, página 428 é satisfeita nos
extremos do intervalo J = (0, 1], ou seja, se

p(1) fα (1)fβ0 (1) − fα0 (1)fβ (1) − lim p(x) fα (x)fβ0 (x) − fα0 (x)fβ (x) = 0 ,
x→0
isto é, se
(Jν (α)βJν0 (β) − αJν0 (α)Jν (β)) − lim x (Jν (αx)βJν0 (βx) − αJν0 (αx)Jν (βx)) = 0 .
x→0
Dado que o primeiro termo da expansão de Jν (x) é proporcional a xν , e que, conseqüentemente, o

primeiro termo da expansão de Jν0 (x) é proporcional a xν−1 teremos que
lim x (Jν (αx)βJν0 (βx) − αJν0 (αx)Jν (βx)) ∝ lim xxν xν−1 = 0
x→0 x→0
sempre que ν > 0. Para ν = 0 a relação acima também é válida, pois o primeiro termo da expansão de
J0 (x) é constante, mas o primeiro termo da expansão de J00 (x) é proporcional a x. Para ν < 0 o limite
x → 0 da expressão acima é singular. Concluı́mos que para ν ≥ 0 vale

p(1) fα (1)fβ0 (1) − fα0 (1)fβ (1) − lim p(x) fα (x)fβ0 (x) − fα0 (x)fβ (x)
x→0
= (Jν (α)βJν0 (β) − αJν0 (α)Jν (β)) .

Procuramos agora identificar condições sob as quais o lado direito se anula, o que nos garantirá a
aplicabilidade do teorema de ortogonalidade, Teorema 8.1.
Um caso óbvio é aquele no qual α e β são zeros da função de Bessel Jν . Outro caso óbvio é aquele
no qual α e β são zeros de Jν0 , a derivada da função de Bessel Jν . O caso mais geral está na seguinte
proposição.
Proposição 8.1 Suponhamos que para certos números A e B com (A, B) 6= (0, 0) existam constantes
reais α e β tais que
AJν (α) + BαJν0 (α) = 0 e (8.146)
AJν (β) + BβJν0 (β) = 0 . (8.147)
Então,
Jν (α)βJν0 (β) − αJν0 (α)Jν (β) = 0 .
2
Prova. As relações (8.146)-(8.147) podem ser expressas em forma matricial como

    
Jν (α) αJν0 (α) A 0
   =   .
Jν (β) βJν0 (β) B 0
Como por hipótese (A, B) 6= (0, 0), a relação acima só é possı́vel se a matriz 2 × 2 do lado esquerdo
for não-invertı́vel, ou seja, se tiver determinante nulo. Assim, devemos ter
 
Jν (α) αJν0 (α)
0 = det   = Jν (α)βJν0 (β) − αJν0 (α)Jν (β) ,
Jν (β) βJν0 (β)
que é o que querı́amos estabelecer.
Com essa proposição, fica estabelecido que a condição (8.6) do Teorema 8.1, página 428, com
com J = [0, 1], é satisfeita para todas as funções fα (x) = Jν (αx) com α ∈ ZνA, B e, portanto, para
α, β ∈ ZνA, B com α 6= β valem as relações de ortogonalidade (com r(x) = x)
Z 1 Z 1
fα (x)fβ (x) x dx = 0 ou seja, Jν (αx)Jν (βx) x dx = 0 ,
0 0
para todos α, β ∈ ZνA, B com α 6= β.

Passemos à questão de provar (8.143) para o caso em que α = β. Isso pode ser feito de diversas
maneiras, a mais direta sendo a seguinte. Escrevamos a equação (8.139) na forma

x2 y 00 (x) + xy 0 (x) + α2 x2 − ν 2 y(x) = 0 . (8.148)
Multiplicando-a por 2y 0 (x), obtemos

0 = 2x2 y 0 (x)y 00 (x) + 2x(y 0 (x))2 + 2 α2 x2 − ν 2 y(x)y 0 (x)
d 0 2 d
= x2 (y (x)) + 2x(y 0 (x))2 + α2 x2 − ν 2 (y(x))2
dx dx
d 2 0 2
d
= x (y (x)) + α2 x2 − ν 2 (y(x))2
dx dx
e, portanto,
d 2 0 2
d 2 2
0 = x (y (x)) + α x − ν 2 (y(x))2 − 2α2 x (y(x))2 .
dx dx
Integrando-se ambos os lados da igualdade entre 0 e 1, obtem-se
1 h i1 Z 1
2 2
2 0 2 2 2
0 = x (y (x)) + α x − ν (y(x)) − 2α 2
x (y(x))2 dx . (8.149)
0 0 0
Como fα (x) = Jν (αx) é solução de (8.148), podemos adotar y(x) = Jν (αx), acima. Assim,
1 1
2 2 2
x2 (y 0 (x)) = α2 x2 (Jν0 (αx)) = α2 (Jν0 (α)) .
0 0
h i 1

2 2
α x −ν 2
(y(x)) = α2 − ν 2 (Jν (α))2 + ν 2 (Jν (0))2 = α2 − ν 2 (Jν (α))2 ,
2
0
pois ν 2 (Jν (0))2 = 0 para todo ν ≥ 0 (por que?). Portanto, (8.149) fica
Z 1
2
2α 2
x (Jν (αx)) dx = α (Jν (α)) + α − ν (Jν (α))2 ,
2 2 0 2 2
0
o que conduz à primeira linha de (8.143) no caso α = β. A identidade

2 ν2 2ν
(Jν (α)) + 1 − 2 (Jν (α))2 = (Jν (α))2 − Jν (α)Jν+1 (α) + (Jν+1 (α))2
0
α α
segue diretamente de (8.115).
Com isso, o Teorema 8.6 está demonstrado
• Comentário sobre a equação de Bessel no intervalo J = [0, ∞)
Seja a equação de Bessel x2 y 00 (x) + xy 0 (x) + (x2 − ν 2 )y(x) = 0 e consideremo-la agora no intervalo
semi-infinito J = [0, ∞). A mesma pode ser escrita como
ν2
(xy 0 (x))0 − y(x) + xy(x) = 0, (8.150)
x
e aqui temos p(x) = x e poderı́amos adotar q(x) = x, r(x) = x1 e µ = −ν 2 . Há, porém, uma diferença
marcante em relação aos casos anteriormente tratados. Para as funções J ν (x), mesmo com ν inteiro,
não vale a relação (8.6), pois limx→∞ p(x)Jν (x)Jν 0 (x) não se anula e, portanto, o Teorema 8.1 não se
aplica nesse caso. De fato, Jν (x) comporta-se para x → ∞ como
r
2 cos x − νπ − π
Jν (x) ≈ √2 4
.
π x
Infelizmente, não apresentaremos a demonstração dessa expressão assintótica nestas Notas. O leitor
poderá encontrá-la em vários textos, por exemplo, em [125], [130], [64] e mesmo em [77]. Em [64], por
exemplo, encontra-se demonstrada a expressão assintótica mais detalhada
r ∞ 2r
2 cos x − νπ − π X (−1)r Γ ν + 2r + 21 1
Jν (x) ≈ √2 4
1

π x r=0
(2r)! Γ ν − 2r + 2 2x
r ∞ 2r+1
2 sen x − νπ − π X (−1)r Γ ν + 2r + 23 1
− √ 2 4
1
,
π x r=0
(2r + 1)! Γ ν − 2r − 2 2x
válida para x → ∞. Com isso, percebemos que não devem valer para as funções de Bessel com ν’s
diferentes relações de ortogonalidade envolvendo integrais em J = [0, ∞).
8.2.7 Propriedades das Funções de Bessel Esféricas

As funções de Bessel e Neumann esféricas de ordem ν foram definidas em (7.145) e (7.146) por
r r
π π
jν (z) := Jν+ 1 (z) , nν (z) := N 1 (z) . (8.151)
2z 2 2z ν+ 2
Por serem fortemente relacionadas às funções de Bessel, suas propriedades podem ser facilmente dedu-
zidas das propriedades estudadas acima daquelas funções.
Por (7.99), tem-se
√ X ∞ z 2k+ν
π (−1)k
jν (z) = .
2 k=0 k! Γ(k + 1 + ν + 1/2) 2
Pela fórmula de duplicação (7.27), podemos escrever isso como

∞
X
ν (−1)k Γ(k + 1 + ν)
jν (z) = 2 z 2k+ν .
k=0
k! Γ(2(k + 1 + ν))
Em particular, para ν = l ∈ , vale

∞
X (−1)k (k + l)! 2k+l
l
jl (z) = 2 z .
k! (2k + 2l + 1)!
k=0
• Relações de recorrência para as funções de Bessel esféricas

Fórmulas de recorrência para as funções de Bessel esféricas também podem ser obtidas daquelas
para as funções de Bessel listadas em (8.112)-(8.117). Analisando-as, é imediato ver que de (8.112) e
(8.113) segue facilmente que
d d
xν+1 jν (x) = xν+1 jν−1 (x) e x−ν jν (x) = −x−ν jν+1 (x) . (8.152)
dx dx
De (8.114) e (8.115) segue facilmente que
xjν0 (x) = xjν−1 (x) − (ν + 1)jν (x) e xjν0 (x) = νjν (x) − xjν+1 (x) . (8.153)
Dessas duas relações segue facilmente que

1 jν (x)
jν0 (x) = jν−1 (x) − − jν+1 (x) , (8.154)
2 x
1
jν+1 (x) = (2ν + 1)jν (x) − xjν−1 (x) , (8.155)
x
para todo ν. Usando (8.155), é fácil ver que (8.154) pode ser reescrita como

(2ν + 1) jν0 (x) = (ν + 1) jν−1 (x) − jν+1 (x) (8.156)
para todo ν.
Resumindo nossas conclusões, obtivemos que
d
xν+1 jν (x) = xν+1 jν−1 (x) , (8.157)
dx
d
x−ν jν (x) = −x−ν jν+1 (x) , (8.158)
dx
xjν0 (x) = xjν−1 (x) − (ν + 1)jν (x) , (8.159)
xjν0 (x) = νjν (x) − xjν+1 (x) , (8.160)

(2ν + 1) jν0 (x) = (ν + 1) jν−1 (x) − jν+1 (x) , (8.161)
1
jν+1 (x) = (2ν + 1)jν (x) − xjν−1 (x) . (8.162)
x
Expressões análogas são válidas para as funções nν (x).

Com o uso das relações de recorrência acima é possı́vel obter para as funções de Bessel esféricas o
análogo da expressão (8.119).
• A relação entre jn e j0 , n ∈
A expressão (8.158) diz-nos que
1 d
x−ν jν (x) = −x−(ν+1) jν+1 (x) .
x dx
Disso segue imediatamente que
n
1 d
x−ν jν (x) = (−1)n x−(ν+n) jν+n (x) , (8.163)
x dx
válida para todo ν, x ∈ en∈ . No caso particular em que ν = 0, obtem-se,

n n
n n 1 d n n 1 d sen x
jn (x) = (−1) x (j0 (x)) = (−1) x , (8.164)
x dx x dx x
válida para todo x ∈ en∈ . A expressão (8.164) guarda certa semelhança com as fórmulas de
Rodrigues.
Para as funções de Neumann esféricas tem-se uma expressão análoga:
n
n+1 n 1 d cos x
nn (x) = (−1) x . (8.165)
x dx x
• Relações de ortogonalidade para as funções de Bessel esféricas no intervalo [0, 1]
As relações de ortogonalidade para as funções de Bessel esféricas podem ser provadas diretamente
daquelas expressas no Teorema 8.6.
ν+1/2
Observemos em primeiro lugar que o conjunto ZA, B que, pela definição (8.141), é
ν+1/2 0

ZA, B := α > 0| AJν+1/2 (α) + BαJν+1/2 (α) = 0
pode ser caracterizado em termos de jν como

B
ZA, B := α > 0 A +
ν+1/2 0
jν (α) + Bαjν (α) = 0 .
2
Assim, ao lidarmos com problemas que possuem condições de contorno do tipo
Ajν (α) + Bαjν0 (α) = 0

ν+1/2
o conjunto de α’s que satisfazem isso é ZA−B/2, B .
Isso mostra que podemos aplicar diretamente
q as conclusões do Teorema 8.6, tomando o cuidado de
2α √ px
substituir: 1. ν por ν + 1/2, 2. Jν (α) por π
j ν (α), 3. (na integral) J ν (αx) por α π jν (αx) e 3. e
√ √
Jν0 (α) por π j2ν√(α)
α
+ αjν0 (α) . Após algumas contas elementares, obtem-se o seguinte:
Teorema 8.7 Seja ν ≥ 0, sejam fixados certos números reais A, B com (A, B) 6= (0, 0) satisfazendo
ν + 1/2 + A/B ≥ 0, caso B 6= 0 (vide Teoremas 8.2-8.5) e seja definido
ν+1/2
WνA, B := {α > 0| Ajν (α) + Bαjν0 (α) = 0} = ZA−B/2, B .
Pelo Teorema 8.5, esse conjunto é não-vazio e enumerável. Para todos α, β ∈ W νA, B , tem-se
" 2 #
Z 1 1 2
δ α, β 1 j ν (α) √ (ν + )
jν (αx)jν (βx) x2 dx = √ + αjν0 (α) + 1 − 2
2
(jν (α))2
0 2 α 2 α α

δα, β ν(ν + 1) jν (α)jν0 (α)
= 1− (jν (α)) + 2
+ (jν0 (α))2
2 α2 α

(8.160) δα, β 2 (2ν + 1) 2
= (jν (α)) − jν (α)jν+1 (α) + (jν+1 (α)) . (8.166)
2 α
Essa expressão é denominada relação de ortogonalidade das funções de Bessel esféricas. Note que há
uma relação de ortogonalidade para cada tripla (ν, A, B) com ν ≥ 0 e (A, B) 6= (0, 0), pois cada
tripla (ν, A, B) fixa o conjunto ZνA, B .
No caso A = 1, B = 0 o conjunto Wν1, 0 coincide com o dos zeros da função de Bessel esférica jν (x).
No caso A = 0, B = 1 o conjunto Wν0, 1 coincide com o dos zeros da função jν0 (x).
Em particular, se ν ≥ 0 e αkν é o k-ésimo zero da função jν (x) no intervalo (0, ∞), então
Z 1
(j 0 (αν ))2 (jν+1 (αkν ))2
jν αkν x jν αlν x x2 dx = δk, l ν k = δk, l . (8.167)
0 2 2
Analogamente, se ν ≥ 0 e βkν é o k-ésimo zero da função jν0 (x) no intervalo (0, ∞), então
Z 1
ν
ν
2 ν(ν + 1) (jν (βkν ))2
jν βk x jν βl x x dx = δk, l 1 − . (8.168)
0 (βkν )2 2
p
Dessa relação percebemos incidentalmente que βkν > ν(ν + 1) para todo k, pois o lado esquerdo é
certamente positivo quando k = l. 2
sen (x)
É instrutivo considerar a relação (8.167) no caso ν = 0, quando j0 (x) = x
e, portanto, αk0 = kπ,
com k > 0 inteiro. Como j00 (x) = cos(x)
x
− senx2(x) , (8.167) está dizendo que
Z 1 2
sen (kπx) sen (lπx) δk, l cos(kπ) 1
dx = = δk, l ,
0 klπ 2 2 kπ 2(kπ)2
ou seja, Z 1
1
sen (kπx) sen (lπx) dx = δk, l .
0 2
Essa é uma relação bem conhecida que, evidentemente, pode também ser provada por meios mais
elementares.
8.3 Algumas Aplicações Selecionadas

Nesta seção ilustramos alguns problemas fı́sicos dos quais emergem algumas das equações diferenciais
ordinárias que temos estudado, tais como as equações de Euler, de Bessel, de Legendre, de Legendre
associada, de Bessel esférica, de Hermite, de Laguerre e de Laguerre associada. O estudante que estiver
procurando a motivação e a origem fı́sica daquelas equações poderá ler parcialmente a presente seção
sem precisar dominar totalmente o material anteriormente apresentado, pelo menos até o ponto em
que apresentarmos as soluções das equações.
8.3.1 O Método de Separação de Variáveis

O chamado método de separação de variáveis é um método muito freqüentemente empregado na solução
de uma certa classe de equações diferenciais parciais lineares e homogêneas. Quer a sorte que muitas
equações de interesse em Fı́sica pertencem à classe de equações para as quais esse método é eficaz,
uma das razões da sua popularidade. Uma segunda vantagem desse método reside no fato de o mesmo
transformar um problema de equações diferenciais parciais em uma série de problemas de equações
diferenciais ordinárias, sobre as quais muito mais é conhecido no que concerne a métodos de solução.
Uma terceira razão para o interesse no método de separação de variáveis reside no fato de o mesmo
permitir explorar simetrias de determinados problemas (por exemplo, a simetria por rotações), o que
é de particular utilidade em certas situações. O método de separação de variáveis foi descoberto
originalmente por Daniel Bernoulli34 no estudo de diversas equações diferenciais, como a equação da
corda vibrante.
Vamos apresentar o método de separação de variáveis no tratamento de uma equação de segunda
ordem em duas variáveis reais, digamos x e y, definidas em um certo domı́nio de 2 . Seja a equação a

derivadas parciais da forma

∂2u ∂2u ∂u ∂u
A(x) 2
+ B(y) 2
+ C(x) + D(y) + (E(x) + F (y))u = 0 , (8.169)
∂x ∂y ∂x ∂y
sendo que ou A ou B não é identicamente nula (de modo que a equação seja de segunda ordem em
pelo menos uma das variáveis, mas não-necessariamente em ambas) a ser satisfeita por uma função
incógnita de duas variáveis u(x, y). Como claramente indicado acima, as funções A, C e E são funções
de uma única variável, a saber x, enquanto que B, D e F são funções de uma única variável, a saber
y. É preciso supor muito pouco sobre essas funções, por exemplo, que as mesmas são contı́nuas, mas
mesmo essa hipótese pode ser enfraquecida, o que ocorre em muitos exemplos de interesse (vide as
próximas seções). Por enquanto, deixemos de lado considerações sobre o domı́nio de validade D ⊂ 2
da equação acima e sobre condições de contorno e concentremo-nos em procurar soluções particulares

de (8.169).
O método de separação de variáveis consiste em procurar soluções particulares para a equação
(8.169) que sejam da forma u(x, y) = X(x)Y (y). Antes de fazermos perguntas sobre a aplicabilidade
dessa idéia, vejamos a que a mesma conduz. Inserindo o Ansatz u(x, y) = X(x)Y (y) na equação
(8.169), obtem-se
A(x)X 00 (x)Y (y) + B(y)X(x)Y 00 (y) + C(x)X 0 (x)Y (y) + D(y)X(x)Y 0 (y) + (E(x) + F (y))X(x)Y (y) = 0 .
34
Dividindo-se essa expressão por X(x)Y (y), obtem-se
X 00 (x) Y 00 (y) X 0 (x) Y 0 (y)

A(x) + B(y) + C(x) + D(y) + E(x) + F (y) = 0 .
X(x) Y (y) X(x) Y (y)
Aqui, é de se observar que cada termo da expressão acima é função de uma única variável. Separando
os termos que dependem de cada variável em cada lado da igualdade, obtem-se da última expressão

X 00 (x) X 0 (x) Y 00 (y) Y 0 (y)
A(x) + C(x) + E(x) = − B(y) + D(y) + F (y) .
X(x) X(x) Y (y) Y (y)
Chegamos agora ao ponto crucial que justifica o que foi feito até aqui. Do lado esquerdo da igualdade
acima encontra-se uma função que depende apenas de x e do lado direito uma função apenas de y. Ora,
como ambas as variáveis são independentes, uma tal igualdade só é possivel se ambos os lados forem
iguais a uma mesma constante, que denotaremos por λ, a qual é denominada constante de separação.
Assim,

X 00 (x) X 0 (x) Y 00 (y) Y 0 (y)
A(x) + C(x) + E(x) = − B(y) + D(y) + F (y) = λ ,
X(x) X(x) Y (y) Y (y)
o que implica o par de equações
A(x)X 00 (x) + C(x)X 0 (x) + (E(x) − λ)X(x) = 0 , (8.170)
B(y)Y 00 (y) + D(y)Y 0 (y) + (F (y) + λ)Y (y) = 0 , (8.171)
cada qual sendo uma equação diferencial ordinária. Ambas as equações podem agora, em princı́pio, ser
tratadas separadamente com os métodos de solução disponı́veis para equações diferenciais ordinárias
como por exemplo, o método de expansão em série ou o método de Frobenius. É de se lembrar, porém,
que ambas as equações não são totalmente desacopladas, pois têm em comum a presença da mesma
constante de separação ainda indeterminada λ.
Uma pergunta que se coloca nesse momento é se a equação (8.169) é a forma mais geral de uma
equação linear de segunda ordem em duas variáveis para a qual o Ansatz u(x, y) = X(x)Y (y) conduz a
equações separadas para X e para Y . Não é do conhecimento do autor que sejam conhecidas condições
necessárias e suficientes para a separabilidade de equações diferenciais parciais lineares, de modo que a
forma da (8.169) é apenas uma condição suficiente para separabilidade. Um pouco de experimentação
(faça!) permite concluir que a separação dificilmente se dá caso haja na equação um termo com uma
∂2u
derivada mista ∂x∂y , ou se as funções A, B etc. não forem funções de uma única variável especificamente
como explicitado em (8.169), mas há excessões, como mostra o exemplo do Exercı́cio E. 8.25, abaixo.
Outrossim, o método de separação de variáveis dificilmente pode ser feliz no caso de equações diferen-
ciais não-lineares mas, novamente, não é do conhecimento do autor que isso tenha sido completamente
demonstrado em uma classe grande de exemplos interessantes.
É de se notar, porém, que o método de separação de variáveis não se restringe a equações envolvendo
apenas duas variáveis, nem a equações de segunda ordem. Nosso interesse pelas equações de segunda
ordem provem do fato de que a grande maioria das equações diferenciais parciais encontrada na Fı́sica
é de segunda ordem.
E. 8.23 Exercı́cio. Encontre uma classe de equações diferencias parciais de primeira ordem lineares e
homogêneas em duas variáveis x e y para as quais o Ansatz u(x, y) = X(x)Y (y) conduz a equações
separadas para X e para Y . Obtenha essas equações. 6
E. 8.24 Exercı́cio. Encontre uma classe de equações diferencias parciais de terceira ordem lineares e
homogêneas em duas variáveis x e y para as quais o Ansatz u(x, y) = X(x)Y (y) conduz a equações
separadas para X e para Y . Obtenha essas equações. 6
E. 8.25 Exercı́cio. Mostre que uma equação diferencial da forma
∂2u ∂2u ∂u
A(x) 2
+ B(y) + (C(x) + D(y)) = 0 (8.172)
∂x ∂x∂y ∂x
permite separação de variáveis na forma u(x, y) = X(x)Y (y). Sugestão: substitua esse Ansatz na equação
e divida-a por X 0 (x)Y (y), obtendo, com uma constante de separação λ,
A(x)X 00 (x) + (E(x) − λ)X 0 (x) = 0 ,
B(y)Y 0 (y) + (D(y) + λ)Y (y) = 0 .
Outra sugestão é observar que a equação (8.172) pode ser reduzida a uma equação linear de primeira ordem
para ∂u
∂x
, a qual é separável. 6
O que determina a constante de separação λ? Em situações tı́picas ela é determinada pela imposição
de condições de contorno, ou de outras condições subsidiárias à solução, tais como que ela seja contı́nua,
ou que ela seja periódica, ou que ela seja limitada, ou que ela seja de quadrado integrável (o que
tipicamente ocorre na Mecânica Quântica) etc. Os exemplos que se seguirão ilustrarão essas diversas
situações.
Um certo cuidado aqui é necessário. Para a imposição de condições de contorno ou subsidiárias às
soluções particulares da forma de um produto X(x)Y (y) é necessário que essas condições de contorno
possam ser expressas separadamente como condições sobre a dependência em x e sobre a dependência
em y. Geralmente, isso só é possı́vel se o domı́nio D de validade da equação (entenda-se, a região
onde o problema está definido) seja um retângulo tal como {(x, y) ∈ 2 , 0 ≤ x ≤ L, 0 ≤ y ≤ M },

um disco {(x, y) ∈ 2 , 0 ≤ x ≤ L, 0 ≤ y ≤ 2π} com uma dependência periódica de perı́odo 2π

na variável y (que representaria um ângulo, em algum sistema de coordenadas) ou talvez um toro

{(x, y) ∈ 2 , 0 ≤ x ≤ 2π, 0 ≤ y ≤ 2π} com uma dependência periódica de perı́odo 2π em ambas as

variáveis. Os exemplos são os melhores mestres nessa discussão.

Assim, mesmo que uma equação diferencial tenha a forma (8.169) o método de separação de variáveis
será ineficaz se as condições de contorno e subsidiárias não forem compatı́veis com soluções particulares
na forma de um produto.
Um fato importante observado na prática (vide os exemplos tratados adiante) é que já a imposição
de algumas das condições de contorno ou subsidiárias fixa todos os valores possı́veis para a constante de
separação λ e, em muitos casos, esse conjunto de valores possı́veis é um conjunto contável: {λ n , n ∈ }.
Para cada uma dessas constantes λn haverá possivelmente duas soluções independentes para a equação
(8.170) e duas soluções independentes para a equação (8.171) (pois são equações de segunda ordem 35 ).
Assim, para cada n ∈ teremos associada uma constante de separação λn , duas soluções linearmente

(1) (2)
independentes, Xn e Xn , para a equação (8.170) (a solução geral sendo uma combinação linear
(1) (2)
de ambas) e duas soluções linearmente independentes, Yn e Yn , para a equação (8.171) (a solução
geral sendo uma combinação linear de ambas). A solução particular fornecida
pelo Ansatz u(x,
y) =
(1) (2) (1) (2)
X(x)Y (y) assume assim, para cada n, a forma αn Xn (x) + βn Xn (x) γn Yn (y) + δn Yn (y) , onde
αn , βn , γn e δn são constantes.
Como a equação (8.169) é linear e homogênea, e as condições de contorno são homogêneas, o
princı́pio de sobreposição se aplica e uma solução mais geral seria obtida somando-se as soluções obtidas
para cada n, ou seja,
X
(1) (2) (1) (2)
αn Xn (x) + βn Xn (x) γn Yn (y) + δn Yn (y) . (8.173)
n∈
As constantes αn , βn , γn e δn devem ainda ser fixadas através das demais condições de contorno e
subsidiárias (que não aquelas que já foram usadas para fixar os λn ’s) e, após isso, é preciso também
demonstrar que a série (8.173) assim obtida converge.
Será, afinal, a expressão (8.173) a solução completa do problema, que resolve a equação diferencial
e satisfaz todas as condições de contorno e subsidiárias? Em muitos casos, a resposta é sim, o que
pode ser provado por teoremas que garantem a unicidade de soluções de certas equações diferenciais
que satisfaçam certas condições de contorno. Vide Seção 8.3.2, página 485 e Seção 8.B, página 512.
Como comentamos, e como ilustram os exemplos que se seguirão, o método de separação de variáveis
delineado acima é feliz em resolver vários problemas envolvendo equações diferenciais parciais de inte-
resse em Fı́sica. Mas, o estudante não deve adquirir a falsa impressão de que o método de separação
de variáveis é o único método de solução disponı́vel para equações diferenciais parciais. Muitos ou-
tros métodos são oferecidos na gigantesca literatura sobre o assunto (vide para tal [25, 26] ou mesmo
[135]), cada qual empregável em uma classe especı́fica de equações. Para nos limitarmos a um único
exemplo, citamos o chamado método das caraterı́sticas, que também permite a resolução de certas
equações diferenciais parciais em termos de equações diferenciais ordinárias. Boa parte do estudo de
equações diferenciais parciais não é voltado à procura de soluções para as equações, mas sim a análises
qualitativas de propriedades das soluções. Muitas vezes, advêm dessas análises informações úteis sobre
o comportamento do sistema de interesse que não são facilmente obtenı́veis diretamente das soluções,
mesmo caso estas sejam conhecidas (vide para tal [43], [34], [96] [25, 26]).
8.3.2 Uma Breve Discussão Sobre Unicidade de Soluções

Como comentamos acima, teoremas de unicidade de soluções são de importância crucial para jus-
tificar o uso de métodos como o de separação de variáveis para a procura de soluções de equações
diferenciais parciais. Nesta breve seção, exporemos o leitor a alguns desses teoremas e seus métodos
de demonstração. A intenção é pedagógica e por isso escolhemos dois tipos de equações simples mas
de interesse fı́sico, as equações de difusão e de onda com coeficientes constantes em uma dimensão
espacial. Generalizações serão apresentadas na Seção 8.B, página 512.
35
Nada impede, porém, que se tenha A ≡ 0 ou B ≡ 0, em cujo caso uma das equações (8.170) ou (8.171) será de
primeira ordem. Tal ocorre, por exemplo, na equação de difusão. Vide página 491.
• Unicidade de soluções para a equação de difusão em um intervalo finito
A proposição que segue apresenta condições que garantem unicidade para as soluções da equação
de difusão a coeficientes constantes definida em um intervalo finito da reta sob certas condições iniciais
e de contorno.
Proposição 8.2 Considere a equação diferencial
∂u ∂2u
− K 2 = F (x, t) , (8.174)
∂t ∂x
com K > 0 constante, e F é uma função dada (em princı́pio arbitrária). Acima, x ∈ [0, L] para algum
L > 0 e t ≥ 0. As condições iniciais são
u(x, 0) = u0 (x), (8.175)
onde u0 : [0, L] → é uma função arbitrária. Considere os seguintes tipos de condições de contorno.
I. Condições de Dirichlet36 :
u(0, t) = f1 (t), u(L, t) = f2 (t) .
II. Condições de Neumann37 :

∂u ∂u
(0, t) = f3 (t), (L, t) = f4 (t) .
∂x ∂x
Acima fi são funções arbitrárias.

Então, caso exista, a solução de (8.174) sob as condições iniciais (8.175) é única tanto sob condições
de contorno do tipo de Dirichlet quanto sob condições de contorno do tipo de Neumann. 2
A proposição acima garante unicidade da solução para qualquer função F (x, t) e quaisquer funções
fi , mas não garante a existência de soluções. Para garantir existência e exibir uma solução (por exemplo
em termos de séries de Fourier) é preciso ser mais restritivo quanto à função F e às funções f i . A
demonstração da Proposição 8.2 é apresentada na forma do exercı́cio dirigido que segue. Generalizações
encontram-se na Proposição 8.5, página 513, e a Proposição 8.6, página 517.
E. 8.26 Exercı́cio. Prova da Proposição 8.2. Para demonstrar a unicidade de solução da equação
diferencial (8.174) sob as condições acima procede-se da seguinte forma. Suponha que haja duas soluções u
e v da equação acima, ambas satisfazendo as mesmas condições de contorno e as mesmas condições iniciais.
Defina w(x, t) := u(x, t) − v(x, t). Desejamos mostrar que w = 0, implicando que as duas soluções u e
v são em verdade iguais.
a. Mostre que w satisfaz a equação diferencial homogênea

∂w ∂2w
−K = 0. (8.176)
∂t ∂x2
36
37
b. Mostre que w satisfaz a condição inicial w(x, 0) = 0.
c. Mostre que w satisfaz as condições de contorno
w(0, t) = 0, w(L, t) = 0 , (8.177)
no caso de condições de Dirichlet ou

∂w ∂w
(0, t) = 0, (L, t) = 0 , (8.178)
∂x ∂x
no caso de condições de Neumann.
d. Defina Z L
E(t) = (w(x, t))2 dx .
0
Mostre que E(t) ≥ 0 para todo t. (Trivial).
e. Mostre que E(0) = 0. (Use as condições iniciais de w).
f. Mostre, diferenciando dentro da integral, usando integração por partes e usando a equação diferencial
(8.176), que
Z L 2
0 ∂w ∂w ∂w
E (t) = −2K dx + 2K w(L, t) (L, t) − w(0, t) (0, t) .
0 ∂x ∂x ∂x
g. Conclua que 2
Z L
0 ∂w
E (t) = −2K dx
0 ∂x
supondo as condições de contorno (8.177) ou (8.178) para w. Conclua que, sob essas condições,
E 0 (t) ≤ 0 para todo t.
h. Conclua de g, d e e que E(t) = 0 para todo t.
i. Conclua daı́ que w(x, t) é identicamente nula.
Uma das razões de expormos os passos acima de forma tão detalhada é pedagógica: esses passos são
seguidos, nem sempre com a mesma trivialidade, em outras demonstrações de teoremas de unicidade
de soluções de equações diferenciais parciais. Para teoremas de unicidade válidos em generalizações da
equação de difusão vide, por exemplo, a Proposição 8.5, página 513, e a Proposição 8.6, página 517.
Podemos generalizar um pouco a proposição acima, mas apenas para condições de Dirichlet. Isso é
o conteúdo da proposição que segue.
∂u ∂2u ∂u
−K 2 −α = F (x, t) , (8.179)
∂t ∂x ∂x
com K > 0, α ∈ , constantes, e F é uma função dada (em princı́pio arbitrária). Acima, x ∈ [0, L]

para algum L > 0 e t ≥ 0. As condições iniciais são
u(x, 0) = u0 (x), (8.180)
onde u0 : [0, L] → é uma função arbitrária. Então, para condições de Dirichlet:
u(0, t) = f1 (t), u(L, t) = f2 (t) ,
onde fi são funções arbitrárias, a solução de (8.179) é única, caso exista. 2
Prova. A prova segue os mesmos passos descritos no Exercı́cio E. 8.26, mas agora
Z L 2
0 ∂w ∂w ∂w
E (t) = −2K dx + 2K w(L, t) (L, t) − w(0, t) (0, t) + α w(L, t)2 − w(0, t)2 .
0 ∂x ∂x ∂x
Porém, os dois últimos termos são nulos, em função das condições de Dirichlet, e obtemos a mesma
expressão para E 0 (t) que no caso do Exercı́cio E. 8.26.
• Unicidade de soluções para a equação de ondas em um intervalo finito
Vamos agora considerar outra equação importante em Fı́sica, a equação de ondas. A proposição que
segue apresenta condições que garantem unicidade para as soluções da equação de ondas a coeficientes
constantes definida em um intervalo finito da reta sob certas condições iniciais e de contorno.
∂2u 2
2 ∂ u ∂u
2
− c 2
+γ = F (x, t) (8.181)
∂t ∂x ∂t
com c > 0, γ ≥ 0, constantes, sendo F uma função dada (em princı́pio arbitrária). Acima, x ∈ [0, L]
para algum L > 0 e t ≥ 0. As condições iniciais são
∂u
u(x, 0) = u0 (x), (x, 0) = v0 (x) , (8.182)
∂t
onde u0 , v0 : [0, L] → são igualmente funções arbitrárias. Para as condições de contorno, conside-
ramos
I. Condições de Dirichlet:
u(0, t) = f1 (t), u(L, t) = f2 (t) .
II. Condições de Neumann:

∂u ∂u
(0, t) = f3 (t), (L, t) = f4 (t) .
∂x ∂x
Acima fi são funções arbitrárias.

Então, caso exista, a solução de (8.181) com as condições iniciais (8.182) é única tanto no caso de
condições de contorno do tipo de Dirichlet quando do tipo de Neumann. 2
A proposição acima garante unicidade da solução para qualquer função F (x, t) e quaisquer funções
fi , mas não garante a existência de soluções. Para garantir existência e exibir uma solução (por
exemplo em termos de séries de Fourier) é preciso ser mais restritivo quanto à função F e às funções
fi . A proposição acima pode ser bastante generalizada. Isso é apresentado na Proposição 8.7, página
517.
E. 8.27 Exercı́cio. Prova da Proposição 8.4. Para demonstrar a unicidade de solução da equação
diferencial sob as condições acima proceda da seguinte forma: suponha que haja duas soluções u e v da
equação acima, ambas satisfazendo as mesmas condições de contorno e as mesmas condições iniciais. Defina
w(x, t) = u(x, t) − v(x, t). Desejamos mostrar que w = 0, implicando que as duas soluções u e v são,
em verdade, iguais.
a. Mostre que w satisfaz a equação diferencial homogênea
∂2w 2
2 ∂ w ∂w
2
− c 2
+γ = 0.
∂t ∂x ∂t
b. Mostre que w satisfaz as condições iniciais

∂w
w(x, 0) = 0, (x, 0) = 0
∂t
c. Mostre que w satisfaz as condições de contorno
w(0, t) = 0, w(L, t) = 0 , (8.183)
no caso de condições de Dirichlet ou

∂w ∂w
(0, t) = 0, (L, t) = 0 (8.184)
∂x ∂x
no caso de condições de Neumann.
d. Defina Z " 2 2 #
L
∂w ∂w
E(t) = + c2 dx .
0 ∂t ∂x
Mostre que E(t) ≥ 0 para todo t. (Trivial).
e. Mostre que E(0) = 0. (Use as condições iniciais de w).

f. Mostre, diferenciando dentro da integral e usando integração por partes, que
Z L
0 ∂w ∂ 2 w 2
2 ∂ w
E (t) = 2 −c dx .
0 ∂t ∂t2 ∂x2
Para a integração por partes é preciso usar as condições de contorno (8.183) ou (8.184) para w.
g. Usando a equação diferencial de w conclua que
Z L 2
0 ∂w
E (t) = −2γ dx .
0 ∂t
e, portanto, E 0 (t) ≤ 0 para todo t.
h. Conclua de g, d e e que E(t) = 0 para todo t.
i. Conclua daı́ que w(x, t) é uma constante, ou seja, não depende de x e t. Disso, conclua pela condição
inicial w(x, 0) = 0 que w é identicamente nula.
Sob a luz das Proposições 8.2, 8.3, 8.5 e 8.6 (páginas 486, 488, 513 e 517, respectivamente), o
estudante não deve ser levado a pensar que a unicidade seja uma propriedade comum a todas as
equações diferenciais parciais lineares com as condições iniciais e de contorno como as que tratamos.
Vejamos um contra-exemplo.
E. 8.28 Exercı́cio. Seja a equação diferencial linear e homogênea

∂u ∂u
(1 − 2x)t − x(1 − x) = 0,
∂t ∂x
para x ∈ [0, 1], t ≥ 0, com a condição inicial u(x, 0) = 0 e as condições de contorno u(0, t) = u(1, t) = 0.
a. Esse problema tem infinitas soluções. Mostre que todas as funções da forma v α (x, t) = [x(1 − x)t]α
com α > 0 satisfazem a equação diferencial, a condição inicial e as condições de contorno acima.
Observe que a função u(x, t) ≡ 0 também satisfaz a equação diferencial acima, assim como a condição
inicial e as condições de contorno.
b. Seja 0 < a < b < ∞ e h uma função contı́nua de [a, b] em . Mostre que
Z b
wh (x, t) = h(α)[x(1 − x)t]α dα
a
também satisfaz a equação diferencial, a condição inicial e as condições de contorno acima.
6
8.3.3 As Equações de Helmholtz e de Laplace

Nesta seção apresentaremos alguns problemas envolvendo as equações diferenciais parciais de Laplace e
Helmholtz dos quais emergem, pelo método de separação de variáveis, algumas das equações diferenciais
ordinárias – e suas soluções – de que tratamos em capı́tulos anteriores.
• A equação de onda
A equação de onda
∂2u
(~x, t) − c2 ∆u(~x, t) = 0
∂t2
com c > 0, pode ser tratada pelo procedimento de separação de variáveis, através do qual procuramos
soluções independentes que sejam da forma de um produto u(~x, t) = T (t)E(~x). Por substituição na
equação de onda, somos rapidamente levados à seguinte equação:
1 T 00 (t) ∆E(~x)
2
= .
c T (t) E(~x)
Como o lado esquerdo é uma função somente de t e o lado direito uma função somente das coordenadas
espaciais ~x, a igualdade acima só é possı́vel se ambos os lados forem iguais a uma constante, a qual
denotaremos por −λ2 . Assim, concluı́mos que
T 00 (t) + (cλ)2 T (t) = 0 , (8.185)
∆E(~x) + λ2 E(~x) = 0 . (8.186)
Obtemos por esse procedimento duas equações, uma envolvendo apenas a função T , outra a função
E e uma incógnita extra, a constante λ, a qual deverá ser determinada pela fixação de certas condições
adicionais sobre o problema, por exemplo, através de condições de contorno. Tais constantes que
aparecem quando do método de separação de variáveis são denominadas constantes de separação.
A solução da equação temporal é bem simples:
T (t) = β1 + β2 t , caso λ = 0 ,
(8.187)
T (t) = α1 cos(λct) + α2 sen (λct) , caso λ 6= 0 ,
onde α1 , α2 , β1 e β2 são constantes arbitrárias a serem tipicamente fixadas por condições iniciais.
• A equação de difusão
A equação de difusão
∂u
(~x, t) − K∆u(~x, t) = 0
∂t
com K > 0, pode ser tratada pelo procedimento de separação de variáveis, através do qual procuramos
soluções independentes que sejam da forma de um produto u(~x, t) = T (t)E(~x). Por substituição na
equação de onda, somos rapidamente levados à seguinte equação:
1 T 0 (t) ∆E(~x)
= .
K T (t) E(~x)
Como o lado esquerdo é uma função somente de t e o lado direito uma função somente das coordenadas
espaciais ~x, a igualdade acima só é possı́vel se ambos os lados forem iguais a uma constante, a qual
denotaremos por −λ2 . Assim, concluı́mos que
T 0 (t) + λ2 K T (t) = 0 ,
∆E(~x) + λ2 E(~x) = 0 .
Obtemos por esse procedimento duas equações, uma envolvendo apenas a função T , outra a função
E e uma incógnita extra, a constante λ, a qual deverá ser determinada pela fixação de certas condições
adicionais sobre o problema, por exemplo, através de condições de contorno.
A solução da equação temporal é bem simples:
T (t) = β1 , caso λ = 0 ,
(8.188)
2 Kt
T (t) = α1 e−λ , caso λ 6= 0 ,
onde α1 e β1 são constantes arbitrárias a serem tipicamente fixadas por condições iniciais.
• As equações de Helmholtz e de Laplace
Como se observa, tanto no caso da equação de onda quanto no caso da equação de difusão, a função
E(~x), que contem a dependência espacial da função u(~x, t), satisfaz a equação diferencial parcial
∆E(~x) + λ2 E(~x) = 0 ,
com λ constante. No caso em que λ 6= 0 essa equação diferencial parcial é denominada equação de
Helmholtz38 . No caso λ = 0 temos a chamada equação de Laplace39
∆E(~x) = 0 .
Essa última equação aparece em vários outros contextos, por exemplo na Eletrostática.
Trataremos dessas duas equações em duas e três dimensões em coordenadas polares e esféricas,
respectivamente.
• A Equação de Laplace em duas dimensões em coordenadas polares
O operador Laplaciano em duas dimensões em coordenadas polares assume a forma

1 ∂ ∂u 1 ∂2u
∆u = ρ + 2 2 (8.189)
ρ ∂ρ ∂ρ ρ ∂ϕ
e a equação de Laplace fica
1 ∂ ∂E 1 ∂2E
ρ + = 0.
ρ ∂ρ ∂ρ ρ2 ∂ϕ2
38
Hermann Ludwig Ferdinand von Helmholtz (1821-1894).
39
E agora é tomada como uma função de ρ e ϕ.

O método de separação de variáveis propõe procurarmos soluções independentes dessa equação que
sejam da forma de um produto: E(ρ, ϕ) = Ξ(ρ)Φ(ϕ). Inserindo isso na equação de Laplace, somos
levados a
ρ (ρΞ0 (ρ))0 Φ00 (ϕ)
= − .
Ξ(ρ) Φ(ϕ)
Como o lado esquerdo é uma função somente de ρ e o lado direito uma função somente de ϕ, a igualdade
acima só é possı́vel se ambos os lados forem iguais a uma constante de separação, a qual denotaremos
por ν 2 . Assim, concluı́mos que
ρ2 Ξ00 (ρ) + ρΞ0 (ρ) − ν 2 Ξ(ρ) = 0 ,
Φ00 (ϕ) + ν 2 Φ(ϕ) = 0 .
Reconhecemos que a equação para Ξ é uma equação de Euler, cuja solução geral é α ν ρν + βν ρ−ν ,
caso ν 6= 0, ou α0 ln(ρ) + β0 , caso ν = 0. Aqui, α’s e β’s são constantes arbitrárias.
Concluı́mos que a equação de Laplace em duas dimensões em coordenadas polares possui soluções
independentes da forma

E(ρ, ϕ) = α0 ln(ρ) + β0 δ0 ϕ + γ0 , caso ν = 0 ,
(8.190)
E(ρ, ϕ) = αν ρν + βν ρ−ν δν cos(νϕ) + γν sen (νϕ) , caso ν 6= 0 .
Acima α’s, β’s, γ’s e δ’s são constantes arbitrárias a serem fixadas por condições adicionais a serem
impostas à solução. Por exemplo, se desejarmos que as soluções sejam funções periódicas em ϕ de
perı́odo 2π, então devemos impor que δ0 = 0 e que ν seja um inteiro.
A solução geral da equação de Laplace em duas dimensões que representa funções periódicas de
perı́odo 2π em ϕ é, portanto,
X∞
u(ρ, ϕ) = γ0 ln(ρ) + αm ρm + βm ρ−m δm cos(mϕ) + γm sen (mϕ) ,
m=−∞
ou, em forma complexa,

∞
X
u(ρ, ϕ) = γ0 ln(ρ) + am ρm + bm ρ−m eimϕ ,
m=−∞
onde γ0 , am e bm são constantes a serem determinadas por condições adicionais a serem impostas à
solução.
• A Equação de Helmholtz em duas dimensões em coordenadas polares
Devido à forma do operador Laplaciano em duas dimensões em coordenadas polares dada em (8.189),
a equação de Helmholtz assume a forma

1 ∂ ∂E 1 ∂2E
ρ + 2 2
+ λ2 E = 0 .
ρ ∂ρ ∂ρ ρ ∂ϕ
E agora é tomada como uma função de ρ e ϕ.

sejam da forma de um produto: E(ρ, ϕ) = Ξ(ρ)Φ(ϕ). Inserindo isso na equação de Helmholtz, somos
levados a
ρ (ρΞ0 (ρ))0 Φ00 (ϕ)
+ λ2 ρ2 = − .
Ξ(ρ) Φ(ϕ)
Como o lado esquerdo é uma função somente de ρ e o lado direito uma função somente de ϕ, a igualdade
acima só é possı́vel se ambos os lados forem iguais a uma constante de separação, a qual denotaremos
por ν 2 . Assim, concluı́mos que
ρ2 Ξ00 (ρ) + ρΞ0 (ρ) + (λ2 ρ2 − ν 2 )Ξ(ρ) = 0 ,
Φ00 (ϕ) + ν 2 Φ(ϕ) = 0 .
Pela mudança de variável40 z = λρ e definindo y(z) = y(λρ) = Ξ(ρ), a primeira equação acima
transforma-se em
z 2 y 00 (z) + zy 0 (z) + (z 2 − ν 2 )y(z) = 0 ,
que podemos reconhecer como sendo a equação de Bessel de ordem ν.
Vemos assim que o método de separação de variáveis para a equação de Helmholtz em duas di-
mensões em coordenadas polares conduz a soluções independentes da forma E(ρ, ϕ) = y(λρ)Φ(ϕ)
onde as funções y e Φ satisfazem as equações ordinárias
z 2 y 00 (z) + zy 0 (z) + (z 2 − ν 2 )y(z) = 0 ,
Φ00 (ϕ) + ν 2 Φ(ϕ) = 0 .

sendo z = λρ.
Concluı́mos que a equação de Helmholtz em duas dimensões em coordenadas polares possui soluções
independentes da forma

E(ρ, ϕ) = α0 J0 (λρ) + β0 N0 (λρ) δ0 ϕ + γ0 , caso ν = 0 ,
(8.191)
E(ρ, ϕ) = αν Jν (λρ) + βν Nν (λρ) δν cos(νϕ) + γν sen (νϕ) , caso ν 6= 0 .
Acima, Jν são as funções de Bessel de ordem ν e Nν são as funções de Neumann de ordem ν. Fora isso,
α’s, β’s, γ’s e δ’s são constantes arbitrárias a serem fixadas por condições adicionais a serem impostas
à solução.
Por exemplo, se desejarmos que as soluções sejam funções periódicas em ϕ de perı́odo 2π, então
devemos impor que δ0 = 0 e que ν seja um inteiro.
A solução geral da equação de Helmholtz em duas dimensões que representa funções periódicas de
perı́odo 2π em ϕ é, portanto,
X ∞
u(ρ, ϕ) = αm Jm (λρ) + βm Nm (λρ) δm cos(mϕ) + γm sen (mϕ) ,
m=−∞
40
Aqui supomos λ 6= 0.

∞
X
u(ρ, ϕ) = am Jm (λρ) + bm Nm (λρ) eimϕ ,
m=−∞
onde am e bm são constantes a serem determinadas por condições adicionais a serem impostas à solução.
Recomendamos ao leitor o exercı́cio instrutivo de comparar as equações radiais obtidas acima no
caso de Laplace e de Helmholtz em duas dimensões, assim como suas soluções.
• A Equação de Laplace em três dimensões em coordenadas esféricas
O operador Laplaciano em três dimensões em coordenadas esféricas assume a forma

1 ∂ 2 ∂u 1 ∂ ∂u 1 ∂2u
∆u = 2 r + ( sen θ) + . (8.192)
r ∂r ∂r sen θ ∂θ ∂θ ( sen θ)2 ∂ϕ2
Assim, a equação de Laplace em três dimensões em coordenadas esféricas fica

1 ∂ 2 ∂E 1 ∂ ∂E 1 ∂2E
r + ( sen θ) + = 0,
r 2 ∂r ∂r sen θ ∂θ ∂θ ( sen θ)2 ∂ϕ2
onde E agora é uma função de r, θ e ϕ.

sejam da forma de um produto: E(r, θ, ϕ) = R(r)Y (θ, ϕ). Inserindo isso na equação de Laplace,
somos levados a
0
(r 2 R0 (r)) 1 1 ∂ ∂Y 1 ∂2Y
= − ( sen θ) (θ, ϕ) + (θ, ϕ) .
R(r) Y (θ, ϕ) sen θ ∂θ ∂θ ( sen θ)2 ∂ϕ2
Mais uma vez constatamos que, pelo fato de o lado esquerdo ser função apenas de r enquanto que
o lado direito é função de θ e ϕ, a igualdade acima implica que ambos os lados devem ser iguais a
uma constante. Por conveniência futura, escrevemos essa constante na forma σ(σ + 1) (note que todo
número complexo c pode ser escrito dessa forma, pois a equação σ 2 + σ − c = 0 sempre tem pelo menos
uma solução). Concluı́mos que
r 2 R00 (r) + 2rR0 (r) − σ(σ + 1)R(r) = 0 . (8.193)

1 ∂ ∂Y 1 ∂2Y
( sen θ) (θ, ϕ) + (θ, ϕ) + σ(σ + 1)Y (θ, ϕ) = 0 . (8.194)
Reconhecemos que a equação para R é uma equação de Euler, cujas soluções são
R(r) = α1 r σ + α2 r −(1+σ) , caso σ 6= − 12

. (8.195)
1
R(r) = r − 2 (α1 ln(r) + α2 ), caso σ = − 12
Passemos agora à equação para Y (θ, ϕ), a qual propomos novamente tratar pelo método de se-
paração de variáveis. Tomemos, então, Y na forma de um produto Y (θ, ϕ) = Θ(θ)Φ(ϕ). Somos
conduzidos a
sen θ d dΘ Φ00 (ϕ)
( sen θ) (θ) + σ(σ + 1)( sen θ)2 = − .
Θ(θ) dθ dθ Φ(ϕ)
Mais uma vez, a igualdade acima só é possı́vel se ambos os lados forem iguais a uma constante, que
escrevemos na forma µ2 . Ficamos com

1 d dΘ µ2
sen (θ) (θ) + σ(σ + 1)Θ(θ) − Θ(θ) = 0 , (8.196)
sen (θ) dθ dθ ( sen (θ))2
Φ00 (ϕ) + µ2 Φ(ϕ) = 0 . (8.197)
A equação para Φ tem por soluções


 δ0 ϕ + γ 0 , caso µ = 0 ,
Φ(ϕ) = (8.198)

δµ cos(µϕ) + γµ sen (µϕ) , caso µ 6= 0 .
Claramente, se desejarmos que Φ(ϕ) seja contı́nua e periódica de perı́odo 2π devemos impor que δ 0 = 0 e
que µ seja um inteiro, ou seja, µ = m ∈ em cujo caso a solução fica Φ(ϕ) = δm cos(mϕ)+γm sen (mϕ)
para todo µ = m ∈ (inclusive m = 0). Essa solução pode também ser escrita de forma complexa
como Φ(ϕ) = am eimϕ + bm e−imϕ para outras constantes am e bm .
A experiência ensina que para melhor tratarmos a equação (8.196) convem proceder a mudança de
variável
d 1 d
ζ = cos θ, com = − .
dζ sen (θ) dθ
Definindo também y(ζ) = Θ(θ), ou seja, Θ(θ) = y(cos θ), a equação diferencial para Θ transforma-se
em
d 2 dy µ2
(1 − ζ ) (ζ) + σ(σ + 1) y(ζ) − y(ζ) = 0 ,
dζ dζ 1 − ζ2
ou, equivalentemente,
µ2
(1 − ζ 2 )y 00 (ζ) − 2ζy 0(ζ) + σ(σ + 1) y(ζ) − y(ζ) = 0 .
1 − ζ2
Reconhecemos que se trata da equação de Legendre associada. Por (8.198) vemos que para o
caso em que Φ é contı́nua e periódica de perı́odo 2π devemos necessariamente ter µ = m ∈ . Como
discutimos quando tratamos da equação de Legendre associada, se desejarmos também que y(ζ) seja
finita nos extremos ±1 (ou seja, que Θ(θ) seja finita nos extremos θ = 0 e θ = π), devemos ter também
que σ = l ∈ , sendo que l e m relacionam-se por −l ≤ m ≤ l. As soluções para y(ζ) nesse caso são

os polinômios de Legendre associados y(ζ) = Plm (ζ) ou, em termos de θ, Θ(θ) = Plm (cos(θ)).
Concluı́mos, assim, que se desejarmos soluções que sejam periódicas de perı́odo 2π em ϕ e finitas
nos extremos θ = 0 e θ = π, temos

Y (θ, ϕ) = Plm (cos(θ)) δm cos(mϕ) + γm sen (mϕ)

−imϕ
Y (θ, ϕ) = Plm (cos(θ)) am e imϕ
+ bm e .
Constatamos que o lado direito é uma combinação linear dos harmônicos esféricos Y lm (θ, ϕ) e Yl−m (θ, ϕ),
definidos em (8.65).
Assim, retornando à E(r, θ, ϕ), concluı́mos que sob as condições mencionadas a equação de Laplace
tem soluções independentes da forma

β
E(r, θ, ϕ) = α r + l+1 Ylm (θ, ϕ) ,
l
r
com l ∈ , m ∈
e −l ≤ m ≤ l, α e β sendo constantes. Acima, adotamos para a parte radial a
primeira solução de (8.195), pois σ = l ∈ e, portanto, σ 6= − 21 .

A solução geral da equação de Laplace em três dimensões que representa funções periódicas de
perı́odo 2π em ϕ e finitas nos extremos θ = 0 e θ = π é, portanto,
∞ X
X l
βl, m
l
u(r, θ, ϕ) = αl, m r + l+1 Ylm (θ, ϕ) .
l=0 m=−l
r
Aqui, αl, m e βl, m são constantes a serem determinadas por condições adicionais a serem impostas à
solução.
• Expansão de multipolos
Se soubermos a priori que a solução u(r, θ, ϕ) converge a 0 para r → ∞, podemos supor que as
constantes αl, m , acima, se anulam. Nesse caso a solução reduz-se a
X∞ X l
βl, m m
u(r, θ, ϕ) = Y (θ, ϕ) .
l+1 l
l=0 m=−l
r
Essa situação ocorre, por exemplo, na Eletrostática quando lidamos com o problema de determinar o
potencial elétrico produzido por uma distribuição de cargas elétricas estáticas limitadas a uma região
finita. Nesse caso a expansão acima é denominada expansão de multipolos. O mesmo tipo de situação
ocorre se desejarmos determinar o potencial gravitacional produzido por uma distribuição de matéria
limitada a uma região finita (por exemplo, um planeta).
Se soubermos a priori, por exemplo, por considerações de simetria, que a função u(r, θ, ϕ) não
depende
q da variável ϕ, então os termos da soma com m 6= 0 devem ser todos nulos. Como Y l0 (θ, ϕ) =
2l+1
4π
Pl (cos(θ)), onde Pl são os polinômios de Legendre, obtemos apenas
∞
X
l βl
u(r, θ) = αl r + l+1 Pl (cos(θ))
r
l=0
para certas constantes αl e βl . Novamente, se também soubermos que a solução u(r, θ) converge a 0
para r → ∞, podemos supor que as constantes αl , acima, anulam-se, e obtemos para a expansão de
multipolos
X∞
βl
u(r, θ) = Pl (cos(θ)) . (8.199)
l=0
r l+1
Historicamente, o problema que conduziu Legendre aos polinômios de Legendre foi o de determinar
o potencial gravitacional de uma distribuição de matéria limitada a uma região finita e simétrica em
relação ao eixo z. Isso conduziu-o à função geratriz dos polinômios de Legendre (expressão (8.35),
página 440), da qual ele derivou a expressão para os Pl (cos(θ)) como polinômios em cos(θ) e, daı́, à
última expressão.
• A Equação de Helmholtz em três dimensões em coordenadas esféricas
Devido à forma assumida pelo operador Laplaciano, expressa em (8.192), a equação de Helmholtz
em três dimensões em coordenadas esféricas assume a forma

1 ∂ 2 ∂E 1 ∂ ∂E 1 ∂2E
r + ( sen θ) + + λ2 E = 0 ,
r 2 ∂r ∂r sen θ ∂θ ∂θ ( sen θ)2 ∂ϕ2
onde E agora é uma função de r, θ e ϕ.
sejam da forma de um produto: E(r, θ, ϕ) = R(r)Y (θ, ϕ). Inserindo isso na equação de Helmholtz,
somos levados a
0
(r 2 R0 (r)) 2 2 1 1 ∂ ∂Y 1 ∂2Y
+λ r = − ( sen θ) (θ, ϕ) + (θ, ϕ) .
R(r) Y (θ, ϕ) sen θ ∂θ ∂θ ( sen θ)2 ∂ϕ2
Mais uma vez constatamos que, pelo fato de o lado esquerdo ser função apenas de r enquanto que
o lado direito é função de θ e ϕ, a igualdade acima implica que ambos os lados devem ser iguais a
uma constante. Por conveniência futura, escrevemos essa constante na forma σ(σ + 1) (note que todo
número complexo c pode ser escrito dessa forma, pois a equação σ 2 + σ − c = 0 sempre tem pelo menos
uma solução). Concluı́mos que

r 2 R00 (r) + 2rR0 (r) + λ2 r 2 − σ(σ + 1) R(r) = 0 , (8.200)

1 ∂ ∂Y 1 ∂2Y
( sen θ) (θ, ϕ) + (θ, ϕ) + σ(σ + 1)Y (θ, ϕ) = 0 . (8.201)
Reconhecemos que a equação para Y (θ, ϕ) é precisamente a mesma que obtivemos no caso da
equação de Laplace em três dimensões em coordenadas esféricas. Assim, se desejarmos soluções para
Y (θ, ϕ) que sejam periódicas de perı́odo 2π em ϕ e finitas nos extremos θ = 0 e θ = π, teremos que
fixar σ = l ∈ e Y (θ, ϕ) será uma combinação linear de Ylm (θ, ϕ) e Yl−m (θ, ϕ), onde m ∈ com

−l ≤ m ≤ l.
Concentremo-nos agora na equação radial. Pela mudança de variável 41 z = λr e definindo y(z) =
y(λr) = R(r), a equação (8.200) acima transforma-se em
z 2 y 00 (z) + 2zy 0 (z) + (z 2 − σ(σ + 1))y(z) = 0 ,
41
Aqui supomos λ 6= 0.
que podemos reconhecer como sendo a equação de Bessel esférica de ordem σ. Como mencionamos,
estamos interessados primordialmente no caso em que σ = l ∈ . Obtemos, nesse caso

R(r) = a jl (λr) + b nl (λr),

onde a e b são constantes e jl e nl são as funções de Bessel esféricas de ordem l e de Neumann esféricas
de ordem l, respectivamente.
Retornando a E(r, θ, ϕ), concluı́mos que, sob as hipóteses delineadas acima, a equação de
Helmholtz em três dimensões possui soluções independentes da forma

E(r, θ, ϕ) = α jl (λr) + β nl (λr) Ylm (θ, ϕ) ,
com l ∈ ,m∈ e −l ≤ m ≤ l, α e β sendo constantes.

A solução geral da equação de Helmholtz em três dimensões que representa funções periódicas de
perı́odo 2π em ϕ e finitas nos extremos θ = 0 e θ = π é, portanto,
∞ X
X l
u(r, θ, ϕ) = αl, m jl (λr) + βl, m nl (λr) Ylm (θ, ϕ) .
l=0 m=−l
Aqui, αl, m e βl, m são constantes a serem determinadas por condições adicionais a serem impostas à
solução.
Recomendamos ao leitor o exercı́cio instrutivo de comparar as equações radiais obtidas acima no
caso de Laplace e de Helmholtz em três dimensões, assim como suas soluções.
8.3.4 O Problema da Corda Pendurada

Se considerarmos o problema de determinar o movimento transversal, no regime de pequenas oscilações,
de uma corda de comprimento L, de densidade linear de massa ρ(x), com 0 ≤ x ≤ L, submetida a uma
tensão T (x), chegaremos à equação diferencial

∂2u ∂ ∂u
ρ(x) 2 − T (x) = 0,
∂t ∂x ∂x
onde u(x, t) representa o deslocamento transversal, no instante de tempo t, do ponto x da corda. A
expressão acima é conseqüência, essencialmente, da segunda lei de Newton e sua dedução pode ser
acompanhada, por exemplo, em [31]. Nosso propósito é aplicar a equação acima para determinar o
movimento de uma corda, ou barbante, homogêneo (ou seja, de densidade constante) e de comprimento
L que esteja pendurada por uma das suas extremidades em um campo gravitacional constante (por
exemplo, o da superfı́cie da Terra), a outra extremidade sendo mantida livre. Cada ponto da corda
estará sujeito a uma tensão igual ao peso do trecho de corda abaixo de si.
Para fixar idéias, vamos denotar por z a coordenada vertical e supor que a corda, quando parada,
localize-se no intervalo 0 ≤ z ≤ L, estando presa no ponto z = L, apenas. A função u(z, t) representará
o deslocamento horizontal da corda, digamos, no plano xz 42 , do ponto z no instante de tempo t. O
42
Movimentos no plano yz podem ser tratados também mas, por simplicidade, consideramos apenas esse caso mais
simples.
ponto da corda situada à altura z sustenta o peso do trecho de corda situado abaixo de si, ou seja,
entre 0 e z. Como a corda é homogênea, esse peso é ρgz, onde g é a aceleração da gravidade. Assim,
T (z) = ρgz e o problema
que queremos resolver é o de determinar a solução da equação diferencial
∂2u ∂ ∂u
ρ ∂t2 − ∂z ρgz ∂z = 0, ou seja,
∂2u ∂ ∂u
−g z = 0, (8.202)
∂t2 ∂z ∂z
para 0 ≤ z ≤ L, submetida à condição de contorno u(L, t) = 0 para todo t e a certas condições iniciais
u(z, 0) = u0 (z) e ∂u
∂t
(z, 0) = v0 (z) que fixam posição e velocidade transversal de cada ponto da corda
em t = 0.
Comecemos seguindo o método de separação de variáveis e procuremos soluções particulares na
forma de um produto u(z, t) = T (t)U (z). Inserindo isso em (8.202), obtemos facilmente
1 T 00 (t) (zU 0 (z))0

= .
g T (t) U (z)
Essa igualdade só é possı́vel se ambos os lados forem iguais a uma constante de separação, que deno-
tamos por −λ2 . Chegamos com isso a
T 00 (t) + λ2 gT (t) = 0 , (8.203)
zU 00 (z) + U 0 (z) + λ2 U (z) = 0 . (8.204)
As soluções da primeira equação, naturalmente, são
T (t) = a0 t + b0 , caso λ = 0 ,
√ √
T (t) = a1 cos(λ gt) + b1 sen (λ gt) , caso λ 6= 0 .
Para λ = 0 a equação (8.204) reduz-se a zU 00 (z) + U 0 (z) = 0, cuja solução é U (z) = c1 ln(z) + c2 .
Como desejamos que U (0) seja finita (o deslocamento da corda não pode divergir em nenhum ponto),
devemos impor c1 = 0 e, portanto, U (z) = c2 . Porém, como u(L, t) = 0 para todo t, devemos impor
U (L) = 0. Assim, c2 = 0 também e obtemos apenas a solução trivial U (z) = 0, o que corresponde a
uma corda eternamente parada. O caso interessante, portanto, está em λ 6= 0.
A equação (8.204) para λ 6= 0 pode ser transformada em uma equação conhecida através da mudança
de variáveis √ √
ζ = 4λ2 z , U (z) = y(ζ) = y ( 4λ2 z) ,
com a qual obtemos
ζ 2 y 00 (ζ) + ζy 0(ζ) + ζ 2 y(ζ) = 0 .
Essa equação, como se constata, é a equação de Bessel de ordem zero: ν = 0. Assim, suas soluções
são
y(ζ) = β1 J0 (ζ) + β2 N0 (ζ) ,
J0 sendo a função de Bessel de ordem 0 e N0 sendo a função de Neumann de ordem 0. Isso significa,
então, que √ √
U (z) = β1 J0 (2λ z) + β2 N0 (2λ z) .
√
A solução acima tem por particularidade que se β2 6= 0 o termo N0 (2λ z) diverge em z = 0. Esse
comportamento não é aceitável, obviamente, de modo que devemos impor43 β2 = 0.
√
Chegamos dessa forma à solução U (z) = J0 (2λ z) (adotando aqui β1 = 1), para
√ a qual devemos
impor a condição de contorno u(L, t) = 0, ou seja, U (L) = 0. Isso implica que 2λ L deve ser um dos
zeros αk0 , k ∈ , k ≥ 1, da função de Bessel J0 em + . Assim, concluı́mos que

αk0
λ = √ ,
2 L
e dessa forma, para 0 ≤ z ≤ L,
r
z
Uk (z) = J0 αk0 , k = 1, 2, 3, 4, . . . ,
L
representam soluções de (8.204) que satisfazem as condições de contorno requeridas. Tem-se, então,
que
0r 0 r r
αk g αk g z
uk (z, t) = ak cos t + bk sen t J0 αk0 , k = 1, 2, 3, 4, . . . ,
2 L 2 L L
são soluções particulares da equação de onda (8.202) que satisfazem as condições
0p de contorno
requeridas.
αk g p
Acima, ak e bk são constantes a serem determinadas. Cada função cos 2 L t + δ0 J0 αk0 Lz ,
k = 1, 2, 3, 4, . . ., representa um modo de vibração da corda pendurada.
A solução geral da equação de onda (8.202) que satisfaz as condições de contorno requeridas é dada
por
∞ 0 r 0 r r
X αk g αk g z
u(z, t) = ak cos t + bk sen t J0 αk0 , (8.205)
k=1
2 L 2 L L
∞ r 0r r 0 r r
∂u X αk0 g αk g αk0 g αk g z
(z, t) = −ak sen t + bk cos t J0 αk0 .
∂t 2 L 2 L 2 L 2 L L
k=1
∂u
Assim, a imposição das condições iniciais u(z, 0) = u0 (z) e ∂t
(z, 0) = v0 (z), que fixam posição e
velocidade da corda em t = 0, conduz a
X∞ r
z
u0 (z) = ak J0 αk0 , (8.206)
k=1
L
r ∞ r
1 gX z
v0 (z) = bk αk J0 αk0
0
. (8.207)
2 L k=1 L
43
Podemos interpretar a condição de finitude da solução em z = 0 como uma outra condição de contorno a ser imposta,
juntamente à condição u(L, t) = 0, para o outro extremo da corda.
Para determinarmos as constantes ak em termos de u0 e as constantes bk em termos de v0 faremos

uso das relações de ortogonalidade (8.144), página 475, para as funções de Bessel J 0 :
Z 1 2
(J1 (αk0 ))
J0 αk0 x J0 αl0 x x dx = δk, l . (8.208)
0 2
p
Multiplicando ambos os lados de (8.206)-(8.207) por J0 αl0 Lz e integrando-se em z entre 0 e L,
obtem-se
Z L r ∞
X Z L r r
0 z z z
J0 α l u0 (z) dz = ak J0 αl0 J0 αk0 dz ,
0 L 0 L L
k=1
Z r r ∞ Z L r r
L
z 1 g X z z
J0 αl0 v0 (z) dz = bk αk0 J0 αl0 J0 αk0 dz .
0 L 2 L k=1 0 L L
Agora,
Z L r r √z Z 1
z z x= L
(8.208) 2
J0 αl0 J0 αk0 dz = 2L J0 αk0 x J0 αl0 x x dx = L J1 (αk0 ) δk, l .
0 L L 0
Assim, concluı́mos que

Z L r
1 z
al = 2 J0 αl0 u0 (z) dz , (8.209)
L (J1 (αk0 )) 0 L
Z L r
2 z
bl = √ 2 J0 αl0 v0 (z) dz , (8.210)
αl0 gL (J1 (αl0 )) 0 L
para todos l ∈ , l ≥ 1.
A solução obtida acima satisfaz as condições de contorno e as condições iniciais propostas. A
Proposição 8.7, página 517, garante que a solução assim obtida é a única solução do problema, o que
a posteriori, justifica todo o nosso proceder. Note o leitor que as condições de contorno do problema
tratado acima correspondem às condições de contorno do tipo IV da Proposição 8.7, pois a corda está
fixa em z = L e a tensão anula-se em z = 0. Com isso, o problema de determinar o movimento da corda
pendurada a partir de condições iniciais como acima está completamente resolvido. Esse problema foi
um dos primeiros nos quais surgiram funções de Bessel como solução. Ele foi tratado pela primeira vez
em 1732 por D. Bernoulli4445 .
• As funções de Green para o problema
44
45
Em verdade, de acordo com os comentários históricos de [60], D. Bernoulli não incluiu a dependência temporal na sua
solução nem aplicou o princı́pio de sobreposição para somar os vários modos de vibração. Como comentamos à página
253, ainda que conhecido anteriormente, o princı́pio de sobreposição para a resolução de equações diferenciais lineares
homogêneas só se tornou de uso corrente sob a influência de Helmholtz, no séc. XIX.
Usando (8.209)-(8.210) podemos reescrever (8.205) como

Z L Z L
0 0 0
u(z, t) = G(z, t, z )u0 (z ) dz + H(z, t, z 0 )v0 (z 0 ) dz 0 , (8.211)
0 0
onde
∞ r r ! 0r
X 1 z z0 αk g
G(z, t, z 0 ) := 2 J0 0
αk J0 0
αk cos t ,
L (J1 (αk0 )) L L 2 L
k=1
∞ r r ! 0r
X 2 z z 0 αk g
H(z, t, z 0 ) := √ 2 J0 αk0 J0 αk0 sen t ,
αk0 gL (J1 (αk0 )) L L 2 L
k=1
são denominadas funções de Green46 do problema em questão. Note-se também que

∂H
G(z, t, z 0 ) = (z, t, z 0 ) .
∂t
A importância de (8.211) está em expressar a solução diretamente em termos das condições iniciais u 0
e v0 . As funções G e H contêm em si a informação de como os valores das condições iniciais no ponto
z 0 influenciam a solução no ponto z no instante de tempo t.
8.3.5 O Problema da Membrana Circular

Com o que obtivemos acima sobre a equação de Helmholtz em duas dimensões podemos abordar o
problema de determinar o movimento vibratório, a partir de uma condição inicial, de um tambor ou
membrana de raio R cujas bordas são fixas. Matematicamente, isso consiste em determinar as soluções
da equação de onda dentro de um disco de raio R > 0 no plano bidimensional, ou seja, a equação
∂2u
2
(~x, t) − c2 ∆u(~x, t) = 0 , (8.212)
∂t
com c > 0, sendo ~x restrito à região k~xk ≤ R, com condições de contorno u(~x, t) = 0 para todo t e
para todo ~x com k~xk = R e com certas condições iniciais u(~x, 0) = u0 (~x) e ∂u
∂t
(~x, 0) = v0 (~x) para
certas funções u0 (~x) e v0 (~x) convenientes.
Pelo que apresentamos acima, soluções particulares da equação de Helmholtz correspondente em
coordenadas polares são (por simplicidade escolhemos a solução complexa) da forma

am Jm (λρ) + bm Nm (λρ) eimϕ ,
onde am e bm são constantes47 . Como esperamos que a solução não apresente divergências em ρ = 0,
devemos ter bm = 0. A condição de contorno que impõe que a solução deve anular-se em ρ = R conduz
a Jm (λR) = 0, ou seja, λ = αkm /R, onde αkm é o k-ésimo zero da função de Bessel Jm (x) para x > 0.
46
George Green (1793-1841).
47
Caso λ = 0, a única solução da equação de Laplace que é não-singular em ρ = 0 e anula-se em ρ = R é a solução
identicamente nula. Vide solução da equação de Laplace em duas dimensões dada acima.
Isso fixa os valores da constante de separação λ. Para cada k a solução da equação temporal (8.185)
fica m m
αk c αk c
T (t) = α1 cos t + α2 sen t .
R R
Assim, uma solução particular da equação de onda satisfazendo as condições de contorno é

m m m
αk ct αk ct αk ρ
ak, m cos + bk, m sen Jm eimϕ ,
R R R
ak, m e bk, m sendo constantes. Cada uma dessas funções, para k ∈ em∈ , representa um modo de
vibração da membrana circular de raio R.
Pelo princı́pio de sobreposição (ou seja, pela linearidade e homogeneidade da equação (8.212) e das
condições de contorno consideradas), a solução geral u da equação de onda satisfazendo as condições
de contorno e sua derivada temporal ∂u ∂t
são dadas por
∞
X ∞
X
αkm ct αkm ct αkm ρ
u(ρ, ϕ, t) = ak, m cos + bk, m sen Jm eimϕ , (8.213)
k=1 m=−∞
R R R
X∞ ∞
X m m m
∂u ak, m αkm c αk ct bk, m αkm c αk ct αk ρ
(ρ, ϕ, t) = − sen + cos Jm eimϕ .
∂t k=1 m=−∞
R R R R R
As constantes ak, m e bk, m devem ser determinadas pelas condições iniciais. É aqui que entram as
relações de ortogonalidade das funções de Bessel e das funções eimϕ .
As condições iniciais impoem (tomando t = 0 nas duas equações acima) que
∞
X ∞
X 0
αkm0 ρ 0
u0 (ρ, ϕ) = a k 0 , m 0 Jm 0 eim ϕ ,
k 0 =1 m0 =−∞
R
X ∞ X ∞ 0 m0
bk0 , m0 αkm0 c αk 0 ρ 0
v0 (ρ, ϕ) = Jm 0 eim ϕ .
k 0 =1 m0 =−∞
R R
Multiplicando ambos os lados de ambas as expressões

R π i(m−m0por e−imϕ e tomando-se a integral em ϕ no
)ϕ
intervalo −π ≤ ϕ ≤ π, obtemos com o uso de −π e dϕ = 2πδm, m0 ,
Z π ∞
X
−imϕ αkm0 ρ
u0 (ρ, ϕ)e dϕ = 2π a k 0 , m Jm ,
−π R
k 0 =1
Z π X ∞ m
−imϕ bk0 , m αkm0 c αk 0 ρ
v0 (ρ, ϕ)e dϕ = 2π Jm .
−π k 0 =1
R R

αkm ρ ρ
Multiplicando ambos os lados de ambas as expressões por Jm e integrando-se as expressões
R R
resultantes para ρ entre 0 e R, obtemos

Z RZ π m ∞
X Z R m m
−imϕ αk ρ ρ αk ρ αk 0 ρ ρ
u0 (ρ, ϕ)e Jm dρdϕ = 2π ak 0 , m Jm Jm dρ ,
0 −π R R 0 0 R R R
k =1
Z R Z π X bk0 , m αm0 c ∞ Z R
−imϕ αkm ρ ρ k αkm ρ αkm0 ρ ρ
v0 (ρ, ϕ)e Jm dρdϕ = 2π Jm Jm dρ .
0 −π R R 0
R 0 R R R
k =1
Temos, porém, com a óbvia mudança de variáveis x = Rρ ,

Z R m m Z 1
αk ρ αk 0 ρ ρ (8.144) (Jm+1 (αkm ))2
Jm Jm dρ = R Jm (αkm x) Jm (αkm0 x) xdx = δk, k0 R
0 R R R 0 2
e, portanto,
Z R Z π
1 −imϕ αkm ρ
ak, m = u0 (ρ, ϕ)e Jm ρdρdϕ , (8.214)
π (Jm+1 (αkm ))2 R2 0 −π R
Z R Z π
1 −imϕ αkm ρ
bk, m = v0 (ρ, ϕ)e Jm ρdρdϕ . (8.215)
παkm c (Jm+1 (αkm ))2 R 0 −π R
Essas expressões determinam completamente os coeficientes ak, m e bk, m para todos k e m em temos
das condições iniciais. A solução assim obtida satisfaz, então, as condições de contorno e iniciais. A
Proposição 8.7, página 517, garante que a solução assim obtida é a única solução do problema proposto
(as condições de contorno que tratamos são do tipo de Dirichlet) o que, a posteriori, justifica todo o
nosso proceder.
• As funções de Green para o problema
Assim como no problema da corda pendurada, podemos expressar a solução diretamente em termos
das condições iniciais com o uso das chamadas funções de Green. Usando (8.214)-(8.215), podemos
reescrever (8.213) como
Z RZ π Z RZ π
0 0 0 0 0 0 0
u(ρ, ϕ, t) = G(ρ, ϕ, t, ρ , ϕ ) u0 (ρ , ϕ ) ρ dρ dϕ + H(ρ, ϕ, t, ρ0 , ϕ0 ) v0 (ρ0 , ϕ0 ) ρ0 dρ0 dϕ0 ,
0 −π 0 −π
(8.216)
onde
∞
X ∞
X
0 0 1 αkm ρ αkm ρ0 αkm ct 0
G(ρ, ϕ, t, ρ , ϕ ) := m 2 2 m
J Jm cos eim(ϕ−ϕ ) ,
k=1 m=−∞
π (J m+1 (α k )) R R R R
∞
X ∞
X
0 0 1 αkm ρ αkm ρ0 αkm ct 0
H(ρ, ϕ, t, ρ , ϕ ) := Jm Jm sen eim(ϕ−ϕ ) .
k=1 m=−∞
παkm c (Jm+1 (αkm ))2 R R R R
Essas são as funções de Green do problema em questão. Note-se novamente que

∂H
G(ρ, ϕ, t, ρ0 , ϕ0 ) = (ρ, ϕ, t, ρ0 , ϕ0 ) .
∂t
Tal como no problema da corda pendurada, a importância de (8.216) está em expressar a solução
diretamente em termos das condições iniciais u0 e v0 . As funções G e H contêm em si a informação
de como os valores das condições iniciais no ponto (ρ0 , ϕ0 ) influenciam a solução no ponto (ρ, ϕ) no
instante de tempo t.
8.3.6 O Oscilador Harmônico na Mecânica Quântica e a Equação de Her-

mite
A equação de Schrödinger48 independente do tempo para o oscilador harmônico unidimensional é
~2 d 2 k
− 2
ψ(x) + x2 ψ(x) = Eψ(x) , (8.217)
2m dx 2
onde E é um autovalor do operador de Hamilton49 , ~ é a constante de Planck50 , m a massa da partı́cula
e k a constante de Hooke51 . Definindo
2 1/4 r
~ k 2E x
α := , ω0 := , λ := − 1, z := , v(z) := ψ(x) = v(x/α) , (8.218)
mk m ~ω0 α
a equação (8.217) fica

v 00 (z) + (λ + 1 − z 2 )v(z) = 0 .
A experiência mostra que para melhor tratarmos dessa equação devemos definir uma nova função
2 2
u(z) := ez /2 v(z), ou seja, escrevemos v(z) = e−z /2 u(z), obtendo para u a equação diferencial
u00 (z) − 2zu0 (z) + λu(z) = 0 , (8.219)
a qual reconhecemos ser a equação de Hermite. Como discutimos, essa equação só possui soluções
2
que crescem mais lentamente que e+z /2 para |z| → ∞ se λ = 2n, sendo n um inteiro não-negativo. A
2
condição que u cresce mais lentamente que e+z /2 para |z| → ∞ é necessária para que v(z) e, portanto,
ψ(x), seja de quadrado integrável, uma condição fundamental para a Mecânica Quântica.
No caso em que λ = 2n, sendo n um inteiro não-negativo, a solução para (8.219) é u(z) = H n (z),
sendo Hn o n-ésimo polinômio de Hermite. Se λ = 2n, então, por (8.218), o valor de E é dado por

1
En := ~ω0 n + ,
2
para n = 0, 1, 2, 3 . . .. Essa equação expressa a quantização da energia do oscilador harmônico
unidimensional na Mecânica Quântica. Ainda para λ = 2n, sendo n um inteiro não-negativo, a solução
ψn (x) da equação de Schrödinger (8.217) será
x
−z 2 /2 x2
ψn (x) = cn Hn (z)e = c n Hn exp − 2 ,
α 2α
48
Erwin Rudolf Josef Alexander Schrödinger (1887-1961).
49
50
Max Karl Ernst Ludwig Planck (1858-1947).
51
Robert Hooke (1635-1703).
cRn sendo uma constante de normalização a ser fixada. Na Mecânica Quântica adota-se a normalização
∞
−∞
|ψn (x)|2 dx = 1. Isso implica,
Z ∞ 2 2 Z ∞
x x (8.72) √
1 = |cn | 2
Hn exp − 2 dx = α|cn | 2
(Hn (z))2 exp −z 2 dz = α|cn |2 2n n! π ,
−∞ α α −∞
q
1√
de onde se extrai, escolhendo-se cn real e positivo, que cn = α2n n! π
e, portanto,
s
1 x x2
ψn (x) = √ Hn exp − 2
α2n n! π α 2α
são os auto-estados normalizados de energia En para n = 0, 1, 2, 3 . . .. Com o uso de (8.72), é trivial

verificar ainda que Z ∞
ψn (x)ψm (x) dx = δn, m ,
−∞
a bem-conhecida relação de ortogonalidade das auto-funções ψn .

Z ∞ Z ∞ 2 2
2 2 1 2 x x 2 1
x |ψn (x)| dx = √ x Hn exp − 2 dx = α n + ,
−∞ α2n n! π −∞ α α 2
para todo n ∈ , α sendo uma constante positiva. Na Mecânica Quântica a expressão do lado esquerdo,

acima, representa o valor médio do quadrado do operador de posição, ou seja, de x 2 , no auto-estado

normalizado ψn do operador Hamiltoniano do oscilador harmônico. Sugestão: use as relações de recorrência
(8.78), página 455, e as relações de ortogonalidade (8.72), página 453, das funções H n . 6
8.3.7 O Átomo de Hidrogênio e a Equação de Laguerre Associada

A equação de Schrödinger independente do tempo que descreve uma partı́cula de massa m 0 , em três
dimensões, sob um potencial de Coulomb52 atrativo V (r) = − αr , α > 0, é
~2 α
− ∆ψ − ψ = Eψ .
2m0 r
Expressando o operador Laplaciano em coordenadas esféricas, como em (8.192), essa equação fica

1 ∂ 2 ∂ψ 1 ∂ ∂ψ 1 ∂2ψ 2m0 α
r + ( sen θ) + + + E ψ = 0.
r 2 ∂r ∂r sen θ ∂θ ∂θ ( sen θ)2 ∂ϕ2 ~2 r
Seguindo o procedimento de separação de variáveis, procuramos soluções na forma ψ = R(r)Y (θ, ϕ) e
obtemos, inserindo na equação,

(r 2 R0 (r))0 2m0 2
1 1 ∂ ∂Y 1 ∂2Y
+ 2 αr + Er = − ( sen θ) + .
R(r) ~ Y (θ, ϕ) sen θ ∂θ ∂θ ( sen θ)2 ∂ϕ2
52
Charles Augustin de Coulomb (1736-1806).
Novamente, ambos os lados devem ser igualados a uma constante λ, e obtemos o par de equações

2 0 0 2m0 2

(r R (r)) + αr + Er − λ R(r) = 0 ,
~2

1 ∂ ∂Y 1 ∂2Y
( sen θ) + + λY = 0 .
Como já discutimos, a segunda equação só possui soluções finitas em θ = 0 e θ = π se λ = l(l + 1) com
l ∈ , em cujo caso as soluções para Y são dadas pelos harmônicos esféricos Y lm (θ, ϕ) com m ∈ e

−l ≤ m ≤ l. A equação radial fica então

2 00 0 2m0 2

r R (r) + 2rR (r) + αr + Er − l(l + 1) R(r) = 0 .
~2
Para simplificar essa expressão, definamos as constantes

r
2m0 2m0
β := α e γ := − E
~2 ~2
(tomamos aqui E ≤ 0, o que corresponde aos chamados estados ligados), com o quê, escrevemos

r 2 R00 (r) + 2rR0 (r) + βr − γ 2 r 2 − l(l + 1) R(r) = 0 .
eγr
Essa equação ainda não se encontra em uma forma reconhecı́vel, mas definindo S(r) := rl
R(r), ou
seja, escrevendo R na forma R(r) = r l e−γr S(r), obtem-se para S a seguinte equação:

rS 00 (r) + 2(l + 1) − 2γr S 0 (r) + β − 2γ(l + 1) S(r) = 0 .
E. 8.31 Exercı́cio. Faça essa conta ao menos uma vez na vida. 6
Definindo uma nova variável z = 2γr e y(z) = S(r) = y(2γr), obtemos para y(z) a equação
diferencial
00 0 β
zy (z) + 2(l + 1) − z y (z) − − (l + 1) y(z) = 0 ,
2γ
a qual, para fins de comparação, escrevemos como

00 0 β
zy (z) + (2l + 1) + 1 − z y (z) − + l − (2l + 1) y(z) = 0 .
2γ
β
Comparando a (7.142), reconhecemos que se trata da equação de Laguerre associada com n = 2γ +l.
Pela nossa discussão de quando tratamos da equação de Laguerre, devemos ter n um inteiro positivo
com 0 ≤ 2l + 1 ≤ n, de outra forma a solução da equação de Laguerre crescerá mais rápido que
exponencial, destruindo a propriedade de ψ ser de quadrado integrável. Assim, n deve ser tomado um
β
inteiro positivo e, portanto, p := 2γ deve ser também inteiro. Como 0 ≤ 2l + 1 ≤ n e n = p + l, segue
que p ≥ l + 1 e, portanto, p é igualmente um inteiro positivo.
Na situação descrita no último parágrafo, vimos na Seção 7.3.2, página 411, que as soluções da
(2l+1)
equação de Laguerre associada acima são dadas pelos polinômios de Laguerre associados L n (z).
Retornando a R(r), obtivemos a solução

βr l (2l+1) βr
Rp, l (r) = r exp − Lp+l ,
2p p
β β
onde usamos p := 2γ ∈ , p > 0, e escrevemos γ = 2p
. Voltando às constantes originais, a relação
β
γ = 2p expressa-se como
r
2m0 αm0 α 2 m0 1
− E = , ou seja, E ≡ Ep = − , com p = 1, 2, 3, 4, . . . .
~2 p~2 2~2 p2
Essa é a bem-conhecida regra de quantização de energia do átomo de hidrogênio, obtida pela primeira
vez, por outros meios, por Bohr53 em 1912-1913 e reobtida posteriormente por Schrödinger em 1926
através do estudo das soluções da equação de Schrödinger para o potencial de Coulomb, como fizemos
acima. O número inteiro não-negativo p é denominado número quântico principal no contexto da
Os auto-estados de energia são

l βr (2l+1) βr
ψp, l, m (r, θ, ϕ) = cp, l, m r exp − Lp+l Ylm (θ, ϕ) ,
2p p
cp, l, m sendo uma constante de normalização a ser fixada pela imposição

Z Z ∞Z
2 3
1 = |ψp, l, m | d x = |ψp, l, m (r, θ, ϕ)|2 r 2 drdΩ ,

3 0 S2
R
onde dΩ = sen (θ)dθdϕ. Como por (8.68) tem-se S2
|Ylm (θ, ϕ)|2 dΩ = 1, segue que
Z ∞ 2
2 βr (2l+1) βr
1 = |cp, l, m | exp − Lp+l r 2l+2 dr
0 p p
2l+3 Z ∞ 2
p (2l+1)
= |cp, l, m | 2
e−ρ Lp+l (ρ) ρ2l+2 dρ
β 0
2l+3
(8.101) p2 ((p + l)!)3
= |cp, l, m | (2p) .
β (p − l − 1)!
Assim, tomando cp, l, m real, obtemos

s l+1 s
β β (p − l − 1)!
cp, l, m = .
2p2 p ((p + l)!)3
53
Niels Henrik David Bohr (1885-1962).
Finalmente, as auto-funções de energia normalizadas são

s l+1 s
β β (p − l − 1)! l βr (2l+1) βr
ψp, l, m (r, θ, ϕ) = r exp − L p+l Ylm (θ, ϕ) ,
2p2 p ((p + l)!)3 2p p
com p ≥ l + 1, l ∈ ,l≥0em∈ com −l ≤ m ≤ l.
• Um comentário sobre a ortonormalidade das funções ψp, l, m
Nota para o leitor com conhecimento de Mecânica Quântica

Por serem auto-funções normalizadas do operador Hamiltoniano, as funções ψ p, l, m devem satisfazer
as relações de ortogonalidade hψp0 , l, m , ψp, l, m i = δp, p0 . Integrando a parte angular, isso significa que
Z ∞
βr (2l+1) βr βr (2l+1) βr 2l+2 2 p2l+4 ((p + l)!)3
exp − 0 Lp0 +l exp − L p+l r dr = δ 0
p, p 2l+3 .
0 2p p0 2p p β (p − l − 1)!
O fator β pode ser absorvido com a mudança de variáveis ρ = βr e obtem-se

Z ∞
ρ ρ 0”
2 p2l+4 ((p + l)!)3
“
(2l+1) (2l+1) − ρ2 p+p 0 2l+2
Lp0 +l L p+l e pp ρ dρ = δ p, p 0 . (8.220)
0 p0 p (p − l − 1)!
Essa é uma nova relação de ortogonalidade para os polinômio de Laguerre associados, a qual vale para
todo p, p0 inteiros positivos (não-nulos).
Perceba-se que não podemos eliminar simultaneamente p e p0 por uma mudança de variáveis na
integral em (8.220). É de se notar que essa relação de ortogonalidade não tem muito a ver com a relação
de ortogonalidade dos polinômios de Laguerre associados que obtivemos em (8.98). Infelizmente, poucos
livros de Mecânica Quântica ou de Fı́sica-Matemática comentam esse ponto 54 , uma exceção um tanto
surpreendente sendo [4] e estas Notas.
Comentamos que toda a teoria do átomo de hidrogênio, incluindo as várias expressões complexas
que derivamos acima envolvendo polinômios de Laguerre, e muito mais, já se encontrava nos primeiros
trabalhos de Schrödinger sobre a Mecânica Quântica, de 1926.
54
[77] e [108] ignoram o assunto e mesmo o excelente [40] atribui erroneamente a normalização de ψ p, l, m às relações
de ortogonalidade (8.98).
Apêndices
8.A Provando (8.44) à Força Bruta

A idéia é tomar (8.42), escrever (z 2 − 1)l = (z − 1)l (z + 1)l e aplicar a regra de Leibniz. Tudo está
resumido nas seguintes linhas auto-explicativas, acompanhadas de uns poucos comentários ao final:
(1 − z 2 )m/2 dl+m 2
Plm (z) := (z − 1) l
2l l! dz l+m
(1 − z 2 )m/2 dl+m l l

= (z − 1) (z + 1)
2l l! dz l+m
l+m
Leibniz (1 − z 2 )m/2 X l + m dp l+m−p
l d l

= (z − 1) (z + 1)
2l l! p=0
p dz p dz l+m−p
l
(∗) (1 − z 2 )m/2 X l + m dp l
dl+m−p
l

= (z − 1) (z + 1)
2l l! p=m
p dz p dz l+m−p
l
(1 − z 2 )m/2 X l + m l! l−p l! p−m
= (z − 1) (z + 1)
2l l! p=m
p (l − p)! (p − m)!
l
(1 − z 2 )m/2 X l + m (l!)2
= (z − 1)l−p (z + 1)p−m
2l l! p=m
p (l − p)! (p − m)!
l
(∗∗) m (z− 1)m (1 − z 2 )m/2 X l + m
2
(l!)2
= (−1) (z − 1)l−p (z + 1)p−m
(1 − z 2 )m 2l l! p=m
p (l − p)! (p − m)!
l
(−1)m (1 − z 2 )−m/2 X l + m (l!)2
= (z − 1)l−p+m (z + 1)p
2l l! p=m
p (l − p)! (p − m)!
l−m
p→p+m (−1)m (1 − z 2 )−m/2 X l + m (l!)2
= (z − 1)l−p (z + 1)p+m
2l l! p=0
p + m (l − p − m)! p!
l−m
(−1)m (1 − z 2 )−m/2 X (l + m)! (l!)2
= (z − 1)l−p (z + 1)p+m
2l l! p=0
(l − p)! (p + m)! (l − p − m)! p!
l−m
(l + m)! (1 − z 2 )−m/2 X (l − m)! (l!)2
= (−1)m (z − 1)l−p (z + 1)p+m
(l − m)! 2l l! p=0
(l − p)! (p + m)! (l − p − m)! p!
l−m
m (l+ m)! (1 − z 2 )−m/2 X l − m l! l−p l! p+m
= (−1) (z − 1) (z + 1)
(l − m)! 2l l! p=0
p (l − p)! (p + m)!
l−m p l−m−p
m (l+ m)! (1 − z 2 )−m/2 X l − m d l d l
= (−1) (z − 1) (z + 1)
(l − m)! 2l l! p=0
p dz p dz l−m−p
Leibniz (l + m)! (1 − z 2 )−m/2 dl−m

= (−1)m l l−m
(z − 1)l (z + 1)l
(l − m)! 2 l! dz
(l + m)! (1 − z 2 )−m/2 dl−m 2 (l + m)! −m

= (−1)m (z − 1)l = (−1)m P (z) ,
(l − m)! l
2 l! dz l−m (l − m)! l
d p d l+m−p
l l
No ponto indicado por (∗) acima, usamos o fato que dz p (z − 1) = 0 se p > l e dz l+m−p (z − 1) = 0
se l + m − p > l. Ambas as condições juntas implicam m ≤ p ≤ l, daı́ a mudança nos limites da soma.
2 −1)m
No ponto indicado por (∗∗) multiplicamos toda a expressão por 1 = (−1)m (z (1−z 2 )m
. Na linha seguinte
2 m m m
o fator (z − 1) é escrito como (z − 1) (z + 1) e distribuı́do dentro da soma. Fora isso, usamos
também que (1−z12 )m (1 − z 2 )m/2 = (1 − z 2 )−m/2 .
8.B Alguns Teoremas de Unicidade de Soluções de Equações

Diferenciais Parciais
Ao discutirmos a solução de alguns dos problemas tratados acima mencionamos a importante questão
da unicidade da solução de certas equações diferenciais parciais submetidas a condições iniciais e de
contorno. Teoremas de unicidade de solução são fundamentais para justificar métodos de solução por
expansão em modos satisfazendo as condições de contorno (como os modos de vibração de cordas ou
membranas vibrantes, por exemplo), tal como fizemos em diversos exemplos de acima. Nesta seção
vamos tratar dessa questão para o caso da equação de onda e para o caso da equação de difusão, em
uma ou mais dimensões espaciais.
O problema de determinar soluções de equações diferenciais submetidas a condições iniciais é
freqüentemente demoninado problema de Cauchy.
• Unicidade de solução para a equação de difusão em regiões finitas
A proposição que segue estabelece unicidade de solução para uma forma bastante geral da equação
de difusão definida em um conjunto pré-compacto55 e conexo D de n , para todo n ≥ 1, sob certas

condições iniciais e certas condições de contorno, que podem ser do tipo de Dirichlet 56 , de Neumann57
ou mistas (vide abaixo), generalizando assim a Proposição 8.2, da página 486.
Proposição 8.5 Consideremos para uma função real u a equação diferencial linear, denominada
equação de difusão, dada por
∂u
~ · κ(~x, t)∇u(~
γ(~x) (~x, t) − ∇ ~ x, t) + η(~x)u(~x, t) = ϕ(~x, t) , (8.B.1)
∂t
definida para ~x em um conjunto não-vazio, aberto, conexo e limitado D ⊂ n , n ≥ 1. D é, assim,
pré-compacto e conexo.
Suporemos que γ e η são contı́nuas por partes com γ(~x) ≥ 0 e η(~x) ≥ 0, ambas podendo se anular
apenas em um conjunto de medida nula. Suporemos também que κ é contı́nua e diferenciável e que
κ(~x, t) ≥ 0.
Denotaremos por D o fecho de D (que é compacto, pois D é limitado) e denotaremos por ∂D = D\D
a fronteira de D. Acima, ϕ(~x, t) é uma função real dada de ~x e t que, se não nula, faz de (8.B.1) uma
equação não-homogênea. Sobre a região D, suporemos ainda que ∂D seja diferenciável e orientável, de
modo que em qualquer ponto ~x de ∂D possamos definir o versor (vetor de comprimento 1) ~n(~x) normal
à ∂D no ponto ~x e apontando para fora de D.
Iremos supor que a função u esteja submetida a condições iniciais que fixam seu valor em t = 0:
u(~x, 0) = u0 (~x) , (8.B.2)
∀~x ∈ D, onde a função real u0 é um dado do problema (denominado dado de Cauchy). Além disso,
iremos supor que u(~x, t) esteja submetida a condições na fronteira ∂D, as chamadas condições de
contorno. Trataremos dos seguintes tipos de condições de contorno:
u(~x, t) = φ(~x, t)
para todo ~x ∈ ∂D e todo t ≥ 0, φ(~x, t) sendo uma função real dada.
∂u
(~x, t) = −ψ(~x, t)
∂n
55 n
Um conjunto é dito ser pré-compacto se seu fecho for compacto. No caso de , um conjunto é compacto se e
somente se for fechado e limitado.
56
57
∂u
para todo ~x ∈ ∂D e todo t ≥ 0, ψ(~x, t) sendo uma função real dada. Acima, ∂n representa a
∂u ~
derivada normal de u à superfı́cie ∂D, ou seja, ∂n (~x, t) = ~n(~x) · ∇u(~x, t), ~x ∈ ∂D.
III. Condições mistas: para uma função contı́nua α(~x, t) ≥ 0, definida em ∂D para todo t ≥ 0,
tem-se
∂u
u(~x, t) + α(~x, t) (~x, t) = χ(~x, t)
∂n
para todo ~x ∈ ∂D e todo t ≥ 0, χ(~x, t) sendo uma função real dada.
Então, para cada uma das condições de contorno descritas acima, a solução do problema de Cauchy
de determinar a solução (8.B.1) para as condições iniciais (8.B.2) é única, caso exista. 2
Vide também a Proposição 8.6 para uma generalização. Antes de passarmos à demonstração da
Proposição 8.5, façamos alguns comentários.
O leitor deve ter notado que no enunciado da Proposição 8.5 não são feitas restrições às funções
ϕ, φ, ψ e χ, acima, pois, de fato, restrições não são necessárias para garantir-se unicidade. Para uma
prova de existência de solução, porém, certamente são necessárias restrições a essas funções, tais como
continuidade por partes etc. Não trataremos de condições gerais de existência aqui.
Na Proposição 8.5, acima, a região D é limitada (tecnicamente, é pré-compacta e conexa). O es-
tudante pode perguntar-se o que ocorre com a questão da unicidade se considerarmos a equação de
difusão, equação (8.B.1), em regiões abertas, conexas, mas não-limitadas, como n , por exemplo. Nesse

caso, tem-se que considerar outras condições de contorno no infinito e os métodos de demonstração
abaixo não funcionam. Sob condições convenientes, é possı́vel demonstrar unicidade de solução, mas al-
gumas surpresas interessantı́ssimas ocorrem. Vide para tal a fascinante discussão de [73], especialmente
seus capı́tulos 67 e 68.
A equação (8.B.1) pode ser interpretada como a equação de difusão de calor sem convecção em um
meio homogêneo de constante de difusão κ(~x, t), a função u(~x, t) representando a temperatura do
meio no ponto ~x no instante t. Nessa interpretação, para o caso em que para η e ϕ são identicamente
nulas, a equação (8.B.1) é uma representação matemática de uma lei fı́sica denominada Lei de Fourier 58
do transporte de calor. Vide [31]. A Lei de Fourier foi originalmente obtida experimentalmente e é até
hoje um problema de pesquisa demonstrá-la teoricamente a partir de primeiros princı́pios usando os
métodos da Mecânica Estatı́stica, especialmente no caso quântico. O termo ϕ(~x, t) tem a interpretação
de uma fonte de calor externa e o termo η(~x, t)u(~x, t) com η ≥ 0 representa uma dissipação de calor,
por exemplo, por emissão de radiação.
As três condições de contorno listadas acima manifestam condições fı́sicas às quais o sistema definido
em D se submete em seu contorno ∂D. Consideremos a interpretação de (8.B.1) como a equação de
difusão de calor sem convecção em um meio homogêneo. Fisicamente mais precisas são as condições
∂u
mistas, que afirmam que para o fluxo de calor (para fora de D) por unidade de área, − ∂n (~x, t), vale
∂u 1
− ∂n (~x, t) = α(~x, t) (u(~x, t) − χ(~x, t)). De acordo com a Lei de Fourier do transporte de calor (vide
[31]), isso diz-nos que em cada ponto ~x ∈ ∂D o calor flui do sistema à temperatura u(~x, t) para um
banho térmico externo à temperatura χ(~x, t), através da superfı́cie de contacto cuja constante de
58
Jean Baptiste Joseph Fourier (1768-1830). Os trabalhos de Fourier na resolução da equação de difusão de calor em
uma dimensão o conduziram às chamadas séries de Fourier.
difusão é α(~x, t), a qual dependente do contacto entre o sistema e o meio, do material que os compõe
etc., e por isso pode depender de ~x e t. As condições de Dirichlet significam que cada ponto de ~x de
∂D está em contacto com um banho térmico à temperatura φ(~x, t) que difunde calor perfeitamente ao
sistema nos pontos de contacto, ou seja, vale a aproximar por zero a constante de difusão de contacto α
(o que é uma boa aproximação no caso de contactos metálicos). As condições de Neumann significam
∂u
que, cada ponto de ~x de ∂D, o fluxo de calor (para fora de D) por unidade de área, − ∂n , é fixado em
ψ(~x, t). Tal se dá, por exemplo, se u for desprezı́vel face à temperatura do meio externo, em cujo caso
terı́amos, comparando com o caso das condições mistas, −ψ = χ/α. Um caso comum é aquele em que
ψ é nula, o que corresponde a colocar o sistema em contacto com um isolante térmico perfeito, ou seja,
para o qual α é próximo ao infinito.
Prova da Proposição 8.5. Afirmamos que sob as condições descritas na proposição, a solução de (8.B.1)
é única, caso exista. Para tal, vamos supor que u e v sejam duas soluções reais de (8.B.1), ambas
satisfazendo as mesmas condições iniciais e as mesmas condições de contorno, quer sejam de Dirichlet, de
Neumann ou mistas, descritas acima. Consideremos a função w definida por w(~x, t) := u(~x, t)−v(~x, t).
Como (8.B.1) é linear, é fácil constatar que w satisfaz a equação homogênea
∂w
γ(~x) ~ · κ(~x, t)∇w(~
(~x, t) − ∇ ~ x, t) + η(~x)w(~x, t) = 0 , (8.B.3)
∂t
para todo ~x ∈ D e todo t ≥ 0, assim como a condição inicial w(~x, 0) = 0, ∀~x ∈ D. Quanto às condições
de contorno teremos, para o caso de condições de Dirichlet, w(~x, t) = 0 para todo ~x ∈ ∂D e todo t ≥ 0.
Para o caso de condições de Neumann, ∂w ∂n
(~x, t) = 0 para todo ~x ∈ ∂D e todo t ≥ 0. Para o caso de
∂w
condições mistas, w(~x, t) + α(~x, t) ∂n (~x, t) = 0 para todo ~x ∈ ∂D e todo t ≥ 0.
Desejamos mostrar que w é identicamente nula, o que prova que u e v são idênticas, estabelecendo
unicidade de solução sob as condições mencionadas. Para tal, consideremos a expressão
Z Z t Z
2 n
0 2 n
A(t) = γ(~x) w(~x, t) d ~x + 2 η(~x) w(~x, t ) d ~x dt0 . (8.B.4)
D 0 D
É evidente que A(t) ≥ 0 para todo t ≥ 0. Tem-se, porém, A(0) = 0, pois em t = 0 a função w anula-se
(pela condição inicial para w). Como w é diferenciável em relação a t, podemos calcular a derivada
d
dt
A(t) por
Z Z
dA ∂ 2 n 2
(t) = γ(~x) w(~x, t) d ~x + 2 η(~x) w(~x, t) dn~x
dt D ∂t D
Z Z
∂w n
2
= 2 w(~x, t)γ(~x) (~x, t) d ~x + 2 η(~x) w(~x, t) dn~x
D ∂t D
Z h i Z
(8.B.3) 2
= 2 ~ ~
w(~x, t) ∇ · κ(~x, t)∇w(~x, t) − η(~x)w(~x, t) d ~x + 2 n
η(~x) w(~x, t) dn~x
D D
Z
= 2 ~ · κ(~x, t)∇w(~
w(~x, t) ∇ ~ x, t) dn~x
D
Z Z 2
= 2 ~ · κ(~x, t) w ∇w
∇ ~ n
d ~x − ~
κ(~x, t) ∇w d ~xn
D D
Z Z 2
Gauss ∂w ~ n
= 2 κ(~x, t)w ds(~x) − κ(~x, t) ∇w d ~x ,
∂D ∂n D
onde ds(~x)Zé a medida de integração n−1 dimensional em ∂D. Agora, no caso de condições de Dirichlet,
∂w
a integral κ(~x, t) w ds(~x) anula-se pois w anula-se em ∂D, o mesmo se sucedendo no caso de
∂D ∂n
condições de Neumann, quando ∂w ∂n
anula-se em ∂D. Concluı́mos que em ambos os casos
Z 2
dA ~
(t) = −2 κ(~x, t) ∇w dn~x . (8.B.5)
dt D
No caso de condições mistas, tem-se

"Z 2 Z #
dA ∂w 2
(t) = −2 α(~x, t) κ(~x, t) ds(~x) + ~
κ(~x, t) ∇w dn~x . (8.B.6)
dt ∂D ∂n D
Ora, como κ(~x, t) ≥ 0 e α(~x, t) ≥ 0 , o lado direito de (8.B.5) e de (8.B.6) são ambos claramente
menores ou iguais a zero. Porém, como A(0) = 0, se a derivada dA dt
(t) fosse negativa para algum t ≥ 0,
a função A assumiria valores negativos, o que é impossı́vel pois, como observamos, A(t) ≥ 0 para todo
t ≥ 0. Logo, devemos ter dA dt
(t) = 0 para todo t, ou seja, A é constante. Mas como A(0) = 0, vale
A(t) = 0 para todo t ≥ 0. Sendo A(t) dada em (8.B.4) como a somaZ de duas integrais maiores ou
2
iguais a zero, isso implica que ambas se anulam, ou seja, em particular, γ(~x) w(~x, t) dn~x = 0 para
D
todo t ≥ 0. Como w é contı́nua e γ(~x) se anula apenas em um conjunto de medida nula, isso implica
que w é identicamente nula em todo D, para todo t ≥ 0, para a condição inicial e para cada uma das
condições de contorno consideradas, que é o que querı́amos mostrar.
Uma idéia semelhante à da demonstração acima será seguida quando tratarmos da equação que
descreve vibrações em meios elásticos na Proposição 8.7, página 517. A Proposição 8.5 pode ser
extendida, sob certas condições, como mostra a seguinte proposição, que generaliza a Proposição 8.3
da página 488.
Proposição 8.6 Consideremos para uma função real u a equação diferencial linear dada por
∂u
γ(~x) (~x, t) − ∇ ~ x, t) − ~θ(~x, t) · ∇u(~
~ · κ(~x, t)∇u(~ ~ x, t) + η(~x)u(~x, t) = ϕ(~x, t) , (8.B.7)
∂t
definida sob as mesmas hipóteses da Proposição 8.5, mas assumindo ainda que θ~ é continuamente
~ · ~θ(~x, t) ≥ 0 para todo ~x ∈ D e t ≥ 0. Seja u submetida a condições iniciais que
diferenciável e ∇
fixam seu valor em t = 0:
u(~x, 0) = u0 (~x) , (8.B.8)
∀~x ∈ D, onde a função real u0 é um dado do problema (denominado dado de Cauchy) e a condições de
contorno do tipo de Dirichlet na fronteira ∂D:
u(~x, t) = φ(~x, t)

Então, a solução do problema de Cauchy de determinar a solução (8.B.7) para as condições iniciais
(8.B.8) é única, caso exista. 2
O leitor deve notar que a equação diferencial (8.B.7) difere de (8.B.1) pela introdução do termo
contendo o campo ~θ, sendo que supomos que o divergente desse campo seja maior ou igual a zero em D.
É de se notar também o fato de a proposição limitar-se a condições de contorno do tipo de Dirichlet.
Prova. A prova segue os mesmos passos do caso da Proposição 8.5, mas obtem-se agora
Z 2 Z Z
dA ~
(t) = −2 ~ n
κ(~x, t) ∇w d ~x − ~ 2 n
∇ · θ w d ~x + w 2 ~θ · ~n(~x) ds(~x) , (8.B.9)
dt D D ∂D
em lugar de (8.B.5). A integral sobre ∂D é nula sob condições de Dirichlet, pois para elas w anula-se na
~ · ~θ ≥ 0, obtem-se novamente dA (t) ≤ 0 sob condições de Dirichlet59 , conduzindo
fronteira. Assim, se ∇ dt
às mesmas conclusões que no caso da Proposição 8.5.
• Unicidade de solução para a equação de vibrações elásticas em regiões finitas
A proposição que segue estende os resultados de unicidade que obtivemos para a equação de difusão
na Proposição 8.5, acima, para uma forma bastante geral da equação que descreve vibrações em meios
elásticos, definida em um conjunto pré-compacto e conexo D de n , para todo n ≥ 1, sob certas

condições iniciais e certas condições de contorno, que podem ser do tipo de Dirichlet, de Neumann ou
mistas. Um caso particular importante é a equação de ondas, de grande relevância em Fı́sica, tratado
na Proposição 8.4 da página 488 no caso unidimensional.
Proposição 8.7 Consideremos para uma função real u a equação diferencial linear, dada por
∂2u ∂u
~ ~
ρ(~x) 2 (~x, t) + γ(~x, t) (~x, t) − ∇ · τ (~x)∇u(~x, t) + η(~x)u(~x, t) = ϕ(~x, t) , (8.B.10)
∂t ∂t
59
O leitor poderia pensar que poderı́amos incluir condições mistas de contorno e ainda obter dA
dt (t) ≤ 0 em (8.B.9) se
~ ~ ~
adionamente supuséssemos que θ · ~n(~x) ≤ 0 em todo ∂D, mas isso é incompatı́vel com ∇ · θ ≥ 0, pelo Teorema de Gauss.
definida para ~x em um conjunto não-vazio, aberto, conexo e limitado D ⊂ n , n ≥ 1. D é, assim,

pré-compacto e conexo. Assumiremos que τ é contı́nua e diferenciável e que ρ, γ e η sejam contı́nuas

por partes. Suporemos também que ρ(~x) > 0 e τ (~x) > 0, exceto em conjuntos de medida nula, onde
podem anular-se. Assumiremos também que η(~x) ≥ 0 e que γ(~x, t) ≥ 0 para todo ~x ∈ D e todo t ≥ 0.
Denotaremos por D o fecho de D (que é compacto, pois D é limitado) e denotaremos por ∂D = D\D
a fronteira de D. Sobre a região D, suporemos ainda que ∂D seja diferenciável e orientável, de modo
que em qualquer ponto ~x de ∂D possamos definir o versor (vetor de comprimento 1) ~n(~x) normal à ∂D
no ponto ~x e apontando para fora de D.
Iremos supor que a função u esteja submetida a condições iniciais que fixam seu valor em t = 0
assim como o de sua derivada temporal:
∂u
u(~x, 0) = u0 (~x) , (~x, 0) = v0 (~x) . (8.B.11)
∂t
∀~x ∈ D, onde as funções reais u0 e v0 são dados do problema (denominados dados de Cauchy). Além
disso, iremos supor que u(~x, t) esteja submetida a condições na fronteira ∂D, as chamadas condições
de contorno. Trataremos dos seguintes tipos de condições de contorno:
u(~x, t) = φ(~x, t)

∂u
(~x, t) = −ψ(~x, t)
∂n
∂u
para todo ~x ∈ ∂D e todo t ≥ 0, ψ(~x, t) sendo uma função real dada. Acima, ∂n representa a
∂u ~
derivada normal de u à superfı́cie ∂D, ou seja, ∂n (~x, t) = ~n(~x) · ∇u(~x, t), ~x ∈ ∂D.
III. Condições mistas: para uma função contı́nua ζ(~x, t) ≥ 0, definida em ∂D para todo t ≥ 0,
tem-se
∂u ∂u
(~x, t) + ζ(~x, t) (~x, t) = χ(~x, t)
∂t ∂n
para todo ~x ∈ ∂D e todo t ≥ 0, χ(~x, t) sendo uma função real dada.
IV. A expressão τ (~x) ∂u ∂u

∂t ∂n
anula-se identicamente na fronteira ∂D.
Então, para cada uma das condições de contorno descritas acima, a solução do problema de Cauchy
de determinar a solução (8.B.10) para as condições iniciais (8.B.11) é única, caso exista. 2
A equação (8.B.10) descreve vibrações elásticas em um meio material de densidade ρ(~x) localizado
em D. O termo γ(~x, t) ∂u ∂t
(~x, t) descreve uma dissipação (por exemplo, por atrito viscoso com um meio
externo) e τ (~x) deve ser interpretado como a tensão do meio no ponto ~x. O termo η(~x)u(~x, t) provem
de uma força harmônica restauradora (caso η positivo) agindo sobre cada ponto do meio. Por fim,
ϕ(~x, t) representa uma força externa (por unidade de volume) agindo sobre o sistema no ponto ~x no
instante t. Para uma dedução parcial dessa expressão no caso unidimensional vide, por exemplo, [31].
Um caso particular importante é aquele em que γ, η e ϕ são nulas e ρ e τ são constantes positivas,
caso esse em que (8.B.10) assume a forma da equação de ondas livres
r
∂2u 2 τ
2
(~x, t) − c ∆u(~x, t) = 0 , c = .
∂t ρ
A constante c tem a interpretação de velocidade de propagação das ondas.
Prova da Proposição 8.7. Afirmamos que sob as condições descritas na proposição, a solução de (8.B.10)
é única, caso exista. Para tal, vamos supor que u e v sejam duas soluções reais de (8.B.10), ambas
satisfazendo as mesmas condições iniciais e as mesmas condições de contorno, quer sejam de Dirichlet, de
Neumann ou mistas, descritas acima. Consideremos a função w definida por w(~x, t) := u(~x, t)−v(~x, t).
Como (8.B.10) é linear, é fácil constatar que w satisfaz a equação homogênea
∂2w ∂w
ρ(~x) 2 (~x, t) + γ(~x, t) ~ · τ (~x)∇w(~
(~x, t) − ∇ ~ x, t) + η(~x)w(~x, t) = 0 , (8.B.12)
∂t ∂t
para todo ~x ∈ D e todo t ≥ 0, assim como as condições iniciais w(~x, 0) = 0, e ∂w ∂t
(~x, 0) = 0, ∀~x ∈ D.
Quanto às condições de contorno teremos, para o caso de condições de Dirichlet, w(~x, t) = 0 para todo
~x ∈ ∂D e todo t ≥ 0. Para o caso de condições de Neumann, ∂w ∂n
(~x, t) = 0 para todo ~x ∈ ∂D e todo
∂w ∂w
t ≥ 0. Para o caso de condições mistas, ∂t (~x, t) + ζ(~x, t) ∂n (~x, t) = 0 para todo ~x ∈ ∂D e todo t ≥ 0.
Desejamos mostrar que w é identicamente nula, o que prova que u e v são idênticas, estabelecendo
unicidade de solução sob as condições mencionadas. Para tal, consideramos a expressão
Z " 2 #
ρ(~x) ∂w τ (~x) ~ 2 η(~x) 2
E(t) = (~x, t) + ∇w(~x, t) + w(~x, t) dn~x . (8.B.13)
D 2 ∂t 2 2
É evidente pelas hipoteses de positividade sobre ρ, τ e η que E(t) ≥ 0 para todo t ≥ 0. Tem-se, porém,
E(0) = 0, pois em t = 0 a função w anula-se, assim como sua derivada temporal (pela condição inicial
para w). Como w é diferenciável em relação a t, podemos calcular a derivada dtd E(t) por
Z
dE ∂w ∂2w ~ ~ ∂w ∂w
(t) = ρ(~x) 2 + τ (~x) ∇w · ∇ + η(~x)w dn~x
dt D ∂t ∂t ∂t ∂t
Z
(8.B.12) ∂w ∂w ~ ~

~ ~ ∂w
= −γ(~x, t) + ∇ · τ (~x)∇w − η(~x) w + τ (~x) ∇w · ∇ dn~x
D ∂t ∂t ∂t
Z
∂w n
+ η(~x) w d ~x
D ∂t
Z 2 Z
∂w n ∂w ~ ~

~ ~ ∂w
= − γ(~x, t) d ~x + ∇ · τ (~x)∇w + τ (~x) ∇w · ∇ dn~x
D ∂t D ∂t ∂t
Z 2 Z
∂w n ~ · τ (~x) ∂w ∇w
~
= − γ(~x, t) d ~x + ∇ dn~x
D ∂t D ∂t
Z 2 Z
Gauss ∂w n ∂w ∂w
= − γ(~x, t) d ~x + τ (~x) ds(~x) , (8.B.14)
D ∂t ∂D ∂t ∂n
∂w
onde ∂n
é a derivada normal introduzida à página 518.
No caso de condições de Dirichlet, w anula-se na fronteira ∂D para todo t e, portanto, também sua
derivada temporal se anula. Com isso, a segunda integral em (8.B.14) vale zero, o que também ocorre
para condições de Neumann pois, aı́, ∂w
∂n
é nula, assim como para as condições de contorno do tipo IV,
descritas na página 518. Nesses casos tem-se, assim,
Z 2
dE ∂w
(t) = − γ(~x, t) dn~x ,
dt D ∂t
que é menor ou igual a zero, pois supomos γ(~x, t) ≥ 0. Para condições de contorno mistas, tem-se
Z 2 Z 2
dE ∂w n ∂w
(t) = − γ(~x, t) d ~x − τ (~x)ζ(~x, t) ds(~x) ,
dt D ∂t ∂D ∂n
que é igualmente menor ou igual a zero, pois supusemos que τ (~x) > 0, γ(~x, t) ≥ 0 e ζ(~x, t) ≥ 0.
Para os vários tipos de condições de contorno tratados, chegamos ao mesmo tipo de situação encon-
trada na prova da Proposição 8.5: temos que E(t) ≥ 0 e que dE dt
(t) ≤ 0 para todo t ≥ 0, mas E(0) = 0.
Isso só é possı́vel se E(t) = 0 para todo t ≥ 0. Lembrando a definição de E(t) em (8.B.13) e da hipótese
que ρ e τ são positivos (exceto, talvez, em conjuntos de medida nula), concluı́mos que para todo ~x ∈ D
e todo t ≥ 0 tem-se ∂w ~ x, t) = 0, o que implica que w(~x, t) é uma constante para todo
(~x, t) = 0 e ∇w(~
∂t
~x ∈ D e todo t ≥ 0. Lembrando que w(~x, 0) = 0 pela condição inicial, concluı́mos que w(~x, t) é nula
para todo ~x ∈ D e todo t ≥ 0. Isso implica que as soluções u e v são idênticas, que é o que querı́amos
provar.
E. 8.32 Exercı́cio. Se u é uma solução da equação (8.B.10), que descreve vibrações elásticas em um
meio material, então a expressão que define E(t) em (8.B.13), ou seja,
Z " 2 #
ρ(~x) ∂u τ (~x) ~ 2 η(~x) 2
E(t) = (~x, t) + ∇u(~x, t) + u(~x, t) dn~x ,
D 2 ∂t 2 2
representa a energia mecânica dessas vibrações. Justifique essa afirmação. Determine, como fizemos acima,
mas para ϕ não-nula e para condições de contorno não-homogêneas, a expressão de dE dt
(t). Discuta sob
quais circunstâncias a energia é conservada. 6
Capı́tulo 9
Introdução ao Problema de Sturm-Liouville
Conteúdo
9.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 521
9.2 O Problema de Sturm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 526
9.2.1 Resolvendo o Problema de Sturm. A Função de Green . . . . . . . . . . . . . 527
9.2.2 O Teorema de Green . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 530
9.3 O Problema de Sturm-Liouville . . . . . . . . . . . . . . . . . . . . . . . . . 532
9.4 Propriedades Básicas dos Autovalores e das Autofunções de Problemas
de Sturm-Liouville . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 534
9.4.1 Realidade dos Autovalores. Ortogonalidade de Autofunções . . . . . . . . . . 534
9.4.2 A Simplicidade dos Autovalores . . . . . . . . . . . . . . . . . . . . . . . . . . 537
9.4.3 Condições Suficientes para a Positividade dos Autovalores . . . . . . . . . . . 538
9.5 A Equação Integral de Fredholm . . . . . . . . . . . . . . . . . . . . . . . . 542
9.6 Uma Aplicação do Problema de Sturm-Liouville . . . . . . . . . . . . . . . 545
9.7 Comentários Finais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 549
9.7.1 O Problema de Sturm-Liouville Singular . . . . . . . . . . . . . . . . . . . . . 549
9.A Prova do Teorema 9.1. Existência e Unicidade . . . . . . . . . . . . . . . . 551
9.B Prova da Proposição 9.1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 552
9.C Comentário Sobre o Determinante Wronskiano . . . . . . . . . . . . . . . 554
9.D Ausência de Autovalores em um Problema Singular . . . . . . . . . . . . 555
9.E Demonstração do Teorema 9.3 . . . . . . . . . . . . . . . . . . . . . . . . . 556
9.F Prova da Desigualdade (9.E.22) . . . . . . . . . . . . . . . . . . . . . . . . . 560
presente capı́tulo é dedicado ao problema de Sturm-Liouville, um clássico problema da

teoria das equações diferenciais com várias aplicações em Fı́sica. Historicamente o problema
de Sturm-Liouville engendrou uma série de desenvolvimentos que conduziram, no começo
do século XX, ao nascimento de uma nova e importante área da Matemática, a Análise
Funcional, área essa que é de importância fundamental para a Fı́sica Quântica.
9.1 Introdução
Inúmeros problemas em Fı́sica envolvem a resolução de equações diferenciais ordinárias lineares de
segunda ordem e o estudo de propriedades gerais de suas soluções. De modo geral, uma equação
diferencial desse tipo é da forma
u00 + a1 (x)u0 + a0 (x)u = g(x) , (9.1)
521
onde g, a0 e a1 são certas funções conhecidas de números reais em números reais das quais eventualmente
exige-se certas condições (como continuidade diferenciabilidade etc.). A função u representa alguma
grandeza fı́sica e a equação (9.1) é a expressão matemática de uma lei fı́sica que essa grandeza deve
obedecer.
Em muitos casos a função u é definida em um intervalo fechado finito [a, b] da reta real, b > a, e
é obrigada a satisfazer certas condições nos extremos desse intervalo. Tais condições são chamadas de
condições de contorno.
Condições de contorno são ditadas ou por leis fı́sicas ou por restrições fı́sicas ou geométricas que
devem ser impostas nos pontos a e b à grandeza representada por u. O caso mais tı́pico é aquele no
qual impõe-se que a função u ou sua primeira derivada (ou combinações lineares de ambas) assumem
certos valores fixos nos pontos a e b.
Há também muitas situações nas quais a função u é definida em intervalos semi-infinitos, como
[0, ∞) ou infinitos, como (−∞, ∞), e as condições impostas podem exigir, por exemplo, que u se
anule no infinito, que seja limitada ou que seja de quadrado integrável.
• Condições de contorno lineares e homogêneas
Há muitos tipos distintos de condições de contorno. De particular importância são as condições de
contorno lineares que, no caso de equações de segunda ordem, têm a seguinte estrutura. A função u
está definida em um intervalo finito [a, b] e para certas constantes reais α1 , α2 , β1 , β2 , ϕ1 e ϕ2 tais que
(α1 , α2 ) 6= (0, 0), (β1 , β2 ) 6= (0, 0) a função u satisfaz o par de condições
α1 u(a) + α2 u0 (a) = ϕ1 , (9.2)
β1 u(b) + β2 u0 (b) = ϕ2 . (9.3)
Condições de contorno desse tipo são ditas lineares devido à dependência linear em u do lado direito
de (9.2) e (9.3).
Nestas notas, estaremos interessados particularmente em condições do seguinte tipo: vamos estar
supondo que u está definida em um intervalo finito [a, b] e que para certas constantes reais α 1 , α2 , β1
e β2 tais que (α1 , α2 ) 6= (0, 0), (β1 , β2 ) 6= (0, 0) a função u satisfaça o par de condições
α1 u(a) + α2 u0 (a) = 0 , (9.4)
β1 u(b) + β2 u0 (b) = 0 . (9.5)
Condições de contorno lineares desse tipo são ditas homogêneas devido ao lado direito de (9.4) e
(9.5) ser zero.
Condições de contorno são restrições de crucial importância na resolução de equações diferenciais.
Para verificar essa importância, faça os seguintes exercı́cios simples:
E. 9.1 Exercı́cio. Verifique que o problema de determinar uma função u tal que u 00 = 0 tal que u0 (0) = 0
e u0 (1) = 1 não tem soluções. 6
E. 9.2 Exercı́cio. Verifique que o problema de determinar uma função u tal que u 00 = 0 tal que u0 (0) = 0
e u0 (1) = 0 tem infinitas soluções. 6
E. 9.3 Exercı́cio. Verifique que o problema de determinar uma função u tal que u 00 +u = 0 com u(0) = 1
e u(π) = 1 não tem soluções. 6
E. 9.4 Exercı́cio. Verifique que o problema de determinar uma função u tal que u 00 +u = 0 com u(0) = 1
e u(π) = −1 tem infinitas soluções. 6
E. 9.5 Exercı́cio. Verifique que o problema de determinar uma função u tal que u 00 +u = 0 com u(0) = ϕ1
e u(π) = ϕ2 tem infinitas soluções se ϕ1 = −ϕ2 e não tem solução se ϕ1 6= −ϕ2 . 6
• Um teorema sobre existência e unicidade de soluções
Os exemplos dos exercı́cios acima mostram que a questão da existência e unicidade de soluções
em problemas que envolvem condições de contorno não é uma questão trivial. É importante nesse
contexto mencionar o seguinte teorema, o qual expressa condições necessárias e suficientes para garantir
a existência e a unicidade de soluções:
Teorema 9.1 Seja a equação diferencial linear de segunda ordem
u00 + a1 (x)u0 + a0 (x)u = g(x), (9.6)
onde g, a0 e a1 são definidas num intervalo finito e fechado [a, b] e são contı́nuas nesse intervalo. O
problema de encontrar soluções dessa equação que satisfaçam condições de contorno do tipo
α1 u(a) + α2 u0 (a) = ϕ1 (9.7)
β1 u(b) + β2 u0 (b) = ϕ2 (9.8)
para certas constantes reais α1 , α2 , β1 , β2 , ϕ1 e ϕ2 tais que (α1 , α2 ) 6= (0, 0), (β1 , β2 ) 6= (0, 0) tem
solução única se e somente se o determinante da matriz
 
α1 u1 (a) + α2 u01 (a) α1 u2 (a) + α2 u02 (a)
  (9.9)
0 0
β1 u1 (b) + β2 u1 (b) β1 u2 (b) + β2 u2 (b)
for não nulo, onde u1 e u2 são duas soluções independentes quaisquer da equação homogênea
u00 + a1 (x)u0 + a0 (x)u = 0 . (9.10)
A demonstração é apresentada no Apêndice 9.A, página 551, cujo estudo pode ser dispensado em
uma primeira leitura.
Exemplo. No Exercı́cio E. 9.5, página 523, acima, verificamos que o problema de determinar uma
função u tal que u00 + u = 0 com u(0) = ϕ1 e u(π) = ϕ2 ou tem infinitas soluções (caso ϕ1 = −ϕ2 )
ou não tem nenhuma solução (caso ϕ1 6= −ϕ2 ). Vamos analisar isso sob a luz do Teorema 9.1. Aqui
temos [a, b] = [0, π]. Com as condições u(0) = ϕ1 e u(π) = ϕ2 tem-se α1 = β1 = 1 e α2 = β2 = 0.
Duas soluções independentes da equação homogênea u00 + u = 0 são u1 (x) = cos(x) e u2 (x) = sen (x).
Assim,
     
α1 u1 (a) + α2 u01 (a) α1 u2 (a) + α2 u02 (a) cos(0) sen (0) 1 0
  =   =   ,
0 0
β1 u1 (b) + β2 u1 (b) β1 u2 (b) + β2 u2 (b) cos(π) sen (π) −1 0
que tem determinante nulo. Logo, a condição do Teorema 9.1 é violada e isso justifica por que não se
pode garantir nem existência nem unicidade à solução do problema em questão.
• Relacionando problemas com condições de contorno não-homogêneas e homogêneas
Adiante, consideraremos apenas problemas com condições de contorno lineares e homogêneas. Por
que não consideraremos também as condições de contorno não-homogêneas? A razão é que, como
veremos, podemos sempre obter soluções de problemas com condições de contorno não-homogêneas a
partir das soluções de problemas com condições de contorno homogêneas.
A argumentação é bem simples. Seja w uma função em princı́pio arbitrária (duas vezes diferenciável)
mas que satisfaça
α1 w(a) + α2 w 0 (a) = ϕ1 , (9.11)
β1 w(b) + β2 w 0 (b) = ϕ2 . (9.12)

Para uma tal função w, vamos definir uma função h(x) da seguinte forma:
h(x) := w 00 + a1 (x)w 0 + a0 (x)w .
Seja v solução da equação

v 00 + a1 (x)v 0 + a0 (x)v = g(x) − h(x) , (9.13)
com as condições de contorno homogêneas
α1 v(a) + α2 v 0 (a) = 0, (9.14)
β1 v(b) + β2 v 0 (b) = 0. (9.15)

Então, é fácil verificar que a função u(x) = v(x) + w(x) satisfaz
u00 + a1 (x)u0 + a0 (x)u = g(x)
e
α1 u(a) + α2 u0 (a) = ϕ1 , (9.16)
β1 u(b) + β2 u0 (b) = ϕ2 . (9.17)

Isso diz-nos, em resumo, que para resolver problemas com condições de contorno não-homogêneas
é suficiente saber determinar uma função como w acima e saber determinar a solução de uma equação
diferencial linear com condições de contorno homogêneas. Por essa razão, daqui por diante só conside-
raremos problemas com condições de contorno homogêneas.
Determinar uma função w pode ser feito, por exemplo, procurando uma w na forma de um polinômio
e procurando ajustar os coeficientes desse polinômio de modo que (9.11)-(9.12) sejam satisfeitas.
• Reescrevendo a equação diferencial na forma de Liouville
Uma observação importante que devemos fazer sobre equações como (9.1) é que, para muitos ca-
sos, as mesmas sempre podem ser reescritas da seguinte forma equivalente, conhecida como forma de
Liouville:
(p(x)u0 )0 + q(x)u = f (x) , (9.18)
Rx
onde p(x) = exp a a1 (x0 ) dx0 , q(x) = p(x)a0 (x) e f (x) = p(x)g(x). Estaremos usando esta forma da
equação mais freqüentemente que a forma anterior.
E. 9.6 Exercı́cio. Verifique a equivalência das duas formas da equação multiplicando (9.1) por p(x) e
usando o fato que, pela definição, p0 (x) = a1 (x)p(x). 6
• Condições de contorno homogêneas caracterizam um espaço vetorial
Um fato importante sobre problemas com condições de contorno homogêneas e que será implicita-
mente utilizado no que seguirá é o seguinte:
Sejam fixadas as constantes α1 , α2 , β1 e β2 . Se r1 e r2 são duas funções duas vezes diferenciáveis
definidas no intervalo [a, b] tais que ambas satisfazem as condições de contorno homogêneas (9.4)-
(9.5) então qualquer combinação linear de ambas λ1 r1 (x) + λ2 r2 (x) é também uma função duas vezes
diferenciável no intervalo [a, b] que satisfaz as mesmas condições de contorno homogêneas (9.4)-(9.5).
E. 9.7 Exercı́cio. Verifique essa afirmação. 6
Em outras palavras, o conjunto de todas as funções duas vezes diferenciáveis definidas no intervalo
[a, b] que satisfazem as condições de contorno homogêneas (9.4)-(9.5) é um espaço vetorial. Esse espaço
será denotado aqui por V(α1 , α2 , β1 , β2 ), ou simplesmente por V, quando não houver confusão.
• Condições de contorno não-homogêneas caracterizam um espaço convexo
Sejam fixadas as constantes α1 , α2 , β1 , β2 , ϕ1 e ϕ2 . Se r1 e r2 são duas funções duas vezes

diferenciáveis definidas no intervalo [a, b] tais que ambas satisfazem as condições de contorno não-
homogêneas (9.2)-(9.3) então qualquer combinação linear convexa de ambas λr 1 (x) + (1 − λ)r2 (x),
0 ≤ λ ≤ 1, é também uma função duas vezes diferenciável no intervalo [a, b] que satisfaz as mesmas
condições de contorno não-homogêneas (9.2)-(9.3).
E. 9.8 Exercı́cio. Verifique essa afirmação. 6

Em outras palavras, o conjunto de todas as funções duas vezes diferenciáveis definidas no intervalo
[a, b] que satisfazem as condições de contorno não-homogêneas (9.2)-(9.3) é um espaço convexo.
• Uma notação
Como iremos daqui por diante tratar de equações diferenciais da forma (p(x)u0 )0 + q(x)u = f (x),
convem introduzir uma notação simplificadora:
Lu := (p(x)u0 )0 + q(x)u .
L pode ser entendido como o operador diferencial linear

d d
L := p(x) + q(x) .
dx dx
L é linear pois claramente tem-se
L(αu + βv) = αLu + βLv
para quaisquer constantes α e β e quaisquer funções (duas vezes diferenciáveis) u e v.
Após estas observações podemos passar a tratar nosso problema de forma mais sistemática.
9.2 O Problema de Sturm
• Definição do problema
Entende-se como o Problema de Sturm1 o problema de determinar as soluções da equação diferencial
(p(x)u0 )0 + q(x)u = f (x) , (9.19)
para u definida no intervalo fechado finito [a, b] ⊂ , b > a, com as condições de contorno lineares e
homogêneas
α1 u(a) + α2 u0 (a) = 0 , (9.20)
β1 u(b) + β2 u0 (b) = 0 , (9.21)
onde o seguinte estará sendo suposto:
As funções p, q e f são reais e contı́nuas em [a, b].
A função p é diferenciável em [a, b] e estritamente positiva: p(x) > 0, x ∈ [a, b].

1
Jacques Charles François Sturm (1803-1855).
As constantes α1 , α2 , β1 e β2 são reais e tais que (α1 , α2 ) 6= (0, 0) e (β1 , β2 ) 6= (0, 0).
As condições acima são essenciais mas não delimitam ainda totalmente o Problema de Sturm,
pois é preciso impor restrições que garantam a existência e unicidade de soluções do mesmo. Como
aprendemos do Teorema 9.1, devemos impor ainda que
 
α1 u1 (a) + α2 u01 (a) α1 u2 (a) + α2 u02 (a)
det   6= 0 , (9.22)
0 0
β1 u1 (b) + β2 u1 (b) β1 u2 (b) + β2 u2 (b)
onde u1 e u2 são duas soluções independentes quaisquer da equação homogênea Lu = 0.
• Uma observação importante
Essa última restrição tem uma conseqüência que usaremos abaixo quando tratarmos de desenvolver
um método de resolver problemas de Sturm baseado no conceito de função de Green. A conseqüência
da qual falamos é a seguinte:
Proposição 9.1 Com as definições acima, existem funções v1 e v2 , independentes, definidas no inter-
valo [a, b], tais que
Lv1 = 0, Lv2 = 0
e tais que
α1 v1 (a) + α2 v10 (a) = 0 (9.23)
e
β1 v2 (b) + β2 v20 (b) = 0 . (9.24)
2
A demonstração dessa proposição, da qual faremos uso adiante, encontra-se no Apêndice 9.B, página
552.
Uma vez delineado o quadro onde iremos trabalhar, passemos ao importante conceito da função de
Green que nos leva diretamente à solução do problema de Sturm.
9.2.1 Resolvendo o Problema de Sturm. A Função de Green

Além da equação
(p(x)u0 )0 + q(x)u = f (x) , (9.25)
consideremos também a equação diferencial homogênea
(p(x)u0 )0 + q(x)u = 0 . (9.26)

Pela Proposição 9.1, existem soluções independentes v1 e v2 da equação homogênea, tais que v1 e
v2 satisfazem as seguintes condições de contorno:
α1 v1 (a) + α2 v10 (a) = 0 , (9.27)
β1 v2 (b) + β2 v20 (b) = 0 . (9.28)
Note-se que a (9.27) é uma restrição à função v1 no ponto a enquanto que a (9.28) é uma restrição à
função v2 no ponto b. Com o uso dessas funções vamos construir uma solução do problema de Sturm.
Para tal, vamos introduzir a importante definição da função de Green2 . A função de Green é uma
função de duas variáveis G(x, y), onde x ∈ [a, b] e y ∈ [a, b], definida da seguinte forma:


 v1 (x)v2 (y)

 , para a ≤ x ≤ y ≤ b
 p(a)W (a)
G(x, y) := , (9.29)

 v1 (y)v2 (x)


 , para a ≤ y ≤ x ≤ b
p(a)W (a)
onde W (x) é o chamado determinante Wronskiano3 , ou função Wronskiana, definido4 , neste caso, por
 
v1 (x) v10 (x)
W (x) := det   = v1 (x)v20 (x) − v2 (x)v10 (x) . (9.30)
0
v2 (x) v2 (x)
Note-se que, por (9.B.9), W (x) 6= 0 para todo x ∈ [a, b].

Antes de prosseguirmos, vamos demonstrar um fato simples sobre a função Wronskiana, a sa-
ber vamos mostrar que a função p(x)W (x) é constante no intervalo [a, b]. Isso significa provar que
(p(x)W (x))0 = 0. De fato,
(pW )0 = p0 W + pW 0 = p0 (v1 v20 − v10 v2 ) + p (v1 v20 − v10 v2 )0
= p0 (v1 v20 − v10 v2 ) + p (v10 v20 + v1 v200 − v100 v2 − v10 v20 )
= p0 (v1 v20 − v10 v2 ) + p (v1 v200 − v100 v2 )
= v1 (p0 v20 + pv200 ) − v2 (p0 v10 + pv100 )
= v1 (pv20 )0 − v2 (pv10 )0
= −v1 qv2 + v2 qv1
= 0, (9.31)
2
George Green (1793-1841).
3
4
No Apêndice 9.C, página 554, mostramos a relação entre essa definição de determinante Wronskiano e aquela intro-
duzida no Capı́tulo 6, página 292 (vide página 303).
onde, na penúltima igualdade, usamos o fato que v1 e v2 satisfazem a equação homogênea. Assim,
provamos que, para todo x ∈ [a, b], tem-se p(x)W (x) = p(a)W (a) = p(b)W (b).
Dado que as funções v1 e v2 são contı́nuas, é fácil ver que G é igualmente contı́nua no quadrado
Q := [a, b] × [a, b] onde está definida. Entretanto, as derivadas parciais Gx e Gy de G não são
contı́nuas em Q, apresentando uma descontinuidade ao longo da diagonal de Q, que consiste nos
pontos (x, y) ∈ Q com x = y. Como esse fato terá conseqüências adiante, vamos nos dedicar a estudar
essa descontinuidade com mais detalhe.
Dado que v1 e v2 são diferenciáveis, é claro que


 v10 (x)v2 (y)

 , para a ≤ x < y ≤ b
 p(a)W (a)
Gx (x, y) := . (9.32)

 v1 (y)v20 (x)


 , para a ≤ y < x ≤ b
p(a)W (a)
Note que, nesta última expressão, excluı́mos os pontos para os quais x = y, onde G x não está definida.
Entretanto, apesar de Gx não estar definida nesses pontos, os limites lim Gx (x + , x) e lim Gx (x − , x)
→0 →0
existem mas são, porém, distintos, o mesmo se dando com os limites lim Gx (x, x + ) e lim Gx (x, x − ).
→0 →0
Dado que, para qualquer > 0, tem-se x + > x e x − < x, segue que
v1 (x)v20 (x)
lim Gx (x + , x) = (9.33)
→0 p(a)W (a)
e que
v10 (x)v2 (x)
lim Gx (x − , x) = . (9.34)
→0 p(a)W (a)
Analogamente segue que
v1 (x)v20 (x)
lim Gx (x, x − ) = (9.35)
→0 p(a)W (a)
e que
v10 (x)v2 (x)
lim Gx (x, x + ) = . (9.36)
→0 p(a)W (a)
Portanto, segue que
v1 (x)v20 (x) − v10 (x)v2 (x) W (x) 1

lim Gx (x + , x) − lim Gx (x − , x) = = = , (9.37)
→0 →0 p(a)W (a) p(a)W (a) p(x)
pois, como vimos, para qualquer x ∈ [a, b] tem-se p(a)W (a) = p(x)W (x). De maneira idêntica, segue
que
1
lim Gx (x, x − ) − lim Gx (x, x + ) = . (9.38)
→0 →0 p(x)
As relações (9.37) e (9.38) mostram-nos que, de fato, Gx é descontı́nua na diagonal de Q e nos

dizem também quão grande é o salto dado pela função Gx quando se cruza a diagonal de Q no ponto
(x, x).
O fato fundamental a respeito da função de Green é que a função u(x) definida por
Z b
u(x) = G(x, y) f (y) dy (9.39)
a
é tal que u satisfaz a equação não-homogênea (9.19) e satisfaz as condições de contorno (9.20)-(9.21),
ou seja, é a solução do problema de Sturm. Esse fato é conhecido como Teorema de Green e será
provado na próxima sub-seção.
9.2.2 O Teorema de Green

Vamos aqui demonstrar o Teorema de Green mencionado acima. Precisamos para tal calcular
(pu0 )0 + qu = pu00 + p0 u0 + qu
para u(x) dada por (9.39) e demonstrar que isso é igual a f (x). Dado que G tem derivadas parciais
descontı́nuas, é conveniente escrever
Z x Z b
u(x) = G(x, y) f (y) dy + G(x, y) f (y) dy . (9.40)
a x
Em cada um dos pedaços em que quebramos a integral acima tem-se que Gx é contı́nua. Daı́, segue
que
Z x Z b
0
u (x) = G(x, x)f (x) + Gx (x, y) f (y) dy − G(x, x)f (x) + Gx (x, y) f (y) dy
a x
Z x Z b
= Gx (x, y) f (y) dy + Gx (x, y) f (y) dy . (9.41)
a x
E. 9.9 Exercı́cio. Justifique as expressões acima. 6
De forma inteiramente análoga tem-se que

Z x
00
u (x) = lim Gx (x, x − )f (x) + Gxx (x, y) f (y) dy
→0 a
Z b
− lim Gx (x, x + )f (x) + Gxx (x, y) f (y) dy
→0 x
Z x Z b
f (x)
= + Gxx (x, y) f (y) dy + Gxx (x, y) f (y) dy , (9.42)
p(x) a x
onde, na última igualdade, usamos (9.38).
E. 9.10 Exercı́cio. Justifique as expressões acima. 6

Desta forma, temos que

p(x)
p(x)u00 + p0 (x)u0 + q(x)u = f (x)
p(x)
Z x
+ [p(x)Gxx (x, y) + p0 (x)Gx (x, y) + q(x)G(x, y)] f (y) dy
a
Z b
+ [p(x)Gxx (x, y) + p0 (x)Gx (x, y) + q(x)G(x, y)] f (y) dy (9.43)
.
x
Entretanto, temos que
p(x)Gxx (x, y) + p0 (x)Gx (x, y) + q(x)G(x, y) = 0 , (9.44)
e isto vale tanto para y = [a, x) quanto para y = (x, b]. Para ver isso basta notar, por exemplo, que
para y = [a, x) tem-se que
p(x)Gxx (x, y) + p0 (x)Gx (x, y) + q(x)G(x, y) =
v1 (y)
[p(x)v200 (x) + p0 (x)v20 (x) + q(x)v2 (x)] = 0 , (9.45)
p(a)W (a)
pois, por hipótese, v2 é solução da equação homogênea p(x)v200 (x) + p0 (x)v20 (x) + q(x)v2 (x) = 0. O caso
y = (x, b] é análogo.
Assim, retomando a equação (9.43), vemos que
p(x)u00 + p0 (x)u0 + q(x)u = f (x) . (9.46)
Está, portanto, demonstrado que a função u dada por (9.39) é solução da equação diferencial não-
homogênea. Resta provar que essa função u satisfaz as condições de contorno (9.4)-(9.5). Deixamos a
importante verificação desse último fato como exercı́cio.
E. 9.12 Exercı́cio. Mostre que (9.39) satisfaz as condições de contorno (9.4)-(9.5). 6
• O problema de Sturm com condições de contorno não-homogêneas
Com as observações da página 524 podemos encontrar também soluções de problemas de Sturm
(Lu)(x) = f (x) com u satisfazendo condições de contorno não-homogêneas como (9.2)-(9.3).
Seja w é uma função duas vezes diferenciável satisfazendo também (9.11)-(9.12). Defina-se
h(x) := (Lw)(x) .
e seja v a solução da equação

(Lv)(x) = f (x) − h(x) , (9.47)
com as condições de contorno homogêneas
α1 v(a) + α2 v 0 (a) = 0 , (9.48)
β1 v(b) + β2 v 0 (b) = 0 . (9.49)
Então, u = v + w satisfaz Lu = f e as condições não-homogêneas (9.2)-(9.3). Agora, pela solução do

problema de Sturm homogêneo, sabemos que
Z b
v(x) = G(x, y)(f (y) − h(y)) dy,
a
onde G é montada como antes (vide (9.29)) a partir de soluções v1 e v2 da equação homogênea
Lv1, 2 = 0, com v1 e v2 satisfazendo (9.27) e (9.28), respectivamente.
Logo, a solução procurada é
Z b
u(x) = G(x, y)(f (y) − h(y)) dy + w(x)
a
Z b Z b
= G(x, y)f (y) dy + w(x) − G(x, y)h(y) dy .
a a
Z b Z b
= G(x, y)f (y) dy + w(x) − G(x, y)(Lw)(y) dy . (9.50)
a a
9.3 O Problema de Sturm-Liouville

Seja o intervalo J := [a, b] ⊂ e sejam p, q e r funções reais definidas em J, tais que
p é contı́nua, diferenciável e estritamente positiva em J, ou seja, p(x) > 0 para todo x ∈ [a, b].
q é contı́nua em J.
r é contı́nua e estritamente positiva em J, ou seja, r(x) > 0 para todo x ∈ [a, b].
Para uma função u definida em J que seja pelo menos duas vezes diferenciável, vamos como ante-
riormente definir o operador diferencial L por (Lu)(x) = (p(x)u0 )0 + q(x)u.
Entende-se por Problema de Sturm-Liouville5 regular6 , ou simplesmente Problema de Sturm-Liouville,
o problema de se determinar a função u definida em J e os números λ tais que a seguinte equação
diferencial seja satisfeita:
Lu + λ r(x)u = 0 , (9.51)
5
Jacques Charles François Sturm (1803-1855). Joseph Liouville (1809-1882). Os trabalhos de ambos sobre o problema
que é hoje conhecido como Problema de Sturm-Liouville foram desenvolvidos entre 1829 e 1837.
6
O problema de Sturm-Liouville singular será tratado brevemente à página 549.
com o seguinte tipo de condição de contorno: vamos estar supondo que existam constantes reais α 1 ,
α2 , β1 e β2 tais que (α1 , α2 ) 6= (0, 0), (β1 , β2 ) 6= (0, 0) e tais que o seguinte par de relações deve ser
válido
α1 u(a) + α2 u0 (a) = 0 , (9.52)
β1 u(b) + β2 u0 (b) = 0 . (9.53)
Se λ for um número tal que a equação (9.51) for satisfeita para alguma função u λ (que em geral
dependerá de λ) então diz-se que λ é um autovalor do Problema de Sturm-Liouville e u λ é dito ser a
autofunção associada ao autovalor λ do Problema de Sturm-Liouville. Essa nomenclatura surge por
analogia com os conceitos de autovalor e autovetor de matrizes na álgebra linear.
Muitos problemas de Fı́sica envolvem a solução de problemas de Sturm-Liouville. Fora isso, a
solução de problemas de Sturm-Liouville é útil para a resolução de equações não-homogêneas como
Lu = f (x) (9.54)
para uma função f dada, com condições de contorno como (9.52)-(9.53). A razão para isso reside no
fato que, como veremos, a função de Green associada ao problema de Sturm Lu = f com condições
de contorno como (9.52)-(9.53) pode ser escrita em termos das autofunções e dos autovalores de um
problema de Sturm-Liouville.
Exemplo 9.1 No bem-conhecido problema da corda vibrante, descrevendo o movimento transversal
de uma corda homogênea de densidade ρ > 0 e de comprimento L, estendida entre os pontos a e
b = a + L e submetida a uma tensão T > 0, temos que resolver a equação de ondas
s
2 2
∂ u ∂ u T
2
− c2 2 = 0 , c := ,
∂t ∂x ρ
com x ∈ [a, b], t ∈ . Pelo método de separação de variáveis (vide Seção 8.3.1, página 482), procuramos

soluções da forma u(x, t) = y(x)θ(t) e obtemos para θ a equação θ̈(t) + λc2 θ(t) = 0 e para y a equação
y 00 (x) + λy(x) = 0 , (9.55)
λ sendo uma constante de separação. Se a corda estiver fixa em a e em b, devemos impor as condições
de contorno y(a) = 0 e y(b) = 0. Esse problema de determinar a função y satisfazendo a equação (9.55)
e as condições de contorno acima é um problema de Sturm-Liouville com p(x) = 1, q(x) = 1, r(x) = 1,
(α1 , α2 ) = (1, 0) e (β1 , β2 ) = (1, 0).
No caso a = 0 e b = 0, obtem-se como soluções desse problema de Sturm-Liouville as funções
yn (x) = sen (nπx/L) com λn = (nπ/L)2 para todo n = 1, 2, 3, . . .. ◊
Exemplo 9.2 Na Mecânica Quântica, considere o problema de determinar a função de onda de uma
partı́cula de massa m movendo-se em uma dimensão e constrita a um intervalo finito [a, b] ⊂ por
barreiras infinitas de potencial em x ≤ a e x ≥ b e sujeita, no intervalo [a, b], a um potencial V (x). A

equação de Schrödinger independente do tempo é
~2 d 2 ψ
(x) − V (x)ψ(x) + Eψ(x) = 0 ,
2m dx2
com x ∈ [a, b], sendo que, devido às barreiras infinitas de potencial, devemos impor as condições
~2
de contorno ψ(a) = 0 e ψ(b) = 0. Trata-se de um problema de Sturm-Liouville com p(x) = 2m ,
q(x) = −V (x), r(x) = 1, λ = E, (α1 , α2 ) = (1, 0) e (β1 , β2 ) = (1, 0). ◊
9.4 Propriedades Básicas dos Autovalores e das Autofunções

de Problemas de Sturm-Liouville
Seja C([a, b]) o conjunto das funções complexas contı́nuas definidas no intervalo [a, b]. É bem sabido
que C([a, b]) é um espaço vetorial. Para cada α1 , α2 , β1 e β2 o espaço V(α1 , α2 , β1 , β2 ), definido à
página 525, é um sub-espaço de C([a, b]).
Um produto escalar complexo em um espaço vetorial complexo V é uma função V × V → , ou
seja, uma função que associa pares de vetores a um número complexo, denotada por h·, ·i e de tal
forma que os seguintes requerimentos sejam observados:
1. hx, xi ≥ 0 para todo x ∈ V .
2. hx, yi = hy, xi, para todos x, y ∈ V .
3. Se hx, xi = 0 então x = 0, onde 0 é o vetor nulo.
4. Se a e b são números complexos quaisquer então
hx, ay + bzi = ahx, yi + bhx, zi . (9.56)
5. Se a e b são números complexos quaisquer então
hax + by, zi = ahx, zi + bhy, zi . (9.57)
Podemos dotar o espaço vetorial C([a, b]) de vários produtos escalares. Dois deles nos interessarão
aqui. Para f , g ∈ C([a, b]) definimos o produto escalar
Z b
hf, gi = f (x) g(x) dx , (9.58)
a
e também o produto escalar Z b

hf, gir = f (x) g(x) r(x) dx , (9.59)
a
onde a função r é a função estritamente positiva caracterizada acima no problema de Sturm-Liouville.
9.4.1 Realidade dos Autovalores. Ortogonalidade de Autofunções

Vamos aqui demonstrar duas propriedades básicas comuns a todos os problemas de Sturm-Liouville.
A saber, vamos mostrar o seguinte teorema.
Teorema 9.2 Os autovalores de um problema de Sturm-Liouville, como descrito acima são sempre
números reais. Fora isso, se uλ1 e uλ2 são duas autofunções associadas a dois autovalores distintos λ 1
e λ2 (λ1 6= λ2 ) então vale que
Z b
huλ1 , uλ2 ir = uλ1 (x) uλ2 (x) r(x) dx = 0 . (9.60)
a
Esta última relação é chamada de relação de ortogonalidade (em relação ao produto escalar h·, ·i r ). 2
Para provar este teorema vamos antes demonstrar o seguinte lema:

Lema 9.1 (Lema de Green) Sejam u e v duas funções definidas em J = [a, b], que sejam pelo menos
duas vezes diferenciáveis e tais que ambas satisfaçam condições de contorno como (9.52)-(9.53), ou
seja, ambas são elementos do espaço vetorial de funções V(α 1 , α2 , β1 , β2 ) (página 525). Então, tem-se
hv, Lui = hLv, ui,
ou seja, Z Z
b b
v(x) (Lu)(x) dx = (Lv)(x) u(x) dx . (9.61)
a a
2
Prova do Lema 9.1. Usando-se integração por partes, tem-se

Z b Z b Z b
0 0
v(x) (Lu)(x) dx = v(x)(p(x)u ) dx + v(x)q(x)u(x) dx
a a a
Z b Z b
b
= − v 0 (x)(p(x)u0 ) dx + vpu0 |a + v(x)q(x)u(x) dx
a a
Z Z
b b b
v 0 pua
b
= u(pv 0 )0 dx + vpu0 |a − + v(x)q(x)u(x) dx
a a
Z b b
u(x) (Lv)(x) dx + vpu0 |a − v 0 pua .
b
= (9.62)
a
Agora, escrevendo-se explicitamente tem-se que
b
vpu0 |a − v 0 pua = p(b)v(b)u0 (b) − p(a)v(a)u0 (a) − p(b)v 0 (b)u(b) + p(a)v 0 (a)u(a)
b

= p(b) v(b)u0 (b) − v 0 (b)u(b) − p(a) v(a)u0 (a) − v 0 (a)u(a) . (9.63)
Vamos agora provar que os fatores entre parênteses em (9.63) são nulos. Como u e v satisfazem
(9.52)-(9.53), tem-se
         
v(a) v 0 (a) α1 0 v(b) v 0 (b) β1 0
   =   e     =   .
0 α2 0 0 β2 0
u(a) u (a) u(b) u (b)

α1 0 β1 0
Como 6 = e 6= devemos ter
α2 0 β2 0
   
v(a) v 0 (a) v(b) v 0 (b)
det   = 0 e det   = 0,
0 0
u(a) u (a) u(b) u (b)
ou seja,
v(a)u0 (a) − v 0 (a)u(a) = 0 e v(b)u0 (b) − v 0 (b)u(b) = 0 .
O lado esquerdo de ambas as expressões são os termos entre parênteses de (9.63). Logo,
b
vpu0 |a − v 0 pua = 0.
b
Voltando à (9.62), isso completa a demonstração do Lema de Green.
Vamos então passar à
Prova do Teorema 9.2. Para provar que os autovalores de um problema de Sturm-Liouville são reais,
seja λ um autovalor e u a sua correspondente autofunção. Vamos mostrar que
Z b
(λ − λ) u(x) u(x) r(x) dx = 0 . (9.64)
a
Rb
Como u 6= 0 e r > 0 (por hipótese), temos que a u u r(x) dx 6= 0. Portanto, (9.64) diz-nos que
λ − λ = 0, ou seja, que λ é um número real. Para provar (9.64), notemos que
Z b Z b Z b
(λ − λ) u u r(x) dx = u (λu r(x)) dx − λur(x) u dx
a a a
Z b Z b
= − u (Lu) dx + Lu u dx
a a
= 0, (9.65)
pelo Lema de Green. Assim, completamos a demonstração de que os autovalores de um problema de
Sturm-Liouville são números reais.
Vamos agora provar a relação de ortogonalidade (9.60). Para tal, vamos provar que
Z b
(λ1 − λ2 ) uλ1 (x) uλ2 (x) r(x) dx = 0 . (9.66)
a
Como estamos supondo que λ1 6= λ2 , essa relação diz então que (9.60) deve ser verdadeira. Como λ1 e
λ2 são reais, o lado esquerdo de (9.66) pode ser escrito como
Z b Z b
(λ1 r(x)uλ1 (x)) uλ2 (x) dx − uλ1 (x) (λ2 r(x)uλ2 (x)) dx
a a
Z b Z b
= − (Luλ1 (x)) uλ2 (x) dx + uλ1 (x) (Luλ2 (x)) dx = 0 , (9.67)
a a
pelo Lema de Green. A prova do Teorema 9.2 está então completa.
O que vimos no Teorema 9.2 é que autofunções associadas a autovalores distintos de um problema
de Sturm-Liouville são ortogonais entre si em relação ao produto escalar definido em (9.59).
O Lema de Green afirma que L é um operador simétrico em relação ao produto escalar definido em
(9.58) quando age em vetores do sub-espaço V(α1 , α2 , β1 , β2 ).
9.4.2 A Simplicidade dos Autovalores

Se u1 , u2 ∈ V(α1 , α2 , β1 , β2 ) são duas autofunções de um problema de Sturm-Liouville regular com
o mesmo autovalor λ, ou seja, Lu1 + λru1 = 0 e Lu2 + λru2 = 0, então é fácil verificar que qualquer
combinação linear a1 u1 +a2 u2 é também um elemento de V(α1 , α2 , β1 , β2 ) e é também uma autofunção
com autovalor λ: L(a1 u1 +a2 u2 )+λr(a1 u1 +a2 u2 ) = 0. Em outras palavras, o conjunto das autofunções
de um um problema de Sturm-Liouville com um mesmo autovalor é um espaço vetorial.
Uma questão importante sobre problemas de autovalores, como o de Sturm-Liouville, é a questão
da multiplicidade dos autovalores, ou seja, a questão de saber, dado um autovalor λ, qual a dimensão
do espaço vetorial de todas as suas autofunções.
No problema de Sturm-Liouville regular a resposta é simples. A dimensão é sempre igual a 1, ou
seja, os autovalores são simples. A demonstração é a seguinte. Sejam u1 , u2 ∈ V(α1 , α2 , β1 , β2 ) tais
que Lu1 + λru1 = 0 e Lu2 + λru2 = 0 para um dado λ. Considere-se a função
 
u1 (x) u01 (x)
W12 (x) = det   = u1 (x)u02 (x) − u01 (x)u2 (x) .
u2 (x) u02 (x)
Vamos em primeiro lugar mostrar que p(x)W12 (x) é constante no intervalo [a, b], ou seja, que (pW12 )0 =
0. De fato,
(pW12 )0 = p0 W12 + pW012 = p0 (u1 u02 − u01 u2 ) + p (u1 u02 − u01 u2 )0
= p0 (u1 u02 − u01 u2 ) + p (u01 u02 + u1 u002 − u001 u2 − u01 u02 )
= p0 (u1 u02 − u01 u2 ) + p (u1 u002 − u001 u2 )
= u1 (p0 u02 + pu002 ) − u2 (p0 u01 + pu001 )
= u1 (pu02 )0 − u2 (pu01 )0
= −u1 (qu2 + λru2 ) + u2 (qu1 + λru1 )
= 0. (9.68)
Vamos agora mostrar que W12 (b) = 0. Como acabamos que ver que p(x)W12 (x) é constante, isso
implica que p(x)W12 (x) = 0 para todo x ∈ [a, b].
Como as funções u1 e u2 são elementos de V(α1 , α2 , β1 , β2 ), temos em x = b7

    
u1 (b) u01 (b) β1 0
   =   .
u2 (b) u02 (b) β2 0

β1 0
Agora, como 6= , segue que
β2 0
 
u1 (b) u01 (b)
det   = 0,
0
u2 (b) u2 (b)
ou seja, W12 (b) = 0.

Pelo que acabamos de provar, p(x)W12 (x) = 0 para todo x ∈ [a, b]. Como p é estritamente positiva,
segue que W12 (x) = 0 para todo x ∈ [a, b], ou seja,
 
u1 (x) u01 (x)
det   = 0,
u2 (x) u02 (x)
para todo x ∈ [a, b]. Isso diz que as duas linhas que formam a matriz acima são, para cada x ∈ [a, b],
proporcionais uma a outra, ou seja, existe γ(x) tal que, por exemplo,
u1 (x) = γ(x)u2 (x) e u01 (x) = γ(x)u02 (x)
para cada x ∈ [a, b]. Derivando a primeira e comparando à segunda, concluı́-se que γ(x) é constante,
ou seja, não depende de x.
Assim, verificamos que as funções u1 e u2 são múltiplas entre si. Com isso, mostramos que se
tivermos duas autofunções com o mesmo autovalor as autofunções são múltiplas uma da outra e o sub-
espaço que ambas geram tem dimensão 1. Em resumo, autovalores de problemas de Sturm-Liouville
regular são sempre simples, ou não-degenerados.
9.4.3 Condições Suficientes para a Positividade dos Autovalores

Em muitas aplicações de interesse fı́sico ocorre que os autovalores são (ou precisem ser) números
positivos. Vamos apresentar agora um conjunto de condições que são suficientes para garantir isso.
Proposição 9.2 Se forem simultaneamente válidas as condições
1. q(x) ≤ 0 para todo x ∈ [a, b],
2. α1 α2 ≤ 0,
3. β1 β2 ≥ 0,
7
Um argumento análogo funciona também em x = a.
então todos os autovalores λ do problema de Sturm-Liouville correspondente são estritamente positivos:

λ > 0. 2
Prova. A demonstração é um tanto indireta. Seja u uma autofunção com autovalor λ, ou seja,
(pu0 )0 + qu + λru = 0 .
Multiplicando-se essa igualdade por u e integrando-se entre a e b, tem-se

Z b Z b Z b
2 0 0
λ |u(x)| r(x) dx = − u(x)(pu ) (x) dx − |u(x)|2 q(x) dx . (9.69)
a a a
Vamos agora integrar por partes a primeira integral do lado direito. Temos,
Z b b Z b
0 0 0
u(x)(pu ) (x) dx = u(x)(pu )(x) − |u0 (x)|2 p(x) dx .
a a a
Substituindo em (9.69), tem-se

Z b Z b h i
2 0 2 2
0 0
λ |u(x)| r(x) dx = |u (x)| p(x) − |u(x)| q(x) dx + p(a)u(a)u (a) − p(b)u(b)u (b) . (9.70)
a a
As três integrais acima são números reais. Portanto, vale, tomando-se a parte real da expressão,
Z b Z b h i

λ 2
|u(x)| r(x) dx = |u0 (x)|2 p(x) − |u(x)|2 q(x) dx+ p(a) Re u(a)u0 (a) − p(b) Re u(b)u0 (b) .
a a
(9.71)
0
No ponto a u satisfaz α1 u(a) + α2 u (a) = 0. Multiplicando-se essa expressão pelo seu complexo
conjugado, tem-se
α12 |u(a)|2 + α22 |u0 (a)|2 + 2α1 α2 Re u(a)u0 (a) = 0 ,
ou seja,
2α1 α2 Re u(a)u0 (a) = − α12 |u(a)|2 + α22 |u0 (a)|2 . (9.72)
Analogamente, para o ponto b,

2β1 β2 Re u(b)u (b) = − β12 |u(b)|2 + β22 |u0 (b)|2 .
0
(9.73)
Consideremos agora que α1 α2 < 0 e β1 β2 > 0.

A expressão (9.72) nos ensina que α1 α2 e Re u(a)u0 (a) têm sinais opostos e (9.73) que β1 β2 e

Re u(b)u0 (b) têm sinais opostos. Assim, se tivermos q(x) ≤ 0 para todo x ∈ [a, b], α1 α2 < 0 e
Rb
β1 β2 > 0 a soma do lado direito de (9.71) será estritamente positiva. Como a |u(x)|2 r(x) dx > 0, já
que r é também por hipótese estritamente positiva, segue de (9.71) que λ > 0.
Se α1 α2 = 0, então u(a)u0 (a) = 0 (por que?). Assim, se adicionalmente tivermos q(x) ≤ 0 para
todo x ∈ [a, b] e β1 β2 > 0, então a soma do lado direito de (9.71) será estritamente positiva, o que
implica λ > 0.
Analogamente, se β1 β2 = 0, então u(b)u0 (b) = 0 (por que?). Assim, se adicionalmente tivermos
q(x) ≤ 0 para todo x ∈ [a, b] e α1 α2 < 0, então teremos novamente λ > 0. Por fim, se α1 α2 = 0 e
β1 β2 = 0, então u(a)u0 (a) = 0 e u(b)u0 (b) = 0. Assim, com q(x) ≤ 0 para todo x ∈ [a, b] teremos
novamente λ > 0.
• Comentário sobre autovalores negativos
É importante dizer aqui que existem problemas de Sturm-Liouville regulares onde ocorrem autovalo-
res negativos (vide exercı́cio-exemplo abaixo). No Teorema 9.3, página 541, mostraremos que apesar de
ser possı́vel a existência de autovalores negativos, os mesmos não podem ser arbitrariamente negativos,
ou seja, negativos mas com módulo |λ| arbitrariamente grande. Provaremos que existe uma constante
M tal que λ ≥ M . A constante M pode ser positiva, negativa ou nula. Em verdade, em um problema
de Sturm-Liouville regular pode ocorrer no máximo um número finito de autovalores negativos.
• Um Exemplo
E. 9.13 Exercı́cio-exemplo. Seja o problema de Sturm-Liouville u 00 + λu = 0, no intervalo [0, 1], com

as condições de contorno u(0) = 0 e β1 u(1) + β2 u0 (1) = 0.
Aqui p(x) = 1, q(x) = 0, r(x) = 1, α1 = 1 e α2 = 0. A identidade (9.71) fica
Z b Z b
2 0 2 0
λ |u(x)| dx = |u (x)| dx − Re u(b)u (b) . (9.74)
a a
Caso β1 = 0, teremos u0 (b) = 0. Caso β2 = 0, teremos u(b) = 0. Nesses dois casos, (9.74) fica
Z b Z b
λ 2
|u(x)| dx = |u0 (x)|2 dx ,
a a
que garante que λ > 0.

No caso em que β1 e β2 são não-nulos, (9.73) diz-nos que
Z b Z b
1
λ 2
|u(x)| dx = |u0 (x)|2 dx + β12 |u(b)|2 + β22 |u0 (b)|2 . (9.75)
a a 2β1 β2
Como se vê, se β1 β2 > 0 tem-se λ > 0, mas se β1 β2 < 0 poderemos ter autovalores negativos. Abaixo
(item f), veremos que isso de fato ocorre caso −β12 < β2 β1 < 0.
a. No caso β1 = 0 mostre que os autovalores são λn = (n + 12 )2 π 2 , n = 0, 1, 2, . . ..
b. No caso β2 = 0 mostre que os autovalores são λn = n2 π 2 , n = 1, 2, 3, . . ..
c. Determine as autofunções nessas duas situações.

d. No caso em que β1 e β2 são não-nulos mostre que os autovalores positivos são as (infinitas!) soluções
de
√ β1 √
λ = − tan( λ) .
β2
Mostre graficamente que essa equação tem infinitas soluções quer ββ21 > 0 ou quer ββ12 < 0.
e. Para o caso β1 = −β2 mostre que também ocorre o autovalor λ = 0, cuja autofunção é u(x) = αx, α
sendo uma constante arbitrária não nula.
f. Mostre que se 0 < − ββ21 < 1, ou seja, se −β12 < β2 β1 < 0, ocorre também um (único!) autovalor
negativo, o qual é solução de
√ β1 √
−λ = − tanh( −λ) .
β2
Mostre graficamente que essa equação não tem solução se 0 > − ββ12 ou se − ββ21 > 1.
g. Reunindo os resultados obtidos, indique no plano Cartesiano (β 1 , β2 ) a região onde os autovalores
são estritamente positivos, a região onde ocorre o autovalor zero e a região onde ocorrem também
autovalores negativos além dos autovalores positivos.
• Um Limite Inferior para os Autovalores
Ainda sobre os autovalores de problemas de Sturm-Liouville regulares, o seguinte teorema pode ser
demonstrado.
Teorema 9.3 Seja o problema de Sturm-Liouville (regular) definido pela equação
Lu + λ r(x)u = 0,
onde p, q e r funções reais definidas em [a, b], tais que p é contı́nua, diferenciável e estritamente
positiva em [a, b], ou seja, p(x) > 0 para todo x ∈ [a, b]; q é contı́nua em [a, b]; r é contı́nua e
estritamente positiva em [a, b], ou seja, r(x) > 0 para todo x ∈ [a, b]; com as condições de contorno
α1 u(a) + α2 u0 (a) = 0 , β1 u(b) + β2 u0 (b) = 0
para (α1 , α2 ) 6= (0, 0), (β1 , β2 ) 6= (0, 0).
Então existe uma constante M , que depende (em geral de forma muito complicada) das funções p,
q e r e das constante α1, 2 e β1, 2 , tal que todos os autovalores λ satisfazem
λ ≥ M.
2
A constante M pode ser positiva, negativa ou nula. O que esse teorema diz é que existe um
limitante inferior para os autovalores de um problema de Sturm-Liouville, ou seja, os mesmos podem
até ser eventualmente negativos, mas não arbitrariamente negativos. A demonstração 8 desse teorema
é apresentada no Apêndice 9.E, página 556.
8
Essa demonstração pode ser omitida numa primeira leitura.
9.5 A Equação Integral de Fredholm

Um dos passos mais úteis para se estudar um problema de Sturm-Liouville consiste em transformá-lo
em uma equação integral. Como veremos, isso pode ser feito caso 0 não seja um possı́vel autovalor.
Considere o problema de Sturm-Liouville de determinar as soluções de
Lu = −λ r(x) u, (9.76)
que satisfaçam as condições de contorno (9.52)-(9.53). Se λ = 0 não for um autovalor desse problema,
ou seja, se Lu = 0 com as condições de contorno (9.52)-(9.53) possuir apenas a solução trivial u = 0,
então o problema de Sturm Lu = f com as condições de contorno (9.52)-(9.53) possui solução única.
Isso é elementar de se ver, pois se u1 e u2 são duas soluções, então L(u1 − u2 ) = 0, sendo que u1 − u2
obviamente satisfaz (9.52)-(9.53). Pelo pressuposto, u1 − u2 = 0.
Z b
Agora, pelo Teorema de Green, u(x) = G(x, y) f (y)dy é solução de Lu = f com as condições
a
de contorno (9.52)-(9.53) e, portanto, essa é a única solução. Assim sob a hipótese que λ = 0 não é
um autovalor do problema de Sturm-Liouville, toda Z função u que satisfaz Lu = f com as condições
b
de contorno (9.52)-(9.53) satisfaz também u(x) = G(x, y) f (y)dy para qualquer que seja a função
a
contı́nua f .
Disso concluı́mos que a função u que satisfaz a equação diferencial (9.76) satisfaz também
Z b
u(x) = −λ G(x, y) r(y) u(y) dy , (9.77)
a
isto é, definindo-se

k(x, y) := −G(x, y) r(y) (9.78)
para x, y ∈ [a, b], vale
Z b
u(x) = λ k(x, y) u(y) dy . (9.79)
a
Uma equação como esta onde a função k(x, y) é contı́nua em um intervalo fechado é conhecida como
Equação Integral de Fredholm linear homogênea, ou simplesmente Equação Integral de Fredholm 9 . O
estudo da equação integral de Fredholm é um dos capı́tulos importantes da Análise Funcional e da
Teoria das Equações Integrais. Iremos aqui tratar aqui apenas de aspectos básicos da mesma que
mais diretamente nos interessam. O leitor poderá encontrar mais material sobre a equação integral de
Fredholm não-linear na Seção 14.2, página 787, assim como na Seção 23.6, página 1100, para o caso
linear.
Seja o espaço vetorial C(J) introduzido acima, de todas as funções contı́nuas definidas no intervalo
J = [a, b]. Podemos então, com o auxı́lio da função k(x, y) dada em (9.78), definir em C(J) um
operador linear K dado por Z b
(Kf )(x) := k(x, y) f (y) dy . (9.80)
a
9
Erik Ivar Fredholm (1866-1927). O trabalho de Fredholm sobre operadores integrais é “Sur une class d’equations
fonctionelles”, Acta Math. 27, 365-390 (1903).
x ∈ J. O operador K é denominado operador de Fredholm. A equação (9.79) diz-nos então que

1
Ku = u. (9.81)
λ
A respeito desse operador K podemos provar o seguinte resultado. Tomando-se em C(J) o produto
escalar h·, ·ir definido acima, temos
hf, Kgir = hKf, gir (9.82)
para todo f , g ∈ C(J).
E. 9.14 Exercı́cio. Mostre esse fato. Para isso use que a função de Green satisfaz G(x, y) = G(y, x).
6
Um operador linear que satisfaz uma relação como (9.82) é dito ser um operador simétrico ou
Hermiteano, um conceito de grande importância em Fı́sica e Matemática. O operador K é então um
operador simétrico em relação ao produto escalar h·, ·ir .
Se A é um operador linear agindo em um espaço vetorial complexo V , dizemos que um vetor
não-nulo x é um autovetor de A se houver um número (real ou complexo) α tal que
Ax = α x. (9.83)
O número α é dito ser um autovalor de A e x o autovetor associado a α. O conjunto de todos os

autovalores de um operador linear A é chamado de espectro pontual10 de A.
Um fato importante sobre operadores simétricos é o seguinte: se α é um autovalor de um operador
simétrico A que age em um espaço vetorial complexo V , então α é um número real. Para ver isso note
que se x é o autovetor associado a α então temos que, como A é simétrico
0 = hx, Axi − hAx, xi = λhx, xi − λhx, xi = (λ − λ)hx, xi .
Como x 6= 0, isso implica λ = λ, ou seja, λ é real.

O fato de o operador de Fredholm K ser simétrico significa que seus autovalores são números reais.
Note-se que a equação de Fredholm (9.81) é precisamente uma equação de autovalores, o autovalor
sendo, nesse caso, o número 1/λ. O que provamos acima diz-nos então que λ dever ser um número
real, uma outra demonstração de um fato que já sabı́amos.
O seguinte teorema pode ser demonstrado sobre o operador de Fredholm associado a um problema
de Sturm-Liouville:
Teorema 9.4 Seja K o operador de Fredholm associado a um problema de Sturm-Liouville, que su-
pomos não admitir autovalor nulo. Então K é um operador contı́nuo. Seus autovalores formam um
conjunto discreto (ou seja, contável) {αn ∈ , n ∈ }. Os valores da seqüência dos αn são limitados

(não divergem para ±∞), apenas um número finito deles pode ser negativo e eles se acumulam apenas
10
O conceito geral de espectro de operadores definidos em espaços de Banach é detalhadamente discutido na Seção
23.5, página 1091.
1
no ponto 0. Assim, tem-se que lim = +∞. Além disso, os autovalores αn são simples: existe para
n→∞ αn
cada autovalor αn apenas uma autofunção un tal que
K u n = α n un . (9.84)
Denotemos por Hr o espaço de Hilbert de todas as funções em J = [a, b] tais que

Z b
|f (x)|2 r(x) dx < ∞. (9.85)
a
Nesse espaço de Hilbert o produto escalar considerado é o produto escalar h·, ·i r definido acima. Vamos
supor que as autofunções un são normalizadas, ou seja, satisfazem hun , un ir = 1. Então o conjunto
das autofunções normalizadas un de K forma uma base ortonormal completa em Hr , ou seja, todo
vetor f ∈ Hr pode ser escrito como
N
X ∞
X
f = lim cn un =: c n un , (9.86)
N →∞
n=1 n=1
onde Z b
cn := hun , f ir = un (x) f (x) r(x) dx . (9.87)
a
Mais precisamente, vale
* N
! N
!+
X X
lim f− c n un , f− c n un
N →∞
n=1 n=1 r
Z b XN
2

= lim f (x) − cn un (x) r(x) dx = 0 . (9.88)
N →∞ a
n=1
A demonstração deste teorema é elaborada e será apresentada ao longo da Seção 23.6, página 1100,
do Capı́tulo 23. O que faremos é mostrar que o operador de Fredholm K é um operador compacto e
auto-adjunto e para tais operadores valem as propriedades espectrais mencionadas acima. A afirmação
(9.86)-(9.88), por exemplo, é parte do chamado Teorema Espectral, o qual vale para operadores com-
pactos e auto-adjuntos, como mostrado no Teorema 23.29 da página 1116.
Notemos algumas conseqüências do teorema acima. Como os autovalores de um problema de Sturm-
Liouville regular λn são da forma λn = 1/αn , onde αn é um autovalor de K, o teorema acima diz-nos
que podemos ordenar os λn ’s em ordem crescente:
−∞ < λ1 < λ2 < λ3 < · · · (9.89)

com lim λn = +∞. Uma segunda conseqüência de importância relaciona o problema de Sturm-
n→∞
Liouville com a função de Green. Seja u um vetor arbitrário de Hr . Como dissemos, podemos escrever
N
u = lim uN , onde uN = Σ cn un , onde os cn ’s são dados por (9.87). Como K é contı́nuo, temos que
N →∞ n=1
(Ku)(x) = lim (KuN )(x) =

N →∞
N
X
= lim cn (Kun )(x)
N →∞
n=1
N
X 1
= lim cn un (x)
N →∞
n=1
λn
XN Z b
1
= lim un (y)u(y)r(y) dy un (x)
N →∞
N =1
λn a
Z N
!
b X un (x)un (y)
= r(y) lim u(y) dy . (9.90)
a N →∞
n=1
λn
Rb
Por outro lado sabemos que, pela definição, (Ku)(x) = − a
G(x, y)r(y) u(y). Como ambas relações
valem para qualquer u ∈ Hr , concluı́mos que
∞
X un (x)un (y)
G(x, y) = − . (9.91)
n=1
λn
É possı́vel demonstrar, o que não faremos aqui, que a soma do lado direito da última expressão é absoluta
e uniformemente convergente. A relação (9.91), que é por vezes chamada fórmula de Mercer 11 , mostra
que a função de Green de um problema de Sturm pode ser escrita como uma expansão envolvendo
autovalores e autofunções de um problema de Sturm-Liouville. Esse fato é relevante tanto na prática
da resolução de equações diferenciais quando na obtenção de resultados qualitativos sobre a natureza
das soluções. Estudaremos adiante algumas dessas aplicações.
9.6 Uma Aplicação do Problema de Sturm-Liouville

Vamos aqui tratar do problema de encontrar as soluções da equação diferencial não-homogênea
Lu + γr(x)u = f (x) , (9.92)
onde a solução u está ainda sujeita às condições de contorno homogêneas (9.52)-(9.53). Acima, o
operador L é definido como anteriormente e assumimos para as funções p, q e r as mesmas condições
11
T. Mercer. “Functions of positive type and their connection with the theory of integral equations”. Transactions
London Phil. Soc. (A) 209, 415-446 (1909).
mencionadas no inicio desta capı́tulo. A função f será assumida ser uma função real e contı́nua e γ é
assumido ser um número real dado.
Como veremos, a solução pode ser obtida com uso das autofunções e autovalores do problema de
Sturm-Liouville
Lu + λr(x)u = 0
com condições de contorno homogêneas do tipo (9.4)-(9.5). Chamaremos esse problema de problema de
Sturm-Liouville associado (ao problema (9.92)). Novamente estaremos aqui supondo que o problema
de Sturm-Liouville associado não tem solução com autovalor λ = 0.
Com o uso da representação da função de Green em termos dos autovalores e autofunções do
problema de Sturm-Liouville associado (fórmula de Mercer, (9.91)), vamos mostrar como podemos
encontrar uma expressão para a solução desse problema.
A equação diferencial (9.92) pode ser escrita como
Lu = −γr(x)u + f . (9.93)
Usando, como fizemos anteriormente, o Teorema de Green, podemos dizer que a função u(x) que satisfaz
esta equação diferencial satisfaz também a equação integral
Z b Z b
u(x) = −γ G(x, y)r(y)u(y) dy + G(x, y)f (y) dy . (9.94)
a a
Definamos Z b
g(x) := G(x, y)f (y) dy . (9.95)
a
Usando a fórmula de Mercer para a função de Green, podemos escrever (9.94) como
X∞
hu, un ir
u(x) = γ un (x) + g(x) . (9.96)
n=1
λ n
Tomando-se o produto escalar de ambos os lados da igualdade com o vetor um , tiramos que

γ
1− hum , uir = hum , gir . (9.97)
λm
Aplicando agora a fórmula de Mercer à definição de g em (9.95), tiramos que

X∞ Z b
1
g(x) = − un (y) f (y) dy un (x) , (9.98)
n=1 n
λ a
e, portanto, que Z b
1
hum , gir = − um (y) f (y) dy , (9.99)
λm a
ou seja,
1
hum , gir = − hum , f i . (9.100)
λm
E. 9.16 Exercı́cio. Mostre esses dois últimos resultados. 6
Até agora não fizemos quaisquer restrições a respeito da constante γ que aparece na equação dife-
rencial não-homogênea (9.92). Há dois casos a supor. Aquele em que γ não é igual a nenhum autovalor
λm do problema de Sturm-Liouville associado e aquele caso em que γ = λs , para algum autovalor λs
do problema de Sturm-Liouville associado.
Caso I. γ não é um autovalor.
Nesse caso as relações (9.97) e (9.99) dizem-nos que
Z b
1
hu, um ir = um (y) f (y) dy (9.101)
γ − λm a
e, portanto, temos que

∞
X Z b
1
u(x) = um (y) f (y) dy um (x) . (9.102)
m=1
γ − λm a
Esta fórmula dá-nos a solução do problema termos das autofunções e autovalores do problema do
Sturm-Liouville associado e mostra-nos uma das razões que tornam importante a solução do mesmo
problema de Sturm-Liouville. A série do lado direito converge absoluta e uniformemente em J.
Caso II. γ = λs para algum s.
Neste caso o problema tratado nem sempre tem soluções. Para ver isso, note que, supondo-se a
existência de uma solução, a relação (9.97) diz-nos neste caso que hu s , gir = 0, ou seja, por (9.100)
Z b
hum , f i = us (y) f (y) dy = 0 . (9.103)
a
Caso a função f seja tal que (9.103) não é satisfeita, então nenhuma solução é possı́vel para o
problema tratado. Se f , porém, for tal que (9.103) seja válida, teremos que a função û dada por
∞
X Z b
1
û(x) = um (y) f (y) dy um (x) (9.104)
m=1
γ − λm a
m6=s
é uma solução do problema tratado.
E. 9.17 Exercı́cio. Prove esta última afirmativa seguindo passos semelhantes aos do caso I. 6
A solução mais geral, porém, é dada por
u(x) = cus (x) + û(x) , (9.105)
onde c é uma constante arbitrária, a ser determinada por alguma imposição adicional qualquer a ser
feita ao problema.
E. 9.18 Exercı́cio. Mostre que esta função u é de fato uma solução (substitua na equação (9.92) e
verifique também se as condições de contorno são satisfeitas). Mostre que não pode haver solução mais
geral que esta. Para isso use o fato que o autovalor λs é simples. 6
• O caso de condições de contorno não-homogêneas
Vamos aqui discutir brevemente uma generalização do problema anterior. Procuramos uma solução
da equação diferencial não-homogênea
Lu + γr(x)u = f (x) , (9.106)
onde a solução u está ainda sujeita às condições de contorno não-homogêneas (9.2)-(9.3). Acima, o
operador L é definido como anteriormente e assumimos para as funções p, q e r as mesmas condições
mencionadas no inı́cio destas notas. A função f será assumida ser uma função real e contı́nua e γ será
assumido ser um número real dado.
Esse problema pode ser resolvido combinando métodos que já discutimos. Em primeiro lugar
constrói-se uma função w que seja duas vezes diferenciável e satisfaça as condições não-homogêneas
(9.2)-(9.3).
Procura-se então uma supostamente existente solução v da equação
Lv + γr(x)v = h(x) , (9.107)
com
h(x) = f (x) − (L + γr(x))w(x) ,
que satisfaça as condições de contorno homogêneas (9.4)-(9.5). Uma tal solução pode ser obtida pelos
métodos da Seção 9.6, página 545.
É claro, então, que u = v + w satisfará
Lu + γr(x)u = f (x) (9.108)
e as condições de contorno não-homogêneas (9.2)-(9.3).
Como vimos, para a solução v exista é necessário que γ não seja um autovalor do problema de
Sturm-Liouville associado. Caso γ seja um autovalor, só teremos solução se hu γ , hi = 0, ou seja,
huγ , f i = huγ , (L + γr)wi . (9.109)
Vale observar que
huγ , (L + γr)wi = huγ , Lwi + hγruγ , wi = huγ , Lwi − hLuγ , wi .
Note que o lado direito não é forçosamente zero, pois aqui o Lema de Green não se aplica, já que w não
é elemento do espaço vetorial V(α1 , α2 , β1 , β2 ) das funções que satisfazem as condições de contorno
homogêneas (9.4)-(9.5). A condição (9.109) fica, então,
huγ , f i = huγ , Lwi − hLuγ , wi .
Nesse caso de γ ser um autovalor podemos, como já observamos, acrescentar à solução û um múltiplo
da autofunção uγ , obtendo a solução mais geral na forma cuγ (x) + û(x).
9.7 Comentários Finais
9.7.1 O Problema de Sturm-Liouville Singular

Vamos aqui discutir brevemente uma variante do problema de Sturm-Liouville regular que consiste no
problema de determinar as soluções da equação diferencial
(p(x)u0 )0 + q(x)u + λr(x)u(x) = 0 (9.110)
para u definida no intervalo fechado finito [a, b] ⊂ , b > a, com as seguintes condições de contorno
u(a) e u0 (a) são finitas, (9.111)
β1 u(b) + β2 u0 (b) = 0 , (9.112)
onde o seguinte estará sendo suposto:
As funções p, q e r são reais e contı́nuas em [a, b].

A função p é diferenciável em [a, b] e positiva: p(x) > 0 para x ∈ (a, b] mas se anula em x = a:
p(a) = 0
r é contı́nua e estritamente positiva em J, ou seja, r(x) > 0 para todo x ∈ [a, b].
As constantes α1 , α2 , β1 e β2 são reais e tais que (α1 , α2 ) 6= (0, 0) e (β1 , β2 ) 6= (0, 0).
Como se percebe, a distinção básica entre este problema e o anteriormente tratado reside no fato
de que agora p(x) se anula no ponto a. O fato de p anular-se em a implica que a solução pode ser
singular nesse ponto. Daı́, nenhuma condição de contorno pode ser fixada para o ponto x = a, exceto
que a solução e sua derivada não sejam divergentes naquele ponto (se isso for desejado).
Um exemplo fı́sico que conduz a esse tipo de situação é o problema das oscilações de uma corda de
densidade constante ρ e comprimento L, suspensa verticalmente em um campo gravitacional constante
(a aceleração da gravidade sendo g) e presa em uma das suas extremidades, a outra ficando livre. Esse
problema é resolvido na Seção 8.3.4, página 499. Se x representa a altura e o ponto onde uma as
extremidades fica presa é x = L, então a equação que descreve o problema é

∂ ∂u ∂2u
gx =
∂x ∂x ∂t2
com as condições de contorno u(0, t) e u0 (0, t) finitas e u(L, t) = 0. Usando o método de separação
de variáveis e adotando-se u(x, t) = v(x)w(t), obtem-se para w a equação
ẅ(t) + λw(t) = 0
e para v
(gxv 0 )0 + λv = 0 ,
com v(L) = 0 e com v(0) e v 0 (0) finitos. Aqui λ é√uma constante arbitrária a ser determinada pelas
condições de contorno. A solução é vn (x) = cn J0 (2 λn x), onde J0 é a função de Bessel de ordem zero,
0 2
cn é uma constante e λn é o n-ésimo autovalor, dado por λn = (α4L
n)
, onde αn0 é o n-ésimo zero de J0 no
semi-eixo real positivo. Para um tratamento detalhado desse problema, vide Seção 8.3.4, página 499.
O problema para v é claramente um problema de Sturm-Liouville do tipo mencionado acima, já que
p(x) = gx se anula em x = 0.
Esse tipo de problema de Sturm-Liouville é, por vezes, denominado Problema de Sturm-Liouville
singular, e para ele nem sempre valem os mesmos resultados que no caso anteriormente tratado, o dos
problemas de Sturm-Liouville regulares. Por exemplo, nem sempre pode ser garantida a existência de
autovalores e autovetores (ou seja, de soluções para o problema). Isso pode ser visto explicitamente no
exemplo tratado no Apêndice 9.D, página 555.
Mesmo assim, os problemas de Sturm-Liouville singulares, quando solúveis, compartilham algumas
propriedades com os problemas regulares, tais como a realidade dos autovalores e a ortogonalidade das
autofunções.
De fato, é fácil ver que o Lema de Green também vale nesse caso. Seja V(β1 , β2 ) o espaço vetorial
de todas as funções f duas vezes diferenciáveis definidas no intervalo [a, b] tais que β 1 f (b) + β2 f 0 (b) = 0
e que sejam finitas em x = a. Então, se u e v são elementos de V(β1 , β2 ) tem-se
hv, Lui = hLv, ui ,
ou seja, Z Z
b b
v(x) (Lu)(x) dx = (Lv)(x) u(x) dx . (9.113)
a a
De fato, como em (9.62) e (9.63), página 535, tem-se
Z b Z b
v(x) (Lu)(x) dx = u(x) (Lv)(x) dx
a a

+ p(b) v(b)u0 (b) − v 0 (b)u(b) − p(a) v(a)u0 (a) − v 0 (a)u(a) . (9.114)
O último termo é zero, pois p(a) = 0 e v(a)u0 (a) − v 0 (a)u(a) é finito. O termo v(b)u0 (b) − v 0 (b)u(b) é
nulo pelo mesmo argumento apresentado quando da primeira demonstração do Lema de Green, para o
caso regular (vide página 535 e seguintes).
Uma vez demonstrado o Lema de Green para o problema singular, segue de maneira totalmente
análoga ao que demonstramos no caso regular que os autovalores são reais e que autofunções de auto-
valores distintos são ortogonais entre si em relação ao produto escalar h·, ·ir :
Z b
huλ , uλ0 ir = uλ (x) uλ0 (x) r(x) dx = 0
a
se λ 6= λ0 . Não repetiremos a demonstração aqui e remetemos o leitor à página 536 onde isso foi feito
no caso regular.
E. 9.19 Exercı́cio. Mostre que, assim como no caso regular, os autovalores, se existirem, são simples.
Para isso estude a demonstração para o caso regular da Seção 9.4.2, página 537, e verifique que a mesma
também se aplica ao caso singular. 6
Apêndices
9.A Prova do Teorema 9.1. Existência e Unicidade

Abaixo faremos uso da notação e de resultados do Capı́tulo 6, página 292.
A equação u00 + a1 (x)u0 + a0 (x)u = g(x) é equivalente à equação de primeira ordem
Y 0 (x) = A(x)Y (x) + G(x)
onde      
y1 (x) 0 1 0
Y (x) =  , A(x) =   , G(x) =   ,
y2 (x) −a0 (x) −a1 (x) g(x)
0
com as identificações u(x) = y1 (x), u (x) = y2 (x).
A solução é da forma
Z x
Y (x) = D(x, x0 )Yx0 + D(x, y)G(y) dy ,
x0
onde Yx0 = Y (x0 ), x0 arbitrário.

É fácil ver daı́ que a solução geral da equação u00 + a1 (x)u0 + a0 (x)u = g(x) é da forma
u(x) = A1 u1 (x) + A2 u2 (x) + up (x) ,
onde A1 e A2 são constantes, u1 e u2 são soluções independentes da equação homogênea u00 + a1 (x)u0 +
a0 (x)u = 0 e up é uma solução particular da equação não-homogênea u00 + a1 (x)u0 + a0 (x)u = g(x).
Desejamos impor as condições de contorno
α1 u(a) + α2 u0 (a) = ϕ1 , (9.A.1)
β1 u(b) + β2 u0 (b) = ϕ2 , (9.A.2)
à solução. Isso implica
α1 (A1 u1 (a) + A2 u2 (a) + up (a)) + α2 (A1 u01 (a) + A2 u02 (a) + u0p (a)) = ϕ1 , (9.A.3)
β1 (A1 u1 (b) + A2 u2 (b) + up (b)) + β2 (A1 u01 (b) + A2 u02 (b) + u0p (b)) = ϕ2 . (9.A.4)
Esse par de equações pode ser escrito em forma matricial como

    
α1 u1 (a) + α2 u01 (a) α1 u2 (a) + α2 u02 (a) A1 ϕ1 − α1 up (a) − α2 u0p (a)
   =  . (9.A.5)
0 0 0
β1 u1 (b) + β2 u1 (b) β1 u2 (b) + β2 u2 (b) A2 ϕ2 − β1 up (b) − β2 up (b)
Essa última equação (cujas incógnitas são A1 e A2 ) tem solução única se e somente se
 
α1 u1 (a) + α2 u01 (a) α1 u2 (a) + α2 u02 (a)
 
β1 u1 (b) + β2 u01 (b) β1 u2 (b) + β2 u02 (b)
for uma matriz invertı́vel, ou seja, se

 
α1 u1 (a) + α2 u01 (a) α1 u2 (a) + α2 u02 (a)
det   6= 0 .
β1 u1 (b) + β2 u01 (b) β1 u2 (b) + β2 u02 (b)
Isso é o que querı́amos provar.
9.B Prova da Proposição 9.1

Pelas hipóteses mencionadas, existem funções u1 e u2 independentes entre si que são soluções de Lu = 0
e satisfazem (9.22). Sejam c11 , c12 , c21 , c22 definidas por
    
c11 c12 α1 u1 (a) + α2 u01 (a) α1 u2 (a) + α2 u02 (a) 0 −1
  :=   
0 0
c21 c22 β1 u1 (b) + β2 u1 (b) β1 u2 (b) + β2 u2 (b) 1 0
 
α1 u2 (a) + α2 u02 (a) −(α1 u1 (a) + α2 u01 (a))
=   . (9.B.6)
β1 u2 (b) + β2 u02 (b) −(β1 u1 (b) + β2 u01 (b))
Note-se que
     
c11 c12 α1 u1 (a) + α2 u01 (a) α1 u2 (a) + α2 u02 (a) 0 −1
det   = det   det   6= 0 (9.B.7)
c21 c22 β1 u1 (b) + β2 u01 (b) β1 u2 (b) + β2 u02 (b) 1 0
por (9.22).
Sejam as funções v1 (x) e v2 (x) definidas por
    
v1 (x) c11 c12 u1 (x)
  =    .
v2 (x) c21 c22 u2 (x)
Pela definição,       
Lv1 c11 c12 Lu10
  =    =   ,
Lv2 c21 c22 Lu2 0
pois Lu1 = Lu2 = 0. Além disso,

    
v1 (x) v10 (x) c11 c12 u1 (x) u01 (x)
  =    (9.B.8)
v2 (x) v20 (x) c21 c22 u2 (x) u02 (x)
e como  
u1 (x) u01 (x)
det   6= 0 ,
u2 (x) u02 (x)
pois u1 e u2 são independentes, segue de (9.B.7) que
 
v1 (x) v10 (x)
det   6= 0 , (9.B.9)
0
v2 (x) v2 (x)
para todo x ∈ [a, b], provando que v1 e v2 são também independentes.

Tem-se de (9.B.8)
    
α1 v1 (x) + α2 v10 (x) v1 (x) v10 (x) α1
  =   
α1 v2 (x) + α2 v20 (x) v2 (x) v20 (x) α2
   
c11 c12 u1 (x) u01 (x) α1
=    
c21 c22 u2 (x) u02 (x) α2
  
c11 c12 α1 u1 (x) + α2 u01 (x)
=   .
c21 c22 α1 u2 (x) + α2 u02 (x)
Logo,
    
α1 v1 (a) + α2 v10 (a) c11 c12 α1 u1 (a) + α2 u01 (a)
  =   
α1 v2 (a) + α2 v20 (a) c21 c22 α1 u2 (a) + α2 u02 (a)
  
c11 c12 −c12
=   
c21 c22 c11
 
0
=   , (9.B.10)
c11 c22 − c12 c21
que afirma, em particular, que

α1 v1 (a) + α2 v10 (a) = 0 . (9.B.11)
Analogamente,
    
β1 v1 (x) + β2 v10 (x) v1 (x) v10 (x) β1
  =   
β1 v2 (x) + β2 v20 (x) v2 (x) v20 (x) β2
   
c11 c12 u1 (x) u01 (x) β1
=    
c21 c22 u2 (x) u02 (x) β2
  
c11 c12 β1 u1 (x) + β2 u01 (x)
=   .
c21 c22 β1 u2 (x) + β2 u02 (x)
Logo,
    
β1 v1 (b) + β2 v10 (b) c11 c12 β1 u1 (b) + β2 u01 (b)
  =   
β1 v2 (b) + β2 v20 (b) c21 c22 β1 u2 (b) + β2 u02 (b)
  
c11 c12 −c22
=   
c21 c22 c21
 
−c11 c22 + c12 c21
=  , (9.B.12)
0
que afirma, em particular, que
β1 v2 (b) + β2 v20 (b) = 0 . (9.B.13)
As relações (9.B.11) e (9.B.13) são precisamente o que afirmamos em (9.23) e (9.24). Isso demonstra
o que querı́amos provar sobre a existência e propriedades das funções v 1 e v2 .
9.C Comentário Sobre o Determinante Wronskiano

Faremos aqui um comentário sobre a noção de determinante Wronskiano introduzida no Capı́tulo 6,
página 6 (vide página 303) e aquele apresentado na definição. (9.30).
Abaixo faremos uso de notação e de resultados daquelas notas.
A equação Lu = 0 pode ser escrita na forma u00 +a1 (x)u0 +a0 (x)u = 0 que, por sua vez, é equivalente
à equação de primeira ordem
Y 0 (x) = A(x)Y (x) ,
onde    
y1 (x) 0 1
Y (x) =  , A(x) =   ,
y2 (x) −a0 (x) −a1 (x)
com as identificações u(x) = y1 (x), u0 (x) = y2 (x).

A solução é da forma
Y (x) = D(x, x0 )Yx0 ,
onde Yx0 = Y (x0 ), x0 arbitrário.
Se Y1 e Y2 são duas soluções independentes da equação homogênea Y 0 (x) = A(x)Y (x) o determi-
nante Wronskiano (segundo a definição usada no Capı́tulo 6, página 6 (vide página 303)) é
det [[Y1 (x), Y2 (x)]].
Como comentamos acima, Y1 e Y2 são da forma

   
u1 (x) u2 (x)
Y1 (x) =  , Y2 (x) =   ,
0
u1 (x) u02 (x)
onde u1 e u2 são duas soluções independentes de Lu = 0.

É claro então que
   
u1 (x) u2 (x) u1 (x) u01 (x)
det [[Y1 (x), Y2 (x)]] = det   = det   .
u01 (x) u02 (x) u2 (x) u02 (x)
A última igualdade é apenas o fato de que o determinante de uma matriz não muda quando a trans-
pomos.
Por outro lado, a relação (9.B.8) nos diz que
     
v1 (x) v10 (x) c11 c12 u1 (x) u01 (x)
det   = det   det   . (9.C.14)
0 0
v2 (x) v2 (x) c21 c22 u2 (x) u2 (x)

c11 c12 v1 (x) v10 (x) u1 (x) u01 (x)
Como det é não nulo, isso diz que det 0 e det diferem apenas
c21 c22 v
2 (x) v2 (x) u2 (x) u02 (x)
v (x) v10 (x)
por um fator constante. Agora det 1 é o determinante Wronskiano, introduzido em
v2 (x) v20 (x)
(9.30).
Com isso mostramos que o determinante Wronskiano do Capı́tulo 6, página 6, difere apenas por
um fator não nulo constante daquele introduzido em (9.30).
9.D Ausência de Autovalores em um Problema Singular

Considere o seguinte problema de Sturm-Liouville singular definido no intervalo [0, 1]:
(x2 u0 )0 + λu = 0 ,
com u(1) = 0 e u finita em x = 0. A equação diferencial é
x2 u00 + 2xu0 + λu = 0 ,
que é uma equação do tipo de Euler, de segunda ordem. A solução pode ser procurada na forma
u(x) = xγ e obtem-se √
−1 ± 1 − 4λ
γ = .
2
Assim, para λ 6= 1/4, tem-se √ √
−1+ 1−4λ −1− 1−4λ
u(x) = Ax 2 + Bx 2 .
Como deseja-se u(1) = 0 tem-se A = −B e, assim,
−1+√1−4λ √
−1− 1−4λ

u(x) = A x 2 −x 2 .
Essa solução só será finita em x = 0 se12

√ √
−1 + Re 1 − 4λ ≥ 0 e − 1 − Re 1 − 4λ ≥ 0 .
Ambas as condições não podem ser satisfeitas simultaneamente para nenhum λ (pois somando-se ambas
as desigualdades, terı́amos −2 ≥ 0, o que é obviamente falso). Para λ = 1/4 a solução é u(x) =
√1 (A ln x + B) e a condição u(1) = 0 implica B = 0 e, portanto, u(x) = A √1 ln x, que não é finita em
x x
x = 0. Logo, o problema tratado não tem solução para nenhum autovalor.
9.E Demonstração do Teorema 9.3

De acordo com (9.71),
Z b Z b
λ 2
|u(x)| r(x) dx = |u0 (x)|2 p(x) − |u(x)|2 q(x) dx
a a
h
i
0 0
+ p(a) Re u(a)u (a) − p(b) Re u(b)u (b) . (9.E.15)
Afirmamos que existem constantes γ1 e γ2 , independentes de u, tais que

p(a) Re u(a)u0 (a) = γ1 |u(a)|2 (9.E.16)
e
p(b) Re u(b)u0 (b) = −γ2 |u(b)|2 . (9.E.17)
A demonstração é a seguinte. A função u satisfaz no ponto a
α1 u(a) + α2 u0 (a) = 0 .
12
Outra possibilidade seria escolher A = 0, ou seja, u(x) = 0, solução trivial que não interessa como autofunção.
Vamos primeiro supor que α2 6= 0. Tomando-se o complexo conjugado e multiplicando-se a expressão

por u(a) obtem-se
α1
u0 (a)u(a) = − |u(a)|2 ,
α2
ou seja, α1
Re u0 (a)u(a) = − |u(a)|2 .
α2
Nesse caso, então, tomamos γ1 = −p(a) αα12 .
Caso α2 = 0, a relação α1 u(a) + α2 u0 (a) = 0 diz-nos que u(a). Daı́, é evidente que

p(a) Re u(a)u0 (a) = γ1 |u(a)|2 ,
para qualquer constante γ1 , pois ambos os lados são nulos. Isso provou (9.E.16). A demonstração de
(9.E.17) é análoga, escolhendo-se γ2 = +p(b) ββ12 , caso β2 6= 0.
Inserindo (9.E.16) e (9.E.17) em (9.E.15) tem-se
Z b Z b
λ 2
|u(x)| r(x) dx = |u0 (x)|2 p(x) − |u(x)|2 q(x) dx + γ1 |u(a)|2 + γ2 |u(b)|2 . (9.E.18)
a a
Essa última expressão será nosso ponto de partida para mostrar que os autovalores λ são limitados
inferiormente, ou seja, que existe uma constante M ∈ tal que λ ≥ M .
Note-se que γ1 e γ2 são números reais que tanto podem ser positivos quanto negativos. Vamos
considerar os quatro casos possı́veis: 1. γ1 ≥ 0 e γ2 ≥ 0; 2. γ1 < 0 e γ2 ≥ 0; 3. γ1 ≥ 0 e γ2 < 0; 4.
γ1 < 0 e γ2 < 0.
Caso 1. γ1 ≥ 0 e γ2 ≥ 0.
Nesse caso tem-se de (9.E.18) que
Z b Z b
2
λ |u(x)| r(x) dx ≥ − |u(x)|2 q(x) dx ,
a a
Rb
pois γ1 |u(a)|2 + γ2 |u(b)|2 ≥ 0 e |u0 (x)|2 p(x)dx ≥ 0, pois p(x) > 0. Logo,
a
Rb
Rb 2 q(x)
2
|u(x)| q(x) dx a
|u(x)| − r(x)
r(x) dx
λ ≥ − Rab = Rb . (9.E.19)
|u(x)| 2 r(x) dx |u(x)| 2 r(x) dx
a a
Sejam agora
Q = max q(x), R1 = max r(x), e R2 = min r(x) .

x∈[a, b] x∈[a, b] x∈[a, b]
Lembrando que r(x) > 0 para todo x ∈ [a, b], teremos
q(x) Q
− ≥ − .
r(x) r(x)
Se Q = 0 concluı́mos que
q(x)
− ≥ 0.
r(x)
Se Q < 0, concluı́mos que
q(x) Q
− ≥ − .
r(x) R1
Se Q > 0, teremos
q(x) Q
− ≥ − .
r(x) R2
E. 9.21 Exercı́cio. Justifique cuidadosamente as desigualdades acima. 6
Em resumo, 

 0, se Q = 0


q(x) 
− ≥ B := − RQ1 , se Q < 0 . (9.E.20)
r(x) 



 Q
− R2 , se Q > 0
Retornando a (9.E.19)
Rb
a
|u(x)|2 Br(x) dx
λ ≥ Rb = B,
a
|u(x)|2 r(x) dx
onde B está definida em (9.E.20). Adotando M = B para esse caso, obtemos o que se queria provar.
Caso 2. γ1 < 0 e γ2 ≥ 0.
Nesse caso tem-se de (9.E.18) que
Z b Z b
λ 2
|u(x)| r(x) dx ≥ |u0 (x)|2 p(x) − |u(x)|2 q(x) dx + γ1 |u(a)|2 , (9.E.21)
a a
pois γ2 |u(b)|2 ≥ 0.
No Apêndice 9.F, página 560, demonstramos a seguinte desigualdade, válida para todo x ∈ [a, b] e
todo > 0: Z b Z b
2 0 2
|u(x)| ≤ |u (y)| dy + ξ() |u(y)|2 r(y) dy , (9.E.22)
a a
onde
1 1 1
ξ() = + ,
R2 b−a
R2 sendo definido como acima: R2 = min r(x).
x∈[a, b]
Tomando x = a, temos
Z b Z b
2 0 2
γ1 |u(a)| ≥ γ1 |u (y)| dy + γ1 ξ() |u(y)|2 r(y) dy ,
a a
sendo que a desigualdade se inverteu pois γ1 < 0, por hipótese. Inserindo isso em (9.E.21), tem-se
Z b Z b Z b
2 0 2
λ |u(x)| r(x) dx ≥ (p(x) + γ1 ) |u (x)| dx + (γ1 ξ()r(x) − q(x)) |u(x)|2 dx .
a a a
Até agora não fixamos o valor de . Vamos agora escolhê-lo pequeno o suficiente de modo que
p(x) + γ1 ≥ 0 ,
para todo x ∈ [a, b]. Isso é sempre possı́vel, pois, por hipótese p(x) > 0 para todo x ∈ [a, b]. Com
Rb
essa escolha a integral a (p(x) + γ1 ) |u0 (x)|2 dx é positiva e podemos escrever
Z b Z b Z b
2 2 q(x)
λ |u(x)| r(x) dx ≥ (γ1 ξ()r(x) − q(x)) |u(x)| dx = γ1 ξ() − |u(x)|2 r(x) dx .
a a a r(x)
Com o uso de (9.E.20) isso fica

Z b Z b
2
λ |u(x)| r(x) dx ≥ (γ1 ξ() + B) |u(x)|2 r(x) dx ,
a a
o que implica
λ ≥ (γ1 ξ() + B) .
Adotando-se M = (γ1 ξ() + B) para esse caso, isto é o que querı́amos provar.
Caso 3. γ1 ≥ 0 e γ2 < 0.
Esse caso é totalmente análogo ao caso 2, e não precisa ser considerado em detalhe.
Caso 4. γ1 < 0 e γ2 < 0.
Esse caso é também análogo ao caso 2, mas trataremos dos detalhes. De (9.E.18) temos
Z b Z b

λ 2
|u(x)| r(x) dx ≥ |u0 (x)|2 p(x) − |u(x)|2 q(x) dx + γ1 |u(a)|2 + γ2 |u(b)|2 . (9.E.23)
a a
Usando novamente a desigualdade (9.E.22) para x = a e x = b, temos

Z b Z b
2 2 0 2
γ1 |u(a)| + γ2 |u(b)| ≥ (γ1 + γ2 ) |u (y)| dy + (γ1 + γ2 )ξ() |u(y)|2r(y) dy,
a a
sendo que a desigualdade se inverteu pois γ1 < 0 e γ2 < 0, por hipótese. Inserindo isso em (9.E.21),
tem-se
Z b Z b Z b
2 0 2
λ |u(x)| r(x) dx ≥ (p(x) + (γ1 + γ2 )) |u (x)| dx + ((γ1 + γ2 )ξ()r(x) − q(x)) |u(x)|2 dx.
a a a
Até agora não fixamos o valor de . Vamos agora escolhê-lo pequeno o suficiente de modo que
p(x) + (γ1 + γ2 ) ≥ 0 ,
para todo x ∈ [a, b]. Isso é sempre possı́vel, pois, por hipótese p(x) > 0 para todo x ∈ [a, b]. Com
Rb
essa escolha a integral a (p(x) + (γ1 + γ2 )) |u0 (x)|2 dx é positiva e podemos escrever
Z b Z b
2
λ |u(x)| r(x) dx ≥ ((γ1 + γ2 )ξ()r(x) − q(x)) |u(x)|2 dx
a a
Z b
q(x)
= (γ1 + γ2 )ξ() − |u(x)|2 r(x) dx.
a r(x)
Com o uso de (9.E.20) isso fica

Z b Z b
2
λ |u(x)| r(x) dx ≥ ((γ1 + γ2 )ξ() + B) |u(x)|2 r(x) dx ,
a a
o que implica
λ ≥ ((γ1 + γ2 )ξ() + B) .
Adotando-se M = ((γ1 + γ2 )ξ() + B) para esse caso, isto é o que querı́amos provar.
Com isso a demonstração do Teorema 9.3 está completa.
9.F Prova da Desigualdade (9.E.22)

Seja u uma função qualquer duas vezes diferenciável definida em [a, b]. Sejam x ∈ [a, b] e x0 ∈ [a, b].
Tem-se Z x
2 2
0
|u(x)| = |u(x0 )| + |u(y)|2 dy .
x0
Portanto, tem-se, para quaisquer x, x0 ∈ [a, b],

Z
x
2 0

|u(x)| ≤ |u(x0 )| +
2 2
|u(y)| dy .
x0
Agora,
Z x Z x 0 Z x Z x

2 0 0
|u(y)| dy = u(y)u(y) dy = u0 (y)u(y) + u(y)u (y) dy = 2 Re u0 (y)u(y) dy .
x0 x0 x0 x0
Assim, Z
x
|u(x)| ≤ |u(x0 )| + 2 Re
2 2
u0 (y)u(y) dy .
x0
Para qualquer número complexo z, vale |Re(z)| ≤ |z|. Logo,

Z x Z x

Re u 0 (y)u(y) dy ≤ u 0 (y)u(y) dy .

x0 x0
Pela desigualdade de Cauchy-Schwarz,

Z x Z 1/2 Z 1/2
x x
u (y)u(y) dy ≤
0 |u (y)| dy
0 2
|u(y)| dy
2
.

x0 x0 x0
Conseqüentemente, juntando as duas últimas desigualdades,

Z x 1/2 Z 1/2
x
2 2
|u(x)| ≤ |u(x0 )| + 2 |u(y)| dy
2 |u (y)| dy
0 2
.

x0 x0
Como x e x0 são elementos de [a, b] é também óbvio que

Z x Z b

2
|u(y)| dy ≤ |u(y)|2 dy

x0 a
e que Z Z b
x
0 2
|u (y)| dy ≤ |u0 (y)|2 dy ,

x0 a
já que ao passarmos de uma integral em [x0 , x] a uma integral em [a, b] estamos em geral aumentando
o intervalo de integração e, em ambos os casos, o integrando é positivo.
Assim,
Z b 1/2 Z b 1/2
2 2 2 0 2
|u(x)| ≤ |u(x0 )| + 2 |u(y)| dy |u (y)| dy .
a a
Para qualquer > 0 isso pode ser reescrito como

Z b 1/2 Z b 1/2
2 2 1 2 0 2
|u(x)| ≤ |u(x0 )| + 2 |u(y)| dy |u (y)| dy . (9.F.24)
a a
√ √ 2
Se A e B são dois números positivos, é fácil provar a partir de A − B ≥ 0, que
√ √
2 A B ≤ A+B .
E. 9.22 Exercı́cio. Faça! 6
1
Rb
2
Rb 0
Usando isso em (9.F.24) com A = a
|u(y)|

dy e B = a
|u (y)|2 dy, tem-se
Z Z b
1 b
2 2
|u(x)| ≤ |u(x0 )| + 2
|u(y)| dy + |u0 (y)|2 dy . (9.F.25)
a a
Até aqui x0 era um ponto arbitrário do intervalo [a, b]. Vamos escolhê-lo agora de modo que x 0 seja
o ponto onde |u(x)| assume seu menor valor nesse intervalo: |u(x0 )| = min |u(x)|. Um tal ponto x0
x∈[a, b]
sempre existe, pois |u(x)| é contı́nua e [a, b] é um intervalo compacto. Com isso teremos, obviamente,
Z b
|u(y)|2 dy ≥ (b − a)|u(x0 )|2 ,
a
ou seja, Z b
1 2
|u(x0 )| ≤ |u(y)|2 dy .
b−a a
Inserindo isso em (9.F.25), ficamos com

Z b Z b
2 0 2 1 1
|u(x)| ≤ |u (y)| dy + + |u(y)|2 dy . (9.F.26)
a b−a a
Seja agora r uma função contı́nua qualquer definida em [a, b] com r(y) > 0 para todo y ∈ [a, b].
r(y)
Definindo-se como antes R2 = min r(y) teremos ≥ 1 , para todo y ∈ [a, b]. Inserindo isso na
y∈[a, b] R2
segunda integral de (9.F.26), aquela expressão fica
Z b Z b
2 0 2 1 1 1
|u(x)| ≤ |u (y)| dy + + |u(y)|2r(y) dy . (9.F.27)
a R2 b − a a
Isso é a desigualdade (9.E.22), que querı́amos provar.

Parte IV
Grupos
563
Capı́tulo 10
Grupos. Alguns Exemplos
Conteúdo
10.1 O Grupo de Permutações . . . . . . . . . . . . . . . . . . . . . . . . . . . . 565

10.1.1 Ciclos, Transposições e Transposições Elementares . . . . . . . . . . . . . . . 566
10.2 Alguns Grupos Matriciais . . . . . . . . . . . . . . . . . . . . . . . . . . . . 571
10.2.1 Os Grupos GL(n) e SL(n) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 571
10.2.2 O Grupo de Borel e Grupo de Heisenberg . . . . . . . . . . . . . . . . . . . . 574
10.2.3 Grupos Associados a Formas Bilineares e Sesquilineares . . . . . . . . . . . . 580
10.2.4 Os Grupos Ortogonais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 582
10.2.5 Os Grupos Unitários . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 583
10.3 Os Grupos SO(2), SO(3), SU(2) e SL( , 2) . . . . . . . . . . . . . . . . . 584
10.3.1 Os Grupos SO(2), O(2), SO(1, 1) e O(1, 1) . . . . . . . . . . . . . . . . . . . 584
10.3.2 O Grupo SO(3) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 588
10.3.3 O Grupo SU(2) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 596
10.3.4 A Relação entre SO(3) e SU(2) . . . . . . . . . . . . . . . . . . . . . . . . . . 599
10.3.5 O Grupo SL( , 2) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 602
10.4 Generalidades sobre os grupos SU(n) e SO(n) . . . . . . . . . . . . . . . . 603
10.4.1 Os Grupos SU(n) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 604
10.4.2 O Grupo SU(3) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 607
10.4.3 Os Grupos SO(n) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 608
10.5 O Grupo Afim e o Grupo Euclidiano . . . . . . . . . . . . . . . . . . . . . . 613
10.6 O Grupo de Lorentz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 617
10.6.1 O Espaço-Tempo, a Noção de Intervalo e a Estrutura Causal . . . . . . . . . 618
10.6.2 A Invariância do Intervalo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 624
10.6.3 O Grupo de Lorentz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 627
10.6.4 Alguns Sub-Grupos do Grupo de Lorentz . . . . . . . . . . . . . . . . . . . . 628
10.6.5 A Estrutura do Grupo de Lorentz . . . . . . . . . . . . . . . . . . . . . . . . 632
10.6.6 Os Geradores do Grupo de Lorentz . . . . . . . . . . . . . . . . . . . . . . . . 636
10.7 O Grupo de Poincaré . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 640
10.8 SL( , 2) e o Grupo de Lorentz . . . . . . . . . . . . . . . . . . . . . . . . . 643
10.A Prova do Teorema 10.8 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 652
10.B Um Isomorfismo entre SL( , 2)/{ , − } e L ↑+ . . . . . . . . . . . . . . . . . 662
564
rupos são objetos de suma importância na Fı́sica devido à sua relação com transformações de
simetria. A noção abstrata de grupo foi introduzida na Seção 1.2.1, página 45. No presente
capı́tulo introduziremos alguns grupos de particular interesse na Fı́sica e na Matemática
e estudaremos algumas de suas propriedades mais simples e importantes. Com particular
detalhe trataremos do grupo de Lorentz na Seção 10.6, grupo este de fundamental importância na
teoria da relatividade.
10.1 O Grupo de Permutações

Seja C um conjunto não-vazio qualquer e seja P erm(C) o conjunto de todas as funções bijetoras de C
em C. P erm(C) é naturalmente um grupo, onde o produto é a composição de funções e o elemento
neutro é a função identidade (que denotaremos doravante por id). O elemento inverso de uma função
f ∈ P erm(C) é a sua função inversa f −1 (que existe, pois P erm(C) contem funções bijetoras, por
definição). P erm(C) é denominado grupo de permutações do conjunto C.
E. 10.1 Exercı́cio. Mostre que P erm(C) somente é um grupo Abeliano se C possuir um ou dois
elementos. 6
Grupos de permutações desempenham um papel de destaque na teoria de grupos, em parte devido

ao seguinte teorema estrutural, que não demonstraremos nestas notas:
Teorema 10.1 Todo grupo é sub-grupo de um grupo de permutações P erm(C), para algum conjunto
C. 2
De particular importância é o caso em que C é um conjunto finito. Tais grupos de permutação e suas
representações também desempenham um papel de destaque na Fı́sica, particularmente na Mecânica
Quântica, e por isso vamos nos deter um pouco nos mesmos.
• Grupos de Permutações de n Elementos
Seja n ≥ 1, inteiro, e considere-se o conjunto {1, . . . , n}. O grupo Sn = P erm({1, . . . , n}) é

denominado grupo de permutações de n elementos.
E. 10.2 Exercı́cio. Seja C um conjunto com n elementos. Mostre que P erm(C) é isomorfo a S n . 6
Um elemento π ∈ Sn é dito ser uma permutação. Como toda a permutação, π é uma função bijetora
{1, . . . , n} → {1, . . . , n} e é costume representá-la na forma de um arranjo matricial:

1 2 ... n
π = ,
π(1) π(2) . . . π(n)
onde na primeira linha ordenamos os elementos de {1, . . . , n} e na segunda suas imagens por π.
Exemplos. Os elementos de S2 são

1 2 1 2
π1 = e π2 = .
1 2 2 1
π1 é a identidade do grupo.
Os elementos de S3 são

1 2 3 1 2 3 1 2 3
π1 = , π2 = , π3 = ,
1 2 3 2 1 3 1 3 2

1 2 3 1 2 3 1 2 3
π4 = , π5 = , π6 = .
3 2 1 3 1 2 2 3 1
π1 é a identidade do grupo.
E. 10.3 Exercı́cio. Mostre que Sn tem exatamente n! elementos. 6
10.1.1 Ciclos, Transposições e Transposições Elementares

Vamos aqui estudar alguns fatos estruturais importantes sobre os grupos Sn .
• Ciclos
Precisamos da seguinte definição.
Definição. Uma permutação π é dita ser um ciclo, ou um r-ciclo se existirem r inteiros distintos
i1 , . . . , ir tais que 

 j, se j 6∈ {i1 , . . . , ir }



π(j) = ia+1 , se j = ia , mas a 6= r .





i1 , se j = ir
E. 10.4 Exercı́cio. Mostre que se π é um r-ciclo, então π r = id. 6
A importância co conceito de ciclo manifesta-se no seguinte teorema:

Teorema 10.2 Toda permutação diferente da identidade é um produto de ciclos disjuntos dois a dois.
2
Prova. Seja π ∈ Sn , π 6= id. Seja i1 o menor elemento de {1, . . . , n} para o qual π(i) 6= i. Vamos
considerar a seqüência (em princı́pio infinita)
i1 , π(i1 ), π 2 (i1 ), π 3 (i1 ), . . .

Os elementos dessa seqüência são obviamente elementos de {1, . . . , n} que é um conjunto finito.
Conseqüentemente essa seqüência tem, na verdade, elementos repetidos. Vamos supor que π p (i1 ) e
π q (i1 ), p < q, sejam os primeiros elementos que se repetem: π p (i1 ) = π q (i1 ). Essa igualdade implicaria
i1 = π r1 (i1 ), onde r1 = q − p. Assim, o primeiro par que se repete na seqüência acima é, em verdade,
o par i1 e π r1 (i1 ).
Isso nos diz que a seqüência acima é uma repetição infinita da seqüência finita
i1 , π(i1 ), π 2 (i1 ), ..., π r1 (i1 ),
seqüência esta formada por r1 elementos que, por construção, são distintos.
Vamos denominar
i1 , i2 := π(i1 ), i3 = π 2 (i1 ), ..., ir1 = π r1 (i1 )
e definir π1 ∈ Sn por 

 j, se j 6∈ {i1 , . . . , ir1 }



π1 (j) = ia+1 = π a (i1 ), se j = ia , mas a 6= r1 .





i1 , se j = ir1
É evidente que π1 é um ciclo e que π1 e π coincidem no conjunto {i1 , . . . , ir1 }. Podemos então escrever
π = π 1 π 0 = π 0 π1 ,
onde π 0 ∈ Sn é a identidade em {i1 , . . . , ir1 } e coincide com π no complemento:

 j, se j ∈ {i1 , . . . , ir1 }
0
π (j) = .

π(j), de outra forma.
O que fazemos em seguida é repetir o procedimento, mas agora para a permutação π 0 . Obteremos
π = π2 π 00 = π 00 π2 , onde π2 é novamente um ciclo (disjunto de π1 , por construção). Como {1, . . . , n}
0
é um conjunto finito, a repetição desse procedimento deve ter um fim, e obtemos

π = π 1 π2 · · · π k
para k ciclos π1 , . . . , πk disjuntos dois a dois. Isso completa a prova.
• Transposições
2-ciclos são denominados transposições. Sejam p e q dois elementos distintos de {1, . . . , n}. A
transposição de p e q, denotada por tp, q é a permutação definida por


 j, se j 6= p e j 6= q



tp, q (j) = q, se j = p .





p, se j = q
Transposições são importantes pela seguinte razão:

Teorema 10.3 Todo ciclo pode ser escrito como um produto de transposições. 2
Prova. Seja π o ciclo associado ao conjunto {i1 , . . . , ir } ⊂ {1, . . . , n}:



 j, se j 6∈ {i1 , . . . , ir }



π(j) = ia+1 , se j = ia , mas a 6= r .





i1 , se j = ir
A prova resume-se em constatar que
π = tir−1 , ir · · · ti2 , i3 ti1 , i2 ti2 , i3 · · · tir−1 , ir
E. 10.5 Exercı́cio. Complete os detalhes e/ou faça alguns casos particulares para convencer-se. 6
O seguinte teorema é um corolário imediato dos Teoremas 10.2 e 10.3:

Teorema 10.4 Toda permutação diferente da identidade é um produto transposições. 2
• Transposições Elementares
De particular importância são as transposições de vizinhos ti = ti, i+1 com i = 1, . . . , n − 1:



 j, se j 6= i e j 6= i + 1



ti (j) = i + 1, se j = i





i, se j = i + 1
e que são chamadas transposições elementares.

A importância das mesmas reside nos dois teoremas abaixo.
Teorema 10.5 Toda transposição é um produto transposições elementares. 2
Prova. Seja tp, q uma transposição com p < q. A prova resume-se em constatar que
tp, q = tq−1, q · · · tp+1, p+2 tp, p+1 tp+1, p+2 · · · tq−1, q = tq−1 · · · tp+1 tp tp+1 · · · tq−1 .
E. 10.6 Exercı́cio. Complete os detalhes e/ou faça alguns casos particulares para convencer-se. 6
O seguinte teorema é um corolário imediato dos Teoremas 10.2, 10.3, 10.4 e 10.5:
Teorema 10.6 Toda permutação diferente da identidade é um produto de transposições elementares.
2
O Teorema 10.6 afirma que Sn é um grupo gerado por transposições elementares, ou seja, todo
π ∈ Sn (distinto da identidade) é da forma
π = t i1 · · · t ik , (10.1)
para certas transposições ti1 , . . . , tik .
E. 10.7 Exercı́cio. Determine quais dos elementos π1 , . . . , π6 do grupo S3 (página 566) são trans-
posições elementares e escreva os demais como produtos de tais transposições elementares. 6
Podemos nos perguntar, essa forma de escrever π é única? A resposta é não, pelas razões que agora
expomos.
• Transposições Elementares e suas Relações
Proposição 10.1 Em Sn as transposições elementares ti , i = 1, . . . , n − 1 satisfazem as seguintes

relações:
(ti )2 = id, (10.2)
ti tj = t j ti , se |i − j| ≥ 2, (10.3)
ti ti+1 ti = ti+1 ti ti+1 , se i = 1, . . . , n − 2. (10.4)
Essa proposição explica por que a representação (10.1) não é geralmente única: o lado direito
de (10.1) pode eventualmente ser reescrito se aplicarmos quaisquer das relações (10.2)-(10.4). Estas,
porém, são as únicas relações que as transposições elementares t i satisfazem. Desses fatos extraı́mos a
seguinte conclusão:
Proposição 10.2 Todo grupo gerado por n − 1 elementos t1 , . . . , tn−1 e que satisfazem as relações
(10.2)-(10.4) (e somente elas) é isomorfo a Sn . 2
• O Sinal, ou Paridade, de uma Permutação

Seja π ∈ Sn . O sinal, ou paridade de π é (−1)k , onde k é o menor número de transposições

elementares que geram π. Assim, se π = ti1 · · · tik define-se sinal(id) = +1 e
sinal(π) := (−1)k , π 6= id.
O estudante é convidado a constatar que sinal(π) não depende da particular representação de π em
termos de produtos de transposições elementares, pois sinal(π) não muda por aplicação das relações
(10.2)-(10.4).
E. 10.8 Exercı́cio. Determine o sinal das permutações π1 , . . . , π6 do grupo S3 dadas acima (página
566). 6
E. 10.9 Exercı́cio importante. Mostre que

sinal(ππ 0 ) = sinal(π)sinal(π 0 )
para todos π, π 0 ∈ Sn . Mostre daı́ que Sn+ = {π ∈ Sn | sinal(π) = +1} é um subgrupo de Sn , o subgrupo
das permutações pares. Mostre também que Sn+ é normal. 6
Sn+ é também denominado subgrupo alternante de grau n.
E. 10.10 Exercı́cio. Já mencionamos que Sn tem n! elementos. Quantos elementos tem Sn+ ? 6
• O Grupo de Tranças
Há um grupo importante aparentado ao grupo Sn que é o chamado grupo de n tranças, denotado por
Bn (do inglês braid = trança). Este é, por definição, o grupo gerado por n − 1 elementos b 1 , . . . , bn−1
que satisfazem as relações
bi bj = b j bi , se |i − j| ≥ 2, (10.5)
bi bi+1 bi = bi+1 bi bi+1 , se i = 1, . . . , n − 2, (10.6)

de tal forma que para todo β ∈ Bn existem {bi1 , . . . , bik } ⊂ {b1 , . . . , bn−1 } e números inteiros
n1 , . . . , nk ∈ tais que
β = (bi1 )n1 · · · (bik )nk .
Note-se que a relação (10.2) não tem análogo em Bn , ou seja, ao contrário do que ocorre em Sn ,
os elementos bi não têm a si mesmos como inversa. Por essa razão elementos como (bi )n para n’s
diferentes são todos distintos entre si. Assim, ao contrário de Sn , Bn é um grupo infinito, apesar de ter
um número finito de geradores.
E. 10.11 Exercı́cio. Seja p : → {0, 1} definida por p(n) = 0 se n for par e p(n) = 1 se n for ı́mpar.
p(n ) p(n )
Mostre que φ : Bn → Sn definido por φ((bi1 )n1 · · · (bik )nk ) = ti1 1 · · · tik k é um homomorfismo. 6
O grupo de tranças foi inventado pelo matemático E. Artin1 em 1925 e desempenha um papel
importante na chamada teoria dos nós, um rico capı́tulo do estudo das propriedades topológicas do
1
Emil Artin (1989-1962).
espaço tridimensional. Nesse contexto os elementos bi têm uma interpretação interessante em termos
de transposições de tranças (barbantes) no espaço tridimensional. Por falta de espaço e habilidade em
apresentar as figuras correspondentes, não entraremos em mais detalhes aqui e remetemos o estudante
à leitura de [70], por exemplo. No final dos anos 80 e nos anos 90 do século XX encontrou-se aplicações
dos grupos de tranças na Fı́sica, no contexto das teorias quânticas de campos em dimensões 2 e 3,
assim como na fı́sica dos materiais (problema da supercondutividade a altas temperaturas).
10.2 Alguns Grupos Matriciais
10.2.1 Os Grupos GL(n) e SL(n)

Vamos denotar por Mat(n, ) ou Mat( , n) o conjunto de todas as matrizes reais n × n e por

Mat(n, ) ou Mat( , n) o conjunto de todas as matrizes complexas n × n.

Mat(n, ) e Mat(n, ) são naturalmente dois grupos (Abelianos) em relação à operação de soma

de matrizes. Não, porém, em relação à operação de produto, pois é bem sabido que nem toda a matriz
possui uma inversa.
O conjunto de todas as matrizes de Mat(n, ) que são invertı́veis forma naturalmente um grupo

não-Abeliano2 em relação ao produto usual de matrizes. Esse grupo, denominado grupo linear real,
é denotado por GL(n, ). Analogamente, o conjunto de todas as matrizes de Mat(n, ) invertı́veis

forma um grupo não-Abeliano3 que é denominado grupo linear complexo e denotado por GL(n, ). Em
sı́mbolos
GL(n, ) := {A ∈ Mat(n, ), det(A) 6= 0} e GL(n, ) := {A ∈ Mat(n, ), det(A) 6= 0} .
Devido à propriedade bem conhecida det(AB) = det(A) det(B), o produto de duas matrizes com
determinante igual a 1 é novamente uma matriz com determinante igual a 1. Assim,
SL(n, ) := {A ∈ Mat(n, ), det(A) = 1} e SL(n, ) := {A ∈ Mat(n, ), det(A) = 1}
são subgrupos de GL(n, ) e GL(n, ), respectivamente.

−1
E. 10.12 Exercı́cio. Para qualquer matriz n × n real ou complexa e invertı́vel A vale que AT =
−1 T ∗ −1 −1 ∗
(A ) . Além disso, para qualquer matriz n × n complexa A vale que (A ) = (A ) . Usando esses
fatos, mostre que se A ∈ GL(n, ) então AT ∈ GL(n, ). Analogamente, mostre que se A ∈ GL(n, )

então A∗ e AT ∈ GL(n, ). 6

E. 10.13 Exercı́cio. Para qualquer matriz n × n real ou complexa A vale que det(A) = det AT . Fora
isso, para qualquer matriz n × n complexa A vale que det(A) = det (A ∗ ). Usando esses fatos, mostre que
se A ∈ SL(n, ) então AT ∈ SL(n, ). Analogamente, mostre que se A ∈ SL(n, ) então A∗ e AT ∈

SL(n, ). 6
2
Exceto no caso n = 1, onde o grupo é Abeliano, trivialmente.
3
Idem.
Os grupos GL(n, ), GL(n, ), SL(n, ) e SL(n, ) possuem vários outros sub-grupos de interesse.

Discutiremos alguns adiante, como os grupos de Borel, os grupos ortogonais, unitários e simpléticos.
• Os grupos GL(n, ), SL(n, ) e SL(n, )
Vamos denotar por Mat(n, ) ou Mat( , n) o conjunto de todas as matrizes n × n cujos elementos
de matriz são números inteiros e por Mat(n, ) ou Mat( , n) o conjunto de todas as matrizes n × n
cujos elementos de matriz são números racionais. Analogamente, defina-se
GL(n, ) := {A ∈ Mat(n, ), det(A) 6= 0} e GL(n, ) := {A ∈ Mat(n, ), det(A) 6= 0}
SL(n, ) := {A ∈ Mat(n, ), det(A) = 1} e SL(n, ) := {A ∈ Mat(n, ), det(A) = 1} .
Então valem as seguintes afirmações:
1. GL(n, ) é um grupo em relação à operação de produto usual de matrizes.

2. SL(n, ) é um grupo em relação à operação de produto usual de matrizes.
3. GL(n, ) não é um grupo em relação à operação de produto usual de matrizes, mas sim um
monóide.
4. SL(n, ) é um grupo em relação à operação de produto usual de matrizes.
Para provar 1, notemos que o produto de matrizes n × n com entradas racionais é também uma
matriz n × n com entradas racionais (por quê?). Assim, a operação de produto é uma operação binária
em GL(n, ). O elemento neutro é a matriz identidade, que é elemento de GL(n, ) (pois os números 0
e 1 são racionais). Por fim, resta mostrar que a inversa de uma matriz invertı́vel com entradas racionais
também tem entradas racionais.
Para mostrar isso, notemos primeiramente que o determinante de uma matriz com entradas racionais
é também um número racional, pois o cálculo do determinante de uma matriz M envolve apenas
operações de soma e produto dos elementos de matriz de M . Além disso, lembremos o fato bem
conhecido (a chamada “regra de Laplace4 ”) que para qualquer matriz A o elemento ij da sua matriz
inversa (se houver) é dado por
(−1)i+j
(A−1 )ij = ∆ji , (10.7)
det(A)
onde ∆ij é o determinante da matriz (n − 1) × (n − 1) obtida eliminando-se a i-ésima linha e a j-ésima
coluna da matriz A. (A matriz ∆ é por vezes denominada matriz dos co-fatores de A). Vê-se claramente
daı́ que se A é uma matriz com entradas racionais então os números ∆ji são também racionais, assim
como det(A). Logo (A−1 )ij é um número racional e, portanto, se A ∈ GL(n, ) então A−1 ∈ GL(n,
).
4
O item 2 se prova da mesma maneira.

No caso do item 3, notemos que o produto de matrizes n × n com entradas inteiras é também uma
matriz n × n com entradas inteiras (por quê?). Assim, a operação de produto é uma operação binária
em GL(n, ). O elemento neutro é a matriz identidade, que é elemento de GL(n, ) (pois os números
0 e 1 são inteiros). Com isso, GL(n, ) é um monóide. O problema que faz com que GL(n, ) não
seja um grupo reside no fato de que a inversa de uma matriz com entradas inteiras nem sempre é uma
matriz com entradas inteiras. Isso se vê claramente no exemplo da matriz ( 10 02 ) cuja inversa é 10 1/2
0
.
No entanto, se uma matriz A, invertı́vel com entradas inteiras, tiver determinante igual a 1, segue
imediatamente de (10.7) que A−1 tem também entradas inteiras. Daı́, prova-se facilmente a afirmativa
4.
E. 10.14 Exercı́cio. Complete os detalhes das afirmações feitas acima. 6

1 1 2 −1 −1
E. 10.15 Exercı́cio. Verifique que A = ∈ SL(n, ) e que A = ∈ SL(n, ).
1 2 −1 1

a b
Mais genericamente, se a, b, c e d são números inteiros tais que ad − bc = 1, então A = ∈ SL(n,
c d

−1 d −c
)eA = ∈ SL(n, ). 6
−b a

1 b
E. 10.16 Exercı́cio. Verifique que todas as matrizes da forma com b ∈ são elementos de
0 1
1 1
SL(n, ). Verifique que todas as matrizes da forma com c ∈ são elementos de SL(n, ). 6
c c+1
• Outros Subgrupos de GL( , n) e de GL( , n)

Há vários outros subgrupos de GL( , n) e GL( , n) aos quais eventualmente faremos referência.

Deixamos ao estudante provar em cada caso que se trata realmente de grupos. Dois deles são os grupo
de matrizes com determinante positivo:
GL( , n)+ := {A ∈ Mat ( , n), det(A) > 0} ,

GL( , n)+ := {A ∈ Mat ( , n), det(A) > 0} .

Outro grupo relevante é o chamado grupo de Weyl5 de GL( , n):
( n n
)
X X
Wn := A ∈ GL( , n), Aij ∈ {0, 1} ∀i, j, com Aij = 1 = Aij .
i=1 j=1
Em palavras, as matrizes de Wn são matrizes n × n cujas entradas valem 0 ou 1, sendo que exatamente
um elemento “1” ocorre em cada linha e em cada coluna.
5
Hermann Klaus Hugo Weyl (1885-1955).

1 0
E. 10.17 Exercı́cio. Mostre que W2 contem apenas dois elementos, a saber as matrizes e
0 1
0 1
. 6
1 0
E. 10.18 Exercı́cio. Determine os (seis) elementos de W3 . 6
E. 10.19 Exercı́cio. Prove que Wn é isomorfo ao grupo de permutações de n elementos Sn definido à

página 565. 6
10.2.2 O Grupo de Borel e Grupo de Heisenberg

Uma matriz A, complexa, n × n, é dita ser uma matriz triangular superior se seus elementos de matriz
Aij satisfizerem Aij = 0 se i > j. Tais matrizes têm a forma
 
A11 A12 · · · A1(n−1) A1n
 0 A22 · · · A2(n−1) A2n 
 
 ..  ,
A =  ... ..
.
..
.
..
. . 
 
 0 0 · · · A(n−1)(n−1) A(n−1)n 
0 0 ··· 0 Ann
onde os elementos abaixo da diagonal principal são nulos. Aqueles que ficam acima da diagonal principal
podem ser nulos ou não.
De acordo com a Proposição 3.17, página 182, o conjunto das matrizes complexas n × n triangulares
superiores invertı́veis forma um grupo, denominado por alguns autores Grupo de Borel 6 de ordem n e
denotado por GBn ( ).
E. 10.20 Exercı́cio-exemplo. Para duas matrizes triangulares superiores invertı́veis 2 × 2

! !
a b d e
A = e B =
0 c 0 f
verifique que !
ad ae + bf
AB = ,
0 cf
que é novamente uma matriz triangular superior, e verifique que
1 b
!
a
− ac
A−1 = 1
.
0 c
6
6
Armand Borel (1923-2003). A noção de grupo de Borel é mais geral. As matrizes n × n triangulares superiores
invertı́veis compõe o grupo de Borel associado ao grupo GL( , n).
Um caso particular do grupo de Borel é o grupo de Heisenberg, que agora discutiremos.
• O grupo de Heisenberg GH3 ( )
O chamado grupo de Heisenberg7 , denotado por GH3 ( ) (os grupos GHn ( ) com n ≥ 3 são definidos
adiante), é definido como o grupo formado por todas as matrizes 3 × 3 da forma
 
1 a c
H(a, b, c) = 0 1 b  ,
0 0 1
onde a, b, c ∈ , com o produto usual de matrizes (se a, b, c ∈ temos o grupo GH3 ( )). A matriz

identidade é um elemento de GH3 ( ) pois H(0, 0, 0) = e tem-se
H(a, b, c)H(a0 , b0 , c0 ) = H(a + a0 , b + b0 , c + c0 + ab0 ). (10.8)
Essa relação, em particular, diz que o produto de duas matrizes de GH3 ( ) é novamente uma matriz
de GH3 ( ). Tem-se também que
 
1 −a ab − c
H(a, b, c)−1 = H(−a, −b, ab − c) = 0 1 −b  , (10.9)
0 0 1
que mostra que toda matriz de GH3 ( ) tem inversa e que essa inversa é também uma matriz de
GH3 ( ). Assim, GH3 ( ) é um grupo matricial.
E. 10.21 Exercı́cio. Verifique essas afirmações. 6
De (10.8) constata-se facilmente que GH3 ( ) não é um grupo Abeliano.
E. 10.22 Exercı́cio. Mostre que o centro do grupo de Heisenberg é formado pelas matrizes do tipo
H(0, b, 0) com b ∈ . O conceito de centro de um grupo foi introduzido à página 70. 6
Como é fácil de ver, o grupo de Heisenberg é um grupo de Lie (grupos de Lie serão tratados no
Capı́tulo 11) que, como variedade analı́tica, é difeomorfo a 3 . O exercı́cio seguinte discute três de seus
subgrupos uniparamétricos.
E. 10.23 Exercı́cio. Verifique que as matrizes H1 (t) := H(t, 0, 0), H2 (t) := H(0, t, 0), H3 (t) :=
H(0, 0, t) satisfazem Hj (t)Hj (t0 ) = Hj (t + t0 ) e Hj (0) = , j = 1, 2, 3. Assim, para cada j, as
matrizes Hj (t) representam sub-grupos uniparamétricos de GH3 ( ). Os geradores desses subgrupos são
hj := dtd Hj (t)t=0 . Verifique que
     
0 1 0 0 0 0 0 0 1
h1 = 0 0 0 , h2 = 0 0 1 , h3 = 0 0 0 .
0 0 0 0 0 0 0 0 0
6
7
Werner Karl Heisenberg (1901-1976).
Mostraremos agora que esses geradores formam uma álgebra de Lie, a chamada álgebra de Heisen-
berg gh3 ( ). Adiante explicaremos por que o nome de Heisenberg é associado ao grupo GH 3 ( ) e à
álgebra gh3 ( ).
• A álgebra de Heisenberg gh3 ( )
Considere matrizes da forma 

0 a c
h(a, b, c) = 0 0 b  , (10.10)
0 0 0
onde a, b, c ∈ . Calculando-se o comutador de duas de tais matrizes tem-se
[h(a, b, c), h(a0 , b0 , c0 )] = h(0, 0, ab0 − a0 b), (10.11)
(verifique!) que é novamente da forma (10.10). Assim, o conjunto de matrizes da forma (10.10) forma
uma álgebra de Lie com o produto definido pelo comutador de matrizes. Essa álgebra de Lie, denotada
por gh3 ( ), é denominada álgebra de Heisenberg.
A razão dessa denominação é a seguinte. Podemos encontrar em gh3 ( ) uma base especial formada
por três matrizes que, por razões “psicológicas”, denotaremos por p, q e ~:
     
0 1 0 0 0 0 0 0 i
p = 0 0 0  , q = 0 0 1 , ~ = 0 0 0  .
0 0 0 0 0 0 0 0 0
É um exercı́cio fácil (e fortemente recomendado) verificar que essas matrizes satisfazem as seguintes
regras de comutação:
[p, ~] = 0 , [q, ~] = 0 , [p, q] = −i~ .
Para aqueles familiarizados com a Mecânica Quântica as relações acima justificam a denominação
dessa álgebra em honra a Heisenberg: as relações de comutação acima são precisamente iguais às
relações canônicas de comutação satisfeitas pelos operadores associados ao momento (p) e posição (q)
∂
de uma partı́cula se movendo em uma dimensão. No caso da Mecânica Quântica, p é o operador −i~ ∂x ,
q = x e ~ representa um número (a constante de Planck ), que obviamente comuta com os operadores
8
p e q.
Nota. O estudante deve, porém, observar que as matrizes p, q e ~, acima, não são auto-adjuntas, ao
contrário dos operadores correspondentes da Mecânica Quântica. Essa observação é relevante, pois é
possivel provar que as relações canônicas de comutação não podem ser satisfeitas por operadores auto-
adjuntos agindo em espaços de Hilbert de dimensão finita ou por operadores auto-adjuntos limitados
agindo em espaços de Hilbert de dimensão infinita. De fato, no espaço de Hilbert L2 ( , dx) os
∂
operadores p = −i~ ∂x e q = x são auto-adjuntos (em um dominı́o conveniente), mas não são limitados.
O que faz gh3 ( ) especial como álgebra de Lie é a propriedade expressa no seguinte exercı́cio:
8
E. 10.24 Exercı́cio importante. Verifique que para quaisquer três elementos h 1 , h2 e h3 da álgebra de
Heisenberg tem-se
[h1 , [h2 , h3 ]] = 0 . (10.12)
Sugestão: use as relações de comutação de p, q e ~, dadas acima ou use diretamente (10.11). A relação
(10.12) mostra que gh3 ( ) é o que se chama uma álgebra de Lie nilpotente (de grau 2). 6
Para entender a relação da álgebra de Heisenberg gh3 ( ) com o grupo de Heisenberg GH3 ( ),
façamos o seguinte. Notemos em primeiro lugar que as matrizes h(a, b, c) são matrizes nilpotentes de
grau 3, ou seja,
h(a, b, c)3 = 0.
(Mostre isso!). É fácil com isso verificar que se calcularmos a exponencial de h(a, b, c) teremos
 
1 a c + ab
1 2 
2
 ab
exp (h(a, b, c)) = + h(a, b, c) + h(a, b, c) = 0 1 b = H a, b, c + , (10.13)
2 2
0 0 1
ou seja,
ab
H(a, b, c) = exp h a, b, c − . (10.14)
2

E. 10.25 Exercı́cio. Escreva h a, b, c − ab
2
como combinação linear de p, q e ~. 6
Pelo que vimos, todos os elementos do grupo de Heisenberg GH3 ( ) são obtidos pela exponenciação
de elementos da álgebra de Lie gh3 ( ), ou seja, a exponenciação é uma aplicação sobrejetora de gh3 ( )
em seu grupo de Lie GH3 ( ). Em verdade, é fácil constatar que essa aplicação é também injetora (faça
isso!). A aplicação exponencial é, portanto, uma bijeção de gh3 ( ) em GH3 ( ).
E. 10.26 Exercı́cio importante. Usando a fórmula de Baker-Campbell-Hausdorff (equações (4.4), página

210, ou (4.46), página 237) e as relações (10.11) e (10.12), mostre que

0 0 0 0 0 0 ab0 − a0 b
exp h(a, b, c) exp h(a , b , c ) = exp h a + a , b + b , c + c + . (10.15)
2
Usando (10.13) e (10.14), re-obtenha de (10.15) a regra de produto (10.8). 6
Comentário. Esse exercı́cio ilustra uma aplicação da fórmula de Baker-Campbell-Hausdorff. Note-se

que, devido ao fato de gh3 ( ) ser uma álgebra de Lie nilpotente (vide (10.12)), a série de Baker-
Campbell-Hausdorff é composta apenas por um número finito de termos e, portanto, converge sempre.
• O grupo de Heisenberg GHn ( ), n ≥ 3
Vamos agora generalizar o grupo GH3 ( ). Para n ≥ 3, os chamados grupos de Heisenberg GHn ( )
são definidos como sendo os grupos formado por todas as matrizes n × n da forma
 
1 aT c
H(a, b, c) =  m m b 
T
0 m 1
com o produto usual de matrizes, sendo m = n − 2, onde a, b ∈ n−2 e c ∈ . Acima, a e b representam

matrizes-coluna com m = n − 2 linhas equanto que aT e bT , as transpostas de a e b, respectivamente,
representam matrizes-linha com m = n − 2 colunas:
   
a1 b1
   
a =  ...  , aT = a1 · · · an−2 , b =  ...  , bT = b1 · · · bn−2 ,
an−2 bn−2
0
sendo m = ... a matriz coluna identicamente nula com m = n − 2 linhas e sendo m a matriz
0
a1 b
identidade m × m. Por exemplo, no caso n = 4, para a = , b = 1 ∈ 2 , a matriz H(a, b, c) é
a2 b2
1 a 1 a2 c
H(a, b, c) = 00 01 10 bb21 . Para simplificar a notação, iremos doravante escrever H(a, b, c) na forma
0 0 0 1
 
1 aT c
H(a, b, c) = 0 b .
0 0 1
A matriz identidade é um elemento de GHn ( ) pois H(0, 0, 0) = e tem-se

H(a, b, c)H(a0 , b0 , c0 ) = H(a + a0 , b + b0 , c + c0 + aT b0 ) , (10.16)
sendo que definimos a forma bilinear aT b0 := ha, b0 i = a1 b01 + · · · + an−2 b0n−2 .

Essa relação, em particular, diz que o produto de duas matrizes de GHn ( ) é novamente uma
matriz de GHn ( ). Vale também que
 
1 −a aT b − c
 
H(a, b, c)−1 = H(−a, −b, aT b − c) =   0 −b ,
 (10.17)
0 0 1
que mostra que toda matriz de GHn ( ) tem inversa e que essa inversa é também um elemento de
GHn ( ). Assim, GHn ( ) é um grupo matricial.
• A álgebra de Heisenberg ghn ( ), n ≥ 3
Para n ≥ 3, considere matrizes de Mat ( , n) da forma

   
1 aT c 0 aT c
h(a, b, c) =  m mm b  ≡ 0 mm b , (10.18)
T
0 m 1 0 0 0
n−2
com m = n − 2, onde é a matriz m × m identicamente
mm e onde a, b ∈
nula e c ∈ ,
a1 b1
como acima. Por exemplo, no caso n = 4, para a = , b = ∈ 2 , a matriz h(a, b, c) é
a2 b2
0 a 1 a2 c
h(a, b, c) = 00 00 00 bb21 .
0 0 0 0
Calculando-se o comutador de duas de tais matrizes tem-se

T
[h(a, b, c), h(a0 , b0 , c0 )] = h(0, 0, aT b0 − a0 b), (10.19)
(verifique!) que é novamente da forma (10.18). Assim, o conjunto de matrizes da forma (10.18) forma
uma álgebra de Lie com o produto definido pelo comutador de matrizes. Essa álgebra de Lie, denotada
por ghn ( ), é igualmente denominada álgebra de Heisenberg.
E. 10.27 Exercı́cio importante. Verifique que para quaisquer três elementos h 1 , h2 e h3 da álgebra de
Heisenberg ghn ( ) tem-se
[h1 , [h2 , h3 ]] = 0 . (10.20)
A relação (10.20) mostra que ghn ( ) é o que se chama uma álgebra de Lie nilpotente (de grau 2). 6
Podemos encontrar em ghn ( ) uma base especial formada pelas matrizes ~ e pk , qk , k = 1, . . . , n−2
definidas por
     
0 eTk 0 0 0 0 0 0 i
p k = 0 0 , q k = 0 ek  , ~ = 0 0 0  ,
0 0 0 0 0 0 0 0 0
sendo ek , k = 1, . . . , n − 2 as matrizes-coluna definidas por
1 0 0
0 1 0
0 0 0
e1 :=  ..  , e2 :=  ..  , ······ , en−2 :=  ..  ,
. . .
0 0 0
0 0 1
ou seja, todos as linhas de ej são nulas, exceto a j-ésima, que vale 1. No caso n = 4, por exemplo,
tem-se
   
0 1 0 0 0 0 1 0
0 0 0 0 0 0 0 0
p1 =   
0 0 0 0 , p2 = 0 0 0 0 ,

0 0 0 0 0 0 0 0
     
0 0 0 0 0 0 0 0 0 0 0 i
0 0 0 1 0 0 0 0 0 0 0 0
q1 = 
0
 , q2 =   , ~ =   .
0 0 0 0 0 0 1 0 0 0 0
0 0 0 0 0 0 0 0 0 0 0 0
Em analogia com o caso do grupo GH3 ( ), é fácil constatar que as matrizes pk , qk e −i~ são
geradores de sub-grupos uniparamétricos de GHn ( ).
E. 10.28 Exercı́cio. Verifique a afirmação do último parágrafo. Determine os sub-grupos uniparamétricos

de GHn ( ) mencionados. 6
Como eTk el = δk, l para todos k e l, é um exercı́cio fácil (e fortemente recomendado!) verificar que
essas matrizes satisfazem as seguintes regras de comutação:
[pk , ql ] = −i~ δk, l ,
[pk , ~] = [qk , ~] = [pk , pl ] = [qk , ql ] = 0 ,

para todos k, l = 1, . . . , n − 2. Como o estudante familiarizado com a Mecânica Quântica percebe,

essas são as relações canônicas de comutação de um sistema com n − 2 graus de liberdade.
Para entender a relação da álgebra de Heisenberg ghn ( ) com o grupo de Heisenberg GHn ( ),
notemos em primeiro lugar que, assim como no caso n = 3, as matrizes h(a, b, c) são matrizes
nilpotentes de grau 3, ou seja,
h(a, b, c)3 = 0.
(Mostre isso!). É fácil com isso verificar que
 
1 a c + aT b T

1 2 a b
exp (h(a, b, c)) = + h(a, b, c) + h(a, b, c) = 0 1
2
b  = H a, b, c + ,
2 2
0 0 1
(10.21)
ou seja,
aT b
H(a, b, c) = exp h a, b, c − . (10.22)
2
Pelo que vimos, todos os elementos do grupo de Heisenberg GHn ( ) são obtidos pela exponenciação
de elementos da álgebra de Lie ghn ( ), ou seja, a exponenciação é uma aplicação sobrejetora de ghn ( )
em seu grupo de Lie GHn ( ). Em verdade, é fácil constatar que essa aplicação é também injetora (faça
isso!). A aplicação exponencial é, portanto, uma bijeção de ghn ( ) em GHn ( ).
E. 10.29 Exercı́cio importante. Usando a fórmula de Baker-Campbell-Hausdorff (equações (4.4), página

210, ou (4.46), página 237) e as relações (10.19) e (10.20), mostre que
!!
a T 0
b − a 0T
b
exp h(a, b, c) exp h(a0 , b0 , c0 ) = exp h a + a0 , b + b0 , c + c0 + . (10.23)
2
Usando (10.21) e (10.22), re-obtenha de (10.23) a regra de produto (10.16). 6
10.2.3 Grupos Associados a Formas Bilineares e Sesquilineares

Seja E um espaço vetorial. Vamos denotar por GL(E) o conjunto de todos os operadores lineares
bijetores (e portanto invertı́veis) de E em E. É bem claro que GL(E) forma um grupo, tendo como
produto o produto de operadores.
Seja ω uma forma bilinear ou sesquilinear (caso E seja complexo) em E. Denotaremos por Ω(E, ω)
o subconjunto de GL(E) formado por todos os operadores lineares O invertı́veis tais que
ω(Ox, Oy) = ω(x, y)
para todos x, y ∈ E. Vamos mostrar que Ω(E, ω) é um sub-grupo de GL(E). Primeiramente é claro
que ∈ Ω(E, ω). Em segundo lugar, sejam O1 e O2 dois operadores de Ω(E, ω). Teremos pelas
hipóteses que
ω(O1 O2 x, O1 O2 y) = ω(O2 x, O2 y) = ω(x, y)
para todos x, y ∈ E e, portanto, O1 O2 ∈ Ω(E, ω). Resta mostrar que se O ∈ Ω(E, ω) então
O −1 ∈ Ω(E, ω). De fato,
ω(O −1 x, O −1 y) = ω(OO −1x, OO −1 y) = ω(x, y)
para todos x, y ∈ E, que é o que querı́amos provar.

n n
Vamos considerar casos particulares em que E é o espaço ou .
n n
Seja E = e seja ωA uma forma bilinear em , que pelas considerações da Seção 2.4 é da forma

ωA (x, y) = hx, Ayi para alguma matriz real A. Neste caso Ω( n , ωA ) é o conjunto de todas as

matrizes M invertı́veis reais n × n tais que
hM x, AM yi
= hx, Ayi
n
para todos x, y ∈ . Essa relação nos diz que
hx, M T AM yi
= hx, Ayi
n
para todos x, y ∈ , o que implica
M T AM = A.
(Por quê?). Assim,
n

Ω( , ωA ) = M ∈ Mat( , n), det(M ) 6= 0 e M T AM = A .

Se a matriz A for invertı́vel (ou seja, se ωA for não-degenerada), então podemos escrever também

Ω( n , ωA ) = M ∈ Mat( , n), det(M ) 6= 0 e M −1 = A−1 M T A .

Seja E = n e seja ωA uma forma sesquilinear em n , que pelas considerações da Seção 2.4 é da
forma ωA (x, y) = hx, Ayi para alguma matriz complexa A. Neste caso Ω( n , ωA ) é o conjunto de

todas as matrizes M invertı́veis complexas n × n tais que
hM x, AM yi = hx, Ayi
n
para todos x, y ∈ . Essa relação nos diz que
hx, M ∗ AM yi = hx, Ayi
n
para todos x, y ∈ , o que implica
M ∗ AM = A.
Acima M ∗ = M T . Assim,
Ω( n
, ωA ) = {M ∈ Mat( , n), det(M ) 6= 0 e M ∗ AM = A} .
Se a matriz A for invertı́vel (ou seja, se ωA for não-degenerada), então podemos escrever também

Ω( n , ωA ) = M ∈ Mat( , n), det(M ) 6= 0 e M −1 = A−1 M ∗ A .
10.2.4 Os Grupos Ortogonais
• Os Grupos O(n) e SO(n)
Um caso de particular interesse é aquele onde E = n e A = , ou seja, ωA (x, y) = hx, yi . Neste

caso o grupo Ω( n , ωA ) é denotado por O(n) e tem-se

O(n) := M ∈ Mat( , n), M −1 = M T .

O(n) é o grupo das matrizes ditas ortogonais n × n.

Se M é uma matriz ortogonal, tem-se que M M T = . Daı́, 1 = det( ) = det(M M T ) =
det(M ) det(M T ) = (det(M ))2 . Concluı́mos que se uma matriz M é ortogonal, vale det(M ) = ±1.
O(n) possui um sub-grupo, denominado SO(n), que é composto pelas matrizes ortogonais com
determinante igual a 1:

SO(n) := M ∈ Mat( , n), M −1 = M T e det(M ) = 1 .

Os grupos SO(n) representam generalizações do grupo de rotações do espaço tridimensional para o

espaço n-dimensional.
• Os Grupos O(p, m) e SO(p, m)

n
Um outro caso de particular interesse é aquele onde E = e ω(x, y) = hx, η(p, m)yi
onde
η(p, m) é a matriz diagonal
 
1
 ... 
 
 
 1 
η(p, m) :=  , (10.24)
 −1 
 .. 
 . 
−1
com p elementos +1 e m elementos −1, sendo p + m = n.
n
Neste caso o grupo Ω( , ω) é denotado por O(p, m) e tem-se

O(p, m) := M ∈ Mat( , n), M −1 = η(p, m)M T η(p, m) .

Se M ∈ O(p, m), tem-se que M η(p, m)M T η(p, m) = . Daı́,

1 = det( ) = det M η(p, m)M T η(p, m) = det(M ) det(M T ) (det(η(p, m)))2 = (det(M ))2 .
Concluı́mos que se M ∈ O(p, m), vale det(M ) = ±1.
O(p, m) possui um sub-grupo, denominado SO(p, m), que é composto pelas matrizes de O(p, m)
com determinante igual a 1:

SO(p, m) := M ∈ Mat( , n), M −1 = η(p, m)M T η(p, m) e det(M ) = 1 .

Certos grupos O(p, m) e SO(p, m) desempenham um papel muito importante em Fı́sica, estando
ligados ao chamado Grupo de Lorentz, o qual tem importância na Teoria da Relatividade Especial. O
grupo de Lorentz é detalhadamente discutido na Seção 10.6.
10.2.5 Os Grupos Unitários
• Os Grupos U (n) e SU (n)
Mais um caso importante é aquele onde E = n e ωA é a forma sesquilinear associada a A = , ou

seja, ωA (x, y) = hx, yi . Neste caso o grupo Ω( n , ωA ) é denotado por U (n) e tem-se

U (n) := M ∈ Mat( , n), M −1 = M ∗ .
U (n) é o grupo das matrizes ditas unitárias n × n.
Se M é uma matriz unitária, tem-se que M M ∗ = . Daı́,

∗ ∗ T
1 = det( ) = det (M M ) = det(M ) det(M ) = det(M ) det M =
det(M )det(M T ) = det(M )det(M ) = |det(M )|2 .

Concluı́mos que se M ∈ U (n), vale |det(M )| = 1.
U (n) possui um sub-grupo, denominado SU (n), que é composto pelas matrizes unitárias com de-
terminante igual a 1:

SU (n) := M ∈ Mat( , n), M −1 = M ∗ e det(M ) = 1 .
Os grupos U (2) e SU (3) desempenham um papel muito importante na Mecânica Quântica e na

Fı́sica das Partı́culas Elementares.
• Os Grupos U (p, m) e SU (p, m)
Mais um caso é aquele onde E = n e ω(x, y) = hx, η(p, m)yi onde η(p, m) foi definida em

(10.24). Neste caso o grupo Ω( n , ω) é denotado por U (p, m) e tem-se

U (p, m) := M ∈ Mat( , n), M −1 = η(p, m)M ∗ η(p, m) .
Se M ∈ U (p, m), tem-se que M η(p, m)M ∗ η(p, m) = . Daı́,
1 = det( ) = det (M η(p, m)M ∗ η(p, m)) = det(M ) det(M ∗ ) (det(η(p, m)))2 =

det(M ) det M T = det(M )det(M T ) = det(M )det(M ) = |det(M )|2 .
Concluı́mos que se M ∈ U (p, m), vale |det(M )| = 1.

U (p, m) possui um sub-grupo, denominado SU (p, m), que é composto pelas matrizes de U (p, m)
com determinante igual a 1:

SU (p, m) := M ∈ Mat( , n), M −1 = η(p, m)M ∗ η(p, m) e det(M ) = 1 .
E. 10.30 Exercı́cio. Mostre que os elementos do grupo SO(n) são caracterizados por n(n − 1)/2
parâmetros reais. Mostre que os elementos do grupo SU(n) são caracterizados por n 2 − 1 parâmetros reais.
6
Desse exercı́cio conclui-se, por exemplo, que os grupos SO(3) e SU(2) são caracterizados pelo mesmo
número de parâmetros reais, a saber 3. Conseqüências desse fato serão investigadas abaixo, quando
olharemos com mais detalhe para esses dois grupos.
• Os Grupos Ortogonais Complexos
Seja o espaço vetorial complexo n e seja a seguinte forma bilinear em n : ω(x, y) = hx yi =
x1 y1 +· · ·+xn yn para vetores x = (x1 , · · · , xn ) e y = (y1 , · · · , yn ) ∈ n . O grupo ortogonal complexo,

denotado por O(n, ), é o grupo das matrizes complexas que mantêm essa forma bilinear invariante:
n
O(n, ) := {M ∈ Mat (n, )| ω(M x, M y) = ω(x, y), ∀x, y ∈ }

= M ∈ Mat (n, )| M T = M −1 .
O(n, ) não pode ser confundido com o grupo U (n). É fácil ver também que se M ∈ O(n, ), então
det(M ) = ±1. Daı́, define-se

SO(n, ) := M ∈ Mat (n, )|M T = M −1 e det(M ) = 1 .
Como é fácil de se ver, SO(n, ) é um subgrupo de O(n, ).
10.3 Os Grupos SO(2), SO(3), SU(2) e SL( , 2)

Em função de sua particular importância na Fı́sica, em especial na Fı́sica Quântica, vamos discutir
aqui com algum detalhe os grupos SO(3) e SU(2), os quais, ademais, como veremos, são intimamente
relacionados. Por razões pedagógicas, ilustraremos o estudo dos grupos SO(3) e SU(2) tratando antes
do grupo SO(2).
10.3.1 Os Grupos SO(2), O(2), SO(1, 1) e O(1, 1)
• Os Grupos SO(2) e O(2)

Conforme já definimos, o grupo SO(2) é o grupo das matrizes ortogonais 2×2 reais com determinante
igual a 1: SO(2) = {R ∈ Mat ( , 2)| RT = R−1 e det(R) = 1}. Vamos começar estudando a forma

geral de tais matrizes.

Como toda matriz 2×2 real, uma matriz genérica R ∈ SO(2) é da forma R = ( ac db ), onde a, b, c, d ∈
. Vamos estudar a condição R−1 = RT . Podemos calcular R−1 lembrando (vide (3.41), página 183)
a regra bem conhecida (a chamada “regra de Laplace9 ”): R−1 é dada pela transposta da matriz dos
−1 d −b
co-fatores de R dividida pelo determinante de R, que é 1, neste caso. Ou seja, R = −c a . Assim,
R−1 = RT significa nesse caso
d −b a c
= ,
−c a b d
a b
2 2
ou seja, c = −b e d = a. Logo, R = −b a . A condição det(R) = 1 implica, portanto, a + b = 1.
Podemos então escrever a e b na forma a = cos θ, b = − sen (θ), com θ ∈ (−π, π]. Resumindo:

cos θ − sen θ
SO(2) = , onde θ ∈ (−π, π] .
sen θ cos θ
Como R(θ) = R(θ +2π) vemos que SO(2) é homeomorfo ao cı́rculo unitário S 1 , que é uma variedade
diferenciável. Como o produto e a inversa são contı́nuos em SO(2), isso diz que SO(2) é um grupo de
Lie.
Definindo
cos θ − sen θ
R(θ) := ,
sen θ cos θ
é fácil constatar que R(0) = e que vale a regra de produto R(θ)R(θ 0 ) = R(θ + θ 0 ) (faça!). SO(2) é,
portanto, um grupo uniparamétrico homomorfo ao grupo ( , +) e isomorfo ao grupo ( , + mod 2π).

O gerador J de SO(2) é definido por

d d cos θ − sen θ 0 −1
J := R(θ) = = .
dθ θ=0 dθ sen θ cos θ θ=0 1 0
É igualmente elementar constatar que J 2 = − . Daı́

X∞
θm m
exp(θJ) = J
m=0
m!
X∞ ∞
θ 2k 2k X θ 2k+1
= J + J 2k+1
k=0
(2k)! k=0
(2k + 1)!
∞
! ∞
!
X (−1)k θ 2k X (−1)k θ 2k+1
= + J
k=0
(2k)! k=0
(2k + 1)!
= cos(θ) + sen (θ)J
= R(θ).
9
Assim,
SO(2) = {exp(θJ), onde θ ∈ (−π, π]} . (10.25)
Com isso, (10.25) está nos dizendo que todo elemento de SO(2) pode ser escrito como exponencial do
seu gerador. Veremos que algo semelhante também se dá nos grupos SO(3) e SU(2).
O grupo O(2) é o grupo das matrizes ortogonais 2 × 2 reais: O(2) = {R ∈ Mat ( , 2)| R T = R−1 }.
Se R ∈ O(2) então det(R) = ±1. O caso det(R) = 1 corresponde a SO(2), que tratamos acima. Vamos
considerar o caso det(R) = −1.
Como toda matriz 2×2 real, uma matriz genérica R ∈ O(2) com det(R) = −1 é da forma R = ( ac db ),
onde a, b, c, d ∈ . Neste caso, como det(R) = −1, teremos R −1 = −d

b
c −a . Assim, a condição
−1 T
R = R significa nesse caso
−d b a c
= ,
c −a b d

ou seja, c = b e d = −a. Logo, R = ab −ab
. A condição det(R) = −1 implica novamente a2 + b2 = 1.
Podemos então escrever a e b na forma a = cos θ, b = − sen θ, com θ ∈ (−π, π]. Assim, R é da forma

cos θ − sen θ 1 0 cos θ − sen θ
R = = .
− sen θ − cos θ 0 −1 sen θ cos θ
Resumindo:
( P )
1 0 cos θ − sen θ
O(2) = , onde P ∈ {0, 1} e θ ∈ (−π, π] .
0 −1 sen θ cos θ
• O grupo U(1)
E. 10.31 Exercı́cio. Mostre que o grupo U(1) := {z ∈ , |z| = 1} é isomorfo ao grupo SO(2). 6
• O grupo O(1, 1) (O Grupo de Lorentz em 1+1 dimensões)
Aqui estudaremos em detalhe o grupo O(1, 1), também denominado Grupo de Lorentz em 1+1
dimensões. A leitura deste tópico pode servir de introdução à leitura da Seção 10.6 que tratará do
Grupo de Lorentz em 3+1 dimensões.
1

Seja M matriz real 2×2 na forma M = ( ac db ), onde a, b, c, d ∈ . Tem-se que, M −1 = ad−bc d −b
−c a

a −c
onde det(M ) = ad − bc. Se η := ( 10 −1
0
) então ηM T η = −b d como facilmente se vê.
−1 T d −b
a −c

Se M ∈ SO(1, 1) então M = ηM η e det(M ) = 1. Isso significa que −c a = −b d . Assim,
devemos ter a = d e b = c. A condição det(M ) = 1 significa a2 − b2 = 1. Logo,

SO(1, 1) = M ∈ Mat ( , 2)| M = ( ab ab ) com a2 − b2 = 1, a, b ∈
.
Como se vê, SO(1, 1) é homeomorfo ao conjunto H+ ∪ H− formado por duas hipérboles

p
H± := {(x, y) ∈ 2 | x = ± 1 + y 2 }.

SO(1, 1) tem, portanto, duas componentes conexas, que denotaremos por L↑+ e L↓+ :
n √ o
L↑+ := M ∈ Mat ( , 2)| M = 1+b2 √ b
b 1+b2
, b ∈ ,
n √ o
L↓+ := M ∈ Mat ( , 2)| M =
− 1+b2 √ b
b − 1+b2
, b∈ .
Note-se que apenas L↑+ é conexa à identidade e, portanto, apenas a componente L↑+ é um subgrupo de
SO(1, 1).
Parametrizando b ∈ na forma b = − senh (z), com z ∈ , constatamos que
n o
− senh (z)
L↑+ = M ∈ Mat ( , 2)| M = −cosh(z)

senh (z) cosh(z) , z ∈ ,
n o
− cosh(z) − senh (z)
L↓+ = M ∈ Mat ( , 2)| M =

− senh (z) − cosh(z) , z∈ .
Os elementos de O(1,a 1)−cque

não são de SO(1, 1) têm determinante
−1. Assim, são matrizes que
satisfazem −d c −a
b
= −b d sendo, portanto, da forma a b
−b −a com a2 − b2 = 1. O conjunto de
tais matrizes é igualmente homeomorfo ao conjunto H+ ∪ H− e consta também de duas componentes
conexas, a saber, os conjuntos
n √ o
↑ − 1+b2 √ b
L− := M ∈ Mat ( , 2)| M = −b 1+b2
, b∈ ,
n √ o
L↓− := M ∈ Mat ( , 2)| M =
1+b2 √ b
−b − 1+b2
, b∈ .
É claro que nem L↑− nem L↓− são subgrupos de O(1, 1). Parametrizando b ∈ novamente na forma
b = − senh (z), com z ∈ , constatamos que

n o
L↑− = M ∈ Mat ( , 2)| M = −senh cosh(z) − senh (z)
(z) cosh(z)
, z∈ ,
n o
cosh(z) − senh (z)
L↓− = M ∈ Mat ( , 2)| M =

senh (z) − cosh(z) , z∈ .
O grupo O(1, 1) é, portanto, a união de quatro componentes conexas:

O(1, 1) = L↑+ ∪ L↓+ ∪ L↑− ∪ L↓− ,
sendo cada componente disjunta das demais. Dentre elas apenas L↑+ é um grupo.
↑ ↓
Definindo as matrizes P := ( −1 0 1 0
0 1 ) ∈ L− e T := ( 0 −1 ) ∈ L− , podemos escrever
n o
− senh (z)
L↓+ = M ∈ Mat ( , 2)| M = T −cosh(z)
senh (z) cosh(z) P, z ∈ ,
n o
L↑− = M ∈ Mat ( , 2)| M =

− senh (z) cosh(z) P, z ∈ ,

n o
L↓− = M ∈ Mat ( , 2)| M = T

− senh (z) cosh(z) , z∈ ,
o que exibe a relação entre as matrizes dessas três componentes conexas e as matrizes de L ↑+ .
L↑+ = {M ∈ Mat ( , 2)| M = exp(zM1 ), z ∈

},
0 −1

onde M1 := −1 0 . 6
O grupo O(1, 1) é por vezes denominado Grupo de Lorentz em 1+1 dimensões. L↑+ é denominado
Grupo de Lorentz próprio ortócrono em 1+1 dimensões. O Grupo de Lorentz em 3+1 dimensões será
estudado em detalhe na Seção 10.6, página 617.
Para fazermos contacto com a teoria da relatividade restrita, façamos uma outra parametrização
de L↑+ , definindo v = c tanh(z). Com isso −c < v < c, cosh(z) = γ(v) e senh (z) = vc γ(v), onde
γ(v) = (1 − (v/c)2 )−1/2 . Assim,
n o
↑ γ(v) − vc γ(v)
L+ = M ∈ Mat ( , 2)| M = − v γ(v) γ(v) , −c < v < c .

0
Logo, M ∈ L↑+ age em um vetor x
ct
como M x
ct
= x
ct0
, onde
0 x − vc t 0 t − cv2 x
x = q , t = q ,
2 2
1 − vc2 1 − vc2
que são as bem conhecidas transformações de Lorentz da teoria da relatividade restrita.
E. 10.33 Exercı́cio. Qual a interpretação fı́sica das matrizes P e T introduzidas acima? 6
10.3.2 O Grupo SO(3)

Conforme já definimos, SO(3) é o grupo formado por todas as matrizes 3 × 3 reais R tais que R T = R−1
e tais que det(R) = 1. Vamos começar seu estudo mostrando que toda a matriz R 6= de SO(3)
representa uma rotação por algum ângulo em torno de algum eixo. A essa interpretação seremos
conduzidos pelas duas proposições que seguem.
Proposição 10.3 Para cada matriz R ∈ SO(3), R 6= , existe um sub-espaço unidimensional V de
3
formado por vetores que são deixados invariantes por R: R~v = ~v para todo ~v ∈ V . 2
Note que o sub-espaço V pode não ser o mesmo para matrizes R distintas. Note também que
excluı́mos R = por razões óbvias: todo vetor de 3 é invariante por e não apenas um sub-espaço

unidimensional.
Prova. Seja R 6= uma matriz qualquer de SO(3), fixa daqui por diante. Para x ∈ , seja p(x) :=
det(x − R), o polinômio caracterı́stico de R. Se escrevermos explicitamente o determinante da matriz

x −R (faça!), veremos que p(x) = +x3 +α1 x2 +α2 x+α2 , onde as constantes αi dependem dos elementos
de matriz de R. Como o termo de maior grau em x de p(x) é +x3 , concluı́mos que limx→∞ p(x) = +∞.
Fora isso, é claro que p(0) = det(−R) = − det(R) = −1 (por que?). Esses dois fatos dizem que o
polinômio p(x) deve ter um zero para algum x0 > 0.
Vamos provar que x0 = 1. Como det(x0 − R) = 0, concluı́mos que a matriz R − x0 não possui
uma inversa. Portanto, deve existir pelo menos um vetor não-nulo ~v0 ∈ 3 tal que (R − x0 )~v0 = 0,
ou seja, R~v0 = x0~v0 . Como R ∈ SO(3), segue que

|~v0 |2 = h~v0 , ~v0 i
= hR~v0 , R~v0 i
= hx0~v0 , x0~v0 i
= x20 h~v0 , ~v0 i .

Logo x20 = 1 e, como x0 > 0, segue x0 = 1. Assim, R~v0 = ~v0 , ou seja, ~v0 é um autovetor de R com
autovalor 1.
Seja V o sub-espaço de 3 formado por todos os vetores ~v que são autovetores de R com autovalor

1: V = {~v ∈ 3 | R~v = ~v }. Como acabamos de mostrar, V é não-trivial, ou seja, V 6= {0} e sua

dimensão pode ser 1, 2 ou 3.

Notemos de passagem que se v ∈ V então vale também que R T v = v. De fato, se aplicarmos RT à
direita na igualdade v = Rv e lembrarmos que RT R = , segue que RT v = v. Notemos também que
V ⊥ , o sub-espaço formado por todos os vetores ortogonais a todos os vetores de V , é também deixado
invariante por R, ou seja, se u ∈ V ⊥ então Ru ∈ V ⊥ . De fato, se v ∈ V e u ∈ V ⊥
hRu, vi
= hu, RT vi
= hu, vi
= 0.
Como isso vale para todo v ∈ V , concluı́mos que Ru ∈ V ⊥ , como querı́amos.
Como dissemos, a dimensão de V pode ser igual a 1, 2 ou 3. Vamos mostrar que os dois últimos
casos não são possı́veis.
3
Se a dimensão de V fosse 3, V seria idêntico ao espaço . Nesse caso então R~v = ~v para todo
vetor ~v ∈ 3 , ou seja, R = , situação que excluı́mos.

Vamos supor então que a dimensão de V é 2. Nesse caso a dimensão de seu complemento ortogonal
V é 1. Agora, como V ⊥ é unidimensional e é invariante pela ação de R, teremos para u ∈ V ⊥ que
⊥
Ru = λu, para algum λ ∈ . Mas isso diz que

hu, ui = hRu, Rui = hλu, λui = λ2 hu, ui
e, portanto, λ = ±1. O caso λ = +1 já está excluı́do (pois aı́ u ∈ V ). Logo λ = −1 e Ru = −u.
Conseqüentemente, se escolhermos em 3 uma base ortonormal formada por três vetores v1 , v2 e u

com v1 , v2 ∈ V e u ∈ V ⊥ , a matriz R teria a forma

 
1 0 0
R = 0 1 0  .
0 0 −1
Mas com isso terı́amos det(R) = −1, uma contradição! Logo a dimensão de V dever ser igual a 1, e
isso completa a prova.
Seja R 6= um elemento de SO(3) e seja VR o sub-espaço unidimensional formado pelos vetores

deixados invariantes por R e cuja existência foi estabelecida na proposição que acabamos de provar.
Como também vimos, R também deixa invariante o sub-espaço bidimensional VR⊥ , que é ortogonal a
VR .
3
Isso significa que se escolhermos em uma base ortonormal v, u1 , u2 com v ∈ VR e ui ∈ VRT , R

terá a forma  
1 0 0
 0 
 

R :=  r , (10.26)

 0 
onde r é uma matriz real 2 × 2. Que propriedades tem r? Como veremos, r ∈ SO(2). De fato, pela
definição de R, teremos para qualquer vetor u, que hu, ui = hRu, Rui , mas se escolhermos u ∈ VRT ,

teremos Ru = ru em VRT e a relação acima significa hu, ui = hru, rui . Logo r ∈ O(2). Fora isso,

(10.26) mostra que 1 = det(R) = det(r), provando que r ∈ SO(2). Como sabemos a forma geral de
uma matriz de SO(2) é
cos ϕ − sen ϕ
r = ,
sen ϕ cos ϕ
com ϕ ∈ (−π, π]. Isso está também dizendo que R representa uma rotação de ϕ em torno do eixo
representado por VR .
Concluı́mos então o seguinte:
3
Proposição 10.4 Para cada R ∈ SO(3) existe uma base ortonormal de onde R é da forma
 
1 0 0
R =  0 cos ϕ − sen ϕ  (10.27)
0 sen ϕ cos ϕ
com ϕ ∈ (−π, π]. 2
Pela discussão precedente, se considerarmos os elementos de SO(3) que correspondem a rotações

por um ângulo ϕ no sentido horário em torno dos eixos canônicos 1, 2 e 3 do espaço tridimensional 3 ,
eixos esses que suporemos orientados positivamente, como usual, teremos que as respectivas matrizes
de rotação são dadas por
   
1 0 0 cos ϕ 0 sen ϕ
R1 (ϕ) =  0 cos ϕ − sen ϕ  , R2 (ϕ) =  0 1 0 ,
0 sen ϕ cos ϕ − sen ϕ 0 cos ϕ
 
cos ϕ − sen ϕ 0
R3 (ϕ) =  sen ϕ cos ϕ 0  , (10.28)
0 0 1
com ϕ ∈ (−π, π].

É um exercı́cio elementar (faça) verificar que cada matriz Ri (θ) representa um sub-grupo unipa-
ramétrico de SO(3): Ri (0) = e Ri (θ)Ri (θ 0 ) = Ri (θ + θ 0 ). Os geradores desses sub-grupos são dados
por
   
1 0 0 0 0 0
d d 
J1 := R1 (ϕ) = 0 cos ϕ − sen ϕ  =  0 0 −1  , (10.29)
dϕ dϕ
ϕ=0 0 sen ϕ cos ϕ ϕ=0
0 1 0
   
cos ϕ 0 sen ϕ 0 0 1
d d 
J2 := R2 (ϕ) = 0 1 0  =  0 0 0 , (10.30)
dϕ dϕ
ϕ=0 − sen ϕ 0 cos ϕ ϕ=0 −1 0 0
   
cos ϕ − sen ϕ 0 0 −1 0
d d 
J3 := R3 (ϕ) = sen ϕ cos ϕ 0  =  1 0 0 . (10.31)
dϕ dϕ
ϕ=0 0 0 1 ϕ=0
0 0 0
E. 10.34 Exercı́cio importantı́ssimo. Verifique que as matrizes J1 , J2 e J3 satisfazem as relações de

comutação
3
X
[Ja , Jb ] = εabc Jc , (10.32)
c=1
onde εabc , com a, b, c = 1, 2, 3, é o chamado sı́mbolo (ou tensor) de Levi-Civita 10 , definido da seguinte
forma: 
 1, se abc for uma permutação par de 123
εabc := −1, se abc for uma permutação ı́mpar de 123 . (10.33)

0, se quaisquer dois ı́ndices forem iguais
6
Esse exercı́cio nos diz que as matrizes J1 , J2 e J3 formam uma álgebra de Lie, denominada álgebra
de Lie so(3) (com letras minúsculas), para lembrar sua associação com o grupo SO(3).
~ = (α1 , α2 , α3 ) ∈ 3 e β~ = (β1 , β2 , β3 ) ∈
E. 10.35 Exercı́cio. Sejam α
3
. Usando (10.32), mostre
que h i
α ~ β~ · J~ = (~
~ · J, ~ · J,
α × β) ~ (10.34)
sendo que “×” denota o produto vetorial em

3
~ · J~ é uma abreviação sugestiva para α1 J1 + α2 J2 + α3 J3 .
eα
6
10
Tullio Levi-Civita (1873-1941).
E. 10.36 Exercı́cio. Verifique que as matrizes J1 , J2 e J3 satisfazem

 
0 0 0
J12 = −  0 1 0  =: E1 , (10.35)
0 0 1
 
1 0 0
J22 = −  0 0 0  =: E2 , (10.36)
0 0 1
 
1 0 0
J32 = −  0 1 0  =: E3 . (10.37)
0 0 0
6
E. 10.37 Exercı́cio. Verifique que com as matrizes E1 , E2 e E3 acima podemos escrever

Ra (ϕ) = + (1 − cos(ϕ))Ea + sen (ϕ)Ja (10.38)
para a = 1, 2 e 3. 6
Com o uso de (10.35) podemos facilmente provar o seguinte fato: para a = 1, 2 ou 3 tem-se
Ra (ϕ) = exp(ϕJa ).
Vamos mostrar isso. Por (10.35)-(10.37) é evidente que Ja3 = Ea Ja = −Ja (verifique!). Logo, para todo
k∈ ,
Ja2k = (−1)k+1 Ea , ∀k > 0 e Ja2k+1 = (−1)k Ja , ∀k ≥ 0. (10.39)
Assim, temos para a = 1, 2 ou 3,

X∞
ϕm m
exp(ϕJa ) = + J
m=1
m! a
X∞ ∞
ϕ2k 2k X ϕ2k+1 2k+1
= + J + J
k=1
(2k)! a k=0
(2k + 1)! a
∞
! ∞
!
(10.39) X (−1)k+1 ϕ2k X (−1)k ϕ2k+1
= + Ea + Ja
k=1
(2k)! k=0
(2k + 1)!
= + (1 − cos(ϕ))Ea + sen (ϕ)Ja
(10.38)
= Ra (ϕ),
que é o que querı́amos mostrar.
Vamos agora mostrar que todo elemento de SO(3) pode ser escrito como exponencial de uma
combinação linear das matrizes Ja .
3
Proposição 10.5 Seja R ∈ SO(3). Então existe um vetor η~ ∈ , ~η = (η1 , η2 , η3 ), com |~η | = 1 e um
ângulo θ ∈ (−π, π] tais que
R = exp θ~η · J~ ,
onde ~η · J~ := η1 J1 + η2 J2 + η3 J3 . Em particular, toda matriz de rotação R ∈ SO(3) pode ser expressa

na forma 2
R = + (1 − cos(θ)) ~η · J~ + sen (θ) ~η · J~ , (10.40)
ou seja, escrevendo-se explicitamente,
 
(1 − cos(θ))η12 + cos(θ) (1 − cos(θ))η1 η2 − sen (θ)η3 (1 − cos(θ))η1 η3 + sen (θ)η2
 
 
R =   (1 − cos(θ))η 1 η 2 + sen (θ)η 3 (1 − cos(θ))η 2
2 + cos(θ) (1 − cos(θ))η 3 η 2 − sen (θ)η 1
 .

 
(1 − cos(θ))η1 η3 − sen (θ)η2 (1 − cos(θ))η3 η2 + sen (θ)η1 (1 − cos(θ))η32 + cos(θ)
A expressão (10.40) é denominada fórmula de Rodrigues 11 .
Prova. Se R = podemos escolher θ = 0. Vamos supor R 6= . Pela Proposição 10.3, existe um

sub-espaço unidimensional VR que é deixado invariante por R. Vamos escolher ~η como sendo um vetor
de VR com comprimento igual a 1. É óbvio que R~η = ~η. Pela Proposição 10.4, R representa uma
rotação de um ângulo θ (no sentido horário) em torno de ~η .

O que faremos para demonstrar nossa proposição é mostrar que exp θ~η · J~ mantem ~η invariante
e roda os vetores perpendiculares a ~η de um ângulo
θ (no sentido horário) em torno do eixo definido
por ~η. Com isso, podemos identificar R = exp θ~η · J~ , como queremos.

~
Vamos abaixo calcular de modo mais explı́cito o que é a matriz exp θ~η · J mas, antes disso, vamos

demonstrar que exp θ~η · J~ ∈ SO(3).
Para isso começamos com a observação que
 
0 −η3 η2
η~ · J~ := η1 J1 + η2 J2 + η3 J3 :=  η3 0 −η1  (10.41)
−η2 η1 0
~ T = −~η · J~.
é uma matriz anti-simétrica, ou seja, (~η · J)
11
Benjamin Olinde Rodrigues (1794-1851). Rodrigues foi banqueiro e matemático amador, nascido na França, mas de
origem judaico-portuguesa. Seu nome é mais conhecido por uma identidade sobre polinômios de Legendre.
Assim,
h iT X∞ m
h iT m
θ
exp θ~η · J~ = ~η · J~
m=0
m!
X∞
(−θ)m ~m
= (~η · J)
m=0
m!

= exp −θ~η · J~
h i−1
= ~
exp θ~η · J .
~ é ortogonal, ou seja, sua transposta é igual a sua inversa. Resta-nos

η · J)
Isso provou que exp(θ~
mostrar que det exp θ~η · J~ = 1. Como exp θ~η · J~ é ortogonal, seu determinante é ±1. Assim,

como det exp θ~η · J~ depende continuamente de θ (para isso, vide, por exemplo a expressão (10.44)

abaixo), temos que det exp θ~η · J~ é constante para todo θ ∈ (−π, π]. Calculando em θ = 0,
teremos
det exp θ~η · J~ = det exp 0~η · J~ = det( ) = 1.

Logo, exp θ~η · J~ ∈ SO(3) para todo θ e todo η~.

Vamos agora expressar de modo mais explı́cito a matriz exp θ~η · J~ . Para isso será importante
mostrar que 3
~η · J~ = − ~η · J~ . (10.42)
A maneira pedestre de mostrar isso é por verificação explı́cita. De fato, por (10.41),
 2 
2 η1 − 1 η 1 η2 η1 η3
~η · J~ =  η1 η2 η22 − 1 η3 η2  . (10.43)
η1 η3 η3 η2 η32 − 1
~ obtem-se (10.42). Temos, então, o seguinte: para todo k ∈

Multiplicando-se novamente por ~η · J, ,
k > 0, vale
2k 2 2k+1
~
~η · J = (−1) k+1 ~
~η · J e ~
~η · J k ~
= (−1) ~η · J .
Logo,
X∞
θ m ~m
~
exp θ~η · J = + ~η · J
m=1
m!
θ 2k ~2k X θ 2k+1 ~2k+1

X∞ ∞
= + ~η · J + ~η · J
k=1
(2k)! k=0
(2k + 1)!
! !
∞
X (−1)k+1 θ 2k 2 ∞
X (−1)k θ 2k+1
= + ~η · J~ + ~η · J~
(2k)! (2k + 1)!
k=1 k=0
2
= + (1 − cos(θ)) ~η · J~ + sen (θ) ~η · J~ .
Resumindo, 2
exp θ~η · J~ = + (1 − cos(θ)) ~η · J~ + sen (θ) ~η · J~ . (10.44)
É um exercı́cio fácil verificar que

    
0 −η3 η2 η1 0
~η · J~ ~η =  η3 0 −η1  η2  = 0 .
−η2 η1 0 η3 0

~
Assim, concluı́-se, tanto pela expansão em série de Taylor de exp θ~η · J quando por (10.44) que

exp θ~η · J~ ~η = ~η,

ou seja, tal como R, a matriz exp θ~η · J~ mantem ~η invariante para qualquer θ.

1
Para finalizar, vamos então escolher uma base em 3 na qual η~ = 0 . Nessa base teremos ~η · J~ = J1

0
2
~
e ~η · J = E1 . Logo, por (10.44), teremos nessa base que exp θ~η · J~ se expressa como
 
1 0 0
exp θ~η · J~ = + (1 − cos(θ))E1 + sen (θ)J1 =  0 cos θ − sen θ 
0 sen θ cos θ

~
que é a forma (10.27) da matriz R. Isso permite-nos identificar R = exp θ~η · J , completando a prova.
Resumindo nossas conclusões,

n o
SO(3) = exp θ~η · J~ , θ ∈ [−π, π], ~η ∈
3
com |~η | = 1 .
A Proposição 10.5 está nos dizendo que todo elemento de SO(3) pode ser escrito como a exponencial
de um elemento de sua álgebra de Lie. Isso constata um teorema geral (vide, por exemplo, [114]) que
diz que se um grupo de Lie é compacto e sua álgebra de Lie é semi-simples, a aplicação exponencial da
sua álgebra de Lie é sobrejetora no grupo. De fato, SO(3) é compacto e so(3) é semi-simples.
Para finalizar esta exposição sobre o grupo SO(3), vamos descrever sua estrutura enquanto variedade
diferenciável. Como vimos, os elementos de SO(3) são parametrizados por pontos θ~η de 3 , sendo que
θ ∈ [−π, π] e |~η | = 1. O conjunto de todos os pontos desse tipo compreende a esfera de raio π
centrada na origem. Para cada ~η fixo, os dois pontos antı́podas da superfı́cie dessa esfera que estão na
direção definida por ~η são ±π~η . É claro, porém, que tais pontos correspondem à mesma rotação: uma
rotação de π em torno de um eixo é o mesmo que uma rotação
de−π em torno do mesmo eixo. De
fato, é trivial verificar por (10.44) que exp π~η · J = exp −π~η · J~ . Assim, SO(3) corresponde nessa
~
imagem ao espaço obtido tomando-se uma esfera e identificando-se todos os pares de pontos antı́podas.
Na linguagem da geometria diferencial, o conjunto que assim se obtem é denominado espaço projetivo
real (em quatro dimensões) e denotado por P 3 . O conjunto P n é a variedade diferenciável n-

dimensional formada pelo conjunto de todas as linhas retas de n+1 que passam pela origem. SO(3)

é homeomorfo, enquanto variedade, ao espaço projetivo P 3 . Como veremos na próxima seção, o

grupo SU(2), que é fortemente aparentado a SO(3), tem outra estrutura: SU(2) é homeomorfo a S 3 , a
superfı́cie da esfera de raio 1 em 4 . Para uma introdução à geometria diferencial, vide [94].

E. 10.38 Exercı́cio. Leia [94] e resolva todos os seus exercı́cios. 6
10.3.3 O Grupo SU(2)
• As Matrizes de Pauli
De grande importância no estudo do grupo SU(2) são as chamadas matrizes de Pauli 12 , definidas
como
0 1 0 −i 1 0
σ1 := , σ2 := e σ3 := . (10.45)
1 0 i 0 0 −1
As matrizes de Pauli satisfazem as seguintes relações algébricas: para todos a, b = 1, 2, 3 valem
3
X
[σa , σb ] := σa σb − σb σa = 2i εabc σc , (10.46)
c=1
{σa , σb } := σa σb + σb σa = 2δab , (10.47)

3
X
σa σb = δab + i εabc σc . (10.48)
c=1
E. 10.39 Exercı́cio importantı́ssimo (todo estudante deve fazê-lo pelo menos uma vez na vida). Ve-
rifique as relações algébricas acima. Note que (10.48) segue diretamente de (10.47) e (10.46). 6
12
Wolfgang Pauli (1900-1958).
Note também que as matrizes de Pauli são auto-adjuntas: σi∗ = σi . Note ainda que as quatro
matrizes , σ1 , σ2 , σ3 formam uma base em Mat ( , 2): toda matriz complexa 2 × 2 pode ser escrita
como uma combinação linear das mesmas.
E. 10.40 Exercı́cio. Mostre que as matrizes , σ1 , σ2 , σ3 são ortonormais em relação ao seguinte

produto escalar definido em Mat ( , 2): hA, Bi := 21 Tr (A∗ B). 6
As matrizes de Pauli desempenham um papel importante na Mecânica Quântica, estando associadas

ao operador de spin para partı́culas de spin 1/2, tais como o elétron, o próton, o neutron, os quarks e
outras.
• A Forma Geral das Matrizes de SU(2)
Conforme já definimos, o grupo SU(2) é o grupo das matrizes unitárias complexas 2 × 2 com
determinante igual a 1: SU(2) = {U ∈ Mat ( , 2)| U ∗ = U −1 e det(U ) = 1}. Vamos começar
estudando a forma geral de tais matrizes, procurando uma parametrização conveniente para as mesmas
que permitirá estudar as propriedades de SU(2) como um grupo de Lie.
Como toda matriz 2 × 2 complexa, uma matriz genérica U ∈ SU(2) é da forma U = ( ac db ), onde
a, b, c, d ∈ . Vamos estudar a condição U −1 = U ∗ . Podemos calcular U −1 lembrando (vide (3.41),
página 183) a regra bem conhecida: U −1 é dada pela transposta da matriz
dos co-fatores de U dividida
pelo determinante de U , que é 1, neste caso. Ou seja, U = −c a . Assim, U −1 = U ∗ significa nesse
−1 d −b
caso
d −b a c
= ,
−c a b d
a b
2 2
ou seja, c = −b e d = a. Logo, U = −b a . A condição det(U ) = 1 implica, portanto, |a| + |b| = 1.
Resumindo:
a b 2 2
SU(2) = , onde a, b ∈ com |a| + |b| = 1 .
−b a
Escrevendo os números complexos a e b como soma de suas partes real e imaginária: a = a 1 + ia2
e b = b1 + ib2 , com a1 , a2 , b1 , b2 ∈ , poderemos escrever U como uma combinação linear de matrizes

de Pauli (e da unidade):

a1 + ia2 b1 + ib2
U = = a1 + i(b2 σ1 + b1 σ2 + a2 σ3 ). (10.49)
−b1 + ib2 a1 − ia2
Essa expressão será usada adiante.

Vamos agora nos voltar para a condição |a|2 + |b|2 = 1. A mesma significa a21 + a22 + b21 + b22 = 1.
Temos então,

a1 + ia2 b1 + ib2 4 2 2 2 2
SU(2) = , onde (a1 , a2 , b1 , b2 ) ∈ com a1 + a2 + b1 + b2 = 1 . (10.50)
−b1 + ib2 a1 − ia2

Lembremos que para todo inteiro n ≥ 1, o conjunto de pontos
S n := {(x1 , . . . , xn+1 ) ∈
n+1
com x21 + · · · + x2n+1 = 1} ⊂
n+1
designa a superfı́cie da esfera unitária de n+1 . Assim, vemos que SU(2) é homeomorfo a S 3 , a

superfı́cie da esfera unitária do espaço quadridimensional 4 . Isso ilustra o fato que SU(2) é uma

variedade diferenciável. Como o produto e a inversa são contı́nuos em SU(2), o mesmo é um grupo de
Lie.
Vamos tentar agora parametrizar de outra forma o vetor (a1 , a2 , b1 , b2 ) ∈ S 3 que aparece do lado
direito de (10.50). Claramente, a condição a21 + a22 + b21 + b22 = 1 diz que a1 , a2 , b1 e b2 são números
reais contidos no intervalo [−1, 1]. Podemos assim definir um ângulo θ ∈ [−π, π] de forma que
a1 = cos θ.
Fora isso, para cos(θ) 6= ±1, podemos definir
b2 b1 a2
η1 := , η2 := , η3 := .
sen θ sen θ sen θ
A condição a21 + a22 + b21 + b22 = 1 implica então (verifique!) que η12 + η22 + η32 = 1. Assim, o vetor
η~ := (η1 , η2 , η3 ) de 3 é um vetor de comprimento 1. Com esses novos parâmetros θ e ~η podemos

reescrever (10.49) como

U = cos(θ) + i sen (θ)~η · ~σ ,
onde
η3 η1 − iη2
η~ · ~σ := η1 σ1 + η2 σ2 + η3 σ3 = .
η1 + iη2 −η3
Assim,
3
SU(2) = cos(θ) + i sen (θ)~η · ~σ , onde θ ∈ [−π, π] e ~η ∈ com |~η | = 1 .
A importância de se expressar U ∈ SU(2) dessa forma, em termos de θ e η~, provem da seguinte
identidade:
cos(θ) + i sen (θ)~η · ~σ = exp (iθ~η · ~σ ) .
Vamos provar isso expandindo o lado direito e verificando que é igual ao lado esquerdo. De fato, pela
definição da exponencial de matrizes,
X∞
(iθ)m
exp (iθ~η · ~σ ) = (~η · ~σ )m
m=0
m!
∞
X X∞
(iθ)2k 2k (iθ)2k+1
= (~η · ~σ ) + (~η · ~σ )2k+1 ,
k=0
(2k)! k=0
(2k + 1)!
onde, na última linha, apenas fizemos separar a soma em m da primeira linha nos casos m par e m
ı́mpar. É um exercı́cio muito fácil (faça!) verificar que
2
2 η3 η1 − iη2
(~η · ~σ ) = = .
η1 + iη2 −η3
Portanto, (~η · ~σ )2k = e (~η · ~σ )2k+1 = ~η · ~σ . Logo,
∞
! ∞
!
X (iθ)2k X (iθ)2k+1
exp (iθ~η · ~σ ) = + ~η · ~σ
k=0
(2k)! k=0
(2k + 1)!
= cos(θ) + i sen (θ)~η · ~σ ,

que é o que querı́amos mostrar.

Resumindo nossas conclusões,
3

SU(2) = exp (iθ~η · ~σ ) onde θ ∈ [−π, π] e ~η ∈ com |~η | = 1 . (10.51)
Se tomarmos ~η1 = (1, 0, 0), ~η2 = (0, 1, 0) ou ~η3 = (0, 0, 1), obtemos três sub-grupos unipa-
ramétricos distintos de SU(2):

cos θ i sen θ
U1 (θ) := exp(iθσ1 ) = ,
i sen θ cos θ

cos θ sen θ
U2 (θ) := exp(iθσ2 ) = ,
− sen θ cos θ

eiθ 0
U3 (θ) := exp(iθσ3 ) = ,
0 e−iθ
respectivamente. Isso nos permite identificar as matrizes de Pauli σ1 , σ2 e σ3 como os geradores desses
subgrupos uniparamétricos. As relações (10.46) são as relações satisfeitas por essas matrizes, como
elementos de uma álgebra de Lie, que é denominada álgebra de Lie su(2).
Com isso, (10.51) está nos dizendo que todo elemento de SU(2) pode ser escrito como exponencial
de um elemento de sua álgebra de Lie. Isso constata um teorema geral (vide, por exemplo, [114]) que
diz que se um grupo de Lie é compacto e sua álgebra de Lie é semi-simples, a aplicação exponencial
da sua álgebra de Lie é sobrejetora no grupo. De fato, tal como SO(3), SU(2) é compacto e su(2) é
semi-simples.

3

U(2) = exp (iα + iθ~η · ~σ ) onde α, θ ∈ [−π, π] e ~η ∈ com |~η| = 1 .
10.3.4 A Relação entre SO(3) e SU(2)

O leitor que acompanhou com atenção as exposições precedentes sobre os grupos SO(3) e SU(2) certa-
mente apercebeu-se da existência de uma série de semelhanças entre ambos. Vamos agora precisá-las.
Em primeiro lugar, note-se que os geradores de SO(3) são matrizes 3 × 3 satisfazendo as relações
algébricas [Ja , Jb ] = εabc Jc , enquanto que geradores de SU(2) são matrizes 2×2 satisfazendo as relações
algébricas [σa , σb ] = 2iεabc σc . Se porém definirmos ja := −iσa /2, obtemos [ja , jb ] = εabc jc .
Seja
so(3) := {L ∈ Mat ( , 3) : L = α1 J1 + α2 J2 + α3 J3 , αk ∈
, k = 1, 2, 3}
a álgebra de Lie (real) associada aos geradores de SO(3) e seja
su(2) := {l ∈ Mat ( , 2) : l = α1 j1 + α2 j2 + α3 j3 , αk ∈ , k = 1, 2, 3}
a álgebra de Lie (real) associada aos geradores de SU(2).

É muito fácil constatar que a aplicação linear ϕ : su(2) → so(3) dada por
ϕ(α1 j1 + α2 j2 + α3 j3 ) = α1 J1 + α2 J2 + α3 J3
é um isomorfismo de álgebras de Lie, ou seja, é bijetora e satisfaz ϕ([la , lb ]) = [ϕ(la ), ϕ(lb )] para todos
la , lb ∈ su(2).
E. 10.42 Exercı́cio importante. Prove as afirmativas acima. 6
E. 10.43 Exercı́cio. Mostre que so(3) coincide com álgebra de Lie de todas as matrizes reais 3 × 3
anti-simétricas. (Vide exercı́cio à página 57). 6
E. 10.44 Exercı́cio. Mostre que su(2) coincide com álgebra de Lie de todas as matrizes complexas 2 × 2
anti-autoadjuntas. (Vide exercı́cio à página 57). 6
Assim, as álgebras de Lie so(3) e su(2) são isomorfas. Discutiremos agora que implicações isso traz
sobre as relação entre os grupos SO(3) e SU(2).
O isomorfismo ϕ definido acima sugere considerar-se a seguinte aplicação φ : SU (2) → SO(3) dada
por
φ (exp(l)) := exp (ϕ(l)) , ∀l ∈ su(2),
ou seja,
φ exp θ~η · ~j := exp θ~η · J~ ,
3
para todos θ ∈ (−2π, 2π], e ~η ∈ com |~η | = 1.
Que propriedades essa φ possui? Em primeiro lugar, é fácil ver que φ é sobrejetora (por que?),
mas não é injetora, pois para U1 := exp −i 20 ~η · ~σ = e U2 := exp −i 2π 2
~η · ~σ = − tem-se φ(U1 ) =
φ(U2 ) = . Verifique! A questão é: como se comporta φ em relação ao produto dos elementos do
grupo? A resposta encontra-se na afirmativa da proposição seguinte.
Proposição 10.6 A aplicação φ : SU (2) → SO(3) definida acima é um homomorfismo do grupo
SU(2) no grupo SO(3), ou seja, φ( ) = e para todos Ua , Ub ∈ SU(2) vale φ(Ua )φ(Ub ) = φ(Ua Ub ). 2
Em verdade, como φ é sobrejetora, a proposição estabelece que φ é um epimorfismo de SU(2) em

SO(3). Vide definição à página 65.
Prova. Que φ( ) = é trivial. Provemos que φ(Ua )φ(Ub ) = φ(Ua Ub ) para todos Ua , Ub ∈ SU(2). Sejam
Ua e Ub da forma ! !
3
X 3
X
Ua = exp αk j k , Ub = exp βk j k ,
k=1 k=1
com αk , βk ∈ , k = 1, 2, 3, e limitemos provisoriamente os valores

P3dos αk ’s e βk ’3P
a uma vizinhança
O suficientemente pequena de zero
de modo
que as matrizes a = k=1 αk jk e b = 3k=1 βk jk tenham
√
ambas normas menores que 12 ln 2 − 2
2
. Essa restrição provisória às normas de a e b (vide comentário
à página 239) é útil pois coloca-nos no domı́nio de validade do fórmula de Baker-Campbell-Hausdorff

(eq. (4.46) à página 237. Vide também (4.47)). Isso justifica então escrevermos
Ua Ub = ea eb = exp (a ∗ b) ,
onde a ∗ b está definida em (4.46). Como a série que define a ∗ b é convergente e envolve comutadores
múltiplos de elementos da álgebra de Lie su(2), é evidente que a ∗ b é também um elemento de su(2) e,
mais que isso, tem-se
3
X 3
X
a∗b = γ k jk = γk (α1 , α2 , α3 , β1 , β2 , β3 )jk , (10.52)
k=1 k=1
onde cada γk é uma função analı́tica das variáveis α1 , α2 , α3 , β1 , β2 , β3 em um aberto suficientemente

pequeno próximo zero. A analiticidade se deve ao fato de que a série que define a ∗ b é absolutamente
convergente e envolve, em cada termo, polinômios nas variáveis α e β.
E. 10.45 Exercı́cio. Lance um olhar meditativo sobre a fórmula de Baker-Campbell-Hausdorff (4.46)

e convença-se da veracidade das afirmações feitas no último parágrafo sobre a analiticidade das funções
γk . De modo mais iluminante, mostre usando (4.47) e as relações de comutação (10.34), que os primeiros
termos de ~γ = (γ1 , γ2 , γ3 ) são
1 1
~γ = α ~ + β~ + ~ × β~ +
α ~× α
α ~ × β~ + β~ × β~ × α ~ +··· ,
2 12
~ = (α1 , α2 , α3 ) e β~ = (β1 , β2 , β3 ).
onde α 6
Retomando, sejam agora

3
! 3
!
X X
φ(Ua ) = exp α k Jk , φ(Ub ) = exp β k Jk ,
k=1 k=1
P3 P3
e A = ϕ(a), B = ϕ(b), ou seja, A = k=1 α k Jk e B = k=1 βk Jk . Novamente, tem-se que
φ(Ua )φ(Ub ) = eA eB = exp (A ∗ B) ,
mas, como as relações de comutação entre os jk ’s são idênticas às dos Jk ’s, segue que
3
X 3
X
A∗B = γ k Jk , = γk (α1 , α2 , α3 , β1 , β2 , β3 )Jk ,
k=1 k=1
com as mesmas funções γk que em (10.52) (Justifique isso!). Ou seja, vale que
A ∗ B = ϕ(a ∗ b).
Isso concluiu que, pelo menos quando α1 , α2 , α3 , β1 , β2 , β3 são suficientemente próximos de zero,
vale
φ(Ua )φ(Ub ) = exp(ϕ(a ∗ b)) = φ(exp(a ∗ b)) = φ(Ua Ub ).
Tudo que nos falta agora é um argumento que justifique que essa igualdade vale não apenas para
α1 , α2 , α3 , β1 , β2 , β3 suficientemente próximos de zero, mas para quaisquer valores desses parâmetros.
Esse argumento é a analiticidade.
P3
Cada elemento de matriz de exp k=1 αk Jk é uma função analı́tica (inteira) de α1 , α2 e α3 (pois a
série que define a exponencial
P3 converge absolutamente em toda parte). O mesmoPvale para os elementos
P3
3
de matriz de exp β
k=1 k kJ . Assim, cada elemento de matriz do produto exp k=1 αk Jk exp k=1 βk Jk
é uma Pfunção analı́tica
(inteira) de α1 , α2 , α3 , β1 , β2 , β3 . Igualmente, cada elemento de matriz de
3
exp γ
k=1 k kJ é uma função analı́tica de α1 , α2 , α3 , β1 , β2 , β3 quando esses estão próximos a zero
(pois a composição de funçõesPanalı́ticasé também P3 uma função
analı́tica).
P3 Portanto,
provamos acima
3
que as funções analı́ticas exp k=1 αk Jk exp k=1 βk Jk e exp k=1 γk Jk coincidem em um aberto
suficientemente pequeno. Por um teorema geral da teoria de funções de variáveis complexas, isso im-
plica que essas funções são iguais em toda parte. Assim, vale para todos α1 , α2 , α3 , β1 , β2 , β3 reais ou
complexos que φ(Ua )φ(Ub ) = φ(Ua Ub ), completando a prova.
Note que a aplicação φ não pode ser um isomorfismo de grupos pois, como vimos, não é bijetora.
E. 10.46 Exercı́cio. Mostre, porém, que SO(3) e SU(2)/{ , − } são isomorfos. 6
Todas as considerações de acima sobre a relação entre os grupos SO(3) e SU(2) são de grande
importância em fı́sica, particularmente no que concerne à representação do grupo de rotações SO(3)
para partı́culas de spin 1/2. Ainda mais profunda é a relação entre o grupo SL( , 2) e o grupo de
Lorentz, relação esta que discutiremos na Seção 10.8, página 643.
10.3.5 O Grupo SL( , 2)

Vamos aqui tratar de um grupo fortemente aparentado ao grupo SU(2) e ao grupo de Lorentz, cujo
estudo é importante na teoria dos spinores, particularmente no estudo de representações do grupo de
Lorentz para partı́culas de spin 1/2. Trata-se do grupo SL( , 2). Mais sobre o grupo SL( , 2), em
especial, sua relação com o grupo de Lorentz, será visto na Seção 10.8, página 643.
O grupo SL( , 2) é definido como o grupo formado pelas matrizes complexas 2 × 2 de determinante
igual a 1. Como as matrizes , σ1 , σ2 , σ3 formam uma base em Mat ( , 2), podemos escrever toda
matriz A ∈ SL( , 2) na forma

b4 + b3 b1 − ib2
A = b 4 + b 1 σ1 + b 2 σ2 + b 3 σ3 , = ,
b1 + ib2 b4 − b3
com b4 , b1 , b2 , b3 ∈ . A condição det(A) = 1 implica b24 − b21 − b22 − b23 = 1.

Assim,

b4 + b3 b1 − ib2
SL( , 2) = com b4 , b1 , b2 , b3 ∈ e b24 − b21 − b22 − b23 =1 . (10.53)
b1 + ib2 b4 − b3
Como b4 é um número complexo arbitrário, podemos escrever
b4 = cosh z,
para algum z ∈ . Fora isso, para z 6= 0, podemos definir três números complexos η1 , η2 , η3 por
b1 b2 b3
η1 := , η2 := , η3 := .
senh z senh z senh z
A condição b24 − b21 − b22 − b23 = 1 implica (verifique!) que os números complexos η1 , η2 , η3 satisfazem
η12 + η22 + η32 = 1.
Com isso vemos que
3

SL( , 2) = cosh(z) + senh (z) (~η · ~σ ), onde z ∈ e ~η ∈ com η12 + η22 + η32 = 1 . (10.54)
Mesmo para vetores η~ complexos tem-se, como vimos anteriormente quando tratamos de SU(2),
que (~η · ~σ )2 = . Portanto,
X∞
zm
exp (z ~η · ~σ ) = (~η · ~σ )m
m=0
m!
X∞ X∞
z 2k 2k z 2k+1
= (~η · ~σ ) + (~η · ~σ )2k+1
k=0
(2k)! k=0
(2k + 1)!
∞
! ∞
!
X z 2k X z 2k+1
= + (~η · ~σ )
k=0
(2k)! k=0
(2k + 1)!
= cosh(z) + senh (z) (~η · ~σ ).
Assim, todo elemento A ∈ SL( , 2) é da forma exp (z ~η · ~σ ). Em resumo,

SL( , 2) = exp (z ~η · ~σ ) , onde z ∈ e ~η ∈ 3 com η12 + η22 + η32 = 1 . (10.55)
Como já vimos, o sub-grupo SU(2) de SL( , 2) corresponde a z = iθ, θ ∈ , e ~η ∈ 3 . Como
vemos, SU(2) de SL( , 2) têm ambas álgebras de Lie geradas pelas matrizes de Pauli, mas em SU(2)
essa álgebra é real enquanto que em SL( , 2) é complexa.
Mais sobre o grupo SL( , 2), em especial, sua relação com o grupo de Lorentz, será visto na Seção
10.8, página 643.
10.4 Generalidades sobre os grupos SU(n) e SO(n)

Nesta seção discutiremos algumas qualidades gerais dos grupos SU(n) e SO(n). Para esta seção
recomenda-de a leitura prévia de partes do Capı́tulo 11. Começaremos com os grupos SU(n) pois
seu tratamento é ligeiramente mais simples que o dos grupos SO(n). O caso fisicamente importante do
grupo SU(3) será discutido com um pouco de detalhe.
10.4.1 Os Grupos SU(n)

Após termos adquirido algum conhecimento sobre o grupo SU(2), vamos estudar alguns aspectos gerais
dos grupos SU(n), n ≥ 2. Vimos acima de modo explı́cito que os elementos de SU(2) podem ser escritos
como exponenciais de elementos de sua álgebra de Lie. Veremos que esse fato é também válido para
SU(n).
Lembremos a definição: para n ≥ 2,
SU (n) := {U ∈ Mat ( , n)| U ∗ = U −1 e det(U ) = 1}.
Comecemos com a seguinte observação.

Proposição 10.7 SU(n) é um subgrupo compacto de GL( , n). 2
Prova. Provemos primeiramente que SU (n) é um subconjunto (topologicamente) fechado de GL( , n).
Seja Un , n ∈ , uma seqüência de matrizes de SU(n) que converge em norma a uma matriz

U ∈ Mat ( , n), ou seja, limn→∞ kUn − U k = 0, onde k · k é a norma operatorial de matrizes.

Desejamos provar que U ∈ SU(n).

Em primeiro lugar, notemos que podemos escrever
U ∗ U = (U − Un + Un )∗ (U − Un + Un ) = (U − Un )∗ (U − Un ) + Un∗ (U − Un ) + (U − Un )∗ Un + Un∗ Un .
Como os Un são unitários, Un∗ Un = e conclui-se que U ∗ U − = (U − Un )∗ (U − Un ) + Un∗ (U − Un ) +

(U − Un )∗ Un . Assim
kU ∗ U − k
= k(U − Un )∗ (U − Un ) + Un∗ (U − Un ) + (U − Un )∗ Un k
≤ k(U − Un )∗ (U − Un )k + kUn∗ (U − Un )k + k(U − Un )∗ Un k

≤ k(U − Un )∗ k kU − Un k + kUn∗ k kU − Un k + k(U − Un )∗ k kUn k

≤ kU − Un k2 + 2kU − Un k

. (10.56)
(Ao estudante deve ser claro que acima usamos os fatos que, para quaisquer matrizes A, B, complexas
n × n, valem kA + Bk ≤ kAk + kBk , kABk ≤ kAk kBk , kAk = kA∗ k e que kAk = 1 se A é

unitária. Se não for claro, justifique esses fatos como exercı́cio ou leia o Capı́tulo 23).
Agora, como o extremo direito da seqüência de desigualdades (10.56) pode ser feito arbitrariamente
pequeno para n → ∞, concluı́mos que o extremo esquerdo é nulo, ou seja, U ∗ U = . Analogamente,
prova-se que U U ∗ = . Isso estabelece que U é unitário.
Para provar que o determinante de U vale 1, notemos que o fato de Un convergir a U na norma
operatorial implica que os elementos de matriz de seqüência de matrizes Un convergem aos elementos de
matriz de U (por que?). Como o determinante de uma matriz depende continuamente de seus elementos
de matriz (por que?), segue que det(U ) = limn→∞ det(Un ) = 1. Isso estabelece que U ∈ SU(n) e isso
prova que SU(n) é um subconjunto topologicamente fechado de GL( , n), como querı́amos.
Para provarmos que SU(n) é compacto, resta apenas provar que SU(n) é um conjunto limitado
(em um espaço métrico um conjunto é compacto se e somente se for fechado e limitado). A condição
U ∗ U = implica Tr (U ∗ U ) = n. Assim, vale
n
X
|Uab |2 = n,
a, b=1
para todo U ∈ SU(n). Isso mostra que SU(n) é limitado e, portanto, compacto.
Seja agora {U (t) ∈ SU (n), t ∈ }, um subgrupo uniparamétrico de SU(n) (ou seja, U (0) = e

U (t)U (t0 ) = U (t+t0 )). Pela Proposição 11.5, página 680, U (t) = exp(tA) para alguma matriz A. Agora,
sejam u, v dois vetores arbitrários de n . Temos que, para todo t vale hu, vi = hU (t)u, U (t)vi .
Diferenciando essa igualdade em relação a t, escrevendo-se U (t) = exp(tA) e calculando a derivada em

t = 0, tem-se 0 = hAu, vi + hu, Avi , ou seja, hu, (A + A∗ )vi = 0. Como isso vale para todo u, v

em n , segue que A∗ = −A. Fora isso13 , como 1 = det(exp(tA)) = exp(tTr (A)), segue que A tem
traço nulo.
Assim, vimos que os geradores dos subgrupos uniparamétricos de SU(n) são anti-autoadjuntos e
têm traço nulo. Podemos nos perguntar se a recı́proca é válida, ou seja, se todas as matrizes anti-
autoadjuntas e de traço nulo são geradoras de subgrupos uniparamétricos de SU(n). Para responder
isso, precisamos da seguinte proposição:
Proposição 10.8 Se A ∈ Mat ( , n) é anti-autoadjunta (ou seja, A∗ = −A) satisfazendo também
Tr (A) = 0, então a matriz exp(A) é um elemento de SU(n). 2
Prova. Precisamos provar que exp(A) é unitária e que seu determinante é igual a 1. Pela definição da
exponencial de matrizes em termos de uma série de potências (a série de Taylor da função exponencial),
sabe-se que exp(M )∗ = exp(M ∗ ) para qualquer matriz n×n complexa M . Assim, exp(A)∗ = exp(A∗ ) =
exp(−A) = exp(A)−1 , provando que exp(A) é unitária.
Assim, para nossa matriz A, tem-se det(exp(A)) = exp(Tr(A)) = exp(0) = 1, o que prova que
exp(A) ∈ SU(n), como querı́amos.
Essa proposição diz-nos que, se A ∈ Mat ( , n) é anti-autoadjunta e tem traço nulo, então U (t) =
exp(tA), t ∈ é um subgrupo uniparamétrico de SU(n). Em resumo, concluı́mos que o conjunto de

todas as matrizes n × n complexas anti-autoadjuntas e de traço nulo é idêntico ao conjunto de todos

os geradores de subgrupos uniparamétricos de SU(n).
Como SU(n) é um subgrupo fechado de GL( , n), segue do Teorema 11.1 que o conjunto de seus
geradores é uma álgebra de Lie. Essa álgebra de Lie é dita ser a álgebra de Lie de SU(n), e é denotada
por su(n) (assim, com letras minúsculas). Como vimos, su(n) coincide com o conjunto de todas as
matrizes n × n complexas anti-autoadjuntas de traço nulo.
De passagem, notemos que o fato de que o conjunto de todas as matrizes n × n complexas anti-
autoadjuntas de traço nulo forma uma álgebra de Lie real já fora visto independentemente nos exercı́cios
da página 57.
13
Aqui usamos a Proposição 4.7, página 222.
Provemos agora uma outra proposição, a qual essencialmente diz-nos que todo elemento de SU(n)
pode ser obtido como exponencial de um elemento de su(n). No caso de SU(2) isso foi provado expli-
citamente, quando mostramos que todo elemento de SU(2) é da forma exp(iθ~η · ~σ ).
Proposição 10.9 Todo elemento U de SU(n) pode ser escrito na forma U = e A , onde A ∈ Mat ( , n)
é anti-autoadjunta (ou seja, A∗ = −A) e de traço nulo (ou seja, Tr (A) = 0). 2
Prova. Seja U ∈ SU(n). Como toda matriz unitária U é normal, pois vale U U ∗ = U ∗ U (= ). Uma das
conseqüências do Teorema Espectral para matrizes diz-nos que toda matriz normal pode ser diagona-
lizada por uma matriz unitária (vide Teorema 3.14 e as páginas que o antecedem).
Assim, existe V , matriz unitária, tal que U = V DV ∗ , onde D = diag (u1 , . . . , un ), e onde os uk são
números complexos (os autovalores de U ). Da condição U U ∗ = segue imediatamente que DD ∗ = ,
o que implica que cada uk é um número complexo de módulo 1: |uk |2 = 1. Assim, podemos escrever
uk = eiλk , onde λk ∈ , sendo que cada λk é determinado a menos de um termo 2πm, com m inteiro.

Note-se
Pn que, como UPtem determinante 1, segue que 1 = det(U ) = det(V DV ∗ ) = det(D) =
exp i k=1 λk . Assim, nk=1 λk = 2πm0 , com m0 inteiro. Podemos redefinir, digamos, λn , subtraindo-
lhe 2πm0 . Com essa nova escolha teremos
n
X
λk = 0. (10.57)
k=1
Definamos agora a matriz L = diag (iλ1 , . . . , iλn ). Note-se que, como os λk são reais, vale L∗ = −L.
É claro que D = eL e também que U = exp(A), onde A = V LV ∗ . É agora elementar Pn constatar que
∗ ∗ k
A = −A. Fora isso, por (10.57) segue que Tr (A) = Tr (V LV ) = Tr (L) = i k=1 λ = 0. Isso
completa a prova.
A Proposição 10.9 diz-nos que a exponenciação é uma aplicação sobrejetora de su(n) em SU(n).
Isso é um caso particular de um teorema mais geral que diz que isso é válido para qualquer grupo de
Lie compacto, conexo e cuja álgebra de Lie seja de dimensão finita.
E. 10.47 Exercı́cio. Pelo que vimos su(2) coincide com a álgebra de Lie real de todas as matrizes
complexas 2 × 2, anti-autoadjuntas e de traço zero. Mostre que as matrizes iσ 1 , iσ2 e iσ3 formam uma base
nesse espaço de matrizes. Conclua que todo elemento de SU(2) é da forma exp(iα 1 σ1 + iα2 σ2 + iα3 σ3 )
com αk ∈ . 6
A Proposição 10.9 tem o seguinte corolário simples:

Corolário 10.1 O grupo SU(n) é conexo por caminhos e, portanto, é um espaço conexo. 2
Prova. Pelo que vimos, se U ∈ SU(n), U é da forma U = eA , para alguma A ∈ su(n). Logo U
pertence ao subgrupo uniparamétrico de SU(n) gerado por A: {exp(tA), t ∈ }. Esse subgrupo
conecta continuamente U à identidade (que corresponde a t = 0).

10.4.2 O Grupo SU(3)

O grupo SU(3) é de grande importância na Fı́sica das Partı́culas Elementares, estando associado à
uma simetria aproximada, dita de “sabor”, e a uma simetria exata, dita de “cor”. Não nos deteremos
nesses aspectos aqui, e remetemos o estudante aos bons livros sobre Fı́sica das Partı́culas Elementares
e Teoria Quântica de Campos (por exemplo, [128]-[129]).
O grupo SU(3) é um grupo a 32 −1 = 8 parâmetros. Pelo que vimos, su(3) coincide com o espaço das
matrizes complexas 3 × 3, anti-autoadjuntas e de traço zero. Para o estudo do grupo SU(3) no contexto
da fı́sica das partı́culas elementares é conveniente introduzir-se uma base explı́cita nesse espaço. Como
toda matriz anti-autoadjunta pode ser escrita como iλ, onde λ é autoadjunta, basta-nos procurar uma
base no espaço das matrizes autoadjuntas de traço zero.
Comummente adota-se as chamadas Matrizes de Gell-Mann14 λi , i = 1, . . . , 8, que são as seguintes
matrizes:
     
0 1 0 0 −i 0 1 0 0
λ1 =  1 0 0  , λ2 =  i 0 0 , λ3 = 0 −1 0 ,
0 0 0 0 0 0 0 0 0
     
0 0 1 0 0 −i 0 0 0
λ4 =  0 0 0  , λ5 =  0 0 0  , λ6 =  0 0 1  ,
1 0 0 i 0 0 0 1 0
   
0 0 0 1 0 0
λ7 = 0 0 −i , λ8 = √1 0 1
3
0 .
0 i 0 0 0 −2
Note que todas as matrizes λi são autoadjuntas e de traço zero, formando uma base no espaço
das matrizes complexas autoadjuntas e de traço nulo. As mesmas são normalizadas de modo que
Tr (λa λb ) = 2δab .
E. 10.48 Exercı́cio. Prove as afirmativas do último parágrafo. 6
A álgebra de Lie de su(3) pode ser expressa para as matrizes de Gell-Mann da seguinte forma:
8
X
[λa , λb ] = 2i fabc λc ,
c=1
onde fabc , as camadas constantes de estrutura de su(3), são totalmente anti-simétricas, ou seja
fabc = fbca = fcab = −fbac = −facb = −fcba ,

14
Murray Gell-Mann (1929-).
sendo
f123 = 1,
1
f147 = −f156 = f246 = f257 = f345 = −f367 = ,
2
√
3
f458 = f678 = ,
2
e as demais constantes independentes são nulas.
E. 10.49 Exercı́cio. Verifique isso. Sugestão: tire uma tarde livre. 6
Pelo que aprendemos da nossa discussão geral sobre grupos SU(n), todo elemento U de SU(3) pode
ser escrito na forma !
X8
U = exp i α k λk ,
k=1
onde os αk ’s são números reais.
10.4.3 Os Grupos SO(n)

Primeiramente lembremos a definição: para n ≥ 2,
SO(n) := {R ∈ Mat ( , n)| RT = R−1 e det(R) = 1}.

Sob vários aspectos os grupos SO(n) podem ser tratados de modo semelhante aos grupos SU(n),
exceto por um ponto importante: por agirem em um espaço vetorial real ( n ), não podemos aplicar o

teorema espectral às matrizes ortogonais, tal como fizemos na prova da Proposição 10.9. Por isso, um
desvio mais longo deverá ser seguido, ainda que as conclusões sejam as mesmas, em essência.
Analogamente ao que fizemos no caso SU(n), comecemos com a seguinte observação.
Proposição 10.10 SO(n) é um subgrupo compacto de GL( , n). 2
Prova. A prova é uma mera imitação da demonstração correspondente no caso SU(n) e poupamo-nos
de reproduzı́-la.
Seja agora {R(t) ∈ SO(n), t ∈ }, um subgrupo uniparamétrico de SO(n) (ou seja, R(0) = e

R(t)R(t0 ) = R(t+t0 )). Pela Proposição 11.5, página 680, R(t) = exp(tA) para alguma matriz A. Agora,
sejam u, v dois vetores arbitrários de n . Temos que, para todo t vale hu, vi = hR(t)u, R(t)vi .

Diferenciando essa igualdade em relação a t, escrevendo-se R(t) = exp(tA) e calculando a derivada em

t = 0, tem-se 0 = hAu, vi + hu, Avi , ou seja, hu, (A + AT )vi = 0. Como isso vale para todo u, v

em n , segue que AT = −A. Assim, A é uma matriz anti-simétrica, o que implica que seus elementos

diagonais são nulos. Assim, é automático que Tr (A) = 0.

Assim, vimos que os geradores dos subgrupos uniparamétricos de SO(n) são anti-simétricos. Pode-
mos nos perguntar se a recı́proca é válida, ou seja, se todas as matrizes anti-simétricas são geradores
de subgrupos uniparamétricos de SU(n). Para responder isso, precisamos da seguinte proposição:
Proposição 10.11 Se A ∈ Mat ( , n) é anti-simétrica (ou seja, AT = −A), então a matriz exp(A)

é um elemento de SO(n). 2
Prova. Precisamos provar que exp(A) é ortogonal e que seu determinante é igual a 1. Pela definição da
exponencial de matrizes em termos de uma série de potências (a série de Taylor da função exponencial),
sabe-se que exp(M )T = exp(M T ) para qualquer matriz n × n real ou complexa M . Assim, exp(A)T =
exp(AT ) = exp(−A) = exp(A)−1 , provando que exp(A) é ortogonal.
Como observamos, Tr (A) = 1. Logo, para nossa matriz A, tem-se det(exp(A)) = exp(Tr (A)) =
exp(0) = 1, o que prova que exp(A) ∈ SO(n), como querı́amos.
Essa proposição diz-nos que, se A ∈ Mat ( , n) é anti-simétrica, então R(t) = exp(tA), t ∈

é
um subgrupo uniparamétrico de SO(n). Em resumo, concluı́mos que o conjunto de todas as matrizes

n × n reais anti-simétricas é idêntico ao conjunto de todos os geradores de subgrupos uniparamétricos
de SO(n).
Como SO(n) é um subgrupo fechado de GL( , n), segue do Teorema 11.1 que o conjunto de seus

geradores é uma álgebra de Lie. Essa álgebra de Lie é dita ser a a álgebra de Lie de SO(n), e é denotada
por so(n). Como vimos, so(n) coincide com o conjunto de todas as matrizes n × n reais anti-simétricas.
De passagem, notemos que o fato de que o conjunto de todas as matrizes n × n reais anti-simétricas
forma uma álgebra de Lie real já fora visto independentemente nos exercı́cios da página 57.
Provemos agora uma outra proposição, a qual essencialmente diz-nos que todo elemento de SO(n)
pode ser obtido como exponencial de um elemento de so(n). Nos casos de SO(2) e SO(3) isso foi
provado explicitamente nas páginas acima.
Proposição 10.12 Todo elemento R de SO(n) pode ser escrito na forma R = e A , onde A ∈ Mat ( , n)
é anti-simétrica (ou seja, AT = −A). 2
Prova. Como dissemos não podemos aqui seguir exatamente os passos da prova da Proposição 10.9,
pois o teorema espectral não se aplica de modo direto a matrizes reais.
Seja R ∈ SO(n), com elementos de matriz reais Rij . Normalmente R age no espaço real n , mas
podemosP fazê-la agir em n da maneira usual: para um vetor u ∈ n com componentes ui ∈ , tem-se
(Ru)i = nj=1 Rij uj . Como tal, R é uma matriz unitária de determinante 1, ou seja, um elemento de
SU(n), pois (R∗ )ij = (R)ji = (R)ji = (RT )ij = (R−1 )ij . Aqui usamos que os Rij são reais e o fato óbvio
(por que?) que a inversa de R em n é a mesma que em n .
Dado que R é unitária, seus autovalores são números eventualmente complexos mas de módulo 1.
Notemos, porém, que os autovalores são raı́zes do polinômio caracterı́stico p(x) = det(x − R), x ∈ .
Como os Rij são reais, esse polinômio tem coeficientes reais. É um fato elementar e bem conhecido que
se x é raiz de um polinômio com coeficientes reais, então seu complexo conjugado x também o é.
Se n é par, os autovalores são, portanto, pares de números complexos de módulo 1 complexo-

conjugados: eiθ e e−iθ . Como o determinante de R é o produto de seus autovalores, isso automati-
camente garante que det(R) = 1 desde que −1, se for autovalor, o seja com multiplicidade algébrica
par.
Se n é ı́mpar, os autovalores são pares de números complexos de módulo 1 complexo-conjugados:
e±iθ , mas um deles pode ser real, podendo, portanto, ser ±1. Como o determinante de R é o produto
de seus autovalores, a condição det(R) = 1 implica que um dos autovalores deve ser +1 e que −1, se
for autovalor, o é com multiplicidade algébrica par.
Em resumo:
1. Se n é par, o conjunto de autovalores de R é do tipo {e±iθk , k = 1, . . . , n/2, sendo θk ∈ }.

2. Se n é ı́mpar, o conjunto de autovalores de R é do tipo {1}∪{e±iθk , k = 1, . . . , (n−1)/2, sendo θk ∈
}.
Em ambos os casos −1 pode ser autovalor e, se o for, o é com multiplicidade algébrica par.
Seja o autovalor eiθk . Há dois casos a considerar.
Caso I. eiθk 6= ±1, de modo que eiθk é não-real e, portanto, distinto de e−iθk .
Seja vk ∈ n um autovetor de R com autovalor eiθk : Rvk = eiθk vk , normalizado de modo que
kvk k2 = hvk , vk i = 1. Segue que Rvk = e−iθk vk , ou seja, vk é um autovetor de R com autovalor

e−iθk . Como R é unitária, segue que autovetores que correspondem a autovalores distintos são ortogonais
(em n ). Logo,
hvk , vk i = 0 e, portanto, hvk , vk i
= hvk , vk i = 0. (10.58)
Escrevamos vk separando componente a componente suas partes real e imaginária: v k = ak + ibk ,

com ak , bk ∈ n . As relações Rvk = eiθk vk e Rvk = e−iθk vk tornam-se

Rak = (cos θk )ak − ( sen θk )bk ,
Rbk = ( sen θk )ak + (cos θk )bk .
Note-se que, como sen θk 6= 0, essas duas relações implicam que não se pode ter ak = 0, pois isso
implicaria bk = 0 e vice-versa. Porém,, ak e bk são vetores ortogonais em n . De fato,
1 k
hak , bk i = h(v + vk ), (vk − vk )i
4

1 k k
= hv , v i − hvk , vk i + hvk , vk i − hvk , vk i
4

1 k k
= hv , v i − hvk , vk i + hvk , vk i − hvk , vk i
4

por (10.58) 1
= (0 − 1 + 1 − 0)
4
= 0.
k k
Assim, concluı́mos que no sub-espaço realgerado pelos vetores ortogonais não-nulos a e b , a
cos θk − sen θk
matriz R age como a matriz , elemento de SO(2).
sen θk cos θk
É importante notar também que os vetores ak e bk são também ortogonais entre si para k’diferentes.
Isso é mostrado na proposição seguinte.
Proposição 10.13 Se vj = aj + ibj e vk = ak + ibk são vetores de n
com aj , ak , bj , bk ∈
n
e se
valerem hvj , vk i = 0 e hvj , vk i = 0, então tem-se

haj , ak i
= haj , bk i
= hbj , ak i
= hbj , bk i
= 0.
Prova. De hvj , vk i = 0 segue facilmente que

haj , ak i + hbj , bk i

= 0 e hbj , ak i − haj , bk i

= 0.
Como vj = aj − ibj , tem-se de hvj , vk i = 0 que
haj , ak i − hbj , bk i

= 0 e hbj , ak i + haj , bk i

= 0.
Disso, o resultado desejado segue imediatamente.
j j
O fato demonstrado nessa proposição mostra que os sub-espaços gerados por pares
a , b são ortogo-

n cos θj − sen θj
nais em . Na base formada por esses vetores, R tem a forma de blocos diagonais .
sen θj cos θj

Resta-nos ainda discutir o que se passa com os autovalores reais.

Caso II. eiθk = ±1.
Como comentamos, o autovalor −1 tem multiplicidade algébrica par em n . Como R é unitária
em n , R é simples (vide definição à página 149), concluı́mos que a multiplicidade geométrica desse
autovalor em n é igualmente par. Os autovalores reais de R correspondem a autovetores reais (por
que?). Assim, há um sub-espaço real de dimensão par onde R age como − . Como a dimensão é par,
cos θj − sen θj
podemos escrever R nesse sub-espaço como uma série de blocos diagonais como ,
sen θj cos θj
mas para θj = π.
Para o autovalor +1 a conclusão é a mesma, exceto que se n for ı́mpar a multiplicidade
geométrica

cos θj − sen θj
é ı́mpar. Assim, R nesse sub-espaço como uma série de blocos diagonais como , mas
sen θj cos θj
para θj = 0 e um bloco 1 × 1 com elemento de matriz 1.
A conclusão é a seguinte: para R ∈ SO(n) existe uma matriz ortogonal15 V tal que R = V BV −1 ,
onde B é a seguinte matriz: quando n é par, ou seja, n = 2m, para algum m > 0 inteiro, B é a matriz
15
A matriz é ortogonal pois faz a mudança de base para a base dos os vetores a j , bj e dos autovetores de autovalor
±1, os quais são todos ortogonais entre si, como provamos acima. Um fato crucial, como se vê.
bloco-diagonal dada por

 
cos θ1 − sen θ1
 sen θ1 0 ··· 0 
 cos θ1 
 
 
 
 cos θ2 − sen θ2 
 0 0 
 sen θ2 cos θ2 
 
B =   , (10.59)
 
 .. .. 
 . . 
 
 
 
 
 cos θm − sen θm 
0 0
sen θm cos θm
que formada por m = n/2 blocos 2 × 2, como indicado acima, sendo os demais elementos de matriz
nulos. Quando n é ı́mpar, ou seja, n = 2m + 1, para algum m > 0 inteiro, B é a matriz bloco-diagonal
dada por
 
cos θ1 − sen θ1
 0 ··· 0 0
 
 
 
 
 cos θ2 − sen θ2 
 0 0 0
 
 
B =  
.. . . ..  , (10.60)
 . . . 
 
 
 
 cos θ − sen θ 
 0 0 m m
0 
 sen θm cos θm 
 
 
 
0 0 ··· 0 1
que formada por m = (n − 1)/2 blocos 2 × 2, como indicado acima, sendo o elemento B nn igual a 1, e
os demais elementos de são matriz nulos.
Definamos agora (tanto para o caso em que n é par ou ı́mpar)

∂
Jk := R .
∂θk θ1 =···=θm =0
0 −1
É claro que cada Jk é a matriz anti-simétrica composta pelo bloco colocado na k-ésima posição,
1 0
os demais elementos de matriz sendo iguais a zero. Deve ser também claro que Jk Jl = Jl Jk para todos
k, l = 1, . . . , m e que
B = exp (θ1 J1 + · · · + θm Jm ) .
Do comentado acima, temos então que R = V BV −1 = exp (A) , onde

A := V (θ1 J1 + · · · + θm Jm ) V −1 .
Agora, como V é ortogonal e as Jk são anti-simétricas, é elementar verificar que AT = −A. Isso
completa a prova da Proposição 10.12.
A Proposição 10.12 diz-nos que a exponenciação é uma aplicação sobrejetora de so(n) em SO(n).
Isso é um caso particular de um teorema mais geral que diz que isso é válido para qualquer grupo de
Lie compacto, conexo e cuja álgebra de Lie seja de dimensão finita.
A Proposição 10.12 tem os dois seguintes corolários simples:
n
Corolário 10.2 Para n ı́mpar existe para cada R ∈ SO(n) um vetor ~η ∈ tal que R~η = ~η . 2
O vetor ~η é o autovetor com autovalor 1. Se n é par pode não haver um tal vetor invariante. Esse
corolário, junto com a Proposição 10.12, generaliza a Proposição 10.5, que era restrita ao caso SO(3).
Corolário 10.3 O grupo SO(n) é conexo por caminhos. 2
Prova. Pelo que vimos, se R ∈ SO(n), R é da forma R = eA , para alguma A ∈ so(n). Logo R
pertence ao subgrupo uniparamétrico de SO(n) gerado por A: {exp(tA), t ∈ }. Esse subgrupo
conecta continuamente U à identidade (que corresponde a t = 0).
10.5 O Grupo Afim e o Grupo Euclidiano

Seja V um espaço vetorial (que, lembremos, é um grupo Abeliano em relação à operação de adição
de vetores). Vamos denotar por GL(V ) o conjunto dos operadores lineares bijetores (e, portanto,
invertı́veis) de V em V . Também sabemos que GL(V ) é um grupo.
Existe uma ação à esquerda natural de GL(V ) em V , a saber α : GL(V ) × V → V dada por
α(M, v) := M v onde M ∈ GL(V ) e v ∈ V . (Mostre que isso define uma ação à esquerda).
Dessa forma podemos definir o produto semi-direto de GL(V ) e V , denotado por GL(V )sα V ou
simplesmente por GL(V )sV , definindo em GL(V ) × V o produto
(M, u) · (M 0 , u0 ) := (M M 0 , M u0 + u) ,
onde M, M 0 ∈ GL(V ) e u, u0 ∈ V . (A noção de produto semi-direto de dois grupos foi definida à
página 72).
GL(V )sV é denominado o grupo afim do espaço vetorial V .
Se G for um subgrupo de GL(V ), o produto semi-direto GsV é definido analogamente (M, u) ·
(M , u0 ) := (M M 0 , M u0 + u) , onde M, M 0 ∈ G e u, u0 ∈ V . É evidente que GsV é um subgrupo
0
de GL(V )sV .
E. 10.51 Exercı́cio. Mostre que o conjunto de translações puras formado pelos pares ( , v), v ∈ V é
um subgrupo normal de GL(V )sV . Sugestão: basta mostrar que trata-se de um subgrupo Abeliano. 6
E. 10.52 Exercı́cio. Se G é um subgrupo normal de GL(V ), mostre que GsV é um subgrupo normal
de GL(V )sV . 6
E. 10.53 Exercı́cio. Se G é um subgrupo de GL(V ), mostre que V 3 u 7→ Ru+v, para (g, v) ∈ GsV ,
define uma ação à esquerda de GsV em V . 6
Consideraremos dois exemplos importantes, o grupo Euclidiano16 e o grupo de Poincaré17 o qual

será tratado na Seção 10.7.
• O Grupo Euclidiano
n
O chamado grupo Euclidiano em dimensão n é o grupo En := O(n)s .
O grupo En tem uma ação natural em n dada por n 3 y 7→ Ry + x, para cada elemento (R, x) ∈

En . Assim, En implementa em n translações, rotações e reflexões, as chamadas transformações

Euclidianas de n . Essa é, em verdade, a própria motivação da definição de En .

n
E. 10.54 Exercı́cio. Mostre que 3 y 7→ Ry + x, para (R, x) ∈ En , define uma ação à esquerda de
En em n . 6
Há um subgrupo de GL(n + 1, ) que é isomorfo a En . Sejam as matrizes reais (n + 1) × (n + 1)

 
 
 R x 
  n
E(R, x) :=  , com R ∈ O(n) e x ∈ .
 

 
0 1
Então, tem-se
E(R, x) E(R0 , x0 ) := E(RR0 , Rx0 + x) .
E. 10.55 Exercı́cio importante. Mostre isso. 6
Assim, o conjunto de matrizes {E(R, x) ∈ GL(n + 1, ), com R ∈ O(n) e x ∈ n } forma um sub-

grupo de GL(n + 1, ) que é isomorfo a En . Também denotaremos esse grupo por En .

E. 10.56 Exercı́cio. Prove essa última afirmativa. 6
• Os Geradores do Grupo Euclidiano E3
16
17
De particular interesse é o caso n = 3. É possı́vel identificar os seguintes sub-grupos uniparamétricos

de E3 , aqueles gerados pelas matrizes E(Rj , 0), j = 1, 2, 3, onde Rj são as matrizes introduzidas em
(10.28) e que geram sub-grupos uniparamétricos de SO(3) e aqueles gerados pelas matrizes E( , x k ),
k = 1, 2, 3, onde x1 = (x, 0, 0), x2 = (0, x, 0) e x3 = (0, 0, x) com x ∈ . Esses subgrupos geram
translações nas direções k = 1, 2, 3.
E. 10.57 Exercı́cio importante. Mostre que esses seis subgrupos são subgrupos uniparamétricos. 6
Como facilmente se verifica, os geradores desses subgrupos são as seguintes matrizes:

     
0 0 0
 J1 0   J2 0   J3 0 
     

j1 :=  
0  , j :=  
0  , j :=  0 
2  3  
     
0 0 0 0 0 0 0 0 0 0 0 0
e      
1 0 0
 0 0   0 1   0 0 
     
p1 := 
 0 ,
 p2 := 
 0 ,
 p3 := 
 1 ,

     
0 0 0 0 0 0 0 0 0 0 0 0
sendo que J1 , J2 e J3 são os geradores de SO(3), definidos em (10.29)-(10.31), página 591. Usando a
forma das matrizes Jk dada em (10.29)-(10.31), é fácil constatar as seguintes relações de comutação
entre os geradores acima:
3
X 3
X
[ja , jb ] = εabc jc , [pa , pb ] = 0 , [ja , pb ] = εabc pc . (10.61)
c=1 c=1
As relações (10.61) representam as relações de comutação da álgebra de Lie e 3 do grupo E3 . Note

que p1 , p2 e p3 formam uma sub-álgebra Abeliana de e3 e que essa sub-álgebra é um ideal de e3 . Esse
fato reflete a propriedade que o subgrupo de translações é um subgrupo normal de E3 .
• Os Geradores do Grupo Euclidiano E2

2
De maneira análoga podemos tratar o caso (mais simples) do grupo E2 . Os elementos de SO(2)s
podem ser parametrizados na forma

 
cos θ − sen θ x1
 sen θ cos θ x2  , θ ∈ (−π, π], x1 , x2 ∈ .
0 0 1
Seus geradores serão
     
0 −1 0 0 0 1 0 0 0
j1 := 1 0 0 , p1 := 0 0 0 , p2 := 0 0 1 .
0 0 0 0 0 0 0 0 0
Como é fácil de verificar, as relações de comutação entre esses geradores são
[j1 , p1 ] = p2 , [j1 , p2 ] = −p1 , [p1 , p2 ] = 0.
Um elemento genérico dessa álgebra de Lie é da forma

 
 J t 
 
I(J, t) := 



 
0 0 0
onde
0 −θ t1
J = θj1 = e t = t 1 p1 + t 2 p2 =
θ 0 t2
com −π < θ ≤ π e t1 , t2 ∈ .
É um exercı́cio fácil (faça-o) constatar que para todo k ∈ , k ≥ 1, tem-se

I(J, t)k = I Jk , Jk−1 t .
Conseqüentemente, vale que

 
∞ ∞  t0 
X 1 X 1  R 
exp (I(J, t)) = + I(J, t)k = + I Jk , Jk−1 t = 

 ,

k=1
k! k=1
k!  
0 0 1
onde
cos θ − sen θ
R := e = J
e t0 = f (J)t ,
sen θ cos θ
sendo f a função analı́tica inteira definida pela série de Taylor
X∞
1 k−1
f (w) := 1 + w , w∈ . (10.62)
k=2
k!
É fácil constatar que  w

 e −1
 , w 6= 0
f (w) = w .


1, w=0
A matriz f (J) pode ser calculada facilmente usando-se o fato que

2k 2k+1
0 −1 k 0 −1 k 0 −1
= (−1) e = (−1) , k∈ ,
1 0 1 0 1 0

de onde se extrai
X∞
1 k−1
f (J) := + J
k=2
k!
∞
X X∞
1 2m−1 1
= + J + J2m
m=1
(2m)! m=1
(2m + 1)!
X∞ X ∞
(−1)m θ 2m−1 0 −1 (−1)m θ 2m
= +
(2m)! 1 0 (2m + 1)!
m=1 m=0

cos θ − 1 0 −1 sen θ
= +
θ 1 0 θ
 
sen θ cos θ − 1
 − 
 θ θ 
=   .
 cos θ − 1 sen θ 
θ θ
Notemos que
1 − cos θ
det f (J) = 2 6= 0
θ2

−1 x1 2
para −π < θ ≤ π. Assim, f (J) é invertı́vel e se escolhermos t = f (J) x, para qualquer x = ∈
x2

teremos  
 
 R x  cos θ − sen θ x
  1
exp I(J, f (J)−1 x) =  
 =  sen θ cos θ x2  .

  0 0 1
0 0 1
Isso prova que todo elemento do grupo SO(2)s 2 pode ser escrito como exponencial de um elemento

da sua própria álgebra de Lie. Essa afirmação é igualmente válida para todo os grupos SO(n)s n . A
demonstração segue passos análogos aos de acima pois, como observamos na Seção 10.4.3, página 608,
os elementos de SO(n) podem ser escritos em uma base conveniente na forma de blocos de matrizes de
SO(2). Isso implicará que também no caso geral a matriz f (J) é invertı́vel. Deixamos os detalhes da
demonstração como exercı́cio ao leitor.
10.6 O Grupo de Lorentz

Para a leitura desta seção uma certa familiaridade com os rudimentos da teoria da relatividade restrita
é recomendável, mas não totalmente indispensável.
10.6.1 O Espaço-Tempo, a Noção de Intervalo e a Estrutura Causal

É um fato elementar da natureza ser possı́vel descrever qualquer evento idealmente pontual e de duração
instantânea por uma coleção de quatro números que especificam sua posição espacial e seu instante de
tempo, medidos em algum sistema de referência. A coleção de todos os eventos pontuais de duração
instantânea, é denominada espaço-tempo, noção introduzida por Minkowski 18 . Assim, é natural (pelo
menos na ausência de campos gravitacionais, que podem alterar a topologia global do espaço-tempo)
identificar o mesmo com o espaço matemático 4 . Assim descrito, cada evento pode ser especificado

em um sistema de referência que adote coordenadas espaciais cartesianas, por uma quadrupla ordenada
(x1 , x2 , x3 , x4 ), onde convencionamos que os três primeiros números são coordenadas espaciais do
evento e o último sua coordenada temporal. O leitor deve ser advertido que muitos autores conven-
cionam escrever as coordenadas espaço-temporais de um evento na forma (x0 , x1 , x2 , x3 ), onde x0 é
a coordenada temporal. Isso alteraria a forma das matrizes que serão manuseadas abaixo, mas não a
essência dos resultados que apresentaremos.
Na mecânica clássica, a primeira lei de Newton19 afirma existirem certos sistemas de referência
dotados da seguinte propriedade: se um corpo encontra-se isolado do restante do universo, ou seja,
se sobre ele não atuam forças externas, então em relação a esse sistema de referência esse corpo se
move com velocidade constante. Tais sistemas de referência são denominados sistemas de referência
inerciais, pois neles vale o princı́pio de inércia. É muito fácil concluir que se um sistema de referência
se move com velocidade constante em relação a um sistema de referência inercial, então ele é também
um sistema de referência inercial.
Sistemas de referência inerciais desempenham um papel central pois neles as Leis da Fı́sica assumem
um caracter universal. É um postulado fundamental da Fı́sica que suas leis básicas são as mesmas em
todos os sistemas de referência inerciais. Na mesma linha, é um postulado fundamental da Fı́sica que
também suas constantes fundamentais, tais como a velocidade da luz c, a constante de Planck 20 ~, a
constante de gravitação universal G e outras tenham também o mesmo valor em todos os sistemas de
referência inerciais. Mais que isso, os sistemas de referência inerciais concordam quanto às relações
de causa e efeito entre todos os eventos ocorridos no espaço-tempo. Essa série de princı́pios aqui
mal-delineados é por vezes denominada princı́pio da relatividade. O princı́pio da relatividade tem sua
origem nos trabalhos de Galilei21 sobre a dinâmica, mas foi com a Teoria da Relatividade de Einstein22
que suas reais conseqüências foram exploradas em sua máxima extensão.
Ao realizarmos transformações entre sistemas de coordenadas inerciais, as coordenadas dos even-
tos transformam-se linearmente. Esse postulado é familiar se nos lembramos da ação do grupo de
translações, da ação do grupo de rotações no espaço tridimensional ou das transformações de Galilei da
mecânica clássica (não-relativista). Assim, cada transformação entre sistemas de coordenadas inerciais
deve ser representada na forma Lx + t, onde L é uma matriz real 4 × 4 e x e t são vetores de 4 . Aqui,

x1
x2
x e t são representados na forma de um vetor coluna, como x = x3 .
x4
O vetor t representa uma translação (tanto no espaço quanto no tempo) entre os sistemas de
18
Hermann Minkowski (1864-1909). A expressão “espaço-tempo” provem do alemão “Raumzeit”.
19
20
21
Galileu Galilei (1564-1642).
22
Albert Einstein (1879-1955).
coordenadas. Cada matriz L ∈ Mat ( , 4) deve depender das velocidades relativas entre os sistemas

inerciais cuja transformação descreve, da direção dessas velocidades e dos ângulos relativos entre os
eixos cartesianos espaciais dos dois sistemas. L deve também conter informação sobre se os eixos
cartesianos espaciais dos dois sistemas têm a mesma orientação (positiva ou negativa) e sobre se os
relógios dos dois sistemas correm na mesma direção.
Dados dois eventos quaisquer x, y no espaço-tempo (que doravante identificaremos com 4 ) e cujas
coordenadas sejam x = (x1 , x2 , x3 , x4 ) e y = (y1 , y2 , y3 , y4 ) em um determinado sistema de referência

inercial, define-se o intervalo entre ambos como sendo a quantidade23
I(x, y) = I(x − y) := (x1 − y1 )2 + (x2 − y2 )2 + (x3 − y3 )2 − c2 (x4 − y4 )2 ,
onde c é a velocidade da luz no sistema de referência inercial em questão.

A noção de intervalo entre eventos é de grande importância. Para começar a explicar isso consi-
deremos a situação na qual dois eventos distintos x e y que representam a produção e a absorção de
um mesmo raio luminoso. Se em um determinado sistema de referência inercial as coordenadas desses
eventos são x = (x1 , x2 , x3 , x4 ) e y = (y1 , y2 , y3 , y4 ), então a velocidade de propagação da luz entre
x e y satisfaz
(y1 − x1 )2 + (y2 − x2 )2 + (y3 − x3 )2
c2 =
(y4 − x4 )2
e, portanto, I(y, x) = I(y − x) = 0. Um dos postulados fundamentais da teoria da relatividade restrita
é a afirmação que a velocidade de propagação da luz no vácuo é a mesma para qualquer sistema de
referência inercial. Portanto, se em um outro sistema de referência inercial as coordenadas de x e y
fossem x0 = (x01 , x02 , x03 , x04 ) e y 0 = (y10 , y20 , y30 , y40 ) terı́amos igualmente
(y10 − x01 )2 + (y20 − x02 )2 + (y30 − x03 )2

c2 =
(y40 − x04 )2
e, portanto, tem-se igualmente I(y 0 , x0 ) = I(y 0 − x0 ) = 0 com o mesmo valor c para a velocidade de
propagação da luz.
Compreendemos então que o postulado da constância da velocidade da luz pode ser traduzido ma-
tematicamente da seguinte forma: se o intervalo entre dois eventos é nulo em um sistema de referência
inercial então é também nulo em todos os demais sistemas de referência inerciais. Mais adiante pro-
varemos que, sob certas hipóteses fı́sicas adicionais, esse fato implica uma condição ainda mais geral
de invariância: o intervalo entre dois eventos quaisquer é o mesmo em qualquer sistema de referência
inercial, mesmo quando não é nulo.
Nota. Independente de ser um postulado teórico, a constância da velocidade da luz é um fato experimental que tem sofrido sucessivas
confirmações ao longo de várias décadas. Para uma lista possivelmente parcial de referências recentes (das últimas quatro décadas) contendo
testes experimentais da constância da velocidade da luz e testes da velocidade da luz como velocidade limite, vide:
1. T. S. Jaseja, A. Javan, J. Murray and C. H. Townes. “Test of Special Relativity or of the Isotropy of Space by Use of Infrared Masers”.
Phys. Rev. A133, A1221-A1125 (1964).
2. T. Alväger, F. J. M. Farley, J. Kjellman and I. Wallin. “Test of the Second Postulate of Special Relativity in the GeV Region”. Phys.
Lett. 12, 260-263 (1964).
23
Novamente supomos a ausência de campos gravitacionais, em cuja presença a definição de intervalo tem que ser
modificada.
3. D. I. Blotkhintsev. “Basis for Special Relativity Theory Provided by Experiments in High Energy Physics”. Sov. Phys. Uspekhi, 9,
405 (1966).
4. Z. G. T. Guiragossián, G. B. Rothbart, M. R. Yearian, R. A. Gearhart and J. J. Murray. “Relative Velocity Measurements of Electrons
and Gamma Rays at 15 GeV”. Phys. Rev. Lett. 34, 335-338 (1975).
5. K. Brecher. “Is the Speed of Light Independent of the Velocity of the Source?”. Phys. Rev. Lett. 39, 1051-1054, 1236(E) (1977).
6. D. Newman, G. W. Ford, A. Rich and E. Sweetman. “Precision Experimental Verification of Special Relativity”. Phys. Rev. Lett.
40, 1355-1358 (1978).
7. K. M. Baird, D. S. Smith and B. G. Whitford. “Confirmation of the Currently Accepted Value 299 792 458 Metres per Second for
the Speed of Light”. Opt. Comm. 31, 367-368 (1979).
8. G. L. Greene, M. Scott Dewey, E. G. Kessler, Jr. and E. Fischbach. “Test of Special Relativity by a Determination of the Lorentz
Limiting Velocity: Does E = mc2 ?”. Phys. Rev. D 44, R2216-R2219 (1991).
9. Bradley E. Schaefer. “Severe Limits on Variations of the Speed of Light with Frequency”. Phys. Rev. Lett. 82, 4964 (1999).
Para um texto recente, vide [134]24 .
Notemos que o intervalo depende da diferença x − y. Assim, translações entre sistemas de re-
ferência automaticamente mantêm invariantes os intervalos entre eventos. Por essa razão vamos por
ora interessar-nos apenas por transformações entre sistemas de referência que sejam do tipo Lx, com
L ∈ Mat ( , 4).

Para prosseguirmos precisamos introduzir uma importante classificação de intervalos.
• Intervalos de Tipo Luz, de Tipo Tempo e de Tipo Espaço
Em um sistema de referência, dois eventos distintos x e y são ditos ser25
1. do tipo luz se I(x, y) = 0,

2. do tipo tempo se I(x, y) < 0,
3. do tipo espaço se I(x, y) > 0.
Se dois eventos distintos x = (x1 , x2 , x3 , x4 ) e y = (y1 , y2 , y3 , y4 ) são do tipo luz, então

(y1 − x1 )2 + (y2 − x2 )2 + (y3 − x3 )2
2
= c2 .
(y4 − x4 )
Se dois eventos distintos x = (x1 , x2 , x3 , x4 ) e y = (y1 , y2 , y3 , y4 ) são do tipo tempo, então
(y1 − x1 )2 + (y2 − x2 )2 + (y3 − x3 )2
< c2 .
(y4 − x4 )2
Se dois eventos distintos x = (x1 , x2 , x3 , x4 ) e y = (y1 , y2 , y3 , y4 ) são do tipo espaço, então
(y1 − x1 )2 + (y2 − x2 )2 + (y3 − x3 )2
2
> c2 .
(y4 − x4 )
Com isso entendemos que

24
Agradecemos à Profa. Renata Zukanovich Funchal pelas referências acima.
25
As expressões em inglês são “light-like”, “time-like” e “space-like”, respectivamente. Essa nomenclatura provém do
alemão: “lichtartig”, “zeitartig” e “raumartig”.
1. Se dois eventos são separados por um intervalo do tipo luz pode haver um sinal conectando ambos
e que se propagaria com a velocidade da luz.
2. Se dois eventos são separados por um intervalo do tipo tempo pode haver um sinal conectando
ambos e que se propagaria com velocidade menor que a da luz.
3. Se dois eventos são separados por um intervalo do tipo espaço não pode haver um sinal conectando
ambos, pois o mesmo se propagaria com velocidade maior que a da luz.
A importância dessas considerações é a seguinte. É uma crença da fı́sica atual que as partı́culas
elementares (que compõe toda a matéria do universo) não podem mover-se com velocidade maior que
a da luz. Conseqüentemente, se dois eventos são separados por um intervalo do tipo espaço não pode
haver nenhum processo fı́sico que, iniciando-se em um evento, influencie o outro. Diz-se então que
esses eventos são causalmente desconectados, ou seja, não pode haver nenhuma relação causal (isto é,
de causa e efeito) entre ambos. Por outro lado, se dois eventos são separados por um intervalo do tipo
tempo então pode haver alguma influência causal entre ambos, por exemplo, através de uma partı́cula
ou corpo material que, movendo-se no espaço-tempo com velocidades inferiores à da luz, parta de um
evento e influencie o outro. No caso de intervalos do tipo luz a situação é a mesma mas, então, a
eventual influência de um no outro deve propagar-se com a velocidade da luz.
E. 10.59 Exercı́cio. Passe vários dias meditando sobre os parágrafos acima. 6
• A Estrutura Causal. Transformações que Preservam a Estrutura Causal
Como se percebe, se aceitarmos a idéia que processos fı́sicos não podem propagar-se com velocidades
superiores à da luz, a noção de intervalo estabelece as possı́veis relações de causalidade entre todos os
eventos do espaço-tempo, ao dizer quais eventos podem eventualmente influenciar-se (aqueles que são
do tipo tempo ou do tipo luz um em relação ao outro) e quais não podem de forma alguma influenciar-se
(aqueles que são do tipo espaço um em relação ao outro).
É uma crença da Fı́sica atual que essas relações de causalidade devem ser as mesmas para todos os
sistemas de referência inerciais, pois os mesmos descrevem as mesmas leis fı́sicas e devem perceber as
mesmas relações de causa e efeito entre os eventos que compõe o universo.
E. 10.60 Exercı́cio. Mais alguns dias de meditação. 6
Com isso, podemos introduzir a seguinte definição: dizemos que uma transformação linear L, que
representa uma transformação entre dois sistemas de referência, preserva a estrutura causal do espaço-
tempo se a mesma satisfizer todas as três condições seguintes:
1. I(Lx, Ly) = 0 sempre que I(x, y) = 0,
2. I(Lx, Ly) < 0 sempre que I(x, y) < 0,
3. I(Lx, Ly) > 0 sempre que I(x, y) > 0.

Em palavras, L preserva o tipo de intervalo que separa todos os eventos do espaço-tempo, levando
todos os intervalos do tipo luz em intervalos do tipo luz, levando todos os intervalos do tipo tempo em
intervalos do tipo tempo e levando todos os intervalos do tipo espaço em intervalos do tipo espaço.
Notemos que a condição que impõe que I(Lx, Ly) = 0 sempre que I(x, y) = 0 é a condição da
invariância da velocidade da luz (já mencionada acima), mas as demais representam algo diferente: a
invariância das relações de causalidade por mudança de sistemas de referência inerciais.
Um pouco mais abaixo exploraremos as conseqüências matemáticas que essas imposições têm sobre
as transformações L e concluiremos que, sob as hipóteses acima (e sob uma hipótese adicional de
ausência de dilatações), vale uma conseqüência mais forte, a saber, que I(Lx, Ly) = I(x, y) para
todos os eventos x e y. Assim, transformações que preservam a estrutura causal e não envolvem
dilatações preservam o valor do intervalo entre dois eventos quaisquer do espaço-tempo.
Por fim, apenas a tı́tulo de ilustração, exemplifiquemos como seria uma transformação que preserva
os intervalos de tipo luz mas não os demais, preservando, portanto, a velocidade da luz mas violando
a estrutura causal. Consideremos um espaço-tempo bidimensional, onde 0 cada
evento é descrito por
c
uma coordenada espacial x1 e uma temporal t. Seja a matriz L = . O intervalo entre os
x c−1 0
1 0
eventos x = t
e 0 = seria I(x, 0) = x21 − c2 t2 . Porém, pela transformação L terı́amos
0 x ct 0
x1 1
0
= L t
= −1 . Assim,
t c x1
I(Lx, L0) = (x01 )2 − c2 (t0 )2 = c2 t2 − x21 = − I(x, 0).
Logo, como os intervalos I(Lx, L0) e I(x, 0) diferem por um sinal, terı́amos para quaisquer eventos x
ey
1. I(Lx, Ly) = 0 sempre que I(x, y) = 0,
2. I(Lx, Ly) < 0 sempre que I(x, y) > 0,
3. I(Lx, Ly) > 0 sempre que I(x, y) < 0.
Portanto, intervalos tipo luz seriam levados em intervalos tipo luz, mas intervalos tipo espaço seriam
levados em intervalos tipo tempo e vice-versa. Como se vê por esse exemplo, em transformações
que violam a estrutura causal deve haver algo como uma permutação entre coordenadas espaciais e
temporais.
E. 10.61 Exercı́cio. São tais transformações fisicamente aceitáveis? 6
• Dilatações
Vamos agora discutir uma classe de transformações que preservam a estrutura causal: as dilatações.
Para λ ∈ , λ 6= 0, a matriz D(λ) := λ simplesmente transforma cada x ∈ 4 em λx, ou seja,

D(λ) representa uma dilatação ou mudança de escala das coordenadas espaço-temporais de eventos. É
evidente que I(D(λ)x, D(λ)y) = λ2 I(x, y), de modo que dilatações são transformações lineares que
preservam a estrutura causal.
São as dilatações aceitáveis enquanto mudanças de sistemas de referência inerciais? Essa é uma
questão muito interessante e sutil e demanda uma certa discussão.
Claramente, mudanças de escala podem ocorrer naturalmente no caso de tratarmos de dois sistemas
de referência que adotam sistemas métricos diferentes, como no caso em que um sistema mede distâncias
em metros e um outro em jardas (mas de modo que as medidas de tempo em um e outro sejam
tais que ambos atribuem o mesmo valor numérico para c). Essas situações são triviais e poderiam
ser contornadas se ambos os sistemas de referência concordassem no uso de uma mesma escala de
distâncias. Mas para que isso seja possı́vel é preciso que haja objetos fı́sicos, em repouso em ambos
os sistemas de referência, que possuam as mesmas dimensões. Poderı́amos, por exemplo, adotar como
unidade de distância o “tamanho médio” do átomo de hidrogênio26 , ou o comprimento de onda de uma
linha de emissão de um certo átomo ou molécula, fixos em cada sistema de referência.
Mas o que garante que o tamanho médio de um átomo de hidrogênio parado na Terra é o mesmo
que o de um átomo de hidrogênio parado em uma galáxia distante que se move em relação a nós com
uma certa velocidade? A princı́pio, nada garante, mas a crença que sistemas de referência inerciais
descrevem a mesma fı́sica envolve também a crença que certas escalas básicas de distância e de tempo,
como o tamanho médio de um átomo em repouso, são as mesmas em todos os sistemas de referência
inerciais. Por exemplo, o tamanho médio do átomo de hidrogênio em repouso depende de propriedades
fı́sicas que regem a interação entre o próton e o elétron que o constituem (a lei de Coulomb 27 ), das leis
da mecânica que regem seus movimentos (as leis da mecânica quântica), assim como dos valores das
cargas elétricas e das massas de repouso dessas partı́culas. Essas grandezas e leis devem ser as mesmas
em quaisquer sistemas de referência inerciais.
Intimamente associada a isso está a questão dos valores das massas de repouso das partı́culas
elementares. Isso se deve ao fato seguinte. A fı́sica quântica nos ensina que se m 0 é a massa de
repouso de uma partı́cula elementar, digamos um elétron, então a quantidade ~/(m0 c) tem dimensão
de comprimento (verifique!). Esse é o chamado comprimento de onda Compton28 da partı́cula de massa
de repouso m0 . Assim, para qualquer partı́cula de massa de repouso m0 há uma escala de distância a
ela associada.
É parte da crença associada ao princı́pio da relatividade que as massas em repouso das partı́culas
elementares, como elétrons, quarks etc., são as mesmas quer na Terra quer em uma galáxia distante que
se move em relação a nós com velocidade constante. Até onde se sabe, essa hipótese tem corroboração
experimental, pois sua violação levaria a conseqüências observacionais em relação ao comportamento
da matéria que nunca foram verificadas quer em observações astronômicas quer em experimentos com
aceleradores de partı́culas feitos na Terra. Como ~ e c são constantes fı́sicas, devem também ser as
mesmas em quaisquer sistemas de referência inerciais e, portanto, o comprimento de onda Compton
de, digamos, um elétron em repouso deve ser o mesmo em qualquer sistema de referência inercial e com
ele poderı́amos estabelecer uma escala de distâncias universal.
Em um universo em que não houvessem escalas de distância ou de massa naturais, como por exemplo
no caso de universos em que todas as partı́culas elementares têm massa nula e não formam estados
26
A noção de “tamanho médio” de um átomo pode ser definida na mecânica quântica, mas não entraremos em detalhes
aqui.
27
Charles Augustin de Coulomb (1736-1806).
28
Arthur Holly Compton (1892-1962). Compton recebeu o prêmio Nobel de Fı́sica de 1927 “for his discovery of the
effect named after him”.
ligados (como átomos) que possuam alguma escala de distância tı́pica, não haveria maneira de sistemas
de referência inerciais concordarem com escalas espaciais e temporais e, aı́, a inclusão de dilatações
seria inevitável nas transformações entre sistemas de referência. Esse não é o caso do universo em que
vivemos, pois nele sabidamente habitam partı́culas massivas.
Assim, apesar de as dilatações satisfazerem a condição de não violarem a estrutura causal do
espaço-tempo, as mesmas não devem ser consideradas como transformações legı́timas de coordenadas
espaço-temporais entre sistemas de referência inerciais no nosso universo, pois partimos da crença que
esses sistemas podem sempre concordar quanto a certas escalas básicas de certos objetos fı́sicos em
repouso, tais como as massas de repouso de certas partı́culas elementares e seus comprimentos de onda
Compton.
E. 10.62 Exercı́cio. Mais meditação. 6
• A Convenção que c = 1
Daqui por diante adotaremos a convenção simplificadora que c = 1. Isso pode ser obtido pela
escolha de um sistema de unidades métricas conveniente. Essa convenção, muito empregada atual-
mente em textos de fı́sica teórica29 , tem a vantagem de “limpar” as expressões matemáticas de fatores
que dependam de c. Admitidamente, há uma certa “preguiça” na adoção dessa convenção, mas a
mesma tráz vantagens. De qualquer forma, os fatores c omitidos podem ser facilmente recuperados por
considerações de análise dimensional.
• Notação Matricial. A Métrica de Minkowski
É muito conveniente escrever o intervalo entre dois eventos x e y com uso da seguinte notação
matricial:
I(x − y) = (x1 − y1 )2 + (x2 − y2 )2 + (x3 − y3 )2 − (x4 − y4 )2 = h(x − y), η(x − y)i ,
onde  
  0
1 0 0 0  
 0 1 0 0   0 
η := η(3, 1) = 
 0 0
 = 
  0 .
 (10.63)
1 0  
0 0 0 −1
0 0 0 −1
A matriz η é freqüentemente denominada métrica de Minkowski.
10.6.2 A Invariância do Intervalo

No que vimos acima, aprendemos que o postulado da invariância da velocidade de propagação da luz
quando de uma transformação entre sistemas de referência inerciais implica que se x e y são dois eventos
29
Em textos teóricos de mecânica quântica e teoria quântica de campos, adota-se também ~ = 1.
tais que
I(x, y) = h(x − y), η(x − y)i
= 0 (10.64)
então tem-se também
I(Lx, Ly) = hL(x − y), ηL(x − y)i
= 0 (10.65)
para qualquer transformação linear L ∈ Mat ( , 4) que represente uma mudança entre sistemas de

referência inerciais.
Nesta seção iremos provar uma afirmação, o Teorema 10.7, adiante, que generaliza ainda mais o
descrito no último parágrafo, a saber, provaremos que se L ∈ Mat ( , 4) representa uma mudança
entre sistemas de referência inerciais que preserva a estrutura causal e não envolve dilatações (definições
adiante) então I(x, y) = I(Lx, Ly) para quaisquer eventos x e y, mesmo aqueles para os quais
I(x, y) 6= 0. Esse fato releva a importância da noção de intervalo na teoria da relatividade: o mesmo
representa uma grandeza invariante por transformações de sistemas de referência do tipo descrito acima.
Dessa propriedade de invariância extrairemos todas as informações importantes sobre as transformações
de Lorentz.
• Transformações Lineares e a Estrutura Causal
Vamos aqui provar um teorema de importância central no entendimento da relação entre trans-
formações L ∈ Mat ( , 4) e sua relação com a estrutura causal do espaço-tempo.

Teorema 10.7 Seja L um elemento de Mat ( , 4) que representa uma mudança entre sistemas de

referência inerciais que preserva os intervalos de tipo luz. Então,

ηLT ηL = − LT ηL 44 = ±| det(L)|1/2 . (10.66)
Se além disso L preserva a estrutura causal, então,

ηLT ηL = − LT ηL 44 = | det(L)|1/2 . (10.67)
Por fim, se L preserva a estrutura causal e não envolve dilatações, então
ηLT ηL = . (10.68)
4
Uma conseqüência imediata dessa relação é que I(Lx, Ly) = I(x, y) para todos x, y ∈ . 2
4
Prova. Para x ∈ , sejam as formas quadráticas
I(x) := hx, ηxi

e J(x) := hLx, ηLxi
= hx, LT ηLxi .
É bastante claro que

I(x) = −(x4 )2 + k~xk2 = − [x4 − k~xk] [x4 + k~xk] , (10.69)
p
onde ~x = (x1 , x2 , x3 ) e k~xk = x21 + x22 + x23 . Por outro lado,

J(x) = LT ηL 44 (x4 )2 + a(~x)x4 + b(~x) = LT ηL 44 [x4 − y1 (~x)] [x4 − y2 (~x)] , (10.70)
onde30
3
X 3
X

a(~x) := 2 LT ηL 4a
xa , e b(~x) := LT ηL ab
xa xb ,
a=1 a, b=1
sendo que

− LT ηL 44
(y1 (~x) + y2 (~x)) = a(~x) e LT ηL 44
y1 (~x)y2 (~x) = b(~x).
Sabemos por (10.64)-(10.65) (tomando y = 0) que se L preserva intervalos tipo luz, então se tivermos
I(x) = 0 para algum x ∈ 4 , valerá também J(x) = 0. Para ~x fixo qualquer, vemos por (10.69) e

(10.70) que tanto I(x) quanto J(x) são polinômios de segundo grau em x4 e, pelo que acabamos de
comentar, têm os mesmos zeros. Dessa forma, também por (10.69) e (10.70), podemos sem perda de
generalidade escolher y1 (~x) = k~xk e y2 (~x) = −k~xk.
Com isso teremos que

J(x) = LT ηL 44
(x4 − k~xk)(x4 + k~xk) = − LT ηL 44
I(x)
4
para todo x ∈ . Pela definição de I(x) e J(x) temos então

hLx, ηLxi = − LT ηL 44 hx, ηxi .

(10.71)
4
para todo x ∈ , ou seja

hx, LT ηL + LT ηL 44 η xi = 0

para todo x ∈ 4 . Como LT ηL + LT ηL 44 η é uma matriz simétrica (verifique!), a Proposição 2.5,

página 125, implica LT ηL + LT ηL 44 η = 0. Como η 2 = , segue que

ηLT ηL = − LT ηL 44
. (10.72)
Como det(η) = −1 e det(L) = det(LT ), obtemos ao tomar o determinante de ambos os lados da

igualdade acima que
4
det(L)2 = − LT ηL 44
de onde extraı́mos que
− LT ηL 44
= ±| det(L)|1/2 . (10.73)
Com (10.72), isso prova (10.66).
Inserindo (10.73) em (10.71) terı́amos hLx, ηLxi = ±| det(L)|1/2 hx, ηxi para todo x ∈ 4 .

Portanto, se L preserva a estrutura causal, apenas o sinal positivo é aceitável. Assim, por (10.72),
temos nesse caso LT ηLη = | det(L)|1/2 e isso completa a prova de (10.67).
Seja agora L o conjunto de todas as matrizes L0 ∈ Mat ( , 4) que satisfazem ηLT0 ηL0 = .
Afirmamos que se L satisfaz (10.67) então L é da forma L = λL0 com λ ∈ e L0 ∈ L. De fato,
se L 6= 0 satisfaz (10.67) teremos para qualquer λ 6= 0 que η(λ L) η(λ L) = λ−2 | det(L)|1/2 e
−1 T −1
escolhendo λ = | det(L)|1/4 concluı́mos que λ−1 L ∈ L.

30
T
Aqui usou-se que LT ηL 4a
= LT ηL a4
pois LT ηL é simétrica, ou seja LT ηL = LT ηL.
Assim, se L satisfaz (10.67), L é produto de uma transformação de L com uma transformação

D(λ) = λ , λ ∈ , λ 6= 0. Se L não envolve dilatações então L ∈ L. Isso prova (10.68).

Como vemos, um papel especial é desempenhado pelas matrizes de L. Por toda nossa discussão
tais matrizes representam as transformações entre sistemas de referência que respeitam a imposição
fı́sica de preservar a estrutura causal e ignoram dilatações. Daqui por diante vamos nos concentrar
exclusivamente em tais transformações. Como veremos, o conjunto L introduzido acima tem a estrutura
de um grupo, um fato de grande importância. Trata-se do chamado grupo de Lorentz, um objeto de
importância central na teoria da relatividade.
10.6.3 O Grupo de Lorentz

O Teorema 10.7 acima diz-nos que se L ∈ Mat ( , 4) representa uma transformação entre sistemas de

referência inerciais que preserva a estrutura causal e não envolve dilatações, então ηL T ηL = , o que
equivale a dizer que L−1 = ηLT η. Isso também equivale a dizer que
hLx, ηLyi
= hx, ηyi
para todos x, y ∈ 4 . Esse fato e a particular forma da matriz η mostram que o conjunto de tais

matrizes L coincide com o grupo O(3, 1), que previamente definimos (vide página 582).
Devido à sua grande importância na fı́sica relativı́stica, o grupo O(3, 1) recebe denominação especial,
a saber, é denominado grupo de Lorentz31 , em honra ao grande fı́sico holandês, pioneiro nos estudos da
teoria da relatividade. O(3, 1) é também denotado pelo sı́mbolo L. Os elementos de L são denominados
transformações de Lorentz.
Equivalentemente, o grupo de Lorentz L = O(3, 1) é o grupo de todas as matrizes 4 × 4 que
satisfazem
L−1 = ηLT η.
Como todo elemento L do grupo de Lorentz satisfaz LηLT η = , tem-se det(LηLT η) = 1, ou

seja, det(L)2 = 1 pois det(LηLT η) = det(L) det(η)2 det(LT ), det(η) = −1 e det(L) = det(LT ). Assim,
det(L) = ±1. O subconjunto SO(3, 1) de O(3, 1), formado pelas matrizes L que satisfazem det(L) = +1
é um sub-grupo, denotado também por L+ .
A seguinte proposição sobre o grupo de Lorentz será usada adiante:
Proposição 10.14 Se L ∈ L então LT ∈ L. 2
Prova. Sabemos que para qualquer matriz M vale (M T )T = M e que para qualquer matriz invertı́vel
M vale (M T )−1 = (M −1 )T (por que?). Se L ∈ L, tem-se por definição que L−1 = ηLT η. Assim, como
η T = η, segue que
T
L−1 = ηLη,
ou seja,
−1 T
LT = η LT η,
31
Hendrik Antoon Lorentz (1853-1928).
que é o que se queria provar.
• O Grupo de Poincaré
Retornemos brevemente às transformações afins gerais que preservam intervalos e que, como vimos,
são da forma Lx + t, com t ∈ 4 sendo uma translação e L ∈ L. A composição de duas de tais

transformações L0 x + t0 e Lx + t, é a transformação L0 (Lx + t) + t0 = L0 Lx + L0 t + t0 .

Essa última expressão naturalmente conduz ao seguinte. Seja P := L × 4 o conjunto de todos os
pares ordenados (L, t) com L ∈ L e t ∈ 4 . Então P é um grupo com o produto definido por

(L0 , t0 ) · (L, t) := (L0 L, L0 t + t0 ).

4
Como se vê, esse produto faz de P o produto semi-direto Ls . O produto semi-direto de grupos foi
definido à página 73.
E. 10.64 Exercı́cio. Verifique que o produto acima é de fato associativo. Identifique o elemento neutro
e determine a inversa de cada par (L, t) ∈ P. 6
Esse grupo, que combina transformações de Lorentz e translações, é denominado grupo de Poin-
caré32 em homenagem ao eminente matemático francês que também foi um dos pioneiros da teoria da
relatividade33 . O grupo de Poincaré é o grupo mais geral de transformações afins do espaço-tempo que
mantêm os intervalos invariantes.
Mais adiante (página 640) vamos retornar ao grupo de Poincaré para analisar sua estrutura enquanto
grupo de Lie. Antes, porém, precisamos nos concentrar plenamente no grupo de Lorentz.
10.6.4 Alguns Sub-Grupos do Grupo de Lorentz

Antes de e com o propósito de estudarmos a estrutura do grupo de Lorentz, vamos identificar alguns
de seus sub-grupos mais importantes.
• Troca de Paridade e Reversão Temporal
As seguintes matrizes são elementos do grupo de Lorentz

     
−1 0 0 0 1 0 0 0 1 0 0 0
 0 1 0 0   0 −1 0 0   0 1 0 0 
P1 :=  0
,
 P2 :=  0 0 1 0 ,
 P3 := 
 0
, (10.74)
0 1 0 0 −1 0 
0 0 0 1 0 0 0 1 0 0 0 1
32
33
Vários historiadores da ciência apontaram para o fato que Poincaré, assim como Lorentz, antecedeu Einstein em
alguns aspectos. Poincaré foi o primeiro (em 1905, o ano da publicação do trabalho seminal de Einstein, mas independente
deste) a estudar o caráter de grupo das transformações de Lorentz, tendo provado que toda transformação de Lorentz é
combinação de rotações com um “boost”, fato que estabeleceremos no Teorema 10.8, mais adiante.
e    
−1 0 0 0 1 0 0 0
 0 −1 0 0   0 1 0 0 
P := 
 0
, T :=  . (10.75)
0 −1 0   0 0 1 0 
0 0 0 1 0 0 0 −1
E. 10.65 Exercı́cio importante. Verifique que as cinco matrizes acima são membros do grupo de Lorentz,
ou seja, satisfazem LηLT η = . 6
As matrizes P , P1 , P2 e P3 implementam trocas de paridade, ou seja, reversão da orientação dos

eixos de coordenadas espaciais de pontos de 4 . A matriz T implementa uma reversão temporal, ou

seja, inversão da coordenada temporal de pontos de 4 .
É bastante evidente que (T )2 = (P )2 = (P1 )2 = (P2 )2 = (P3 )2 = e que P = P1 P2 P3 . As matrizes

T, P1 , P2 , P3 geram um sub-grupo do grupo de Lorentz que implementa reversões temporais e de
paridade.
• Os Sub-grupos Rot e SRot
Se R é uma matriz 4 × 4 da forma

 
0
 r0 0 
 
R := 
 0 ,

 
0 0 0 1
onde r0 é uma matriz 3 × 3 pertencente a O(3), então é fácil verificar que R é um elemento do grupo
de Lorentz, ou seja, satisfaz RηRT η = .
E. 10.66 Exercı́cio. Verifique isso, usando os fatos que r0 r0T = e que

 
0
 (r0 )T 0 
 
R := 
T
 0  = R−1 .

 
0 0 0 1
6
É fácil constatar que o conjunto das matrizes da forma de R acima forma um sub-grupo do grupo
de Lorentz. Esse sub-grupo será designado aqui34 por Rot.
E. 10.67 Exercı́cio. Mostre que Rot é isomorfo ao grupo O(3): Rot ' O(3). 6
34
Essa notação não é uniforme na literatura.
Se R é da forma acima, é evidente também que det(R) = det(r0 ). Logo, Rot tem um sub-grupo
SRot de matrizes R com det(R) = 1 da forma
 
0
 r0 0 
 
R :=  0 ,
 
0 0 0 1
onde r0 é uma matriz 3 × 3 pertencente a SO(3).
E. 10.68 Exercı́cio. Mostre que SRot é isomorfo ao grupo SO(3): SRot ' SO(3). 6
E. 10.69 Exercı́cio. Mostre que se R ∈ Rot mas R ∈ SRot então existe matriz R 0 ∈ SRot com
R = P R0 . 6
E. 10.70 Exercı́cio. Mostre que se R ∈ Rot mas R ∈ SRot então existe matriz R 00 ∈ SRot com
R = P1 R00 . 6
As matrizes de SRot implementam rotações puras (sem troca de paridade) nas coordenadas espaciais
4
de .
• Os “Boosts” de Lorentz
Um conjunto muito importante de matrizes de Lorentz é formado pelos chamados “boosts 35 ” de

Lorentz na direção 1. Tais matrizes são da forma
 
γ(v) 0 0 −vγ(v)
 0 1 0 0 
B1 (v) :=  
,
 (10.76)
0 0 1 0
−vγ(v) 0 0 γ(v)
onde
1
γ(v) := √
1 − v2
e v ∈ (−1, 1).
E. 10.71 Exercı́cio muito importante. Verifique que as matrizes B1 (v) acima são membros do grupo
de Lorentz, ou seja, satisfazem B1 (v)ηB1 (v)T η = para todo v ∈ (−1, 1). 6
Outro fato de grande importância é o seguinte: o conjunto de todas as matrizes B 1 (v) com v ∈
(−1, 1) forma um sub-grupo do grupo de Lorentz, denominado sub-grupo dos boosts de Lorentz (na
direção 1) e que designaremos aqui por B1 . Isso decorre do seguinte:
1. Para v = 0
B1 (0) = .
35
Do inglês to boost: impulsionar, propelir, impelir, empurrar.
2. Para todo v ∈ (−1, 1)

B1 (v)−1 = B1 (−v).
3. Para todos v, v 0 ∈ (−1, 1)

0 v0 + v
B1 (v )B1 (v) = B1 . (10.77)
1 + v0v
E. 10.72 Exercı́cio muito importante. Verifique essas três afirmações. 6
Observe-se que o item 3, acima, está intimamente associado à regra relativista de composição de
velocidades.
Segue também de (10.77) que B1 é um sub-grupo Abeliano: B1 (v 0 )B1 (v) = B1 (v)B1 (v 0 ) para todos
v 0 , v ∈ (−1, 1).
E. 10.73 Exercı́cio. Mostre que det(B1 (v)) = 1 para todo v ∈ (−1, 1) e, portanto, B1 ⊂ SO(3, 1).
6
Analogamente aos boosts de Lorentz na direção 1, há os boosts de Lorentz nas direções 2 e 3,
representados por matrizes como
   
1 0 0 0 1 0 0 0
 0 γ(v) 0 −vγ(v)   0 1 0 0 
B2 (v) := 
 0

 e B 3 (v) :=  
 0 0 γ(v) −vγ(v)  . (10.78)
0 1 0
0 −vγ(v) 0 γ(v) 0 0 −vγ(v) γ(v)
Todas as afirmações feitas sobre as matrizes B1 têm seu correspondente análogo para as matrizes B2 e
B3 . Os respectivos sub-grupos são aqui denotados por B2 e B3 .
Geometricamente as matrizes B2 (v) e B1 (v) estão relacionadas por uma matriz de rotação de SRot
que implementa uma rotação de π/2 em torno do eixo 3:
B2 (v) = RB1 (v)RT ,
onde  
0 −1 0 0
 1 0 0 0 
R =  
 0 0 1 0  ∈ SRot.
0 0 0 1
Analogamente, é possı́vel obter a matriz B3 (v) a partir de B1 (v) ou de B2 (v) através de rotações.
E. 10.75 Exercı́cio. Boosts de Lorentz em direções distintas não comutam. Mostre, por exemplo, que
B1 (v)B2 (v 0 ) 6= B2 (v 0 )B1 (v), exceto se v = 0 ou v 0 = 0. 6
Adiante, em nosso estudo da estrutura geral do grupo de Lorentz, mostraremos o quão importantes
os boosts de Lorentz são. A saber, mostraremos que toda matriz de Lorentz é obtida por uma sucessão
de uma rotação, um boost (na direção 1, por exemplo) e eventualmente uma outra rotação. Eventual-
mente trocas de paridade e inversões temporais podem ocorrer também. A afirmação precisa está no
Teorema 10.8.
10.6.5 A Estrutura do Grupo de Lorentz

Antes de iniciar a leitura desta seção o leitor poderá apreciar o estudo do grupo O(1, 1) iniciado à
página 586.
Vamos aqui tentar caracterizar a forma geral de um elemento do grupo de Lorentz O(3, 1). Como
já observamos, O(3, 1) possui um sub-grupo SRot ' SO(3) formado por matrizes da forma
 
0
 r0 0 
 
R :=   0 
,
 
0 0 0 1
onde r0 é uma matriz 3 × 3 pertencente a SO(3).
Vamos no que segue demonstrar o seguinte teorema, que nos fornece a forma geral de toda matriz
L ∈ L e que é de importância em todo estudo detalhado do grupo de Lorentz.
Teorema 10.8 Se L é um elemento do grupo de Lorentz O(3, 1). Como matriz 4 × 4, L é da forma
 
L11 L12 L13 L14
 L21 L22 L23 L24 
L =   L31 L32 L33 L34  .
 (10.79)
L41 L42 L43 L44
Então vale uma das quatro afirmações seguintes:
Ia. det(L) = +1, L44 ≥ +1 e L é da forma
L = Ra B1 (v) Rb ,
para algum v ∈ (−1, 1) e para Ra , Rb ∈ SRot.
Ib. det(L) = +1, L44 ≤ −1 e L é da forma
L = T P Ra B1 (v) Rb ,
IIa. det(L) = −1, L44 ≤ −1 e L é da forma
L = T Ra B1 (v) Rb ,
IIb. det(L) = −1, L44 ≥ +1 e L é da forma
L = P Ra B1 (v) Rb ,
para algum v ∈ (−1, 1) e para Ra , Rb ∈ SRot. 2
A demonstração detalhada deste teorema encontra-se na Seção 10.A, página 652.
• Dois Resultados sobre o Grupo de Lorentz
Proposição 10.15 Se L é um elemento do grupo de Lorentz O(3, 1) e L−1 é sua inversa, então tem-se
que (L−1 )44 = L44 . 2
Prova. A prova é simples, pois sabemos que L−1 = ηLT η. Então, usando-se a representação (10.A.1) e
calculando-se explicitamente, tem-se
   
0 0
 0   l T
b

 0 
   
L −1
=  
0    0 
  
   
T
0 0 0 −1 a L44 0 0 0 −1
 
 lT −b 
 
 
=  ,
 
 
−aT L44
o que leva à constatação que (L−1 )44 = L44 .
Proposição 10.16 Se L e L0 são dois elementos quaisquer do grupo de Lorentz O(3, 1) então tem-se
que
sinal((LL0 )44 ) = sinal(L44 )sinal(L044 ).
2
Prova. Sejam L e L0 duas transformações de Lorentz que, como em (10.A.1), representamos na forma
de blocos    
 l a   l0 a0 
   
  0  
L =  , L =  , (10.80)
   
   
bT L44 b0 T L044
Vamos formar o produto L00 = LL0 e estudar o sinal do elemento L0044 da matriz resultante. Pela regra
de produto de matrizes teremos
L0044 = L44 L044 + bT a0 .

O produto de matrizes bT a0 representa também o produto escalar b · a0 dos vetores b e a0 de

3
(por
que?). Assim,
L0044 = L44 L044 + b · a0 . (10.81)

Há dois casos a considerar: o caso em que sinal(L44 ) = sinal(L044 ) e o caso em que sinal(L44 ) 6=
sinal(L044 ).
1. Caso em que sinal(L44 ) = sinal(L044 ).
Por (10.81) tem-se
L0044 ≥ L44 L044 − |b · a0 |.
Sabemos que b · a0 = kbk ka0 k cos θ, onde kbk é o comprimento de b, ka0 k é o comprimento de a0 e θ é o
ângulo que esses dois vetores formam entre si. É óbvio, portanto, que |b · a0 | ≤ kbk ka0 k (desigualdade
de Cauchy). Assim,
L0044 ≥ L44 L044 − kbk ka0 k. (10.82)
√ √
Pela Proposição 10.21, kbk = |α| e ka0 k = |α0 |. Além disso, L44 = 1 + α2 e L044 = 1 + α0 2 . Assim,
por (10.82), p
√
L0044 ≥ 1 + α2 1 + α0 2 − |α| |α0| > 0.
Portanto,
sinal(L0044 ) = +1 = sinal(L44 ) sinal(L044 ),
2. Caso em que sinal(L44 ) 6= sinal(L044 ).
Por (10.81) tem-se
L0044 ≤ L44 L044 + |b · a0 |.
Sabemos que b · a0 = kbk ka0 k cos θ, onde kbk é o comprimento de b, ka0 k é o comprimento de a0 e θ é o
ângulo que esses dois vetores formam entre si. É óbvio, portanto, que |b · a0 | ≤ kbk ka0 k (desigualdade
de Cauchy). Assim,
L0044 ≤ L44 L044 + kbk ka0 k. (10.83)
√ √
Pela Proposição 10.21, kbk = |α| e ka0 k = |α0 |. Além disso, L44 ± 1 + α2 e L044 = ∓ 1 + α0 2 (pois
sinal(L44 ) 6= sinal(L044 )). Assim, por (10.83),
√ p
L0044 ≤ − 1 + α2 1 + α0 2 + |α| |α0| < 0.
Portanto,
sinal(L0044 ) = −1 = sinal(L44 ) sinal(L044 ),
• Os Sub-grupos Próprio, Ortócrono e Restrito do Grupo de Lorentz
Os conjuntos de transformações de Lorentz que satisfazem as condições Ia, Ib, IIa ou IIb acima
são obviamente conjuntos disjuntos. Não é difı́cil mostrar (mas não o faremos aqui) que cada um é
um conjunto conexo. Portanto, o grupo de Lorentz L = O(3, 1) possui quatro componentes conexas.
Seguindo a convenção, detonaremos essas quatro componentes da seguinte forma:
1. L↑+ := {L ∈ L| det(L) = +1 e sinal(L44 ) = +1},
2. L↑− := {L ∈ L| det(L) = −1 e sinal(L44 ) = +1},
3. L↓+ := {L ∈ L| det(L) = +1 e sinal(L44 ) = −1},
4. L↓− := {L ∈ L| det(L) = −1 e sinal(L44 ) = −1}.
Note-se também que apenas L↑+ contem a identidade . L↑− contem a operação de troca de paridade
P . L↓+ contem a operação de troca de paridade e inversão temporal P T . L↓− contem a operação de
inversão temporal T .
Os conjuntos L↑− , L↓+ e L↓− não são subgrupos de L. Porém, pelas Proposições 10.15 e 10.16, é
muito fácil constatar as seguintes afirmações:
1. L↑+ é um sub-grupo de L, denominado grupo de Lorentz próprio ortócrono ou grupo de Lorentz

restrito.
2. L↑ := L↑+ ∪ L↑− é um sub-grupo de L, denominado grupo de Lorentz ortócrono.
3. L+ := L↑+ ∪ L↓+ é um sub-grupo de L, denominado grupo de Lorentz próprio.
4. L0 := L↑+ ∪ L↓− é um sub-grupo de L, denominado grupo de Lorentz ortócoro.
Note-se que os elementos de ambos os conjuntos L↑+ e L↓+ satisfazem det(L) = 1. Portanto, o grupo
de Lorentz próprio L+ := L↑+ ∪ L↓+ coincide com SO(3, 1). Em L↑ não ocorrem reversões temporais36 .
Note também que SRot é um sub-grupo de L↑+ .
• A Relevância de L+ , L↑ e L↑+ na Fı́sica
É uma crença da Fı́sica atual que L↑+ representa uma simetria da natureza (na ausência de campos
gravitacionais). Essa crença não se estende aos grupos L+ e L↑ . O problema com esses últimos grupos
é que os mesmos envolvem operações de troca de paridade (representada pela matriz P ) ou de reversão
temporal (representada pela matriz T ).
É um fato bem estabelecido experimentalmente que nas chamadas interações fracas da fı́sica das
partı́culas elementares a troca de paridade (representada por matrizes como P ou P 1 ) não é uma
transformação de simetria da natureza.
No contexto da teoria quântica de campos é um fato teórico bem estabelecido que a chamada trans-
formação CPT37 é uma transformação de simetria. Violações dessa simetria não foram empiricamente
observadas na fı́sica as partı́culas elementares. Por isso, a constatação que a simetria CP é violada,
fenômeno observado em certos processos da fı́sica das partı́culas elementares, indica fortemente que
36
Essa a razão da uso da flecha apontando para cima no sı́mbolo L↑ , indicando que o tempo corre na mesma direção
nos sistemas de referência inerciais transformados por L↑ .
37
A chamada transformação CPT envolve as operações sucessivas de troca de carga, ou partı́cula-antipartı́cula, (de-
notada por C), de paridade (denotada por P) e de reversão temporal (denotada por T).
a reversão temporal também não seria uma simetria da natureza. Entretanto, evidências experimen-
tais diretas de que a simetria de reversão temporal é violada não foram ainda encontradas, por serem
de difı́cil constatação. Para mais informações a respeito de simetrias e suas violações na fı́sica das
partı́culas elementares, vide por exemplo [80] ou outros livros introdutórios sobre a fı́sica das partı́culas
elementares.
• L↑+ é um Sub-grupo Normal de L
Vamos aqui provar a seguinte proposição sobre L↑+ :

Proposição 10.17 L↑+ é um sub-grupo normal do grupo de Lorentz. 2
Prova. Tudo o que temos que fazer é provar que se L ∈ L↑+ e G ∈ L, então G−1 LG ∈ L↑+ . Isso equivale
a provar que det(G−1 LG) = 1 e que sinal((G−1 LG)44 ) = 1.
Como det(L) = 1, tem-se obviamente que
det(G−1 LG) = det(G−1 ) det(L) det(G) = det(G−1 ) det(G) = det(G−1 G) = det( ) = 1.
Analogamente, pela Proposição 10.16 vale

sinal((G−1 LG)44 ) = sinal((G−1 L)44 ) sinal(G44 ) = sinal((G−1 )44 ) sinal(L44 ) sinal(G44 )
= sinal((G−1 )44 ) sinal(G44 ) = sinal(G44 )2 = 1,

onde usamos a Proposição 10.15 na penúltima igualdade. Isso completa a prova.
E. 10.77 Exercı́cio. Mostre que o grupo quociente L/L↑+ é isomorfo ao grupo gerado por P1 e T . 6
10.6.6 Os Geradores do Grupo de Lorentz
• Os Geradores dos Boosts de Lorentz
Vamos reparametrizar os boosts de Lorentz B1 , B2 e B3 , introduzindo um novo parâmetro z =

arctanh v, ou seja v = tanh z, com −∞ < z < ∞. Na literatura fı́sica, z é por vezes denominado
“rapidez”. Definindo Ba (z) = Ba (tanh z), a = 1, 2, 3, temos, explicitamente
   
cosh z 0 0 − senh z 1 0 0 0
   
B1 (z) = 
0 1 0 0  , B2 (z) := 0 cosh z 0 − senh z  ,
 0 0 1 0  0 0 1 0 
− senh z 0 0 cosh z 0 − senh z 0 cosh z
 
1 0 0 0
0 1 0 0 
B3 (z) := 
0
.
0 cosh z − senh z 
0 0 − senh z cosh z
As relações de composição (10.77) ficam

Ba (z)Ba (z 0 ) = Ba (z + z 0 ), a = 1, 2, 3.
tanh(x)+tanh(y)
E. 10.78 Exercı́cio. Mostre isso usando (10.77) e a identidade bem conhecida tanh(x+y) = 1+tanh(x) tanh(y)
.
Alternativamente, use a forma explı́cita das matrizes B a (z) dada acima. 6
Como Ba (0) = , constatamos que {Ba (z), −∞ < z < ∞}, a = 1, 2, 3, são três subgrupos
uniparamétricos do grupo de Lorentz. Seus geradores são

d
Ma := Ba (z) , a = 1, 2, 3,
dz z=0
explicitamente dados por

     
0 0 0 −1 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 −1 0 0 0 0
M1 =  0 0
, M2 =  , M3 =  . (10.84)
0 0 0 0 0 0 0 0 0 −1
−1 0 0 0 0 −1 0 0 0 0 −1 0
É também importante notar que

Ba (z) = exp(zMa )
para a = 1, 2, 3.
E. 10.79 Exercı́cio. Verifique isso usando as formas explı́citas dos geradores M a dadas acima. 6
• Os geradores de SRot
Além dos boosts de Lorentz, consideremos também os três sub-grupos uniparamétricos de SRot
dados por
   
1 0 0 0 cos φ2 0 sen φ2 0
 0 cos φ1 − sen φ1 0   0 1 0 0 
R1 (φ1 ) = 
 0 sen φ1 cos φ1 0  ,
 R2 (φ2 ) =  − sen φ2
,
0 cos φ2 0 
0 0 0 1 0 0 0 1
 
cos φ3 − sen φ3 0 0
 sen φ3 cos φ3 0 0 
R3 (φ3 ) = 

,
0 0 1 0 
0 0 0 1
que representam rotações por ângulos φ1 , φ2 e φ3 ∈ (−π, π] no sentido horário em torno dos eixos
espaciais 1, 2 e 3, respectivamente. Em completa analogia com o grupo SO(3), seus geradores são

d
Ja := Ra (φ) , a = 1, 2, 3.
dφ φ=0
É óbvio que  
0
 Ja 0 
 
Ja = 
 0 ,

 
0 0 0 0
onde Ja são os geradores de SO(3) dados em (10.29)-(10.31), página 591. Explicitamente, tem-se
     
0 0 0 0 0 0 1 0 0 −1 0 0
0 0 −1 0    
J1 =   J2 =  0 0 0 0 , J3 = 1 0 0 0 . (10.85)
0 1 0 0  −1 0 0 0   0 0 0 0
0 0 0 0 0 0 0 0 0 0 0 0
E. 10.80 Exercı́cio muito importante. Todo estudante tem que fazê-lo ao menos uma vez na vida. Mos-
tre que os geradores, Ma e Jb , com a, b = 1, 2, 3, satisfazem as seguintes relações de comutação:
3
X
[Ja , Jb ] = εabc Jc , (10.86)
k=1
3
X
[Ma , Mb ] = − εabc Jc , (10.87)
k=1
3
X
[Ja , Mb ] = εabc Mc . (10.88)
k=1
É claro de (10.86)-(10.88) que os seis geradores Ma e Jb formam uma álgebra de Lie, a álgebra de
Lie do grupo de Lorentz. Sabemos que não há mais geradores independentes pois, como provamos,
todo elemento do grupo de Lorentz é produto de boosts e rotações.
De (10.87) percebemos o fato notável que os três geradores dos sub-grupos de boost por si só não for-
mam uma álgebra de Lie! Para tal, é preciso incluir os geradores dos sub-grupos de rotação! Isso releva
uma relação insuspeita, mas profunda, entre os boosts (que fisicamente representam transformações
entre sistemas de referência inerciais com velocidades relativas não-nulas) e as rotações espaciais, pois
indica que as rotações espaciais podem ser geradas a partir de boosts. Isso é uma caracterı́stica especial
da fı́sica relativista (vide a comparação com o grupo de Galilei, abaixo) e está relacionada a alguns
fenômenos fı́sicos, como a chamada precessão de Thomas, importante na discussão do chamado fator
giromagnético do elétron. Vide qualquer bom livro sobre Mecânica Quântica Relativista (por ex. [109]).
• Revisitando o Teorema 10.8
Como vimos no Teorema 10.8, página 632, toda L ∈ L↑+ é da forma L = Ra B1 (v)Rb , com
Ra , Rb ∈ SRot. Escrevendo v = tanh θ, ficamos com L = Ra B1 (θ)Rb ou, usando o gerador M1 , L =
Ra exp(θM1 )Rb . Isso, por sua vez pode ser reescrito como L = Ra exp(θM1 )RaT R = exp(θRa M1 RaT )R,
onde R := Ra Rb ∈ SRot.
P
Vamos agora escrever Ra na forma Ra = exp(J), onde J = 3k=1 αk Jk para certos αk ’s reais. Pela
expressão (4.39), página 231 (vide também a série completa em (4.38)), teremos
1 1
Ra M1 RaT = exp(J)A exp(−J) = M1 + [J, M1 ] + [J, [J, M1 ]] + [J, [J, [J, M1 ]]] + · · · ,
2! 3!
sendo a série do lado direito convergente. O fato importante a notar é que, por (10.88), os comutadores
múltiplos [J, · · · [J, M1 ]] são combinações lineares de M1 , M2 e M3 . A conclusão disso está expressa
no seguinte teorema.
P P
Teorema 10.9 Toda L ∈ L↑+ é da forma L = exp(M) exp(J), onde J = 3k=1 βk Jk e M = 3k=1 γk Mk ,
sendo que os βk ’s e γk ’s são números reais. 2
A interpretação desse teorema é que toda transformação de Lorentz (de L ↑+ ) pode ser obtida como
uma rotação (definida por exp(J) ∈ SRot) seguida de um boost em uma certa direção (que é definida
pelas componentes de M).
Invertendo ordens na prova acima, o leitor se convence
P facilmente que Ptodo L ∈ L↑+ também pode
ser escrito como L = exp(J0 ) exp(M0 ), para outros J0 = 3k=1 βk0 Jk e M0 = 3k=1 γk0 Mk .
Por
P3fim, 0 advertimos
o estudante do fato que, por (10.87), o conjunto das matrizes da forma
exp k=1 ak Mk , ak ∈ , não formam um subgrupo de L↑+ .

• O Grupo de Galilei
E. 10.81 Exercı́cio. Mostre que as transformações de Galilei38 da mecânica clássica podem ser repre-
sentadas como um grupo de matrizes 4 × 4, da forma
 
−v1
 r0 −v2 
 

G(r0 , ~v ) :=  −v3  ,
 
0 0 0 1
onde r0 é uma matriz 3 × 3 pertencente a O(3) e vj ∈ (−∞, ∞). Mostre que tais matrizes formam um
grupo de Lie, determinando também G(r0 , ~v )−1 e a regra de produto G(r0 , ~v )G(r00 , ~v 0 ). 6
Determine seus três sub-grupos de boost, seus três sub-grupos de rotação e os seis geradores desses
sub-grupos. Em seguida calcule as relações de comutação desses seis geradores. Compare com o que
ocorre com o grupo de Lorentz.
3
E. 10.82 Exercı́cio. Constate que o grupo de Galilei é isomorfo ao grupo O(3)s . 6
38
Galileu Galilei (1564-1642).
10.7 O Grupo de Poincaré

O chamado grupo de Poincaré (em 3+1 dimensões) é definido como sendo o grupo P := O(3, 1)s 4 .
Seus elementos são, portanto, pares ordenados (L, x) com L ∈ O(3, 1) e x ∈ 4 , sendo o produto
dado por (L, x) · (L0 , x0 ) = (LL0 , Lx0 + x). Sua ação no espaço-tempo 4 é interpretada como uma

transformação de Lorentz seguida de uma translação.

Há um subgrupo de GL( , 5) que é isomorfo a P. Sejam as matrizes reais 5 × 5

 
 
 L x 
  4
P (L, x) :=  , com L ∈ O(3, 1) e x ∈ .
 

 
0 1
Então, tem-se
P (L, x) P (L0 , x0 ) := P (LL0 , Lx0 + x) .
E. 10.83 Exercı́cio importante. Mostre isso. 6
4
Assim, o conjunto de matrizes {P (L, x) ∈ GL( , 5), com L ∈ O(3, 1) e x ∈
} forma um sub-
grupo de GL( , 5) que é isomorfo a P. Também denotaremos esse grupo por P.

E. 10.84 Exercı́cio. Prove essa última afirmativa. 6
O chamado grupo de Poincaré próprio ortócrono, denotado por P ↑+ é o grupo P↑+ := L↑+ s
4
.
• Os Geradores do Grupo de Poincaré
De maneira totalmente análoga ao que fizemos no grupo Euclidiano, podemos determinar os gera-
dores do grupo P↑+ . Este possui 10 geradores. Seis da forma
   
   
 Mk 0   Jk 0 
   
mk :=   ou jk :=   com k = 1, 2, 3,
   
   
0 0 0 0
onde Mk e Jk são as matrizes 4 × 4 definidas em (10.84) e (10.85), respectivamente, e quatro da forma

 
 
 0 xk 
 
pk :=   com k = 1, . . . , 4,
 
 
0 0
onde        
1 0 0 0
0  1  0  0 
x1 :=  
0  , x2 :=  
0  , x3 :=  
1  , x4 :=  
0  .
0 0 0 1
As relações de comutação associadas ao grupo de Poincaré são:
3
X
[ja , jb ] = εabc jc , (10.89)
k=1
3
X
[ma , mb ] = − εabc jc , (10.90)
k=1
3
X
[ja , mb ] = εabc mc , (10.91)
k=1
[pa , pb ] = 0, (10.92)
3
X
[ja , pb ] = (1 − δb4 ) εabc pc , (10.93)
k=1
[ma , pb ] = − (δab p4 + δb4 pa ) . (10.94)

Aqui, os ı́ndices dos m’s e j’s variam de 1 a 3 e os ı́ndices dos p’s variam de 1 a 4.
E. 10.85 Exercı́cio importante. Todo estudante deve fazê-lo uma vez na vida. Verifique isso. 6
As três primeiras relações acima seguem de (10.86)-(10.88), página 638. A relação (10.93) diz que
os j’s comutam com p4 e, nos demais casos, tem-se a última relação de (10.61).
Novamente constatamos que a sub-álgebra gerada pelos p’s é um ideal de álgebra de Lie do grupo
de Poincaré.
• O grupo P↑+ em 1+1-dimensões
Com base no nosso estudo do grupo O(1, 1) (vide Seção 10.3.1, em especial, página 586), sabemos
que o grupo P↑+ em 1+1-dimensões é isomorfo ao grupo de matrizes da forma
 
cosh z − senh z x1
− senh z cosh z x2 
0 0 1
com z, x1 , x2 ∈ . Seus geradores serão

     
0 −1 0 0 0 1 0 0 0
m1 := −1 0 0 , p1 := 0 0 0 , p2 := 0 0 1 .
0 0 0 0 0 0 0 0 0
Como é fácil de verificar, as relações de comutação entre esses geradores são
[m1 , p1 ] = −p2 , [m1 , p2 ] = −p1 , [p1 , p2 ] = 0.
Um elemento genérico dessa álgebra de Lie é da forma

 
 M t 
 
I(M, t) := 



 
0 0 0
onde
0 −z t1
M = zm1 = e t = t 1 p1 + t 2 p2 =
−z 0 t2
com z, t1 , t2 ∈ . É um exercı́cio fácil (faça-o) constatar que para todo k ∈ , k ≥ 1, tem-se

I(M, t)k = I Mk , Jk−1 t .
Conseqüentemente, vale que

 
∞ ∞  t0 
X 1 X 1  L 
exp (I(M, t)) = + I(M, t)k = + I M , M t = 
k k−1

 ,

k=1
k! k=1
k!  
0 0 1
onde
cosh z − senh z
L := e M
= e t0 = f (M)t ,
− senh z cosh z
sendo f a função analı́tica inteira definida em (10.62). A matriz f (M) pode ser calculada facilmente
usando-se o fato que
2k 2k+1
0 −1 0 −1 0 −1
= e = , k∈ ,
−1 0 −1 0 −1 0

de onde se extrai
X∞
1 k−1
f (M) := + J
k=2
k!
∞
X X∞
1 2m−1 1
= + J + J2m
m=1
(2m)! m=1
(2m + 1)!
X∞ X ∞
z 2m−1 0 −1 z 2m
= +
m=1
(2m)! −1 0 m=0
(2m + 1)!

cosh z − 1 0 −1 senh z
= +
z −1 0 z
 
senh z cosh z − 1
 − 
 z z 
=   .
 cosh z − 1 senh z 
−
z z
Notemos que
cosh z − 1
det f (M) = 2 6= 0
z2

x1
−1 2
para z ∈ . Assim, f (M) é invertı́vel e se escolhermos t = f (M) x, para qualquer x = ∈
x2

teremos
 
 
 L x  cosh z − senh z x
  1
exp I(M, f (M) x) = 
−1

 = − senh z cosh z x2  .

  0 0 1
0 0 1
Isso prova que todo elemento do grupo P↑+ em 1+1 dimensões pode ser escrito como exponencial de
um elemento da sua própria álgebra de Lie.
10.8 SL( , 2) e o Grupo de Lorentz

Nesta seção discutiremos com algum detalhe a relação entre SL( , 2) (introduzido na Seção 10.3.5,
página 602) e o Grupo de Lorentz em 3+1 dimensões, relação esta de grande importância em Fı́sica,
especialmente no estudo da equação de Dirac39 para o elétron e na Teoria Quântica de Campos.
• Automorfismos de SL( , 2)
39
Paul Adrien Maurice Dirac (1902-1984).
Com o propósito de preparar a discussão sobre a relação entre SL( , 2) e o Grupo de Lorentz,
vamos em primeiro lugar discutir alguns automorfismos do grupo SL( , 2).

0 −1
Seja τ := −iσ2 = ∈ SL( , 2). Definimos ϕτ : SL( , 2) → SL( , 2) por
1 0
ϕτ (A) := τ Aτ −1 .
Então, ϕτ é um automorfismo de SL( , 2). De fato, vê-se trivialmente que ϕτ é bijetora e que
ϕτ (AB) = ϕτ (A)ϕτ (B) para todos A, B ∈ SL( , 2) (prove isso!).
Para uma matriz M ∈ Mat ( , 2) denotamos
por M a matriz obtida tomando-se o complexo
conjugado dos elementos de matriz de M : M ij = Mij . Sabe-se que det(M ) = det(M ), portanto, se
A ∈ SL( , 2) então A ∈ SL( , 2).
Assim, seja ϕ1 : SL( , 2) → SL( , 2) definida por
ϕ1 (A) := A.
Então, ϕ1 é também um automorfismo de SL( , 2). De fato, vê-se trivialmente que ϕ1 é bijetora e que
ϕ1 (AB) = ϕ1 (A)ϕ1 (B) para todos A, B ∈ SL( , 2) (prove isso!).
Note que ϕ1 (ϕ1 (A)) = A, ou seja, ϕ1 ◦ ϕ1 é a identidade.
O grupo SL( , 2) possui um outro automorfismo de interesse. Se det(A) = 1 é fácil ver que
igualmente tem-se det ((A∗ )−1 ) = 1. Definimos então ϕ2 : SL( , 2) → SL( , 2) por
ϕ2 (A) := (A∗ )−1 = (A−1 )∗ .
Novamente, é fácil ver que ϕ2 é bijetora e que e que ϕ2 (AB) = ϕ2 (A)ϕ2 (B) para todos A, B ∈ SL( ,
2) (prove isso!).

a b
Há uma relação entre os automorfismos ϕτ , ϕ1 e ϕ2 . Se A ∈ SL( , 2) é da forma A = ,
c d

d −c
uma conta simples (faça!) mostra que (A∗ )−1 = . Daı́, é fácil constatar que (A∗ )−1 = τ Aτ −1
−b a
(faça essa constatação!). Concluı́mos assim que ϕ2 = ϕτ ◦ ϕ1 . Portanto, vale também que
ϕ2 ◦ ϕ 1 = ϕ τ . (10.95)
Todos esses fatos serão usados na Seção 10.8, onde discutiremos em detalhe a importante e surpre-
endente relação entre SL( , 2) e o Grupo de Lorentz.
• SL( , 2) e o Espaço de Minkowski
Por Herm ( , 2) designamos o sub-espaço (real) de Mat ( , 2), formado por todas as matrizes
complexas 2 × 2 e Hermitianas: Herm ( , 2) := {M ∈ Mat ( , 2)| M ∗ = M }. É fácil ver que
existe uma correspondência biunı́voca entre Herm ( , 2) e 4 (e, portanto, entre Herm ( , 2) e o

espaço-tempo de Minkowski40 quadridimesional). De fato, como , σ1 , σ2 , σ3 formam uma base em

40
Hermann Minkowski (1864-1909).
Mat ( , 2), podemos escrever toda matriz M ∈ Herm ( , 2) na forma

m4 + m3 m1 − im2
M = m 4 + m 1 σ1 + m 2 σ2 + m 3 σ3 , = ,
m1 + im2 m4 − m3
com m4 , m1 , m2 , m3 ∈ . Porém, como as matrizes de Pauli e são auto-adjuntas, a condição de M
ser Hermitiana, ou seja, M ∗ = M , significa
m 4 + m 1 σ1 + m 2 σ2 + m 3 σ3 = m 4 + m 1 σ1 + m 2 σ2 + m 3 σ3 ,
ou seja, mk ∈ , k = 1, . . . , 4. Logo,

( 3 )
X m4 + m3 m1 − im2
Herm ( , 2) = m4 + m k σk , = com m1 , m2 , m3 , m4 ∈ .
m1 + im2 m4 − m3

k=1
(10.96)
Antes de prosseguirmos, façamos algumas observações sobre a relação entre Herm ( , 2) e SL( , 2).
Se A é uma matriz qualquer de Mat ( , 2) e M ∈ Herm ( , 2), é fácil constatar que AM A ∗ também
é um elemento de Herm ( , 2). De fato (AM A∗ )∗ = AM A∗ , provando que AM A∗ é Hermitiana. É
claro que isso também vale para A ∈ SL( , 2). Nesse caso, porém, tem-se a seguinte proposição.
Proposição 10.18 Se A ∈ SL( , 2) é tal que AM A∗ = M para toda M ∈ Herm ( , 2), então
A=± . 2
Prova. Como AM A∗ = M para toda M ∈ Herm ( , 2) e ∈ Herm ( , 2), segue que A∗ = A−1 . Logo,
AM A−1 = M para toda M ∈ Herm ( , 2), ou seja, AM = M A para toda M ∈ Herm ( , 2). Ocorre,
porém, que toda matriz Q ∈ Mat ( , 2) pode ser escrita como Q = Q1 + iQ2 com
1 1
Q1 := (Q + Q∗ ), Q2 := (Q − Q∗ )
2 2i
onde Q1 e Q2 são ambas Hermitianas (verifique!). Logo, como A comuta com todas as matrizes
Hermitianas, A comuta com todas as matrizes de Mat ( , 2). Isso só é possı́vel se A for um múltiplo
da matriz identidade: A = λ (vide Proposição 1.9, página 72). Como det(A) = 1, segue que λ 2 = 1,
ou seja, A = ± , que é o que querı́amos mostrar.
Essa proposição tem a seguinte conseqüência:

Proposição 10.19 Se A, B ∈ SL( , 2) são tais que AM A∗ = BM B ∗ para todas as matrizes M ∈
Herm ( , 2), então A = ±B. 2
Prova. A relação AM A∗ = BM B ∗ implica CM C ∗ = M , onde C = B −1 A ∈ SL( , 2). Pela proposição

anterior, C = ± , terminando a prova.
x
1
4 x2
Seja x ∈ ,x= x3 , e seja
x4
M (x) := x4 + x1 σ1 + x2 σ2 + x3 σ3 (10.97)
o elemento correspondente de Herm ( , 2). É fácil ver que M : 4 → Herm ( , 2) é bijetora e linear:

M (αx + βy) = αM (x) + βM (y) para todos α, β ∈ e todos x, y ∈ 4 .

4
E. 10.86 Exercı́cio. Mostre que as quatro componentes do vetor x ∈ podem ser recuperadas de
M (x) pelas seguintes expressões:
1 1 1
x4 = Tr ( M (x)) = Tr (M (x)) e xi = Tr (σi M (x)), i = 1, 2, 3.
2 2 2
6
Em resumo, denotando σ4 = , tem-se

1
xµ = Tr (σµ M (x)), µ = 1, . . . , 4. (10.98)
2
É um exercı́cio fácil e importante para o que segue verificar que

x4 + x3 x1 − ix2
− det(M (x)) = − det = x21 + x22 + x23 − x24 = hx, ηxi ,
x1 + ix2 x4 − x3

onde η é a matriz 4 × 4 definida em (10.63). Como se vê, surge (milagrosamente!) a métrica do

espaço-tempo de Minkowski do lado direito, o que indica a existência de uma conexão insuspeita entre
a relatividade restrita e a teoria das matrizes Hermitianas 2 × 2. Vamos explorar as conseqüências
desse fato.
Em primeiro lugar, notemos que para dois vetores x, y ∈ 4 quaisquer tem-se a seguinte identi-

dade41 :
1
hx, ηyi = [h(x + y), η(x + y)i − h(x − y), η(x − y)i ] .
4

E. 10.87 Exercı́cio. Verifique isso expandindo o lado direito. 6
Assim, podemos escrever

1
hx, ηyi = − [det(M (x + y)) − det(M (x − y))] . (10.99)
4

Seja agora A um elemento de SL( , 2). Se M ∈ Herm ( , 2), como já observamos, AM A∗ também
é um elemento de Herm ( , 2). Como A(BM B ∗ )A∗ = (AB)M (AB)∗ é fácil ver (faça!) que
α : SL( , 2) × Herm ( , 2) → Herm ( , 2)
definida por
α(A, M ) := AM A∗
é uma ação à esquerda de SL( , 2) sobre Herm ( , 2).
41
Chamada de identidade de polarização.
Para quaisquer x ∈ 4 e A ∈ SL( , 2) teremos que α(A, M (x)) = AM (x)A∗ é Hermitiana. Como

o lado direito depende linearmente de x, existe uma matriz real 4 × 4 que denotaremos por L[A] tal
que
α(A, M (x)) = AM (x)A∗ = M (L[A]x). (10.100)
Formalmente podemos definir L[A] da seguinte forma. Como M : 4 → Herm ( , 2) é bijetora,
definimos
L[A]x := M −1 ( α(A, M (x)) ) = M −1 ( AM (x)A∗ ), (10.101)
4
para todo x ∈ . Em componentes tem-se, usando (10.98),
X4
1 1
(L[A]x)µ = Tr (σµ AM (x)A∗ ) = Tr (σµ Aσν A∗ )xν ,
2 ν=1
2
(verifique!) e, portanto, L[A] é uma matriz 4 × 4 com elementos de matriz

1
L[A]µν = Tr (σµ Aσν A∗ ), (10.102)
2
µ, ν = 1, . . . , 4.
E. 10.88 Exercı́cio importante. Usando a Proposição 10.19, mostre que L[A] = L[B] se e somente se
A = ±B. 6
E. 10.89 Exercı́cio importante. Mostre que L[A]L[B] = L[AB] para todos A, B ∈ SL( , 2). Su-
gestão: use a definição (10.101), não (10.102). 6
4 4
E. 10.90 Exercı́cio. Mostre que l : SL( , 2)× → definida por l(A, x) = L[A]x é uma ação de
SL( , 2) sobre 4 . 6
O ponto importante de tudo isso, e que iremos mostrar agora, é que L[A] é uma matriz de Lorentz,
ou seja, é um elemento de O(3, 1)! Para isso, faremos uso de (10.99). De fato, temos por (10.99) que
1
hL[A]x, ηL[A]yi = − [det(M (L[A](x + y))) − det(M (L[A](x − y)))]
4

1
= − det(M (M −1 ( AM (x + y)A∗ ))) − det(M (M −1 ( AM (x − y)A∗ )))
4
1
= − [det( AM (x + y)A∗ ) − det( AM (x − y)A∗ )]
4
det(A) det(A∗ )
= − [det(M (x + y)) − det(M (x − y))]
4
1
= − [det(M (x + y)) − det(M (x − y))]
4
= hx, ηyi .
Na penúltima igualdade usamos que det(A∗ ) = det(A) = 1, pois A ∈ SL( , 2).

Ficou estabelecido, então, que hL[A]x, ηL[A]yi = hx, ηyi e, portanto, L[A] ∈ O(3, 1), ou seja,

L[A] é uma transformação de Lorentz. Isso provou também que há um homomorfismo de SL( , 2) no
grupo de Lorentz O(3, 1), a saber, A → L[A]. É bom notar que não se trata de um isomorfismo, pois
L[A] = L[−A], como já observamos.
Não é difı́cil mostrar, mas não faremos aqui42 , que L[A] definida acima não é apenas um elemento
do grupo de Lorentz completo O(3, 1), mas de seu sub-grupo de Lorentz próprio ortócrono L ↑+ . É
trivial, por exemplo, constatar usando (10.102) que L[A]44 > 0 para qualquer A ∈ SL( , 2). Como o
conjunto de matrizes {L[A], A ∈ SL( , 2)} evidentemente contem a identidade , basta apenas provar
que o mesmo é conexo.
• Os Grupos SL( , 2)/{− , } e L↑+ são Isomorfos
Um fato muito importante é que a aplicação Φ1 : SL( , 2)/{− , } → L↑+ definida por
Φ1 (±A) := L[A] (10.103)
é um isomorfismo entre os grupos SL( , 2)/{− , } e L↑+ . A prova dessa afirmação, muito importante
na teoria dos spinores, é apresentada na Seção 10.B, página 662. Notemos que pelos exercı́cios da
página 647, acima, resta apenas provar que Φ1 é sobrejetora, o que é feito na Seção 10.B.
Φ1 não é o único isomorfismo relevante entre esses dois grupos e apresentaremos mais três logo
abaixo para em seguida discutir o significado de todos eles.
O fato de haver isomorfismos de SL( , 2)/{− , } no grupo de Lorentz próprio ortócrono L ↑+ é de
grande importância na fı́sica relativista, em particular na Teoria Quântica de Campos, por mostrar que
as transformações de Lorentz (próprias e ortócronas) podem ser implementadas para partı́culas de spin
1/2 (cujas funções de onda vivem em 2 ) através de elementos de SL( , 2). As rotações SRot ⊂ L↑+ ,
por exemplo, são implementadas pela imagem por Φ−1 1 dos elementos do sub-grupo SU(2)/{− , }
de SL( , 2)/{− , } (lembre-se que SU(2)/{− , } é isomorfo a SO(3), que é isomorfo a SRot).
O boost de velocidade v na direção ~η ∈ 3 é implementado pela imagem por Φ−1

1 dos elementos
± exp((tanh v) ~η · ~σ ) ∈ SL( , 2).
E. 10.91 Exercı́cio. Prove os fatos mencionados no parágrafo precedente. Sugestão: vide [94] ou [44].
6
• Outros Isomorfismos entre L↑+ e SL( , 2)/{− , }
Usando os automorfismos ϕ1 e ϕ2 de SL( , 2) definidos à página 644 podemos construir mais três
ações de SL( , 2) sobre Herm ( , 2) com o uso da ação α definida em (10.100). Essas ações são
42
Vide, por exemplo, [94] ou [44].
denotadas aqui por α̇, αc e α̇c e são definidas da seguinte forma:

∗
α̇(A, M ) := α(ϕ1 (A), M ) = AM A , (10.104)
αc (A, M ) := α(ϕ2 (A), M ) = (A∗ )−1 M A−1 , (10.105)
α̇c (A, M ) := α(ϕ2 ◦ ϕ1 (A), M ) = α(ϕτ (A), M ) = τ Aτ −1 M τ A∗ τ −1 . (10.106)

Na última linha usamos (10.95). Do fato de ϕτ , ϕ1 e ϕ2 serem automorfismos, segue trivialmente que
essas são de fato ações de SL( , 2) sobre Herm ( , 2).
Analogamente à definição de L[A] em (10.101), definimos
L̇[A] x := M −1 ( α̇(A, M (x)) ), (10.107)
Lc [A] x := M −1 ( αc (A, M (x)) ), (10.108)
L̇c [A] x := M −1 ( α̇c (A, M (x)) ). (10.109)

É imediato constatar que

L̇[A] = L [ϕ1 (A)] = L A , (10.110)

Lc [A] = L [ϕ2 (A)] = L (A∗ )−1 , (10.111)

L̇c [A] = L [ϕτ (A)] = L τ Aτ −1 . (10.112)
Do fato de ϕτ , ϕ1 e ϕ2 serem automorfismos, segue igualmente que

Φ1 (±A) := L[A], (10.113)
Φ2 (±A) := L̇[A], (10.114)
Φ3 (±A) := Lc [A], (10.115)
Φ4 (±A) := L̇c [A] (10.116)

são isomorfismos de SL( , 2)/{− , } em L↑+ . Isso claramente significa que as inversas Φ−1
i : L↑+ →
SL( , 2)/{− , }, i = 1, . . . , 4, são representações de L↑+ em 2 .
A representação Φ−1 −1
2 é por vezes denominada complexo conjugada e a representação Φ 4 é por vezes
denominada contra-gradiente.
• Spinores
Em termos fı́sicos, se tivermos uma transformação de Lorentz L ∈ L↑+ podemos implementá-la em 2

de quatro formas, de acordo com cada uma das quatro representações Φ−1 i dadas acima. Quantidades
2
fı́sicas vivendo em e que se transformem por transformações de Lorentz de acordo com alguma
dessas quatro representações são denominadas spinores. Há, portanto, quatro tipos de spinores. De
acordo com uma convenção (que, segundo Haag [49], foi introduzida por Van der Waerden em [127])
costuma-se denotar suas componentes da seguinte forma:
1. As componentes de spinores Ψ ∈ 2
que se transformam de acordo com Φ−1
1 são denotados por
ı́ndices inferiores: Ψr , r = 1, 2.
2. As componentes de spinores Ψ ∈ 2 que se transformam de acordo com Φ−1

ı́ndices inferiores com um ponto: Ψṙ , r = 1, 2.
3. As componentes de spinores Ψ ∈ 2 que se transformam de acordo com Φ−1

ṙ
ı́ndices superiores com um ponto: Ψ , r = 1, 2.
4. As componentes de spinores Ψ ∈ 2
que se transformam de acordo com Φ−1
ı́ndices superiores: Ψr , r = 1, 2.
Spinores com ponto e sem (em inglês: “dotted spinors” e “undotted spinors”, respectivamente)
podem ser relacionados por conjugação complexa.
E. 10.92 Exercı́cio. Justifique essa afirmativa. 6
Para U ∈ SU(2), vale U = τ U τ −1 (verifique), de modo que, no que concerne ao grupo de rotações,
a diferença entre “undotted spinors” e “dotted spinors” é uma rotação de π em torno do eixo 2. Para
um boost B(v, ~η ) = exp((tanh v) ~η · ~σ ) ∈ SL( , 2) com η~ = (η1 , η2 , η3 ) teremos B(v, η~) = B(v, ~η r ),
onde ~η r = (η1 , −η2 , η3 ). Isso pois σ1 = σ1 , σ3 = σ3 mas σ2 = −σ2 . Logo,
B(v, ~η ) = τ B(−v, ~η )τ −1 .
Assim, no que concerne aos boosts de Lorentz, a diferença entre “undotted spinors” e “dotted spinors”
é uma reversão temporal (representada aqui pela troca v → −v) seguida de rotação de π em torno do
eixo 2.
Todas as considerações acima sobre “undotted spinors” e “dotted spinors” são de relevância na
mecânica quântica relativista, particularmente para a célebre equação de Dirac para o elétron 43 .
• Formas invariantes de spinores
A seguinte proposição é freqüentemente empregada na teoria dos spinores.

0 −1
Proposição 10.20 Seja τ := −iσ2 = ∈ SL( , 2). Então, para todo A ∈ SL( , 2) tem-se
1 0
AT τ A = τ . 2
Prova. Seja A = exp(α1 σ1 +α2 σ2 +α3 σ3 ) ∈ SL( , 2), com αk ∈ , k = 1, 2, 3. Então, AT = exp(α1 σ1 −
α2 σ2 + α3 σ3 ), pois σ1T = σ1 , σ3T = σ3 mas σ2T = −σ2 . Assim, AT τ = −iAT σ2 = −iσ2 σ2 AT σ2 =
τ exp (σ2 [α1 σ1 − α2 σ2 + α3 σ3 ] σ2 ) = τ exp(−α1 σ1 −α2 σ2 −α3 σ3 ) = τ A−1 onde, na penúltima igualdade,
usamos as propriedades de anti-comutação das matrizes de Pauli. Isso completa a prova.
43
Para um artigo clássico sobre o assunto, vide: O. Laporte and G. E. Uhlenbeck. “Application of spinor analysis
for the Maxwell and Dirac equations”. Phys. Rev. 37, 1380 (1931). Outra referência clássica é [127]. Vide também
qualquer bom livro moderno sobre Teoria Quântica de Campos.
Uma conseqüência dessa proposição é que se definirmos, para ψ, φ ∈ 2 , a forma bilinear (simplética)
ωτ (ψ, φ) := hψ, τ φi , teremos ωτ (Aψ, Aφ) = ωτ (ψ, φ) para todo A ∈ SL( , 2).

Apesar de invariante por SL( , 2), a forma bilinear ωτ acima não é interessante para a fı́sica
quântica, pois não é um produto escalar (tem-se, por exemplo, ωτ (ψ, ψ) = 0 ∀ψ ∈ 2 ) e, portanto,
não existe uma interpretação probabilı́stica associada à mesma. Para que a simetria L ↑+ implementada
por SL( , 2) represente uma simetria de um sistema quântico cujo espaço de Hilbert é 2 , devemos
procurar um produto escalar em 2 que seja invariante por SL( , 2). Veremos, porém, que um tal
produto escalar não existe.
Vamos estudar a forma mais geral de um produto escalar em 2 . Como já observamos à página
130 e anteriores, a forma mais geral de um produto escalar em 2 é hψ, M φi , onde M é autoadjunta
e positiva. Toda matriz 2 × 2 autoadjunta é da forma M (p) para algum p ∈ 4 (M (p) foi definida
em (10.97), página 645)). Vamos descobrir para quais p ∈ 4 tem-se M (p) > 0. Para que essa
condição seja satisfeita os dois autovalores λ1 e λ2 de M (p) devem ser positivos. Calculando por
(10.97) o traço e o determinante de M (p) , tem-se det(M (p)) = λ1 λ2 = (p4 )2 − (p1 )2 − (p2 )2 − (p3 )2 e
Tr (M (p)) = λ1 + λ2 = 2p4 . É fácil ver daı́ que λ1 = p4 + k~
pk e λ2 = p4 − k~
pk onde p~ = (p1 , p2 , p3 ).
Logo, M (p) > 0 se e somente se p4 > k~ pk.
Seja V+ := {p ∈
4
pk}. É fácil verificar (faça-o) que V+ é mantido invariante por L↑+ .
| p4 > k~
2
Para ψ, φ ∈ e p ∈ V+ , definamos o produto escalar
hψ, φip := hψ, M (p)φi .
Teremos, para todo A ∈ SL( , 2),
hAψ, Aφip := hψ, A∗ M (p)Aφi = hψ, M (L[A∗ ]p) φi = hψ, φiL[A∗ ]p ,
onde, acima, usamos (10.101).

No caso do subgrupo SU(2), o produto escalar invariante corresponde a p ∈ V+ com Lp = p para
L ∈ SRot. Tais p’s são da forma p = (0, 0, 0, p4 ), p4 > 0. Assim, hψ, φi é, a menos de um múltiplo
positivo, o único produto escalar invariante em 2 para SU(2). Mas vemos acima que que não há
produto escalar invariante para todo o grupo SL( , 2) em 2 , já que não há vetor em V+ que seja
invariante para todo L ∈ L↑+ . Fisicamante falando, a simetria de Lorentz L↑+ não pode, portanto, ser
implementada em espaços de Hilbert bidimensionais, apenas a simetria de rotação.
Adiante discutiremos como implementar a simetria de Lorentz (e a de Poincaré) em campos de
spinores, aumentando a dimensão do espaço de Hilbert dos estados.
Apêndices
10.A Prova do Teorema 10.8

Aqui a demonstração do Teorema 10.8 será apresentada.
Seja L um elemento do grupo de Lorentz O(3, 1), representada como matriz da forma (10.79).
Vamos definir vetores coluna (ou seja, matrizes 3 × 1) a e b por
   
L14 L41
a :=  L24  , b :=  L42  .
L34 L43
É evidente que podemos escrever L na forma de blocos

 
 l a 
 
 
L =  , (10.A.1)
 
 
bT L44

onde bT , a transposta de b, é o vetor linha (matriz 1 × 3) dado por bT = L41 , L42 , L43 e l é a
matriz 3 × 3 dada por  
L11 L12 L13
l :=  L21 L22 L23  .
L31 L32 L33
Vamos agora considerar duas matrizes Ra e Rb pertencentes a SRot, ou seja,

   
0 0
 ra 0   rb 0 
   
Ra :=   , R :=  0 
0  b  ,
   
0 0 0 1 0 0 0 1
com ra e rb matrizes 3 × 3 pertencentes a SO(3). Precisamos estudar a forma da matriz Ra LRbT . A

regra de produto de matrizes nos diz que
 
 Ra l ra a 
 
 
Ra L =  , (10.A.2)
 
 
bT L44
e que, conseqüentemente,  
 ra lrb ra a 
 
 
Ra LRbT =  . (10.A.3)
 
 
(rb b)T L44
E. 10.93 Exercı́cio importante. Verifique essas afirmações. Se você não conseguir procure ajuda, pois
não será possı́vel entender o que segue. A maneira pedestre de provar (10.A.2) é escrever explicitamente R a
e L como matrizes 4 × 4, fazer o produto de ambas e então constatar a validade de (10.A.2). Para (10.A.3)
proceda de modo análogo. 6
As expressões acima são válidas de modo bastante geral, para quaisquer que sejam as matrizes de
rotação ra e rb . Vamos agora, porém, considerar matrizes de rotação ra e rb particulares. Escolhemos
ra da forma ra = sa ta , onde ta ∈ SO(3) é a matriz de rotação que roda o vetor a de modo que apenas
a primeira componente do vetor resultante seja não nula:
 
α
a
t a =  0 . (10.A.4)
0
A matriz sa ∈ SO(3), por sua vez, é uma matriz de rotação em torno do eixo 1, e que, portanto, deixa
o vetor 10 invariante. sa é da forma
0
   
1 0 0 1 0 0
a  a a   
s = 0 s22 s23 =:  0 a0 , (10.A.5)
0 sa32 sa33 s
0
com
a0 sa22 sa23
s := ∈ SO(2).
sa32 sa33
Assim, temos também 
α
s a ta a =  0  .
0
Analogamente, escolhemos rb da forma rb = sb tb , onde tb ∈ SO(3) é a matriz de rotação que roda o
vetor b de modo que apenas a primeira componente do vetor resultante seja não nula:
 
β
b
tb =  0 . (10.A.6)
0
A matriz sb ∈ SO(3), por sua vez, é uma matriz de rotação em torno do eixo 1, e que, portanto, deixa

1
o vetor 0 invariante. sb é da forma
0
   
1 0 0 1 0 0
 
s =  0 s22 s23  =:  0
b a a
b0 , (10.A.7)
0 sa32 sa33 s
0
com
b0 sb22 sb23
s := ∈ SO(2).
sb32 sb33
Pela definição de sb acima, também temos
 
β
s b tb b =  0  .
0
Daqui por diante as matrizes ta e tb estarão fixas. As matrizes sa e sb são ainda arbitrárias, mas serão
fixadas mais adiante.
Com essas escolhas temos agora
 
α
 sa lt (sb )T 0 
 
Ra LRbT = 
 0 ,
 (10.A.8)
 
β 0 0 L44
onde lt := ta l(tb )T .
A matriz L0 = Ra LRbT é certamente um elemento do grupo de Lorentz O(3, 1), pois Ra , L e RbT o
são. Assim, L0 satisfaz L0 η(L0 )T η = . Calculemos o lado esquerdo dessa igualdade:

    
α 0 β 0
 sa l (sb )T 0   0   sb lT (sa )T 0   0 
 t     t   
L0 η(L0 )T η =  0 
 0 
 0 
 0 

    
β 0 0 L44 0 0 0 −1 α 0 0 L44 0 0 0 −1
   
α 0 −β
 sa lt (sb )T 0  0  sb ltT (sa )T 0 
   
= 
 0 
 0 
 0 

   
β 0 0 L44 0 0 0 −1 α 0 0 −L44
  
α −β
 sa lt (sb )T 0  sb ltT (sa )T 0 
  
= 
 0 
 0 

  
β 0 0 L44 −α 0 0 L44
 
 f g 
 
 
=  ,
 
 
−g T L244 − β 2
onde  
−α2 0 0
f = sa lt (lt )T (sa )T +  0 0 0 
0 0 0
e   
1 1
b T  
a
g = −βs lt (s ) 0 + L44 α 0  .

0 0
E. 10.94 Exercı́cio importante. Verifique as expressões acima. Sugestão: exerça a virtude da Paciência.
6
Como mencionamos, L0 η(L0 )T η = . Portanto, devemos ter
f = , (10.A.9)
g = 0 e (10.A.10)
L244 − β 2 = 1 (10.A.11)
(por que?). Logo,  

1 + α2 0 0
sa lt (lt )T (sa )T =  0 1 0 , (10.A.12)
0 0 1
   
1 1
b T  
a
βs lt (s ) 0 = L44 α 0  .
 (10.A.13)
0 0
Devido à forma de sa e sb em (10.A.5) e (10.A.7) essas relações implicam
 
1 + α2 0 0
lt (lt )T =  0 1 0 , (10.A.14)
0 0 1
   
1 1
βlt  0  = L44 α 0  .
 (10.A.15)
0 0
Das relações acima extrairemos várias conclusões sobre a estrutura do grupo de Lorentz. A primeira
é a seguinte proposição:
Proposição 10.21 Para qualquer transformação de Lorentz L vale
L244 − β 2 = 1, (10.A.16)
L244 − α2 = 1 (10.A.17)
e, conseqüentemente,
α2 = β 2 . (10.A.18)
Fora isso,
a2 = α 2 = β 2 = b 2 ,
onde a2 e b2 são os módulos ao quadrado dos vetores a e b, respectivamente, ou seja,
a2 = (L14 )2 + (L24 )2 + (L34 )2 e b2 = (L41 )2 + (L42 )2 + (L43 )2 .
Portanto,
L244 = 1 + (L14 )2 + (L24 )2 + (L34 )2 = 1 + (L41 )2 + (L42 )2 + (L43 )2 .
2
Prova. (10.A.16) é o mesmo que (10.A.11). Para provar (10.A.17), notemos que, pela Proposição 10.14,
LT é também uma transformação de Lorentz. Logo, para LT a relação (10.A.16) significa L244 − α2 = 1,
pois ao passarmos de L para LT o elemento L44 não muda, mas ocorre a troca α ↔ β. (10.A.18) segue

de (10.A.16) e (10.A.17). Para provar que a2 = α2 , notemos que, por (10.A.4), o vetor α0 é obtido
0
de a por uma rotação ta ∈ SO(3), que não altera o comprimento de vetores. De modo análogo prova-se
que b2 = β 2 .
Segue dessa proposição que, para prosseguirmos, teremos que considerar dois casos: o caso α = β =
0 e o caso em que α 6= 0 e β 6= 0.
Caso α = β = 0
Como comentamos, nesse caso temos a = b = 0. Podemos adotar sa = sb = ta = tb = e, portanto,
L é simplesmente da forma  
0
 l 0 
 
L =   0  .
 
0 0 0 L44
Com α = 0 e sa = sb = ta = tb = , a relação (10.A.14) reduz-se a ll T = , ou seja, l ∈ O(3). Como
det(L) = ±1 e det(l) = ±1 há quatro situações a considerar:
Ia. det(L) = 1 e det(l) = 1.
Nessa situação tem-se l ∈ SO(3) e L44 = 1. Portanto, L ∈ SRot.
Ib. det(L) = 1 e det(l) = −1.
Nessa situação l ∈ O(3) mas l 6∈ SO(3) e L44 = −1. Assim L é da forma L = P1 T R com R ∈ SRot.
(Justifique).
IIa. det(L) = −1 e det(l) = 1.
Nessa situação l ∈ SO(3) e L44 = −1. Assim L é da forma L = T R com R ∈ SRot. (Justifique).
IIb. det(L) = −1 e det(l) = −1.
Nessa situação l ∈ O(3) mas l 6∈ SO(3) e L44 = 1. Assim L é da forma L = P1 R com R ∈ SRot.
(Justifique).
Resumindo, vimos para o caso a = b = 0 que nas quatro situações possı́veis L consiste apenas
de uma simples rotação, seguida eventualmente de uma inversão de paridade (Ib e IIb) e/ou de uma
reversão temporal (Ib e IIa.). Como veremos, o caso α 6= 0 e β 6= 0 envolve também um “boost de
Lorentz”, ou seja, uma mudança de entre dois sistemas de referência inerciais com uma velocidade
relativa eventualmente não-nula.
Caso α 6= 0 e β 6= 0
Como β 6= 0, (10.A.15) pode ser escrita como
   
1 1
  L44 α  
lt 0 = 0 , (10.A.19)
β
0 0

ou seja, 10 é um autovetor de lt com autovalor ω := L44 α
. De (10.A.19) podemos extrair uma
0 β
informação importante sobre a forma da matriz lt . Como 10 é um vetor da base canônica de 3 , a
0
matriz lt deve ser da forma

 
 
ω (lt )12 (lt )13 ω φT
 
lt =  0 (lt )22 (lt )23  = 
 0
,

0 (lt )32 (lt )33 lt0
0

(lt )12 (lt )22 (lt )23
onde φ é o vetor coluna φ = e lt0 é a matriz 2 × 2 dada por lt0 := .
(lt )13 (lt )32 (lt )33
Ocorre que também vale que φ = 0. Para ver isso, notemos que (10.A.14) diz-nos que
    
ω φT ω 0 0 1 + α 2
0 0
  
lt (lt )T = 
 0

  =  0 1 0 ,
lt0 φ 0
lt 0 0 1
0
ou seja,    
ω 2 + φT φ (lt0 φ)T 1 + α2 0 0
 
  =  0 1 0 .
lt0 φ lt0 (lt0 )T 0 0 1
Logo,
lt0 (lt0 )T = , (10.A.20)
lt0 φ = 0 (10.A.21)
e
ω 2 + φT φ = 1 + α 2 . (10.A.22)
Agora, (10.A.20) afirma que lt0 é uma matriz ortogonal e (lt0 )−1 = (lt0 )T . Aplicando, portanto, (lt0 )−1 à
esquerda em (10.A.21) segue que φ = 0. Chegamos assim à conclusão que
   
ω 0 0 ω 0 0
lt =  0 (lt )22 (lt )23  =  0 ,
0 (lt )32 (lt )33 lt0
0
com ω 2 = 1 + α2 (por (10.A.22)). Segue daı́ que

 
ω 0 0
 
sa lt (sb )T =  0 0 ,
sa0 lt0 (sb )T
0
0
(sa0 e sb estão definidos em (10.A.5) e (10.A.7)). Neste momento vamos fixar sa e sb , adotando
0 0
sa0 = sb (lt0 )−1 = sb (lt0 )T .
Com isso, obviamente

0
sa0 lt0 (sb )T = .
Logo,  
ω 0 0
sa lt (sb )T =  0 1 0 .
0 0 1
Retornando a (10.A.8)  
ω 0 0 α
 0 1 0 0 
Ra LRbT = 
 0
 (10.A.23)
0 1 0 
β 0 0 L44
onde, recordando,
L44 α
ω = e ω 2 = 1 + α2 . (10.A.24)
β
Resta-nos mostrar que a matriz do lado direito de (10.A.23) tem a forma de um boost de Lorentz,
acompanhado eventualmente de uma operação de troca de paridade e/ou reversão temporal. É o que
faremos agora.
Como Ra LRbT é um elemento do grupo de Lorentz O(3, 1), tem-se que det(Ra LRbT ) = ±1. Calcu-
lando o determinante da matriz do lado direito (10.A.23) tem-se então
ωL44 − αβ = ±1.
Multiplicando-se por α/β teremos

L44 α α
ω − α2 = ± ,
β β
ou seja,
α
ω 2 − α2 = ± .
β
Pela segunda equação em (10.A.24) isso implica
β = ±α e L44 = ±ω,
√
os dois sinais ± acima sendo iguais ao sinal de det(Ra LRbT ). ω, porém, é dado por ± 1 + α2 ( por
(10.A.24)), mas a escolha do sinal dessa raiz quadrada é independente do sinal de det(R a LRbT ). Há,
portanto, quatro situações possı́veis que deveremos considerar separadamente:
√
Ia. Escolhendo det(Ra LRbT ) = +1 e ω = + 1 + α2 , (10.A.23) fica
 √ 
1 + α2 0 0 α
 0 1 0 0 
L = (Ra )T  
 Rb .
 (10.A.25)
0 0 1 √ 0
α 0 0 1 + α2
Ra e Rb são elementos de SRot ' SO(3), temos det(Ra ) = det(Rb ) = 1. Logo, neste caso temos
det(L) = 1. Fora isso L44 ≥ 1.
É conveniente escrever (10.A.25) de outra forma. Como α é um número real arbitrário, vamos
definir v ∈ (−1, 1) por
α v
v := − √ , de modo que α = −√ . (10.A.26)
1 + α2 1 − v2
Teremos  √   
1 + α2 0 0 α γ(v) 0 0 −vγ(v)
 0 1 0 0   0 1 0 0 
  =   =: B1 (v),
 0 0 1 √ 0   0 0 1 0 
α 0 0 1+α 2 −vγ(v) 0 0 γ(v)
onde
1
γ(v) := √ .
1 − v2
Como se vê, chegamos dessa forma aos boosts de Lorentz B1 (v) utilizando apenas as propriedades
definidoras do grupo de Lorentz. Compare com o estudo do grupo O(1, 1), página 586.
Com essa parametrização, (10.A.25) fica
L = (Ra )T B1 (v)Rb , (10.A.27)
para Ra , Rb ∈ SRot.
√
Ib. Escolhendo det(Ra LRbT ) = +1 e ω = − 1 + α2 , (10.A.23) fica
 √ 
− 1 + α2 0 0 α
 0 1 0 0 
Ra LRbT = 
.
 (10.A.28)
0 0 1 √ 0
α 0 0 − 1+α 2
Logo, usando-se as matrizes P1 e T definidas em (10.74) e (10.75), segue

 √ 
1 + α2 0 0 α
 0 1 0 0 
P1 Ra LRbT T = 
,
 (10.A.29)
0 0 1 √ 0
α 0 0 1 + α2
como facilmente se verifica. Daı́, lembrando que T e Rb comutam (por que?), concluı́-se que nesse caso
temos  √ 
1 + α2 0 0 α
 0 1 0 0 
L = (P1 Ra )T 
 Rb T.
 (10.A.30)
0 0 1 √ 0
α 0 0 1 + α2
Assim, com a parametrização (10.A.26),
L = (P1 Ra )T B1 (v)Rb T, (10.A.31)
Por fim, note-se que neste caso temos det(L) = 1 com L44 ≤ −1 (por que?).
√
IIa. Escolhendo det(Ra LRbT ) = −1 e ω = + 1 + α2 , (10.A.23) fica
 √ 
1 + α2 0 0 α
 0 1 0 0 
Ra LRbT = 
.
 (10.A.32)
0 0 1 √ 0
−α 0 0 − 1 + α2
Assim,  √ 
1 + α2 0 0 α
 0 1 0 0 
T Ra LRbT = 

,
 (10.A.33)
0 0 1 √ 0
α 0 0 1 + α2
como facilmente se verifica. Nesse caso, então,
 √ 
1 + α2 0 0 α
 0 1 0 0 
L = T (Ra )T 
 Rb .
 (10.A.34)
0 0 1 √ 0
α 0 0 1+α 2
L = T (Ra )T B1 (v)Rb , (10.A.35)
Por fim, note-se que neste caso temos det(L) = −1 com L44 ≤ −1 (por que?).
√
IIb. Escolhendo det(Ra LRbT ) = −1 e ω = − 1 + α2 , (10.A.23) fica
 √ 
− 1 + α2 0 0 α
 0 1 0 0 
Ra LRbT = 
.
 (10.A.36)
0 0 1 √ 0
−α 0 0 1+α 2
Assim,  √ 
1 + α2 0 0 α
 0 1 0 0 
Ra LRbT P1 = 

,
 (10.A.37)
0 0 1 √ 0
α 0 0 1+α 2
como facilmente se verifica. Nesse caso, então,

 √ 
1 + α2 0 0 α
 0 1 0 0 
L = (Ra )T 
 P1 R b .
 (10.A.38)
0 0 1 √ 0
α 0 0 1 + α2

L = (Ra )T B1 (v)P1 Rb , (10.A.39)
Por fim, note-se que neste caso temos det(L) = −1 e L44 ≥ 1 (por que?).
A demonstração do Teorema 10.8 está assim completa.
10.B Um Isomorfismo entre SL( , 2)/{ , − } e L↑+

Esta seção é de autoria de Daniel A. Cortez
Vamos provar que a aplicação Φ1 : SL( , 2)/{ , − } → L↑+ definida por

Φ1 (±A) := L[A] (10.B.40)
é um isomorfismo entre os grupos SL( , 2)/{ , − } e L↑+ . Para isso, começaremos resolvendo dois
dos exercı́cios propostos à página 647. O primeiro deles afirma que L[A] = L[B] se e somente se
A = ±B. Isso pode ser visto facilmente a partir da Proposição 10.19. De fato, se L[A] = L[B],
então para qualquer x ∈ 4 , vale que L[A]x = L[B]x. Usando (10.101), resulta M −1 (AM (x)A∗ ) =

M −1 (BM (x)B ∗ ). Portanto, AM (x)A∗ = BM (x)B ∗ e, como M (x) ∈ Herm( , 2) para qualquer x ∈ 4 ,
segue da Proposição 10.19 que A = ±B. Por outro lado, é claro que se A = ±B, então L[A] = L[B],
como se pode constatar, por exemplo, a partir de (10.102). Note que o resultado desse exercı́cio implica
o fato da aplicação Φ1 definida em (10.B.40) ser injetora. Realmente, se Φ1 (A) = Φ1 (B), segue que
L[A] = L[B] e, portanto, A = ±B, que correspondem ao mesmo elemento em SL( , 2)/{ , − }. Dessa
forma, acabamos de estabelecer o seguinte resultado:
Proposição 10.22 A aplicação Φ1 : SL( , 2)/{ , − } → L↑+ definida em (10.B.40) é injetora. 2
Passemos agora a mostrar que vale a seguinte regra de composição: L[A]L[B] = L[A][B] para
quaisquer matrizes A, B, ∈ SL( , 2). De fato, para qualquer x ∈ 4 , usando (10.101), temos

L[A]L[B]x = L[A]M −1 (BM (x)B ∗ )

= M −1 AM M −1 (BM (x)B ∗ )) A∗
= M −1 ( ABM (x)B ∗ A∗ )
= M −1 ( ABM (x)(AB)∗ )
= L[AB]x . (10.B.41)
Como x é arbitrário, concluı́mos que L[A]L[B] = L[AB]. Desse resultado, segue que Φ 1 (±A)Φ1 (±B) =
Φ1 (±AB), ou seja, que Φ1 é um homomorfismo de SL( , 2)/{ , − } em L↑+ . Como Φ1 é uma aplicação
injetora, vale, em verdade, o seguinte:
Proposição 10.23 A aplicação Φ1 : SL( , 2)/{ , − } → L↑+ definida em (10.B.40) é um monomor-

fismo, ou seja, um homomorfismo injetor. 2
Note agora que para provarmos que Φ1 é um isomorfismo entre SL( , 2)/{ , − } e L↑+ , só precisamos
verificar que Φ1 é sobrejetor, isto é, que qualquer transformação de Lorentz do grupo L ↑+ é imagem por
Φ1 de alguma matriz em SL( , 2)/{ , − }. Como qualquer Λ ∈ L↑+ pode ser escrita em termos de uma
composição de rotações e de um boost ao longo da direção 1, só precisamos encontrar as matrizes em
SL( , 2)/{ , − } que correspondem a essas operações em L↑+ . De fato, seja Λ ∈ L↑+ , então, de acordo
com o Teorema 10.8, Λ é da forma RaT B1 Rb , onde Ra , Rb ∈ SRot e B1 é um boost apropriado ao longo
da direção 1. Se ±b1 ∈ SL( , 2)/{ , − } for tal que Φ1 [±b1 ] = B1 e ±r ∈ SL( , 2)/{ , − } for tal
que Φ1 [±r] = R, para qualquer R ∈ SRot, então terı́amos
Φ1 [±raT b1 rb ] = Φ1 [±raT ]Φ1 [±b1 ]Φ1 [±rb ] = RaT B1 R = Λ , (10.B.42)
uma vez que Φ1 é um homomorfismo. A relação (10.B.42) mostra que Φ1 é uma aplicação sobrejetora, já
que toda transformação de Lorentz Λ ∈ L↑+ pode ser obtida como imagem de alguma matriz apropriada
de SL( , 2)/{ , − }. Para que o nosso raciocı́nio seja válido, precisamos apenas encontrar as matrizes
±b1 e ±r em SL( , 2)/{ , − } com as propriedades mencionadas acima, ou seja, tais que Φ1 [±b1 ] =
L[b1 ] = B1 e que Φ1 [±r] = L[r] = R, para qualquer R ∈ SRot. Vamos fazer isso nos parágrafos
seguintes.
Em primeiro lugar, escrevemos v = tanh z em B1 (v), de maneira que
 
cosh z 0 0 − senh z
 0 1 0 0 
B1 (z) = B1 (tanh z) = 
.
 (10.B.43)
0 0 1 0
− senh z 0 0 cosh z
As matrizes de SRot, por sua vez, podem ser escritas como

 
0
 ~
0 
 eθ~η·J 
 0 
Rη~ (θ) =   ∈ SRot , (10.B.44)
 
0 0 0 1
com θ ∈ [−π, π] e ~η ∈ 3 tal que k~ηk = 1. Acima, J~ = (J1 , J2 , J3 ) são os geradores do grupo de

rotações SO(3). Com as observações acima, provaremos o seguinte resultado:

3
Proposição 10.24 Sejam z ∈ , θ ∈ [−π, π], ~η ∈ tal que |~η | = 1 e ~σ = (σ1 , σ2 , σ3 ) as três matrizes
de Pauli. Então,
z
(a) L e− 2 σ1 = B1 (z);
h θ i
(b) L e−i 2 η~·~σ = Rη~ (θ). 2
z
Prova. Demonstraremos primeiramente (a). Observe que e− 2 σ1 pertence à SL( , 2) uma vez que
SL( , 2) = { exp (z~η · ~σ ) , onde z ∈ e ~η ∈ 3 com η12 + η22 + η32 = 1 } . (10.B.45)

z
Dessa forma L e− 2 σ1 está bem definido e podemos usar (10.102) para computar explicitamente seus
elementos de matriz. Esse cálculo será facilitado com o auxı́lio do seguinte
Lema 10.1 Sejam σ1 , σ2 , σ3 as três matrizes de Pauli. Então,
(a) Tr (σk σ` ) = 2δk` , onde δk` é o delta de Krönecker44 ;
(b) Tr (σj σk σ` ) = 2ijk` , onde jk` é o sı́mbolo totalmente anti-simétrico de Levi-Civita;
(c) Tr (σi σk σj σ` ) = 2δi` δkj − 2δij δk` + 2δik δj` . 2
Prova do lema. A demonstração consiste em usar repetidamente os fatos de que o traço de qualquer
matriz de Pauli é nulo (isto é, Tr σj = 0, j = 1, 2, 3) e que
σk σ` = δk` + ik`j σj ,
onde a convenção de soma implı́cita em ı́ndices repetidos foi usada. Assim, para provar (a), temos
Tr (σk σ` ) = Tr (δk` + ik`j σj )
= δk` Tr
= 2δk` .
Para provar (b), usamos o resultado acima e os fatos já mencionados. Conseqüentemente,
Tr (σj σk σ` ) = Tr [ σj (δk` + ik`m σm ) ]
= ik`m Tr (σj σm )
= 2ik`m δjm
= 2ik`j = 2ijk` .
44
Leopold Krönecker (1823-1891).
Finalmente, para provar (c), usamos novamente (a). Com efeito,
Tr (σi σk σj σ` ) = Tr [ (δik + iikm σm )(δj` + ij`n σn ) ]
= δik δj` Tr − ikm j`n Tr (σm σn )
= 2δik δj` − 2ikm j`n δmn
= 2δik δj` − 2ikm j`m .
Aplicando a bem conhecida identidade
ikm j`m = δij δk` − δi` δkj ,
obtemos
Tr (σi σk σj σ` ) = 2δik δj` − 2δij δk` + 2δi` δkj ,
completando a prova do lema.
Retornemos agora à prova do item (a) da Proposição 10.24. Como é bem sabido, podemos escrever
z z z
e− 2 σ1 = cosh − σ1 senh . (10.B.46)
2 2
z
Para calcular os elementos de matriz L e− 2 σ1 µν , com µ, ν = 1, 2, 3, 4, usamos a relação (10.102),
lembrando que σ4 ≡ . Assim, com o auxı́lio de (10.B.46), temos
− z σ1 1 h z z z z ∗ i
L e 2
44
= Tr cosh − σ1 senh cosh − σ1 senh
2 2 2 2 2
1 z z z z
= Tr cosh2 − 2 cosh senh σ1 + senh 2 σ12
2 2 2 2 2
1 2 z 2z

= cosh + senh Tr
2 2 2
z z
= cosh2 + senh 2 = cosh z , (10.B.47)
2 2
z
onde usamos que σ12 = , Tr σ1 = 0 e cosh2 x + senh 2 x = cosh 2x. Calculemos agora L e− 2 σ1 4j com
j = 1, 2, 3. Usando (10.102) e (10.B.46), obtemos
z 1 h z z z z ∗ i
L e− 2 σ1 4j = Tr cosh − σ1 senh σj cosh − σ1 senh
2 2 2 2 2
1 z z z z z
= Tr − cosh senh σj σ1 − senh cosh σ1 σj + senh 2 σ1 σj σ1 .
2 2 2 2 2 2
Aplicando o Lema 10.1, resulta imediatamente que
z z z
L e− 2 σ1 4j = −2δj1 cosh senh = −δj1 senh z , (10.B.48)
2 2
z
onde a identidade 2 senh (x) cosh(x) = senh (2x) foi usada. O cálculo de L e− 2 σ1 j4 , j = 1, 2, 3 é feito
de forma semelhante. Explicitamente,
z 1 h z z z z ∗ i
L e− 2 σ1 j4 = Tr σj cosh − σ1 senh cosh − σ1 senh
2 2 2 2 2
1 h 2 z 2z
z z i
= Tr σj cosh + senh − 2 cosh senh σj σ1
2 2 2 2 2
z z
= −2δj1 cosh senh = −δj1 senh z . (10.B.49)
2 2
Observe
− que novamente utilizamos o Lema 10.1 para o cálculo do traço. Resta, finalmente, o cômputo
z
σ
de L e 2 ij , com i, j = 1, 2, 3. Esse também pode ser feito de forma simples com o auxı́lio do
1
Lema 10.1. De fato,

z 1 h z z z z ∗ i
L e− 2 σ1 ij = Tr σi cosh − σ1 senh σj cosh − σ1 senh
2 2 2 2 2
  
1   z z z z 
= Tr σi cosh2 σj − cosh senh (σj σ1 + σ1 σj ) + senh 2 σ1 σj σ1 
2 2 2 2| {z } 2
2δj1
1 z 1 z
= cosh2 Tr (σi σj ) + senh 2 Tr (σi σ1 σj σ1 )
2 2 2 2| {z }
4δ1i δ1j −2δij
z z
= δij cosh2 + senh 2 (2δ1i δ1j − δij )
2 2
z
= δij + 2δ1i δ1j senh 2 , (10.B.50)
2
onde a identidade fundamental cosh2 x − senh 2 x = 1 foi utilizada na última igualdade. Observe da
relação acima que quando i = j = 1, obtém-se
z z
L e− 2 σ1 11 = 1 + 2 senh 2
2
z z z
= cosh2 − senh 2 + 2 senh 2
2 2 2
z z
= cosh2 + senh 2 = cosh z , (10.B.51)
2 2
z
caso contrário, L e− 2 σ1 ij = δij .
Usando −asz σ expressões
(10.B.47)-(10.B.51), podemos escrever explicitamente a forma completa da
matriz L e 2 1
µν
para µ, ν = 1, 2, 3, 4. Não é difı́cil constar (faça!) que
 
cosh z 0 0 − senh z
z  0 1 0 0 
L e− 2 σ1 µν =  
.

0 0 1 0
− senh z 0 0 cosh z
z
Comparando com (10.B.43), vemos que L e− 2 σ1 = B1 (z), provando o item (a) da proposição.
A prova da segunda parte da proposição segue, essencialmente, a mesma idéia da primeira, embora
−i θ2 η
~·~
σ
seja um pouco mais htrabalhosa.i Em primeiro lugar, observamos que e ∈ SL( , 2) em virtude de
θ
(10.B.45). Assim, L e−i 2 η~·~σ está bem definida e podemos calcular seus elementos de matriz usando a
θ
fórmula (10.102). Antes disso, porém, é conveniente expressarmos e−i 2 η~·~σ usando a identidade
θ θ θ
e−i 2 η~·~σ = cos − i~η · ~σ sen .
2 2
Assim, de acordo com (10.102), lembrando sempre que σ4 ≡ , temos
h θ i ∗
−i 2 η
~·~
σ 1 θ θ θ θ
L e = Tr cos − i~η · ~σ sen cos − i~η · ~σ sen
44 2 2 2 2 2

1 2 θ 2 2θ
= Tr cos + (~η · ~σ ) sen .
2 2 2
Escrevendo ~η · ~σ = ηj σj e usando o Lema 10.1, resulta
h θ i 1 θ 1 θ
L e−i 2 η~·~σ = cos2 Tr + sen 2 ηk ηj Tr σk σj
44 2 2 2 2
θ θ
= cos2 + sen 2 ηk ηj δkj
2 2
θ θ
= cos2 + sen 2 ηk ηk = 1 , (10.B.52)
2 2
h θ i
uma vez que ηk ηk = ~η 2 = 1. Prosseguindo, devemos agora calcular os elementos de matriz L e−i 2 η~·~σ ,
4j
com j = 1, 2, 3. Como sempre, o cálculo é feito com base na expressão (10.102) e com o auxı́lio do
Lema 10.1. Assim,
h θ i ∗
−i 2 η
~ ·~
σ 1 θ θ θ θ
L e = Tr cos − iηk σk sen σj cos − iη` σ` sen
4j 2 2 2 2 2
1 θ θ 1 θ θ
= i cos sen η` Tr (σj σ` ) − i cos sen ηk Tr (σk σj )
2 2 2 | {z } 2 2 2 | {z }
2δj` 2δkj
1 θ
+ sen 2 ηk η` Tr (σk σj σ` )
2 2 | {z }
2ikj`
θ θ θ θ θ
= i cos sen ηj − i cos sen ηj + i sen 2 ηk η` kj` = 0 , (10.B.53)
2 2 2 2 2
h θ i
uma vez que ηk η` é simétrico pela troca de k com ` e kj` é anti-simétrico. O cálculo de L e−i 2 η~·~σ
j4
é bastante análogo ao realizado acima e é deixado como exercı́cio para o leitor. O resultado obtido
deverá ser h θ i
L e−i 2 η~·~σ = 0, (10.B.54)
j4
h θ i
assim como em (10.B.53). Resta, finalmente, calcularmos os elementos de matriz L e−i 2 η~·~σ para
ij
i, j = 1, 2, 3. Isso é feito de forma usual, a partir da expressão (10.102) e dos resultados do Lema 10.1.
Temos,
h θ i ∗
−i 2 η
~·~
σ 1 θ θ θ θ
L e = Tr σi cos − iηk σk sen σj cos − iη` σ` sen
ij 2 2 2 2 2
1 θ i θ θ i θ θ
= cos2 Tr (σi σj ) + cos sen η` Tr (σi σj σ` ) − cos sen ηk Tr (σi σk σj )
2 2 | {z } 2 2 2 | {z } 2 2 2 | {z }
2δij 2iij` 2iikj
1 θ
+ sen 2 ηk η` Tr (σi σk σj σ` )
2 2 | {z }
2(δi` δkj −δij δk` +δik δj` )
θ θ θ θ
= cos2 δij − 2 cos sen η` ij` + sen 2 ηk η` (δi` δkj − δij δk` + δik δj` ) .
2 2 2 2
Usando no último termo que ηk η` δk` = ηk ηk = ~η 2 = 1 e que 2 sen x cos x = sen 2x; cos2 x − sen 2 x =
cos 2x, resulta
h θ i θ
L e−i 2 η~·~σ = δij cos θ − η` ij` sen θ + 2ηi ηj sen 2 .
ij 2
Observando ainda que 2 sen 2 x = 1 − cos 2x, ficamos com
h θ i
L e−i 2 η~·~σ = δij cos θ − η` ij` sen θ + ηi ηj (1 − cos θ) . (10.B.55)
ij
As expressões (10.B.52)-(10.B.55) devem ser diretamente comparadas com (10.B.44). Notamos que
todos os elementos da quarta linha e da quarta coluna são coincidentes. Resta saber se a expressão
(10.B.55) obtida acima é equivalente à (10.B.44) para as demais linhas e colunas. Isso pode ser verificado
calculando os elementos ij da matriz Rη~ (θ). Para tanto, usamos a identidade dada na Proposição 10.5
à página 593. Assim,
2
η ·J~
Rη~ (θ)ij = e θ~
= + (1 − cos θ) ~η · J~ + sen θ ~η · J~
ij ij
2
= δij + (1 − cos θ) ~
~η · J ~
+ sen θ ~η · J . (10.B.56)
ij ij
Agora, conforme visto em (10.41), página 593, tem-se

~η · J~ = −ijk ηk . (10.B.57)
ij
Portanto,
2
~
~η · J = ~η · J~ η~ · J~
ij ik kj
= ik` η` kjm ηm = (δim δ`j − δij δ`m )η` ηm
= ηi ηj − δij η` η` = ηi ηj − δij , (10.B.58)
já que |~η | = 1. Inserindo (10.B.57) e (10.B.58) em (10.B.56), resulta
Rη~ (θ)ij = δij + (1 − cos θ)(ηi ηj − δij ) − sen θ(ijk ηk )
= δij cos θ − ijk ηk sen θ + ηi ηj (1 − cos θ) ,
que é justamente (10.B.55). Isso completa a demonstração do item (b) da proposição.
Conforme discutido nos parágrafos que precedem a Proposição 10.24, a existência de matrizes
±b1 e ±r em SL( , 2)/{ , − } tais que Φ1 [±b1 ] = B1 e Φ1 [±r] = R, para qualquer R ∈ SRot, é
suficiente para garantir que a aplicação Φ1 seja sobrejetora em L↑+ . Ocorre que a Proposição 10.24 nos
z θ
diz justamente que as matrizes procuradas em SL( , 2)/{ , − } são b1 = e− 2 σ1 e r = e−i 2 η~·σ , com
θ ∈ [−π, π] e ~η ∈ 3 tal que k~η k = 1. Dessa forma, para qualquer transformação de Lorentz Λ ∈ L ↑+ , a

relação (10.B.42) pode ser sempre satisfeita, evidenciando o fato de que Φ 1 é sobrejetora. Juntando à
essa conclusão o resultado da Proposição 10.23, temos demonstrado o seguinte teorema fundamental:
Teorema 10.10 A aplicação Φ1 : SL( , 2)/{ , − } → L↑+ definida em (10.B.40) é um isomorfismo,
ou seja, SL( , 2)/{ , − } ∼ ↑
= Φ1 L+ . 2
Capı́tulo 11
Grupos de Lie e Álgebras de Lie. Uma Breve
Introdução
Conteúdo
11.1 Variedades e Grupos de Lie . . . . . . . . . . . . . . . . . . . . . . . . . . . 671
11.2 Breves Considerações sobre Grupos Topológicos . . . . . . . . . . . . . . . 673
11.3 Grupos de Lie Matriciais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 676
11.3.1 Uma Topologia Métrica em GL( , n) . . . . . . . . . . . . . . . . . . . . . . 676
11.3.2 O Grupo de Lie GL( , n) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 677
11.3.3 Sub-Grupos Uniparamétricos e seus Geradores . . . . . . . . . . . . . . . . . 680
11.3.4 Sub-Grupos Uniparamétricos e Álgebras de Lie . . . . . . . . . . . . . . . . . 683
11.3.5 Subgrupos Fechados de GL( , n) . . . . . . . . . . . . . . . . . . . . . . . . . 688
11.4 A Relação entre Grupos de Lie Matriciais e suas Álgebras de Lie . . . . 692
11.4.1 Álgebras de Lie Nilpotentes, Solúveis, Simples e Semi-Simples . . . . . . . . . 693
11.4.2 Questões sobre a Exponenciação de Álgebras de Lie . . . . . . . . . . . . . . 697
11.4.3 Alguns Exemplos Especiais . . . . . . . . . . . . . . . . . . . . . . . . . . . . 700
ste capı́tulo tenciona ser uma modesta introdução ao estudo de grupos de Lie. Com particular
destaque discutiremos grupos de Lie matriciais. Algumas observações prévias são necessárias.
Para a discussão do conceito geral de grupo de Lie são indispensáveis algumas noções básicas
sobre espaços topológicos mas, de importância especial é a noção de variedade diferenciável.
Esse importante conceito, proveniente da geometria, desempenha um papel importante em várias áreas
de Fı́sica, tais como a Teoria da Relatividade Geral e as Teorias de Calibre. O conceito de variedade
diferenciável nasceu inspirado na noção mais familiar de superfı́cie em espaços n e não se desvincula

totalmente daquela. Não pressuporemos da parte do leitor conhecimento prévio do conceito de vari-
edade diferenciável e, por isso, vamos introduzı́-lo adiante. Não iremos, no entanto, desenvolver esse
assunto em detalhe e, para tal, remetemos o estudante aos (inúmeros) bons livros sobre Geometria
Diferencial, por exemplo [94].
Iremos nos concentrar em exemplificar o conceito de grupo de Lie tratando primordialmente de
grupos de Lie matriciais. Isso simplifica um pouco o tratamento e reduz um tanto o escopo destas notas
introdutórias. No entanto, a grande maioria dos grupos de Lie de interesse (especialmente em Fı́sica)
é formada por grupos de Lie matriciais. Para o tratamento de grupos de Lie matriciais discutiremos
com certo detalhe aspectos algébricos e topológicos de grupos de matrizes.
Mais de 100 anos de pesquisa intensa nos separam dos primórdios do estudo dos grupos e álgebras
de Lie e nossas pretensões aqui são a de uma modesta introdução a esse vastı́ssimo assunto. Para
tratamentos gerais e abrangentes de grupos de Lie recomendamos as referências [97], [93], [18], [71],
[124], [61] ou [114], . Para álgebras de Lie, recomendamos [67] e [110].
670
Vários grupos de Lie são importantes na Fı́sica e seu tratamento é particularmente importante na
Mecânica Quântica e nas Teorias Quânticas de Campos. Exemplos de grupos de Lie importantes para
a Fı́sica são discutidos com certo detalhe no Capı́tulo 10, tais como os grupos SO(3), SU(2) e o grupo
de Lorentz.
11.1 Variedades e Grupos de Lie
• Variedades Diferenciáveis
Uma variedade diferenciável real de dimensão n é um espaço topológico Hausdorff V dotado de uma
famı́lia de abertos F = {Uα , α ∈ Λ} com as seguintes propriedades:
S
1. V = α∈Λ Uα .
n
2. Para cada Uα ∈ F existe um conjunto aberto Cα de e uma bijeção contı́nua com inversa
contı́nua φα : Uα → Cα .
3. Para todo par Uα , Uβ ∈ F com Uα ∩ Uβ 6= ∅ a função
φα ◦ φ−1
β : φβ (Uα ∩ Uβ ) → φα (Uα ∩ Uβ )
n n
é infinitamente diferenciável como função de (um sub-conjunto de) em .
Uma variedade analı́tica complexa de dimensão n é definida analogamente, substituindo-se n por
n
e substituindo-se a condição de diferenciabilidade infinita do item 3, acima, por analiticidade.
Observação 1. Acima, Λ é apenas um conjunto de ı́ndices usados para rotular os elementos de F

e não tem nenhum papel especial. Λ pode ser finito ou não, contável ou não.
Observação 2. As funções φα ◦ φ−1

β de acima são denominadas funções de transição. Em uma
variedade k-diferenciável exige-se apenas que as funções de transição sejam k-vezes diferenciáveis.
Esses objetos têm, porém, interesse relativamente limitado.
Observação 3. Os pares (φα , Uα ) são freqüentemente denominados cartas locais da variedade ou

simplesmente cartas. A coleção das cartas é freqüentemente denominada atlas.
Vamos à interpretação das condições acima. A condição 1 diz apenas que a famı́lia {U α , α ∈ Λ}
é um recobrimento de V , ou seja, todo elemento de V pertence a pelo menos um aberto Uα , podendo
naturalmente ocorrer que alguns pontos de V pertençam a vários elementos da famı́lia F, ou seja, os
elementos de F podem ter intersecções não-vazias. A condição 2 é importante e diz que os elementos
de cada Uα podem ser rotulados (univocamente) por uma n-upla de números reais (ou complexos).
Ou seja, podemos dotar cada Uα de um sistema de coordenadas. Note que esses sistemas podem ser
diferentes para Uα ’s diferentes. Como dissemos, pontos de V podem pertencer a vários Uα ’s e, portanto,
podem ter a si atribuı́das coordenadas diferentes, uma para cada Uα ao qual pertence. Assim, os pontos
de Uα ∩ Uβ têm a si atribuı́dos pelo menos dois sistemas de coordenadas: as coordenadas Cα de Uα e as
coordenadas Cβ de Uβ . A condição 3 diz-nos como esses sistemas de coordenadas devem relacionar-se,

a saber, o que se deseja é que a passagem das coordenadas Cβ para as coordenadas Cα , a qual é definida
pela função φα ◦ φ−1
β , seja infinitamente diferenciável (ou analı́tica).
Como mencionamos, a conceito de variedade foi inspirado na noção de superfı́cie em conjuntos como
n
e n . Sem entrarmos em detalhes técnicos, toda superfı́cie em n convenientemente definida (tais

como a superfı́cie da esfera e o toro, em 3 ) é uma variedade, ou seja, tem um sistema de coordenadas

local. Isso pode ser garantido, por exemplo, pelo conhecido teorema da função implı́cita da análise
real. Note-se porém que variedades não são apenas conjuntos de pontos, como as superfı́cies de n o
são, podendo ser também conjuntos de outros tipos de objetos, como funções, curvas, vetores, matrizes
etc. A idéia intuitiva básica em torno da noção de variedade é que a mesma representa uma coleção
contı́nua de objetos que podem ser rotulados por sistemas de coordenadas e de tal forma que possamos,
ao menos localmente, manipular essas coordenadas de modo (infinitamente) diferenciável, como se faz
em n .
a b

E. 11.1 Exercı́cio. Mostre que o conjunto de matrizes R = −b a , a, b ∈ com det(R) = 1 é

uma variedade diferenciável de dimensão 1. 6
• Grupos Topológicos
Vamos agora apresentar a definição de grupo topológico, da qual precisaremos para discutir grupos
de Lie.
Seja G um grupo. Para cada g ∈ G podemos definir uma função λg : G → G por λg (h) = gh. Fora
isso tem-se também em G a função inv : G → G definida por inv(h) = h−1 .
Definição. Um grupo G é dito ser um grupo topológico em relação a uma topologia τ definida em G
se nessa topologia a função inv e todas as funções λg forem contı́nuas.
Comentário. Podemos definir também para cada g ∈ G a função µg : G → G por µg (h) = hg, que
representa a multiplicação à direita por g. É fácil de se ver, porém, que µg = inv ◦ λg−1 ◦ inv. Assim,
em um grupo topológico as funções µg são também contı́nuas.
Comentário. Um grupo pode ser topológico em relação a uma topologia mas não em relação a outra.
Veremos exemplos.
Informalmente, um grupo G é topológico se as operações de produto por elementos do grupo e
inversão forem contı́nuas.
Em termos mais precisos um grupo topológico é formado por um grupo G e uma coleção G de
subconjuntos de G, G ⊂ (G), satisfazendo as condições definidoras de um Espaço Topológico (vide
Capı́tulo 15):
1. ∅ ∈ G e G ∈ G,
2. Se A ∈ G e B ∈ G então A ∩ B ∈ G,
[
3. Se I é um conjunto arbitrário de ı́ndices e Aλ ∈ G para todo λ ∈ I então Aλ também é um
λ∈I
elemento de G,
e tais que para todo O ∈ G as imagens inversas inv −1 (O) e λ−1

g (O), para todo g ∈ G, são igualmente
elementos de G.
Os elementos de G são ditos ser os conjuntos abertos de G. Como em geral se faz em espaços
topológicos, um conjunto F ⊂ G é dito ser fechado se seu complementar G \ F for aberto.
• Grupos de Lie
Um grupo topológico que, enquanto espaço topológico, seja uma variedade diferenciável (analı́tica)
é dito ser um Grupo de Lie1 real (complexo) se as operações de multiplicação à direita e inversão forem
infinitamente diferenciáveis (analı́ticas).
E. 11.2 Exercı́cio. Verifique que ( , +) (o grupo aditivo dos reais) e ( \{0}, ·) (o grupo multiplicativo

dos reais não-negativos) são grupos de Lie reais. 6
a b

E. 11.3 Exercı́cio. Verifique que R = −b a , a, b ∈ com det(R) = 1 é um grupo de Lie real.
6
Na Seção 11.3.2, página 677, mostraremos com detalhe que GL( , n) é um grupo de Lie. Para
mais exemplos, vide a discussão sobre os grupos SO(3), SU(2) etc. do Capı́tulo 10.
11.2 Breves Considerações sobre Grupos Topológicos

Nesta seção nos limitaremos a apresentar alguns poucos resultados sobre grupos topológicos, dos quais
faremos uso adiante ao tratarmos de grupos de Lie. O estudo de grupos topológicos gerais é bastante
vasto e para um texto clássico recomendamos fortemente [97].
Introduzimos aqui a seguinte notação. Seja G um grupo topológico. Se U é algum subconjunto de
G e g ∈ G definimos
gU = {x ∈ G| x = gu para algum u ∈ G}.
Analogamente,
U g = {x ∈ G| x = ug para algum u ∈ G}.
E. 11.4 Exercı́cio. Se U é um conjunto aberto de G mostre que para todo g ∈ G os conjuntos gU e

U g são também conjuntos abertos de G. 6
• Grupos Topológicos Conexos e Desconexos
1
Marius Sophus Lie (1842-1899). Lie introduziu esse conceito em cerca de 1870 em seus estudos de propriedades de
invariância de equações diferenciais parciais.
Um grupo topológico H é dito ser desconexo se for a união disjunta de dois conjuntos A e B, ambos
não-vazios e ambos simultaneamente abertos e fechados. Ou seja, H = A ∪ B, A ∩ B = ∅ com A 6= ∅,
B 6= ∅, onde A e B são abertos e fechados.
Um grupo topológico H é dito ser conexo se não for desconexo.
• Alguns Fatos sobre Grupos Topológicos
Vamos aqui provar alguns fatos básicos sobre grupos topológicos gerais. Faremos uso da Proposição
11.3 abaixo quando falarmos da relação entre álgebras de Lie matriciais e álgebras de Lie.
Seja H é um grupo topológico e G ⊂ H um subgrupo de H. Dizemos que G é um subgrupo aberto
de H se G for um subconjunto aberto de H. Analogamente, dizemos que G é um subgrupo fechado de
H se G for um subconjunto fechado de H. A seguinte proposição é relevante nesse contexto.
Proposição 11.1 Seja H um grupo topológico e G um subgrupo aberto de H. Então G é igualmente
um subgrupo fechado de H. 2
Prova. Seja g 0 ∈ G, onde G é o fecho de G. Então, se Ug0 é qualquer aberto de H que contém g 0 ,
tem-se Ug0 ∩ G 6= ∅ (Proposição 15.5, página 834). Vamos escolher cuidadosamente um tal aberto U g0 .
Seja Ue um aberto de H que contem a identidade. Como G é aberto, V = Ue ∩ G é igualmente aberto.
Escolhemos Ug0 = g 0 V := {x ∈ H, x = g 0 v para algum v ∈ V }. Então, como Ug0 ∩ G 6= ∅ existe algum
elemento g ∈ G que é também elemento de Ug0 , ou seja, g = g 0 v para algum elemento v ∈ V . Mas isso
implica que g 0 = gv −1 . Agora, v ∈ V = Ue ∩ G ⊂ G e, portanto, g 0 ∈ G por ser o produto de dois
elementos de G, que é um grupo.
Proposição 11.2 Seja H um grupo topológico conexo e G um subgrupo aberto de H. Então G = H.

2
Prova. Vamos supor que G 6= H, ou seja, H \ G 6= ∅. Como G é um conjunto aberto e fechado (pela
proposição anterior) H \ G = H ∩ Gc é um conjunto aberto e fechado. Assim, H é a união disjunta
de dois conjuntos abertos e fechados, a saber G e H \ G. Isso é uma contradição com o fato de H ser
conexo. Logo G = H.
Proposição 11.3 Seja H um grupo topológico conexo e U um aberto de H que contem a identidade e
que seja tal que para todo u ∈ U tem-se u−1 ∈ U . Então,
∞
[
H = U n,
n=1
onde U 1 := U e
U n := {x ∈ H| x = un · · · u1 para ui ∈ U, i = 1, . . . , n}, n > 1.
2
Prova. Todos os conjuntos U n são conjuntos abertos. Isso é fácil de se ver. De fato,
[
U2 = u2 U
u2 ∈U
e, assim, U 2 é aberto, pois é uma união de abertos (vide exercı́cio à página 673). Analogamente,
[
Un = un U n−1 , n > 2. (11.1)
un ∈U
Por indução, segue facilmente que todo U n é aberto.

S
Assim U := ∞ n
n=1 U é igualmente um conjunto aberto (por ser uma união de abertos). Se provarmos
que U é um grupo, a proposição anterior garante a prova desejada.
É evidente que U contem a identidade e (que está contida em U ). Fora isso, se g1 ∈ U n1 e g2 ∈ U n2 ,
então g1 = un1 · · · u1 e g2 = u0n2 · · · u01 para certos ui e u0i ∈ U. Logo, g1 g2 = un1 · · · u1 u0n2 · · · u01 ,
mostrando que g1 g2 ∈ U n1 +n2 ⊂ U. Finalmente, se g ∈ U n e g = un · · · u1 , então g −1 = u−1 −1
1 · · · un ∈
n
U ⊂ U. Isso completa a prova que U é um grupo.
Informalmente, essa proposição diz que se H é um grupo topológico conexo, então qualquer aberto
U que contem a identidade gera o grupo H, ou seja, todo elemento de H pode ser escrito como o
produto finito de elementos de U.
Observação. Como a identidade e é um elemento de U , segue facilmente de (11.1) que U n−1 ⊂ U n
para todo n ≥ 1.
Seja H um grupo topológico. Dizemos que uma coleção de conjuntos abertos A λ ∈ H, λ ∈ Λ, é um
recobrimento de H se [
H = Aλ .
λ∈Λ
Um grupo topológico é dito ser compacto se possuir a seguinte propriedade: para todo recobrimento
Aλ ∈ H, λ ∈ Λ, de H existir um subconjunto finito Aλ1 , . . . , Aλn de conjuntos abertos que também é
um recobrimento de H:
H = A λ1 ∪ · · · ∪ A λn .
A seguinte proposição é imediata:

Proposição 11.4 Seja H um grupo topológico conexo e compacto e seja U um aberto de H que contem
a identidade e que seja tal que para todo u ∈ U tem-se u−1 ∈ U . Então, existe um n tal que
H = U n.
S
Prova. Como H é conexo, pela Proposição 11.3 tem-se H = ∞ n
n=1 U . O lado direito é, portanto,
um recobrimento de H por abertos. Assim, como H é compacto, H tem um recobrimento finito pelos
abertos U n : existem n1 < n2 < · · · < nk tais que H = U n1 ∪ · · · ∪ U nk . Como U n1 ⊂ · · · ⊂ U nk , tem-se
H = U nk , como querı́amos provar.
Comentário. Na proposição acima, a igualdade H = U n afirma que todo elemento de H é obtido por
um produto de no máximo n elementos de U . O número n é dependente de U e é intuitivo dizer que
quanto “menor” for o aberto U que contem a identidade, maior será n.
11.3 Grupos de Lie Matriciais

Nosso objetivo nesta seção e nas que se seguem é introduzir os grupos de Lie matriciais e discutı́-los.
Trataremos de alguns exemplos ilustrativos com algum detalhe, começando com o grupo GL( , n).
Comentemos que essencialmente todas as nossas afirmações adiante sobre GL( , n) são também válidas
para o grupo real GL( , n).
11.3.1 Uma Topologia Métrica em GL( , n)

Como preparação, façamos alguns comentários topológicos sobre GL( , n). A topologia métrica de
Mat ( , n) discutida na Seção 4.1, página 211, pode ser introduzida naturalmente em GL( , n), que
afinal é um subconjunto de Mat ( , n), ao definirmos para A, B ∈ GL( , n) a métrica d(A, B) =
kA − Bk, sendo k · k a norma operatorial de Mat ( , n). Mostremos que GL( , n) é um conjunto
aberto e denso de Mat ( , n).
• GL( , n) é um Conjunto Aberto de Mat( , n)
É relevante notarmos que GL( , n) não é um subconjunto fechado de

Mat ( , n).
Isso se vê tomando
1/m 0
o exemplo da seqüência de matrizes diagonais 2 × 2 da forma Am = , m ∈ , seqüência
0 1/m

essa formada por elementos de GL( , 2) mas que converge para a matriz nula, que obviamente não é
elemento de GL( , 2).
Em verdade, GL( , n) é um conjunto aberto Mat ( , n). Para mostrar isso temos que provar 2 que
se A ∈ GL( , n) e B é uma matriz tal que kB − Ak é suficientemente pequena, então B é invertı́vel e,

portanto, também pertence a GL( , n). Observemos que B = A ( + A−1 (B − A)). Se provarmos que
−1
+ A−1 (B − A) é invertı́vel então teremos que B −1 existe, sendo dada por ( + A−1 (B − A)) A−1 .
Escolhendo B próximo o suficiente de A de modo que kB − Ak < 1/kA−1 k então A−1 (B − A)
terá norma menor que 1 e, portanto, + A−1 (B − A) tem uma inversa dada pela série de Neumann3
convergente4
X∞
−1
−1 m
+ A (B − A) = + (−1)m A−1 (B − A) .
m=1
Isso prova que B tem inversa e completa a prova que GL( , n) é um conjunto aberto.
2
Vide a definição de conjunto aberto em espaços métricos dada à página 743.
3
Karl Neumann (1832-1925).
4 1
A justificativa dessa expressão foi apresentada na Seção 4.2. Note que a expansão de Taylor da função analı́tica
P∞ 1+z
para |z| < 1 em torno de z = 0 é precisamente 1 + m=1 (−1)m z m .
E. 11.5 Exercı́cio. Há uma maneira alternativa “rápida” de provar que GL( , n) é um conjunto aberto.
Mostre que det(A) é contı́nua como função dos elementos de matriz de A. Mostre que isso implica que
det(A) é contı́nua na topologia induzida em Mat ( , n) pela norma operatorial (em, verdade, por qualquer
norma, pois são todas equivalentes). Conclua que GL( , n) é um conjunto aberto, observando para tal que
trata-se do conjunto de todas as matrizes complexas com determinante não-nulo e notando que \ {0} é
um conjunto aberto em . 6
• GL( , n) é denso em Mat( , n)
Provemos que todo elemento de Mat ( , n) pode ser aproximado em norma por uma matriz in-
vertı́vel. Isso equivale a dizer que GL( , n) é denso em Mat ( , n). Seja A ∈ Mat ( , n) e seja
σ(A) = {λ1 , . . . , λr } o conjunto de seus autovalores distintos (r ≤ n). É claro que se α 6∈ σ(A) então
det(α − A) 6= 0 e A − α tem inversa (recorde que os autovalores de A são os zeros do polinômio
caracterı́stico de A). Seja agora, αn , n ∈ , uma seqüência de números complexos tais que αn 6∈ σ(A)

para todo n, e tais que αn → 0 para n → ∞. Teremos que as matrizes An := A − αn são todas
invertı́veis e d(A, An ) = kA − An k = |αn | k k = |αn | → 0 para n → ∞. Isso prova nossa afirmação.
11.3.2 O Grupo de Lie GL( , n)

Nesta seção mostraremos que GL( , n) é um grupo de Lie. Para isso mostraremos primeiro que
GL( , n) é um grupo topológico e depois que é uma variedade analı́tica, para então mostrar que o
produto e a inversão são analı́ticos. Esses resultados, além de importantes em si, servem ao propósito
pedagógico de ilustrar os conceitos de grupo topológico e de variedade.
• GL( , n) é um Grupo Topológico
Para provarmos que GL( , n) é um grupo topológico precisamos mostrar que o produto em
GL( , n) e a inversão de matrizes em GL( , n) são operações contı́nuas.
Sejam G, G0 , H ∈ GL( , n). Temos que
kG0 H − GHk
= k(G0 − G)Hk
≤ kG0 − Gk kHk ,
mostrando que kG0 H − GHk → 0 se kG0 − Gk → 0. Assim, o produto à esquerda é contı́nuo.

Sejam agora G, H ∈ GL( , n). Fixemos H e tomemos kG − Hk < com > 0 escolhido pequeno

o suficiente de modo que kH −1 k < 1. É claro que G = H + (G − H) = H( + H −1 (G − H)), de

−1
maneira que G−1 = [ + H −1 (G − H)] H −1 . Logo,
n −1 o
G−1 − H −1 = + H −1 (G − H) − H −1 .
Assim, como pela escolha de temos kH −1 (G − H)k ≤ kH −1 k < 1, podemos escrever

" ∞ #
X m
G−1 − H −1 = (−1)m H −1 (G − H) H −1 .
m=1
A justificativa dessa expressão5 foi apresentada na Seção 4.2. Tem-se, então,

" ∞ #
X kH −1 k2
kG−1 − H −1 k ≤ kH −1 km kG − Hkm kH −1 k ≤ .

1 − kH −1 k

m=1
Portanto kG−1 − H −1 k → 0 quando kG − Hk → 0, provando a continuidade da operação de inversão

de matrizes. Isso completa a prova que GL( , n) é um grupo topológico.
E. 11.6 Exercı́cio. Há uma maneira alternativa “rápida” de provar que a operação de inversão é contı́nua:
use a “regra de Laplace6 ” (vide (10.7), página 572) para calcular a inversa de uma matriz e evoque o fato
que o determinante é contı́nuo. 6
• GL( , n) é uma Variedade Analı́tica
Vamos agora mostrar que GL( , n) é uma variedade analı́tica.

n2
Seja, para cada > 0, o sub-conjunto C de definido por
n2
C := {(x11 , . . . , x1n , x21 , . . . , x2n , . . . , xn1 , . . . , xnn ) ∈
com |xij | < para todos i, j = 1, . . . , n}.
Para x = (x11 , . . . , x1n , x21 , . . . , x2n , . . . , xn1 , . . . , xnn ) ∈ C , denotemos por X a matriz cujo
elemento ij é Xij = xij e denotemos + X por A(x). Obviamente A(x)ij = δij + xij , i, j = 1, . . . , n.
n2
É bem claro que cada C é um sub-conjunto aberto de . Seja também U := {A(x) ∈ Mat ( , n)| x ∈
C }.
E. 11.7 Exercı́cio. Mostre que cada U é um sub-conjunto aberto de Mat ( , n). 6
É bem claro que para toda matriz A(x) como acima tem-se det(A(x)) = 1 + p(x), onde p(x) é
um polinômio nas variáveis xij que se anula quanto todas as xij são nulas. Assim, se x ∈ C vê-se
que det(A(x)) 6= 0 caso seja pequeno o suficiente, pois isso garante que |p(x)| < 1. Portanto, se
escolhermos pequeno o suficiente, teremos que U é um sub-conjunto aberto de GL( , n), o que
suporemos daqui por diante.
Seja agora g uma matriz arbitrária de GL( , n) e seja
Ug = {gA(x), com A(x) ∈ U }.
Pela notação que apresentamos quando discutimos grupos topológicos, Ug = gU , e Ug é um aberto de
GL( , n). Fora isso, g ∈ Gg , pois = A(0) ∈ U . Concluı́mos que
[
GL( , n) = Ug ,
g∈GL( , n)
5 1
Note que a expansão de Taylor da função analı́tica − 1 para |z| < 1 em torno de z = 0 é precisamente
P∞ m m
1+z
m=1 (−1) z .
6
ou seja, GL( , n) possui um recobrimento por abertos.

n2
Vamos agora mostrar que a cada Ug é bijetivamente mapeado em um aberto de . Isso é bem
simples pois, se para cada g ∈ GL( , n) definirmos funções φgij : Ug → por
φgij (gA(x)) = φgij (g + gX)) := (gX)ij , i, j = 1, . . . , n,

ou seja,
n
X
φgij (gA(x)) := gik xkj , i, j = 1, . . . , n,
k=1
n2
vemos facilmente que todo h P ∈ Ug é da forma hij = gij + φgij (gA(x)). Assim, o conjunto Cg ⊂
formado pelas variáveis x0ij = nk=1 gik xkj com xij ∈ C é um sistema de coordenadas para Ug .
Por fim, para todo h ∈ Ug ∩ Ug0 , teremos h = gA(x) = g 0 A(x0 ), ou seja, A(x0 ) = (g 0 )−1 gA(x) e
n
X n
X
0 −1
x0ij = −δij + (g ) g ik (δkj + xkj ) = 0 −1
(g ) g − ij
+ (g 0 )−1 g ik
xkj ,
k=1 k=1
o que mostra que as coordenadas x0 são expressas em termos de polinômios nas variáveis x. Portanto, a
mudança nas coordenadas de Ug para as de Ug0 é expressa em termos de funções analı́ticas (em verdade,
polinômios). Isso provou que GL( , n) é uma variedade analı́tica.
• GL( , n) é Grupo de Lie
Para finalmente provarmos que GL( , n) é um grupo de Lie, resta-nos provar que a multiplicação
à direita e a inversão são analı́ticas. A primeira parte é elementar. Tomemos g, h ∈ GL( , n). Os
elementos de Uh são da forma hA(x) e os de gUh são da forma ghA(x) ∈ Ugh . Agora, as funções de C
em dadas por
n
X
C 3 x 7→ φgh
ij (ghA(x)) = (gh)ik xkj i, j = 1, . . . , n,
k=1
são polinômios nas variáveis xij e, portanto, analı́ticas. Assim, o produto é analı́tico.
Para provar que a inversão é analı́tica tomemos g ∈ GL( , n). Um elemento genérico de U g é da
forma gA(x) = g( + X). Agora,
∞
X
−1 −1 −1 −1 −1
(gA(x)) = ( + X) g = g ( + gY (x)g ), com Y (x) := (−1)m X m .
m=1
Cada elemento de matriz de Y (x) é uma função analı́tica dos xij , pois a série de Neumann7 acima
converge absolutamente (claramente, temos que escolher < 1). Agora, as funções
−1 −1
C 3 x 7→ φgij (gA(x))−1 = φgij g −1 ( + gY (x)g −1 ) = gY (x)g −1 ij
são funções analı́ticas dos xij , provando que a aplicação de inversão é analı́tica. Isso estabelece final-
mente que GL( , n) é um grupo de Lie de dimensão n2 .
7
Karl Neumann (1832-1925).
E. 11.8 Exercı́cio. Há uma maneira alternativa “rápida” de provar que a operação de inversão é analı́tica:
use a regra de Laplace para calcular a inversa de uma matriz e evoque o fato que o determinante é analı́tico.
6
11.3.3 Sub-Grupos Uniparamétricos e seus Geradores

Sub-grupos uniparamétricos são muito importantes na teoria dos grupos de Lie. Vamos apresentá-los
no caso de matrizes.
Definição. Um sub-grupo uniparamétrico de GL( , n) é um homomorfismo contı́nuo 8 do grupo ( , +)
em GL( , n). Em outras palavras, é uma função que a cada t real associa continuamente uma matriz
invertı́vel γ(t) de modo que
γ(t)γ(t0 ) = γ(t + t0 ) (11.2)
para todos t, t0 ∈ . Note que de (11.2) segue automaticamente que γ(0) = (por que?).
A importância dos sub-grupos uniparamétricos reside na seguinte proposição, a qual também começa
a revelar a relevância das exponenciais de matrizes na teoria dos grupos de Lie.
Proposição 11.5 Seja γ : → GL( , n) um sub-grupo uniparamétrico. Então existe uma matriz

M ∈ Mat ( , n), univocamente definida, tal que γ(t) = exp(tM ) para todo t ∈ . Esse fato, em
particular, mostra que γ é real-analı́tica (e, portanto, diferenciável) e que M = γ 0 (0). A matriz M é
dita ser o gerador do sub-grupo uniparamétrico γ. 2
Prova.9 Se supuséssemos que γ é uma matriz diferenciável próximo a t = 0, terı́amos que para qualquer
t
1 1
0
γ (t) = lim (γ(t + s) − γ(t)) = γ(t) lim (γ(s) − γ(0)) = γ(t)γ 0 (0).
s→0 s s→0 s
Definindo M := γ 0 (0), concluirı́amos que γ satisfaz a equação diferencial γ 0 (t) = γ(t)M , cuja solução é
única (vide Capı́tulo 6) e dada por γ(t) = exp(tM ), como querı́amos provar.
A demonstração estaria completa, não fosse o fato de que no enunciado supomos apenas que γ é
contı́nua, o que em geral não implica que γ seja também diferenciável em t = 0. É, no entanto, possı́vel
provar que se γ é contı́nua, então pelo fato de ser um homomorfismo de ( , +) segue que γ é também

diferenciável próximo a t = 0! A idéia é construir a partir de γ uma função γ̃ infinitamente diferenciável

e posteriormente mostrar que γ pode ser recuperada de γ̃ por operações diferenciáveis.
Para tal seja θ uma função real, positiva infinitamente diferenciável, com suporte compacto contendo
t = 0 e tal que Z ∞
θ(s)ds = 1.
−∞
8
Vide nota à página 683.
9
Extraı́da de [61]. A observação de que no enunciado da Proposição 11.5 é suficiente supor-se que o sub-grupo
uniparamétrico γ é apenas contı́nuo (dispensando uma condição de diferenciabilidade) é devida a von Neumann.
Um exemplo de uma tal função seria (para a < 0 < b)

(
K exp − (s−a)21(s−b)2 , para s ∈ (a, b)
θ(s) =
0, de outra forma,
R∞
que tem suporte [a, b] 3 0. Uma escolha conveniente da constante K garante que −∞
θ(s)ds = 1.
Assim, seja uma tal função θ desse tipo e com suporte em, digamos, [−a, a] para algum a > 0, e
seja Z ∞
γ̃(t) := θ(t − s)γ(s)ds.
−∞
É fácil (Exercı́cio!) ver que γ̃ assim definida é infinitamente diferenciável. Fora isso,
Z ∞ Z ∞ Z ∞
γ̃(t) = θ(t − s)γ(s)ds = θ(u)γ(t − u)du = θ(u)γ(t)γ(−u)du
−∞ −∞ −∞
Z ∞
= γ(t) θ(u)γ(−u)du = γ(t)Y,
−∞
R∞
com Y := −∞
θ(u)γ(−u)du. Temos que
Z ∞
Y − = θ(u)(γ(−u) − )du,
−∞
R∞
pois −∞
θ(u)du = 1, por hipótese. Logo
Z ∞ Z a
kY − k
≤ θ(u) kγ(−u) − k du =
θ(u) kγ(−u) − k du
−∞ −a
Z a Z ∞
≤ c θ(u) du = c θ(u) du = c ,
−a −∞
onde c := supu∈[−a, a] kγ(−u) − k . Como γ é contı́nua e γ(0) = , podemos fazer c arbitrariamente

pequena, escolhendoP∞a pequeno. Mas isso diz que Y = − ( − Y ) é invertı́vel, com Y −1 dado pela
série convergente m=0 ( − Y ) . Assim, com a pequeno teremos γ(t) = γ̃(t)Y −1 , o que prova que γ(t)
m
é infinitamente diferenciável.
Definição. O que essa proposição provou é que todo sub-grupo uniparamétrico de GL( , n) é da
forma exp(tM ) para alguma matriz M ∈ Mat ( , n). Essa matriz M é dita ser o gerador do sub-grupo
uniparamétrico em questão.
Comentemos brevemente que a Proposição 11.5, que acabamos de provar, tem generalizações im-
portantes na teoria dos espaços de Hilbert e de Banach, onde é conhecida como Teorema de Stone 10 .
Vide, por exemplo, [99].
10
Marshall Harvey Stone (1903-1989).
• A Coleção de todos os Geradores de Sub-grupos Uniparamétricos
Seja G um sub-grupo de GL( , n). Seja definido o seguinte conjunto:
L(G) := {M ∈ Mat ( , n)| exp(tM ) ∈ G, ∀t ∈ } .
Analogamente, seja G um sub-grupo de GL( , n). Seja definido o seguinte conjunto:

L(G) := {M ∈ Mat ( , n)| exp(tM ) ∈ G, ∀t ∈

} .
Em palavras, L(G) é a coleção de todos os geradores de todos os sub-grupos uniparamétricos de

G. É claro, pela definição, que L(G) contem sempre pelo menos a matriz nula (pois exp(t0) = ∈ G,
∀t ∈ ), mas não é nem um pouco evidente que esse não seja o único elemento de L(G). Por exemplo,

se G for um grupo discreto então L(G) = {0}. Mesmo no caso de G ser um grupo contı́nuo não é nada
óbvio que G possua sub-grupos uniparamétricos não-triviais. Logo abaixo estudaremos essa questão
no caso do grupo GL( , n) e, um pouco mais adiante, no caso de sub-grupos fechados (não-discretos)
de GL( , n). Em tais casos veremos que L(G) não consiste apenas da matriz nula.
Chamamos a atenção do estudante para o fato que, para um grupo G genérico, não é necessariamente
verdade que todo elemento de G pode ser escrito na forma exp(tM ) para algum M ∈ L(G) e algum
t ∈ . Ou seja, existem grupos G nos quais encontram-se elementos que não pertencem a nenhum

sub-grupo uniparamétrico de G. Na Proposição 4.10, página 224, vimos que isso ocorre no grupo real
GL( , n), pois esse grupo não é conexo, mas esse fenômeno pode ocorrer mesmo em grupos conexos.

Um exemplo será discutido na página 701, adiante.
A coleção de todos os geradores de todos os sub-grupos uniparamétricos de um dado grupo G é um

objeto muito importante, especialmente na teoria dos grupos de Lie. Discutiremos esse fato adiante.
No caso do grupo GL( , n) podemos facilmente identificar o que é L(GL( , n)). Faremos isso agora.
• Sub-grupos Uniparamétricos de GL( , n) e a Álgebra de Lie Associada a GL( , n)
A coleção de todos os geradores de todos os subgrupos uniparamétricos do grupo GL( , n) será

denotada aqui por L(GL( , n)) ou por gl( , n). Vamos identificar esse conjunto.
Na Proposição 4.11, página 224, demonstramos que todo elemento A ∈ GL( , n) pode ser escrito
na forma A = exp(B) para algum B ∈ Mat ( , n). Conseqüentemente, A pertence ao subgrupo
uniparamétrico composto pelas matrizes da forma exp(tB), t ∈ . Assim, GL( , n) possui subgrupos

uniparamétricos não-triviais. Reciprocamente, para todo B ∈ Mat ( , n) o conjunto de matrizes

da forma exp(tB), t ∈ , forma um subgrupo uniparamétrico de GL( , n). Concluı́mos disso que

L(GL( , n)) = Mat ( , n).

Já discutimos por diversas vezes (vide página 56 e seguintes) que o conjunto Mat ( , n) é uma
álgebra de Lie com relação ao produto definido pelo comutador de matrizes. Um pouco mais adiante,
veremos que esse fato é geral: o conjunto de todos os geradores de um subgrupo fechado (não-discreto)
de um grupo de Lie é também uma álgebra de Lie. Esse fato é de importância central na teoria dos
grupos de Lie.
E. 11.9 Exercı́cio. Para a, b = 1, . . . , n e α ∈ , sejam γαab (t), matrizes definidas da seguinte forma:

 + αtE ab , para a 6= b
ab
γα (t) := , com t ∈ .


+ (eαt − 1)E aa , para a = b

Aqui E ab é a matriz cujos elementos ij são dados por E ab ij = δi a δj b , ou seja, E ab é a matriz cujos
elementos de matriz são todos nulos, exceto o elemento ab, que vale 1. Mostre que as matrizes γ αab são
subgrupos uniparamétricos de GL( , n), ou seja, que γαab (t) são contı́nuas e que γαab (t)γαab (t0 ) = γαab (t + t0 )
2
para todo a, b e todo α. (Sugestão: mostre que E ab = δab E ab e use esse fato). Mostre que seus
geradores são as matrizes αE ab . Constate também explicitamente que γαab (t) = exp αtE ab . 6
Note que a coleção formada por todas combinações lineares reais dos geradores dos subgrupos
uniparamétricos γαab de GL( , n) coincide com Mat ( , n) (por que?).
E. 11.10 Exercı́cio. Como são as relações de comutação das matrizes E ab ? 6
• Homomorfismos Não-Contı́nuos de ( , +)
Contemplando a definição de sub-grupo uniparamétrico que apresentamos acima, como sendo um

homomorfismo contı́nuo de ( , +) em um grupo G, o estudante pode legitimamente questionar se

existem, afinal, homomorfismos não-contı́nuos desse grupo que justifiquem a necessidade de evocar
a condição de continuidade na Proposição 11.5. Talvez um tanto surpreendentemente, a resposta é
positiva. Há até mesmo automorfismos não-contı́nuos de ( , +) em si mesmo, os quais foram apre-

sentados à página 97, onde discutimos a existência de funções descontı́nuas de em que satisfazem
f (t) + f (t0 ) = f (t + t0 ) para todos t, t0 ∈ . Assim, com o uso de uma tal função f , é relativamente

fácil construir um homomorfismo não-contı́nuo de ( , +) em um grupo G dado, caso conheçamos um

homomorfismo contı́nuo de ( , +) em G. De fato, se γ(t), t ∈ , é um homomorfismo contı́nuo de

( , +) em G então γ(f (t)), t ∈ , é um homomorfismo de ( , +) em G, mas que não é contı́nuo.

Dada a “artificialidade” daquelas funções f , tais exemplos são um tanto patológicos, mas explicam
a necessidade de incluir a condição de continuidade na definição de sub-grupo uniparamétrico e na
Proposição 11.5.
11.3.4 Sub-Grupos Uniparamétricos e Álgebras de Lie
• Sub-Grupos Uniparamétricos em Sub-Grupos Fechados
Definição. Seja H um subgrupo fechado mas não discreto de GL( , n). Definimos

L(H) := X ∈ Mat ( , n) tais que etX ∈ H para todo t ∈ .
Como se vê, trata-se do conjunto dos geradores de todos os subgrupos uniparamétricos de H. É claro,
pela definição acima, que L(H) possui pelo menos um elemento, a saber a matriz nula, pois, obviamente
et0 = ∈ H para todo t ∈ . Não é nem um pouco óbvio, porém, que haja outros elementos em L(H)

que não o elemento nulo. Não é sequer óbvio que existam subgrupos uniparamétricos não-triviais 11 em
H. Na Proposição 11.6 adiante, provaremos que L(H), de fato, é não-trivial e que há, de fato, subgrupos
uniparamétricos não-triviais em H. Para demonstrarmos a Proposição 11.6 precisamos de algumas
definições e de alguns resultados preparatórios. Seguiremos muito proximamente a exposição de [93]
(vide todo o 2 do Capı́tulo XI daquela referência), mas com ligeiras correções e aperfeiçoamentos.
Para simplificar a notação denotaremos aqui o grupo GL( , n) por G e sua álgebra de Lie
Mat ( , n) por g.
Fixemos doravante um número r > 0, arbitrário mas conveniente, e seja wr a bola fechada de raio
r centrada na origem em g:
wr := {X ∈ g| kXk ≤ r} . (11.3)
Notemos que wr é simétrica, ou seja, se X ∈ wr então −X ∈ wr . Denotaremos por wO
r a bola aberta
de raio r centrada na origem em g:
wO
r := {X ∈ g| kXk < r} . (11.4)
Vamos denotar por Wr a imagem de wr pela exponenciação:
Wr := {exp(X), X ∈ wr } . (11.5)
É claro que Wr ⊂ G e é claro que Wr é simétrico, ou seja, se Y ∈ Wr então Y −1 ∈ Wr .

Como H é um subconjunto fechado de G, o conjunto H ∩ Wr é fechado. Seja fr o subconjunto de
wr formado pelos elementos cuja exponencial está em H ∩ Wr :
fr := {X ∈ wr | exp(X) ∈ H ∩ Wr }. (11.6)
Comentemos que, pela Proposição 4.11, página 224, todo elemento de H é uma exponencial de algum
elemento de g = Mat ( , n). Portanto, todo h ∈ H ∩ Wr é da forma h = exp(f ) para algum f ∈ fr .
Simbolicamente, podemos escrever
exp(fr ) = H ∩ Wr . (11.7)
É bastante claro que fr é também simétrico. Como exp é contı́nua, fr é também fechado (vide Seção
19.2, página 891). Fora isso, fr ⊂ wr , por definição. Logo, fr é limitado. Por ser fechado e limitado, fr
é compacto.
Definamos M(H, Wr ) ≡ Mr por
Mr := {X ∈ g tais que, para algum > 0, tem-se exp(tX) ∈ H ∩ Wr sempre que |t| < } . (11.8)
Alternativamente, é claro que
Mr = {X ∈ g tais que, para algum > 0, tem-se tX ∈ fr sempre que |t| < } .
Note-se que Mr contem sempre ao menos um elemento, a saber, 0. Não é nada óbvio, porém, se
esse é o único elemento de Mr . No Corolário 11.1, adiante, provaremos que tal não é o caso, ou seja,
Mr não é trivial. Antes disso precisamos de dois lemas preparatórios.
11
Um subgrupo uniparamétrico γ(t) é trivial se γ(t) for igual ao elemento neutro para todo t ∈ .
Lema 11.1 Com as definições acima, valem as seguintes afirmações. I. Se X ∈ M r então λX ∈ Mr

para todo λ ∈ . II. wr ∩ Mr ⊂ fr .
2
Prova do Lema 11.1. Se X ∈ Mr então, para algum > 0 tem-se tX ∈ fr sempre que |t| < . Mas,
então, se λ 6= 0, vale t(λX) ∈ fr sempre |t| < /|λ|. Isso prova a afirmativa I.
Seja agora X ∈ wr ∩ Mr . Queremos provar que X ∈ fr . Como X ∈ Mr então, para algum > 0
tem-se exp(tX) ∈ H ∩ Wr sempre que |t| < . Assim, para n ∈ grande o suficiente (n > −1 ) teremos

exp(n−1 X) ∈ H ∩ Wr o que, em particular, diz que exp(n−1 X) ∈ H. Como H é um grupo, tem-se que
(exp(n−1 X))n ∈ H. Mas o lado esquerdo é exp(X) e, portanto, concluı́mos que exp(X) ∈ H. Agora,
por hipótese, X ∈ wr , o que implica, pela definição de Wr , que exp(X) ∈ Wr . Logo, mostramos que
exp(X) ∈ H ∩ Wr , o que significa que X ∈ fr . Provamos, assim, que wr ∩ Mr ⊂ fr . Isso completa a
prova do Lema 11.1.
Podemos agora demonstrar o seguinte lema, de importância central no presente contexto e, talvez,
o resultado preparatório tecnicamente mais difı́cil.
Lema 11.2 Seja Xn , n ∈ , uma seqüência de elementos de fr tais que Xn 6= 0. Suponhamos que

Xn → 0 para n → ∞ e que Xn /kXn k → Y para algum Y ∈ Mat ( , n). Então12 Y ∈ Mr . 2
Prova do Lema 11.2. Notemos antes de mais nada que se Yn := Xn /kXn k → Y ∈ Mat ( , n) então
Y 6= 0. Em verdade, kY k = 1 pois, fazendo uso da desigualdade (2.19), página 122, temos | kY n k −
kY k | ≤ kYn − Y k. Como o lado direito vai a zero quando n → ∞, segue que kY k = 1, pois kYn k = 1.
Fixemos também um número m ∈ não nulo. Podemos escrever wr como a união
m
[
wr = sk
k=1
onde
k−1 k
sk ≡ := X ∈ wr
srk r ≤ kXk ≤ r ,
m m
ou seja, podemos escrever wr como uma união de “fatias”, ou cascas esféricas, de vetores com normas
entre k−1
m
k
re m r. Note-se que s1 é a bola fechada de raio r/m centrada em 0:
n r o

s1 = X ∈ wr kXk ≤ .
m
Como Xn converge a 0, existe um número Nm (que pode depender de m) tal que Xn ∈ s1 para todo
n > Nm . Seja agora um k0 ∈ fixo, escolhido de modo que 1 < k0 ≤ m. Vamos mostrar que para

cada n > Nm podemos encontrar um número inteiro jn (eventualmente dependente de n) de modo que
jn Xn ∈ sk0 , ou seja, tal que
(k0 − 1)r k0 r
≤ kjn Xn k ≤ .
m m
12
Após a demonstração do Lema 11.2, discutiremos à página 687 que de fato existem seqüências satisfazendo essas
hipóteses.
Para isso, é suficiente escolhermos um jn inteiro satisfazendo
(k0 − 1)r k0 r
≤ |jn | ≤ .
mkXn k mkXn k
(k0 −1)r k0 r
Haverá inteiros no intervalo entre mkXn k
e mkXn k
? Para ver isso, notemos que o comprimento desse
intervalo é
k0 r (k0 − 1)r r
− = ≥ 1,
mkXn k mkXn k mkXn k
pois kXn k ≤ mr , dado que Xn ∈ s1 . Então, uma tal escolha de jn é sempre possı́vel para cada n (pois
todo intervalo fechado de comprimento igual ou maior que 1 contem ao menos um inteiro).
(k ) (k )
Vamos
denominar
jn Xn por Yn 0 (com k0 fixo). É evidente que Yn 0 ∈ sk0 ⊂ wr . Isso implica
(k ) (k )
que exp Yn 0 ∈ Wr . Fora isso, exp Yn 0 = exp(jn Xn ) = (exp(Xn ))jn . Como exp(Xn ) pertence ao

(k )
grupo H (pois xn ∈ fr ), segue pela propriedade de grupo que também tem-se exp Yn 0 ∈ H (é por

(k0 )
essa razão que escolhemos jn inteiro). Com isso, provamos que exp Yn ∈ H ∩ Wr , o que significa
(k0 )
que13 Yn ∈ fr .
O conjunto fr é fechado e limitado e, portanto, compacto. Isso significa que existe uma sub-
(k )
seqüência Ynl 0 , l ∈ , que é convergente em fr . Agora, como Yn = Xn /kXn k converge a Y , isso

(k ) (k )
significa que Ynl 0 converge a um múltiplo de Y , digamos λ(k0 ) Y , pois Ynl 0 é um múltiplo de Ynl , a
(k )
saber, Ynl 0 = jnl kXnl kYnl . Portanto, para um tal λ(k0 ) temos λ(k0 ) Y ∈ fr . Note que também tem-se
−λ(k0 ) Y ∈ fr , bastando para tal trocar Xn por −Xn na argumentação acima, o que é permitido pois fr
é simétrico.
Assim, λ(k0 ) = lim jnl kXnl k e, conseqüentemente,
l→∞
(k0 − 1)r k0 r
≤ λ(k0 ) ≤ .
m m
O que provamos acima vale para cada k0 ∈ com 1 < k0 ≤ m.h Resumindoi nossas conclusões,

provamos que para todo m ∈ não-nulo, cada intervalo Ik0 , m := (k0m−1) r, km0 r com 1 < k0 ≤ m

contem pelo menos um λ(k0 ) tal que ±λ(k0 ) Y ∈ fr .

m
[
A união Ik0 , m é o conjunto m1 r, r . Esses intervalos Ik0 , m podem ser feitos mais finos e em
k0 =2
[ 1
maior número, fazendo m → ∞, sendo que r, r = (0, r].
m∈
m
Concluı́mos disso que existe um conjunto contável denso de números λ no intervalo (0, r] tais que
±λY ∈ fr . Como fr é fechado, isso implica que λY ∈ fr para todo λ ∈ [−r, r]. Agora, isso significa
precisamente que Y ∈ Mr , que é o que querı́amos provar.
A prova do Lema 11.2 está completa.
13 (k0 )
Em [93] o argumento que prova que Yn ∈ fr não está correto, lamentavelmente.
Podemos nos perguntar agora, será que existem seqüências Xn satisfazendo as hipóteses do Lema
11.2, ou seja, tais que Xn /kXn k convirja para algum Y ? É fácil ver que sim. Notemos para isso que
para qualquer seqüência Xn ∈ fr com Xn → 0 a seqüência Yn = Xn /kXn k está contida no conjunto
compacto formado pelos vetores de norma 1. Assim, Yn sempre tem uma sub-seqüência convergente
a algum Y , que também tem norma 1. A essa sub-seqüência aplica-se então o Lema 11.2 e tem-se
Y ∈ Mr . Isso, em particular, mostra-nos que Mr é não-trivial, ou seja, contem elementos não-nulos.
Provamos então:
Corolário 11.1 O conjunto Mr definido acima contem elementos diferentes de 0. 2
Esse simples corolário é crucial para o que segue14 , pois tem a seguinte conseqüência.
Proposição 11.6 Seja H um subgrupo fechado e não-discreto de GL( , n)). Então valem as seguintes
afirmativas. I. Mr = L(H) para qualquer r > 0. II. L(H) é não-trivial, ou seja, não consiste apenas
da matriz nula. Há, portanto, subgrupos uniparamétricos não-triviais em H. 2
Prova. Seja o conjunto Mr ≡ M(H, Wr ) definido em (11.8), com W definido em (11.3)-(11.5) para
algum r > 0. Provaremos que M(H, Wr ) = L(H).
Em primeiro lugar, é claro (por definição!) que se X ∈ L(H) teremos exp(tX) ∈ H. Se X = 0 então
X ∈ M(H, Wr ) trivialmente. Se X 6= 0 então, se escolhermos |t| < r/kXk, teremos que tX ∈ wr .
Logo, X ∈ M(H, Wr ). Isso mostra que L(H) ⊂ M(H, Wr ).
Seja X ∈ M(H, Wr ) com X 6= 0. Pelo Corolário 11.1, um tal X existe. Assim, existe um > 0
tal que exp(t0 X) ∈ H para todo t0 ∈ (−, ). Seja agora t ∈ qualquer. Se escolhermos n ∈
com |n| grande o suficiente, teremos |t/n| < . Daı́, exp((t/n)X) ∈ H e, como H é um grupo,
exp(tX) = (exp((t/n)X))n ∈ H. Como isso vale para qualquer t ∈ provamos que X ∈ L(H).
Com isso provamos que M(H, Wr ) ⊂ L(H) e, portanto, M(H, Wr ) = L(H). Assim, pelo Corolário
11.1, L(H) é não-trivial. Conseqüentemente existem em H subgrupos uniparamétricos não-triviais, a
saber aqueles que tem como geradores os elementos não-nulos de M(H, Wr ).
Chegamos agora ao ponto em que boa parte do que fizemos será unificado e revelaremos a im-
portância de sub-grupos uniparamétricos para os grupos de Lie matriciais.
• Sub-Grupos Uniparamétricos e Álgebras de Lie
Seja H um sub-grupo fechado e não-discreto de GL( , n). O seguinte teorema, o qual é uma con-
seqüência das fórmulas de Lie-Trotter e do comutador (vide Capı́tulo 4), é de importância fundamental:
14
Infelizmente, alguns textos como [114], [124] e mesmo (surpreendentemente) [97], não provam que M r é não-trivial, o
que torna suas demonstrações do Teorema 11.2 incompletas. Mesmo [93], que prova os Lemas 11.1 e 11.2, não menciona
o Corolário 11.1, embora o mesmo fique implı́cito pela sua análise. A referência [61], que segue outra e muito interessante
linha de raciocı́nio, é explı́cita quanto ao Corolário 11.1.
Teorema 11.1 Se H é um sub-grupo fechado e não-discreto de GL( , n) então L(H), definida acima,
é uma álgebra de Lie real15 . 2
Prova. Vamos primeiramente mostrar que L(H) é um espaço vetorial real. Para tal, precisamos mostrar
que se X e Y são geradores de dois sub-grupos uniparamétricos de H, então αX + βY também o é,
para quaisquer α, β ∈ . Comecemos observando que γ(t) := exp(t(αX + βY )) é um sub-grupo

uniparamétrico contı́nuo de GL( , n) cujo gerador é obviamente αX + βY . Tudo o que precisamos

fazer é mostrar que γ(t) ∈ H para todo t ∈ . Pela fórmula de Lie-Trotter (vide Capı́tulo 4),

m
tα tβ
exp(t(αX + βY )) = lim exp X exp Y . (11.9)
m→∞ m m

Observemos então o seguinte. Pela hipótese, as matrizes exp tα m
X e exp tβm
Y pertencem ao grupo
H, pois supomos
que
X e Y são geradores de subgrupos uniparamétricos de H. Portanto os produtos
tβ
exp tαm
X exp m
Y são também elementos de H, pois H é um grupo. Ora, o lado direito de (11.9) é,
portanto, o limite de uma seqüência de elementos de H. Como supomos que H é fechado, segue que o
limite é igualmente um elemento de H, como querı́amos mostrar. Isso provou então que αX + βY ∈
L(H) para quaisquer α, β ∈ e, portanto, L(H) é um espaço vetorial real.

Vamos mostrar agora que L(H) é uma álgebra de Lie. Se X, Y ∈ L(H) temos, pela fórmula do
comutador (vide Capı́tulo 4), e usando [tX, Y ] = t[X, Y ], que
m2
t 1 t 1
exp(t[X, Y ]) = lim exp X exp Y exp − X exp − Y . (11.10)
m→∞ m m m m
Raciocı́nio idêntico ao que empregamos acima concluı́ que exp(t[X, Y ]) ∈ H para todo t ∈ , mos-
trando que [X, Y ] é o gerador de um sub-grupo uniparamétrico contı́nuo de H, ou seja, [X, Y ] ∈ L(H).
Isso provou que L(H) é uma álgebra de Lie.
Comentário. Se para todo X ∈ L(H) tivermos também αX ∈ L(H) para todo α ∈ , concluı́-se pela
demonstração acima que L(H) é uma álgebra de Lie complexa.
11.3.5 Subgrupos Fechados de GL( , n)

Nesta Seção provaremos o seguinte teorema:
Teorema 11.2 Se H é um subgrupo topologicamente fechado de GL( , n) (na topologia métrica in-
duzida de GL( , n)) e H não é discreto, então H é também um grupo de Lie (na topologia métrica
induzida de GL( , n)). 2
O Teorema 11.2 é particularmente importante pois muitos grupos encontrados em aplicações são
sub-grupos fechados (não discretos) de GL( , n) ou de GL( , n). Tal é o caso, por exemplo, dos

15
Álgebras de Lie foram definidas à página 56.
grupos U(n), U(p, q), SU(n), SU(p, q), O(n), SO(n) e outros. Assim, o Teorema 11.2 nos informa que
tais grupos são grupos de Lie.
A prova desse teorema será oferecida à página 691. Antes de chegarmos lá precisaremos apresentar
vários teoremas preparatórios. Chamamos a atenção do leitor para o fato que as demonstrações de
alguns desses resultados preparatórios são bastante técnicas e talvez devam ser omitidas em uma
primeira leitura.
Seja H subgrupo fechado não-discreto de G = GL( , n). Sabemos pelo Teorema 11.1 que L(H) é
um sub-espaço de L(G) = Mat ( , n). Seja L(H)⊥ seu complemento ortogonal (em relação a algum
produto escalar em Mat ( , n), por exemplo hA, Bi = Tr(A∗ B)). Todo elemento A ∈ Mat ( , n)
pode ser escrito de modo único na forma A = Ak + A⊥ , com Ak ∈ L(H) e A⊥ ∈ L(H)⊥ .
Seja assim a função ΦH : L(G) → G definida por

ΦH (A) := exp Ak exp A⊥ .
Lema 11.3 Para H, subgrupo fechado e conexo de GL( , n), existe r0 > 0 tal que a aplicação ΦH
0
definida acima é um homeomorfismo do aberto wO O
r0 em um aberto ΦH (wr0 ) ⊃ Wr00 para um certo r0 > 0.
2
Acima, wO
r0 é a bola aberta de raio r0 em torno da matriz nula. Vide (11.4).
Prova. Escolhamos r0 pequeno o suficiente para que valha a fórmula de Baker-Campbell-Hausdorff16 .

Considere-se a aplicação φH : L(G) → L(G) definida por φH (A) = ln (ΦH (A)), ou seja,

φH (A) := ln exp Ak exp A⊥ = Ak ∗ A⊥ = A + ϕH (A) ,
(lembre-se que Ak + A⊥ = A) onde

1 k ⊥ 1 k k ⊥ ⊥ ⊥ k
ϕH (A) := A, A + A, A , A + A , A , A +··· .
2 12
Como facilmente se constata, kϕkAkH (A)k
→ 0 para kAk → 0. Assim, ΦH é contı́nua e diferenciável em
uma vizinhança de 0 e e sua derivada em 0 é a identidade. Assim, pelo bem conhecido Teorema da
Aplicação Inversa (vide, por exemplo, [84]), φH é um homeomorfismo entre wO
r0 e sua imagem. Como
ΦH = exp ◦ φH e a exponencial é também um homeomorfismo local (Proposição 4.4, página 219), a
prova do Lema 11.3 está completa.
Seja H um subgrupo fechado de GL( , n). Vimos acima que L(H) ⊂ Mat ( , n) é uma álgebra
de Lie real e, como tal, um sub-espaço de Mat ( , n). É evidente que se A ∈ L(H) então exp(A) ∈
H. Vamos denotar por H e o subgrupo de H cujos elementos são produtos finitos de exponenciais de
elementos de L(H):
e := {h ∈ H, h = exp(A1 ) · · · exp(Am ) para algum m ∈
H }.
e é de fato um grupo, pois
H
16
Vide Capı́tulo 4, página 210. A fórmula de Baker-Campbell-Hausdorff é dada em (4.46) à página 237.
1. e
∈ H,
e então h−1 = exp(−Am ) · · · exp(−A1 ) ∈ H
2. se h = exp(A1 ) · · · exp(Am ) ∈ H e e
e então tem-se, evidentemente, hh0 =

3. se h = exp(A1 ) · · · exp(Am ) e h0 = exp(A01 ) · · · exp(A0m0 ) ∈ H
0 0 e
exp(A1 ) · · · exp(Am ) exp(A1 ) · · · exp(Am0 ) ∈ H.
e é denominado subgrupo gerado por L(H). Vamos provar o seguinte teorema:
O grupo H
e = H.
Teorema 11.3 Se H é fechado e conexo então H 2
e ⊂ H, de modo que queremos apenas provar que H ⊂ H.

Prova. Já é evidente, pela definição, que H e
Seja r > 0, fixo. O que faremos é provar que fr ⊂ L(H) ∩ wr0 para algum r 0 > 0. Se isso for
verdadeiro, então, pela definição de fr em (11.6) e por (11.7), os elementos de H ∩ Wr são da forma
exp(A) com A ∈ L(H) ∩ wr0 . Agora, pelo fato de H ser conexo, sabemos pela Proposição 11.3, que
todo elemento de H pode ser escrito como um produto finito de elementos do interior de H ∩ Wr . Logo,
todo elemento de H pode ser escrito como um produto finito exp(A1 ) · · · exp(Am ), para algum m ∈ ,
com Ak ∈ L(H) ∩ wr0 . Ora, isso está precisamente dizendo que H ⊂ H, e que é o que querı́amos provar.
Vamos então mostrar que fr ⊂ L(H) ∩ wr0 para algum r 0 > 0. A demonstração será feita por
absurdo, ou seja, supondo que não existam r e r 0 > 0 tais que fr ⊂ L(H) ∩ wr0 e chegando-se daı́ a
uma contradição.
\ fácil ver pela definição dos conjuntos fr em (11.6) que fr1 ⊂ fr2 sempre que r1 ≤ r2 . Além
É muito
disso, fr = {0}.
r>0
Para um r 0 arbitrário, fixo, vamos então supor que não haja nenhum fr com fr ⊂ L(H) ∩ wr0 . Isso
implica que fr \ (L(H) ∩ wr0 ) 6= ∅ para todo r. Fixando r, poderı́amos escolher uma seqüência rn < r,
rn → 0 com frn \ (L(H) ∩ wr0 ) 6= ∅. Escolhendo para cada n um elemento Xn ∈ frn \ (L(H) ∩ wr0 ),
teremos que Xn ∈ fr \ (L(H) ∩ wr0 ) para todo n e Xn → 0 quando n → ∞.
Como Xn → 0, teremos exp(Xn ) ∈ Wr00 para para todo n grande o suficiente, onde r00 é referido
no enunciado do Lema 11.3. Assim, pelo mesmo lema, existirá para
cada um de tais n’s um elemento
k ⊥ k ⊥

Zn ∈ wr0 , Zn = Zn + Zn , tal que exp (Xn ) = ΦH (Zn ) = exp Zn exp Zn .
k
Antes de prosseguirmos, façamos algumas observações sobre Zn e Zn⊥ . Como Xn → 0, deve valer
também Zn → 0 já que, pelo Lema 11.3, ΦH e sua inversa são contı́nuas. Assim, tem-se igualmente
k
Zn → 0 e Zn⊥ → 0. Pela parte II do Lema 11.1 e pela parte I da Proposição 11.6, segue que w r ∩L(H) ⊂
k
fr . Daı́, para n grande o suficiente, ter-se-á Zn ∈ fr . Note-se também que, como X n 6∈ L(H) para
⊥ k
n grande, teremos Zn 6= 0, pois, se assim não fosse, valeria exp (Xn ) = exp Zn e, tomando-se
k
o logaritmo (o que é permitido para n grande, já que kXn k e kZn k estão ambos próximos a zero),
k
obterı́amos Xn = Zn ∈ L(H), o que é impossı́vel.

⊥ k
Como conseqüência das observações acima, teremos que exp Zn = exp −Zn exp (Xn ). Sucede

k k
que exp (Xn ) ∈ H ∩ Wr e exp −Zn ∈ H ∩ Wr . Assim exp Zn ∈ H e, kZn⊥ k ≤ kZn k < r0 . Logo,

exp Zn⊥ ∈ H ∩ Wr0 . Portanto, Zn⊥ ∈ fr0 .
Como conseqüência do Lema 11.2, da parte I da Proposição 11.6 e da compacidade de f r0 , a seqüência

de vetores de norma 1 dada por Zn⊥ /kZn⊥ k tem uma sub-seqüência que converge a um elemento de
Mr0 = L(H). Porém, como Zn⊥ ∈ L(H)⊥ , isso é impossı́vel e tem-se aı́ uma contradição. Logo, deve
valer fr ⊂ L(H) ∩ wr0 para certos r, r 0 > 0. Isso completa a prova do Teorema 11.3.
Podemos agora reunir os resultados que provamos acima e passar à
Prova do Teorema 11.2.

Seja H um subgrupo fechado de GL( , n). Como veremos, é suficiente provarmos o teorema
considerando apenas a componente de H que é conexa ao elemento neutro, componente essa que
denominaremos H0 . Isso pois se provarmos que H0 é uma variedade, a demonstração facilmente se
estenderá para todo H. Esse ponto será discutido com mais detalhe ao final da demonstração, de modo
que, por ora, nos limitamos a considerar o caso em que H é conexo (o que, no caso geral, equivale a
nos restringirmos a H0 ).
Pelo Teorema 11.3, basta provarmos que H e é um grupo de Lie. Pelo Teorema 4.4, podemos encontrar
uma vizinhança aberta de V de 0 em Mat ( , n) e uma vizinhança aberta W de em GL( , n) tais que
exp : V → W é um difeomorfismo. Seja VH a vizinhança de 0 em L(H) definida por VH = V ∩ L(H) e
seja WH sua imagem em H e pela exponencial. A aplicação exp : VH → WH é também um difeomorfismo,
pois é a restrição de um difeomorfismo (a saber exp : V → W ) por uma função suave (a projeção
V → VH ). Existe naturalmente um sistema de coordenadas em VH , pois L(H) é um espaço vetorial
e, portanto, isomorfo a k , k sendo a dimensão de L(H). Dessa forma como exp : VH → WH é
uma bijeção, exp−1 : WH → VH estabelece um sistema de coordenadas em WH . Para estabelecer um
sistema de coordenadas em todo H, e por exemplo, em torno de um elemento h ∈ H, e podemos transladar
o sistema de coordenadas de WH para uma vizinhança de h, a saber, hWH . As cartas locais assim
obtidas serão compatı́veis (infinitamente diferenciáveis ou analı́ticas) devido ao fato de exp : V H → WH
ser um difeomorfismo e pelo fato de a multiplicação por um h constante não alterar esse caráter. O
argumento de translação pode ser aplicado mesmo a elementos de H que não estão na componente
conexa à identidade, de modo que todo H se torna uma variedade de dimensão k. O produto e a
inversa são contı́nuas e infinitamente diferenciáveis por o serem em GL( , n) e também devido ao fato
de exp : VH → WH ser um difeomorfismo. A demonstração do Teorema 11.2 está então completa
Comentário. Segundo [93], o Teorema 11.2 é devido a Cartan17 . Demonstrações desse importante
teorema podem ser encontradas em vários livros-texto, como por exemplo [93] ou [97]. Devemos, porém,
notar ao leitor e advertir o estudante que alguns textos (inclusive alguns clássicos) apresentam certas
falhas tanto no enunciado do teorema quanto na sua demonstração, falhas essas que procuramos corrigir
e evitar nas demonstrações acima. Por exemplo, muitos autores esquecem-se de excluir do enunciado
o caso (trivial) em que H é fechado mas discreto (grupos discretos obviamente não podem ser grupos
de Lie), por vezes ressalvando isso apenas no correr da demonstração. Vários textos apresentam
demonstrações incompletas (por exemplo, [114], [124] e mesmo parcialmente [97]), pois deixam por
exemplo, de provar que o conjunto Mr , definido acima, não é apenas formado pelo elemento nulo, um
ponto crucial. A demonstração que apresentamos é essencialmente (mas não exatamente) a de [93]
(vide todo 2 do Capı́tulo XI daquela referência). Um outro tratamento excelente (mas talvez não
acessı́vel a todo estudante) é o de [61].
17
Elie Joseph Cartan (1869-1951). E. J. Cartan foi um dos mais importantes contribuidores à teoria de grupos de Lie.
Um ponto importante do Teorema 11.2 é que o subgrupo fechado H é um grupo de Lie com a
topologia induzida em H por G. Em verdade, vale para grupos de Lie um teorema mais ainda forte
que o Teorema 11.2:
Teorema 11.4 Todo subgrupo não-discreto H de um grupo de Lie G é também um grupo de Lie, mas
não necessariamente em relação à topologia induzida por G em H. 2
Como se vê, esse teorema generaliza o Teorema 11.2 pois não é necessário requerer que H seja um
subgrupo fechado de G. Porém, a topologia na qual H é um grupo de Lie pode não ser a topologia
induzida em H por G. Um exemplo ilustrativo será discutido na Seção 11.4.3. A demonstração do
Teorema 11.4 teorema está além dos limites dessas notas e pode ser encontrada em textos como [97]
ou [61].
O Teorema 11.1, página 688, revela um sentido da relação fundamental entre grupos de Lie e
álgebras de Lie. Ele mostra que é possı́vel construir uma álgebra de Lie a partir de um grupo de Lie
fechado. A teoria geral dos grupos de Lie revela que muitas propriedades importantes de grupos de Lie
podem ser estudadas a partir das álgebras de Lie associadas a seus sub-grupos uniparamétricos. Essa
relação se mostra particularmente relevante no estudo de representações de grupos de Lie. É possı́vel
provar (e faremos isso no exemplo do grupo SO(3) no Capı́tulo 12) que existe uma correspondência
um-a-um entre as representações de um grupo de Lie e as representações de sua álgebra de Lie. Sucede
que (devido à estrutura linear) é muito mais simples estudar as representações de uma álgebra de Lie
do que de um grupo de Lie. Infelizmente ainda está fora do modesto alcance destas notas explorar
completamente esse vasto terreno e remetemos o estudante aos bons livros supra-citados sobre grupos
e álgebras de Lie.
Iremos no que segue deste capı́tulo limitar-nos a discutir algumas questões as quais são importantes
para um estudo mais abrangente. Particularmente nos deteremos na questão de identificar algumas
situações nas quais podemos prosseguir no caminho inverso ao que apontamos acima, ou seja, na
questão de quando um grupo de Lie pode ser recuperado a partir da álgebra de Lie dos seus geradores
por aplicação da exponenciação.
11.4 A Relação entre Grupos de Lie Matriciais e suas Álgebras

de Lie
Vimos nos seções anteriores que se H é um subgrupo fechado de GL( , n) existe associada ao mesmo
uma álgebra de Lie a qual é (obviamente) uma sub-álgebra de da álgebra de Lie de GL( , n) que é
Mat ( , n). Será a recı́proca verdadeira, ou seja, se A é uma sub-álgebra de Lie de Mat ( , n) haverá
um grupo de Lie fechado associado a A? A reposta, em geral, é não. Um contra-exemplo (para n = 2)
é o seguinte:
Seja a um número real irracional e seja a álgebra de Lie formada pelas matrizes 2 × 2
it 0
dadas por com t ∈ R. Exponenciando os elementos dessa álgebra de Lie obtemos as matrizes
0 iat

eit 0
com t ∈ R. Esse conjunto de matrizes forma certamente um grupo. Sucede, porém, que
0 eiat
não se trata de um sub-grupo topologicamente fechado de GL( , 2), como veremos com um pouco
mais de detalhe na Seção 11.4.3 (a qual o leitor poderá passar sem perdas). Felizmente é possı́vel dizer
um pouco mais se enfraquecermos a condição de H ser um subgrupo fechado. Tem-se, por exemplo, o
seguinte:
Proposição 11.7 Seja G um subgrupo fechado de GL( , n) cuja álgebra de Lie é L(G) e seja H um
subgrupo (não discreto) de G. Seja L(H) := {M ∈ Mat ( , n)| exp(tM ) ∈ H, ∀t ∈ } e suponha
que se saiba que L(H) é um sub-espaço de L(G). Então L(H) é também uma sub-álgebra de L(G). 2
Prova. Sejam A, B ∈ L(H). Então é claro que para todos t e s ∈ teremos

esA etB e−sA pois

H é um grupo e esA , etA ∈ H. Podemos escrever esA etB e−sA = exp tesA Be−sA e isso prova que
esA Be−sA ∈ L(H) para todo s ∈ . Como por hipótese L(H) é um sub-espaço de L(G), L(H) é

fechado (pois estamos em dimensão finita). Logo

1 sA −sA d sA −sA
L(H) 3 lim e Be −B = e Be = [A, B],
s→0 s ds s=0
completando a prova.
Comparando a demonstração acima com a do Teorema 11.1, vemos que a diferença é que não
supomos que H seja fechado. Podemos ir mais um pouco além e estabelecer o seguinte:
Teorema 11.5 Seja G um subgrupo fechado de GL( , n) cuja álgebra de Lie é L(G) e seja h uma
sub-álgebra de Lie real de L(G). Então existe um único sub-grupo conexo H de G cuja álgebra de Lie
é h. H é um grupo de Lie (em uma certa topologia). 2
Não apresentaremos a demonstração dessa afirmação aqui no caso geral, a qual é uma conseqüência
da fórmula de Baker-Campbell-Hausdorff. Mais adiante (página 697) discutiremos como H pode ser
construı́da a partir de h no caso dessa última ser uma álgebra de Lie nilpotente, o caso mais fácil de
tratar.
11.4.1 Álgebras de Lie Nilpotentes, Solúveis, Simples e Semi-Simples

Já comentamos anteriormente que se A e B são matrizes n × n reais ou complexas tais que AB = BA,
então exp(A) exp(B) = exp(A + B). O que ocorre caso A e B não comutem entre si? A resposta a
esta questão é dada por uma expressão conhecida como fórmula de Baker-Campbell-Hausdorff, a qual
foi discutida e demonstrada no Capı́tulo 4, página 210. Essa fórmula permite expressar o produto
exp(A) exp(B) para duas matrizes A e B ∈ Mat ( , n) (ou ∈ Mat ( , n)) novamente como uma

exponencial de matrizes:
exp(A) exp(B) = exp(A ∗ B),
onde A ∗ B é uma expressão um tanto complexa envolvendo somas de comutadores múltiplos das
matrizes A e B, e cujos primeiros termos são os seguintes:
1 1 1
A ∗ B = A + B + [A, B] + [A, [A, B]] + [B, [B, A]] + · · · .
2 12 12
A expressão completa encontra-se em (4.46) à página 237.

Vamos agora fazer uma pausa e, antes de entrarmos na discussão das conseqüências da fórmula
de Baker-Campbell-Hausdorff e da exponenciação de álgebras de Lie e sua relação com grupos de
Lie, vamos nos dedicar a discutir alguns aspectos algébricos das álgebras de Lie (com o perdão do
pleonasmo).
A fórmula de Baker-Campbell-Hausdorff nos chama a atenção para a importância de comutadores
múltiplos de elementos de uma álgebra de Lie. Vamos aproveitar a oportunidade para introduzir
algumas noções algébricas muito empregadas no estudo de álgebras de Lie. Falaremos da sua relevância
adiante.
No que segue trataremos apenas de álgebras de Lie sobre o corpo dos números reais ou complexos.
Seja L uma álgebra de Lie e A, B dois subconjuntos de L. Por [A, B] denotamos o conjunto de
todos os elementos de L que são iguais ao comutador de algum elemento de A por algum elemento de
B. Em sı́mbolos:
[A, B] = {[a, b], a ∈ A, b ∈ B} . (11.11)
• Álgebras de Lie Nilpotentes
Seja uma álgebra de Lie L. Com a notação acima, denotaremos por L[n] , n = 0, 1, 2, . . ., a seqüência
de conjuntos obtida da seguinte forma: L[0] := L e L[n] = [L, L[n−1] ], n = 1, 2, . . .. Ou seja,
L[0] := L,
L[1] := [L, L[0] ] = [L, L],
L[2] := [L, L[1] ] = [L, [L, L]],
L[3] := [L, L[2] ] = [L, [L, [L, L]]],
..
.
etc.
Definição. Uma álgebra de Lie é dita ser nilpotente se L[m] = {0} para algum m.
O menor m para o qual L[m] = {0} é dito ser o grau ou ı́ndice da álgebra de Lie nilpotente. Note-se
0
que se L[m] = {0} então L[m ] = {0} para todo m0 > m.
Um exemplo de álgebra de Lie nilpotente é a álgebra de Heisenberg tri-dimensional gh3 , com
geradores p, q e ~, satisfazendo [p, ~] = 0, [q, ~] = 0 e [p, q] = −i~. Para ela vale (gh3 )[2] = {0}. Essa
álgebra foi apresentada e discutida na Seção 10.2.2 à página 574.
Há várias razões por que as álgebras de Lie nilpotentes são relevantes. Uma delas está no fato
de as álgebras de Lie nilpotentes serem igualmente álgebras de Lie solúveis (vide o que segue) e a
importância destas será discutida. O leitor pode reconhecer uma outra razão da importância das
álgebras de Lie nilpotentes na seguinte observação: para uma álgebra de Lie nilpotente a série de
Baker-Campbell-Hausdorff em (4.46) e (4.47) é uma série finita! Voltaremos a isso quando retomarmos
adiante a discussão da fórmula Baker-Campbell-Hausdorff.
• Álgebras de Lie Solúveis
Em paralelo à noção de álgebra de Lie nilpotente que apresentamos acima, existe a noção de álgebra
de Lie solúvel.
Para uma álgebra de Lie L, denotaremos por L(n) , n = 0, 1, . . ., a seqüência de conjuntos obtida
da seguinte forma: L(0) := L e L(n) := [L(n−1) , L(n−1) ], n = 1, 2, . . .. Ou seja,
L(0) := L,
L(1) := [L(0) , L(0) ] = [L, L],
L(2) := [L(1) , L(1) ] = [[L, L], [L, L]],
..
.
etc.
Definição. Uma álgebra de Lie é dita ser solúvel se L(m) = {0} para algum m.
Para qualquer álgebra de Lie L é bastante evidente, pelas definições, acima que L (n) ⊂ L[n] . De
fato, L(0) = L[0] e L(1) = L[1] e, se L(n) ⊂ L[n] para algum n, segue que L(n+1) = [L(n) , L(n) ] ⊂
[L, L(n) ] ⊂ [L, L[n] ] = L[n+1] , provando a afirmativa por indução.
Segue dessa observação que toda álgebra de Lie nilpotente é também solúvel.
A recı́proca dessa última afirmação é falsa: nem toda álgebra de Lie solúvel é nilpotente. Considere-
se com exemplo a álgebra de Lie bidimensional com geradores λ1 e λ2 satisfazendo [λ1 , λ2 ] = λ2 . Essa
álgebra não é nilpotente, pois [λ1 , [λ1 , [· · · , [λ1 , λ2 ]]]] = λ2 . Porém, essa álgebra é solúvel, pois
[[λ1 , λ2 ], [λ1 , λ2 ]] = [λ2 , λ2 ] = 0. Essa álgebra aparecerá concretamente no exemplo discutido à
página 701.
Há várias razões por que as álgebras de Lie solúveis são relevantes. Uma delas será discutida após
apresentarmos o Teorema de Levi, abaixo.
• Álgebras de Lie Simples e Semi-Simples
Se L é uma álgebra de Lie, dizemos que é um sub-espaço vetorial J de L é uma sub-álgebra (de Lie)
se
[J, J] ⊂ J.
Se L é uma álgebra de Lie, dizemos que um sub-espaço vetorial I de L é um ideal se
[L, I] ⊂ I.
Pela definição, todo ideal de L é uma sub-álgebra de Lie de L.

As álgebras de Lie nilpotentes e as solúveis possuem “muitos” ideais. Contrapostas às mesmas estão
as chamadas álgebras de Lie simples e semi-simples, que possuem “poucos” ideais.
Definição. Uma álgebra de Lie L é dita ser simples se seus únicos ideais forem {0} e a própria L.
Definição. Uma álgebra de Lie L é dita ser semi-simples se não possuir ideais solúveis (que não {0}).
É bem claro que toda álgebra de Lie simples é semi-simples.
Há várias razões por que as álgebras de Lie semi-simples são relevantes. Uma delas será discutida
após apresentarmos o Teorema de Levi, abaixo.
• Soma Direta e Soma Semi-Direta de Álgebras de Lie
Definição. Uma álgebra de Lie L é dita ser a soma direta de duas de suas sub-álgebras L 1 e L2 se
[L1 , L2 ] = 0
e se todo elemento x ∈ L puder ser escrito de modo único da forma x = x1 + x2 com x1 ∈ L1 e x2 ∈ L2 .

Se L for a soma direta de L1 e L2 denotamos isso por L = L1 ⊕ L2 .
Definição. Uma álgebra de Lie L é dita ser a soma semi-direta de duas de suas sub-álgebras L 1 e L2
se
[L1 , L2 ] ⊂ L1
e se todo elemento x ∈ L puder ser escrito de modo único da forma x = x1 + x2 com x1 ∈ L1 e x2 ∈ L2 .
Se L for a soma semi-direta de L1 e L2 denotamos isso por L = L1 L2 .
Note que L2 deve ser um ideal de L.
Nesse contexto é importante o seguinte teorema, cuja demonstração está além das pretensões destas
notas (vide e.g. [93, 67]):
Teorema 11.6 (Teorema de Levi) Toda álgebra de Lie L de dimensão finita é uma soma semi-
direta
L = SR
onde S é semi-simples e R solúvel. 2
A sub-álgebra R acima é denominada radical de L.

Exemplos. O chamado grupo Euclidiano18 em três dimensões E3 possui seis geradores J1 , J2 , J3
(geradores de rotações) e P1 , P2 , P3 (geradores de translações), satisfazendo as relações
3
X 3
X
[Ji , Jj ] = ijk Jk [Ji , Pj ] = ijk Pk [Pi , Pj ] = 0,
k=1 k=1
onde ijk é o sı́mbolo anti-simétrico de Levi-Civita definido em (10.33), página 591. Se denominarmos
por P a sub-álgebra gerada por P1 , P2 , P3 e por J a sub-álgebra gerada por J1 , J2 , J3 , veremos que
P é solúvel (pois é Abeliana) e que J é simples (e, portanto, semi-simples). É também imediato que
L = P J.
*
18
Euclides, de Alexandria (ci. 325 A.C., ci. 265 A.C.).
O teorema de Levi nos diz que o estudo geral de álgebras de Lie, e conseqüentemente, de grupos de
Lie, reduz-se ao estudo das álgebras de Lie solúveis (dentre as quais estão as nilpotentes) e das álgebras
de Lie semi-simples. Um dos resultados mais importantes da teoria das álgebras de Lie é uma célebre
classificação completa de todas as álgebras de Lie semi-simples, feito devido a Killing 19 e a Cartan20 .
Para o caso das álgebras solúveis uma classificação completa está ainda longe de ser alcançada.
11.4.2 Questões sobre a Exponenciação de Álgebras de Lie

Apesar de sua importância, a fórmula de Baker-Campbell-Hausdorff apresenta uma restrição quanto à
norma das matrizes A e B, necessária para garantir a convergência da série que ocorre em (4.46). Há,
porém, uma classe de álgebras de Lie para a qual essa questão não é importante, as chamadas álgebras
de Lie nilpotentes, das quais trataremos agora.
• Grupos de Lie Nilpotentes
A importância das álgebras de Lie nilpotentes no contexto da fórmula de Baker-Campbell-Hausdorff

(4.46), página 237, é a seguinte. Se L ⊂ Mat ( , n) é uma álgebra de Lie nilpotente de grau m de
matrizes, então para quaisquer A, B ∈ L teremos que A ∗ B definida em (4.46) é uma soma finita,
contendo no máximo comutadores múltiplos de ordem m.
Com isso, vemos que para uma álgebra de Lie nilpotente de matrizes L ⊂ Mat ( , n) não existe
o problema da convergência da série de (4.46), e a mesma vale para todo A, B ∈ L, independente da
norma desses elementos. Fora isso A ∗ B ∈ L, já que é dado por uma soma finita de elementos de L.
Uma conseqüência é a seguinte proposição.
Proposição 11.8 Seja G um subgrupo de Lie de GL( , n) e LG ⊂ Mat ( , n) sua álgebra de Lie.
Vamos supor que LG seja nilpotente. Então o produto ∗ definido pela fórmula de Baker-Campbell-
Hausdorff é associativo. Fora isso, a álgebra de Lie LG é, ela mesma, um grupo com o produto ∗.
2
Prova. Sejam P A1 , A2 e A3 três elementos de LG . Se L1 , . . . , Lm formam uma base em LG podemos

escrever A = m
i i i
k=1 αk Lk , onde αk são números complexos. Como a soma de comutadores que ocorre
na fórmula de Baker-Campbell-Hausdorff é finita, concluı́mos que
m
X m
X
1 2 3 1 2 3
(A ∗ A ) ∗ A = pk (α)Lk e A ∗ (A ∗ A ) = qk (α)Lk ,
k=1 k=1
onde pk (α) e qk (α) são polinômios nas variáveis αji , i = 1, 2, 3, j = 1, . . . , m. Desejamos provar
que para cada k tem-se pk = qk . Como ambos são polinômios, é suficiente provar isso para quando as
variáveis αji estão restritas a algum aberto de .
Sejam Gi = exp(Ai ), i = 1, 2, 3, elementos de G. Como o produto do grupo é associativo, temos
(G1 G2 )G3 = G1 (G2 G3 ) e, portanto, exp((A1 ∗ A2 ) ∗ A3 ) = exp(A1 ∗ (A2 ∗ A3 )). Se escolhermos as
19
Wilhelm Karl Joseph Killing (1847-1923).
20
Elie Joseph Cartan (1869-1951).
variáveis αji suficientemente próximas de zero, teremos pk (α) e qk (α) igualmente próximas de zero
(convença-se disso checando a fórmula de Baker-Campbell-Hausdorff) e, portanto, k(A 1 ∗ A2 ) ∗ A3 k e
kA1 ∗ (A2 ∗ A3 )k podem ser ambas feitas menores que ln 2. Pela Proposição 4.5, página 219, podemos

tomar o logaritmo das exponenciais acima e concluir que (A1 ∗ A2 ) ∗ A3 = A1 ∗ (A2 ∗ A3 ). Assim,
m
X m
X
pk (α)Lk = qk (α)Lk
k=1 k=1
pelo menos para αji pequenos o suficiente. Como os elementos Lk da base são linearmente independentes,
concluı́mos que pk (α) = qk (α) para todo k = 1, . . . , m, pelo menos quando os αji são pequenos o
suficiente. Como pk e qk são polinômios, isso vale para todos αji ∈ . Isso provou a associatividade.
Para provar que LG é um grupo, devemos mostrar que há um elemento neutro em LG para o produto
∗ e que para cada elemento de LG existe uma inversa. Pela fórmula de Baker-Campbell-Hausdorff é
fácil constatar que
A∗0 = 0∗A = A
para todo A ∈ LG . Assim o zero é o elemento neutro procurado. Fora isso, também pela fórmula de
Baker-Campbell-Hausdorff é fácil constatar que
A ∗ (−A) = A + (−A) + comutadores de A com − A = 0.
Logo, (LG , ∗) é um grupo.
Esses fatos têm ainda uma conseqüência importante. Seja L ⊂ Mat ( , n) uma álgebra de Lie
nilpotente de matrizes. Definamos por exp(L) o conjunto de todas as matrizes que são exponenciais
de elementos de L:
exp(L) = {G ∈ Mat ( , n)| G = exp(A) para algum A ∈ L} .
Afirmamos que exp(L) é um grupo (em relação ao produto usual de matrizes), em verdade um subgrupo
de GL( n). De fato, ∈ exp(L), pois, 0 ∈ L. Se G = exp(A) com A ∈ L, então sua inversa
é G−1 = exp(−A), que também pertence a exp(L) pois −A ∈ L. Por fim, se G1 = exp(A1 ) e
G2 = exp(A2 ) com A1 e A2 dois elementos quaisquer de ∈ L, então, pela fórmula de Baker-Campbell-
Hausdorff, G1 G2 = exp(A1 ∗ A2 ) ∈ exp(L), pois A1 ∗ A2 ∈ L.
A conclusão é que a partir de uma álgebra de Lie nilpotente L podemos construir um grupo,
denominado grupo de Lie associado à álgebra L pelo procedimento de exponenciação. É importante
notar que L é um conjunto conexo. Portanto, como a exponencial é contı́nua, o grupo exp(L) é
igualmente conexo.
Interessantemente vale também a recı́proca. Seja G um grupo de Lie conexo fechado (de matri-
zes) e LG sua álgebra de Lie e vamos supor que LG seja nilpotente. Considere, para algum > 0
suficientemente pequeno, o subconjunto V de LG definido por
( m )
X
V := λk Lk , com |λi | < para todo i = 1, . . . , m ,
k=1
e o subconjunto U de G definido por

( m
! )
X
U := exp λk Lk , com |λi | < para todo i = 1, . . . , m ,
k=1
onde L1 , . . . , Lm formam uma base em LG .

Note-se
Pm que V é um subconjunto aberto
Pmde LG . Note-se também que ∈ U e que se g =
−1
exp ( k=1 λk Lk ) ∈ U então g = exp (− k=1 λk Lk ) ∈ U . Assim, se provarmos que U é aberto
poderemos usar a Proposição 11.3, página 674.
P
Se for pequeno o suficiente poderemos garantir que k m k=1 λk Lk k < ln
P2msempre que |λP

i | < para
todo i = 1, . . . , m e, pela Proposição 4.5, página 219, teremos ln (exp ( k=1 λk Lk )) = m k=1 λk Lk .
Logo U é a imagem inversa pela função ln do conjunto aberto V . Como ln é uma função contı́nua
(Proposição 4.3, página 217) concluı́mos que U é igualmente aberto.
Logo, pela Proposição 11.3, cada elemento g de G pode ser escrito como um produto de n ele-
mentos de U : g = g1 · · · gn , onde gi = exp(li ) com li ∈ V . Agora, como a álgebra é nilpotente, vale
exp(l1 ) · · · exp(ln ) = exp(l1 ∗ · · · ∗ ln ). Com isso, fica demonstrada a seguinte afirmação: se G é um
subgrupo conexo fechado de GL( , n) e se sua álgebra de Lie LG é nilpotente, então todo elemento
de G pode ser escrito como exponencial de um elemento de LG . Um exemplo dessa situação é o grupo
de Heisenberg GH3 , tratado à página 575.
Observação 1. O número n mencionado no último parágrafo pode não ser o mesmo para todo g ∈ G
(vide o enunciado da Proposição 11.3), podendo eventualmente crescer arbitrariamente quando g varia
no grupo. Porém, como a álgebra LG é nilpotente, o produto l1 ∗ · · · ∗ ln está sempre definido para
qualquer n.
Observação 2. Nas circunstâncias descritas acima, é fácil constatar que a função exponencial exp :
LG → G é um isomorfismo do grupo (LG , ∗) em G.
Grupos de Lie com álgebras de Lie nilpotentes não são os únicos grupos de Lie para os quais vale que
todo seu elemento pode ser escrito como exponencial de um elemento da sua álgebra de Lie. É possı́vel
mostrar que grupos de Lie compactos com álgebras de Lie semi-simples também têm essa propriedade.
Para uma demonstração vide, por exemplo, [114]. Vimos isso de modo explı́cito quando tratarmos dos
grupos SO(3), SU(2), SL( , 2), SU(n) e SO(n) no Capı́tulo 10.
Para grupos de Lie não-conexos tipicamente ocorre que não se pode escrever todos os seus elementos
como exponenciais de elementos de sua álgebra de Lie. Tal é, por exemplo, o caso do grupo de Lie
GL( , 2), cuja álgebra de Lie é Mat ( , 2). A exponencial de matrizes reais 2 × 2 é sempre formada

por matrizes com determinante positivo (pela Proposição 4.7, página 222), enquanto que GL( , 2)
possui também matrizes com determinante negativo. Vide Proposição 4.10, página 224.
Porém, como veremos no exemplo discutido em detalhe à página 701, não basta que um grupo de
Lie seja conexo para que todos os seus elementos possam ser escritos como exponenciais de elementos
de sua álgebra de Lie. Em vários casos, todavia, os elementos do grupo podem ser escritos como um
produto finito de exponenciais. Tal também ocorre no exemplo da página 701.
Para um grupo de Lie conexo G é possı́vel, sob hipóteses adequadas que não discutiremos aqui,
construir um grupo de Lie simplesmente conexo a partir de sua álgebra de Lie, usando um procedi-
mento semelhante ao que empregamos quando discutimos acima o caso de álgebras de Lie nilpotentes.
Constrói-se primeiramente uma vizinhança U da identidade que seja simétrica (ou seja, se g ∈ U então
g −1 ∈ U ) –por exemplo a vizinhança na qual a fórmula de Baker-Campbell-Hausdorff converge, no caso
de matrizes– e em seguida considera-se o conjunto formado por produtos finitos de elementos de U , o
chamado grupo gerado por U . Esse conjunto é em geral um grupo de Lie simplesmente conexo que é
um recobrimento do grupo original G.
11.4.3 Alguns Exemplos Especiais
• Um subgrupo conexo não-fechado de GL( , 2)
Exibiremos aqui um exemplo de um sub-grupo conexo não-fechado de GL( , 2) o qual é um grupo

de Lie mas não é um subgrupo de Lie de GL( , 2). Isso significa que a topologia que faz desse subgrupo
Ha um grupo de Lie não é a topologia induzida por GL( , 2) em Ha .
Esse exemplo é bastante instrutivo e ilustra o porquê de haverem certas dificuldades sutis de natureza
topológica na teoria dos grupos de Lie (e na geometria diferencial, em geral).
O grupo em questão é o seguinte grupo de matrizes a um parâmetro real:
it
e 0
Ha := , t∈ ,
0 eiat

onde a é um número real irracional fixo arbitrário. Para mostrar que esse grupo não é fechado, vamos
exibir uma seqüência convergente de matrizes de Ha que não converge a um elementode Ha . Considere
−1 0
tn = (2n+1)π com n ∈ . As matrizes de Ha correspondentes a esses valores de t são .
0 ei2πa(2n+1)

Sucede que, como a é irracional, os números complexos da forma ei2πa(2n+1) , com n ∈ , formam um
conjunto denso em todo o cı́rculo unitário do plano complexo21 . Assim, existe uma sub-seqüência nk
tal que ei2πa(2nk +1) converge a −1 quando k → ∞. Isso mostra que a matriz − está no fecho de
Ha . Sucede, porém, que − 6∈ Ha pois, para a irracional, não existe nenhum t real tal que valham
simultaneamente eit = −1 e eiat = −1 (prove isso). Isso mostra que Ha não é fechado.
it
e 0
Por outro lado, é claro que há uma aplicação bijetora de em Ha dada por 3 t 7→ ,a
0 eiat

qual induz a topologia usual de em Ha , topologia essa na qual Ha é um grupo de Lie, como facilmente

se vê. Essa topologia não coincide com a topologia induzida em Ha pela norma de matrizes em Ha .
Há uma maneira geométrica de entender o que está acontecendo nesse grupo. Considere o seguinte
grupo de Lie de matrizes 2 × 2:
it
e 0
T := , t, s ∈ .
0 eis

Esse grupo de Lie (a dois parâmetros reais) pode ser visualizado como um toro bidimensional (pois é
o produto cartesiano de dois cı́rculos: o cı́rculo eit com t ∈ e o cı́rculo eis com s ∈ ). Cada grupo

21
O leitor para o qual esse fato não é familiar poderá encontrar demonstrações em bons livros sobre teoria de números,
por exemplo [53].
Ha é um subgrupo de T e, nessa imagem, corresponde a uma curva (pois cada Ha é unidimensional)

que preenche densamente o toro sem auto-cruzamentos. Dessa forma entende-se que o fecho de H a na
topologia da norma das matrizes é o grupo T .
Se imaginarmos um aberto no toro, veremos que este intercepta a curva que corresponde a H a em
infinitos segmentos. Assim, Ha não é uma sub-variedade de T e, portanto, apesar de ser um subgrupo
de T , Ha não pode ser um subgrupo de Lie de T na topologia de T .
• Exponenciação e álgebras de Lie matriciais. Um contra-exemplo
Vamos agora apresentar um exemplo de um grupo de Lie conexo no qual não podemos escrever
todos os seus elementos como exponenciais de elementos de sua álgebra de Lie, ou seja, a exponencial
de sua álgebra de Lie não é sobrejetora no grupo.
Seja α um número real irracional22 fixo. Vamos considerar o seguinte conjunto de matrizes comple-
xas 2 × 2:
Hα := {h(t, z), t ∈ , z ∈ } ,
onde
eit z
h(t, z) := . (11.12)
0 eiαt
Afirmamos que Hα é um sub-grupo de GL( , 2). De fato,
= h(0, 0) ∈ Hα ,
0
h(t, z)h(t0 , z 0 ) = h(t + t0 , zeiαt + z 0 eit ) ∈ Hα e
h(t, z)−1 = h(−t, −ze−i(1+α)t ) ∈ Hα .
Hα é um grupo de Lie conexo parametrizado por t ∈ e z ∈ . De fato, o grupo Hα é homeomorfo

à variedade conexa × . O homeomorfismo de × em Hα é dado pela função h definida em

(11.12), isto é, h : × → Hα ,

it
e z
(t, z) 7→ h(t, z) := .
0 eiαt
Claramente, h é contı́nua (certo?). Vamos mostrar que h é bijetora. Suponha que existam (t, z) e
(t0 , z 0 ) ∈ × tais que h(t, z) = h(t0 , z 0 ), ou seja,

it it0
e z e z0
= 0 .
0 eiαt 0 eiαt
22
Como veremos abaixo, é crucial para a construção desejada que α não seja racional.
Isso implica as três seguintes condições simultâneas:

0
eit = eit (11.13)
0
eiαt = eiαt (11.14)
z = z0 . (11.15)
As relações (11.13) e (11.14) implicam
t = t0 + 2πk e αt = αt0 + 2πl,
respectivamente, para k, l ∈ . Assim, multiplicando-se a primeira igualdade por α e subtraindo-se

da segunda, terı́amos
αk = l
para k, l ∈ . Mas isso é impossı́vel se α for um número irracional, a menos que k = l = 0. Com isso,
concluı́mos que t = t0 , fato esse que, juntamente com (11.15), prova que h é uma bijeção. Mais ainda,
é bem claro que h é infinitamente diferenciável e, portanto, é um difeomorfismo.
Vamos determinar os geradores de Hα , que denotaremos por λ1 , λ2 :

∂ i 0
λ1 =
h(t, z) = ,
∂t t=z=0
0 iα

∂ 0 1
λ2 =
h(t, z) = .
∂z t=z=0
0 0
Um elemento genérico da álgebra de Lie L(Hα ) associada a Hα é, portanto, da forma

iτ w
h(τ, w) := τ λ1 + wλ2 = ,
0 iατ
com τ ∈ ew∈ .
E. 11.13 Exercı́cio. Constate que [λ1 , λ2 ] = i(1 − α)λ2 . Conclua daı́ que a álgebra de Lie L(Hα )
associada a Hα não é nilpotente, não é simples e não é semi-simples, mas é solúvel. 6
Vamos nos dedicar agora a calcular exp(h(τ, w)). É muito fácil provar que
 
(iτ )2 w(iτ )(1 + α)
h(τ, w)2 =  
2
0 (iατ )
e que  
(iτ )3 w(iτ )2 (1 + α + α2 )
h(τ, w)3 =  .
3
0 (iατ )
Por indução, vê-se também que

 n−1
!  
X 1 − αn
n n−1 p n n−1
(iτ ) w(iτ ) α  (iτ ) w(iτ )
  1−α 
h(τ, w) n
=  p=0  = 

,

 
n
0 (iατ )n 0 (iατ )
para todo n ≥ 1. Na última igualdade usamos a bem conhecida fórmula da progressão geométrica.
E. 11.14 Exercı́cio importante. Mostre isso! 6
Dessa forma, obtemos

X∞
1
exp(h(τ, w)) = + h(τ, w)n
n=1
n!
 X∞ X∞ 
1 1 1 − αn
1 + (iτ )n w (iτ ) n−1
 n=1
n! n=1
n! 1−α  
 
=  
 ∞
X 1 
 n 
0 1+ (iατ )
n=1
n!
 
eiτ wf (τ )
=  ,
iατ
0 e
onde ∞
X 1 1 − αn
n−1
f (τ ) := (iτ ) .
n=1
n! 1−α
Vamos agora expressar melhor a função f (τ ). Note-se que f (0) = 1 e que, para τ = 6 0,
∞ ∞ ∞
!
X 1 1 − α n
1 X 1 X 1
(iτ )n−1 = (iτ )n−1 − α (iατ )n−1
n=1
n! 1 − α 1 − α n=1
n! n=1
n!

1 eiτ − 1 eiατ − 1
= −
1−α iτ iτ

1 eiτ − eiατ
=
1−α iτ

eiατ ei(1−α)τ − 1
= .
1−α iτ
Assim, 

 1, para τ = 0,

f (τ ) =

 eiατ ei(1−α)τ − 1
 , para τ 6= 0
1−α iτ
e, finalmente,  
eiτ wf (τ )
exp(h(τ, w)) =  . (11.16)
iατ
0 e
A questão que agora se põe é: será o conjunto de matrizes exp(L(H α )) := {exp(h(τ, w)), τ ∈ , w ∈ }
2π
igual a Hα ? A resposta é não! Para provar isso mostraremos que as matrizes h 1−α , z com z 6= 0
não são elementos do conjunto exp(L(Hα )). Se tal não fosse o caso, existiriam τ ∈ e w ∈ tais que

2π
h , z = exp(h(τ, w)),
1−α
ou seja,  
2π  
ei 1−α z eiτ wf (τ )
 
  =  .
2πα iατ
0 ei 1−α 0 e
Isso só é possı́vel se as seguintes três condições forem satisfeitas simultaneamente:
2π
ei 1−α = eiτ , (11.17)
2πα
ei 1−α = eiατ , (11.18)
z = wf (τ ). (11.19)
As condições (11.17) e (11.18) implicam

2π
τ = + 2πk
1−α
e
2πα
ατ = + 2πl,
1−α
respectivamente, com k, l ∈ . Das duas concluı́-se (multiplicando a primeira por α) que
2πkα = 2πl, ou seja, kα = l.
Porém, como α foi suposto ser um número irracional, isso só é possı́vel se k = l = 0. Portanto
2π
τ = .
1−α
Ocorre agora, porém, que inserindo-se esse valor de τ no lado direito de (11.19) obtemos
2πα 2π
! 2πi
2π ei 1−α ei(1−α) 1−α − 1 2πα
i 1−α e −1
wf = w 2π = we = 0
1−α 1−α i 1−α 2πi
e, conseqüentemente, (11.19) não pode ser satisfeita para z 6= 0.

Esse exemplo ilustra bem o fato mencionado de haver situações nas quais a imagem pela exponen-
ciação da álgebra de Lie L(G) associada a um grupo de Lie G não coincide com o grupo G.
E. 11.15 Exercı́cio. Seja um grupo de Lie simplesmente conexo G, cuja álgebra de Lie é L. Um
teorema devido a Dixmier [61] afirma, entre outras coisas, que exp(L) = G se exp for injetora. Mostre que
(τ, w) 7→ exp(h(τ, w)) definida em (11.16) não é injetora. 6
No exemplo acima vale, porém, a seguinte afirmação: todo elemento de Hα pode ser escrito como
produto de duas exponenciais de elementos da álgebra de Lie L(Hα ), a saber, da forma
exp(h(τ, 0)) exp(h(0, w)) .
De fato, é bem fácil ver que

it it
e z e 0 1 e−it z
h(t, z) = = = exp(h(t, 0)) exp(h(0, e−it z)).
0 eiαt 0 eiαt 0 1
Capı́tulo 12
Uma Breve Introdução à Teoria das
Representações de Grupos
Conteúdo
12.1 Representações de Grupos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 706

12.2 Representações Irredutı́veis de SO(3) . . . . . . . . . . . . . . . . . . . . . 713
12.3 A Medida de Haar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 717
12.4 Representações de Grupos Compactos . . . . . . . . . . . . . . . . . . . . . 719
12.5 O Teorema de Peter-Weyl . . . . . . . . . . . . . . . . . . . . . . . . . . . . 720
rupos desempenham um papel importante na Fı́sica em geral devido a sua relação com trans-
formações de simetria. Na Fı́sica Quântica (na Mecânica Quântica ou na Teoria Quântica de
Campos), onde o conjunto de estados puros de um sistemas fı́sicos é descrito por um espaço
linear, torna-se particulamente relevante estudar a ação de grupos de simetria em espaços
vetoriais. Essa é a motivação básica do estudo de representações de grupos.
12.1 Representações de Grupos

Uma representação de um grupo G em um espaço vetorial V é uma aplicação que a cada g ∈ G associa
um operador linear invertı́vel Π(g) : V → V de modo que as seguintes condições sejam satisfeitas:
1. Π(e) = .
2. Π(g)Π(h) = Π(gh), ∀g, h ∈ G.
3. Π(g −1 ) = Π(g)−1 , ∀g ∈ G.
Acima e é a unidade de G e o operador identidade em V .

Há outras formas equivalentes de caracterizar ou definir o conceito de representação de um grupo.
Podemos dizer que uma representação de um grupo em um espaço vetorial V é um homomorfismo de
G no grupo dos operadores lineares invertı́veis de V em V , ou ainda, que é uma ação à esquerda de G
em V através de operadores lineares invertı́veis.
• A Representação Trivial
A representação que associa todo g ∈ G ao operador identidade em V , ou seja, tal que π(g) = ,
∀g ∈ G, é denominada representação trivial.
706
• Intertwiners
Seja G um grupo e V1 , V2 dois espaços vetoriais (sobre o mesmo corpo) onde atuem duas repre-
sentações de G: Π1 e Π2 , respectivamente em V1 e V2 . Um operador U : V1 → V2 tal que
U Π1 (g) = Π2 (g)U,
para todo g ∈ G, é dito ser um operador de entrelaçamento de Π1 e Π2 . Operadores de entrelaçamento
são mais freqüentemente designados intertwiners.
Voltaremos a falar sobre intertwiners quando tratarmos do importante Lema de Schur adiante.
• Representações Equivalentes
As duas representações são ditas equivalentes se existir um operador invertı́vel U : V 1 → V2 tal que
U Π1 (g) = Π2 (g)U
para todo g ∈ G, ou seja, se Π1 e Π2 possuı́rem um intertwiner invertı́vel.
É muito fácil mostrar que a equivalência de duas representações é uma relação de equivalência (no
sentido usual) e que, portanto, a classe de todas as representações de um grupo pode ser quebrada em
classes de representações equivalentes.
Um grupo pode ter várias representações distintas (e inequivalentes) em um mesmo espaço vetorial.
E. 12.1 Exercı́cio. Seja G = ( , +) e V = 2 . Mostre que

1 x 1 0 cos x − sen x
T1 (x) := , T2 (x) := e R(x) := ,
0 1 x 1 sen x cos x
x ∈ , são três representações de G. Mostre que T1 e T2 são equivalentes (sugestão: tome U = ( 01 10 )).

Mostre que R e T1 (ou T2 ) não são equivalentes (sugestão: se o fossem, veja o que ocorreria para x = 2π).
6
• Sub-Espaços Invariantes
Seja G um grupo, V um espaço vetorial e Π uma representação de G em V . Seja V 0 um sub-espaço

de V . V 0 é dito ser um sub-espaço invariante por Π se Π(g)v 0 ∈ V 0 para todo v 0 ∈ V 0 e todo g ∈ G, ou
seja, se Π(G)V 0 ⊂ V 0 .
Qualquer representação possui sempre pelo menos dois sub-espaços invariantes: aquele formado
apenas pelo vetor nulo V 0 = {0} e aquele formado pelo espaço todo V 0 = V . Esses sub-espaços
invariantes são ditos triviais.
E. 12.2 Exercı́cio. 1. Mostre que a representação T1 , definida acima, tem um sub-espaço invariante de
dimensão 1, a saber, o sub-espaço formado pelos vetores da forma ( a0 ), a ∈ . Mostre que nenhum outro

sub-espaço de dimensão 1 de 2 é invariante por T1 . 2. Mostre que a representação T2 , definida acima,

tem um sub-espaço invariante de dimensão 1, a saber, o sub-espaço formado pelos vetores da forma ( 0b ),
b ∈ . Mostre que nenhum outro sub-espaço de dimensão 1 de 2 é invariante por T2 . 3. Mostre que a

representação R, definida acima, não tem nenhum sub-espaço invariante não-trivial. 6

4
E. 12.3 Exercı́cio. Verifique que as expressões abaixo definem representações de G = ( , +) em V =

e identifique seus sub-espaços invariantes.

     
1 x 0 0 1 x 0 0 cos x − sen x 0 0
0 1 0 0 0 1 0 0   sen x cos x 0 0 
Π1 (x) = 
0
, Π2 (x) =  , Π3 (x) =  .
0 1 x 0 0 cos x − sen x  0 0 cos x − sen x
0 0 0 1 0 0 sen x cos x 0 0 sen x cos x
• Representações Irredutı́veis
De grande importância é o conceito de representação irredutı́vel de um grupo G em um espaço

vetorial V . Uma representação Π de um grupo G em um espaço vetorial V é dita ser irredutı́vel se os
seus únicos sub-espaços invariantes forem os triviais.
Uma representação que não é irredutı́vel é dita ser redutı́vel.
E. 12.4 Exercı́cio. Mostre que as representações T1 e T2 , definidas à página 707, são redutı́veis. Mostre
que a representação R é irredutı́vel. 6
Vamos supor que V seja um espaço de dimensão finita, digamos n, e que Π seja uma representação
de um grupo G em V que possua um sub-espaço invariante não-trivial V 0 (ou seja, Π é redutı́vel).
Seja m ≤ n a dimensão de V 0 . Então é possı́vel encontrar uma base em V tal que Π(g) possui a
representação matricial em blocos
π1 (g) α(g)
Π(g) =
0 π2 (g)
para todo g ∈ G, onde π1 (g) é uma matriz m × m, π2 (g) é uma matriz (n − m) × (n − m), e α(g) é
uma matriz m × (n − m).
Mostrar isso é bem simples, basta representar cada v ∈ V em uma base e1 , . . . , en , onde e1 . . . , em
formam uma base de V 0 .
O seguinte exercı́cio revela uma propriedade importante dos blocos π1 e π2 :
E. 12.5 Exercı́cio. Mostre que π1 e π2 definidos acima são também representações de G. 6
Uma representação Π de um grupo G em um espaço vetorial V é dita ser totalmente redutı́vel

se for redutı́vel e se V puder ser escrita como uma soma direta de sub-espaços invariantes por Π:
V = V1 ⊕ · · · ⊕ Vk . Em tal caso Π(g) pode ser escrita em uma base conveniente na forma de blocos
 
π1 (g)
 .. 
Π(g) =  . 
πk (g)
para todo g ∈ G, onde cada πi (g) é uma representação de G agindo no espaço invariante Vi de Π. Em
um tal caso denotamos Π da forma Π = π1 ⊕ · · · ⊕ πk .
Particularmente importante é a situação em que Π é totalmente redutı́vel e cada π i é irredutı́vel.

Em tal caso dizemos que Π é maximalmente redutı́vel ou completamente redutı́vel.
E. 12.6 Exercı́cio. Sejam as representações T1 e T2 definidas à página 707. Mostre que T1 e T2 não são
totalmente redutı́veis. 6
E. 12.7 Exercı́cio. Sejam as representações Π1 , Π2 e Π3 definidas à página 708. Mostre que Π1 e Π2

são totalmente mas não maximalmente redutı́veis. Mostre que Π 3 é maximalmente redutı́vel. 6
Nesse contexto a seguinte proposição é importante:

Proposição 12.1 Seja V um espaço vetorial complexo de dimensão finita e Π uma representação de
um grupo G por operadores unitários. Então ou Π é irredutı́vel ou é maximalmente redutı́vel. 2
Para provar essa proposição, vamos antes demonstrar o seguinte lema, o qual tem importância por
si só, como veremos mais adiante.
Lema 12.1 Seja V um espaço vetorial complexo e Π uma representação de um grupo G por operadores
unitários. Se W é um sub-espaço invariante por Π então seu complemento ortogonal W ⊥ também o é.
2
Prova. Como Π é unitário, vale Π(g)∗ = Π(g)−1 = Π(g −1 ) para todo g ∈ G. Seja w 0 ∈ W ⊥ e w ∈ W .
Então, para qualquer g ∈ G
hΠ(g)w 0 , wi = hw 0 , Π(g)∗ wi = hw 0 , Π(g −1 )wi = 0
pois Π(g −1 )w ∈ W , já que W é invariante, e w 0 é ortogonal e todo elemento de W . Como w é um

elemento arbitrário de W , isso mostrou que Π(g)w 0 ∈ W ⊥ para todo g ∈ G, provando assim que W ⊥ é
invariante.
Vamos agora provar a proposição. Se Π é unitária e é redutı́vel, então V possui um sub-espaço

invariante não trivial V1 e, pelo lema acima, V2 = V1⊥ é também invariante. Logo, Π é totalmente
redutı́vel, V = V1 ⊕ V2 e Π = π1 ⊕ π2 . Agora, é fácil ver que cada π1 é também uma representação
unitária (por quê?). Assim, podemos aplicar a mesma conclusão a cada πi e, se πi for redutı́vel,
podemos tornar a quebrar o sub-espaço Vi em sub-espaços invariantes ainda menores e πi em uma
soma de representações unitárias menores. Como a dimensão de V é finita, esse procedimento terá
forçosamente um fim e cada representação menor a que se chegar será forçosamente irredutı́vel.
E. 12.8 Exercı́cio. Mostre que as mesmas conclusões valem para representações ortogonais em espaços
vetoriais reais. 6
• Representações Irredutı́veis para Operadores

Um outro conceito importante é o seguinte. Uma representação Π de um grupo G em um espaço

vetorial V é dita ser irredutı́vel para operadores se valer a seguinte propriedade: os únicos operadores
A : V → V tais que
AΠ(g) = Π(g)A
para todo g ∈ G são da forma A = λ , ou seja, são múltiplos da identidade.
Podemos nos perguntar qual a relação entre essa noção e a de representação irredutı́vel. Vamos
demonstrar adiante os seguintes fatos: 1) toda representação irredutı́vel complexa de dimensão finita
é irredutı́vel para operadores. 2) toda representação unitária que seja irredutı́vel para operadores é
também irredutı́vel.
Várias das conseqüências mais importantes da teoria das representações de grupos são extraı́das
dessas observações. Como vemos elas nos dizem que para representações unitárias complexas e de
dimensão finita (de particular interesse na fı́sica quântica) os conceitos de representação irredutı́vel e
representação irredutı́vel para operadores são coincidentes.
Vamos começar demonstrando a afirmação 2).
Proposição 12.2 Se Π é uma representação unitária que é irredutı́vel para operadores, então Π é
também irredutı́vel. 2
Prova. Vamos supor W seja um sub-espaço invariante por Π. Seja P o projetor sobre W . Então, − P
é o projetor sobre W ⊥ , que é também invariante, pois Π é unitária. É evidente que
Π(g)P x = P Π(g)P x,
pois Π(g)P x ∈ W . Por outro lado, como x = P x + ( − P )x, então
P Π(g)x = P Π(g)P x + P Π(g)( − P )x = P Π(g)P x,
pois P Π(g)( − P )x = 0, já que W ⊥ é invariante. Comparando-se, concluı́mos que Π(g)P x = P Π(g)x
para todo x e todo g ∈ G, ou seja,
Π(g)P = P Π(g)
para todo g ∈ G. Porém, como Π é irredutı́vel para operadores, isso só é possı́vel se P = λ . Como
P 2 = P , tem-se λ = 0 ou λ = 1. No primeiro caso P = 0, no segundo, P = , ou seja, no primeiro
caso W = {0} e no segundo W é o espaço todo. Ora, isso diz precisamente que Π é irredutı́vel.
Vamos agora passar a demonstração da afirmação 1), acima. A mesma é corolário de um lema
algébrico de grande importância. O chamado lema de Schur1 .
• Lema de Schur
Lema 12.2 (Schur) Se Π1 e Π2 são duas representações irredutı́veis de um grupo G em espaços

vetoriais V1 e V2 , respectivamente, e A : V1 → V2 é um intertwiner de Π1 e Π2 , ou seja, AΠ1 (g) =
Π2 (g)A para todo g ∈ G, então ou A é invertı́vel ou A = 0. Caso A seja invertı́vel e V 1 e V2 sejam
1
Issai Schur (1875-1941).
espaços vetoriais complexos de dimensão finita, então A e único, a menos de multiplicação por escalar.
2
Prova. Sejam
M1 := Ker(A) ⊂ V1
M2 := Ran(A) ⊂ V2
o núcleo e a imagem de A, respectivamente2 . É fácil ver que M1 e M2 são sub-espaços invariantes de Π1
e Π2 , respectivamente. De fato, se x ∈ M1 tem-se Ax = 0. Logo, AΠ1 (g)x = Π2 (g)Ax = 0, provando
que Π1 (g)x ∈ M1 para todo g ∈ G, ou seja, M1 é invariante por Π1 . Analogamente, se y ∈ M2 temos
que y = Ax para algum x ∈ V1 . Assim, Π2 (g)y = Π2 (g)Ax = AΠ1 (g)x ∈ Ran(A), mostrando, assim,
que M2 é invariante por Π2 .
Pelas hipóteses do lema, Π1 e Π2 são irredutı́veis e só possuem sub-espaços invariantes triviais.
Valem, portanto, os seguintes quatro casos apenas:
1. M1 = V1 e M2 = V2 .
2. M1 = {0} e M2 = V2 .
3. M1 = V1 e M2 = {0}.
4. M1 = {0} e M2 = {0}.
Os casos 1 e 4 são impossı́veis: se Ker(A) = V1 não se pode ter Ran(A) = V2 ; se Ker(A) = {0} não se
pode ter Ran(A) = {0}. Assim, valem apenas os casos 2 e 3. No caso 2 tem-se que A é invertı́vel. No
caso 3, tem-se que A = 0.
Resta-nos provar que, caso A seja invertı́vel e V1 e V2 sejam espaços vetoriais complexos de dimensão
finita, então A é único, a menos de multiplicação por escalar. Se A é invertı́vel, então a dimensão de
V1 é igual a de V2 e A pode ser visto como uma matriz quadrada. Seja B um outro intertwiner de Π1 e
Π2 . Então, para qualquer λ ∈ tem-se (A − λB)Π1 (g) = Π2 (g)(A − λB). Portanto, ou (A − λB) = 0
ou é invertı́vel. Podemos, porém, escolher λ de modo que det(A − λB) = 0. Isso é sempre possı́vel, pois
det(A − λB) é um polinômio em λ e polinômios sempre têm raı́zes complexas. Para uma tal escolha
de λ, a matriz A − λB não é invertı́vel e, portanto, é nula e A = λB.
O Lema de Schur tem várias conseqüências importantes. A primeira é o seguinte:

Corolário 12.1 Se Π é uma representação irredutı́vel complexa de dimensão finita de um grupo G
então Π é irredutı́vel para operadores. 2
Prova. Seja A tal que AΠ(g) = Π(g)A para todo g ∈ G. Sabemos também que Π(g) = Π(g) ,
trivialmente. Pela unicidade afirmada no Lema de Schur, A = λ .
Outro corolário importante é o seguinte:

2
Para os esquecidos, Ker(A) := {x ∈ V1 | Ax = 0}. Ran(A) := {y ∈ V2 | y = Ax para algum x ∈ V1 }.
Corolário 12.2 As representações irredutı́veis complexas de dimensão finita de um grupo Abeliano

são unidimensionais. 2
Prova. Se G é Abeliano e Π uma representação de G, vale Π(h)Π(g) = Π(g)Π(h) para quaisquer

g, h ∈ G. Assim, se Π é irredutı́vel complexa e de dimensão finita, segue do corolário anterior que
Π(h) = λ(h) , ou seja, Π(h) é uma matriz diagonal com λ(h) na diagonal. Como Π é irredutı́vel, a
dimensão do espaço só pode ser igual a 1.
• Exemplos
E. 12.9 Exercı́cio. Mostre que as representações irredutı́veis complexas de dimensão finita do grupo
N , N ≥ 2, são
2πik
Πk (a) = exp a ,
N
a∈ N, k = 0, , . . . N − 1. 6
SO(2) são
Πp (φ) = exp (ipφ) ,
φ ∈ [0, 2π), p ∈ . 6
Note que o grupo SO(2) tem representações irredutı́veis reais que não são unidimensionais. Por
cos(φ) − sen (φ)
exemplo, aquela que define o próprio grupo SO(2): R(φ) = , φ ∈ [0, 2π).
sen (φ) cos(φ)
( , +) são

Πz (x) = exp (zx) ,

x∈ ,z∈ . 6
E. 12.12 Exercı́cio. Mostre que as representações irredutı́veis unitárias de dimensão finita do grupo
( , +) são

Πk (x) = exp (ikx) ,

x∈ ,k∈ . 6
(
+ , ·) são
Πz (x) = exp (z ln(x)) =: xz ,
x∈
+, z∈ . 6
E. 12.14 Exercı́cio. Mostre que as representações irredutı́veis unitárias de dimensão finita do grupo
(
+ , ·) são
Πk (x) = exp (ik ln(x)) = xik ,
x∈
+, k∈ . 6
12.2 Representações Irredutı́veis de SO(3)

Um capı́tulo importante das aplicações da teoria de grupos à Fı́sica envolve a classificação das repre-
sentações irredutı́veis de dimensão finita (unitárias ou ortogonais) do grupo de rotações SO(3).
Como já vimos, o grupo SO(3) é formado por matrizes da forma R(θ, ~η) = exp(θ~η · J), ~ onde
3
θ ∈ [0, 2π), ~η ∈ é um vetor unitário e J1 , J2 , J3 são matrizes 3 × 3 tais que [Ja , Jb ] = abc Jc . As

matrizes Ja são geradores de sub-grupos uniparamétricos R1 , R2 e R3 de SO(3), representando rotações

em torno dos eixos 1, 2 e 3, respectivamente.
É fácil concluir que se Π é uma representação de dimensão finita de SO(3), Π é da forma
~
Π(R(θ, η~)) = exp(θ~η · Π(J)),
onde Π(J1 ), Π(J2 ), Π(J3 ) são matrizes tais que [Π(Ja ), Π(Jb )] = abc Π(Jc ) e que são os geradores da
representação por Π dos sub-grupos uniparamétricos R1 , R2 e R3 .
Vamos definir La = iΠ(Ja ). Ficamos com
~
Π(R(θ, ~η )) = exp(−iθ~η · L), (12.1)
com [La , Lb ] = iabc Lc .

É importante notar que se Π(g) é unitária para todo g ∈ SO(3), então cada L a é auto-adjunta:
L∗a = La .
• Operador de Casimir
Um fato muito importante, válido para qualquer representação de SO(3) como acima, é que a matriz
denotada por L2 e definida por
L2 = L21 + L22 + L23
comuta com todos os três geradores La : [L2 , La ] = 0, para todo a = 1, 2, 3.
E. 12.16 Exercı́cio muito importante. Verifique essa afirmação. Sugestão: prove (e use) a identidade
[A2 , B] = A[A, B] + [A, B]A, válida para quaisquer matrizes n × n A e B. 6
Um operador com essa propriedade, a de comutar com todos os geradores de uma álgebra de Lie, é
dito ser um operador de Casimir. Por um teorema devido a Racah, L2 é o único operador de Casimir
de SO(3) (os demais são combinações lineares de potências de L2 ). A importância dos operadores de
Casimir é a seguinte. Como L2 comuta com cada La , segue facilmente de (12.1) que L2 Π(g) = Π(g)L2
para todo g ∈ SO(3). Assim, pelo Lema de Schur, se Π é uma representação irredutı́vel, L 2 deve ser um
múltiplo da identidade. Isso abre o caminho para classificar as representações irredutı́veis de SO(3):
estudando os possı́veis autovalores de L2 . Em cada sub-espaço formado por autovetores com um dado
autovalor fixo, teremos uma representação irredutı́vel.
• Autovalores de L2
Sejam La , a = 1, 2, 3, matrizes complexas auto-adjuntas agindo em um espaço vetorial de dimensão

finita, satisfazendo [La , Lb ] = iabc Lc e L2 definida como acima. Vamos estudar os possı́veis autovalores
de L2 .
Comecemos mostrando que os autovalores de L2 são números reais não-negativos. Seja Ψ um
autovetor de L2 com autovalor λ: L2 Ψ = λΨ. Então,
λhΨ, Ψi = hΨ, L2 Ψi = hΨ, L21 Ψi + hΨ, L22 Ψi + hΨ, L23 Ψi = hL1 Ψ, L1 Ψi + hL2 Ψ, L2 Ψi + hL3 Ψ, L3 Ψi.
Na última igualdade usamos o fato que L∗a = La . Como hLa Ψ, La Ψi ≥ 0, concluı́mos que λ ≥ 0, como
querı́amos.
Todo número λ ≥ 0 pode ser escrito na forma λ = l(l + 1) com l ≥ 0. Por futura conveniência,
escreveremos doravante os autovalores de L2 na forma l(l + 1) com l ≥ 0.
Recordemos agora o fato que, como [L2 , L3 ] = 0, podemos escolher uma base ortogonal formada
por vetores que são simultaneamente autovetores de L2 e L3 . Denotaremos esses vetores por Ψl,m ,
tendo-se L2 Ψl,m = l(l + 1)Ψl,m e L3 Ψl,m = mΨl,m . Iremos em breve fazer uso desse base.
É conveniente definir L± = L1 ± iL2 . Tem-se que L∗± = L∓ . Como L1 = (L+ + L− )/2 e L2 =
(L+ − L− )/(2i), podemos reescrever as relações algébricas [La , Lb ] = iabc Lc em termos de L± e L3 .
Obtemos
[L3 , L± ] = ±L± , (12.2)
[L+ , L− ] = 2L3 . (12.3)
Fora isso,
L2 = L+ L− + L3 (L3 − ) , (12.4)
L2 = L− L+ + L3 (L3 + ) . (12.5)
E. 12.17 Exercı́cio muito importante. Prove as relações acima. 6
Vamos usar essas relações para provar vários fatos sobre os autovalores de L 2 e L3 . De (12.5) tem-se
L− L+ ψl,m = [l(l + 1) − m(m + 1)]ψl,m = (l − m)(l + m + 1)ψl,m . (12.6)
De (12.4) tem-se
L+ L− ψl,m = [l(l + 1) − m(m − 1)]ψl,m = (l + m)(l − m + 1)ψl,m . (12.7)

Assim,
hψl,m , L− L+ ψl,m i = (l − m)(l + m + 1)kψl,m k2 (12.8)
e
hψl,m , L+ L− ψl,m i = (l + m)(l − m + 1)kψl,m k2 . (12.9)
Porém, como L∗± = L∓ , segue que
hψl,m , L− L+ ψl,m i = hL+ ψl,m , L+ ψl,m i ≥ 0 e hψl,m , L+ L− ψl,m i = hL− ψl,m , L− ψl,m i ≥ 0.
Logo, concluı́mos de (12.8) e de (12.9) que
(l − m)(l + m + 1) ≥ 0, (12.10)
(l + m)(l − m + 1) ≥ 0. (12.11)
De (12.10), segue que

a) l − m ≥ 0 e l + m + 1 ≥ 0, ou
b) l − m ≤ 0 e l + m + 1 ≤ 0.
No caso b) se somarmos ambas as desigualdades teremos 2l + 1 ≤ 0. Isso é impossı́vel, pois l ≥ 0.
Assim, vale a) que, em particular, diz que m ≤ l. Por (12.11), isso implica l + m ≥ 0, ou seja, m ≥ −l.
Concluı́mos então que
−l ≤ m ≤ l. (12.12)
Assim, para cada l, os valores de m não podem ser maiores que l nem menores que −l.
Vamos agora provar a seguinte proposição, que utilizaremos logo abaixo.
Proposição 12.3 Seja ψl,m um autovetor de L2 e de L3 com autovalores l(l + 1) e m, respectivamente.
Então se L+ ψl,m = 0 segue que m = l. Analogamente, se L− ψl,m = 0 segue que m = −l. 2
Prova. Se L+ ψl,m = 0 segue, evidentemente, que L− L+ ψl,m = 0. Por (12.6) isso implica (l − m)(l + m +
1) = 0. Assim, ou m = l ou m = −(l + 1). Esse último caso é proibido por (12.12) e, portanto, m = l.
Se L− ψl,m = 0 segue, evidentemente, que L+ L− ψl,m = 0. Por (12.7) isso implica (l + m)(l − m + 1) = 0.
Assim, ou m = −l ou m = l + 1. Esse último caso é proibido por (12.12) e, portanto, m = −l.
Vamos agora prosseguir tentando estabelecer mais alguns fatos sobre os possı́veis valores de l e m.
Usando as relações de comutação entre L3 e L+ , é fácil ver que
L3 L+ ψl,m = [L3 , L+ ]ψl,m + L+ L3 ψl,m = (m + 1)L+ ψl,m .
Analogamente, usando as relações de comutação entre L3 e L− , tem-se
L3 L− ψl,m = [L3 , L− ]ψl,m + L− L3 ψl,m = (m − 1)L− ψl,m .
Essas duas relações dizem-nos que L± ψl,m é um autovetor de L3 com autovalor m ± 1. Note-se que,
como L2 comuta com L± , tem-se também L2 L± ψl,m = l(l + 1)L± ψl,m . Assim, aplicar o operador L± a
ψl,m aumenta (diminui) de uma unidade o autovalor de L3 sem alterar o de L2 .
Percebemos disso que caso m = l teremos L3 L+ ψl, l = (l + 1)L+ ψl, l o que, em função de (12.12), só
é possı́vel se L+ ψl, l = 0. Analogamente, caso m = −l teremos L3 L− ψl, −l = −(l + 1)L− ψl, −l o que, em
função de (12.12), só é possı́vel se L− ψl, −l = 0. Junto com a Proposição 12.3 isso conduz ao
Corolário 12.3 Seja ψl,m um autovetor não-nulo de L2 e de L3 com autovalores l(l + 1) e m, respec-
tivamente. Então tem-se L+ ψl,m = 0 se e somente se m = l. Analogamente, L− ψl,m = 0 se e somente
se m = −l. 2
Precisamos mostrar que existem autovetores não-nulos de L3 com autovalores ±l. Certamente
existe um autovetor não-nulo ψl,m para algum m satisfazendo (12.12). Pelo que vimos acima, Lp+ ψl,m
é um autovetor de L3 com autovalor m + p. Suponhamos que m < l e seja p0 ≥ 0 o maior inteiro
não-negativo tal que m + p0 ≤ l. Então m + p0 + 1 > l, o que implica que 0 = Lp+0 +1 ψl,m = L+ Lp+0 ψl,m .
Pelo corolário 12.3 isso implica que ou Lp+0 ψl,m é nulo ou é autovetor de L3 com autovalor l. Se p0 = 0
então ψl,m 6= 0, por hipótese. Se p0 > 0, então, caso Lp+0 ψl,m = 0, concluirı́amos também pelo corolário
12.3 que Lp+0 −1 ψl,m é autovetor não-nulo de L3 com autovalor l. A repetição desse argumento conduz à
conclusão que há um autovetor não-nulo de L3 com autovalor l. Analogamente, concluı́-se que existe
autovetor não-nulo de L3 com autovalor −l.
Estamos agora preparados para chegar a uma importante conclusão sobre os possı́veis valores de l,
a saber, que l só pode assumir valores inteiros ou semi-inteiros.
Ao aplicarmos repetidamente o operador L+ , ao vetor não-nulo ψl,−l obtemos sucessivos vetores
Lp+ ψl,−l com autovalores −l + p de L3 . Chegará um momento em que a desigualdade −l ≤ m ≤ l será
violada, ou seja, existe p tal que Lp+1
+ ψl,−l seria o primeiro autovetor de L3 com autovalor maior que
l. Como isso é impossı́vel, segue que Lp+1 p
+ ψl,−l = 0 e L+ ψl,−l deve ser autovetor de L3 com autovalor
máximo l. Mas o autovalor de L3 em Lp+ ψl,−l é −l + p. Logo −l + p = l, ou seja, 2l = p. Como p é um
número inteiro, segue que l é ou um inteiro (caso p seja par) ou um semi-inteiro (caso p seja ı́mpar).
Como os autovalores m são da forma −l + p, para p inteiro, segue que m será inteiro se l o for ou
semi-inteiro, caso l o seja.
A conclusão importante é que os autovalores de L2 são números da forma l(l + 1) com l ≥ 0 inteiro
ou semi-inteiro. Cada representação irredutı́vel de SO(3) é caracterizada por um autovalor de L 2 e
podemos, portanto, classificar as representações irredutı́veis de SO(3) pelo ı́ndice l: Π l . Esse fato é de
grande importância na Fı́sica Quântica pois os números l(l + 1) e m são associados aos autovalores dos
operadores de momento angular L2 e L3 .
• Elementos de Matriz dos Geradores L1 , L2 e L3
É possı́vel fixar a forma dos geradores La em cada representação irredutı́vel Πl . Para isso, escolhemos
como base os 2l +1 vetores ψl,m com −l ≤ m ≤ l. Nessa base L3 é diagonal tendo elemento de matriz m
na m-ésima posição da diagonal. Para obter os elementos de matriz de L1 e L2 , obtemos primeiramente
os elementos de matriz de L± . Os mesmos podem ser fixados a partir de (12.8)-(12.9), que nos dizem
que,
kL+ ψl,m k2 = (l − m)(l + m + 1) = [l(l + 1) − m(m + 1)] (12.13)
e
kL− ψl,m k2 = (l + m)(l − m + 1) = [l(l + 1) − m(m − 1)] (12.14)
para kψl,m k = 1. Sabemos que L± ψl,m deve ser múltiplo de ψl,m±1 . Com as relações acima, podemos
convencionar (fixando os fatores de fase como sendo iguais a 1)
p
L+ ψl,m = l(l + 1) − m(m + 1) ψl, m+1 ,
p
L− ψl,m = l(l + 1) − m(m − 1) ψl, m−1 .
Isso fornece os elementos de matriz de L± na base ψl,m e com os mesmos podemos obter os elementos
de matriz de L1 e L2 .
E. 12.18 Exercı́cio. Obtenha explicitamente as matrizes L1 , L2 e L3 nos casos l = 1/2, l = 1 e l = 3/2.

No primeiro caso, obtêm-se, a menos de um fator 1/2, as matrizes de Pauli. 6
Com as expressões acima,é até mesmo possı́vel escrever de modo mais explı́cito a forma das repre-
~ .
sentações Πl (R(θ, ~η)) = exp −iθ~η · L
12.3 A Medida de Haar

Seja G um grupo finito e seja f : G → uma função que a cada elemento g do grupo associa um
número complexo f (g). Podemos definir a média de f em G por
1 X
µ(f ) := f (g),
#G g∈G
onde #G é o número de elementos de G.

Essa noção de média de uma função em um grupo finito possui algumas propriedades importantes.
Seja h um elemento fixo mas arbitrário de G e definamos as funções fhe (g) := f (hg), fhd (g) := f (gh) e
f i (g) = f (g −1 ). Então vale que para qualquer h ∈ G
µ(fhe ) = µ(fhd ) = µ(f i ) = µ(f ),
ou seja, a média é invariante por multiplicação à direita ou à esquerda por elementos de G ou pela
inversão do argumento de f .
Note-se também que a média acima foi normalizada de modo que se f (g) = 1 para todo g ∈ G,
então µ(f ) = 1. Por fim, note-se também que a média acima é positiva: se f ≥ 0 então µ(f ) ≥ 0. Fora
isso, se f ≥ 0 e µ(f ) = 0, então f (g) = 0 para todo g ∈ G.
Grupos finitos não são os únicos a possuir médias invariantes positivas. Vamos a alguns exemplos.
Para o grupo SO(2) podemos definir
Z 2π
1
µ(f ) = f (θ)dθ,
2π 0
caso a integral seja finita. É fácil ver que as propriedades de invariância observadas no caso de grupos
finitos são válidas aqui também, inclusive a normalização e a positividade. Para o grupo ( , +)
podemos definir Z ∞
µ(f ) = f (x)dx,
−∞
caso a integral seja finita. Como se vê essa média é positiva, invariante por translações f (x) → f (x + y)
e pela troca do argumento da f por seu inverso: f (x) → f (−x), em analogia ao caso de grupos finitos.
Note-se, porém, que essa média não pode ser normalizada, pois o grupo não é compacto. Outro exemplo
é o grupo ( + , ·). Aqui a média invariante é

Z ∞
1
µ(f ) = f (x) dx,
0 x
caso a integral seja finita.
E. 12.20 Exercı́cio. Mostre que essa média é invariante por f (x) → f (xy), y ∈
+, e por f (x) →
f (1/x). 6
Novamente, note-se que essa média não é normalizada, pois
+ não é compacto.
Podemos nos perguntar, quais grupos possuem médias invariantes positivas como nos exemplos
acima? Uma resposta parcial foi dada por Haar3 . O teorema de Haar afirma que se G é um grupo
compacto então existe uma medida de integração dµ(g) em G, denominada medida de Haar, tal que se
a média Z
µ(f ) = f (g)dµ(g)
G
é bem definida, então tem-se
Z Z Z Z
f (g)dµ(g) = f (hg)dµ(g) = f (gh)dµ(g) = f (g −1 )dµ(g)
G G G G
R R
para todo h ∈ G. ForaR isso, a média é normalizada: G dµ(g) = 1 e positiva: se f ≥ 0 então G
f dµ ≥ 0
sendo que se f ≥ 0 e G f dµ = 0, então f (g) = 0 para quase todo g ∈ G.
O teorema de Haar pode ser parcialmente extendido para grupos localmente compactos (como
( , +) e ( + , ·)): Se G é localmente compacto existem medidas positivas de integração dµe (g) e

dµd (g) em G tais que

Z Z Z
e
f (g)dµ (g) = e
f (hg)dµ (g) = f (g −1 )dµe (g)
G G G
e Z Z Z
d
f (g)dµ (g) = f (gh)dµ (g) =d
f (g −1 )dµd (g),
G G G
para quaisquer h ∈ G. Ou seja, existem uma medida invariante à esquerda e uma outra invariante
à direita. Em alguns casos essas medidas coincidem (por exemplo, para grupos Abelianos), mas tal
nem sempre é o caso para grupos não-Abelianos. Note que no caso de grupos compactos a medida
3
Alfréd Haar (1885-1933).
invariante à esquerda e a medida invariante à direita também coincidem. No caso de grupos localmente
compactos nem sempre se pode normalizar as medidas invariantes.
Na presente versão destas notas não iremos nos estender mais no estudo da medida de Haar. O
estudante é convidado aqui a procurar os clássicos do assunto (p.e. “The Haar Measure”, de Leopoldo
Nachbin4 ). Como veremos, a medida de Haar de grupos compactos desempenha um papel muito
importante no estudo das representações desses grupos.
12.4 Representações de Grupos Compactos

Seja G um grupo compacto e seja dµ sua medida invariante. Vamos supor que Π seja uma representação
de G em um espaço vetorial complexo V no qual esteja definido um produto escalar h·, ·i. Com o uso
de Π e dµ podemos definir em V um outro produto escalar h·, ·iG por
Z
hx, yiG := hΠ(g)x, Π(g)yi dµ(g),
G
x, y ∈ V .
O fato importante sobre esse produto escalar é o seguinte: para todo h ∈ G e todo x, y ∈ V
hΠ(h)x, Π(h)yiG = hx, yiG .
No caso de V ser um espaço vetorial complexo de dimensão finita, essa última igualdade afirma que
cada Π(h) é um operador unitário em relação ao produto escalar h·, ·iG .
Como conseqüência, temos a seguinte
Proposição 12.4 Toda representação de um grupo compacto em um espaço vetorial complexo de di-
mensão finita é equivalente a uma representação unitária e, conseqüentemente, é ou irredutı́vel ou
maximalmente redutı́vel. 2
Mais forte é o seguinte teorema, que não provaremos aqui:

Teorema 12.1 Toda representação de um grupo compacto é equivalente a uma soma direta de repre-
sentações irredutı́veis de dimensão finita.
Esse teorema nos diz que no caso de grupos compactos as representações irredutı́veis de dimensão
finita são os tijolos com os quais se constroem todas as representações.
Note-se que o teorema acima afirma que toda representação de um grupo compacto Abeliano é
equivalente a uma soma direta de representações de dimensão 1.
4
Leopoldo Nachbin (1922-1993). Vide http://www.dmm.im.ufrj.br/doc/nachbin.htm
12.5 O Teorema de Peter-Weyl

Um dos resultados mais profundos da teoria de representações de grupos compactos é um teorema sobre
a ortogonalidade das representações irredutı́veis unitárias que em vários aspectos generaliza o célebre
teorema de Fourier5 da Análise Harmônica. Como veremos, esse teorema é também um corolário do
Lema de Schur.
• O Teorema de Peter-Weyl. Relações de Ortogonalidade
Dentro da coleção de todas as representações unitárias de dimensão finita de um grupo compacto

(ou finito) G podemos estabelecer uma relação de equivalência, como já observamos, dizendo que duas
representações são equivalentes se possuı́rem um intertwiner invertı́vel. Podemos tomar em cada classe
um representante Πα e formar assim uma coleção {Πα , α ∈ Λ}, de todas as representações unitárias de
dimensão finita não-equivalentes entre si do grupo compacto (ou finito) G. Acima Λ designa o conjunto
de ı́ndices que rotulam as representações.
Cada Πα age em um espaço vetorial complexo Vα . No que segue designaremos por dα a dimensão
de Vα .
O importante teorema de Peter6 e Weyl7 afirma que os elementos de matriz Πα (g)ij , i, j = 1, . . . , dα
são ortogonais entre si em relação ao produto escalar definido pela medida de Haar do grupo compacto
(ou finito) G. Mais que isso, elas formam uma base ortogonal completa no espaço de Hilbert L 2 (G, dµ).
Teorema 12.2 Seja {Πα , α ∈ Λ} a coleção de todas as representações unitárias irredutı́veis de di-
mensão finita não-equivalentes entre si de um grupo compacto (ou finito) G. Sejam Π α (g)ij , i, j =
1, . . . , dα seus elementos de matriz. Seja dµ a medida de Haar de G. Então
Z
1
Πα (g)ij Πβ (g)kl dµ(g) = δαβ δik δjl . (12.15)
G dα
Por fim, as funções Πα (g)ij , i, j = 1, . . . , dα formam uma base ortogonal completa no espaço de Hilbert
L2 (G, dµ). Com isso, toda função f ∈ L2 (G, dµ) pode ser escrita na forma
dα
X X
f (g) = aαij Πα (g)ij ,
α∈Λ i, j=1
onde Z
aαij = dα Πα (g)ij f (g) dµ(g).
G
Finalmente, para f ∈ L (G, dµ) vale a identidade de Parseval8 :
2
Z X 1 X dα
α 2
2
|f (g)| dµ(g) = a .
ij
G α∈Λ
d α i, j=1
5
Jean Baptiste Joseph Fourier (1768-1830).
6
F. Peter (?).
7
Hermann Klaus Hugo Weyl (1885-1955).
8
Marc-Antoine Parseval des Chênes (1755-1836). Parseval deduziu esta identidade no contexto das séries de Fourier,
que correspondem aqui ao caso do grupo SO(2).
As relações acima afirmam que as funções Πα (g)ij , i, j = 1, . . . , dα são ortogonais em relação ao

produto
R escalar
P definido pela medida de Haar. No caso de G ser um grupo finito devemos substituir
1
G
dµ → #G g∈G , de modo que, por exemplo, as relações de ortogonalidade ficam
1 X α 1
Π (g)ij Πβ (g)kl = δαβ δik δjl .
#G g∈G dα
Prova. Demonstraremos aqui as relações de ortogonalidade. Como veremos a prova das mesmas faz
belo uso do Lema de Schur.

Seja E [i, j] a matriz dα × dβ tal que seu elemento de matriz ab seja E [i, j] ab = δia δjb . Aqui i ∈
{1, . . . , dα } e j ∈ {1, . . . , dβ }. Considere-se a matriz
Z
A [i, j]
:= Πα (g −1 ) E [i, j] Πβ (g) dµ(g)
G
Z
= Πα (g)∗ E [i, j] Πβ (g) dµ(g).
G
Usando as propriedades de invariância da medida dµ, é fácil provar que
Πα (h) A[i, j] = A[i, j] Πβ (h)
para todo h ∈ G. (Exercı́cio!). Pelo Lema de Schur, ou A[i, j] = 0 ou A[i, j] é invertı́vel. No caso de
termos α 6= β, sabemos, por construção, que Πα e Πβ são inequivalentes. Portanto, nesse caso temos
forçosamente A[i, j] = 0. Isso obviamente implica que todos os elementos de matriz de A[i, j] são nulos,
ou seja,
XZ
0 = A [i, j]
ab
= Πα (g)∗ak E [i, j] kl Πβ (g)lb dµ(g)
k, l G
XZ
= Πα (g)∗ak δik δjl Πβ (g)lb dµ(g)
k, l G
Z
= Πα (g)∗ai Πβ (g)jb dµ(g)
G
Z
= Πα (g)ia Πβ (g)jb dµ(g).
G
Note que essa relação vale para α 6= β mas i, j, a, b arbitrários. Isso provou (12.15) para α 6= β.
Vamos agora tratar o caso em que α = β. Nesse caso, como vimos Πα (h) A[i, j] = A[i, j] Πα (h) para
todo h ∈ G. Aqui A[i, j] são matrizes dα × dα . Pelo Corolário 12.1, A[i, j] = λ[i, j] . Vamos determinar
as constantes λ[i, j] . Por um lado, tomando-se o traço de A[i, j] tem-se Tr(A[i, j] ) = dα λ[i, j] . Por outro
lado, pela definição de A[i, j] tem-se
Z

Tr A [i, j]
= Tr Πα (g −1 ) E [i, j] Πα (g) dµ(g)
G
Z

= Tr Πα (g)Πα (g −1 ) E [i, j] dµ(g)
G
Z

= Tr E [i, j] dµ(g)
G
Z
= δij dµ(g)
G
= δij ,

pois Tr E [i, j] = δij . Logo,
1
λ[i, j] = δij .
dα
Assim, Z
1
δij = A [i, j]
= Πα (g)∗ E [i, j] Πα (g) dµ(g).
dα G
Considerando-se o elemento de matriz ab de ambos os lados da última expressão, tem-se
1 XZ
δij δab = Πα (g)∗ak E [i, j] kl Πα (g)lb dµ(g)
dα k, l G
XZ
= Πα (g)∗ak δik δjl Πα (g)lb dµ(g)
k, l G
Z
= Πα (g)∗ai Πα (g)jb dµ(g)
G
Z
= Πα (g)ia Πα (g)jb dµ(g).
G
Isso prova (12.15) para α = β, completando a prova das relações de ortogonalidade.

A demonstração que as funções Πα (g)ij formam uma base ortogonal completa em L2 (G, dµ) não
será apresentada na presente versão destas notas. As demais afirmações são conseqüência das relações
de ortogonalidade.
• Caráteres e Funções Centrais

Dada uma representação Π de dimensão finita de um grupo G, define-se o caráter de Π como sendo
a função
χΠ (g) := Tr (Π(g)) , g∈G
Um fato relevante sobre caráteres é a seguinte identidade:

χΠ (hgh−1 ) = Tr Π(hgh−1 ) = Tr Π(h)Π(g)Π(h−1 ) = Tr Π(h−1 )Π(h)Π(g) = Tr (Π(g)) = χΠ (g)
para quaisquer g, h ∈ G. Isso sugere a seguinte definição: uma função f : G → é dita ser central
se f (g) = f (hgh−1 ) para todos g, h ∈ G. Equivalentemente, podemos definir funções centrais como
sendo as funções tais que f (gh) = f (hg) para todos g, h ∈ G.
E. 12.22 Exercı́cio. Mostre a equivalência dessas definições. 6
Caráteres são funções centrais. Das relações (12.15), tomando-se i = j, k = l e somando-se nesses
ı́ndices, obtêm-se facilmente que os caráteres χα das representações irredutı́veis unitárias de dimensão
finita Πα satisfazem as seguintes relações de ortogonalidade:
Z
χα (g)χβ (g) dµ(g) = δαβ .
G
Como conseqüência do Teorema de Peter-Weyl podemos igualmente provar que os caráteres das
representações irredutı́veis unitárias de dimensão finita formam uma base ortogonal no espaço de Hilbert
das funções centrais de quadrado integrável de um grupo finito ou compacto. Não apresentaremos a
demonstração aqui. Notemos apenas que no caso do grupo SO(2) os caráteres das representações
irredutı́veis unitárias de dimensão finita são χp (θ) = eipθ , p ∈ . Assim, a afirmação de acima, que os
caráteres formam uma base no espaço das funções centrais de quadrado integrável, é nesse contexto
um bem conhecido resultado da teoria das séries de Fourier.
• Classe de Conjugação
Seja G um grupo. Podemos estabelecer uma relação de equivalência em G da seguinte forma. Se

x, y ∈ G, dizemos que x ∼ y se existir algum elemento h ∈ G tal que x = hyh−1 .
E. 12.24 Exercı́cio. Verifique que isso, de fato, define uma relação de equivalência. 6
As classes de equivalência de G por essa relação são denominadas classe de conjugação, ou classes
de elementos conjugados.
E. 12.25 Exercı́cio. Verifique que a identidade é o único elemento de sua classe de equivalência. 6
O fato importante sobre funções centrais e classes conjugadas é a seguinte afirmação: toda função
central de um grupo G é constante nas classes conjugadas de G. A prova é elementar: se x, y pertencem
à mesma classe então existe h tal que x = hyh−1 . Logo, f (x) = f (hyh−1 ) = f (y).
Assim, para determinar uma função central, como um caráter de uma representação, por exemplo,
basta determinar seus valores nas classes de conjugação. Essa observação desempenhará um papel
abaixo.
• Caráteres de Grupos Finitos
Caráteres desempenham um papel especial no caso de grupos finitos. Se G é finito, as relações de

ortogonalidade acima ficam
1 X α
χ (g)χβ (g) = δαβ . (12.16)
#G g∈G
No caso e grupos finitos os caráteres possuem uma propriedade de ortogonalidade adicional que é muito
útil no estudo de propriedades desses grupos. Vamos apresentá-la.
Se f é uma função central de um grupo finito, então f é automaticamente de quadrado integrável
(pois o grupo é finito) e, pelo teorema de Peter-Weyl, podemos escrevê-la como
X
f (h) = cα χα (h),
α∈Λ
onde
1 X α
cα = χ (g)f (g).
#G g∈G
Como tanto χα quanto f são constantes nas classes de equivalência Ck , k = 1, . . . , K, de G, podemos
escrever essa última expressão como
K
1 X
cα = (#Ck )χα (Ck )f (Ck ),
#G k=1
onde #Ck é o número de elementos do grupo que pertencem à classe Ck e f (Ck ) é o valor de f em Ck .
Assim,
X 1 X K
f (h) = (#Ck )χα (Ck )f (Ck )χα (h)
α∈Λ
#G k=1
K
" #
X #Ck X α
= f (Ck ) χ (Ck )χα (h)
k=1
#G α∈Λ
Tomando h ∈ Cj , teremos
K
" #
X #Ck X α
f (Cj ) = f (Ck ) χ (Ck )χα (Cj ) .
k=1
#G α∈Λ
Como f é arbitrária, segue que

X
#Ck
χα (Ck )χα (Cj ) = δjk . (12.17)
#G α∈Λ
Essa relação de ortogonalidade especial tem várias conseqüências relevantes para o estudo de repre-
sentações irredutı́veis unitárias de grupos finitos. Uma delas é a seguinte:
Proposição 12.5 Se G é um grupo finito, o número de representações irredutı́veis unitárias de G é
igual ao número de de classes de conjugação de G. 2
Prova. Seja G um grupo finito e Ck , k = 1, . . . , K suas classes de conjugação. Sabemos que as funções
centrais são constantes nas classes de conjugação e, portanto, vale para toda função central f a seguinte
identidade
XK
f (g) = fk δCk (g),
k=1
onde fk é o valor que f assume em Ck e

1, se g ∈ Ck
δCk (g) := .
0, se g 6∈ Ck
Isso significa que o espaço vetorial C(G) das funções centrais de G tem uma base formada pelas funções
δCk , k = 1, . . . , K, e, portanto, tem dimensão K.
Por (12.16) as funções χα , α ∈ Λ, formam uma base ortogonal no espaço C(G). Portanto, o número
#Λ de representações irredutı́veis de G é menor ou igual à dimensão de C(G), que é K, como acabamos
de ver: #Λ ≤ K.
Por outro lado, (12.17) diz-nos que o espaço vetorial de todas as funções Λ → , o qual tem dimensão
#Λ (por que?), possui um conjunto de K funções ortogonais, a saber, as funções hk (α) = χα (Ck ), α ∈ Λ.
Logo, K ≤ #Λ. Isso completa a prova que K = #Λ
À luz desta proposição podemos rescrever (12.17) como

K
#Ck X a
χ (Ck )χa (Cj ) = δjk . (12.18)
#G a=1
j, k = 1, . . . , K.
Outra conseqüência de (12.18) é a seguinte. Tomando-se Cj = Ck = C1 , onde C1 é a classe de
conjugação da identidade, a qual só possui um elemento, concluı́mos que
K
X
d2a = #G, (12.19)
a=1
a a
pois χ (C1 ) = Tr(Π (e)) = da .
Essa curiosa expressão nos mostra uma relação entre as dimensões das representações irredutı́veis de
G e a ordem de G. Em muitos casos é possı́vel extrair informações sobre as representações irredutı́veis
do grupo a partir da mesma. Isso pois (12.19) não pode ser satisfeita por quaisquer números inteiros
K, da e #G. Por exemplo, um grupo que possua 6 elementos e 3 classes de conjugação só pode ter
duas representações irredutı́veis unidimensionais e uma bidimensional, pois 6 = 12 + 12 + 22 e não
há outra forma de escrever o número 6 como soma de três quadrados. Esse, aliás, é precisamente o
caso do grupo de permutações de 3 elementos, S3 , o qual possui 6 elementos e 3 classes de conjugação
(identifique-as!).
Parte V
Topologia Geral, Teoria da Medida e

Integração
726
Capı́tulo 13
Espaços Métricos
Conteúdo
13.1 Métricas e Espaços Métricos . . . . . . . . . . . . . . . . . . . . . . . . . . . 729

13.2 Topologia de Espaços Métricos . . . . . . . . . . . . . . . . . . . . . . . . . 743
13.3 Pseudo-Métricas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 746
13.4 Espaços de Banach e de Hilbert . . . . . . . . . . . . . . . . . . . . . . . . . 748
13.4.1 Espaços de Seqüências . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 750
13.A Algumas Desigualdades Básicas . . . . . . . . . . . . . . . . . . . . . . . . . 764
13.B Números reais e p-ádicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 766
13.C Aproximações para π . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 773
odos estamos familiarizados com a noção usual e intuitiva de distância entre pontos da reta
real , do plano bidimensional 2 ou do espaço tridimensional 3 . O estudante há de

reconhecer que boa parte do material tratado em cursos de cálculo de funções de uma ou
várias variáveis, reais ou complexas, como as noções de derivação e integração, assenta-se
sobre noções como as de convergência e limite, as quais, por suas vez, assentam-se sobre a noção
intuitiva de distância entre pontos. Assim, por exemplo, dizemos que uma seqüência xn de pontos na
reta real converge a um ponto x se a distância |xn − x| entre xn e x torna-se menor e menor à medida
que n cresce. Mais adiante faremos essas idéias mais precisas e gerais.
Ao longo do seu desenvolvimento, especialmente após o século XIX, a Matemática reconheceu
a importância de abstrair e generalizar a noção intuitiva de distância de modo a aplicá-la a outros
tipos de conjuntos que não os familiares espaços de dimensão finita , 2 ou 3 . Esse desenvolvimento

conduziu às noções de métrica, de espaços métricos e de espaços métricos completos, as quais definiremos
mais adiante, e permitiu aplicar muitas das noções geométricas e instrumentos analı́ticos, originalmente
desenvolvidos em espaços mais familiares, para conjuntos menos acessı́veis à intuição, como por exemplo
espaços vetoriais de dimensão infinita, tais como espaços de funções ou de seqüências. Uma importante
aplicação dessas idéias e noções à teoria das equações diferenciais e integrais será vista no Capı́tulo 14,
quando trataremos do Teorema do Ponto Fixo de Banach.
Lembramos ao estudante que o estudo de espaços de dimensão infinita não é uma mera abstração
desprovida de uso ou interesse prático. Ao se decompor uma função f , contı́nua, diferenciável e
periódica de perı́odo 2π, em sua série de Fourier1 ,
∞
X eint
f (t) = an √
n=−∞
2π
1
Jean Baptiste Joseph Fourier (1768-1830).
727
tal como ocorre, por exemplo, no problema da corda vibrante, o que estamos fazendo é precisamente
expressar uma tal função em termos de componentes em uma base de um espaço de dimensão infinita,
eint
no caso a base formada pelas infinitas funções √ 2π
com n ∈ .
Para o estudo de espaços de dimensão infinita, como o desse exemplo, seria muito importante
se pudéssemos reter algumas das noções geométricas familiares em espaços de dimensão finita. O
emprego de idéias geométricas análogas àquelas encontradas nos espaços , 2 ou 3 é de grande

importância na tarefa de explorar espaços de dimensão infinita, como o espaço das funções contı́nuas
periódicas de perı́odo 2π, justamente por trazerem tais espaços para mais perto da nossa intuição.
Por razões evolutivas, o cérebro humano só é capaz de produzir e desenvolver imagens em uma, duas
ou três dimensões e, portanto, para o estudo de espaços com mais dimensões faz-se necessário dispor
de instrumentos abstratos que permitam desenvolver raciocı́nios o mais próximo possı́vel daqueles
empregados em espaços de dimensão 1, 2 ou 3.
Devido às bem-conhecidas “relações de ortogonalidade”
Z 2π
1
ei(n−m)t dt = δn, m
2π 0
sabemos que, as constantes an da decomposição de Fourier acima são dadas por
Z 2π −int
e
an = √ f (t) dt ,
0 2π
e podem ser interpretadas geometricamente como as projeções, ou componentes, da função f na
−int
“direção” das funções e√2π . (A noção de projeção, ou componente, de um vetor é familiar em 2
ou em 3 ). Como é bem sabido (para a teoria das séries de Fourier, vide [31]), vale também a relação,

conhecida como Identidade de Parseval2 ,

s v
Z 2π u ∞
u X
|f (t)| dt = t
2 |an |2 .
0 n=−∞
Sendo o lado direito a raiz quadrada da soma do quadrado das componentes ortogonais de f , podemos
interpretar o lado esquerdo como o “módulo” ou “comprimento” da função f (entendida como vetor no
espaço de dimensão infinita das funções periódicas de perı́odo 2π), tal como no Teorema de Pitágoras 3
em 2 ou 3 .

Se levada adiante, essa analogia geométrica nos permite definir uma possı́vel noção de distância
entre duas funções contı́nuas periódicas f e g, que denotaremos por4 d2 (f, g), como o módulo (ou
“comprimento”) da diferença entre duas funções, tal como se faz em espaços de dimensão finita:
s
Z 2π
d2 (f, g) := |f (t) − g(t)|2 dt .
0
2
Marc-Antoine Parseval des Chênes (1755-1836).
3
Pitágoras de Samos (ci. 569 A.C. - ci. 475 A.C.).
4
A razão de empregarmos o sub-ı́ndice “2” na definição de d2 (f, g) será esclarecida mais adiante.
Com esse instrumento em mãos podemos agora empregar conceitos como o de convergência e limite de
seqüências no espaço de dimensão infinita das funções contı́nuas periódicas e, eventualmente, prosseguir
desenvolvendo em tais espaços outros ingredientes do Cálculo e da Análise.
Para implementar tais desenvolvimentos, vamos no presente capı́tulo introduzir algumas importan-
tes noções gerais, como as de métrica, de espaço métrico, de seqüências de Cauchy em espaços métricos,
de completamento de espaços métricos e de topologia de espaços métricos, noções essas que provaram
ser de grande importância na tarefa de levar os instrumentos familiares de abordagem matemática de
espaços de dimensão finita a espaços de dimensão infinita e outros.
13.1 Métricas e Espaços Métricos
• Métricas
Uma questão importante que se coloca é a de identificar quais propriedades básicas a noção intuitiva
de distância possui para permitir seu emprego em várias instâncias. O desenvolvimento da Matemática
conduziu a uma identificação desses ingredientes em um conjunto de quatro propriedades, as quais
resumem tudo o que é essencialmente necessário na demonstração de resultados nos quais a noção de
distância é empregada. Surgiu da identificação dessas propriedades a noção matemática de métrica, a
qual abstrai e generaliza a noção intuitiva de distância. Vamos a essa definição.
Seja X um conjunto (entendido doravante como não-vazio). Uma função d : X × X → é dita
ser uma métrica em X se possuir as seguintes propriedades:
1. Positividade: d(a, b) ≥ 0 para todos a, b ∈ X.
2. Condição de distância nula: d(a, b) = 0 se e somente se a = b.
3. Simetria: para todos a e b ∈ X vale d(a, b) = d(b, a).
4. Desigualdade triangular: para todos a, b e c ∈ X vale d(a, b) ≤ d(a, c) + d(c, b).
A quarta propriedade acima é particularmente importante e é denominada desigualdade triangular

devido a seu significado geométrico nos espaços 2 e 3 com a métrica usual. (Justifique!)

As quatro propriedades listadas acima são aquelas identificadas como essenciais na noção intuitiva
de distância e qualquer função d que as satisfaça, ou seja, qualquer métrica, pode potencialmente ser
empregada como equivalente à noção intuitiva de distância.
Um ponto importante da definição de métrica é a condição que afirma que d(x, y) = 0 se e somente
se x e y forem iguais. Compare com a definição de pseudo-métrica à página 746.
Mencionamos en passant que a condição de positividade acima é, em verdade, conseqüência da
desigualdade triangular e da condição de simetria. De fato, usando essas duas condições, pode-se
provar o seguinte fato mais forte: para todos x, y, z ∈ M vale
d(x, y) ≥ |d(x, z) − d(z, y)|, (13.1)

o que, em particular, garante que d(x, y) ≥ 0. Para provar isso, note-se que pela desigualdade triangular
d(x, z) ≤ d(x, y) + d(y, z). Logo,
d(x, y) ≥ d(x, z) − d(y, z). (13.2)
Trocando-se x por y e usando-se a condição de simetria, obtemos também
d(x, y) = d(y, x) ≥ d(y, z) − d(x, z). (13.3)
Ambas as relações (13.2) e (13.3) dizem que d(x, y) ≥ |d(x, z) − d(y, z)|, como querı́amos mostrar.
O exemplo mais básico de uma métrica é oferecido, no caso X = , pela função d(x, y) = |y − x|,

x, y ∈ . Outro exemplo essencialmente idêntico em X = , é oferecido pela função d(z, w) = |z − w|,

z, w ∈ . Essas são as chamadas métricas usuais em e , respectivamente. Deixamos ao leitor a

tarefa simples de verificar que essas funções satisfazem a definição de métrica.
• Espaços métricos e outros exemplos básicos
Se X é um conjunto e d é uma métrica em X, dizemos que o par (X, d) é um espaço métrico. Ou

seja, um espaço métrico vem a ser um conjunto munido de uma métrica.
Nota. A noção de Espaço Métrico foi introduzida por Fréchet5 em sua dissertação de 1906. A expressão
“espaço métrico”, no entanto, não foi sua invenção, tendo sido cunhada por Hausdorff 6 em 1914.
Como mencionamos, as quatro propriedades requeridas na definição de métrica, acima, foram enun-
ciadas sob inspiração do exemplo familiar do próximo exercı́cio.
p
E. 13.1 Exercı́cio. Verifique que a função d2 (x, y) := (y1 − x1 )2 + · · · + (yn − xn )2 , onde x =
(x1 , . . . , xn ) e y = (y1 , . . . , yn ), é uma métrica em n (chamada de métrica Euclidiana).
6
É importante que o estudante familiarize-se desde cedo com o fato que um conjunto X pode ter
várias métricas. O exemplo anterior e os dois abaixo ilustram isso.
E. 13.2 Exercı́cio. Verifique que a função d∞ (x, y) := max{|y1 − x1 |, . . . , |yn − xn |}, onde x =
(x1 , . . . , xn ) e y = (y1 , . . . , yn ), é uma métrica em n .
6
E. 13.3 Exercı́cio. Verifique que a função d1 (x, y) := |y1 − x1 | + · · · + |yn − xn |, onde x = (x1 , . . . , xn )
e y = (y1 , . . . , yn ), é uma métrica em n . 6
Mais adiante mostraremos que todas as funções

dp (x, y) := [|y1 − x1 |p + · · · + |yn − xn |p ]1/p ,
n
com p ≥ 1 são métricas em .
Uma caracterı́stica importante da noção abstrata de métrica é que a mesma aplica-se também a
espaços outros que não os familiares espaços n . Os exercı́cios abaixo ilustram isso no caso do conjunto

X = C0 ([0, 1]), que vem a ser o conjunto das funções contı́nuas reais definidas no intervalo [0, 1].
5
Maurice René Fréchet (1878-1973). Fréchet também introduziu a noção de compacidade.
6
E. 13.4 Exercı́cio. Seja X = C0 ([0, 1]) o conjunto de todas as funções reais contı́nuas definidas em
[0, 1]. Considere a seguinte função d∞ : X × X → :
d∞ (f, g) = sup |f (x) − g(x)|.

x∈[0, 1]
Mostre que d∞ uma métrica em X. 6
[0, 1]. Considere a seguinte função d1 : X × X → :
Z 1
d1 (f, g) = |f (x) − g(x)| dx.
0
Mostre que d1 uma métrica em X. 6
[0, 1]. Considere a seguinte função d2 : X × X → :
s
Z 1
d2 (f, g) = |f (x) − g(x)|2 dx.
0
Mostre que d2 uma métrica em X. 6
Mais adiante mostraremos que em C0 ([0, 1]) todas as funções

Z 1 1/p
p
dp (f, g) = |f (x) − g(x)| dx .
0
com p ≥ 1 são igualmente métricas.
• Seqüências
Antes de prosseguirmos, lembremos uma definição básica.

Se X é um conjunto, uma função a : → X é dita ser uma seqüência em X. Como é familiar ao

estudante, o valor de a em n ∈ é freqüentemente denotado por an ao invés de a(n). Analogamente,

uma seqüência a : → X é freqüentemente denotada por {an }n∈ , por {an , n ∈ }, ou ainda, com um

certo abuso de linguagem, simplesmente por an . Essa última notação é, talvez, a mais freqüente, mas
pode, em certas ocasiões, causar alguma confusão pois, como mencionamos, a n designa, estritamente
falando, o valor de a em n, não a seqüência toda.
Vamos agora introduzir várias noções fundamentais, as quais provêm de definições bem conhecidas
no contexto da reta real.
• Sub-seqüências
Seja X um conjunto e seja a : → X uma seqüência em X. Seja também κ :

→ uma
função estritamente crescente (ou seja, k(m) < k(n) se m < n). Então a ◦ κ : → X é dita ser uma

subseqüência de a.
• Convergência em espaços métricos
Seja (X, d) um espaço métrico. Dizemos que uma seqüência a em X converge para um elemento
x ∈ X em relação à métrica d se para todo > 0 existir um número natural N () (eventualmente
dependente de ) tal que d(x, an ) < para todo n > N ().
A seguinte proposição é fundamental, pois nos diz que, em um espaço métrico, uma seqüência, se
for convergente, só pode convergir a um ponto:
Proposição 13.1 Seja (X, d) um espaço métrico e seja b uma seqüência em X. Suponha que b
converge a um elemento x ∈ X e a um elemento y ∈ X. Então x = y. 2
Prova. Pela desigualdade triangular, temos que

d(x, y) ≤ d(x, bn ) + d(bn , y)
para qualquer n. Agora, como b converge a x sabemos que, para qualquer > 0 teremos d(x, b n ) <
para todo n grande o suficiente, ou seja, para todo n maior que um certo inteiro Nx (). Analogamente,
como bn converge a y sabemos que, para qualquer > 0 teremos d(y, bn ) < para todo n grande
o suficiente, ou seja, para todo n maior que um certo inteiro Ny (). Assim, para todo n maior que
max{Nx (), Ny ()} teremos d(x, y) < 2. Ora, como é um número positivo arbitrário, uma tal
desigualdade só pode ser válida se d(x, y) = 0. Como d é uma métrica, isso implica x = y.
O estudante pode constatar que a demonstração acima faz uso de todas as propriedades definidoras
da noção de métrica, o que ilustra a importância de noções abstratas como aquela.
Um pouco de notação. Se uma seqüência a em X converge a x ∈ X em relação à métrica d então x é
dito ser o d-limite de a, ou simplesmente o limite de a, se a métrica d estiver subentendida. Denotamos
esse fato escrevendo x = d−lim
n→∞
an , ou simplesmente x = lim an (se a métrica d estiver subentendida).
n→∞
d
Outra notação freqüentemente empregada para dizer que x é o d-limite de a é a n −→ x.
• Seqüências de Cauchy
Seja um espaço métrico X com uma métrica d. Uma seqüência a de elementos de X é dita ser
uma seqüência de Cauchy7 em relação à métrica d se para todo > 0 existir um número natural N ()
(eventualmente dependente de ) tal que d(ai , aj ) < para todo i e j tais que i > N () e j > N ().
A seguinte proposição é fundamental:
Proposição 13.2 Seja um espaço métrico X com uma métrica d e seja b uma seqüência convergente
em relação à métrica d a um elemento x ∈ X. Então b é uma seqüência de Cauchy em relação à
métrica d.
7
Prova. Sejam m e n arbitrários. Pela desigualdade triangular, vale

d(bn , bm ) ≤ d(bn , x) + d(x, bm ).
Agora, como b converge a x sabemos que para todo > 0 teremos d(bn , x) < /2 e d(bm , x) < /2
desde que ambos m e n sejam maiores que algum N (/2). Nesse caso, então, d(bn , bm ) ≤ /2 + /2 = .
Isso completa a prova.
Uma questão de fundamental importância que agora se coloca é a seguinte: será válida a recı́proca
da proposição acima, ou seja, será toda seqüência de Cauchy em um espaço métrico uma seqüência
convergente? A importância dessa questão é a seguinte. Dada uma seqüência concreta x n em um
espaço métrico X, não sabemos a priori se xn convergirá ou não a menos que encontremos um elemento
x em X com a propriedade desejada (para todo > 0, existe N () tal que d(xn , x) < sempre que
n > N ()). Nem sempre pode ser fácil ou possı́vel encontrar explicitamente tal x, e gostarı́amos de
possuir um critério baseado apenas em propriedades verificáveis da seqüência x n que nos permita dizer
se ela converge ou não. A propriedade de uma seqüência ser de Cauchy é uma propriedade cuja validade
ou não depende apenas da seqüência e, portanto, em face à Proposição 13.2, é um ótimo candidato a
ser um tal critério de convergência.
Sucede, porém, que, em geral, a resposta à pergunta acima é negativa: existem espaços métricos nos
quais há seqüências de Cauchy que não convergem. Isso é ilustrado pelos seguintes exemplos. Considere-
se o conjunto X = dos números racionais e adotemos em a métrica usual: d(r, s) = |r − s|, com
r, s ∈ . Há, sabidamente, exemplos de seqüências de que são de Cauchy em relação à métrica d
que convergem em . Um exemplo é encontrado no exercı́cio seguinte.
E. 13.7 Exercı́cio. Seja r um número racional com r > 1. Prove que a seqüência de números racionais
Xn
1 r
sn = a
, n ∈ , é uma seqüência de Cauchy e que a mesma converge ao número racional 6
r r − 1

a=0
O ponto, porém, é que há também exemplos de seqüências de que são de Cauchy em relação à
métrica d mas que não convergem em . Um exemplo famoso, e que pode ser tratado com detalhe, é
o da seqüência
1 1 1
sn = 1 + + + · · · + ,
1! 2! n!
que é uma seqüência de Cauchy de racionais, mas que não converge a um número racional 8 . Tratamos
esse exemplo com detalhe no próximo tópico. A leitura do mesmo pode ser dispensada pelo estudante
já familiarizado com esses fatos, mas pode ser instrutiva para os demais. Por um teorema de Lambert 9
(vide [53]), sabe-se que se r é um número racional não-nulo então er não é racional. Assim, as seqüências
2 n
de racionais sn = 1 + 1!r + r2! + · · ·+ rn! convergem a irracionais. Analogamente, esse teorema de Lambert
P∞ (−1)n rn+1
implica que ln(r) não pode ser racional se r o for, Assim, para −1 < r < 1, a série n=0 n+1
converge ao irracional ln(1 + r).
P k
Outro exemplo é a seqüência pn = 4 nk=0 (−1) 2k+1
, que converge ao irracional π. Uma prova que π é
irracional pode ser encontrada em [118] ou em [53]. Vide página 41 para mais comentários. Para uma
8
O estudante bem sabe que essa seqüência converge no conjunto dos reais ao número e. Abaixo provaremos que esse
número não é racional.
9
Johann Heinrich Lambert (1728-1777).
breve discussão sobre aproximações para π recheada de digressões históricas, vide Seção 13.C, página
773.
Esses exemplos, que estão longe de ser únicos, ilustram um fato muito importante: existem espaços
métricos nos quais não vale a recı́proca da Proposição 13.2, ou seja, existem espaços métricos nos quais
seqüências de Cauchy não são necessariamente convergentes.
De grande importância são os espaços métricos onde vale a recı́proca da Proposição 13.2. Tais
espaços métricos são denominados completos e deles falaremos no pós-próximo tópico, à página 736.
• O número e é um número irracional
Seja a seqüência de números racionais

1 1 1
sn = 1 + + +···+ ,
1! 2! n!
Vamos provar que essa seqüência é de Cauchy em relação à métrica usual em , mas que a mesma não
converge a um número racional.
Primeiro provemos que esta seqüência é de Cauchy. Vamos supor j > i. Como a seqüência s n é
crescente, segue que d(si , sj ) = |si − sj | = sj − si (por que?). Temos, então,
1 1
d(si , sj ) = sj − si = +···+
(i + 1)! j!

1 1 1 (i + 1)!
= 1+ + +···+
(i + 1)! i + 2 (i + 2)(i + 3) j!

1 1 1 1
≤ 1+ + 2
+···+
(i + 1)! (i + 2) (i + 2) (i + 2)j−i−1
X∞
1 1
<
(i + 1)! a=0 (i + 2)a
1 i+2 2
= < para i > 0. (13.4)
(i + 1)! i + 1 (i + 1)!
2
Como o número pode ser feito arbitrariamente pequeno tomando-se i grande, fica provado que
(i + 1)!
a seqüência sn é de Cauchy.
E. 13.8 Exercı́cio. Justifique cada passagem acima. 6
Vamos agora provar que essa seqüência não converge a um número racional. Para isso vamos supor
o contrário e constatar que isso leva a um absurdo. Vamos então supor que a seqüência converge a um
racional e. Como e é suposto ser racional, e seria da forma e = p/q onde p e q são números inteiros
primos entre si. Da desigualdade triangular segue que
2
d(e, si ) ≤ d(si , sj ) + d(e, sj ) < + ,
(i + 1)!
para qualquer > 0, desde que j seja escolhido grande o suficiente (pois sj converge a e). Assim, como
a desigualdade vale para qualquer > 0, concluı́-se que
2
d(e, si ) ≤ .
(i + 1)!
Como si é uma seqüência crescente e si 6= sj para i 6= j, segue que d(e, si ) = e − si . Logo,

p 2
0 < e − si = − si ≤
q (i + 1)!
e, portanto,
p 2
si < ≤ si + (13.5)
q (i + 1)!
para todo i ∈ . Para i = 2 a relação (13.5) fica (verifique!)
5 p 17
< ≤ . (13.6)
2 q 6
Como 17/6 < 3, concluı́mos que 5/2 < p/q < 3. Esse fato mostra que p/q não é inteiro. Disso, segue
que q ≥ 2, fato que usaremos logo abaixo10 .
Como (13.5) vale para todo i, tomemos em particular i = q. A relação (13.5) diz, então, que
1 1 p 1 1 2
1+ +···+ < ≤ 1+ +···+ + .
1! q! q 1! q! (q + 1)!
Multiplicando-se ambos os lados por q! concluı́mos que
2
A < p(q − 1)! ≤ A + < A + 1, pois q ≥ 2,
q+1
onde
1 1 q! q! q!
A := q! 1 + + · · · + = q! + q! + + + · · · +
1! q! 2! 3! q!
é um número inteiro positivo, pois é, claramente, uma soma de inteiros positivos. Assim, o que provamos
é que A < p(q − 1)! < A + 1. Agora, como A é um inteiro, essas últimas desigualdades dizem que o
número inteiro p(q − 1)! está contido no intervalo aberto entre dois inteiros (A e A + 1) e, portanto,
não pode ser um é inteiro: uma contradição. Isso prova, então, que e não pode ser da forma p/q e,
portanto, não pode ser racional.
E. 13.9 Exercı́cio. A chamada constante de Euler11 -Mascheroni12 é o número definido13 por

1 1
γ := lim 1 + + · · · + − ln(n) ' 0, 5772156649 . . . .
n→∞ 2 n
10
É possı́vel extrair um pouco mais de (13.6). A primeira desigualdade em (13.6) diz-nos que p > 5q/2. Como q ≥ 2,
segue que p > 5. A segunda desigualdade em (13.6) diz-nos que q ≥ 6p/17. Como p ≥ 6, segue que q ≥ 36/17 > 2.
Assim, concluı́-se que q ≥ 3.
11
12
Lorenzo Mascheroni (1750-1800).
13
Essa constante foi introduzida por Euler em 1735, o qual calculou seus 16 primeiros dı́gitos decimais. Em 1790,
Mascheroni calculou seus 32 primeiros dı́gitos decimais, dos quais apenas os primeiros 19 estavam corretos.
A constante γ surge em várias situações, por exemplo na definição das funções de Bessel de segundo tipo.
A prova que o limite acima existe pode ser encontrada em qualquer bom livro de Cálculo, por exemplo em
[118]. Até hoje não é conhecido se γ é um número racional ou irracional. Resolva essa questão. 6
• Completeza
Dizemos que o espaço métrico X é completo em relação à métrica d se toda seqüência de Cauchy
em X convergir a um elemento de X.
Assim, em um espaço métrico completo, para garantirmos que uma seqüência converge basta veri-
ficarmos que a mesma é de Cauchy. Como comentamos à página 733, a propriedade de uma seqüência
ser de Cauchy pode ser verificada analisando apenas propriedades da mesma, daı́ sua vantagem. Dessa
forma, dada uma seqüência concreta {xn } em um espaço métrico completo X, para sabermos se {xn }
converge não é necessário adivinhar o elemento ao qual converge, mas bastar constatar a propriedade
de Cauchy, o que pode ser feito apenas estudando a distância entre elementos de {xn }.
Nota. O estudante mais adiantado deve ser advertido que a noção de completeza de um espaço métrico
não é uma noção topológica. Vide discussão à página 745.
Pelo que vimos nas últimas páginas, o espaço métrico formado pelos números racionais com a
métrica usual não é um espaço métrico completo. Vale, porém a seguinte afirmação:
Proposição 13.3 O conjunto dos números reais é um espaço métrico completo em relação à métrica
usual: d(x, y) = |x − y|, x, y ∈ . 2
A demonstração dessa proposição pode ser encontrada em todos os bons livros de Cálculo ou Análise
Real. Discutiremos com detalhe esse fato ao apresentarmos uma “construção” dos números reais, devida
a Cantor14 (seguindo idéias de Weierstrass15 ), na Seção 13.B, da qual a proposição acima é um corolário
imediato.
O mesmo vale para o conjunto dos números complexos:
Proposição 13.4 O conjunto dos números complexos é um espaço métrico completo em relação à
métrica d(z, w) = |z − w|, z, w ∈ . 2
Vale também a seguinte afirmação, cuja demonstração será apresentada como caso particular de
uma outra afirmação mais geral na Seção 13.4.1:
Proposição 13.5 Para todo n ≥ 1, o conjunto n é um espaço métrico completo em relação às

métricas d∞ , d1 , d2 e dp com p ≥ 1, definidas à página 730. 2
Vamos a outros exemplos.

14
15
Karl Theodor Wilhelm Weierstrass (1815-1897).
E. 13.10 Exercı́cio. Vamos mostrar que C0 ([0, 1]) não é completo em relação à métrica d1 :
Z 1
d1 (f, g) = |f (x) − g(x)| dx.
0
Considere a seguinte seqüência de funções contı́nuas em [0, 1]:


 0, se x ∈ [0, 1/2 − 1/n]
fn (x) = n(x − 1/2 + 1/n), se x ∈ (1/2 − 1/n, 1/2) ,

1, se x ∈ [1/2, 1]
onde n ∈ .
a) Trace o gráfico dessas funções para se convencer que são todas contı́nuas e, portanto, elementos de
C0 ([0, 1]).
b) Calcule d1 (fn , fm ) e mostre que essa seqüência é uma seqüência de Cauchy em relação à métrica d 1 .
c) Seja agora função f definida por

0, se x ∈ [0, 1/2],
f (x) =
1, se x ∈ (1/2, 1].
Z 1
Calcule |fn (x) − f (x)| dx e mostre que o limite dessa integral é zero quando n → ∞. Como f não é
0
contı́nua, isso indica que a seqüência de Cauchy {f n }n∈ não converge a uma função contı́nua e, portanto,

C0 ([0, 1]) não é um espaço métrico completo em relação à métrica d 1 . 6
Vamos agora mostrar o seguinte fato importante:

Proposição 13.6 Seja [a, b] com −∞ < a ≤ b < ∞ um intervalo fechado e seja C 0 ([a, b]) conjunto
das funções contı́nuas (reais ou complexas) definidas em [a, b]. Então C 0 ([a, b]) é completo em relação
à métrica d∞ (f, g) := sup |f (x) − g(x)|, f, g ∈ C0 ([a, b]). 2
x∈[a, b]
Prova. Seja fn uma seqüência de Cauchy em C0 ([a, b]). Então para todo > 0 existe um inteiro
positivo N () tal que supx∈[a, b] |fn (x) − fm (x)| < , sempre que m e n sejam maiores que N (). Isso
significa que para cada x ∈ [a, b] tem-se |fn (x) − fm (x)| < sempre que m e n sejam maiores que N ().
Assim, para cada x ∈ [a, b] fixo, a seqüência numérica fn (x) é uma seqüência de Cauchy. Como (ou
, conforme o caso) é completo, segue que cada seqüência fn (x) é convergente. Vamos denominar por
f (x) seu limite.
Claramente [a, b] 3 x 7→ f (x) é uma função (certo?). Essa função f é um forte candidato a ser
o limite da seqüência {fn }n∈ na métrica d∞ . Colocamo-nos, então, as seguintes questões: 1. Será a

função f também um elemento de C0 ([a, b]), ou seja, contı́nua? 2. Se a resposta à pergunta anterior for
positiva, será que a seqüência fm converge à função f na métrica d∞ ? Se a resposta a essas perguntas
for positiva, estará provado que C0 ([a, b]) é completo na métrica d∞ .
Precisamos agora mostrar que a seqüência {fm }m∈ aproxima essa função f na métrica d∞ .

Seja > 0 arbitrário. Vamos definir uma seqüência crescente de números inteiros e positivos N k (),
k = 1, 2, 3, . . . com Nk+1 () > Nk (), da seguinte forma: Nk () é tal que d∞ (fm , fn ) < /2k para
todos m, n > Nk (). Note que uma tal seqüência Nk () sempre pode ser encontrada pois, por hipótese,
fm é uma seqüência de Cauchy em d∞ . Vamos agora escolher uma seqüência crescente de ı́ndices
n1 < n2 < · · · < nk−1 < nk < · · · tais que nk > Nk (). A essa seqüência está associada a sub-seqüência
{fnk }k∈ . Note que, pela definição, tem-se

d∞ (fnl+1 , fnl ) < ,
2l
pois nl e nl+1 são maiores que Nl ().
Com essas definições, teremos que, para todo k > 1,
k−1
X
fnk (x) − fn1 (x) = fnl+1 (x) − fnl (x) .
l=1
(Justifique!). Logo,
k−1
X
|fnk (x) − fn1 (x)| ≤ |fnl+1 (x) − fnl (x)|
l=1
k−1
X k−1
X
≤ sup |fnl+1 (x) − fnl (x)| = d∞ (fnl+1 , fnl )
l=1 x∈[a, b] l=1
k−1
X
1 1
< = 1 − k−1 .
l=1
2l 2
Daqui, concluı́mos que para cada x ∈ [a, b],

|f (x) − fn1 (x)| = |f (x) − fnk (x) + fnk (x) − fn1 (x)|
≤ |f (x) − fnk (x)| + |fnk (x) − fn1 (x)|

1
< |f (x) − fnk (x)| + 1 − k−1 ,
2
ou seja,
1
|f (x) − fn1 (x)| < |f (x) − fnk (x)| + 1 −
.
2k−1
O lado esquerdo desta expressão independe de k. Tomando-se o limite k → ∞ e lembrando que a
seqüência numérica fnk (x) converge a f (x), concluı́mos que
|f (x) − fn1 (x)| ≤ .
Como isso vale para todo x, segue que
d∞ (f, fn1 ) = sup |f (x) − fn1 (x)| ≤ . (13.7)
x∈[a, b]
Vamos agora provar que a função f é contı́nua. Para tal, notemos que para quaisquer x, y ∈ [a, b],
|f (x) − f (y)| = |f (x) − fn1 (x) + fn1 (x) − fn1 (y) + fn1 (y) − f (y)|
≤ |f (x) − fn1 (x)| + |fn1 (x) − fn1 (y)| + |fn1 (y) − f (y)|
≤ sup |f (x) − fn1 (x)| + |fn1 (x) − fn1 (y)| + sup |fn1 (y) − f (y)|
x∈[a, b] y∈[a, b]
= 2d∞ (f, fn1 ) + |fn1 (x) − fn1 (y)|
≤ 2 + |fn1 (x) − fn1 (y)| .
Notemos agora que fn1 ∈ C0 ([a, b]) e é, portanto, uma função contı́nua. Logo, pela definição de
continuidade de funções, para x fixo, existe um número positivo δ tal que |fn1 (x) − fn1 (y)| < para
todo y tal que |y − x| < δ.
Assim, concluı́mos que para todo > 0 existe δ > 0 tal que para todo y tal que |y − x| < δ tem-se
|f (x) − f (y)| < 3. Isso nos diz precisamente que f é contı́nua, como querı́amos provar. Note que
(13.7) diz-nos que fn converge a f em relação à métrica d∞ .
• Conjuntos Densos em Espaços Métricos
Se M é um conjunto dotado de uma métrica d, dizemos que um conjunto S é d-denso em M (ou

simplesmente denso em M ) se todo x ∈ M puder ser aproximado por elementos de S no sentido da
métrica d, ou seja, se para todo x ∈ M e todo > 0 existir sempre pelo menos um elemento s ∈ S
(dependente de x e de ) tal que d(x, s) < .
• Espaços Métricos. O Completamento Canônico
Dado um conjunto X dotado de uma métrica d e que não seja completo em relação a esta métrica,
é muito importante, por vezes, identificar um conjunto X 0 , dotado de uma métrica d0 que possua as
a. X 0 contem X como subconjunto.
b. X é denso em X 0 em relação à métrica d0 .
c. d0 quando restrita a X é idêntica a d.
d. X 0 é completo em relação a d0 .
Em um tal caso, dizemos que o espaço métrico (X 0 , d0 ) é um completamento do espaço métrico (X, d).
Como exemplo, mencionamos que o conjunto dos números reais é um completamento do conjunto

dos números racionais, caso adotemos neste a métrica d(r, s) = |r − s|, r, s ∈ . A métrica d 0 em
seria também d0 (x, y) = |x − y|, x, y ∈ .

Dado um espaço métrico (X, d), que eventualmente não é completo em relação a uma métrica
d dada, podemos completá-lo usando um procedimento padrão devido a Cantor16 , conhecido como
completamento canônico de espaços métricos. Isso é o conteúdo do seguinte teorema:
Teorema 13.1 (Completamento canônico) Dado um conjunto X, dotado de uma métrica d, existe
um outro conjunto X, e e uma aplicação injetora E : X → X
e dotado de uma métrica d, e tais que:
e
1. d(E(x), E(y)) = d(x, y) para todo x, y ∈ X.
e
2. O conjunto E(X), a imagem de X por E, é um conjunto d-denso e
em X.
3. X e
e é completo em relação à métrica d. 2
Nota. Comentemos que E é uma bijeção entre X e E(X) (por ser injetora). Nesse sentido, podemos
também, com um pequeno abuso de linguagem, dizer que Xe é um completamento de X.
Na Seção 13.B ilustramos uma aplicação importante do Teorema 13.1 (mais precisamente, da de-
monstração do Teorema 13.1) ao delinearmos como podemos “construir” os números reais a partir dos
racionais. Em seguida, adotando métricas especiais no conjunto , mostraremos como construir um
conjunto especial de números, os chamados números p-ádicos.
Prova do Teorema 13.1. Consideremos o conjunto Cd (X) formado por todas as seqüências em X que
sejam de Cauchy em relação à métrica d. Vamos introduzir em Cd (X) a seguinte relação de equivalência:
para duas seqüências de Cauchy a = {an }n∈ e b = {bn }n∈ dizemos que a é equivalente a b, a ∼ b, se

e somente se lim d(an , bn ) = 0.

n→∞
E. 13.11 Exercı́cio. Prove que esta é, de fato, uma relação de equivalência. Sugestão: use a desigualdade
triangular. 6
A conjunto Cd (X) é, então, a união disjunta de suas classes de equivalência pela relação acima 17 .
Vamos denotar por X e o conjunto de todas essas classes de equivalência. Como usualmente se faz,
denotaremos por [x] a classe de equivalência de um elemento x ∈ Cd (X), ou seja, [x] é o conjunto de
todas as seqüências de Cauchy em X que são equivalentes à seqüência de Cauchy x.
Podemos fazer de X e um espaço métrico definindo uma métrica de : X
e ×X e → da seguinte forma:
e
d([x], [y]) = lim d(xn , yn ), (13.8)
n→∞

e
para duas seqüências de Cauchy x = {xi }i∈ e y = {yi }i∈ ∈ X.
A respeito da definição (13.8) há alguns pontos a comentar, o que faremos com os três exercı́cios
que seguem. O primeiro exercı́cio mostra que o limite no lado direito de (13.8) de fato existe e esclarece
por que é importante o uso de seqüências de Cauchy na construção, e não seqüências quaisquer. O
segundo exercı́cio esclarece que de é de fato uma função de classes de equivalência (independente dos
16
17
Para as noções de relação de equivalência e classes de equivalência, vide página 28.
representantes x e y tomados em [x] e [y], respectivamente). O terceiro exercı́cio estabelece que de é, de
fato, uma métrica.
E. 13.12 Exercı́cio. Mostre que o limite em (13.8) existe. Para tal, note que, pela desigualdade
triangular,
d(xi , yi ) ≤ d(xi , xj ) + d(xj , yj ) + d(yj , yi )
e, portanto,
|d(xi , yi ) − d(xj , yj )| ≤ d(xi , xj ) + d(yj , yi ).
Como x e y são seqüências de Cauchy o lado direito pode ser feito ≤ para qualquer > 0, desde que i e
j sejam feitos grandes o suficiente. Complete os detalhes faltantes. 6
E. 13.13 Exercı́cio. Mostre que se x0 ∈ Cd (X) e x0 ∈ [x] (ou seja x0 é uma seqüência de Cauchy
equivalente a x ∈ Cd (X)) então
lim d(x0n , yn ) = lim d(xn , yn ) (13.9)

n→∞ n→∞
para toda y ∈ Cd (X). Sugestão: Usando a desigualdade triangular, tem-se que
d(xn , yn ) ≤ d(xn , x0n ) + d(x0n , yn ) .
Prove daı́ que |d(xn , yn ) − d(x0n , yn )| ≤ d(xn , x0n ) e conclua (13.9) disso.
6
Esse exercı́cio estabelece que a definição (13.8) independe do particular elemento x de [x] adotado.
Analogamente, (13.8) independe do particular elemento y de [y] adotado e, portanto, de é legitimamente
uma função de classes de equivalência.
E. 13.14 Exercı́cio. Mostre que de é uma métrica em X. e Sugestão: positividade e simetria são evidentes.
e
É também fácil ver que d([x], [y]) = 0 se e somente se x ∼ y, o que implica [x] = [y]. Por fim, a desigualdade
e
triangular para d segue facilmente da desigualdade triangular para d. Complete os detalhes faltantes. 6
Vamos agora mostrar que X e é completo18 em relação a d. e Seja {[xa ], a ∈ }, uma seqüência de

Cauchy em X. e Cada elemento xa é, ele mesmo, uma seqüência de Cauchy em X: {xa , xa , xa , . . .}.
1 2 3
Como [xa ], a ∈ , é uma seqüência de Cauchy em X

e vale que, para todo > 0, existe A() ∈
e a ], [xb ]) < desde que a e b ≥ A(). Daı́ segue que, pela definição
suficientemente grande tal que d([x
de limite, existe I() ∈ tal que

d(xai , xbi ) < ,

desde que a e b ≥ A() e que i ≥ I(). Fora isso, como {xai }i∈ é uma seqüência de Cauchy para cada

a, existe para todo > 0 um Ja () tal que
d(xai , xaj ) < ,

18
Advertimos o estudante iniciante que a prova de completeza que segue é um tanto delicada e complexa e pode ser
dispensada em uma primeira leitura.
desde que i, j ≥ Ja ()

Defina-se então para n ∈
α(n) := A(1/n) e β(n) := max{I(1/n), Jα(n) (1/n)} .
α(n)
Defina-se também a seqüência x em X dada por xn = xβ(n) , n ∈ . Como

α(n) α(m) α(n) α(m) α(m) α(m)
d(xn , xm ) = d xβ(n) , xβ(m) ≤ d xβ(n) , xβ(n) + d xβ(n) , xβ(m) < 2/n < 20 ,
desde que m > n > 1/0 , segue que x é uma seqüência de Cauchy.
A classe de equivalência [x] é um candidato a ser o limite em X e da seqüência [xa ].
e (na métrica d)
Provemos que isso é de fato verdade. Temos que

e a ], [x]) = lim d xa , xα(n) .
d([x n β(n)
n→∞
Porém,
α(n) α(n)
d xan , xβ(n) ≤ d xan , xaβ(n) + d xaβ(n) , xβ(n) .

α(n)
Para > 0, escolhendo a ≥ A() e n > 1/, tem-se que d xβ(n) , xβ(n) < . Assim, como lim d xan , xaβ(n) =
a
n→∞
0 (pois xa é uma seqüência de Cauchy), segue que
e a ], [x]) < ,
d([x
e na métrica de e,
válido, como dissemos, tomando a ≥ A(). Isso diz-nos que [xa ] converge a [x] ∈ X
portanto, Xe é completo.
Para cada x ∈ X, podemos associar uma seqüência de Cauchy constante x
ei = x, ∀i ∈ . Seja
e
E : X → X definida por
X 3 x 7→ E(x) := [e e.
x] ∈ X
É fácil provar que E é injetora. De fato, se x, y ∈ X são tais que E(x) = E(y), então [e x] = [e
y] e
isso implica x e ∼ ye. Isso, por sua vez, significa que d(e
xi , yei ) = 0, Porém, x
ei = x e yei = y e, portanto,
provou-se que d(x, y) = 0, o que implica x = y, como querı́amos.
Há então uma bijeção E de X sobre o subconjunto E(X) := {E(x) ∈ X, e x ∈ X} ⊂ X. e Temos
também que
e
d(E(x), e x], [e
E(y)) = d([e xn , yen ) = lim d(x, y) = d(x, y) .
y ]) = lim d(e
n→∞ n→∞
Assim, aprendemos que a bijeção E preserva distâncias (é, portanto, o que se chama de uma isometria
entre X e E(X)).
Resta-nos mostrar que o conjunto E(X) é denso em X, e ou seja, qualquer elemento de Xe pode ser
e por elementos de E(X). Seja então [x] um elemento de X.
aproximado (no sentido da distância d) e
Como x é uma seqüência de Cauchy, vale que para cada > 0 tem-se
d(xi , xj ) < (13.10)

desde que i e j sejam maiores que um certo N (). Seja a seqüência de Cauchy constante igual ao
elemento xN ()+1 , ou seja, x^
N ()+1 . Teremos

e
d([x], N ()+1 ) = d([x], E(xN ()+1 )) = lim d(xn , x^
x^ e N ()+1 n ) = lim d(xn , xN ()+1 )
n→∞ n→∞
Agora, por (13.10),

lim d(xn , xN ()+1 ) <
n→∞
e
Logo, d([x], e pode
E(xN ()+1 )) < para todo > 0, o que precisamente afirma que qualquer [x] ∈ X
ser arbitrariamente aproximado no sentido da métrica de por elementos de E(X). Isso completa a
demonstração do Teorema 13.1.
13.2 Topologia de Espaços Métricos
• Conjuntos Abertos em Espaços Métricos
Um espaço métrico possui, naturalmente, muitos subconjuntos. Há, porém, uma classe de subcon-
juntos que tem uma importância destacada, os chamados conjuntos abertos.
Seja X um espaço métrico com uma métrica d. Um subconjunto A de X é dito ser aberto (em
relação à métrica d) se tiver a seguinte propriedade: Para todo x ∈ A podemos achar um número
real δ(x) > 0 (eventualmente dependente de x) tal que para todo x0 ∈ X com a propriedade que
d(x, x0 ) < δ(x) (ou seja, que dista de x menos que δ(x)) vale que x0 também é um elemento de A.
E. 13.15 Exercı́cio. Mostre explicitamente que, para a, b ∈ com a < b, o conjunto (a, b) = {x ∈

| a < x < b} é um conjunto aberto em relação à métrica d(x, y) = |x − y|. 6
E. 13.16 Exercı́cio. Mostre explicitamente que, para a, b ∈ com a < b, o conjunto [a, b) = {x ∈

| a ≤ x < b} não é um conjunto aberto em relação à métrica d(x, y) = |x − y|. 6
E. 13.17 Exercı́cio. Mostre explicitamente que, para r > 0 a bola de raio r em 3 centrada na origem

em relação à métrica Euclidiana, Br = {x ∈ 3 | dE (x, 0) < r}, é um conjunto aberto na topologia definida

por essa métrica. 6
Seja I um conjunto arbitrário de ı́ndices e {Aλ , λ ∈ I} uma coleção de subconjuntos abertos de

um espaço métrico X. Os dois exercı́cios seguintes são muito importantes.
[
E. 13.18 Exercı́cio. Mostre que Aλ é também um conjunto aberto em X. 6
λ∈I
E. 13.19 Exercı́cio. Mostre que se A e B são abertos em X então A ∩ B também o é. 6

As afirmativas contidas nesses dois últimos exercı́cios são importantes pois inspiram a definição de
um outro conceito muito importante: o de espaço topológico. Espaços topológicos serão estudados com
mais detalhe e generalidade no Capı́tulo 15, página 812.
E. 13.20 Exercı́cio. Seja X é um conjunto não-vazio. Mostre que a expressão

0, se x = y ,
d(x, y) =
1, se x 6= y ,
com x, y ∈ X, define uma métrica em X, denominada métrica trivial.

Mostre que todo subconjunto de X é aberto em relação a essa métrica. 6
• Bolas Abertas em Espaços Métricos
Seja X um espaço métrico com uma métrica d e seja x ∈ X. Define-se a bola aberta de raio r > 0
centrada em x como sendo o conjunto
B(x, r) = {y ∈ X, tal que d(x, y) < r}.
Bolas abertas desempenham um papel importante no estudo de espaços métricos.
E. 13.21 Exercı́cio. Prove que toda bola aberta em um espaço métrico é um conjunto aberto na
topologia métrica desse espaço. 6
Ao contrário do que o nome sugere, bolas abertas em espaços métricos não têm necessariamente
um formato “redondo”. Para ver isso, faça os exercı́cios abaixo.
2
E. 13.22 Exercı́cio. Seja o conjunto com a métrica d∞ definida acima:
d∞ (x, y) = max{|x1 − y1 |, |x2 − y2 |},
onde x = (x1 , x2 ) e y = (y1 , y2 ). Desenhe a bola de raio 1 centrada em torno do ponto (0, 0). 6
2
E. 13.23 Exercı́cio. Seja o conjunto com a métrica d1 definida acima:
d1 (x, y) = |x1 − y1 | + |x2 − y2 |,
onde x = (x1 , x2 ) e y = (y1 , y2 ). Desenhe a bola de raio 1 centrada em torno do ponto (0, 0). 6
2
E. 13.24 Exercı́cio. Seja o conjunto com a métrica dp definida acima com p > 1:
dp (x, y) = (|x1 − y1 |p + |x2 − y2 |p )1/p ,
onde x = (x1 , x2 ) e y = (y1 , y2 ). Desenhe a bola de raio 1 centrada em torno do ponto (0, 0). Considere
os casos 1 2. 6
• Métricas equivalentes. Métricas que geram a mesma topologia
Seja M um conjunto e sejam d1 e d2 duas métricas em M . As métricas d1 e d2 são ditas equivalentes,

em sı́mbolos d1 ∼ d2 , se existirem dois números c1 e c2 com 0 < c1 ≤ c2 tais que para todos x, y ∈ M
valha
c1 d1 (x, y) ≤ d2 (x, y) ≤ c2 d1 (x, y) .
E. 13.25 Exercı́cio. Mostre que a relação d1 ∼ d2 define uma relação de equivalência no conjunto de
todas as métricas em M . 6
E. 13.26 Exercı́cio. Sejam d1 e d2 duas métricas equivalentes em M . Mostre, que todo conjunto
d1 -aberto de M é d2 -aberto e vice-versa. Isso significa que se d1 e d2 são equivalentes, ambas geram a
mesma topologia. 6
Os exercı́cios que seguem mostram que a recı́proca não é geralmente verdadeira: métricas que geram
a mesma topologia não são necessariamente equivalentes (no sentido da definição acima).
E. 13.27 Exercı́cio. Seja M um espaço métrico com uma métrica d(x, y), x, y ∈ M . Prove que
d(x, y)
d0 (x, y) :=
1 + d(x, y)
também define uma métrica em M . Sugestão: para demonstrar a desigualdade triangular será útil provar
antes que a função
x
l(x) =
1+x
é crescente na região x ≥ 0. Outra sugestão: dê uma olhada na página 747. 6
E. 13.28 Exercı́cio. Mostre que as métricas d e d0 do exercı́cio E. 13.27 só são equivalentes (no sentido
da definição acima) se d for limitada, ou seja, se existir D > 0 tal que d(x, y) ≤ D para todos x, y ∈ M .
Sugestão: tem-se que l(x) ≤ x para todo x ≥ 0, mas mostre que não existe nenhuma constante c > 0 tal
que cx ≤ l(x) para todo x ≥ 0. Todavia, uma tal constante pode ser achada se nos limitarmos a x ∈ [0, D].
6
E. 13.29 Exercı́cio. Mostre que, mesmo não sendo equivalentes, as métricas d e d 0 do exercı́cio E.
13.27 definem a mesma topologia, ou seja, que todo conjunto d-aberto de M é d 0 -aberto e vice-versa. 6
• Completeza de Espaços Métricos e sua Topologia
Vamos neste ponto retornar à nossa discussão sobre a topologia de espaços métricos e discutir sua
relação com a noção de completeza. A verdade é que os dois conceitos não são totalmente relacionados.
O fato de um espaço métrico ser completo não é diretamente relacionado à topologia adotada mas sim
à métrica usada.
Para ver isso trataremos de exibir um exemplo de um espaço M dotado de duas métricas que
geram as mesmas topologias, sendo M completo em relação à primeira métrica mas não em relação à
segunda métrica. No exemplo19 em questão

M = {x ∈ , x ≥ 1}. Em M adotaremos duas métricas:
1 1
d1 (x, y) = |y − x| e d2 (x, y) = − .
y x
E. 13.30 Exercı́cio. Mostre que d2 é de fato uma métrica em M . 6
O fato é que d1 e d2 geram a mesma topologia em M . Para ver isso notemos que d2 (x, y) =
d1 (x, y)/(xy) ≤ d1 (x, y) e, portanto, para todo x ∈ M e todo r > 0 vale Bd1 (x, r) ⊂ Bd2 (x, r). Se A
é aberto em τd2 (a topologia associada à métrica d2 ), então para todo x ∈ A há uma bola Bd2 (x, r(x, A))
inteiramente contida em A e, pelo que acabamos de ver, há também uma bola Bd1 (x, r(x, A)) inteira-
mente contida em A. Daqui se conclui que todo aberto de τd2 é também aberto de τd1 . Logo τd2 ⊂ τd1 .
Igualmente é claro que para todo y da bola aberta Bd1 (x, r) de τd1 podemos achar um r 0 suficiente-
mente pequeno tal que Bd2 (y, r 0 ) ⊂ Bd1 (x, r) (como?). Como as bolas abertas Bd1 geram τd1 isso
implica τd1 ⊂ τd2 , provando a igualdade das duas topologias.
O fato que queremos ressaltar é que M é completo em relação a d1 mas não em relação a d2 . Que
M é completo em relação a d1 pode ser provado diretamente ou pelo seguinte argumento topológico:
M é completo em relação a d1 pois M é um subconjunto fechado de na topologia usual τ , induzida

por d1 (vide discussão à página 835 e, em particular a Proposição 15.7, página 835).
Para ver que M não é completo em relação a d2 observe que a seqüência an = n, n ∈ , é de Cauchy

em relação a d2 mas não há nenhum elemento em M ao qual ela converge. Assim, M é completo em
relação a d1 mas não em relação a d2 , embora ambas as métricas gerem a mesma topologia.
As considerações acima dizem-nos que completeza não é uma noção de natureza topológica.
Nota. Não se pode argumentar, como fizemos com a métrica d1 , que M é completo em d2 por ser um
subconjunto fechado de na topologia induzida em por d2 , pois tal topologia não existe! d2 é uma

métrica em M , mas não em , ao contrário do que ocorre com d1 . Poder-se-ia, então, argumentar

que d2 é uma métrica em X = (0, ∞) (de fato é, verifique!) e que M é um subconjunto fechado de
X = (0, ∞) nessa topologia (de fato é, verifique!). Sucede, porém, que X = (0, ∞) não é completo em
relação a d2 , pelo mesmo exemplo de acima, e isso viola uma das condições da Proposição 15.7, página
835.
13.3 Pseudo-Métricas
Seja M um conjunto não-vazio. Uma função d : M × M → que satisfaz
1. Positividade: para todos x, y ∈ M vale d(x, y) ≥ 0.
2. Simetria: para todos x, y ∈ M vale d(x, y) = d(y, x).
3. Desigualdade triangular: para todos x, y, z ∈ M vale d(x, y) ≤ d(x, z) + d(z, y).
4. Para todo x ∈ M vale d(x, x) = 0.

19
Extraı́do de [17].
é dita ser uma pseudo-métrica em M .

Como já provamos à página 729, a condição de positividade segue da desigualdade triangular e da
condição de simetria.
O seguinte fato é evidente: toda métrica é uma pseudo-métrica e uma pseudo-métrica d é uma
métrica somente se d(x, y) = 0 implicar x = y. Assim, em uma pseudo-métrica pode haver pontos
distintos x e y tais que d(x, y) = 0.
Passemos agora a discutir uma outra propriedade de pseudo-métricas de particular importância na
teoria dos chamados espaços localmente convexos. Seja d : M × M → uma pseudo-métrica. Então

f : M × M → definida por

d(a, b)
f (a, b) =
1 + d(a, b)
é também uma pseudo-métrica.
Em primeiro lugar, é claro que f (a, a) = 0 para todo a ∈ M . Como a simetria de f é também óbvia,
precisamos apenas mostrar que f satisfaz a desigualdade triangular. Para demonstrar isso, notemos
em primeiro lugar que a função
x
l(x) =
1+x
é crescente para x ≥ 0. De fato, se y > x ≥ 0, então
y−x
l(y) − l(x) = > 0.
(1 + y)(1 + x)
Assim, como pela desigualdade triangular para d vale que d(a, b) ≤ d(a, c) + d(c, b), teremos
d(a, b)
f (a, b) =
1 + d(a, b)
d(a, c) + d(c, b)
≤ .
1 + d(a, c) + d(c, b)
d(a, c) d(c, b)
= +
1 + d(a, c) + d(c, b) 1 + d(a, c) + d(c, b)
d(a, c) d(c, b)
≤ +
1 + d(a, c) 1 + d(c, b)
= f (a, c) + f (c, b), (13.11)
provando a desigualdade triangular para f . Acima, na passagem da terceira para a quarta linha usamos
os fatos óbvios que
1 + d(a, c) + d(c, b) ≥ 1 + d(a, c) e 1 + d(a, c) + d(c, b) ≥ 1 + d(c, b),
pois d é positiva.
Uma conseqüência disso é que se d é uma métrica então f também o é.
• Famı́lias de Pseudo-Métricas
Em muitas situações são definidas em um conjunto M não uma mas toda uma famı́lia de pseudo-
métricas: D = {dα , α ∈ Λ}, Λ sendo um conjunto arbitrário não-vazio de ı́ndices, onde todas as dα
são pseudo-métricas.
Diz-se que uma famı́lia de pseudo-métricas: D = {dα , α ∈ Λ} separa pontos se para quaisquer dois
pontos distintos x, y ∈ M existir um α0 ∈ Λ tal que dα0 (x, y) 6= 0.
Tem-se a seguinte proposição, que mostra que a toda famı́lia contável de pseudo-métricas que separa
pontos vem naturalmente associada uma métrica:
Proposição 13.7 Seja M um conjunto e seja D = {dn , n ∈ } uma famı́lia contável de pseudo-

métricas em M que separa pontos. Então D : M × M → definida por
X∞
1 dn (x, y)
D(x, y) =
n=1
2n 1 + dn (x, y)
é uma métrica em M . 2
Prova. Em primeiro lugar notemos que a soma infinita do lado direito é bem definida pois
dn (x, y)
0 ≤ ≤ 1
1 + dn (x, y)
e o fator 2−n garante a convergência. Que D é uma pseudo-métrica é evidente pelo fato que cada termo
dn (x, y)/(1 + dn (x, y)) o é, como vimos acima. Resta mostrar que D(x, y) = 0 implica x = y. Como
a soma contem apenas termos positivos, D(x, y) = 0 só é possı́vel se dn (x, y) = 0 para todo n ∈ .
Como D separa pontos, se tivéssemos x 6= y haveria pelo menos um m para o qual dm (x, y) 6= 0. Como
tal não é o caso, tem-se forçosamente x = y.
13.4 Espaços de Banach e de Hilbert

Nesta seção suporemos que o leitor está familiarizado com os conceitos de produto escalar e norma em
espaços vetoriais, conceitos esses introduzidos na Seção 2.2.3, página 116, e, respectivamente, na Seção
2.3, página 120 (vide, em particular, página 116). Por simplicidade, trataremos também apenas de
espaços vetoriais sob o corpo dos complexos.
• Espaços de Banach
Se E é um espaço vetorial dotado de uma norma k · kE , podemos definir uma métrica em E através
da seguinte expressão: para u, v ∈ E,
dE (u, v) = ku − vkE .
Essa métrica é dita ser a métrica induzida pela norma k · kE .
E. 13.32 Exercı́cio. Prove que essa expressão de fato satisfaz as propriedades definidoras de métrica.
Sugestão: para demonstrar a desigualdade triangular, use a propriedade de norma ka + bk ≤ kak + kbk para
provar que ku − vkE = ku − w + w − vkE ≤ ku − wkE + kw − vkE para todos u, v, w ∈ E. 6
Como vimos, se E é um espaço vetorial normado, então é também um espaço métrico com a métrica
induzida pela norma, definida acima. Com isso em mente, introduzimos então a seguinte importante
definição:
Definição. Espaços de Banach. Um espaço vetorial B é dito ser um espaço de Banach 20 em relação
a uma norma nele definida se for um espaço métrico completo em relação à métrica induzida por essa
norma.
• Espaços de Hilbert
Seja E é um espaço vetorial dotado de um produto escalar h·, ·iE . Como discutimos à página
p 122 e
seguintes, podemos com o uso desse produto escalar definir uma norma em E por kukE := hu, uiE .
Essa norma é dita ser a norma induzida pelo produto escalar h·, ·iE . Caı́mos, assim, no caso de acima,
pois, sendo E um espaço vetorial normado, podemos definir uma métrica em E através da seguinte
expressão: para u, v ∈ E,
q
dE (u, v) = ku − vkE = h(u − v), (u − v)iE .
Essa métrica é dita ser a métrica induzida pelo produto escalar h·, ·i E .
Assim, se E é um espaço vetorial dotado de um produto escalar, então é também um espaço métrico
com a métrica induzida pelo produto escalar definida acima. Com isso em mente, introduzimos então
a seguinte importante definição:
Definição. Espaços de Hilbert. Um espaço vetorial H é dito ser um espaço de Hilbert 21 em relação
a um produto escalar nele definido se for um espaço métrico completo em relação à métrica induzida
por esse produto escalar.
Nota histórica. A noção abstrata de Espaço de Hilbert foi introduzida por Schmidt 22 , por volta de 1905,
inspirado em idéias de Hilbert sobre equações integrais, notadamente sobre a equação de Fredholm 23 ,
discutida no Capı́tulo 9. A noção abstrata de Espaço de Banach é posterior, tendo sido introduzida
por Banach em 1920. O termo “espaço de Banach” foi cunhado por Fréchet24 .
O estudante deve notar que todo espaço de Hilbert é naturalmente um espaço de Banach. A
recı́proca não é necessariamente verdadeira, pois um espaço de Banach não é necessariamente dotado
20
Stefan Banach (1892-1945).
21
David Hilbert (1862-1943).
22
Erhard Schmidt (1876-1959). Schmidt é conhecido por várias contribuições, como o Teorema de Hilbert-Schmidt
sobre operadores compactos e, mais popularmente, pelo método de ortogonalização de Gram-Schmidt (Jørgen Pedersen
Gram (1850-1916)).
23
Erik Ivar Fredholm (1866-1927).
24
Maurice Renés Fréchet (1878-1973).
de um produto escalar. Para tal é necessário (e suficiente) que a norma satisfaça a identidade do
paralelogramo. Vide página 124 e seguintes.
Também ressaltamos ao estudante que não apenas a existência de um produto escalar é importante
na definição de um espaço de Hilbert, mas também a propriedade de completeza, a qual é fundamental
para a demonstração de várias propriedades importantes dos espaços de Hilbert.
Exemplos 13.13.1 Os espaços vetoriais de dimensão finita n são espaços de Banach em relação
à norma kxkp := [|x1 |p + · · · + |xn |p ]1/p para todo p ≥ 1. O caso p = 2 é importante. n
é um
espaço de Hilbert em relação ao produto escalar hx, yi := x1 y1 + · · · xn yn O mesmo vale para os

espaços vetoriais reais n . Esses fatos serão provados logo adiante quando considerarmos os espaços

de seqüências tipo `p , p ≥ 1, os quais, como veremos, são exemplos de espaços de Banach (de dimensão
infinita). O espaço `2 é um espaço de Hilbert. Outro exemplo importante de espaço de Banach é o
espaço vetorial C0 ([0, 1]). Provamos na Proposição 13.6, página 737, que C0 ([0, 1]) é completo na
norma kf k∞ := supx∈[0, 1] |f (x)|. Portanto, C0 ([0, 1]) é um espaço de Banach em relação a essa norma.
Espaços de Hilbert têm uma importância fundamental na Mecânica Quântica e na Teoria Quântica
de Campos. Na Matemática, espaços de Banach e de Hilbert são também fundamentais em áreas como
a teorias das equações diferenciais parciais (e outras). O estudo de espaços de Hilbert e de Banach, e
de operadores lineares agindo nos mesmos, é uma área da Matemática denominada Análise Funcional.
Nestas Notas, estudaremos com mais detalhe as propriedades gerais de espaços de Hilbert no
Capı́tulo 22. No restante desta seção apresentaremos exemplos de espaços de Hilbert e de Banach
estudando espaços de seqüências.
13.4.1 Espaços de Seqüências

Vamos denotar por S( ) (por S( )) a coleção de todas as seqüências de números complexos (reais).

Um fato simples, mas importante de se comentar, é que S( ) é um espaço vetorial complexo (e,
respectivamente, S( ) é um espaço vetorial real). De fato, se a e b são duas seqüências de números

complexos podemos, para quaisquer α, β ∈ definir αa + βb como sendo a seqüência (αa + βb) n :=
αan + βbn , n ∈ . (Para S( ), o caso é análogo).

Por simplicidade, iremos daqui para frente discutir apenas o espaço S( ), das seqüências complexas,
mas tudo o que falaremos tem seu análogo para o espaço S( ).
O espaço vetorial S( ) possui vários sub-espaços, alguns de interesse especial, como os espaços ` p ,
com p ≥ 1, e o espaço `∞ , os quais serão definidos mais adiante. O seguinte exercı́cio exibe um dos
sub-espaços de S( ).
E. 13.33 Exercı́cio. Denotemos por c( ), ou simplesmente c, a coleção de todas as seqüências de

Cauchy de números complexos com relação à métrica usual d(z, w) = |w − z|, ∀z, w ∈ . Mostre
que c( ) é um sub-espaço de S( ), ou seja, mostre que se {an }n∈ e {bn }n∈ são duas seqüências de

Cauchy de números complexos, então para quaisquer α, β ∈ a seqüência {αa n + βbn }n∈ é também
uma seqüência de Cauchy de números complexos. 6

Outros exemplos de conjuntos de seqüências são os seguintes25 :

`∞ :=

{an }n∈ ∈ S( ) sup |an | < ∞ .
n∈
( )

c := {an }n∈ ∈ S( ) an converge na métrica usual .

( )

c0 := {an }n∈ ∈ S( ) lim |an | = 0 .

n→∞
( )
∞
X

`p := {an }n∈ ∈ S( ) |an |p < ∞ .

n=1
( )

s := {an }n∈ ∈ S( ) lim nk |an | = 0 para todo k > 0 .

n→∞
( )

j := {an }n∈ ∈ S( ) lim exp(rn)|an | = 0 para todo r > 0 .
n→∞

( )

d := {an }n∈ ∈ S( ) an = 0, exceto para um conjunto finito de n’s .

Acima, c coincide com a coleção de todas as seqüências de Cauchy de complexos com relação à métrica
usual d(z, w) = |w − z|, ∀z, w ∈ pois é completo nessa métrica. Note que c0 ⊂ c. (Por quê?).
Em um exercı́cio à página 752, discutiremos as relações de pertinência entre os conjuntos de seqüências
acima e provaremos que d ⊂ j ⊂ s ⊂ `p ⊂ c0 ⊂ c ⊂ `∞ .
E. 13.34 Exercı́cio. Prove que os conjuntos d, j, s, c0 , c e `∞ são espaços vetoriais. 6
Mais adiante provaremos que os conjuntos `p também são espaços vetoriais. As provas para 0 0, pertence a s. 6
n
• Seqüências `∞ e `p
`∞ é o subconjunto de S( ) definido por

`∞ := {an }n∈ ∈ S( )
sup |an | < ∞ .
n∈
25
A ordenação dessa lista de exemplos é inspirada em [99].
Em palavras, `∞ é o conjunto formado por todas seqüências limitadas, ou seja, uma seqüência {a n }n∈
é do tipo `∞ se existir algum M ≥ 0 tal que, para todo n, tem-se |an | < M .
Note que as seqüências limitadas não são de Cauchy, mas toda a seqüência de Cauchy é limitada
(por que?). Assim, c( ) ⊂ `∞ .
Exemplo 13.2 As seqüências an = α, an = α/n2 , an = β + α/n an = β + αe−n , an = α(−1)n ,
an = α sen (nβ), ∀n ∈ , n ≥ 1 são, para todo α, β ∈ , elementos de `∞ . As seqüências an = α(−1)n

e an = α sen (nβ) não são de Cauchy. ◊
E. 13.36 Exercı́cio importante. Mostre que se {an }n∈ e {bn }n∈ são duas seqüências do tipo `∞

então, para quaisquer α β ∈ a seqüência {αan + βbn }n∈ é também do tipo `∞ .

6
Esse exercı́cio diz-nos que `∞ não é apenas um subconjunto, mas também um sub-espaço vetorial de
S( ). Mais adiante, mostraremos que `∞ é um espaço de Banach em relação a uma norma conveniente,
a saber, a norma definida no próximo exercı́cio.
E. 13.37 Exercı́cio importante. Seja a ≡ {an }n∈ ∈ `∞ . Mostre que

kak∞ := sup |an |

n∈
define uma norma em `∞ . 6
Outra famı́lia importante de sub-conjuntos de S( ) é formada pelas chamadas seqüências ` p , com

p ∈ , p > 0:

( )
X ∞

`p := {an }n∈ ∈ S( ) |an |p < ∞ .

n=1
1
E. 13.38 Exercı́cio. Seja p > 0. Mostre que para δ > 0 a seqüência a n = , n = 1, 2, 3, . . ., é do
1
+δ
n p
1
tipo `p . O que acontece se δ = 0? Mostre que an = , n = 1, 2, 3, . . ., é do tipo `p para todo p > 1 mas
n
não é do tipo `1 . Mostre que a seqüência an = exp(−n), n = 1, 2, 3, . . ., pertence a todos os espaços `p
com p > 0. 6
P
Pela definição, se {an }n∈ é uma seqüência de tipo `p , então a série ∞

p
n=1 |an | é convergente. Isso
só é possı́vel se limn→∞ |an | = 0. Isso, por sua vez, significa que para todo n grande o suficiente,
0
digamos, maior que um certo N0 ∈ , tem-se |an | ≤ 1. Se p0 ≥ p segue então que |an |p ≤ |an |p para

todo n > N0 .
E. 13.39 Exercı́cio. Use esses fatos para concluir que
` p ⊂ ` p0
para todos p, p0 com 0 < p ≤ p0 . 6

E. 13.40 Exercı́cio. Conclua também que
d ⊂ j ⊂ s ⊂ ` p ⊂ ` p0 ⊂ c 0 ⊂ c ⊂ ` ∞ ,
para todos p, p0 com 0 < p ≤ p0 . 6
E. 13.41 Exercı́cio. Dê exemplos de elementos de `∞ que não pertencem a nenhum dos demais conjuntos
acima. 6
E. 13.42 Exercı́cio. Dê exemplos de elementos de c0 que não pertencem a nenhum `p com p > 0.
X∞
1 1
Sugestão: considere a seqüência an = com n = 2, 3, 4, . . .. Mostre que = ∞ para
ln(n) (ln(n))p
Z ∞ Z ∞ u n=2
1 e
todo p > 0. Para isso, use o fato (e prove-o!) que p
dx = p
du = ∞ para todo b > 1 e
b (ln(x)) ln(b) u
p∈ . 6
Vamos agora estabelecer um fato importante sobre os conjuntos de seqüências: combinações lineares
de seqüências `p são também seqüências `p .
• A estrutura linear dos conjuntos `p
Proposição 13.8 Os conjuntos `p , com p > 0, são espaços vetoriais complexos. 2
A prova faz uso da Proposição 13.9, página 765, do Apêndice 13.A.
Prova. Há dois casos a considerar em separado: 0 < p < 1 e p ≥ 1.

Caso 0 < p < 1. Sejam a, b ∈ . Como |a + b| ≤ |a| + |b|, a segunda desigualdade em (13.A.2)
implica
|a + b|p ≤ (|a| + |b|)p ≤ |a|p + |b|p .
Assim, se an e bn são duas seqüências do tipo `p com 0 < p < 1, teremos
∞
X ∞
X ∞
X
p p p p
|αan + βbn | ≤ |α| |an | + |β| |bn |p < ∞
n=1 n=1 n=1
para quaisquer α, β ∈ . Isso provou que a seqüência αan + βbn também é uma seqüência do tipo `p
com 0 < p < 1. Assim, `p com 0 < p < 1 é um espaço vetorial complexo.
Caso p ≥ 1. Sejam a, b ∈ . Como |a + b| ≤ |a| + |b|, a segunda desigualdade em (13.A.2) implica
|a + b|p ≤ (|a| + |b|)p ≤ 2p−1 (|a|p + |b|p ) .
Assim, se an e bn são duas seqüências do tipo `p com p ≥ 1, teremos

∞
X ∞
X ∞
X
p p−1 p p p−1 p
|αan + βbn | ≤ 2 |α| |an | + 2 |β| |bn |p < ∞
n=1 n=1 n=1
para quaisquer α, β ∈ . Isso provou que a seqüência αan + βbn também é uma seqüência do tipo `p
com p ≥ 1. Isso é o que querı́amos provar.
Mais adiante demonstraremos o seguinte fato muito importante: para todo p ≥ 1 os conjuntos ` p
não são meramente espaços vetoriais, mas também espaços vetoriais normados, com a norma
"∞ # p1
X
kakp := |an |p , (13.12)
n=1
para a ≡ {an }n∈ ∈ `p , p ≥ 1. Que essa expressão de fato define uma norma em `p , p ≥ 1, não é nada

óbvio e será provado mais adiante. Mais que isso, cada espaço `p , p ≥ 1, é um espaço de Banach em
relação à norma acima.
Veremos também que `2 é um espaço de Hilbert com produto escalar
∞
X
ha, bi := a n bn ,
n=1
onde a ≡ {an }n∈ , b ≡ {bn }n∈ ∈ `2 .

Para p < 1 a situação é diferente. Nesse caso, os conjuntos `p ainda são espaços vetoriais, mas
para p < 1 a expressão (13.12) não representa uma norma. Esse fato reduz um tanto o interesse nesses
espaços.
• As desigualdades de Hölder e Minkowski para seqüências
Vamos aqui enunciar e demonstrar em um caso particular duas desigualdades importantes que
tornaremos a encontrar quando tratarmos da teoria da integração e de espaços de Banach, as quais são
conhecidas como desigualdades de Hölder26 e de Minkowski27 .
Teorema 13.2 Desigualdades de Hölder e de Minkowski para seqüências
I. Desigualdade de Hölder.
Sejam x = {xi }i∈ ∈ `p e y = {yi }i∈ ∈ `q com 0 0 definido

1 1 1
por + = . Então, vale
p q r
∞
!1/r ∞
!1/p ∞ !1/q
X X X
|xi |r |yi |r ≤ |xi |p |yi |q . (13.13)
i=1 i=1 i=1
Para todo p > 0 (incluindo p = 1) e para todos x = {xi }i∈ ∈ `p e y = {yi }i∈ ∈ `∞ vale

"∞ #1/p ∞
!1/p
X X
p p p
|xi | |yi | ≤ |xi | sup |yi | . (13.14)
i∈
i=1 i=1

26
Otto L. Hölder (1859-1937).
27
Hermann Minkowski (1864-1909). O nome de Minkowski surge também na Teoria da Relatividade.
II. Desigualdade de Minkowski.

Sejam x = {xi }i∈ e y = {yi }i∈ , ambas do tipo `p com p ≥ 1. Então, vale

∞
!1/p ∞
!1/p ∞
!1/p
X X X
|xi + yi |p ≤ |xi |p + |yi |p . (13.15)
i=1 i=1 i=1
As desigualdades de Hölder e Minkowski serão demonstradas nas páginas seguintes. Vamos antes a
alguns comentários.
O caso particular mais relevante da desigualdade de Hölder acima se da para 1 < p < ∞ e 1 < q < ∞
1 1
com + = 1. Nesse caso, a desigualdade de Hölder afirma que
p q
∞ ∞
!1/p ∞ !1/q
X X X
|xi | |yi | ≤ |xi |p |yi |q . (13.16)
i=1 i=1 i=1
Um fato importante que extraı́mos da desigualdade de Minkowski é o seguinte: se as seqüências

{xi }i∈ e {yi }i∈ são ambas do tipo `p , p ≥ 1, então a seqüência {xi + yi }i∈ também o é (pois o lado

direito de (13.15) é finito). Fora isso, é claro também que se {xi }i∈ é do tipo `p então a seqüência

{αxi }i∈ também é do tipo `p para qualquer α ∈ . Esses dois fatos juntos dizem-nos que as seqüências

do tipo `p , p ≥ 1, formam um espaço vetorial sobre os complexos. Por isso passaremos a chamar a
coleção de todas as seqüências do tipo `p , p ≥ 1, de espaço `p , sempre entendido como um espaço
vetorial sobre os complexos.
Mais ainda, a desigualdade de Minkowski afirma que
∞
!1/p
X
kxkp := |xi |p
i=1
é uma norma nos espaços `p , p ≥ 1, pois afirma que

kx + ykp ≤ kxkp + kykp , ∀x, y ∈ `p ,
as demais condições que definem norma sendo elementares de se provar. Mostraremos logo adiante
(página 761) que os espaços `p , p ≥ 1, são exemplos de espaços de Banach em relação às normas acima
e que o espaço `2 é, em particular, um espaço de Hilbert.
Com essa definição de norma, podemos reescrever a desigualdade de Hölder (13.13) na forma
kxykr ≤ kxkp kykq ,
onde xy é a seqüência produto (xy)i := xi yi , i ∈
. Note que a desigualdade de Hölder (13.13) afirma

1 1 1
que se x ∈ `p e y ∈ `q então xy ∈ `r com 0 0, incluindo p = 1. Concluı́mos analogamente que se x ∈ `p e

y ∈ `∞ então xy ∈ `p , p > 0.
• A Desigualdade de Hölder. Demonstração
Vamos agora então provar a desigualdade de Hölder (13.13). Para começar, notemos que a desigual-
dade de Hölder (13.13) para r > 0 é conseqüência do caso particular r = 1. De fato, sejam {x i }i∈ ∈ `p
e {yi }i∈ ∈ `q com

1 1 1
+ = ,
p q r
sendo 0 < p < ∞ e 0 < q < ∞. Definindo novas seqüências {ai }i∈ e {bi }i∈ tais que |ai | = |xi |r e
|bi | = |yi |r e definindo p0 = p/r e q 0 = q/r, teremos

∞
X ∞
X ∞
X ∞
X
p0 p q0
|ai | = |xi | < ∞, e |bi | = |yi |q < ∞
i=1 i=1 i=1 i=1
o que prova que {ai }i∈ ∈ `p0 e {bi }i∈ ∈ `q0 . Como

1 1
0
+ 0 = 1,
p q
então, supondo válida a desigualdade de Hölder (13.13) no caso r = 1, teremos
∞
!1/r "∞ #1/r
X X
|xi |r |yi |r = |ai ||bi |
i=1 i=1
 !1/p0 !1/q0 1/r

∞
X ∞
X
(13.13) com r=1 0 0
≤  |ai |p |bi |q 
i=1 i=1
 !r/p !r/q 1/r

∞
X ∞
X
=  |xi |p |yi |q 
i=1 i=1
∞
!1/p ∞
!1/q
X X
= |xi |p |yi |q
i=1 i=1
que é a desigualdade de Hölder (13.13) no caso geral r > 0. Por causa disso, basta demonstrarmos
(13.13) para o caso r = 1, que é o que faremos.
Nossa estratégia será provar primeiro a desigualdade de Hölder (13.13), com r = 1, para seqüências
finitas e depois generalizar para seqüências infinitas.
Sejam x1 , . . . , xn e y1 , . . . , yn duas seqüências finitas arbitrárias de números complexos (n ∈ ). A
desigualdade de Hölder afirma que
n n
!1/p n
!1/q
X X X
|xi ||yi | ≤ |xi |p |yi |q ,
i=1 i=1 i=1
1 1
para quaisquer p, q com 1 < p < ∞ e 1 < q < ∞ e tais que + = 1. Vamos a isso. Em primeiro
p q
lugar, note que a desigualdade é trivialmente verdadeira caso todos os xi ou todos os yi sejam nulos,
pois nesse caso tanto o lado direito quanto o lado esquerdo da desigualdade são iguais a zero.
Vamos então considerar o caso em que os xi e os yi não são todos identicamente nulos. Seja, para
um j fixo
|xj |p |yj |q
a = n e b = n .
X X
p q
|xi | |yi |
i=1 i=1
Usando a desigualdade de Young (13.A.1), tratada no Apêndice 13.A, página 764, temos que
|xj ||yj | 1 |xj |p 1 |yj |q
!1/p !1/q ≤ n + n .
n
X X n p X p
q X q
|xi | p
|yi | q |xi | |yi |
i=1 i=1
i=1 i=1
Somando ambos os lados da desigualdade para todo j entre 1 e n, teremos

n
X n
X n
X
p
|xj ||yj | |xj | |yj |q
j=1 1 j=1 1 j=1 1 1
!1/p !1/q ≤ n + n = + = 1, (13.17)
n
X n
X p X p
q X q
p q
|xi |p |yi |q |xi | |yi |
i=1 i=1
i=1 i=1

Vamos agora generalizar a desigualdade de Hölder para seqüências infinitas.
Seja {xi }i∈ uma seqüência do tipo `p e seja {yi }i∈ uma seqüência do tipo `q com 1 < p < ∞,

1 < q < ∞ e 1/p + 1/q = 1. Como vimos, temos para qualquer n ∈ a desigualdade
n n
!1/p n
!1/q
X X X
|xi ||yi | ≤ |xi |p |yi |q ,
i=1 i=1 i=1
Assim, segue que

n ∞
!1/p ∞
!1/q
X X X
p q
|xi ||yi | ≤ |xi | |yi | < ∞.
i=1 i=1 i=1
n
X
Essa desigualdade vale para todo n e diz, em particular, que a seqüência sn = |xi ||yi |, n ∈ , é
i=1
monótona crescente e limitada. Assim, existe lim sn e vale
n→∞
∞ ∞
!1/p ∞
!1/q
X X X
|xi ||yi | ≤ |xi |p |yi |q < ∞.
i=1 i=1 i=1
Essa última relação é a de Hölder (13.13), com r = 1. Isso provou (13.13) para todo r > 0.
A desigualdade de Hölder (13.16) envolve seqüências dos tipos `p e `q com 1/p + 1/q = 1, sendo que
1 < p < ∞ e 1 < q < ∞. É de se notar que os casos p = 1 ou q = 1 foram excluı́dos. Há também uma
desigualdade como a de Hölder envolvendo a seqüências do tipo `p e `∞ , incluindo o caso p = 1. Sejam
{xi }i∈ uma seqüência do tipo `p com p > 0 e {yi }i∈ uma seqüência do tipo `∞ . Então, é bem fácil

de se verificar que
"∞ #1/p ∞
!1/p
X X
p p p
|xi | |yi | ≤ |xi | sup |yi | .
i∈
i=1 i=1

Essa é a desigualdade de Hölder (13.14).

A desigualdade de Hölder pode ser generalizada ainda mais, como veremos quando tratarmos da
teoria da integração. Vamos agora provar uma das conseqüências da desigualdade de Hölder, conhecida
como desigualdade de Minkowski.
• A Desigualdade de Minkowski. Demonstração
Novamente, nossa estratégia será considerar primeiro seqüências finitas e depois estender o obtido
para seqüências infinitas.
Sejam x1 , . . . , xn e y1 , . . . , yn duas seqüências finitas arbitrárias de números complexos (n ∈ ). A
desigualdade de Minkowski afirma que
n
!1/p n
!1/p n
!1/p
X X X
|xi + yi |p ≤ |xi |p + |yi |p
i=1 i=1 i=1
para qualquer p ≥ 1. Vamos demonstrá-la. O caso p = 1 é trivial (por que?). Consideremos então
p > 1. Teremos que
n
X n
X
p
|xi + yi | = |xi + yi ||xi + yi |p−1
i=1 i=1
n
X n
X
p−1
≤ |xi ||xi + yi | + |yi ||xi + yi |p−1 . (13.18)
i=1 i=1
Usando a desigualdade de Hölder (caso r = 1) podemos dizer que

n n
!1/p n
!1/q
X X X
|xi ||xi + yi |p−1 ≤ |xi |p |xi + yi |q(p−1) ,
i=1 i=1 i=1
onde 1/p + 1/q = 1, ou seja, p = q(p − 1). A última desigualdade diz então que
n n
!1/p n
!1/q
X X X
p−1 p p
|xi ||xi + yi | ≤ |xi | |xi + yi |
i=1 i=1 i=1
e, analogamente,
n n
!1/p n
!1/q
X X X
|yi ||xi + yi |p−1 ≤ |yi |p |xi + yi |p .
i=1 i=1 i=1
Substituindo estas duas últimas relações em (13.18), teremos

 !1/p !1/p  n !1/q
X n Xn Xn X
|xi + yi | ≤ 
p
|xi | p
+ |yi | p  |xi + yi | p
,
i=1 i=1 i=1 i=1
donde tiramos que

n
!1/p n
!1/p n
!1/p
X X X
|xi + yi |p ≤ |xi |p + |yi |p , (13.19)
i=1 i=1 i=1
Assim como a desigualdade de Hölder, a desigualdade de Minkowski pode ser generalizada para
seqüências infinitas. Sejam {xi }i∈ e {yi }i∈ seqüências infinitas de de números complexos, ambas do

tipo `p . Temos que, para qualquer n ∈ ,
n
!1/p n
!1/p n
!1/p ∞
!1/p ∞
!1/p
X X X X X
|xi + yi |p ≤ |xi |p + |yi |p ≤ |xi |p + |yi |p <∞
i=1 i=1 i=1 i=1 i=1
n
!1/p
X
Como a desigualdade vale para qualquer n, segue que a seqüência sn = |xi + yi |p ,n∈ , é
i=1
monótona crescente e limitada e, portanto, converge. Fora isso, vale
∞
!1/p ∞
!1/p ∞
!1/p
X X X
|xi + yi |p ≤ |xi |p + |yi |p < ∞.
i=1 i=1 i=1
Essa é a desigualdade de Minkowski para seqüências infinitas de números complexos {x i }i∈

e
{yi }i∈ , ambas do tipo `p com p ≥ 1. Isso completa a prova do Teorema 13.2.

• A Desigualdade de Cauchy para Seqüências. Um produto escalar para `2
A desigualdade de Hölder tem um caso particular bastante especial. Sejam {xi }i∈ e {yi }i∈ duas
seqüências de números complexos complexos do tipo `2 . Então a desigualdade de Hölder nos diz que
∞ ∞
!1/2 ∞ !1/2
X X X
|xi ||yi | ≤ |xi |2 |yi |2 . (13.20)
i=1 i=1 i=1
Essa desigualdade é conhecida como desigualdade de Cauchy (para seqüências) e é, sem exagero, uma
das desigualdades mais importantes. Muitos resultados importantes são extraı́dos dela, alguns dos
quais iremos tratar adiante.
A expressão (13.20) mostra-nos que para quaisquer {xi }i∈ , {yi }i∈ ∈ `2 a série
∞
X
xi yi =: hx, yi`2 (13.21)
i=1
é absolutamente convergente e, portanto, finita. Com isso, o lado esquerdo define um produto escalar
em `2 , que denotamos por hx, yi`2 .
E. 13.43 Exercı́cio. Prove essas últimas afirmações, ou seja, prove que hx, yi`2 é um produto escalar
em `2 . 6
Como veremos adiante, `2 é completo na norma relacionada a esse produto escalar, que é a norma
k · k2 . Isso prova que `2 é um espaço de Hilbert.
Veremos agora uma aplicação da desigualdade de Minkowski.
n
• As Métricas dp em
n n
Seja X = (ou ) para algum n ∈ e seja a seguinte função em X × X:
1
dp (x, y) = (|x1 − y1 |p + · · · + |xn − yn |p ) p ,
n n
onde p ∈ , p ≥ 1, x = (x1 , . . . , xn ) ∈ e y = (y1 , . . . , yn ) ∈ .
Mostrar que, para p ≥ 1, dp define uma métrica em X é bem simples. A única dificuldade está em
demonstrar a desigualdade triangular, o que pode ser feito facilmente com o uso da desigualdade de
Minkowski mostrada acima.
E. 13.44 Exercı́cio. Usando a desigualdade de Minkowski, mostre que d p satisfaz a desigualdade

triangular, ou seja, que dp (x, y) ≤ dp (x, z) + dp (z, y) para p ≥ 1 e quaisquer x = (x1 , . . . , xn ),
y = (y1 , . . . , yn ) e z = (z1 , . . . , zn ) ∈ n . 6
Para o caso particular p = 2 a métrica d2 é idêntica à métrica Euclidiana dE introduzida anterior-

mente. Nesse sentido as métricas dp são um tipo de generalização da métrica Euclidiana usual.
• Semi-normas em `p , p ≥ 1
Para cada n ∈ podemos definir em `p , p ≥ 1, a semi-norma (o conceito de semi-norma encontra-se

à página 121)
" n
#1/p
X
kxkp, n = |xj |p . (13.22)
j=1
Note que kxkp, n é de fato uma semi-norma em `p , p ≥ 1, pois satisfaz kλxkp, n = |λ|kxkp, n para todo
λ∈ e
kx + ykp, n ≤ kxkp, n + kykp, n (13.23)
para todos x, y ∈ `p , p ≥ 1, devido à desigualdade de Minkowski para seqüências finitas (13.19).
Note também que
kxkp, n ≤ kxkp < ∞ (13.24)
para todo x ∈ `p , p ≥ 1 e todo n ∈ . Por fim, para qualquer x ∈ `p , vale
kxkp = lim kxkp, n .

n→∞
• O Teorema de Riesz-Fischer para seqüências. Completeza dos espaços ` ∞ e `p , p ≥ 1

Vamos agora mostrar que os espaços `p , p ≥ 1, e `∞ são completos em relação às suas respectivas
normas. Essa afirmação, especialmente na sua forma mais geral, em espaços de funções mensuráveis
(tratada na Seção 20.4.2, página 945), é conhecida como Teorema de Riesz 28 -Fischer29 e data de 1907.
Seja p ≥ 1, fixo, e seja {am }m∈ , uma seqüência de elementos de `p . Como cada am é uma seqüência

de números complexos, indicaremos seus elementos por am i , i ∈ . Assim, convencionamos que o ı́ndice

superior indexa a seqüência e o inferior é o ı́ndice de cada elemento da seqüência.

Suponhamos que {am }m∈ seja uma seqüência de Cauchy em `p na métrica induzida pela norma

k · kp . Isso significa que para todo > 0 existe um inteiro N () > 0 tal que kan − am kp < sempre que
m, n > N (). Assim, se m, n > N (), é fácil ver que, para os elementos am n
i e ai isso significa que
" ∞
#1/p
X
|am n
i − ai | ≤ |am n p
j − aj | = kan − am kp <
j=1
Isso diz-nos que, para cada i fixo, a seqüência de números {ani }n∈ é uma seqüência de Cauchy em

e, portanto, converge (pois é completo). Seja αi ∈ o limite dessa seqüência.

A seqüência α = {αi }i∈ é um forte candidato a ser o limite da seqüência {an }n∈ na métrica

definida pela norma k · kp . Colocamo-nos, então, as seguintes questões: 1. Será a seqüência α também
um elemento de `p ? 2. Se a resposta à pergunta anterior for positiva, será que a seqüência a m converge
à seqüência α = {αi }i∈ na norma de `p ? Se a resposta a essas perguntas for positiva, estará provado

que `p é completo.
Seja > 0 arbitrário. Vamos definir uma seqüência crescente de números inteiros e positivos N k (),
k = 1, 2, 3, . . . com Nk+1 () > Nk (), da seguinte forma: Nk () é tal que kam − an kp < /2k para
todos m, n > Nk (). Note que uma tal seqüência Nk () sempre pode ser encontrada pois, por hipótese,
{am }m∈ é uma seqüência de Cauchy em k · kp . Vamos agora escolher uma seqüência crescente de

ı́ndices n1 < n2 < · · · < nk−1 < nk < · · · tais que nk > Nk (). A essa seqüência está associada a
sub-seqüência {ank }k∈ . Para simplificar a notação, denotaremos bk ≡ ank , k = 1, 2, 3, . . .. Tem-se

kbl+1 − bl kp < . (13.25)
2l
pois nl e nl+1 são maiores que Nl (). Note que para cada i, bki converge a αi quando k → ∞.
Com essas definições, teremos para todo k > 1 que (verifique!)
k−1
X
k 1

b −b = bl+1 − bl .
l=1
28
Frigyes Riesz (1880-1956).
29
Ernst Sigismund Fischer (1875-1954).
Utilizando as semi-normas k · kp, n , definidas em (13.22), e usando (13.23) e (13.24) e (13.25), teremos

Xk−1

k 1 l+1 l
kb kp, n = b + b −b

l=1 p, n
k−1
X
(13.23) l+1
≤ 1
kb kp, n + b − b l
p, n
l=1
k−1
X
(13.24) l+1
≤ 1
kb kp + b − b l
p
l=1
k−1
X ∞
X
(13.25)
< kb1 kp + l
≤ kb 1
k p + l
= kb1 kp + .
2 2
l=1 l=1
Assim,
kbk kp, n < kb1 kp + . (13.26)
P n
p 1/p
Note que o lado esquerdo é k
i=1 |bi | e envolve uma soma finita de |bki |0 s. Assim, como cada bki
converge a αi quando k → ∞ temos, tomando o limite k → ∞,
" n #1/p " n #1/p
X X
lim |bki |p = |αi |p = kαkp, n .
k→∞
i=1 i=1
Como o lado direito de (13.26) não depende de k, concluı́mos que kαkp, n ≤ kb1 kp + para todo n ∈ .
Agora, isso diz que
Xn
p
|αi |p ≤ kb1 kp +
i=1
para todo n ∈ . O lado direito não depende de n. Como o lado esquerdo é uma seqüência crescente e

limitada
P∞ (pelo lado direito), segue que o lado esquerdo converge quando n → ∞. Isso prova então que
p
i=1 |αi | < ∞, ou seja, α ∈ `p .
Resta-nos agora responder à segunda pergunta colocada à página 761 e mostrar que a seqüência a m
converge a α em relação à norma k · kp .
Repetindo o mesmo raciocı́nio que conduziu a (13.26), apenas mantendo b1 do lado esquerdo,
concluı́mos que kbk − b1 kp, n < . Novamente, usando o mesmo argumento de acima, podemos tomar
o limite k → ∞ e obter kα − b1 kp, n ≤ Como o lado direito independe de n, segue novamente pelo
mesmo raciocı́nio de acima que kα − b1 kp ≤ Isso significa30 que para todo > 0 existe b1 ∈ `p tal
que kα − b1 kp ≤ . Como b1 é escolhido na seqüência am , isso prova que α = limm→∞ am na topologia
definida por k · kp .
Com isso, provamos que todo `p com p ≥ 1 é completo na norma definida por k · kp e é, portanto,
um espaço de Banach nessa norma. Como comentamos, isso também implica que `2 é um espaço de
Hilbert com relação ao produto escalar definido em (13.21).
30
O estudante aqui talvez tenha que recordar a maneira como b1 = an1 foi definido no parágrafo que antecede (13.25).
A demonstração que `∞ é um espaço de Banach em relação à norma k · k∞ é idêntica, adotando-se

nesse caso as semi-normas kxk∞, n := sup |xi |.
1≤i≤n
E. 13.45 Exercı́cio. Complete os detalhes da prova que `∞ é um espaço de Banach em relação à norma
k · k∞ . 6
Apêndices
13.A Algumas Desigualdades Básicas

Demonstraremos aqui algumas desigualdades numéricas básicas que foram usadas no presente capı́tulo
e serão também empregadas em outros.
• A desigualdade de Young
A demonstração da desigualdade de Hölder faz uso de uma desigualdade numérica conhecida como
desigualdade de Young31 . Como essa desigualdade tem interesse por si só e outras aplicações, vamos
apresentar sua demonstração.
Sejam a e b dois números reais, ambos maiores ou iguais a zero e sejam p e q ambos tais que
1 1
1 < p < ∞ e 1 < q < ∞, mas tais que + = 1. Vamos então mostrar que para todo a, b ≥ 0
p q
a b
a1/p b1/q ≤ + , (13.A.1)
p q
sendo que a igualdade só é válida caso a = b. A desigualdade (13.A.1) é denominada desigualdade de
Young.
Para prová-la, notemos em primeiro lugar note que se a = 0 ou b = 0 a (13.A.1) acima é trivialmente
satisfeita pois o lado esquerdo é sempre zero, enquanto que o lado direito é sempre maior ou igual a zero.
a b
Vamos estão supor que a e b são ambos não nulos. Tudo o que queremos é provar que −a 1/p b1/q + +
p q
α 1
é sempre maior ou igual a zero. Podemos escrever a última expressão como b −t + αt + q , onde
α = 1/p e t = a/b. Como 1 0, tem-se

f 0 (x) = α 1 − xα−1 e f 00 (x) = α(1 − α)xα−2 > 0.
Assim, f (x) tem um único mı́nimo local em x = 1, onde f (1) = 0 (verifique). Fora isso, f (0) = 1q > 0
e lim f (x) = +∞. Desses fatos concluı́mos facilmente que f (x) ≥ 0 para todo x ≥ 0, a igualdade só
x→∞
se dando caso x = 1. Isso fecha o que querı́amos provar.
E. 13.46 Exercı́cio. Mostre que no caso 0 < p < 1 a desigualdade (13.A.1) se reverte (≤ deve ser
substituı́do por ≥). Nesse caso 1/q < 0. 6
31
William Henry Young (1863-1942).
• Desigualdades envolvendo somas de potências
As desigualdades apresentadas na seguinte proposição são muito úteis, especialmente no propósito

de demonstrar que os conjuntos de seqüências `p são espaços vetoriais, o mesmo se dando com os
conjuntos de funções Lp (M, dµ) dos quais trataremos no Capı́tulo 20.
Proposição 13.9 Sejam a ≥ 0 e b ≥ 0 dois números reais não-negativos.
I. Para todo p tal que 0 < p < 1 tem-se
ap + b p
1−p
≤ (a + b)p ≤ ap + bp . (13.A.2)
2
II. Para todo p tal que p ≥ 1 tem-se
ap + bp ≤ (a + b)p ≤ 2p−1 (ap + bp ) . (13.A.3)
Prova.
Caso I. Tomemos 0 0. Nesse caso, podemos fatorar a p e a desigualdade acima
ficaria, p p
b b
1+ ≤ 1+ .
a a
Para provar isso, tudo o que desejamos é provar que f (x) := (1 + x) p − 1 − xp satisfaz f (x) ≤ 0 para
todo x ≥ 0. De fato, tem-se,
" #
1
f 0 (x) = −pxp−1 1 − 1−p . (13.A.5)
1 + x1
Como 1 + x1 ≥ 1 e 1 − p > 0, segue que f 0 (x) ≤ 0 para todo x ≥ 0. Com isso, provamos que f é
não-crescente. Como f (0) = 0, segue que f (x) ≤ 0 para todo x ≥ 0. Isso provou (13.A.4).
Vamos agora provar que
ap + b p
≤ (a + b)p .
21−p
Para x ≥ 0 e 0 < p < 1 a função ϕ(x) = xp é côncava. Portanto, para qualquer λ com 0 ≤ λ ≤ 1,
tem-se
λϕ(a) + (1 − λ)ϕ(b) ≤ ϕ (λa + (1 − λ)b) .
Para λ = 1/2, isso fica p
ap + b p a+b
≤
2 2
e a prova de (13.A.2) está completa.

Caso II. Para o caso p = 1 a desigualdade (13.A.3) é evidente. Tomemos, então, p > 1 fixo. Vamos
primeiramente provar a seguinte desigualdade: para quaisquer a, b ≥ 0 vale
ap + bp ≤ (a + b)p . (13.A.6)
Para a = 0 isso é óbvio. Seja, então, a > 0. Nesse caso, podemos fatorar a p e a desigualdade acima
ficaria, p p
b b
1+ ≥ 1+ .
a a
Para provar isso, tudo o que desejamos é provar que f (x) := (1 + x) p − 1 − xp satisfaz f (x) ≥ 0 para
todo x ≥ 0. Agora, por (13.A.5),
" p−1 #
1
f 0 (x) = −pxp−1 1 − 1 + .
x
Como 1 + x1 ≥ 1 e p − 1 > 0, segue que f 0 (x) ≥ 0 para todo x ≥ 0. Com isso provamos que f é
crescente. Como f (0) = 0, segue que f (x) ≥ 0 para todo x ≥ 0, provando o que querı́amos.
Vamos agora provar que
(a + b)p ≤ 2p−1 (ap + bp ) .
Para x ≥ 0 e p > 1 a função ϕ(x) = xp é convexa. Portanto, para qualquer λ com 0 ≤ λ ≤ 1, tem-se
ϕ (λa + (1 − λ)b) ≤ λϕ(a) + (1 − λ)ϕ(b) .
Para λ = 1/2, isso fica p
a+b ap + b b
≤
2 2
e a prova de (13.A.3) está completa.
13.B Números reais e p-ádicos

Neste apêndice ilustraremos a construção do completamento canônico de espaços métricos, desenvolvida
a partir da página 739, apresentando brevemente uma construção do conjunto dos números reais a partir
dos racionais que é também devida a Cantor. O mérito dessa construção não é apenas ilustrativo, pois o
mesmo conjunto de idéias permite a construção de outros conjuntos “exóticos” de números, os chamados
números p-ádicos (p, aqui, sendo um número primo).
A estudo desta seção não é essencial ao que segue e pode ser dispensado em uma primeira leitura.
A demonstração de completeza de , em particular, é um tanto delicada e complexa.

• Uma Métrica no Conjunto dos Racionais
Considere o conjunto dos números racionais. e considere a função d : × → + dada por

d(r, s) = |r − s|. Esta função tem as seguintes propriedades
1. d(r, s) ∈ + para todo r, s ∈ .
2. d(r, s) = 0 se e somente se r = s.
3. Para todo a e b ∈ vale d(a, b) = d(b, a).
4. Para todo a, b e c ∈ vale d(a, b) ≤ d(a, c) + d(c, b).
A função d define o que se chama de uma métrica em . A desigualdade d(a, b) ≤ d(a, c) + d(c, b) é
chamada desigualdade triangular.
Nota. Como a princı́pio desejamos “construir” o conjunto dos números reais , devemos tomar o
cuidado de definir a métrica d assumindo valores em + , o conjunto dos racionais ≥ 0, não em + ,
como fizemos até agora. Por essa razão, algumas adaptações ao que fizemos ate agora serão necessárias.
Uma seqüência de números racionais é uma função → . Para uma seqüência a denota-se
freqüentemente seu valor a(i) por ai para i ∈ .
• Seqüências de Cauchy de Números Racionais
Uma seqüência a de números racionais é dita ser uma seqüência de Cauchy 32 em relação à métrica
d se para todo ∈ + existir um número natural N () (eventualmente dependente de ) tal que
d(ai , aj ) = |ai − aj | < para todo i e j tais que i > N () e j > N ().
Uma seqüência de números racionais a converge para um número racional r no sentido da métrica
d se para todo ∈ + existir um número natural N () (eventualmente dependente de ) tal que
d(r, ai ) < para todo i > N ().
E. 13.47 Exercı́cio. Prove que se uma seqüência a converge a um número racional r então a é uma
seqüência de Cauchy. Sugestão: use a desigualdade triangular. 6
• Números Reais. A Construção de Cantor. Completamento
Como já discutimos em páginas anteriores, há seqüências de Cauchy de números racionais que não
convergem a números racionais. Esse fato é a motivação de uma construção muito importante: a dos
números reais.
Para mostrar como essa construção é feita (o que faremos aqui com o objetivo de ilustrar ou-
tras construções análogas futuras) vamos primeiramente considerar o conjunto C ≡ C( ) de todas as
seqüências de Cauchy de números racionais e construir em C uma relação de equivalência da seguinte
forma. Dizemos que duas seqüências de Cauchy a e b são equivalentes se a seqüência c i = ai − bi ,
i ∈ converge a zero. Ou seja, a ∼ b se para todo racional > 0 existir inteiro N > 0 tal que
d(ai , bi ) = |ai − bi | < para todo i > N .
E. 13.48 Exercı́cio. Mostre que se a e b são seqüências de Cauchy então a seqüência c i = ai − bi , i ∈
também o é. Sugestão: use a desigualdade triangular. 6
32
E. 13.49 Exercı́cio. Prove que a relação acima é de fato uma relação de equivalência. 6
Isto posto, sabemos que o conjunto C pode ser escrito como uma união disjunta de suas classes de
equivalência pela relação acima. O conjunto dos números reais é então definido como sendo o conjunto

formado por essas classes de equivalência ou, se quiserem, como o conjunto formado escolhendo-se um
elemento de cada classe de equivalência, ou seja, por uma seqüência de Cauchy de números racionais
em relação à métrica d.
Assim, uma seqüência de Cauchy como a seqüência ai = 1 + 1/1! + 1/2! + · · · + 1/i! acima define
um número real (no caso o número e).
Se x é uma seqüência de Cauchy de racionais em relação à métrica d denotaremos sua classe de
equivalência por [x]. Pela definição, [x] é um número real.
É possı́vel definir em uma relação de ordem total da seguinte forma: dizemos que [x] < [y] se
existirem seqüências de racionais x0 ∈ [x] e y 0 ∈ [y] e um inteiro I tais que x0i < yj0 para todo i, j > I e
se [x0 − y 0 ] 6= [0], onde [0] é a classe que contem a seqüência identicamente nula. (Essa última condição
é para evitar seqüências com x0i < yi0 mas que se aproximem no limite i → ∞).
E. 13.50 Exercı́cio. Mostre que isso define uma relação de ordem total em . 6
Poderı́amos tentar fazer de um espaço métrico, definindo, por analogia com o que fizemos ante-

riormente na construção do completamento canônico, uma métrica em por
e
d([x], [y]) = lim d(xn , yn ) .
n→∞
Isso não pode ser feito dessa forma, porém, pois o a seqüência de racionais d(x n , yn ) = |xn − yn | pode
não ter limite nos racionais, mas sim nos reais. É fácil provar, porém, que a seqüência de racionais
d(xn , yn ), n ∈ , é uma seqüência de Cauchy na métrica d. Para tal, note que, pela desigualdade

triangular,
d(xi , yi ) ≤ d(xi , xj ) + d(xj , yj ) + d(yj , yi )
e, portanto,
|d(xi , yi ) − d(xj , yj )| ≤ d(xi , xj ) + d(yj , yi ).
Como o x e y são seqüências de Cauchy o lado direito pode ser feito ≤ ∈ + para qualquer > 0,
desde que i e j sejam feitos grandes o suficiente.
Com isso, sabemos que a seqüência d(xn , yn ), n ∈ , pertence a alguma classe de equivalência que

denotaremos por [d(x, y)]. Com isso, podemos agora definir uma métrica em por
e
d([x], [y]) = [d(x, y)] .
E. 13.51 Exercı́cio. Mostre que essa definição não depende dos particulares representantes x e y que
tomarmos nas classes [x] e [y]. 6
E. 13.52 Exercı́cio. Mostre que de define uma métrica em . 6

Com os ingredientes de acima (a definição de , de ordem em e da métrica de em ), podemos

definir as noções de convergência em e de seqüência de Cauchy em de modo análogo ao que fizemos

anteriormente: Uma seqüência de reais [x]n ≡ [xn ], n ∈ , converge ao real [x] se para todo [] > 0

e n , [x]) < [] sempre que n > N . Uma seqüência de reais [x]n é dita
existir um inteiro N tal que d([x]
ser uma seqüência de Cauchy em relação à métrica de se para todo [] > 0 existir um inteiro N tal que
e m , [x]m ) < [] sempre que m > N e n > N .
d([x]
Coloca-se então a grande questão, será completo? Ou seja, será toda a seqüência de Cauchy de
reais convergente a um número real?
e
Provemos que sim. Seja [x]n ≡ [xn ], n ∈ , uma seqüência de Cauchy em relação à métrica d.

Então para qualquer [] ∈ existirá inteiro N ()

e m , [x]m ) = [|xm − xn |] < []

d([x] (13.B.7)
sempre que m > N () e n > N (). Vamos tomar [] um racional ou seja, suporemos que exista em []
uma seqüência constante i = ∈ + .
A condição (13.B.7) significa que existem seqüências de racionais |xm n
i − xi | e um inteiro I() tais
que |xm n
i − xi | < para todos m > N () e n > N () e i > I().
Como cada xm é uma seqüência de Cauchy de racionais, existe para todo ∈ + um inteiro Jm ()
tal que |xm m
i − xj | < sempre que i, j > Jm ().
Vamos então tomar = 1/k, k ∈ e definir
a(k) := N (1/k) + 1, e b(k) := max{I(1/k), Ja(k) (1/k)} + 1

a(k)
e xk = xb(k) . Teremos,

a(k) a(k 0 ) a(k) a(k) a(k) a(k 0 )
|xk − xk0 | = xb(k) − xb(k0 ) ≤ xb(k) − xb(k0 ) + xb(k0 ) − xb(k0 ) ≤ 2 max{1/k, 1/k 0 }.
Isso prova que {xk }k∈ é uma seqüência de Cauchy de racionais. Portanto a ela está associado o número

real [x]. Resta-nos provar que [xm ] converge a [x] em de quando m → ∞.

e
De fato d([x], [xm ]) = [d(x, xm )] e
a(k) a(k) a(k) a(k)
d(xk , xm m m
k ) = |xk − xk | = |xb(k) − xk | ≤ |xb(k) − xk | + |xk − xm
k | < 2/l
para qualquer l ∈ , desde que m > a(l) e k > b(l). Isso prova que para m > a(l) tem-se

e Isso demonstrou que é completo.
[{d(x, xm )}m∈ ] = [0], demonstrando que [xm ] converge a [x] em d.
É possı́vel provar que podemos operar com esse novo conjunto de números da mesma forma como
operamos com os racionais, ou seja, podemos definir sua soma, seu produto, sua razão etc. Por exemplo,
a soma de duas seqüências de Cauchy a e b é a seqüência de Cauchy c dada por c i = ai + bi , i ∈ e é
fácil provar que essa seqüência é de Cauchy, assim como é possı́vel provar que , se trocarmos a ou b por
um outro elemento da mesma classe de equivalência, obteremos uma outra seqüência de Cauchy d da
mesma classe de equivalência da seqüência c. Fora isso o conjunto dos reais assim definido é provido
de uma relação de ordem total x ≤ y.
Como essas propriedades são conhecidas não entraremos nos detalhes de sua demonstração (mas não
é difı́cil para o estudante entender como se faz). Gostarı́amos apenas de enfatizar, recordando, como
a construção dos reais foi feita: partimos do conjunto dos racionais, definimos uma métrica sobre os
mesmos e definimos os conceitos de seqüências e de seqüências de Cauchy (em relação à métrica dada).
Definimos também o conceito de convergência e constatamos que seqüências de Cauchy de racionais
não convergem sempre a racionais. Definimos então no espaço de todas as seqüências de Cauchy (em
relação à métrica dada) uma relação de equivalência e assim o conjunto de classes de equivalência define
uma nova classe de objetos com os quais, como afirmamos, podemos operar como números. Esses são
os números reais.
O procedimento de completar os racionais através da criação das classes de equivalência de suas
seqüências de Cauchy é chamado de completamento canônico doa racionais e foi inventado por Can-
tor33 (seguindo idéias de Weierstrass34 ). A construção de números reais acima é devida a Cantor (há
uma outra construção “equivalente” devida a Dedekind35 , a dos chamados “cortes de Dedekind”). O
completamento de Cantor é importante, pois seu método pode ser estendido a qualquer espaço métrico
não completo para a obtenção de uma classe de objetos ainda maior.
• Outros Completamentos dos Racionais. Números p-ádicos
A construção acima indicou um procedimento de completamento dos racionais a partir de suas

seqüências de Cauchy. É importante frisar, porém, que o conceito de seqüência de Cauchy depende de
uma função métrica especı́fica dada previamente. Assim, toda a construção do completamento depende
da métrica usada. O que acontece se trocarmos a métrica usada nos racionais? Podemos, ao proceder
o completamento de Cantor, obter uma classe de objetos diferente da dos reais? A resposta é positiva.
Como curiosidade vamos mostrar que há outros completamentos possı́veis dos números racionais se
mudarmos a métrica usada. Seguiremos aqui parcialmente [38], onde uma outra construção poderá ser
encontrada.
Sabemos do teorema fundamental da aritmética que todo número natural não nulo pode ser es-
crito de forma única como um produto de números primos. Para todo número racional r 6= 0 temos
conseqüentemente a decomposição única em fatores primos
Y wp (r)
r = (±1) pi i
i
onde os pi são números primos e wp (r) ∈ é o expoente do primo p na recomposição do racional r. O

produto acima envolve todos os primos, porém, apenas para um número finito deles tem-se w pi (r) 6= 0
(por que?).
Para um número racional r 6= 0 e para um primo p (que fixamos daqui por diante), seja a função
wp (r) que dá o exponente de p na decomposição (única) de r em fatores primos dada acima. Vamos
33
34
35
Julius Wilhelm Richard Dedekind (1831-1916).
com o uso de wp definir a seguinte função φp : → +:

−w (s)
p p , se s 6= 0, s ∈ ,
φp (s) :=
0, se s = 0.
A função φp tem as seguintes propriedades:
1. φp (s) ≥ 0 para todo s ∈ .

2. φp (s) = 0 se e somente se s = 0.
3. φp (rs) = φp (r)φp (s) para dois racionais quaisquer r e s.
4. Para dois racionais quaisquer r e s tem-se φp (r + s) ≤ max{φp (r), φp (s)} e portanto φp (r + s) ≤
φp (r) + φp (s).
Demonstraremos apenas o item 4, deixando os demais como exercı́cio (fácil). O item 4 é uma
conseqüência imediata da seguinte propriedade, que provaremos abaixo: para qualquer primo p e
quaisquer racionais r e s vale
wp (r + s) ≥ min{wp (r), wp (s)}.
Para provar essa desigualdade escrevemos r e s em sua decomposição em fatores primos:
Y wp (r) Y wp (s)
r = (±1) pi i , s = (±1) pi i .
i i
Assim,
Y wpi (r)
Y wpi (s)
r + s = (±1) pi + (±1) pi
i i
(13.B.8)
Multiplicando e dividindo por Y min{wpi (r), wpi (s)}
pi
i
ficamos com
" #
Y min{wpi (r), wpi (s)}
Y wpi (r)−min{wpi (r), wpi (s)}
Y wpi (s)−min{wpi (r), wpi (s)}
r+s = pi (±1) pi + (±1) pi .
i i i
Como obviamente (por que?) wpi (r) − min{wpi (r), wpi (s)} ≥ 0 e wpi (s) − min{wpi (r), wpi (s)} ≥ 0,
segue que o número entre colchetes é um inteiro, tendo uma decomposição em fatores primos da forma
Y γ
(±) pj j ,
j
onde os γi são positivos ou nulos (pois o número é inteiro). Assim,

Y min{wp (r), wp (s)}+γi
r+s = ± pi i i
,
i
provando que
wpi (r + s) = min{wpi (r), wpi (s)} + γi ≥ min{wpi (r), wpi (s)},
para todo primo pi , o que completa a prova que querı́amos.
Em função das propriedades demonstradas no último exercı́cio, podemos, com o uso dessa função
φp , construir uma métrica em , que denotaremos por dp , dada por
dp (a, b) = φp (a − b)
para racionais a e b.
E. 13.53 Exercı́cio. Demonstre, usando as propriedades 1-4 de φ p mencionadas acima, que esta função
é de fato uma métrica, ou seja, que satisfaz
1. dp (r, s) ∈ + para todo r, s ∈ .
2. dp (r, s) = 0 se e somente se r = s.
3. Para todo a e b ∈ vale dp (a, b) = dp (b, a).
4. Para todo a, b e c ∈ vale dp (a, b) ≤ dp (a, c) + dp (c, b).
Também aqui podemos definir a noção de seqüência de Cauchy em relação à métrica d p . Uma
seqüência a de elementos de é dita ser uma seqüência de Cauchy (em relação à métrica d p ) se
para todo ∈ + , > 0, existir um número natural N () (eventualmente dependente de ) tal que
dp (ai , aj ) < para todo i e j tais que i > N () e j > N ().
Uma seqüência a em converge para um elemento b ∈ no sentido da métrica dp se para todo
∈ + existir um número natural N () (eventualmente dependente de ) tal que dp (b, ai ) < para
todo i > N ().
Também neste caso podem ser exibidas seqüências de Cauchy de racionais que não convergem no
sentido da métrica dp a um outro racional. O conjunto , assim, não é completo em relação à métrica
dp . Podemos então completá-lo usando o procedimento de completamento de Cantor: tomamos o
conjunto Cp de todas as seqüências de Cauchy de números racionais em relação à d p e construı́mos em
Cp uma relação de equivalência da seguinte forma. Dizemos que duas seqüências de Cauchy a e b são
equivalentes se a seqüência dp (ai , bi ), converge a zero quando i → ∞.
Sabemos que o conjunto Cp pode então ser escrito como uma união disjunta de suas classes de
equivalência pela relação acima. Define-se então uma nova classe de números, denominados números
p-ádicos, como sendo o conjunto dessas classes de equivalência ou, se quiserem, como sendo o conjunto
formado escolhendo-se um elemento de cada classe de equivalência, ou seja, por uma seqüência de
Cauchy de números racionais em relação à métrica dp .
É possı́vel provar que podemos operar com esse novo conjunto de números da mesma forma como
operamos com os racionais, ou seja, podemos definir sua soma, seu produto, sua razão etc. (os mesmos
formam um corpo). Para a definição de corpo vide Seção 1.2.2, página 50.
Para cada primo p, o conjunto dos números p-ádicos, denominado p , é distinto do conjunto dos
reais. Possui, porém, em comum com os reais o fato de ambos terem os racionais como sub-conjunto
denso.
Note, por exemplo, que a seqüência de números racionais an = pn , n ∈ , diverge na reta real mas,

no conjunto p a mesma seqüência converge a zero (no sentido de dp ), sendo que precisamente o oposto
ocorre em relação à seqüência bn = p−n , n ∈ .
E. 13.54 Exercı́cio. Constate a veracidade das afirmativas do último parágrafo. 6
n
X
E. 13.55 Exercı́cio. Verifique que, em relação a d3 , a seqüência de números positivos sn = 2 · 3a
a=0
converge ao número −1 (!). Sugestão: mostre que sn = 3n+1 − 1. Após isso mostre que d3 (sn , −1) =
φ3 (sn + 1) = 3−(n+1) , e conclua que sn → −1. 6
De um certo ponto de vista, os números p-ádicos formam uma classe “razoável” de números que
poderiam, em princı́pio, “substituir” os reais em aplicações, dado que ambos podem ser aproximados
por racionais (no sentido da métrica d no caso dos reais e da métrica dp no caso dos p-ádicos). Os
conjuntos p possuem propriedades extremamente curiosas, tanto do ponto de vista algébrico quando
do ponto de vista topológico, algumas das quais vimos nos exercı́cios acima. Aplicações significativas
dos números p-ádicos em Fı́sica são, no momento, desconhecidas. Sugestões de seu uso, porém, já
foram apresentadas na teoria das super-cordas.
13.C Aproximações para π

Métodos para calcular aproximações para o valor de π são procurados desde a Antigüidade. Comentam
os historiadores da Matemática que a mais antiga referência ao assunto talvez seja encontrada em um
papiro egı́pcio, denominado papiro de Rhind, de cerca de 1650 A.C., o qual fornecia a aproximação
4(8/9)2 ' 3.1605 para π. Arquimedes36 foi provavelmente o primeiro a propor um procedimento
sistemático de aproximação, que consistia em aproximar um cı́rculo de diâmetro 1, e perı́metro π, por
polı́gonos regulares inscritos e circunscritos. O perı́metro de um polı́gono regular pode ser computado
com o uso de considerações geométricas simples37 . Os perı́metros dos polı́gonos regulares inscritos
fornecem limites inferiores para π, enquanto que os perı́metros dos polı́gonos regulares circunscritos
fornecem limites
√ superiores. Usando hexágonos (vide Figura 13.C.1), por exemplo, chega-se facilmente
a 3 < π < 2 3, o que fornece as aproximações 3 < π < 3, 46, as quais são ainda um tanto grosseiras.
10
Usando polı́gonos regulares de 96 lados, Arquimedes concluiu que 3 71 < π < 3 17 , o que fornece as
aproximações 3, 0140845 < π < 3, 1428571 em base decimal. Como se observa, o limite superior fornece
π com o valor correto das duas primeiras casas decimais após a vı́rgula. Fragmentos incompletos de
sua obra indicam que Arquimedes teria chegado a determinar a aproximação 3, 1416 para o valor de π,
usando polı́gonos regulares ainda maiores.
O método de Arquimedes foi empregado na Europa até meados do século XVII para aproximar
36
Arquimedes de Siracusa (ci. 287 A.C. - ci. 212 A.C.).
37
Vide [27], onde uma descrição, mais detalhada do método de Arquimedes pode ser encontrada.
Figura 13.C.1: Cı́rculo, hexágono inscrito e circunscrito.
o valor de π. Ludolph van Ceulen38 empreendeu boa parte da sua vida aperfeiçoando o método de
Arquimedes, chegando, pouco antes de sua morte, a estimar o valor de π com o uso de polı́gonos
regulares de 262 lados, o que fornece π com 32 casas decimais de precisão.
Várias outras aproximações foram empregadas para aproximar π. Listemos algumas.
1. Aproximação de Wallis39 , ou Fórmula de Produto de Wallis, para π, de 1665:

n
Y 4k 2 24n+1 (n!)4 2 × 2 4 × 4 6 × 6 8 × 8 10 × 10
π = lim 2 2
= lim 2 = 2× ··· .
n→∞
k=1
4k − 1 n→∞ (2n + 1) [(2n)!] 1 × 3 3 × 5 5 × 7 7 × 9 9 × 11
Para uma demonstração simples dessa fórmula usando integrais, vide [118].
2. Aproximação de Gregory40 -Leibniz41 para π, de 1671:
Xn
(−1)k 1 1 1 1
π = lim 4 = 4 1− + − + ··· ,
n→∞
k=0
2k + 1 3 5 7 9
Essa série provem do fato que π = 4 arctan(1). O arco-tangente pode ser calculado pela série de
Taylor42
X∞
(−1)n x2k+1
arctan(x) = .
k=0
2k + 1
fornecendo, assim, a aproximação dada acima para π.

Um comentário histórico é que a identidade π = 4 1 − 13 + 15 − 17 + 91 · · · é por vezes atribuı́da
a Leibniz, que a divulgou em 1674, três anos após a descoberta por Gregory da série de Taylor
da função arco-tangente. Historiadores comentam que Gregory provavelmente já a conhecia.
Todavia, essa identidade já seria conhecida por matemáticos hindus séculos antes.
38
Ludolph van Ceulen (1539-1610).
39
John Wallis (1616-1703). Wallis foi um dos pioneiros do Cálculo Diferencial e Integral e, uma curiosidade, foi o
inventor do sı́mbolo ∞.
40
James Gregory (1638-1675).
41
42
Brook Taylor (1685-1731). A série de Taylor da função arco-tangente foi, em verdade, descoberta por Gregory em
1671.
3. Aproximação de Newton43 . Usando uma identidade como por exemplo π = 6 arcsen (1/2), Newton
empregou a série de Taylor da função arco-seno
∞
X [(2n − 1)!!]2
arcsen (x) = x + x2n+1
n=1
(2n + 1)!
para determinar aproximações para π. Disso resulta a identidade (prove-a!)

∞
X 3 (2n − 1)!
π = 3+ . (13.C.9)
n=1
24n−1 n(2n + 1) [(n − 1)!]2
Newton calculou as primeiras 15 casas decimais de π (em data incerta), para o que é necessário
somar cerca de 20 termos da série (13.C.9). Newton o fez, segundo confessou, “por não ter muito
o que fazer à época”.
Como, para n grande, (2n − 1)! ≈ 22n n2n e [(n − 1)!]2 ≈ n2n , os termos da série (13.C.9) decaem
como 2−2n . Machin encontrou uma outra identidade que permite uma convergência mais rápida.
4. Aproximação de Machin44 para π, de 1706:

Xn
(−1)n 16 4
π = lim 2k+1
− 2k+1
.
n→∞
k=0
2k + 1 5 239
Essa série provem do fato, demonstrado por Machin, que
π = 16 arctan(1/5) − 4 arctan(1/239) .
Usando-se a série de Taylor da função arco-tangente dada acima, obtem-se a série de Machin para
π.
5. Aproximação de Euler45 para π por frações contı́nuas. Euler demonstrou que

4
π = .
12
1+
32
2+
52
2+
72
2+
92
2+
112
2+
..
.
43
44
John Machin (1680-1751).
45
Mencionamos en passant que Euler também obteve a seguinte expressão para e em termos de
frações contı́nuas:
1
e = 2+ ,
1
1+
2
2+
3
3+
4
4+
5
5+
6
6+
..
.
que é também uma aproximação para e por racionais.
Note que as aproximações de Wallis, Gregory, Newton, Machin e Euler acima são aproximações
a π por números racionais.
6. Euler também obteve (no ano de 1735) uma série de identidades envolvendo séries infinitas do
X∞
1
tipo , com m = 1, 2, 3 etc., as quais podem ser usadas para calcular π. As primeiras
k=1
k 2m
identidades são
X∞ X∞ X∞ X∞ X∞
π2 1 π4 1 π6 1 π8 1 π 10 1
= 2
, = 4
, = 6
, = 8
, =
6 k=1
k 90 k=1
k 945 k=1
k 9450 k=1
k 93555 k=1
k 10
etc. Tais relações são bem conhecidas da teoria das séries de Fourier (vide [31]). Como o lado
esquerdo das igualdades acima envolve potências de π, essas séries não fornecem aproximações
a π por racionais. As últimas séries à direita convergem de modo relativamente rápido. Apenas
com os cinco primeiros termos da última série à direita obtem-se a aproximação 3, 141592647 para
π, cujos primeiros sete dı́gitos após a vı́rgula estão corretos. Para obter-se uma precisão análoga
com a primeira série à esquerda, é preciso somar cerca de cem milhões de termos, como é fácil de
verificar usando um programa de computador (faça!).
A fórmula geral para as somas acima46 é a seguinte:
X∞
1 (−1)m+1 22m−1 B2m 2m
= π , m = 1, 2, 3, . . . , (13.C.10)
k=1
k 2m (2m)!
onde Bn são os chamados números de Bernoulli47 , definidos pela série de Taylor

X∞
x Bn n
x
= x .
e −1 n=0
n!
Essa definição é também de Euler (a definição original de Bernoulli, publicada postumamente

em 1713, era outra (vide [118])). Os números de Bernoulli satisfazem Bn = 0 para n ı́mpar,
46
P∞ 1
Até a presente data, não são conhecidas expressões fechadas para somas como k=1 kn para o caso em que n é
ı́mpar, n ≥ 3.
47
Jacob Bernoulli (1654-1705).
exceto para n = 1, sendo B0 = 1 e B1 = −1/2. Os números de Bernoulli podem ser calculados

recursivamente pela identidade
n−1
X n
Bj = 0, n>1.
j=0
j
Os primeiros são B0 = 1, B1 = −1/2, B2 = 1/6, B4 = −1/30, B6 = 1/42, B8 = −1/30. O leitor

interessado poderá encontrar mais detalhes sobre os fatos acima envolvendo números de Bernoulli
em vários textos, por exemplo em [118] e [31]. Nesse último texto, a relação (13.C.10) é provada
usando séries de Fourier.
Como os termos da série do lado esquerdo de (13.C.10) decaem muito rapidamente quando n →
∞, exceto o termo com k = 1, inferimos que
2n1
(−1)n+1 (2n)!
π = lim .
n→∞ 22n−1 B2n
7. Aproximação de Ramanujan48 para π, de 191449 :

9.801
π = lim n .
n→∞ √ X (4k)! [1.103 + 26.390 k]
8
k=0
(k!)4 3964n
√
Devido à presença do fator 8, esta não
√é uma aproximação a π por racionais. Isso, porém, pode
ser facilmente√remediado substituindo 8 acima por an , sendo an alguma seqüência de racionais
aproximando 8.
1
8. Aproximação de Borwein e Borwein50 para π, de 1987: π = lim , onde
n→∞ pn
h √ “ √ ”i
Xn (−1)k (6k)! 212.175.710.912 61 + 1.657.145.277.365 + k 13.773.980.892.672 61 + 107.578.229.802.750
pn := 12 h “ √ ”i3k+3/2 .
k=0 (k!)3 (3k)! 5.280 236.674 + 30.303 61
√
Aqui aplica-se o mesmo comentário de acima: devido à presença do número 61 e do número
√ 3/2
5.280 236.674 + 30.303 61 , a aproximação acima não é uma aproximação a π por racionais.
Isso, porém, pode ser remediado substituindo esses números por aproximações racionais.
A aproximação de Borwein e Borwein converge a π de modo impressionantemente rápido. Já

a primeira aproximação, 1/p0 , fornece corretamente os primeiros 24 dı́gitos de π na base decimal!
Cada termo seguinte da seqüência acrescenta aproximadamente 25 dı́gitos corretos ao valor de π na
48
Srinivasa Aiyangar Ramanujan (1887-1920).
49
A aproximação de Ramanujan surgiu em “Modular Equations and Approximations to π”. S. Ramanujan. The
Quarterly Journal of Pure and Applied Mathematics. 45, 350-372 (1914).
50
Jonathan M. Borwein e Peter B. Borwein são irmãos. Para mais detalhes sobre seu trabalho sobre a aproximação de
π, vide “Pi and the AGM. A Study in Analytic Number Theory and Computational Complexity”. Jonathan M. Borwein
e Peter B. Borwein. Editora John Willey and Sons. inc. 1986.
base decimal. No caso da aproximação de Ramanujan a convergência é um pouco mais lenta: cada
termo da seqüência acrescenta aproximadamente 8 dı́gitos corretos ao valor de π na base decimal. As
aproximações de Wallis e Gregory são extremamente lentas. Usando-as, um super-computador do inı́cio
dos anos 1990 levaria cerca de 100 anos para computar apenas os primeiros 100 dı́gitos corretos de π
na base decimal. A aproximação de Borwein e Borwein baseia-se em trabalhos de Ramanujan sobre as
chamadas equações modulares.
A fórmula de Machin (e ligeiras variantes da mesma) converge mais rapidamente que as de Wallis e
Gregory (por que?) e foi usada desde o século XVIII até a década de 1970 para cálculos de π (manuais
ou com computadores).
Em 1844, Dase51 calculou corretamente, usando a fórmula de Machin, as primeiras 205 casas deci-
mais de π. O cálculo foi feito à mão (!) e durou alguns meses. O feito de Dase foi superado em 1853 por
Shanks52 , que calculou 607 casas decimais de π. O cálculo também foi feito à mão e custou-lhe alguns
anos de trabalho. Infelizmente, porém, Shanks cometeu erros que resultaram em que seus últimos
80 dı́gitos estavam incorretos. Isso só foi percebido 92 anos depois (!), em 1946, por Ferguson, que
computou corretamente os primeiros 620 dı́gitos decimais de π.
Com o advento dos computadores eletrônicos tais cálculos deixaram de ser feitos por meios românticos.
Em 1987, usando a aproximação de Borwein e Borwein, π foi calculado por um super-computador com
uma precisão de cem milhões de casas decimais. Essa precisão foi aumentada desde então. Em 1999, π
era conhecido com 3 × 236 = 206.158.430.208 (cerca de duzentos bilhões) de dı́gitos decimais. O feito é
de Y. Kanada e D. Takahashi. Este ainda é o recorde atual (2003) e foi alcançado com dois algoritmos
distintos (para comparação), o dos irmãos Borwein e outro denominado Gauss-Legendre. O primeiro
consumiu 46 horas de computação em um super-computador e o segundo 37 horas.
Em 1996 Bailey, Borwein e Plouffe publicaram um algoritmo que permite determinar o n-ésimo
dı́gito hexadecimal de π sem o conhecimento dos precedentes. Em 1997 Plouffe descobriu um algoritmo
para determinar o n-ésimo dı́gito de π em qualquer base.
Outras informações históricas, especialmente sobre esses desenvolvimentos mais recentes, podem
ser encontradas em “The quest for Pi”, de D. H. Bailey, J. M. Borwein, P. B. Borwein e S. Plouffle.
The Mathematical Intelligencer 19, 50-57 (1997).
Ainda que no passado a determinação de valores aproximados de π tivesse importância em áreas
como a Fı́sica, a Astronomia e a Engenharia, dificilmente cálculos ultra-precisos de π podem ter re-
levância em aplicações: com apenas 37 dı́gitos decimais é possı́vel computar o perı́metro de um cı́rculo
com o raio do universo conhecido (cerca de 1, 3 × 1026 m) com uma precisão equivalente ao diâmetro
do um átomo de hidrogênio (cerca de 1, 0 × 10−10 m). Há, porém, um certo interesse matemático em
tais cálculos, envolvendo conjecturas sobre a distribuição dos dı́gitos decimais de π. Valores precisos
de π são também úteis em simulações numéricas. Ainda assim, hoje em dia a prática de cálculos
ultra-precisos de π tem motivação predominantemente esportiva.
51
Zacharias Dase (1824-1861).
52
Willian Shanks (1812-1882).
Capı́tulo 14
O Teorema do Ponto Fixo de Banach e Algumas de
Suas Conseqüências
Conteúdo
14.1 O Teorema de Ponto Fixo de Banach . . . . . . . . . . . . . . . . . . . . . 780
14.1.1 Aplicação a Equações Numéricas. O Método de Newton . . . . . . . . . . . . 782
14.1.2 Uma Generalização do Teorema de Ponto Fixo de Banach . . . . . . . . . . . 786
14.2 As Equações Integrais de Fredholm e de Volterra . . . . . . . . . . . . . . 787
14.3 Aplicações à Teoria das Equações Diferenciais Ordinárias . . . . . . . . . 795
14.3.1 O Teorema de Picard-Lindelöf . . . . . . . . . . . . . . . . . . . . . . . . . . 795
14.3.2 Generalizando o Teorema de Picard-Lindelöf. Soluções Globais . . . . . . . . 800
14.3.3 Um Teorema de Comparação de Soluções de EDO’s . . . . . . . . . . . . . . 801
14.4 O Teorema da Função Implı́cita e o Teorema da Função Inversa . . . . . 805
14.4.1 O Teorema da Função Implı́cita . . . . . . . . . . . . . . . . . . . . . . . . . . 805
14.4.2 O Teorema da Função Inversa . . . . . . . . . . . . . . . . . . . . . . . . . . . 810
14.A O Lema de Grönwall . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 811
eja X um conjunto qualquer e f : X → X uma função de X em X. Muitas vezes, em

problemas práticos e teóricos, estamos interessados em encontrar os pontos x que são levados
em si mesmos pela função f , ou seja, os pontos x tais que
x = f (x).
Os pontos que satisfazem essa equação são chamados de pontos fixos da transformação f e a equação
acima é denominada equação de ponto fixo. Veremos vários exemplos abaixo de equações desse tipo,
tanto no contexto de equações numéricas quanto no de equações integrais e diferenciais.
Na prática, dada uma função f , pode afigurar-se difı́cil saber se sequer existe um ponto fixo para ela.
Muitas vezes estamos interessados em saber quantos pontos fixos há e, freqüentemente, gostarı́amos de
garantir que há um e apenas um ponto fixo de uma dada função (a chamada “unicidade da solução”).
Teoremas que nos garantem existência e, por vezes, unicidade de soluções de equações de ponto fixo
são chamados de teoremas de ponto fixo. Há vários teoremas de tal tipo na literatura matemática, como
por exemplo, o Teorema de Ponto Fixo de Banach1 , o Teorema de Ponto Fixo Brouwer2 , o teorema do
ponto fixo de Schauder3 e vários outros, todos com pressupostos distintos sobre o conjunto X e sobre
a função f .
1
2
Luitzen Egbertus Jan Brouwer (1881-1966).
3
Juliusz Pawel Schauder (1899-1943).
779
Seja por exemplo o disco fechado Dn de n :
q

Dn := (x1 , . . . , xn ) ∈ n 2 2
x1 + · · · + x n ≤ 1 .

O chamado Teorema do Ponto Fixo de Brouwer afirma que toda função contı́nua (na topologia usual)
de Dn em Dn tem pelo menos um ponto fixo. Aqui a unicidade nem sempre pode ser garantida: pense
no exemplo das rotações em 3 em torno de um eixo que passa pela origem. Todo ponto ao longo do

eixo de rotação é levado em si mesmo pela rotação e é, portanto, um ponto fixo da mesma.
O Teorema do Ponto Fixo de Schauder afirma que se X é um subconjunto convexo e compacto de
um espaço de Banach então toda função contı́nua (na topologia da norma) de X em X tem um ponto
fixo.
Aqui trataremos de um teorema de ponto fixo extremamente útil conhecido como Teorema de Ponto
Fixo de Banach, que funciona em espaços métricos completos. De fato, este é de longe o teorema de
ponto fixo com mais aplicações práticas, sendo que sua influência se estende aos domı́nios das equações
integrais, das equações diferenciais, das equações numéricas em , da Análise Numérica e de muitas
outras áreas da Matemática pura e aplicada.
Uma das razões de sua importância reside no fato de o Teorema de Ponto Fixo de Banach fornecer,
junto com seu enunciado, um método aproximativo para a determinação do ponto fixo, método este
que é muito eficiente. Vamos ao seu enunciado.
14.1 O Teorema de Ponto Fixo de Banach

Teorema 14.1 (Teorema de Ponto Fixo de Banach) Seja M um conjunto dotado de uma métrica
d e suponha M completo em relação a d. Seja A um subconjunto fechado de M e seja T uma função
de A em A, T : A → A. Vamos então supor que exista um número q com 0 ≤ q < 1 tal que para todos
os pontos x e y de A valha
d(T (x), T (y)) ≤ q d(x, y). (14.1)
Então, a equação de ponto fixo
x = T (x), (14.2)
tem solução em A e essa solução é única. Além disso, para qualquer x 0 ∈ A, a seqüência xn = T (xn−1 ),
n ≥ 1, obtida aplicando-se repetidamente T a partir de x0 , converge (rapidamente) ao ponto fixo x na
métrica d. A saber, tem-se que
qn
d(xn , x) ≤ d(x1 , x0 ). (14.3)
1−q
2
Uma função T : A → A tal que existe um número q com 0 ≤ q < 1 e tal que para todos os pontos x
e y de A valha a desigualdade (14.1) é dita ser uma contração. O teorema acima afirma então que toda
contração em um espaço métrico completo tem um e somente um ponto fixo. Esse teorema fornece um
método iterativo de determinar aproximadamente o ponto fixo, sendo que, por (14.3), a aproximação
é tanto melhor quanto mais iterações forem feitas.
Vamos primeiro provar o teorema e depois veremos vários exemplos de seu uso.
Prova do Teorema 14.1. Como A é um subconjunto fechado de um espaço métrico completo, então A é
também completo em relação à mesma métrica (vide Proposição 15.7, página 835).
Para simplificar a notação denotaremos por T n a n-ésima composição de T consigo mesma: T
| ◦ ·{z
· · ◦ T}.
n
Definimos então para um x0 ∈ A arbitrário xn = T n (x0 ), n ∈ , n > 0.
Vamos agora provar que {xn } é uma seqüência de Cauchy em A. Para isso sejam m e n dois
números naturais quaisquer tais que m < n. Então, usando a desigualdade triangular n − m vezes
temos o seguinte:
d(xm , xn ) ≤ d(xm , xm+1 ) + d(xm+1 , xn )
≤ d(xm , xm+1 ) + d(xm+1 , xm+2 ) + d(xm+2 , xn )
..
.
≤ d(xm , xm+1 ) + d(xm+1 , xm+2 ) + · · · + d(xn−1 , xn ).
Pela propriedade de contração, temos que
d(xa , xa+1 ) = d(T (xa−1 ), T (xa )) ≤ q d(xa−1 , xa ) ≤ · · · ≤ q a d(x0 , x1 ).
Daı́
d(xm , xn ) ≤ q m + q m+1 + . . . + q n−1 d(x0 , x1 )
e, portanto,
∞
!
X qm
m n−1−m m a
d(xm , xn ) ≤ q 1+q +...+q d(x0 , x1 ) ≤ q q d(x0 , x1 ) = d(x0 , x1 ).
a=0
1−q
Isso prova que {xn } é uma seqüência de Cauchy, pois q m pode ser feito arbitrariamente pequeno
tomando m grande, para qualquer n > m.
Como {xn } é uma seqüência de Cauchy em A e A é completo, deve haver x em A único ao qual a
seqüência converge. Temos sempre, usando a desigualdade triangular, que
d(x, xm ) ≤ d(x, xn ) + d(xn , xm ).
Tomando n > m, temos
qm
d(x, xm ) ≤ d(x, xn ) + d(x0 , x1 ).
1−q
Como xn se aproxima de x para n grande, podemos fazer o termo d(x, xn ) arbitrariamente pequeno,
tomando n grande, sem alterar os demais. Daı́, concluı́mos que
qm
d(x, xm ) ≤ d(x0 , x1 ). (14.4)
1−q
Essa última desigualdade mostra que xm de fato se aproxima exponencialmente rápido de x.
Vamos agora provar que x, o limite da seqüência {xn }, é um ponto fixo. Para isso calculemos
d(x, T (x)). Teremos, pela desigualdade triangular
d(x, T (x)) ≤ d(x, xm+1 ) + d(xm+1 , T (x)),
para todo m. Usando (14.4) e a contratividade de T teremos,
q m+1 q m+1 q m+1 q m+1

d(x, T (x)) < d(x0 , x1 ) + q d(xm , x) < d(x0 , x1 ) + d(x0 , x1 ) = 2 d(x0 , x1 ).
1−q 1−q 1−q 1−q
Como m é arbitrário podemos fazer m → ∞ e obtemos d(x, T (x)) = 0, o que implica que x = T (x).
Por fim, resta-nos provar que x é o único ponto fixo de T . Para tal, vamos supor que haja um
outro: x0 = T (x0 ). Terı́amos, usando a contratividade, que
d(x, x0 ) = d(T (x), T (x0 )) ≤ q d(x, x0 ),
ou seja, (1 − q)d(x, x0 ) ≤ 0. Como q < 1 isso implica d(x, x0 ) = 0, que implica x = x0 . Isso completa
a prova do Teorema de Ponto Fixo de Banach.
Observação. A condição que q < 1 é crucial, sem ela as conclusões do teorema podem não mais ser
válidas. Vejamos o seguinte exemplo4 . Seja M = [1, ∞) com a métrica usual d(x, y) = |x − y| e seja
T : M → M dada por T (x) = x + x−1 . Então vale para todo x e y ∈ M , x 6= y,
d(T (x), T (y)) < d(x, y) .
De fato, para 1 ≤ x < y,

Z y Z y Z y
0 1
T (y) − T (x) = T (t)dt = 1− 2 dt < dt = y − x,
x x t x
pois 1 − t−2 < 1 para t > 1, sendo essa a melhor estimativa possı́vel. Assim,
|T (y) − T (x)| < |y − x| ,
como querı́amos provar. Note agora, porém, que T não tem nenhum ponto fixo. De fato, T (x) = x
significa x + x−1 = x, ou seja, x−1 = 0, o que não é possı́vel se x ∈ [1, ∞).
14.1.1 Aplicação a Equações Numéricas. O Método de Newton
• Equações Numéricas
Vamos a alguns exemplos simples de aplicações do Teorema de Ponto Fixo de Banach. Seja a reta
real e a seguinte equação de ponto fixo em :
x = λ cos(x),
onde 0 < λ < 1 é uma constante dada. Terá essa equação uma solução? Será ela única? Como
T (x) := λ cos(x) é uma função de em , podemos adotar em a métrica usual em relação à qual

4
Agradeço a D. A. Cortez por mostrar-me esse exemplo.
é completo. Em face do Teorema de Ponto Fixo de Banach a questão natural é saber se T é uma
contração. Vamos provar que isso é verdade.
Z y

d(T (x), T (y)) = λ | cos(x) − cos(y)| = λ sen (t) dt ≤ λ |x − y| = λ d(x, y),
x
pois | sen (t)| ≤ 1. Assim, vemos que T é uma contração com q = λ.

O Teorema de Ponto Fixo de Banach nos afirma então que, partindo-se de qualquer número real
x0 , as iteradas sucessivas de T convergem ao número x, ponto fixo de T :
xn = λ cos (λ cos (λ cos (· · · λ cos(x0 ) · · · ))) .
| {z }
n vezes
No caso λ = 1/2, o estudante que tenha uma simples calculadora é estimulado a determinar que o
ponto fixo é x ' 0, 45018311 . . ..
E. 14.1 Exercı́cio. Nesse caso, tomando por exemplo x0 = 0, estime o erro da aproximação se pararmos
após 30 iterações. 6
E. 14.2 Exercı́cio. O que acontece na equação de ponto fixo acima se λ > 1? A solução permanece
única? Faça gráficos das funções a(x) = x e b(x) = λ cos(x) para esclarecer essa questão. 6
E. 14.3 Exercı́cio. Use o Teorema de Ponto Fixo de Banach para mostrar que, em , a equação x = e −x
tem uma e somente uma solução. Qual é ela, aproximadamente? Estime o erro após 40 iterações. 6
• O método de Newton para zeros de funções
O bem conhecido método de Newton de determinação de zeros de funções reais 5 pode ser estudado
sob a luz do Teorema de Ponto Fixo de Banach. Seja f : → uma função da qual desejamos

determinar um zero, ou seja, uma solução da equação f (χ) = 0. Notemos que essa equação equivale
(trivialmente) à equação χ = χ − ff0(χ)
(χ)
, pelo menos se f 0 (χ) 6= 0. Colocado dessa forma o problema
torna-se um problema de ponto fixo para a aplicação T : → definida por
f (x)
T (x) := x − .
f 0 (x)
Isso motiva a seguinte proposição.
Proposição 14.1 Se f for pelo menos duas vezes diferenciável então f possuirá um zero χ, único,
num dado intervalo [a, b] se existir λ com 0 ≤ λ < 1 tal que

f (x)f 00 (x)

(f 0 (x))2 ≤ λ , para todo x ∈ [a, b] , (14.5)
e se
f (x)

f 0 (x) ≤ (1 − λ)α , (14.6)
5
Para a motivação geométrica do método de Newton, vide discussão à página 785 sobre a Figura 14.1.
onde x := a+b
2
e α := b−a
2
. Nesse caso, tem-se χ = limn→∞ xn , onde a seqüência xn ∈ [a, b] é
determinada iterativamente por
f (xn )
xn+1 = xn − , n≥0,
f 0 (xn )
sendo x0 ∈ [a, b], arbitrário. Ter-se-á,
λn λn
|χ − xn | ≤ |T (x0 ) − x0 | ≤ (b − a) , n ≥ 0. (14.7)
1−λ 1−λ
Se adotarmos x0 = x teremos ainda |χ − xn | ≤ αλn , n ≥ 0, por (14.6). 2
Nota. A condição (14.5) pressupõe f 0 (x) 6= 0 em [a, b]. Como veremos abaixo, a condição (14.5) é
importante por garantir a contratividade de T , enquanto que (14.6) é suficiente para garantir que T
leve pontos de [a, b] em [a, b], podendo ser eventualmente substituı́da por outra condição que garanta
o mesmo. Notemos, por fim, que o método de Newton funciona mesmo sob condições mais fracas sobre
a função f , nesse caso fora do contexto do Teorema de Ponto Fixo de Banach. A convergência das
iterações pode, então, ser mais lenta que aquela garantida em (14.7). Vide para tal qualquer bom livro
de Cálculo Numérico.
Prova. Sejam x, y ∈ [a, b]. Tem-se

f (y) f (x)
T (y) − T (x) = y − 0
−x+ 0
f (y) f (x)
Z y Z y
d f (t) f (t)f 00 (t)
= t− 0 dt = dt .
x dt f (t) x (f 0 (t))2
Assim, (14.5) garante que
|T (y) − T (x)| ≤ λ|y − x| .
Isso estaria dizendo-nos que T é um contração. Precisamos, porém, garantir que T leve pontos de [a, b]
em [a, b]. Isso equivale a garantir que |T (x) − x| ≤ α para todo x ∈ [a, b], ou seja, para todo x tal que
|x − x| ≤ α. Uma maneira de impor isso usando (14.5) é supor válida a condição (14.6). De fato,

f (x) f (x)
|T (x) − x| = T (x) − T (x) + 0 ≤ |T (x) − T (x)| + 0
f (x) f (x)

por (14.5) f (x)
≤ λ|x − x| + 0
f (x)
por (14.6)
≤ λ|x − x| + (1 − λ)α
pois x ∈ [a, b]
≤ λα + (1 − λ)α
= α.
Com isso, provamos que T é uma contração que mapeia o espaço métrico completo [a, b] em si mesmo.
O Teorema de Ponto Fixo de Banach garante o resto.
√
E. 14.4 Exercı́cio-Exemplo. Usando o método de Newton determine um valor aproximado para 2
da seguinte forma: determine o zero positivo de f (x) = x2 − 2. As iterações serão xn+1 = T (xn ) com
2
T (x) = x 2x+2 . Que intervalo [a, b] é conveniente adotar? O que ocorre próximo a x = 0 e por que?
Partindo-se,√por exemplo, de x0 = 2 obtem-se os valores sucessivos 3/2, 17/12, 577/408. Esse√último
valor aproxima 2 com um erro de 2 × 10−6 . Note que esse procedimento fornece aproximações de 2 por
números racionais. 6
√
E. 14.5 Exercı́cio-Exemplo. Faça o mesmo para 3. 6
O método de Newton pode ser motivado geometricamente pela Figura 14.1. A linha reta que passa
pelo ponto (xn , f (xn )) tangencia o gráfico da função f . Sua inclinação é, portanto, f 0 (xn ). Assim,
o ponto xn+1 indicado na figura vale xn+1 = xn − ff0(x n)
(xn )
(verifique!). Repetindo-se o procedimento a
partir do ponto xn+1 aproximamo-nos mais ainda do zero χ de f .
f(x)
f(x n)
χ x n+1 xn
Figura 14.1: Iteração no método de Newton. O ponto χ é um zero de f . A linha reta tangencia o
gráfico de f no ponto (xn , f (xn )) e sua inclinação é f 0 (xn ). O ponto em que essa reta corta o eixo
horizontal determina xn+1 .
No método de Newton usual, a reta tangente tem uma inclinação diferente a cada passo: f 0 (xn ).
Um método alternativo, por vezes denominado método de Newton simplificado, consiste em usar retas
de inclinação fixa, tal como na Figura 14.2. Nessa situação, o problema de determinar o zero χ de f
equivale ao problema de ponto fixo x = T (x) com
1
T (x) = x − f (x) .
γ
f(x)
f(x n)
f(xn+1 )
f(xn+2 )
arctan γ
χ xn+2 xn+1 xn
Figura 14.2: Alternativa ao método de Newton. As linhas retas não são tangentes ao gráfico de f , são
todas paralelas, todas com inclinação fixa γ. Os pontos em que essas retas cortam o eixo horizontal
são os pontos da iteração.
E. 14.6 Exercı́cio. Usando o Teorema de Ponto Fixo de Banach estude esse problema de ponto fixo e
determine condições suficientes sobre a função f e sobre a inclinação γ para garantir a existência de um
zero único de f em um intervalo [a, b]. 6
E. 14.7 Exercı́cio-desafio. Generalize o método de Newton usando parábolas tangentes, ao invés de

retas tangentes. 6
n n
O método de Newton descrito acima pode ser generalizado para funções de em , mas não
trataremos disso aqui.
14.1.2 Uma Generalização do Teorema de Ponto Fixo de Banach

Antes de tratarmos das importantes aplicações do Teorema de Ponto Fixo de Banach a equações
integrais vamos a uma pequena generalização do mesmo. Esta nos será útil, por exemplo, quando
tratarmos da equação integral de Volterra. Ocorre por vezes que uma aplicação T , como discutida
acima, não é uma contração, mas alguma de suas potências o é. Nesse caso, podemos também garantir
os mesmos resultados do Teorema de Ponto Fixo de Banach. Temos o seguinte:
Proposição 14.2 Seja M um conjunto dotado de uma métrica d e suponha M completo em relação
a d. Seja A um subconjunto fechado em M e seja T uma função de A em A, T : A → A. Vamos
supor que exista um número m ∈ tal que a aplicação T m seja uma contração, cujo ponto fixo único

é x ∈ A. Então, T também tem um ponto fixo único, a saber, o mesmo x. 2

Prova. Para provar que x é também ponto fixo de T , notemos que, como x = T m (x), temos também
que
T (x) = T m+1 (x) = T m (T (x)).
Isso diz que T (x) é ponto fixo de T m . Pelo Teorema de Ponto Fixo de Banach este último é x e é único.
Daı́ T (x) = x. Ora, isso diz precisamente que x é ponto fixo de T .
Provemos agora que x é também o único ponto fixo de T . Para tal, suponha que haja um outro:
y. Então y = T (y). Daqui tiramos que T (y) = T 2 (y). Juntando as duas vemos que y = T (y) = T 2 (y).
Repetindo esse procedimento, chegamos a y = T (y) = T 2 (y) = · · · = T m (y). Isso diz que y é ponto
fixo de T m . Agora, pelas hipóteses, o único ponto fixo de T m é x. Logo y = x.
14.2 As Equações Integrais de Fredholm e de Volterra

Vamos aqui tratar de dois tipos de equações integrais, as chamadas equações integrais de Fredholm 6 e
as equações integrais de Volterra7 . Ambas surgem em problemas de Fı́sica-Matemática e trataremos
de exemplos de aplicações adiante. A razão de tratarmos das mesmas aqui está na possibilidade de
utilizar o Teorema de Ponto Fixo de Banach para estudar a existência de soluções. O mesmo teorema
fornece, também neste caso, um poderoso método iterativo de solução, de grande importância prática.
Para uma introdução à teoria das equações integrais, vide [98] e [123]. Para um tratamento extensivo
da equação integral de Volterra, vide [88].
Antes de tratarmos dessas equações integrais, vamos discutir uma condição que estaremos usando
adiante.
• A condição de Lipschitz
Seja f : →
uma função. f é dita satisfazer a condição de Lipschitz8 em toda a reta real se

existir uma constante M ≥ 0 tal que, para todos x e x0 em tenhamos
|f (x0 ) − f (x)| ≤ M |x0 − x|.
Note que toda função que satisfaz a condição de Lipschitz para algum M é necessariamente uma
função contı́nua (por que?).
Para que uma função satisfaça a condição de Lipschitz há uma condição suficiente que é útil. Seja
f : → uma função diferenciável e tal que |f 0 (y)| ≤ M , para algum M ≥ 0 e para todo y ∈ .
Então f satisfaz a condição de Lipschitz. Para provar isso, notemos que, pelo teorema fundamental do
cálculo vale Z 0 x
0
f (x ) − f (x) = f 0 (y)dy.
x
6
7
8
Rudolf Otto Sigismund Lipschitz (1832-1903).
Daı́, Z 0
x Z x0 Z x0
0 0 0
|f (x ) − f (x)| = f (y)dy ≤ |f (y)|dy ≤ M dy = M |x0 − x|.
x x x
(Aqui tomamos x < x0 , sem perda de generalidade).
E. 14.8 Exercı́cio. Mostre que as funções sen e cos satisfazem a condição de Lipschitz. Qual M pode
ser adotado para ambas? 6
E. 14.9 Exercı́cio. Mostre que a função f (y) = y 2 não pode satisfazer a condição de Lipschitz em toda
a reta real. Sugestão: tome x0 = 0 e note que a relação |x2 | ≤ M |x| não pode ser válida para todo x ∈
com M ≥ 0 fixo qualquer. 6
Uma função que satisfaz a condição de Lipschitz é dita ser Lipschitz contı́nua. Para a demonstração
de resultados é muito útil, por vezes, (veremos exemplos adiante) mostrar-se que uma função dada é
Lipschitz contı́nua.
A condição discutida acima tem, aliás, uma generalização da qual não faremos uso aqui. Uma
função f : → é dita ser γ-Lipschitz contı́nua se existirem M ≥ 0 e γ > 0 tais que para todos x e

x0 em valha

|f (x0 ) − f (x)| ≤ M |x0 − x|γ .
A condição anterior é o caso particular deste onde γ = 1.
• As Equações Integrais de Fredholm
Seja I o intervalo [a, b] da reta real (com a e b dados e a < b) e sejam duas funções f : I → e
K : I × I × → que consideraremos contı́nuas em seus domı́nios de definição.

A chamada equação integral de Fredholm é a seguinte equação integral:

Z b
u(x) = f (x) + K(x, y, u(y)) dy.
a
Acima u : I → é a função incógnita. Note que K, que é chamada de núcleo da equação integral,

é uma função de três variáveis e que a incógnita u(y) aparece na posição de seu terceiro argumento,
dentro da integral.
Seja C0 (I) a coleção de todas as funções contı́nuas de I em . Já vimos anteriormente (Proposição

13.6, página 737) que C0 (I) é um espaço métrico completo em relação à métrica
d∞ (h, l) = sup |h(x) − l(x)|,

x∈I
onde h e l pertencem a C0 (I).

Seja T a aplicação que leva C0 (I) em si mesmo dada por
Z b
T (h)(x) = f (x) + K(x, y, h(y)) dy.
a
Note que se h é uma função contı́nua em I então T (h) também é uma função contı́nua em I. A equação
integral de Fredholm pode ser então entendida como a equação de ponto fixo em C 0 (I) dada por
u = T (u).
É natural, portanto, procurar condições que façam de T uma contração no espaço métrico completo
C0 (I), pois assim poderemos evocar o Teorema de Ponto Fixo de Banach. É neste momento que a
condição de Lipschitz se faz útil. Vamos supor que a função K satisfaça a condição de Lipschitz para
a terceira variável: vamos supor que existe M ≥ 0 tal que para todo x, y ∈ I e todos z e z 0 ∈ valha
|K(x, y, z 0 ) − K(x, y, z)| ≤ M |z 0 − z|. (14.8)

Então, pelo menos no caso em que M (b − a) < 1, a aplicação T é uma contração em C 0 (I) com relação
à métrica d∞ dada. Para provar isso, usamos que, para duas funções h, l ∈ C0 (I) temos
Z b
T (h)(x) − T (l)(x) = (K(x, y, h(y)) − K(x, y, l(y))) dy,
a
donde tiramos que

Z b
|T (h)(x) − T (l)(x)| ≤ |K(x, y, h(y)) − K(x, y, l(y))| dy
a
Z b
≤ M |h(y) − l(y)| dy
a
≤ M (b − a) sup |h(y) − l(y)| = M (b − a) d∞ (h, l) . (14.9)

y∈I
Logo,
d∞ (T (h), T (l)) = sup |T (h)(x) − T (l)(x)| ≤ M (b − a) d∞ (h, l).
x∈I
Assim, vimos que, sob as hipóteses acima, T é uma contração se M (b − a) < 1. Essa condição,
se satisfeita, garante, pelo Teorema de Ponto Fixo de Banach, que há uma e somente uma função u
em C0 (I) que é solução da equação integral de Fredholm. Com isso, a solução pode ser aproximada
(exponencialmente, na métrica d∞ ) partindo-se de qualquer u0 ∈ C0 (I) através da seqüência iterada
un = T (un−1 ), n ∈ , n ≥ 1.

A condição suficiente para termos contratividade M (b − a) < 1 é, em suma, uma condição sobre a
função K e sobre o intervalo I. Note-se que não há qualquer restrição à função f , além da que seja
contı́nua.
E. 14.10 Exercı́cio. Mostre que a equação integral de Fredholm

Z 1
yu(y)
u(x) = 2 cos(x) + sen x + dy , x ∈ [0, 1] ,
0 2
yz
tem uma solução única em C0 ([0, 1]). Sugestão: neste caso a função K é K(x, y, z) = sen x +
2
(certo?). Mostre que a mesma é Lipschitz contı́nua em relação a z com M = 1/2. Para tal estude a
derivada parcial de K em relação a z e mostre que |∂z K(x, y, z)| ≤ 1/2 para todo x, y ∈ I e todo z ∈ .
6
• As Equações Integrais de Volterra
A chamada equação integral de Volterra é a seguinte equação integral:

Z x
u(x) = f (x) + K(x, y, u(y)) dy.
a
Acima u : I → , I := [a, b] com b > a é a função incógnita e f e K são definidas tal como no caso

das equações integrais de Fredholm. Note que K, que é chamada de núcleo da equação integral, é uma
função de três variáveis e que a incógnita u(y) aparece na posição de seu terceiro argumento, dentro da
integral. Note também que a equação integral de Volterra difere da equação integral de Fredholm pelo
aparecimento de mais uma dependência em x, a saber, no limite superior do intervalo de integração.
Seja T a aplicação que leva C0 (I) em si mesmo dada por
Z x
T (h)(x) = f (x) + K(x, y, h(y)) dy.
a
Note que se h é uma função contı́nua em I então T (h) também é uma função contı́nua em I. A equação
integral de Volterra pode ser então entendida como a equação de ponto fixo em C 0 (I) dada por
u = T (u).
Como no caso da equação integral de Fredholm, poderı́amos procurar condições que façam de T uma
contração no espaço métrico completo C0 (I) pois, assim, poderı́amos novamente evocar o Teorema de
Ponto Fixo de Banach. Todavia, como veremos, podemos aqui proceder de um modo diferente do caso
da equação de Fredholm e obter condições mais fracas para garantir a existência de solução. O que
faremos não é procurar condições que garantam que T seja uma contração, mas provaremos que T m o
é, para algum m > 0. Assim, poderemos evocar a generalização do Teorema de Ponto Fixo de Banach
fornecida na Proposição 14.2, página 786.
Para tal, procedemos como antes e assumimos ser a função K Lipschitz contı́nua em relação à
terceira variável, ou seja, que valha a condição descrita em (14.8). Daqui tiramos, para x ∈ I,
Z x
T (h)(x) − T (l)(x) = (K(x, y, h(y)) − K(x, y, l(y))) dy,
a
donde segue que

Z x
|T (h)(x) − T (l)(x)| ≤ |K(x, y, h(y)) − K(x, y, l(y))| dy
a
Z x
≤ M |h(y) − l(y)| dy
a
≤ M (x − a) sup |h(y) − l(y)| = M (x − a) d∞ (h, l) .

y∈I
A diferença entre essa última expressão e a expressão correspondente (14.9) para a equação de Fredholm
é que aqui surge o fator (x − a), que ainda depende de x, ao invés do fator constante (b − a). Como se
verá no que segue, essa diferença é importante. Vamos agora provar por indução que para todo n ∈
tem-se
(x − a)n
|T n (h)(x) − T n (l)(x)| ≤ M n d∞ (h, l), ∀x ∈ I. (14.10)
n!
Como já vimos que isso é verdade para n = 1, assumamos que essa relação é válida para um certo n
genérico. Então,
Z x
n+1
T (h)(x) − T n+1
(l)(x) ≤ |K(x, y, T n (h)(y)) − K(x, y, T n (l)(y))| dy
a
Z x
≤ M |T n (h)(y) − T n (l)(y)| dy
a
Z x
n (y − a)n
≤ M M dy d∞ (h, l)
a n!
(x − a)n+1
= M n+1 d∞ (h, l) ,
(n + 1)!
o que prova (14.10) para todo n ∈ , por indução. Assim, temos também que
(b − a)n
d∞ (T n (h), T n (l)) ≤ M n d∞ (h, l), ∀n ∈ .
n!

Note-se agora que, para quaisquer M , a e b fixos, existe n grande o suficiente tal que
[M (b − a)]n
< 1
n!
(por que?). Assim, para um tal n, T n será uma contração. Pela generalização do Teorema de Ponto
Fixo de Banach fornecida pela Proposição 14.2, página 786, vemos que T tem também um ponto fixo
único. Isso garante existência e unicidade das soluções da equação de Volterra em C 0 (I). Note-se que,
aqui, foi suficiente assumir que K satisfaça a relação descrita em (14.8), não havendo restrições ao valor
do produto M (b − a), ao contrário do que ocorreu no caso da equação de Fredholm.
• Equações Diferenciais de Segunda Ordem e as Equações Integrais de Volterra
Vamos aqui tratar de mostrar algumas aplicações das equações integrais de Volterra à resolução de
problemas, muito freqüentemente encontrados em Fı́sica, envolvendo equações diferenciais de segunda
ordem com certas condições iniciais dadas.
Para tal, faremos uso da seguinte identidade, válida para qualquer função φ que seja pelo menos
duas vezes diferenciável em :
Z t
φ(t) = φ(t0 ) + φ̇(t0 )(t − t0 ) + (t − t0 )φ̈(t0 ) dt0 . (14.11)
t0
E. 14.11 Exercı́cio. Prove essa identidade. Sugestão: use as identidades

Z t Z t0
0 0 0
φ(t) = φ(t0 ) + φ̇(t ) dt e φ̇(t ) = φ̇(t0 ) + φ̈(t00 ) dt00
t0 t0
e use integração por partes. 6
Para ilustrar o uso que podemos fazer da identidade (14.11), vamos considerar a bem conhecida
equação do pêndulo simples
g
θ̈(t) = − sen (θ(t))
l
(para g > 0 e l > 0) com condições iniciais θ(0) = θ0 e θ̇(0) = ω0 . Substituindo o lado direito em
(14.11) temos Z
g t
θ(t) = θ0 + ω0 t − (t − t0 ) sen (θ(t0 )) dt0 , (14.12)
l 0
que é uma equação integral de Volterra não-linear para θ.
E. 14.12 Exercı́cio. Constate que o núcleo dessa equação integral

g
K(t, t0 , z) = − (t − t0 ) sen (z)
l
satisfaz a condição de Lipschitz para t e t0 contidos em qualquer intervalo finito [−T, T ], 0 < T < ∞. 6
Deste último exercı́cio concluı́mos que a equação do pêndulo simples, com as condições iniciais
dadas, tem solução única em qualquer intervalo finito [−T, T ], 0 < T < ∞.
E. 14.13 Exercı́cio. Calcule as duas primeiras aproximações para a solução da equação integral (14.12)
seguindo o procedimento iterativo. Tome como ponto de partida a função identicamente nula: θ 0 (t) ≡ 0.
Você consegue, olhando o resultado do cômputo das duas primeiras aproximações, interpretar fisicamente o
que elas representam? 6
E. 14.14 Exercı́cio de meditação. Pode-se obter soluções oscilantes para a equação do pêndulo simples
acima pelo procedimento iterativo que advem do Teorema de Ponto Fixo de Banach? 6
E. 14.15 Exercı́cio. Seja a conhecida equação do pêndulo simples no limite de pequenas oscilações:
g
θ̈(t) = − θ(t),
l
com condições iniciais θ(0) = φ0 e θ̇(0) = ω0 . Usando (14.11) transforme-a em uma equação integral de
Volterra e resolva-a pelo método iterativo, tomando como ponto de partida a função identicamente nula:
θ0 (t) ≡ 0. Para tal, determine a n-ésima iterada θn exatamente
r e mostre que a mesma converge a uma
g
certa combinação linear de cos(ωt) e sen (ωt), onde ω = . Para tal você precisará lembrar-se da série
l
de Taylor das funções sen e cos. 6
Uma outra ilustração do uso das equações integrais de Volterra, e sua resolução via Teorema de
Ponto Fixo de Banach, pode ser encontrada no estudo das equações diferenciais lineares de segunda
ordem não-homogêneas com coeficientes não necessariamente constantes
ü(t) + a(t)u̇(t) + b(t)u(t) = c(t), (14.13)
com condições iniciais dadas do tipo u(0) = u0 e u̇(0) = v0 . Tais equações são muito freqüentemente
encontradas em problemas de Fı́sica-Matemática e o estudante certamente já as viu surgir, por exemplo,
em Mecânica Clássica.
Nosso objetivo é transformar o problema de determinar a solução u da equação diferencial com
condições iniciais acima no problema de resolver uma equação integral de Volterra equivalente.
Há mais de uma maneira de se obter uma tal equação integral a partir de (14.13). Para o propósito
de demonstrar existência e unicidade da solução, com condições pouco exigentes sobre as funções a, b
e c, vamos considerar primeiro uma equação integral para ü. Uma outra equação integral diretamente
para u será vista depois.
Vamos supor aqui que haja um intervalo fechado finito I = [−T, T ], 0 < T < ∞, onde as funções
a, b e c que aparecem acima sejam contı́nuas. Pelo teorema fundamental do cálculo e pela identidade
(14.11), temos que
Z t
u̇(t) = v0 + ü(t0 ) dt0 , (14.14)
0
Z t
u(t) = u0 + v0 t + (t − t0 ) ü(t0 ) dt0 . (14.15)
0
Substituindo-se em (14.13) u e u̇ pelo lado direito de (14.14) e (14.15), respectivamente, teremos

Z t
ü(t) = f (t) + K(t, t0 ) ü(t0 )dt0 , (14.16)
0
onde
f (t) := c(t) − (b(t)t + a(t))v0 − b(t)u0 (14.17)
e
K(t, t0 ) := −a(t) − b(t)(t − t0 ). (14.18)
E. 14.16 Exercı́cio. Verifique tudo isso. 6
A equação (14.16) é claramente uma equação de Volterra linear para ü que, pelas hipóteses de
continuidade sobre as funções a, b e c, possui solução única no intervalo I, dado que nesse intervalo
K é limitado (por que?). A função u pode ser então obtida integrando-se duas vezes a solução ü da
equação (14.16) ou usando-se novamente a identidade (14.11).
O que vimos acima pode ser então resumido no seguinte teorema:
Teorema 14.2 Sejam as funções a, b e c contı́nuas no intervalo I = [−T, T ]. Então, nesse intervalo,
a solução da equação diferencial linear de segunda ordem não-homogênea
ü(t) + a(t)u̇(t) + b(t)u(t) = c(t), (14.19)
com condições iniciais dadas do tipo u(0) = u0 e u̇(0) = v0 , existe e é única. 2
É notável que seja suficiente exigir tão pouco (só continuidade dos coeficientes) para garantir-se
existência e unicidade da equação acima. Há funções contı́nuas que não são diferenciáveis em parte
alguma (você conhece um exemplo?) ou mesmo algumas que são crescentes mas têm derivada nula
quase em toda parte (a função de Cantor tratada no capı́tulo de teoria da medida é um exemplo) e
mesmo com tais funções nos coeficientes de (14.13) tem-se garantida existência e unicidade da solução.
Para um outro tratamento da equação (14.13) usando a chamada série de Dyson, vide Capı́tulo 6.
A equação integral (14.16) é uma equação para ü. O leitor pode estar se perguntando se não
podemos ter uma equação integral diretamente para u. A resposta é positiva. Fazendo mais uma vez
uso da identidade (14.11), temos
Z t
u(t) = u0 + v0 t + (t − t0 ) [−a(t0 )u̇(t0 ) − b(t0 )u(t0 ) + c(t0 )] dt0 . (14.20)
0
Integrando-se por partes obtemos

Z t
u(t) = f (t) + K(t, t0 )u(t0 ) dt0 , (14.21)
0
onde agora Z t
f (t) := u0 + t(v0 + a(0)u0 ) + (t − t0 )c(t0 )dt0 (14.22)
0
e
K(t, t0 ) := −a(t0 ) + (t − t0 )(a0 (t0 ) − b(t0 )). (14.23)

Z t
0
Novamente, se a, a e b forem contı́nuas no intervalo I, assim como a função (t − t0 )c(t0 )dt0 , então
0
a existência e a unicidade da solução da equação tratada estarão garantidas no mesmo
Z t intervalo I.
Note-se que aqui podemos admitir também casos em que c não é contı́nua, desde que (t − t0 )c(t0 )dt0
0
o seja.
E. 14.18 Exercı́cio. Seja a equação do pêndulo simples forçado no limite de pequenas oscilações
θ̈(t) + ω02 θ(t) = f (t)
onde f representa (a menos de uma constante) uma força externa dependente do tempo. Considere o caso
em que f é periódica de perı́odo T > 0, f (t) = f (t + nT ), ∀n ∈ , com f dada no intervalo [0, T ) por

f0 , se 0 ≤ t ≤ T /2,
f (t) = .
0, se T /2 < t < T,
Transforme essa equação em uma equação integral de Volterra equivalente e mostre como a mesma pode
ser resolvida iterativamente. 6
E. 14.19 Exercı́cio. O mesmo para a equação do pêndulo simples forçado
θ̈(t) + ω 2 sen θ(t) = f (t)
com a mesma f dada acima. 6
14.3 Aplicações à Teoria das Equações Diferenciais Ordinárias

Iremos agora tratar de algumas das mais importantes aplicações do Teorema de Ponto Fixo de Banach,
a saber, à teoria das equações diferenciais ordinárias (EDO’s). O principal resultado que obteremos
é o célebre Teorema de Picard-Lindelöf que fornece condições suficientes para existência e unicidade
de soluções de EDO’s. Obteremos também resultados sobre a dependência de soluções com relação a
condições iniciais e a parâmetros. Trataremos de equações diferenciais de uma classe bastante geral, a
saber, equações diferenciais em espaços de Banach, de modo a incluir sistemas de equações diferenciais
ordinárias definidas em n e n . O leitor é convidado a uma leitura prévia do Capı́tulo 5, página 248,

que trata de tais assuntos de forma introdutória.
14.3.1 O Teorema de Picard-Lindelöf

Esta subseção foi originalmente escrita por Daniel A. Cortez
Uma das principais aplicações do Teorema de Ponto Fixo de Banach dá-se, talvez, no contexto de
espaços de funções, mais precisamente, quando o mesmo é empregado na teoria das equações diferenciais
ordinárias (EDOs). Como veremos, o Teorema de Ponto Fixo de Banach é crucial para a demonstração
de um famoso teorema sobre existência e unicidade de soluções para EDOs devido a Picard 9 e Lindelöf10 .
Antes de entrarmos nos detalhes técnicos, gostarı́amos de fazer uma pequena nota histórica: original-
mente, a demonstração de existência e unicidade de soluções para EDOs se deve a Lindelöf. Entretanto,
o método que aplicaremos aqui para a sua demonstração, fazendo uso explı́cito do Teorema de Ponto
Fixo de Banach, deve-se a Picard11 . Esses trabalhos datam da década de 90 do Século XIX.
No que segue procuraremos apresentar uma versão bastante geral do teorema sobre existência e uni-
cidade de soluções para EDOs válido para equações definidas em espaços de Banach B. Consideremos,
a saber, o seguinte tipo de equação diferencial de primeira ordem
ẋ(t) = f (t, x(t)) , (14.24)
onde t ∈ e x : → B representa uma função de uma variável real assumindo valores em um espaço

de Banach B. Acima, f : × B → B é uma função de t ∈ e x ∈ B sobre a qual suporemos certas

hipóteses convenientes de continuidade etc.

O leitor deve ter em mente o caso em que B = (ou B = ), quando a equação acima representa

uma equação de primeira ordem de uma função real (complexa) desconhecida x(t), ou o caso em que
9
Charles Émile Picard (1856-1941).
10
Ernst Leonard Lindelöf (1870-1946).
11
Chamado de Método das aproximações sucessivas.
B = n (ou B = n ), quando a equação acima representa um sistema de equações de primeira ordem

de um vetor real (complexo) desconhecido de n componentes: x(t) = (x1 (t), . . . , xn (t)). Tais sistemas
foram discutidos no Capı́tulo 5, página 248.
Um problema de valor inicial consiste de uma equação diferencial ordinária, como a dada acima,
mais uma condição inicial
x(t0 ) = x0 , (14.25)
onde t0 ∈ e x0 ∈ B são dados. Com essa pequena definição, estamos prontos para enunciar o teorema

de existência e unicidade de Picard-Lindelöf:

Teorema 14.3 (Teorema de Picard-Lindelöf. Existência e unicidade de soluções de EDO’s)
Seja f : × B → B não-identicamente nula e contı́nua na região fechada

R ≡ Ra, b, t0 , x0 := { (t, x) ∈ × B : |t − t0 | ≤ a, kx − x0 k ≤ b } , (14.26)
para certos valores a > 0 e b > 0, onde k · k representa a norma do espaço de Banach B. Claro é que
f é limitada em R. Seja c > 0 definida por
c := sup kf (t, x)k . (14.27)

(t, x)∈R
Suponha ainda que f seja Lipschitz contı́nua em R com relação ao seu segundo argumento, ou seja,
existe uma constante k ≥ 0 tal que para todos (t, x) e (t, y) ∈ R valha
kf (t, x) − f (t, y)k ≤ k kx − yk . (14.28)
Então, pelo menos no intervalo fechado [t0 − β, t0 + β], onde

b
β := min a, , (14.29)
c
o problema de valor inicial descrito pelas relações ẋ(t) = f (t, x(t)) com x(t 0 ) = x0 apresenta uma
solução, a qual é única.
Uma condição suficiente para que a condição de Lipschitz acima se cumpra é que ∂ y f (t, y) exista em
todo R e lá seja limitada, em cujo caso a constante de Lipschitz seria dada por k := sup k∂y f (t, y)k.
(t, y)∈R
2
Antes de apresentarmos a demonstração, gostarı́amos de notar o seguinte: embora de importante

aplicação na maioria das situações práticas na teoria das EDOs, o Teorema de Picard-Lindelöf não é o
mais forte que existe em sua categoria. Para uma lista completa dos diversos teoremas sobre existência
e/ou unicidade de solução para EDOs, vide [1]. Na Seção 5.4, página 280, apresentamos exemplos
de aplicação do Teorema de Picard-Lindelöf e exemplos nos quais o mesmo não se aplica, tendo por
conseqüência a inexistência ou não-unicidade da solução.
Descrevamos agora a técnica a ser utilizada em nossa demonstração. O primeiro passo consiste
em convertermos a equação diferencial (14.24) em uma equação integral, definindo-se para isso uma
transformação T . Em seguida, sob as hipóteses do teorema, mostraremos que existe uma certa potência
da transformação T , digamos T m , m ≥ 1, tal que T m é uma contração. Feito isso, utilizando o Teorema
de Ponto Fixo de Banach em sua versão generalizada (Proposição 14.2, página 786), concluiremos a
existência e a unicidade do ponto fixo para a transformação T , o qual será justamente a solução de
nosso problema. Faremos uso nessa demonstração, de dois resultados prévios, que escrevemos sob a
forma de dois lemas. O primeiro deles, é a Proposição 13.6, página 737, que recordamos aqui.
Lema 14.1 Seja C([a, b], B) o espaço das funções contı́nuas definidas no compacto [a, b] ⊂
assumindo valores no espaço e Banach B. Então, C([a, b], B) é um espaço de Banach em relação à
métrica do supremo, definida por
d∞ (f, g) := sup kf (t) − g(t)k ,

t∈[a, b]
para f, g ∈ C([a, b], B). 2
A demonstração é idêntica à da Proposição 13.6, página 737, e não precisa se repetida aqui. O
segundo lema que utilizaremos é o seguinte.
e ⊂ C([a, b], B) o sub-espaço de C([a, b], B)
Lema 14.2 Sejam [a, b] ⊂ e para κ > 0 fixo, seja C

formado pelas funções x : [a, b] → B tais que
kx(t) − x0 k ≤ κ , ∀t ∈ [a, b] . (14.30)

e é um sub-espaço fechado de C([a, b], B).
Então, C 2
Prova. Tudo o que precisamos fazer é mostrar que qualquer seqüência convergente (x n ) de elementos de
e converge para um x∗ que também está em C
C e (se você não entendeu a razão dessa afirmação, confira
a Proposição 15.7 da página 835). De fato, como xn ∈ C e para todo n ∈ , temos
kxn (t) − x0 k ≤ κ , ∀t ∈ [a, b] .
Já que essa expressão não depende de t, podemos escrever
d∞ (xn , x0 ) = sup kxn (t) − x0 k ≤ κ . (14.31)

t∈I
Por outro lado, como por hipótese a seqüência (xn ) converge para x∗ , então, dado ε > 0, existe Nε > 0
tal que para todo n > Nε vale:
d∞ (xn , x∗ ) ≤ ε . (14.32)
Vamos agora utilizar a desigualdade triangular:
d∞ (x∗ , x0 ) ≤ d∞ (x∗ , xn ) + d∞ (xn , x0 ) ≤ ε + κ , (14.33)
onde, na última desigualdade, fizemos uso das relações (14.31) e (14.32). Uma vez que (14.33) é
verdadeira para qualquer ε > 0, concluı́mos então que
kx∗ (t) − x0 k ≤ sup kx∗ (t) − x0 k = d∞ (x∗ , x0 ) ≤ κ , ∀t ∈ [a, b] ,

t∈[a, b]
e
mostrando que x∗ também pertence a C.
Prova do Teorema 14.3. Seja J o intervalo [t0 − β, t0 + β] ⊂ e considere o espaço C(J, B) das

funções contı́nuas em J assumindo valores em B, dotado com a métrica do supremo. Considere ainda
o sub-espaço C e ⊂ C(J, B) formado pelo conjunto das funções x(t) tais que
kx(t) − x0 k ≤ cβ , ∀t ∈ J . (14.34)
Pelo Lema 14.1, sabemos que C(J, B) é um espaço de Banach. Por outro lado, do Lema 14.2 vemos
que o subespaço Ce é fechado em C(J, B). Logo, da Proposição 15.7 da página 835, concluı́mos
imediatamente que C e também é um espaço de Banach. Essa é uma conclusão importante da qual
faremos uso adiante.
Definamos agora uma transformação T pela seguinte relação:
Z t
(T x)(t) := x0 + f (τ, x(τ )) dτ . (14.35)
t0
Vamos mostrar que T é uma aplicação que leva C e em C,e ou seja, T : Ce → C.

e De fato, para τ ∈ J e
e como cβ ≤ b, concluı́mos de (14.26) que (τ, x(τ )) ∈ R. Logo a curva J 3 τ 7→ (τ, x(τ )) ∈
x(τ ) ∈ C,
× B é contı́nua e está inteiramente contida na região R, onde f é contı́nua por hipótese. Assim,
J 3 τ 7→ f (τ, x(τ )) ∈ B é contı́nua e a sua integral estará bem definida. Concluı́mos daı́ que T pode
e Agora vamos mostrar que T x é novamente um elemento em C.
ser aplicada a funções de C. e
Utilizando a relação (14.27) de limitação da função f no retângulo R, tem-se para x ∈ C,e
Z t Z t

k(T x)(t) − x0 k =
f (τ, x(τ )) dτ ≤ kf (τ, x(τ ))k dτ ≤ c|t − t0 | ≤ cβ ,
t0 t0
provando que T x dista de x0 menos que cβ, uma das condições definidores do conjunto C. e Resta-nos
e Para tal, já vimos que para x ∈ C
provar que T x é contı́nua caso x ∈ C. e fixo, J 3 τ 7→ f (τ, x(τ )) ∈ B
é igualmente contı́nua e, portanto, limitada, ou seja, existe Nx > 0 tal que kf (τ, x(τ ))k ≤ Nx para
todo τ ∈ J. Logo, para t, t0 ∈ J, com t0 ≥ t
Z 0 Z t0
t
0
k(T x)(t ) − (T x)(t)k = f (τ, x(τ )) dτ ≤ kf (τ, x(τ ))k dτ ≤ Nx |t0 − t| .
t t
Como o lado direito vai a zero para t → t0 provou-se que (T x)(t) é contı́nua como função de t ∈ J.
e se x ∈ C.
Assim, T x ∈ C e
Chegamos agora ao ponto crucial de nossa demonstração. Observe que se x(t) ∈ C e satisfaz o nosso
problema de valor inicial (relações (14.24) e (14.25)), então certamente x(t) pode ser escrita como
Z t
x(t) = (T x)(t) = x0 + f (τ, x(τ )) dτ . (14.36)
t0
Para tal, procedemos como no tratamento da equação integral de Volterra, página 791, assumindo
que a função f seja Lipschitz contı́nua em relação à segunda variável, ou seja, que valha a condição
e
descrita em (14.28). Para t ∈ J, e h, l ∈ C,
Z t
(T h)(t) − (T l)(t) = f (τ, h(τ )) − f (τ, l(τ )) dτ,
t0
donde segue que (assumimos sem perda de generalidade que t ≥ t0 )

Z t
k(T h)(t) − (T l)(t)k ≤ kf (τ, h(τ )) − f (τ, l(τ ))k dτ
t0
Z t
≤ κ kh(τ ) − l(τ )k dτ
t0
≤ κ|t − t0 | sup kh(τ ) − l(τ )k = κ|t − t0 | d∞ (h, l) .

τ ∈J
Vamos agora provar por indução que para todo n ∈ tem-se

|t − t0 |n
k(T n h)(x) − (T n l)(x)k ≤ κn d∞ (h, l), ∀t ∈ J. (14.37)
n!
Como já vimos que isso é verdade para n = 1, assumamos que essa relação é válida para um certo n
genérico. Então,
Z t
n+1
(T h)(t) − (T n+1
l)(t) ≤ kf (τ, (T n h)(τ )) − f (τ, (T n l)(τ ))k dτ
t0
Z t
≤ κk(T n h)(τ ) − (T n l)(τ )k dτ
t0
Z t
n |τ − t 0 |n
≤ κ κ dτ d∞ (h, l)
t0 n!
|t − t0 |n+1
= κn+1 d∞ (h, l) ,
(n + 1)!
o que prova (14.37) para todo n ∈ e todo t ∈ J, por indução. Assim, temos também que
(κβ)n
d∞ (T n h, T n l) ≤ d∞ (h, l), ∀n ∈ . (14.38)
n!

n
Note-se agora que, para quaisquer κ e β fixos, existe n grande o suficiente tal que [κβ]
n!
< 1. Assim,
n e
para um tal n, T será uma contração do espaço completo C e si mesmo (a afirmativa de que C e é um
espaço completo, baseia-se no fato já provado de que C e é um espaço de Banach). Nessas condições,
podemos certamente evocar a versão generalizada do Teorema de Ponto Fixo de Banach fornecida pela
e satisfazendo (14.36).
Proposição 14.2, página 786, garantindo a existência e a unicidade de x(t) ∈ C,
Mas isso implica justamente a existência e unicidade de solução em C(J, B) do problema de valor
inicial considerado, demonstrando o Teorema 14.3.
No Capı́tulo 5, especialmente na Seção 5.4.1, página 283 e seguintes, são discutidos exemplos de
equações diferenciais ordinárias que violam as condições do Teorema de Picard-Lindelöf.
14.3.2 Generalizando o Teorema de Picard-Lindelöf. Soluções Globais

Nesta sub-seção demonstraremos um teorema que fornece condições suficientes para a existência de
soluções globais de problemas de valor inicial. O primeiro teorema abaixo é um resultado preparatório
que estende o Teorema de Picard-Lindelöf, Teorema 14.3, página 796.
Em toda esta seção, B denota um espaço de Banach com norma k · k e, para a > 0 e t 0 ∈ ,
denotamos por Fa, t0 ⊂ × B a faixa de largura a centrada em t0 definida por

Fa, t0 := { (t, y) ∈ × B : |t − t0 | ≤ a , y ∈ B arbitrário} .
Teorema 14.4 Suponhamos que para um certo a > 0 e para t0 ∈ tenhamos uma função f : Fa, t0 →

B que seja contı́nua. Suponhamos também que f é Lipschitz contı́nua em relação à segunda variável,
ou seja, existe uma constante ka (denominada constante de Lipschitz) tal que para todos (t, y), (t, v) ∈
Fa, t0 vale kf (t, y) − f (t, v)k ≤ ka ky − vk. Então, para qualquer = x0 ∈ B, o problema de valor inicial
ẋ(t) = f (t, x(t)) com x(t0 ) = x0 apresenta uma solução única válida para todo t ∈ [t 0 − a, t0 + a].
Uma condição suficiente para que a condição de Lipschitz acima se cumpra é que ∂ y f (t, y) exista
em todo ponto de Fa, t0 e lá seja limitada, em cujo caso a constante de Lipschitz pode ser escolhida
como ka := sup k∂y f (t, y)k. 2
(t, y)∈Fa, t0
O leitor deve notar que esse teorema difere do Teorema de Picard-Lindelöf primeiro na hipótese de
que f seja Lipschitz contı́nua em uma faixa infinita Fa, t0 de largura 2a centrada no instante inicial t0 ,
e não apenas em uma região compacta como o R do Teorema 14.3; segundo na conclusão, que afirma
que a solução existe em todo intervalo [t0 − a, t0 + a] e não em um intervalo eventualmente menor.
Prova. A demonstração segue passos semelhantes aos da prova do Teorema de Picard-Lindelöf. Seja J
o intervalo fechado [t0 − a, t0 + a]. Considere o espaço C(J, B) das funções contı́nuas em J assumindo
valores em B, dotado com a métrica do supremo. Pelo Lema 14.1, sabemos que C(J, B) é um espaço
de Banach. Como na prova do Teorema de Picard-Lindelöf, definimos a transformação
Z t
(T x)(t) := x0 + f (τ, x(τ )) dτ . (14.39)
t0
Vamos mostrar que T é uma aplicação que leva C(J, B) em C(J, B). De fato, para τ ∈ J e x ∈ C(J, B)
tem-se obviamente que (τ, x(τ )) ∈ Fa, t0 . Logo, a curva J 3 τ 7→ (τ, x(τ )) ∈ × B é contı́nua e está

inteiramente contida na região Fa, t0 , onde f é contı́nua por hipótese. Assim, J 3 τ 7→ f (τ, x(τ )) ∈ B
é contı́nua e a sua integral estará bem definida. Concluı́mos daı́ que T pode ser aplicada a funções de
C(J, B). Agora vamos mostrar que T x é novamente um elemento em C(J, B) e para tal é preciso
provar que T x é contı́nua caso x ∈ C(J, B). Para x ∈ C(J, B) fixo, vimos que J 3 τ 7→ f (τ, x(τ )) ∈ B
é igualmente contı́nua e, portanto, limitada, ou seja, existe Nx > 0 tal que kf (τ, x(τ ))k ≤ Nx para
todo τ ∈ J. Logo, para t, t0 ∈ J, com t0 ≥ t
Z 0 Z t0
t
0
k(T x)(t ) − (T x)(t)k = f (τ, x(τ )) dτ ≤ kf (τ, x(τ ))k dτ ≤ Nx |t0 − t| .
t t
Como o lado direito vai a zero para t → t0 provou-se que (T x)(t) é contı́nua como função de t ∈ J.
Assim, T x ∈ C(J, B) se x ∈ C(J, B).
Para provar que T possui um ponto fixo único em C(J, B) segue-se os mesmos passos da de-
monstração do Teorema de Picard-Lindelöf que conduziram à (14.38), que no presente caso assume a
forma
(aκa )n
d∞ (T n h, T n l) ≤ d∞ (h, l), ∀n ∈ . (14.40)
n!

n
Note-se agora que, para quaisquer a e κa fixos, existe n grande o suficiente tal que [aκn!a ] < 1. Assim,
para um tal n, T n será uma contração do espaço completo C(J, B) e si mesmo. Nessas condições,
podemos certamente evocar a versão generalizada do Teorema de Ponto Fixo de Banach fornecida pela
Proposição 14.2, página 786, garantindo a existência e a unicidade de x(t) ∈ C(J, B), satisfazendo
(14.36). Mas isso implica justamente a existência e unicidade de solução em C(J, B) do problema de
valor inicial considerado, demonstrando o Teorema 14.4.
Chegamos finalmente ao
Teorema 14.5 (Existência e unicidade de soluções globais) Seja f : × B → B contı́nua em

todo × B. Suponhamos também que para todo a > 0, f seja Lipschitz contı́nua em relação à segunda

variável na faixa Fa, t0 , ou seja, para cada a > 0 existe uma constante ka (eventualmente dependente de a
e denominada constante de Lipschitz) tal que para todos (t, y), (t, v) ∈ Fa, t0 vale kf (t, y)−f (t, v)k ≤
ka ky − vk. Então, para qualquer x0 ∈ B, o problema de valor inicial ẋ(t) = f (t, x(t)) com x(t0 ) = x0
apresenta uma solução única válida para todo t ∈ .
Uma condição suficiente para que a condição de Lipschitz acima se cumpra é que ∂ y f (t, y) exista
em todo × B e seja limitada em cada faixa Fa, t0 , a > 0, em cujo caso as constantes de Lipschitz

podem ser escolhidas como ka := sup k∂y f (t, y)k. 2

(t, y)∈Fa, t0
Prova. A prova é imediata pelo Teorema 14.4.
Sugerimos aqui os exercı́cios da página 289 e os comentários que se lhe seguem.
14.3.3 Um Teorema de Comparação de Soluções de EDO’s

Nesta seção estabeleceremos um resultado fundamental para a análise da dependência de soluções de
EDO’s para com as condições iniciais e para com os parâmetros que definem a equação, duas questões
importantes em aplicações. Esse resultado está expresso no Teorema 14.6 que permite comparar a
evolução de soluções de equações diferenciais distintas, com condições iniciais distintas. Após seu
enunciado e demonstração faremos alguns comentários relevantes.
Teorema 14.6 Seja B um espaço de Banach, f1 , f2 : ×B → B duas funções e sejam y1 , y2 : I → B

soluções dos problemas de valor inicial
ẋ(t) = f1 (t, x(t)) , x(t0 ) = x1 ,
ẋ(t) = f2 (t, x(t)) , x(t0 ) = x2 ,

respectivamente, válidas em um intervalo I que contem o ponto t0 ∈ .
Seja R ⊂ × B uma região fechada da forma
R = { (t, x) ∈ × B : |t − t0 | ≤ a, kx − x0 k ≤ b } , (14.41)
para certos a > 0, b > 0 e x0 ∈ B, onde k · k representa a norma do espaço de Banach B. Vamos supor
que R que satisfaça as seguintes condições:
1. I ⊂ [t0 − a, t0 + a].
2. (t0 , x1 ) ∈ R e (t0 , x2 ) ∈ R.
3. f1 e f2 são contı́nuas em R.
4. f1 é Lipschitz contı́nua em R com constante κ1 > 0, ou seja, para todos (t, u) e (t, v) ∈ R vale
kf1 (t, u) − f1 (t, v)k ≤ κ1 ku − vk . (14.42)
5. Os gráficos de y1 e y2 estão ambos contidos em R, ou seja,

ky1 (t) − x0 k ≤ b e ky2 (t) − x0 k ≤ b
para todo t ∈ I ⊂ [t0 − a, t0 + a].
Então, para todo t ∈ I vale a desigualdade

" #
1
ky1 (t) − y2 (t)k ≤ kx1 − x2 k eκ1 |t−t0 | + sup kf1 (t, x) − f2 (t, x)k eκ1 |t−t0 | − 1 . (14.43)
κ1 (t, x)∈R
Prova. Como vimos, podemos sob as hipóteses escrever, para t ∈ I,

Z t Z t
y1 (t) = x1 + f1 (τ, y1 (τ )) dτ e y2 (t) = x2 + f2 (τ, y2 (τ )) dτ .
t0 t0
Disso segue que

Z th i
y1 (t) − y2 (t) = x1 − x2 + f1 (τ, y1 (τ )) − f2 (τ, y2 (τ )) dτ
t0
Z th i Z th i
= x1 − x2 + f1 (τ, y1 (τ )) − f1 (τ, y2 (τ )) dτ + f1 (τ, y2 (τ )) − f2 (τ, y2 (τ )) dτ .
t0 t0
(14.44)
Na última igualdade acima fizemos uso da hipótese 5 do Teorema 14.6, de modo que f 1 (τ, y2 (τ )) está
bem definido para τ ∈ I. Supondo, sem perda de generalidade, que t ≥ t0 , temos pela condição de
Lipschitz para f1 ,
Z t h i Z t Z t

f1 (τ, y1 (τ )) − f1 (τ, y2 (τ )) dτ
≤ f1 (τ, y1 (τ ))−f1 (τ, y2 (τ )) dτ ≤ κ1 ky1 (τ )−y2 (τ )kdτ .
t0 t0 t0
Definindo-se
C := sup kf1 (t, x) − f2 (t, x)k ,
(t, x)∈R
tem-se Z t h i

f (τ, y (τ )) − f (τ, y (τ )) dτ ≤ C (t − t0 ) .
1 2 2 2
t0
Definindo-se também D := kx1 − x2 k, segue de (14.44) que

Z t
ky1 (t) − y2 (t)k ≤ D + κ1 ky1 (τ ) − y2 (τ )k dτ + C (t − t0 ) , (14.45)
t0
desigualdade essa que pode ser trivialmente escrita na forma

Z t
C C C
ky1 (t) − y2 (t)k + ≤ D+ + κ1 ky1 (τ ) − y2 (τ )k + dτ . (14.46)
κ1 κ1 t0 κ1
Nessa forma, vemos pelo Lema 14.3, página 811, que podemos aplicar a desigualdade de Grönwall,
expressão (14.A.2), obtendo

C C
ky1 (t) − y2 (t)k + ≤ D+ eκ1 (t−t0 ) ,
κ1 κ1
ou seja
C κ1 (t−t0 )
ky1 (t) − y2 (t)k ≤ Deκ1 (t−t0 ) + e −1 .
κ1
O caso t < t0 é análogo. Isso completa a prova.
Passemos a alguns comentários sobre o Teorema 14.6.
• Comentário ao Teorema 14.6. Continuidade em relação às condições iniciais
No caso em que f1 = f2 , tem-se C = 0 e a desigualdade (14.43) reduz-se a
ky1 (t) − y2 (t)k ≤ kx1 − x2 k eκ1 |t−t0 | . (14.47)
Essa desigualdade informa-nos que em intervalos finitos de tempo, sob as condições do Teorema 14.6,
as soluções do problema de valor inicial ẋ(t) = f1 (t, x(t)), x(t0 ) = x1 dependem continuamente da
condição inicial x1 . A desigualdade acima informa-nos também que variando-se as condições iniciais as
soluções da equação diferencial acima pode no máximo divergir exponencialmente para curtos intervalos
de tempo.
• O Expoente de Lyapunov
O chamado expoente de Lyapunov12 no ponto x1 associado ao problema de valor inicial acima é

definido por13
1 ky1 (t) − y2 (t)k
λx1 := lim lim ln ,
t→t0 x2 →x1 |t − t0 | kx1 − x2 k
caso esses limites existam14 . De (14.47) vê-se que 0 ≤ λx1 ≤ κ1 . A noção de expoente de Lyapunov tem
uma certa relevância no estudo equações diferenciais com comportamento “caótico” (vide, por exemplo,
[63] para uma introdução à teoria dos sistemas dinâmicos), por fornecer uma indicação qualitativa
de quão rápida se dá a divergência das soluções para curtos intervalos de tempo por mudanças nas
condições iniciais, pois permite-nos a aproximação
ky1 (t) − y2 (t)k ≈ kx1 − x2 keλx1 |t−t0 |
para |t − t0 | pequeno e kx1 − x2 k pequeno. Alguns autores caracterizam a presença de caos no sistema
definido pela equação diferencial que tratamos através da presença de um expoente de Lyapunov
positivo (não-nulo). Essa caracterização, ainda que popular em certos cı́rculos, não é geral o suficiente
e é substituı́da por outras caracterizações melhores, notadamente em textos matemáticos (vide, por
exemplo, [63]).
• Comentário ao Teorema 14.6. Continuidade por mudanças de parâmetros
No caso em que x1 = x2 , tem-se D = 0 e a desigualdade (14.43) reduz-se a

" #
1
ky1 (t) − y2 (t)k ≤ sup kf1 (t, x) − f2 (t, x)k eκ1 |t−t0 | − 1 .
κ1 (t, x)∈R
Essa desigualdade informa-nos que em intervalos finitos de tempo, as soluções do problema de valor
inicial ẋ(t) = f1 (t, x(t)), x(t0 ) = x1 dependem continuamente de deformações da função f1 (por exem-
plo, deformações por mudanças dos parâmetros que definem a função f1 ) que respeitem as condições
do Teorema 14.6. Essas deformações podem, inclusive, ser tais que f1 seja levada a uma função não-
Lipschitz contı́nua f2 (note que no enunciado do Teorema 14.6 assumimos a continuidade de Lipschitz
apenas para a função f1 ).
A continuidade em relação a parâmetros também pode ser inferida do seguinte argumento elegante.
Seja o problema de valor inicial ẋ(t) = f1 (t, x(t), p0 ), x(t0 ) = x1 , onde f1 depende de um parâmetro
p0 , como indicado. Como p0 é constante, esse problema equivale ao sistema de equações diferenciais
ẋ(t) = f1 (t, x(t), p(t)) ,
ṗ(t) = 0 ,
12
Aleksandr Mikhailovich Lyapunov (1857-1918). O nome de Lyapunov é grafado de diversas outras formas: Liapunov,
Liapounov, Liapounoff etc.
13
O leitor deve ser advertido do fato de haver outras definições de expoente de Lyapunov na literatura, nem todas
totalmente equivalentes a essa.
14
Pode ser necessário substituir os limites por lim sup’s e lim inf’s.
com condições iniciais x(t0 ) = x1 , p(t0 ) = p0 . A esse sistema aplicam-se também os teoremas anteriores
sobre existência, unicidade e continuidade em relação a condições iniciais, o que nos permite inferir a
continuidade desejada caso, adicionalmente, f1 (t, x, p) seja Lipschitz contı́nua na sua dependência com
o parâmetro p em uma vizinhança de p0 .
14.4 O Teorema da Função Implı́cita e o Teorema da Função

Inversa
O Teorema de Ponto Fixo de Banach pode ser utilizado para demonstrar dois teoremas importantes:
o Teorema da Função Implı́cita e o Teorema da Função Inversa. Esses teoremas são bem-conhecidos
da Análise em n e iremos apresentá-los e demonstrá-los aqui no contexto bastante geral de espaços

de Banach. Nessa forma geral esses teoremas desempenham um papel relevante em áreas tais como a
teoria das equações diferenciais (ordinárias e parciais), na geometria diferencial e na teoria dos sistemas
dinâmicos, como no célebre Teorema KAM15 . A importância do Teorema da Função Implı́cita reside
no fato de o mesmo garantir condições suficientes para a solubilidade de uma classe bastante geral de
equações funcionais.
Como veremos, a demonstração do Teorema da Função Implı́cita faz também uso do Teorema
do Valor Médio e da noção de derivada de Fréchet, ambas discutidas na Seção 20.2.2, página 909 (o
Teorema do Valor Médio é o Teorema 20.1, página 912). Familiaridade com aquela seção é recomendada
ao leitor. Para o estudante é também interessante notar que a demonstração do Teorema da Função
Implı́cita que apresentaremos guarda forte semelhança com as idéias por trás do método de Newton,
o qual discutimos páginas acima. Isso não é por acaso, mas deixamos ao leitor como exercı́cio de
meditação entender por quê. Para uma discussão geral, com notas históricas, sobre o Teorema da
Função Implı́cita e suas aplicações, vide [74]16 .
14.4.1 O Teorema da Função Implı́cita

Para o enunciado e demonstração do Teorema da Função Implı́cita abaixo faremos uso da noção de
derivada parcial introduzida à página 913 e seguintes e da notação correspondente.
Teorema 14.7 (Teorema da Função Implı́cita em Espaços de Banach) Sejam X e Y espaços
de Banach, A ⊂ X e B ⊂ Y dois abertos e seja F : A × B → Y contı́nua e diferenciável com derivada
contı́nua (ou seja, de classe C1 ). Suponhamos ainda que existam x0 ∈ A e y0 ∈ B tais que F (x0 , y0 ) = 0
e que a aplicação linear D2 F (x0 , y0 ) = F 0 (x0 , y0 )ΛY : Y → Y seja invertı́vel. Então, existem abertos
A0 ⊂ A e B0 ⊂ B contendo x0 e y0 , respectivamente, e uma função contı́nua f : A0 → B0 satisfazendo
f (x0 ) = y0 e F (x, f (x)) = 0 para todo x ∈ A0 . Para cada x ∈ A0 o ponto f (x) ∈ B0 é o único que
satisfaz F (x, y) = 0. A função f é contı́nua e diferenciável com derivada contı́nua, sendo
−1
f 0 (x) = − D2 F (x, f (x)) D1 F (x, f (x)) . (14.48)
2
15
Andrey Nikolaevich Kolmogorov (1903-1987); Vladimir Igorevich Arnol’d (1937-); Jürgen Moser (1928-1999).
16
Agradecemos a D. A. Cortez por essa referência.
Prova. Para simplificar a notação denotemos o operador linear D2 F (x0 , y0 ) : Y → Y por L. A idéia
da prova é usar o Teorema do Ponto Fixo de Banach para mostrar que para cada x suficientemente
próximo de x0 a aplicação Tx : B → Y dada por Tx (y) ≡ T (x, y) := y − L−1 F (x, y) tem um ponto
fixo único (que denotaremos por f (x)) em uma vizinhança suficientemente pequena de y0 . Assim
f (x) = Tx (f (x)), ou seja, L−1 F (x, f (x)) = 0, o que implica F (x, f (x)) = 0. Para provar os fatos
delineados acima, provaremos que existe um aberto B1 ⊂ B que contem y0 e que é levado em si mesmo
por Tx , desde que x esteja próximo o suficiente de x0 . Em seguida provaremos que Tx é uma contração
quando restrito ao fecho de B1 . O Teorema do Ponto Fixo de Banach garante, então, a existência e
unicidade do ponto fixo. As demais afirmações do enunciado (continuidade e diferenciabilidade de f )
seguem de certas estimativas que encontraremos no caminho.
Para x fixo em A, a derivada de Tx (y) em relação a y é a derivada parcial
D2 T (x, y) = Y − L−1 D2 F (x, y) . (14.49)
Trata-se de um operador linear e limitado de Y em Y. Analogamente,
D1 T (x, y) = L−1 D1 F (x, y) . (14.50)
Trata-se de um operador linear e limitado de X em Y.
Tomemos 0 < q < 1 fixo. O fato que D2 F (x0 , y0 ) = L implica que Y − L−1 D2 F (x, y) anula-se no
ponto (x0 , y0 ). Assim, a continuidade de D2 F (x, y) como função de x e y garante que existe 1 > 0
tal que se kx − x0 kX ≤ 1 e ky − y0 kY ≤ 1 então
k Y − L−1 D2 F (x, y)k < q . (14.51)
Como veremos logo abaixo, é importante sabermos estimar a norma de diferenças como T (x, y) −
T (x0 , y 0 ). Com uso do Teorema 20.1, página 912, podemos escrever17
Z 1
0 0 0 0 0
x − x0
T (x, y) − T (x , y ) = T τ (x, y) + (1 − τ )(x , y ) dτ . (14.52)
0 y − y0
Usando a representação (20.14) e escrevendo
T 0 (x, y) = D1 T (x, y) ΠX + D2 T (x, y) ΠY ,
ficamos com
Z 1
0 0 0 0
x − x0
T (x, y) − T (x , y ) = D1 T τ (x, y) + (1 − τ )(x , y ) ΠX dτ
0 y − y0
Z 1
0 0
x − x0
+ D2 T τ (x, y) + (1 − τ )(x , y ) ΠY dτ
0 y − y0
Z 1
0 0

= D1 T τ (x, y) + (1 − τ )(x , y ) dτ (x − x0 )
0
Z 1
0 0

+ D2 T τ (x, y) + (1 − τ )(x , y ) dτ (y − y 0 ) .
0
17
Para sermos estritos quanto à notação, deverı́amos escrever a combinação linear convexa que surge no argumento de
0
T em (14.52) na forma de vetores-coluna: τ xy + (1 − τ ) xy0 . Renunciamos a esse preciosismo, porém.
0
Assim,
kT (x, y) − T (x0 , y 0 )k ≤ γ1 kx − x0 kX + γ2 ky − y 0 kY , (14.53)
onde
γj := sup Dj T τ (x, y) + (1 − τ )(x0 , y 0 ) , j = 1, 2 .
τ ∈[0, 1]
Observe-se que se tivermos x, x0 ∈ A1 e y, y 0 ∈ B1 , onde
A1 := {x00 ∈ X| kx00 − x0 kX < 1 } e B1 := {y 00 ∈ Y| ky 00 − y0 kY < 1 } ,
poderemos estimar

γ1 = sup D1 T τ (x, y) + (1 − τ )(x0 , y 0 )
τ ∈[0, 1]

= sup L−1 D1 F τ (x, y) + (1 − τ )(x0 , y 0 )
τ ∈[0, 1]
−1
≤ sup L D1 F (x00 , y 00 ) =: β ,
x00 ∈A1 , y 00 ∈B1
e

γ2 = sup D2 T τ (x, y) + (1 − τ )(x0 , y 0 )
τ ∈[0, 1]
≤ sup kD2 T (x00 , y 00 )k

x00 ∈A1 , y 00 ∈B1

≤ sup Y − L−1 D2 F (x00 , y 00 )
x00 ∈A1 , y 00 ∈B1
(14.51)
< q. (14.54)
Podemos escolher um número 2 > 0 satisfazendo simultaneamente 2 < 1 e β2 < (1 − q)1 (se
β ≥ 1 a segunda condição implica a primeira) e definir
A2 := {x00 ∈ X| kx00 − x0 kX < 2 } .
É evidente que A2 ⊂ A1 e que as estimativas γ1 ≤ β e γ2 < q permanecem válidas se tivermos x, x0 ∈ A2

e y, y 0 ∈ B1 .
Isto posto, tomemos x ∈ A2 , y ∈ B1 e consideremos a diferença Tx (y) − y0 = T (x, y) − y0 . Como
T (x0 , y0 ) = y0 (pois F (x0 , y0 ) = 0), temos que Tx (y) − y0 = T (x, y) − T (x0 , y0 ). Por (14.53), teremos
kTx (y) − y0 k = kT (x, y) − T (x0 , y0 )k ≤ γ1 kx − x0 kX + γ2 ky − y0 kY ≤ β2 + q1 < 1 , (14.55)
a última desigualdade devendo-se a β2 < (1 − q)1 . A expressão (14.55) ensina-nos que se x ∈ A2
então Tx é uma aplicação de B1 em si mesmo.
Também para x ∈ A2 e y, y 0 ∈ B1 teremos

(14.53) (14.54)
kTx (y) − Tx (y 0 )k = kT (x, y) − T (x, y 0 )k ≤ γ2 ky − y 0 k < q ky − y 0 k ,
provando que Tx é uma contração. Como B1 é um espaço métrico completo, podemos agora evocar o
Teorema de Ponto Fixo de Banach e assim estabelecer que para cada x ∈ A2 a aplicação Tx : B1 → B1
tem um único ponto fixo em B1 , que denotaremos por f (x). A equação de ponto fixo f (x) = Tx (f (x))
significa F (x, f (x)) = 0, como comentamos no inı́cio da demonstração.
Para x, x0 ∈ A2 e pela equação de ponto fixo tem-se f (x) − f (x0 ) = Tx (f (x)) − Tx0 (f (x0 )) =
T (x, f (x)) − T (x0 , f (x0 )) e, novamente por (14.53) com γ1 ≤ β, γ2 < q, segue que
kf (x) − f (x0 )kY < βkx − x0 kX + qkf (x) − f (x0 )kY ,
ou seja, kf (x) − f (x0 )kY < β(1 − q)−1 kx − x0 kX , o que implica que f é contı́nua em A2 .
Pela unicidade, tem-se também que f (x0 ) = y0 .
A diferenciabilidade de f pode ser estabelecida, sob as hipóteses dadas, escrevendo-se

f (x + h) − f (x) = S(x, h) + T(x, h) + D1 T (x, f (x)) h + D2 T (x, f (x)) f (x + h) − f (x) , (14.56)
onde,
h i
S(x, h) := T (x + h, f (x + h)) − T (x, f (x + h)) − D1 T (x, f (x + h)) h
h i
+ T (x, f (x + h)) − T (x, f (x)) − D2 T (x, f (x)) f (x + h) − f (x)
T(x, h) := (D1 T (x, f (x + h)) − D1 T (x, f (x))) h .
E. 14.20 Exercı́cio. Verifique a validade da expressão (14.56) observando que os termos do lado direito
simplesmente se cancelam para dar o lado esquerdo. 6
Disso obtem-se que

h i−1 h i−1
f (x+h)−f (x) = Y −D2 T (x, f (x)) S(x, h)+T(x, h) + Y −D2 T (x, f (x)) D1 T (x, f (x)) h ,
o que, por (14.49) e (14.50), simplifica-se para

h i−1 h i−1
f (x + h) − f (x) + D2 F (x, f (x)) D1 F (x, f (x)) h = L−1 D2 F (x, f (x)) S(x, h) + T(x, h) .

h i−1
Observe-se, de passagem, que da continuidade de D2 F (x, y), da hipótese que D2 F (x, y) existe
no ponto (x0 , y0 ) e do fato de f ser contı́nuo com f (x0 ) = y0 , segue que D2 F (x, f (x)) é igualmente
invertı́vel em uma vizinhança suficientemente pequena de x0 , pois o conjunto de elementos invertı́veis
em uma álgebra de Banach com unidade (como a álgebra dos operadores lineares limitados de Y em
Y, da qual D2 F (x, f (x)) faz parte) é aberto (Corolário 23.4, página 1058). Isso justifica a expressão
acima.
Do hipótese que F (e, portanto, T ) é diferenciável em relação a seus dois argumentos segue que
1 h i
lim T (x + h, f (x + h)) − T (x, f (x + h)) − D1 T (x, f (x + h)) h = 0
h→0 khkX
e que
1 h i
lim T (x, f (x + h)) − T (x, f (x)) − D2 T (x, f (x)) f (x + h) − f (x) = 0 .
h→0 khkX
Portanto,
1
lim S(x, h) = 0 .
h→0 khkX
Da continuidade de f e da hipótese que D1 T (x, y) é contı́nua, segue também que
1 h
lim T(x, h) = lim D1 T (x, f (x + h)) − D1 T (x, f (x)) = 0.
h→0 khkX h→0 khkX
Provamos, assim, que

!
1 h i−1
lim f (x + h) − f (x) + D2 F (x, f (x)) D1 F (x, f (x)) h = 0,
h→0 khkX
o que prova que f é diferenciável e que (14.48) é verdadeira.
• Exemplos e contra-exemplos
E. 14.22 Exercı́cio. Seja a função F (x, y) = x2 + y com x, y ∈ . No ponto (x0 , y0 ) = (0, 0) a

função F se anula. Verifique que as condições do Teorema da Função Implı́cita são satisfeitas nesse caso e
que f (x) = −x2 satisfaz f (x0 ) = y0 e F (x, f (x)) = 0 em todo . Cheque a validade de (14.48).
6
Os exercı́cios a seguir exibem algumas patologias.
E. 14.23 Exercı́cio-exemplo. Esse exercı́cio mostra uma situação na qual não existe nenhuma função f
satisfazendo f (x0 ) = y0 e F (x, f (x)) = 0. Seja a função F (x, y) = x2 + y 2 com x, y ∈ . No ponto
(x0 , y0 ) = (0, 0) a função F se anula, mas não existe nenhuma f tal que f (x 0 ) = y0 e F (x, f (x)) = 0 em
uma vizinhança de x0 , pois (0, 0) é o único zero de F . Quais hipóteses do Teorema da Função Implı́cita
falham nesse caso? 6
E. 14.24 Exercı́cio-exemplo. Esse exercı́cio mostra uma situação na qual existe mais de uma função f
satisfazendo f (x0 ) = y0 e F (x, f (x)) = 0. Seja F definida por F (x, y) = x2 − y 2 com x, y ∈ . No
ponto (x0 , y0 ) = (0, 0) a função F se anula e f± (x) = ±x satisfazem f± (x0 ) = y0 e F (x, f± (x)) = 0.
Quais hipóteses do Teorema da Função Implı́cita falham nesse caso? A relação (14.48) vale para ambas as
funções f± ? 6
E. 14.25 Exercı́cio-exemplo. Seja a função F (x, y) = x2 + y 3 com x, y ∈ . No ponto (x0 , y0 ) =

(0, 0) a função F se anula e f (x) = −x2/3 satisfaz f (x0 ) = y0 e F (x, f (x)) = 0 em . No entanto, f
não é diferenciável em (x0 , y0 ). Note, porém, que D2 F não é invertı́vel em (x0 , y0 ). Isso mostra que as
condições do Teorema da Função Implı́cita são condições suficientes mas não necessárias para a existência
de solução contı́nua. Cheque também a validade de (14.48). 6
E. 14.26 Exercı́cio-exemplo. Seja a função F (x, y) = x4 + y 3 com x, y ∈ . No ponto (x0 , y0 ) =

(0, 0) a função F se anula e f (x) = −x4/3 satisfaz f (x0 ) = y0 e F (x, f (x)) = 0. f é contı́nua com
derivada contı́nua. D2 F , porém, não é invertı́vel em (x0 , y0 ). Isso mostra que as condições do Teorema
da Função Implı́cita são condições suficientes mas não necessárias para a existência de solução contı́nua e
diferenciável. Cheque também a validade de (14.48). 6
14.4.2 O Teorema da Função Inversa

Uma das conseqüências diretas do Teorema da Função Implı́cita é um teorema que garante condições
suficientes para que uma função entre espaços de Banach seja localmente invertı́vel. Esse é o importante
Teorema da Função Inversa.
Teorema 14.8 (Teorema da Função Inversa) Sejam X e Y dois espaços de Banach e A ⊂ X um
aberto onde encontra-se definida uma função g : A → Y. Seja x0 ∈ A e seja g(x0 ) = y0 . Vamos
supor que g seja contı́nua e diferenciável com derivada contı́nua em A, de forma que a aplicação linear
g 0 (x0 ) : X → Y tenha inversa limitada. Então existem um aberto B ∈ Y contendo y 0 e uma função
h : B → X, contı́nua e diferenciável, tal que h(y0 ) = x0 e g(h(y)) = y para todo y ∈ B. Vale também
−1
h0 (y) = g 0 (h(y)) . 2
Prova. Defina-se F : Y × A → Y por F (y, x) = g(x) − y. Teremos D1 F (y, x) = − Y e D2 F (y, x) =

g 0 (x). Assim, F é diferenciável com derivada contı́nua. Verifica-se que F (y0 , x0 ) = 0 e, por hipótese,
D2 F (y0 , x0 ) = g 0 (x0 ) tem inversa limitada. Portanto, vale para F o Teorema da Função Implı́cita, que
nos garante a existência de um aberto B ∈ Y contendo y0 e uma função h : B → X tal que h(y0 ) = x0
e tal que para todo y ∈ B vale F (y, h(y)) = 0. Essa última expressão significa que g(h(y)) − y = 0,
−1
que é o que querı́amos provar. h é contı́nua e diferenciável e, por (14.48), vale h 0 (y) = g 0 (h(y)) .
Apêndices
14.A O Lema de Grönwall

O Lema de Grönwall18 , que apresentamos abaixo, é de demonstração muito simples mas possui várias
aplicações na teoria das equações diferenciais ordinárias ou parciais. Usamo-lo, por exemplo, na de-
monstração do Teorema 14.6, página 802, teorema esse que, sob hipóteses, estabelece a continuidade
de soluções de equações diferenciais ordinárias em relação a mudanças nas condições iniciais e a de-
formações de parâmetros.
Lema 14.3 (Lema de Grönwall, ou Desigualdade de Grönwall) Seja u : [t0 , T ] → [0, ∞),
uma função contı́nua e não-negativa definida em algum intervalo [t 0 , T ], T > t0 , e suponha que
existam duas constantes α ≥ 0 e β ≥ 0 tais que valha
Z t
u(t) ≤ α + β u(τ ) dτ (14.A.1)
t0
para todo t ∈ [t0 , T ]. Então,

u(t) ≤ α eβ(t−t0 ) (14.A.2)
para todo t ∈ [t0 , T ]. 2
A desigualdade (14.A.2) é denominada desigualdade de Grönwall. Note que (14.A.2) implica que u
é identicamente nula, caso α = 0. Para generalizações do Lema de Grönwall, vide [90].
Prova. No caso β = 0 as desigualdades (14.A.1) Rt e (14.A.2) equivalem e não há o que se demonstrar,
Assumamos então β > 0. A função v(t) := t0 u(τ ) dτ é contı́nua e diferenciável e dtd v(t) = u(t). Assim,
a relação (14.A.1) afirma-nos
que dtd v(t)−βv(t) ≤ α. Multiplicando essa expressão por e−β(t−t0 ) ficamos
com dtd e−β(t−t0 ) v(t) ≤ αe−β(t−t0 ) . Integrando ambos os lados dessa desigualdade entre t0 e t (sendo
−β(t−t0 ) α −β(t−t0 )
t0 ≤ t ≤ T ) e usando que v(t0 ) = 0, obtem-se e v(t) ≤ β 1 − e Multiplicando ambos os
+β(t−t0 )
lados por e , obtem-se
α β(t−t0 )
v(t) ≤ e −1 . (14.A.3)
β
A expressão (14.A.1) afirma que u(t) ≤ α + β v(t). Com a desigualdade (14.A.3), segue disso que
u(t) ≤ αeβ(t−t0 ) , como querı́amos provar.
18
Thomas Hakon Grönwall (1877-1932).
Capı́tulo 15
Espaços Topológicos e Espaços Mensuráveis.
Definições e Propriedades Básicas
Conteúdo
15.1 Definições, Propriedades Elementares e Exemplos . . . . . . . . . . . . . . 813

15.2 Algumas Construções Especiais e Exemplos . . . . . . . . . . . . . . . . . 818
15.2.1 Topologias e σ-álgebras Geradas . . . . . . . . . . . . . . . . . . . . . . . . . 818
15.2.2 Bases de Espaços Topológicos . . . . . . . . . . . . . . . . . . . . . . . . . . . 822
15.2.3 Topologias e σ-álgebras Induzidas . . . . . . . . . . . . . . . . . . . . . . . . 828
15.2.4 Topologias e σ-álgebras Produto . . . . . . . . . . . . . . . . . . . . . . . . . 830
15.3 Interior e Fecho de Conjuntos em Espaços Topológicos . . . . . . . . . . . 830
15.3.1 Fecho de Conjuntos em Espaços Métricos . . . . . . . . . . . . . . . . . . . . 834
ntroduziremos neste capı́tulo dois conceitos de importância fundamental em Matemática, o

conceito de Espaço Topológico e o conceito de Espaço Mensurável. O primeiro conceito é
uma generalização do conceito de Espaço Métrico, introduzido no Capı́tulo 13, e o segundo
é moldado de forma a permitir uma definição consistente do conceito intuitivo de medida
(como comprimento, área, volume etc.) de um conjunto. De modo muito simplificado, podemos dizer
que Topologias desempenham um papel quando se faz necessário o emprego de noções como as de con-
vergência e continuidade, enquanto que Espaços Mensuráveis são especialmente relevantes na teoria da
integração e na teoria de probabilidades. As noções de Espaço Topológico e Espaço Mensurável pene-
tram áreas da Matemática tão variadas quanto a Análise a Análise Funcional a Geometria Diferencial,
a Teoria das Equações Diferenciais, a Teoria de Grupos, a Teoria de Probabilidades e outras, através
das quais exercem também sua influência sobre praticamente toda a Fı́sica. Falaremos um pouco mais
sobre o significado e sobre a importância de cada conceito adiante.
Dado um conjunto X (doravante considerado não-vazio), denota-se por (X) a coleção de todos
os sub-conjuntos de X. Assim, em sı́mbolos, podemos expressar o fato de um conjunto A ser um
sub-conjunto de X escrevendo A ⊂ X ou A ∈ (X). É natural que X ∈ (X) e convenciona-se que
∅ ∈ (X).
Estamos muitas vezes interessados em estudar propriedades de certas coleções de sub-conjuntos de
X (ou seja de sub-conjuntos de (X)) que possuem certas caracterı́sticas de interesse. Há dois tipos
de coleções de sub-conjuntos que merecem particular atenção: as chamadas topologias e as chamadas
σ-álgebras. Vamos às definições.
812
15.1 Definições, Propriedades Elementares e Exemplos
• Topologia
Uma coleção τ de subconjuntos de X, ou seja, τ ⊂ (X), é dito ser uma topologia em X se os

seguintes requisitos forem satisfeitos:
1. ∅ ∈ τ e X ∈ τ .
2. Se A ∈ τ e B ∈ τ então A ∩ B ∈ τ .
[
3. Se I é um conjunto arbitrário de ı́ndices e Aλ ∈ τ para todo λ ∈ I então Aλ também é um
λ∈I
elemento de τ .
• σ-álgebra
Uma coleção M de subconjuntos de X, ou seja, M ⊂ (X), é dita ser uma σ-álgebra em X se os

seguintes requisitos forem satisfeitos:
1. ∅ ∈ M e X ∈ M.
2. Se A ∈ M então Ac = X \ A ∈ M.
[
3. Se {An , n ∈ } é uma coleção enumerável arbitrária de elementos de M, então An também
n∈
é um elemento de M.
• Comentários e Nomenclatura
Um conjunto X dotado de uma topologia τ é dito ser um espaço topológico. De um modo um

pouco mais técnico, um espaço topológico é um par (X, τ ) onde X é um conjunto não-vazio e
τ ⊂ (X) é uma topologia em X.
Um conjunto X dotado de uma σ-álgebra M é dito ser um espaço mensurável. De um modo um
pouco mais técnico, um espaço mensurável é um par (X, M) onde X é um conjunto não-vazio e
M ⊂ (X) é uma σ-álgebra em X.
Idéias relacionadas à de Topologia já habitam a Matemática há muito, mas foi nas duas primeiras
décadas do século XX que as mesmas começaram a ser sistematizadas e abstraı́das, como resultado
do trabalho de vários indivı́duos, como Cantor1 , Fréchet2 , Riesz3 e Hausdorff4 . A noção de
1
2
Maurice René Fréchet (1878-1973).
3
4
Felix Hausdorff (1868-1942). Hausdorff foi um dos criadores da Topologia e da moderna Teoria dos Conjuntos.
Perseguido pelo nacional-socialismo, suicidou-se em 1942 para evitar ser enviado a um campo de concentração.
conjuntos abertos e fechados (na topologia usual da reta real) foi introduzida por Cantor. Fréchet
percebeu sua conexão com a noção de métrica (a qual introduziu). A noção moderna de Espaço
Topológico foi introduzida pela primeira vez por Hausdorff em 1914. Hausdorff também cunhou
a expressão “espaço métrico”, noção criada por Fréchet em 1906, e foi o primeiro a introduzir a
noção de medida, entre outras coisas.
A palavra “álgebra” na designação “σ-álgebra” tem origem histórica em uma analogia observada
por Felix Hausdorff entre certas operações envolvendo conjuntos, tais como união e intersecção
e operações algébricas de soma e multiplicação. Apesar disso o conceito de σ-álgebra não deve
ser confundido de forma alguma com o conceito usual de álgebra (um espaço vetorial com um
produto entre seus elementos). A analogia a que nos referimos é a de que a operação de união de
conjuntos disjuntos pode ser entendida como uma “soma” de conjuntos com um elemento neutro,
a saber, o conjunto vazio (pois A ∪ ∅ = A para qualquer conjunto A). O papel de “multiplicação”
entre conjuntos seria exercido pela intersecção, onde novamente o conjunto vazio seria o elemento
neutro (pois sempre A ∩ ∅ = ∅).
Ainda sobre a nomenclatura, o “σ” do nome “σ-álgebra” é usado em função da propriedade 3 da
definição, que se refere ao fato de σ-álgebras serem fechadas em relação a operações envolvendo
uniões (“σomas”) enumeráveis de conjuntos. Aqui o ponto importante é a enumerabilidade e,
daı́, usar-se essa nomenclatura com o sı́mbolo σ em outras áreas da matemática onde a enume-
rabilidade desempenha algum papel (como na topologia chamada de σ-fraca, por exemplo).
Os subconjuntos A ⊂ X que são membros de uma topologia τ são chamados de conjuntos abertos
(em relação à topologia τ ). Se um subconjunto F ⊂ X é tal que F c ∈ τ , então F é dito ser um
conjunto fechado. Note que há conjuntos que podem ser simultaneamente abertos e fechados em
relação à mesma topologia. Por exemplo, ∅ e X são ao mesmo tempo abertos e fechados (por
que?). Além destes conjuntos pode haver outros também. Veremos exemplos.
Os subconjuntos A ⊂ X que são membros de uma σ-álgebra M são chamados de conjuntos

mensuráveis (em relação à σ-álgebra M). Será para conjuntos mensuráveis que se definirá o
conceito de medida.
Note que, pela definição, se A1 , . . . , An é uma coleção de n conjuntos abertos de uma topologia τ
então A1 ∩ · · · ∩ An é também um conjunto aberto (por que?).
Note que, no item 3 da definição de topologia, nenhuma restrição é feita em relação ao conjunto
de ı́ndices I, podendo o mesmo ser até um conjunto não-contável.
Note que se A1 , . . . , An é uma coleção (finita) de n elementos de uma σ-álgebra M então A1 ∪

· · · ∪ An é também um elemento de M. Para ver[isso note que, se definı́ssemos Am = ∅ para todo
m > n terı́amos claramente A1 ∪ · · · ∪ An = Aa que é um elemento de M pelo item 3 da
a∈
definição de σ-álgebra.
Se M é uma σ-álgebra em X e A, B ∈ M então A ∩ B ∈ M. Isso é fácil de ver, pois A ∩ B =

(Ac ∪ B c )c . Pelo item 2 da definição de σ-álgebra, Ac e B c são também elementos de M. Pela
observação acima, sua união Ac ∪ B c também o é. Por fim, o complemento de Ac ∪ B c pertence
a M, novamente pelo item 2 da definição de σ-álgebra.
A última afirmação estende-se facilmente para intersecções

T contáveis de conjuntos mensuráveis:
se M é uma σ-álgebra em X e An ∈ M, n ∈ , então n∈ An ∈ M. Isso segue facilmente de

!c
\ [
An = (An )c
n∈ n∈
e dos itens 2 e 3 da definição de σ-álgebra.
• Exemplos básicos de topologias
Seja X um conjunto não-vazio.
Considere τ o conjunto, formado por apenas dois elementos, dado por τ = {∅, X}. Então τ é
uma topologia (verifique!). É chamada de topologia indiscreta ou trivial e é a menor topologia
que se pode formar em X.
Seja τ a coleção e todos os subconjuntos de X: τ = (X). Então τ é uma topologia (verifique!).
É chamada de topologia discreta e é a maior topologia que se pode formar em X. Pelo Exercı́cio
E. 13.20, página 744, (X) é uma topologia métrica.
Seja X um espaço métrico com uma métrica d e seja τd o coleção de todos os seus subconjuntos
abertos em relação a d. Um subconjunto A de X é dito ser aberto (em relação à métrica d) se tiver
a seguinte propriedade: para todo x ∈ A podemos achar um número real δ(x) > 0 (eventualmente
dependente de x) tal que para todo x0 ∈ X com a propriedade que d(x, x0 ) < δ(x) (ou seja, que
dista de x menos que δ(x)) vale que x0 também é um elemento de A. Então, conforme já vimos
vimos em exercı́cios na Seção 13.2, página 743, τd é, de fato, uma topologia, chamada de topologia
induzida pela métrica d.
No caso do conjunto dos reais, podemos introduzir a topologia métrica definida pela métrica
d(x, y) = |x − y|. Essa topologia é denominada de topologia usual da reta e para designá-la usa-
remos aqui o sı́mbolo τ . Esse nome é auto-explicativo: quase toda a Análise Real é feita com o uso

dessa topologia. Conforme o costume de toda a literatura, sempre que falarmos de uma topologia
nos reais pensaremos nessa topologia usual, salvo menção explı́cita em contrário. Fique claro porém
que sobre os números reais podem ser definidas outras topologias além τ (e da topologia trivial e da

topologia discreta). Exemplos serão vistos adiante.
E. 15.1 Exercı́cio. Mostre, seguindo as definições, que todo intervalo (a, b) com a < b ∈ é um
elemento de τ e que todo intervalo [a, b] com a ≤ b é um conjunto fechado em relação a τ .

• Exemplos básicos de σ-álgebras
Seja X um conjunto não-vazio.
Considere M o conjunto, formado por apenas dois elementos, dado por M = {∅, X}. Então M
é uma σ-álgebra (verifique!) e é a menor σ-álgebra que se pode formar em X. Essa σ-álgebra é
chamada de σ-álgebra indiscreta ou trivial.
Seja M a coleção e todos os subconjuntos de X: M = (X). Então M é uma σ-álgebra (verifique!)

e é a maior σ-álgebra que se pode formar em X. Essa σ-álgebra é chamada de σ-álgebra discreta.
Seja X um conjunto e A ⊂ X. Então a coleção M = {∅, A, Ac , X} é uma σ-álgebra (verifique!).
Outros exemplos menos triviais de σ-álgebras serão vistos adiante. Exemplos realmente interessantes
de σ-álgebras requerem construções elaboradas, como a da σ-álgebra de Lebesgue 5 , a qual trataremos
com certo detalhe no Capı́tulo 17.
E. 15.2 Exercı́cio. Sejam α, β e γ três objetos distintos (por exemplo, três letras distintas do alfabeto
grego). Mostre que
M = ∅, {α, β}, {γ}, {α, β, γ}
é uma σ-álgebra em X = {α, β, γ}. 6
grego). Mostre que

M = ∅, {α}, {β}, {γ}, {α, β}, {α, γ}, {β, γ}, {α, β, γ}
é uma σ-álgebra em X = {α, β, γ}. 6
• Abertos e Fechados
Sejam X um conjunto e τ uma topologia em X. Denotemos por F(τ ) a coleção de todos os conjuntos
fechados de X em relação à τ , ou seja, a coleção de todos os conjuntos F de X tais que F c é um aberto,
ou seja, um elemento de τ .
É muito importante o estudante notar que F(τ ) pode conter elementos que não são elementos de τ .
Porém F(τ ) e τ nunca são conjuntos disjuntos, pois ambos sempre têm elementos em comum. Sempre
se tem, por exemplo, que {∅, X} ⊂ F(τ ) ∩ τ .
E. 15.4 Exercı́cio. Mostre que se F(τ ) ⊂ τ então F(τ ) = τ . 6
E. 15.5 Exercı́cio. Mostre que se τ ⊂ F(τ ) então τ = F(τ ). 6
Exemplos de topologias onde τ = F(τ ) são a topologia trivial e a topologia discreta (por que?). Há,
porém, muitos outros exemplos, como mostra o próximo exercı́cio.
E. 15.6 Exercı́cio. Seja a reta real e X o seguinte subconjunto de : X = (0, 1) ∪ (1, 2). Mostre

que a coleção τ de subconjuntos de X dada por τ = {∅, (0, 1), (1, 2), X} é uma topologia em X e que
F(τ ) = τ . Note que τ não é nem a topologia trivial nem a discreta de X. 6
5
Henri Léon Lebesgue (1875-1941).
A coleção F(τ ) de todos os conjuntos fechados em relação a uma topologia τ em X possui uma
série de propriedades especiais:
1. ∅ ∈ F(τ ) e X ∈ F(τ ).
2. Se F ∈ F(τ ) e G ∈ F(τ ) então F ∪ G ∈ F(τ ).

\
3. Se I é um conjunto arbitrário de ı́ndices e Fλ ∈ F(τ ) para todo λ ∈ I então Fλ também é um
λ∈I
elemento de F(τ ).
E. 15.7 Exercı́cio muito importante. Justifique as afirmativas acima. 6
E. 15.8 Exercı́cio. Sejam as seguintes coleções de conjuntos fechados na reta real (na topologia usual):
{Fn = \
[−1/n, 1 + 1/n], n ∈ , n > 0} e {Gn = [1/n,

[ 1 − 1/n], n ∈ , n > 1}. Mostre explicitamente

[
que Fn é um conjunto fechado mas que Gn é um conjunto aberto. Note que Gn
n∈ , n>0
n∈ , n>1
n∈ , n>1

não é uma união finita! 6
Seja agora (reciprocamente) uma coleção F de subconjuntos de um conjunto X tal que as seguintes
condições (que chamaremos de “axiomas de conjuntos fechados”) são verdadeiras:
1. ∅ ∈ F e X ∈ F.
2. Se F ∈ F e G ∈ F então F ∪ G ∈ F.
\
3. Se I é um conjunto arbitrário de ı́ndices e Fλ ∈ F para todo λ ∈ I então Fλ também é um
λ∈I
elemento de F.
Então, a coleção τ (F) = {A ⊂ X, tais que Ac ∈ F} é uma topologia em X.
E. 15.9 Exercı́cio muito importante. Justifique essa última afirmativa. 6
• Mais Exemplos de Topologias: a Topologia Co-contável e a Co-finita
Vamos ilustrar o que acabamos de ver com dois exemplos (importantes, pois deles se extraem alguns
exemplos e contra-exemplos de propriedades de topologias, como veremos adiante).
Seja X um conjunto e Cc a coleção de todos os conjuntos contáveis de X. Então vamos mostrar
que a coleção C = {∅, X} ∪ Cc satisfaz os axiomas de conjuntos fechados.
As propriedades que ∅ ∈ C e X ∈ C são óbvias por definição. Se F e G são elementos de C então
F ∪ G também é um elemento de C, basicamente pois a união de dois conjuntos contáveis é também um
conjunto contável. Finalmente a intersecção arbitrária de conjuntos contáveis é também um conjunto
contável (pois, como vimos acima, qualquer subconjunto de um conjunto contável também é contável)
e, com isso, fica também verificado o axioma 3.
Com isso, e com o que dissemos anteriormente, vemos que a coleção τ (C) é uma topologia em X.
Todo elemento de τ (C) é então ∅, X ou da forma X \ C, onde C é um conjunto contável. Chamaremos
a topologia τcc ≡ τ (C) de topologia co-contável de X.
E. 15.10 Exercı́cio. Seja X um conjunto e τcf a coleção
τcf = {A ⊂ X, A = X \ U onde U ⊂ X é um conjunto finito} ∪ {∅}.
Mostre que τcf é uma topologia em X (chamada de topologia co-finita de X). Como são os conjuntos
fechados em relação a τcf ? 6
E. 15.11 Exercı́cio. Verifique que τcf ⊂ τcc . Para que tipo de conjunto X podemos ter τcf = τcc ? 6
A topologia co-contável tem a seguinte propriedade incomum. Sejam A e B dois abertos não vazios
quaisquer da topologia co-contável de um conjunto X e suponha que X não seja um conjunto contável.
Então A∩B sempre é um conjunto não vazio. Para provar isso, notemos que, pelas hipóteses, A = X \C 1
e B = X \ C2 , para dois subconjuntos contáveis C1 e C2 de X. Daı́, A ∩ B = (X \ C1 ) ∩ (X \ C2 ) =
C1c ∩ C2c = (C1 ∪ C2 )c . Agora, como C1 ∪ C2 é também um conjunto contável, seu complemento é não
vazio pois X não é contável.
Assim, provamos que dois abertos não-vazios quaisquer da topologia co-contável de um conjunto
não contável (como, por exemplo, o conjunto dos reais) sempre se interceptam. Como veremos, isso
significa que tais espaços topológicos não são do tipo Hausdorff (a definição de espaço Hausdorff virá
à página 878).
E. 15.12 Exercı́cio. Sejam A e B dois abertos não vazios quaisquer da topologia co-finita de um
conjunto X e suponha que X não seja um conjunto finito. Mostre, então, que A ∩ B sempre é um conjunto
não vazio. 6
15.2 Algumas Construções Especiais e Exemplos
15.2.1 Topologias e σ-álgebras Geradas
• A Noção de Topologia Gerada
Vamos agora discutir um método importante de gerar topologias e σ-álgebras.

Seja X um conjunto e {τλ , λ ∈ I} uma coleção de topologias em X (cada uma indexada por um
elemento λ de um conjunto de ı́ndices I arbitrário). Como cada topologia é por si um subconjunto de
(X), podemos considerar uniões e intersecções de topologias.
Em particular para uma coleção genérica de topologias como {τλ , λ ∈ I}, temos o seguinte resultado
importante:
\
Proposição 15.1 O subconjunto τI de (X) dado por τI = τλ é também uma topologia em X. 2
λ∈I
Prova. Em primeiro lugar é claro pelas definições que ∅ ∈ τI e que X ∈ τI .

Vamos agora mostrar que se A e B são elementos de τI então A ∩ B também o é. Para tal, note que
se A e B são elementos de τI então A e B são elementos de toda topologia τλ com λ ∈ I. Assim, como
para cada λ particular tem-se A e B ∈ τλ , segue que A ∩ B ∈ τλ (pois τλ é uma topologia). Assim,
mostramos que A ∩ B pertence a toda topologia τλ com λ ∈ I e, portanto, A ∩ B ∈ τI .
Por fim, temos que provar que se {Aµ , µ ∈[J} é uma coleção de elementos de τI (onde J é uma
coleção arbitrária de ı́ndices), então segue que Aµ é também um elemento de τI .
µ∈J
Para tal, note-se que se {Aµ , µ ∈ J} é uma coleção

[ de elementos de τI então cada Aµ é um elemento
de cada τλ . Daı́, para cada λ particular segue que Aµ é também um elemento de τλ (pois τλ é uma
µ∈J
[
topologia). Como isso vale para todo λ ∈ I, segue que Aµ ∈ τI , como querı́amos provar.
µ∈J
Este resultado tem um uso de grande importância: fornecer um método de gerar topologias. Seja A
uma coleção qualquer de subconjuntos de X. Considere a coleção de todas as topologias que contém A
como um subconjunto. Como vimos, a intersecção de todas essas topologias é também uma topologia
que denotaremos por τ [A]. A topologia τ [A] é chamada de topologia gerada por A.
Assim, cada coleção A de subconjuntos de um conjunto X tem automaticamente uma topologia
associada a si: a topologia gerada pela coleção. Muitas topologias podem ser produzidas dessa forma,
como sendo geradas por uma coleção conveniente de subconjuntos de X.
E. 15.13 Exercı́cio. Mostre que A ⊂ τ [A] e que τ [A] é a menor topologia que contém A como
subconjunto, ou seja, se houver uma topologia τ 0 ⊂ τ [A] que contém A, então τ 0 = τ [A]. 6
E. 15.14 Exercı́cio. Mostre que se A é uma topologia então τ [A] = A. 6
E. 15.15 Exercı́cio. Seja X um conjunto e A ⊂ X. Mostre que τ [{A}] = {∅, A, X}. 6
E. 15.16 Exercı́cio. Seja X um conjunto e A = {{x}, x ∈ X} a coleção de subconjuntos de X

formada apenas por todos os conjuntos de um elemento de X. Mostre então que τ [A] é a topologia discreta
de X. Sugestão: use o item 3 da definição de topologia para mostrar que todo subconjunto de X é um
elemento de τ [A]. 6
E. 15.17 Exercı́cio. Seja X um conjunto e A = {{x, y}, x, y ∈ X e x 6= y} a coleção de subconjuntos

de X formada apenas por todos os conjuntos de dois elementos distintos de X. Mostre então que τ [A] é a
topologia discreta de X. 6
O método de gerar topologias descrito acima é muito usado e será reencontrado adiante em outros
exemplos.
• Mais Sobre a Topologia Usual de

Já definimos a topologia usual da reta como sendo a topologia induzida pela métrica d(x, y) =
|y − x|. Vamos mostrar aqui que há uma outra caracterização da mesma topologia.
Seja A a coleção de todos os intervalos abertos (a, b) de com a < b. Vamos provar que τ = τ [A],

ou seja, que a topologia usual é idêntica à topologia gerada pela coleção de todos os intervalos abertos
de .

Já sabemos que A ⊂ τ , pois todo intervalo do tipo (a, b), a < b, é aberto de τ . Como por

definição τ [A] é a menor topologia que contém A, tem-se que τ [A] ⊂ τ . Tudo o que precisamos fazer,

então, é provar que τ ⊂ τ [A].

Seja τ 0 uma topologia qualquer que contenha A. Isso significa que uniões arbitrárias de elementos
de A são também elementos de τ 0 (pois τ 0 é uma topologia e pelo item 3 da definição de topologia).
Se B é um elemento de τ isso significa que para cada x ∈ B existe δ(x) > 0 tal que y ∈ B desde que

|y − x| < δ(x). Não é difı́cil ver então que isso significa que podemos escrever
[
B = (x − δ(x), x + δ(x)).
x∈B
Como todo intervalo do tipo (x − δ(x), x + δ(x)) é um elemento de A, segue que B ∈ τ 0 . Como isso
vale para todo B ∈ τ isso significa que τ ⊂ τ 0 . Esse último fato vale, porém, para qualquer que seja

a topologia τ 0 , desde que contenha a coleção A. Portanto, concluı́-se que τ ⊂ τ [A], como querı́amos
mostrar.
• A Topologia de Sorgenfrey de
Seja S a coleção de todos os intervalos semi-abertos de do tipo [a, b) com a < b, a, b ∈

. A
topologia τ [S] é denominada topologia de Sorgenfrey6 dos reais.
E. 15.18 Exercı́cio. Mostre que τ é um subconjunto próprio de τ [S]. Sugestão: mostre que todo

intervalo aberto (a, b), a < b, é um elemento de τ [S] e conclua a partir daı́ que τ ⊂ τ [S]. Para ver que
τ [S] \ τ não é vazio, note apenas que um um intervalo semiaberto [a, b), a < b é um elemento de τ [S],

mas não de τ .
Note ainda que τ [S] é menor que a topologia discreta ( ) pois intervalos fechados [a, b], a ≤ b

não são elementos de τ [S].
E. 15.19 Exercı́cio. Justifique esta última afirmativa. 6
Assim, vimos nos dois últimos exercı́cios que τ
⊂ τ [S] ⊂ ( ), onde todas essas inclusões são

próprias.
A topologia τ [S] é rica em conjuntos que são simultaneamente abertos e fechados.
E. 15.20 Exercı́cio. Mostre que na topologia de Sorgenfrey de todo intervalo do tipo [a, b) com
a < b é simultaneamente aberto e fechado. 6
6
Robert Sorgenfrey (1915 - 1996).
E. 15.21 Exercı́cio. O último exercı́cio inspira a seguinte questão. Será que em τ [S] todo conjunto aberto
é também fechado? Verifique que isso não é verdade mostrando que o conjunto A = (−∞, a) ∪ (b, ∞),
com a ≤ b, é aberto segundo τ [S] mas que seu complemento A c = [a, b] não é aberto segundo τ [S]. 6
• A Noção de σ-Álgebra Gerada
O método de construção de topologias descrito acima tem um análogo quase literal entre as σ-
álgebras.
Seja X um conjunto e {Mλ , λ ∈ I} uma coleção de σ-álgebras em X (cada uma indexada por um
elemento λ de um conjunto de ı́ndices I arbitrário). Como cada σ-álgebra é por si um subconjunto de
(X) podemos considerar uniões e intersecções de σ-álgebras.
Em particular, para uma coleção genérica de σ-álgebras como {Mλ , λ ∈ I}, temos o seguinte
resultado importante:
\
Proposição 15.2 O subconjunto MI de (X) dado por MI = Mλ é também uma σ-álgebra em X.
λ∈I
2
Prova. Em primeiro lugar é claro pelas definições que ∅ ∈ MI e que X ∈ MI .

Vamos agora mostrar que se A ⊂ X é um elemento de MI então Ac = X \ A também o é. Se
A ∈ MI então A ∈ Mλ para todo λ ∈ I e, portanto Ac ∈ Mλ para todo λ ∈ I pois cada Mλ é uma
σ-álgebra. Assim, segue que Ac ∈ MI .
[
Por fim, vamos provar que se {An , n ∈ } é uma coleção contável de elementos de MI então
An
n∈
também o é. Se {An , n ∈ } é uma coleção contável de [

elementos de MI então cada An pertence a
cada Mλ e, portanto, para cada λ particular segue que An também é um elemento de Mλ . Daı́
[ n∈
segue imediatamente que An ∈ MI , que é o que querı́amos provar.

n∈
Este resultado tem um uso de grande importância: fornecer um método de gerar σ-álgebras. Seja A
uma coleção qualquer de subconjuntos de X. Considere a coleção de todas as σ-álgebras que contem A
como um subconjunto. Como vimos, a intersecção de todas essas σ-álgebras é também uma σ-álgebra
que denotaremos por M[A]. A σ-álgebra M[A] é chamada de σ-álgebra gerada por A.
Assim, cada coleção A de subconjuntos de um conjunto X tem automaticamente uma σ-álgebra
associada a si: a σ-álgebra gerada pela coleção. Muitas σ-álgebras podem ser produzidas dessa forma,
como sendo geradas por uma coleção conveniente de subconjuntos de X.
E. 15.22 Exercı́cio. Mostre que A ⊂ M[A] e que M[A] é a menor σ-álgebra que contem A como
subconjunto, ou seja, se houver uma σ-álgebra M0 ⊂ M[A] que contem A, então M0 = M[A]. 6
E. 15.23 Exercı́cio. Mostre que se A é uma σ-álgebra então M[A] = A. 6

• A σ-álgebra de Borel
Dentre os muitos tipos de σ-álgebras existentes particular destaque têm as σ-álgebras geradas por
topologias.
Seja X um conjunto e τ uma topologia em X. Como τ é uma coleção de subconjuntos de X podemos
considerar a σ-álgebra M[τ ] gerada pela topologia τ . Essa σ-álgebra é chamada de σ-álgebra de Borel 7
associada à topologia τ em X e seus elementos são chamados de conjuntos de Borel ou Borelianos.
E. 15.24 Exercı́cio. Considere a reta real . Mostre que intervalos como (a, b), [a, b), (a, b] com

a < b e [a, b] com a ≤ b são elementos da σ-álgebra de Borel M[τ ]. Que outros elementos de M[τ ] você

poderia identificar? 6
Como veremos, as σ-álgebras de Borel desempenham um papel importante na Teoria da Medida.
15.2.2 Bases de Espaços Topológicos
• Base de uma Topologia
Seja X um espaço com uma topologia τ . Uma coleção de abertos B ⊂ τ é dita ser uma base da
[ τ se todo aberto de τ puder ser escrito como união de elementos de B: se A ∈ τ então
topologia
A= Bλ , onde todos os Bλ são elementos de B. Note que a união não necessita ser finita ou mesmo
λ
contável.
Um fato básico é o seguinte: se B é uma base de uma topologia τ então τ = τ [B].
Provar isso é bem simples. Primeiramente note-se que, como τ é uma topologia que contem B e
τ [B] é, por definição, a menor topologia com essa propriedade, então segue que τ [B] ⊂ τ . Por outro
lado, como vimos, se A ∈ τ então A é a união de elementos de B e, portanto, A é um elemento de τ [B].
Logo τ ⊂ τ [B], completando a prova.
Para evitar confusões e ao mesmo tempo clarificar idéias, o estudante deve notar, porém, o seguinte
fato. Se A é uma coleção de subconjuntos de um conjunto X então não é em geral verdade que A ou
mesmo A ∪ X sejam uma base de τ [A]. Tome-se o seguinte exemplo: X = e A = {(i/2, i/2 + 1), i ∈
}. Então o intervalo (1/2, 1) é um elemento de τ [A] pois é intersecção dos intervalos (0, 1) e
(1/2, 3/2) mas não pode ser escrito como união de elementos de A.
E. 15.25 Exercı́cio. Seja X um espaço métrico e B a coleção de todas as bolas abertas de X:

{B(x, r), x ∈ X, r > 0}. Mostre que B é uma base da topologia métrica de X. 6
• Produzindo Bases de Topologias
A discussão do último parágrafo pode ser usada para introduzir e motivar mais um modo importante
de se produzir bases de topologias, o qual será usado quando discutirmos o conceito de topologia gerada
7
Félix Édouard Justin Émile Borel (1871-1956).
por famı́lias de funções, um tópico importante, por exemplo, em estudos mais avançados de propriedades
de espaços de Banach e de Hilbert.
Como já vimos, se X é um conjunto e A é uma coleção arbitrária de subconjuntos de X não podemos
em geral garantir que A é uma base de τ [A]. Há, porém, uma maneira de se produzir uma base a partir
de A que discutiremos a seguir.
Considere a coleção AI formada por todos os conjuntos que podem ser escritos como um intersecção
finita de elementos de A ∪ X ∪ ∅. Ou seja, A ⊂ X pertence a AI se puder ser escrito da forma
A = B1 ∩ B2 · · · ∩ Bn , para algum n finito, onde cada Bi ou é igual a X ou ∅ ou é um elemento de A.
É claro pela definição que A ⊂ AI (por que?) e também que AI ⊂ τ [A] (por que?). Assim, temos
que A ⊂ AI ⊂ τ [A].
Notemos agora que se B e C são duas coleções de subconjuntos de X com B ⊂ C, então τ [B] ⊂ τ [C]
(por que?).
Daı́ segue, pelo que vimos, que τ [A] ⊂ τ [AI ] ⊂ τ [τ [A]]. Como τ [A] é uma topologia temos, por
um exercı́cio anterior que τ [τ [A]] = τ [A]. Assim, provamos que τ [A] = τ [AI ] e vamos agora explorar
conseqüências desse fato.
Vamos mostrar que AI é uma base de τ [AI ] e, portanto, de τ [A].
Para isso consideremos a coleção U formada por todas as possı́veis uniões de elementos de A I : se
A ∈ U então [
A = Aλ ,
λ∈Λ
com Aλ ∈ AI para todo λ.

Vamos agora provar que U é uma topologia em X.
Pela definição é claro que ∅ ∈ U e que X ∈ U (por que?). É claro também que uniões arbitrárias
de elementos de U são novamente elementos de U . Resta-nos provar que se A e B são elementos de U
então A ∩ B também o é.
Sejam então A e B da forma
[ [
A = Aλ , B = Bλ ,
λ∈Λ λ∈Λ
onde todo Aλ e todo Bλ são elementos de AI . Note que podemos acima, sem perda de generalidade,
usar o mesmo conjunto de ı́ndices Λ tanto para A quanto para B, pois podemos fazer alguns A λ e/ou
alguns Bλ iguais ao conjunto vazio se necessário, de modo a igualar ambos os conjuntos de ı́ndices.
Com isso temos, então, que
! !
[ \ [ [
A∩B = Aλ B λ0 = (Aλ ∩ Bλ0 ) ,
λ∈Λ λ0 ∈Λ λ, λ0 ∈Λ
que claramente é um elemento de U , pois os conjuntos Aλ ∩ Bλ0 são elementos de AI .

Dado que provamos que U é uma topologia, vamos ver as conseqüências desse fato. Em primeiro
lugar, é claro pela definição de U que AI ⊂ U . Como U é uma topologia, segue que τ [AI ] ⊂ U .
Por outro lado, temos também que os elementos de U são uniões de elementos de A I e, portanto,
são elementos de qualquer topologia que contenha AI , como, em particular, a topologia τ [AI ]. Assim,
U ⊂ τ [AI ]. Com isso, vimos que τ [A] = τ [AI ] = U . Pela definição de U , isso diz que todos os elementos
de τ [A] podem ser escritos como uniões de elementos de AI e, assim, fica provado que AI é uma base
para τ [A].
• Espaços Topológicos Separáveis e Espaços Topológicos Segundo-Contáveis
Seja um espaço X dotado de uma topologia τ . Dizemos que um conjunto A ⊂ X é denso em X se

o fecho de A for igual a X, ou seja, se não houver outro conjunto fechado que não X contendo A.
Um espaço topológico X é dito ser separável se possuir um subconjunto denso contável.
Exemplo. A reta real com a topologia usual é separável pois , o conjunto dos racionais é contável
e denso em . Vide abaixo.

Um espaço topológico X é dito ser segundo-contável (“second countable”) se possuir uma base
contável.
Pelo que vimos, se A for uma coleção contável de subconjuntos de X então a topologia gerada por
A possui uma base também contável e é, portanto, segundo-contável.
Vamos mostrar a seguinte afirmativa:
Proposição 15.3 Todo espaço segundo-contável é separável. 2
Prova. Seja X segundo-contável e Bn , n ∈ , uma base em τX . Vamos formar conjuntos An , n ∈ ,

da seguinte forma: A0 é formado por um elemento escolhido arbitrariamente em B0 e[ An , n ≥ 1, é

formado por um elemento escolhido arbitrariamente em Bn \ A0 ∪ · · · ∪ An−1 . Seja A := An . Vamos
n∈
mostrar que A é denso em X. Suponha que haja um conjunto fechado F que contem A e que seja
menor que X. Então C = X \ F é aberto e A ∩ C = ∅. Ou seja, An ∩ C = ∅ para todo n. Isso significa
que Bn ∩ C = ∅ para todo n (por que?). Mas isso não é possı́vel se os Bn ’s formam uma base e C é
aberto, pois nesse caso deve haver uma sub-coleção contável de Bn ’s cuja união é C. Logo A é denso
em X.
É interessante notar que a recı́proca do proposição acima não é verdadeira: há espaços separáveis
que não são segundo-contáveis. Como exemplo, mostraremos que a topologia de Sorgenfrey é separável
mas não é segundo-contável (página 827). Tal, porém, não é verdade para espaços métricos em geral.
Proposição 15.4 Um espaço métrico é separável se e somente se for segundo-contável. 2
Prova. Pela proposição anterior resta-nos apenas mostrar que se X é um espaço métrico separável então
tem uma base enumerável. Seja A um conjunto contável denso em X e seja o conjunto de todas as
bolas centradas em elementos de A com raio racional positivo: B(a, r), a ∈ A e r ∈ + . O coleção de
todas essas bolas é contável (por que?). Vamos provar que é uma base em X. Seja C um aberto contido
em X. Para cada ponto a em A ∩ C podemos achar um raio ra tal que B(a, ra ) está inteiramente
contido em C (pela definição de conjunto aberto em um espaço métrico). Vamos mostrar que
[
C = B(a, ra ).
a∈C∩A
S
Suponha que haja z ∈ C que não esteja em a∈C∩A B(a, ra ). Como A é denso em X, toda bola
aberta B(z, ) contem elementos de A (doutra forma seu complemento seria fechado e conteria A, o
que não é possı́vel se A é denso). Em particular se for suficientemente pequeno B(z, ) e B(z, /4)
estarão inteiramente contidas em C. Logo, para um racional r com /4 < r < /2 teremos z ∈ B(a 0 , r)
para algum a0 ∈ B(z, /4) ∩ A sendo que B(a0 , r) ⊂ B(z, ) ⊂ C. Lembrando que 0
S a ∈ C ∩ A e que
0 0 0
podemos escolher /2 < ra0 , teremos B(a , r) ⊂ B(a , ra0 ). Assim, z ∈ B(a , r) ⊂ a∈C∩A B(a, ra ).
• A Topologia τ é Separável

Vamos mostrar que τ é separável mostrando explicitamente que τ é segundo-contável e para isso

vamos mostrar que τ pode ser gerada por uma coleção contável de subconjuntos de . Esse fato é

importante por várias razões, uma delas conectada à σ-álgebra de Borel e sua relação com a σ-álgebra
de Lebesgue, que introduziremos quando falarmos da Teoria da Medida (vide Capı́tulo 17).
Para a ∈ e b > 0 vamos denotar por B(a, b) a bola aberta de raio b centrada em a que, neste

caso, é o intervalo aberto (a − b, a + b) centrado em a com largura 2b.

Vamos primeiramente ver que qualquer intervalo B(a, b), a ∈ , b > 0, pode ser escrito como

uma união contável de intervalos abertos. Para isso considere uma seqüência s i de números racionais
positivos tais que si < b mas tais que a seqüência si converge a b quando i → ∞. Então é claro que
[
B(a, b) = B(a, si ),
i∈
que é uma união contável.

Pela definição, se A é um aberto não-vazio em τ , A 6= , então para cada x ∈ A podemos encontrar

um número δ(x) > 0 (que eventualmente depende de x) de forma que B(x, δ(x)) ⊂ A. Para A aberto
e x ∈ A vamos denotar por δA (x) o maior número com essa propriedade, ou seja,
δA (x) = sup{b > 0, tal que B(x, b) ⊂ A}.
Como A 6= , δA (x) é sempre finito para x ∈ A. (Por quê?).

É bem claro então que [
A = B(x, δA (x)).
x∈A
Vamos provar a seguinte afirmativa:

[
A = B(r, δA (r)).
r∈A∩
Para tal, seja [

A0 = B(r, δA (r)),
r∈A∩
suponha que A \ A0 6= ∅ e seja w ∈ A \ A0 . Considere então o conjunto aberto B(w, δA (w)). Tomemos
s ∈ B(w, δA (w)) ∩ de tal forma que |s − w| < δA (w)/2 (isso é sempre possı́vel. Por quê?). Então
teremos que δA (w)/2 < δA (s) < δA (w) e, portanto w ∈ B(s, δA (s)), mostrando que w ∈ A0 : um
contradição. Portanto A = A0 .
Caso A = podemos sempre escrever
[
= B(r, p),
r∈
para qualquer p > 0.

O que acabamos de provar é que todo aberto não vazio A de τ pode ser escrito como uma união
contável de intervalos abertos. Por outro lado, vimos também que cada intervalo aberto B(r, δ A (r))
pode ser escrito ele mesmo como uma união contável de intervalos abertos do tipo B(r, s) onde r e
s > 0 são números racionais.
Seja R a coleção de todos os intervalos abertos do tipo B(r, s) com r, s ∈ e s > 0. A coleção R
é claramente uma coleção contável e R ⊂ τ (pois todos esses intervalos são abertos). Logo τ [R] ⊂ τ ,

pois τ [R] é, por definição, a menor topologia que contém R. Por outro lado, qualquer topologia que
contenha R contém também qualquer elemento que possa ser escrito como união de elementos de R
e, como vimos, todo aberto de τ pode ser escrito como uma união (contável) de elementos de R e é,

conseqüentemente, um elemento de qualquer topologia que contenha R. Logo τ ⊂ τ [R].
Vemos, portanto, que

τ
= τ [R]
e, assim, τ é o que se chama de uma topologia segundo-contável, pois tem uma base contável obtida

tomando-se intersecções finitas de elementos de R, como vimos acima.

Para finalizar, vamos mostrar a seguinte identidade:
M[τ ] = M[R],

(15.1)
ou seja, vamos mostrar que a σ-álgebra de Borel da reta real e a σ-álgebra gerada por R coincidem.
Como R ⊂ τ , é claro que R ⊂ M[τ ]. Daı́ segue que M[R] ⊂ M[τ ], dado que M[R] é, por

definição, a menor σ-álgebra que contém R. Por outro lado, M[R] contém (pela definição de σ-álgebra)
qualquer conjunto que seja uma união contável de elementos de R. Vimos acima que qualquer elemento
de τ tem essa propriedade. Logo τ ⊂ M[R] e, assim, M[τ ] ⊂ M[R], provando que M[τ ] = M[R].

Os fatos aqui discutidos serão importantes quando apresentarmos a chamada σ-álgebra de Lebesgue
no Capı́tulo 17.
• A Topologia de Sorgenfrey não é uma Topologia Métrica
Mostraremos agora que a Topologia de Sorgenfrey é separável mas não é segundo-contável e, por-
tanto, não é métrica.
Para mostrar que a topologia de Sorgenfrey τ [S] é separável, provemos que é denso em segundo
τ [S]. Suponha que não seja. Então existiria z ∈ e aberto em τ [S] contendo z que não contém nenhum

número racional. Como um tal aberto é união de intersecções finitas de intervalos semi-abertos de S,
isso é impossı́vel.
Vamos agora mostrar que τ [S] não é segundo-contável. Suponhamos que B seja uma base para τ [S]
e seja x ∈ . Pela hipótese existe um subconjunto B0 = {Bλ , λ ∈ Λ} de B tal que

[
τ [S] 3 [x, ∞) = Bλ ,
λ∈Λ
com Bλ ∈ B0 . Mas isso só é possı́vel se existir pelo menos um conjunto de B0 que contém x. Denotemo-
lo Bλ(x) . É claro que Bλ(x) não pode conter nenhum y ∈ com y < x (por que?). Logo, a aplicação

3 x 7→ Bλ(x) ∈ B é injetora, o que nos diz que a cardinalidade de B é pelo menos a cardinalidade de
. Isso mostra que B não pode ser contável.
Como vimos acima (página 824), um espaço métrico é separável se e somente se for segundo-contável.
Isso mostra que a topologia de Sorgenfrey não é uma topologia métrica!
• A Topologia Gerada por um Ordenamento Total
Seja X um conjunto no qual está definida uma relação de ordem total “≤”. Se a, b ∈ X dizemos
que a < b se a ≤ b mas a 6= b. Fixados a, b ∈ X com a < b definamos
(a, b) := {x ∈ X| a < x e x < b},
(a, →) := {x ∈ X| a < x},
(←, b) := {x ∈ X| x < b}.
Seja A a coleção
A := Alim ∪ A→ ∪ A← ,
com
Alim := {(a, b), para todos a, b ∈ X com a < b} ,
A→ := {(a, →), para todo a ∈ X} ,
A← := {(←, b), para todo b ∈ X} .
A topologia τ [A] é denominada topologia gerada pelo ordenamento total “≤”.
E. 15.27 Exercı́cio. Mostre que a topologia gerada pelo ordenamento usual da reta real coincide com a
topologia usual da reta. 6
2
E. 15.28 Exercı́cio. Mostre que a topologia gerada pelo ordenamento lexicográfico de (vide página
31) é uma topologia Hausdorff. 6
15.2.3 Topologias e σ-álgebras Induzidas
• A Topologia Induzida (ou “Relativa”)
Vamos agora estudar mais uma maneira de produzir topologias que também tem seu análogo para
as σ-álgebras.
Seja X um conjunto e τ uma topologia em X. Seja também Y um subconjunto arbitrário de X
(Y não precisa ser um elemento de τ ). Podemos construir uma topologia no conjunto Y usando a
topologia de X da seguinte forma. Definimos a seguinte coleção τY de subconjuntos de Y :
τY = {A ⊂ Y, tal que A = Y ∩ T para algum T ∈ τ }.
Em palavras, τY é formado por todos os subconjuntos de Y que podem ser escritos como intersecção
de Y com algum aberto de τ .
Então afirmamos que τY é uma topologia em Y . Vamos provar isso. Primeiro é claro que ∅ ∈ τY
pois ∅ = Y ∩ ∅ e ∅ ∈ τ . Em segundo lugar é também claro que Y ∈ τY pois Y = Y ∩ X (dado que
Y ⊂ X) e X ∈ τ .
Vamos então agora mostrar que se A e B ∈ τY então A ∩ B ∈ τY . Para isso note que, como
A e B ∈ τY então existem A0 e B 0 ∈ τ de forma que A ∈ Y ∩ A0 e B ∈ Y ∩ B 0 . Logo A ∩ B =
(Y ∩ A0 ) ∩ (Y ∩ B 0 ) = Y ∩ (A0 ∩ B 0 ) (por que?) e, como A0 ∩ B 0 ∈ τ , segue que A ∩ B ∈ τY .
Para finalizar, falta-nos mostrar que se {Aλ , λ[
∈ I} é uma coleção de elementos de τY (indexados
por um conjunto arbitrário de ı́ndices I), então Aλ ∈ τY . Pelas hipóteses, cada Aλ é da forma
λ∈I
Aλ = Y ∩ Tλ com Tλ ∈ τ e portanto
!
[ [ [
Aλ = (Y ∩ Tλ ) = Y ∩ Tλ (por que?).
λ∈I λ∈I λ∈I
[ [
Assim, como Tλ ∈ τ fica provado que Aλ ∈ τY como querı́amos demonstrar.
λ∈I λ∈I
Vimos então que τY é uma topologia em Y . Essa topologia é chamada de topologia induzida (pela
topologia τ ).
E. 15.29 Exercı́cio. Verifique que, usando a mesma notação usada acima, τ X = τ . 6
E. 15.30 Exercı́cio. Seja Y = [0, 1] ⊂ e seja τ a topologia usual de . Mostre que conjuntos da

forma [0, x) com 0 < x ≤ 1 são abertos na topologia τY induzida em Y por τ . Mostre que conjuntos da
forma (x, 1] com 0 ≤ x < 1 são abertos na topologia τY induzida em Y por τ . 6
Para o estudante é importante ver que, no exercı́cio acima, nem [0, x) nem (x, 1] são abertos em
τ ! Isso mostra que topologias induzidas podem trazer elementos novos ao jogo.

E. 15.31 Exercı́cio. Mostre que a topologia τY do exercı́cio anterior é igual à topologia induzida em Y
pela métrica d(x, y) = |y − x|. 6
E. 15.32 Exercı́cio. Seja Y = ⊂ e seja τ a topologia induzida em

por τ . Mostre que todo

conjunto de um elemento {r} com r ∈ é um conjunto fechado segundo τ . 6
Essa topologia τ do último exercı́cio tem propriedades curiosas. Seja x um número irracional e
seja o conjunto χ = (−∞, x) ∩ ⊂ . Então χ é ao mesmo tempo aberto e fechado em τ . O fato
que χ é aberto é evidente pois (−∞, x) é aberto em τ . O fato que χ é fechado segue da constatação

que o complemento de χ em é o conjunto χc = [x, ∞) ∩ e que [x, ∞) ∩ = (x, ∞) ∩ pois x é

irracional. Assim, χc é aberto em τ pois (x, ∞) é aberto em τ . Logo χ, que é o complemento de χc

nos racionais, é fechado por τ .
E. 15.33 Exercı́cio. Seja Y = ⊂ e seja τ a topologia induzida em

por τ . Mostre que o

intervalo aberto de racionais {x ∈ , e < x < π} é um conjunto aberto e fechado em τ . 6
E. 15.34 Exercı́cio. Seja X um conjunto com uma topologia τ e considere Y ⊂ X e a topologia

induzida por τ em Y : τY . Considere agora um terceiro conjunto Z com Z ⊂ Y ⊂ X. Podemos, em
princı́pio, construir duas topologias induzidas em Z: 1) a topologia induzida por τ em Z e 2) a topologia
induzida por τY em Z. Mostre que essas topologias são na verdade idênticas. 6
E. 15.35 Exercı́cio. Seja Y = (0, 1) ∪ (1, 2) munido da topologia τ Y induzida pela topologia τ .
Mostre que os subconjuntos (0, 1) e (1, 2) são ambos simultaneamente abertos e fechados nessa topologia
τY . 6
• A σ-Álgebra Induzida
Seja X um conjunto e seja M uma σ-álgebra em X. Seja também Y um subconjunto genérico de

X. Podemos fazer de Y um espaço mensurável construindo com o auxı́lio de M uma σ-álgebra entre
os subconjuntos de Y . A construção á análoga àquela da topologia induzida.
Seja MY a seguinte coleção de subconjuntos de Y :
MY = {A ⊂ Y, A = Y ∩ M para algum M ∈ M}.
Vamos mostrar que MY é uma σ-álgebra em Y . Os fatos que ∅ ∈ MY e que Y ∈ MY podem ser
provados tal como no caso da topologia induzida. Queremos agora provar que se A ∈ M Y então seu
complemento em Y , Ac = Y \ A, também é um elemento de MY . Por hipótese A é da forma A = Y ∩ M
com M ∈ M e, portanto,
Ac = Y \ (Y ∩ M ) = Y ∩ (X \ M ).
Assim, como X \ M é um elemento de M, segue que Ac = Y \ A é um elemento de MY .

Finalmente
[ queremos provar que se {An , n ∈ } é uma famı́lia enumerável de elementos de MY
então An também o é.
n∈
Pelas hipóteses cada An é da forma Y ∩ Mn com Mn ∈ M. Daı́

!
[ [ [
An = (Y ∩ Mn ) = Y ∩ Mn .
n∈ n∈ n∈
[
Como Mn é também um elemento de M, a afirmativa está provada.
n∈
A σ-álgebra MY á chamada de σ-álgebra induzida em Y pela σ-álgebra M.
15.2.4 Topologias e σ-álgebras Produto
• A Topologia Produto de Espaços Topológicos
Uma construção muito importante é a da chamada topologia produto de espaços topológicos. Muito
pode ser dito sobre essa topologia (para mais detalhes vide, por exemplo, [16]), mas vamos nos restringir
por ora somente à sua definição para o caso de produtos cartesianos finitos.
Seja {X1 , . . . , Xn } umaQcoleção finita de conjuntos e seja, para cada a ∈ In = {1, . . . , n}, τa uma
topologia em Xa . Seja X = na=1 Xa o produto cartesiano
Q de todos os Xa , a ∈ In e seja B a coleção de
todos os subconjuntos de X que sejam da forma a∈In Aa onde Aa ∈ τa , ou seja, cada Aa é um aberto
em Xa segundo a topologia τa . Então a topologia gerada por B, τ [B] é chamada de topologia produto
dos espaços topológicos Xa , τa .
E. 15.36 Exercı́cio. Seja o espaço 2 = × e considere que cada fator

é munido da topologia
2
usual τ . Mostre que a topologia produto obtida em

é idêntica à topologia métrica usual de 2 definida

pela métrica usual p

d(x, y) = (y1 − x1 )2 + (y2 − x2 )2 ,
onde x = (x1 , x2 ) e y = (y1 , y2 ). 6
• A σ-Álgebra Produto
Há uma construção análoga para σ-álgebras. Seja Xa , a ∈ In umaQcoleção finita de conjuntos e
seja, para cada a ∈ In , Ma uma σ-álgebra em Xa . Seja como antes X = a∈In Xa o produto cartesiano
Q todos os Xa , a ∈ In . Definimos D a coleção de todos os subconjuntos de X que sejam da forma
de
a∈In Ma onde Ma ∈ Ma , ou seja, cada Ma é mensurável em Xa segundo a σ-álgebra Ma . Então a
σ-álgebra gerada por D, M[D] é chamada de σ-álgebra produto das σ-álgebras M a .
15.3 Interior e Fecho de Conjuntos em Espaços Topológicos

Seja X um espaço dotado de uma topologia τ . Podemos associar a cada subconjunto genérico B de X
três conjuntos importantes, o chamado fecho de B, o chamado interior de B e a chamada fronteira ou
bordo de B. Vamos discutir agora esses conceitos.
• Fecho
Para B ⊂ X genérico, definamos a coleção

FB := {F ⊂ X, F é fechado e tal que F contem B: F ⊃ B}
A coleção FB é então a coleção de todos os conjuntos fechados (segundo a topologia τ ) que contem
o conjunto B. Sabemos que a intersecção arbitrária de conjuntos fechados é também um conjunto
fechado. Isso motiva a seguinte definição:
\
B := F.
F ∈FB
O conjunto B é chamado de fecho do conjunto B na topologia τ e é, pela própria definição, um conjunto
fechado.
E. 15.37 Exercı́cio. Pode-se dizer que o fecho de um conjunto B é o menor conjunto fechado que
contém B. Justifique isso em face da definição dada acima de B. 6
E. 15.38 Exercı́cio importante. Um conjunto B é fechado se e somente se B = B. Prove isso. 6
Conclui-se desse exercı́cio que em qualquer espaço topológico X tem-se ∅ = ∅ e X = X.
E. 15.39 Exercı́cio. Seja X = . A tabela abaixo mostra o fecho dos conjuntos (a, b), [a, b), [a, b] e

{a}, com −∞ < a < b < ∞, em várias topologias. Mostre cada um dos casos.
τI : (a, b) = , [a, b) = , [a, b] = , {a} = .
τcf ( ) : (a, b) =
, [a, b) = , [a, b] = , {a} = {a}.
τcc ( ) : (a, b) =
, [a, b) = , [a, b] = , {a} = {a}.
τ : (a, b) = [a, b],

[a, b) = [a, b], [a, b] = [a, b], {a} = {a}.
τ [S] : (a, b) = [a, b), [a, b) = [a, b), [a, b] = [a, b], {a} = {a}.
( ) : (a, b) = (a, b), [a, b) = [a, b), [a, b] = [a, b], {a} = {a}.

Acima, τI = {∅, } é a topologia indiscreta de , τcf ( ) é a topologia co-finita de

, τcc ( ) é a topologia

co-contável de , τ é a topologia usual de , τ [S] é a topologia de Sorgenfrey de

(página 820) e ( )
é a topologia discreta de . 6
Note no exercı́cio acima que as topologias escolhidas estão postas em ordem crescente de inclusão:
τI ⊂ τcf ( ) ⊂ τcc ( ) ⊂ τ ⊂ τ [S] ⊂ ( ).

O caso do conjunto (a, b) (e os outros) ilustra claramente um fato importante, a saber, que quanto
maior a topologia menor é o fecho de um dado conjunto.
τ
E. 15.40 Exercı́cio muito importante. Seja B o fecho de um conjunto qualquer B, segundo uma
τ0 τ
topologia τ . Seja τ 0 uma outra topologia tal que τ ⊂ τ 0 . Mostre que B ⊂ B . 6
• Interior
Para B ⊂ X genérico, definamos a coleção
AB := {A ⊂ X, A é aberto e tal que A está contido em B: A ⊂ B}
A coleção AB é então a coleção de todos os conjuntos abertos (segundo a topologia τ ) contidos no

conjunto B. Sabemos que a união arbitrária de conjuntos abertos é também um conjunto aberto. Isso
motiva a seguinte definição: [
B 0 := A.
A∈AB
O conjunto B 0 é chamado de interior do conjunto B na topologia τ e é, pela própria definição, um

conjunto aberto.
E. 15.41 Exercı́cio. Pode-se dizer que o interior de um conjunto B é o maior conjunto aberto contido
em B. Justifique isso em face da definição dada acima de B 0 . 6
E. 15.42 Exercı́cio. Um conjunto B é aberto se e somente se B = B 0 . Prove isso. 6
E. 15.43 Exercı́cio. Seja X = . A tabela abaixo mostra o interior dos conjuntos (a, b), [a, b), [a, b]

e {a}, com −∞ < a < b < ∞, em várias topologias. Mostre cada um dos casos.
τI : (a, b)0 = ∅, [a, b)0 = ∅, [a, b]0 = ∅, {a}0 = ∅.
τcf ( ) : (a, b)0 = ∅,

[a, b)0 = ∅, [a, b]0 = ∅, {a}0 = ∅.
τcc ( ) : (a, b)0 = ∅,

[a, b)0 = ∅, [a, b]0 = ∅, {a}0 = ∅.
τ : (a, b)0 = (a, b), [a, b)0 = (a, b), [a, b]0 = (a, b), {a}0 = ∅.

τ [S] : (a, b)0 = (a, b), [a, b)0 = [a, b), [a, b]0 = [a, b), {a}0 = ∅.
( ) : (a, b)0 = (a, b), [a, b)0 = [a, b), [a, b]0 = [a, b],
{a}0 = {a}.
6
O caso do conjunto [a, b] ilustra claramente um fato importante, a saber, que quanto maior a
topologia maior é o interior de um dado conjunto.
E. 15.44 Exercı́cio. Seja (B 0 )τ o interior de um conjunto qualquer B, segundo uma topologia τ . Seja
0
τ 0 uma outra topologia tal que τ ⊂ τ 0 . Mostre que (B 0 )τ ⊂ (B 0 )τ . 6
Por fim, note que para qualquer conjunto B ⊂ X vale sempre, em qualquer topologia τ , que
B 0 ⊂ B ⊂ B.
• Fronteira ou Bordo
Para B ⊂ X genérico, definamos a sua fronteira ou bordo (na topologia τ ) como sendo o conjunto
∂B := B \ B 0 = B ∩ (B 0 )c .
Dessa definição é claro que ∂B é sempre um conjunto fechado (por que?).
E. 15.45 Exercı́cio. Seja X = . A tabela abaixo mostra o bordo dos conjuntos (a, b), [a, b) [a, b]

{a}, com −∞ < a < b < ∞, em várias topologias. Mostre cada um dos casos.
τI : ∂(a, b) = , ∂[a, b) = , ∂[a, b] = , ∂{a} = .
τcf ( ) : ∂(a, b) =
, ∂[a, b) = , ∂[a, b] = , ∂{a} = {a}.
τcc ( ) : ∂(a, b) =
, ∂[a, b) = , ∂[a, b] = , ∂{a} = {a}.
τ : ∂(a, b) = {a, b}, ∂[a, b) = {a, b}, ∂[a, b] = {a, b}, ∂{a} = {a}.

τ [S] : ∂(a, b) = {a}, ∂[a, b) = ∅, ∂[a, b] = {b}, ∂{a} = {a}.
( ) : ∂(a, b) = ∅,
∂[a, b) = ∅, ∂[a, b] = ∅, ∂{a} = ∅.
6
E. 15.46 Exercı́cio. Seja ∂ τ B o fecho de um conjunto qualquer B, segundo uma topologia τ . Seja τ 0
0
uma outra topologia tal que τ ⊂ τ 0 . Mostre que ∂ τ B ⊂ ∂ τ B. 6
Note que a afirmativa do último exercı́cio é confirmada pela tabela do penúltimo.
• Outra Caracterização do Fecho de um Conjunto
O conceito de fecho de um conjunto é de grande importância. Uma das razões, como veremos,
é que no caso de espaços métricos o fecho de um conjunto B caracteriza o conjunto de todos os
limites de seqüências de elementos de B. Em particular um conjunto só é fechado em um espaço
métrico se contiver todos os limites de seqüências de seus elementos. Muitos resultados importantes
em Matemática decorrem dessa observação.
Vamos nos preparar para apresentar esse fato, assim como outros em espaços topológicos gerais.
Seja X um conjunto e τ uma topologia em X (não necessariamente métrica). Seja também B um
subconjunto qualquer não-vazio de X.
Proposição 15.5 Seja B ⊂ X, sendo X dotado de uma topologia τ . Um ponto x ∈ X é um elemento

de B se e somente se a seguinte propriedade for válida: todo aberto A x que contem o ponto x tem uma
intersecção não-vazia com B, ou seja,
B = {x ∈ X| Ax ∩ B 6= ∅, ∀Ax ∈ τ com x ∈ Ax }.
Prova. Suponha que x ∈ B e que haja aberto Ax que contem x e tal que Ax ∩ B = ∅. Isso implica que
B ∩ Acx ⊃ B, pois
B ∩ Acx ⊃ B ∩ Acx = B.
Assim, B ∩ Acx é um conjunto fechado que contém B e, portanto, B ⊂ B ∩ Acx , dado que o fecho de B
é o menor fechado que contem B. Isso, por sua vez, diz que B ⊂ Acx , o que significa que B ∩ Ax = ∅.
Mas isso contradiz as hipóteses de partida que diziam que x ∈ B e x ∈ Ax . Portanto, se x ∈ B então
Ax ∩ B 6= ∅ para todo aberto Ax que contem x.
Suponhamos agora que para um ponto x ∈ X valha que Ax ∩B 6= ∅ para todo aberto Ax que contem
c
x. Se supormos que x 6∈ B então x ∈ B , que é um aberto. Assim, deverı́amos ter, pelas hipóteses que
c
B ∩ B 6= ∅. Como B ⊃ B isso é impossı́vel. Assim, supor que Ax ∩ B 6= ∅ para todo aberto Ax que
contem x implica que x ∈ B. Isso completa a demonstração da proposição.
15.3.1 Fecho de Conjuntos em Espaços Métricos
• Fecho de Conjuntos em Espaços Métricos
Seja X um espaço métrico com métrica d e τd a topologia induzida em X por essa métrica. Seja
B ⊂ X. Vamos apresentar agora uma caracterização importante do fecho de B, que anunciamos acima.
Uma seqüência {xn , n ∈ } de elementos de X é dita convergir na métrica d a um elemento x ∈ X

se para todo > 0 existir N () ∈ tal que xn ∈ Bd (x, ) para todo n > N ().

Se uma seqüência converge a um ponto x, este é dito ser um limite da seqüência.

Mais sobre o conceito de convergência de seqüências em espaços métricos será visto na seção sobre
continuidade e convergência em espaços topológicos.
Temos então a seguinte proposição:
Proposição 15.6 Um ponto x ∈ X pertence ao fecho na topologia τd de um subconjunto B de X se e
somente se existir uma seqüência de elementos de B que converge a x na métrica d. 2
Prova. Suponha que x seja um limite de uma seqüência xn de elementos de B. Seja Ax um aberto que
contem x. Como Ax é um aberto de um espaço métrico, existe uma bola aberta centrada em x com
um raio positivo suficientemente pequeno, que chamaremos de , tal que Bd (x, ) ⊂ Ax . Daı́, como a
seqüência converge a x, vale que B 3 xn ∈ Bd (x, ), desde que n seja grande o suficiente. Mas isso diz
que, para tais xn ’s tem-se xn ∈ Ax também. Logo Ax ∩ B 6= ∅, pois pelo menos esses xn ’s pertencem
aos dois conjuntos. Note que isso vale para qualquer aberto Ax que contem x. Daı́, pelo que vimos na
Proposição 15.5, concluı́mos que x ∈ B.
Assim, vimos que se uma seqüência de elementos de B converge a um ponto x em um espaço
métrico, então esse ponto x é um elemento do fecho de B. Vamos agora provar a recı́proca.
Vamos agora supor que x ∈ B e vamos provar que existe uma seqüência de elementos de B que
converge a x.
Como x ∈ B vale que Bd (x, 1/n) ∩ B 6= ∅ para todo n ∈ , n > 0. Daı́, podemos escolher, para

cada n ∈ , n > 0, um elemento xn do conjunto Bd (x, 1/n) ∩ B. Com isso formamos uma seqüência

{xn } de elementos de B que converge a x, completando a prova.
• Conjuntos Fechados em Espaços Métricos e Completeza
Seja M um espaço métrico em relação a uma métrica d. Qualquer subconjunto não-vazio de M é

também um espaço métrico com métrica d (por que?). Porém, se M é completo em relação a d e se
F ⊂ M é um conjunto fechado, então F é também um espaço métrico completo em relação a d.
Provar isso é bem simples. Se fn ⊂ F é uma seqüência de Cauchy em relação a d em F então fn é
também uma seqüência de Cauchy em relação a d em X. Como X é completo existe f ∈ X ao qual a
seqüência converge. Mas, devemos ter, pelo que vimos, f ∈ F = F . Assim, toda seqüência de Cauchy
em relação a d em F converge a um elemento de F . Isso prova completeza de F .
A recı́proca é também verdadeira. Seja M completo em relação a d e seja B ⊂ X também completo
em relação a d. Então B é fechado. Para ver isso note que toda seqüência de elementos de B que
converge em X é uma seqüência de Cauchy em X e, portanto, é também uma seqüência de Cauchy
em B. Logo, uma tal seqüência converge a um elemento de B, pois B é completo. Mas isso equivale a
dizer que B ⊃ B, o que implica B = B.
Provamos então o seguinte:
Proposição 15.7 Se X é um espaço métrico completo em relação a uma métrica d, então F ⊂ X é
fechado na topologia induzida por essa métrica se e somente se F for igualmente completo em relação
à métrica d. 2
Capı́tulo 16
Medidas
Conteúdo
16.1 O Problema da Teoria da Medida . . . . . . . . . . . . . . . . . . . . . . . 836

16.2 Medidas de Conjuntos. Definição, Exemplos e Propriedades Básicas . . 839
16.3 Construindo Medidas. A Medida Exterior e o Teorema de Caratheodory 843
presente capı́tulo visa apresentar ao estudante a noção de medida de conjuntos, algumas

de suas propriedades básicas e exemplos elementares e, por fim, discutir uma construção
importante de medidas devida a Caratheodory1 . O caso importante da chamada medida
de Lebesgue2 é discutido com essa base no Capı́tulo 17. Começaremos com uma discussão
parcialmente informal sobre os problemas básicos por trás da noção intuitiva de medida de conjuntos.
16.1 O Problema da Teoria da Medida

Em uma primeira instância, o objetivo da área da Análise conhecida como Teoria da Medida é dar
fundamento às idéias intuitivas de comprimento, área, volume etc. de sub-conjuntos de n . Grandezas

como comprimento, área, volume etc. de subconjuntos de n são referidas genericamente como medidas

de tais conjuntos e à Teoria da Medida cabe não só apresentar definições precisas de tais conceitos mas
também cabe determinar que classes de conjuntos são mensuráveis, ou seja, a quais conjuntos tais
conceitos são aplicáveis.
Talvez surpreenda ouvir pela primeira vez que tais conceitos não possam ser aplicados a qualquer
conjunto e que os mesmos, se usados sem o devido cuidado, possam envolver situações paradoxais.
Entretanto, como mostra o exemplo do conjunto de Vitali, tratado na próxima seção, existem, já no
simples caso da reta real, conjuntos para os quais o conceito de comprimento não pode ser definido. A
dificuldade que temos de sequer imaginar como devem ser tais conjuntos reside, talvez, no fato que os
mesmos serem de construção incomum (a construção, como veremos, faz uso explı́cito do Axioma da
Escolha).
A Teoria da Medida não se restringe, porém, a tratar de conceitos geométricos como comprimento,
área etc., sendo que o conceito formal de medida de um conjunto extrapola em muito esse campo de
aplicações, como veremos. Fora isso, a Teoria da Medida não se limita apenas ao estudo do conceito
de medida e de conjuntos mensuráveis, mas tem como seu mais importante objetivo formalização da
teoria da integração. Que os conceitos de medida e de integral são conectados diz-nos já a velha noção
de integral como “área sob o gráfico” de uma função. De fato, a teoria da medida fornece material
poderoso para um tratamento mais profundo do conceito de integral e de suas extensões.
1
Constantin Caratheodory (1873-1950).
2
836
Todos esses conceitos serão tratados de modo cuidadoso adiante, mas achamos por bem começar
mostrando ao estudante a origem de toda a problemática: a existência de conjuntos não mensuráveis.
• O Exemplo de Vitali
Considere-se o conjunto dos números reais e seus subconjuntos. Temos uma noção intuitiva clara

do que seja o comprimento de intervalos da reta real como (a, b) ou [a, b] ou [a, b) ou (a, b]. Em
todos esses casos o comprimento é o número positivo (ou nulo) b − a. Para um intervalo I como os de
acima, denotemos por m(I) o seu comprimento. Assim, por exemplo, m([a, b]) = b − a, para todo a e
b com b ≥ a.
Se um conjunto A ⊂ for formado pela união disjunta de dois intervalos I e J como os de acima,

é também intuitivo que o comprimento de A seja dado por m(A) = m(I) + m(J), ou seja, pela soma
dos comprimentos dos intervalos disjuntos que formam A. Se A for formado por uma união disjunta
contável de intervalos Ia , a ∈ , então, igualmente, é natural dizer que o comprimento total de A é

dado por
X∞
m(A) = m(Ia ).
a=1
Note-se que não excluı́mos a possibilidade de A ser um conjunto com comprimento infinito, como é
o caso da semi-reta [0, ∞), que, aliás pode ser escrita como a união contável disjunta de intervalos de
comprimento 1 do tipo [n, n + 1) com n ∈ . Conjuntos com comprimento zero, como conjuntos com

um só elemento {x} também podem existir.

Dessas noções extraı́mos o seguinte princı́pio: se um conjunto A puder ser escrito como uma união
disjunta contável de outros conjuntos Ba , a ∈ , que possuem um comprimento bem definido (finito

ou não), então o comprimento de A deve ser dado pela soma dos comprimentos de cada B a , seja essa
soma finita ou não: !
[ X
m Ba = m(Ba ) .
a∈ a∈
Outra propriedade razoável que devemos supor do conceito de comprimento de um conjunto é que
se A e B são conjuntos e A ⊂ B então m(A) ≤ m(B). Note que podemos ter a igualdade mesmo que A
seja um subconjunto próprio de B. Esse é, por exemplo, o caso dos conjuntos A = (1, 3) e B = [1, 3]
onde tanto A quanto B têm o mesmo comprimento, a saber 2.
Por fim, uma última condição razoável que o comprimento de subconjuntos da reta deve satisfazer
é o de invariância por translações. Seja E ⊂ . Denotaremos por Ex , ou por E + x, o conjunto E

transladado por um número x ∈ , ou seja:

Ex = {y ∈ , com y = a + x para algum a ∈ E}.
Então, o que dizemos é que é razoável supor que m(Ex ) = m(E) para qualquer x ∈ .
O que vamos agora fazer é mostrar que existem subconjuntos da reta real para os quais não há a
menor possibilidade de definir um comprimento m que satisfaça os requerimentos razoáveis delineados
acima.
O exemplo que construiremos é conhecido como exemplo de Vitali3 . Vamos supor que a todo
subconjunto E da reta real possamos associar um comprimento m(E) com as condições mencionadas
acima. Seja então o intervalo I = [0, 1]. Vamos construir em I uma relação de equivalência da seguinte
forma. Dois pontos x e y, ambos elementos de I, são ditos ser equivalentes, x ∼ y, se e somente se
x − y for um número racional.
E. 16.1 Exercı́cio. Prove que isso define de fato uma relação de equivalência. 6
O fato de termos assim criado uma relação de equivalência em I significa que I pode ser escrito
como uma união disjunta das classes de equivalência por essa relação. Usando o Axioma da Escolha
podemos construir um conjunto, que chamaremos de V , tomando um e somente um elemento arbitrário
de cada classe de equivalência de I. Obviamente temos V ⊂ I.
Seja agora Vr o conjunto obtido transladando-se o conjunto V por um número r ∈ . Vamos
mostrar que Vr ∩ Vs = ∅ se r 6= s com r, s ∈ , ou seja, que Vr e Vs são disjuntos se r e s forem
elementos distintos de . Para ver isso suponhamos o contrário, ou seja, que exista um elemento
u ∈ Vr ∩ Vs . Como u ∈ Vr então u = v + r, para algum elemento v ∈ V . Por outro lado, como u ∈ Vs
então u = v 0 + s, para algum elemento v 0 ∈ V . Portanto v + r = v 0 + s e v − v 0 = s − r. Como s − r
é um racional então v ∼ v 0 . Mas isso só é possı́vel se v = v 0 pois, ao construirmos V , tomamos um e
somente um elemento de cada classe de equivalência de I, o que significa dizer que elementos distintos
de V não podem ser equivalentes. Por outro lado, se v = v 0 a relação v − v 0 = s − r diz que s = r, o
que contraria as hipóteses. Logo Vr ∩ Vs = ∅ se r, s ∈ com r 6= s.
Vamos denotar por 1 o conjunto de todos os números racionais contidos no intervalo [−1, 1]:
1 = ∩ [−1, 1]. Afirmamos que as seguintes relações de inclusão são válidas:
[
[0, 1] ⊂ Vr ⊂ [−1, 2].
r∈ 1
[
Vamos provar isso. A relação Vr ⊂ [−1, 2] é óbvia pois V é um subconjunto do intervalo
r∈ 1
[0, 1] e, ao transladarmos V por um número r do conjunto 1 podemos no máximo cair dentro de
[−1, 2].
[
A relação [0, 1] ⊂ Vr pode ser vista da seguinte forma. Se x ∈ [0, 1] então x pertence a
r∈ 1
uma classe de equivalência V. Seja v o elemento de V que foi escolhido para comparecer em V como
o representante de V. Como x e v são membros da mesma classe de equivalência, então x − v é um
racional s. Como x e v são elementos de [0, 1], então sua diferença deve ser um elemento de [−1, 1].
[ que s ∈ 1 . Logo, x ∈ Vs com s ∈ 1 . Como isso vale para todo x ∈ [0, 1], segue que
Assim, vemos
[0, 1] ⊂ Vr como querı́amos mostrar.
r∈ 1
Que conseqüências isso tudo tem? Pela hipótese que se A ⊂ B então m(A) ≤ m(B), segue que
!
[
m([0, 1]) ≤ m Vr ≤ m([−1, 2]),
r∈ 1
3
Giuseppe Vitali (1875-1932).
ou seja, !
[
1 ≤ m Vr ≤ 3,
r∈ 1
[
Pelo que vimos acima a união Vr é uma união disjunta e contável (pois os racionais são
r∈ 1
contáveis). Logo, pelas nossas hipóteses sobre m, temos que
!
[ X
m Vr = m(Vr ).
r∈ 1 r∈ 1
A desigualdade acima fica então X

1 ≤ m(Vr ) ≤ 3.
r∈ 1
Por fim, pela hipótese que m é invariante por translações, segue que m(Vr ) = m(V ) e, portanto,
X
1 ≤ m(V ) ≤ 3.
r∈ 1
Agora, essa relação é absurda pois não pode ser nunca satisfeita para m(V ) ≥ 0. Se m(V ) = 0 a
primeira desigualdade é violada e se m(V ) > 0 (ou infinito) a segunda o é pois a soma é infinita.
O que está errado? O erro está em supor que se possa atribuir ao conjunto V um comprimento
m(V ). O conjunto V , que é chamado conjunto de Vitali, é um exemplo de um conjunto não-mensurável.
A ele não é possı́vel atribuir um comprimento, nem nulo, nem finito, nem infinito.
Para finalizar essa discussão fazemos notar que fizemos uso de modo crucial do Axioma da Escolha
na construção do conjunto V acima. Em outros esquemas axiomáticos sobre a teoria dos conjuntos
subjacente à Matemática o Axioma da Escolha pode ser substituı́do por um outro axioma que impeça
a construção de conjuntos como V .
16.2 Medidas de Conjuntos. Definição, Exemplos e Proprie-

dades Básicas
• A Definição de Medida
Uma vez visto que problemas com a mensurabilidade de conjuntos podem existir, vemo-nos forçados
a tratar o problema reunindo instrumentos mais sólidos para sua abordagem.
Seja X um conjunto e M uma σ-álgebra em X. Vamos definir o conceito formal de medida. Uma
medida em M é uma função µ que associa a cada elemento da σ-álgebra M um número real ≥ 0 ou
infinito, ou seja, µ : M → + ∪ {∞} e de tal forma que as seguintes condições sejam satisfeitas:

1. µ(∅) = 0.
2. Se Ai , i ∈ , é uma coleção contável e disjunta de elementos de M então

!
[ X
µ An = µ(An ). (16.1)
n∈ n∈
A propriedade 2 é por vezes denominada aditividade contável, ou ainda σ-aditividade.

Uma palavra tem que ser dita aqui sobre o significado dessa definição. Conforme vimos, há conjuntos
em aos quais não podemos atribuir uma noção razoável de comprimento. O problema consiste então

em identificar classes de conjuntos para os quais esta definição pode fazer sentido sem que venhamos
a cair em paradoxos como os envolvendo o conjunto de Vitali. A experiência mostrou que σ-álgebras
são justamente o ambiente ideal para desenvolver a noção de medida de conjuntos, sem que se recaia
em dificuldades sérias. Daı́ restringirmos a definição de medida à σ-álgebras. A propriedade (16.1) é
de importância crucial para o desenvolvimento da teoria de medida (e como tal, um achado histórico)
e é chamada de propriedade de σ-aditividade.
• Exemplos
Vamos a alguns exemplos básicos de medidas.
1. A Medida de Contagem. Seja X um conjunto não-vazio e M = (X). Para E ∈ M definimos


 o número de elementos de E, caso E seja um conjunto finito,
µc (E) :=

∞, caso E não seja um conjunto finito.
Então, µc define uma medida em M (verifique!), a qual “conta” o número de elementos de cada
conjunto E, daı́ sua designação.
2. A Medida de Dirac4 em x0 . Seja X um conjunto não-vazio, seja M = (X) e seja x0 um elemento

de X. Para E ∈ M definimos

 1, caso x0 ∈ E,
δx0 (E) := (16.2)

0, caso x0 6∈ E.
Então, δx0 é uma medida (verifique!) que diz se o ponto x0 fixado é um elemento de E ou não.
3. A Medida de Dirac Sobre Um Conjunto Contável C. Seja X um conjunto não-vazio, seja M =

(X) e seja C um subconjunto contável de X. Para E ∈ M definimos

 o número de elementos de E ∩ C, caso E ∩ C seja um conjunto finito,
δC (E) :=

∞, caso E ∩ C não seja um conjunto finito.
Então, δC é uma medida (verifique!) que generaliza a medida δx0 acima.

4
4. Sejam α, β ≥ 0 e seja X um conjunto não-vazio que possua um sub-conjunto próprio não-vazio A

(para isso basta que X tenha mais de um elemento). Considere a σ-álgebra M = {∅, A, Ac , X}.
Se definirmos µ(∅) = 0, µ(A) = α, µ(Ac ) = β e µ(X) = α + β, então µ será uma medida em M.
Mostre isso!
Por estes exemplos vemos que a noção de medida extrapola a noção geométrica de comprimento,
área, volume etc. de um conjunto, conceitos esses que, ademais, só se aplicam a certos sub-conjuntos de
n
. Outros exemplos mais elaborados de medidas serão vistas adiante, em especial aqueles referentes
justamente às noções geométricas de comprimento, área etc. de subconjuntos de n . Tais medidas são

conhecidas como medidas de Lebesgue e serão discutidas adiante.
grego). Mostre que
M = ∅, {γ}, {α, β}, {α, β, γ}
é uma σ-álgebra em X = {α, β, γ}. Mostre que µ : M →
+, definida por
µ(∅) = 0, µ({γ}) = 1, µ({α, β}) = 0, µ({α, β, γ}) = 1
é uma medida em M. 6
grego). Mostre que
M = ∅, {γ}, {α, β}, {α, β, γ}
+, definida por
µ(∅) = 0, µ({γ}) = 2, µ({α, β}) = 1, µ({α, β, γ}) = 3
grego). Mostre que

M = ∅, {α}, {β}, {γ}, {α, β}, {α, γ}, {β, γ}, {α, β, γ}
+ definida por
µ(∅) = 0, µ({α}) = 0, µ({β}) = 0, µ({γ}) = 1,
µ({α, β}) = 0, µ({α, γ}) = 1, µ({β, γ}) = 1, µ({α, β, γ}) = 1
• Propriedades Básicas de Medidas
Vamos agora extrair algumas conseqüências básicas da definição de medida [105]. Abaixo, seja X
um conjunto não-vazio, M uma σ-álgebra em X e µ uma medida em M.
1. Se A1 , . . . , An é uma coleção finita de elementos disjuntos de M então µ(A1 ∪ · · · ∪ An ) = µ(A1 ) +

· · · + µ(An ).
[
Prova. Defina-se Am = ∅ para m > n. Então, A1 ∪ · · · ∪ An = Aj e, portanto,
j∈
!
[ X
µ(A1 ∪ · · · ∪ An ) = µ Aj = µ(Aj ) = µ(A1 ) + · · · + µ(An ),
j∈ j∈
pois µ(∅) = 0.
2. Se A e B são elementos de M e A ⊂ B então µ(A) ≤ µ(B).

Prova. Como A ⊂ B, segue que B = A ∪ (Ac ∩ B), uma união disjunta de elementos de M (por
que?). Logo, pelo item anterior segue que µ(B) = µ(A) + µ(Ac ∩ B). Como µ(Ac ∩ B) ≥ 0, segue
que µ(B) ≥ µ(A).
3. Se Aj , j ∈ , são elementos de M com Aj ⊂ Aj+1 para todo j ∈ , então lim µ(An ) = µ(A),
[ n→∞
onde A = An .
n∈
Prova. Defina-se B1 = A1 e Ba = Aa \ Aa−1 para a ≥ 2. Então, pelas hipóteses,
An = B 1 ∪ · · · ∪ B n
e [
A = Ba ,
a∈N
onde, em ambos os casos, as uniões são disjuntas. Assim,
µ(An ) = µ(B1 ) + · · · + µ(Bn )
e X
µ(A) = µ(Ba ).
a∈
Portanto, µ(A) = lim µ(An ), como querı́amos provar.

n∈
4. Se Aj , j ∈ , são elementos de\M com Aj+1 ⊂ Aj para todo j ∈

, e se µ(A1 ) for finito, então
lim µ(An ) = µ(A), onde A = An .
n→∞
n∈
Prova. Seja Ca = A1 \ Aa . Então, pelas hipóteses, Cj ⊂ Cj+1 . Como vimos no item anterior, isso
diz que
lim µ(Cn ) = µ(C),
n→∞
[
onde C = Ca = A1 \ A. Temos agora que A1 = An ∪ Cn e A1 = A ∪ C, duas uniões disjuntas.
a∈
Portanto µ(An ) + µ(Cn ) = µ(A) + µ(C). Assim, lim µ(An ) + lim µ(Cn ) = µ(A) + µ(C) e,
n→∞ n→∞
então,
lim µ(An ) + µ(C) = µ(A) + µ(C).
n→∞
Como µ(A1 ) é finito, então µ(C) e µ(A) também são finitos (pois são subconjuntos de A1 ). Logo,
podemos cancelar µ(C) da última igualdade e obtemos o desejado.
Os dois primeiros itens acima são resultados desejados pela noção intuitiva de medida. O penúltimo
diz que a medida de um conjunto A pode ser aproximada “por dentro” pelas medidas de conjuntos
mensuráveis que convergem a A e o último item diz que se um conjunto A tem medida finita e se
há conjuntos An também com medida finita que contém A e convergem a A então também podemos
aproximar a medida de A pela dos aproximantes externos An .
16.3 Construindo Medidas. A Medida Exterior e o Teorema

de Caratheodory
Há muitos processos que permitem construir medidas com certas propriedades desejadas. Vamos aqui
delinear um processo que será particularmente importante para a construção da chamada medida de
Lebesgue da reta real.
A construção a que nos referimos exige que introduzamos mais um conceito. O de medida exterior.
Uma medida exterior µ em um conjunto não-vazio X é uma função que associa a cada subconjunto
de X um número real maior ou igual a zero ou infinito e de tal forma que:
1. µ(∅) = 0.
2. Se A ⊂ B então µ(A) ≤ µ(B).
3. Para qualquer coleção contável Aj , j ∈ , de subconjuntos de X tem-se que

!
[ X
µ Aj ≤ µ(Aj ).
j∈ j∈
Notas.
Um exemplo elementar de medida exterior, e que ilustrará o Teorema de Caratheodory, abaixo,

é encontrado no Exercı́cio E. 16.6 da página 849.
Enfatizamos que medidas exteriores são definidas sobre a totalidade dos subconjuntos de X ao
contrário de medidas, que são definidas apenas sobre σ-álgebras em X (e que podem ser menores
que (X)).
Uma outra distinção relevante entre medidas exteriores e medidas é a seguinte. Seja A um
conjunto e sejam A1 e A2 dois subconjuntos disjuntos próprios do conjunto A tais que A = A1 ∪A2 .
Então, há casos em que µ(A) 6= µ(A1 ) + µ(A2 ). Esse fato é contrario à intuição por trás da noção
de medida de um conjunto. Para uma medida µ isso nunca pode ocorrer se A, A1 e A2 forem
elementos da σ-álgebra dos conjuntos mensuráveis por µ, pela própria definição de medida dada
acima.
Se A1 e A2 são dois subconjuntos de X sempre temos que µ(A1 ∪ A2 ) ≤ µ(A1 ) + µ(A2 ). Isso é
[ pela definição de medida exterior pois, tomando-se Aj = ∅ para j > 2 temos que
fácil de se ver
A1 ∪ A 2 = Aj .
j∈
Vamos agora mostrar o seguinte resultado fundamental e que é a verdadeira razão de ser do conceito
de medida exterior.
Teorema 16.1 (Teorema de Caratheodory) 5 Seja Mµ a coleção de todos os subconjuntos A de
X que tenham a seguinte propriedade: Para todo E ⊂ X vale que
µ(E) = µ(E ∩ A) + µ(E ∩ Ac ),
onde Ac = X \ A. Então, Mµ é uma σ-álgebra. Fora isso, µ é uma medida em Mµ . 2
Antes de provarmos esse teorema, façamos algumas observações sobre o mesmo. Apesar de o
teorema acima não ser, admitidamente, muito intuitivo, o mesmo fornece um método importante de
construção de medidas. A razão é que, como veremos no caso da construção da medida de Lebesgue,
é em muitos casos mais fácil construir-se primeiro uma medida exterior sobre um conjunto X que
uma medida, o que exigiria a identificação prévia de uma σ-álgebra conveniente. O teorema acima já
permite exibir uma tal σ-álgebra, no caso Mµ , para a qual µ é uma medida. Historicamente o teorema
acima representou também uma simplificação importante, especialmente na construção da medida de
Lebesgue, dado que a mesma era originalmente alcançada por vias mais trabalhosas (identificando-se
a medida exterior com o que se chama de medida interior, da qual não trataremos aqui).
Um exemplo elementar que ilustra o Teorema de Caratheodory é encontrado no Exercı́cio E. 16.6
da página 849. O estudante poderá estudá-lo antes de mergulhar na demonstração do teorema.
A prova do do Teorema de Caratheodory é um pouco longa e precisamos de um resultado prepa-
ratório.
Lema 16.1 Sejam A e B dois elementos de Mµ . Então, A ∪ B é também um elemento de Mµ . 2
Prova. Tudo o que queremos provar é que
µ(E) = µ(E ∩ (A ∪ B)) + µ(E ∩ (A ∪ B)c )
para um subconjunto E ⊂ X genérico.

5
Em sua forma original esse teorema é devido ao matemático Constantin Caratheodory (1873-1950) e por isso vamos
denominá-lo dessa forma, ainda que tal nomenclatura não seja comum.
Seja E 0 o conjunto E 0 = (A ∪ B) ∩ E. Então, como A ∈ Mµ , segue que
µ(E 0 ) = µ(E 0 ∩ A) + µ(E 0 ∩ Ac ),
ou seja,
µ((A ∪ B) ∩ E) = µ((A ∪ B) ∩ E ∩ A) + µ((A ∪ B) ∩ E ∩ Ac ).
É fácil de se ver agora (faça!) que
(A ∪ B) ∩ E ∩ A = A ∩ E
e que
(A ∪ B) ∩ E ∩ Ac = Ac ∩ E ∩ B.
Assim,
µ((A ∪ B) ∩ E) = µ(A ∩ E) + µ(Ac ∩ E ∩ B).
Vamos fazer uso dessa última igualdade logo abaixo.
Notemos agora que, como A e B são elementos de Mµ , temos que
µ(E) = µ(A ∩ E) + µ(Ac ∩ E)
= µ(A ∩ E) + µ(Ac ∩ E ∩ B) + µ(Ac ∩ E ∩ B c ).
Acabamos de ver que a soma dos dois primeiros termos da última igualdade vale µ((A ∪ B) ∩ E) e
para o último termo vale µ(Ac ∩ B c ∩ E) = µ((A ∪ B)c ∩ E), pois Ac ∩ B c = (A ∪ B)c . Assim, provamos
que
µ(E) = µ(E ∩ (A ∪ B)) = µ(E ∩ (A ∪ B)c ),
Note que o resultado acima também diz que se A1 , . . . , An são elementos de Mµ então o conjunto
A1 ∪ · · · ∪ An também é elemento de Mµ para qualquer n finito.
Passemos agora à prova do Teorema de Caratheodory.
• Prova do Teorema de Caratheodory
Parte I. Vamos nesta parte I provar que o conjunto Mµ é de fato uma σ-álgebra.
Em primeiro lugar, note-se que se A ∈ Mµ então Ac também é um elemento de Mµ pois (Ac )c = A
e portanto, para todo E ⊂ X,
µ(E ∩ (Ac )) + µ(E ∩ (Ac )c ) = µ(E ∩ (Ac )) + µ(E ∩ A) = µ(E),
por hipótese. Assim, podemos também ver que tanto ∅ quanto X são elementos de Mµ pois, claramente,
para qualquer E ⊂ X
µ(E) = µ(E ∩ ∅) + µ(E ∩ (∅)c )
dado que ∅c = X, que E ∩ X = E, que E ∩ ∅ = ∅ e que µ(∅) = 0.
Vimos no Lema 16.1 que se A e B são elementos de Mµ então A ∪ B também o é. Como A ∩ B =
(Ac ∪ B c )c então concluı́mos que A ∩ B também é elemento de Mµ , o mesmo valendo para A \ B pois
A \ B = A ∩ B c.
[
Resta-nos provar que se {Aj , j ∈ } é uma coleção contável de elementos de Mµ então A =
Aj
j∈
também o é.
Seja E um subconjunto genérico de X. Claramente temos que E = (E ∩ A) ∪ (E ∩ Ac ), o que,
pelo que observamos acima, significa que µ(E) ≤ µ(E ∩ A) + µ(E ∩ Ac ). Tudo o que precisamos
fazer, então, é provar que µ(E) ≥ µ(E ∩ A) + µ(E ∩ Ac ) o que significaria então que A ∈ Mµ , como
queremos provar.
Para provar esta desigualdade, observemos primeiro que, para qualquer conjunto E 0 e qualquer
elemento A de Mµ vale, por definição, µ(E 0 ) = µ(E 0 ∩ A) + µ(E 0 ∩ Ac ). Daı́, tomando-se E 0 da forma
E 0 = (A ∪ B) ∩ E, com E ⊂ X e A, B ∈ Mµ com A ∩ B = ∅, temos
µ((A ∪ B) ∩ E) = µ(A ∩ E) + µ(B ∩ E),
pois, como A ∩ B = ∅, tem-se que (A ∪ B) ∩ E ∩ A = A ∩ E e (A ∪ B) ∩ E ∩ Ac = B ∩ E.
E. 16.5 Exercı́cio. Verifique estas últimas afirmativas. 6
Isso significa, em particular que, se B1 , . . . , Bn são elementos disjuntos de Mµ , então
µ(E ∩ (B1 ∪ · · · ∪ Bn )) = µ(E ∩ B1 ) + · · · + µ(E ∩ Bn ).
Vamos definir B1 = A1 , Bn = An \ (A1 ∪ · · · ∪ An−1 ) para n ≥ 2. Então, pelo que já observamos,
cada Bj é elemento de Mµ e Bi ∩ Bj = ∅ se i 6= j. Fora isso,
[ [
Bi = Ai .
i∈ i∈
n
[
Como cada Bi é elemento de Mµ , então já vimos que para cada n finito Bi ∈ Mµ , ou seja,
i=1
n
!! n
!c !
[ [
µ(E) = µ E ∩ Bi +µ E∩ Bi
i=1 i=1
para todo E ⊂ X. Agora !!

n
[ n
X
µ E∩ Bi = µ(Bi ∩ E)
i=1 i=1
pois os Bi ’s são disjuntos.

Por outro lado !c ! !c !
n
[ [
µ E∩ Bi ≥ µ E∩ Bi
i=1 i∈
dado que !c !c
[ n
[
Bi ⊂ Bi . (Por quê?)
i∈
i=1
Logo, vimos que !c !

n
X [
µ(E) ≥ µ(Bi ∩ E) + µ E ∩ Bi .
i=1 i∈
Como essa desigualdade vale para qualquer n, segue que

∞
!c !
X [
µ(E) ≥ µ(Bi ∩ E) + µ E ∩ Bi .
i=1 i∈
Por fim, pela própria definição de medida exterior, temos que

∞
!!
X [
µ(Bi ∩ E) ≥ µ E ∩ Bi (por que?)
i=1 i∈
e, portanto,
!! !c !
[ [
µ(E) ≥ µ E ∩ Bi +µ E ∩ Bi
i∈ i∈
!! !c !
[ [
= µ E∩ Ai +µ E ∩ Ai
i∈ i∈
Isso é exatamente o que querı́amos provar. Assim, mostramos que Mµ é de fato uma σ-álgebra e a
prova da parte I do teorema está completa.
Parte II. Vamos nesta parte II provar a medida exterior é de fato uma medida quando restrita aos
elementos da σ-álgebra Mµ .
Tudo o que queremos provar é a propriedade seguinte: se Bi , i ∈ , são elementos disjuntos de Mµ ,
então !
[ X
µ Bi = µ(Bi ).
i∈ i∈
Pelo que já vimos na parte I, temos que

∞
!c !
X [
µ(E) ≥ µ(Bi ∩ E) + µ E ∩ Bi
i=1 i∈
!! !c !
[ [
≥ µ E∩ Bi +µ E ∩ Bi
i∈ i∈
= µ(E)
onde a última igualdade é precisamente a afirmativa que foi provada na parte I. Assim, como µ(E)
aparece no começo e no fim da cadeia de desigualdades, todos os sı́mbolos de “≥” podem ser substituı́dos
por sı́mbolos de igualdade “=” (por que?). Ou seja, temos que
∞
!c !
X [
µ(E) = µ(Bi ∩ E) + µ E ∩ Bi .
i=1 i∈
[
Como isso vale para todo E ⊂ X, tomemos, em particular, E = Bi . A última fórmula fica
i∈
! ∞
[ X
µ Bi = µ(Bi )
i∈
i=1
que é exatamente o que querı́amos provar. Isso completa a prova do Teorema de Caratheodory.
*
No Capı́tulo 17 vamos ilustrar o uso do Teorema de Caratheodory na construção de uma medida
muito importante: a medida de Lebesgue da reta real. O Teorema de Caratheodory pode ser utilizado
em várias outras construções de medidas, as mais notáveis talvez sejam medidas em conjuntos fractais,
conjuntos que não possuem dimensão inteira, tais como o conjunto de Cantor6 , a curva de Koch7 (Fig.
16.1) e outras.
Figura 16.1: A curva de Koch.
• Uma ilustração elementar do Teorema de Caratheodory
O seguinte exercı́cio-exemplo ilustra o Teorema de Caratheodory.

6
7
Niels Fabian Helge von Koch (1870-1924).
E. 16.6 Exercı́cio-exemplo. Sejam α, β e γ três objetos distintos (por exemplo, três letras distintas do
alfabeto grego). Seja X = {α, β, γ} e seja

(X) = ∅, {α}, {β}, {γ}, {α, β}, {α, γ}, {β, γ}, {α, β, γ} .
Mostre que µ : (X) →
+, definida por
µ(∅) = 0, µ({α}) = 1, µ({β}) = 1, µ({γ}) = 2,
µ({α, β}) = 1, µ({α, γ}) = 3, µ({β, γ}) = 3, µ({α, β, γ}) = 3,
é uma medida exterior em (X). Podemos, então, nos perguntar: quais conjuntos A ⊂ X têm a propriedade
de Caratheodory
µ(E) = µ(E ∩ A) + µ(E ∩ Ac )
para todo E ∈ (X)? Mostre explicitamente (ou seja, analisando caso-a-caso) que os elementos de

M = ∅, {γ}, {α, β}, {α, β, γ}
possuem essa propriedade. Tem-se porém que
1. Para A = {α} a propriedade falha com E = {α, β, γ} e com E = {α, β}.
2. Para A = {β} a propriedade falha com E = {α, β, γ} e com E = {α, β}.
3. Para A = {α, γ} a propriedade falha com E = {α, β, γ} e com E = {α, β}.
4. Para A = {β, γ} a propriedade falha com E = {α, β, γ} e com E = {α, β}.
Constate tudo isso. Assim, apenas os elementos de M, acima, possuem a propriedade de Caratheodory.
Os fatos, garantidos pelo Teorema de Caratheodory, que M é uma σ-álgebra e que µ restrita a M, ou
seja
µ(∅) = 0, µ({γ}) = 2, µ({α, β}) = 1, µ({α, β, γ}) = 3
é uma medida em M, podem ser facilmente verificados diretamente e, de fato, já o fizemos no Exercı́cio E.
16.3, página 841. 6
• Medidas Completas
Uma medida µ em uma σ-álgebra M é dita ser completa se para todo A ∈ M com a propriedade que
µ(A) = 0 valer que todo B ⊂ A é também elemento de M. Em palavras mais simples, µ é completa se
qualquer subconjunto de um conjunto de medida nula for também mensurável.
Um exemplo de uma medida não-completa é o aquele encontrado no Exercı́cio E. 16.2 da página 841.
Aquela medida não é completa pois {α, β} é um conjunto de medida nula, mas possui sub-conjuntos,
{α} e {β}, que não são elementos de M.
Esse exemplo, ainda que um tanto elementar, ilustra que para uma medida ser completa deve estar
definida em uma σ-álgebra rica o suficiente para poder conter todos os sub-conjuntos dos conjuntos de
medida nula. O Exercı́cio seguinte ilustra isso.
E. 16.7 Exercı́cio. Mostre que a medida definida no Exercı́cio E. 16.4, página 841, é completa. Compare
com a medida do Exercı́cio E. 16.2, página 841, em particular, compare as σ-álgebras desses dois exercı́cios.
6
A medida do Exercı́cio E. 16.3, página 841, é completa pois lá ∅ é o único conjunto de medida
nula. A razão profunda daquela medida ser completa, porém, está relacionada ao fato, estudado no
Exercı́cio E. 16.6, página 849, que aquela medida provem de uma medida exterior. Esse é o nosso
próximo assunto.
• Medidas Completas e o Teorema de Caratheodory
Mostraremos que qualquer medida construı́da pelo procedimento de Caratheodory, ou seja, a partir
de uma medida exterior, é completa. Isso é o conteúdo do seguinte teorema:
Teorema 16.2 Seja µ uma medida exterior em um conjunto não-vazio X e sejam Mµ e µ a σ-álgebra
e a medida associadas a µ pela construção de Caratheodory. Então, µ é completa, ou seja, se A é
um conjunto µ-mensurável e µ(A) = 0 segue que todo B ⊂ A é também µ-mensurável (um fato não
trivial!) e µ(B) = 0 2
Prova. Para provar a afirmativa note que, se E ⊂ X e B ⊂ A com A sendo µ-mensurável, então
µ(E ∩ B) ≤ µ(E ∩ A) ≤ µ(A) = µ(A) = 0, (16.3)
µ(E ∩ B c ∩ A) ≤ µ(A) = µ(A) = 0, (16.4)
µ(E ∩ A) ≤ µ(A) = µ(A) = 0, (16.5)
pois E ∩ B c ∩ A e E ∩ A são ambos subconjuntos de A e, para medidas exteriores, vale que se M ⊂ N

então µ(M ) ≤ µ(N ). Logo,

(16.3)
µ(E ∩ B) + µ(E ∩ B c ) = µ(E ∩ B c )
A é µ-mensurável
= µ(E ∩ B c ∩ Ac ) + µ(E ∩ B c ∩ A)
= µ(E ∩ (B ∪ A)c ) + µ(E ∩ B c ∩ A)

B⊂A
= µ(E ∩ Ac ) + µ(E ∩ B c ∩ A)
(16.4)
= µ(E ∩ Ac )
(16.5)
= µ(E ∩ Ac ) + µ(E ∩ A)
A é µ-mensurável
= µ(E) .
Assim, estabeleceu-se que para todo E ⊂ X vale µ(E) = µ(E ∩ B) + µ(E ∩ B c ) e, portanto, B é
µ-mensurável. O fato que µ(B) = 0 é agora trivial pois B ⊂ A e, portanto, µ(B) ≤ µ(A) = 0.
Nota. Não poderı́amos logo de partida ter concluı́do que µ(B) = 0 do fato que B ⊂ A e, portanto,
µ(B) ≤ µ(A) = 0, pois não estava ainda estabelecido que B era µ-mensurável e que µ(B) estivesse
definido.
A medida de Lebesgue, que construiremos no Capı́tulo 17, é completa, pois é também construı́da
por uma medida exterior, seguindo Caratheodory. Já a medida de Borel-Lebesgue, também tratada
naquele capı́tulo, não é completa.
Capı́tulo 17
A Medida de Lebesgue
Conteúdo
17.1 A Construção da Medida de Lebesgue . . . . . . . . . . . . . . . . . . . . . 852

17.1.1 A σ-álgebra de Borel em e a Medida de Borel-Lebesgue . . . . . . . . . . . 855
17.1.2 A Medida Produto e a Medida de Lebesgue em
n . . . . . . . . . . . . . . . 858
17.2 Conjuntos de Cantor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 859
17.3 Bases de Hamel e a Medida de Lebesgue . . . . . . . . . . . . . . . . . . . 871
medida de Lebesgue1 em é o nome dado à medida de comprimento usual de certos subcon-

juntos adequados da reta real. O termo “adequado” é crucial aqui pois, como discutimos no
inı́cio do Capı́tulo 16, não é para qualquer subconjunto de que o conceito de comprimento

está definido. É, portanto, essencial determinar σ-álgebras para cujos elementos a noção de
comprimento não envolva paradoxos como os que encontramos quando tratamos do comprimento do
conjunto de Vitali (página 837). Fora isso, desejamos que essa medida de comprimento satisfaça certas
condições adicionais, a mais importante sendo a invariância por translações. Desejamos também que
os intervalos (a, b), [a, b], (a, b] e [a, b) sejam todos mensuráveis e com medida b − a.
Para construir a medida de Lebesgue seguiremos a estratégia sugerida pelo Teorema de Caratheo-
dory (Teorema 16.1, página 844): vamos primeiro construir uma medida exterior sobre os subconjuntos
de que seja conveniente aos nossos propósitos. O Teorema de Caratheodory, então, afirma que
existe uma σ-álgebra Mµ sobre a qual a medida exterior é uma medida. Essa σ-álgebra é denominada
σ-álgebra de Lebesgue e a medida correspondente é denominada medida de Lebesgue.
17.1 A Construção da Medida de Lebesgue

Seja Ia, b o intervalo aberto (a, b) com −∞ < a < b < ∞ e sigamos a convenção que I a, b = ∅ caso
a = b. Como a e b são finitos, Ia, b é dito ser um intervalo aberto finito. Para cada intervalo desse tipo
definamos o comprimento l(Ia, b ) = b − a ≥ 0. Para duas seqüências de números reais {ai , i ∈ } e
{bi , i ∈ } satisfazendo −∞ < ai ≤ bi < ∞ para todo i ∈ , vamos definir

I{ai }, {bi } := {Iai , bi , i ∈ },
que é uma coleção contável formada por intervalos abertos finitos ou pelo conjunto vazio. O conjunto
de todas as coleções I{ai }, {bi } será denotado por I.
Doravante, para não sobrecarregar a notação, denotaremos as coleções I {ai },{bi } apenas por I, quando
não houver perigo de confusão.
1
852
Seja I uma coleção contável de intervalos abertos finitos Iai , bi , i ∈ , como acima. Definamos o
comprimento total L(I) de I por X
L(I) := l(Iai , bi ).
i∈
Note que os intervalos Iai , bi podem sobrepor-se. Assim, L(I) é apenas a soma do comprimento dos
intervalos de I, não a medida de comprimento da união de todos os Iai , bi em I.
Seja agora E um sub-conjunto arbitrário de . Denotemos por IE a coleção

( )
[
IE = I ∈ I, tal que E ⊂ Iai , bi com Iai , bi ∈ I .
i∈
Em palavras, IE é a coleção de todas as coleções de intervalos abertos (ou conjunto vazio) cuja união
contém E. Se I ∈ IE , dizemos que a coleção de intervalos I “cobre” E.
Definamos então
µL (E) := inf L(I). (17.1)
I∈IE
Vamos provar que µL é uma medida exterior.

Em primeiro lugar, é fácil ver pela definição que µL (∅) =[0. Em segundo lugar, se A ⊂ B então
IB ⊂ IA pois se uma coleção de intervalos I é tal que B ⊂ Iai , bi com Iai , bi ∈ I então obviamente
[ i∈
A⊂ Iai , bi pois A ⊂ B. Portanto, µL (A) ≤ µL (B) dado que

i∈
inf L(I) ≤ inf L(I)

I∈IA I∈IB
pois IB ⊂ IA (é claro para você a razão disso?).

!
[ X
Falta-nos apenas provar que µL Ai ≤ µL (Ai ) onde Ai são subconjuntos de . Observemos
i∈ i∈
em primeiro lugar o seguinte. Seja A um subconjunto qualquer da reta real e seja o conjunto I A de
todas as coleções contáveis de intervalos cuja união contém A. Afirmamos que, para qualquer número
real positivo r dado podemos encontrar pelo menos uma coleção I em IA tal que L(I) = µL (A) + r.
Provar isso é simples. Se pela definição µL (A) = inf L(I) então para qualquer δ > 0 deve haver
I∈IA
uma coleção Iδ ∈ IA tal que L(Iδ ) − µL (A) < δ. Vamos escolher δ < r e consideremos a coleção
I0 = Iδ ∪ {(−a, a)}, onde
r − L(Iδ ) + µL (A)
a = .
2
Como L(Iδ ) − µL (A) < δ e r > δ, temos que a > 0. Fora isso é óbvio que I0 ∈ IA , pois se a coleção Iδ
já cobre A então I0 também deve fazê-lo. Finalmente, é claro pela construção que
L(I0 ) = L(Iδ ) + l((−a, a)) = L(Iδ ) + r − L(Iδ ) + µL (A) = µL (A) + r.
Isto posto, seja para cada b ∈ a coleção de intervalos Ib ∈ IAb tal que

L(Ib ) = µL (Ab ) +
2b
[
para > 0. A coleção J = Ib é também uma coleção contável de intervalos que cobrem o conjunto
[ b∈
Ai . Fora isso,
i∈
∞

X X
L(J) = µL (Ab ) + = µL (Ab ) + .
b=1
2b b∈
[
Como J cobre Ai , segue que
i∈
!
[ X
µL Ai ≤ L(J) = µL (Ab ) + .
i∈
b∈
Como isso vale para qualquer > 0, segue que

!
[ X
µL Ai ≤ µL (Ab ).
i∈ b∈
Isso completa então a prova que µL é uma medida exterior.

Com isso em mãos, temos agora permissão para evocar o Teorema de Caratheodory e afirmar que
a coleção MµL formada por todos os subconjuntos A de X que tenham a propriedade que para todo
E ⊂ X vale que
µL (E) = µL (E ∩ A) + µL (E ∩ Ac ),
é uma σ-álgebra e que µL é uma medida em MµL , que denotaremos por µL . A medida µL assim definida
é chamada de medida de Lebesgue e MµL é chamada de σ-álgebra de Lebesgue. Os elementos de MµL
são chamados de conjuntos mensuráveis por Lebesgue.
Antes de mostrarmos que a coleção MµL é de fato não-trivial (um fato que não é óbvio até aqui), o
que faremos na Seção 17.1.1, vamos exibir duas propriedades básicas da medida de Lebesgue: invariância
por translações e regularidade.
• Invariância de µL por translações
A medida e Lebesgue da reta real satisfaz um requerimento básico associado à noção usual de
comprimento de conjuntos da reta real: invariância por translações. Mais precisamente, tem-se que
para todo A ∈ MµL e todo x ∈ o conjunto transladado Ax é também elemento de MµL e tem-se

µL (Ax ) = µL (A). A demonstração desses fatos é simples e é deixada como exercı́cio ao estudante.
E. 17.1 Exercı́cio. Prove que para todo A ∈ MµL e todo x ∈ tem-se Ax ∈ MµL e que µL (Ax ) =
µL (A). Sugestão: Prove primeiro que para todo E ⊂ e todo x ∈ tem-se µ L (Ex ) = µL (E). Para isso,

use a definição (17.1) e o fato evidente que l(Ia+x, b+x ) = l(Ia, b ). Em seguida, use esse fato para mostrar
que se A é mensurável por Lebesgue então Ax também o é (para qualquer x ∈ ), ou seja, mostre que se
µL (E) = µL (E ∩ A) + µL (E ∩ Ac ) para todo E ⊂ então µL (E) = µL (E ∩ Ax ) + µL (E ∩ Acx ) para todo

E ⊂ . Conclua dos fatos acima que µL (Ax ) = µL (A) para todo A ∈ MµL e todo x ∈ .
6
• Regularidade de µL
A medida µL possui as seguintes propriedades. Para todo B ∈ MµL vale
µL (B) = sup{µL (C), C compacto com C ⊂ B} (regularidade interior)

. (17.2)
µL (B) = inf{µL (A), A aberto com A ⊃ B} (regularidade exterior)
Aqui, a topologia considerada é a topologia usual de ,τ .

As propriedades acima são também válidas em n . Não apresentaremos as demonstrações aqui e

o leitor poderá encontrá-las nos bons livros. Mencionamos que as propriedades de regularidade acima
são importantes em vários desenvolvimentos.
Uma questão muito importante agora é saber se MµL não é uma σ-álgebra trivial e se certos conjun-
tos “razoáveis”, tais como intervalos abertos, fechados e semi-abertos, são mensuráveis por Lebesgue.
A resposta a esta questão é dada na próxima seção, onde discutiremos a relação entre a σ-álgebra de
Lebesgue em e a σ-álgebra de Borel.

17.1.1 A σ-álgebra de Borel em e a Medida de Borel-Lebesgue

A chamada σ-álgebra de Borel2 em é, por definição, a menor σ-álgebra que contem a topologia usual

de , τ . Ou seja, é a σ-álgebra M[τ ] gerada pela topologia τ . Vide definição à página 822. Como

veremos, essa σ-álgebra está relacionada à σ-álgebra de Lebesgue definida acima, sendo um subconjunto
da mesma (vide abaixo). Historicamente essa relação foi estudada por Hausdorff, que provou também
que a cardinalidade de M[τ ] é a de , enquanto que a de MµL é maior.

Vamos primeiramente mostrar que qualquer intervalo aberto (a, b) é um elemento da σ-álgebra
MµL . Sem perda de generalidade, vamos considerar o intervalo aberto I = (0, 1). Tudo o que queremos
provar é que, para todo E ⊂ , tem-se µL (E) = µL (I ∩ E) + µL (I c ∩ E). Como E = (I ∩ E) ∪ (I c ∩ E)

temos sempre que µL (E) ≤ µL (I ∩ E) + µL (I c ∩ E), pela propriedade 3 da definição de medida exterior.
Desejamos então provar que também vale µL (E) ≥ µL (I ∩ E) + µL (I c ∩ E).
Vamos aqui adotar a seguinte convenção. Se A é uma união finita de intervalos disjuntos: A =
I1 ∪ · · · ∪ In , então definimos l(A) := l(I1 ) + · · · + l(In ). Para três conjuntos A, B e C quaisquer
formados por uniões finitas de intervalos disjuntos temos sempre que
l(A ∪ B ∪ C) = l(A) + l(B) + l(C) − l(A ∩ B) − l(A ∩ C) − l(B ∩ C) + l(A ∩ B ∩ C). (17.3)
E. 17.2 Exercı́cio. Prove isso. Sugestão: verifique primeiro que, se A 0 e C são uniões finitas de intervalos
disjuntos, vale que sempre que l(A0 ∪ C) = l(A0 ) + l(C) − l(A0 ∩ C) e então adote A0 = A ∪ B para dois
conjuntos A e B, também formados por uniões finitas de intervalos disjuntos. 6
2
Seja I ∈ IE uma coleção [

contável de intervalos abertos finitos cuja união cobre E: I = {I j , j ∈
, Ij = (ai , bi )} com E ⊂ Ij . Fixemos um com 0 < < 1 e definamos, para todo j ∈ , os
j∈
intervalos
Jj := Ij ∩ I,

Kj := Ij ∩ −∞, j ,
2

Kj0 := Ij ∩ 1 − j , ∞ .
2
(17.4)
Como Ij = Jj ∪ Kj ∪ Kj0 , segue por (17.3) que
l(Ij ) = l(Jj ) + l(Kj ) + l(Kj0 ) − l(Jj ∩ Kj ) − l(Jj ∩ Kj0 )
pois Kj ∩ Kj0 = ∅. Como Jj ∩ Kj = Ij ∩ (0, /2j ) e Jj ∩ Kj0 = Ij ∩ (1 − /2j , 1) temos l(Jj ∩ Kj ) ≤ /2j
e l(Jj ∩ Kj0 ) ≤ /2j .
Assim,

l(Ij ) ≥ l(Jj ) + l(Kj ) + l(Kj0 ) − .
2j−1
Defina agora
J := {Jj , j ∈ }.
K := {Kj , j ∈ } ∪ {Kj0 , j ∈ }.
Pelas desigualdades acima sobre l(Jj ) e l(Kj ) temos
L(I) ≥ L(J) + L(K) − 2. (17.5)
Por outro lado, temos que a coleção de intervalos J cobre E ∩ I e K cobre E ∩ I c (por que?). Daı́
L(J) ≥ µL (E ∩ I) e L(K) ≥ µL (E ∩ I c ). Logo, (17.5) diz que
L(I) ≥ µL (E ∩ I) + µL (E ∩ I c ) − 2. (17.6)
Pela definição da medida exterior µL , sempre podemos escolher I de forma que L(I) ≤ µL (E) + (está
claro para você o porquê disso?). Assim,
µL (E) ≥ µL (E ∩ I) + µL (E ∩ I c ) − 3. (17.7)
Como essa desigualdade vale para todo com 0 < < 1, segue que
µL (E) ≥ µL (E ∩ I) + µL (E ∩ I c ).
Isso é o que querı́amos provar, pois implica então que
µL (E) = µL (E ∩ I) + µL (E ∩ I c ),
que afirma que I é um conjunto mensurável por Lebesgue, de acordo com a definição de Caratheodory.
A demonstração acima não vale somente para o intervalo I = (0, 1), mas pode ser repetida para
todo intervalo aberto finito (a, b) com −∞ < a < b < ∞. Em verdade, uma simples inspeção mostra
que a mesma demonstração pode ser repetida para intervalos finitos como [a, b], [a, b) ou (a, b]. Sem
surpresa, verifica-se que µL ((a, b)) = b − a etc.
Isso tem a seguinte conseqüência: como MµL é uma σ-álgebra, MµL deverá conter todo conjunto
que puder ser escrito como uma união contável de intervalos abertos finitos. Vimos, quando mostramos
que τ é separável, que qualquer aberto da topologia usual pode ser escrito como uma união contável

de intervalos abertos finitos B(r, s) com r, s ∈ e s > 0. Portanto temos que τ ⊂ MµL , de onde
segue que
M[τ ] ⊂ MµL .

(17.8)
Um fato importante, mas que não provaremos com todos os detalhes aqui, é que a σ-álgebra de
Borel M[τ ] é um subconjunto próprio3 de MµL , ou seja, que há conjuntos que são mensuráveis de

Lebesgue mas que não são elementos da σ-álgebra de Borel. Exemplos não são fáceis de exibir, mas
uma classe deles será discutido na Seção 17.3, página 871. Para discutirmos o fato de que a σ-álgebra
de Borel M[τ ] é um subconjunto próprio de MµL façamos primeiro notar o seguinte resultado (que,

ademais, tem importância por si só):

Proposição 17.1 A medida de Lebesgue µL é completa. Ou seja, se A é um conjunto mensurável por
Lebesgue e µL (A) = 0 então todo B ⊂ A é também mensurável de Lebesgue (um fato não trivial!) e
µL (B) = 0 4 . 2
Essa proposição é um mero corolário do Teorema 16.2, página 850.

Como veremos quando discutirmos o chamado conjunto de Cantor, há conjuntos na σ-álgebra de
Lebesgue que são não-contáveis, têm a cardinalidade de e têm medida de Lebesgue nula. Como

vimos, todos os subconjuntos de tais conjuntos são também mensuráveis e, portanto, a coleção de
todos esses subconjuntos tem a cardinalidade de ( ) (que é maior que a de ). Entretanto, sabe-se

(por um teorema de Hausdorff) que M[τ ] tem a cardinalidade de

e portanto M[τ ] deve ser um

subconjunto próprio de MµL .

Dada a relação (17.8) podemos considerar a restrição da medida de Lebesgue à σ-álgebra de Borel
M[τ ]. Essa restrição da medida de Lebesgue é denominada medida de Borel-Lebesgue. É importante

notar que a maioria dos resultados importantes da Análise, especialmente da teoria de integração,
pode ser obtida considerando-se apenas a medida de Borel-Lebesgue e muitos autores preferem tratá-la
preferencialmente à medida de Lebesgue. A medida de Borel-Lebesgue não é completa.
• Conjuntos contáveis da reta real têm medida de Lebesgue nula
3
Aos estudantes: um conjunto A é dito ser um sub-conjunto próprio de um conjunto B se A ⊂ B mas A 6= B.
4
Isso vale também para conjuntos mensuráveis de Lebesgue em n .
É bastante fácil de ser ver pela definição que se a ∈ então µL ({a}) = 0, ou seja, a medida de

Lebesgue de um conjunto constituı́do por apenas um ponto é nula. Pela aditividade da medida, é
evidente daı́ também que a medida de Lebesgue de qualquer sub-conjunto finito de é igualmente
nula, pois se {a1 , . . . , an } ⊂ é um conjunto com n elementos distintos, tem-se

µL ({a1 , . . . , an }) = µL ({a1 } ∪ · · · ∪ {an }) = µL ({a1 }) + · · · + µL ({an }) = 0 ,

pois µL ({ak }) = 0, ∀k ∈ {1, . . . , n}.
Da mesma forma, pela aditividade contável (relação (16.1), página 840), verifica-se que a medida
de Lebesgue de qualquer sub-conjunto contável da reta é nula. De fato, se {an ∈ | n ∈ } ⊂ é
contável, com todos os ak distintos, tem-se

!
[ X
µL ({an ∈ | n ∈ }) = µL
{an } = µL ({an }) = 0 ,
n∈ n∈
também pois µL ({ak }) = 0, ∀k ∈ . Assim, concluı́mos, por exemplo, que o conjunto dos números

racionais e o conjunto 0 dos números algébricos são conjuntos de medida de Lebesgue nula.
Um ponto que não pode deixar mencionado é que há também sub-conjuntos não-enumeráveis de
que também têm medida de Lebesgue nula. Veremos exemplos quando tratarmos dos chamados
conjuntos de Cantor na Seção 17.2, página 859.
• Quase em toda parte
Se X é um conjunto no qual está definida uma medida µ, uma afirmação a respeito dos elementos
de X que for falsa apenas em um conjunto de medida µ nula é dita valer quase em toda a parte em
relação a µ, ou µ-quase em toda parte. Abreviadamente, escreve-se também q.t.p. ou µ-q.t.p. 5 Nesse
espı́rito, dizemos que, em relação à medida de Lebesgue, quase todo número real é irracional, pois só
não são irracionais os números racionais, que formam um conjunto de medida nula. Analogamente, em
relação à medida de Lebesgue, quase todo número é transcendente.
n
17.1.2 A Medida Produto e a Medida de Lebesgue em
Vamos aqui discutir uma construção geral de um espaço de medida em um espaço produto. Seja X um
conjunto com uma σ-álgebra M e uma medida µ e seja também Y um conjunto com uma σ-álgebra N
e uma medida ν. Considere o espaço produto Z = X × Y . Podemos construir em Z uma σ-álgebra e
uma medida da seguinte forma. Seja E um subconjunto arbitrário de Z e seja E a coleção de todas as
coleções da forma da forma C = {Ai × Bi , i ∈ } com Ai ∈ M e Bi ∈ N e tais que

[
E ⊂ Ai × B i .
i∈
Defina para cada coleção C dessa forma a grandeza

X
m(C) = µ(Ai )ν(Bi ).
i∈
5
Em lı́ngua inglesa usa-se a.e.: “almost everywhere”.
Seja então
ω(E) = inf m(C).
C∈E
E. 17.3 Exercı́cio. Mostre que ω é uma medida exterior em Z. 6
Com o resultado do último exercı́cio e com o teorema de Caratheodory podemos construir uma
σ-álgebra Mω em Z com uma medida µ que é denominada medida produto de µ com ν.
n
Com esta construção podemos definir a medida produto da medida de Lebesgue em espaços .
17.2 Conjuntos de Cantor
• O conjunto de Cantor ternário
Dentre os subconjuntos mais interessantes e curiosos da reta real encontram-se os chamados con-
juntos de Cantor6 . Há vários tipos de conjuntos ditos de Cantor (para uma definição técnica geral,
vide página 973). Iremos aqui apresentar alguns deles, começando pelo mais simples e tradicional, o
chamado conjunto de Cantor ternário, C1/3 , o qual será primeiramente definido de maneira informal.
Em seguida trataremos de modo mais preciso do mesmo, junto com suas generalizações.
O conjunto de Cantor ternário C1/3 é informalmente definido da seguinte forma. Começamos com o
conjunto fechado T0 = [0, 1] do qual subtraı́mos o conjunto aberto (1/3, 2/3) que consiste do conjunto
aberto de largura 1/3 da largura de T0 situado bem no meio de T0 . O que se obtemos é o conjunto
fechado T1 = [0, 1/3] ∪ [2/3, 1], formado pela união de dois intervalos fechados disjuntos. Em seguida,
subtraı́mos de cada um desses intervalos fechados os conjuntos abertos situados no meio de ambos e
cuja largura é 1/3 da largura de cada um desses intervalos. Esses abertos serão (1/9, 2/9) para o
intervalo [0, 1/3] e (7/9, 8/9) para o intervalo [2/3, 1]. O que resulta disso é o conjunto fechado
T2 = [0, 1/9] ∪ [2/9, 1/3] ∪ [2/3, 7/9] ∪ [8/9, 1]. O passo seguinte repete os anteriores: subtraı́mos de
cada um desses intervalos fechados os conjuntos abertos situados no meio de ambos e cuja largura é
1/3 da largura de cada um desses intervalos.
O processo é ilustrado na Figura 17.1. A linha de cima ilustra os intervalos abertos que vão sendo
sucessivamente subtraı́dos do intervalo fechado T0 = [0, 1] e a linha de baixo os vários intervalos
fechados que resultam dessa subtração. O primeiro conjunto aberto subtraı́do é (1/3, 2/3), indicado
por 1 na figura. O segundo conjunto aberto subtraı́do é (1/9, 2/9) ∪ (7/9, 8/9), indicado por 2 na
figura, e assim por diante.
O conjunto de Cantor C1/3 é o conjunto que resulta desse processo após infinitos passos. C1/3 não é
vazio, pois os pontos situados nas bordas dos intervalos fechados que vão sendo sucessivamente produzi-
dos sobrevivem ao processo de subtração. Isso se vê na Figura 17.1, pois os conjunto {0, 1}, que forma
a borda de T0 , surge novamente em T1 , T2 , T3 etc., assim como o conjunto {0, 1/3, 2/3, 1}, que forma a
borda de T1 , surge novamente em T2 , T3 etc., e como o conjunto {0, 1/9, 2/9, 1/3, 2/3, 7/9, 8/9, 1},
que forma a borda de T2 , surge novamente em T3 etc. C1/3 é um conjunto fechado por ser o comple-
mento em [0, 1] de uma união de abertos (aqueles que vão sendo sucessivamente subtraı́dos). Outra
6
3 2 3 1 3 2 3
1/27 2/27 7/27 8/27
19/27 20/27 25/27 26/27
( ) ( ) ( ) ( ) ( ) ( ) ( )
1/9 2/9 1/3 2/3 7/9 8/9
0 1
0 1/3 2/3 1
T1 [ ] [ ]
0 1/9 2/9 1/3 2/3 7/9 8/9 1
T2 [ ] [ ] [ ] [ ]
0 1/27 2/27 1/9 2/9 7/27 8/27 1/3 2/3 19/27 20/27 7/9 8/9 25/27 26/27 1
T3 [ ] [ ] [ ] [ ] [ ] [ ] [ ] [ ]
Figura 17.1: As três primeiras etapas da construção do conjunto de Cantor ternário C 1/3 .
forma de ver isso é notar que T1 ⊃ T2 ⊃ T3 ⊃ T4 ⊃ · · · , ou seja, Tm ⊂ Tn para todos m > n, o que nos
leva a concluir que
\∞
C1/3 = Tn . (17.9)
n=0
Como se sabe, uma intersecção de fechados é também um fechado.

Um aspecto um tanto surpreendente sobre C1/3 é que seu interior é vazio, ou seja, C1/3 não contem
nenhum aberto. Isso segue do fato que intervalos fechados que formam os conjuntos Tn têm, cada
um, largura (1/3)n e, portanto, seu interior vai “diminuindo” a medida que n cresce. A afirmação que
C1/3 não contem nenhum aberto pode ser provada da seguinte forma. Se C1/3 contivesse um aberto,
conteria algum intervalo aberto (a, b) (por que? Lembre-se da definição de conjuntos abertos em
espaços métricos). Assim, (a, b) = (a, b) ∩ C1/3 . Por (17.9), terı́amos
! ∞
∞
\ \
(a, b) = (a, b) ∩ C1/3 = (a, b) ∩ Tn = (a, b) ∩ Tn . (17.10)
n=0 n=0
Agora, para todo n grande o suficiente tal que (1/3)n < b−a, os conjuntos (a, b)∩Tn são sub-conjuntos
próprios7 de (a, b), pois cada intervalo fechado que compõe Tn tem largura (1/3)n . Portanto, o lado
direito de (17.10) é um sub-conjunto próprio de (a, b) e a igualdade em (17.10) passa a ser absurda.
Um conjunto com a propriedade de não conter nenhum aberto é dito ser denso em parte alguma
(para tais definições, vide Seção 21.1).
Por ser fechado, C1/3 é um conjunto mensurável por Lebesgue, ou seja, possui um comprimento.
Um ponto importante é determinar a medida de Lebesgue de C1/3 . É fácil perceber que µL (Tn+1 ) =
7
Aos estudantes: um conjunto A é dito ser um sub-conjunto próprio de um conjunto B se A ⊂ B mas A 6= B.
(2/3)µL (Tn ), pois a cada etapa é eliminado um terço dos intervalos fechados de Tn . Assim, como
µL (T0 ) = 1, segue que µL (Tn ) = (2/3)n . Daı́8 µL (C1/3 ) = limn→∞ µL (Tn ) = limn→∞ (2/3)n = 0, ou seja,
o conjunto ternário de Cantor C1/3 é um conjunto de medida de Lebesgue nula.
• A cardinalidade de C1/3
Um outro fato importante sobre C1/3 é que o mesmo tem a cardinalidade de , sendo, portanto,
um exemplo de um conjunto não-contável de medida de Lebesgue nula. Vamos mostrar isso e, para
tal, começaremos provando que C1/3 não é contável.
Para provar que C1/3 não é contável, demonstremos a seguinte afirmação, que apresentamos para
futura referência na forma de uma proposição. Essa proposição equivale a uma outra caracterização de
C1/3 (de fato, alguns autores definem C1/3 dessa forma):
Proposição 17.2 C1/3 é o subconjunto de [0, 1] composto por todos os números c que podem ser
X∞
tn
escritos na forma c = n
, sendo que cada tn pode apenas assumir os valores 0 ou 2. Isso equivale
n=1
3
a dizer que c ∈ C1/3 se e somente se for representado na base ternária na forma c = 0, t1 t2 t3 t4 . . . onde
cada “dı́gito” tn vale ou 0 ou 2. 2
Antes de entrar na prova dessa proposição, recomendamos ao estudante o seguinte exercı́cio.
E. 17.4 Exercı́cio. Sabemos que 1/3 pertence a C1/3 . Esse número pode ser representado na base
ternária por 0, 1, o que parece contradizer o que afirmamos acima sobre os elementos de C 1/3 . Porém, essa
não é a única forma de representar 1/3. Mostre que na base ternária 1/3 também pode ser escrito como
0, 0222222 . . .. 6
Prova da Proposição 17.2. Tentemos localizar onde, no intervalo [0, 1], encontram-se os números cujo
n-ésimo “dı́gito” na base ternária é 1, sendo que entre os seguintes pelo menos um é não-nulo. Tais
números são da forma 0, t1 · · · tn−1 1tn+1 . . ., sendo que pelo menos um dos tm com m ≥ n+1 é não-nulo.
Alguns segundos de meditação nos levam a concluir que esses números encontram-se no intervalo aberto
situado entre 0, t1 · · · tn−1 1 e 0, t1 · · · tn−1 2, ou seja, em ( 0, t1 · · · tn−1 1, 0, t1 · · · tn−1 2 ). Agora,
1 2
0, t1 · · · tn−1 1 = 0, t1 · · · tn−1 + e 0, t1 · · · tn−1 2 = 0, t1 · · · tn−1 +
3n 3n

1 2
Assim, o intervalo ( 0, t1 · · · tn−1 1, 0, t1 · · · tn−1 2 ) é o intervalo , transladado de 0, t1 · · · tn−1 .
3n 3n

1 2
Observe-se, então, que esse intervalo , é um dos intervalo abertos subtraı́do de Tn−1
3n 3n
quando do processo de construção do conjunto C1/3 , a saber, o mais próximo de 0 (vide
Figura 17.1).
1 2
Devemos então nos perguntar: quais são os outros intervalos obtidos transladando n
, n por
3 3
8
O por quê de valer µL (C1/3 ) = limn→∞ µL (Tn ) é intuitivo, mas será justificado com base em uma propriedade geral
de medidas ao discutirmos sua generalização, a equação (17.18), página 867.
todos números da forma 0, t1 · · · tn−1 ? Como todos os números da forma 0, t1 · · · tn−1 podem ser obti-
1
dos somando repetidamente o número n−1 (certo?) concluı́mos que os intervalos podem ser obtidos
3
1 2 1
transladando-se , sucessivamente por à direita. Mais uma curta meditação nos leva
3n 3n 3n−1
a concluir que os intervalos assim obtidos ou são precisamente aqueles subtraı́dos de T n−1 quando do
processo de construção do conjunto C1/3 ou estão contidos nos intervalos subtraı́dos anteriormente dos
conjuntos Tm com m < n − 1.
Concluı́mos, assim, que os números da forma 0, t1 · · · tn−1 1tn+1 . . ., sendo que pelo menos um dos
tm com m ≥ n + 1 é não-nulo, não pertencem a C1/3 .
O que fizemos não exclui ainda de C1/3 números que sejam da forma 0, t1 · · · tn−1 1, com tj ∈ {0, 2},
j = 1, . . . , n − 1. Tais números também pertencem a C1/3 , pois formam uma das bordas de alguns
conjuntos abertos ( 0, t1 · · · tn−1 1, 0, t1 · · · tn−1 2 ) que tratamos acima. Porém, o Exercı́cio E. 17.4,
acima, nos ensina que tais números podem ser também representados como 0, t1 · · · tn−1 022222 . . ., com
o n-ésimo dı́gito igual a 0 seguido de infinitos 2’s.
Com isso a prova da Proposição 17.2 está concluı́da.
A afirmação da Proposição 17.2 conduz diretamente à conclusão que C 1/3 não é enumerável. Por
aquela proposição, todo c ∈ C1/3 é (fatorando o número 2) da forma c = 2×0, d1 d2 d3 . . . com dn ∈ {0, 1}
para todo n. Assim, a demonstração que C1/3 não é enumerável é, mutatis mutantis, idêntica à
demonstração que não é contável fornecida no Capı́tulo 1 na prova do Teorema 1.4, página 38.
Deixamos os detalhes como exercı́cio.
E. 17.6 Exercı́cio. Faça-o! 6
E. 17.7 Exercı́cio. Mostre que 1/4 e 1/13 pertencem a C1/3 pois, na base ternária, 1/4 pode ser
representado como 0, 02020202 . . . e 1/13 como 0, 002002002002 . . .. Note que 1/4 e 1/13 não pertencem
à borda de nenhum Tn ! 6
O seguinte fato será usado em outros lugares.

Lema 17.1 Todo elemento x ∈ [0, 1] pode ser escrito na forma x = c1 + c2 /2 com c1 , c2 ∈ C1/3 . 2
X∞
tn
Prova. Todo elemento x ∈ [0, 1] pode ser representado na forma x = , onde tn ∈ {0, 1, 2}
n=1
3n
(representação na base ternária). A soma acima pode ser quebrada em duas, uma contendo apenas
X tn 1 X 2
termos onde cada tn vale 0 ou 2 e outra onde tn = 1: x = + , onde Nx := {n| tn ∈
3n 2 3n
n∈Nx n6∈Nx
{0, 2}}. Agora, os elementos de C1/3 são precisamente aqueles cujos dı́gitos na representação na base
ternária são 0 ou 2 (Proposição 17.2). Logo, vimos que todo x ∈ [0, 1] pode ser escrito na forma
x = c1 + c2 /2, com c1 , c2 ∈ C1/3 .
Chegamos agora à
Proposição 17.3 C1/3 tem a cardinalidade de . 2
Prova. Pelo Lema 17.1 todo elemento x ∈ [0, 1] pode ser escrito como x = c1 + c2 /2 com c1 , c2 ∈ C1/3 .
Isso mostra que [0, 1] (e, portanto, ) tem a cardinalidade de um subconjunto de C1/3 × C1/3 , cuja

cardinalidade é menor ou igual a de 2 que, por sua vez, tem a cardinalidade de

(Proposição 1.7,
página 39). Logo C1/3 × C1/3 tem a cardinalidade de . Paralelamente, o mesmo argumento usado na

prova da Proposição 1.7 conduz à conclusão que C1/3 e C1/3 × C1/3 têm a mesma cardinalidade. Isso
completa a prova.
• O conjunto de Cantor ternário é denso em si mesmo e totalmente desconexo
Vamos provar agora que o conjunto de Cantor ternário é denso em si mesmo e totalmente desconexo.
Para as definições e fatos básicos que usaremos, recomenda-se a leitura prévia da Seção 21.1, página
968.
Para mostrar que C1/3 é um conjunto denso em si mesmo, sejam c, c0 ∈ C1/3 e que, portanto,
tenham representações em base ternária 0, c1 c2 c3 . . . e 0, c01 c02 c03 . . ., respectivamente, com cn , c0n ∈ {0, 2}
para todo n (Proposição 17.2). Então, se os primeiros m dı́gitos de c e c0 forem idênticos, teremos
|c − c0 | ≤ 2/3m . Escolhendo m grande o suficiente isso pode ser feito menor que qualquer > 0 dado.
Isso mostra que qualquer aberto contendo c ∈ C1/3 contem outros elementos de C1/3 diferentes de c,
provando que C1/3 é um conjunto denso em si mesmo.
O mesmo tipo de argumento também mostra que arbitrariamente próximo a qualquer elemento
c ∈ C1/3 há elementos que não pertencem a C1/3 . Se c tem a representação ternária 0, c1 c2 c3 . . .,
escolhamos x ∈ [0, 1] da seguinte forma: seus m primeiros dı́gitos são iguais ao de c, o m-ésimo dı́gito
de x é 1 e dentre os seguintes pelo menos um é não-nulo. Um tal x não pertence a C1/3 , mas a distância
do mesmo a c é menor que 2/3m . Essa distância, porém, pode ser feita menor que qualquer > 0 dado,
se escolhermos m grande o suficiente.
É fácil de se ver que C1/3 é um sub-conjunto desconexo de na topologia τ , pois um par de

abertos como A1 = (−1, 1/2) e A2 = (1/2, 2) desconecta C1/3 (verifique!). Pelo que acabamos de ver,
dados c, c0 ∈ C1/3 com c < c0 , existe x 6∈ C1/3 tal que c < x < c0 . Assim, os abertos A1, x = (−1, x)
e A2, x = (x, 2) também desconectam C1/3 . Dessa forma, não existe nenhum sub-conjunto conexo de
C1/3 que contenha c e c0 (um tal conjunto seria desconectado pelos abertos A1, x e A2, x ). Logo, c e
c0 pertencem a componentes conexas distintas. Como isso vale para todos c e c0 em C1/3 com c < c0 ,
concluı́mos que as componentes conexas de C1/3 possuem exatamente um elemento. Isso significa que
C1/3 é totalmente desconexo, como querı́amos mostrar.
Em resumo, concluı́mos que C1/3 é um sub-conjunto fechado e limitado de , mensurável de Lebes-
gue, não-contável, com a cardinalidade de , denso em parte alguma, denso em si mesmo e totalmente

desconexo. Pelo fato de C1/3 ser fechado e limitado, C1/3 é um conjunto compacto. Pelo fato de C1/3
ser fechado e denso em si mesmo, C1/3 é um conjunto perfeito. Por ser também totalmente desconexo,
C1/3 é um conjunto de Cantor segundo a definição geral da Seção 21.1.
• Mais exemplos de conjuntos de Cantor
Vamos agora generalizar e formalizar as idéias desenvolvidas na construção de C 1/3 e construir

outros conjuntos semelhantes.
Diremos que um intervalo fechado [a, b] é finito se −∞ < a < b < ∞. Note que excluı́mos a = b.
Denotaremos por F0 a coleção de todos os sub-conjuntos da reta real que sejam formados por uniões
finitas de intervalos fechados finitos e disjuntos. Assim, se F ∈ F0 , então F é da forma
F = F1 ∪ · · · ∪ Fk
para algum k ∈ , k ≥ 1, onde cada Fj é um intervalo fechado finito Fj = [aj , bj ] com −∞ < aj <

bj < ∞ e onde os Fj ’s são disjuntos dois-a-dois, ou seja, Fi ∩ Fj = ∅ caso i 6= j.

Por ser uma união finita de fechados, cada elemento de F0 é também um conjunto fechado.
Seja f ∈ tal que 0 < f < 1. Denominaremos um tal f uma fração9 . Para cada fração f

definiremos uma aplicação Tf : F0 → F0 da seguinte forma: Para um intervalo finito F = [a, b]

definimos

a(1 + f ) + b(1 − f ) [ a(1 − f ) + b(1 + f )
Tf (F ) = Tf ([a, b]) := a, , b (17.11)
2 2
Para um elemento genérico F = F1 ∪ · · · ∪ Fk de F0 , definimos
Tf (F) = Tf (F1 ∪ · · · ∪ Fk ) := Tf (F1 ) ∪ · · · ∪ Tf (Fk ) . (17.12)
Note que para 0 < f < 1 tem-se

a(1 + f ) + b(1 − f ) a(1 − f ) + b(1 + f )
a < < <b.
2 2
Portanto, para todo intervalo finito F , tem-se
Tf (F ) ⊂ F.
Em verdade, Tf (F ) é um sub-conjunto próprio de F . Segue facilmente disso que, para todo F ∈ F0 ,
Tf (F) ⊂ F.
E. 17.8 Exercı́cio. Verifique todas as afirmações acima. 6
Qual a interpretação geométrica de Tf ? Para isso, vamos descrever o que é Tf ([a, b]). Esse conjunto
é obtido subtraindo-se do intervalo fechado finito [a, b] o conjunto aberto de largura f (b − a) centrado
no ponto a+b 2
, que fica bem no centro de [a, b]. Como é fácil ver, esse intervalo aberto é

a + b f (b − a) a + b f (b − a) a(1 + f ) + b(1 − f ) a(1 − f ) + b(1 + f )
− , + = , .
2 2 2 2 2 2
9
Excluı́mos os casos f = 0 e f = 1 pois, como poder-se-á constatar, eles levam a situações triviais
Assim,
a(1 + f ) + b(1 − f ) a(1 − f ) + b(1 + f )
Tf ([a, b]) = [a, b] \ , .
2 2
Operando em F = F1 ∪ · · · ∪ Fk , a operação Tf subtrai de cada Fj o intervalo aberto de largura f
centrado no ponto intermediário de Fj .
É importante notar que se F ∈ F0 é composto por k intervalos fechados finitos disjuntos então,
Tf (F) é composto por 2k intervalos fechados finitos disjuntos.
Como Tf é uma aplicação de F0 em F0 , podemos compor Tf consigo mesma. Denotamos, para
n∈ ,
Tfn ≡ Tf ◦ · · · ◦ Tf .
| {z }
n vezes
Com isso, se F é um intervalo fechado finito, Tfn (F ) é um elemento de F0 composto por 2n intervalos
fechados finitos disjuntos, todos eles contidos em F .
Para o que segue é muito importante determinarmos a medida de Lebesgue dos conjuntos Tfn (F ),
que vem a ser a soma dos comprimentos dos 2n intervalos fechados finitos disjuntos que o compõe. Para
isso, é importante ver que se F = [a, b], então

a(1 + f ) + b(1 − f ) [ a(1 − f ) + b(1 + f )
µL (Tf (F )) = µL (Tf ([a, b])) = µL a, , b
2 2

a(1 + f ) + b(1 − f ) a(1 − f ) + b(1 + f )
= µL a, + µL , b
2 2

a(1 + f ) + b(1 − f ) a(1 − f ) + b(1 + f )
= −a + b−
2 2
= (1 − f )(b − a)
= (1 − f )µL (F ) . (17.13)
É também claro que para todo F ∈ F0 da forma F = F1 ∪ · · · ∪ Fk , onde os Fj são intervalos fechados
finitos e disjuntos, tem-se
µL (F) = µL (F1 ) + · · · + µL (Fk ) .
Segue também de (17.12) que se F = F1 ∪ · · · ∪ Fk então
µL (Tf (F)) = µL (Tf (F1 ) ∪ · · · ∪ Tf (Fk )) = µL (Tf (F1 )) + · · · + µL (Tf (Fk ))
k
X
= (1 − f ) µL (Fj ) = (1 − f )µL (F) ,
j=1
ou seja,
µL (Tf (F)) = (1 − f )µL (F) . (17.14)
Desses fatos, é muito fácil provar por indução que
µL (Tfn (F )) = (1 − f )n µL (F ) . (17.15)
para todo n ∈ e todo intervalo fechado finito F .
E. 17.9 Exercı́cio. Prove isso! 6
É bastante evidente por (17.11) que os bordos a e b de um intervalo fechado finito F = [a, b]
satisfazem a ∈ Tf (F ) e b ∈ Tf (F ). Daı́, concluı́-se também que a e b são elementos de todos os
conjuntos Tfn (F ). Assim,
Un, f (F ) := F \ Tfn (F ) = F ∩ (Tfn (F ))c = F 0 ∩ (Tfn (F ))c .
Aqui F 0 := (a, b), o interior de F . Como os conjuntos Tfn (F ) são fechados, os conjuntos Un, f (F ) são
sub-conjuntos abertos de F , por serem a intersecção de dois abertos: F 0 e (Tfn (F ))c . Note-se que
Un, f (F ) ⊂ Un+1, f (F ), ∀n∈ , (17.16)
pois Tfn+1 (F ) = Tf (Tfn (F )) ⊂ Tfn (F ).

Teremos também que
µL (Un, f (F )) = µL (F ) − µL (Tfn (F )) = [1 − (1 − f )n ] µL (F ) .
Para um intervalo fechado finito para F = [a, b] e uma fração f , definimos o Cf (F ) por
\
Cf (F ) := Tfn (F ) .
n∈
O conjunto de Cantor ternário C1/3 , que definimos informalmente páginas acima, corresponde a C1/3 ([0, 1]).
Note que Cf (F ) não é vazio, pois contem pelo menos os pontos a e b, assim como os pontos
a(1+f )+b(1−f )
2
e a(1−f )+b(1+f
2
)
e, em verdade, todos os pontos que formam as bordas de cada intervalo
fechado finito que compõe os conjuntos Tfn (F ), pois, como observamos acima, cada aplicação Tf mantem
esses pontos no conjunto resultante.
A primeira observação que fazemos sobre Cf (F ) é que se trata de um sub-conjunto fechado de F ,
pois é uma intersecção de fechados. Definimos também
Uf (F ) := F \ Cf (F ) = F ∩ (Cf (F ))c = F 0 ∩ (Cf (F ))c , (17.17)
que é naturalmente um sub-conjunto aberto de F , por ser a intersecção de dois abertos: F 0 e (Cf (F ))c .
Vemos que
!c !
\ [ c
[ c [
Uf (F ) = F 0 ∩ Tfn (F ) = F0 ∩ Tfn (F ) = F 0 ∩ Tfn (F ) = Un, f (F ) .
n∈ n∈ n∈ n∈
É possı́vel também provar (mas não o faremos aqui) que Cf (F ) tem a mesma cardinalidade de .
Fora isso, Cf (F ) compacto (por ser fechado e limitado) totalmente desconexo, denso em parte alguma
e denso em si mesmo e, portanto, é perfeito. (Essas definições são apresentadas na Seção 21.1, página
968). Assim, pela definição geral da página 973, Cf (F ) é um conjunto de Cantor.
Vamos agora determinar a medida de Lebesgue de Cf (F ) e de Uf (F ), começando pela segunda.
Por (17.16), podemos aplicar a propriedade geral de medidas 3 da página 842 e concluir que
µL (Uf (F )) = lim µL (Un, f (F )) = lim [1 − (1 − f )n ] µL (F ) = µL (F ), (17.18)

n→∞ n→∞
já que 0 < (1 − f ) < 1. Por (17.17) tem-se também que µL (Uf (F )) = µL (F ) − µL (Cf (F )) e concluı́mos
que
µL (Cf (F )) = 0 .
Cf (F ) é assim um sub-conjunto fechado, denso em parte alguma, denso em si mesmo e com a

cardinalidade de mas com medida de Lebesgue nula! Seu complemento em F , que é o aberto Uf ,
tem a mesma medida que F !
Os conjuntos de Cantor Cf (F ) têm uma outra propriedade interessante: são conjuntos fractais. A
eles pode-se atribuir uma dimensão (chamada de dimensão de Hausdorff) que não é um número inteiro,
no caso, um número real positivo menor que 1 relacionado a f . Especificamente para o conjunto de
Cantor ternário C1/3 , a dimensão de Hausdorff é ln(2)/ ln(3) (vide e.g. [35]). Apesar de os mesmos
terem medida de Lebesgue nula, há uma outra medida (denominada medida de Hausdorff) que pode
ser definida em F e que não se anula em Cf (F ). Não trataremos de sua construção na presente versão
destas Notas, mas a mesma segue passos semelhantes à construção da medida de Lebesgue, através
de uma medida exterior e evocando o Teorema de Caratheodory. O leitor interessado poderá colher
informações mais técnicas sobre tais assuntos em textos como [51] e, especialmente, [35].
• Ainda mais exemplos de conjuntos de Cantor (com uma surpresa)
As idéias a a construção dos conjuntos de Cantor Cf (F ), acima, podem ser generalizadas ainda
mais. Seja {f } := {fj , j ∈ } uma seqüência de frações. Cada fj satisfaz 0 < fj < 1, mas não

precisam ser todos iguais. Para n ∈ , defina-se

n
T{f } ≡ T fn ◦ · · · ◦ T fn . (17.19)
n
Pelas mesmas razões que acima (confira!), cada T{f } é também uma aplicação de F0 em F0 .
n
Nota. O estudante deve atentar para o fato que o n que aparece no expoente de T {f } representa o
número de aplicações que aparecem compostas no lado direito de (17.19), não uma potência de uma
única aplicação.
Para um intervalo fechado e finito F = [a, b], tem-se também que
n
T{f } (F ) = Tfn ◦ · · · ◦ Tfn (F ) ⊂ F .
n n
Como antes, os conjuntos T{f } (F ) são compostos por 2 intervalos fechados e as bordas desses intervalos
m
estarão contidas em todos os conjuntos T{f } (F ) com m > n. Fora isso,
m n
T{f } (F ) ⊂ T{f } (F ), para todos m > n . (17.20)
m n
Em verdade os T{f } (F ) são sub-conjuntos próprios de T{f } (F ) para todos m > n. Temos também que
n n c 0 n c
Un, {f } (F ) := F \ T{f } (F ) := F ∩ (T{f } (F )) = F ∩ (T{f } (F )) .
n
Como os conjuntos T{f } (F ) são fechados, os conjuntos Un, {f } (F ) são sub-conjuntos abertos de F , por
serem a intersecção de dois abertos: F 0 e (T{f n c
} (F )) . Note-se novamente que
Un, {f } (F ) ⊂ Um, f (F ), ∀n<m, (17.21)
por (17.20).
Definimos então, em completa analogia com o apresentado acima, os conjuntos
\
n
C{f } (F ) := T{f } (F ) .
n∈
e
U{f } (F ) := F \ C{f } (F ) = F ∩ (C{f } (F ))c = F 0 ∩ (C{f } (F ))c .
C{f } (F ) é também um sub-conjunto fechado de F , pois é uma intersecção de fechados. U{f } (F ) é um
sub-conjunto aberto de F , por ser a intersecção de dois abertos: F 0 e (C{f } (F ))c . Vemos novamente
que
!c !
\ [ c
[ c [
U{f } (F ) = F 0 ∩ n
T{f } (F ) = F 0∩ n
T{f } (F ) = F 0 ∩ T{fn
} (F ) = Un, {f } (F ) .
n∈ n∈ n∈ n∈
É possı́vel também provar (mas não o faremos aqui) que C{f } (F ) tem a mesma cardinalidade de
. Fora isso, C{f } (F ) compacto (por ser fechado e limitado) totalmente desconexo, denso em parte
alguma e denso em si mesmo e, portanto, é perfeito. (Essas definições são apresentadas na Seção 21.1,
página 968). Assim, pela definição geral da página 973, Cf (F ) é um conjunto de Cantor.
Quanto à medida de Lebesgue de C{f } (F ), ocorre aqui uma surpresa. Como antes, temos que
µL (U{f } (F )) = µL (F ) − µL (C{f } (F )) e que
µL (U{f } (F )) = lim µL (Un, {f } (F )) .

n→∞
Vamos porém, calcular µL (Un, {f } (F )). Sabemos que

n
µL (Un, {f } (F )) = µL (F ) − µL (T{f } (F )) .
Agora,
n n−1 n−1
µL (T{f } (F )) = µL (Tfn ◦ T{f } (F )) = (1 − fn )µL (T{f } (F )) = (1 − fn ) · · · (1 − f1 )µL (F ) ,
onde, acima, usamos (17.14). Dessa forma,

" n
#
Y
µL (Un, {f } (F )) = 1− (1 − fj ) µL (F )
j=1
e, portanto, usando novamente a propriedade geral de medidas 3 da página 842, tem-se

" n
# " n
#
Y Y
µL (U{f } (F )) = lim 1 − (1 − fj ) µL (F ) = 1 − lim (1 − fj ) µL (F ) .
n→∞ n→∞
j=1 j=1
O ponto, porém, é que, aoQcontrário do caso anterior quando todos os f j ’s eram iguais, não se pode
sempre concluir que limn→∞ nj=1 (1 − fj ) = 0 mesmo que 0 < (1 − fj ) < 1 para todo j. Tomemos, por
2
exemplo, a seqüência fj = 1 − e−1/j . Teremos
n n
! ∞
!
Y X 1 X 1 −π 2 /6
lim (1 − fj ) = lim exp − 2
= exp − 2
= e > 0
n→∞
j=1
n→∞
j=1
j j=1
j
e, com isso, h i
−π 2 /6
µL (U{f } (F )) = 1−e µL (F ) < µL (F )
e
2 /6
µL (C{f } (F )) = e−π µL (F ) > 0 .
O conjunto de Cantor C{f } (F ) com a seqüência {f } dada acima tem medida de Lebesgue não-nula.
• Condição para os conjuntos C{f } (F ) terem medida de Lebesgue não-nula
Voltando a seqüências {fj , j ∈ } gerais, concluı́mos do Lema 17.2, a seguir, que uma condição

necessária e suficiente para que C{f } (F ) tenha medida de P Lebesgue não-nula é que a seqüência de
frações {f } = {fj , 0 < fj < 1, j ∈ } seja somável, ou seja ∞

j=1 fj < ∞.
P
No caso do conjunto de Cantor ternário C1/3 , essa condição é violada, pois obviamente ∞j=1 1/3 =
∞, o mesmo se dando para os conjuntos Cf (com 0 < f ).
Lema 17.2 Se {fj , j ∈ } é uma seqüência de números tais que 0 < fj < 1 para todo j, então a

n
Y ∞
X
condição para que lim (1 − fj ) > 0 é equivalente à condição ln(1 − fj ) < ∞. Essa por sua vez
n→∞
j=1 j=1
∞
X
é equivalente à condição fj < ∞. 2
j=1
Prova. Notemos primeiro que

n n
!
Y X
(1 − fj ) = exp − [− ln(1 − fj )] .
j=1 j=1
Qn P
Logo, limn→∞ j=1 (1 − fj ) > 0 se e somente se a série de números positivos ∞ j=1 [− ln(1 − fj )] for
finita. Estudemos uma condição necessária e suficiente para que isso ocorra. Para x ∈ [0, 1) tem-se
que x ≤ − ln(1 − x). Isso se vê notando que a função
x
f (x) := −x − ln(1 − x) satisfaz f 0 (x) = ≥ 0
(1 − x)
para x ∈ [0, 1), o que mostra que Pnf é crescente

Pn nesse intervalo. Como f (0) = 0, concluı́mos que
f (x) ≥ 0 para
P∞ x ∈ [0, 1). Assim, f
j=1 j ≤ P∞ j=1 ln(1 − fj ), mostrando que se a série de números
−
positivos − j=1 ln(1 − fj ) for finita, a série j=1 fj também o será.
P
Reciprocamente, suponhamos que ∞ j=1 fj converge. Seja M um número fixo tal que 0 < M < 1.
Vamos mostrar que existe um J tal que fj < M para todo j > J. Para isso, vamos supor o contrário
e assumir que
P P∞haja uma P∞coleção infinita fj1 , fj2 , . . . tal que fjl ≥ M para todo l ≥ 1. Terı́amos que
∞
j=1 fj ≥ l=1 fjl ≥ l=1 M = ∞, uma contradição. Assim, a coleção fj1 , fj2 , . . . deve ser finita e
podemos tomar J como o maior dos ı́ndices jl . Podemos então escrever
∞
X J
X ∞
X
fj = fj + fj
j=1 j=1 j=J+1
com a garantia que na, última soma, todo fj satisfaz 0 < fj < M para um certo 0 < M < 1 fixado.
Agora, observemos que no intervalo [0, M ] a função g(x) := − ln(1 − x) é contı́nua, limitada,
diferenciável e satisfaz g 00 (x) = 1/(1 − x)2 > 0. Assim, g é convexa10 naquele intervalo e, portanto,
tem-se
(g(M ) − g(0))
g(x) ≤ g(0) + x,
M
ou seja,
ln(1 − M )
− ln(1 − x) ≤ − x, (17.22)
M
desigualdade essa que pode ser constatada graficamente11 . Logo,
∞
X J
X ∞
X J
X ∞
ln(1 − M ) X
− ln(1 − fj ) = − ln(1 − fj ) − ln(1 − fj ) ≤ − ln(1 − fj ) − fj .
j=1 j=1 j=J+1 j=1
M j=J+1
P∞ P∞
Todavia, a soma j=J+1 fj é finita, por hipótese, provando que − j=1 ln(1 − fj ) também o é.
Vimos assim que existem inúmeros conjuntos de Cantor C{f } (F ) com medida de Lebesgue não-
nula. A existência de conjuntos com tais propriedades é um dos fatos mais surpreendentes da Teoria
da Medida. Nenhuma intuição a justifica ou esclarece.
Conjuntos de Cantor e outros conjuntos fractais (como a curva de Koch da Figura 16.1, página
848) podem ser contruı́dos em várias dimensões e não são apenas uma curiosidade matemática, pois
podem ser observados na natureza. A Figura 17.2, página 873, mostra imagens dos anéis de Saturno, os
quais exibem uma complexa estrutura de lacunas em várias escalas, muito à semelhança dos conjuntos
C{f } (F ). As lacunas são causadas por ressonâncias dos perı́odos das órbitas das partı́culas que compõe
10
O estudante poderá encontrar um estudo detalhado das propriedades de funções convexas em vários textos, por
exemplo em [118].
11
O estudante poderá convencer-se da validade da desigualdade (17.22) se fizer um gráfico das funções − ln(1 − x) e
ln(1−M )
− M x no intervalo [0, M ].
os anéis com perı́odos das órbitas de alguns satélites de Saturno. Lacunas desse tipo ocorrem também
no cinturão de asteróides e são conhecidos como gaps de Kirkwood 12 . No caso do cinturão de asteróides,
as lacunas são causadas por ressonâncias com o perı́odo da órbita de Júpiter 13 . Vide Figura 17.3, página
874.
Conjuntos como os de Cantor e outros conjuntos fractais ocorrem também em diversos sistemas
dinâmicos e no espectro de certos operadores Hamiltonianos na Mecânica Quântica. A Figura 17.4,
página 875, exibe a chamada “borboleta de Hofstadter”14 , que representa o espectro quântico de um
elétron se movendo em um plano bidimensional sob a ação de um potencial periódico e de um campo
magnético constante perpendicular a esse plano. O eixo horizontal representa o espectro de energias
e o vertical o fluxo φ do campo magnético em cada célula do potencial periódico bidimensional (em
unidades de hc/e). Quando φ é um racional da forma φ = p/q (com p e q irredutı́veis) o espectro possui
q bandas e q + 1 lacunas. Quando φ é irracional, o espectro é um conjunto de Cantor.
Todos esses assuntos são objeto de pesquisa atual.
17.3 Bases de Hamel e a Medida de Lebesgue

Nesta seção discutiremos um exemplo de sub-conjunto da reta real que tem a propriedade de ser

Lebesgue-mensurável mas que não é Boreliano. A saber, mostraremos que existem bases de Hamel
da reta real (definidas à página 95 e seguintes) que são mensuráveis por Lebesgue sendo que, porém,
nenhuma base de Hamel é um conjunto Boreliano.
O primeiro resultado é o seguinte:
Proposição 17.4 Se B0 é um sub-conjunto do conjunto de Cantor C1/3 ⊂ [0, 1] que seja maximal-
mente linearmente independentes por racionais, então B = B0 + é uma Base de Hamel. 2
Notemos que B0 é mensurável por Lebesgue, por ser subconjunto de um conjunto de medida de
Lebesgue nula, a saber, C1/3 (vide Proposição 17.1, página 857). Portanto, µL (B) = µL (B0 ) = 0.
Naturalmente, B é uma base de Hamel mensurável por Lebesgue, por ser união contável de conjuntos
mensuráveis pode Lebesgue.
Prova. Pelo Lema 17.1, página 862, todo x ∈ [0, 1] pode ser escrito como uma combinação linear
por racionais de dois elementos do conjunto de Cantor ternário C1/3 . Por uma simples aplicação
do Lema de Zorn (faça!), pode-se facilmente provar que C1/3 possui pelo menos um subconjunto de
elementos linearmente independentes por racionais. Denotemos um tal sub-conjunto por B0 . Assim,
12
Daniel Kirkwood (1814-1895). Os gaps, ou lacunas, de Kirkwood foram descobertos no cinturão de asteróides em
1866.
13
Mais comentários e referências sobre o assunto podem ser encontrados em “Regular and Irregular Motion”. M. V.
Berry. Topics in Nonlinear Dynamics (ed. S. Jorna) Am. Inst. Phys. Conf. Proc. 46 16-120 (1978). Vide também
“Nature of the Kirkwood Gaps in the asteroid belt”, S. F. Dermott and C. D. Murray. Nature 301, 201-205 (1983).
Ambos os trabalhos encontram-se republicados em [85].
14
Douglas R. Hofstadter. “Energy levels and wave functions of Bloch electrons in rational and irrational magnetic
fields”. Phys. Rev. B 14, 2239 (1976).
todo elemento de C1/3 pode ser escrito como uma combinação linear finita por racionais de elementos
de B0 . Juntando isso à observação anterior, concluı́mos que todo elemento de [0, 1] pode ser escrito
como combinação linear finita por racionais de elementos de B0 . Repetindo-se isso em cada intervalo
[m, m + 1] com m ∈ a proposição está demonstrada.
Isso demonstrou que há bases de Hamel mensuráveis por Lebesgue. Tem-se porém, o seguinte fato,
devido a Sierpiński15 , cuja demonstração omitiremos:
Teorema 17.1 Nenhuma base de Hamel em é Boreliana. 2
Com isso, a base de Hamel construı́da acima a partir de um sub-conjunto linearmente independentes
por racionais do conjunto de Cantor é um exemplo de um conjunto mensurável por Lebesgue mas não-
Boreliano.
Em verdade nem toda base de Hamel é mensurável por Lebesgue. Vale, todavia, o seguinte fato,
que provaremos abaixo: uma base de Hamel é mensurável por Lebesgue se e somente se sua medida de
Lebesgue for nula. Precisaremos da seguinte proposição:
Proposição 17.5 Se A ⊂ é um conjunto com medida de Lebesgue positiva, ou seja, µ L (A) > 0,

então existe um intervalo aberto Iα = (−α, α), α > 0, tal que todo elemento x de Iα pode ser escrito
na forma x = a1 − a2 , com a1 , a2 ∈ Iα . 2
A proposição acima tem uma generalização no contexto da medida de Haar em grupos topológicos
localmente compactos (como é o caso da medida de Lebesgue na reta real).
Proposição 17.6 Uma base de Hamel B da reta real é mensurável por Lebesgue se e somente se
µL (B) = 0. 2
Prova. Se B não for mensurável por Lebesgue não há o que se provar. Suponhamos então que B é
mensurável por Lebesgue. Então, ou µL (B) = 0 ou µL (B) > 0. Vamos supor que µL (B) > 0. Pela
Proposição 17.5 existem números racionais não-nulos r e s (ambos contidos em algum intervalo (−α, α)
conveniente) tais que r = b1 − b2 e s = b3 − b4 , com b1 , b2 , b3 , b4 ∈ B. Seja t = r/s, que obviamente
é racional. Concluı́mos de r = ts que b1 − b2 = t(b3 − b4 ). Mas isso é impossı́vel, pois essa expressão
contraria o fato de que os elementos de B são linearmente independentes por racionais. Logo, se B é
mensurável por Lebesgue só podemos ter µL (B) = 0.
A Proposição 17.4 mostrou que a proposição anterior não é vazia no seguinte sentido: existem bases
de Hamel mensuráveis por Lebesgue.
15
Waclaw Sierpiński (1882-1969). O Teorema 17.1 encontra-se em “Sur la question de la mesurabilité de la base de M.
Hamel”. Fund. Math. 1, 105-111 (1920).
Figura 17.2: As três imagens acima mostram trechos em diferentes escalas dos anéis de Saturno. As
imagens foram obtidas pelas sondas Voyager 1 e 2. A Voyager 1 fez sua melhor aproximação a Saturno
em 12 de novembro de 1980 e a Voyager 2 em 26 de agosto de 1981, a distâncias de 124.000 km e
101.000 km, respectivamente.
Figura 17.3: Histograma exibindo os Gaps de Kirkwood do cinturão de asteróides.

Figura 17.4: A “borboleta de Hofstadter”. O eixo horizontal representa o espectro quântico de energias
de um elétron movendo-se em um plano bidimensional sob a ação de um potencial periódico e de um
campo magnético constante perpendicular a esse plano. O eixo vertical representa o fluxo φ do campo
magnético em cada célula do potencial periódico bidimensional (em unidades de hc/e). Na figura, φ
varia entre 0 e 1.
Capı́tulo 18
Convergência, Pontos Limite e Pontos de
Acumulação em Espaços Topológicos
Conteúdo
18.1 Primeiras Definições . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 876

18.2 Espaços Hausdorff . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 878
18.3 O Limite do Ínfimo e o Limite do Supremo . . . . . . . . . . . . . . . . . . 879
18.4 Redes e o Caso de Espaços Topológicos Gerais . . . . . . . . . . . . . . . . 884
18.4.1 Redes em Espaços Métricos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 886
amos neste capı́tulo tratar de forma mais aprofundada o conceito de convergência, o qual
foi introduzido anteriormente para o caso especial de seqüências em espaços métricos (vide
Capı́tulo 13). Será dada particular atenção aos espaços do tipo Hausdorff, que serão definidos
abaixo, e à noção de rede em um espaço topológico geral.
18.1 Primeiras Definições

Dado um espaço topológico X, uma seqüência x é uma função x : → X. Por vezes estamos

interessados em considerar uma seqüência apenas através de seu conjunto imagem: Im x = {x(n) ∈
X, n ∈ }. Os elementos da seqüência são os valores x(n), que freqüentemente são denotados apenas

por xn . Com um certo abuso de linguagem é costume referir-nos à seqüência x como sendo {x(n) ∈
X, n ∈ }, ou denotamo-la por {xn , n ∈ } ou mesmo por {xn } ou até apenas por xn . Em geral,

essas notações são mais práticas e não causam confusão. A noção tradicional de convergência de uma
seqüência em um espaço métrico é a seguinte:
Seja M um espaço métrico com métrica d e seja {an } uma seqüência em M . Dizemos que {an }
converge a um elemento a ∈ M se para todo > 0 existir N ≡ N () ∈ tal que d(a n , a) < sempre

que n > N .
Abaixo vamos apresentar uma nova noção de convergência de seqüências em espaços topológicos
gerais que é equivalente àquela apresentada acima no caso de espaços métricos. Comecemos com duas
noções úteis. Seja x uma seqüência em X e A ⊂ X.
1. Dizemos que a seqüência x está eventualmente em A se existir um natural N ≡ N (A) (que pode
eventualmente depender de A) tal que xn ∈ A para todo n > N .
2. Dizemos que a seqüência x está freqüentemente em A se houver infinitos valores de n para os

quais xn ∈ A.
876
Se uma seqüência x está eventualmente em A, então ela está freqüentemente em A, mas a recı́proca
não é necessariamente verdadeira. Por exemplo, a seqüência de números reais a n = (−1)n está freqüen-
temente no intervalo (0, 2), mas não eventualmente.
Nota. Nas definições aqui apresentadas estamos fazendo uso do ordenamento usual de . Para o caso
geral vide a Seção 18.4 sobre redes em espaços topológicos.
Definamos agora as noções de ponto de acumulação e ponto limite de uma seqüência x em X, um
conjunto dotado de uma topologia τ .
1. Um ponto x em X é dito ser um ponto de acumulação da seqüência x em relação à topologia τ

de X se x está freqüentemente em todo aberto A ⊂ τ que contém x.
2. Um ponto x em X é dito ser um ponto limite, ou simplesmente limite, da seqüência x em relação

à topologia τ de X se x está eventualmente em todo aberto A ⊂ τ que contém x.
Note que todo limite é um ponto de acumulação, mas a recı́proca não é verdadeira.
E. 18.1 Exercı́cio. Mostre que {−1, +1} são os pontos de acumulação da seqüência x n := (−1)n +1/n,
n ∈ , n > 0 na topologia usual de . Essa seqüência tem limites nessa topologia? E a seqüência

xn := 1/n2 , n ∈ , n > 0?
6
E. 18.2 Exercı́cio. Seja uma seqüência r : → tal que Im r = (tais seqüências existem pois

é contável). Mostre que é o conjunto de todos os pontos de acumulação de r na topologia usual de .

Mostre que r não tem limites na topologia usual de . 6
E. 18.3 Exercı́cio. Seja a seqüência do exercı́cio anterior, mas agora tome a topologia discreta ( ).
Mostre que r não tem pontos de acumulação nessa topologia se a função r for injetora. 6
Se x é um limite da seqüência xn dizemos que xn converge a x e escrevemos x = lim xn .

n→∞
E. 18.4 Exercı́cio. Mostre que as duas noções de convergência que apresentamos acima são equivalentes
no caso de seqüências em espaços métricos. 6
O último exercı́cio nos afirma a equivalência, no caso de espaços métricos, dos dois conceitos de con-
vergência que apresentamos, mas é importante frisar que a convergência de uma seqüência é fortemente
dependente da topologia adotada. Isso pode ser claramente visto no exemplo discutido a seguir.
Uma seqüência {xn } em X é dita ser eventualmente constante se existir x ∈ X e N ∈ tais que
xn = x para todo n > N .
Seja, então, X um conjunto não-enumerável ( , por exemplo) e seja a topologia co-contável 1 em

X: τcc (X). Então, nenhuma seqüência que não seja eventualmente constante tem limites em X em
relação a τcc (X). Isso segue do seguinte. Seja x uma seqüência em X e seja x ∈ X um ponto qualquer
e seja ainda A := (Im x)c ∪ {x} = (Im x ∩ {x}c )c . Como Im x ∩ {x}c é contável, então A é aberto em
1
A topologia co-contável foi definida à página 817.
τcc (X) e contem x. Porém, x não está eventualmente em A se não for eventualmente constante, pois
Im x ∩ A = Im x ∩ {x}. Assim, para qualquer x ∈ X podemos achar um aberto que contem x onde x
não está eventualmente. Logo, nenhuma seqüência x tem limites na topologia considerada.
Um exemplo ilustrativo é o da seqüência xn = 1/n, n ∈ , n > 0, em . Na topologia co-contável

τcc ( ) essa seqüência não converge a zero, ao contrário do que ocorre na topologia usual, pois o conjunto

A := \ {1/n, n ∈ , n > 0} é aberto, contem x = 0, mas não contem nenhum elemento da seqüência

xn .
Em função de exemplos como esses, há pouca utilidade no conceito de convergência de seqüências
em certos espaços topológicos não-métricos. O que então normalmente se faz nesses casos é considerar
uma generalização do conceito de seqüência, conhecido como rede (“net” em inglês). Para esse novo
conceito há uma definição análoga de convergência que funciona de modo mais efetivo em espaços
topológicos gerais. Disso trataremos na Seção 18.4.
18.2 Espaços Hausdorff

Um espaço topológico X dotado de uma topologia τ é dito possuir a propriedade de Hausdorff 2 se para
quaisquer pontos distintos x, y ∈ X existirem dois abertos Ax e Ay em τ tais que x ∈ Ax , y ∈ Ay mas
Ax ∩ Ay = ∅.
Um espaço topológico que tem a propriedade Hausdorff é dito simplesmente ser um espaço Hausdorff,
ou do tipo Hausdorff. Vamos primeiro a alguns exemplos de espaços que não tem a propriedade
Hausdorff.
Seja X qualquer com a topologia indiscreta. Esse espaço não tem a propriedade de Hausdorff. Seja
X não finito com a topologia co-finita. Esse espaço não tem a propriedade de Hausdorff. Seja X
não-contável com a topologia co-contável. Esse espaço não tem a propriedade de Hausdorff. Para esses
dois últimos exemplos, vide página 818.
E. 18.5 Exercı́cio. Prove as afirmativas do último parágrafo. 6
Agora temos a seguinte proposição:

Proposição 18.1 Todo espaço métrico tem a propriedade de Hausdorff. 2
Demonstração. Seja M espaço métrico com métrica d, sejam x, y ∈ M distintos e seja r = d(x, y) > 0.
Sejam então os abertos Ax = Bd (x, r/3) e Ay = Bd (y, r/3). Suponha que exista um ponto z ∈ Ax ∩Ay .
Então, como z pertence ao mesmo tempo a Bd (x, r/3) e Bd (y, r/3), vale que d(x, z) < r/3 e
d(z, y) < r/3. Agora, pela desigualdade triangular tem-se r = d(x, y) ≤ d(x, z) + d(z, y) < 2r/3.
Porém, a desigualdade r < 2r/3 é absurda. Daı́, não pode existir qualquer ponto z em A x ∩ Ay .
Nem todo espaço Hausdorff é métrico. A topologia de Sorgenfrey3 τ [S] de (página 820) é Hausdorff

(prove isso!) mas não é métrica (vimos isso à página 827). O mesmo vale para a topologia ( ).
2
3
Robert Sorgenfrey (1915 - 1996).
Chegamos agora a uma propriedade importante de espaços Hausdorff, sejam eles espaços métricos
ou não.
Proposição 18.2 Uma seqüência em um espaço Hausdorff pode ter no máximo um ponto limite. 2
Prova. Suponha que uma seqüência a em um espaço Hausdorff X com topologia τ tenha dois limites
distintos x e y. Sejam Vx 3 x e Vy 3 y dois abertos disjuntos de τ contendo x e y, respectivamente. Que
tais abertos sempre existem é garantido pela propriedade de Hausdorff, que está sendo suposta. Então,
como a converge a x e a y, temos que an ∈ Vx para todo n > N (Vx ) e an ∈ Vy para todo n > N (Vy ).
Logo, an ∈ Vx ∩ Vy para todo n > max{N (Vx ), N (Vx )}. Isso contraria a hipótese que Vx ∩ Vy = ∅.
Corolário 18.1 Uma seqüência em um espaço métrico pode ter no máximo um limite. 2
Note que seqüências em espaços Hausdorff podem ter muitos pontos de acumulação.
E. 18.6 Exercı́cio. Seja A a coleção de todos os subconjuntos de 2 do tipo {(x, y) ∈ 2 , com a <

y < b para − ∞ < a < b < ∞} (faça um desenho de um tal conjunto). Seja τ [A] a topologia gerada por
tais conjuntos.
1. Mostre que τ [A] não é Hausdorff. Para tal, tente ver se é possı́vel encontrar dois abertos nessa
topologia que contenham os pontos x = (0, 0) e y = (1, 0), respectivamente, mas que não se
interceptem.
2. Mostre que a seqüência xn = (0, 1/n), n ∈ , n > 0 tem por limite todos os pontos da forma (x, 0)

para todo x ∈ . (Na topologia usual de 2 o único limite dessa seqüência é o ponto (0, 0)).

18.3 O Limite do Ínfimo e o Limite do Supremo

Recordemos a definição de conjunto dirigido. Um conjunto I é dito ser um conjunto dirigido se for
dotado de uma relação de ordem parcial, que denotaremos por “”, e se for dotado da seguinte
propriedade: para quaisquer dois elementos a e b de I existe pelo menos um terceiro elemento c ∈ I
tal que a c e b c.
Seja I um conjunto dirigido e α : I → uma função de I em . Denotaremos por αi o valor de α
no ponto i ∈ I.
Define-se o limite do ı́nfimo da função α como sendo
lim inf α = sup inf αk , (18.1)
I n∈I kn
ou, numa notação mais completa (e algo pedante),

lim inf α = sup ({inf ({αk , k n, k ∈ I}) , n ∈ I}) . (18.2)
I
Analogamente, define-se o limite do supremo da função α como sendo
lim sup α = inf sup αk , (18.3)

I n∈I kn
ou,
lim sup α = inf ({sup ({αk , k n, k ∈ I}) , n ∈ I}) . (18.4)
I
As definições acima indicam que tanto o limite do supremo quanto o do ı́nfimo dependem da ordem
adotada . Omitiremos essa dependência para não carregar a notação.
É fácil provar que sempre se tem
lim inf α ≤ lim sup α. (18.5)

I I
Caso lim inf I α = lim supI α o limite de α é definido como sendo
lim α = lim inf α = lim sup α. (18.6)

I I I
• Invariância por Redução Inicial do Domı́nio
Que interesses há nas definições acima? Há vários. Um deles reside na seguinte propriedade.
Suponha que I possa ser escrito como uma união I = I0 ∪ J onde I0 e J têm as seguintes propriedades
1. Para todo i0 ∈ I0 existe pelo menos um j ∈ J tal que i0 j.
2. J é um conjunto dirigido pela mesma relação de ordem .
3. Para todo j ∈ J vale que se k j então k ∈ J.
Então vale que

lim inf α = lim inf α
J I
e que
lim sup α = lim sup α,
J I
ou seja, os limites do ı́nfimo e do supremo de uma função em um conjunto dirigido não mudam se
subtrairmos de I um conjunto do “começo” de I (no caso, I0 ). Essa propriedade, que é uma das
principais razões de ser das definições de limite acima e que tem uma importância fundamental, será
denominada aqui invariância por redução inicial do domı́nio.
Vamos prová-la para o limite do ı́nfimo. O caso do limite do supremo é análogo. Como
sup(A ∪ B) = max{sup(A), sup(B)}
segue que
lim inf α = max {sup ({inf ({αk , k n, k ∈ I}) , n ∈ I0 }) , sup ({inf ({αk , k n, k ∈ I}) , n ∈ J})} .
I
(18.7)
Pelas hipóteses, existe para todo i0 ∈ I0 pelo menos um elemento j(i0 ) ∈ J com a propriedade que
j(i0 ) i0 . Logo, para cada i0 ∈ I0 tem-se
{ak , k j(i0 ), k ∈ I} ⊂ {ak , k i0 , k ∈ I}
e, assim,
inf({ak , k j(i0 ), k ∈ I}) ≥ inf({ak , k i0 , k ∈ I}).
Dado que
sup ({inf ({αk , k j, k ∈ I}) , j ∈ J}) ≥ inf ({αk , k j(i0 ), k ∈ I})
segue que para cada i0 ∈ I0 fixo
sup ({inf ({αk , k j, k ∈ I}) , j ∈ J}) ≥ inf({ak , k i0 , k ∈ I}).
Assim,
sup ({inf ({αk , k j, k ∈ I}) , j ∈ J}) ≥ sup ({inf ({αk , k n, k ∈ I}) , n ∈ I0 }) .
Como lim inf I α é o máximo entre os elementos de cada lado da última desigualdade (veja (18.7)),
provou-se que
lim inf α = sup ({inf ({αk , k n, k ∈ I}) , n ∈ J}) .
I
Claramente, para cada n ∈ J
{αk , k n, k ∈ I} = {αk , k n, k ∈ J}
pois se k n com n ∈ J então tem-se que k ∈ J (propriedade 3 da definição de I0 e J). Assim,
lim inf α = sup ({inf ({αk , k n, k ∈ J}) , n ∈ J}) = lim inf α.

I J
• Limite do Supremo e Limite do Ínfimo de um Conjunto
Recordemos a seguinte definição. Seja X um conjunto com uma topologia τ . Seja A um subconjunto
de X. Um ponto x ∈ X é dito ser um ponto limite de A se todo aberto T ∈ τ que contiver x contiver
pelo menos um ponto de A distinto x. Ou seja, se x ∈ T então (T ∩ A) \ {x} 6= ∅.
Denotaremos por pt(A) o conjunto de pontos limite de de A.
Vamos supor que X seja parcialmente ordenado. Definimos então
lim sup A = sup(pt(A))

τ
e
lim inf A = inf(pt(A)).
τ
desde, é claro, que os supremos e ı́nfimos existam em X. Como antes essa definição depende do
ordenamento adotado em X.
• Advertência
Seja I como antes um conjunto dirigido e seja uma função α : I → . Denotemos por Im(α) a
imagem de α. Adotemos em a topologia usual τ e o ordenamento usual.

É então tentador fazermos a seguinte pergunta: será verdade que lim inf I α = lim inf τ Im(α) e que
lim supI α = lim supτ Im(α)?
A resposta pode ser sim ou não dependendo do tipo de ordenamento adotado em I. Vejamos os
seguintes exemplos.
Exemplo 1. Adotemos I = e em adotemos o ordenamento usual. Tomemos como função a
seqüência α definida da seguinte forma

−1 − 1/n, para n par
αn := .
1 + 1/n, para n ı́mpar
O conjunto Im(α) tem dois pontos limite, a saber, −1 e +1. Assim,
lim inf Im(α) = −1 e lim sup Im(α) = 1.

τ τ
É também fácil de provar que
lim inf α = −1 e lim sup α = 1.

Exemplo 2. Adotemos X = e em adotemos o seguinte ordenamento : se n e m são ambos

pares ou ambos ı́mpares então n m se n ≤ m. Entanto, se n é par e m é ı́mpar temos sempre que
n ≺ m.
Esse ordenamento coloca todos os pares como “menores” que todos os ı́mpares. Entre os pares e
entre os ı́mpares o ordenamento é o usual.
Tomemos a mesma seqüência α definida acima. Claramente continuamos tendo
lim inf Im(α) = −1 e lim sup Im(α) = 1.

τ τ
Porém, com o ordenamento dos naturais adotado, temos que
lim inf α = 1 e lim sup α = 1.

, ,
• Mais Sobre O Limite do Supremo e Sobre o Limite do Ínfimo

Verificamos acima que não é verdadeira em geral a afirmativa que o limite do supremo de uma
seqüência coincide com o supremo dos pontos limite de sua imagem. Há porém uma relação entre o
limite do supremo e os pontos de acumulação da seqüência.
Tomemos I como sendo o conjunto dos naturais com o ordenamento usual e seja α : I → uma
seqüência. Adotamos em a topologia usual e o ordenamento usual.

Seja Ac(α) o conjunto de todos os pontos de acumulação da seqüência α.

Tem-se então que
lim inf α = inf(Ac(α))
I
e que
lim sup α = sup(Ac(α)).
I
Não apresentaremos a prova aqui. Observamos, porém, que esse fato é verdadeiro qualquer que seja
o ordenamento adotado em . Para provar isso precisamos ainda introduzir o conceito de ponto de

acumulação para funções definidas em conjuntos dirigidos gerais, o que faremos na Seção 18.4 sobre
redes.
E. 18.9 Exercı́cio. Seja a seqüência cn = sen (1/n), n = 1, 2, 3, . . .. Determine seus pontos de

acumulação, lim sup cn e lim inf cn . 6
E. 18.10 Exercı́cio. Sejam cn e dn duas seqüências limitadas de números reais. Mostre as seguintes
desigualdades.
1. lim sup(cn + dn ) ≤ lim sup cn + lim sup dn .

n→∞ n→∞ n→∞
2. lim sup(cn dn ) ≤ (lim sup cn )(lim sup dn ).

n→∞ n→∞ n→∞
3. Para todo a > 0 vale lim sup(acn ) = a lim sup cn .

n→∞ n→∞
4. Para todo a < 0 vale lim sup(acn ) = a lim inf cn .

n→∞ n→∞
O estudante pode estar se perguntando por que não temos sempre simplesmente a igualdade
lim sup(cn + dn ) = lim sup cn + lim sup dn . Veja o que ocorre no exemplo simples onde cn = (−1)n
e dn = −(−1)n . Aqui temos lim sup(cn + dn ) = lim sup 0 = 0, mas lim sup cn = +1 e lim sup dn = +1.
Logo, lim sup(cn + dn )0 < 2 = lim sup cn + lim sup dn e a igualdade, portanto, não é válida nesse caso.
E. 18.11 Exercı́cio. Seja an uma seqüência de números reais. Mostre que
lim sup(−an ) = − lim inf an .

n→∞ n→∞
6
E. 18.12 Exercı́cio. Sejam cn e dn duas seqüências de números reais tais que cn ≤ dn para todo n ∈ .
Mostre que
lim sup cn ≤ lim sup dn e lim inf cn ≤ lim inf dn .
n→∞ n→∞ n→∞ n→∞
18.4 Redes e o Caso de Espaços Topológicos Gerais

Seja I um conjunto dirigido com respeito à uma relação de ordem parcial (a noção de “conjunto
dirigido” foi introduzida à página 31). Se X é um conjunto não-vazio, uma função f : I → X é
denominada uma rede baseada no conjunto dirigido I com respeito a . O estudante deve observar
que uma seqüência é uma rede baseada em , que é um conjunto dirigido com respeito à ordem usual

dos naturais.
Redes são, portanto, generalizações da noção de seqüências e assumem em espaços topológicos gerais
um papel semelhante ao de seqüências em espaços métricos.
De modo análogo ao que costumeiramente se faz com seqüências, designaremos uma rede x : I → X
por {xλ }λ∈I , por {xλ , λ ∈ I}, ou simplesmente por xλ , sendo I e subentendidos.
Vamos a algumas definições. Seja uma rede {xλ }λ∈I em X com I sendo dirigido por .
1. Dizemos que {xλ }λ∈I está freqüentemente em A ⊂ X se para todo λ ∈ I existir um λ0 ∈ I com
λ λ0 tal que xλ0 ∈ A.
2. Dizemos que {xλ }λ∈I está eventualmente em A ⊂ X se existe λ0 ∈ I tal que xλ ∈ A para todo
λ λ0 .
3. Se (X, τ ) for um espaço topológico, dizemos que x ∈ X é um ponto de acumulação de {x λ }λ∈I
com respeito a τ se {xλ }λ∈I estiver freqüentemente em qualquer τ -aberto que contem x. Nesse
caso, dizemos que {xλ }λ∈I acumula-se em x com respeito a τ .
4. Se (X, τ ) for um espaço topológico, dizemos que x ∈ X é um ponto limite de {xλ }λ∈I com
respeito a τ se {xλ }λ∈I estiver eventualmente em qualquer τ -aberto que contem x. Nesse caso,
dizemos que {xλ }λ∈I converge a x com respeito a τ .
O estudante deve notar que essas definições correspondem perfeitamente àquelas introduzidas para
seqüências à página 876 e seguinte.
Se (X, τ ) for um espaço topológico e x ∈ X, seja Ix a coleção de todos os τ -abertos que contem x.
Então, Ix é um conjunto dirigido pelo ordenamento parcial definido pela inclusão de conjuntos ⊆.
E. 18.13 Exercı́cio. Prove essa afirmação. 6
Seja (X, τ ) um espaço topológico, x ∈ X e B ⊂ X. A coleção Ix, B := {A ∩ B, A ∈ Ix } é um

conjunto dirigido pelo ordenamento parcial definido pela inclusão de conjuntos ⊆.
E. 18.14 Exercı́cio. Prove essa afirmação. 6

Esses dois exercı́cios nos preparam para as seguintes proposições relevantes.

Proposição 18.3 Sejam (X, τ ) um espaço topológico, x ∈ X e Ix a coleção de todos os τ -abertos que
contem x. Seja {xA }A∈Ix uma rede em X com base no conjunto dirigido Ix . Se a rede {xA }A∈Ix tiver
a propriedade que xA ∈ A para todo A ∈ Ix , então {xA }A∈Ix converge a x. 2
A prova é quase imediata pelas definições e deixada ao leitor como exercı́cio.

Proposição 18.4 Se (X, τ ) for um espaço topológico e B ⊂ X, então x ∈ B se e somente se existir
uma rede em B que converge a x. 2
Prova. Precisamos primeiro provar que se x ∈ B então existe uma rede {xλ }λ∈I que converge a x com a
propriedade que xλ ∈ B para todo λ ∈ I. Sabemos que todo elemento de Ix tem intersecção não-vazia
com B, pela definição de fecho de um conjunto. Assim o conjunto Ix, B definido em exercı́cio acima
é não vazio, é um subconjunto de B e é um conjunto dirigido pelo ordenamento parcial definido pela
inclusão de conjuntos ⊆. Por uma ligeira variação da proposição anterior, é fácil ver que qualquer rede
baseada em Ix, B e que a cada A ∈ Ix, B associe xA ∈ A converge a x e está, claramente, contida em B.
Vamos agora provar que se uma rede {xλ }λ∈I com xλ ∈ B para todo λ ∈ I converge a x, então
x ∈ B. Se {xλ }λ∈I converge a x, então {xλ }λ∈I está eventualmente em cada aberto A que contém x.
Isso implica que cada aberto A que contém x contem elementos de {xλ }λ∈I , que estão em B. Logo,
A ∩ B 6= ∅, provando que x ∈ B.
O conceito de rede permite mais uma caracterização de espaços Hausdorff. A proposição abaixo
generaliza um fato bem conhecido de espaços métricos.
Proposição 18.5 Um espaço topológico (X, τ ) é do tipo Hausdorff se e somente se toda rede em X
que for convergente tiver apenas um ponto limite. 2
Prova. Seja (X, τ ) é do tipo Hausdorff e seja {xλ }λ∈I uma rede em X que converge a a e a b com
a 6= b. Podemos encontrar A ∈ τ contendo a e B ∈ τ contendo b tais que A ∩ B = ∅. Mas isso é
impossı́vel, pois se {xλ }λ∈I converge a a e a b, então {xλ }λ∈I está eventualmente em A e B, o que
contradiz A ∩ B = ∅.
Vamos agora supor que o espaço topológico (X, τ ) tem a propriedade que toda rede em X que
for convergente tem apenas um ponto limite. Se (X, τ ) não é do tipo Hausdorff então existem a e b,
elementos distintos de X, tais que cada elemento de Ia tem intersecção não-vazia com cada elemento
de Ib .
Então, para cada par (A, B) com A ∈ Ia e B ∈ Ib podemos escolher um elemento em x(A, B) ∈ A∩B
a com isso, construir uma aplicação Ia × Ib → X. Gostarı́amos agora de identificar uma relação de
ordem parcial que faça de Ia × Ib um conjunto dirigido. Essa relação é a seguinte: (A, B) (A0 , B 0 )
se A0 ∩ B 0 ⊆ A ∩ B.
E. 18.15 Exercı́cio. Verifique que isso faz de Ia × Ib um conjunto dirigido. Para tal, constate que se
a = (A, B) e b = (C, D) ∈ Ia × Ib , então c = (A ∩ C, B ∩ D) ∈ Ia × Ib e valem a c e b c. 6
Note agora que se A ∈ Ia então x(A, B) ∈ A ∩ B ⊆ A e se (A0 , B 0 ) (A, B) então x(A0 , B 0 ) ∈

A ∩ B 0 ⊆ A ∩ B ⊆ A. Isso significa que a rede {x(A, B) , (A, B) ∈ Ia × Ib } está eventualmente em
0
A. Como isso vale para todo A ∈ Ia , então a rede {x(A, B) , (A, B) ∈ Ia × Ib } converge a a. Mutatis
mutantis, constata-se analogamente que a rede {x(A, B) , (A, B) ∈ Ia × Ib } converge a b. Como a 6= b,
isso contradiz a hipótese e, portanto, (X, τ ) é do tipo Hausdorff.
A noção de rede é também importante por permitir uma caracterização do conceito de continuidade
de funções em espaços topológicos. Trataremos disso na Seção 19.2.1 e à página 893.
18.4.1 Redes em Espaços Métricos

Seja M um conjunto dotado de uma métrica d e seja I um conjunto dirigido com respeito a uma relação
de ordem parcial . Uma rede f : I → M é dita ser uma rede de Cauchy em relação à métrica d se
para todo > 0 existir um n() ∈ I (possivelmente dependente de ) tal que d(f (i), f (j)) < para
todos i e j tais que i n() e j n().
É bastante claro que essa definição generaliza a noção de seqüência de Cauchy encontrada à página
732. Naquele caso o conjunto dirigido é o conjunto dos naturais com a relação de ordem usual.

Lembremos que um conjunto M dotado de uma métrica d é dito ser completo (ou seqüêncialmente
completo) em relação a essa métrica se vale a afirmação que uma seqüência converge em M se e somente
ser for uma seqüência de Cauchy.
Para entendermos a relação entre as noções de seqüências de Cauchy e redes de Cauchy em espaços
métricos completos a seguinte proposição é essencial.
Proposição 18.6 Seja M completo em relação à métrica d, ou seja, tal que uma seqüência converge
em M se e somente ser for uma seqüência de Cauchy. Então vale a afirmação que uma rede converge
em M se e somente ser for uma rede de Cauchy. 2
Prova. Se uma rede f : I → M é convergente, então existe m ∈ M tal que para todo > 0 existe
n() ∈ I tal que d(f (i), m) < para todo i ∈ I com a propridade i n(). Assim, se i e j ∈ I são tais
que i n() e j n(), vale pela desigualdade triangular d(f (i), f (j)) ≤ d(f (i), m) + d(m, f (j)) ≤
+ , o que prova que f é uma rede de Cauchy.
Provemos agora a recı́proca. Seja f : I → M uma rede de Cauchy. Então para todo k ∈ , k > 0,
existe n(1/k) ∈ I tal que d(f (i), f (j)) ≤ 1/k para todos i e j tais que i n(1/k) e j n(1/k). Seja
definido z1 := n(1) e escolhamos indutivamente para cada k ∈ , k ≥ 2, um elemento zk ∈ I tal que

zk zk−1 e zk n(1/k). É claro que
z1 z 2 z 3 z 4 · · · com n(1/k) zk para todo k ∈ .
Logo,
n(1/k) zk zk+1 zk+2 · · · .
Assim, para todos n > m > k vale d(f (zm ), f (zn )) < 1/k. Portanto, {f (zl ), l ∈ } é uma seqüência de

Cauchy em M e como M é (seqüêncialmente) completo, segue que {f (zl ), l ∈ } converge a um certo

elemento m ∈ M , o que equivale a dizer que para todo > 0 existe N () ∈ tal que d(f (z n ), m) <
sempre que n > N ().
Seja agora > 0 fixo e escolhamos k ∈ de forma que 1/k < . Se i ∈ I satisfaz i n(1/k), vale

d(f (i), m) ≤ d(f (i), f (zn )) + d(f (zn ), m). Tomando n > max{N (), k} teremos d(f (i), f (zn )) <
pois i n(1/k) e zn n(1/k) e também teremos d(f (zn ), m) < pois n > N (). Logo, d(f (i), m) ≤
2, provando que f converge (a m ∈ M ). Isso completa a prova.
Capı́tulo 19
Continuidade de Funções em Espaços Topológicos
Conteúdo
19.1 Funções Contı́nuas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 888

19.2 Outras Caracterizações do Conceito de Continuidade em Espaços To-
pológicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 891
19.2.1 Continuidade e Convergência . . . . . . . . . . . . . . . . . . . . . . . . . . . 892
odo estudante possui uma noção mais ou menos clara do conceito usual de continuidade
de funções reais da reta real. Aqui, vamos estender este conceito a funções entre espaços
topológicos gerais. A possibilidade de se estender o conceito de continuidade das situações
mais comuns e familiares, encontradas na topologia usual da reta real, para situações mais
gerais é, em verdade, uma das principais razões pelas quais topologias mais gerais que aquelas produ-
zidas por métricas são definidas e estudadas. Percebeu-se que, tomados os devidos cuidados, muitos
dos resultados passı́veis de demonstração no caso métrico estendem-se também para topologias não
deriváveis de uma métrica. Fora isso, aprenderemos, ao elevar o nı́vel de abstração com que o conceito
de continuidade é apresentado, que muitas caracterizações distintas, gerais e úteis do mesmo podem
ser apresentadas. Uma conseqüência desse alargamento de horizontes é uma maior facilidade para a
demonstração de resultados importantes.
19.1 Funções Contı́nuas

Sejam M e N dois conjuntos, o primeiro dotado da topologia τM e o segundo da topologia τN . Seja f
uma função f : M → N . Vamos a uma definição de continuidade, que chamaremos de definição de
continuidade número 1.
DC 1. Uma função f : M → N , como acima, é dita ser uma função contı́nua em relação às topologias
τM e τN se f −1 (A) ∈ τM para todo aberto A de τN .
Em outras palavras, uma função é dita ser contı́nua se a imagem inversa de qualquer conjunto
aberto na topologia do conjunto imagem for igualmente um conjunto aberto na topologia do conjunto
domı́nio.
A seguinte afirmação é uma conseqüência imediata da definição acima.
Proposição 19.1 Sejam M1 , M2 e M3 espaços topológicos com topologias τM1 , τM2 e τM3 , respectiva-
mente. Seja f : M1 → M2 , contı́nua em relação às topologias τM1 e τM2 , e g : M2 → M3 , contı́nua em
relação às topologias τM2 e τM3 . Então g ◦ f : M1 → M3 é contı́nua em relação às topologias τM1 e τM3 .
2
888
Uma série de questões vêm à mente de qualquer estudante que se depara com a definição acima
pela primeira vez. Por exemplo, as seguintes: 1) No caso de funções reais definidas na reta real o que a
definição acima tem a ver com a noção de continuidade tão bem conhecida e ensinada? 2) Na definição
acima, o conceito de continuidade parece ser fortemente dependente das topologias τM e τN escolhidas
no domı́nio e na imagem da função. Pode acontecer de uma função dada ser contı́nua em relação a
algumas topologias mas não em relação a outras? 3) É estranho que na definição acima a noção de
continuidade seja apresentada em termos de uma propriedade da imagem inversa f −1 da função f . Isso
tem mesmo que ser assim? 4) Será possı́vel caracterizar a propriedade de continuidade diretamente em
termos de propriedades da f ?
Todas essas questões são muito pertinentes e serão respondidas uma a uma no que segue.
Fazemos notar que, na definição nova de continuidade que apresentamos acima, as topologias τ M e
τN são genéricas, não necessitando ser, por exemplo, topologias métricas em M ou N , respectivamente.
Vamos, porém, discutir agora o caso tradicional em que M e N são iguais à reta real dotada da topologia
métrica usual τ .

• A Noção Usual de Continuidade na Reta Real
Seja f : → uma função. A noção usual de continuidade diz que f é contı́nua em se e somente

se para todo x ∈ e para todo número > 0 existir um número δ = δ(x, ) > 0 (eventualmente

dependente de x e ) tal que, sempre que para algum y tivermos |y−x| < δ(x, ) então |f (y)−f (x)| < .
Essa definição pode ser facilmente generalizada para o caso de espaços métricos gerais.
DCEM 1. Sejam M1 e M2 dois espaços métricos com métricas d1 e d2 , respectivamente. Seja f :
M1 → M2 uma função entre estes dois espaços métricos. A função f é dita ser contı́nua (no sentido
usual) se para todo x ∈ M1 e para todo número > 0 existir um número δ(x, ) > 0 tal que se
y ∈ Bd1 (x, δ(x, )) então f (y) ∈ Bd2 (f (x), ). Acima Bdi (a, r), i = 1, 2, é a bola aberta de raio r
centrada em torno de a segundo a métrica di .
Vejamos um exemplo de uma função real que não é contı́nua segundo a definição acima. Seja a
função
1, se t ≥ 0
H(t) := . (19.1)
0, se t < 0
Então, para x = 0 e para = 1/10 (por exemplo) não é possı́vel achar um número δ tal que se
|y − x| = |y| < δ tenhamos |H(y) − H(x)| = |H(y) − 1| < 1/10. A razão é que para qualquer y ≥ 0
temos |H(y) − 1| = 0 que é menor que 1/10, mas para qualquer y < 0 temos |H(y) − 1| = 1 que,
obviamente, é sempre maior que 1/10.
E. 19.1 Exercı́cio. Seja a função g(t) = t2 . Mostre explicitamente que g é contı́nua pela definição
acima. Como pode ser δ(x, ) como função de x e nesse caso? Determine explicitamente δ(x, ). 6
As linhas acima recordam-nos a definição usual de continuidade, tal como aprendida nos cursos
iniciais de Cálculo. Qual a conexão com a nova noção de continuidade (DC 1) que apresentamos acima?
Vamos esclarecer este ponto agora, provando que as duas definições são equivalentes, se adotarmos a
topologia usual da reta (definida pela métrica d(x, y) = |y − x|) no domı́nio e na imagem da função f .
Seja uma função f : → tal que f −1 (A) é um aberto em τ para todo A ∈ τ . Sejam então

um ponto x no domı́nio da f e f (x) sua imagem. Seja A = (f (x) − , f (x) + ) um aberto em τ (com
> 0). Assim, pelas hipóteses, o conjunto f −1 (A) é um aberto em que deve conter o ponto x (pois

f (x) ∈ A). Deve haver assim uma bola aberta, de raio não nulo, centrada em x inteiramente contida
no aberto f −1 (A). Chamemos seu raio de δ = δ(x, ) (em geral, o raio deve depender de A e, portanto,
de x e ). Em essa bola é o intervalo B = (x − δ, x + δ). Note-se que, como B ⊂ f −1 (A), segue
que f (B) ⊂ A = (f (x) − , f (x) + ). Isso, finalmente, é exatamente a afirmação que f é contı́nua no
sentido usual.
Vamos agora supor que f é uma função contı́nua no sentido usual e provar que ela também é
contı́nua no sentido novo (DC 1). Isso, junto com o visto no último parágrafo, mostra que as duas
noções são equivalentes.
Seja A ∈ τ um aberto qualquer em e vamos supor, sem perder a generalidade (por que?), que A

contem elementos da imagem de f . Seja x ∈ f −1 (A). Seja, para algum > 0, B(f (x), ) a bola aberta
de raio centrada em f (x). Como A é aberto e f (x) ∈ A teremos B(f (x), ) ⊂ A se escolhermos
pequeno o suficiente (ainda com > 0). Pela hipótese que f é contı́nua no sentido usual, existe
δ(x, ) tal que se y ∈ B(x, δ(x, )) então f (y) ∈ B(f (x), ) ⊂ A. Assim, y ∈ f −1 (A). Mas isso
significa dizer que para todo x no conjunto f −1 (A) somos capazes de identificar um raio δ = δ(x, )
(para o escolhido) tal que todo elemento que dista de x menos que δ é também elemento do conjunto
f −1 (A). Isso é afirmar que f −1 (A) é um conjunto aberto, pela própria definição de conjuntos abertos
na topologia métrica usual da reta.
Isso demonstrou a equivalência que querı́amos estabelecer e respondeu a pergunta 1) acima.
• Continuidade por partes
Uma outra noção importante é a de continuidade por partes.
Definição. Sejam M e N não-vazios e dotados de topologias τM e τN , respectivamente. Uma função

f : M → N é dita ser uma função contı́nua por partes em relação às topologias τ M e τN se existir um
[m
conjunto finito de abertos disjuntos A1 , . . . , Am em M satisfazendo M = Ak e tais que:
k=1
1. Para todo k vale que (f Ak ) : Ak → N , a restrição de f ao aberto Ak , é contı́nua, em relação à

topologia induzida por τM sobre Ak e em relação à τN .
2. Para todo k existe uma extensão de f Ak sobre o fechado Ak a qual é contı́nua em relação à
topologia induzida por τM sobre Ak e em relação à τN .
Alguns autores dispensam a condição de que a coleção de abertos Ak seja finita.

19.2 Outras Caracterizações do Conceito de Continuidade

em Espaços Topológicos
A caracterização DC 1 do conceito de continuidade de uma função entre dois espaços topológicos que
apresentamos no inı́cio da sub-seção anterior é equivalente a uma série de outras caracterizações que
discutiremos agora, as quais podem, eventualmente, ser mais úteis que descrita acima.
Vamos a uma outra definição de continuidade, que chamaremos de definição de continuidade número
2. Sejam M e N dois conjuntos, o primeiro dotado da topologia τM e o segundo da topologia τN . Seja
f uma função f : M → N .
DC 2. Uma função f : M → N , como acima, é dita ser uma função contı́nua em relação às topologias
τM e τN se f −1 (F ) for um conjunto fechado para a topologia τM para todo conjunto fechado F segundo
τN .
Em outras palavras, uma função é dita ser contı́nua se a imagem inversa de qualquer conjunto
fechado na topologia do conjunto imagem for igualmente um conjunto fechado na topologia do conjunto
domı́nio.
Desejamos provar a equivalência das definições DC 1 e DC 2. Para tal, notemos que, para qualquer
conjunto C ⊂ N , vale f −1 (C) = f −1 (C c )c , ou seja,
f −1 (C) = M \ f −1 (N \ C).
E. 19.2 Exercı́cio (fácil). Demonstre essa relação. 6
Com essa relação em mãos fica fácil provar que se f for contı́nua segundo DC 1 então a imagem
inversa de qualquer conjunto C fechado em N é fechado em M . Mutatis mutantis, se f e contı́nua
segundo DC 2 então a imagem inversa de qualquer aberto C em N é aberto em M . Isso estabelece
que as duas definições são equivalentes.
Vamos agora a uma terceira definição de continuidade que será útil quando tratarmos do conceito
de continuidade em espaços métricos.
f : M → N como acima é dita ser uma função contı́nua em relação às topologias
DC 3. Uma função
τM e τN se f D ⊂ f (D) para qualquer conjunto D ⊂ M . Aqui, D é o fecho de D ⊂ M .
Note-se aqui dois fatos: 1) nesta nova definição a continuidade é caracterizada em termos de propri-
edades das imagens da função f e não em termos das suas imagens inversas; 2) acima D é um conjunto
qualquer de M , não apenas um aberto ou um fechado.
Vamos provar agora que a definição DC 3 é equivalente à definição DC 2 (e, portanto, à definição
DC 1). Para tal, notemos que as seguintes afirmativas são verdadeiras: sejam X ⊂ M e Y ⊂ N dois
conjuntos quaisquer. Então
f (f −1 (Y )) ⊂ Y e f −1 (f (X)) ⊃ X.
E. 19.3 Exercı́cio (fácil). Mostre isso. 6
Fora isso, é também claro que se X ⊂ M e Y ⊂ N são tais que f (X) ⊂ Y , então f −1 (Y ) ⊃ X.
Seja então f contı́nua segundo DC 3 e seja F ⊂ N , fechado. Teremos que

f f −1 (F ) ⊂ f (f −1 (F )) ⊂ F = F,
ou seja,
f f −1 (F ) ⊂ F.
Logo,
f −1 (F ) ⊃ f −1 (F ).
Como um conjunto qualquer é sempre subconjunto e seu fecho, essa última relação diz que f −1 (F ) =
f −1 (F ), que é o mesmo que dizer que f −1 (F ) é fechado. Assim, se f é contı́nua segundo DC 3 é
também segundo DC 2.
Seja agora f contı́nua segundo DC 2. E seja D ⊂ M , qualquer. Tomando Y = f (D), vimos acima
que
f f −1 f (D) ⊂ f (D). (19.2)
Agora,
−1 −1
D ⊂ f (f (D)) ⊂ f f (D) .

−1 −1
Mas f f (D) é fechado, pois f é contı́nua segundo DC 2 e f (D) é fechado. Assim, D ⊂ f f (D) ,

pois D é o menor fechado que contém D. Disso segue que f D ⊂ f f −1 f (D) . Juntando-se isso

à (19.2), concluı́mos que f D ⊂ f (D), provando a equivalência desejada.
19.2.1 Continuidade e Convergência
• Continuidade e Convergência em Espaços Métricos
Vamos agora tratar de mais uma caracterização do conceito de continuidade de funções, carac-
terização esta especializada ao caso de funções entre espaços métricos. Uma primeira definição do
conceito de continuidade de funções entre espaços métricos é a definição DCEM 1, que encontra-se
à página 889. O ponto importante da caracterização que aqui descreveremos é que a mesma trata a
noção de continuidade em termos de convergência de seqüências, sendo por isso de especial importância
prática.
Sejam M e N dois espaços métricos dotados de métricas dM e dN , respectivamente. Sejam τdM e
τdN as topologias induzidas por essas métricas em M e N , respectivamente. Seja f : M → N uma
função entre esses dois espaços métricos. Temos a seguinte definição:
DCEM 2. Uma função f : M → N , como a descrita acima, é contı́nua se para todo x ∈ M e para
toda seqüência {xn , n ∈ } que converge a x em relação à métrica dM tivermos

f (x) = lim f (xn ),

n→∞
ou seja,
f lim xn = lim f (xn ),
n→∞ n→∞
onde a convergência de f (xn ) se dá em relação à métrica dN .

Vamos mostrar que esta última definição de continuidade é, no caso de espaços métricos, equivalente
às definições DC 1, 2 e 3. No caso de espaços topológicos não métricos tal equivalência pode não ser
válida. Lembramos o comentário que fizemos na Seção 18 que há espaços topológicos não-métricos nos
quais nenhuma seqüência é convergente, fora as seqüências eventualmente constantes. Um exemplo é
o de um conjunto X não contável dotado da topologia co-contável. Essa é a raiz da dificuldade em se
estender a definição DCEM 2 para espaços topológicos não-métricos.
Prova da equivalência. Vamos supor que f seja contı́nua segundo DCEM 2 e provar que f é então
contı́nua segundo DC 3. Seja D ⊂ M genérico e não-vazio e seja x ∈ D (o caso D = ∅ é trivial). Então,
como M é um espaço métrico existe uma seqüência xn ∈ D que converge a x. Pelas hipóteses então,
f (x) = lim f (xn ). Como x pode ser qualquer elemento de D e como os pontos f (xn ) são elementos
n→∞
do conjunto f (D), isso significa que f D ⊂ f (D), o que prova que f é contı́nua segundo DC 3.
Vamos agora supor f contı́nua segundo DC 1 e vamos mostrar que ela então o é segundo DCEM
2. Suponha que para x ∈ M haja uma seqüência xn em M convergindo a x segundo dM e suponha
que f (xn ) não converge a f (x). Então existe um aberto A de N contendo f (x) e tal que f (x n ) não
está eventualmente em A. Isso significa que xn não está eventualmente em f −1 (A) (por que?). Como
pelas hipóteses f −1 (A) é um aberto e x ∈ f −1 (A) (por que?), isso diz que xn não converge a x, uma
contradição. Logo lim f (xn ) = f (x) e a equivalência está provada.
n→∞
E. 19.4 Exercı́cio. Seja a função H definida em (19.1). Adotando a topologia usual de tanto na
6
imagem quanto no domı́nio de H, exiba seqüências x n em convergindo a x = 0 tais que lim H(xn ) =

n→∞
H(0). 6
• Continuidade e Convergência em Espaços Topológicos Gerais
Como observamos acima, a definição de continuidade DCEM 2 não pode ser diretamente trans-
posta a espaços topológicos gerais, pois nesses casos ocorrem dificuldades especiais concernentes à
convergência de seqüências. Como aprendemos e discutimos na Seção 18.4, página 884, essas dificulda-
des podem ser superadas com o emprego da noção mais geral de rede, como alternativa às seqüências.
De fato, é possı́vel apresentar mais uma definição do conceito de continuidade, equivalente às anteriores,
nas mesmas linhas de DCEM 2, mas com a noção de rede substituindo a de seqüência.
Para uma melhor compreensão do que segue, recomendamos uma re-leitura da Seção 18.4, página
884.
Sejam M e N dois espaços topológicos e sejam τM e τN as topologias em M e N , respectivamente.
Seja f : M → N uma função entre esses dois espaços topológicos. Temos a seguinte definição:
DC 4. Uma função f : M → N , como a descrita acima, é contı́nua se para todo x ∈ M e para toda
rede {xλ , λ ∈ I} em M que tem x como ponto limite na topologia τM , a rede {f (xλ ), λ ∈ I} em N
tiver f (x) como ponto limite na topologia τN .
Note que, acima, as redes {xλ , λ ∈ I} e {f (xλ ), λ ∈ I} podem tem outros pontos limite além de x
e f (x), respectivamente, pois M e N não são necessariamente do tipo Hausdorff nas suas respectivas
topologias.
Vamos mostrar que esta última definição de continuidade equivale às definições DC 1, 2 e 3.
Prova da equivalência. Vamos supor que f seja contı́nua segundo DC 4 e provar que f é então
contı́nua segundo DC 3. Seja D ⊂ M genérico e não-vazio e seja x ∈ D (o caso D = ∅ é trivial).
Então, pela Proposição 18.4, página 885, existe uma rede {xλ , λ ∈ I} em D tem x como ponto limite
em τM . Pelas hipóteses então, f (x) é ponto limite de {f (xλ ), λ ∈ I} em τN . Como x pode ser qualquer
elemento de D e como os pontos f (xλ) são elementos do conjunto f (D), isso significa, também pela
Proposição 18.4, página 885, que f D ⊂ f (D), o que prova que f é contı́nua segundo DC 3.
Vamos agora supor f contı́nua segundo DC 1 e vamos mostrar que ela, então, o é segundo DC
4. Suponha que para x ∈ M haja uma rede {xλ , λ ∈ I} em M que tem x como ponto limite em τM
e suponha que f (x) não é ponto limite de {f (xλ ), λ ∈ I} em τN . Então existe um aberto A de N
contendo f (x) e tal que {f (xλ ), λ ∈ I} não está eventualmente em A. Isso significa que {xλ , λ ∈ I}
não está eventualmente em f −1 (A) (por que?). Como pelas hipóteses f −1 (A) é um aberto e x ∈ f −1 (A)
(por que?), isso diz que x não é ponto limite de {xλ , λ ∈ I} em τM , uma contradição. Logo f (x) é
ponto limite de {f (xλ ), λ ∈ I} em τN e a equivalência está provada.
Capı́tulo 20
Elementos da Teoria da Integração
Conteúdo
20.1 Comentários Preliminares . . . . . . . . . . . . . . . . . . . . . . . . . . . . 896

20.2 A Integração no Sentido de Riemann . . . . . . . . . . . . . . . . . . . . . 898
20.2.1 A Integral de Riemann Imprópria . . . . . . . . . . . . . . . . . . . . . . . . . 907
20.2.2 Diferenciação e Integração em Espaços de Banach . . . . . . . . . . . . . . . 909
20.3 A Integração no Sentido de Lebesgue . . . . . . . . . . . . . . . . . . . . . 914
20.3.1 Funções Mensuráveis e Funções Simples . . . . . . . . . . . . . . . . . . . . . 915
20.3.2 A Integral de Lebesgue. Integração em Espaços Mensuráveis . . . . . . . . . 921
20.3.3 A Integral de Lebesgue e sua Relação com a de Riemann . . . . . . . . . . . 930
20.3.4 Teoremas Básicos sobre Integração e Convergência . . . . . . . . . . . . . . . 933
20.3.5 Alguns Resultados de Interesse . . . . . . . . . . . . . . . . . . . . . . . . . . 936
20.4 Os Espaços Lp e Lp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 938
20.4.1 As Desigualdades de Hölder e de Minkowski . . . . . . . . . . . . . . . . . . . 941
20.4.2 O Teorema de Riesz-Fischer. Completeza . . . . . . . . . . . . . . . . . . . . 945
20.A Demonstração da Proposição 20.3 . . . . . . . . . . . . . . . . . . . . . . . 946
20.B Caracterizações e Propriedades de Funções Mensuráveis . . . . . . . . . . 947
20.C Prova do Lema 20.3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 953
20.D Demonstração de (20.22) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 954
20.E A Equivalência das Definições (20.23) e (20.24) . . . . . . . . . . . . . . . 955
20.F Prova do Teorema da Convergência Monótona . . . . . . . . . . . . . . . . 957
20.G Prova do Lema de Fatou . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 958
20.H Prova do Teorema da Convergência Dominada . . . . . . . . . . . . . . . . 959
20.I Prova dos Teoremas 20.2 e 20.3 . . . . . . . . . . . . . . . . . . . . . . . . . 960
20.J Prova das Desigualdades de Hölder e Minkowski . . . . . . . . . . . . . . 963
20.K Prova do Teorema de Riesz-Fischer . . . . . . . . . . . . . . . . . . . . . . 965
presentaremos neste capı́tulo ingredientes básicos da chamada teoria da integração, centrada

na noção de integral de funções definidas em espaços mensuráveis, a integral de Lebesgue
sendo uma de suas instâncias de particular importância. Iniciaremos com uma breve digressão
sobre o desenvolvimento histórico e recordaremos a noção de integrabilidade no sentido de
Riemann, passando a seguir à noção mais geral de integração em espaços de medida. Advertimos o
leitor que os assuntos tratados neste capı́tulo envolvem por vezes noções e problemas matematicamente
muito sutis, sendo difı́cil apresentá-los de modo resumido ou simplificado. Por essa razão, optamos
895
por apresentar certas demonstrações mais técnicas não no texto principal, mas nos apêndices que se
iniciam à página 946. Nossa intenção é, antes de tudo, guiar o leitor, apontando-lhe os ingredientes de
maior importância e de modo a eventualmente motivar seu interesse em um estudo mais aprofundado.
Como referências gerais para a teoria da medida e da integração, recomendamos [105] (fortemente),
e também [91], [72], [104], [39] ou ainda [83, 84]. Um texto clássico é [51]. Para estas Notas também
coletamos material de [57, 58], [56] e de [8].
20.1 Comentários Preliminares

É parte essencial da formação de todo fı́sico ou matemático aprender as noções básicas do Cálculo,
como os conceitos de limite, de derivada e de integral de funções. Nos passos iniciais dessa formação é
importante dar ênfase a métodos de cálculo de derivadas e integrais de funções e, conseqüentemente, e
é natural que assim seja, pouco se discute sobre certas sutilezas ocultas por trás de tais conceitos.
A noção de integral de uma função é uma das idéias fundamentais de toda a Matemática e originou-
se no século XVII com os trabalhos de Newton1 e Leibniz2 , ainda que tenha raı́zes muito mais antigas,
remontando pelo menos a Arquimedes3 . Intuitivamente, a integral de uma função real em um intervalo
compacto [a, b] é entendida como a área descrita sob o gráfico dessa função nesse intervalo. Essa
noção simples é suficiente para motivar e sustentar os primeiros passos de qualquer aluno iniciante e,
mesmo em um plano histórico, satisfez as mentes matemáticas até cerca de meados do século XIX,
pois as aplicações almejadas pela Fı́sica e pela Matemática de então pouco requeriam além dessa noção
intuitiva.
Mesmo hoje, pode ser difı́cil a um estudante, acostumado com o cálculo de integrais de funções
“elementares”, entender que a noção de integral envolve questões sutis, principalmente pois essas suti-
lezas envolvem primordialmente a questão de caracterizar para quais funções o conceito de integral se
aplica. Considere-se, por exemplo, as seguintes funções:
 
 1, se x for irracional  sen (x), se x for transcendente
f (x) = , ou f (x) = . (20.1)
 
0, se x for racional x2 , se x for algébrico
Terão essas funções uma integral em um dado intervalo compacto [a, b]? Como essas funções são
descontı́nuas em todos os pontos, é fácil reconhecer que a noção de integral como “área sob o gráfico”
de uma função é aqui muito problemática (o leitor não convencido deve tentar desenhar os gráficos
dessas funções e se perguntar qual a “área” sob os mesmos).
Na grande maioria das aplicações com as quais nos acostumamos, funções como essas não ocorrem,
mas sim funções contı́nuas e suficientemente diferenciáveis, para as quais a noção intuitiva de integral
dificilmente é problemática. No entanto, uma série de desenvolvimentos teóricos na Matemática con-
duziram à necessidade de estender a noção de integral a classes mais abrangentes de funções, como as
do exemplo acima. Seria precipitado enumerar neste ponto quais foram precisamente esses desenvol-
vimentos que pressionaram por um aprofundamento da noção de integral, pois para tal uma série de
1
2
3
Arquimedes de Siracusa (ci. 287 A.C. - ci. 212 A.C.).
comentários e definições teria que ser antecipada. Discutiremos isso no devido momento. Menciona-
mos, porém, que esse avanço foi possibilitado pelo desenvolvimento concomitante da Teoria da Medida,
que, como já discutimos alhures, fundamentou e estendeu noções como comprimento, área, volume etc.,
de conjuntos. A área da Matemática que surgiu desse desenvolvimento é usualmente conhecida como
Teoria da Integração.
Um outro avanço importante obtido através da Teoria da Integração foi o seguinte. As noções
de integração que aprendemos nos cursos de Cálculo aplicam-se a integrais de funções definidas em
conjuntos como , n , etc. Uma das conseqüências mais importantes do desenvolvimento da teoria da

integração foi a possibilidade de definir a noção de integral mesmo para funções definidas em conjuntos
mais “exóticos” que os supra-citados, tais como conjuntos fractais, conjuntos de curvas, de funções e
outros.
Esse desenvolvimento relevou-se de grande importância para a Fı́sica também. Na Mecânica
Quântica, por exemplo, ocorrem as chamadas integrais funcionais, que são integrais de funções de-
finidas em conjuntos de curvas contı́nuas. Dados dois pontos x e y no espaço, um método importante
desenvolvido por Feynman4 permite expressar certas funções de Green G(x, y) de sistemas quânticos
em termos de integrais sobre o conjunto Cx, y de todas as curvas contı́nuas no espaço que conectam
x a y. Na Teoria Quântica de Campos, o análogo das integrais de Feynman é ainda mais abstrato e
envolve integrais sobre conjuntos de distribuições 5 . Como se percebe, tais aplicações requerem muito
mais que definir a noção de integral como “área” ou “volume sob um gráfico”.
Tentativas informais de caracterizar a noção de integral são tão antigas quanto o Cálculo. Leibniz
tentou definir integrais e derivadas a partir da noção de infinitésimos. A noção de infinitésimos carece
de respaldo matemático mas, como outras idéias filosófico-especulativas infelizes do passado, estende
sua perversa influência até o presente, causando em alguns, especialmente em cursos de fı́sica e en-
genharia, uma falsa percepção de compreensão da noção de integral que impede o entendimento de
outros desenvolvimentos. A noção de limite, que acabou por expurgar os infinitésimos da linguagem
matemática, era praticamente desconhecida dos fundadores do Cálculo, tendo sido usada pela primeira
vez em 1754 por d’Alembert6 para definir a noção moderna de derivada.
Um dos primeiros passos importantes no sentido de dotar a noção de integral definida de fundamen-
tos mais sólidos foi dado por Riemann7 em 1854, em sua famosa tese de livre-docência8 . A motivação de
Riemann foi o estudo das séries de Fourier. Ao estudar condições que garantam um rápido decaimento
dos coeficientes de Fourier de funções periódicas, Riemann deparou-se com a necessidade de carac-
terizar mais precisamente a noção de integrabilidade de funções ou, melhor dizendo, de caracterizar
quais funções podem ser dotadas de uma integral. Um dos problemas com que Riemann se debateu foi
demonstrar
Z o que hoje em dia é conhecido como Lema de Riemann-Lebesgue: a afirmação que o limite
b
lim f (x) sen (λx)dx vale zero se f for contı́nua por partes. Esse fato é importante para a teoria
λ→∞ a
4
Richard Phillips Feynman (1918-1988). A formulação da Mecânica Quântica em termos das integrais funcionais de
Feynman surgiu em cerca de 1942.
5
Para uma exposição introdutória sobre a integração funcional de Feynman na Mecânica Quântica, vide, por exemplo,
[95], ou bons livros de Mecânica Quântica. Para a integração funcional de Feynman-Kac, definida no espaço-tempo
Euclidiano, vide e.g. [46] ou [99, 100, 101, 102].
6
7
Georg Friedrich Bernhard Riemann (1826-1866).
8
“Über die Darstellbarkeit einer Function durch eine trigonometrische Reihe”. Publidada em 1867.
das séries de Fourier e sua demonstração (que pode ser acompanhada, por exemplo, em [31]), requer
compreender a integral como limite de somas de Riemann (a serem definidas abaixo).
A noção de integrabilidade de Riemann, que será recordada abaixo, é a primeira a ser ensinada em
(bons) cursos de Cálculo mas, como discutiremos mais adiante, também não é plenamente satisfatória.
Para a grande maioria dos propósitos modernos, a noção mais satisfatória de integrabilidade é a de
Lebesgue, que também apresentaremos adiante. É dessa noção de integral que emergem os desenvol-
vimentos mais importantes, na teoria das séries de Fourier, dos espaços de Banach e de Hilbert etc.
Adiantamos que no caso de funções limitadas reais definidas em conjuntos compactos da reta real, as
integrais de Riemann e de Lebesgue coincidem. Nesse sentido, a integração de Lebesgue estende a de
Riemann. Trataremos disso de modo mais preciso nos Teoremas 20.2 e 20.3, da Seção 20.3.3, página
930.
Nesse momento é conveniente que encerremos esse palavreado preliminar e elevemos a discussão a
um nı́vel mais sólido.
20.2 A Integração no Sentido de Riemann

Na presente serão recapitularemos um pouco, mas em um nı́vel talvez mais avançado, da teoria da
integração de Riemann no intuito de preparar a discussão, que lhe seguirá, concernente a noção de
integral de Lebesgue. Apresentaremos apenas as definições e os resultados estruturais mais relevantes.
Tendo em vista outras aplicações (vide, por exemplo, o tratamento do Teorema da Função Implı́cita
em espaços de Banach da Seção 14.4, página 805), nosso intuito é também o de apresentar a noção de
integral de Riemann de modo a permitir sua extensão para funções de uma variável real assumindo
valores em um espaço de Banach. Essa preocupação, ainda que sem maior importância para a aborda-
gem da teoria de integração de Lebesgue, sub-jaz boa parte dos tratamento da integração de Riemann
que se segue.
Por simplicidade, restringiremos nossa discussão aqui a funções de uma variável real. A definição
de integral de Riemann é feita inicialmente em intervalos fechados [a, b] finitos, ou seja, com −∞ <
a < b < ∞. Integrais de Riemann em intervalos não-finitos são definidas posteriormente (Seção 20.2.1,
página 907), tomando-se limites de integrais em intervalos finitos, caso esses limites existam.
• Partições
Importante para a definição da integral de Riemann é a noção de partição de um intervalo compacto

[a, b]. Trata-se de um conjunto finito de pontos {x1 , . . . , xn } satisfazendo a = x1 < x2 < · · · < xn−1 <
xn = b, o número n podendo ser arbitrário, com n ≥ 2.
O conjunto de todas as partições possı́veis (com número de pontos arbitrário) de um intervalo
compacto [a, b] será denotado por P([a, b]), ou simplesmente P, se [a, b] estiver sub-entendido. Uma
partição particular será denotada por P ∈ P([a, b]).
A cada partição P = {x1 , . . . , xn } ∈ P([a, b]), com n pontos, estão associados n − 1 intervalos
fechados I1 , . . . , In−1 , sendo Ik = [xk , xk+1 ]. Denotaremos por |Ik | o comprimento do k-ésimo
intervalo: |Ik | := xk+1 − xk .
Outra noção útil é a de fineza de uma partição P, denotada por |P|. Se P = {x1 , . . . , xn } ∈ P([a, b])
definimos |P| := max{|I1 |, . . . , |In−1 |}. Assim, |P| é o máximo comprimento dos intervalos definidos
por P em [a, b].
Podemos fazer de P([a, b]) um conjunto dirigido9 , definindo a seguinte relação de ordem parcial:
P P0 se P ⊂ P0 . Assim, dizemos que uma partição P0 é mais fina que uma partição P se P for um
sub-conjunto de P0 . Note-se que se P P0 então |P| ≥ |P0 |.
E. 20.1 Exercı́cio. Mostre que isso define uma relação de ordem parcial em P([a, b]) e que isso faz de
P([a, b]) um conjunto dirigido. 6
Se P e P0 são duas partições de [a, b] dizemos que P0 é um refinamento de P se P P0 , ou seja, se

P ⊂ P0 . Se P1 e P2 são duas partições de [a, b] então é evidente que P1 ∪ P2 é um refinamento de P1 e
de P2 .
Dada uma partição P = {x1 , . . . , xn } ∈ P([a, b]) com n pontos, podemos associar à mesma um
conjunto χ de n − 1 pontos distintos χ = {χ1 , . . . , χn−1 }, com a ≤ χ1 < · · · < χn−1 ≤ b, escolhendo
χk ∈ Ik , k = 1, . . . , n − 1, ou seja, escolhendo cada χk no k-ésimo intervalo da partição P. Se χ
é associado a P da forma descrita acima, denotamos esse fato em sı́mbolos por χ ∝ P. Considere-se
cada par (P, χ) e denotemos por X([a, b]) coleção formada por todos esses pares (P, χ), para todas
as partições P ∈ P([a, b]) e todas os conjuntos χ possı́veis associados a cada P:
X([a, b]) := {(P, χ) com P ∈ P([a, b]) e χ ∝ P} .
Tal como P([a, b]), o conjunto X([a, b]) é também um conjunto dirigido se definirmos a relação de
ordem (P, χ) (P0 , χ0 ) se P P0 , ou seja, se P ⊂ P0 (independentemente de χ e χ0 !).
• Somas de Riemann. Integrabilidade de Riemann
Dada uma função real limitada f , definida em [a, b], e dado um par (P, χ) ∈ X([a, b]), com
P = {x1 , . . . , xn } e χ = {χ1 , . . . , χn−1 }, χk ∈ Ik , k = 1, . . . , n − 1, distintos, definimos a soma de
Riemann de f associada ao par (P, χ), denotada por S[(P, χ), f ], como
n−1
X
S[(P, χ), f ] := f (χk )|Ik | .
k=1
Vide Figura 20.1.

Para f fixa, a aplicação X([a, b]) 3 (P, χ) 7→ S[(P, χ), f ] ∈ é uma rede10 . Podemos, assim,

perguntar-nos se essa rede possui pontos de acumulação e pontos limite. Notemos que, como é do
tipo Hausdorff, se essa rede possuir um ponto limite, o mesmo é único (pela Proposição 18.5, página
885). Essa questão nos conduz à seguinte definição:
Definição. Integrabilidade de Riemann I. Uma função limitada f : [a, b] → é dita ser integrável
por Riemann no intervalo compacto [a, b] se a rede X([a, b]) 3 (P, χ) 7→ S[(P, χ), f ] ∈ possuir um
ponto limite S(f ) ∈ .
9
Para a definição, vide página 31.
10
A definição de rede encontra-se à página 884. Note que X([a, b]) é um conjunto dirigido, pelo comentado acima.
f(x)
f(χ 6)
f(χ5 )
f(χ 1)
a=x 1 x2 x3 x4 x5 x6 b=x
7
χ1 χ2 χ3 χ4 χ5 χ6
Figura 20.1: Representação da soma de Riemann de uma função f no intervalo [a, b] com a partição
P = {a = x1 , x2 , x3 , x4 , x5 , x6 , x7 = b}, com os pontos intermediários χ = {χ1 , χ2 , χ3 , χ4 , χ5 , χ6 }.
O k-ésimo retângulo tem altura f (χk ) e largura |Ik | = xk+1 − xk . A soma das áreas desses retângulos
fornece S[(P, χ), f ].
Se f : [a, b] → for integrável por Riemann no intervalo compacto [a, b] o limite S(f ) é denominado

integral de Riemann de f em [a, b]. Como é bem conhecido, a integral de Riemann de f em [a, b] é
Rb
mais freqüentemente denotada11 por a f (x) dx, ou seja,
Z b
S(f ) ≡ f (x) dx .
a
Para tornar essa definição um pouco mais palpável, vamos reformulá-la um pouco lembrando a
definição de ponto limite de uma rede da Seção 18.4, página 884. Dizemos que S(f ) ∈ é um
ponto limite da rede X([a, b]) 3 (P, χ) 7→ S[(P, χ), f ] ∈ , se para todo > 0 existir um par
(P0 , χ0 ) ∈ X([a, b]) tal que S[(P, χ), f ] pertence ao intervalo aberto (S(f ) − , S(f ) + ) para todo
par (P, χ) ∈ X([a, b]) tal que (P, χ) (P0 , χ0 ).
Assim, f : [a, b] → é dita ter uma integrável por Riemann S(f ) ∈
se para todo > 0 existir
um par (P0 , χ0 ) ∈ X([a, b]) tal que

S[(P, χ), f ] − S(f ) <
Rb
para todo par (P, χ) tal que (P, χ) (P0 , χ0 ). O número S(f ) é denotado por a
f (x) dx.
11
R
O sı́mbolo foi introduzido por Leibniz, sendo uma estilização da letra S, de “soma”.
Em palavras, uma função f é integrável no sentido de Riemann se o processo de “refinamento” de

partições, fazendo-as incluir mais e mais pontos com espaçamentos cada vez menores, conduzir a um
limite único das somas de Riemann. A integral de Riemann de f é então esse limite das somas das
áreas dos retângulos descritos na Figura 20.1, para quando as partições são feitas cada vez mais finas.
• Integrabilidade de Riemann. Critérios alternativos
Pela Proposição 18.6, página 886, a rede X([a, b]) 3 (P, χ) 7→ S[(P, χ), f ] ∈ possui um ponto
limite se e somente se for uma rede de Cauchy12 . Assim, o critério de Integrabilidade de Riemann I
pode ser equivalentemente reformulado da seguinte forma:
Definição. Integrabilidade de Riemann I’. Uma função limitada f : [a, b] → é dita ser integrável

por Riemann no intervalo compacto [a, b] se a rede X([a, b]) 3 (P, χ) 7→ S[(P, χ), f ] ∈ for uma

rede de Cauchy, ou seja, se para todo > 0 existir (P , χ ) tal que S[(P, χ), f ] − S[(P0 , χ0 ), f ] <
para todos P, P0 com P P e P0 P e todos χ, χ0 .
• Funções contı́nuas são integráveis por Riemann
Até o momento não apresentamos exemplos de funções integráveis por Riemann. Vamos agora
fechar parcialmente essa lacuna, exibindo uma classe importante de funções que satisfazem o critério
de integrabilidade de Riemann I’. Uma visão completa de quais funções são integráveis por Riemann é
fornecida pelo critério de Lebesgue, discutido brevemente à página 905.
Proposição 20.1 Toda função real contı́nua definida em um intervalo compacto [a, b] é integrável por
Riemann. 2
Para a demonstração, necessitamos do seguinte lema:

Lema 20.1 Seja f real contı́nua definida em um intervalo compacto [a, b]. Seja P = {x 1 , . . . , xn } ∈
P([a, b]) uma partição de [a, b] com n pontos à qual estão associados n − 1 intervalos fechados
I1 , . . . , In−1 , com Ik = [xk , xk+1 ]. Se P0 é um refinamento de P, então

S[(P, χ), f ] − S[(P0 , χ0 ), f ] ≤ W(f, P) |b − a| (20.2)
para quaisquer χ e χ0 , onde

W(f, P) := max sup |f (x) − f (y)| .
k=1, ..., n−1 x, y∈Ik
Prova. À partição P0 = {x01 , . . . , x0m } ∈ P([a, b]), com m pontos, estão associados m − 1 intervalos
fechados I10 , . . . , Im−1
0
, sendo Ik0 = [x0k , x0k+1 ]. Como P ⊂ P0 , o intervalo I1 é a união de, digamos, l
12
Isso é sempre verdade se f assume valores em um espaço métrico completo.
l
X
intervalos de P0 : I1 = I10 ∪ · · · ∪ Il0 . Assim, |I1 | = |Ia0 | e
a=1
l
X l
X
f (χ1 )|I1 | − f (χ0a )|Ia0 | = f (χ1 ) − f (χ0a ) |Ia0 | ,
a=1 a=1
o que evidentemente implica
X
l
X l
X l
0 0 0 0
f (χ1 )|I1 | − f (χa )|Ia | ≤ f (χ1 ) − f (χa ) |Ia | ≤ sup |f (x) − f (y)| |Ia0 |
x, y∈I1
a=1 a=1 a=1

= sup |f (x) − f (y)| |I1 | ≤ W(f, P) |I1 | .
x, y∈I1
Na segunda desigualdade usamos simplesmente o fato que cada χa pertence a I1 . Como o mesmo
raciocı́nio aplica-se aos demais sub-intervalos de P, segue imediatamente a validade de (20.2).
Prova da Proposição 20.1. Por um teorema bem conhecido, toda função contı́nua f definida em um
intervalo compacto [a, b] é uniformemente contı́nua, ou seja, para todo > 0 existe δ > 0 tal que
|f (y) − f (x)| < sempre que x e y encontrem-se ambos em algum sub-intervalo de [a, b] que tenha
largura menor que δ.
Fixado um > 0, escolhamos uma partição P tal que |P | < δ. Seja P um refinamento de P Todos
os intervalos de P têm largura menor ou igual a δ e isso implica W(f, P ) < . Assim, o Lema 20.1
diz-nos que

S[(P , χ ), f ] − S[(P, χ), f ] ≤ W(f, P ) |b − a| ≤ |b − a| .
Com isso vemos que o critério I’ de integrabilidade de Riemann é satisfeito, que é o que querı́amos
demonstrar.
O seguinte corolário é imediato e sua prova é deixada como exercı́cio.

Corolário 20.1 Toda função real contı́nua por partes13 definida em um intervalo compacto [a, b] é
integrável por Riemann. 2
Esse fato é importante, pois a grande parte, se não a totalidade, das funções encontradas na prática
das ciências naturais e da engenharia é formada por funções contı́nuas ou contı́nuas por partes. No
Exercı́cio E. 20.5, página 905, adiante, exibimos um exemplo de uma função que não é contı́nua por
partes mas é integrável por Riemann.
• Funções com valores em espaços de Banach. Integrabilidade de Riemann
13
Para a definição geral de continuidade por partes, vide página 890.
Até o momento tratamos apenas de caracterizar a noção de integral de Riemann para funções
definidas em conjuntos compactos [a, b] assumindo valores reais. O estudante é convidado a constatar,
no entanto, que as construções acima (incluindo a Proposição 20.1) permanecem inalteradas se as
funções consideradas assumirem valores em espaços de Banach.
Se B é um espaço de Banach e f : [a, b] → B é uma função assumindo valores em B, a soma de
Riemann de f associada ao par (P, χ) é analogamente definida por
n−1
X
S[(P, χ), f ] := f (χk )|Ik | ∈ B. (20.3)
k=1
Temos, assim:
Definição. Integrabilidade de Riemann para espaços de Banach. Seja B um espaço de Banach

com norma k · kB . Uma função limitada f : [a, b] → B é dita ser integrável por Riemann no intervalo
compacto [a, b] se a rede X([a, b]) 3 (P, χ) 7→ S[(P, χ), f ] ∈ B for uma rede de Cauchy, ou seja, se

para todo > 0 existir P tal que S[(P, χ), f ] − S[(P , χ0 ), f ] < para todo P com P P.
B
Tem-se, analogamente, a importante
Proposição 20.2 Toda função contı́nua definida em um intervalo compacto [a, b] e assumindo valores
em um espaço de Banach é integrável por Riemann. 2
A demonstração repete os mesmos passos da demonstração da Proposição 20.1 se substituirmos os

módulos das funções e das somas de Riemann por normas em espaços de Banach.
Alguns desenvolvimentos sobre a integração e diferenciação de funções assumindo valores em espaços
de Banach serão apresentados na Seção 20.2.2, página 909.
• Somas de Darboux
Os critérios de integrabilidade que apresentamos acima são essencialmente aqueles apresentados

por Riemann em 1854. Da maneira como os formulamos, podemos aplicá-los para definir a noção de
integral (de Riemann) mesmo para funções definidas em intervalos compactos [a, b] ⊂ mas que
assumam valores em espaços de Banach. Uma desvantagem dos critérios de integrabilidade acima é
a de fazerem o uso da noção de rede e pontos limite de redes, que talvez não sejam intuitivas para
todos. Felizmente, no caso de funções reais, há uma outra caracterização da noção de integrabilidade
de Riemann, devida a Darboux14 , que é mais transparente e prescinde dessas noções. Trataremos disso
agora.
Dada uma função real limitada f , definida em [a, b] e dada uma partição P ∈ P([a, b]), com
P = {x1 , . . . , xn }, definimos as somas de Darboux (inferior e superior) de f no intervalo [a, b],
associadas à P por
Xn−1 n−1
X
Di [P, f ] := inf f (y) |Ik | e Ds [P, f ] := sup f (y) |Ik | , (20.4)
y∈Ik y∈Ik
k=1 k=1
respectivamente. Vide Figura 20.2.

14
Jean Gaston Darboux (1842-1917). O trabalho de Darboux sobre a integral de Riemann data de 1875.
f(x) f(x)
sup f(y)
yε Ι
6
inf f(y)
y ε Ι6
sup f(y)
inf f(y) y ε Ι1
yε Ι
1
a=x 1 x2 x3 x4 x5 x6 b=x a=x 1 x2 x3 x4 x5 x6 b=x

7 7
Figura 20.2: Representação das somas de Darboux da mesma função e da mesma partição da Fig.
20.1. A soma das áreas dos retângulos à esquerda fornece Di [P, f ] e a soma das áreas dos retângulos
à direita fornece Ds [P, f ].
É evidente pela definição que Di [P, f ] ≤ Ds [P, f ] para qualquer partição P. Fora isso, tem-se
também os fatos compreendidos nos seguintes exercı́cios:
E. 20.2 Exercı́cio. Mostre que para quaisquer partições P e P0 ∈ P([a, b]) com P P0 tem-se
Di [P, f ] ≤ Di [P0 , f ] e Ds [P, f ] ≥ Ds [P0 , f ]. Sugere-se provar isso por indução no número de pon-
tos da partição. 6
E. 20.3 Exercı́cio. Mostre que para quaisquer partições P e P0 ∈ P([a, b]) tem-se Di [P, f ] ≤ Ds [P0 , f ].
6
E. 20.4 Exercı́cio. Mostre que para quaisquer partições P e P0 ∈ P([a, b]) com P P0 tem-se
Ds [P0 , f ] − Di [P0 , f ] ≤ Ds [P, f ] − Di [P, f ]. Sugestão: isso segue dos dois exercı́cios anteriores.
6
O exercı́cio E. 20.2 sugere a seguinte definição. Definimos as integrais de Darboux (inferior e supe-
rior) de f no intervalo [a, b] por
Z b Z b
f (x) dx := sup Di [P, f ] e f (x) dx := inf Ds [P, f ] ,
a P∈P([a, b]) a P∈P([a, b])
respectivamente. O fato estabelecido no exercı́cio E. 20.3 acima que Di [P, f ] ≤ Ds [P0 , f ] para
quaisquer partições P e P0 ∈ P([a, b]) implica (por que?)
Z b Z b
f (x) dx ≤ f (x) dx .
a a
Tudo isso sugere a seguinte definição.
Definição. Integrabilidade de Riemann II. Uma função limitada f é dita ser integrável por Rie-
Rb Rb
mann no intervalo compacto [a, b] se a f (x) dx = a f (x) dx. Nesse caso a integral de Riemann de f
no intervalo [a, b] é definida por

Z b Z b Z b
f (x) dx = f (x) dx = f (x) dx .
a a a
Sobre a relação entre as definições I e II, acima, tem-se o seguinte:

Proposição 20.3 Se uma função real f é integrável no sentido da definição I então também o é no
sentido da definição II, e vice-versa. 2
Por ser bastante técnica e sem relevância especial para o que segue, apresentamos a demonstração
dessa proposição não aqui, mas no Apêndice 20.A, página 946.
• Critério de Lebesgue para integrabilidade de Riemann
Há uma caracterização da integrabilidade de Riemann, devida a Lebesgue, que permite precisar
quais funções são integráveis no sentido de Riemann:
Critério de Lebesgue para integrabilidade de Riemann. Uma função limitada f : [a, b] → é integrável
no sentido de Riemann se e somente se for contı́nua quase em toda parte (em relação à medida de
Lebesgue), ou seja, se a coleção de pontos onde f é descontı́nua tiver medida de Lebesgue nula.
Não apresentaremos a demonstração desse fato aqui (vide [57]). Uma conseqüência desse critério
(que também pode ser obtida por meios mais diretos, como vimos acima) é que toda função limitada
e contı́nua por partes15 é integrável no sentido de Riemann.
É curioso e relevante observar também que não são apenas as funções contı́nuas por partes que são
integráveis no sentido de Riemann. O seguinte exercı́cio ilustra isso.
E. 20.5 Exercı́cio-desafio. Aqui vamos designar números racionais r na forma r = p/q, supondo p e q
primos entre si. Seja a seguinte função:


 1 p
 1 + , se x = for racional
q q
f (x) = .


 1, se x for irracional
Mostre que f é contı́nua em x se x for irracional mas que f é descontı́nua em x se x for racional. Sugestão:
lembre que se x é irracional, então para toda seqüência p n /qn de racionais que aproxima x tem-se que
qn → ∞ para n → ∞.
Como os racionais têm medida de Lebesgue zero, segue pelo critério de Lebesgue que f é integrável de
Rb Rb
Riemann. Prove diretamente da definição que a f (x) dx = a f (x) dx = b − a para todos a < b. Note que
Rb Rb
o fato que a f (x) dx = b − a é evidente, a dificuldade está em provar que a f (x) dx = b − a. 6
• Deficiências da integral de Riemann

15
Lembremos: uma função é dita ser contı́nua por partes se for descontı́nua apenas em um número finito de pontos.
As noções de função integrável no sentido de Riemann e de integral de Riemann que apresentamos

acima são a base de todo o Cálculo elementar e delas se extrai uma série de conseqüências bem
conhecidas e que não repetiremos aqui, tais como a linearidade da integral, o teorema fundamental do
cálculo, métodos de integração (como a integração por partes) etc. Para uma ampla exposição, vide
e.g. [83]-[84]. A integral de Riemann, porém, possui algumas deficiências que ilustraremos abaixo.
Essas deficiências conduziram à procura de uma noção mais forte de integrabilidade, da qual falaremos
posteriormente.
Seja [a, b], a < b, um intervalo compacto e considere-se a seguinte função D : [a, b] → :

 0, se x for racional
D(x) = . (20.5)

1, se x for irracional
Será essa função integrável em [a, b] sentido de Riemann? A resposta é não, pois como facilmente se
constata,
Z b Z b
D(x) dx = 0 mas D(x) dx = b − a,
a a
já que, para qualquer sub-intervalo Ik = [xk , xk+1 ] de qualquer partição de [a, b] teremos
inf D(y) = 0 mas sup D(y) = 1 ,

y∈Ik y∈Ik
pois Ik sempre conterá números racionais e irracionais. Assim, aprendemos que há funções limitadas
que não são integráveis no sentido de Riemann. Esse exemplo, porém, ilustra um outro problema de
conseqüências piores.
Seja o conjunto Q = ∩ [a, b] de todos os racionais do intervalo [a, b]. Como esse conjunto é
contável, podemos representá-lo como Q = {r1 , r2 , r3 , r4 , . . .} = {rk , k ∈ }, onde 3 k → rk ∈ Q

é uma contagem de Q. Seja definida agora a seguinte seqüência de funções:


 0, se x ∈ {r1 , . . . , rn }
Dn (x) = .

1, de outra forma
É fácil ver que para todo x ∈ [a, b] tem-se D(x) = lim Dn (x), onde D está definida em (20.5).
n→∞
Cada função Dn é integrável no sentido de Riemann, pois é contı́nua por R bpartes, sendo descontı́nua
apenas nos pontos do conjunto finito {r1 , . . . , rn }. É muito fácil ver que a Dn (x) dx = b − a e assim,
Z b Z b
lim Dn (x) dx = b−a. Entretanto, trocar a integral pelo limite lim Dn (x) dx não faz sentido,
n→∞ a a n→∞
pois a função D(x) = lim Dn (x) não é integrável no sentido de Riemann.
n→∞
A lição que se aprende disso é que a integração de Riemann não pode ser sempre cambiada com o
limite pontual de funções16 . Esse é um fato desagradável, que impede manipulações onde gostarı́amos
de poder trocar de ordem integrais e limites. O problema reside no fato de o critério de integração
16
A troca de ordem de integrais de Riemann e limites de seqüências de funções é permitida, porém, se o limite for
uniforme.
de Riemann não ser suficientemente flexı́vel de modo a permitir integrar um conjunto suficientemente
grande de funções ou, melhor dizendo, o conjunto das funções integráveis no sentido de Riemann não
é grande o suficiente. Como vimos no critério de Lebesgue, só são integráveis no sentido de Riemann
as funções que são contı́nuas quase em toda parte. Esse conjunto, que exclui funções como D, acaba
sendo pequeno demais para dar liberdade a certas manipulações de interesse.
E. 20.6 Exercı́cio. Por que D não é contı́nua quase em toda parte? Para responder isso, mostre que D
não é contı́nua em nenhum ponto. Sugestão: recorde que todo x irracional pode ser aproximado por uma
seqüência de racionais e que todo x racional pode ser aproximado por uma seqüência de irracionais. Mostre
então que para qualquer x existem seqüências xn com lim xn = x, mas com lim D(xn ) = D(x). 6
n→∞ n→∞
Um outro problema, de outra natureza, diz respeito à propriedade de completeza da coleção das
funções integráveis por Riemann.
Rb Tais conjuntos não formam espaços métricos completos em relação à
métricas como d1 (f, g) = a |f (x) − g(x)|dx. Como a propriedade de completeza é muito importante,
faz-se necessário aumentar o conjunto de funções integráveis para obter essa propriedade. De fato, como
veremos, o conjunto de funções integráveis no sentido de Lebesgue é completo e esse fato é importante
na teoria dos espaços de Hilbert e de Banach.
20.2.1 A Integral de Riemann Imprópria

Z ∞
Vamos aqui tratar de definir a integral de Riemann imprópria f (x) dx de uma função f definida
−∞
em toda a reta real . De maneira intuitiva, essa integral deve ser definida como o limite de integrais
Z
b
f (x) dx tomando a indo a −∞ e b indo a ∞ de diversas formas, sem afetar o resultado.
a
Uma possibilidade provisória seria a seguinte definição. Se f : → é uma função integrável por

Riemann em cada intervalo [a, b], poderı́amos definir a integral de Riemann imprópria de f por
Z ∞ Z A
f (x) dx := lim f (x) dx , (20.6)
−∞ A→∞ −A
caso o limite exista. A definição provisória (20.6) apresenta, porém, um problema que requer alguns
Z A
comentários. Em certos casos, pode ocorrer que o limite lim f (x) dx exista, mas não, por exemplo,
A→∞ −A
Z A2 Z A
o limite lim f (x) dx, ou outros. Tal é o caso da função f (x) = x. Tem-se aqui que lim x dx =
A→∞ −A A→∞ −A
Z A2
0 mas lim x dx diverge.
A→∞ −A
Por causa disso é insatisfatório tomar (20.6) como definição das integrais de Riemann impróprias.
É prudente elaborar uma definição mais conservadora e que leve em conta o que pode acontecer em
todos as integrais em intervalos [a, b] quando a → −∞ e b → ∞, independentemente. Isso é feito da
seguinte forma.
Denotemos por C a coleção de todos os intervalos finitos [a, b] ⊂ . Notando que os intervalos

[a, b] podem ser ordenados por inclusão, percebemos facilmente que C é um conjunto dirigido (vide
definição à página 31).

Seja f : → uma função fixa, integrável por Riemann em cada intervalo [a, b]. A aplicação
C → dada por
Z b
F[a, b] := f (x) dx (20.7)
a
forma uma rede. O conceito de limite em relação a uma rede é bem definido (a noção de rede, limites
de redes e suas propriedades foram estudadas na Seção 18.4, página 884). Isso nos permite estabelecer
a definição precisa de integral de Riemann imprópria.
Dizemos, que uma função f : → , integrável por Riemann em cada intervalo [a, b], possui uma

integral de Riemann imprópria se a rede F[a, b] , [a, b] ∈ C possuir um ponto limite (o qual será único,
pois é um espaço Hausdorff na topologia usual. Vide Proposição 18.5, página 885).

Assim, f possui uma integral de Riemann imprópria se

Z b
lim F[a, b] = lim f (x) dx
[a, b]∈C [a, b]∈C a
existir, o limite acima sendo o da rede, com os intervalos ordenados por inclusão. Se f tiver essa
propriedade, definimos a integral de Riemann imprópria de f por
Z ∞ Z b
f (x) dx := lim F[a, b] = lim f (x) dx .
−∞ [a, b]∈C [a, b]∈C a
Para tornar essa definição um pouco mais palpável, vamos reformulá-la um pouco lembrando a
definição de ponto limite de uma rede da Seção 18.4, página 884. Dizemos que F ∈ é um ponto limite
da rede F[a, b] , [a, b] ∈ C, se para todo > 0 existir um intervalo [A, B] tal que F[a, b] ∈ (F − , F + )
para todo [a, b] ⊃ [A, B].
Assim, f : → , integrável por Riemann em cada intervalo finito, é dita ter uma integral de

Riemann imprópria F ∈ se para todo > 0 existir um intervalo [A, B] ∈ C tal que

Z b

f (x) dx − F <

a
R∞
para todo [a, b] ⊃ [A, B], [a, b] ∈ C. O número F é denotado por f (x)dx. −∞
Z ∞ Z a
De maneira análoga definem-se as integrais de Riemann impróprias f (x) dx e f (x) dx, para
a −∞
Z A Z a
a ∈ , finito, como os limites lim
f (x) dx e lim f (x) dx, respectivamente, caso existam.
A→∞ a A→∞ −A
Notemos en passant, que na definição da integral de Riemann em intervalos finitos [a, b], que
apresentamos na Seção 20.2, página 898, faz-se
R ∞necessário supor que a função f seja limitada. Para
a definição da integral de Riemann imprópria −∞ f (x) dx isso não é necessário, e f pode divergir em

3
±∞, desde que o limite da integral exista! Um exemplo é a função f (x) = x2 sen ex , que não é
3
limitada para x → +∞. Como facilmente se vê com a mudança de variáveis u = ex ,
Z ∞ 3 Z
2 x 1 ∞ sen (u) π
x sen e dx = du = .
−∞ 3 0 u 6
A última igualdade pode ser obtida pelo método

R∞ dos resı́duos. Um outro exemplo do mesmo tipo é a
função x cos(x4 ), que não é limitada mas a x cos(x4 )dx < ∞ para qualquer a finito.
No sentido da definição acima, a função f (x) = x não possui uma integral de Riemann imprópria
Z A2
bem definida pois, como observamos, limites como lim x dx divergem. Para funções que possuem
A→∞ −A
uma integral de Riemann imprópria bem definida vale, obviamente, a expressão (20.6) e para elas vale
também Z ∞ Z A Z A2
f (x) dx = lim f (x) dx = lim f (x) dx etc.
−∞ A→∞ −A A→∞ −A
Rb
ou seja, o limite de a f (x) dx pode ser tomado com a indo a −∞ e b indo a ∞ de diversas formas,
sem afetar o resultado.
Para iniciarmos a discussão precisamos de definições adequadas das noções de derivação e integração
(de Riemann) de funções entre espaços de Banach.
20.2.2 Diferenciação e Integração em Espaços de Banach

Vamos na presente seção (cuja leitura é dispensável para o desenvolvimento da teoria de integração de
Lebesgue que se lhe segue) aprofundar um pouco mais a teoria da integração de funções com valores
em espaços de Banach no sentido de reproduzir, nesse contexto geral, alguns dos resultados básicos do
Cálculo Diferencial e Integral17 .
A noção de integral de Riemann para funções de uma variável real com valores em um espaço de
Banach foi apresentada na Seção 20.2, em especial à página 902. Nosso principal propósito agora é
demonstrar o Teorema do Valor Médio e obter outros resultados preparatórios para a demonstração
do Teorema da Função Implı́cita, tratado na Seção 14.4, página 805. O primeiro passo é apresentar a
noção geral de diferenciação de funções entre espaços de Banach.
• Aplicações diferenciáveis em espaços de Banach. A derivada de Fréchet
Sejam M e N dois espaços de Banach. Seja M um aberto em M e g : M → N uma aplicação (não-

necessariamente linear). Dizemos que g é diferenciável em um ponto x ∈ M se existir uma aplicação
linear limitada Gx : M → N tal que

g(x + y) − g(x) − Gx y g(x + y) − g(x) − Gx y
N
lim = 0, ou seja, lim = 0.
y→0 kykM y→0 kykM
Se g é diferenciável em x, ou seja, se um tal Gx existir, então é unicamente definido. De fato,

suponhamos que exista H : M → N linear e limitado tal que

g(x + y) − g(x) − Hy
N
lim = 0.
y→0 kykM
17
Seguiremos proximamente a exposição de [58].
y
Seja v ∈ M com kvkM = 1 e seja y ∈ M tal que lim = v. Então,
y→0 kykM
k(H − Gx )ykN
k(H − Gx )vkN = lim
y→0 kykM

[g(x + y) − g(x) − Gx y − [g(x + y) − g(x) − Hy
N
= lim
y→0 kykM

[g(x + y) − g(x) − Gx y [g(x + y) − g(x) − Hy
N N
≤ lim + lim
y→0 kykM y→0 kykM
= 0.
Logo, H − Gx anula-se em todo vetor norma 1 e, portanto, anula-se em todo M.

O estudante pode facilmente convencer-se que a definição acima corresponde à noção bem-conhecida
de diferenciabilidade de funções de n → m . O operador linear limitado Gx pode ser interpretado

como a “melhor aproximação linear” à função g na vizinhança de x.

Se g é diferenciável em todo ponto x do aberto M e se a aplicação M 3 x 7→ Gx ∈ B(M, N) for
contı́nua em norma, dizemos que g é uma aplicação de classe C 1 .
Para manter uma familiaridade notacional, denotaremos os operadores lineares limitados G x defi-
nidos acima por (Dg)(x) ou mesmo por g 0 (x). O operador linear limitado (Dg)(x) representa, assim,
a derivada de g no ponto x, também denominada derivada de Fréchet18 de g em x.
E. 20.7 Exercı́cio. Mostre que se g é diferenciável no ponto x de acordo com a definição acima então
é também contı́nua em x. 6
• Diferenciação e integração de funções de uma variável real
De particular interesse é o caso em que M = e M = (a, b) ⊂ , um intervalo aberto finito da

reta real. Aqui, tem-se o seguinte:
Proposição 20.4 Seja N um espaço de Banach e seja g : [a, b] → N uma função contı́nua. Seja
G : [a, b] → N definida por Z x
G(x) := g(t)dt , x ∈ [a, b] . (20.8)
a
Então G é diferenciável em todo intervalo (a, b) e (DG)(x) ≡ G0 (x) = g(x). 2
Prova. Pela definição da integral de Riemann é evidente que

Z t2 Z t3 Z t3
g(t) dt + g(t) dt = g(t) dt (20.9)
t1 t2 t1
18
Maurice René Fréchet (1878-1973).
para todos t1 , t2 , t3 ∈ [a, b]. É também fácil ver que

Z b Z b

g(t) dt
≤ kg(t)kN dt (20.10)
a N a
n−1
X
pois para as somas de Riemann (20.3) tem-se kS[(P, χ), g]kN ≤ kg(χk )kN |Ik | , o que implica
k=1
(20.10), tomando-se os limites. De (20.10) obtem-se trivialmente a estimativa
Z b

g(t) dt ≤ |b − a| max kg(t)k (20.11)
t∈[a, b]
N
a N
que usaremos logo abaixo. Seja G definida em (20.8). Tem-se por (20.9) que G(x + y) − G(x) =
Z x+y
g(t)dt para todo x, y ∈ (a, b) com x + y ∈ (a, b). Logo,
x
Z x+y
G(x + y) − G(x) − g(x)y = g(t) − g(x) dt .
x
Assim, por (20.11),

G(x + y) − G(x) − g(x)y ≤ |y| max kg(t) − g(x)kN ,
N t∈[x, x+y]
donde segue que

G(x + y) − G(x) − g(x)y continuidade
N
lim ≤ lim max kg(t) − g(x)kN = 0.
y→0 |y| y→0 t∈[x, x+y]
Isso provou que G é diferenciável em todo x ∈ (a, b) com (DG)(x) ≡ G0 (x) = g(x).
Na demonstração do Teorema do Valor Médio faremos uso do lema a seguir (cujo enunciado e
demonstração foram extraı́dos de [58]). O estudante deve cuidadosamente observar que, ao contrário
do que uma primeira impressão pode sugerir, esse lema não é conseqüência da Proposição 20.4.
Lema 20.2 Seja N um espaço de Banach e f : [a, b] → N contı́nua e diferenciável em todo (a, b) mas
de modo que f 0 (x) = 0 para todo x ∈ (a, b). Então f é constante. 2
Prova.19 Sejam s e t ∈ (a, b), arbitrários, com s < t. Desejamos mostrar que f (s) = f (t). Como s e t
são arbitrários e f é contı́nua, isso implica que f é constante em todo intervalo fechado [a, b]. Vamos
definir uma seqüência de intervalos (sn , tn ) ∈ (s, t), n ∈ , satisfazendo

(sn , tn ) ⊂ (sn−1 , tn−1 ) e |tn − sn | = 2−n |t − s|

19
De [58].
dados da seguinte forma: (s0 , t0 ) = (s, t) e para n ≥ 1,

 sn−1 +tn−1

 s , , caso f (sn−1 ) − f sn−1 +tn−1 ≥ f sn−1 +tn−1 − f (tn−1 ) ,


n−1 2 2 2
(sn , tn ) :=


 sn−1 +tn−1
2
, tn−1 , caso f sn−1 +t 2
n−1
− f (tn−1 ) ≥ f (sn−1 ) − f sn−1 +t
2
n−1
.
Em palavras, quebramos a cada passo o intervalo (sn−1 , tn−1 ) ao meio e escolhemos (sn , tn ) como
sendo a metade na qual a variação de f em norma foi maior. É claro por essa escolha que

s + t s + t
kf (sn−1 ) − f (tn−1 )k ≤ + f
n−1 n−1 n−1 n−1
f (s n−1 ) − f − f (t n−1 )
2 2
≤ 2 kf (sn ) − f (tn )k
e, portanto, tem-se para todo n ∈ ,
kf (s) − f (t)k ≤ 2n kf (sn ) − f (tn )k . (20.12)
Pela construção, sn é uma seqüência não-decrescente e limitada superiormente por t, enquanto que t n
é uma seqüência não-crescente e limitada inferiormente por s. Assim, ambas convergem a pontos no
intervalo [s, t]. Como, porém, |tn − sn | = 2−n |t − s|, segue que ambas as seqüências sn e tn convergem
e a um mesmo ponto ξ ∈ [s, t]. Fora isso, é também claro que ξ ∈ [sn , tn ] para todo n.
Pela hipótese, vale f 0 (ξ) = 0. Pela definição de f 0 , isso significa que para todo > 0 existe δ > 0 tal
que kf (x) − f (ξ)k/|x − ξ| < sempre que |x − ξ| ≤ δ. Como sn e tn convergem a ξ, podemos escolher
n grande o suficiente de modo que |sn − ξ| ≤ δ e |tn − ξ| ≤ δ. Teremos, assim, para tais n’s,

kf (sn ) − f (tn )k ≤ kf (sn ) − f (ξ)k + kf (ξ) − f (tn )k ≤ |sn − ξ| + |ξ − tn | .
Como ξ ∈ [sn , tn ] para todo n, segue que |sn − ξ| + |ξ − tn | = |tn − sn | = 2−n |t − s|. Logo, obtivemos
kf (sn ) − f (tn )k ≤ 2−n |t − s| .
Voltando a (20.12) isso implica kf (s) − f (t)k ≤ 2n kf (sn ) − f (tn )k ≤ |t − s|. Como > 0 é arbitrário,
segue disso que kf (s) − f (t)k = 0, completando a prova.
Com esse lema e com a Proposição 20.4 a prova do Teorema do Valor Médio torna-se elementar.
• O Teorema do Valor Médio
Teorema 20.1 (Teorema do Valor Médio) Sejam M e N espaços de Banach e M ⊂ M um con-

junto aberto e conexo de M. Seja g : M → N contı́nua e diferenciável. Então, para todos x, y ∈ M
vale Z
1
g(x) − g(y) = g 0 (τ x + (1 − τ )y) dτ (x − y)
0
assim como a estimativa
kg(x) − g(y)kN ≤ Kx, y kx − ykM ,
0
onde Kx, y := max kg (tx + (1 − t)y)k. 2
t∈[0, 1]
Prova. Para x, y ∈ M fixos, seja h : [0, 1] → N definida por h(t) := g(tx + (1 − t)y). Pela regra da
cadeia, h0 (t) = g 0 (tx + (1 − t)y)(x − y). Defina-se também
Z t
H(t) := g 0 (τ x + (1 − τ )y)(x − y) dτ , t ∈ [0, 1] .
0
Pela Proposição 20.4, H é diferenciável e H 0 (t) = g 0 (tx + (1 − t)y)(x − y). Assim, H 0 (t) = h0 (t), o
que implica, pelo Lema 20.2, que a diferença H(t) − h(t) é constante para todo t ∈ [0, 1]. Como
H(0) = 0, segue que H(t) − h(t) = −h(0) = −g(y) para todo t ∈ [0, 1]. Para t = 1 essa igualdade fica
H(1) − h(1) = −g(y) e como h(1) = g(x) concluı́mos que
Z 1
g(x) − g(y) = g 0 (τ x + (1 − τ )y)(x − y) dτ .
0
Usando (20.11), segue disso que

0 0
kg(x) − g(y)kN ≤ max kg (tx + (1 − t)y)(x − y)kN ≤ max kg (tx + (1 − t)y)k k(x − y)kM ,
t∈[0, 1] t∈[0, 1]
o que completa a demonstração.
• Derivadas parciais
Sejam X e Y dois espaços normados com normas k · kX e k · kY , respectivamente. Podemos fazer

do produto cartesiano X × Y = {(x, y), x ∈ X, y ∈ Y} um espaço vetorial normado declarando as
operações de soma e produto por escalares por α1 (x1 , y1 ) + α2 (x2 , y2 ) := (α1 x1 + α2 x2 , α1 y1 + α2 y2 )
e definindo a norma k(x, y)kX×Y := kxkX + kykY . Mais que isso, se X e Y forem espaços de Banach
em relação às suas respectivas normas, é fácil constatar que X × Y também o é em relação a norma
k(x, y)kX×Y .
E. 20.8 Exercı́cio. Prove que k · kX×Y é de fato uma norma e que X × Y é um espaço de Banach em
relação à mesma se X e Y o forem em relação às suas respectivas normas. 6
Para distinguirmos a estrutura de espaço

vetorial de X × Y definida acima, denotaremos os vetores
x
(x, y) ∈ X × Y como vetores-coluna: y .
Definamos as projeções ΠX : X × Y → X e ΠY : X × Y → Y por

x x
ΠX := x , ΠY := y ,
y y
respectivamente, e definamos ΛX : X → X × Y e ΛY : Y → X × Y por

x 0
ΛX x := , ΛY y := ,
0 y
respectivamente. É um exercı́cio elementar (mas importante) mostrar que ΠX , ΠY , ΛX e ΛY são lineares
e contı́nuas se dotarmos X, Y e X × Y das topologias das normas k · kX , k · kY e k · kX×Y , respectivamente.
É igualmente elementar constatar que
Π X ΛX = X , Π Y ΛY = Y e Λ X ΠX + Λ Y ΠY = X×Y . (20.13)
Seja Z um terceiro espaço de Banach com norma k · kZ . Para A ⊂ X e B ⊂ B dois abertos convexos,
seja F : A × B → Z uma função contı́nua e diferenciável, sendo F 0 : A × B → Z sua derivada. Para
cada (x, y) ∈ A × B a expressão F 0 (x, y) define um operador linear e contı́nuo X × Y → Z.
Para y fixo em B podemos considerar também a função A 3 x 7→ F (x, y), assim como para
x fixo em A podemos considerar a função B 3 y 7→ F (x, y). Se essas funções forem diferenciáveis
denotaremos suas derivadas por D1 F e D2 F , respectivamente. Note-se que D1 F é uma aplicação linear
X → Z e D2 F é uma aplicação linear Y → Z.
Vamos mostrar que se F 0 existe então essas duas funções são também diferenciáveis e vamos esta-
belecer relações entre D1 F , D2 F e F 0 . De fato, da existência de F 0 sabemos que

0 a kR(a, b)kZ
F (x + a, y + b) − F (x, y) = F (x, y) + R(a, b) , com lim = 0.
b (a, b)→0 k(a, b)kX×Y
para todos (a, b) ∈ X × Y. Em particular, para b = 0 teremos

0 a kR(a, 0)kZ
F (x + a, y) − F (x, y) = F (x, y) + R(a, 0) , com lim = 0,
b a→0 k(a, 0)kX×Y
ou seja, escrevendo R(a, 0) ≡ R(a) e lembrando que k(a, 0)kX×Y = kakX , tem-se
kR(a)kZ
0
F (x + a, y) − F (x, y) = F (x, y) ΛX a + R(a) , com lim = 0,
a→0 kakX
o que nos permite concluir que

D1 F (x, y) = F 0 (x, y)ΛX .
Analogamente, podemos concluir que
D2 F (x, y) = F 0 (x, y)ΛY .
Dessas expressões extrai-se facilmente a continuidade de D1 F (x, y) e D2 F (x, y) como funções de

(x, y) ∈ A × B. Da última das relações em (20.13) obtemos
F 0 (x, y) = D1 F (x, y) ΠX + D2 F (x, y) ΠY . (20.14)
As últimas três expressões valem para todo (x, y) ∈ A × B.

D1 F e D2 F definem as derivadas parciais de F em relação a seu primeiro e segundo argumentos,
respectivamente.
20.3 A Integração no Sentido de Lebesgue

A presente seção é dedicada à teoria da integração de funções definidas em espaços mensuráveis. A
noção de integração da qual trataremos foi introduzida por Lebesgue entre 1901 e 1902 20 e redescoberta
20
O trabalho de Lebesgue sobre a teoria da integração, intitulado “Intégrale, longueur, aire” foi apresentado como
dissertação à Universidade de Nancy em 1902.
independentemente por Young21 dois anos mais tarde. A teoria de integração introduzida por Lebes-
gue representa uma importante extensão da teoria de integração de Riemann e desde cedo encontrou
aplicações em diversas áreas da Matemática (como, para ficar em um único exemplo, na teoria das
séries de Fourier), com reflexos também na Fı́sica.
A teoria da integração de Lebesgue faz amplo uso de noções da teoria da medida e necessita, em
particular, da noção de função mensurável, que iremos discutir antes de passarmos à definição geral da
integral de Lebesgue propriamente dita.
20.3.1 Funções Mensuráveis e Funções Simples

Comecemos com uma definição que será amplamente empregada no que segue, a de função caracterı́stica
de um conjunto.
• A função caracterı́stica de um conjunto
Seja M é um conjunto não-vazio e A ⊂ M . A função χA : M → definida por

1, se x ∈ A
χA (x) :=
0, se x 6∈ A
é denominada função caracterı́stica do conjunto A, ou função indicatriz do conjunto A.
E. 20.9 Exercı́cio. Seja M um conjunto não-vazio e A, B ⊂ M . Mostre que
χA (x)χB (x) = χA∩B (x) , ∀x ∈ M . (20.15)
• Funções mensuráveis. Definição e comentários
Apresentemos uma importante definição, a de função mensurável. Sejam (M, M) e (N, N) dois
espaços mensuráveis, sendo M e N dois conjuntos não-vazios e M ⊂ (M ) e N ⊂ (N ) σ-álgebras em
M e N , respectivamente.
Uma função f : M → N dita ser uma função mensurável em relação às σ-álgebras M e N, ou
[M, N]-mensurável, se f −1 (A) ∈ M para todo A ∈ N, ou seja, se a pré-imagem de todo conjunto
mensurável segundo N for um conjunto mensurável segundo M.
O estudante deve comparar essa definição com a definição de função contı́nua DC 1, página 888.
Devido ao seu seu papel preponderante na teoria da integração (de Lebesgue), vamos primeiro estudar
algumas das propriedades básicas das funções mensuráveis, especialmente das funções numéricas, ou
seja, aquelas cuja imagem está em ou em .
A primeira propriedade elementar é bastante geral: se (M1 , M1 ), (M2 , M2 ) e (M3 , M3 ) são três
espaços mensuráveis e se f : M1 → M2 e g : M2 → M3 são duas funções mensuráveis (f sendo
21
William Henry Young (1863-1942).
[M1 , M2 ]-mensurável e g sendo [M2 , M3 ]-mensurável) então g ◦ f : M1 → M3 é mensurável em relação

a M1 e M3 (ou seja, [M1 , M3 ]-mensurável). A prova é imediata pela definição.
Dado um espaço mensurável (M, M) estaremos, como dissemos, primordialmente interessados em
funções f : M → . Qual σ-álgebra adotar em ? As duas possibilidades mais importantes são a

σ-álgebra de Lebesgue22 MµL , dos conjuntos mensuráveis pela medida de Lebesgue µL , e a σ-álgebra
de Borel23 M[τ ] que, por definição, é a menor σ-álgebra que contem a topologia usual da reta τ . A

σ-álgebra de Borel foi estudada no Capı́tulo 15 (vide especialmente a página 822). Vimos na Seção
17.1.1, página 855, que M[τ ] ⊂ MµL .
Para a grande maioria dos propósitos da teoria da integração é suficiente considerar em a σ-
álgebra de Borel M[τ ]. Assim, dado um espaço mensurável (M, M) estaremos interessados em

funções f : M → , dotando da σ-álgebra de Borel M[τ ].

Os conjuntos que compõe M[τ ] são denominados conjuntos Borelianos. Que conjuntos são estes?

Recordando o que aprendemos nos capı́tulos supra-citados, todos os conjuntos abertos ou fechados de
(na topologia usual τ ) são Borelianos. São também Borelianos intervalos semi-abertos como [a, b)

ou (a, b], assim como uniões contáveis dos mesmos e seus complementos.
Há em , além dos intervalos semi-abertos, outros conjuntos S
Borelianos que não são nem abertos
nem fechados. O conjunto dos racionais, , é Boreliano, pois = r∈ {r}, uma união contável de con-
juntos Borelianos {r} (que contem apenas um ponto e são Borelianos por serem fechados). O conjunto
dos irracionais é Boreliano por ser o complemento de , que é Boreliano. Analogamente o conjunto
dos números reais algébricos é Boreliano, assim como o conjunto dos números reais transcendentes.
Generalizando o raciocı́nio, todo conjunto finito ou contável de é Boreliano e seu complemento
também.
Se f : M → é mensurável em relação às σ-álgebras M e M[τ ], f dita ser uma função Boreliana.

Se f : M → é mensurável em relação às σ-álgebras M e MµL , f dita ser mensurável de Lebesgue.

Como M[τ ] ⊂ MµL , toda função mensurável de Lebesgue é Boreliana. Que funções são Borelianas?

É difı́cil dar uma descrição geral, mas no caso importante de funções f : → onde adotamos M[τ ]

como a σ-álgebra tanto do domı́nio quando da imagem, é relativamente fácil provar que toda função
contı́nua é Boreliana. A prova é apresentada no Apêndice 20.B, página 947, quando tratarmos de
funções mensuráveis entre espaços topológicos.
São também Borelianas as funções contı́nuas por partes, ou seja, aquelas que possuem um número
finito de descontinuidades. Há ainda outras funções que são Borelianas mas que não são nem contı́nuas
nem contı́nuas por parte. Exemplos são as funções de (20.1).
Um exemplo de uma função não-mensurável, mais especificamente, de uma função f : →
que não é Boreliana, é a função caracterı́stica de um conjunto não-mensurável (ou não Boreliano),
como a função caracterı́stica χV (x) do conjunto de Vitali V que introduzimos no Capı́tulo 16 (vide
especialmente a página 837). Funções não-mensuráveis são praticamente desconsideradas na teoria da
integração.
22
23
No Apêndice 20.B, página 947, estuda-se com mais profundidade a noção de função mensurável.
Para os nossos propósitos, o principal resultado que lá obtemos é o seguinte:
Proposição 20.5 Se (M, M) é um espaço de medida, então o conjunto de todas as funções f : M →
que sejam [M, M[τ ]]-mensuráveis forma uma álgebra real. Mais precisamente, se f : M →

e
g : M → são ambas [M, M[τ ]]-mensuráveis, então

1. Para todos α, β ∈ vale que αf + βg é [M, M[τ ]]-mensurável.
2. O produto f · g é [M, M[τ ]]-mensurável.

• Funções mensuráveis complexas
Uma função f : M → é [M, M[τ ]]-mensurável se e somente se suas partes real e imaginária

forem [M, M[τ ]]-mensuráveis. Isso é demonstrado nas Proposições 20.14 e 20.15, das páginas 952 e

seguintes.
Usando a Proposição 20.5 é fácil ver que o conjunto de todas as funções complexas mensuráveis é
também uma álgebra complexa. Vide Proposição 20.16, página 953.
• Funções definidas por sup’s e inf’s
Se {fn } é uma seqüência de funções definidas em M assumindo valores em , então as funções

sup fn , inf fn , lim sup fn e lim inf fn são definidas para cada x ∈ M por
n n n n

sup fn (x) := sup (fn (x)) ,
n n

inf fn (x) := inf (fn (x)) ,
n n

lim sup fn (x) := lim sup (fn (x)) ,
n n

lim inf fn (x) := lim inf (fn (x)) .
n n
Se (M, M) for um espaço de medida e as funções fn forem todas [M, M[τ ]]-mensuráveis, então
todas as funções definidas acima são também [M, M[τ ]]-mensuráveis.
Por exemplo, para provar que a função f := sup fn é mensurável, notamos que para qualquer a ∈
∞
[
−1
f ((a, ∞)) = fn−1 ((a, ∞)).
n=1
E. 20.11 Exercı́cio. Certo? Sugestão: Seção 1.1.4, página 42. 6

Pela Proposição 20.10, página 949, cada conjunto fn−1 ((a, ∞)) pertence a M, portanto, a união
acima também, pois é uma união contável. Logo, f −1 ((a, ∞)) ∈ M para todo a ∈ e, novamente
pela Proposição 20.10, isso implica que f é [M, M[τ ]]-mensurável.
Analogamente, prova-se que f := inf fn é [M, M[τ ]]-mensurável, pois nesse caso

∞
[
−1
f ((−∞, a)) = fn−1 ((−∞, a)).
n=1
Para o caso de f = lim sup fn , notamos que lim sup fn = inf sup fn . Pelo argumentado acima, cada
n n m≥1 n≥m
sup fn é [M, M[τ ]]-mensurável e assim o é seu ı́nfimo para todo m. Finalmente, o caso da função

n≥m
lim inf fn é análogo.
n
• Partes positiva e negativa de uma função
Para f : M → , definimos
 
 f (x), se f (x) ≥ 0,  −f (x), se f (x) ≤ 0,
f + (x) := e f − (x) := .
 
0, se f (x) < 0, 0, se f (x) > 0,
f + é denominada parte positiva de f e f − é denominada parte negativa de f . É claro que f + (x) ≥ 0 e

que f − (x) ≥ 0 para todo x. É fácil ver que
f (x) + |f (x)| −f (x) + |f (x)|

f + (x) = e f − (x) =
2 2
e, conseqüentemente,
f = f+ − f− e |f | = f + + f − .
É igualmente fácil ver que
f + (x) = f (x)χF + (x) e f − (x) = −f (x)χF − (x) (20.16)
sendo que
F + = {x ∈ M | f (x) ≥ 0} e F − = {x ∈ M | f (x) ≤ 0} .
Se f é mensurável, F + e F − são conjuntos mensuráveis, por serem as pré-imagens por f dos Borelianos
[0, ∞) e (−∞, 0], respectivamente. Assim, as funções caracterı́sticas χF ± são mensuráveis. Como o
produto de duas funções mensuráveis é mensurável (Proposição 20.5), concluı́mos de (20.16) que f + e
f − são funções mensuráveis. Daı́, como |f | = f + + f − , segue também que |f | é mensurável, pois é a
soma de duas funções mensuráveis (novamente, Proposição 20.5).
• A representação normal
Se M é um conjunto não-vazio, dizemos que uma função real ou complexa f : M → , ou f :
M → possui uma representação normal se para algum m ∈ existirem números α1 , . . . , αm ,

não necessariamente distintos, e conjuntos B1 , . . . , Bm tais que Bi ∩ Bj = ∅ para i 6= j, que M =

B1 ∪ · · · ∪ Bm e que
X m
f (x) = αk χBk (x) (20.17)
k=1
A soma do lado direito de (20.17) é dita ser uma representação normal de f . Note que nem toda
função f possui uma representação normal. Além disso, se f possui uma representação normal esta
não é necessariamente única: podemos dividir alguns dos conjuntos Bk em sub-conjuntos disjuntos
menores e obter uma nova representação normal. Ou podemos tomar a união de conjuntos B k com
valores iguais de αk e obter uma nova representação normal.
É importante notar que se f admite uma representação normal, então f assume um número finito
de valores (certo?). Veremos que essa é uma condição necessária e suficiente para que uma função f
possua uma representação normal.
• Funções simples
Se M é um conjunto não-vazio, uma função s : M → , ou s : M → , é dita ser elementar ou

simples se assumir apenas um número finito de valores, ou seja, se sua imagem for =(s) = {s 1 , . . . , sn },
para algum n ∈ , com si 6= sj para i 6= j, sendo que cada sk é um elemento de ou de , conforme

o caso. Se s é simples e =(s) = {s1 , . . . , sn }, defina-se os conjuntos Ak ⊂ M por Ak = s−1 (sk ), ou

seja, Ak é a pré-imagem de sk por s:
Ak = {x ∈ M | s(x) = sk }.
É bastante evidente que Ai ∩ Aj = ∅ para i 6= j, que M = A1 ∪ · · · ∪ An e que
n
X
s(x) = sk χAk (x) . (20.18)
k=1
Vemos com isso que toda função simples possui pelo menos uma representação normal.
Uma representação normal como a de (20.18), na qual as constantes sk são todas distintas, é dita
ser uma representação normal curta da função simples s. O leitor poderá facilmente convencer-se que
a representação normal curta de uma função simples é única.
Um ponto importante é a seguinte observação: uma função simples é mensurável (em relação a
uma σ-álgebra M definida em M ) se e somente se cada Ak acima for um conjunto mensurável (ou seja
Ak ⊂ M). A prova é evidente e dispensável.
• A álgebra das funções simples
As funções simples formam uma álgebra. As funções simples e mensuráveis também formam uma
álgebra. A prova dessas afirmações é bem simples e deixada ao leitor. O próximo exercı́cio é mais
detalhado quanto às propriedades algébricas das funções simples.
E. 20.12 Exercı́cio (fácil). Se s e r são funções simples definidas em M com representações normais
n
X m
X
s(x) = sk χAk (x) e r(x) = rl χBl (x)
k=1 l=1
mostre que
n X
X m
r(x)s(x) = sk rl χAk ∩Bl (x) .
k=1 l=1
Isso segue facilmente da identidade χA χB = χA∩B . Para qualquer número α tem-se, obviamente,
n
X
αs(x) = αsk χAk (x) .
k=1
Por fim, mostre que

n X
X m
r(x) + s(x) = (sk + rl ) χAk ∩Bl (x) . (20.19)
k=1 l=1
Para provar isso, você deverá usar os fatos que A1 ∪ · · · ∪ An = M e que B1 ∪ · · · ∪ Bm = M , sendo ambas
uniões de conjuntos disjuntos, para mostrar que
n
X m
X
1 = χAk (x) e 1 = χBl (x) .
k=1 l=1
Disso, segue facilmente, usando a identidade χA χB = χA∩B , que

m
X n
X
χAk (x) = χAk ∩Bl (x) e χBl (x) = χBl ∩Al (x) ,
l=1 k=1
e disso, segue facilmente (20.19). 6
• Funções mensuráveis e funções simples
Toda função real não-negativa, mensurável por Lebesgue ou Boreliana, pode ser aproximada por
funções simples. Mais precisamente temos o seguinte lema (de [56]) que, embora um tanto técnico,
revela uma relação subjacente entre funções mensuráveis em geral e funções simples mensuráveis.
Lema 20.3 Se M é um espaço de medida com uma σ-álgebra M, toda função f : M → não-negativa
e Boreliana (ou mensurável por Lebesgue) é o limite de uma seqüência monótona não-decrescente de
funções simples mensuráveis e não-negativas. Se f for também limitada, a convergência é até mesmo
uniforme. 2
A prova encontra-se no Apêndice 20.C, página 953. O Lema 20.3 tem o seguinte
Corolário 20.2 Se M é um espaço de medida com uma σ-álgebra M, toda função f : M → que
seja Boreliana é o limite de uma seqüência de funções simples mensuráveis. 2
Prova. A diferença com relação ao Lema 20.3 é que f não é necessariamente não-negativa. Pelo que
observamos, porém, f = f + − f − , sendo ambas f ± não-negativas e Borelianas. A elas, portanto,
aplica-se o Lema 20.3, o que encerra a prova.
20.3.2 A Integral de Lebesgue. Integração em Espaços Mensuráveis

Passamos agora à empreitada de definir o conceito de integral de Lebesgue em espaços mensuráveis.
O processo segue várias etapas sucessivas, iniciando com a definição de integral de funções simples
mensuráveis, que serão usadas para definir a integral de funções positivas mensuráveis e assim por
diante.
• Integração de funções simples
Seja agora M um espaço mensurável com uma σ-álgebra M, na qual está definida uma medida µ.
Se s é uma função simples e não-negativa
Pn (ou seja, se s(x) ≥ 0 para todo x), M-mensurável e com
representação normal curta s(x) = k=1 sk χAk (x), a integral de s em M com respeito à medida µ é
definida por
Z Z Xn
s dµ ≡ s(x) dµ(x) := sk µ(Ak ) . (20.20)
M M k=1
sk 6=0
Observações.
1. Note-se que na soma à direita na expressão (20.20) exclui-se os valores de k para os quais s k = 0.
Para tais valores de k pode eventualmente valer µ(Ak ) = ∞. Se convencionarmos que 0 × ∞ = 0,
podemos reescrever a definição acima de forma mais simplificada como
Z Z n
X
s dµ ≡ s(x) dµ(x) := sk µ(Ak ) .
M M k=1
Para simplificar a notação, essa convenção 0 × ∞ = 0 é adotada por muitos autores e nos
juntaremos a eles nestas Notas. Observemos também que a soma do lado esquerdo pode valer
∞, caso µ(Ak ) = ∞ para algum k com sk > 0.
2. Na definição (20.20) usamos a representação normal curta da função s, mas isso não é necessário
pois qualquer representação normal de s pode ser usada com idêntico resultado. De fato, sejam
p q
X X
s(x) = βk χBk (x) e s(x) = γl χCl (x) (20.21)
k=1 l=1
duas representações normais de s, com Bi ∩Bj = ∅ para i 6= j, com M = B1 ∪· · ·∪Bp e igualmente

Ci ∩ Cj = ∅ para i 6= j, com M = C1 ∪ · · · ∪ Cq . Então,
p q
X X
βk µ(Bk ) = γl µ(Cl ) . (20.22)
k=1 l=1
A prova de (20.22) é apresentada no Apêndice 20.D, página 954. A validade de (20.22) mostra
que a definição de integral de uma função simples dada acima é intrı́nseca e não depende da
particular representação normal adotada.
Uma funçãoPsimples (não necessariamente positiva) e M-mensurável s, com uma representação

normal s(x) = nk=1 sk χAk (x), é dita ser µ-integrável se µ(Ak ) < ∞ para todo k com sk 6= 0. Observe-
se que para os valores de k para os quais sk = 0 não estamos impedidos de ter µ(Ak ) = ∞. Para uma
tal função definimos igualmente
Z Z Xn Xn
s dµ ≡ s(x) dµ(x) := sk µ(Ak ) = sk µ(Ak ) .
M M k=1 k=1
sk 6=0
R
Na última igualdade usamos a convenção 0 × ∞ = 0. Note que para s integrável, M
s dµ < ∞.
A definição de integral de funções simples que empreendemos acima é o primeiro passo da definição
mais geral de integral de funções em espaços mensuráveis. Antes de prosseguirmos, façamos alguns
comentários de esclarecimento sobre as definições acima.
• Alguns esclarecimentos
O estudante deve reparar nos cuidados tomados nas definições acima: só definimos a noção de
integral para funções simples e mensuráveis que sejam ou não-negativas ou integráveis. Ao definirmos
a integral de funções simples não-negativas permitimos ter µ(Ak ) = ∞ para algum k com sk > 0. Aqui,
a condição de s ser não-negativa é importante para evitar o aparecimento de somas to tipo ∞ − ∞,
que não estão definidas. Isso seria o caso de uma função simples como

+2, se x ∈ (1, ∞)
s(x) = .
−1, se x ∈ (−∞, 1]
Essa função
R é mensurável de Lebesgue. Porém, para a medida de Lebesgue µL , a integral dessa
função
s dµL = +2µL ((1, ∞)) + (−1)µL ((−∞, 1]) não está definida, pois µL ((1, ∞)) = ∞ e
µL ((−∞, 1]) = ∞ e não temos como definir a diferença +2µL ((1, ∞)) + (−1)µL ((−∞, 1]). Já para a
função simples e mensurável
+2, se x ∈ (1, ∞)
s(x) =
0, se x ∈ (−∞, 1]
R
teremos
s dµL = +2µL ((1, ∞)) + (0)µL ((−∞, 1]) = +2µL ((1, ∞)) = ∞. Para as funções simples
integráveis tais problemas não ocorrem já que os termos sk µ(Ak ) são finitos (positivos ou negativos).
De fato, para funções simples integráveis só se terá µ(Ak ) = ∞ se sk = 0 e nesse caso convenciona-se
sk µ(Ak ) = 0. O seguinte exemplo ilustra isso: com relação à medida de Lebesgue a função simples

+2, se x ∈ (1, 4)
s(x) =
0, se x 6∈ (1, 4)
R
é mensurável e integrável e M s dµL = +2µL ((1, 4)) + (0)µL ( \ (1, 4)) = 2 × 3 + 0 × ∞ = 2 × 3 = 6.

• Integrais indefinidas de funções simples
Se s é simples mensurável não-negativa ou s é simples mensurável e integrável e se E ⊂ M com

E ∈ M, definimos
Z Z Xn
s dµ := s χE dµ = sk µ(Ak ∩ E) .
E M k=1
n
X n
X
(20.15)
A última igualdade segue de s(x)χE (x) = sk χAk (x)χE (x) = sk χAk ∩E (x), de onde extrai-se
k=1 k=1
Z n
X Z
que sχE dµ = sk µ(Ak ∩ E) , como desejamos. As integrais s dµ são por vezes denominadas
M k=1 E
integrais definidas da função simples s.
• Propriedades elementares da integração de funções simples
As seguintes propriedades das integrais de funções simples são válidas e podem ser facilmente
verificadas:
Z Z
(αs) dµ = α s dµ ,
E E
Z Z Z
(sa + sb ) dµ = sa dµ + sb dµ ,
E E E
Z Z
s1 dµ ≤ s2 dµ se s1 (x) ≤ s2 (x), ∀x ∈ E .
E E
Acima, s, sa e sb são funções simples, integráveis e complexas quaisquer e α ∈ , constante. s 1 e s2

são funções simples, integráveis e reais quaisquer.
• Medidas definidas pela integral de funções simples não-negativas
O seguinte resultado (de [105]), que tem interesse por si só, será usado mais adiante, por exemplo
quando demonstrarmos o Teorema da Convergência Monótona, Teorema 20.4, página 933.
Lema 20.4 Seja M não-vazio, M uma σ-álgebra de M na qual definimos uma medida µ. Seja s uma
função simples, não-negativa e [M, M[τ ]]-mensurável e integrável. Para E ∈ M defina-se

Z Z
ϕs (E) := s dµ = s χE dµ .
E M
Então ϕs é uma medida em M. 2
Prova. Em primeiro lugar, note-se que ϕs (φ) = 0, pois χ∅ é identicamente nula. Como s é não-negativa,
ϕs (E) ≥ 0 para todo E ∈ M.
P
= nk=1 sk χAk (com Ak ∈ M S
Seja uma representação normal de sP para todo k, pois s é mensurável).
n ∞
Teremos para cada E ∈ M, ϕs (E) = k=1 sk µ(Ak ∩ E). S∞Se E = m=1 Em é uma união disjunta e
contável com Em ∈ M para todo m, vale que Ak ∩ E = m=1 (Ak ∩ Em ), também uma união disjunta
e contável de elementos de M. Logo, como µ é uma medida, vale que
∞
! ∞
! ∞
[ [ X
µ(Ak ∩ E) = µ Ak ∩ Em = µ (Ak ∩ Em ) = µ(Ak ∩ Em ).
m=1 m=1 m=1
Assim,
∞
! n ∞
! ∞
n X ∞ X
n
[ X [ X X
ϕs Em = sk µ Ak ∩ Em = sk µ (Ak ∩ Em ) = sk µ (Ak ∩ Em )
m=1 k=1 m=1 k=1 m=1 m=1 k=1
∞
X
= ϕs (Em ) .
m=1
Isso provou que ϕs é σ-aditiva e, portanto, é uma medida.
E. 20.13 Exercı́cio. O que justifica a troca de ordem das somas feita na demonstração acima? 6
• Integração de funções mensuráveis. A integral de Lebesgue
Como acima, seja M não-vazio, M uma σ-álgebra de M na qual definimos uma medida µ.
Seja f : M → + uma função não-negativa e mensurável. Denotaremos por S(f ) a coleção de

todas as funções simples, mensuráveis, não-negativas e menores ou iguais a f :

S(f ) := {s : M → | s é simples, mensurável e 0 ≤ s(x) ≤ f (x) para todo x ∈ M } .
O Lema 20.3 nos ensinou que S(f ) é não-vazio e que há até mesmo seqüências em S(f ) que convergem
a f . Definimos então para E ⊂ M com E ∈ M,
Z Z
f dµ := sup s dµ . (20.23)
E s∈S(f ) E
Essa expressão define a integral de Lebesgue da função f sobre o conjunto E em respeito à medida µ.
A definição acima foi introduzida por Lebesgue como substituto à definição de integral devida a
Riemann. Discutiremos suas virtudes mais adiante. Note que a definição acima é bastante geral, no
sentido de não ser especificado o que é o conjunto M nem a medida µ. Por ora, a definição acima
limita-se a funções não-negativas f . Logo mostraremos como essa definição pode ser estendida para
funções que podem ser negativas ou complexas.
Se fn é uma seqüência monótona não-decrescente de funções simples mensuráveis de S(f ) que
converge a f (que tal existe, garante-nos o Lema 20.3) é possı́vel mostrar que
Z Z
f dµ = lim fn dµ . (20.24)
E n→∞ E
R
A expressão (20.24) pode ser tomada como definição alternativa equivalente de E f dµ e, de fato,
alguns autores assim o fazem. A equivalência das duas definições é demonstrada no Apêndice 20.E,
página 955. Seu estudo é dispensável em uma primeira leitura.
• A integração de Lebesgue e conjuntos de medida zero
Dentre as propriedades da integral definida acima, a seguinte observação terá um papel importante
a desempenhar.
Proposição 20.6 Seja

R (M, M) um espaço de medida e seja f : M → + uma função [M, M[τ ]]-

mensurável tal que E f dµ = 0 para algum E ∈ M. Então f = 0 µ-q.t.p. em E. 2
Prova. Seja En = {x ∈ M | f (x) > 1/n} ∩ E = {x ∈ E| f (x) > 1/n}. Pela Proposição 20.10 da página
949, tem-se En ∈ M. É claro pela definição de En que f ≥ n1 χEn . Portanto, a função simples n1 χEn é
um elemento de S(f ) e, pela definição (20.23) da integral de Lebesgue, segue que
Z Z
1 1
0 = f dµ ≥ χEn dµ = µ(En ) ,
E E n n
S
ou seja, µ(En ) = 0 paraPtodo n ∈ . Note-se agora que {x ∈ E| f (x) > 0} = ∞

n=1 En . Logo,
µ({x ∈ E| f (x) > 0}) ≤ ∞ n=1 µ(E n ) = 0, provando que f = 0 µ-q.t.p em E.
• Funções integráveis
Como acima, seja M não-vazio, M uma σ-álgebra de M na qual definimos uma medida µ. Seja
f : M → uma função mensurável. f é dita ser integrável em M se

Z
|f | dµ < ∞ .
M
+ − ±
R
Como
R |f | = f + f , sendo ambas f não-negativas e mensuráveis, segue que M
f + dµ < ∞ e
M
f − dµ < ∞. Com isso, e como f = f + − f − , sendo ambas f ± não-negativas, é natural definir
Z Z Z
f dµ := +
f dµ − f − dµ .
M M M
As integrais do lado direito são finitas e, portanto, sua diferença está bem definida.
• Propriedades elementares da integração
As seguintes propriedades das integrais de funções integráveis são válidas e podem ser facilmente
verificadas:
Z Z
(αf ) dµ = α f dµ , (20.25)
E E
Z Z Z
(fa + fb ) dµ = fa dµ + fb dµ , (20.26)
E E E
Z Z
f1 dµ ≤ f2 dµ se f1 (x) ≤ f2 (x), ∀x ∈ E . (20.27)
E E
Acima, f , fa , fb , f1 e f2 são funções integráveis reais quaisquer e α ∈ , constante.
E. 20.14 Exercı́cio (recomendado a quem deseja testar se está realmente acompanhando a exposição).
Demonstre as propriedades elementares acima. 6
Uma outra propriedade relevante de demonstração simples é a seguinte se f : M → for integrável,

Z Z

f dµ ≤ |f | dµ . (20.28)

E E
Isso segue das seguintes linhas:

Z Z Z Z Z

f dµ = f dµ −
+
f dµ ≤ f dµ + f dµ
− + −

E E E E E
Z Z Z
−
= +
f dµ + f dµ = (f + + f − ) dµ
E E E
Z
= |f | dµ .
E
• Funções complexas integráveis
Caso f seja uma função complexa, f : M → , procede-se de forma semelhante. Como antes, f é
dita ser integrável em M se Z
|f | dµ < ∞ .
M
p
Denotemos por Re(f ) e Im(f ) as partes real e imaginária de f . Como |f | = |Re(f )|2 + |Im(f )|2 é
mensurável pela Proposição 20.14, página 952, é claro que |Re(f )| ≤ |f |, |Im(f )| ≤ |f | e, de (20.27),
segue que
Z Z Z Z
|Re(f )| dµ ≤ |f | dµ < ∞ e |Im(f )| dµ ≤ |f | dµ < ∞ . (20.29)
M M M M
Com isso, tanto Re(f ) quanto Im(f ) são funções reais e integráveis e podemos aplicar a definição acima
e escrever
Z Z Z
Re(f ) dµ = +
(Re(f )) dµ − (Re(f ))− dµ ,
M M M
Z Z Z
Im(f ) dµ = (Im(f )) dµ − +
(Im(f ))− dµ .
M M M
Com isso, é natural definir a integral de f por

Z Z Z
f dµ := Re(f ) dµ + i Im(f ) dµ
M M M
Z Z Z Z
+ − + −
= (Re(f )) dµ − (Re(f )) dµ + i (Im(f )) dµ − (Im(f )) dµ .(20.30)
M M M M
Todos os quatro termos acima são finitos e a soma dos mesmos é, portanto, bem definida.
Chegamos dessa forma ao propósito de definir a noção de integral para funções mensuráveis e
integráveis, reais ou complexas. Recapitulando, nossos passos foram 1) definir a integral de funções
simples não-negativas e integráveis; 2) definir a integral de funções reais, mensuráveis e não-negativas
a partir da integral de funções simples; 3) definir a integral de funções reais e integráveis a partir da
integral de funções reais, mensuráveis e não-negativas ; 4) definir a integral de funções complexas e
integráveis a partir da integral de suas partes real e imaginária.
• Propriedades elementares da integração de funções complexas
As seguintes propriedades das integrais de funções integráveis são válidas e podem ser facilmente
verificadas:
Z Z
(αf ) dµ = α f dµ , (20.31)
E E
Z Z Z
(fa + fb ) dµ = fa dµ + fb dµ , (20.32)
E E E
Acima, f , fa e fb são funções integráveis e complexas quaisquer e α ∈ , constante.
E. 20.15 Exercı́cio (recomendado a quem deseja testar se está realmente acompanhando a exposição).
Demonstre as propriedades elementares acima. Sugestão: use a definição (20.24). 6
A desigualdade (20.28) se deixa generalizar para funções integráveis complexas, mas a prova é mas
engenhosa: se f : M → for integrável, então
Z Z

f dµ ≤ |f | dµ . (20.33)

E E
p
Para provar isso, notemos que, pela Proposição 20.14, página 952, |f | = (Re(f ))2 + (Im(f ))2 é
[M, M[τ ]]-mensurável se Re(f )Re Im(f ) o forem. Fora isso, já vimos acima que Re(f ) e Im(f ) são

integráveis se f o for. A integral E f dµ é um número complexo e, portanto, pode ser escrito na forma
polar Z Z

f dµ = e f dµ .
iϕ
E E
−iϕ
A função g := e f é mensurável e integrável, como facilmente se vê. Temos que
Z Z Z Z Z Z
(20.31)
Re(g) dµ + i Im(g) dµ = g dµ = −iϕ
e f dµ = e −iϕ
f dµ = f dµ ≥ 0 .

E E E E E E
R R R
Como E f dµ é um número real, segue que E Im(g) dµ = 0 e que E Re(g) dµ ≥ 0. Logo,
Z Z Z Z Z Z
(20.28) (20.29)
f dµ = Re(g) dµ = Re(g) dµ ≤ |Re(g)| dµ ≤ |g| dµ = |f | dµ ,

E E E E E E
completando a prova de (20.33).
• Os conjuntos Lp (M, dµ)

Antes de passarmos a exemplos, vamos rapidamente introduzir uma notação importante.

Se (M, M) é um espaço mensurável e µ é uma medida em M , denotaremos o conjunto das funções
integráveis em M em relação à medida µ por L1 (M, dµ):
Z

L1 (M, dµ) := f : M → f é [M, M[τ ]]-mensurável e |f | dµ < ∞ .

Muito importantes são também os espaços Lp (M, dµ), definidos por

Z

Lp (M, dµ) := f : M → f é [M, M[τ ]]-mensurável e
p
|f | dµ < ∞ ,
M
onde p, em princı́pio, é um número real positivo p > 0. Os espaços Lp (M, dµ) com p ≥ 1 serão
discutidos com mais detalhe adiante.
• Exemplos. Integração com a medida delta de Dirac
Vamos a alguns exemplos ilustrativos. Considere M = , M= ( ) e µ = δx0 para x0 ∈

, a
medida delta de Dirac definida no item 2 da página 840.
n
X
Seja s(x) uma função simples definida em com forma normal s(x) = sk χAk (x). Vamos supor
k=1
que x0 ∈ Ak0 . É claro que s(x0 ) = sk0 . Teremos também pela definição (16.2), página 840,
Z n
X
s dδx0 = sk δx0 (Ak ) = sk0 = s(x0 ) . (20.34)

k=1
Se f : → é mensurável, e fn é uma seqüência

R de funções simples que converge a f , teremos
obviamente que fn (x0 ) → f (x0 ) e, por (20.34), fn dδx0 = fn (x0 ). Assim, por (20.24), segue que

Z
f dδx0 = f (x0 ) . (20.35)

O estudante deve constatar que essa expressão corresponde precisamente à bem conhecida propriedade
Z ∞
f (x)δ(x − x0 )dx = f (x0 )
−∞
que comummente se associa em textos de Fı́sica à “função” delta de Dirac.
Nota para os estudantes mais avançados. Além da medida delta de Dirac existe também a distribuição
delta de Dirac. Ainda que muito semelhantes, esses objetos são distintos matematicamente: o primeiro
é uma medida, o segundo é uma distribuição, ou seja, um funcional linear contı́nuo em um certo espaço
de Fréchet de funções infinitamente diferenciáveis (e que decaem rápido o suficiente no infinito). Com
a medida delta de Dirac podemos integrar qualquer função, como em (20.35). Com a distribuição delta
de Dirac podemos integrar funções infinitamente diferenciáveis (e que decaem rápido o suficiente no
infinito). Essa aparente limitação é compensada pelo fato de se poder falar em derivadas da distribuição
delta de Dirac, mas não da medida delta de Dirac.
• Exemplos. Integração com a medida de contagem. Relação com os espaços `p
Seja M = {m1 , . . . , mn } um conjunto finito e seja M = (M ). Toda função f : M → é
simples e mensurável em relação a M e M[τ ] (por que?). Seja µc a medida de contagem em M , que

foi introduzida à página 840. Tem-se que

Z Xn
f dµc = f (mk ) .
M k=1
Seja M = , M = ( ) e seja µc a medida de contagem em

. Se f : → é uma função
simples então
Z ∞
X
f dµc = f (k) .
M k=1
Uma função f : → é µc -integrável se

Z ∞
X
|f | dµc = |f (k)| < ∞ ,
M k=1
e sua integral é
Z ∞
X
f dµc = f (k) .
M k=1
P P∞
Observe que o fato de ∞ k=1 |f (k)| < ∞ implica que a série k=1 f (k) é convergente (por ser uma série
absolutamente somável. Vide os bons livros de Cálculo).
E. 20.16 Exercı́cio. Demonstre todas as afirmações feitas acima. 6
O estudante pode convencer-se com o apresentado acima que o conjunto L1 ( , dµc ) das funções
f : → integráveis em relação à medida de contagem µc coincide com o conjunto de seqüências `1

que introduzimos na Seção 13.4.1, página 750. Os conjuntos Lp ( , dµc ) coincidem com os conjuntos
de seqüências `p , também lá introduzidos.
• Exemplos. A integral de Lebesgue em
Um outro importante exemplo é aquele no qual tomamos M = , M = M[τ ], a σ-álgebra dos

conjuntos Borelianos de e µ = µL , a medida de Lebesgue. O conjunto L1 ( , µL ) de funções

2
integráveis inclui funções contı́nuas que decaem rapidamente no infinito, tais como e−x , (1 + x2 )−1 etc.
O conjunto L1 ( , µL ) inclui funções que não são limitadas. Um exemplo a se ter em mente é o da

função  1
 √|x| , 0 < |x| ≤ 1

f (x) =

 0, x = 0 ou |x| > 1
p
Essa função, apesar de divergir para x → 0, é um elemento de L1 ( , µL ), pois a singularidade 1/ |x|
é integrável em 0.
Um tanto surpreendentemente, L1 ( , µL ) também contem funções não-limitadas, mas que são

limitadas em qualquer região finita. Um exemplo interessante é o da função



 1
 n, para x em cada intervalo n, n + 3 , n ≥ 1 ,
n
f (x) =



0, de outra forma ,
ou seja,
∞
X
f (x) = n χ[n, n+ 1 ) (x) .
n3
n=1
É claro que f não é limitada em todo , mas é limitada em qualquer região finita. Tem-se, porém,

Z X∞
1
|f | dµL = < ∞

n=1
n2
e, portanto, f ∈ L1 ( , µL ).
E. 20.19 Exercı́cio. Construa exemplos análogos de elementos de L p ( , µL ), p ≥ 1, que não são

funções limitadas. 6
20.3.3 A Integral de Lebesgue e sua Relação com a de Riemann

Uma vez desenvolvidos os ingredientes básicos da teoria de integração de Lebesgue, voltemo-nos bre-
vemente à questão de estabelecer sua relação com a integração de Riemann.
• As integrais de Riemann e Lebesgue em intervalos compactos
Tratemos primeiramente de funções definidas em conjuntos compactos da reta real. Vale a seguinte
afirmação:
Teorema 20.2 Seja f : [a, b] → uma função Boreliana e limitada. Então, se f for integrável no
sentido de Riemann, f é também integrável no sentido de Lebesgue (para a integral de Lebesgue em
[a, b]) e as duas integrais são idênticas. 2
Esse teorema afirma que em intervalos finitos como [a, b] a integral de Lebesgue coincide com a de
Riemann, pelo menos para funções integráveis por Riemann e limitadas. Esse resultado é satisfatório
pois diz-nos que a teoria da integração de Lebesgue estende a de Riemann, pelo menos nesse sentido.
A demonstração do Teorema 20.2 é apresentada no Apêndice 20.I, página 960, e faz uso do Lema de
Fatou e do Teorema da Convergência Dominada, que introduziremos na Seção 20.3.4, logo adiante.
O Teorema 20.2 estabeleceu uma relação entre as integrais de Riemann e de Lebesgue no caso de
intervalos finitos da reta real. O que se pode dizer para intervalos não-finitos? Como a integral de
Riemann foi definida na Seção 20.2, página 898, apenas para funções limitadas em intervalos finitos, a
primeira questão a resolver é definı́-la em intervalos não-finitos, como . Isso foi discutido na Seção
20.2.1, página 907, ao introduzirmos a noção de integral de Riemann imprópria.
• A integral de Riemann imprópria e sua relação com a de Lebesgue em
No caso de f ser também positiva (o que não é necessário para a definição 20.6) também podemos
estabelecer uma relação entre as integral de Riemann imprópria e de Lebesgue. Isso é expresso no
seguinte
Teorema 20.3 Seja f : → + uma função positiva e Boreliana e tal que f é integrável no sentido

de Riemann em todo intervalo finito [a, b]. Então, f é integrávelZno sentido de Lebesgue em se e
∞
somente se a integral de Riemann imprópria existir e, nesse caso, f (x) dx coincide com a integral
Z −∞
de Lebesgue f dµL . 2

A demonstração desse teorema também encontra-se no Apêndice 20.I, página 960.

As condições dos Teoremas 20.2 e 20.3 não são ainda as mais gerais possı́veis para garantir a
igualdade entre a integral de Riemann (normal ou imprópria) e a de Lebesgue, mas não trataremos
de generalizações aqui e remetemos o leitor interessado aos bons livros. Nesse contexto, vale fazer o
seguinte comentário. O Teorema 20.3 estabeleceu a relação entre a integral de Riemann imprópria
e a integral de Lebesgue em , mas somente para funções não-negativas. Valerá uma relação assim

para funções mais gerais? A resposta, infelizmente, pode ser negativa em alguns casos, como mostra o
exemplo do qual trataremos a seguir.
• Limitações da integral de Lebesgue
É importante chamar a atenção do leitor para uma limitação da integração de Lebesgue em ,a

qual pode ser ilustrada pelo exemplo a seguir (encontrado em vários livros-textos).
sen x
Seja a função f (x)
R = x . É claro que f é Boreliana (pois é contı́nua) e limitada. Será f integrável
em , ou seja, será
|f | dµL < ∞? Como f satisfaz f (x) = f (−x) para todo x, é suficiente estudar

f para x ≥ 0. Em cada intervalo [(n − 1)π, nπ], com n = 1, 2, 3, . . ., vale

| sen x| | sen x|
≥ .
|x| nπ
Assim, para todo N ∈ ex∈
+,
XN
1
|f |(x) ≥ | sen x| χ[(n−1)π, nπ] (x)
n=1
nπ
e
Z XN Z XN Z
1 1
|f | dµL ≥ | sen x| χ[(n−1)π, nπ] (x) dµL = | sen x| dµL .

+ n=1
nπ
+ n=1
nπ [(n−1)π, nπ]
É claro que a função | sen x| é Boreliana (pois é contı́nua) e limitada. Aplicando o Teorema 20.2, tem-se
Z Z nπ
| sen x| dµL = | sen x| dx ,
[(n−1)π, nπ] (n−1)π
a integral à direita sendo a familiar integral de Riemann. Fazendo a mudança de variáveis x →

x − (n − 1)π, escrevemos
Z nπ Z π Z π
n−1
| sen x| dx = |(−1) sen x| dx = sen x dx = 2 ,
(n−1)π 0 0
pois sen x é não-negativa em [0, π]. Assim, para todo N ∈ ,

Z N
2X 1
|f | dµL ≥ .

+
π n=1 n
R
Agora, como é bem sabido, a soma do lado direito diverge quando N → ∞. Logo,
+
|f | dµL = ∞ e,
conseqüentemente, Z
|f | dµL = ∞. (20.36)

R R
Note que nem mesmo f − dµL são finitas (justifique!).
f + , dµL ou
R

A expressão (20.36) significa que f 6∈ L1 ( , dµL ) e, portanto, f dµL não está definida. Sucede,
porém, que a integral de Riemann imprópria (vide definição (20.6)),

Z ∞ Z A
sen x sen x
dx := lim dx
−∞ x A→∞ −A x
existe, e vale π.
Esse exemplo ensina-nos que há funções que possuem uma integral de Riemann imprópria, mas não
uma integral de Lebesgue em .
RA R sen x
Por que o limite −A senx x dx existe mas dµL não? A resposta reside na observação que
x
R A sen x

a função senx x troca de sinal infinitas vezes e isso produz cancelamentos

nas integrais −A x
dx que
sen x
permitem a convergência do limite A → ∞. A função x , porém, é cega a essas trocas de sinal,
devido à presença do módulo.
Na integração de Lebesgue, ao concentrarmo-nos na integrabilidade do módulo de uma função f ,
como a de acima, perdemos informação sobre oscilações e trocas de sinal da mesma que podem ser
relevantes para certos propósitos24 . Esse fato pode ser interpretado como uma deficiência da integração
de Lebesgue.
24
Aos estudantes mais avançados notamos que esse é um dos problemas que têm impedido a definição matematicamente
precisa da integração funcional de Feynman da Mecânica Quântica e da Teoria Quântica de Campos (quando formuladas
no espaço-tempo de Minkowski). Já a chamada integral funcional de Feynman-Kac, definida no espaço-tempo Euclidiano,
pode ser bem definida, por não sofrer desses problemas (vide e.g. [46] ou [99, 100, 101, 102]). Para uma exposição
introdutória sobre a integração funcional de Feynman na Mecânica Quântica, vide, por exemplo, [95], ou bons livros de
20.3.4 Teoremas Básicos sobre Integração e Convergência

Nesta seção apresentaremos alguns teoremas importantes sobre a integral de Lebesgue e que descrevem
o comportamento da mesma relativamente a operações de tomada de limites. De um ponto de vista
técnico esses teoremas têm uma importância central e pode-se mesmo dizer que sua validade é uma
das principais razões do interesse na integral de Lebesgue, em comparação a outras integrais, como a
de Riemann. Historicamente os teoremas de convergência abaixo emergiram de trabalhos de Lebesgue,
Levi25 e Fatou26 .
• O Teorema da Convergência Monótona
Teorema 20.4 (Teorema da Convergência Monótona) Seja (M, M) um espaço mensurável onde
encontra-se definida uma medida µ. Seja {fn } uma seqüência não-decrescente de funções não-negativas
fn : M → , ou seja, 0 ≤ f1 (x) ≤ f2 (x) ≤ f3 (x) ≤ · · · ≤ ∞, sendo todas [M, M[τ ]]-mensuráveis.

Suponhamos também que f : M → seja tal que para cada x ∈ M a seqüência f n (x) convirja a f (x).

Então, a função f é também [M, M[τ ]]-mensurável e

Z Z
lim fn dµ = f dµ . (20.37)
n→∞ M M
A demonstração é apresentada no Apêndice 20.F, página 957.

Para apreciarmos a relevância do Teorema S∞ da Convergência Monótona, consideremos o seguinte
exemplo. Seja = {r1 , r2 , r3 , r4 , . . .} = n=1 {rk }, onde 3 k → rk ∈ é uma contagem de .

Defina-se 
 2, se x ∈ {r1 , . . . , rn }
fn (x) = .
 −x2
e , de outra forma
É fácil ver que cada função fn é [M[τ ], M[τ ]]-mensurável (faça-o!) e que fn ≤ fn+1 para todo n.

Essas
R funções Rfn são integráveis
√ por Riemann (pois são contı́nuas por partes). É também fácil ver
∞ −x2
que fn dµL = −∞ e

dx = π.
Agora, f (x) = lim fn (x) é dada por
n→∞

 2, se x ∈
f (x) =
 2
se x 6∈ e−x ,
R √
e é também mensurável. Tem-se também que fn dµL = π. Assim,
Z Z
lim fn dµL = f dµL ,
n→∞
25
Beppo Levi (1875-1961).
26
Pierre Joseph Louis Fatou (1878-1929).
como se vê, e como garante o Teorema da Convergência Monótona. Essa igualdade, porém, não faria
sentido para a integral de Riemann, pois f , ao contrário das funções fn , não é integrável por Riemann.
Condições suficientes para se poder comutar uma integral de Riemann com um limite de uma
seqüência de funções são geralmente muito mais restringentes que o exigido no Teorema da Convergência
Monótona e requerem, por exemplo, convergência uniforme dessa seqüência.
• O Lema de Fatou
O seguinte lema, denominado Lema de Fatou, possui várias aplicações, sendo também importante
na demonstração do Teorema da Convergência Dominada, do qual trataremos logo adiante, assim como
na demonstração do Teorema 20.2, da página 930, acima, que tratou da relação entre as integrais de
Riemann e Lebesgue em intervalos finitos da reta real.
O Teorema da Convergência Monótona, Teorema 20.4, tratava de seqüências monótonas não-
decrescentes de funções positivas e mensuráveis da reta real e estabelecia a possibilidade de troca
de limites com a integração expressa em (20.37). Podemos nos perguntar, e se tivermos uma seqüência
de funções positivas e mensuráveis mas que não seja monótona não-decrescente? Valerá a inversão de
limites com a integral em (20.37)? A resposta, em geral, é não, mas ainda assim, vale o seguinte:
Teorema 20.5 (Lema de Fatou) Seja (M, M) um espaço mensurável onde encontra-se definida
uma medida µ. Seja {fn } uma seqüência de funções não-negativas e [M, M[τ ]]-mensuráveis fn :
M → . Então, Z Z

lim inf fn dµ ≤ lim inf fn dµ . (20.38)

M n→∞ n→∞ M
2
A demonstração encontra-se no Apêndice 20.G, página 958. O Lema de Fatou será usado logo abaixo
para demonstrar um outro resultado ainda mais relevante, o Teorema da Convergência Dominada.
Nem sempre vale a igualdade em (20.38). Isso é mostrado nos dois exercı́cios seguintes.
E. 20.20 Exercı́cio. Seja a seguinte seqüência de funções Borelianas da reta real

 1
 n , se x ∈ [−n, n],
fn (x) =

0, se x 6∈ [−n, n],
para n ∈ , n > 0. Mostre que lim inf fn = 0 e, portanto,
n→∞
Z
lim inf fn dµL = 0 .

n→∞
R
Por outro lado,
fn = 2 para todo n e, portanto,
Z
n→∞
Assim, Z Z
lim inf fn dµ < lim inf fn dµ .

n→∞ n→∞
Em alguns casos pode-se ter uma igualdade em (20.38).

 1
 n2 , se x ∈ [−n, n],
fn (x) =

0, se x 6∈ [−n, n],
para n ∈ , n > 0. Mostre que lim inf fn = 0 e, portanto,
n→∞
Z

n→∞
R
Porém,
fn = 2/n para todo n e, portanto,
Z
n→∞
Assim, Z Z
lim inf fn dµ = lim inf fn dµ .

n→∞ n→∞
• O Teorema da Convergência Dominada
Teorema 20.6 (Teorema da Convergência Dominada) Seja (M, M) um espaço mensurável onde
encontra-se definida uma medida µ. Seja {fn } uma seqüência de funções [M, M[τ ]]-mensuráveis
fn : M → , n ∈ , tais que o limite f (x) = lim fn (x) existe para todo x ∈ M . Suponha ainda que

n→∞
exista uma função não-negativa F ∈ L1 (M, dµ) tal que |fn (x)| ≤ F (x) para todo n ∈ e todo x ∈ M .
Então:
1. f ∈ L1 (M, dµ),
2. Z
lim |f − fn | dµ = 0 ,
n→∞ M
3. Z Z Z
lim fn dµ = lim fn dµ = f dµ ,
n→∞ M M n→∞ M
A demonstração encontra-se na Apêndice 20.H, página 959.

Para estudar uma situação na qual o do Teorema da Convergência Dominada, Teorema 20.6, se
aplica, faça o seguinte exercı́cio.

 1
 n2 , se x ∈ [−n, n],
fn (x) =

0, se x 6∈ [−n, n],
onde n ∈ , n > 0. Mostre que há uma função F ∈ L1 ( dµL ) tal que |fn (x)| ≤ F (x) paraZtodo n ∈

e todo x ∈ . Justifique então, com base nesse fato, se a inversão da integral pelo limite lim fn dµL =
n→∞
Z
( lim fn ) dµL é possı́vel. Verifique explicitamente que a igualdade é verdadeira. 6

n→∞
Para constatar a relevância da condição básica do Teorema da Convergência Dominada, Teorema

20.6, a saber, a existência de uma função não-negativa F ∈ L1 (M, dµ) tal que |fn (x)| ≤ F (x) para
todo n ∈ e todo x ∈ M , faça o seguinte exercı́cio.


 1
 n , se x ∈ [−n, n],
fn (x) =

0, se x 6∈ [−n, n],
para n ∈ , n > 0. Mostre que não há nenhuma função F ∈ L1 ( , dµL ) tal que |fn (x)| ≤ F (x) para

todo n ∈ e todo x ∈ . Sugestão: construa

R a menor função F que satisfaz |f n (x)| ≤ F (x) para

todo Zn ∈ Z x ∈
e todo e mostre que |F | dµL = ∞. Verifique explicitamente que a igualdade

lim fn dµL = ( lim fn ) dµL não é verdadeira. 6

n→∞
n→∞
20.3.5 Alguns Resultados de Interesse

Os teoremas de convergência que vimos acima têm várias conseqüências importantes. Trataremos de
algumas aqui. A primeira, e muito interessante, é uma generalização (de [105]) do Lema 20.4, página
923.
Proposição 20.7 Seja M não-vazio, M uma σ-álgebra de M na qual definimos uma medida µ. Seja
f uma função não-negativa e [M, M[τ ]]-mensurável. Para E ∈ M defina-se

Z Z
ϕf (E) := f dµ = f χE dµ .
E M
Então ϕf é uma medida em M. Além disso, para qualquer função não-negativa e [M, M[τ ]]-
mensurável g tem-se Z Z
g dϕf = g f dµ . (20.39)
M M
2
A relação, (20.39) diz-nos algo como dϕf = f dµ. Essa relação tem apenas sentido simbólico, pois
não atribuı́mos significado aos sı́mbolos dϕf e dµ. Ainda assim, podemos interpretar dϕf = f dµ como
estabelecendo uma relação entre as medidas ϕf e µ por uma espécie de mudança de variáveis.
Prova da Proposição 20.7. É claro que ϕf (∅) = 0, pois χ∅ éSidenticamente nula. Seja Ek , k ∈ , uma
coleção contável e disjunta de elementos de M e seja E := ∞ k=1 Ek . Como para todo x ∈ M
n
X n
X
χE (x) = lim χEk (x) (por que?), segue que (f χE )(x) = lim fk (x), ∀x ∈ M,
n→∞ n→∞
k=1 k=1
Pn
onde fk := f χEk . A funções Fn := k=1 fk são não-negativas, [M, M[τ ]]-mensuráveis e Fn ≤ Fn+1
para todo n ∈ . Aplica-se, então o Teorema da Convergência Monótona, Teorema 20.4, página 933,

e tem-se
∞
! Z n
! Z n
!
[ X Teor. 20.4
X
ϕf Ek = lim fk dµ = lim fk dµ
M n→∞ n→∞ M
k=1 k=1 k=1
n Z
X
linearidade da integral
= lim fk dµ
n→∞ M
k=1
n Z
X
= lim f χEk dµ
n→∞ M
k=1
n
X
= lim ϕf (Ek ) ,
n→∞
k=1
provando que ϕf é uma medida.

Para provar (20.39), procedemos da seguinte forma. Para E ∈ M tem-se pela própria definição de
ϕf . Z Z
χE dϕf = ϕf (E) = χE f dµ .
M M
Assim, (20.39) vale pelo menos no caso espacial em que g = χE . Logo, vale também no caso em que
g é uma função simples. Seja por fim uma função g não-negativa e mensurável geral. Se g n for uma
seqüência não-decrescente de funções simples e não-negativas de S(g) que converge a g (que tal existe,
garante-nos o Lema 20.3, página 920), tem-se pela definição (20.24)
Z Z Z
g dϕf = lim gn dϕf = lim gn f dµ .
E n→∞ E n→∞ E
Agora, gn f é uma seqüência não-decrescente (por que?) de funções positivas e mensuráveis e que
converge a g f (por que?). Aplicando mais uma vez o Teorema da Convergência Monótona, Teorema
20.4, página 933, ao lado direito da última expressão, segue que
Z Z Z
g dϕf = lim gn f dµ = (g f ) dµ ,
E E n→∞ E
completando a demonstração.
Para entendermos melhor o significado de (20.39), tomemos o caso em que M = , M = M[τ ],

a σ-álgebra de Borel, µ = µL , a medida de Lebesgue e f : → , uma função Boreliana e limitada

em todos os intervalos finitos. Para E = [a, b], um intervalo finito, teremos pelo Teorema 20.2, página
930, Z Z b
ϕf ([a, b]) = f dµL = f (x) dx .
[a, b] a
Se f for tal que existe uma F : → com F 0 (x) = f (x), o Teorema Fundamental do Cálculo
diz-nos que
ϕf ([a, b]) = F (b) − F (a) .
Note que F 0 (x) = f (x) ≥ 0 e, portanto F é crescente. Isso fornece uma noção do que representa a
medida ϕf desses intervalos.
20.4 Os Espaços Lp e Lp
Daqui por diante M será um conjunto não-vazio com uma σ-álgebra M, para a qual encontra-se definida
uma medida µ.
Definimos à página 928 os conjuntos Lp (M, dµ), p > 0, como sendo o conjunto de todas as funções
complexas definidas em M tais que sua p-ésima potência é integrável. O estudo das propriedades desses
conjuntos é de grande importância em várias áreas da Matemática e da Fı́sica. Na Fı́sica Quântica
um papel muito especial é reservado aos conjuntos L2 ( , dµL ) e L2 ( n , dµL ) (mais precisamente, aos

seus parentes próximos, os conjuntos L2 ( , dµL ) e L2 ( n , dµL ), que serão definidos abaixo), pois os

mesmos descrevem os estados puros de sistemas quânticos com um número finito de graus de liberdade.
A razão de os conjuntos Lp (M, dµ) serem importantes reside no fato que, para p ≥ 1, todos eles são
– menos de uma tecnicalidade que discutiremos abaixo – espaços de Banach. Os espaços L 2 (M, dµ),
em particular, são – a menos dessa tecnicalidade – espaços de Hilbert27 . Nosso objetivo na presente
seção é estudar esses fatos de forma precisa e geral.
Por razões pedagógicas começaremos estudando os espaços L1 (M, dµ) e depois passaremos ao caso
p > 1.
• L1 (M, dµ) é um espaço vetorial complexo
Se f : M → e g : M → são dois elementos quaisquer de L1 (M, dµ) e α, β são números com-

plexos quaisquer, é claro que |αf + βg| ≤ |α||f | + |β||g|. Esse simples fato tem a seguinte conseqüência:
Z Z Z
|αf + βg| dµ ≤ |α| |f | dµ + |β| |g| dµ .
M M M
R R
Como, por hipótese, M |f | dµ < ∞ e M |g| dµ < ∞, segue daı́ que a função obtida pela combinação
linear αf + βg é também um elemento de L1 (M, dµ). Como essa afirmação é válida para todos
f, g ∈ L1 (M, dµ) e α, β ∈ , concluı́mos que L1 (M, dµ) é um espaço vetorial complexo.
27
Espaços de Banach e de Hilbert foram definidos na Seção 13.4, página 748.
Por essa razão passaremos a nos referir aos conjuntos L1 (M, dµ), como espaços L1 (M, dµ). O uso
da palavra “espaço”, aqui, é uma referência ao fato de serem espaços vetoriais. Logo abaixo, veremos
que os mesmos são também, a menos de uma tecnicalidade, espaços métricos.
Os conjuntos Lp (M, dµ) com p ≥ 0 também são espaços vetoriais complexos e isso será mostrado
na Proposição 20.8, logo adiante.
• Uma pseudo-métrica em L1 (M, dµ)
Para f : M → e g : M → , dois elementos quaisquer de L1 (M, dµ), consideremos a expressão

Z
d1 (f, g) := |f − g| dµ .
M
Como (f − g) ∈ L1 (M, dµ), é claro que 0 ≤ d1 (f, g) < ∞. É evidente que d1 (f, f ) = 0 e que
d1 (f, g) = d1 (g, f ). Como também, para qualquer h ∈ L1 (M, dµ), vale que f − g = (f − h) + (h − g),
tem-se |f − g| ≤ |f − h| + |h − g| e, portanto,
d1 (f, g) ≤ d1 (f, h) + d1 (h, g),

a chamada desigualdade triangular. Com isso, estabelecemos que d 1 é uma pseudo-métrica em L1 (M, dµ).
Para a definição geral de pseudo-métrica, vide Seção 13.3, página 746.
R
Por que d1 não é uma métrica? Pois no conjunto L1 (M, dµ), o fato de ter-se M |f − g| dµ = 0 não
implica que f (x) = g(x) para todo x ∈ M , mas implica apenas que f = g µ-q.t.p. (Proposição 20.6,
página 925). Esse fato em geral28 impede-nos de fazer de L1 (M, dµ) um espaço métrico, mas há uma
maneira simples de remediar isso: identificando entre si as funções que diferem apenas em um conjunto
de medida µ nula. Esse é o nosso próximo passo.
• Os espaços L1 (M, dµ)
No conjunto das funções [M, M[τ ]]-mensuráveis estabelecemos uma relação de equivalência di-

zendo que funções f e g, são equivalentes, f ∼ g, se f = g µ-q.t.p., ou seja, se µ({x ∈ M | f (x) 6=

g(x)}) = 0. Constatemos que, de fato, isso define uma relação de equivalência. Que f ∼ f é evidente,
assim como que f ∼ g equivale a g ∼ f . Para provar a transitividade, consideremos três funções f , g
e h. Notemos que se x ∈ M é tal que f (x) 6= h(x), então ou f (x) 6= g(x) ou g(x) 6= h(x) ou ambas.
Logo,
{x ∈ M | f (x) 6= h(x)} = {x ∈ M | f (x) 6= g(x)} ∪ {x ∈ M | g(x) 6= h(x)} ,
sendo que a união acima não é necessariamente disjunta. Logo,

µ {x ∈ M | f (x) 6= h(x)} ≤ µ {x ∈ M | f (x) 6= g(x)} + µ {x ∈ M | g(x) 6= h(x)} .
Assim, se f ∼ g e g ∼ h, o lado direito vale zero e, portanto, segue que f ∼ h, provando a transitividade.
E. 20.24 Exercı́cio. Mostre que {x ∈ M | f (x) 6= g(x)} ∈ M. Sugestão: prove e use o fato que
{x ∈ M | f (x) 6= g(x)} = {x ∈ M | f (x) > g(x)} ∪ {x ∈ M | f (x) < g(x)} e use a Proposição 20.11, da
página 950. 6
28
Exceto nos casos especiais em que M e µ são tais que ∅ é o único conjunto de medida µ nula.
O conjunto L1 (M, dµ) quebra-se em classes de equivalência pela relação de equivalência acima.
Duas funções de uma mesma classe diferem apenas em um conjunto de medida µ igual a zero. Definimos
o conjunto L1 (M, dµ) como sendo o conjunto dessas classes de equivalência: em sı́mbolos
L1 (M, dµ) := L1 (M, dµ)/ ∼ .
Uma outra forma mais concreta de encarar L1 (M, dµ) é considerá-lo como o conjunto obtido
tomando um e apenas um representante arbitrário de cada classe. Essa forma de ver L 1 (M, dµ) tem
a vantagem de permitir constatar de modo imediato que L1 (M, dµ) também é um espaço vetorial
complexo. Além disso, nessa maneira de ver, L1 (M, dµ) é um sub-conjunto de L1 (M, dµ) e, portanto,
d1 está definido em L1 (M, dµ). Agora, porém, vale que se f, g ∈ L1 (M, dµ) e d1 (f, g) = 0,
então f = g µ-q.t.p. Ora, isso só é possı́vel se f = g, pois L1 (M, dµ) foi construı́do tomando-se
um e apenas um elemento de cada classe de equivalência de L1 (M, dµ). Constatamos, assim, que d1 é
agora uma métrica em L1 (M, dµ), não apenas uma pseudo-métrica.
Resumindo L1 (M, dµ), é um espaço vetorial complexo e também um espaço métrico em relação à
métrica d1 .
O leitor que deseja permanecer em um nı́vel mais abstrato e continuar encarando L1 (M, dµ) como
uma coleção de classes, poderá proceder da seguinte forma para constatar as afirmações do último
parágrafo. Seja [f ] a classe a qual pertence um elemento f ∈ L1 (M, dµ). Defina-se para α e β ∈ e
para duas classes [f ] e [g] a operação linear α[f ] + β[g] := [αf + βg]. Com essa operação de combinação
linear, a coleção de classes L1 (M, dµ) adquire a estrutura de um espaço vetorial complexo, tendo
como vetor nulo a classe [0], que contem a função identicamente nula. Para introduzir uma métrica na
coleção de classes L1 (M, dµ), defina-se D1 ([f ], [g]) := d1 (f, g).
E. 20.25 Exercı́cio. Mostre que a combinação linear definida acima, assim como a métrica D 1 , estão
bem definidas, no sentido de serem independentes dos representantes f e g tomados em cada classe. Mostre
que D1 é de fato uma métrica, e não apenas uma pseudo-métrica, ou seja, satisfaz todos os postulados da
definição de uma métrica. 6
Optaremos tacitamente daqui por diante pela visão mais concreta de L1 (M, dµ) como o conjunto
obtido tomando um e apenas um representante arbitrário de cada classe de equivalência de L 1 (M, dµ).
Não há grandes diferenças técnicas entre as duas visões e raramente é necessário recorrer à definição
precisa em termos de classes de equivalência. Uma exceção se dará quando discutirmos o problema da
completeza dos espaços L1 (M, dµ). A visão concreta tem a vantagem de permitir prosseguir encarando
os elementos de L1 (M, dµ) como funções integráveis de M em e não como classes abstratas de funções.
Informalmente, a diferença entre L1 (M, dµ) e L1 (M, dµ) é que em L1 (M, dµ) identificamos funções
que diferem apenas em um conjunto de medida µ nula como se fossem a mesma função.
• A estrutura linear dos espaços Lp (M, dµ)
Proposição 20.8 Os conjuntos Lp (M, dµ), com p > 0, são espaços vetoriais complexos. 2
A prova é essencialmente idêntica à da Proposição 13.8, página 753, sobre os conjuntos de seqüências
`p e faz uso da Proposição 13.9, página 765, do Apêndice 13.A.
Prova. Há dois casos a considerar em separado: 0 < p < 1 e p ≥ 1.

Caso 0 < p < 1. Sejam f, g ∈ Lp (M, dµ), arbitrários. Como |f (x) + g(x)| ≤ |f (x)| + |g(x)|, a
segunda desigualdade em (13.A.2), página 765, implica
|f + g|p ≤ (|f | + |g|)p ≤ |f |p + |g|p .
Assim, Z Z Z
p p p p
|αf + βg| dµ ≤ |α| |f | dµ + |β| |g|p dµ < ∞
M M M
para quaisquer α, β ∈ . Isso provou que αf + βg ∈ Lp (M, dµ) e, portanto, para 0 < p < 1 o conjunto
Lp (M, dµ) é um espaço vetorial complexo.
Caso p ≥ 1. Sejam f, g ∈ Lp (M, dµ), arbitrários. Como |f (x) + g(x)| ≤ |f (x)| + |g(x)|, a segunda
desigualdade em (13.A.3), página 765, implica
|f + g|p ≤ (|f | + |g|)p ≤ 2p−1 (|f |p + |g|p) .
Assim, Z Z Z
p p−1 p p p−1 p
|αf + βg| dµ ≤ 2 |α| |f | dµ + 2 |β| |g|p dµ < ∞
M M M
para quaisquer α, β ∈ . Isso provou que αf + βg ∈ Lp (M, dµ) e, portanto, para p ≥ 1 o conjunto
Lp (M, dµ) é um espaço vetorial complexo. Isso é o que querı́amos provar.
Mais adiante, mostraremos que em Lp (M, dµ), para p ≥ 1, a expressão

Z 1/p
p
dp (f, g) := |f − g| dµ
M
define uma pseudo-métrica. De forma análoga ao que fizemos acima, e usando a mesma relação de
equivalência ∼ definida acima, o conjunto de classes Lp (M, dµ), definido por
Lp (M, dµ) := Lp (M, dµ)/ ∼ ,
é um espaço vetorial complexo e também um espaço métrico com a métrica induzida por d p . Também
iremos encarar Lp (M, dµ) como o conjunto obtido tomando um e apenas um representante arbitrário
de cada classe de equivalência de Lp (M, dµ).
20.4.1 As Desigualdades de Hölder e de Minkowski

Vamos agora tratar de duas desigualdades de importância primordial no estudo dos espaços L p (M, dµ),
as desigualdades de Hölder29 e de Minkowski30 . Já as encontramos no caso particular de espaços de
seqüências e, naquele caso, delas tratamos no Teorema 13.2 da página 754.
29
Otto L. Hölder (1859-1937).
30
Hermann Minkowski (1864-1909).
Teorema 20.7 (As desigualdades de Hölder e de Minkowski) Seja M um conjunto não-vazio,

M uma σ-álgebra em M e seja µ uma medida em M.
A desigualdade de Hölder é a afirmação que se p e q são tais que 1 < p < ∞, 1 < q < ∞ e
satisfazem 1/p + 1/q = 1, então para quaisquer f ∈ Lp (M dµ) e g ∈ Lq (M dµ) vale
Z Z 1/p Z 1/q
p q
|f | |g| dµ ≤ |f | dµ |g| dµ . (20.40)
M M M
A desigualdade de Minkowski é a afirmação que se p é tal que 1 ≤ p < ∞, então para quaisquer
f, g ∈ Lp (M dµ) tem-se
Z 1/p Z 1/p Z 1/p
p p p
|f − g| dµ ≤ |f | dµ + |g| dµ . (20.41)
M M M
A demonstração é apresentada no Apêndice 20.J, página 963. Em [104] uma interessante demons-
tração alternativa da desigualdade de Minkowski, usando a convexidade da função x p , é apresentada.
Aquela demonstração fornece também a versão da da desigualdade de Minkowski para o caso 0 < p < 1:
Z 1/p Z 1/p Z 1/p
p p p
|f + g| dµ ≥ |f | dµ + |g| dµ . (20.42)
M M M
Essa expressão, no entanto, só vale para f e g não-negativas.

A desigualdade de Hölder acima pode ser generalizada.
Corolário 20.3 Sejam f ∈ Lp (M dµ) e g = Lq (M dµ) onde p e q são tais que 1 0 por + = . Então, vale
p q r
Z 1/r Z 1/p Z 1/q
r r p q
|f | |g| dµ ≤ |f | dµ |g| dµ . (20.43)
M M M
A prova do Corolário 20.3 também encontra-se no Apêndice 20.J, página 963.

As desigualdades de Hölder e Minkowski têm uma série de conseqüências, em particular sobre a
estrutura dos espaços Lp (M, dµ) e Lp (M, dµ). Vamos explorar algumas.
• Lp (M, dµ), p ≥ 1, são espaços vetoriais complexos e normados
Já observamos acima (Proposição 20.8) que os conjuntos Lp (M dµ) são espaços vetoriais complexos.
No caso p ≥ 1 os mesmos possuem uma pseudo-norma definida por
Z 1/p
p
kf kp := |f | dµ . (20.44)
M
A propriedade básica de uma pseudo-norma, a saber kαf + βgkp ≤ |α| kf kp + |β| kgkp para todos
f, g ∈ Lp (M dµ) segue da desigualdade de Minkowski, pois a mesma nos garante que
Z 1/p Z 1/p Z 1/p
p p p
|αf + βg| dµ ≤ |α| |f | dµ + |β| |g| dµ .
M M M
A propósito, as desigualdades de Hölder e Minkowski (20.40) e (20.41) assumem com a notação de

(20.44) a forma
kf gk1 ≤ kf kp kgkq
e
kf − gkp ≤ kf kp + kgkp ,
respectivamente.
Por que k · kp é uma pseudo-norma e não uma norma em Lp (M dµ)? Pois, como discutimos no caso
p = 1, a relação kf kp = 0 não implica f = 0, mas apenas f = 0 µ-q.t.p. Se, no entanto, considerarmos
o espaço Lp (M, dµ), definido acima, k · kp será uma norma! Concluı́mos disso que para p ≥ 1, os
conjuntos Lp (M, dµ) são espaços vetoriais complexos e normados. Por serem normados, são também
espaços métricos com as métricas induzidas pelas normas k · kp :
Z 1/p
p
dp (f, g) := kf − gkp = |f − g| dµ .
M
Como veremos logo adiante, os espaços Lp (M, dµ) com p ≥ 1 são espaços de Banach, por serem
completos em relação à métrica dp acima.
• A desigualdade de Cauchy-Schwarz. Um produto escalar em L2 (M, dµ)
A desigualdade de Hölder (20.40) tem um caso particular muito importante, a saber, quando p =
q = 2: para f, g ∈ L2 (M, dµ) vale
Z Z 1/2 Z 1/2
2 2
|f | |g| dµ ≤ |f | dµ |g| dµ < ∞.
M M M
R R
Como também M f g dµ ≤ M |f | |g| dµ, segue que
Z Z 1/2 Z 1/2

f g dµ ≤ 2
|f | dµ 2
|g| dµ < ∞.

M M M
As duas desigualdades acima são denominadas desigualdades de Cauchy-Schwarz. A segunda está nos
dizendo que para f, g ∈ L2 (M, dµ) a expressão
Z
hf, gi := f g dµ
M
é um número complexo finito e, como facilmente se verifica, define um produto escalar em L2 (M, dµ).
E. 20.26 Exercı́cio. Demonstre as afirmações acima. 6

É também elementar constatar que a norma associada a esse produto escalar é a norma k · k 2 .
Como veremos logo abaixo, L2 (M, dµ) é completo em relação à métrica d2 que essa norma induz.
Conseqüentemente, L2 (M, dµ) é um espaço de Hilbert.
• Relações de inclusão entre os conjuntos Lp (M, dµ) quando µ(M ) < ∞
Se o conjunto M e a medida µ são tais que µ(M ) < ∞, então a função g(x) = 1 (identicamente
R
igual a 1 para todo x ∈ M ) pertence a todo Lq (M, dµ), 0 < q < ∞. Isso é evidente, pois M 1q dµ =
µ(M ) < ∞. Disso e da desigualdades de Hölder (20.43), extraem-se algumas conseqüências sobre
relações de inclusão entre os vários espaços Lp (M, dµ).
Para 1 < p < ∞ e 1 < q < ∞ arbitrários, tomando-se f ∈ Lp (M, dµ) e g = 1, obtem-se de (20.43)
que
Z 1/r Z 1/p
r
|f | dµ ≤ p
|f | dµ [µ(M )]1/q < ∞ , (20.45)
M M
para 1/r = 1/p + 1/q. Como 1 < q < ∞, segue que r < p. Como q é arbitrário, a desigualdade (20.45)
diz que se f ∈ Lp (M, dµ) então f ∈ Lr (M, dµ) para todo r ≤ p, ou seja, Lp (M, dµ) ⊂ Lr (M, dµ)
sempre que r ≤ p com 1 < p < ∞. Note que o caso r = 1 não está excluido (basta escolher q tal que
1/p + 1/q = 1). Assim, tem-se, por exemplo,
· · · ⊂ L4 (M, dµ) ⊂ L3 (M, dµ) ⊂ L2 (M, dµ) ⊂ L1 (M, dµ) .
Essas relações de inclusão não são geralmente válidas caso µ(M ) = ∞. Vide próximo exercı́cio.
E. 20.27 Exercı́cio. Mostre que a função


 1, x ∈ [−1, 1]
f (x) =
 1
, x 6∈ [−1, 1]
|x|
pertence a L2 ( , dµL ) mas não a L1 ( , dµL ).

Mostre que a função  1

 √|x| , 0 < |x| ≤ 1

f (x) =

 0, x = 0 ou |x| > 1
pertence a L1 ( , dµL ) mas não a L2 ( , dµL ).

Mostre que a função 

 1, x ∈ [−1, 1]
f (x) =
 1
, x 6∈ [−1, 1]
|x|2
pertence a L2 ( , dµL ) ∩ L1 ( , dµL ).

• Revisitando a desigualdade de Hölder

Se p e q são tais que 1 < p < ∞, 1 < q < ∞ e satisfazem 1/p + 1/q = 1, então para quaisquer
f ∈ Lp (M, dµ) e g ∈ Lq (M, dµ) a desigualdade de Hölder (20.40) implica que
Z Z 1/p Z 1/q

f g dµ ≤ p
|f | dµ q
|g| dµ < ∞. (20.46)

M M M
Como facilmente se verifica, a aplicação

Z
g 7→ f g dµ
M
é um funcional linear em Lq (M, dµ). Mais que isso, (20.46) diz-nos que se trata de um funcional linear
contı́nuo31 (na topologia de Lq (M, dµ)).
Concluı́mos disso que se 1 < p < ∞, 1 < q < ∞ e satisfazem 1/p + 1/q = 1, então L p (M, dµ) é um
sub-conjunto do dual topológico de Lq (M, dµ) e vice-versa.
E. 20.28 Exercı́cio. Justifique as afirmações acima 6
20.4.2 O Teorema de Riesz-Fischer. Completeza

Vamos agora formular um importante teorema que é uma das principais justificativas do interesse na
integral de Lebesgue e, em um certo sentido, coroa nossos esforços neste Capı́tulo. Trata-se do Teorema
de Riesz32 -Fischer33 , o qual data de 1907.
Teorema 20.8 (Teorema de Riesz-Fischer) Para p ≥ 1 os espaços L p (M, dµ) são espaços métricos
completos na métrica dp definida acima. 2
Do Teorema de Riesz-Fischer e das considerações acima concluı́mos que os espaços L p (M, dµ) com
p ≥ 1 são espaços de Banach e o espaço L2 (M, dµ) é um espaço de Hilbert.
A prova do Teorema de Riesz-Fischer encontra-se no Apêndice 20.K, página 965.
31
As noções de funcional linear e funcional linear contı́nuo foram introduzidas na Seção 2.1.3 do Capı́tulo 2.
32
33
Ernst Sigismund Fischer (1875-1954).
Apêndices
Nos vários apêndices que seguem apresentamos as demonstrações mais técnicas de alguns dos teo-
remas e proposições da nossa exposição.
20.A Demonstração da Proposição 20.3

Demonstraremos aqui a Proposição 20.3, página 905. Recordamos que as noções de lim inf e lim sup
de conjuntos dirigidos, as quais usaremos abaixo, são introduzidas na Seção 18.3, página 879.
Prova da Proposição 20.3. Pelo exercı́cio E. 20.2 da página 904, a rede P([a, b]) 3 P 7→ D i [P, f ] ∈ é
crescente, enquanto que a rede P([a, b]) 3 P 7→ Ds [P, f ] ∈ é decrescente. Assim,
Z b
lim inf Di [P, f ] = sup Di [P, f ] = f (x) dx
P∈P([a, b]) P∈P([a, b]) a
e Z b
lim sup Ds [P, f ] = inf Ds [P, f ] = f (x) dx .
P∈P([a, b]) P∈P([a, b]) a
(Vide definições (18.1)-(18.2) e (18.3)-(18.4)). Temos obviamente que

Di [P, f ] ≤ S[(P, χ), f ] ≤ Ds [P, f ]
para todo P ∈ P([a, b]) e todo χ ∝ P. Porém, vê-se pelas definições de Di e Ds que
Di [P, f ] = inf S[(P, χ), f ] e Ds [P, f ] = sup S[(P, χ), f ]
χ∝P χ∝P
e, portanto,
lim inf Di [P, f ] = lim inf S[(P, χ), f ] e lim sup Ds [P, f ] = lim sup S[(P, χ), f ] .
P∈P([a, b]) (P, χ)∈X([a, b]) P∈P([a, b]) (P, χ)∈X([a, b])
Logo,
Z b
f (x) dx = lim inf Di [P, f ] = lim inf S[(P, χ), f ]
a P∈P([a, b]) (P, χ)∈X([a, b])
Z b
≤ lim sup S[(P, χ), f ] = lim sup Ds [P, f ] = f (x) dx ,
(P, χ)∈X([a, b]) P∈P([a, b]) a
onde a única desigualdade que ocorre acima segue da propriedade (18.5). Dessa expressão, vê-se que
Rb Rb
a
f (x) dx = a
f (x) dx se e somente se
lim inf S[(P, χ), f ] = lim sup S[(P, χ), f ]

(P, χ)∈X([a, b]) (P, χ)∈X([a, b])
e, portanto, por (18.6), se e somente se existe lim S[(P, χ), f ]. Isso prova a equivalência das
(P, χ)∈X([a, b])
definições I e II da noção de integrabilidade de Riemann.
20.B Caracterizações e Propriedades de Funções Mensuráveis

Vamos aqui estudar com mais detalhe e profundidade caracterizações e propriedades elementares das
funções mensuráveis. Advertimos que a presente seção é, infelizmente, mas inevitavelmente, um pouco
técnica. Sugerimos a um estudante iniciante dispensar a leitura das demonstrações e concentrar-se
apenas nas definições e enunciados.
• Uma condição para mensurabilidade de funções
O próximo teorema (de [56]) é de importância fundamental e será usado em vários lugares mais
abaixo. A noção de σ-álgebra gerada por uma coleção de conjuntos foi introduzida no Capı́tulo 15.
Teorema 20.9 Sejam (M, M) e (N, N) dois espaços mensuráveis e suponhamos que N seja a σ-
álgebra gerada por uma coleção A de subconjuntos de N : N = M[A]. Então, uma função f : M → N
é [M, N]-mensurável, ou seja, [M, M[A]]-mensurável, se e somente se
f −1 (A) ∈ M (20.B.1)
para todo A ∈ A. 2
Prova. Se A ∈ A segue que A ∈ M[A]. Logo, se f é mensurável em relação a M e N = M[A], então,

pela definição de função mensurável, f −1 (A) ∈ M.
Vamos provar a recı́proca, ou seja, vamos supor que (20.B.1) valha para todo A ∈ A e mostrar que
f mensurável em relação a M e N = M[A]. Seja
A0 := {A0 ⊂ N | f −1 (A0 ) ∈ M} .
Por (20.B.1) é claro que A ⊂ A0 . Mostremos agora que A0 é uma σ-álgebra em N . Que ∅ e N
pertencem a A0 é claro, pois f −1 (N ) = M (isso segue de f (M ) ⊂ N ). Se A0 ∈ A0 , então f −1 ((A0 )c ) =
f −1 (N \ A0 ) = f −1 (N ) \ f −1 (A0 ) = M \ f −1 (A0 ) = (f −1 (A0 ))c . (Vide Proposições 1.2–1.4, página 25).
Por hipótese, f −1 (A0 ) ∈ M. Logo, como M é uma σ-álgebra, (f −1 (A0 ))c ∈ M.
Resta-nos provar que uma união contável de elementos de A0 é também elemento de A0 . Para isso,
sejam conjuntos A0k ∈ A0 , k ∈ . Sabemos que (vide Proposições 1.2–1.4, página 25)

!
[ [
f −1 A0k = f −1 (A0k ) .
k∈ k∈
Por hipótese, cada f −1 (A0k ) pertence a M. Como

S M é uma σ-álgebra, uma
S união0 contável de seus
−1 0 0
elementos também pertence a M. Logo, f k∈ Ak ∈ M. provando que
k∈ Ak ∈ A .
Como, por definição, M[A] é a menor σ-álgebra contendo A e A0 também é uma σ-álgebra contendo
A, segue que M[A] ⊂ A0 . Ora, pela definição de A0 , isso diz que a pré-imagem por f de qualquer
elemento de N = M[A] é um elemento de M. Isso significa precisamente que f é mensurável em relação
a M e N, completando a prova.
• Funções mensuráveis entre espaços topológicos
Já observamos acima a semelhança entre as definições de funções contı́nuas e funções mensuráveis.
As duas noções combinam-se elegantemente nos resultados que seguem.
O Teorema 20.9 tem uma aplicação imediata para funções contı́nuas definidas em espaços to-
pológicos. Sejam M e N dois conjuntos não-vazios dotados de topologias τM e τN , respectivamente, e se-
jam M[τM ] e M[τM ] as σ-álgebras geradas por essas topologias. Afirmamos que se f : M → N é contı́nua
com respeito às topologias τM e τN , então f é mensurável em relação às σ-álgebras M[τM ] e M[τN ],
ou seja, é [M[τM ], M[τN ]]-mensurável. De fato, pelo Teorema 20.9 basta provar que f −1 (A) ∈ M[τM ]
para todo A ∈ τN . Agora, por f ser contı́nua, vale que f −1 (A) ∈ τM se A ∈ τN . Como obviamente
τM ⊂ M[τM ], a afirmação está provada.
Note que se em M adotarmos uma σ-álgebra M que contem a σ-álgebra M[τM ], a mesma afirmação
é verdadeira: uma função f : M → N contı́nua com respeito às topologias τ M e τN é mensurável em
relação às σ-álgebras M[τM ] e M ⊃ M[τM ].
Disso segue que toda função f : → contı́nua em relação à topologia τ

é [M[τ ], M[τ ]]-

mensurável e também [M[τ ], MµL ]-mensurável.

A proposição adiante é um mero corolário das observações acima.

Proposição 20.9 Sejam X, Y e Z três conjuntos não-vazios, sendo o conjunto X dotado de uma
σ-álgebra MX e os conjuntos Y e Z dotados de topologias τY e τZ , respectivamente. Sejam f : X → Y
e g : Y → Z duas funções tais que f é [MX , M[τY ]]-mensurável e g é contı́nua em relação às topologias
τY e τZ . Então, g ◦ f : X → Z é [MX , M[τZ ]]-mensurável. 2
Prova. Pelo que acabamos de comentar, g é [M[τY ], M[τZ ]]-mensurável. Assim, g ◦ f é uma função
[MX , M[τZ ]]-mensurável por ser a composição de uma função [MX , M[τY ]]-mensurável com uma
função [M[τY ], M[τZ ]]-mensurável.
• Aplicação para funções numéricas
Notemos que o Teorema 20.9 é aplicável ao caso de funções f : M → , onde M dotada de uma
σ-álgebra M e da σ-álgebra de Borel M[τ ]. Nesse caso A = τ . Em verdade, provamos no Capı́tulo

15, mais especificamente na expressão (15.1), página 826, que M[τ ] = M[R], onde R é a coleção de

todos os intervalos abertos (a, b), com a e b racionais. Podemos, portanto, tomar A = R, nesse caso.
Conseqüentemente, para provar que uma função f : M → é mensurável em relação a M e M[τ ], é

suficiente, pelo Teorema 20.9, provar que f −1 ((a, b)) ∈ M para todo intervalo aberto (a, b), com a e b
racionais.
Observemos agora, que

[ c !
1
(a, b) = (−∞, b) ∩ −∞, a + .
n∈
n
TE. 20.29 Exercı́cio.

Prove isso! Sugestão: use (a, b) = (−∞, b) \ (−∞, a] e escreva (−∞, a] =
n∈
−∞, a + n1 . 6
Isso significa que

[ c !
1
f −1 ((a, b)) = f −1 ((−∞, b)) ∩ f −1 −∞, a + .
n∈
n
(Vide Proposições 1.2–1.4, página 25). Logo, pelos raciocı́nios usuais sobre uniões contáveis, inter-
secções finitas e complementos de elementos de uma σ-álgebras, segue que se f −1 ((−∞, c)) ∈ M para
todo c ∈ , então f −1 ((a, b)) ∈ M para todos com a e b racionais, provando que f é mensurável em

relação a M e M[τ ].

Um raciocı́nio idêntico nos leva a concluir que se f −1 ((c, ∞)) ∈ M para todo c ∈ , então f é
mensurável em relação a M e M[τ ].

Resumimos essas considerações na seguinte proposição, que usaremos logo abaixo:

Proposição 20.10 Consideremos uma função numérica f : M → , sendo M dotada de uma σ-

álgebra M e da σ-álgebra de Borel M[τ ]. Uma condição necessária e suficiente para que f seja

[M, M[τ ]]-mensurável é que para todo a ∈ valha

{x ∈ M | f (x) < a} = f −1 ((−∞, a)) ∈ M. (20.B.2)

Equivalentemente, podemos substituir o conjunto de (20.B.2) por qualquer um dos seguintes três con-
juntos:
{x ∈ M | f (x) ≤ a} = f −1 ((−∞, a]) ∈ M, (20.B.3)
{x ∈ M | f (x) > a} = f −1 ((a, ∞)) ∈ M, (20.B.4)
{x ∈ M | f (x) ≥ a} = f −1 ([a, ∞)) ∈ M. (20.B.5)

2
Prova. Que as condições são necessárias é evidente, pois os quatro conjuntos (20.B.2)-(20.B.5) são a
pré-imagem por f dos conjuntos Borelianos (−∞, a), (−∞, a], (a, ∞) e [a, ∞).
Acima, já provamos a recı́proca para os conjuntos (20.B.2) e (20.B.4). Os dois casos restantes são
conseqüência desses dois se lembrarmos que f −1 ((−∞, a]) = (f −1 ((a, ∞)))c e que f −1 ([a, ∞)) =
(f −1 ((−∞, a)))c .
Nosso próximo resultado é o seguinte:

Proposição 20.11 Se f : M → eg:M → são ambas [M, M[τ ]]-mensuráveis, então

{x ∈ M | f (x) < g(x)} ∈ M, (20.B.6)
{x ∈ M | f (x) ≤ g(x)} ∈ M, (20.B.7)
{x ∈ M | f (x) > g(x)} ∈ M, (20.B.8)
{x ∈ M | f (x) ≥ g(x)} ∈ M. (20.B.9)
Prova. Para demonstrar a primeira linha, notemos que

[
{x ∈ M | f (x) < g(x)} = {x ∈ M | f (x) < r} ∩ {x ∈ M | g(x) > r} .
r∈
E. 20.30 Exercı́cio. Mostre isso! Sugestão: lembre-se que f (x) < g(x) se e somente se existir pelo
menos um racional r tal que f (x) < r < g(x), ou seja, f (x) < r e r < g(x). 6
Como observamos acima, tanto {x ∈ M | f (x) < r} quanto {x ∈ M | g(x) > r} são elementos de
M. Pelas propriedades de σ-álgebras, sua intersecção também o é. Por fim, a união acima também
o é, por ser uma união contável de elementos de M (essa é uma das propriedades definidoras de uma
σ-álgebras). A prova que {x ∈ M | f (x) > g(x)} ∈ M é análoga:
[
{x ∈ M | f (x) > g(x)} = {x ∈ M | f (x) > r} ∩ {x ∈ M | g(x) < r}
r∈
e não requer mais comentários. Por fim, notemos que {x ∈ M | f (x) ≤ g(x)} = {x ∈ M | f (x) > g(x)} c
e que {x ∈ M | f (x) ≥ g(x)} = {x ∈ M | f (x) < g(x)}c . Como uma σ-álgebra é fechada pelo
complemento, segue do que já foi provado que {x ∈ M | f (x) ≤ g(x)} ∈ M e {x ∈ M | f (x) ≥ g(x)} ∈
M.
• A álgebra das funções mensuráveis
Vamos aqui provar a seguinte afirmativa, a qual coroa os resultados obtidos até aqui sobre funções
numéricas mensuráveis: o conjunto das funções numéricas mensuráveis forma uma álgebra. Mais
precisamente, tem-se
Proposição 20.12 Se f : M → eg:M → são ambas [M, M[τ ]]-mensuráveis, então



2
Prova. Para simplificar a linguagem, usaremos nesta prova a expressão função mensurável no sentido
de [M, M[τ ]]-mensurável.

Seja α ∈ . Afirmamos que αf é igualmente mensurável. Se α = 0 a afirmativa é trivial. Se α 6= 0,

notemos que para todo a ∈
{x ∈ M | αf (x) < a} = {x ∈ M | f (x) < a/α} ∈ M
por (20.B.2), já que, por hipótese, f é mensurável. Como isso vale para todo a ∈ , segue pela mesma
Proposição 20.10 que αf é igualmente mensurável.
O mesmo tipo de argumento tem outra conseqüência semelhante. Se h : M → é mensurável,
então que para todo b ∈ vale
{x ∈ M | b + h(x) < a} = {x ∈ M | h(x) < a − b} .
Como h é mensurável, {x ∈ M | h(x) < a − b} ∈ M. Como isso vale para todo a ∈ , concluı́mos da
igualdade acima que b + h é mensurável.
Observe-se agora que
{x ∈ M | f (x) + g(x) < a} = {x ∈ M | f (x) < a − g(x)} .
Definindo-se h(x) = a − g(x), constatamos pelas considerações de acima que se trata de uma função
mensurável. Assim, pela Proposição 20.11, segue que {x ∈ M | f (x) + g(x) < a} ∈ M para todo a, o
que implica que f + g e mensurável.
Concluı́mos disso tudo que para todos α, β ∈ a função αf + βg é mensurável em relação a M

e M[τ ]. Resta-nos ainda mostrar que o produto f · g é mensurável. Provemos primeiro que se f é

mensurável então f 2 também o é. De fato, para a < 0
{x ∈ M | f (x)2 < a} = ∅ ∈ M
mas para a ≥ 0,
√ √
{x ∈ M | f (x)2 < a} =
x ∈ M | f (x) < a ∪ x ∈ M | f (x) < − a .
√
Como f é mensurável, segue que {x ∈ M | f (x) < ± a} ∈ M. Logo {x ∈ M | f (x)2 < a} ∈ M e como
isso vale para todo a ∈ , segue que f 2 é mensurável.

A prova que f · g é mensurável segue da relação

1
f ·g = (f + g)2 − (f − g)2
4
e reunindo tudo o que vimos.
A seguinte proposição também é relevante:

√
Proposição 20.13 Se f : M → é [M, M[τ ]]-mensurável e f (x) ≥ 0 para todo x ∈ M , então

f
é também [M, M[τ ]]-mensurável.

2
p
Prova. Para f : M → , basta observar que para a < 0 vale {x ∈ M | f (x) < a} = ∅ ∈ M e para
a ≥ 0, p
f (x) < a} = {x ∈ M | f (x) < a2 } ∈ M ,
{x ∈ M |
√
pois f é mensurável. Isso provou que f é [M, M[τ ]]-mensurável.
• Funções complexas mensuráveis
O conjunto dos números complexos é um espaço topológico métrico completo com a métrica
d(z, w) = |w − z|, z, w ∈ . Denotaremos por τ a topologia que essa métrica induz, a topologia

usual de . A essa topologia vem associada a σ-álgebra Boreliana M[τ ].
Vamos demonstrar a seguinte proposição:

Proposição 20.14 Seja (M, M) um espaço mensurável e f : M → uma função complexa [M, M[τ ]]-
mensurável definida em M . Então Re(f ), Im(f ) e |f | são funções reais [M, M[τ ]]-mensuráveis. 2
Prova. Comecemos por observar que a função Re : → dada por Re(z) = (z + z)/2 é contı́nua,

assim como a função Im : → dada por Im(z) = (z − z)/(2i).

E. 20.31 Exercı́cio simples. Prove isso! 6
Com isso em mente, podemos entender a função Re(f ) : M → como a composição Re ◦ f da
função [M, M[τ ]]-mensurável f com a função Re que é contı́nua em relação às topologias τ e τ .

Assim, pela Proposição 20.9, página 948, segue que Re(f ) : M → é [M, M[τ ]]-mensurável. A prova

para Im(f ) é idêntica.

A função módulo | · | : → é também uma função contı́nua entre e . (Isso é totalmente óbvio,

pois a métrica em é definida por essa função!). Assim o mesmo argumento se aplica novamente.
Outra maneira de provar que | · | : → é [M, M[τ ]]-mensurável é lembrar que (Re(f ))2 +

(Im(f
p ))2 é [M, M[τ ]]-mensurável pela Proposição 20.12 e, portanto, pela Proposição 20.13, |f | =

(Re(f ))2 + (Im(f ))2 é [M, M[τ ]]-mensurável.

A Proposição 20.14 tem parcialmente uma recı́proca:

Proposição 20.15 Se u : M → ev:M → são [M, M[τ ]]-mensuráveis então f : u+iv : M →

é [M, M[τ ]]-mensurável.

Prova. (De [105]). Seja I1 um intervalo aberto do eixo real e I2 um intervalo aberto do eixo imaginário.
Então R = I1 × I2 é um retângulo aberto em . Agora, é fácil ver que f −1 (R) = u−1 (I1 ) ∩ v −1 (I2 ).
Pelas hipóteses, u−1 (I1 ) e v −1 (I2 ) pertencem à σ-álgebra M. Logo, f −1 (R) também.SLembremos que
todo aberto A de pode ser ser escrito como união contável de tais retângulos: A = n∈ Rn . Agora,
por (1.14), página 25, !

[ [
f −1 (A) = f −1 Rn = f −1 (Rn ) .
n∈ n∈
Mas como vimos f −1 (Rn ) ∈ M para todo n e, como a união acima é contável, segue que f −1 (A) ∈ M.
Pela Proposição 20.9, isso prova que f é [M, M[τ ]]-mensurável.

Para as funções complexas mensuráveis vale a mesma afirmação feita sobre as funções reais: elas
formam uma álgebra. Mais precisamente, tem-se
Proposição 20.16 Se f : M → eg:M → são ambas [M, M[τ ]-mensuráveis, então



Prova. A prova é elementar com o que acumulamos até aqui, pois é fácil provar (usando as Proposições
20.12 e 20.14) que as partes reais e imaginárias de αf + βg e de f · g são [M, M[τ ]]-mensuráveis. Daı́,

pela Proposição 20.15, αf + βg e f · g são [M, M[τ ]]-mensuráveis.

20.C Prova do Lema 20.3

A prova (extraı́da com modificações de [56]) consiste em exibir uma seqüência f n de funções simples
mensuráveis e não-negativas e verificar as propriedades. A seqüência é
n2
X
n
k−1
fn (x) := χFn, k (x) + nχGn (x) ,
k=1
2n
onde
k−1 k k−1 k
Fn, k := f −1
, n = x ∈ M ≤ f (x) < n ,
2n 2 2n 2
e
Gn := f −1 ([n, ∞]) = {x ∈ M | n ≤ f (x) ≤ ∞} .
Como por hipótese f é Boreliana,
k−1 k é imediato que Fn, k e Gn são mensuráveis (ou seja, elementos de
M), já que os intervalos 2n , 2n e [n, ∞] são Borelianos. Assim, cada fn é uma função simples e
mensurável.
Queremos provar que fn é não-decrescente e que converge a f . Para isso, é preciso entender melhor
como a seqüência fn está definida. Para cada n, divide-se o intervalo semi-aberto [0, n) em n2n sub-
intervalos semi-abertos menores de tamanho 21n , que são os intervalos k−1 2n
, 2kn com k variando entre
n
1 e n2 . Os conjuntos Fn, k são as pré-imagens por f desses sub-intervalos semi-abertos. A divisão
de [0, n) em n2n sub-intervalos semi-abertos de tamanho 21n significa que cada intervalo semi-aberto
[l, l + 1), com l = 0, . . . , n − 1, é dividido em 2n intervalos semi-abertos de igual tamanho, a saber,
1
2n
.

Se x é tal que f (x) cai em k−1
2n
, 2kn , então fn (x) é definido como sendo k−1
2n
. Se x é tal que f (x) ≥ n,
então fn (x) é definido como sendo n. Assim, para todo x, fn (x) é sempre menor o igual a f (x).
1
Se passarmos de n para n + 1, cada intervalo
passa a ter tamanho 2n+1 , que é a metade do anterior.
k−1 k
Assim cada intervalo semi-aberto
k−1 k 2k−2 2k−1 2k−1 2n
, 2n
passa a ser dividido em dois intervalos semi-abertos disjun-
2k
tos: 2n , 2n = 2n+1 , 2n+1 ∪ 2n+1 , 2n+1 . Como as novas subdivisões estão contidas nas anteriores,
o valor de cada fn+1 (x) só pode aumentar em relação ao de fn . Mais precisamente, para x ∈ Fn, k a
função fn vale k−1
2n
. Após a primeira subdivisão (ao passarmos de n a n + 1) o conjunto Fn, k passa a ser
a união dos dois conjuntos disjuntos Fn+1, 2k−1 e Fn+1, 2k . No primeiro fn+1 (x) vale 2k−22n+1
= k−1
2n
= fn (x)
2k−1 k−1
e no segundo fn+1 (x) = 2n+1 > 2n = fn (x), o que prova o que afirmamos.
Para ver que fn converge a f , observe-se que se f (x) é finito,
k−1 então
para todo n > f (x) tem-se
k
obviamente que f (x) ∈ [0, n) e, portanto, vale que f (x) ∈ 2n , 2n para algum k entre 1 e n2n .
Teremos então, pela definição, que fn (x) = k−1
2n
e, portanto, |fn (x) − f (x)| ≤ 21n , o que prova que
fn (x) → f (x) quando n → ∞. Se f (x) não é finito, fn (x) = n para todo n, pela definição e, portanto,
fn (x) → ∞ quando n → ∞.
Resta apenas provar que se f é finito a convergência é uniforme. Se A > 0 é tal que 0 ≤ f (x) < A
para todo x ∈ M , então é certo que se n > A teremos que para cada x haverá um k entre 1 e n2 n
k−1
tal que f (x) ∈ 2n , 2kn . Nesse caso fn (x) = k−1 2n
e |fn (x) − f (x)| ≤ 21n , Ora, o lado direito dessa
desigualdade não depende de x, o que mostra que a mesma é uniforme em todo M , completando a
prova do Lema 20.3, página 920.
20.D Demonstração de (20.22)

Provemos a relação (20.22). Temos que, para todo Bk vale
Bk = Bk ∩ M = Bk ∩ (C1 ∪ · · · ∪ Cq ) = (Bk ∩ C1 ) ∪ · · · ∪ (Bk ∩ Cq )
sendo que a união do lado direito é disjunta, pois (Bk ∩ Ci ) ∩ (Bk ∩ Cj ) = (Ci ∩ Cj ) ∩ Bk = ∅ para
i 6= j. Com isso, se µ é uma medida,
q
X
µ(Bk ) = µ ((Bk ∩ C1 ) ∪ · · · ∪ (Bk ∩ Cq )) = µ(Bk ∩ Cl ) . (20.D.10)
l=1
Analogamente, para todo Cl vale

Cl = Cl ∩ M = Cl ∩ (B1 ∪ · · · ∪ Bp ) = (Cl ∩ B1 ) ∪ · · · ∪ (Cl ∩ Bp )
também uma união disjunta e também tem-se
p
X
µ(Cl ) = µ ((Cl ∩ B1 ) ∪ · · · ∪ (Cl ∩ Bp )) = µ(Cl ∩ Bk ) . (20.D.11)
k=1
Assim,
p p q q p q
X (20.D.10) X X X X (20.D.11) X
βk µ(Bk ) = βk µ(Bk ∩ Cl ) = γl µ(Bk ∩ Cl ) = γl µ(Cl ) ,
k=1 k=1 l=1 l=1 k=1 l=1
o que prova (20.22). Na segunda igualdade, acima, trocamos βk por γl e a razão de podermos fazer
isso é a seguinte. Se Bk ∩ Cl = ∅ então µ(Bk ∩ Cl ) = 0, o que autoriza a substituição. Se Bk ∩ Cl 6= ∅,
então βk = γl , pois se x ∈ Bk ∩ Cl , vale pelas representações normais de (20.21) que s(x) = βk e que
s(x) = γk .
20.E A Equivalência das Definições (20.23) e (20.24)

Vamos aqui mostrar a equivalência das duas definições (20.23) e (20.24) da integral de Lebesgue. Nosso
tratamento segue [56], com ligeiras adaptações e melhorias. Vamos supor que s ∈ S(f ) e que f n é uma
seqüência monótona crescente de funções simples mensuráveis de S(f ) que converge a f (que tal existe,
garante-nos o Lema 20.3). Vamos primeiramente mostrar que
Z Z
s dµ ≤ lim fn dµ .
M n→∞ M
R R
Há dois casos a tratar, I quando s dµ = ∞ e II quando M s dµ < ∞.
M
R
I. No primeiro caso desejamos provar
Pn que M fn dµ diverge quando R n → ∞. Façamos isso. Se s tem
representação normal curta s(x) = k=1 sk χSk (x), então o fato de M s dµ = ∞ implica que existe um
k0 com sk0 > 0 e µ(Sk0 ) = ∞. Fixemos um tal que 0 < < sk0 e definamos os conjuntos
An := { x ∈ M | fn (x) + > s(x) } .
É fácil ver que Am ⊂ An para todos m ≤ n, pois fn é uma seqüência crescente. Fora isso,
[
An = M .
n∈
Isso se deve ao seguinte. Se x ∈ M então, como fn (x) converge a f (x) ≤ s(x), segue que para algum
n grande o suficiente teremos fn (x) + > s(x). Assim, todo x ∈ M pertence a algum An .
Temos, com isso, que
[ [
S k0 = S k0 ∩ M = S k0 ∩ An = (An ∩ Sk0 )
n∈ n∈
Como Am ∩ Sk0 ⊂ An ∩ Sk0 para todos m ≤ n, podemos evocar a propriedade geral de medidas 3 da
página 842 e escrever µ(Sk0 ) = limn→∞ µ(An ∩ Sk0 ), o que nos diz que limn→∞ µ(An ∩ Sk0 ) = ∞. Agora,
Z Z Z
fn dµ > fn χAn ∩Sk0 dµ > (s − ) χAn ∩Sk0 dµ
M M M
Z
= (sk0 − ) χAn ∩Sk0 dµ
M
Z
= (sk0 − ) χAn ∩Sk0 dµ
M
= (sk0 − )µ(An ∩ Sk0 ) .
A segunda desigualdade (primeira linha) se deve ai fato que em An tem-se fn (x) > s(x) − . A primeira
igualdade (segunda linha) se deve ao fato que em Sk0 a função s vale sk0 .
Z h i
Assim, lim fn dµ > (sk0 − ) lim µ(An ∩ Sk0 ) = ∞, como querı́amos mostrar.
n→∞ M n→∞
R Pn
II. Consideremos
R agora o Pn M s dµ < ∞. Seja s(x) = k=1 sk χSk (x) a representação normal
caso
curta de s. Como M s dµ = k=1 sk µ(Sk ) < ∞, segue que µ(Sk ) < ∞ para todo k com sk > 0.
Seja T := {x ∈ M | s(x) > 0}. É fácil ver que
[
T = Sk .
k=1, ..., n
sk >0
X
Tem-se então µ(T ) = µ(Sk ) < ∞. Vamos escolher um fixo tal que 0 < < minsk >0 {sk }. Segue
k
sk >0
que
Z Z
fn dµ ≥ fn χAn ∩T dµ
M M
Z
> (s − ) χAn ∩T dµ
M
Z Z
= s χAn ∩T dµ − χAn ∩T dµ
M M
Z
= s χAn ∩T dµ − µ(An ∩ T )
M
Z
≥ s χAn ∩T dµ − µ(T )
M
Z
= s χAn ∩T χT dµ − µ(T )
M
Z Z
= s χT dµ − s (1 − χAn ∩T ) χT dµ − µ(T )
M M
Z Z
= s dµ − s (χT − χAn ∩T ) dµ − µ(T )
M M
R
Acima,
R usamos em vários lugares que χ A n ∩T = χ A n ∩T χ T . Na última igualdade usamos que M
s χT dµ =
M
s dµ. Agora, se definirmos sm = supx∈M s(x) = max{s1 , . . . , sn } ≥ 0, teremos
Z Z
s (χT − χAn ∩T ) dµ ≤ sm (χT − χAn ∩T ) dµ = sm (µ(T ) − µ(An ∩ T )) .
M M
Pelo mesmo argumento usado na parte I, vale limn→∞ µ(An ∩ T ) = µ(T ). Com isso, teremos que
sm (µ(T ) − µ(An ∩ T )) ≤ para todos os n’s grandes o suficiente. Assim, para todos os n’s grandes o
suficiente, Z Z
fn dµ > s dµ − − µ(T ) .
M M
O lado direito não depende de n. Logo,

Z Z
lim fn dµ > s dµ − − µ(T ) .
n→∞ M M
Z Z
Como essa desigualdade vale para arbitrário, segue que lim fn dµ ≥ s dµ, completando a
n→∞ M M
prova para o caso II.
Z Z Z Z
A desigualdade lim fn dµ ≥ s dµ mostra que lim fn dµ ≥ sup s dµ. Agora, como
n→∞ M M n→∞ M s∈S(f ) M
Z Z
fn ∈ S(f ), é claro que lim fn dµ ≤ sup s dµ. Isso mostra que se fn é qualquer seqüência
n→∞ M s∈S(f ) M
monótona crescente de funções simples mensuráveis de S(f ) que converge a f vale
Z Z
lim fn dµ = sup s dµ ,
n→∞ M s∈S(f ) M
provando a equivalência das duas definições (20.23) e (20.24).
20.F Prova do Teorema da Convergência Monótona

Apresentamos aqui a demonstração do Teorema 20.4, o Teorema da Convergência Monótona.
Prova do Teorema 20.4.34 Pelas hipóteses f = supn∈ fn , assim, pela discussão da página 917 sobre

funções definidas pelo supremo de seqüências, f é mensurável.

R
Pelas hipóteses, a seqüência
R f dµ ou converge a algum número finito não-negativo ou diverge.
M n
Assim,
R seja RF := limn→∞ M fn dµ com F ∈ + ∪ {∞}. Como fn (x) < f (x) para todo x, segue que

f
M n
dµ ≤ M f dµ. Logo, Z
F ≤ f dµ. (20.F.12)
M
Seja agora s ∈ S(f ), ou seja, s é simples, [M, M[τ ]]-mensurável e 0 ≤ s ≤ f . Tomando-se uma

constante c fixa no intervalo (0, 1), definamos para cada n ∈ os conjuntos
En := {x ∈ M | fn (x) ≥ cs(x)}.
Pela Proposição 20.11, página 950, os conjuntos En são todos mensuráveis (ou seja, pertencem a M).
Como {fn } é crescente, é também imediato que En ⊂ En+1 para todo n.
Se x ∈ M e f (x) = 0, então x ∈ E1 , pois nesse caso f1 (x) = s(x) = f (x) = 0. Se x ∈ M e f (x) > 0,
então cs(x) < f (x), pois c foi escolhido menor que 1.SComo fn (x) → f (x), haverá algum n para o qual
fn (x) ≥ cs(x) e, portanto, x ∈ En . Isso provou que n∈ En = M . Pelo Lema 20.4, página 923, e pela

propriedade geral de medidas do item 3, página 842, isso implica que

Z Z
lim s dµ = s dµ .
n→∞ En M
34
A demonstração abaixo é encontrada de forma quase idêntica em vários textos, por exemplo, em [105]
Como fn ≥ fn χEn , vale que

Z Z Z Z Z
fn dµ ≥ fn χEn dµ = fn dµ ≥ c s dµ = c s dµ .
M M En En En
R
para todo n. Tomando o limite n → ∞ em ambosRos lados, concluı́mos que F ≥ c M s dµ. Como
isso
R vale para todo Rc entre 0 e 1, segue que F ≥R M s dµ. Agora, recordando que,Rpela definição,
M
f dµ R= sups∈S(f ) M s dµ, concluı́mos que F ≥ M f, dµ. Por (20.F.12), segue que M f dµ = F =
limn→∞ M fn dµ. Isso completa a demonstração do Teorema 20.4.
20.G Prova do Lema de Fatou
Prova do Lema de Fatou. Sejam as funções gn : M → definidas da seguinte forma: para cada x ∈ M

tem-se gn (x) = inf fk (x). É claro que cada gn é não-negativa e, pelos comentários da página 917,
k≥n
[M, M[τ ]]-mensurável. É também claro que gn (x) ≤ gn+1 (x) para todo n e para todo x ∈ M e que

fn (x) ≥ gn (x), também para todo n e para todo x ∈ M . Agora, para cada x ∈ M
lim gn (x) = sup gn (x) = sup inf fk (x) = lim inf fn (x) . (20.G.13)
n→∞ n≥1 n≥1 k≥n n→∞
(A última igualdade é a definição de lim inf). Como fn (x) ≥ gn (x) tem-se

Z Z
fn dµ ≥ gn dµ
M M
para todo n, e assim, Z Z

inf fk dµ ≥ inf gk dµ .
k≥n M k≥n M
Como gn (x) ≤ gn+1 (x) para todo n, tem-se que
Z Z
inf gk dµ = gn dµ
k≥n M M
e, portanto, Z Z
inf fk dµ ≥ gn dµ .
k≥n M M
Conseqüentemente, Z Z
sup inf fk dµ ≥ sup gn dµ .
n≥1 k≥n M n≥1 M
Agora, por definição Z Z

lim inf fn dµ = sup inf fk dµ
n M n≥1 k≥n M
e, além disso, Z Z
sup gn dµ = lim gn dµ ,
n≥1 M n→∞ M
Z
pois gn dµ é crescente. Portanto, provamos que
M
Z Z
lim inf fn dµ ≥ lim gn dµ .
n M n→∞ M
Como gn satisfaz os requisitos do Teorema da Convergência Monótona, Teorema 20.4, página 933, vale
que Z Z
lim gn dµ = lim gn dµ
n→∞ M M n→∞
e, assim, Z Z
lim inf fn dµ ≥ lim gn dµ . (20.G.14)
n M M n→∞
Por fim, sabemos por (20.G.13) que lim gn = lim inf fn (x) e, assim, (20.G.14) estabeleceu que
n→∞ n→∞
Z Z
lim inf fn dµ ≥ lim inf fn dµ ,
n M M n→∞
20.H Prova do Teorema da Convergência Dominada

Seguiremos aqui [105].
Prova do Teorema da Convergência Dominada. É claro que se f (x) = lim f (x) e |fn (x)| ≤ F (x) para
n→∞
todo n ∈ e todo x ∈ M , então |f (x)| ≤ F (x) para todo xR∈ M . ComoR f é também [M, M[τ ]]-

mensurável (por ser o limite de funções mensuráveis), então M |f | dµ < M F dµ < ∞ e, portanto,
f ∈ L1 (M, dµ). Isso provou o item 1 do Teorema 20.6.
Em segundo lugar, notemos que |f − fn | ≤ |f | + |fn | ≤ 2F . Assim, as funções gn = 2F − |f − fn |
são não-negativas e podemos aplicar o Lema de Fatou, Lema 20.5, que diz-nos que
Z Z
lim inf (2F − |f − fn |) dµ ≤ lim inf (2F − |f − fn |) dµ .
M n→∞ n→∞ M
Por um lado, temos que
lim inf (2F − |f − fn |) = 2F − lim sup |f − fn | = 2F ,

n→∞ n→∞
pois lim inf −|f − fn | = − lim sup |f − fn | = 0. (Justifique!) Por outro lado,
n→∞ n→∞
Z Z Z
lim inf (2F − |f − fn |) dµ = 2F dµ + lim inf −|f − fn | dµ .
n→∞ M M n→∞ M
Porém, vale que Z Z

lim inf −|f − fn | dµ = − lim sup |f − fn | dµ .
n→∞ M n→∞ M
(Justifique!) Assim, provamos que

Z Z Z
2 F dµ ≤ 2 F dµ − lim sup |f − fn | dµ .
M M n→∞ M
R R
Como M F dµ ≤ ∞ (pois F ∈ L1 (M, dµ)), podemos subtrair o termo 2 M F dµ de ambos os lados
da expressão acima e concluir que
Z
lim sup |f − fn | dµ ≤ 0 .
n→∞ M
R
Como M
|f − fn | dµ ≥ 0, segue que
Z
lim |f − fn | dµ = 0 .
n→∞ M
Isso provou o item 2 do Teorema 20.6. Como |f − fn | ≤ 2F , segue que (f − fn ) ∈ L1 (M, dµ) e podemos
aplicar (20.33) e concluir que Z

lim (f − fn ) dµ = 0 ,
n→∞ M
ou seja, Z Z
f dµ = lim fn dµ .
M n→∞ M
Isso provou o item 3 do Teorema 20.6.
20.I Prova dos Teoremas 20.2 e 20.3

Aqui apresentamos a demonstração dos Teoremas 20.2 e 20.3, os quais tratam da relação entre as
integrais de Riemann e Lebesgue. Seguiremos essencialmente [56], que por sua vez segue [8]. Para uma
outra demonstração ligeiramente diferente do Teorema 20.2 vide, por exemplo, [39].
Prova do Teorema 20.2. A prova que apresentamos requer o Lema de Fatou e o Teorema da Convergência
Dominada, tratados na Seção 20.3.4, página 933.
Dada uma função real limitada e integrável por Riemann f , definida em [a, b], e dada uma partição
Pn = {x1 , . . . , xn } de [a, b] com a = x1 < . . . < xn = b, sejam as somas de Darboux
n−1
X n−1
X
Di [Pn , f ] := inf f (y) |Ik | e Ds [Pn , f ] := sup f (y) |Ik | ,
y∈Ik y∈Ik
k=1 k=1
onde Ik = [xk , xk+1 ) e |Ik | = xk+1 − xk = µL (Ik ).

Definamos também as funções simples
n−1
X n−1
X
σn := inf f (y) χI k e Σn := sup f (y) χI k . (20.I.15)
y∈Ik y∈Ik
k=1 k=1
É bastante claro que σn e Σn são funções mensuráveis Borelianas, pois os intervalos Ik = [xk , xk+1 )
são Borelianos. É também evidente que
Z Z
Di [Pn , f ] = σn dµL e Ds [Pn , f ] = Σn dµL .
[a, b] [a, b]
Se f é integrável por Riemann então existe uma seqüência de partições P 1 , P2 , P3 , . . ., com Pn+1
mais fina que Pn para todo n e tais que Di [Pn , f ] → ρ e Ds [Pn , f ] → ρ para algum ρ ∈ . Esse ρ é,
Z b

por definição, a integral de Riemann de f em [a, b], ou seja, ρ = f (x)dx. Assim,

a
Z Z
lim σn dµL = lim Σn dµL = ρ ,
n→∞ [a, b] n→∞ [a, b]
e Z
lim (Σn − σn ) dµL = 0.
n→∞ [a, b]
A seqüência qn = Σn − σn é não-crescente, pois Σn é não-crescente e σn é não-decrescente (certo?).

Assim, a função q = inf qn = lim qn é Boreliana (vide discussão à página 917). Pelo Lema de Fatou
n n→∞
(Lema 20.5, página 934),
Z Z Z
q dµL = lim qn dµL = lim inf qn dµL
[a, b] [a, b] n→∞ [a, b] n→∞
Z Z
≤ lim inf qn dµL = lim (Σn − σn ) dµL = 0.
n→∞ [a, b] n→∞ [a, b]
Como qn = Σn − σn ≥ 0 (certo?), segue pela Proposição 20.6, página 925, que q = 0 µL -q.t.p. em [a, b].
Como σn ≤ f ≤ Σn para todo n, segue que f = lim σn µL -q.t.p. em [a, b]. Como f é limitada,
n→∞
existe M > 0 tal que |f | < M . Mas isso implica também que |σn | < M pois, por (20.I.15), vale
n−1
X
n−1
X

|σn | ≤
inf f (y) χIk ≤ M χI k = M .
y∈I k
k=1 k=1
R
A função constante igual a M é integrável em [a, b] (pois [a, b] M dµL = M (b − a) < ∞). Logo,
podemos aplicar o Teorema da Convergência Dominada, Teorema 20.6, página 935, e concluir do fato
que f = limn→∞ σn que f é integrável e que,
Z Z Z b
f dµL = lim σn dµL = lim Di [Pn , f ] = ρ = f (x) dx .
[a, b] n→∞ [a, b] n→∞ a
provando a igualdade da integral de Riemann e a de Lebesgue no caso tratado. Isso encerra a prova
do Teorema 20.2.
Passemos agora à prova do Teorema 20.3.

Prova do Teorema 20.3. (De [56], com aperfeiçoamentos). A prova que apresentamos requer o Teorema
da Convergência Monótona, tratado na Seção 20.3.4, página 933.
Z n
Seja a integral de Riemann f (x) dx, a qual existe para todo para n ∈ , por hipótese. Pelo
−n
Teorema 20.2, Z Z
n
f (x) dx = f dµL ,
−n [−n, n]
a integral à direita sendo a de Lebesgue. Podemos escrever
Z Z
f dµL = f χ[−n, n] dµL .
[−n, n]
Agora, as funções fn = f χ[−n, n] são Borelianas, são não-negativas e formam uma seqüência não-
decrescente, pois fn ≤ fn+1 para todo n ∈ , já que [−n, n] ⊂ [−(n + 1), n + 1]. Assim, podemos

aplicar o Teorema da Convergência Monótona, Teorema 20.4, página 933, e obter

Z n Z Z Z
lim f (x) dx = lim fn dµL = lim fn dµL = f dµL . (20.I.16)
n→∞ −n n→∞
n→∞
Acima, o fato que limn→∞ fn (x) = f (x) para cada x ∈ é conseqüência de que [−n, n] → (−∞, ∞)
quanto n → ∞.
R ∞ Assim, concluı́mos da igualdade em (20.I.16) que se f possuir uma integral R n de Riemann imprópria
f (x) dx (definida na Seção 20.2.1, página 907), então o limite lim n→∞ −n f (x) dx, existe e é igual
R∞
−∞ R
a −∞ f (x) dx ∈ e, com isso concluı́mos que
f dµL é finita e, portanto, f é integrável no sentido

de Lebesgue (como f é não-negativa, é óbvio que f = |f |).

R
Por outro lado, se f for integrável Rno sentido de Lebesgue, então F := f dµL < ∞ e, pela
n
igualdade em (20.I.16), o limite limn→∞ −n f (x) dx existe e é igual a F . Portanto, para qualquer > 0
existe n0 ≡ n0 () ∈ tal que

Z n0

f (x) dx − F < . (20.I.17)

−n0
Para todo intervalo finito Z b] ⊃ [−nZ
Z [a, b] com [a, 0 , n0 ] vale f χ[−n0 , n0 ] ≤ f χ[a, b] ≤ f pois f é não-
negativa. Isso implica f dµ ≤ f dµ ≤ f dµ, ou seja,

[−n0 , n0 ] [a, b]
Z n0 Z b
f (x) dx ≤ f (x) dx ≤ F . (20.I.18)
−n0 a
Conseqüentemente, por (20.I.17) e (20.I.18),

Z b

f (x) dx − F < .

a
Rβ
Esse fato diz-nos que a rede [α, β] → α f (x) dx está eventualmente em qualquer intervalo aberto
(F − , F + ). (Para a definição de “estar eventualmente”, vide Seção 18.4, página 884). Isso diz-nos
que F é um ponto limite dessa rede, o qual, se existe, é único, pois é um espaço Hausdorff (vide
Proposição 18.5, página 885). Assim, pela definição

R da Seção 20.2.1, página 907, f possui uma integral
de Riemann imprópria e essa é igual a F := f dµL .
20.J Prova das Desigualdades de Hölder e Minkowski
Prova do Teorema 20.7. Provaremos primeiro a desigualdade de Hölder e dela extrairemos a de Min-
kowski.
A prova da desigualdade de Hölder (20.40) segue os mesmos passos daquela do Teorema 13.2, página
13.2. Lembremos, em primeiro lugar a desigualdade demonstrada à página 764, que estabelece que
a b
a1/p b1/q ≤ + , (20.J.19)
p q
1 1
para a ≥ 0, b ≥ 0 e p e q ambos tais que 1 < p < ∞ e 1 < q < ∞, e que + = 1. Em (20.J.19), a
p q
igualdade se dá se e apenas se a = b.
R
Notemos primeiramente que no caso de termos M |f |p dµ = 0, a desigualdade (20.40) é automati-
camente satisfeita, pois valerá |f | = 0 µ-q.t.p. e, Rportanto, |f g| = 0 µ-q.t.p., o que implica
R que o lado
q p
esquerdo de (20.40) é nulo. O mesmo se dá caso M |g| dµ = 0. No caso de termos M |f | dµ = ∞ a
desigualdade em (20.40) e também trivial. Com isso, podemos supor que
Z Z
p
0 < |f | dµ < ∞ e 0 < |g|q dµ < ∞ .
M M
Para x ∈ M , tomemos
|f (x)|p |g(x)|q
a = Z e b = Z .
p q
|f | dµ |g| dµ
M M
A relação (20.J.19) diz-nos que
|f (x)| |g(x)| 1 |f (x)|p 1 |g(x)|q

Z 1/p Z 1/q ≤ Z + Z
p q
|f |p dµ |g|q dµ |f |p dµ |g|q dµ
M M M M
R
Tomando a integral M (· · · ) dµ da expressão acima, tem-se
Z Z Z
p
|f ||g| dµ |f | dµ |g|q dµ
M 1 1 1 1
Z 1/p Z 1/q ≤ ZM + ZM = + = 1,
p q p q
|f |p dµ |g|q dµ |f |p dµ |g|q dµ
M M M M
o que demonstra a desigualdade de Hölder (20.40).

Provemos
R agora a desigualdade
R deRMinkowski (20.41). O caso p = 1, é evidente, pois |f −g| ≤ |f |+|g|
implica M |f − g| dµ ≤ M |f | dµ + M |g| dµ. Podemos então tomar p > 1.
Comecemos observando que para p > 1 a função xp é convexa para x > 0. Logo,
p
|f | + |g| 1
≤ (|f |p + |g|p) .
2 2
como |f − g| ≤ |f | + |g|, segue que

p
|f − g| 1
≤ (|f |p + |g|p) . (20.J.20)
2 2
Disso concluı́mos que se f e g pertencem a Lp (M, dµ), então
f − g ∈ Lp (M, dµ) . (20.J.21)

R R R
Também de (20.J.20), extraı́mos que se M |f − g|p dµ = ∞ então R M
|f | p
dµ + M
|g|p dµ = ∞ e a
p
desigualdade de Minkowski (20.41) é satisfeita. Também no caso M |f − g| dµ = 0 (20.41) é satisfeita,
pois aı́ o lado esquerdo de (20.41) é nulo. Podemos então supor
Z
0 < |f − g|p dµ < ∞ . (20.J.22)
M
Escrevamos agora
|f − g|p = |f − g| |f − g|p−1 ≤ (|f | + |g|) |f − g|p−1 = |f | |f − g|p−1 + |g| |f − g|p−1 .
Isso diz-nos que

Z Z Z
p p−1
|f − g| dµ ≤ |f | |f − g| dµ + |g| |f − g|p−1 dµ . (20.J.23)
M M M
A desigualdade de Hölder (20.40) diz-nos que

Z Z 1/p Z 1/q
p−1 p (p−1)q
|f | |f − g| dµ ≤ |f | dµ |f − g| dµ .
M M M
onde q é tal que 1/q + 1/p = 1, ou seja, q = p/(p − 1). Por isso, |f − g|(p−1)q = |f − g|p e a expressão
acima faz sentido por (20.J.21). Assim,
Z Z 1/p Z 1/q
p−1 p p
|f | |f − g| dµ ≤ |f | dµ |f − g| dµ .
M M M
e, analogamente
Z Z 1/p Z 1/q
p−1 p p
|g| |f − g| dµ ≤ |g| dµ |f − g| dµ .
M M M
Inserindo essas duas relações em (20.J.23), segue que

Z Z 1/p Z 1/p ! Z 1/q
p p p p
|f − g| dµ ≤ |f | dµ + |g| dµ |f − g| dµ .
M M M M
R 1/q
Como estamos sob a suposição (20.J.22), podemos dividir ambos os lados acima por M
|f − g|p dµ
e, como 1 − 1/q = 1/p, obtemos a desigualdade de Minkowski (20.41).
Prova do Corolário 20.3. Mostraremos que a desigualdade de Hölder generalizada (20.43) é conseqüência
do seu caso particular para r = 1, a desigualdade de Hölder (20.40), que suporemos válida.
Definindo-se p0 = p/r e q 0 = q/r, tem-se
1 1 r r
0
+ 0 = + = 1.
p q p q
Definindo-se F = |f |r , G = |g|r , valerá
Z Z Z Z
p0 q0
F dµ = |f |p dµ < ∞ e G dµ = |g|q dµ < ∞
M M M M
e, portanto, F ∈ Lp0 (M, dµ) e G ∈ Lq0 (M, dµ).

Assim,
Z 1/r Z 1/r
r r
|f | |g| dµ = F G dµ
M M
" Z 1/p0 Z 1/q0 #1/r

(20.40)
p0 q0
≤ F dµ G dµ
M M
" Z 1/p0 Z 1/q0 #1/r

= f p dµ g q dµ
M M
Z 1/p Z 1/q
p q
= f dµ g dµ
M M
que é a desigualdade de Hölder (20.43).
20.K Prova do Teorema de Riesz-Fischer

Seja {fn }, n ∈ uma seqüência em Lp (M, dµ) e que seja de Cauchy na norma k · kp , ou seja, para
todo > 0 existe N () tal que kfn − fm kp < para todos m e n maiores que N ().
Vamos primeiramente mostrar que {fn } possui uma sub-seqüência {gn } com a propriedade que
1
kgl+1 − gl kp < . (20.K.24)
2l
para todos l ∈ . Vamos definir uma seqüência crescente de números inteiros e positivos N k , k =

1, 2, 3, . . . com Nk+1 > Nk , da seguinte forma: Nk é tal que kfm − fn kp < 1/2k para todos m, n > Nk .
Note que uma tal seqüência Nk sempre pode ser encontrada pois, por hipótese, fm é uma seqüência
de Cauchy em k · kp (basta tomar Nk := N (1/2k )). Vamos agora escolher uma seqüência crescente de
ı́ndices n1 < n2 < · · · < nk−1 < nk < · · · tais que nk > Nk para todo k. A essa seqüência está associada
a sub-seqüência {fnk }k∈ . Para simplificar a notação, denotaremos gk ≡ fnk , k = 1, 2, 3, . . .. Disso é

imediato que (20.K.24) vale, como querı́amos mostrar, pois nl e nl+1 são maiores que Nl .
Defina-se
k
X ∞
X
hk = |gl+1 − gl | e h = |gl+1 − gl | .
l=1 l=1
Pela desigualdade de Minkowski e por (20.K.24), vale para cada k que

X k Xk Xk
1

kgk kp = |gl+1 − gl | ≤ |gl+1 − gl |p ≤ .
2 l
l=1 l=1 p l=1
Logo, !p
Z Xk
1
gkp dµ ≤ .
M l=1
2l
Pelo Lema de Fatou, segue que
Z Z k
!p
X 1
lim inf gkp dµ ≤ lim inf gkp dµ ≤ lim inf = 1.
M k→∞ k→∞ M k→∞
l=1
2l
Agora, como {gk } é uma seqüência não-decrescente, {gkp } também o é converge a g p . Logo, lim inf gkp =
k→∞
g p e concluı́mos que Z
g p dµ ≤ 1,
M
o que implica que kgkp ≤ 1. Disso segue que g(x) < ∞ µ-q.t.p.
Assim, provamos que a série
n
X
g1 (x) + (gl+1 (x) − gl (x))
l=1
converge absolutamente para µ-q.t. x (ou seja, só não converge absolutamente em um conjunto de
medida µ nula). Note-se agora que
n−1
X
g1 (x) + (gl+1 (x) − gl (x)) = gn (x) .
l=1
Assim, concluı́mos que lim gn (x) existe µ-q.t.p.

n→∞
Vamos denotar por G o conjunto dos x’s em M onde esse limite existe (como vimos µ(M \ G) = 0)
e definamos uma função f : M → da seguinte forma:

lim gn (x), para x ∈ G
 n→∞
f (x) := .

0, para x ∈ M \ G
Queremos provar que kf − fn kp → 0 para n → ∞, ou seja, que a função f definida acima é o limite em
Lp (M, dµ) da seqüência {fn }. Fixando > 0, sabemos que se m e n forem maiores que N () valerá
kfn − fm kp < . Logo, o Lema de Fatou diz-nos que se m > N (),
Z Z Z
p
|f − fm | dµ ≤ p
lim inf |gl − fm | dµ ≤ lim inf |gl − fm |p dµ = lim inf (kgl − fm kp )p ≤ p .
M M l→∞ l→∞ M l→∞
(20.K.25)
Isso provou que f − fm ∈ Lp (M, dµ). Como f = fm + (f − fm ), isso implica que f ∈ Lp (M, dµ), pois
Lp (M, dµ) é um espaço vetorial. Sem perda de generalidade, podemos tomar f ∈ Lp (M, dµ) também
(certo?). Ao mesmo tempo, (20.K.25) afirma que kf − fm k → 0 para m → ∞.
Assim, mostramos que a seqüência de Cauchy {fn } de Lp (M, dµ) possui um limite na norma k · kp
que é também elemento de Lp (M, dµ). Isso provou que Lp (M, dµ) é um espaço métrico completo na
norma de Lp (M, dµ), completando a demonstração.
Capı́tulo 21
Alguns Tópicos Especiais em Topologia e Análise
Conteúdo
21.1 Uma Coletânea de Definições . . . . . . . . . . . . . . . . . . . . . . . . . . 968
21.2 A Noção de Topologia Fraca . . . . . . . . . . . . . . . . . . . . . . . . . . . 974
21.3 A Topologia Produto de Espaços Topológicos . . . . . . . . . . . . . . . . 975
21.4 O Teorema da Categoria de Baire . . . . . . . . . . . . . . . . . . . . . . . 977
21.5 Aproximação de Funções . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 978
21.5.1 Aproximação de Funções Contı́nuas por Polinômios . . . . . . . . . . . . . . . 978
presente capı́tulo, o qual está ainda bastante incompleto, contem uma miscelânea de assun-
tos relacionados a espaços topológicos e suas aplicações. São aqui coletadas várias definições
e resultados empregados alhures nestas Notas. Devida à natureza do capı́tulo as diferen-
tes seções não estão necessariamente ligadas entre si e sua leitura pode ser feita de modo
independente.
21.1 Uma Coletânea de Definições

Apresentamos nesta seção algumas definições importantes empregadas em vários lugares. Exemplos
ilustrativos simples são, quando possı́vel, apresentados ao final da seção.
• Conjuntos densos
Sejam X um conjunto não-vazio, τ uma topologia em X e F ⊂ X um conjunto fechado em relação

à topologia τ . Um conjunto R ⊂ F é dito ser denso em F (em relação à topologia τ ) se seu fecho 1 for
F : R = F . Evocando a Proposição 15.5, página 834, concluı́mos que R é denso em F se e somente
se todo aberto que possuir intersecção não-vazia com F possuir também intersecção não-vazia com A.
Como X é fechado, concluı́mos também que um conjunto R é denso em X se e somente se para todo
aberto não-vazio A ∈ τ valer A ∩ R 6= ∅.
• Conjuntos densos em parte alguma
Um conjunto S ⊂ X é dito ser denso em parte alguma (em relação à topologia τ ) se seu fecho não
contiver nenhum aberto de τ . Em outras palavras, S é denso em parte alguma se o interior de seu
0 0
fecho S for vazio2 . Em sı́mbolos, S é dito ser denso em parte alguma se S = ∅.
1
Por definição, o fecho de R de um conjunto R em um espaço topológico é o menor fechado que contem R. Vide
Capı́tulo 15.
2
Por definição, o interior de T 0 de um conjunto T em um espaço topológico é o maior aberto contido em T . Vide
Capı́tulo 15.
968
Na topologia usual de o conjunto dos racionais não é denso em parte alguma pois = , que

obviamente possui um interior não vazio (( )0 = ). O mesmo vale para os irracionais. Os inteiros

formam um conjunto denso em parte alguma.
• Conjuntos densos em si mesmo
Um conjunto não-finito T é dito ser denso em si mesmo (em relação à topologia τ ) se tiver a seguinte
propriedade: para todo t ∈ T vale que todo τ -aberto A que contem t contem também pontos de T
distintos de t. Uma definição alternativa é dizer que T é denso em si mesmo se todo ponto de T for
um ponto de acumulação de T .
Pode surpreender o estudante saber que há em conjuntos fechados, densos em parte alguma e

densos em si mesmo (na topologia usual de ). Os exemplos mas proeminentes são os conjuntos de

Cantor tratados na Seção 17.2, página 859. Vide também adiante.
• Conjuntos perfeitos
Um sub-conjunto P de X é dito ser perfeito se for fechado e denso em si mesmo.
• Abertos densos
Sejam X um conjunto não-vazio e τ uma topologia em X. De particular interesse são os conjuntos

G ⊂ X que tem a propriedade de serem abertos e densos em X.
Se τ é uma topologia métrica em X e G ⊂ X é um aberto denso, então todo ponto de X que não
pertence a G (ou seja, todo ponto de X \ G) está arbitráriamente próximo de um ponto de G (pois
G é denso), mas nenhum ponto de G está arbitráriamente próximo de um ponto de X \ G (pois G é
aberto).
Exemplo 21.1 Seja X = 2 com a topologia métrica usual e seja L uma linha reta em 2 . Então,

G = 2 \ L é um aberto denso. Se L1 , . . . , Ln é uma coleção finita de retas em 2 , então G =

2
\ (L1 ∪ . . . ∪ Ln ) é um aberto denso. ◊
Exemplo 21.2 Em X = , com a topologia métrica usual, nem o conjunto dos racionais nem o dos

irracionais é aberto denso (ambos são densos, mas não são abertos). ◊
A seguinte propriedade de conjuntos abertos densos pode ser facilmente estabelecida: se G 1 e G2

são abertos densos em X, então G1 ∩G2 é um aberto denso em X. Para provar, notemos primeiramente
que G1 ∩ G2 é um aberto (por ser intersecção de dois abertos). Em segundo lugar, se A é um aberto
não-vazio qualquer, tem-se que A ∩ (G1 ∩ G2 ) é não-vazio. Para ver isso, notemos que esse conjunto é
igual a (A ∩ G1 ) ∩ G2 , mas A ∩ G1 é aberto e não-vazio, por hipótese (G1 é suposto ser denso em X)
e, pela mesma razão, (A ∩ G1 ) ∩ G2 é igualmente aberto e não-vazio.
Por indução, pode-se sem dificuldade provar a seguinte generalização:
Proposição 21.1 Sejam X um conjunto não-vazio e τ uma topologia em X. Se G1 , . . . , Gn é uma
coleção finita de abertos densos em X, então a intersecção G 1 ∩ . . . ∩ Gn é um aberto denso em X. 2
A proposição acima diz-nos intuitivamente que conjuntos abertos e densos são conjuntos topologica-
mente “grandes” dentro de X. Essa idéia é a raı́z da noção de propriedade genérica, que apresentaremos
logo adiante.
Igualmente fácil de demonstrar é a seguinte proposição:
Proposição 21.2 Sejam X um conjunto não-vazio e τ uma topologia em X. Então, a coleção formada
pelos abertos densos em X e pelo conjunto vazio forma uma topologia em X. 2
Prova. X é um aberto denso, trivialmente. Uniões arbitrárias de abertos densos são também abertos e
densos, trivialmente. Por fim, pela Proposição 21.1, intersecções finitas de abertos e densos são abertos
e densos. 2
• Propriedades genéricas
Sejam X um conjunto não-vazio e τ uma topologia em X. Uma propriedade P é dita ser uma
propriedade genérica, ou válida genericamente, na topologia τ se for válida em um aberto denso em X.
Como, intuitivamente falando, abertos densos são subconjuntos topologicamente “grandes” de X,
uma propriedade genérica é uma propriedade válida em todo X, exceto em um conjunto topologica-
mente “pequeno”. Em situações em que se dispõe de uma topologia mas não de uma medida, a noção
de propriedade genérica substitui a noção de propriedade válida “quase em toda parte” em relação a
uma medida (ou seja, válida exceto em um conjunto de medida nula. Vide página 858).
E. 21.1 Exercı́cio-Exemplo. Seja Mat ( , n) a álgebra das matrizes complexas n × n com a topologia
métrica usual definida pela norma operatorial (vide Capı́tulo 4, página 210). Mostre que a propriedade de
uma matriz ter todos os seus autovalores distintos é válida genericamente. 6
Exemplo 21.3 Em , a propriedade de um número ser irracional não é válida genericamente em

relação à topologia métrica usual, mas é válida quase em toda parte em relação à medida de Lebesgue.
Já a propriedade de um número ser racional não é válida nem genericamente em relação à topologia
métrica usual, nem é válida quase em toda parte em relação à medida de Lebesgue. ◊
• Conjuntos desconexos
Um conjunto D ⊂ X é dito ser desconexo (em relação a τ ) se existirem dois abertos A 1 , A2 ∈ τ ,

com
1. D ∩ A1 6= ∅ e D ∩ A2 6= ∅,
2. (D ∩ A1 ) ∩ (D ∩ A2 ) = ∅,
3. D = (D ∩ A1 ) ∪ (D ∩ A2 ).
Se D é desconexo, dizemos que um par de abertos A1 , A2 que satisfazem as três condições acima
desconectam D.
• Conjuntos conexos
Um conjunto C ⊂ X é dito ser conexo (em relação a τ ) se não for desconexo.

O seguinte teorema é relevante nesse contexto.
Teorema 21.1 Seja X um conjunto e τ uma topologia em X. Sejam Ka e Kb dois conjuntos conexos
de X segundo τ e tais que Ka ∩ Kb 6= ∅. Então Kc := Ka ∪ Kb é também conexo segundo τ . 2
Prova. A prova é feita por contradição. Vamos assumir que Kc não seja conexo e sejam dois abertos
A1 , A2 satisfazendo
(a) (Kc ∩ A1 ) 6= ∅ e (Kc ∩ A2 ) 6= ∅,
(b) (Kc ∩ A1 ) ∩ (Kc ∩ A2 ) = ∅,
(c) Kc = (Kc ∩ A1 ) ∪ (Kc ∩ A2 ).
Assim3 ,
(c)
Kc = [(Ka ∪ Kb ) ∩ A1 ] ∪ [(Ka ∪ Kb ) ∩ A2 ]
= (Ka ∩ A1 ) ∪ (Kb ∩ A1 ) ∪ (Ka ∩ A2 ) ∪ (Kb ∩ A2 )

= Ka ∩ (A1 ∪ A2 ) ∪ Kb ∩ (A1 ∪ A2 ) . (21.1)
Ao mesmo tempo,
(b)
h i h i
∅ = (Kc ∩ A1 ) ∩ (Kc ∩ A2 ) = (Ka ∪ Kb ) ∩ A1 ∩ (Ka ∪ Kb ) ∩ A2
h i h i
= (Ka ∩ A1 ) ∪ (Kb ∩ A1 ) ∩ (Ka ∩ A2 ) ∪ (Kb ∩ A2 )
h i [ h i
= (Ka ∩ A1 ) ∩ (Ka ∩ A2 ) ∪ (Kb ∩ A2 ) (Kb ∩ A1 ) ∩ (Ka ∩ A2 ) ∪ (Kb ∩ A2 )
h i h i
= (Ka ∩ A1 ) ∩ (Ka ∩ A2 ) ∪ (Ka ∩ A1 ) ∩ (Kb ∩ A2 )
[ h i h i
(Kb ∩ A1 ) ∩ (Ka ∩ A2 ) ∪ (Kb ∩ A1 ) ∩ (Kb ∩ A2 ) (21.2)
3
Advertência ao estudante: as próximas passagens e o restante da demonstração usam abundantemente as proprie-
dades distributivas de uniões e intersecções de conjuntos. Vide Proposição 1.1, página 24.
Notemos que se uma união B1 ∪ B2 ∪ B3 ∪ B4 é vazia, então cada Bj é vazio. De (21.2) concluı́mos,
então, que
∅ = (Ka ∩ A1 ) ∩ (Ka ∩ A2 ) (21.3)
∅ = (Ka ∩ A1 ) ∩ (Kb ∩ A2 ) (21.4)
∅ = (Kb ∩ A1 ) ∩ (Ka ∩ A2 ) (21.5)
∅ = (Kb ∩ A1 ) ∩ (Kb ∩ A2 ) (21.6)
Dessas relações, usaremos mais abaixo (21.3) e (21.6).

Voltemos agora a (21.1). Temos que
(21.1) \
Ka = K a ∩ K c = Ka Ka ∩ (A1 ∪ A2 ) ∪ Kb ∩ (A1 ∪ A2 )
[
= Ka ∩ (A1 ∪ A2 ) (Ka ∩ Kb ) ∩ (A1 ∪ A2 ) . (21.7)
Como Ka ∩ Kb ⊂ Ka , temos que (Ka ∩ Kb ) ∩ (A1 ∪ A2 ) ⊂ Ka ∩ (A1 ∪ A2 ) e, assim, (21.7) se simplifica

para Ka = Ka ∩ (A1 ∪ A2 ). Disso concluı́mos que
Ka = (Ka ∩ A1 ) ∪ (Ka ∩ A2 ) . (21.8)
De maneira totalmente análoga prova-se que
Kb = (Kb ∩ A1 ) ∪ (Kb ∩ A2 ) . (21.9)
Analisemos agora as conclusões (21.3) e (21.8). Se ambos os conjuntos Ka ∩ A1 e Ka ∩ A2 forem

não-vazios, terı́amos que Ka é desconexo (basta lembrar a definição de conjunto desconexo, acima).
Logo, como Ka foi suposto ser conexo, pelo menos um dos dois deve ser vazio. Digamos, sem perda de
generalidade, que Ka ∩ A2 = ∅. Analogamente, por (21.6) e (21.9) concluı́-se que pelo menos um dos
conjuntos Kb ∩A1 e Kb ∩A2 deve ser vazio. Se também tivéssemos Kb ∩A2 = ∅, então (Ka ∪Kb )∩A2 = ∅,
ou seja Kc ∩ A2 = ∅, contrariando (a). Logo,
Ka ∩ A 2 = ∅ e K b ∩ A1 = ∅ .
De (21.8) segue que Ka = Ka ∩ A1 , o que significa que Ka ⊂ A1 . Sabemos, por hipótese, que Ka ∩ Kb
é não-vazio. Seja x ∈ Ka ∩ Kb . Como x ∈ Ka segue que x ∈ A1 . Mas isso contradiz Kb ∩ A1 = ∅,
pois x ∈ Kb . Chegamos assim a uma contradição que nos leva a concluir que Ka ∪ Kb é conexo se
Ka ∩ Kb 6= ∅.
• Componentes conexas
Seja como antes X um conjunto não-vazio com uma topologia τ .

É trivial constatar que cada conjunto {x} com x ∈ X, composto por um único elemento, é conexo.
Se K ⊂ X podemos estabelecer uma relação de equivalência entre seus elementos da seguinte forma:
k, k 0 são equivalentes, k ∼ k 0 , se existir um subconjunto conexo de K que contem ambos. K se quebra,
assim, em uma união disjunta de classes de equivalência pela relação acima. Cada classe é dita ser uma
componente conexa de K.
Mostremos que o definido acima é, de fato, uma relação de equivalência em K. Que k ∼ k é
evidente. Que k ∼ k 0 implica k 0 ∼ k também é. Se k1 ∼ k2 e k2 ∼ k3 , sejam Ka ⊂ K e Kb ⊂ K
conexos tais que k1 , k2 ∈ Ka e k2 , k3 ∈ Kb . Então Kc = Ka ∪ Kb ⊂ K contem k1 e k3 (e também k2 )
e é conexo, pelo Teorema 21.1, página 971.
• Conjuntos totalmente desconexos
Um conjunto T ⊂ X é dito ser totalmente desconexo se todas as suas componentes conexas tiverem
apenas um ponto.
• Conjuntos de Cantor
Um conjunto que em uma topologia métrica seja 1) totalmente desconexo, 2) compacto e 3) perfeito
é dito ser um conjunto de Cantor.
Exemplos de conjuntos de Cantor encontram-se na Seção 17.2, página 859.
• Uns poucos exemplos
Mencionemos alguns exemplos ilustrativos. Seja X = e τ = τ , a topologia usual de . O

conjunto Q1 = [0, 1] ∩ , formado por todos é racionais do intervalo [0, 1], é denso em [0, 1]. Q1
é também denso em si mesmo e denso em parte alguma, mas não é perfeito (pois não é fechado). O
conjunto dos irracionais em [0, 1] é também denso em [0, 1], denso em si mesmo, denso em parte
alguma mas não é perfeito por não ser fechado. O conjunto {1/n, n ∈ , n ≥ 1} é denso em parte

alguma em [0, 1] e não é denso em si mesmo.
E. 21.2 Exercı́cio. Justifique as afirmações acima. 6
Seja com a topologia τ . O conjunto A = (a, b) ∩ (c, d) com a < b ≤ c < d é desconexo, mas

não totalmente desconexo. Suas componentes conexas são (a, b) e (c, d). Todo sub-conjunto finito de
é totalmente desconexo.
O conjunto dos√racionais é desconexo

√ como subconjunto de com a topologia τ , pois com os

abertos A1 = (−∞, 2) e A2 = ( 2, ∞) teremos = ( ∩ A1 ) ∪ ( ∩ A2 ), sendo ambos ∩ A1

e ∩ A2 não-vazios e ( ∩ A1 ) ∩ ( ∩ A2 ) = ∅. Em verdade, podemos tomar A1 e A2 na forma
A1 = (−∞, x) e A2 = (x, ∞) para qualquer irracional x que o mesmo será válido.
O conjunto dos racionais é totalmente desconexo como subconjunto de com a topologia τ ,

pois suas componentes conexas são do tipo {r} com r racional.

E. 21.5 Exercı́cio. O conjunto irracionais é desconexo como subconjunto de com a topologia τ ? É

totalmente desconexo? 6
E. 21.6 Exercı́cio. O conjunto 0 dos números algébricos é desconexo como subconjunto de com a
topologia τ ? É totalmente desconexo?

E. 21.7 Exercı́cio. O conjunto dos números transcendentes é desconexo como subconjunto de com a
topologia τ ? É totalmente desconexo?

21.2 A Noção de Topologia Fraca
• A Topologia Fraca de uma Coleção de Funções
Um papel muito importante em Análise Funcional e Álgebra de Operadores desempenham as cha-

madas topologias fracas, que descreveremos inicialmente em um contexto geral.
Dada uma função f : X → Y , onde X e Y são conjuntos dotados de topologias τX e τY , respectiva-
mente, sabemos que quanto maior (mais fina) a topologia τX mais chances f terá de ser contı́nua. Por
exemplo, no caso extremo em que τX = (X) a função f será certamente contı́nua. Fixada a topologia
τY é uma questão importante saber qual a menor topologia τX que faz de f uma função contı́nua.
Esta questão pode ser, entretanto, estudada de forma muito mais geral se, ao invés de considerarmos
uma única função, considerarmos uma coleção de funções de X em diversos espaços topológicos Y a e
nos perguntarmos qual a menor topologia em X que faz todas as funções da coleção serem contı́nuas.
O caso anterior de uma única função é claramente um caso particular desse e, em verdade, esse caso
mais geral é também mais relevante em aplicações.
Vamos às definições. Seja X um conjunto e Ya , a ∈ Λ, uma coleção de espaços topológicos com
topologias τYa , respectivamente, onde Λ é um conjunto arbitrário de ı́ndices. Seja também F uma
coleção de funções de X em algum Ya : F = {fa : X → Ya , a ∈ Λ}.
Denotamos por τ (X, F) a menor topologia em X tal que toda função de F é contı́nua. Mais
formalmente definimos τ (X, F) simplesmente como a intersecção da coleção de todas as topologias
para as quais todas as funções de F são contı́nuas. Que tal coleção de topologias é não-vazia mostra
o fato que na topologia (X) toda função de F sempre é contı́nua e, portanto, na pior das hipóteses
tem-se que τ (X, F) = (X).
Vamos aqui demonstrar alguns resultados básicos sobre a topologia τ (X, F). Tomaremos sempre
as topologias τYa como fixadas (mas é, por vezes, bom recordar que τ (X, F) depende na verdade das
τYa ).
Proposição 21.3 Seja D a coleção de todos os conjuntos de X que sejam a imagem inversa de alguma
aberto de algum Ya pela função fa da coleção F:
D = {A ⊂ X, tal que A = fa−1 (Ua ), para algum aberto Ua de algum Ya e fa de F}.
Então, τ (X, F) = τ [D]. 2
Prova. Em primeiro lugar é claro que toda função de F é contı́nua na topologia τ [D] pois a imagem
inversa de qualquer aberto por uma função de F está (por definição) em D e, portanto, em τ [D]. Assim,
estabelecemos que τ (X, F) ⊂ τ [D], posto ser τ (X, F) a intersecção de todas as topologias onde todas
as funções de F são contı́nuas. Vamos mostrar que D ⊂ τ (X, F), o que implica que τ [D] ⊂ τ (X, F),
estabelecendo a igualdade τ (X, F) = τ [D]. A prova que D ⊂ τ (X, F) é feita por absurdo. Vamos
supor que exista um conjunto A na coleção D que não seja elemento da topologia fraca τ (X, F). Sejam
porém Ua aberto de Ya e fa função de F tais que A = fa−1 (Ua ). Como A 6∈ τ (X, F), a função fa não
é contı́nua na topologia fraca pois a imagem inversa do aberto Ua de Ya por fa não é um aberto nessa
topologia. Isso contradiz a definição da topologia fraca e, portanto, D ⊂ τ (X, F).
É útil também lembrar um resultado que provamos quando definimos o conceito de base de uma
topologia (página 823): a coleção DI formada por intersecções finitas de elementos de D, X e ∅ é uma
base de τ [D] e, portanto, da topologia fraca.
Exemplo. Para o leitor familiarizado com o conceito de operador limitado em um espaço de Hilbert
considere-se o seguinte exemplo. Seja X = B(H) a coleção de todos os operadores limitados em um
espaço de Hilbert H. Como sabemos X é um espaço de Banach com a norma operatorial kAk =
kAψk
sup . Essa norma define em B(H) uma topologia que é chamada de topologia uniforme (ou
ψ∈H, ψ6=0 kψk
usual) de B(H).
Seja Y = e seja a seguinte famı́lia de funções X → Y : E = {fx, y : X → Y, fx, y (A) =
(x, Ay), com x, y ∈ H}. Ou seja, E é a coleção de todas as funções que associam a cada operador
limitado A o número complexo (x, Ay) com vetores x, y ∈ H. Cada função é assim indexada por um
par de vetores x e y ∈ H.
Define-se a topologia operatorial fraca em B(H) como sendo a menor topologia para a qual toda
função de E é contı́nua. Esta topologia é mais fraca que a topologia uniforme. Trataremos com mais
detalhe dessa topologia (e de outras correlatas) adiante.
21.3 A Topologia Produto de Espaços Topológicos

Seja {X1 , . . . , Xn }Quma coleção finita de conjuntos e seja, para cada a ∈ {1, . . . , n}, τa uma topologia
em Xa . Seja X = na=1 Xa o produto cartesiano Q de todos os Xa , a ∈ In e seja B a coleção de todos
os subconjuntos de X que sejam da forma a∈In Aa onde Aa ∈ τa , ou seja, cada Aa é um aberto em
Xa segundo a topologia τa . Então a topologia gerada por B, τ [B] é chamada de topologia produto dos
espaços topológicos Xa , τa .
Q
No caso de produtos cartesianos arbitrários β∈Λ Xβ a idéia acima de tomar-se produtos de aber-
tos como geradores da topologia do espaço produto pode ser repetida, mas conduz a uma topologia
(denominada em inglês “box product topology”) com poucas propriedades importantes. Muito mais
útil e importante é seguir a sugestão de Tychonov e considerar no espaço produto uma topologia, dita
topologia produto Qde Tychonov ou simplesmente topologia produto, definida da seguinte forma. Sejam
as projeções πα : β∈Λ Xβ → Xα definidas por
!
Y
πα xβ = xα ,
β∈Λ
Q S
ou, alternativamente, interpretando x ∈ β∈Λ Xβ como uma função de Λ em β∈Λ Xβ tal que x(α) ∈
Xα , então
πα (x) = x(α).
Então a topologia produto de Tychonov é definida como sendo a menor topologia para qual todas as
projeções πα , α ∈ Λ são contı́nuas, ou seja, é a topologia fraca gerada pela famı́lia de funções π α , α ∈ Λ.
Para o caso de produtos finitos não há distinção entre a “box product topology” e a topologia
produto de Tychonov. Para essa topologia produto de Tychonov vale entre outros o célebre e impor-
tantı́ssimo teorema de Tychonov: produtos cartesianos arbitrários de espaços topológicos compactos
são compactos.
Façamos mais clara a distinção entre a “box product topology” e a topologia produto de Tychonov.
{Xα , α ∈ Λ} uma coleção de conjuntos e seja, para cada α ∈ Λ, τα uma topologia em Xα . Seja
Seja Q
X = α∈Λ Xα o produto cartesiano
Q de todos os Xα , α ∈ Λ. Seja B a coleção de todos os subconjuntos
de X que sejam da forma α∈Λ Aα onde Aα ∈ τα , ou seja, cada Aα é um aberto em Q Xα segundo a
topologia τα . Seja B∞ ⊂ B coleção de todos os subconjuntos de X que sejam da forma α∈Λ Aα onde
Aα ∈ τα , e onde apenas para um número finito de fatores tenhamos Aα 6= Xα . Então a topologia
gerada por B, τ [B], é a chamada “box product topology” dos espaços topológicos X a , τa , enquanto que a
topologia gerada por B∞ , τ [B∞ ], é idêntica à topologia produto de Tychonov. É claro pelas definições
que τ [B∞ ] ⊂ τ [B].
Notemos que no caso de produtos finitos B∞ = B e, portanto, a “box product topology” e a
topologia produto de Tychonov coincidem.
Mostremos que a topologia produto de Tychonov é de fato τ [B∞ ]. Se Aα ∈ τα ,
Y
πα−1 (Aα ) = Sγ
γ∈Λ
onde Sα = Aα e Sγ = Xγ para γ 6= α. Seja D a coleção
D = {πα−1 (Aα ), Aα ∈ τα , α ∈ Λ}.
Conforme observamos na seção 21.2, página 974, a topologia gerada por D é a menor topologia na qual
todas as funções πα são contı́nuas. Assim, a topologia produto de Tychonov é idêntica a τ [D]. Sabemos
também de considerações gerais (vide página 822) que o conjunto DI formado por intersecções finitas
de elementos de D é uma base em τ [D] e Q que τ [D] = τ [DI ] (vide discussão à página 822). Ora, os
elementos de DI são produtos de abertos γ∈Λ Aγ onde apenas uma coleção finita de Aγ ’s difere de
Xγ (por que?), ou seja, DI = B∞ , provando que τ [D] = τ [DI ] = τ [B∞ ].
21.4 O Teorema da Categoria de Baire

Seja X um conjunto e τ uma topologia em X. Um conjunto C é dito ser denso em parte alguma na
topologia τ se seu fecho tiver interior vazio, ou seja, (C)0 = ∅.
Seja X um conjunto e τ uma topologia em X. X é dito ser de S primeira categoria se existir uma
famı́lia contável Nn , n ∈ , de subconjuntos de X tais que X = n∈ Nn e tais que todos os Nn são

densos em parte alguma.

X é dito ser de segunda categoria se não for de primeira categoria.
Teorema 21.2 (Teorema da Categoria de Baire para espaços métricos) Todo espaço S métrico
completo é de segunda categoria, ou seja, se M é um espaço métrico completo e M = n∈ Nn para
alguma famı́lia contável de conjuntos Nn ⊂ M então existe pelo menos um Nm tal que (Nm )0 6= ∅. 2
Prova. Seja M um espaço métrico completo em relação a uma métrica d e seja Suma alguma famı́lia
contável de conjuntos Nn ⊂ M , todos densos em parte alguma e tais que M = n∈ Nn . A S prova é
feita por contradição, exibindo-se um elemento x que pertence a M mas que não pertence a n∈ Nn .
Façamos em primeiro lugar algumas observações básicas que serão usadas repetidamente no que
segue. Como os conjuntos Nn são densos em parte alguma, seus fechos Nn não podem ser iguais a
M , pois M é aberto. Logo os abertos (Nn )c = M \ Nn são todos não-vazios. Fora isso, para qualquer
bola aberta não-vazia B devemos ter também B ∩ (Nn )c 6= ∅, pois se tivéssemos B ∩ (Nn )c = ∅ isso
implicaria B ⊂ Nn , contrariando a hipótese que Nn interior vazio.
SComo dissemos, a estratégia da prova é exibir um elemento x que pertence a M mas que não pertence
a n∈ Nn . Esse elemento x será construı́do como limite de uma seqüência de Cauchy conveniente,

explorando o fato de M ser completo.

Passemos à construção da seqüência de Cauchy. Como (N1 )c 6= ∅, tomemos um elemento x1
arbitrário de (N1 )c . Como (N1 )c é aberto existe uma bola B1 (r1 , x1 ) centrada em x1 e de raio r1
suficientemente pequeno inteiramente contida em (N1 )c . É claro que B1 (r1 , x1 ) ∩ N1 = ∅ e que
x1 6∈ N1 .
Analogamente, como (N2 )c é aberto e não-vazio, tem-se que B1 (r1 , x1 ) ∩ (N2 )c 6= ∅. Escolhe-
mos então x2 ∈ B1 (r1 , x1 ) ∩ (N2 )c e tomemos uma bola B2 (r2 , x2 ) inteiramente contida no aberto
B1 (r1 , x1 ) ∩ (N2 )c . Sem perda, podemos escolher r2 satisfazendo r2 < r1 /2 e tal que B2 (r2 , x2 ) ⊂
B1 (r1 , x1 ). Note-se também que B2 (r2 , x2 ) ∩ N2 = ∅ e, como B2 (r2 , x2 ) ⊂ B1 (r1 , x1 ), vale também
que B2 (r2 , x2 ) ∩ N1 = ∅. Em resumo, B2 (r2 , x2 ) ∩ (N1 ∪ N2 ) = ∅. e x2 6∈ N1 ∪ N2 .
Podemos agora proceder indutivamente. Para n > 2, (Nn )c é aberto e não-vazio, tem-se que
Bn−1 (rn−1 , xn−1 ) ∩ (Nn )c 6= ∅. Escolhemos então xn ∈ Bn−1 (rn−1 , xn−1 ) ∩ (Nn )c e tomemos uma bola
Bn (rn , xn ) inteiramente contida no aberto Bn−1 (rn−1 , xn−1 ) ∩ (Nn )c . Sem perda, podemos escolher
rn satisfazendo rn < rn−1 /2 < 21−n r1 e tal que Bn (rn , xn ) ⊂ Bn−1 (rn−1 , xn−1 ). Note-se também que
Bn (rn , xn ) ∩ Nn = ∅ e, como Bn (rn , xn ) ⊂ Bn−1 (rn−1 , xn−1 ), vale também que Bn (rn , xn ) ∩ Nn−1 = ∅.
Em resumo, Bn (rn , xn ) ∩ (N1 ∪ · · · ∪ Nn ) = ∅. e xn 6∈ N1 ∪ · · · ∪ Nn .
A seqüência xn é uma seqüência de Cauchy pois (para m < n),

n−m−1
X
d(xm , xn ) ≤ d(xm+i , xm+i+1 )
i=0
pela desigualdade triangular (por que?) e como xn ∈ Bn−1 (rn−1 , xn−1 ), segue que d(xm+i , xm+i+1 ) ≤
rm+i < 21−m−i r1 . Logo,
n−m−1
X ∞
X
d(xm , xn ) ≤ 21−m−i r1 < 21−m r1 2−i = 22−m r1
i=0 i=0
que vai a zero quando m → ∞.

Como xn é uma seqüência de Cauchy e M é completo, existe x ∈ M ao qual a seqüência x n converge.
Fixando um J temos que todo xn com n ≥ J é elemento de BJ (rJ , xJ ). Logo, x ∈ BJ (rJ , xJ ) ⊂
BJ−1 (rJ−1 , xJ−1 ). Como BJ−1 (rJ−1 , xJ−1 ) ∩ NJ−1 = ∅ concluı́mos que x 6∈ N SJ−1 . No entanto, J é
arbitrário e, portanto,
S x não pertence a nenhum N n . Assim, x não pertence a n∈ Nn , contrariando

a hipótese que M = n∈ Nn .

21.5 Aproximação de Funções

Na Fı́sica muitas vezes estamos interessados em resolver problemas cuja solução não pode ser obtida
exatamente. No caso de equações diferenciais, por exemplo, são muito raras as situações nas quais uma
solução pode ser expressa em termos de funções “elementares”, tais como polinômios, exponenciais,
logaritmos, senos, co-senos ou combinações das mesmas. Na grande maioria dos casos apresentam-
se métodos de solução em termos de aproximações que, sob hipóteses adequadas, podem estar tão
próximas quanto se queira da solução correta. É, portanto, uma questão importante desenvolver
métodos de aproximar funções com certas propriedades e é disso, basicamente, que trataremos neste
capı́tulo. Não pretendemos aqui esgotar o assunto, o que ademais seria impossı́vel, dada a sua extensão,
mas tratar de dois tipos fundamentais de aproximações de funções: as aproximações por polinômios e
as aproximações por polinômios trigonométricos. Este último tópico é o domı́nio das chamadas séries
de Fourier e suporemos que o leitor já possua alguma familiaridade com seus aspectos mais elementares
e suas aplicações. Como veremos, aproximações por polinômios e por polinômios trigonométricos são
dois assuntos relacionados. Ambos os métodos de aproximação estão também na raiz de muitos outros
desenvolvimentos, como na teoria dos espaços de Hilbert e mesmo em temas mais abstratos, como na
álgebra de operadores. Sua aplicação prática é enorme e ambos os assuntos têm dominado boa parte
das aplicações da Matemática à problemas de Fı́sica e de Engenharia desde o século XVIII.
21.5.1 Aproximação de Funções Contı́nuas por Polinômios
• O Teorema de Weierstrass
Um dos teoremas fundamentais da Análise é o chamado Teorema de Weierstrass4 que afirma que
toda função contı́nua definida em um intervalo fechado finito [a, b] da reta real pode ser uniformemente
aproximada nesse intervalo por polinômios, ou seja, para todo > 0 podemos encontrar um polinômio
p tal que |p (x) − f (x)| ≤ para todo x ∈ [a, b]. Nestas Notas, fazemos uso desse importante teorema
em diversas ocasiões. Para futura referência enunciamos o teorema da seguinte forma:
Teorema 21.3 (Teorema de Weierstrass) Seja f uma função real ou complexa, contı́nua em um
intervalo fechado finito [a, b] ⊂ . Então, f pode ser aproximada uniformemente por polinômios nesse

intervalo, ou seja, para todo > 0 existe um polinômio p tal que kp − f k∞ = sup |p (x) − f (x)| ≤ .
x∈[a, b]
2
Há inúmeras demonstrações do Teorema 21.3 na literatura. Vide, por exemplo, [132] para uma
prova usando os chamados polinômios de Bernstein5 , dados, para uma função contı́nua f , definida no
intervalo [0, 1], por
Xn
n p
pn (x) := f (p/n) x (1 − x)n−p .
p=0
p
O texto [73] apresenta diversas demonstrações do Teorema 21.3, inclusive a interessantı́ssima demons-
tração original de Weierstrass, a qual faz uso de propriedades do chamado núcleo de calor (a saber, a
propriedade que o núcleo de calor forma uma seqüência delta de Dirac). Também muito interessante é
a demonstração encontrada em [42], talvez a mais elementar, e que aparentemente é devida a Lebesgue.
No que segue iremos provar uma forma mais forte do Teorema de Weierstrass, a saber:
Teorema 21.4 (Teorema de Weierstrass) Seja f uma função real ou complexa, contı́nua em um
intervalo fechado [a, b] ⊂ e tal que suas k primeiras derivadas existam e sejam contı́nuas nesse inter-

valo. Então, f pode ser aproximada uniformemente por polinômios nesse intervalo e suas k primeiras
derivadas podem ser aproximadas uniformemente
pelas derivadas desses polinômios, ou seja, para todo
> 0 existe um polinômio p tal que p(l)
− f (l)
∞
= sup |p (l)
(x) − f (l) (x)| ≤ para todo 0 ≤ l ≤ k.
x∈[a, b]
2
Como o leitor pode perceber essa generalização afirma que não apenas é possı́vel aproximar uni-
formemente funções contı́nuas em intervalos compactos por polinômios mas, no caso de a função ser k
vezes diferenciável, é possivel encontrar aproximantes polinomiais cujas k primeiras derivadas também
aproximam uniformemente as respectivas derivadas da função a ser aproximada.
Adiante, apresentaremos uma prova do teorema mais geral, Teorema 21.4. Seguiremos muito pro-
ximamente a demonstração apresentada em [25] mas, para a facilidade do estudante, acrescentaremos
alguns detalhes6 . Antes de iniciarmos a prova do Teorema 21.4 precisamos fazer um comentário sobre
um fato que usaremos.
4
Karl Theodor Wilhelm Weierstrass (1815-1897). O Teorema de Weierstrass data de 1885. A referência original pode
ser encontrada em [25].
5
Sergi Natanovich Bernstein (1880-1968). Berstein introduziu os polinômios que levam seu nome em trabalho de 1911
sobre o Teorema de Weierstrass e interpolações polinomiais.
6
Nossa prova é também ligeiramente mais precisa que a de [25], pois lá o parâmetro δ (vide abaixo) é tomado na
forma 0 < δ < 1 mas, para evitar problemas em certos limites de integração, o correto é tomá-lo como faremos adiante.
• Certas extensões contı́nuas de funções
Seja f uma função contı́nua definida em um intervalo fechado limitado [a, b] assumindo valores
reais ou complexos e que tenha suas k primeiras derivadas igualmente contı́nuas nesse intervalo. Seja
um intervalo fechado limitado [α, β] que contem [a, b] no seu interior, ou seja, com −∞ < α < a <
b < β < ∞. Então, existe pelo menos uma função f˜ definida em [α, β] com as seguintes propriedades:
1. f˜ coincide com f no intervalo [a, b].
2. f˜ e suas k primeiras derivadas são contı́nuas em [α, β].
3. f˜ e suas k primeiras derivadas anulam-se nos extremos α e β do intervalo [α, β].
A função f˜ é, assim, uma extensão de contı́nua de f ao intervalo [α, β] cujas k primeiras derivadas
são extensões contı́nuas das respectivas k primeiras derivadas de f ao intervalo [α, β]. Além disso, f˜
e suas k primeiras derivadas anulam-se nos extremos do intervalo [α, β] em que estão definidas.
Há infinitas funções f˜ com tais propriedades. Uma maneira de construir uma tal função é escolhê-la
de modo que seja idêntica a f no intervalo [a, b], seja infinitamente diferenciável nos intervalos [α, a)
e (b, β] mas de modo que limx→a f˜(l) (x) = f (l) (a) no intervalo [α, a) e limx→b f˜(l) (x) = f (l) (b) no
intervalo (b, β], para todo 0 ≤ l ≤ k.
Exemplo 21.4 Uma possı́vel escolha de uma função f˜ com as propriedades acima é a seguinte:


 f (x) , a≤x≤b



 !
 X
 k

 f (k)
(a)
 (x − a)l Fα, a (x) , α≤x<a
˜
f (x) = l! ,
l=0



 !

 k

 X f (k)
(b)

 l
(x − b) (1 − Fb, β (x)) , b < x ≤ β
 l!
l=0
onde, para u < v, a função Fu, v : [u, v] → [0, 1] é definida por

Z x
1 1 1
Fu, v (x) := exp − − dy , u ≤ x ≤ v,
Nu, v u (y − u)2 (y − v)2
Nu, v sendo a constante de normalização

Z v
1 1
Nu, v := exp − 2
− dy .
u (y − u) (y − v)2
Essa função Fu, v é contı́nua, estritamente crescente, infinitamente diferenciável no intervalo u < x < v
e satisfaz
lim Fu, v (x) = 0, lim Fu, v (x) = 1, e lim Fu,(l)v (x) = lim Fu,(l)v (x) = 0, ∀l≥1.
x→u x→v x→u x→v
Com isso, é fácil ver que f˜ satisfaz as propriedades requeridas: é contı́nua e k-vezes diferenciável em
[α, β] e satisfaz
f˜(α) = 0 = f˜(β) , f˜(l) (α) = 0 = f˜(l) (β) , ∀ l ≥ 1 ,
(21.10)
f˜(l) (a) = f (l) (a) e f˜(l) (b) = f (l) (b) , ∀0≤l≤k ,
além de, obviamente, ser uma extensão de f . ◊
E. 21.8 Exercı́cio. Verifique as afirmações feitas acima. 6
Para o que segue, a forma especı́fica de f˜, como aquela do exemplo acima, não será relevante, apenas
suas propriedades.
• Prova do Teorema de Weierstrass
Daqui por diante, consideraremos sem perda de generalidade que [a, b] ⊂ (0, 1), ou seja, tomamos
0 < a ≤ b < 1, e consideraremos f˜ uma extensão de f a todo o intervalo [0, 1] com as propriedades
acima (adotando α = 0 e β = 1). Com uma tal função podemos definir os polinômios
Z 1
1 n
pn (x) := f˜(u) 1 − (u − x)2 du (21.11)
2Dn (0) 0
com x ∈ [0, 1], onde, para γ ∈ [0, 1], definimos
Z 1 n
Dn (γ) := 1 − v2 dv .
γ
Os pn são claramente polinômios de grau menor ou igual a 2n. Como veremos, esses polinômios são
aqueles que aproximam f com as propriedades requeridas. Para mostrar isso, fixemos x ∈ [a, b] e
comecemos observando que
Z 1 Z 1−x
1 n v=u−x 1 n
pn (x) = f˜(u) 1 − (u − x)2 du = f˜(v + x) 1 − v 2 dv
2Dn (0) 0 2Dn (0) −x
= A1 + A2 + A3 ,
com
Z −δ Z δ
1 n 1 n
A1 := f˜(v + x) 1 − v 2 dv, A2 := f˜(v + x) 1 − v 2 dv ,
2Dn (0) −x 2Dn (0) −δ
(21.12)
Z 1−x
1 n
A3 := f˜(v + x) 1 − v 2 dv ,
2Dn (0) δ
onde δ satisfaz 0 < δ < min{a, 1 − b} e será convenientemente fixado mais adiante 7 . Vamos tratar de
estimar cada uma das três expressões Aj acima. Como f˜ é contı́nua no intervalo [0, 1], seu módulo
7
Como 0 < δ < min{a, 1 − b} e x ∈ [a, b], segue que −δ > −x e δ < 1 − x. Assim, os três intervalos de integração em
(21.12) são crescentes.

assume um valor máximo, que denotaremos por F , ou seja, em sı́mbolos, F := sup f˜(x). Com isso
x∈[0, 1]
podemos escrever que
Z 1−x Z 1−x
1 n F n
|A3 | ≤ |f˜(v + x)| 1 − v 2 dv ≤ 1 − v 2 dv
2Dn (0) δ 2Dn (0) δ
Z 1
F n Dn (δ)
≤ 1 − v 2 dv = F , (21.13)
2Dn (0) δ 2Dn (0)
onde, na última desigualdade, usamos que 1 − x ≤ 1. De forma totalmente análoga, prova-se que vale
também
Dn (δ)
|A1 | ≤ F . (21.14)
2Dn (0)
O termo A2 pode ser manipulado da seguinte forma. Usando a identidade
Rδ Rδ n
2 n [1 − v 2 ] dv + 2Dn (δ)
Dn (0) 0
[1 − v ] dv + D n (δ) −δ
1 = = = ,
Dn (0) Dn (0) 2Dn (0)
escrevemos
Z δ
1 n
A2 := f˜(x) − f˜(x) × 1 + f˜(v + x) 1 − v 2 dv
2Dn (0) −δ
Z δ
Dn (δ) 1 n
= f˜(x) − f˜(x) + f˜(v + x) − f˜(x) 1 − v 2 dv .
Dn (0) 2Dn (0) −δ
De (21.13), (21.14) e (21.15) extraı́mos, assim, que para x ∈ [a, b],

Z δ
˜ F Dn (δ) ˜ Dn (δ) 1 ˜

n
|pn (x) − f (x)| ≤ + f (x) + f (v + x) − f˜(x) 1 − v 2 dv .
Dn (0) Dn (0) 2Dn (0) −δ

˜ ˜
Como x ∈ [a, b], podemos substituir f por f no lado esquerdo. Fora isso, f (x) ≤ F e, assim,
chegamos a
Z δ
Dn (δ) 1 ˜ n
|pn (x) − f (x)| ≤ 2F + ˜
f (v + x) − f (x) 1 − v 2 dv .
Dn (0) 2Dn (0) −δ
Observemos neste ponto que uma função que seja contı́nua em um intervalo compacto, como f˜, é
uniformemente contı́nua nesse intervalo. Assim, para cada
> 0 dado podemos encontrar um δ > 0,

pequeno o suficiente e independente de x de forma que f (v + x) − f˜(x) < desde que |v| < δ. Temos,
˜
portanto,
Z δ
Dn (δ) n
|pn (x) − f (x)| ≤ 2F + 1 − v 2 dv
Dn (0) 2Dn (0) −δ
Z δ
Dn (δ) n
= 2F + 1 − v2 dv
Dn (0) Dn (0) 0
Dn (δ)
= 2F + (Dn (0) − Dn (δ))
Dn (0) Dn (0)
Dn (δ)
= (2F − ) +
Dn (0)
Dn (δ)
≤ 2F +.
Dn (0)
Para fechar a demonstração dessa parte, precisamos agora mostrar que para qualquer δ fixo com
0 < δ ≤ 1 a razão Dn (δ)/Dn (0) pode ser feita tão pequena quanto se queira, fazendo-se n crescer.
Como em [25], notamos que para v ∈ [0, 1] vale v 2 < v. Assim,
Z 1 Z 1
2 n 1
Dn (0) = (1 − v ) dv ≥ (1 − v)n dv = ,
0 0 n+1
calculando explicitamente a última integral. Paralelamente,
Z 1 Z 1
2 n 2 n
Dn (0) = (1 − v ) dv ≤ (1 − δ ) dv = (1 − δ 2 )n (1 − δ) ≤ (1 − δ 2 )n
δ δ
e, portanto,
Dn (δ)
≤ (n + 1)(1 − δ 2 )n .
Dn (0)
Como 0 < 1 − δ 2 < 1, o limite para n → ∞ do lado direito, acima, é zero. Assim, concluı́mos que para
n grande o suficiente, independente de x, tem-se |pn (x) − f (x)| ≤ 2. Isso estabelece que a seqüência
de polinômios pn converge uniformemente a f no intervalo [a, b]. Com isso provou-se o Teorema 21.3.
(l)
Vamos provar agora que para cada l com 1 ≤ l ≤ k as derivadas pn também convergem uniforme-
mente às derivadas f (l) quando n → ∞. Notemos que, pela definição de pn ,
Z 1
1 ∂l n
(l)
pn (x) = f˜(u) l 1 − (u − x)2 du .
2Dn (0) 0 ∂x
n
Agora, devido ao fato de a função [1 − (u − x)2 ] ser simétrica pela troca u ↔ x, vale
∂l
2 n l ∂
l n
l
1 − (u − x) = (−1) l
1 − (u − x)2 .
∂x ∂u
Assim,
Z 1
(−1)l ∂l n
p(l)
n (x) = f˜(u) l 1 − (u − x)2 du
2Dn (0) 0 ∂u
Z
∂ l−1 n u=1 (−1)l−1 1 (1) ∂ l−1 n
int. por partes
= ˜
l
(−1) f (u) l−1 1 − (u − x) 2 + ˜
f (u) l−1 1 − (u − x)2 du .
∂u u=0 2Dn (0) 0 ∂u
| {z }
= 0 , pois f˜(0)=f˜(1)=0
Repetindo-se l vezes o processo de integração por partes e usando o fato que f˜ e suas derivadas anulam-
se em 0 e em 1, por construção, obtemos,
Z 1
1 n
(l)
pn (x) = f˜(l) (u) 1 − (u − x)2 du .
2Dn (0) 0
Já vimos, porém, que essa igualdade implica que pn converge uniformemente a f˜(l) no intervalo [a, b]
(l)
para n → ∞. Isso completa a prova do Teorema de Weierstrass, Teorema 21.4.

Parte VI
Análise Funcional
985
Capı́tulo 22
Noções Básicas Sobre Espaços de Hilbert
Conteúdo
22.1 Aspectos Topológicos Básicos de Espaços de Hilbert . . . . . . . . . . . . 986
22.2 Aspectos Geométricos Básicos de Espaços de Hilbert . . . . . . . . . . . . 988
22.2.1 Bases Ortonormais Completas em Espaços de Hilbert . . . . . . . . . . . . . 993
22.3 Funcionais Lineares e o Dual Topológico de um Espaço de Hilbert . . . . 1007
22.3.1 O Teorema da Representação de Riesz . . . . . . . . . . . . . . . . . . . . . . 1008
m espaço vetorial H sobre o corpo dos complexos e dotado de um produto escalar u, v ∈

H 7→ hu, vi ∈ é dito ser um espaço de Hilbert1 se for completo em relação à métrica d
definida por esse produto escalar:
p
d(u, v) = ku − vk = hu − v, u − vi, u, v ∈ H. (22.1)
Advertimos o estudante que dentre as propriedades definidoras de espaços de Hilbert destaca-se não
apenas a existência de um produto escalar, mas também a propriedade de completeza, sem a qual
muitas propriedades geométricas não seriam válidas. Vide adiante.
Espaços de Hilbert desempenham um papel fundamental em toda a Fı́sica Quântica2 e em várias
áreas da Matemática. Exemplos de espaços de Hilbert são os espaços de dimensão finita n , o espaço
`2 , das seqüências de quadrado somável, estudado na Seção 13.4.1, página 750, e os espaços L 2 (M, dµ),
das funções de quadrado integrável em relação a uma medida µ definida em um espaço mensurável M .
Esses espaços foram estudados na Seção 20.4, página 938.
Sobre a origem da noção abstrata de Espaço de Hilbert, vide nota histórica à página 749. As noções
de espaços de Banach e de Hilbert foram introduzidas nestas Notas na Seção 13.4, página 748.
Para a leitura deste capı́tulo uma certa familiaridade com a noção de produto escalar e de norma é
necessária, assim como é necessário conhecer a desigualdade de Cauchy-Schwarz. O conceito de produto
escalar foi apresentado na Seção 2.2.3, página 116, a desigualdade de Cauchy-Schwarz foi demonstrada
no Teorema 2.6, página 113 e o conceito de norma foi introduzido na Seção 2.3, página 120.
22.1 Aspectos Topológicos Básicos de Espaços de Hilbert

Por sua definição, um espaço de Hilbert H é um espaço métrico com a métrica dada em (22.1) e,
portanto, existe uma topologia métrica naturalmente definida em H. É a essa topologia a que normal-
mente nos referiremos quando falarmos de convergência de seqüências e de continuidade de funções em
H.
1
2
Há um dito corrente (e anônimo) que a Mecânica Quântica é uma agradável introdução ao estudo dos espaços de
Hilbert...
986
Assim, dizemos que uma seqüência {xn }n∈ de vetores de um espaço de Hilbert H converge a um

vetor x de H se para todo > 0 existir N () ∈ tal que kx − xi k ≤ para todo i ≥ N (). Em outras

palavras, x = limn→∞ xn se e somente se limi→∞ kx − xi k = 0.

O estudante deve ser advertido que outras há outras topologias de interesse no estudo dos espaços
de Hilbert, como a topologia fraca induzida pelos produtos escalares. No estudo introdutório que
pretendemos nesse capı́tulo tais topologias não serão consideradas.
• Conjuntos fechados em espaços de Hilbert
Muito freqüentemente estaremos estudando o fecho de subconjuntos de um espaço de Hilbert e H

propriedades de conjuntos fechados em um espaço de Hilbert H e vale a pena lembrar nesse contexto
as seguintes caracterizações de tais conceitos, válidas em espaços métricos gerais (vide página 835),
caracterizações estas das quais faremos freqüente uso no que segue:
1. O fecho C de um subconjunto C de um espaço de Hilbert H é o conjunto de todos os vetores de

H que são pontos limite de seqüências convergentes formada por elementos de C.
2. Um subconjunto F de um espaço de Hilbert H é fechado se toda seqüência convergente formada

por elementos de F convergir em H a um vetor que também é elemento de F .
• O fecho de um subespaço linear é também um subespaço linear
Vamos ilustrar os conceitos acima mostrando um simples resultado do qual faremos uso adiante.
Seja E um subespaço de um espaço de Hilbert H. Vamos mostrar que seu fecho E é também um
sub-espaço de H. Para isso devemos mostrar que se x, y ∈ E, então qualquer vetor de H que seja
da forma z = αx + βy, com α, β ∈ , é também elemento de E. Se x e y ∈ E, então existem duas
seqüências xi e yi , i ∈ , de vetores de E tais que xi → x e yi → y. Como E é um subespaço, todos

os vetores zi = αxi + βyi são também elementos de E. É fácil, porém, mostrar que zi → z. De fato
kz − zi k = k(αx + βy) − (αxi + βyi )k = kα(x − xi ) + β(y − yi )k ≤ |α|kx − xi k + |β|ky − yi k.
Agora, por hipótese, tanto kx − xi k quanto ky − yi k vão a zero quando i → ∞, mostrando que zi → z.
Isso mostra, então, que elementos como z são pontos limite de seqüências de elementos de E (no caso
{zi }i∈ ) e, portanto, pertencem também ao fecho de E que é, portanto, um subespaço de H.

• Uma propriedade da norma
Se a e b são dois vetores de um espaço vetorial normado V (como um espaço de Hilbert, por
exemplo), então vale que

ka − bk − kbk ≤ kak . (22.2)
Para mostrar isso, notemos que a relação ka − bk ≤ kak + kbk implica
kak ≥ ka − bk − kbk.
Com a substituição b → a − b, tiramos também que
kak ≥ kbk − ka − bk.
As duas desigualdades dizem que kak ≥ | ka − bk − kbk |, como querı́amos provar.
• Continuidade da norma e do produto escalar
De acordo com a definição de continuidade de funções entre espaços métricos (vide discussão à
página 892) uma função f : H → , de um espaço de Hilbert H nos números complexos é contı́nua
se para toda seqüência convergente de vetores {xi }i∈ a seqüência de números {f (xi )}i∈ for também

convergente e
lim f (xn ) = f lim xn .
n→∞ n→∞
Um exemplo banal de uma tal função contı́nua é a norma f (x) = kxk. De fato, se xn → x,
isso significa que kxi − xk → 0. Logo |f (x) − f (xi )| = |kxk − kxi k|. Mas, pela desigualdade (22.2),
tomando-se a = x − xi e b = −xi , concluı́mos
|f (x) − f (xi )| ≤ kx − xi k,
como o lado direito vai a zero quando i → ∞. concluı́mos que

lim f (xn ) = f lim xn = f (x), ou seja, lim kxn k = lim xn = kxk ,
n→∞ n→∞ n→∞ n→∞
demonstrando a continuidade da norma.

Há um outro exemplo igualmente banal, mas importante. Seja φ ∈ H um vetor fixo e seja a função
f : H → dada por
f (x) = hφ, xi.
Que f é contı́nua pode ser demonstrado com uso da desigualdade de Cauchy-Schwarz (Teorema 2.6,
página 113), que diz que se xn → x, então
|f (x) − f (xi )| = |hφ, (x − xi )i| ≤ kφk kx − xi k
e o lado direito vai a zero quando i → ∞, demonstrando a continuidade. Analogamente, fixando-se

φ ∈ H, a função f (x) = hx, φi é contı́nua.
22.2 Aspectos Geométricos Básicos de Espaços de Hilbert
• Conjuntos convexos
Seja V um espaço de vetorial (sobre os reais ou complexos). Uma combinação linear de dois vetores
x e y ∈ V que seja do tipo λx + (1 − λ)y com λ ∈ [0, 1] é dita ser uma combinação linear convexa de
x e y. Um conjunto A ⊂ V é dito ser um conjunto convexo se para todo x, y ∈ A e todo λ ∈ [0, 1] o
vetor λx + (1 − λ)y também for elemento de A.
Note-se que qualquer subespaço de V é também um conjunto convexo.
• Teorema do melhor aproximante
O seguinte teorema é de importância fundamental na teoria dos espaços de Hilbert.

Teorema 22.1 Seja A um sub-conjunto convexo e fechado de um espaço de Hilbert H. Então, para
todo x ∈ H existe um vetor y ∈ A tal que a distância kx − yk entre x e y é igual a mı́nima distância
possı́vel entre x e A, ou seja,
kx − yk = inf 0
kx − y 0 k.
y ∈A
Fora isso esse vetor y é o único vetor em A com essa propriedade. 2
Prova. A idéia da demonstração é construir um vetor y com a propriedade mencionada a partir de

uma seqüência de Cauchy de vetores de A, mostrar que essa seqüência converge a um vetor de A,
mostrar que esse vetor satisfaz a propriedade de mı́nima distância mencionada e, por fim, mostrar sua
unicidade.
Seja D ≥ 0 definida como
D = inf
0
kx − y 0 k.
y ∈A
Seja, para cada n ∈ um vetor yn ∈ A com a propriedade que

1
kx − yn k2 < D 2 + .
n
Notemos que tais vetores sempre existem. Se tal não fosse o caso, ou seja, se para algum n, digamos
n0 , não existisse vetor nenhum y 0 em A tal que kx − y 0 k2 < D 2 + n10 , isso significaria que para todo
y 0 ∈ A valeria que kx − y 0 k2 ≥ D 2 + n10 . Mas isso contraria a definição de D como o ı́nfimo de kx − y 0 k,
y 0 ∈ A.
Vamos agora provar que toda seqüência yn como acima é uma seqüência de Cauchy em H. Para
tal, usaremos a identidade do paralelogramo (vide página 124) e o fato de A ser convexo.
A identidade do paralelogramo diz que para todos a, b ∈ H tem-se que
ka + bk2 + ka − bk2 = 2kak2 + 2kbk2 . (22.3)
Adotemos, então, a = x − yn e b = x − ym . Teremos que
k2x − (ym + yn )k2 + kym − yn k2 = 2kx − yn k2 + 2kx − ym k2 .
Isso pode ser reescrito (verifique) como
2
y m + y n
kym − yn k = 2kx − yn k + 2kx − ym k − 4
2 2
x −
2 .

2
1
Usando agora o fato que kx − yn k2 < D 2 + para todo n , ficamos com
n
2
1 1 y + y
− 4 .
2 2 m n
kym − yn k ≤ 4D + 2 + x −
n m 2
Notemos agora também que ym +y2

n
∈ A pois o lado esquerdo é uma combinação linear convexa de
elementos de A e A é um conjunto convexo. Assim, pela definição de D,
2

x − ym + y n ≥ D 2 .
2
Portanto, temos que

2 2 1 1 2 1 1
kym − yn k ≤ 4D + 2 + − 4D = 2 + .
n m n m
O lado direito pode ser feito arbitrariamente pequeno, tomando-se m e n ambos grandes o suficiente.
Ora, isso diz-nos precisamente que {yn }n∈ é uma seqüência de Cauchy.

Com essa informação. e lembrando que H é um espaço métrico completo, segue que y n converge a
um elemento y ∈ H. Na verdade podemos dizer também que y ∈ A, pois fizemos a hipótese que A é
fechado (lembre-se da caracterização de conjuntos fechados em espaços métricos da página 835).
Uma vez encontrado esse y ∈ A, vamos mostrar que kx − yk = D. De fato, para todo n vale que
r
1
kx − yk = k(x − yn ) − (y − yn )k ≤ kx − yn k + ky − yn k ≤ D 2 + + ky − yn k.
n
Tomando-se n → ∞, e usando o fato que yn converge a y, concluı́mos que kx − yk ≤ D (verifique). Por
outro lado, é evidente pela definição de D que kx − yk ≥ D, pois y ∈ A. Daı́, segue que kx − yk = D,
Resta-nos demonstrar que esse y é o único elemento de A com essa propriedade. Para tal, vamos
supor que haja outro y 0 ∈ A com kx − y 0 k = D e usemos novamente a identidade do paralelogramo
(22.3), mas agora com a = x − y e b = x − y 0 . Teremos que
k2x − (y + y 0 )k2 + ky − y 0 k2 = 2kx − yk2 + 2kx − y 0 k2 = 4D 2 ,
ou seja, 2
y + y0
0 2 2 0
ky − y k = 4D − k2x − (y + y )k = 4D − 4 x − 2 . 2
2
y+y 0
Como 2
∈ A, por ser uma combinação linear convexa, segue que

0 2
y + y
x − ≥ D2
2
e, portanto,
ky − y 0 k2 ≤ 0
o que só é possı́vel se y = y 0 .
• Complementos ortogonais
Se E e um subconjunto de um espaço de Hilbert H, define-se seu complemento ortogonal E ⊥ como

o conjunto de todos os vetores de H que são ortogonais a todos os vetores de E:
E ⊥ = {y ∈ H| hy, xi = 0 para todo x ∈ E} .
Temos a seguinte proposição:

Proposição 22.1 O complemento ortogonal E ⊥ de um subconjunto E de H é um sub-espaço linear
fechado de H. 2
Prova. Que E ⊥ é um subespaço é fácil de se verificar pois se x, y ∈ E ⊥ , então, para quaisquer α, β ∈ ,
hαx + βy, zi = αhx, zi + βhy, zi = 0
para todo z ∈ E, o que mostra que αx + βy ∈ E ⊥ . Que E ⊥ é um conjunto fechado segue do seguinte
argumento. Se xn é uma seqüência de elementos de E ⊥ que converge a um x ∈ H, então, para todo
z ∈ E vale D E
hx, zi = lim xn , z = lim hxn , zi = 0 (22.4)
n→∞ n→∞
pois hxn , zi = 0 para todo n, já que xn ∈ E ⊥ . Isso prova que x ∈ E ⊥ , que é assim, fechado. Na
penúltima igualdade em (22.4) usamos a continuidade do produto escalar.
Faremos adiante uso do seguinte lema:

Lema 22.1 Se A e B são dois conjuntos de um espaço de Hilbert H e A ⊂ B, então, B ⊥ ⊂ A⊥ . 2
Prova. Por definição, se y ∈ B ⊥ , y é ortogonal a todo elemento de B. Como A é subconjunto de B, y

é também ortogonal a todo elemento de A, ou seja, y ∈ A⊥ .
• Teorema da decomposição ortogonal
O teorema do melhor aproximante que apresentamos acima tem uma conseqüência importante.
Como todo sub-espaço linear de um espaço de Hilbert é convexo, segue que sub-espaços lineares fechados
satisfazem as hipóteses do teorema. Assim, se M é um sub-espaço linear fechado de um espaço de Hilbert
H vale para todo x ∈ H que existe um y ∈ M único tal que
kx − yk = inf
0
kx − y 0 k.
y ∈M
Usaremos esse fato para demonstrar o seguinte teorema, de importância central na teoria dos espaços
de Hilbert:
Teorema 22.2 (Teorema da Decomposição Ortogonal) Seja M um sub-espaço linear fechado de
um espaço de Hilbert H. Então, todo x ∈ H pode ser escrito de maneira única na forma x = y + z,
com y ∈ M e z ∈ M⊥ . 2
Prova. Vamos escolher y como o elemento de M tal que kx − yk = inf y0 ∈M kx − y 0 k, cuja existência foi
garantida pelo Teorema 22.1, página 989. Se definirmos z = x − y tudo que nos restaria fazer é provar
que z ∈ M⊥ e que tais y e z são únicos. Vamos provar primeiro que z ∈ M⊥ , o que equivale a provar
que hz, y 0 i = 0 para todo y 0 ∈ M. Isso é feito indiretamente, observando primeiro que, pela definição
de y, vale que
kx − yk2 ≤ kx − y − λy 0 k2
para todo λ ∈ e todo y 0 ∈ M, já que y + λy 0 ∈ M, pois M é um subespaço. Essa última relação diz,
pela definição de z, que
kzk2 ≤ kz − λy 0 k2
para todo λ ∈ . Escrevendo o lado direito como hz − λy 0 , z − λy 0 i e expandindo, teremos
kzk2 ≤ kzk2 − 2Re(λhz, y 0 i) + |λ|2 ky 0 k2 ,
ou seja,
2Re(λhz, y 0 i) ≤ |λ|2 ky 0 k2 . (22.5)
Agora, como todo número complexo, hz, y 0 i é da forma hz, y 0 i = |hz, y 0 i|eiα , para algum α real. Como
(22.5) vale para todo λ ∈ , vale em particular para λ da forma λ = te−iα , onde escolhemos t > 0.
Inserindo esse λ em (22.5), a mesma fica
2t|hz, y 0 i| ≤ t2 ky 0 k2 ,
ou seja,
t 0 2
|hz, y 0 i| ≤
ky k ,
2
desigualdade esta que vale para todo t > 0. Ora, isso só é possı́vel se o lado esquerdo é nulo: |hz, y 0 i| =
0. Como y 0 é um elemento arbitrário de M, isso demonstra que z ∈ M⊥ , como querı́amos.
Demonstrar a unicidade da escolha de y e z é bem fácil. Suponha que também possamos escrever
x = y 0 + z 0 com y 0 ∈ M e z 0 ∈ M⊥ . Terı́amos y + z = y 0 + z 0 , ou seja, y − y 0 = z 0 − z. Agora, o lado
esquerdo é um elemento de M, enquanto que o lado direito é um elemento de M⊥ (por que?). Porém,
o único elemento que M e M⊥ podem ter em comum é o vetor nulo (por que?), o que implica y = y 0 e
z = z0.
• Fechos e complementos ortogonais
Proposição 22.2 O fecho E de um sub-espaço E de H é E = (E ⊥ )⊥ . Em particular, se E é um

sub-espaço fechado de H, então E = (E ⊥ )⊥ . 2
Prova. Notemos primeiramente que E ⊂ (E ⊥ )⊥ , pois (E ⊥ )⊥ é o conjunto de todos os vetores per-

pendiculares a cada elemento de E ⊥ e todo elemento de E tem essa propriedade. Como (E ⊥ )⊥ é um
conjunto fechado (pela Proposição 22.1, página 991), segue que E ⊂ (E ⊥ )⊥ pois, por definição, E é o
menor fechado que contem E.
Vamos agora provar a relação oposta, ou seja, que E ⊃ (E ⊥ )⊥ . Para isso vamos mostrar que todo
elemento de (E ⊥ )⊥ está no fecho de E. Seja x ∈ (E ⊥ )⊥ . Como E é um subespaço linear fechado, a
ele se aplica o Teorema de Decomposição Ortogonal e podemos afirmar que x pode ser escrito como
x = y + z com y ∈ E e z ∈ (E)⊥ . Se provarmos que z = 0, teremos estabelecido que x = y ∈ E, que é
o que queremos. Para isso, notemos que
hx, zi = hy, zi + kzk2 .
Como hy, zi = 0 (pois y ∈ E e z ∈ (E)⊥ ), segue que kzk2 = hx, zi. Queremos agora provar que esse
produto escalar é nulo, o que implica z = 0.
⊥
Como E ⊂ E segue pelo Lema 22.1, página 991, que E ⊂ E ⊥ . Logo z ∈ E ⊥ . Como x ∈ (E ⊥ )⊥ ,
segue imediatamente que x e z são perpendiculares, completando a prova.
22.2.1 Bases Ortonormais Completas em Espaços de Hilbert
• Conjuntos ortonormais
Um conjunto E de vetores de um espaço de Hilbert é dito ser um conjunto ortonormal se a norma

de todos os seus elementos for igual a 1 e se vetores distintos de E forem ortogonais entre si, ou seja,
kuk = 1, ∀u ∈ E e hu, vi = 0, ∀u, v ∈ E com u 6= v.
Vamos a alguns exemplos. No espaço de Hilbert L2 ([0, 2π], dx) o conjunto

1 inx
en (x) = √ e , n ∈ (22.6)
2π
é um conjunto ortonormal de vetores. No espaço de Hilbert `2 das seqüências de quadrado integrável
(vide Seção 13.4.1, página 750), as seqüências enm = δn, m formam um conjunto ortonormal de vetores.
Podemos representá-las como
 
en = 0, . . . , 0, 1, 0, . . . , n ≥ 1.
| {z }
n−1
No espaço de Hilbert L2 ([−1, 1], dx) um conjunto ortonormal é formado pelos polinômios de Legendre
(normalizados) ( )
r
2n + 1
en (x) = Pn (x), n ∈ ,
2

pois, como é bem sabido, valem para os polinômios de Legendre3 Pn (x), definidos por
[n/2]
1 dn 2 X (−1)k (2n − 2k)!
n
Pn (x) = n (x − 1) = xn−2k
2 n! dxn k=0
2 n k!(n − k)!(n − 2k)!
as relações Z 1
2
Pn (x)Pm (x) dx = δn, m .
−1 2n + 1
3
No espaço de Hilbert L2 ( , dx), de particular importância para a Mecânica Quântica, há vários

conjuntos ortonormais bem-conhecidos, como por exemplo

( )
1 −x2 /2
en (x) = p √ Hn (x) e , n∈ ,
m
2 m! π
onde Hn são os polinômios de Hermite4

2 dn −x2
Hn (x) = (−1)n ex e ,
dxn
os quais satisfazem Z ∞ √
2
Hm (x) Hn (x) e−x dx = 2m m! π δm n .
−∞
• O espaço das funções almost-periódicas. Uma digressão
Há espaços de Hilbert onde, em contraste com os exemplos de acima, existem conjuntos ortonor-
mais não-contáveis de vetores. Um exemplo importante é o espaço AP ( ), das funções ditas almost-

periódicas em . Sem entrarmos em detalhes (para um tratamento completo, vide e.g. [69] e [22]), são

denominadas almost-periódicas as funções f : → que podem ser escritas como limites uniformes

de séries trigonométricas como X

f (t) = fn eiωn t , t ∈ , (22.7)
n∈
onde fn são constantes e {ωn , n ∈ } é um sub-conjunto contável arbitrário de . As constantes ωn
são denominadas freqüências de f e as constantes fn são denominadas amplitudes. Um caso particular

importante é aquele no qual as freqüências ωn são da forma ωn = nω, para algum ω > 0, denominado
freqüência fundamental. Como o estudante facilmente reconhece, funções como
X
f (t) = fn einωt , t ∈
n∈
são periódicas de perı́odo 2π/ω. Se a série do lado direito converge uniformemente, f é contı́nua
(certo?). Assim, AP ( ) contem as funções contı́nuas e periódicas. O conjunto AP ( ) contem também

funções não-periódicas. Por exemplo, funções como
f (t) = 2 cos(ω1 t) + 2 cos(ω2 t) = eiω1 t + e−iω1 t + eiω2 t + e−iω2 t , ω1 > 0 e ω 2 > 0 , (22.8)
são elementos de AP ( ), mas são periódicas se e somente se a razão ω2 /ω1 for um número racional.

Se ω2 /ω1 for racional da forma ω2 /ω1 = p/q com p e q inteiros e primos entre si, então a f dada acima
é periódica de perı́odo T = 2πp/ω2 = 2πq/ω1 .
E. 22.1 Exercı́cio. Justifique todas as afirmações acima. Em particular, prove que a função f de (22.8)
não é periódica se ω2 /ω1 for irracional. 6
4
Um exemplo de uma função de AP ( ) que não é periódica é

√ √ √
f (t) = 2 cos( 2t) + 2 cos(t) = ei 2t + e−i 2t + eit + e−it ,
√
que não é periódica, pois 2 6∈ .
Funções como a f de (22.8) não são periódicas se ω2 /ω1 for irracional. Como, porém, todo número
irracional pode ser aproximado por seqüências de números racionais, uma tal f possui perı́odos apro-
ximados (mas não exatos!). Essa é a origem da denominação de tais funções como almost-periódicas 5 .
Foi demonstrado por H. Bohr (vide nota histórica, abaixo) que o conjunto AP ( ) gera um espaço
de Hilbert com produto escalar dado por

Z T
1
hf, giAP := lim f (x)g(x) dx . (22.9)
T →∞ 2T −T
É um exercı́cio fácil mostrar que o conjunto de funções

eα (x) = eiαx , α ∈ ⊂ AP ( )
(22.10)
é um conjunto ortonormal em relação ao produto escalar (22.9). Trata-se, claramente, de um conjunto
não-contável.
E. 22.2 Exercı́cio. Mostre que heα , eα iAP = 1 para todo α ∈ e que heα , eβ iAP = 0 para todos
α, β ∈ com α 6= β.
6
Nota histórica. A teoria das funções “almost”-periódicas reais foi originalmente desenvolvida por H.
Bohr6 , irmão de N. Bohr7 , em vários trabalhos publicados entre 1924 e 1926. H. Bohr, porém, menciona
dois predecessores: Bohl8 , em tese publicada em 1893, e Esclangon9 , em tese de 1904, os quais obtiveram
resultados semelhantes sobre as funções ditas “quase-periódicas”, um caso especial das funções almost-
periódicas estudadas por H. Bohr. Os trabalhos de H. Bohr podem ser encontradas na edição em
três volumes [12] de suas obras completas. Bohr não conhecia previamente os trabalhos anteriores
de Bohl e Esclangon sobre as funções quase-periódicas e menciona ter sido chamado à atenção sobre
existência dos mesmos por Hadamard10 . H. Bohr distinguiu-se também pelo desenvolvimento da teoria
das funções “almost”-periódicas de uma variável complexa. O conceito foi posteriormente generalizado
por von Neumann11 para funções definidas em grupos. Para definições e alguns resultados nesse caso
geral, vide [132].
• O Teorema de Pitágoras
5
Em Português seria mais adequado dizer “quase-periódicas”. Porém, essa nomenclatura é usada em várias lı́nguas
para designar um certo sub-conjunto de funções de AP ( ). Por isso optamos pelo barbarismo “almost-periódicas”.
6
Harald August Bohr (1887-1951).
7
Niels Henrik David Bohr (1885-1962).
8
Piers Bohl (1865-1921).
9
Ernest B. Esclangon (1876-1954).
10
Jacques S. Hadamard (1865-1963).
11
John von Neumann (1903-1957).
Proposição 22.3 Seja E = {e1 , . . . , en } um conjunto ortonormal finito de um espaço de Hilbert H

e sejam λ1 , . . . , λn números complexos. Então,
2
X n n
X

λa e a = |λa |2 .

a=1 a=1
Prova. n 2 * n +
X X n
X Xn Xn Xn

λa e a = λa e a , λb e b = λa λb hea , eb i = |λa |2 ,
a=1 a=1 a=1 a=1
b=1 b=1
pois hea , eb i = δa, b .
A proposição acima é denominada Teorema de Pitágoras12 por ser uma óbvia generalização do bem
conhecido teorema da geometria plana.
• Conjuntos ortonormais e séries convergentes
Exploraremos aqui uma conseqüência do Teorema de Pitágoras da qual faremos uso adiante. Trata-
se de uma condição necessária e suficiente para que certas seqüências formadas por combinações lineares
de elementos de um conjunto ortonormal contável de um espaço de Hilbert H sejam convergentes,
seqüências estas muito comummente encontradas na Mecânica Quântica e outras aplicações da teoria
dos espaços de Hilbert.
Proposição 22.4 Seja H um espaço de Hilbert e {en , n ∈ } um conjunto ortonormal contável em
H. Então, uma seqüência de vetores
n
X
sn = λa e a , n∈ ,
a=1
converge em H se e somente se
∞
X
|λa |2 < ∞.
a=1
2
Prova. Se sn converge é uma seqüência de Cauchy. Isso significa que para todo > 0 existe N () tal
que para todo m e n maiores que N () tem-se ksm − sn k ≤ . Vamos supor sem perda de generalidade
que m < n. Pelo Teorema de Pitágoras
2
Xn Xn

ksm − sn k2 = λa e a = |λa |2 = |lm − ln |, (22.11)

a=m+1 a=m+1
12
Pitágoras de Samos (ci. 569 A.C. - ci. 475 A.C.).
onde n
X
ln = |λa |2 .
a=1
Concluı́mos que |lm − ln | ≤ 2 para todo m e n maiores que N (), ou seja, ln é uma seqüência de Cauchy
de números reais e que, portanto, converge. Assim,
∞
X
|λa |2 < ∞.
a=1
P
Vamos mostrar a recı́proca. Se ∞ 2
a=1 |λa | < ∞, então ln é limitada superiormente e, por ser uma
seqüência monotonamente crescente, converge (por que?). Assim, ln é uma seqüência de Cauchy. A
mesma identidade (22.11) nos diz, então, que sn é uma seqüência de Cauchy em H e, portanto, converge
a um vetor de H.
• Sub-espaços gerados por conjuntos ortonormais finitos
Seja E = {e1 , . . . , en } um conjunto ortonormal finito de um espaço de Hilbert H. É elementar

verificar que o conjunto E de todos os vetores de H que sejam da forma
n
X
λa e a
a=1
para λa complexos é um subespaço de H, denominado subespaço gerado por E.

Proposição 22.5 Se E é um subespaço gerado por um conjunto ortonormal finito, então E é um
conjunto fechado. 2
Prova. Seja {xi }i∈ uma seqüência de elementos de E que converge a x ∈ H. Cada xi é da forma

n
X
i
x = λia ea .
a=1
Vamos provar que para cada a a seqüência {λia }i∈ é uma seqüência de Cauchy de números complexos.

Se {xi }i∈ é convergente, então é uma seqüência de Cauchy. Logo, para todo > 0 existe N () tal que

kxi − xj k ≤ para todos i, j ≥ N (). Assim, para i, j ≥ N ()

2
X n X n
2 i j 2 i j
≥ kx − x k = (λa − λa )ea = |λia − λja |2 .

a=1 a=1
Mas isso diz que para i, j ≥ N () tem-se para cada a |λia − λja | ≤ , ou seja, {λia }i∈ é uma seqüência de

Cauchy de números complexos. Assim, cada uma dessas seqüências converge a um número complexo
λa . Seja
X n
0
x = λa e a .
a=1
Claramente x0 é um elemento de E. Vamos mostrar que, na verdade, x0 = x. Para tal basta mostrar
que xi converge a x0 e lembrar a unicidade de pontos limite em espaços métricos, como um espaço de
Hilbert (vide Corolário 18.1, página 879). Mostrar que xi converge a x0 é trivial, pois
2
X n Xn
i 0 2 i
kx − x k = (λa − λa )ea = |λia − λa |2

a=1 a=1
e como λia → λa o lado direito fica arbitrariamente pequeno quando i → ∞. Logo xi → x0 e, portanto,
x0 = x.
• A desigualdade de Bessel
Vamos estudar algumas propriedades de conjuntos ortonormais finitos ou contáveis, a mais impor-
tante sendo a desigualdade de Bessel, a qual chegaremos adiante.
Proposição 22.6 Seja E = {e1 , . . . , en } um conjunto ortonormal finito de um espaço de Hilbert H
e sejam λ1 , . . . , λn números complexos. Então, para todo x ∈ H vale que
2
Xn Xn n
X
2 2
x − λa ea = kxk + |λa − hea , xi| − |hea , xi|2 . (22.12)

a=1 a=1 a=1
Prova.
2 * +
n
X n
X n
X

x − λa e a = x− λa e a , x − λb e b

a=1 a=1 b=1
2
n
X n
X Xn

= kxk2 − λb hx, eb i − λa hea , xi + λa e a

b=1 a=1 a=1
n
X
= kxk2 + −λa hea , xi − λa hea , xi + |λa |2
a=1
n
X Xn
= kxk2 + |hea , xi|2 − λa hea , xi − λa hea , xi + |λa |2 − |hea , xi|2
a=1 a=1
n
X n
X
2
= kxk + (λa − hea , xi) (λa − hea , xi) − |hea , xi|2
a=1 a=1
n
X n
X
2 2
= kxk + |λa − hea , xi| − |hea , xi|2 . (22.13)
a=1 a=1
Já vimos acima (página 997) que o subespaço E gerado por um conjunto ortonormal finito E =
{e1 , . . . , en } é fechado. Vale, portanto, o teorema do melhor aproximante: para todo x ∈ H existe
um y ∈ E tal que a distância kx − yk é a mı́nima possı́vel. Se y 0 ∈ E, y 0 é da forma
n
X
0
y = λa e a .
a=1
Logo,
n
X n
X
kx − y 0 k2 = kxk2 + |λa − hea , xi|2 − |hea , xi|2 .
a=1 a=1
É evidente que o lado direito assume seu valor mı́nimo quando λa = hea , xi para todo a entre 1 e n,
ou seja,
Xn
y = hea , xiea , (22.14)
a=1
e n
X
2 0 2 2 2
D = inf
0
kx − y k = kx − yk = kxk − |hea , xi|2 . (22.15)
y ∈E
a=1
Retornando à relação (22.15), notemos que a mesma afirma que

n
X
2
kxk − |hea , xi|2 ≥ 0,
a=1
ou seja, para todo x ∈ H e para todo conjunto ortonormal finito E = {e1 , . . . , en } vale
n
X
|hea , xi|2 ≤ kxk2 . (22.16)
a=1
Se E = {en , n ∈ } é um conjunto ortonormal contável, segue que também vale

∞
X
|hea , xi|2 ≤ kxk2 . (22.17)
a=1
Estas duas últimas desigualdades são conhecidas como desigualdades de Bessel. Como veremos em
breve, as mesmas desempenham um papel importante.
• Bases ortonormais completas
Chegamos agora ao importante conceito de Base Ortonormal Completa de um espaço de Hilbert.

Definição. Um conjunto ortonormal B de vetores em um espaço de Hilbert H é dito ser um conjunto

ortonormal completo ou uma base ortonormal completa se o único vetor de H que é ortogonal a todos
os vetores de B for o vetor nulo.
Notemos que B da definição acima não precisa ser necessariamente um conjunto finito ou contável.
De fato, como veremos, há espaços de Hilbert que só admitem bases ortonormais completas não-
contáveis.
Bases ortonormais completas desempenham um papel de grande importância em espaços de Hilbert
e suas aplicações. Vamos estudá-las aqui. Primeiramente demonstremos que as mesmas sempre existem.
Teorema 22.3 Todo espaço de Hilbert possui pelo menos uma base ortonormal completa. 2
Prova. A demonstração faz uso do Lema de Zorn, página 35. Seja E a coleção de todos os conjuntos
ortonormais de um espaço de Hilbert H. Podemos introduzir em E uma ordem parcial, denotada por
“”, dizendo que E1 E2 se E1 ⊂ E2 , para dois conjuntos ortonormais E1 e E2 .
Seja {Eα , α ∈ Λ} um conjunto linearmente ordenado em E pela relação de ordem acima. Isso
significa que ou Eα ⊂ Eβ ou Eβ ⊂ Eα para quaisquer α, β ∈ Λ.
Esse conjunto {Eα , α ∈ Λ} possui um majorante em E, a saber, o conjunto ortogonal obtido
tomando-se a união de todos os Eα : [
Eα .
α∈Λ
S
E. 22.4 Exercı́cio. Por que razão α∈Λ Eα é também um conjunto ortonormal? 6
Assim, concluı́mos que em E, com a relação de ordem dada acima, vale sempre que qualquer conjunto
linearmente ordenado possui um majorante em E. Ora, essas são precisamente as hipóteses do Lema de
Zorn e, assim, concluı́mos que existe um elemento maximal B em E, ou seja, um conjunto ortonormal
que não está contido propriamente em nenhum outro conjunto ortonormal.
Vamos, então, mostrar que esse B é uma base ortonormal completa. Para tal vamos supor o oposto,
ou seja, vamos supor que haja y ∈ H não nulo que seja ortogonal a todos os elementos de B, claramente
y não pode pertencer a B, pois para isso teria que ser ortogonal a si mesmo, ou seja, kyk 2 = hy, yi = 0.
Se um tal y existisse, então B1 = B ∪{y} seria também um conjunto ortonormal (por que?) que contem
B como subconjunto próprio. Ora, isso contraria o fato que B é maximal. Logo tal y não existe e B é
uma base ortonormal completa.
A importância das bases ortonormais completas reside no fato que todo vetor de um espaço de
Hilbert pode ser escrito como limite de seqüências de vetores obtidos por combinações lineares finitas
de elementos de uma base ortonormal completa. Tornaremos isso preciso em breve. Façamos antes
porém a seguinte observação crucial:
Teorema 22.4 Seja B uma base ortonormal completa de um espaço de Hilbert H. Para cada y ∈ H,
o conjunto de todos os eα ∈ B tais que heα , yi 6= 0 é um conjunto contável. 2
Note-se que não está excluı́do que a a base B, no enunciado acima, possa ser não-contável.
Prova. Comecemos lembrando que se {eα1 , . . . , eαm } é um subconjunto finito da base B, então a
desigualdade de Bessel diz que
Xm
|heαa , yi|2 ≤ kyk2 . (22.18)
a=1
É bastante claro também que a base B pode ser escrita como a seguinte união disjunta:
B = Z y ∪ By (22.19)
com
Z y := {eα ∈ B| heα , yi = 0}
B y := {eα ∈ B| heα , yi 6= 0} .
É igualmente claro que podemos escrever B y como
∞
[
y
B = Bny , (22.20)
n=1
onde, para n = 1, 2, . . .,

kyk2 kyk2
Bny 2
= eα ∈ B |heα , yi| ∈ , .
n+1 n
E. 22.5 Exercı́cio. Convença-se que (22.19) é de fato verdade e que aquela união é disjunta, assim
como a união em (22.20). 6
Desejamos mostrar que B y é um conjunto contável. A observação crucial é que cada Bny é um
conjunto finito. De fato, podemos facilmente mostrar que cada Bny tem no máximo n elementos.
Mostramos isso por contradição com a desigualdade de Bessel (22.18). Vamos supor que houvesse em
Bny mais que n elementos e tomemos em Bny um conjunto {eα1 , . . . , eαn+1 } com n + 1 elementos. Como
todos são elementos de Bny , tem-se que
kyk2
|heαa , yi|2 >
n+1
para todo a = 1, . . . , n + 1. Logo
n+1
X kyk2
|heαa , yi|2 > (n + 1) = kyk2 ,
a=1
n+1
contrariando a desigualdade de Bessel (22.18). Assim, cada Bny pode ter no máximo n elementos.
S
Isso nos diz que B y = ∞ y
n=1 Bn é um conjunto contável (eventualmente até finito), completando a
demonstração.
• A decomposição de vetores em bases ortogonais completas
Chegamos agora ao resultado mais importante sobre bases ortogonais completas e que é a verdadeira
razão de ser de sua definição.
Teorema 22.5 Seja y um vetor de um espaço de Hilbert H e B uma base ortonormal completa em
H. Como vimos acima, o subconjunto de B definido por B y = {eα ∈ B| heα , yi 6= 0} é um conjunto
contável. Vamos escrever os elementos de B y como eαa com a ∈ . Então, vale que
n
X
y = lim heαa , yi eαa (22.21)
n→∞
a=1
e que
∞
X
2
kyk = |heαa , yi|2 . (22.22)
a=1
2
A expressão (22.22) pode ser interpretada como uma generalização to Teorema de Pitágoras para
dimensão infinita.
Prova do Teorema 22.5. Pela desigualdade de Bessel sabemos que

∞
X
|heαa , yi|2 ≤ kyk2 .
a=1
n
X
Pela Proposição 22.4, página 996, isso nos diz que a seqüência de vetores s n = heαa , yi eαa converge
a=1
em H a um vetor que chamaremos de y 0 :
n
X ∞
X
0
y = lim heαa , yi eαa = heαa , yi eαa .
n→∞
a=1 a=1
Queremos provar que y 0 = y. Para tal, tomemos um elemento arbitrário eα em B e calculemos o

produto escalar heα , y − y 0 i. Há dois casos a considerar: 1) eα ∈ B y e, portanto, α = αk para algum
k ∈ e 2) eα 6∈ B y e, portanto, heα , yi = 0 e α 6= αk para todo k ∈ .

No caso 1) temos
* n
+
X
heα , y 0 i = eα , lim heαa , yi eαa
n→∞
a=1
* n
+
X
= lim eα , heαa , yi eαa
n→∞
a=1
= heαk , yi
= heα , yi. (22.23)
Logo,
heα , y − y 0 i = heα , yi − heα , y 0 i = heα , yi − heα , yi = 0.
No caso 2) temos
* n
+
X
heα , y 0 i = eα , lim heαa , yi eαa
n→∞
a=1
n
X
= lim heαa , yi heα , eαa i
n→∞
a=1
= 0, (22.24)
pois α 6= αk para todo k e, portanto, heα , eαa i = 0. Logo,
heα , y − y 0 i = heα , yi − heα , y 0 i = 0 − 0 = 0.
Em ambos os casos o resultado é zero, ou seja, heα , y − y 0 i = 0 para todo eα ∈ B. Pela definição de
B como base ortonormal completa, o único vetor ortogonal a todos os elementos de B é o vetor nulo.
Logo y = y 0 .
n
X
Por (22.14), o vetor mais próximo de y no subespaço gerado por {eα1 , . . . , eαn } é heαa , yieαa .
a=1
Segue de (22.15) que 2
Xn Xn
2
y − heαa , yieαa , = kyk − |heαa , yi|2 .
a=1
a=1
Tomando-se o limite n → ∞ o lado esquerdo vai a zero como vimos e, portanto, concluı́mos que
∞
X
2
kyk = |heαa , yi|2 .
a=1
É importante chamar à atenção do estudante o fato que na expressão

∞
X
y = heαa , yi eαa
a=1
a soma é realizada em elementos de B y que, para cada y, é um conjunto contável. Mas B y depende
de y e assim, para y’s diferentes comparecem conjuntos diferentes de vetores eα ∈ B na soma. Isso é
importante no caso de a base B ser não-contável. Se B for contável podemos fazer a soma sobre todos
os elementos de B pois os elementos de Z y não contribuem.
Apesar de termos demonstrado que todo espaço de Hilbert possui uma base ortonormal completa,
demonstrar que um conjunto ortonormal B dado concretamente é uma base ortonormal completa pode
ser um problema envolvente que requer um trabalho cuidadoso de análise. Tal é o caso, por exemplo,
do conjunto ortonormal (22.6) do espaço de Hilbert L2 ([0, 2π]). É bem sabido, e fácil de se verificar,
einx
que o conjunto (contável) de vetores {en (x) = √ 2π
, n ∈ } é um conjunto ortonormal. Demonstrar
que é completo, porém, envolve mais trabalho e requer uso do teorema do qual trataremos no próximo
tópico abaixo, que discute caracterizações alternativas do conceito de base ortonormal completa.
• Bases ortonormais completas e bases topológicas
Em um espaço vetorial V a varredura linear (“linear span”) de um conjunto não-vazio A ⊂ V é a

coleção, denotada por span (A), de todos os vetores de V que podem ser escrito como uma combinação
linear finita de elementos de A:
span (A) = {v ∈ V | v = λ1 a1 + · · · + λn an , para algum n ∈ , para λi ∈ e ai ∈ A}.
É elementar constar que para A não-vazio span (A) é um subespaço de V .

Em um espaço vetorial topológico V um conjunto B é dito ser uma base topológica se seus elementos
forem linearmente independentes e se span (B) for um conjunto denso em V , ou seja, se seu fecho for
V : span (B) = V .
O teorema que demonstraremos a seguir mostra que, em um espaço de Hilbert, um conjunto B é
uma base ortonormal completa se e somente se for uma base topológica.
Teorema 22.6 Se B = {eα , α ∈ Λ} é um conjunto ortonormal em um espaço de Hilbert H, então
são equivalentes as seguintes afirmativas:
1. B é uma base ortonormal completa de H.
2. B é uma base topológica de H, ou seja, span (B) = H.
3. Para todo y ∈ H a conjunto B y = {eα ∈ B| heα , yi 6= 0} é contável e vale

X
kyk2 = |heα , yi|2 .
eα ∈B y
Prova. Que 1 implica 2 e que 1 implica 3 já foi demonstrado acima (Teorema 22.5, página 1002).
Vamos mostrar que 3 implica 1.
A demonstração é feita supondo que 3 vale e que 1 não vale e mostrando que isso leva a um absurdo.
Se B não é uma base ortonormal completa, então existe um vetor x ∈ H não-nulo que é ortogonal a
todo elemento de B, ou seja, heα , xi = 0 para todo eα ∈ B. Por 3, isso implica que
X
kxk2 = |heα , xi|2 = 0,
eα ∈B x
Por fim, mostremos que 2 implica 1.
A demonstração é feita supondo que 2 vale e que 1 não vale e mostrando que isso leva a um absurdo.
Se B não é uma base ortonormal completa, então existe um vetor x ∈ H não-nulo que é ortogonal a
todo elemento de B, ou seja, heα , xi = 0 para todo eα ∈ B. Então, o conjunto {x}⊥ é um subespaço
linear fechado que contem B e span (B) (por que?). Como span (B) é, por definição, o menor fechado
que contem span (B), vale também que span (B) ⊂ {x}⊥ . Como {x}⊥ é um subconjunto próprio de H
(pois não contem x nem o subespaço gerado por x), concluı́mos que span (B) é um subconjunto próprio
de H, uma contradição com a hipótese que 2 é verdadeiro.
• Espaços de Hilbert separáveis
Recordemos duas noções introduzidas à página 824.

Seja um espaço X dotado de uma topologia τ . Dizemos que um conjunto A ⊂ X é denso em X se
o fecho de A for igual a X, ou seja, se não houver outro conjunto fechado que não X contendo A. Um
espaço topológico X é dito ser separável se possuir um subconjunto denso contável.
Definimos acima a noção de varredura linear de um conjunto A ⊂ H, que denotamos por span (A).
Um conceito associado é o de varredura linear por racionais de um conjunto A ⊂ H, que denotamos
por span (A): a coleção, de todos os vetores de H que podem ser escrito como uma combinação linear
finita por racionais de elementos de A:
span (A) = {v ∈ V | v = r1 a1 + · · · + rn an , para algum n ∈ , para ri ∈ e ai ∈ A},
onde denota o conjunto de todos os números complexos racionais, ou seja, de todos os números
complexos cujas partes real e imaginária são racionais.
Como é denso em , é claro que todo elemento de span (A) pode ser aproximado (na topologia
de H) por elementos de span (A). De fato, se {(rj )m , m ∈ } é uma seqüência de números em

que aproxima λj ∈ , então (r1 )m a1 + · · · + (rn )m an aproxima λ1 a1 + · · · + λn an na norma de H, pois
k((r1 )m a1 + · · · + (rn )m an ) − (λ1 a1 + · · · + λn an )k = k((r1 )m − λ1 )a1 + · · · + ((rn )m − λn )an k
≤ |(r1 )m − λ1 | ka1 k + · · · + |(rn )m − λn | kan k .

que converge a zero para m → ∞. Isso significa que para todo A ⊂ H vale span (A) ⊃ span (A) e,
conseqüentemente, span (A) ⊃ span (A). No entanto, como span (A) ⊂ span (A), vale também que
span (A) ⊂ span (A). Logo, span (A) = span (A).
Assim, pelo Teorema 22.6, concluı́mos que B ⊂ H é uma base ortonormal completa se e somente
se span (B) = H.
Se A ⊂ H for contável, é muito fácil ver que span (A) é também contável (por ser uma união
contável de conjuntos contáveis). Logo, se B for uma base ortonormal completa contável, o conjunto
span (B) é um conjunto contável denso em H. Concluı́mos disso que H será um espaço topológico
separável se possuir uma base ortonormal completa contável.
A recı́proca é também verdadeira: se um espaço de Hilbert H for um espaço topológico separável,
então toda base ortonormal completa de H é contável. Para ver isso, vamos supor que H seja separável
e seja D ⊂ H contável e denso em H: D = H. Seja também B uma base ortonormal completa em H.
Notemos que [
BD := Bx
x∈D
é contável, por ser uma união contável de conjuntos contáveis (pois D é contável, assim como cada
B x , pelo Teorema 22.4, página 1000.). Pelo Teorema 22.5, página 1002, cada x ∈ D é um elemento
de span (B x ). Concluı́mos disso que D ⊂ span (BD ). Logo, como D é denso em H, segue que H =
span (BD ). Agora, BD é um conjunto ortonormal (por ser subconjunto de B). Logo, concluı́mos pelo
Teorema 22.6 que BD é uma base ortonormal completa.
Disso concluı́mos também que B = BD , pois se BD fosse um sub-conjunto próprio de B haveria
v ∈ B, v 6= 0, que não pertence a BD . Como B é um conjunto ortonormal, segue que v é ortogonal
a todos os elementos de BD . Isso contraria o fato provado que BD é uma base ortonormal completa.
Vimos então que toda base ortonormal completa de um espaço de Hilbert separável deve ser contável.
Resumimos nossas conclusões no seguinte:
Proposição 22.7 Se um espaço de Hilbert H possui uma base ortonormal completa contável então
é um espaço topológico separável (ou seja, possui um sub-conjunto contável denso). Por outro lado,
se um um espaço de Hilbert H for separável, então todas as suas bases ortonormais completas são
contáveis. 2
O seguinte corolário é evidente:

Corolário 22.1 Se um espaço de Hilbert H possui uma base ortonormal completa contável então todas
as demais bases ortonormais completas de H são contáveis 2
Nesse contexto, a seguinte observação é relevante:

Proposição 22.8 Se um espaço de Hilbert H possui uma conjunto ortonormal não-contável então H
não é separável. 2
Prova. Seja C um conjunto ortonormal não-contável de H. Se C for uma base ortonormal completa
não há o que provar. Se não o for, podemos acrescentar elementos a C pertencentes a C ⊥ de modo a
obter uma base ortonormal completa. Essa base não pode ser contável, pois contem C.
Os espaços de Hilbert L2 ([a, b], dx), assim como L2 ( , dx), são separáveis. O espaço de Hil-

bert AP ( ) das funções almost-periódicas é não-separável, pois possui um conjunto ortonormal não-

contável, a saber, aquele de (22.10).

Finalizamos mencionando que no caso de espaços de Hilbert separáveis podemos refrasear o Teorema
22.5, acima, da seguinte forma:
Teorema 22.7 Seja y um vetor de um espaço de Hilbert separável H e B uma base ortonormal com-
pleta (e, portanto, contável) em H. Vamos escrever os elementos de B como e a com a ∈ . Então,
vale que
Xn
y = lim hea , yi ea (22.25)
n→∞
a=1
e que
∞
X
2
kyk = |hea , yi|2 . (22.26)
a=1
A única diferença em relação ao Teorema 22.5 é que agora as somas acima não precisam mais ser
restritas apenas aos elementos de B y , mas são feitas sobre todos os elementos de B, independente do
vetor y ∈ H considerado. Eventualmente alguns termos dessas somas serão nulos (tal é o caso se para
um dado a tivermos ea ∈ Z y , ou seja, hea , yi = 0), mas isso não alterará o resultado.
22.3 Funcionais Lineares e o Dual Topológico de um Espaço

de Hilbert
• Funcionais lineares
Um funcional linear l definido em um espaço de Hilbert H é uma função cujo domı́nio é um subespaço
vetorial E de H assumindo valores complexos, l : E → , e de tal forma que para todo x, y ∈ E e todo
α, β ∈ tem-se
l(αx + βy) = αl(x) + βl(y).
• Funcionais lineares contı́nuos
De grande importância são os funcionais lineares contı́nuos definidos em H. Estes são funcionais
lineares com domı́nio igual a H e tais que se {xi }i∈ é uma seqüência de vetores que converge a x ∈ H,

então vale
lim l(xn ) = l lim xn = l(x).
n→∞ n→∞
Se l e l0 são funcionais lineares sobre H definimos para α, β ∈ um funcional linear αl + βl 0 como

sendo o funcional linear que a cada x ∈ H associa o número αl(x) + βl 0 (x). É elementar mostrar que
o funcional αl + βl0 é também contı́nuo. O conjunto de todos os funcionais lineares contı́nuos de um
espaço e Hilbert H é também, portanto, um espaço vetorial que denotaremos por H ∗ . O espaço H∗ é
denominado o dual topológico de H.
• Funcionais lineares limitados
Um funcional linear l sobre um espaço de Hilbert H é dito ser limitado se existir uma constante
M ≥ 0 tal que para todo x ∈ H vale
|l(x)| ≤ M kxk.
A seguinte proposição mostra que os conceitos de funcional linear contı́nuo e de funcional linear
limitado são idênticos.
Proposição 22.9 Em um espaço de Hilbert H um funcional linear é contı́nuo se e somente se for um
funcional linear limitado. 2
Prova. Se l é um funcional linear limitado e se {xj }j∈ é uma seqüência de vetores que converge a

x ∈ H, então
|l(x) − l(xj )| = |l(x − xj )| ≤ M kx − xj k
e o lado direito vai a zero quando j → ∞, provando que l é contı́nuo.
Suponhamos reciprocamente que l é um funcional linear contı́nuo. Então, para um > 0 fixo existe
δ > 0 tal que |l(v)| ≤ para todo vetor v com kvk ≤ δ. Seja u um vetor não-nulo qualquer de H.
Então,
u
v = δ
kuk
é tal que kvk = δ. Logo, como l é linear, vale que

δ u

kuk l(u) = l δ kuk ≤ .
Assim,

|l(u)| ≤ kuk,
δ
provando que l é limitado (podemos adotar M = /δ).
Mencionamos que a Proposição 22.9 pode ser generalizada: uma aplicação linear entre dois espaços
normados é contı́nua se e somente se for limitada (Proposição 23.1, página 1014).
22.3.1 O Teorema da Representação de Riesz

Um exemplo de funcional linear contı́nuo é o seguinte. Seja φ ∈ H um vetor fixado. Defina-se então,
l(x) = hφ, xi, ∀x ∈ H.
É evidente que esse l é um funcional linear. Esse l é também contı́nuo, pela continuidade do produto
escalar (vide página 988).
Esse exemplo não foi colocado aqui apenas como ilustração, pois demonstraremos agora que o todo
funcional linear contı́nuo é da forma l(x) = hφ, xi para algum φ de H. Esse resultado, conhecido
como Teorema da Representação de Riesz13 , ou simplesmente como Lema de Riesz, é um dos resulta-
dos fundamentais da teoria dos espaços de Hilbert e do mesmo muitas conseqüências serão extraı́das,
especialmente na teoria de operadores lineares em espaços de Hilbert. Vamos a seu enunciado e de-
monstração.
Teorema 22.8 (Teorema da Representação de Riesz) Seja l um funcional linear contı́nuo em
um espaço de Hilbert H. Então, existe φ ∈ H, único, tal que
l(x) = hφ, xi, ∀x ∈ H.
13
Prova. Seja l um funcional linear contı́nuo em um espaço de Hilbert H. Seja N ⊂ H o núcleo de l, ou

seja, o conjunto de todos os vetores de H que são anulados por l:
N = {y ∈ H| l(y) = 0} .
Vamos mostrar que N é um subespaço linear fechado de H. Que N é um subespaço é elementar pois,
se x, y ∈ N , então l(αx + βy) = αl(x) + βl(y) = α0 + β0 = 0. Que N é fechado pode ser visto pelo
fato que podemos caracterizar N como a imagem inversa do número 0 de por l: N = l −1 ({0}). O
conjunto {0}, constituı́do por um único ponto, é fechado em e funções contı́nuas são tais que sua
imagem inversa mapeia fechados em fechados. Logo N é fechado.
E. 22.6 Exercı́cio. Mostre também que N é fechado, demonstrando que se x i é uma seqüência de
elementos de N que converge a x ∈ H então, pela continuidade, segue que l(x) = 0, provando que x ∈ N .
6
Caso N seja idêntico a H, isso significa que l(x) = 0 para todo x ∈ H e o teorema estaria provado,
adotando-se para tal φ = 0.
Vamos supor que N 6= H. Como N é fechado, pelo Teorema da Decomposição Ortogonal todo
x ∈ H é da forma x = y + z com y ∈ N e z ∈ N ⊥ . Como N 6= H, devem existir elementos não nulos
em N ⊥ , doutra forma terı́amos x = y ∈ N para todo x ∈ H.14
Seja, então, z0 um vetor não-nulo de N ⊥ . É obvio que l(z0 ) 6= 0.
Para qualquer vetor u ∈ H vale que l(z0 )u − l(u)z0 é um elemento de N , pois
l (l(z0 )u − l(u)z0 ) = l(z0 )l(u) − l(u)l(z0 ) = 0.
Assim, como l(z0 )u − l(u)z0 é um elemento de N e z0 é um elemento de N ⊥ , ambos são ortogonais

entre si, ou seja,
0 = hz0 , l(z0 )u − l(u)z0 i.
Isso diz, porém, que
0 = l(z0 )hz0 , ui − l(u)kz0 k2 ,
ou seja, * +
l(z0 ) l(z0 )
l(u) = hz0 , ui = z0 , u .
kz0 k2 kz0 k2
Definindo
l(z0 )
φ = z0 ,
kz0 k2
fica provado que para todo u ∈ H
l(u) = hφ, ui,
como querı́amos.
14
Nota. Fazemos notar ao estudante que é somente neste parágrafo, interessantemente, que a condição de continuidade
de l é usada, a saber, através da afirmativa que N é fechado e que, portanto, N ⊥ é formado por algo além do vetor
nulo (caso l não seja identicamente zero). Note-se também o uso importante que foi feito do Teorema da Decomposição
Ortogonal na demonstração.
Por fim, para demonstrar que tal φ é único, suponhamos que exista um outro φ0 tal que também
valha l(u) = hφ0 , ui, para todo u ∈ H. Terı́amos, então, hφ, ui = hφ0 , ui, ou seja, hφ − φ0 , ui = 0
para todo u ∈ H. Como essa relação vale para todo u ∈ H, vale também para u = φ − φ 0 . Logo
0 = hφ − φ0 , φ − φ0 i = kφ − φ0 k2 e, portanto, φ = φ0 .
Incidentalmente, o Lema de Riesz diz-nos que, fora o caso em que l é identicamente nulo, tem-se
sempre que N ⊥ é um subespaço unidimensional de H, a saber, o subespaço gerado pelo vetor φ.
Capı́tulo 23
Operadores Lineares Limitados em Espaços de
Banach e de Hilbert
Conteúdo
23.1 Operadores Lineares em Espaços Vetoriais Normados . . . . . . . . . . . 1013

23.1.1 Espaços de Banach de Operadores . . . . . . . . . . . . . . . . . . . . . . . . 1017
23.1.2 O Dual Topológico de um Espaço de Banach . . . . . . . . . . . . . . . . . . 1021
23.1.3 O Teorema de Hahn-Banach e Algumas Conseqüências do Mesmo . . . . . . 1025
23.1.4 O Teorema de Banach-Steinhaus ou Princı́pio de Limitação Uniforme . . . . 1031
23.1.5 O Teorema da Aplicação Aberta e o Teorema do Gráfico Fechado . . . . . . . 1032
23.2 Operadores Limitados em Espaços de Hilbert . . . . . . . . . . . . . . . . 1040
23.2.1 O Adjunto de um Operador em um Espaço de Hilbert . . . . . . . . . . . . . 1042
23.3 Álgebras de Banach e Álgebras C∗ . . . . . . . . . . . . . . . . . . . . . . . 1050
23.3.1 Álgebras de Banach . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1050
23.3.2 A Inversa de Operadores Limitados . . . . . . . . . . . . . . . . . . . . . . . . 1053
23.3.3 O Espectro de Operadores em Álgebras de Banach . . . . . . . . . . . . . . . 1059
23.3.4 O Homomorfismo de Gelfand em Álgebras C∗ . . . . . . . . . . . . . . . . . . 1069
23.3.5 Raı́zes Quadradas de Operadores em Álgebras de Banach . . . . . . . . . . . 1072
23.3.6 Elementos Positivos de Álgebras C∗ . . . . . . . . . . . . . . . . . . . . . . . 1073
23.3.7 O Lema da Raiz Quadrada em espaços de Hilbert. A Decomposição Polar . . 1077
23.4 Um Pouco sobre Estados e Representações de Álgebras C∗ . . . . . . . . 1081
23.5 O Espectro de Operadores em Espaços de Banach . . . . . . . . . . . . . 1091
23.6 Operadores Compactos em Espaços de Banach e de Hilbert . . . . . . . . 1100
23.6.1 O Teorema Espectral para Operadores Compactos Auto-adjuntos . . . . . . . 1112
23.7 O Teorema Espectral para Operadores Limitados Auto-adjuntos em Espaços
de Hilbert . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1120
23.7.1 O Cálculo Funcional Contı́nuo e o Homomorfismo de Gelfand . . . . . . . . . 1121
23.7.2 Generalizando o Cálculo Funcional Contı́nuo. As Medidas Espectrais . . . . . 1123
23.7.3 Medidas com Valores em Projeções Ortogonais . . . . . . . . . . . . . . . . . 1133
23.7.4 Os Projetores Espectrais e o Teorema Espectral . . . . . . . . . . . . . . . . . 1137
23.7.5 A Relevância do Teorema Espectral para a Fı́sica Quântica (um pouco de
Fı́sica, finalmente) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1141
23.A Prova do Teorema 23.18 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1151
1011
ste capı́tulo tenciona ser uma pequena introdução à teoria dos operadores lineares limitados
(contı́nuos) em espaços de Banach e de Hilbert. O assunto é de central importância em várias
áreas da Fı́sica e da Matemática, desde a Mecânica Quântica e a Teoria Quântica de Campos
até a Teoria das Equações Diferenciais Parciais.
Na Seção 23.1 apresentamos noções básicas e demonstramos uma série de teoremas de importância
fundamental para toda a teoria de operadores em espaços de Banach e de Hilbert: o Teorema BLT, o
Teorema de Hahn-Banach, o Teorema de Banach-Steinhaus, o Teorema da Aplicação Aberta, o Teorema
da Aplicação Inversa e o Teorema do Gráfico Fechado. Na Seção 23.2 estudamos a teoria básica de
operadores em espaços de Hilbert. A Seção 23.3 é uma introdução às álgebras de Banach e às álgebras
C∗ , com uma certa ênfase na teoria espectral dessas álgebras. Na Seção 23.4 desenvolvemos um pouco
mais a teoria das álgebras C∗ e discutimos sua relação com álgebras de operadores em espaços de
Hilbert. Na Seção 23.5 especializa a teoria espectral para o contexto de operadores limitados agindo
em espaços de Banach e de Hilbert. Na Seção 23.6 desenvolvemos a teoria dos operadores compactos
em espaços de Banach e de Hilbert e obtemos o Teorema Espectral para operadores compactos auto-
adjuntos em espaços de Hilbert e generalizações. A Seção 23.7 é dedicada à demonstração do Teorema
Espectral para operadores limitados auto-adjuntos agindo em espaços de Hilbert. A Seção 23.7.5 discute
a relevância desse teorema para a Fı́sica Quântica.
• Operadores Lineares
Sejam V e W dois espaços vetoriais1 . Um operador linear, ou simplesmente operador2 T entre V e

W é uma função cujo domı́nio é V, Dom (T ) = V, e cuja imagem é um subconjunto de W, Im(T ) ⊂ W,
tal que, para todo α, β ∈ e todo u, v ∈ V tem-se
T (αu + βv) = αT (u) + βT (v).
Note-se que isso em particular implica T (0) = 0.

Notação. Na teoria dos operadores lineares em espaços vetoriais é costume denotar-se T (u) sim-
plesmente por T u.
Nomenclatura. Se T : V → W é um operador entre espaços vetoriais V e W é comum dizer-se que
T age entre V e W.
Neste capı́tulo iremos nos dedicar ao estudo de propriedades básicas de operadores lineares em
espaços de Hilbert3 . Algumas dessas propriedades podem ser estudadas em um contexto mais geral
como propriedades de operadores lineares em espaços vetoriais normados ou em espaços de Banach 4 ,
sem referência a propriedades especı́ficas de espaços de Hilbert.
O estudo de funções entre espaços vetoriais normados é de grande importância em matemática e
na fı́sica, em especial na fı́sica quântica. O maior papel, porém, é seguramente desempenhado pelas
1
Daqui por diante sempre trataremos de espaços vetoriais sobre o corpo dos complexos.
2
Como nestas notas só falaremos de operadores lineares, vamos freqüentemente omitir o qualificativo “linear” e falar
apenas em operadores. Operadores lineares são também denominados “transformações lineares” ou “aplicações lineares”.
3
4
funções lineares entre espaços normados, das quais falaremos agora.
23.1 Operadores Lineares em Espaços Vetoriais Normados

Sejam então V e W dois espaços vetoriais normados, cujas normas serão denotadas por k · k V e k · kW ,
respectivamente. Por exemplo V e W podem ser dois espaços de Banach ou de Hilbert, mas por ora
não vamos requerer nada sobre a completeza dos mesmos.
Um dos problemas básicos da teoria dos operadores lineares entre espaços vetoriais normados é
classificá-los de acordo com caracterı́sticas que permitam associar-lhes propriedades comuns. Veremos
várias dessas classificações ao longo destas notas, a mais básica, da qual trataremos a seguir, sendo a
continuidade. Outras classificações que veremos, em particular no contexto de espaços de Hilbert, são
a classificação de operadores em limitados ou não-limitados, fechados ou não-fechados, de fecháveis ou
não-fecháveis, de operadores auto-adjuntos ou não auto-adjuntos, de operadores compactos ou não etc.
Os exemplos mais bem conhecidos de operadores são as matrizes, que são operadores entre espaços
de dimensão finita como V = n e W = m . Acreditamos que os estudantes destas notas já tenham
noções bem definidas sobre matrizes mas, apesar disso, ou mesmo por isso, vale advertir que iremos
aqui desenvolver a teoria de operadores entre espaços vetoriais normados gerais, mesmo de dimensão
infinitas e, por isso, muito da intuição que desenvolvemos sobre matrizes não é mais válida. Por
exemplo, matrizes agindo entre n e m (com as normas usuais) são sempre operadores contı́nuos, um
fato não mais necessariamente verdadeiro para operadores lineares entre espaços vetoriais normados de
dimensão infinita. Tal é a origem de boa parte da dificuldades no estudo de operadores lineares agindo
entre espaços vetoriais normados em geral.
• Operadores Contı́nuos
Se V e W são dois espaços vetoriais normados ambos são espaços métricos com a métrica definida por
suas normas e, portanto, são espaços topológicos métricos. Conseqüentemente, ao falarmos de funções
entre V e W coloca-se a questão da continuidade dessas funções como funções entre dois espaços
topológicos métricos. Essa questão é de grande relevância, pois em espaços vetoriais de dimensão
infinita é muito freqüente o aparecimento de operadores lineares não-contı́nuos. De fato, na mecânica
quântica, por exemplo, quase todos os operadores com os quais tipicamente lidamos, como os operadores
de posição e de momento, não são contı́nuos. O ponto é que, como veremos, operadores não-contı́nuos
podem ter propriedades drasticamente diferentes das de operadores contı́nuos.
Como V e W são dois espaços métricos, valem as definições usuais de continuidade em espaços
métricos. Assim, dizemos que um operador T : V → W é contı́nuo se

T lim xn = lim T xn
n→∞ n→∞
para qualquer seqüência convergente {xn }n∈ em V. Note que, na última igualdade, o limite do lado

esquerdo refere-se à topologia de V enquanto que o limite do lado direito refere-se à topologia de W.
Equivalentemente (vide discussão à página 889) um operador T : V → W é contı́nuo se para todo
> 0 e todo u ∈ V existir δ ≥ 0 (eventualmente dependente de e de u) tal que kT u − T vkW ≤
sempre que v for tal que ku − vkV ≤ δ.
Adiante (vide por exemplo, página 1015) veremos exemplos de operadores não-contı́nuos. Passemos
primeiro a uma definição igualmente importante e que se mostrará equivalente à de continuidade.
• Operadores Limitados
De grande importância é também a seguinte definição. Um operador T : V → W é dito ser limitado

se existir uma constante M > 0 tal que para todo u ∈ V tem-se
kT ukW ≤ M kukV .
Note-se que a constante M acima deve ser a mesma para todo u.

A seguinte proposição tem importância fundamental:
Proposição 23.1 Um operador linear T agindo entre dois espaços vetoriais normados V e W é limi-
tado se e somente ser for contı́nuo. 2
Prova. Seja T limitado, ou seja, tal que existe M > 0 satisfazendo kT ukW ≤ M kukV para todo u ∈ V.
Seja um número positivo arbitrário e sejam u e v dois vetores de V tais que ku − vk V ≤ /M . Então

kT u − T vkW = kT (u − v)kW ≤ M ku − vkV ≤ M = .
M
Assim, adotando-se δ = /M vemos que T satisfaz a definição de continuidade.
Provemos a recı́proca. Seja T contı́nuo. Então, vale que para todo ≥ 0 e todo u ∈ V existe δ > 0
tal que kT u − T vkW ≤ sempre que v for tal que ku − vkV ≤ δ. Tomemos u = 0 e fixemos um .
Temos então que
kT vkW ≤
sempre que kvkV ≤ δ. Lembremos que a constante δ independe de v e que sempre podemos escolher
δ > 0.
Seja então u um vetor não-nulo arbitrário de V e seja
δ
v = u
kukV
é claro que
δ δ
kvkV =
kukV u = kukV = δ.
V kukV
Portanto, para esse v vale kT vkW ≤ e, então

δ δ
kT ukW = T u = kT vkW ≤ ,
kukV kukV W
ou seja,

kT ukW ≤ kukV .
δ
Definindo M = /δ mostramos estão que kT ukW ≤ M kukV para todo u 6= 0. Para u = 0 essa relação
é trivialmente satisfeita e, portanto, vale para todo u ∈ V, mostrando que T é limitado.
• Exemplo de Operador Não-Limitado. O Funcional Delta de Dirac
Vamos a um exemplo de um operador agindo entre dois espaços vetoriais normados e que não é
limitado e, portanto, não é contı́nuo.
Seja V = C([−1, 1], ), o conjunto de todas as funções contı́nuas do intervalo [−1, 1] ⊂ com
valores complexos e adotemos como norma em V a norma L2 :
Z 1 1/2
2
kf kV = |f (x)| dx , f ∈ C([−1, 1], ).
−1
Seja W = e adotemos em W a norma usual
kzkW = |z|, z∈ .
Seja T0 : V → W o seguinte operador linear:
T0 f = f (0),
que associa a cada função f ∈ C([−1, 1], ) o seu valor no ponto 0. T0 é denominado funcional delta
de Dirac. É elementar mostrar que T0 é linear. Mostremos que T0 , porém, não pode ser contı́nuo.
Para isso, seja g(x) uma função de C([−1, 1], ) com a propriedade que g(−1) = g(1) = 0 e que
g(0) 6= 0. Para n ∈ defina

g(nx), para x ∈ [−1/n, 1/n],
un (x) =
0, de outra forma.
Como g foi escolhida de modo que g(−1) = g(1) = 0, é fácil verificar que un ∈ C([−1, 1], ) (por
que?).
Temos que
"Z #1/2 Z 1/2
1/n 1
2 1 2
kun kV = |g(nx)| dx = √ |g(x)| dx
−1/n n −1
e, portanto, kun kV → 0 quando n → ∞.

Por outro lado T0 un = un (0) = g(0) 6= 0 é constante, ou seja, não depende de n. Assim, temos que

T0 lim un = T0 0 = 0
n→∞
mas
lim T0 un = g(0) 6= 0,
n→∞
o que mostra que T0 não pode ser contı́nuo nem, portanto, limitado.
É fácil verificar que T0 também não seria contı́nuo se adotássemos em V a norma Lp (com p ≥ 1):
Z 1 1/p
p
kf kV = |f (x)| dx , f ∈ C([−1, 1], ).
−1
E. 23.1 Exercı́cio. Complete os detalhes da prova dessa última afirmação. 6
Se, porém, adotássemos em V a norma do supremo
kf kV = sup |f (x)|
x∈[−1, 1]
então T0 seria contı́nuo.
E. 23.2 Exercı́cio. Complete os detalhes dessa última afirmação. 6
Esses exemplos mostram mais uma vez que a continuidade de uma aplicação depende das topologias
adotadas.
• O espaço vetorial B(V, W)
Sejam V e W dois espaços vetoriais normados, cujas normas serão denotadas por k · k V e k · kW ,
respectivamente. Denotamos por B(V, W) o conjunto de todas os operadores lineares contı́nuos de V
em W.
O conjunto B(V, W) é um espaço vetorial sobre os complexos. De fato, dados dois operadores
quaisquer T e U ∈ B(V, W) podemos definir o operador αT + βU , com α, β ∈ , como sendo o
operador que associa a cada v ∈ V o vetor de W dado por αT v + βU v. É trivial ver que αT + βU é
também um operador linear e que também é contı́nuo.
Mais que isso, B(V, W) é um espaço vetorial normado, onde para cada operador T definimos sua
norma operatorial kT k como
kT ukW
kT k = sup . (23.1)
u∈V, u6=0 kukV
Notemos que o lado direito de (23.1) é finito pois T é limitado.
E. 23.3 Exercı́cio. Verifique que as propriedades que caracterizam uma norma são de fato satisfeitas
pela definição acima. 6
Notemos também que se T ∈ B(V, W) então para todo u ∈ V vale que
kT ukW ≤ kT k kukV.
Mais adiante veremos que se W for um espaço de Banach então B(V, W) também é um espaço de
Banach em relação à norma definida acima. Esse fato é importante para toda a teoria dos operadores
limitados em espaços de Hilbert e abre caminho para a teoria das chamadas álgebras de Banach e das
chamadas álgebras C∗ .
• Extensões de Operadores
Convidamos neste momento o leitor a reler a definição do conceito de extensão de funções à página
26. Esse conceito se aplica diretamente à teoria dos operadores lineares agindo entre espaços vetoriais.
Sejam V e W dois espaços vetoriais e T : V → W um operador linear agindo entre eles. Suponha
que V seja sub-espaço de um espaço vetorial V 0 . Uma extensão do operador T ao espaço V 0 seria um
função T 0 : V 0 → W tal que T 0 (v) = T v para todo v ∈ V . Se uma extensão T 0 de T for também um
operador linear de V 0 em W , então T 0 é dita ser uma extensão linear de T .
Como veremos, extensões lineares desempenham um papel importante no estudo de operadores
não-limitados em espaços de Hilbert.
23.1.1 Espaços de Banach de Operadores
• O Teorema BLT
Vamos agora enunciar e demonstrar um resultado sobre extensões lineares que será freqüentemente
usado adiante, muitas vezes até sem menção explı́cita.
Seja V um espaço vetorial normado, cuja norma é denotada por k · kV . O espaço vetorial V é
assim um espaço métrico e na discussão iniciada à página 739 discutimos o conceito de completamento
canônico de um espaço métrico genérico. Chamemos de Ṽ o completamento canônico de V. Como
discutimos à página 739 e seguintes, existe uma bijeção natural isométrica de V em um subconjunto
denso de Ṽ, de modo que podemos, com um pequeno abuso, considerar V como um subconjunto (denso)
de Ṽ, no mesmo sentido que usamos quando dizemos que o conjunto dos racionais é um subconjunto
denso dos reais, embora em princı́pio os reais sejam classes de equivalências de racionas e, portanto,
objetos de natureza diferente dos racionais.
Na discussão deste tópico adotaremos essa convenção de entender V como um subconjunto denso
de Ṽ.
Muitas vezes nos é apresentado um operador limitado T agindo entre dois espaços vetoriais normados
V e W, sendo V um espaço métrico não-completo. Muitas vezes é útil, conveniente ou mesmo necessário
saber se é possı́vel estender o operador T para o completamento canônico Ṽ de V. Veremos abaixo
aplicações em que tal procedimento é útil. Será isso sempre possı́vel? Será a extensão também contı́nua?
E se o for, será a extensão obtida a única possı́vel?
O teorema seguinte nos dá condições suficientes para que uma tal extensão exista e seja única, a
saber, basta que W seja completo. Esse teorema é denominado por alguns autores de Teorema BLT
(“bounded linear transformation”).
Teorema 23.1 (BLT) Seja V um espaço vetorial normado, cuja norma é denotada por k · k V e seja
W um espaço vetorial normado, cuja norma é denotada por k · k W . Suponha que W seja completo na
métrica definida pela norma k·kW , ou seja, suponha que W seja um espaço de Banach. Então para todo
operador linear limitado T : V → W, T ∈ B(V, W), existe uma extensão T̃ : Ṽ → W que também é
um operador linear limitado, T̃ ∈ B(Ṽ, W), e tal que kT̃ kB(Ṽ, W) = kT kB(V, W) . Fora isso, tal extensão
é a única com as propriedades mencionadas. 2
Prova. A demonstração consiste em construir a extensão T̃ e mostrar que a mesma satisfaz as propri-
edades mencionadas. A primeira etapa é a construção de T̃ .
Como entendemos V como um subconjunto denso de Ṽ, todo elemento de Ṽ é limite de uma seqüência
de elementos de V. Seja então x ∈ Ṽ e seja {xn }n∈ uma seqüência de elementos de V que converge a

x. Como {xn }n∈ converge, é uma seqüência de Cauchy.

Seja yn = T xn ∈ W. Mostremos que {yn }n∈ é um seqüência de Cauchy de elementos de W. De

fato,
kym − yn kW = kT (xm − xn )kW ≤ kT kB(V, W) kxm − xm kV = kT kB(V, W) kxm − xm kṼ .
Como {xn }n∈ é uma seqüência de Cauchy em Ṽ, o lado direito pode ser feito menor que qualquer > 0

dado, desde que m e n sejam grandes o suficiente, mostrando que {yn }n∈ é de fato um seqüência de

Cauchy de elementos de W. O ponto crucial é que estamos supondo que W seja completo e, portanto
{yn }n∈ converge a um elemento de W que chamaremos de y. Esse é o ingrediente que nos permite

definir T̃ como sendo a função que associa x a y:
T̃ (x) := y,
ou seja,
T̃ (x) := lim T xn .
n→∞
Um ponto lógico que ainda tem que ser exibido antes de passarmos adiante é mostrar que essa definição
não depende da particular seqüência {xn }n∈ adotada que converge a x ∈ Ṽ. Para isso basta mostrar

que se {x0n }n∈ é uma outra seqüência que converge a x então {T x0n }n∈ também converge ao mesmo

y. A demonstração disso está nas seguintes desigualdades. Seja y 0 o limite de {T x0n }n∈ (que existe
pelos mesmos argumentos de acima). Então
ky − y 0 kW = k(y − T xn ) + T (xn − x0n ) + (T x0n − y 0 )kW
≤ ky − T xn kW + kT (xn − x0n )kW + kT x0n − y 0 kW
≤ ky − T xn kW + kT kB(V, W) kxn − x0n kṼ + kT x0n − y 0 kW .
= ky − T xn kW + kT kB(V, W) k(xn − x) − (x0n − x)kṼ + kT x0n − y 0 kW
≤ ky − T xn kW + kT kB(V, W) (kxn − xkṼ + kx0n − xkṼ ) + kT x0n − y 0 kW . (23.2)
É fácil agora ver que, pelas hipóteses, cada um dos termos da última linha vai a zero quando n → ∞,
mostrando que ky − y 0 kW = 0 e que, portanto, y = y 0 .
Assim, T̃ está bem definido como uma função de Ṽ em W. Temos agora que mostrar que 1o T̃ é
uma extensão de T ; 2o T̃ é linear; 3o kT̃ kB(Ṽ, W) = kT kB(V, W) .
Provemos 1 com a observação que cada x ∈ V é identificado em Ṽ com a seqüência constante xn = x.

T̃ (x) = lim T xn = lim T x = T x,
n→∞ n→∞
mostrando que T̃ e T coincidem em V.

Para mostrar a linearidade notemos que se {un ∈ V}n∈ converge a u ∈ Ṽ e {vn ∈ V}n∈ converge

a v ∈ Ṽ então {αun + βvn ∈ V}n∈ converge a αu + βv.

E. 23.5 Exercı́cio. Se isso não é óbvio para você, complete os detalhes. 6
Daı́, segue imediatamente que

T̃ (αu + βv) = lim T (αun + βvn ) = α lim T un + β lim T vn = αT̃ (u) + β T̃ (v).
n→∞ n→∞ n→∞
Passemos à demonstração do ponto 3. Pela continuidade da norma (vide página 988) temos que
para todo x ∈ Ṽ e toda seqüência xn de elementos de V que converge a x
kT̃ xkW = k lim T xn kW = lim kT xn kW ≤ kT kB(V, W) lim kxn kV

n→∞ n→∞ n→∞
= kT kB(V, W) k lim xn kV = kT kB(V, W) kxkV ,

n→∞
que demonstra que T̃ é limitado e que kT̃ kB(Ṽ, W) ≤ kT kB(V, W) .

Tem-se, porém, que, pela definição de norma operatorial,
kT̃ ukW kT̃ ukW kT ukW
kT̃ kB(Ṽ, W) = sup ≥ sup = sup = kT kB(V, W) ,
u∈Ṽ, u6=0 kukṼ u∈V, u6=0 kukV u∈V, u6=0 kukV
que demonstra que kT̃ kB(Ṽ, W) ≥ kT kB(V, W) , estabelecendo, assim, a igualdade kT̃ kB(Ṽ, W) = kT kB(V, W) .
• B(V, W) é um espaço de Banach se W o for
Já vimos que se V e W são espaços normados, com normas k · kV e k · kW , respectivamente, então
B(V, W), o espaço vetorial dos operadores contı́nuos agindo entre V e W, é também um espaço
normado, com a chamada norma operatorial
kT ukW
kT k = sup , T ∈ B(V, W).
u∈V, u6=0 kukV
B(V, W) é um espaço métrico na métrica definida pela norma. Essa topologia métrica definida em
B(V, W) pela norma operatorial é denominada topologia uniforme.
Vamos mostrar aqui o seguinte teorema, de grande importância na teoria dos operadores limitados
em espaços de Hilbert e que abre caminho para a teoria das chamadas álgebras de Banach e para as
chamadas álgebras C∗ .
Teorema 23.2 Se W é um espaço vetorial normado completo, ou seja, se é um espaço de Banach,

então B(V, W) é também um espaço vetorial normado completo. 2
Prova. O que temos que mostrar é que se An , n ∈ , for uma seqüência de Cauchy em relação à

métrica definida pela norma operatorial, então An converge nessa métrica a um operador que também
é linear e limitado, ou seja, também um elemento de B(V, W). A estratégia que seguiremos, como
na demonstração do Teorema BLT, é exibir um candidato a ser o limite da seqüência A n , mostrar que
esse candidato é um operador linear e contı́nuo e, por fim mostrar que ele é, de fato, limite dos A n ’s
na topologia uniforme.
Seja então An , n ∈ uma seqüência de Cauchy em relação à métrica definida pela norma opera-

torial. Portanto, para todo > 0 existe N () tal que para todo m, n ≥ N () tem-se kA m − An k ≤ .
Seja x ∈ V e seja a seqüência em W dada por
yn = An x.
É fácil mostrar que yn , n ∈ , é uma seqüência de Cauchy em W. De fato, se m, n ≥ N (),
kym − yn kW = kAm x − An xkW = k(Am − An )xkW ≤ k(Am − An )k kxkV ≤ kxkV ,
mostrando que yn , n ∈ , é uma seqüência de Cauchy.

O ponto crucial é que fizemos a hipótese que W é um conjunto completo. Assim, a seqüência y n
converge a um elemento de W que denominaremos y. Como cada yn depende de x, o vetor y também
depende de x, que é um vetor arbitrário de V. Definimos então A : V → W como sendo a função que
associa cada x ∈ V ao vetor y ∈ W correspondente:
A(x) = y,
ou seja,
A(x) = lim An x,
n→∞
onde o limite é entendido na topologia métrica de W definida pela norma k · kW .

Essa função A é nossa candidata a ser o limite da seqüência An n ∈ , na topologia uniforme. Para

tal, temos que demonstrar que 1o A é um operador linear; 2o A é um operador limitado e, portanto,
um elemento de B(V, W) e 3o A é o limite da seqüência An n ∈ , na topologia uniforme.
Prova de 1. Pela definição, para quaisquer α, β ∈ e quaisquer u, v ∈ V,
A(αu + βv) = lim An (αu + βv) = α lim An u + β lim An v = αA(u) + βA(v),

n→∞ n→∞ n→∞
provando a linearidade de A.
Prova de 2. Para provar que A é limitado (e, portanto, contı́nuo) precisamos antes mostrar que a
seqüência de números reais positivos kAn k, n ∈ , converge.

Para tal, fazemos uso da desigualdade (2.19), página 122. Temos
| kAm k − kAn k | ≤ kAm − An k.

Assim, se o lado direito é menor que para m e n ≥ N (), o lado esquerdo também é, provando que
kAn k, n ∈ , é uma seqüência de Cauchy de números reais. Como
é completo, essa seqüência

converge a um número que chamaremos A ≥ 0.

Assim, usando a continuidade da norma (vide página 988),

kAxkW = k lim An xkW = lim kAn xkW ≤ lim kAn k kxkV = AkxkV ,
n→∞ n→∞ n→∞
que mostra que A é limitado e, portanto, contı́nuo.

Prova de 3. Acabamos de mostrar que A é um elemento de B(V, W). Resta apenas mostrar que A
é o limite dos An ’s na topologia uniforme.
Para qualquer n e qualquer x ∈ V, tem-se pela continuidade da norma que

k(A − An )xkW = lim (Am − An )x = lim k(Am − An )xkW ≤ lim k(Am − An )k kxkV .
m→∞ W m→∞ m→∞
Assim,
k(A − An )xkW
kA − An k = sup ≤ lim k(Am − An )k
x∈V, x6=0 kxkV m→∞
Como An , n ∈ , é um seqüência de Cauchy, vale para qualquer > 0 que k(Am − An )k ≤ sempre

que m e n ≥ N (). Assim, limm→∞ k(Am − An )k ≤ sempre que n ≥ N (). Logo, pelo que mostramos,
kA − An k ≤ sempre que n ≥ N (), o que diz que A é o limite dos An ’s na topologia uniforme, como
querı́amos provar.
23.1.2 O Dual Topológico de um Espaço de Banach

Seja V um espaço vetorial sobre corpo . Uma aplicação l : V → , definida sobre todo V , é dita ser
um funcional linear se
l(αx + βy) = αl(x) + βl(y)
para todo x, y ∈ V e todo α, β ∈ .
O conjunto de todas os funcionais lineares de V em é denominado espaço dual algébrico de V e
denotado V 0 . O conjunto V 0 é feito um espaço vetorial (sobre ), através da seguinte relação:
(αl + βm)(x) = l(αx) + m(βx),
para todo l e m ∈ V 0 ; α, β ∈ e todo x ∈ V . O vetor nulo de V 0 é o funcional linear que associa
trivialmente todo vetor de V a zero: l(x) = 0, ∀x ∈ V .
Seja X um espaço de Banach. O conjunto de todos os funcionais lineares contı́nuos sobre X é dito
ser o dual topológico de X. O dual topológico de X será denotado nestas notas por X † . Note-se que
X † ⊂ X 0.
Pela sua definição, podemos identificar X † com o conjunto B(X, ). Isso nos leva a concluir que
X † é igualmente um espaço normado com a norma
|l(x)|
klkX † = sup . (23.3)
x∈X, x6=0 kxkX
Mais que isso, o Teorema 23.2, página 1020, diz-nos que X † é também um espaço de Banach em relação
a essa norma. Conseqüentemente o espaço (X † )† , o dual topológico de X † , é igualmente um espaço de
Banach, e assim por diante. (X † )† é por vezes denominado o dual (topológico) duplo de X ou bidual
(topológico) de X. Podemos nos perguntar qual a relação entre esses espaços.
De maneira geral podemos sempre identificar X com um subconjunto de (X † )† , no seguinte sentido:
existe uma aplicação injetora de X em (X † )† . Denominemos essa aplicação D : X → (X † )† . Podemos
defini-la da seguinte forma. Se x ∈ X definimos D(x) como sendo o elemento de (X † )† que a cada
l ∈ X † associa o número l(x):
D(x)(l) = l(x).
É fácil verificar que D é linear e injetora, não o faremos aqui. Que D(x) é contı́nuo segue do fato que
|D(x)(l)| = |l(x)| ≤ kxkX klkX † , que mostra que D(x) é limitado. É uma conseqüência do Teorema de
Hahn-Banach, mais precisamente, a Proposição 23.4, página 1030, que D é uma isometria, ou seja,
kD(x)k(X † )† = kxkX (23.4)
E. 23.6 Exercı́cio. Prove essa afirmação usando a Proposição 23.4. Essa afirmação é um caso particular
da Proposição 23.10, página 1049. 6
• Espaços Reflexivos
Essas observações dizem-nos que, em um certo sentido, podemos considerar X como um subcon-
junto de seu bidual topológico (X † )† pois D(X) ⊂ (X † )† . Quando estudamos o dual algébrico de
espaços vetoriais (seção 2.1.3, página 100 e seguintes) demonstramos um teorema (Teorema 2.5, página
105) que afirma que o bidual algébrico de um espaço vetorial V de dimensão algébrica infinita é sempre
estritamente maior que V . No caso do bidual topológico de espaços de Banach isso não é mais neces-
sariamente verdade, pois há espaços de Banach que possuem a propriedade que D(X) = (X † )† . Tais
espaços são ditos reflexivos.
Os espaços Lp ( , dx) com 1 < p < ∞ são reflexivos pois (Lp ( , dx))† = Lq ( , dx) com p−1 +q −1 =

1, de onde segue facilmente que ((Lp ( , dx))† )† = Lp ( , dx) (por que?). Para uma prova que

(Lp ( , dx))† = Lq ( , dx) vide, por exemplo, [104]. Os espaços L1 ( , dx) e L∞ ( , dx) não são

reflexivos.
Um fato importante é que todos os espaços de Hilbert são reflexivos. Isso segue o Teorema da
Representação de Riesz (página 1008) e de algumas considerações simples, como mostraremos agora.
• Espaços de Hilbert são reflexivos
O Teorema da Representação de Riesz (página 1008) afirma que se H é um espaço de Hilbert e

l ∈ H† é um funcional linear contı́nuo agindo em H então existe um e somente um elemento ψl ∈ H
tal que l(x) = hψl , xi para todo x ∈ H. Vamos denominar por R : H† → H a função que associa cada
l ∈ H† a seu vetor ψl ∈ H:
l(x) = hR(l), xi, ∀x ∈ H. (23.5)
O Teorema de Representação de Riesz diz-nos que R é injetora. De fato R : H † → H é também bijetora
pois é sobrejetora. Para ver isso, notemos que se φ ∈ H então H 3 x 7→ f (x) = hφ, xi define um
funcional contı́nuo em H e, portanto, R(f ) = φ, mostrando que todo elemento de H está na imagem
de R.
Devido às propriedades do produto escalar, R é uma aplicação anti-linear, ou seja,
R(αl + βl0 ) = αR(l) + βR(l0 )
para todos α, β ∈ e todos l, l0 ∈ H† , pois devemos ter
(αl + βl0 )(x) = αl(x) + βl0 (x)
e, com a anti-linearidade de R temos de fato
(αl + βl0 )(x) = hR(αl + βl0 ), xi = hαR(l) + βR(l0 ), xi = αhR(l), xi + βhR(l0 ), xi = αl(x) + βl0 (x)
como desejado.
Com essas observações é fácil ver que o espaço H † é um espaço vetorial com produto escalar, dado
por
hl, miH† = hR(m), R(l)i = m(R(l)). (23.6)
Repare a ordem invertida!
E. 23.7 Exercı́cio. Mostre que todas as propriedades de produto escalar estão satisfeitas. 6
Com essa definição de produto escalar podemos introduzir em H † uma norma, que denotaremos
provisoriamente por klk1 , dada por
p
klk1 = hR(l), R(l)i = kR(l)k.
Para mostrar que H† é um espaço de Hilbert precisamos mostrar que o mesmo é completo em relação
a essa norma k · k1 . A chave para isso é mostrar que as normas k · k1 e k · kH† (definida em (23.3)) são
iguais e lembrar que pelo, Teorema 23.2, página 1020, H † é completo em relação à norma k · kH† .
Proposição 23.2 Sejam H um espaço de Hilbert e H † seu espaço dual topológico. Então a norma
norma k · k1 definida acima e a norma k · kH† são iguais. 2
Prova. Seja l ∈ H† . Queremos provar que klk1 = klkH† . Se l = 0 a identidade é trivial. Seja então
l 6= 0. Pela definição
|l(x)| |hR(l), xi| |hR(l), R(l)i|
klkH† = sup = sup ≥ = kR(l)k = klk1 .
x∈H, x6=0 kxk x∈H, x6=0 kxk kR(l)k
Por outro lado, pela desigualdade de Cauchy-Schwarz, tem-se para x 6= 0
|hR(l), xi| kR(l)k kxk
≤ = kR(l)k.
kxk kxk
Logo,
|l(x)| |hR(l), xi|
klkH† = sup = sup ≤ kR(l)k = klk1 ,
x∈H, x6=0 kxk x∈H, x6=0 kxk
provando que klkH† = klk1 .
Isso diz-nos, então, que H† é não apenas um espaço com um produto interno, mas é completo em
relação a norma definida por esse produto interno pois essa norma coincide com a norma k · k H† em
relação à qual H† é completo pelo Teorema 23.2, página 1020. Em resumo: H † é também um espaço
de Hilbert!
Vamos com isso mostrar agora que H é reflexivo.
Proposição 23.3 Se H é um espaço de Hilbert então D(H) = (H † )† , ou seja, todo espaço de Hilbert
é reflexivo. 2
Prova. Acabamos de ver que se H é um espaço de Hilbert então H † e, conseqüentemente, (H† )† também
são espaços de Hilbert.
Já vimos acima que R : H† → H é uma aplicação anti-linear bijetora. Assim, possui uma inversa
R−1 : H → H† que também é anti-linear e bijetora. Como H† é também um espaço de Hilbert,
segue pelo Teorema da Representação de Riesz que também existe uma aplicação anti-linear bijetora
S : (H† )† → H† com uma inversa S−1 : H† → (H† )† igualmente anti-linear e bijetora.
Por analogia com (23.5), vale que para todo J ∈ (H † )† e todo l ∈ H† que
J(l) = hS(J), liH† .
Note que, por (23.6),

J(l) = hS(J), liH† = hR(l), R(S(J))i.
Como S−1 e R−1 são ambas anti-lineares e bijetoras, a composição S−1 ◦ R−1 : H → (H† )† é linear
(por que?) e bijetora. Podemos verificar que S−1 ◦ R−1 é, em verdade, igual a D pois, para todo l ∈ H†
e todo x ∈ H,
(S−1 ◦ R−1 (x))(l) = hS(S−1 ◦ R−1 (x)), liH†
= hR−1 (x), liH†
= hR(l), R(R−1 (x))i
= hR(l), xi
= l(x)
= D(x)(l), (23.7)
provando que S−1 ◦ R−1 = D.

Assim, como S−1 ◦ R−1 é bijetora, D também o é, mostrando que D(H) = (H† )† .
E. 23.8 Exercı́cio. Você entendeu mesmo todas as passagens de (23.7)? 6

23.1.3 O Teorema de Hahn-Banach e Algumas Conseqüências do Mesmo

A existência de funcionais lineares em espaços vetoriais satisfazendo certas propriedades e de extensões
dos mesmos é um assunto recorrente na Análise Funcional. Um papel de central importância no estudo
desse tipo de questão é o Teorema de Hahn5 -Banach6 , ao qual dedicamos a presente seção. Antes de
enunciarmos esse teorema (em suas várias formas), lembremos algumas noções referentes a funcionais
definidos em espaços vetoriais reais.
• Funcionais sub-aditivos, sub-lineares e convexos
Seja V um espaço vetorial real. Um funcional real h : V → é dito ser
1. positivo-homogêneo se h(λx) = λh(x) para todo x ∈ V e todo λ ≥ 0,
2. aditivo se h(x + y) = h(x) + h(y) para todos x, y ∈ V .
3. sub-aditivo se h(x + y) ≤ h(x) + h(y) para todos x, y ∈ V ,
4. sup-aditivo se h(x + y) ≥ h(x) + h(y) para todos x, y ∈ V ,
5. sub-linear se for positivo-homogêneo e sub-aditivo,
6. sup-linear se for positivo-homogêneo e sup-aditivo,
7. linear se h(αx + βy) = αh(x) + βh(y) para todos x, y ∈ V e todos α, β ∈ ,
8. convexo se h(αx + (1 − α)y) ≤ αh(x) + (1 − α)h(y) para todos x, y ∈ V e todo α ∈ [0, 1],
9. côncavo se h(αx + (1 − α)y) ≥ αh(x) + (1 − α)h(y) para todos x, y ∈ V e todo α ∈ [0, 1].
sub-aditiv.
Se h : V → é sub-linear, então é convexo, pois se α ∈ [0, 1], vale h(αx + (1 − α)y) ≤
homogen. pos.
h(αx) + h((1 − α)y) = αh(x) + (1 − α)h(y). Analogamente, se h é sup-linear, então é côncavo.
A recı́proca não é necessariamente verdadeira. Por exemplo, h : → dada por h(x) = x 2 é convexo,

mas não é sub-aditivo, nem positivo-homogêneo.

O Teorema de Hahn-Banach, que apresentaremos a seguir, aplica-se a funcionais convexos e, por-
tanto, abrange também os funcionais sub-lineares. Desde seu surgimento entre 1927 e 1929 esse teorema
revelou-se rico em conseqüências fundamentais, algumas das quais discutiremos no contexto de espaços
normados e de Banach. Como veremos, o Teorema de Hahn-Banach garante condições suficientes
para a existência de extensões de funcionais lineares e tem uma versão para espaços vetoriais reais e
uma generalização para espaços vetoriais complexos. Essa segunda data de 1938 e é devida a H. F.
Bohnenblust e A. Sobczyk.
• Existência de extensões majoradas por funcionais convexos
5
Hans Hahn (1879-1934).
6
O seguinte lema, que desempenhará um papel decisivo na demonstração do Teorema de Hahn-

Banach, ensina-nos que todo funcional linear definido em um sub-espaço de um espaço vetorial real
e que é majorado por um funcional convexo globalmente definido, possui pelo menos uma extensão
global que também é um funcional linear e também é majorado pelo mesmo funcional convexo.
Lema 23.1 Seja V um espaço vetorial real e seja f1 : V1 → um funcional linear definido em V1 , um

sub-espaço próprio de V . Suponha que exista um funcional convexo p : V → tal que f 1 (y) ≤ p(y)

para todo y ∈ V1 . Então, para cada z 6∈ V1 , não-nulo, existe um funcional linear f2 : V2 → , definido
no sub-espaço V2 , gerado por V1 e por z, tal que f2 é uma extensão de f1 (ou seja, f2 (y) = f1 (y) para
todo y ∈ V1 ) e satisfaz f2 (w) ≤ p(w) para todo w ∈ V2 . 2
Prova do Lema 23.1. Vamos tomar um vetor não-nulo z 6∈ V1 , doravante fixo, e denotar por V2 o
sub-espaço gerado pelos vetores de V1 e z. Definamos f2 : V2 → por
f2 (αz + y) := αF + f1 (y) (23.8)
para todo α ∈ e todo y ∈ V1 , onde F é uma constante arbitrária a ser especificada mais abaixo.

Notemos que devido à linearidade de f1
(23.8)
f2 ((αz + y) + (α0 z + y 0 )) = f2 ((α + α0 )z + (y + y 0 )) = (α + α0 )F + f1 (y + y 0 )
= (αF + f1 (y)) + (α0 F + f1 (y 0 )) = f2 ((αz + y)) + f2 ((α0 z + y 0 )) ,
o que mostra que f2 é linear. É também claro (tomando α = 0) que f2 (y) = f1 (y) para y ∈ V1 , o que
significa que f2 estende f1 a V2 . Sobre a constante F notemos, tomando y = 0, que F = f2 (z), ou seja,
fixar F fixa f2 em z.
Fixaremos F impondo a condição que f2 (w) ≤ p(w) para todo w ∈ V2 . Assim, para todo α ∈ e
todo y ∈ V1 desejamos que

αF + f1 (y) ≤ p(αz + y) . (23.9)
Para α = 0 a relação f1 (y) ≤ p(y) seria satisfeita por hipótese. Para α > 0 e y ∈ V1 arbitrários, (23.9)
implicaria
1 1
F ≤ p(αz + y) − f1 (y)
α α
7
e para α < 0 e y ∈ V1 arbitrários ,
1 1
F ≥ p(αz + y) − f1 (y) .
α α
Reciprocamente, se ambas essas condições são satisfeitas, valerá também (23.9) para todo α ∈ e todo
y ∈ V1 .
É claro que existirá um F satisfazendo ambas as condições se e somente se valer
1 1 1 1
p(−λz + y) − f1 (y) ≤ 0 p(λ0 z + y 0 ) − 0 f1 (y 0 ) (23.10)
−λ −λ λ λ
7
A desigualdade se inverte devido ao sinal de α.
para todos λ, λ0 > 0 e todos y, y 0 ∈ V1 . Mas essa desigualdade é verdadeira, pois

1 1 0 λ + λ0 λ0 λ 0
f1 (y) + 0 f1 (y ) = f1 y+ y
λ λ λλ0 λ + λ0 λ + λ0

λ + λ0 λ0 λ 0 0
= f1 (y − λz) + (y + λ z)
λλ0 λ + λ0 λ + λ0

hipótese λ + λ0 λ0 λ 0 0
≤ p (y − λz) + (y + λ z)
λλ0 λ + λ0 λ + λ0

convexidade λ + λ0 λ0 λ 0 0
≤ p(y − λz) + p(y + λ z)
λλ0 λ + λ0 λ + λ0
1 1
= p(y − λz) + 0 p(y 0 + λ0 z) ,
λ λ
o que implica (23.10). Assim, F pode ser escolhido de modo que

1 1 1 0 0 1 0
sup p(−λz + y) + f1 (y) ≤ F ≤ 0 inf0 p(λ z + y ) − 0 f1 (y ) , (23.11)
λ>0, y∈V1 −λ λ λ >0, y ∈V1 λ0 λ
e (23.9) valerá, ou seja, teremos f2 (w) ≤ p(w) para todo w ∈ V2 .
Note o leitor que (23.11) não-necessariamente implica em uma escolha única para F , mas isso
não importa, pois o Lema 23.1 não fala em unicidade, nem a mesma é esperada sob as hipóteses
consideradas.
O Lema 23.1 tem a seguinte interpretação geométrica em 3 . Seja uma linha reta f1 em 3 .

Suponha que exista um volume convexo e não-compacto r em 3 , delimitado por uma superfı́cie

bidimensional p, e que não intercepte a reta f1 . Então existe um (não-necessariamente único) plano f2
que contem f1 e que também não intercepta a superfı́cie p em 3 .
E. 23.9 Exercı́cio. Justifique as afirmações do último parágrafo com base no Lema 23.1 e/ou procure
convencer-se de sua veracidade com um pouco de ginástica geométrica mental. Convença-se que o plano
f2 nem sempre é unicamente determinado. 6
• O Teorema de Hahn-Banach para espaços vetoriais reais
O que fizemos com o Lema 23.1 foi estender f1 a um funcional linear f2 definido em um sub-espaço
V2 que adiciona a V1 uma dimensão extra gerada por um vetor z 6∈ V1 e de modo a preservar a majoração
pelo funcional convexo p. Vamos agora mostrar como esse fato implica a existência de um funcional
linear definido em todo V , estendendo f1 e também majorado por p. Esse é o conteúdo do célebre
Teorema de Hahn-Banach.
O Teorema de Hahn-Banach ensina uma condição suficiente para que um funcional linear definido
em um sub-espaço tenha uma extensão ao espaço todo. A condição é a existência de um funcional
convexo que o majore. Na prática da Análise Funcional é muito importante conhecer condições sob
as quais a existência de extensões globais de funcionais lineares possa ser garantida, daı́ a importância
de teoremas de extensão, como o de Hahn-Banach. Como veremos, o mesmo conduz a resultados
não-triviais, por exemplo na teoria de espaços de Banach.
Teorema 23.3 (Teorema de Hahn-Banach para espaços vetoriais reais) Seja V um espaço ve-
torial real e seja f1 : V1 → um funcional linear definido em um sub-espaço V1 de V . Suponha que

exista um funcional convexo p : V → tal que f1 (y) ≤ p(y) para todo y ∈ V1 . Então, existe um
funcional linear f : V → que é uma extensão de f1 (ou seja, f (y) = f1 (y) para todo y ∈ V1 ) e
satisfaz f (x) ≤ p(x) para todo x ∈ V . 2
Prova do Teorema 23.3. Se V1 = V não há o que demonstrar, pois podemos tomar f = f1 . Consideremos,
então, que V1 é um sub-espaço próprio de V .
Seja F1 a coleção de todos os funcionais lineares ` definidos em sub-espaços de V e que sejam
extensões de f1 e satisfaçam `(w) ≤ p(w) para todo w pertencente a seu sub-espaço de definição. É
claro que f1 ∈ F1 e, além disso, o Lema 23.1 ensina-nos que se V1 é um sub-espaço próprio de V , então
F1 contem elementos outros que não o próprio f1 .
Consideremos em F1 a relação de ordem `2 `1 se `2 for uma extensão de `1 . Seja {`α , α ∈ Λ}
um conjunto linearmente ordenado (pela relação de ordem acima) de elementos de F1 e denotemos Vα
[V onde cada `α está definido. É claro que Vα ⊃ Vβ se `α `β , já que `α estende `β .
o sub-espaço de
Assim, W := Vα será um sub-espaço de V e podemos definir em W um funcional `W da seguinte
α∈Λ
forma: `W (x) = `α (x) se x ∈ Vα . É elementar constatar que `W é linear e é evidente pela construção
que `W `α para todo α ∈ Λ. Resumindo, provamos que todo um conjunto linearmente ordenado de
elementos de F1 possui um majorante.
Pelo Lema de Zorn (página 35), isso implica que F1 possui um elemento maximal f , definido em
algum sub-espaço V 0 de V . Mas, em verdade, V 0 tem que ser igual a V , pois se assim não fosse
poderı́amos, como afirma o Lema 23.1, tomar um z 6∈ V 0 não-nulo e construir uma extensão linear de
f que seria também majorada por p, ou seja, seria um elemento de F1 , contrariando o fato de f ser
maximal.
Assim, f é um funcional linear definido em todo V que estende f1 e é majorado por p, pois f é um
elemento de F1 . Isso completa a demonstração.
Vamos agora apresentar a generalização do Teorema de Hahn-Banach para espaços vetoriais com-
plexos.
• O Teorema de Hahn-Banach para espaços vetoriais complexos
Teorema 23.4 (Teorema de Hahn-Banach para espaços vetoriais complexos) Seja V um es-
paço vetorial complexo e seja f1 : V1 → um funcional linear definido em um sub-espaço V1 de V .
Suponha que exista um funcional real p : V → satisfazendo p(αx + βy) ≤ |α|p(x) + |β|p(y) para todos

x, y ∈ V e todos α, β ∈ tais que |α| + |β| = 1 e de forma que |f1 (y)| ≤ p(y) para todo y ∈ V1 . Então,
existe um funcional linear complexo f : V → que é uma extensão de f 1 (ou seja, f (y) = f1 (y) para
todo y ∈ V1 ) e satisfaz |f (x)| ≤ p(x) para todo x ∈ V . 2
Prova. A prova faz uso do Teorema 23.3, como esperado. Começamos separando f 1 em suas partes
real e imaginária. Definamos g1 (y) := Re (f1 (y)), y ∈ V1 . Teremos g1 (iy) = Re (f1 (iy)) = Re (if1 (y)) =
−Im (f1 (y)), de modo que podemos escrever
f1 (y) = g1 (y) − ig1 (iy) . (23.12)
Observemos que para λ, λ0 reais e y, y 0 ∈ V1 arbitrários, tem-se g1 (λy + λ0 y 0 ) = Re (f1 ((λy + λ0 y 0 )) =

Re (λf1 (y)+λ0 f1 (y 0 )) = λRe (f1 (y))+λ0 Re (f1 (y 0 )), provando que g1 : V1 → é um funcional real linear.

Fora isso, g1 (y) := Re (f1 (y)) ≤ |Re (f1 (y))| ≤ |f1 (y)| ≤ p(y). Estamos, portanto, sob as hipóteses do
Teorema 23.3 e podemos afirmar que existe um funcional linear real g : V → que estende g 1 e satisfaz

g(x) ≤ p(x) (23.13)
para todo x ∈ V . Isto posto, definamos, inspirados em (23.12),
f (x) := g(x) − ig(ix) .
Como g é real, é evidente que

Re f (x) = g(x) e Im f (x) = −g(ix) . (23.14)
Vamos provar três fatos sobre f : 1) f é uma extensão de f1 ; 2) f é um funcional linear complexo;
3) |f (x)| ≤ p(x) para todo x ∈ V .
(23.12)
1) Para y ∈ V1 tem-se f (y) = g(y) − ig(iy) = g1 (y) − ig1 (iy) = f1 (y), provando que f estende f1 .
2) Para provar que f é linear, provemos os seguintes passos:
a. f é aditivo, ou seja, f (x + x0 ) = f (x) + f (x0 ) para todos x, x0 ∈ V . De fato, g é linear

real e, portanto, aditivo, ou seja, g(x + x0 ) = g(x) + g(x0 ) para todos x, x0 ∈ V . Assim,
f (x + x0 ) = g(x + x0 ) − ig(i(x + x0 )) = g(x) + g(x0 ) − ig(ix) − ig(ix0 ) = f (x) + f (x0 ),
estabelecendo que f é também aditivo.
b. f (λx) = λf (x) para todo λ ∈ e todo x ∈ V . De fato, se λ ∈
, vale f (λx) = g(λx) −
ig(iλx) = λg(x) − λig(ix) = λf (x), devido a g ser linear real.
c. f (ix) = if (x) para todo x ∈ V . De fato, g é linear real e, portanto, g(−x) = −g(x). Assim,
f (ix) = g(ix) − ig(−x) = g(ix) + ig(x) = i(g(x) − ig(ix)) = if (x).
d. Para todo ζ ∈ e todo x ∈ V vale f (ζx) = ζf (x). De fato, se λ, λ0 ∈ , f ((λ + iλ0 )x) =
aditividade passo b passo c

f (λx + iλ0 x) = f (λx) + f (iλ0 x) = λf (x) + λ0 f (ix) = λf (x) + λ0 if (x) = (λ +
iλ0 )f (x).
e. f é linear complexa. De fato, para ζ, ζ 0 ∈ e x, x0 ∈ V temos, juntando os fatos provados
aditividade passo d
nas linhas anteriores, f (ζx + ζ 0 x0 ) = f (ζx) + f (ζ 0 x0 ) = ζf (x) + ζ 0 f (x0 ).
3) Uma vez estabelecido que f é um funcional linear complexo em V , resta-nos demonstrar que
|f (x)| ≤ p(x) para todo x ∈ V .
Observemos primeiramente que do fato de p(αx + βy) ≤ |α|p(x) + |β|p(y) para todos x, y ∈ V e
todos α, β ∈ tais que |α| + |β| = 1, segue, que p(αx) = p(x) para todo α satisfazendo |α| = 1
e todo x ∈ V . De fato, tomando β = 0, tem-se que da desigualdade acima que p(αx) ≤ p(x)
para todo x ∈ V e todo α ∈ com |α| = 1. Definindo y = αx e notando que |α −1 | = 1, seque
igualmente que p(x) = p(α−1 y) ≤ p(y) = p(αx), provando que p(αx) = p(x).
Escrevendo f (x) ∈ na forma polar f (x) = |f (x)|eiθ , com |eiθ | = 1, tem-se

linearidade
|f (x)| = Re |f (x)| = Re e−iθ f (x) = Re f (e−iθ x)
(23.14) (23.13)
= g(e−iθ x) ≤ p(e−iθ x) = p(x) .
Isso completa a demonstração do Teorema 23.4.
Talvez as conseqüências mais importantes do Teorema de Hahn-Banach dão-se no contexto de

espaços vetoriais normados, como espaços de Banach, nosso próximo assunto.
• Conseqüências do Teorema de Hahn-Banach para espaços vetoriais normados
A primeira conseqüência do Teorema 23.4 é que se V é um espaço vetorial normado, então todo
funcional linear definido em um sub-espaço de V e que seja contı́nuo em relação à norma de V pode
ser estendido isometricamente como funcional linear para todo V .
Teorema 23.5 (Teorema de Hahn-Banach para espaços vetoriais normados) Seja V um es-
paço vetorial complexo dotado de uma norma k · k. Seja f1 : V1 → um funcional linear definido
em um sub-espaço V1 de V e suponhamos que f1 seja limitado em V1 , ou seja, |f1 (y)| ≤ kf1 k kyk para
|f1 (y)|
todo y ∈ V1 , onde kf1 k := sup . Então, existe um funcional linear complexo f : V → que é
y∈V1 kyk
y6=0
uma extensão de f1 (ou seja, f (y) = f1 (y) para todo y ∈ V1 ) e que é igualmente limitado, satisfazendo
kf k = kf1 k. 2
Prova. Se V é um espaço vetorial complexo dotado de uma norma k · k, então para todos α, β ∈ e
todos x, y ∈ V vale kαx + βyk ≤ |α| kxk + |β| kyk. Assim, p(x) = kf1 kkxk satisfaz as hipóteses do
Teorema 23.4 e, pela definição de p, vale |f1 (y)| ≤ p(y) para todo y ∈ V1 . Pelo Teorema 23.4, existe
|f (x)|
um funcional linear f que estende f1 e satisfaz |f (x)| ≤ kf1 kkxk. Assim, kf k = sup ≤ kf1 k.
x∈V kxk
x6=0
|f (x)| |f (y)| |f1 (y)|

Porém, como f estende f1 , vale kf k = sup ≥ sup = sup = kf1 k, o que prova que
x∈V kxk y∈V1 kyk y∈V1 kyk
x6=0 y6=0 y6=0
kf k = kf1 k.
Do Teorema 23.5 obtemos o seguinte resultado, que por sua vez possui um corolário de grande
importância.
Proposição 23.4 Seja V um espaço vetorial complexo dotado de uma norma k · k. Então para cada
x0 ∈ V existe um funcional linear limitado e não-nulo `x0 satisfazendo k`x0 k = 1 e tal que `x0 (x0 ) =
kx0 k. 2
Prova. Se x0 = 0, tomamos `x0 igual a qualquer funcional limitado com norma 1 e as afirmações da
proposição seguem.
Seja x0 ∈ V não-nulo fixo e seja V1 = {αx0 , α ∈ }, um sub-espaço linear de V . Defina-se em
V1 o funcional linear f1 (αx0 ) := αkx0 k. Pelo Teorema 23.5 existe um funcional linear `x0 definido
em todo V e que estende f1 , satisfazendo k`x0 k = kf1 k. Como `x0 estende f1 e x0 ∈ V1 , tem-se
`x0 (x0 ) = f1 (x0 ) = kx0 k. Note-se, porém, que
|f1 (y)| |f1 (αx0 )| |αkx0 k|

kf1 k = sup = sup = sup = 1.
y∈V1 kyk α∈ kαx0 k α∈ kαx0 k
y6=0 α6=0 α6=0
Assim, k`x0 k = 1.
Essa proposição será usada quando estudarmos o adjunto de operadores atuando entre espaços de
Banach, página 1048 e seguintes. Vide Proposição 23.10, página 1049. Uma das suas conseqüências
mais importantes, porém, é o seguinte corolário, o qual terá implicações em desenvolvimentos que se
seguirão no presente capı́tulo, especialmente quando estudarmos propriedades do operador resolvente
e do espectro de operadores.
Corolário 23.1 Seja V um espaço vetorial complexo dotado de uma norma k · k e denotemos por V †
o conjunto de todos os funcionais lineares limitados agindo em V . Se x ∈ V é tal que `(x) = 0 para
todo ` ∈ V † , então x = 0. 2
Prova. Se `(x) = 0 para todo ` ∈ V † , então, em particular, `x (x) = 0, onde `x é o funcional cuja
existência é garantida pela Proposição 23.4. Porém, `x (x) = kxk, o que prova que x = 0.
23.1.4 O Teorema de Banach-Steinhaus ou Princı́pio de Limitação Uni-

forme
O seguinte teorema, devido a Banach8 e Steinhaus9 e apresentado em 192710 é um dos teoremas
centrais da teoria de operadores em espaços de Banach. O mesmo é por vezes referido como princı́pio
de limitação uniforme, e é uma conseqüência gentil do Teorema da Categoria de Baire, Teorema 21.2,
página 977.
Teorema 23.6 (Teorema de Banach-Steinhaus ou Princı́pio de Limitação Uniforme) Seja A
um espaço de Banach e seja V um espaço vetorial normado. Seja S um conjunto (não-vazio) de ope-
radores lineares limitados de A em V. Suponha que para cada x ∈ A exista M x > 0, finito, tal que
kSxkV ≤ Mx para todo S ∈ S. Então existe M ≥ 0, finito, tal que kSk ≤ M para todo S ∈ S. 2
8
9
Hugo Dyonizy Steinhaus (1887-1972).
10
S. Banach and H. Steinhaus. Sur le principe de la condensation des singularités. Fund. Math. 9, 50-61 (1927).
Prova. Pela hipótese, tem-se para cada x ∈ A que o conjunto de números reais não-negativos
{kSxkV , S ∈ S} é um subconjunto do intervalo [0, Mx ]. Como cada Mx é finito, cada um dos
intervalos [0, Mx ], está contido em algum intervalo [0, n] com n ∈ , n ≥ 1. É evidente, portanto,

∞
[
que A = An , onde
n=1
n o

An := x ∈ A kSxkV ≤ n para todo S ∈ S ,
pois cada x ∈ A está contido em pelo menos um An . Assim, pelo Teorema da Categoria de Baire
0
(Teorema 21.2, página 977), existe m ∈ tal que Am tem interior não-vazio: Am =
6 ∅.
Agora, é fácil ver que cada An é um conjunto fechado em A. De fato, pela definição, vale
\n o

An := x ∈ A kSxkV ≤ n . (23.15)
S∈S
Agora, para S ∈ S, n o

x ∈ A kSxkV ≤ n = FS−1 ([0, n]) ,
onde FS : A → é dada por FS (x) = kSxkV . Todavia, FS é contı́nua por ser a composição das funções

contı́nuas S e k · kV . Logo, como [0, n] é fechado em , o conjunto FS−1 ([0, n]) é fechado em A e, por

(23.15), An é fechado, por ser intersecção de fechados.

Concluı́mos disso que Am tem interior não-vazio: A0m 6= ∅.
Seja x0 ∈ A0m . Como A0m é aberto, existe > 0 tal que todo x ∈ A com kx − x0 kA < é um
elemento de A0m . Dessa forma, se x0 ∈ A for tal que kx0 kA < , tem-se k(x0 + x0 ) − x0 kA = kx0 kA < ,
o que implica que x0 + x0 é um elemento de A0m e, portanto, de Am . Como x0 e x0 + x0 são elementos
de Am , valem
kSx0 kV ≤ m e kS(x0 + x0 )kV ≤ m (23.16)
para todo S ∈ S. Assim, para S ∈ S e para cada x0 ∈ A com kx0 kA < , tem-se
(23.16)
kSx0 kV = kS(x0 + x0 ) − Sx0 kV ≤ kS(x0 + x0 )kV + kSx0 kV ≤ 2m ,

Portanto, para x ∈ A não-nulo, podemos tomar x0 = 2kxk x e teremos kx0 kA = 2 < , de onde segue
A

que S 2kxk A
x ≤ 2m, ou seja
V
4m
kSxkV ≤ kxkA ,

desigualdade essa que também vale para x = 0. Assim, provamos que kSk ≤ M com M := 4m
, que
não depende de S ∈ S. Isso demonstra o teorema.
23.1.5 O Teorema da Aplicação Aberta e o Teorema do Gráfico Fechado
• A Soma Direta de Dois Espaços de Banach

Sejam V e W dois espaços vetoriais normados, cujas normas são denotadas por k · k V e k · kW ,
respectivamente. O produto cartesiano V × W pode ser feito um espaço vetorial com as operações de
soma e multiplicação por escalares (números complexos), expressa em
α(x, y) + β(x0 , y 0 ) = (αx + βx0 , αy + βy 0 )
onde x, x0 ∈ V, y, y 0 ∈ W e α, β ∈ são arbitrários.

É possı́vel introduzir em V × W uma norma e, portanto, uma topologia, usando para tal as normas
k · kV e k · kW . Uma possı́vel escolha é
k(x, y)kV×W = kxkV + kykW ,
(x, y) ∈ V × W.
E. 23.10 Exercı́cio. Verifique que essa expressão define de fato uma norma em V × W. 6
E. 23.11 Exercı́cio. Uma outra possı́vel escolha de norma em V × W seria a seguinte. Sejam A > 0 e
B > 0 fixos. Defina para todo (x, y) ∈ V × W
k(x, y)kA, B
V×W = AkxkV + BkykW .
Mostre que k · kA, B

V×W é uma norma em V × W. Mostre que
min(A, B)k(x, y)kV×W ≤ k(x, y)kA, B

V×W ≤ max(A, B)k(x, y)kV×W ,
e, portanto, k · kA, B
V×W e k · kV×W são normas equivalentes no sentido da definição de equivalência de normas
da página 121. Note que duas normas equivalentes geram as mesmas topologias (por que?). 6
O conjunto V × W é assim um espaço vetorial normado. Um fato relevante é que se V e W forem

espaços de Banach V × W também o será.
Para ver isso, consideremos uma seqüência (xn , yn ), n ∈ , em V × W que seja uma seqüência de

Cauchy na norma k · kV×W . Isso significa que para todo > 0 existe N () tal que se m, n ≥ N () então
k(xm , ym ) − (xn , yn )kV×W = k(xm − xn , ym − yn )kV×W ≤ .
Mas isso significa que

kxm − xn kV + kym − yn kV ≤ ,
o que implica que temos
kxm − xn kV ≤
e
kym − yn kW ≤ ,
ou seja, xn e yn , n ∈ , são duas seqüências de Cauchy em seus respectivos espaços. Como V e W são

espaços de Banach, ambas as seqüências convergem a x ∈ V e y ∈ W, respectivamente. Agora é trivial

ver que, por isso, (xn , yn ) converge a (x, y) em V × W, pois
k(xn , yn ) − (x, y)kV×W = kxn − xkV + kyn − ykW

que por hipótese vai a zero quando n → ∞. Isso mostra que V × W é também um espaço de Banach.
Esse espaço de Banach obtido pelo produto cartesiano de dois espaços de Banach V e W é denomi-
nado soma direta (topológica) de V e W e é freqüentemente denotado por V ⊕ W.
Freqüentemente usaremos V ⊕ W para nos referirmos a V × W visto como espaço topológico com a
topologia gerada pela norma k · kV×W .
• O Gráfico de um Operador
Sejam V e W dois espaços vetoriais e T : V → W um operador linear. O gráfico de T , denominado

por Γ(T ) é o subconjunto de V × W definido por
Γ(T ) = {(x, T x), x ∈ Dom (T )}.
Nota 1. Essa definição é, na verdade, redundante. Se lembrarmos a definição de função à página
22 (e estamos adotando a definição de operador como sendo uma função naquele sentido), vemos que
o conceito de gráfico de um operador coincide com o próprio conceito de operador, ou seja, como
sendo uma certa sub-coleção de V × W. Assim, pelas nossas definições, Γ(T ) = T !. No entanto é
muito comum entender-se num sentido intuitivo que um operador representa uma transformação entre
d
espaços. Informalmente entendemos, por exemplo, que o operador de derivação T = dx “transforma”
uma função em sua derivada. Ainda que essa conceituação não possa ser feita precisa, essa é a noção
que mais comummente se tem de operador, daı́ introduzirmos essa “nova” definição. Note-se também
que essa definição corresponde precisamente à noção de gráfico de uma função de em , tão familiar

dos cursos de cálculo.

Nota 2. Para evitar confusões futuras, notamos aos leitores que na nossa definição de gráfico acima
seguimos a convenção que V seja o domı́nio de definição de T , Dom (T ) = V, e não Dom (T ) ⊂ V.
Se T é um operador linear agindo entre dois espaços de Banach V e W, o conjunto Γ(T ) é um sub-
conjunto do espaço topológico V⊕W e, como tal, é legı́timo perguntarmos por propriedades topológicas
de Γ(T ), tais como, se Γ(T ) é um conjunto fechado (ou aberto), sobre propriedades dos fecho Γ(T ) de
Γ(T ) etc. Como veremos, tais perguntas são de grande importância e operadores podem mesmo ser
classificados de acordo com as respostas que se dá às mesmas. Um importante resultado nesse sentido
é o chamado Teorema do Gráfico Fechado, que demonstraremos nas próximas páginas.
• O Teorema da Aplicação Aberta
Sejam X e Y dois espaços vetoriais e seja T : X → Y . Se C ⊂ X denotaremos aqui por T (C) a

imagem de C por T , ou seja, T (C) = {y ∈ Y | y = T (x) para algum x ∈ X}.
Neste tópico demonstraremos outro importante teorema sobre operadores contı́nuos entre espaços
de Banach, o chamado Teorema da Aplicação Aberta. Esse teorema faz uso de um teorema sobre
espaços métricos completos, conhecido como Teorema da Categoria de Baire, tratado à página 977.
Como bem sabemos, funções contı́nuas entre espaços topológicos tem (por definição) a propriedade
que as imagens inversas de conjuntos abertos são também abertos. O que o Teorema da Aplicação
Aberta nos diz é que, para operadores lineares contı́nuos e sobrejetores agindo entre espaços de Banach,
vale também a recı́proca: a imagens de abertos são também abertos. Como é de se esperar esse fato
também nos diz algo sobre a inversa desses operadores, a saber, na forma do Teorema da Aplicação
Inversa, tratado à página 1038.
A conseqüência talvez mais importante do Teorema da Aplicação Aberta é o Teorema do Gráfico
Fechado, que discutiremos à página 1038, que nos mostra (pela primeira vez) a existência de uma
relação ı́ntima entre propriedades de um operador e propriedades topológicas de seu gráfico.
Passemos ao enunciado e demonstração do Teorema da Aplicação Aberta.
Teorema 23.7 (Teorema da Aplicação Aberta) Sejam X e Y dois espaços de Banach e seja T :
X → Y um operador linear contı́nuo e sobrejetor. Então, se A ⊂ X é um aberto, T (A) é um aberto
em Y . 2
Prova. Comecemos fixando notações. Por B X (r, x) denotamos a bola aberta em X centrada em x ∈ X
de raio r > 0. Analogamente por B Y (r, y) denotamos a bola aberta em Y centrada em y ∈ Y de
raio r > 0. Adotaremos também as notações simplificadoras: B X (r) = B X (r, 0) e B Y (r) = B Y (r, 0).
Fora isso, se C é um subconjunto de X e λ > 0, denotamos por λC o conjunto λC = {x0 ∈ X| x0 =
λx para algum x ∈ C}. O mesmo se C for um subconjunto de Y .
Isto posto, vamos à demonstração.
Em primeiro lugar, é claro que X pode ser escrito como a união contável de todas as bolas de raio
1, 2, 3 . . .:
[∞
X = B X (n).
n=1
Como T é, por hipótese, sobrejetora, temos que

∞
[
Y = T (B X (n)).
n=1
Pelo Teorema da Categoria de Baire (página 977) isso implica a existência de pelo menos um m tal
0
que T (B X (m)) 6= ∅, ou seja, T (B X (m)) tem interior não-vazio.
É claro que, para todo r > 0 e n ∈ valem

r
T (B X (r)) = T (B X (n))
n
e
r
T (B X (r)) = T (B X (n)).
n
Portanto, concluı́mos que todos conjuntos T (B X (r)) para todos r > 0 têm interior não-vazio.
Com isso em mãos, vamos enunciar e demonstrar o seguinte lema:
0
Lema 23.2 O conjunto aberto T (B X (1)) contem o vetor nulo entre seus elementos. 2
Prova do Lema 23.2. Como já sabemos, T (B X (1)) possui um interior não-vazio. Afirmamos que
0 0
X X
0 ∈ T (B (1)) . Para mostrar isso, tomemos y ∈ T (B (1)) . Como y é um elemento do fecho de
0 0
T (B X (1)) (pois T (B X (1)) ⊂ T (B X (1))), e como T (B X (1)) é um aberto que contem y, segue
0
que T (B X (1)) ∩ T (B X (1)) 6= ∅, pela Proposição 15.5, página 834.
0
Seja então z ∈ T (B X (1)) ∩ T (B X (1)). Então z = T x para algum x ∈ X com kxkX < 1 e, como
0
X
T (B (1)) é aberto, existe pela definição de conjunto aberto em espaços métricos um r > 0 tal que
0
Y X
B (r, z) ⊂ T (B (1)) , ou seja,
0
B Y (r) + T x ⊂ T (B X (1)) . (23.17)
Se escolhermos R grande o suficiente (por exemplo R > 1 + kxkX ) teremos que B X (1) ⊂ B X (R, x)
(por que?). Isso implica T (B X (1)) ⊂ T (B X (R, x)). Logo, T (B X (1)) ⊂ T (B X (R, x)) e, portanto,
0 0
T (B X (1)) ⊂ T (B X (R, x)) .
Logo, retornando à (23.17), temos que
0 0
B Y (r) + T x ⊂ T (B X (R, x)) = T (B X (R)) + T x,
ou seja, 0
B Y (r) ⊂ T (B X (R)) .
Isso, porém, diz que 0
B Y (r/R) ⊂ T (B X (1)) ,
0
provando que 0 ∈ T (B X (1)) , completando a prova do lema.
Vamos mostrar na próxima proposição uma condição que, uma vez demonstrada, implica o Teorema
da Aplicação Aberta.
Proposição 23.5 Se provarmos que T (B X (1)) ⊂ T (B X (2)) então o Teorema da Aplicação Aberta
estará demonstrado. 2
0
Prova da Proposição 23.5. Pelo lema acima, o aberto T (B X (1)) contem o vetor nulo. Então (pela
definição de conjunto aberto em espaço métrico, vide página 743), existe uma bola aberta de raio s > 0
0
(suficientemente pequeno) e centrada em 0 que está inteiramente contida em T (B X (1)) e, portanto,
em T (B X (1)):
B Y (s) ⊂ T (B X (1)).
Se tivermos provado que T (B X (1)) ⊂ T (B X (2)), como a proposição sugere, então concluirı́amos que
B Y (s) ⊂ T (B X (2)),
ou seja, que T (B X (2)) tem interior não-vazio. Como T (B X (r)) = (r/2)T (B X (2)), segue também que
B Y (rs/2) ⊂ T (B X (r)),
mostrando que T (B X (r)) tem também interior não-vazio para qualquer r > 0.
Isso mostra que T (B X (r, x)) = T (B X (r)) + T x também tem interior não-nulo para todo r > 0 e
todo x ∈ X.
Seja então A ⊂ X um aberto em X e T (A) sua imagem por T em Y . Seja um ponto genérico
y ∈ T (A) e seja x ∈ A tal que y = T x. Como A é aberto, existe r suficientemente pequeno tal que
B X (r, x) ⊂ A. Logo T (B X (r, x)) ⊂ T (A) e T (B X (r, x)) 3 y. Mas, pelo dito acima, T (B X (r, x)) =
T (B X (r)) + y e T (B X (r)) contem a bola B Y (rs/2). Assim, y + B Y (rs/2) ⊂ T (A). Como y é um
elemento genérico de T (A) isso mostra que para cada y ∈ T (A) existe r 0 > 0 (a saber r 0 = rs/2) tal
que a bola B Y (r 0 , y) está inteiramente contida em T (A). Ora, isso é a afirmativa que T (A) é aberto,
completando assim a demonstração da proposição.
Essa proposição nos ensina que, para completarmos a demonstração do Teorema da Aplicação
Aberta resta-nos apenas mostrar que T (B X (1)) ⊂ T (B X (2)), que é o que faremos agora.
Mostrar que T (B X (1)) ⊂ T (B X (2)) significa mostrar que para cada y ∈ T (B X (1)) existe um x ∈ X
com kxkX < 2 tal que y = T x. O que faremos então é fixar um tal y e construir um x ∈ X com as
propriedades requeridas.
Pela caracterização de fecho de um conjunto dada na Proposição 15.5, página 834, se
y ∈ T (B X (1)) (23.18)
então para todo número r > 0, B Y (r, y) ∩ T (B X (1)) 6= ∅. Isso diz que existe x1 com kx1 kX < 1 tal que
ky − T x1 kY < r. Essa última afirmativa significa que y − T x1 ∈ B Y (r). Como r é arbitrário, podemos
escolhe-lo suficientemente pequeno de modo a termos
B Y (r) ⊂ T (B X (1/2)). (23.19)
Isso é sempre possı́vel pois vimos acima que todo conjunto T (B X (a)) tem interior não-vazio para todo
a > 0. Como, porém, T (B X (1/2)) ⊂ T (B X (1/2)), concluı́mos que, pela nossa escolha,
y − T x1 ∈ T (B X (1/2)). (23.20)
Comparando-se (23.20) a (23.18) vemos que podemos repetir o argumento e, para o mesmo r de
(23.19), B Y (r/2, y − T x1 ) ∩ T (B X (1/2)) 6= ∅. Isso diz que existe x2 com kx2 kX < 1/2 e tal que
k(y − T x1 ) − T x2 kY = ky − T (x1 + x2 )kY < r/2, ou seja, y − T (x1 + x2 ) ⊂ B Y (r/2). Por (23.19),
B Y (r/2) ⊂ T (B X (1/4)). Como, porém, T (B X (1/4)) ⊂ T (B X (1/4)), concluı́mos que, pela nossa
escolha,
y − T (x1 + x2 ) ∈ T (B X (1/4)). (23.21)
Prosseguindo indutivamente concluı́mos que existem x1 , . . . , xn ∈ X tais que kxi kX < 1/2i−1 e
r
ky − T (x1 + · · · + xn )kY < . (23.22)
2n+1
É um exercı́cio simples mostrar que, pela propriedade kxi kX < 1/2i−1 , a seqüência x1 + · · · + xn é
uma seqüência de Cauchy. Como supomos que X é completo, isso diz que existe x ∈ X tal que
x = lim (x1 + · · · + xn ).
n→∞
Fora isso, pela continuidade da norma, pela continuidade de T e pela propriedade (23.22), segue que

0 = lim ky − T (x1 + · · · + xn )kY = y − lim T (x1 + · · · + xn )
n→∞ n→∞ Y

= y − T ( lim (x1 + · · · + xn )) = ky − T xkY ,
n→∞ Y
provando que y = T x. Agora, pela continuidade da norma,

1 1
kxkX = lim (x1 + · · · + xn ) = lim kx1 + · · · + xn kX ≤ lim 1 + + · · · + n−1 = 2
n→∞ X n→∞ n→∞ 2 2
Mostrando que x ∈ B X (2) e que y ∈ T (B X (2)). Isso completa a demonstração do Teorema da Aplicação
Aberta.
• O Teorema da Aplicação Inversa
Se T : X → Y é uma função bijetora entre dois conjuntos, existe uma função inversa T −1 : Y → X.
Se X e Y são espaços vetoriais e T é linear, é fácil ver que T −1 é também linear (Exercı́cio.). O Teorema
da Aplicação Aberta tem um corolário que garante que também a propriedade de continuidade pode
ser estendida a T −1 , caso T seja contı́nua e X e Y dois espaços de Banach.
Teorema 23.8 (Teorema da Aplicação Inversa) Sejam X e Y dois espaços de Banach e T : X →
Y um operador linear que seja contı́nuo e bijetor. Então sua inversa T −1 : Y → X é também contı́nua.
2
Prova. Se T é bijetora é, em particular, sobrejetora e portanto vale o Teorema Aplicação Aberta. Pela
definição de função contı́nua, tudo que devemos fazer é mostrar que conjuntos abertos na imagem de
T −1 (que vem a ser X) são a imagem por T −1 de conjuntos abertos do domı́nio de T −1 (que vem a ser
Y ). Mas é precisamente isso que nos diz o Teorema Aplicação Aberta, pois (T −1 )−1 = T .
• O Teorema do Gráfico Fechado
Chagamos agora a um teorema importante pois mostra que propriedades de um operador se mani-
festam em propriedades topológicas de seu gráfico.
Teorema 23.9 (Teorema do Gráfico Fechado) Sejam X e Y dois espaços de Banach e T : X → Y

um operador linear. Então T é contı́nuo se e somente se seu gráfico Γ(T ) for fechado como subconjunto
do espaço topológico X ⊕ Y . 2
Prova. 1. Vamos supor que T seja contı́nuo e mostrar que seu gráfico é fechado.
Seja (xn , T xn ), n ∈ , uma seqüência de elementos de Γ(T ) e que seja convergente em X ⊕ Y .

Queremos mostrar que essa seqüência converge a um elemento (x, y) ∈ X ⊕ Y que também é elemento
de Γ(T ). Para isso devemos provar que y = T x. Se (xn , T xn ) → (x, y) então x = lim xn em X e
n→∞
y = lim T xn . Porém, como T é, por hipótese, contı́nuo, vale y = lim T xn = T lim xn = T x, que
n→∞ n→∞ n→∞
é o que querı́amos provar.
2. Vamos agora, reciprocamente, supor que Γ(T ) é fechado e mostrar que T é contı́nuo.
Γ(T ) é sempre um sub-espaço de X ⊕ Y , pois
α(x, T x) + β(y, T y) = (αx + βy, αT x + βT y) = (αx + βy, T (αx + βy)) ∈ Γ(T ).
O fato de Γ(T ) ser fechado significa, porém, que Γ(T ) é um espaço de Banach pois, pela Proposição
15.7, página 835, todo subconjunto fechado de um espaço métrico completo é também completo.
Sejam então as funções S1 : Γ(T ) → X e S2 : Γ(T ) → Y definidas por
S1 ((x, T x)) = x.
e
S2 ((x, T x)) = T x.
É um exercı́cio banal mostrar que S1 e S2 são lineares (faça). Fora isso, ambas são limitadas (e,
portanto, contı́nuas), pois
kS1 (x, T x)kX = kxkX ≤ kxkX + kT xkY = k(x, T x)kX⊕Y
e
kS2 (x, T x)kX = kT xkY ≤ kxkX + kT xkY = k(x, T x)kX⊕Y ,
Mostrando que kS1 k ≤ 1 e kS2 k ≤ 1.
Fora isso vale também que S1 é bijetora. De fato é evidente que ImS1 = X (por quê?) e, fora isso,
S1 (x, T x) = S1 (y, T y) significa x = y e, portanto (x, T x) = (y, T y), o que mostra que S1 é um-a-um.
Se S1 é uma bijeção então tem uma inversa (S1 )−1 : X → Γ(T ) que é tal que
(S1 )−1 x = (x, T x).
Note-se assim que

S2 (S1 )−1 x = S2 (x, T x) = T x,
ou seja, T = S2 ◦ (S1 )−1 .
Mostramos acima que S1 é uma função linear, contı́nua e bijetora entre dois espaços de Banach.
Ora, essas são as hipóteses do Teorema da Aplicação Inversa que, assim, nos afirma que (S 1 )−1 é
contı́nua. S2 é também contı́nua e, portanto, T = S2 ◦ (S1 )−1 é também contı́nua por ser a composição
de duas funções contı́nuas, completando a prova.
• O Teorema de Hellinger-Toeplitz
O Teorema do Gráfico Fechado tem por corolário um teorema do qual uma importante lição pode
ser extraı́da.
11
Teorema 23.10 (Teorema de Hellinger-Toeplitz) Seja H um espaço de Hilbert e seja A um
operador linear tal que Dom (A) = H e tal que
hx, Ayi = hAx, yi (23.23)
para todos x, y ∈ H. Então A é limitado. 2
Prova. A prova é feita mostrando que Γ(A) é fechado e evocando o Teorema do Gráfico Fechado.
Suponha que (xn , Axn ) converge a (x, y) em H ⊕ H. Queremos mostrar que y = Ax. Seja z um
vetor qualquer de H. Evocando sucessivas vezes a continuidade do produto escalar e a hipótese (23.23),
temos
D E
hz, yi = z, lim Axn = lim hz, Axn i = lim hAz, xn i
n→∞ n→∞ n→∞
D E
= Az, lim xn = hAz, xi = hz, Axi .
n→∞
Assim, para todo z ∈ H vale hz, (y − Ax)i = 0, o que só é possı́vel se y = Ax.
A lição que extraı́mos desse teorema é que se A não é um operador contı́nuo, uma relação como
(23.23) não pode ser satisfeita para todos x, y ∈ H. Isso nos força a termos cautela quando definirmos
o conceitos como o de operador auto-adjunto para operadores não-limitados.
23.2 Operadores Limitados em Espaços de Hilbert
• Considerações gerais sobre operadores em espaços de Hilbert
Vamos agora particularizar nossa discussão para o contexto de espaços de Hilbert. Seja H um
espaço de Hilbert. Um operador linear A agindo em H é uma função linear definida em um domı́nio
Dom (A) que é um sub-espaço de H. Freqüentemente denotaremos esse domı́nio por D(A) ou ainda
11
Ernst David Hellinger (1883-1950). Otto Toeplitz (1881-1940).
por DA . A imagem de A, Im(A), será freqüentemente denotada por R(A) ou por RA , a letra “R” sendo
proveniente da palavra inglesa “range”.
Na teoria de operadores em espaços de Hilbert é absolutamente fundamental lembrar que cada
operador é definido em um domı́nio especı́fico, pois propriedades do mesmo podem mudar se o domı́nio
for alterado.
d
Considere-se o exemplo do espaço de Hilbert L2 ([0, 1], dx), e os operadores A1 = i dx , definido no
d
domı́nio D(A1 ) das funções contı́nuas e continuamente diferenciáveis do intervalo [0, 1] e A2 = i dx ,
definido no domı́nio D(A2 ) das funções contı́nuas e continuamente diferenciáveis do intervalo [0, 1] que
se anulam em x = 0 e em x = 1. O operador A2 é simétrico no seu domı́nio, ou seja, para todos φ, ψ
no seu domı́nio vale hφ, A2 ψi = hA2 φ, ψi, mas o operador A1 não tem essa propriedade.
E. 23.12 Exercı́cio. Verifique as afirmativas feitas no último parágrafo usando para tal integração por
partes. 6
No caso de operadores limitados (contı́nuos), a situação se simplifica muito pois, como iremos
argumentar, um operador limitado sempre pode ser definido em todo o espaço de Hilbert.
De fato, seja A um operador linear limitado definido em um sub-espaço D(A) de um espaço de
Hilbert H. Se D(A) for fechado, podemos estender A ao complemento ortogonal D(A)⊥ , definindo-
o como zero em D(A)⊥ . Mais precisamente fazemos o seguinte: pelo Teorema da Decomposição
Ortogonal, Teorema 22.2, página 991, todo x ∈ H pode ser escrito como x = y + z com y ∈ D(A) e
z ∈ D(A)⊥ . Definimos então A00 , extensão de A, com domı́nio igual a todo H por
A00 x = A00 (y + z) = Ay.
É fácil verificar que kA00 k = kAk.

Caso D(A) não seja fechado, definimos uma extensão A0 de A a seu fecho D(A) da seguinte forma.
Seja y ∈ D(A) e yn , n ∈ , uma seqüência em D(A) que converge a y. Definimos

A0 y = lim Ayn .
n→∞
E. 23.13 Exercı́cio. Usando a continuidade mostre que o limite do lado direito sempre existe e que não
depende da particular seqüência yn em D(A) que converge a y. 6
E. 23.14 Exercı́cio. Mostre que kA0 k = kAk. 6
Como o domı́nio de A0 é fechado, podemos proceder como antes e estender A0 a todo H.

Daqui por diante sempre consideraremos que operadores limitados têm por domı́nio todo o espaço
de Hilbert em que agem. Para operadores não-contı́nuos isso não pode ser feito e questões relativas ao
domı́nio de definição têm sempre um caracter essencial.
23.2.1 O Adjunto de um Operador em um Espaço de Hilbert

Seja A um operador linear limitado definido em um espaço de Hilbert H. Seja y um vetor de H e
ly : H → o funcional linear em H dado por
ly (x) = hy, Axi.
Pela desigualdade de Cauchy-Schwarz
|ly (x)| ≤ kyk kAxk ≤ kyk kAk kxk
o que mostra que ly é um funcional linear limitado. Aplica-se então o Teorema da Representação de
Riesz (página 1008) e podemos dizer que existe um vetor z ∈ H tal que
ly (x) = hy, Axi = hz, xi.
O vetor z deve depender de y. Definimos uma nova função A∗ : H → H, denominada adjunto de A,

como sendo a função que associa y a z: A∗ (y) = z, de modo que podemos escrever
hy, Axi = hA∗ (y), xi
para todos x, y ∈ H. Note-se que, pela própria construção, o domı́nio de definição de A ∗ é todo H,
pois y é arbitrário. Esse fato não é verdadeiro para o caso em que A não é limitado. Vamos no que
segue demonstrar uma série de propriedades de A∗ , a mais básica sendo a linearidade. As propriedades
que desejamos provar estão listadas na forma do seguinte teorema:
Teorema 23.11 O operador adjunto A∗ de um operador limitado A agindo em um espaço de Hilbert
H é também um operador linear, limitado e satisfaz
1. (A∗ )∗ = A
2. kA∗ k = kAk
3. kA∗ Ak = kAk2 , (propriedade C∗ ) .
4. Se A e B são operadores limitados agindo em H e α, β ∈ , vale
(αA + βB)∗ = αA∗ + βB ∗ ,
ou seja, ∗ é anti-linear.
5. Se A e B são operadores limitados agindo em H, então (AB)∗ = B ∗ A∗ .

∗
6. O operador identidade satisfaz = .
7. Se A tem uma inversa contı́nua, então A∗ também o tem e (A−1 )∗ = (A∗ )−1 .
2
Prova. Linearidade. Para todo α, β ∈ e todos y, y 0 ∈ H, temos pela definição
hA∗ (αy + βy 0 ), xi = hαy + βy 0 , Axi
= αhy, Axi + βhy 0 , Axi
= αhA∗ (y), xi + βhA∗ (y 0 ), xi
= hαA∗ (y) + βA∗ (y 0 ), xi, (23.24)
ou seja,
h [A∗ (αy + βy 0 ) − (αA∗ (y) + βA∗ (y 0 ))] , xi = 0,
para todo x ∈ H. Isso só é possı́vel se A∗ (αy + βy 0 ) − (αA∗ (y) + βA∗ (y 0 )) = 0, provando a linearidade.
Continuidade.
Para todo x ∈ H tem-se
kA∗ xk2 = hA∗ x, A∗ xi = hx, AA∗ xi ≤ kxk kAA∗ xk ≤ kxk kAk kA∗ xk.
Para x tal que A∗ x 6= 0, essa desigualdade diz (cancelando um fator kA∗ xk de cada lado) que
kA∗ xk ≤ kAk kxk.
Esta última desigualdade é, porém trivialmente verdadeira caso A∗ x = 0. Portanto, a mesma vale para
todo x, mostrando que A∗ é limitada e, assim, contı́nua. A mesma desigualdade mostra que
kA∗ xk
kA∗ k = sup ≤ kAk,
x6=0 kxk
o que mostra que

kA∗ k ≤ kAk. (23.25)
Prova de (A∗ )∗ = A.
Para todo x, y ∈ H tem-se
h(A∗ )∗ x, yi = hx, A∗ yi = hA∗ y, xi = hy, Axi = hAx, yi.
Assim,
h[A − (A∗ )∗ ]x, yi = 0
para todo x, y ∈ H, o que só é possı́vel se (A∗ )∗ = A, como querı́amos provar.
Prova de kA∗ k = kAk.
A relação (23.25) provou que para todo A limitado vale kA∗ k ≤ kAk. Como A∗ é também limitado,
vale também (substituindo A → A∗ ) que k(A∗ )∗ k ≤ kA∗ k, que significa que kAk ≤ kA∗ k. Isso, junto
com (23.25) implica kA∗ k = kAk, como querı́amos.
Prova de kA∗ Ak = kAk2 .
Para todo x ∈ H vale
kA∗ Axk ≤ kA∗ k kAxk ≤ kA∗ k kAk kxk = kAk2 kxk.
Assim,
kA∗ Axk
kA∗ Ak = sup ≤ kAk2 . (23.26)
x6=0 kxk
Por outro lado, para todo x ∈ H,
kAxk2 = hAx, Axi = hA∗ Ax, xi ≤ kA∗ Axk kxk ≤ kA∗ Ak kxk2 .
Assim, 2
kAxk kAxk2
2
kAk = sup = sup ≤ kA∗ Ak,
x6=0 kxk x6=0 kxk2
provando que kAk2 ≤ kA∗ Ak. Com (23.26) isso mostra que kA∗ Ak = kAk2 , como querı́amos.
A prova que (αA + βB)∗ = αA∗ + βB ∗ , assim como a prova que (AB)∗ = B ∗ A∗ são deixadas como
exercı́cio.
∗
Que = é elementar. Se A tem uma inversa contı́nua, então
∗
= = (A−1 A)∗ = A∗ (A−1 )∗
e
∗
= = (AA−1 )∗ = (A−1 )∗ A∗ ,
mostrando que (A−1 )∗ = (A∗ )−1 .
A existência do operador adjunto A∗ de um operador limitado A foi obtida acima com uso do
Teorema da Representação de Riesz e nesse caso obtemos um operador igualmente limitado e definido
em todo H. No caso em que A não é contı́nuo o argumento a ser seguido é um pouco diferente e só
pode fornecer o adjunto em um domı́nio menor que H. Há mesmo casos em que o domı́nio de A ∗ é
formado apenas pelo vetor nulo!
Outro advertência importante diz respeito à propriedade (A∗ )∗ = A, demonstrada acima para
operadores limitados. A mesma não é também, em geral, satisfeita para operadores não-limitados.
Esse fato é mais uma causa de transtorno técnico na teoria dos operadores não-limitados.
Por fim, mencionamos que a propriedade kAk2 = kA∗ Ak abre caminho para a importante teoria
das chamadas álgebras C∗ , sobre as quais falaremos adiante.
• Operadores Auto-adjuntos, Operadores Unitários e Operadores Normais
Um operador limitado A que satisfaça A = A∗ é dito ser auto-adjunto.

Se A é um operador limitado auto-adjunto vale
hx, Ayi = hAx, yi

para todos x, y ∈ H. Se A não é limitado, vimos pelo Teorema de Hellinger-Toeplitz (página 1040)
que uma relação dessas não pode ser satisfeita para todos x, y ∈ H. Em função disso será necessário
criar uma distinção entre operadores simétricos e operadores auto-adjuntos no contexto de operadores
não-limitados. Essa distinção é importante e há vários fenômenos fı́sicos associados a ela.
Qualquer operador limitado pode ser escrito como soma de dois operadores auto-adjuntos, a saber
A = Re(A) + iIm(A),
onde
1 1
Re(A) = (A + A∗ ) e Im(A) = (A − A∗ ).
2 2i
É trivial verificar que Re(A) e Im(A) são auto-adjuntos.
Um operador limitado A que satisfaça AA∗ = A∗ A é dito ser normal. É trivial verificar que um
operador A é normal se e somente se Re(A) e Im(A) comutarem entre si.
Um operador limitado A que satisfaça AA∗ = A∗ A = é dito ser unitário. Todo operador unitário
é normal.
É possı́vel mostrar que qualquer operador limitado pode ser escrito como soma de até quatro
operadores unitários.
• Autovalores e autovetores de operadores limitados. Multiplicidade de um autovalor
Um número λ ∈ é dito ser um autovalor de um operador limitado B agindo em um espaço de

Hilbert H se existir pelo menos um vetor não-nulo φ ∈ H tal que Bφ = λφ. Um tal vetor é dito ser
um autovetor de B com autovalor λ.
Em espaços de Hilbert dimensão finita, como n , todo operador, ou seja, toda matriz, possui
autovalores, pois o conjunto de autovalores coincide com o conjunto de raı́zes do polinômio caracterı́stico
da matriz. Esses fatos foram estudados com detalhe no Capı́tulo 3, página 141, ao qual remetemos os
estudantes interessados. É importante notar, porém, que em espaços de Hilbert de dimensão infinita
pode ocorrer de haver operadores limitados que não possuem autovalores, um exemplo, dentre muitos,
sendo o operador de Volterra W , tratado no Exemplo 23.6 à página 1111.
Um fato elementar sobre essas noções é o seguinte: se φ1 e φ2 são dois autovalores de operador
limitado B com o mesmo autovalor λ, então para quaisquer α1 , α2 ∈ o vetor α1 φ1 +α2 φ2 é igualmente
autovetor de B com autovalor λ. De fato, B(α1 φ1 + α2 φ2 ) = α1 Bφ1 + α2 Bφ2 = λ(α1 φ1 + α2 φ2 ). Assim,
reconhecemos que a coleção de todos os autovetores de B com autovalor λ gera um sub-espaço, que
denotaremos por Mλ , do espaço de Hilbert H em questão. Mais que isso, Mλ é um sub-espaço fechado
de H. Isso pode ser provado com a observação que se φn , n ∈ , é uma seqüência

de vetores de Mλ que
converge a φ ∈ H, então a continuidade de B diz-nos que Bφ = B lim φn = lim Bφn = λ lim φn =
n→∞ n→∞ n→∞
λφ, provando que φ ∈ Mλ . Para futura referência reunimos essas observações na seguinte proposição:
Proposição 23.6 Se B é um operador limitado agindo em um espaço de Hilbert H, e λ ∈ é um
autovalor de B, então a coleção de todos os autovetores de B com autovalor λ é um sub-espaço linear
fechado de H. 2
Se Mλ , o sub-espaço gerado pelos autovetores de B com autovalor λ, tiver dimensão finita, dizemos
que λ tem degenerescência finita. Nesse caso, define-se a multiplicidade (geométrica) de λ como sendo
a dimensão de Mλ .
• Autovalores e autovetores de operadores auto-adjuntos
Se A é um operador limitado e auto-adjunto agindo em espaços de Hilbert H (de dimensão finita

ou não) podem ser estabelecidas certas propriedades básicas sobre seus autovalores e autovetores (caso
existam), os quais estão resumidos na próxima proposição.
Proposição 23.7 Se A é um operador limitado e auto-adjunto agindo em um espaço de Hilbert H,
então seus autovalores (se existirem) são números reais. Fora isso, os autovetores associados a auto-
valores distintos de A são ortogonais entre si. 2
Prova. Se λ é um autovalor de A e v 6= 0 um autovetor de A com autovalor λ então, como A é

auto-adjunto, tem-se hv, AviH = hAv, viH . Como v é um autovetor, o lado esquerdo vale λhv, viH
e o lado direito vale λhv, viH . Dessa forma, (λ − λ)hv, viH = 0. Como v 6= 0 isso implica λ = λ,
ou seja, λ é real. Sejam agora λ1 e λ2 dois autovalores de A, que suporemos distintos. Seja v1
autovetor de A com autovalor λ1 e v2 autovetor de A com autovalor λ2 . Temos, por A ser auto-
adjunto, hv1 , Av2 iH = hAv1 , v2 iH . O lado esquerdo vale λ2 hv1 , v2 iH e o lado direito λ1 hv1 , v2 iH
(lembrar que λ1 é real). Assim, (λ2 − λ1 )hv1 , v2 iH = 0. Como λ2 6= λ1 , segue que hv1 , v2 iH = 0, que é
o que se queria provar.
• Autovalores e autovetores de operadores unitários
Para operadores unitários valem afirmações análogas.

Proposição 23.8 Se U é um operador unitário agindo em um espaço de Hilbert H, então seus au-
tovalores (se existirem) são números complexos de módulo 1. Fora isso, os autovetores associados a
autovalores distintos de U são ortogonais entre si. 2
Prova. Seja U unitário, λ um autovalor de U e v 6= 0 um autovetor de U com autovalor λ. Como

U é unitário tem-se hU v, U viH = hv, U ∗ U viH = hv, viH . Como v é um autovetor, o lado esquerdo
vale λλhv, viH . Assim, (|λ|2 − 1)hv, viH = 0. Como v 6= 0 isso implica |λ| = 1. Sejam agora λ1 e λ2
dois autovalores distintos de U e sejam v1 autovetor de U com autovalor λ1 e v2 autovetor de U com
autovalor λ2 . Temos, por U ser unitário, hU v1 , U v2 iH = hv1 , U ∗ U v2 iH = hv1 , v2 iH . O lado esquerdo
vale λ1 λ2 hv1 , v2 iH = λλ21 (lembre-se que λ1 é um número complexo de módulo 1 e, portanto λ1 = λ−1 1 ).

Assim, λλ21 − 1 hv1 , v2 iH = 0. Como λ2 6= λ1 , segue que hv1 , v2 iH = 0, que é o que se queria provar.
• Sub-espaços invariantes
Seja H um espaço de Hilbert e seja M um sub-espaço de H. Se A e um operador limitado agindo

em H, dizemos que M é invariante pela ação de A se Aφ ∈ M para todo φ ∈ M. Com essa definição
vale a seguinte proposição importante.
Proposição 23.9 Se um sub-espaço M é invariante pela ação de um operador A ∈ B(H), então M ⊥
é invariante pela ação de A∗ . 2
Prova. Se φ e ψ são dois vetores arbitrários tais que φ ∈ M e ψ ∈ M⊥ então hA∗ ψ, φi = hψ, Aφi = 0,
pois Aφ ∈ M, por hipótese. Logo, A∗ ψ é ortogonal a todo vetor φ ∈ M, o que equivale a dizer que
A∗ ψ ∈ M⊥ . Como ψ é um vetor arbitrário de M⊥ , segue que M⊥ é invariante por A∗ .
O seguinte corolário evidente será repetidamente empregado.

Corolário 23.2 Se um sub-espaço M de um espaço de Hilbert H é invariante pela ação de um operador
auto-adjunto A ∈ B(H), então M⊥ é igualmente invariante pela ação de A. 2
• Projetores e Projetores Ortogonais
Um operador linear P agindo em um espaço de Hilbert H é dito ser um projetor se P 2 = P e é dito

ser um projetor ortogonal se for um projetor e se for auto-adjunto: P = P ∗ .
Um exemplo importante de projetor ortogonal é representado por projetores sobre sub-espaços uni-
dimensionais
p gerados por vetores. Seja v um vetor cuja norma assumiremos ser 1, ou seja, kvk =
hv, vi = 1. Definimos o projetor Pv sobre o sub-espaço gerado por v por
Pv u := hv, ui v,
para todo vetor u ∈ H. Que Pv é um projetor ortogonal foi demonstrado no caso de espaços vetoriais
de dimensão finita à página 179 e seguintes e como a demonstração geral é idêntica (e elementar), não
iremos repetı́-la aqui. Um fato crucial sobre projetores como Pv é o seguinte. Se u e v são dois vetores
ortogonais, ou seja, se hu, vi = 0 então Pu Pv = Pv Pu = 0. Novamente a prova (elementar) encontra-se
à página 179 e seguintes.
A definição do projetor ortogonal Pv , acima, pode ser generalizada. Seja M um sub-espaço fechado
de um espaço de Hilbert H. Pelo Teorema da Decomposição Ortogonal, Teorema 22.2, página 991,
todo vetor ψ ∈ H pode ser escrito na forma ψ = ψM + ψM⊥ , com ψM ∈ M e ψM⊥ ∈ M⊥ . Definimos,
então, o projetor PM sobre sub-espaço fechado M por PM ψ := ψM . É elementar provar que PM , assim
definido, satisfaz (PM )2 = PM e (PM )∗ = PM , ou seja, é um projetor ortogonal. É também fácil provar
que todo projetor ortogonal em um espaço de Hilbert H é da forma PM para algum sub-espaço fechado
M de H. Para ver isso, basta provar que a imagem de qualquer projetor ortogonal é um sub-espaço
fechado de H.
E. 23.15 Exercı́cio. Demonstre as afirmações do último parágrafo. 6
• O Adjunto em Espaços de Banach

Faremos aqui uma breve menção ao fato que o conceito de adjunto de operadores possui uma
generalização para operadores contı́nuos agindo em espaços de Banach, em geral.
Seja X um espaço de Banach e X † = B(X, ) seu dual topológico que, como já observamos na
|l(x)|
seção 23.1.2, é um espaço de Banach com norma klkX † = sup , l ∈ X †.
x∈X, x6=0 kxkX
Sejam X e Y espaços de Banach e T : X → Y um operador limitado agindo entre X e Y . Definimos

seu dual T 0 como sendo o operador T 0 : Y † → X † definido da seguinte forma: para l ∈ Y † , T l0 é o
funcional linear contı́nuo definido de tal forma que a cada x ∈ X associa o número complexo l(T x):
(T 0 l)(x) = l(T x).
Que T 0 é limitado segue da desigualdade |(T 0 l)(x)| = |l(T x)| ≤ klkY † kT xkY ≤ klkY † kT kkxkX , que
implica
0 |(T 0 l)(x)|
kT lkX † = sup ≤ kT k klkY † .
x∈X, x6=0 kxkX
Em particular, isso diz-nos que
kT 0 lkX †
kT 0 k = sup ≤ kT k . (23.27)
l∈Y † , l6=0 klkY †
A linearidade de T 0 é também fácil de constatar, pois, para quaisquer l, l 0 ∈ Y † , α, β ∈ ,
(T 0 (αl +βl0 ))(x) = (αl +βl0 )(T x) = αl(T x)+βl0 (T x) = α(T 0 l)(x)+β(T 0 l0 )(x) = (αT 0 l +βT 0 l0 )(x),
mostrando que T 0 (αl + βl0 ) = αT 0 l + βT 0 l0 .

O assim definido operador linear limitado T 0 ∈ B(Y † , X † ) é denominado adjunto de T .
Com uso do Teorema de Hahn-Banach é possı́vel mostrar que kT 0 k = kT k. De fato, pela Proposição
23.4, página 1030, sabemos que existe para cada x0 ∈ X um lT x0 ∈ Y † com klT x0 kY † = 1 e tal que
lT x0 (T x0 ) = kT x0 kY . Assim,
kT 0 lT x0 kX † |(T 0 lT x0 )(x)| |(T 0 lT x0 )(x0 )| |lT x0 (T x0 )| kT x0 kY

= kT 0 lT x0 kX † = sup ≥ = = ,
klT x0 kY † x∈X, x6=0 kxkX kx0 kX kx0 kX kx0 kX
(23.28)
Isso implica que
kT 0 lkX † kT 0 lT x0 kX † (23.28) kT x0 kY
kT 0 k = sup ≥ ≥
l∈Y † , l6=0 klkY † klT x0 kY † kx0 kX
para cada x0 ∈ X. Logo,
kT x0 kY
kT 0 k ≥ sup =: kT k .
x0 ∈X, x0 6=0 kx0 kX
Junto com (23.27), isso implica kT 0 k = kT k.

Para futura referência coletamos os fatos provados acima na seguinte proposição:
Proposição 23.10 Sejam X e Y dois espaços de Banach e T : X → Y um operador linear e limitado:

T ∈ B(X, Y ). Então, T 0 : Y † → X † , o chamado adjunto de T , definido por
(T 0 l)(x) = l(T x)
para l ∈ Y † e x ∈ X, é igualmente um operador linear e limitado, ou seja, T 0 ∈ B(Y † , X † ) e satisfaz

kT 0 k = kT k. 2
No caso em que X = Y = H, onde H é um Hilbert, há uma distinção sutil entre T 0 e T ∗ . O primeiro
é uma aplicação de H† em H† enquanto que o segundo é uma aplicação de H em H. A relação entre
ambos é estabelecida pela aplicação R : H† → H, definida em (23.5), página 1022. Tem-se, a saber,
T 0 = R−1 T ∗ R.
A aplicação T → T 0 é sempre linear enquanto que, no caso de espaços de Hilbert, a aplicação

T → T ∗ é anti-linear. Isso está de acordo com T 0 = R−1 T ∗ R, pois R−1 é também anti-linear.
• A Norma de Operadores Auto-Adjuntos Limitados
Há um fato especial sobre a norma de operadores auto-adjuntos limitados agindo em um espaço de
Hilbert do qual faremos uso repetido no que seguirá.
Teorema 23.12 Se T é um operador auto-adjunto limitado em um espaço de Hilbert H então
|hφ, T φi|
kT k = sup = sup |hφ, T φi|. (23.29)
φ∈H, φ6=0 kφk2 φ∈H, kφk=1
Prova. Se x, y ∈ H, tem-se hx, T yi = hT x, yi = hy, T xi. Logo,
h(x + y), T (x + y)i = hx, T xi + hx, T yi + hy, T xi + hy, T yi = hx, T xi + 2Re(hx, T yi) + hy, T yi,
h(x − y), T (x − y)i = hx, T xi − hx, T yi − hy, T xi + hy, T yi = hx, T xi − 2Re(hx, T yi) + hy, T yi.
Dessas duas expressões conclui-se que
4Re(hx, T yi) = h(x + y), T (x + y)i − h(x − y), T (x − y)i. (23.30)
Definindo-se
|hφ, T φi|
T = sup
φ∈H, φ6=0 kφk2
é claro que
|hφ, T φi| ≤ Tkφk2
para todo φ ∈ H. Retornando à (23.30), tem-se
4|Re(hx, T yi)| ≤ |h(x+y), T (x+y)i|+|h(x−y), T (x−y)i| ≤ T(kx+yk2 +kx−yk2 ) = 2T(kxk2 +kyk2 ).
Na última igualdade usamos a identidade do paralelogramo (2.20), página 124.
Substituindo y por λy, com λ ∈ e |λ| = 1, a última desigualdade fica
1
|Re(λhx, T yi)| ≤ T(kxk2 + kyk2 ).
2
Podemos escolher λ de modo que λhx, T yi = |hx, T yi| (por que?). Assim, ficamos com
1
|hx, T yi| ≤ T(kxk2 + kyk2 ).
2
kyk
Vamos provisoriamente supor que kT yk 6= 0. Escolhendo x = T y, a última desigualdade fica
kT yk
1
kT yk kyk ≤ T(kyk2 + kyk2 ) = Tkyk2 ,
2
ou seja,
kT yk ≤ Tkyk.
Como essa desigualdade vale trivialmente caso kT yk = 0, a mesma deve valer para todo y ∈ H.
Claramente isso diz que
kT k ≤ T. (23.31)
Por outro lado, tem-se pela desigualdade de Cauchy-Schwarz que, para todo φ ∈ H,
|hφ, T φi| ≤ kφk kT φk ≤ kT k kφk2.
Logo,
|hφ, T φi|
T = sup ≤ kT k.
φ∈H, φ6=0 kφk2
Comparando essa desigualdade a (23.31), concluı́mos que kT k = T, que é o que querı́amos provar.
23.3 Álgebras de Banach e Álgebras C∗
23.3.1 Álgebras de Banach
• Álgebras Associativas
Uma álgebra sobre o corpo dos complexos é um espaço vetorial A sobre o corpo dotado de uma
operação de produto binária “·” dita produto da álgebra, de modo que as seguintes propriedades são
satisfeitas
1. O produto da álgebra é distributivo em relação a soma vetorial: para todos a, b e c ∈ A valem
a · (b + c) = a · b + a · c e (a + b) · c = a · c + b · c.
2. O produto por escalares comuta com o produto da álgebra e é distributivo em relação a ele: para
todos a, b ∈ V e α ∈ vale
α(a · b) = (αa) · b = a · (αb).
Uma álgebra A é dita ser uma álgebra comutativa se para todos a, b ∈ A tivermos
a · b = b · a.
Uma álgebra é dita ser uma álgebra associativa se para todos a, b e c ∈ A tivermos
a · (b · c) = (a · b) · c.
Se A é uma álgebra associativa, podemos sem ambigüidade denotar o produto de dois de seus
elementos a, b ∈ A simplesmente por por ab.
• Álgebras com Involução
Uma álgebra associativa sobre o corpo dos complexos A é dita ter uma involução se existir uma
operação unária ∗ : A → A, que para todo a ∈ A associa um elemento denotado por a ∗ ∈ A, com as
1. (a∗ )∗ = a para todo a ∈ A.
2. (ab)∗ = b∗ a∗ para todos a, b ∈ A.
3. (αa + βb)∗ = αa∗ + βb∗ para todos α, β ∈ e todos a, b ∈ A.

∗
4. Se a álgebra possuir uma unidade = .
Álgebras que possuem uma involução são ditas ser involutivas ou álgebras A ∗ .
A operação de adjunção para operadores limitados em espaços de Hilbert é a inspiração da definição
de involução. Vamos a outros exemplos. Seja A = C( , ) a álgebra das funções contı́nuas →

com o produto usual: (f g)(x) = f (x)g(x). É fácil ver que f 7→ f ∗ dada por f ∗ (x) = f (x) define uma
involução. A aplicação f 7→ f ∗ dada por f ∗ (x) = f (−x) também define uma involução.
Seja A = C( , ) ⊕ C( , ) com o produto (f (x), g(x)) · (l(x), m(x)) = (f (x)l(x), g(x)m(x)).
A aplicação (f, g) 7→ (f, g) = (f , g) é uma involução. A aplicação (f, g) 7→ (f, g)∗ = (g, f )
∗
é também uma involução. A aplicação (f (x), g(x)) 7→ (f (x), g(x))∗ = (g(−x), f (−x)) é igualmente
uma involução.

Seja A = B(H), a álgebra dos operadores limitados agindo em um espaço de Hilbert H e seja
d ∈ B(H) tal que d2 = e d = d∗ , onde d∗ é a adjunta usual de d. Então A 3 a 7→ a† := d∗ a∗ d define
uma involução em A.
• Álgebras de Banach
Uma álgebra de Banach B é um espaço de Banach, portanto um espaço vetorial normado e completo
em relação a essa norma, dotado de um produto associativo para o qual valha kxyk ≤ kxkkyk para
todos x, y ∈ B. Fora isso, se a álgebra possuir uma unidade , requeremos também que k k = 1.
• Álgebras de Banach-∗
Uma álgebra de Banach B com involução é dita ser uma álgebra de Banach-∗, ou uma álgebra B ∗ ,
se a involução e a norma satisfizerem kak = ka∗ k para todo a ∈ B.
Note-se que se A é uma álgebra B ∗ vale ka∗ ak ≤ ka∗ k kak = kak2
• Álgebras C∗
Uma álgebra C é dita ser uma álgebra C∗ se for uma álgebra de Banach-∗ com a propriedade
adicional que ka∗ ak = kak2 para todo a ∈ C. Essa propriedade é denominada propriedade C∗ .
Exemplo. Em função do Teorema 23.11, página 1042, toda álgebra B(H) é uma álgebra C ∗ com
unidade.
Exemplo. Mostraremos no Corolário 23.13, página 1105, que o conjunto dos operadores compactos
agindo em um espaço de Hilbert H é também uma álgebra C∗ , sem unidade caso H não tenha dimensão
finita.
O estudo de propriedades de álgebras C∗ é de grande importância para a compreensão da álgebra
de operadores limitados em espaços de Hilbert. Adiante teremos a oportunidade de explicitar isso.
Também na Fı́sica Quântica álgebras C∗ desempenham um papel fundamental. Vide [49] ou a discussão
que segue o Teorema Espectral.
• Continuidade de operações algébricas em álgebras de Banach
Se B é uma álgebra de Banach e wn é uma seqüência em B que converge em norma a w ∈ B,

então é elementar provar que para todo v ∈ B tem-se lim (v + wn ) = v + lim wn . Isso estabelece
n→∞ n→∞
que a soma é uma operação contı́nua em B na topologia induzida pela norma de B. É igualmente
fácil provar que a multiplicação por escalares é uma operação contı́nua em B na topologia induzida
pela norma de B. Provemos também que o produto (à esquerda ou à direita) é contı́nuo, ou seja,
que lim (vwn ) = v lim wn . Para tal, observemos que vwn = v(wn − w) + vw para todo n. Assim,
n→∞ n→∞
lim (vwn ) − vw = lim v(wn − w). Agora, kv(wn − w)k ≤ kvk kwn − wk → 0 para n → ∞. Logo,
n→∞ n→∞
lim v(wn − w) = 0 e, portanto, lim (vw) = vw = v lim wn .
n→∞ n→∞ n→∞
Se B é uma álgebra de Banach-∗, então também a involução é contı́nua na topologia induzida pela
norma de B, como é elementar de se provar, pois se wn é uma seqüência em B que converge
∗ em norma
a w ∈ B, então kwn∗ − w ∗ k = k(wn − w)∗ k = kwn − wk → 0 para n → ∞. Assim, lim wn = lim wn∗ ,
n→∞ n→∞
o que estabelece a continuidade da involução.
Para futura referência, reunimos as observações acima na seguinte proposição.
Proposição 23.11 Se B é uma álgebra de Banach com norma k·k então as operações de soma, produto
por escalares e produto (à esquerda ou à direita) são contı́nuas na topologia induzida pela norma. Se
B é uma álgebra de Banach-∗ então também a involução é contı́nua na topologia induzida pela norma.
2
O leitor não deve aborrecer-se com a aparente trivialidade das asserções acima, pois há topologias
em álgebras de Banach nas quais o produto e a involução não são contı́nuas! Para tais topologias todo
o cuidado é necessário.
23.3.2 A Inversa de Operadores Limitados

No intuito de preparar a futura discussão sobre o noção de espectro de operadores em espaços de Banach,
façamos aqui alguns comentários relativos à noção de inversa de operadores em espaços vetoriais e, em
particular, em espaços de Banach.
• Recordando alguns fatos gerais e um pouco de notação
Se V e W são espaços vetoriais e A : V → W é uma aplicação linear, definimos
Ker (A) := {v ∈ V| Av = 0} ,
Ran (A) := {w ∈ W| w = Av para algum v ∈ V} .
Ker (A) é denominado núcleo de A e Ran (A) é denominado a imagem ou alcance (= “range”) de A.
Dizemos que A possui um núcleo trivial se Ker (A) = {0}. Não custa lembrar também que se V e W são
espaços vetoriais e A : V → W é uma aplicação linear então A é injetora se e somente se Ker (A) = {0}
e A é sobrejetora se e somente se Ran (A) = W. Logo, A é bijetora se e somente se Ker (A) = {0} e
Ran (A) = W. Caso A seja bijetora denotaremos, como sempre, por A−1 : W → V a aplicação inversa
de A. É elementar mostrar que A−1 é também linear.
A seguinte proposição elementar é importante e será implicitamente empregada no que segue.
Proposição 23.12 Seja V um espaço vetorial e seja A : V → V uma aplicação linear. Então A é
bijetora se e somente se existir uma aplicação linear B : V → V tal que AB = e BA = . Se uma
tal B existir, será única.
Prova. Se A é bijetora a aplicação inversa A−1 faz o serviço desejado. Suponhamos agora que exista
B como acima. Se A não é injetora, então existem x, y ∈ V distintos com Ax = Ay. Aplicando B à
esquerda e usando BA = , concluı́mos que x = y, uma contradição. Se A não é sobrejetora, existe
x ∈ V tal que Ay − x 6= 0 para todo y ∈ V. Se assim é, tomemos y = Bx. Concluirı́amos de AB =

que 0 6= ABx − x = x − x, um absurdo. A unicidade de B segue da observação que se B 0 : V → V
for também tal que AB 0 = e B 0 A = , então aplicando B à esquerda na primeira relação e usando a
associatividade teremos B = B(AB 0 ) = (BA)B 0 = B 0 = B 0 .
Um comentário pertinente à Proposição 23.12 é o seguinte. No espaço vetorial de dimensão finita

V = n , a relação AB = implica BA = (A e B sendo aqui elementos de Mat ( , n)). Em espaços
de dimensão infinita, porém, isso não é sempre verdade e é preciso requerer tanto AB = quanto
BA = da inversa de A. Como exemplo, considere-se o espaço vetorial S( ) de todas as seqüências de
números complexos (vide Seção 13.4.1, página 750). Defina-se A : S( ) → S( ) e B : S( ) → S( )
por
A(a1 , a2 , a3 , a4 , a5 , . . .) = (0, a1 , a2 , a3 , a4 , . . .) ,
B(a1 , a2 , a3 , a4 , a5 , . . .) = (a2 , a3 , a4 , a5 , a6 , . . .) .
Então,
BA(a1 , a2 , a3 , a4 , a5 , . . .) = (a1 , a2 , a3 , a4 , a5 , . . .) ,
AB(a1 , a2 , a3 , a4 , a5 , . . .) = (0, a2 , a3 , a4 , a5 , . . .) ,
provando que BA = mas AB 6= .
• Fatos gerais sobre a inversa de operadores em B(X)
Vamos analisar as várias situações que podem ocorrem com operadores limitados agindo em um
espaço de Banach X no que concerne a sua invertibilidade ou não-invertibilidade. Naturalmente, um
operador limitado V ∈ B(X) agindo em um espaço de Banach X pode ser bijetor ou não e, se não o
for, vários sub-casos são possı́veis. Temos o seguinte quadro:
1. V é bijetor.
Se V ∈ B(X) é um operador limitado e é bijetor então, pelo Teorema da Aplicação Inversa,
Teorema 23.8, página 1038, V −1 é igualmente um elemento de B(X).
2. V não é bijetor.
Se V ∈ B(X) não é bijetor, então ou V não é injetor ou não é sobrejetor (ou ambos).
(a) V não é injetor.

Se V não é injetor, então Ker (V ), possui pelo menos um vetor não-nulo e V −1 não existe
enquanto operador agindo Ran (V ).
(b) V não é sobrejetor mas é injetor.
Se V não é sobrejetor, podem ocorrer duas coisas: ou Ran (V ) é denso em X ou não é.
i. Ran (V ) é denso em X.
Se Ran (V ) é denso em X e V é injetor, então V : X → Ran (V ) é bijetor e, portanto,
possui uma inversa V −1 : Ran (V ) → X. Essa inversa, porém, não pode ser limitada,
como mostra o seguinte argumento. Se o fosse, V −1 poderia ser estendido (pelo Teorema
BLT, Teorema 23.1, página 1017) ao fecho de Ran (V ), que é X, por hipótese. Denotemos
por W essa extensão. Como a imagem dessa extensão e a de V −1 são todo X, essa
extensão não pode ser injetora e, portanto, não é a inversa de um operador. Ocorre,
porém, que pela definição de W dada pelo Teorema BLT, vale para todo x ∈ X que
W x = limy→x
V −1 y. Assim, como V é contı́nuo,
y∈Ran(V )
V Wx = V lim
y→x
V −1 y = lim
y→x
V V −1 y = lim
y→x
y = x.
y∈Ran(V ) y∈Ran(V ) y∈Ran(V )
Além disso, como W estende V −1 , a qual é definida em Ran (V ), tem-se igualmente

W V x = V −1 V x = x para todo x ∈ X. Isso diz-nos que V é a inversa de W em todo X,
Assim, se Ran (V ) é denso em X e V é injetor então V −1 : Ran (V ) → X existe mas não
é limitada.
ii. Ran (V ) não é denso em X.
Resta ainda o caso em que Ran (V ) não é denso em X. Aqui, podemos ter V injetora
ou não. Se V não for injetora, então V possui núcleo não-trivial e V −1 não pode ser
definida em Ran (V ). Se V for injetora, então V não possui um autovetor não-nulo com
autovalor 0 e V −1 pode ser definida em Ran (V ).
(c) V não é sobrejetor nem injetor.
Aqui estamos de volta ao caso 2a e V −1 não existe em Ran (V ).
Resumindo, temos as seguintes conclusões:

Teorema 23.13 Se V ∈ B(X) é um operador limitado agindo em um espaço de Banach X, tem-se as
seguintes situações mutuamente excludentes:
1. V é bijetor e V −1 existe em todo X e é limitado.
2. V não é bijetor, e tem-se os seguintes sub-casos:
(a) V não é injetor, Ker (V ) é não-trivial e V −1 não pode ser definida em Ran (V ).
(b) V é injetor e não é sobrejetor, Ran (V ) é denso em X e Ker (V ) = {0}, sendo que V −1 :
Ran (V ) → X existe mas não é limitada.
(c) V é injetor e não é sobrejetor, Ran (V ) não é denso em X e Ker (V ) = {0}, sendo que
V −1 : Ran (V ) → X existe, podendo ser limitada ou não. 2
A proposição seguinte é também relevante e será empregada quando da discussão sobre o espectro
de operadores auto-adjuntos em espaços de Hilbert.
Proposição 23.13 Se V ∈ B(X) é um operador limitado agindo em um espaço de Banach X tal que
V −1 : Ran (V ) → X existe e é limitada, então Ran (V ) é um sub-espaço fechado de X. 2
Prova. Seja yn = V xn , n ∈ uma seqüência em Ran (V ) que converge a y ∈ X. Temos que xn = V −1 yn .

Assim, kxn −xm k ≤ kV −1 k kyn −ym k. Como yn é uma seqüência convergente, é de Cauchy e, pela última
desigualdade, xn também o é. Seja x ∈ X o limite da seqüência xn . Temos que y−V x = y−yn +V xn −V x
para todo n ∈ e, portanto, ky −V xk ≤ ky −yn k+kV k kxn −xk. Agora, tomando n → ∞ e lembrando

que yn → y e xn → x, concluı́mos que ky − V xk = 0, ou seja, y = V x, o que prova que y ∈ Ran (V ).

Isso demonstra que Ran (V ) é fechado.
A Proposição 23.13 diz-nos que no item 2c do Teorema 23.13, Ran (V ) será um sub-espaço fechado
próprio de X caso V −1 seja limitada.
• A inversa em álgebras de Banach
Vários resultados gerais sobre a inversa de operadores podem ser estabelecidos no contexto geral
de álgebras de Banach com unidade, para então particularizarem-se para álgebras como como B(X) ou
B(H), que são de álgebras Banach de operadores, com unidade, agindo em espaços de Banach ou de
Hilbert. Nas páginas que seguem trataremos dessa análise geral para depois estudarmos aqueles casos
particulares.
Seja doravante B uma álgebra de Banach com unidade. Um elemento w ∈ B é dito ser invertı́vel se
existir v ∈ B tal que vw = wv = . Se um tal v existe ele é único, como mostra o seguinte argumento
elementar: se v 0 também satisfaz = v 0 w = wv 0 , então, multiplicando-se à direita por v e usando-se
a associatividade, teremos v = (v 0 w)v = v 0 (wv) = v 0 = v 0 . Se v satisfaz vw = wv = , é dito ser a
inversa ou elemento inverso de w e é denotado por w −1 .
Se B uma álgebra de Banach com unidade e w ∈ B é invertı́vel então, w −1 w = ww −1 = implica,
∗ ∗
tomando-se o adjunto, w ∗ (w −1 ) = (w −1 ) w ∗ = , o que significa que w ∗ é também invertı́vel e vale
∗
(w ∗ )−1 = w −1 . (23.32)
Pela Proposição 23.12, acima, no caso da álgebra de Banach-∗ B(X), dos operadores lineares
contı́nuos agindo em um espaço de Banach X, a noção de invertibilidade acima coincide coma usual.
Vamos designar por Inv (B) o conjunto dos elementos invertı́veis de uma álgebra de Banach com
unidade B. É bastante evidente que Inv (B) é um grupo com relação a operação de produto em B. Em
verdade, trata-se de um grupo contı́nuo como mostraremos mais adiante.
Na teoria de operadores é muito importante conhecer condições suficientes que garantam a inver-
tibilidade de operadores. No contexto de álgebras de Banach com unidade a seguinte proposição é
fundamental.
Proposição 23.14 Seja B uma álgebra de Banach com unidade. Então, para todo w ∈ B com kwk < 1
existe ( − w)−1 , a saber, dado por
∞
X
−1
( − w) := + wk , (23.33)
k=1
sendo que a série ao lado direito converge na norma de B. A série em (23.33) é denominada série de
Neumann12 . 2
n
Prova. Provemos primeiramente que a série de Neumann converge. Se sn := + Σ w k , então, para
k=1
n
k
m < n vale sn − sm = Σ w . Logo,
k=m+1
n
X n
X n−m−1
X ∞
X
k k m+1 k m+1 kwkm+1
ksn − sm k ≤ kw k ≤ kwk = kwk kwk ≤ kwk kwkk = .
k=m+1 k=m+1 k=0 k=0
1 − kwk
∞
1
A série numérica Σ kwkk converge a 1−kwk
pois kwk < 1. Por essa mesma razão, é claro que kwkm+1
k=0
pode ser feito menor que qualquer > 0 prescrito, desde que m seja grande o suficiente. Isso provou
que sn , n ∈ é uma seqüência de Cauchy na norma de B e, portanto, converge. Seja, v ∈ B o seu

limite. Teremos
n
! n n
!
X X X
k k+1 k n+1
wv = w + w lim w = w + lim w = w + lim w +w −w
n→∞ n→∞ n→∞
k=1 k=1 k=1
n
X
n+1
= lim w + lim wk = v − ,
n→∞ n→∞
k=1
onde acima usamos a continuidade do produto em B (Proposição 23.11, página 1053) e o fato que
lim w n+1 = 0, pois kw n+1 k ≤ kwkn+1 → 0 para n → ∞, pois kwk < 1. Logo, ( −w)v = v−(v− ) = .
n→∞
Analogamente,
n
! n n
!
X X X
vw = w + lim wk w = w + lim w k+1 = w + lim w k + w n+1 − w
n→∞ n→∞ n→∞
k=1 k=1 k=1
n
X
n+1
= lim w + lim wk = v − ,
n→∞ n→∞
k=1
e concluı́mos que v( − w) = v − (v − ) = . Isso completa a demonstração.
O seguintes fato será utilizado adiante.

Proposição 23.15 Se B é álgebra de Banach com unidade e u, v ∈ B, então − uv ∈ Inv (B) se e
somente se − vu ∈ Inv (B). 2
12
Prova. Se − uv ∈ Inv (B) e w = ( − uv)−1 , é elementar constatar que ( − vu)( + vwu) = =

( + vwu)( − vu), pois
( − vu)( + vwu) = − vu + vwu − vuvwu = − vu + v ( − uv)w u = − vu + vu = ,

| {z }
=
( + vwu)( − vu) = − vu + vwu − vwuvu = − vu + v w( − uv) u = − vu + vu = ,

| {z }
=
o que mostra que − vu ∈ Inv (B) com ( − vu)−1 = ( + vwu). A recı́proca é evidente.
• Propriedades topológicas do grupo dos operadores invertı́veis
A Proposição 23.14 tem um corolário que usaremos oportunamente, o qual afirma que elementos de
uma álgebra de Banach que estejam suficientemente próximos de um elemento invertı́vel são também
invertı́veis.
Corolário 23.3 Seja B uma álgebra de Banach com unidade e seja w um elemento invertı́vel de B.
Suponhamos que v ∈ B seja tal que k − vw −1 k < 1, o que ocorre, por exemplo, se kv − wk < kw −1 k−1 .
Então v é invertı́vel e !
X∞
k
v −1 = w −1 + − vw −1 ,
k=1
sendo a série do lado direito convergente na norma de B. 2
Prova. Tem-se v = v −w +w = ( −(w −v)w −1 )w. Pela Proposição 23.14, −(w −v)w −1 será invertı́vel
se k(w − v)w −1 k < 1. Como k(w − v)w −1 k ≤ kw − vk kw −1 k, isso será satisfeito se kv − wk < kw −1 k−1 .
Teremos então, novamente pela Proposição 23.14,
∞
! ∞
!
X X k
v −1 = w −1 ( − (w − v)w −1 )−1 = w −1 + [(w − v)w −1 ]k = w −1 + − vw −1 .
k=1 k=1
Disso é imediato o seguinte fato:

Corolário 23.4 Seja B uma álgebra de Banach com unidade. Então o grupo Inv (B) dos elementos
invertı́veis de B é um subconjunto aberto de B. 2
Para estabelecermos que Inv (B) é também um grupo contı́nuo usaremos o fato descrito na pro-
posição seguinte.
Proposição 23.16 Seja B uma álgebra de Banach com unidade. Então, a aplicação que a cada w ∈
Inv (B) associa sua inversa w −1 é contı́nua na topologia da norma de B. 2
Prova. Seja v ∈ Inv (B) fixado e tomemos u ∈ Inv (B) tal que ku − vk < com > 0 escolhido pequeno
o suficiente de modo que kv −1 k < 1. Que tal é possı́vel garante-nos o Corolário 23.4. É claro que
−1
u = v + (u − v) = v( + v −1 (u − v)), de maneira que u−1 = [ + v −1 (u − v)] v −1 . Logo,
n −1 o
−1 −1 −1
u −v = + v (u − v) − v −1 .
Assim, como pela escolha de temos kv −1 (u − v)k ≤ kv −1 k < 1, podemos por (23.33) escrever
" ∞ #
X m
u−1 − v −1 = (−1)m v −1 (u − v) v −1 .
m=1
Tem-se, então,
" ∞
# " ∞
#
X X m kv −1 k2
ku−1 − v −1 k ≤ kv −1 km ku − vkm kv −1 k ≤ kv −1 k kv −1 k = .
m=1 m=1
1 − kv −1 k
Portanto, ku−1 − v −1 k → 0 quando ku − vk → 0, provando a continuidade da operação de inversão.
Das Proposições 23.16 e 23.11 concluı́mos:

Proposição 23.17 Se B é álgebra de Banach com unidade então Inv (B) é um grupo contı́nuo na
topologia induzida em Inv (B) pela norma de B. 2
23.3.3 O Espectro de Operadores em Álgebras de Banach

Na presente seção apresentaremos a noção de espectro de operadores em álgebras de Banach. Todos
os desenvolvimentos que seguem terão importância para as seções posteriores. Façamos notar o leitor
que alguns dos resultados que apresentaremos são gerais, sendo válidos em quaisquer álgebras de
Banach, outros são especı́ficos de álgebras C∗ . A presente seção é introdutória ao estudo do espectro
de operadores agindo em espaços de Banach e de Hilbert que empreenderemos na Seção 23.5, página
1091.
• A noção de espectro de operadores em álgebras de Banach
Se B é álgebra de Banach com unidade e u ∈ B, denotamos por ρ(u) o chamado conjunto resolvente
de u, definido por ρ(u) := {λ ∈ | λ − u ∈ Inv (B)}. O chamado espectro de u, denotado por σ(u), é
definido por
σ(u) := {λ ∈ | λ − u 6∈ Inv (B)} ,
ou seja, σ(u) = \ ρ(u).
• Fatos básicos sobre o espectro de operadores em álgebras de Banach e Banach-∗
Uma conseqüência imediata da Proposição 23.15 é o seguinte:

Proposição 23.18 Se B é uma álgebra de Banach com unidade e u, v ∈ B, então σ(uv) \ {0} =
σ(vu) \ {0}, ou seja, o espectro de uv pode diferir do de vu apenas no conjunto {0}. 2
Prova. Se λ 6= 0, então (λ − uv) = λ( − λ−1 uv), que pela Proposição 23.15, página 1057, é invertı́vel
se e somente se λ( − λ−1 vu) o for.
Uma conseqüência imediata é o seguinte corolário, o qual revela uma propriedade de invariância do
espectro.
Corolário 23.5 Se B é uma álgebra de Banach com unidade e u, v ∈ B com u ∈ Inv (B), então
σ (uvu−1 ) = σ(v). 2
Prova. Pela Proposição 23.18, é imediato que σ (uvu−1 ) \ {0} = σ(v) \ {0}. Agora, 0 6∈ ρ(v) se e
somente se v 6∈ Inv (B). Assim, 0 ∈ σ(v) se e somente se v ∈ Inv (B). Mas, v ∈ Inv (B) se e somente se
uvu−1 ∈ Inv (B) o que, por sua vez ocorre se e somente se 0 ∈ σ(uvu−1 ). Logo, 0 ∈ σ(v) se e somente
se 0 ∈ σ(uvu−1 ).
As duas proposições que seguem serão repetidamente empregadas.

Proposição 23.19 Seja B uma álgebra de Banach com unidade e u ∈ Inv (B) um elemento invertı́vel
de B. Então,
σ u−1 = {λ ∈ | λ−1 ∈ σ(u)} .
2
Prova da Proposição 23.19. Se u é invertı́vel, então 0 ∈ ρ(u), ou seja, 0 6∈ σ(u). É também claro que
para λ 6= 0 (λ − u) = −λu (λ−1 − u−1 ), o que claramente mostra que λ ∈ σ(u) se e somente se
λ−1 ∈ σ (u−1 ).
Denotaremos σ(u)−1 := {λ ∈ | λ−1 ∈ σ(u)}. O que a proposição acima afirma é que se u ∈ Inv (B),
então σ (u−1 ) = σ(u)−1 .
Proposição 23.20 Seja B uma álgebra de Banach-∗ com unidade e u ∈ Inv (B) um elemento invertı́vel
de B. Então,
σ (u∗ ) = {λ ∈ | λ ∈ σ(u)} .
2

Prova da Proposição 23.20. (λ − u)∗ = λ − u∗ . Logo, por (23.32), λ ∈ σ(u) se e somente se
λ ∈ σ(u∗ ).
Denotaremos σ(u)cc := {λ ∈ | λ ∈ σ(u)}. O que a proposição acima afirma é que σ (u∗ ) = σ(u)cc .
Seja B uma álgebra de Banach com unidade e seja um polinômio p(z) = a0 + a1 z + . . . + an z n

definido para z ∈ . Para u ∈ B definimos p(u) := a0 + a1 u + . . . + an un ∈ B. Para polinômios de
operadores, vale a seguinte propriedade importante, conhecida como Teorema da Aplicação Espectral:
Teorema 23.14 (Teorema da Aplicação Espectral) Sejam B uma álgebra de Banach com uni-
dade e u ∈ B. Então para todo polinômio p vale
σ(p(u)) = p(σ(u)) := {p(λ), λ ∈ σ(u)} .
Prova. Vamos supor que p(z) = a0 + a1 z + . . . + an z n seja de grau n ≥ 1, pois no caso de um polinômio
constante a afirmativa é trivial. Tomemos µ ∈ σ(p(u)), que é não-vazio, como sabemos, e sejam
α1 , . . . , αn as n raı́zes do polinômio p(z) − µ em . Então p(z) − µ = an (z − α1 ) · · · (z − αn ), o que
implica p(u)−µ = an (u−α1 ) · · · (u−αn ). Se nenhum dos αi pertencesse a σ(u) então cada (u−αj )
seria invertı́vel, assim como o produto an (u − α1 ) · · · (u − αn ), contrariando o fato de µ ∈ σ(p(u)).
Logo, algum dos αi pertence a σ(u). Como p(αi ) = µ, isso diz que σ(p(u)) ⊂ {p(λ), λ ∈ σ(u)}.
Provemos agora a recı́proca. Já sabemos que σ(u) é não-vazio. Para λ ∈ σ(u) tem-se evidentemente
que o polinômio p(z) − p(λ) tem λ como raiz. Logo, p(z) − p(λ) = (z − λ)q(z), onde q é um polinômio
de grau n − 1. Portanto, p(u) − p(λ) = (u − λ )q(u) e como (u − λ ) não é invertı́vel, p(u) − p(λ)
também não o pode ser, o que diz-nos que p(λ) ∈ σ(p(u)). Isso significa que {p(λ), λ ∈ σ(u)} ⊂ σ(p(u)),
estabelecendo σ(p(u)) = {p(λ), λ ∈ σ(u)}.
Veremos quando tratarmos do homomorfismo de Gelfand e do Cálculo Funcional Contı́nuo que

para operadores limitados e auto-adjuntos definidos em em espaços de Hilbert o Teorema da Aplicação
Espectral pode ser bastante generalizado. Vide Teorema 23.32, página 1121.
• O operador resolvente e propriedades topológicas do espectro
Se um número complexo λ pertence ao conjunto resolvente de u ∈ B, define-se o operador resolvente

de u calculado em λ, denotado por Rλ (u), por
Rλ (u) := (λ − u)−1 .
Pelas hipóteses Rλ (u) é um elemento de B.

Muitas propriedades de ρ(u) (e, portanto de σ(u)) podem ser derivadas de propriedades de seus
operadores resolventes. Por exemplo, mostraremos mais adiante que ρ(u) é sempre um conjunto aberto
de (e, portanto, σ(u) é sempre um conjunto fechado de ) e mostraremos também que σ(u) nunca
é igual a todo (e, portanto, σ(u) nunca é vazio).
Proposição 23.21 (Primeira identidade do resolvente) Sejam B uma álgebra de Banach com
unidade e u ∈ B. Se λ e µ pertencem ao conjunto resolvente ρ(u) de u, então
Rλ (u) − Rµ (u) = (µ − λ)Rλ (u)Rµ (u) . (23.34)
2
Prova. A prova segue do seguinte cômputo que dispensa comentários:

Rλ (u) = Rλ (u) (µ − u)Rµ (u) = Rλ (u) (µ − λ) + (λ − u) Rµ (u)
| {z }
=
= (µ − λ)Rλ (u)Rµ (u) + Rλ (u)(λ − u) Rµ (u) = (µ − λ)Rλ (u)Rµ (u) + Rµ (u) .

| {z }
=
Iremos agora estabelecer uma série de resultados sobre propriedades do operador resolvente que
culminarão com a Proposição 23.24.
Lema 23.3 Sejam B uma álgebra de Banach com unidade e u ∈ B. Se λ e µ pertencem ao conjunto
resolvente ρ(u) de u e |λ − µ| < kRµ (u)k−1 então
" ∞
# " ∞
#
X X
Rλ (u) = Rµ (u) + (µ − λ)n (Rµ (u))n = + (µ − λ)n (Rµ (u))n Rµ (u) . (23.35)
n=1 n=1
2
Prova. Que as séries acima são convergentes para |λ − µ| < kRµ (u)k−1 é elementar. Portanto, ambas
definem operadores de B. A segunda igualdade em (23.35) é também evidente. Resta-nos provar que
as expressões do lado direito são de fato iguais à inversa de λ − u. Agora,

(λ − u)Rµ (u) = (λ − µ) + (µ − u) Rµ (u) = −(µ − λ)Rµ (u) + .
Assim,
" ∞
#
X
(λ − u)Rµ (u) + (µ − λ)n (Rµ (u))n
n=1
" ∞
# " ∞
#
X n
X n
n n
= −(µ − λ)Rµ (u) + (µ − λ) (Rµ (u)) + + (µ − λ) (Rµ (u))
n=1 n=1
∞
" ∞
#
X X
= − (µ − λ)n (Rµ (u))n + + (µ − λ)n (Rµ (u))n = .
n=1 n=1
Provar que " #

∞
X
+ (µ − λ)n (Rµ (u))n Rµ (u)(λ − u) =
n=1
é análogo.
A expressão (23.35) não é adivinhada, mas sugerida por

" ∞ n #
1 1 1 1 X 1
= = 1+ (µ − λ)n ,
λ−t µ − t 1 − µ−λ µ−t n=1
µ − t
µ−t
válida para λ, µ, t ∈ com |µ − λ| < |µ − t|, λ 6= t e µ 6= t.

Proposição 23.22 Sejam B uma álgebra de Banach com unidade e u ∈ B. Então ρ(u) é um subcon-
junto aberto de , o que implica que σ(u) é um subconjunto fechado de . 2
Prova. O Lema 23.3 afirma que se µ ∈ ρ(u), então todo λ ∈ que dista de µ menos que kR µ (u)k−1 é
também um elemento de ρ(u). Ora, isso está precisamente dizendo que ρ(u) é um subconjunto aberto
de e, portanto, σ(u) é um subconjunto fechado de , por ser o complemento de ρ(u).
A proposição seguinte, que será usada logo adiante, ilustra a importância da teoria das funções
analı́ticas no estudo de propriedades de operadores em álgebras de Banach.
Proposição 23.23 Sejam B uma álgebra de Banach e u ∈ B. Então, para cada ` ∈ B † , funcional
linear contı́nuo em B, a função de variável complexa f` : ρ(u) → dada por f` (λ) := `(Rλ (u)) é
holomórfica (i.e. analı́tica) em cada componente conexa de ρ(u). 2
Prova. Sejam µ ∈ ρ(u) e λ tal que |λ − µ| < kRµ (u)k−1 . Tem-se por (23.35) que λ ∈ ρ(u) e
∞
!
(23.35) X n+1
f` (λ) := `(Rλ (u)) = ` Rµ (u) + (µ − λ)n (Rµ (u))
n=1
∞
X
(µ − λ)n ` (Rµ (u))n+1 . (23.36)
continuidade
= `(Rµ (u)) +
n=1
Como
` (Rµ (u))n+1 ≤ k`k k (Rµ (u))n+1 k ≤ k`k kRµ (u)kn+1 ,
segue de |λ − µ| < kRµ (u)k−1 que a última série em (23.36) é absolutamente convergente e, portanto,
define uma função holomórfica na bola aberta de raio kRµ (u)k−1 centrada em µ, a qual pode, pelos
procedimentos usuais, ser estendida analiticamente à componente conexa de ρ(u) que contem µ.
A proposição seguinte, devida a Gelfand13 , é importante pois finalmente estabelece que o espectro
de um operador contı́nuo em um espaço de Banach nunca é vazio.
Proposição 23.24 Sejam B uma álgebra de Banach com unidade e u ∈ B. Então, σ(u) é um conjunto
não-vazio e está contido na bola fechada de raio kuk centrada em 0: {z ∈ | |z| ≤ kuk}. 2
Prova. Vamos supor que ρ(u) = . Então, pela Proposição 23.23, para todo ` funcional linear contı́nuo
em B a função f` (λ) := `(Rλ (u)) seria inteira, isto é, analı́tica em toda parte. Agora, para |λ| > kuk
" ∞
#
X
Rλ (u) = (λ − u)−1 = λ−1 ( − λ−1 u)−1 = λ−1 + λ−n un (23.37)
n=1
13
Israil Moiseevic Gelfand (1913-).
de acordo com (23.33) da Proposição 23.14, página 1056, pois pela hipótese kλ −1 uk < 1. Assim,
" ∞ n #
1 X kuk 1
kRλ (u)k ≤ 1+ = .
|λ| n=1
|λ| |λ| − kuk
Isso mostra que lim kRλ (u)k = 0. Logo, como |f` (λ)| = |`(Rλ (u))| ≤ k`k kRλ (u)k, segue que
|λ|→∞
lim |f` (λ)| = 0. Com isso, concluı́mos que f` (λ) é uma função inteira, limitada e converge a zero
|λ|→∞
no infinito. Pelo bem-conhecido Teorema de Liouville14 da Análise Complexa, isso implica que f` (λ) é
identicamente nula para todo λ ∈ . Se, porém, `(Rλ (u)) for nulo para cada funcional linear contı́nuo
` então, pelo Corolário 23.1, página 1031, terı́amos Rλ (u) = 0, um absurdo, pois Rλ (u) é a inversa de
um operador. Assim concluı́mos que ρ(u) não pode ser igual a todo e, portanto, σ(u) 6= ∅.
Pela Proposição 23.14, página 1056, a expressão (23.37) mostra que R λ (u) está definida para todo
|λ| > kuk. Assim, {z ∈ | |z| > kuk} ⊂ ρ(u). Logo, σ(u) ⊂ {z ∈ | |z| ≤ kuk}.
• O raio espectral
Pela Proposição 23.24, página 1063, sabemos que o espectro de um elemento u de uma uma álgebra
de Banach com unidade B está contido na bola fechada de raio kuk centrada em 0. Em muitas aplicações
é importante ter-se uma noção mais precisa sobre qual a maior distância à origem 0 em que se pode
encontrar um ponto do espectro de u. Os Teoremas 23.15 e 23.16, a seguir, fornecem-nos informações
mais precisas sobre essa distância.
Sejam B uma álgebra de Banach com unidade e u ∈ B. Definimos o raio espectral de u por
r(u) := sup |λ| ,

λ∈σ(u)
onde, como antes, σ(u) = {λ ∈ | (λ − u) não é invertı́vel}. Pela Proposição 23.24, página 1063, está
claro que r(u) ≤ kuk. O seguinte teorema, devido a Beurling15 , é um dos resultados fundamentais da
análise espectral de operadores e será empregado várias vezes no que segue.
Teorema 23.15 (Teorema do Raio Espectral) Sejam B uma álgebra de Banach com unidade e
u ∈ B. Então,
r(u) = inf kun k1/n = lim kun k1/n . (23.38)
n≥1 n→∞
2
Prova do Teorema 23.15.16 É claro pela definição que {λ ∈ | |λ| > r(u)} é uma componente conexa
do conjunto resolvente de u. Assim, pela Proposição 23.23, página 1063, as funções f ` (λ) := `(Rλ (u))
com ` ∈ B† , funcional linear contı́nuo em B, são analı́ticas na região {λ ∈ | |λ| > r(u)}. De acordo
14
15
Arne Carl-August Beurling (1905-1986).
16
Seguiremos aqui a apresentação de [92], mas com alguns esclarecimentos extra. Basicamente, a vantagem dessa
demonstração é o uso do Princı́pio de Limitação Uniforme, o que a torna mais curta e elementar, em contraste com
outras exposições, como as de [14] ou de [99].
com fatos bem conhecidos da teoria das funções de variável complexa, isso implica que naquela região
f` (λ) possui uma representação em termos de uma série de Laurent17 :
∞
X
f` (λ) = an λ−n , |λ| > r(u) .
n=0
Na região {λ ∈ | |λ| > kuk} ⊂ {λ ∈ | |λ| > r(u)}, vale kλ−1 uk < 1 e podemos escrever, usando
a série de Neumann (23.33),
−1
f` (λ) := `(Rλ (u)) = ` (λ − u)−1 = λ−1 ` − λ−1 u
∞
! ∞
X continuidade de `
X
−1 −n n
= λ ` λ u = ` (un ) λ−n−1
n=0 n=0
Concluı́mos disso que a0 = 0 e an = ` (un−1 ), n ≥ 1 e, portanto, a série

∞
X
` (un ) λ−n−1
n=0
converge para todo λ com |λ| > r(u) e não apenas para |λ| > kuk. Como essa série é convergente,
concluı́mos que para todo λ com |λ| > r(u) devemos ter limn→∞ |` (un ) λ−n−1 | = 0, o que implica que
a seqüência ` (un ) λ−n−1 é limitada. Assim, provamos que para cada ` ∈ B† existe uma constante
M` > 0 tal que |` (un ) λ−n−1 | ≤ M` . Sob essas condições, o Princı́pio de Limitação Uniforme (ou
Teorema de Banach-Steinhaus, Teorema 23.6, página 1031) garante-nos que existe M ≥ 0, finito, tal que
kλ−n−1 un k ≤ M para todo n ≥ 1. Conseqüentemente, kun k1/n ≤ M 1/n |λ|1+1/n para todo n ≥ 1. Disso
extraı́mos que lim sup kun k1/n ≤ |λ|. Como essa desigualdade vale para todo λ ∈ {λ ∈ | |λ| > r(u)},
n→∞
concluı́mos que
lim sup kun k1/n ≤ inf |λ| = r(u) .
n→∞ λ∈{λ∈ | |λ|>r(u)}

Vamos agora demonstrar que r(u) ≤ lim inf kun k1/n .

n→∞
Pelo Teorema da Aplicação Espectral, Teorema 23.14, página 1061, sabemos que se λ ∈ σ(u) então
λn ∈ σ(un ) para todo n ∈ . Logo, pela Proposição 23.24, página 1063, vale |λn | ≤ kun k. Isso

trivialmente diz que |λ| ≤ kun k1/n para todo λ ∈ σ(u) e todo n ≥ 1. Portanto,
r(u) := sup |λ| ≤ inf kun k1/n ≤ lim inf kun k1/n .
λ∈σ(u) n≥1 n→∞
Logo, estabelecemos lim sup kun k1/n ≤ r(u) ≤ inf kun k1/n ≤ lim inf kun k1/n , o que implica (23.38).
n→∞ n≥1 n→∞
O seguinte corolário importante será empregado adiante, por exemplo, quando discutirmos o ho-
momorfismo de Gelfand e o Teorema Espectral.
17
Pierre Alphonse Laurent (1813-1854).
Teorema 23.16 Se A é uma álgebra C∗ com unidade e a ∈ A é um operador auto-adjunto (ou seja,
tal que a = a∗ ) ou normal (ou seja, tal que aa∗ = a∗ a), então
r(a) = kak . (23.39)
Note que se H é um espaço de Hilbert, B(H) é uma álgebra C ∗ com unidade e, portanto, a afirmação
acima aplica-se a operadores limitados auto-adjuntos ou normais agindo em um espaço de Hilbert H.
2
Prova do Teorema 23.16. Em uma álgebra C∗ todo operador b satisfaz a propriedade C∗ : kb∗ bk = kbk2 .
Assim, para um operador auto-adjunto a, vale ka2 k = kak2 . Substituindo a nessa expressão pelo
n−1
operador auto-adjunto a2 e utilizando-a n vezes, teremos
n n−1 n−2 2 n
ka2 k = ka2 k2 = ka2 k2 = · · · = kak2 . (23.40)
Portanto,
(23.38) n n
r(a) = lim kam k1/m = lim ka2 k1/2 = lim kak = kak . (23.41)
m→∞ n→∞ n→∞
n
Tratemos agora do caso de operadores normais. Se b ∈ A, vale pela propriedade C ∗ kb2 k2 =
n n n n n n n
k(b2 )∗ b2 k. Para um operador normal a, tem-se (a2 )∗ a2 = (a∗ a)2 . Logo, ka2 k2 = k(a∗ a)2 k. Como
n n
a∗ a é auto-adjunto, segue de (23.40) (substituindo lá a por a∗ a) que k(a∗ a)2 k = ka∗ ak2 . Novamente
n+1
pela propriedade C∗ , a última expressão vale kak2 . Provamos, então, que para a normal tem-se
n n
ka2 k = kak2 . Assim, aplica-se novamente (23.41), completando a prova.
O leitor deve, porém, ser advertido que há situações em que r(u) < kuk. Tal é o caso, por exemplo,
do operador de Volterra W , tratadoR x no Exemplo 23.6 à página 1111, o qual é definido no espaço de
Banach C([0, 1]) por (W f )(x) := 0 f (y)dy, e para o qual tem-se r(W ) = 0 mas kW k = 1.
Uma das conseqüências mais profundas do Teorema 23.16 são a proposição e o corolário seguintes.
Proposição 23.25 Se A é uma álgebra C∗ com unidade, então
p
kak = r(a∗ a)
para todo a ∈ A. 2
Prova. Pela propriedade C∗ vale kak2 = ka∗ ak para todo a ∈ A. Agora, a∗ a é auto-adjunto e, pelo
Teorema 23.16, r(a∗ a) = ka∗ ak.
Corolário 23.6 Se B é uma álgebra-∗ que é uma álgebra C∗ em relação a uma norma k · k1 e também
em relação a uma norma k · k2 então essas normas são iguais. 2
Prova. Seja a ∈ B. Usando a propriedade C∗ para as normas k · k1 e k · k2 e o Teorema 23.16 para o

operador auto-adjunto a∗ a, tem-se kak21 = ka∗ ak1 = r(a∗ a) = ka∗ ak2 = kak22 .
A razão é de a Proposição 23.25 ser importante é a seguinte. O espectro de um operador a é definido

em termos puramente algébricos (existênciap ou não da inversa de λ − a) e,∗ portanto, o raio espectral
r(a) também o é. A igualdade kak = r(a∗ a) revela que em álgebras C a norma operatorial, um
objeto de natureza topológica, é determinado por um objeto de natureza algébrica, o raio espectral.
Assim, uma álgebra C∗ é uma álgebra que vem, por assim, dizer, imbuı́da de sua própria topologia. O
Teorema 23.16 tem várias outras implicações estruturais sobre álgebras C ∗ . Vide a discussão de [14]
ou [92].
• O espectro de operadores unitários e de operadores auto-adjuntos em álgebras C ∗
Um elemento u de uma álgebra-∗ com unidade é dito ser unitário se u−1 = u∗ , ou seja, se u∗ u =
uu∗ = .
As duas proposições que seguem são importantes por permitirem localizar com mais precisão o
espectro de operadores unitários ou auto-adjuntos.
Proposição 23.26 Seja A uma álgebra C∗ com unidade seja u ∈ A, unitário. Então σ(u) ⊂ S 1 :=
{λ ∈ | |λ| = 1}. 2
Prova. Se u é unitário, pela propriedade C∗ , kuk2 = ku∗ uk = k k = 1, ou seja, kuk = 1. Além disso,
por ser unitário, u é normal (pois u∗ u = uu∗ = ). Assim, pelo Teorema 23.16, r(u) = kuk = 1. Isso
mostra que σ(u) é um subconjunto fechado do disco unitário centrado em 0: D1 := {λ ∈ | |λ| ≤ 1}.
cc cc
Pelas Proposições 23.19 e 23.20, tem-se σ(u) = σ (u∗ )cc = σ (u−1 ) = (σ(u)−1 ) . Agora, os únicos
subconjuntos de D1 invariantes por inversão e conjugação complexa são subconjuntos de S 1 .
Proposição 23.27 Seja A uma álgebra C∗ com unidade seja a ∈ A, auto-adjunto. Então, σ(a) ⊂ .
Mais precisamente, σ(a) é um subconjunto compacto de [−kak, kak]. 2
Há diversas demonstrações dessa importante proposição. A que apresentamos abaixo é inspirada na
da referência [14] (mas não idêntica à mesma) e faz uso de poucos recursos da teoria. A demonstração de
[92], por exemplo, merece ser comparada. Mais adiante, Teorema 23.25, página 1096, apresentaremos
uma outra demonstração para operadores limitados auto-adjuntos agindo em espaços de Hilbert.
Prova da Proposição 23.27. Se a = 0 não há o que demonstrar. Seja então a 6= 0 e sejam p > 0 e λ ∈ ,
sendo que a parte imaginária de λ é não-nula. Se |λ| > kak então já sabemos que λ 6∈ σ(a), de modo
que é suficiente considerarmos |λ| ≤ kak. Se escolhermos p < kak−1 , a norma dos operadores ±ipa será
pkak < 1 e pela Proposição 23.14, página 1056, os operadores ± ipa são invertı́veis. Além disso, com
essas escolhas p < kak−1 < |λ|−1 , de modo que 1 ± ipλ 6= 0. Temos, assim,

2ipλ 2ip
λ −a = − a
2ip 2ip
! !
(1 + ipλ) − (1 − ipλ) ip (1 − ipλ) + (1 + ipλ)
= − a
2ip 2ip

1 h i
= (1 + ipλ)( − ipa) − (1 − ipλ) ( + ipa)
2ip

1 − ipλ 1 + ipλ
= ( − ipa) − ( + ipa)
2ip 1 − ipλ

1 − ipλ 1 + ipλ −1
= − ( + ipa)( − ipa) ( − ipa) . (23.42)
2ip 1 − ipλ
De (23.42) concluı́mos que λ − a terá inversa se

1 + ipλ
v := − ( + ipa)( − ipa)−1
1 − ipλ
for invertı́vel. Mostraremos que tal é o caso provando que u := ( + ipa)( − ipa) −1 é unitário e que
1+ipλ
1−ipλ
é um número complexo de módulo diferente de 1. Para provar que u é unitário, fazemos o seguinte
desenvolvimento:
u := ( + ipa)( − ipa)−1

= 2 − ( − ipa) ( − ipa)−1 = 2( − ipa)−1 −

= ( − ipa)−1 2 − ( − ipa) = ( − ipa)−1 ( + ipa)
−1
−1
= ( + ipa) ( − ipa)
!−1
−1
a=a∗ ∗ ∗
= ( − ipa) ( + ipa)
!−1 !−1
(23.32)
∗ h i∗
−1 ∗ −1
= ( − ipa) ( + ipa) = ( + ipa)( − ipa)
= (u∗ )−1 ,
que demonstrou que u−1 = u∗ , provando que u é unitário. Escrevendo λ = x + iy com x, y ∈ ,
teremos
1 + ipλ 2 2 2
= (1 − py) + (px) 6= 1 se y 6= 0 .
1 − ipλ (1 + py)2 + (px)2
Como u é unitário e seu espectro é formado por números complexos de módulo 1 (Proposição 23.26),
concluı́mos que v é invertı́vel e, por (23.42), λ − a também o é com

−1 2ip
(λ − a) = ( − ipa)−1 v −1 .
1 − ipλ
A invertibilidade de − ipa foi garantida com a escolha 0 < p < kak−1 .

Assim, provamos que λ − a tem inversa para todo λ com parte imaginária não-nula. Portanto,
todo número complexo com parte imaginária não-nula está no conjunto resolvente de a, ρ(a). Logo,
σ(a) ⊂ . Como r(a) = kak, concluı́mos que σ(a) ⊂ [−kak, kak]. Que σ(a) é fechado foi provado na

Proposição 23.22, página 1063.
A noção de espectro será estudada mais detalhadamente adiante no contexto de operadores limitados
agindo em espaços de Banach e, especialmente, de Hilbert. Em tais casos uma classificação mais
detalhada dos tipos de espectro é possı́vel. Vide Seção 23.5, página 1091.
23.3.4 O Homomorfismo de Gelfand em Álgebras C∗

Esta seção é dedicada à demonstração de um fato central da teoria das álgebras C ∗ , o qual reflete-se
também na teoria dos operadores limitados agindo em espaços de Hilbert. A afirmação é que se a é um
elemento auto-adjunto de uma álgebra C∗ com unidade A, então existe um homomorfismo φa entre a
álgebra C(σ(a)) das funções contı́nuas definidas no espectro de a e a álgebra A. Esse homomorfismo é
denominado homomorfismo de Gelfand18 .
A existência do homomorfismo de Gelfand e suas propriedades são conseqüência, basicamente de
duas coisas: do Teorema de Weierstrass, que garante a possibilidade de aproximar uniformemente
funções contı́nuas definidas em um conjunto compacto da reta real (como o espectro de um operador
auto-adjunto de uma álgebras C∗ com unidade) por polinômios, e da proposição que segue, a qual
garante que para todo polinômio p e todo elemento auto-adjunto a de uma álgebra C ∗ com unidade A,
a aplicação p : σ(a) → A é isométrica.
Proposição 23.28 Seja A uma álgebra C∗ com unidade e seja a ∈ A um elemento auto-adjunto de A
n
(isto é, a∗ = a). Seja também p(x) = Σ bk xk um polinômio em x ∈ . Então, o espectro de p(a) é a
k=0
imagem por p do espectro de a, ou seja,
σ(p(a)) = {p(λ), λ ∈ σ(a)} =: p(σ(a)) . (23.43)
Fora isso, kp(a)k = sup |p(λ)| =: kpk∞ . 2

λ∈σ(a)
18
Prova. O fato que σ(p(a)) = {p(λ), λ ∈ σ(a)} foi estabelecido no Teorema 23.14, página 1061. Para
determinar kp(a)k lembremos que pela propriedade C∗ vale kp(a)k2 = kp(a)p(a)∗ k. Agora,
n
!∗ n
! n
! n ! n
X X a=a ∗ X X X
p(a)p(a)∗ = bk a k bl a l = bk a k bl a l = bk bl ak+l = (pp)(a) ,
k=0 l=1 k=0 l=0 k, l=0
onde pp é o polinômio de grau 2n definido para x ∈ por

n
X
(pp)(x) := p(x)p(x) = bk bl xk+l .
k, l=0
Como p(a)p(a)∗ = (pp)(a) é auto-adjunto, aplica-se o Teorema 23.16, página 1066, e tem-se
(23.39) definição (23.105)

kp(a)p(a)∗ k = k(pp)(a)k = r((pp)(a)) = sup |µ| = sup |µ|
µ∈ σ (pp)(a) µ∈ (pp)(λ), λ∈σ(a)
!2

= sup |(pp)(λ)| = sup p(λ)p(λ) = sup |p(λ)|2 = sup |p(λ)| ,
λ∈σ(a) λ∈σ(a) λ∈σ(a) λ∈σ(a)
estabelecendo o que querı́amos.
Seja agora o espaço de Banach C(σ(a)) da funções complexas contı́nuas definidas no espectro
de a dotado da norma kf k∞ := supλ∈σ(a) |f (λ)| e seja P (σ(a)) o sub-espaço de C(σ(a)) formado por
polinômios. Sabemos pelo Teorema de Weierstrass que P (σ(a)) é denso em C(σ(a)). Vimos também na
Proposição 23.28 que a aplicação φa ≡ φ : P (σ(a)) → A dada por φ(p) = p(a) satisfaz kφ(p)k = kpk∞ .
Ora, isso diz-nos que φ é limitada e, pelo Teorema BLT, Teorema 23.1, página 1017, pode ser estendida
unicamente e isometricamente ao fecho de P (σ(a)) que é C(σ(a)). Essa extensão também será denotada
por φ. Assim, para toda f ∈ C(σ(a)) podemos definir φ(f ) como limite em norma de operadores φ(p),
com p sendo polinômios que convergem a f na norma k · k∞ .
Denotaremos também sugestivamente φ(f ), para f ∈ C(σ(a)), por f (a). Tem-se os seguintes fatos
sobre φ(f ).
Teorema 23.17 (O Homomorfismo de Gelfand em Álgebras C∗ ) Seja A uma álgebra C∗ com
unidade, seja a ∈ A auto-adjunto e seja φa ≡ φ : C(σ(a)) → A definida acima. Para todo polinômio p
vale φ(p) = p(a). Como vimos, pelo Teorema BLT, Teorema 23.1, página 1017, tem-se kφ(f )k = kf k ∞
para toda f ∈ C(σ(a)). Fora isso, valem as seguintes afirmações:
1. A aplicação φ é um ∗-homomorfismo algébrico, ou seja,
φ(αf + βg) = αφ(f ) + βφ(g) , φ(f g) = φ(f )φ(g) , φ(f )∗ = φ(f ) ,

φ(1) = ,
(23.44)
para todas f, g ∈ C(σ(a)) e todos α, β ∈ . Como f g = gf , segue de (23.44) que φ(f )φ(g) =
φ(g)φ(f ) para todas f, g ∈ C(σ(a)).
2. Se f ≥ 0 tem-se σ(φ(f )) ⊂ [0, ∞).
3. Se fn ∈ C(σ(a)), n ∈ é uma seqüência de converge na norma k · k∞ a uma função f ∈ C(σ(a))

então φ(fn ) converge a φ(f ) na norma de A. Reciprocamente, se φ(fn ) converge na norma de A,

então existe f ∈ C(σ(a)) tal que limn→∞ φ(fn ) = φ(f ). Isso diz-nos que {φ(f ), f ∈ C(σ(a))} é
fechada na norma de A. Com a propriedade do item 1, isso significa que {φ(f ), f ∈ C(σ(A))}
é uma sub-álgebra C∗ Abeliana com unidade de A.
4. σ(φ(f )) = {f (λ), λ ∈ σ(a)} =: f (σ(a)) para toda f ∈ C(σ(a)). 2
O ∗-homomorfismo φ : C(σ(a)) → A é por vezes denominado homomorfismo de Gelfand.

Prova do item 1. A aplicação φ : C(σ(a)) → A é limitada e, portanto, contı́nua. As propriedades
(23.44), que caracterizam φ como um ∗-homomorfismo algébrico, são triviais de se verificar no subespaço
denso P (σ(a)) e daı́ se estendem facilmente a todo C(σ(a)) por continuidade.
Prova do item 2. Se f ≥ 0 então f = g 2 para alguma g real e contı́nua. Logo, pela propriedade de
homomorfismo em (23.44) vale φ(f ) = φ(g 2 ) = φ(g)2 . Também por (23.44), φ(g) é auto-adjunto e,
portanto, pelo Teorema 23.14, página 1061, o espectro de φ(g)2 é um subconjunto de [0, ∞).
Prova do item 3. Tem-se kφ(fn ) − φ(f )k = kφ(f − fn )k = kf − fn k∞ . Logo, se kf − fn k∞ → 0,
segue kφ(fn ) − φ(f )k → 0. Reciprocamente, se φ(fn ) converge na norma de A, segue que φ(fn ) é uma
seqüência de Cauchy em A. Assim, como kφ(fn ) − φ(fm )k = kfn − fm k∞ , a seqüência fn é de Cauchy
em C(σ(a)) com a norma k·k∞ . Como C(σ(a)) é completo em relação a essa norma, existe f ∈ C(σ(a))
à qual fn converge e, portanto, limn→∞ φ(fn ) = φ(f ).
1
Prova do item 4. Se λ não pertence à imagem de σ(a) por f então r := (f −λ) é contı́nua e, portanto,
φ(r) está bem definida e vale φ(r)φ(f − λ) = φ(f − λ)φ(r) = , pelas propriedades de homomorfismo,
provando que φ(f ) − λ é invertı́vel e que, portanto, λ ∈ ρ(φ(f )), o conjunto resolvente de φ(f ).
Isso estabeleceu que o complemento da imagem de f , \ {f (λ), λ ∈ σ(a)}, é um subconjunto de
ρ(φ(f )). Logo, σ(φ(f )) ⊂ {f (λ), λ ∈ σ(a)}. Vamos agora demonstrar a inclusão oposta. Seja
µ ∈ {f (λ), λ ∈ σ(a)}, ou seja, µ = f (λ0 ) para algum λ0 ∈ σ(a) e vamos supor que µ ∈ ρ(φ(f )), ou
seja, que F := φ(f ) − f (λ0 ) é invertı́vel. Seja agora P := φ(p) − p(λ0 ) para algum polinômio p tal
que kf − pk∞ < . Teremos, F − P = φ(f − p) − (f (λ0 ) − p(λ0 )) e, assim,
kF − P k ≤ kφ(f − p)k + |f (λ0 ) − p(λ0 )| k k = kf − pk∞ + |f (λ0 ) − p(λ0 )| ≤ 2kf − pk∞ < 2 .
Agora, pelo Corolário 23.3, página 1058, se escolhermos esse pequeno o suficiente tal que kF − P k <
kF −1 k−1 , então P será invertı́vel em A, o que implica p(λ0 ) 6∈ σ(φ(p)) com λ0 ∈ σ(a). Isso contraria
(23.43). Logo, devemos ter µ 6∈ ρ(φ(f )), ou seja, µ ∈ σ(φ(f )), o que prova {f (λ), λ ∈ σ(a)} ⊂ σ(φ(f )),
estabelecendo a igualdade desses dois conjuntos. Isso completa a prova do Teorema 23.17
Comentamos que a identificação σ(φ(f )) = {f (λ), λ ∈ σ(a)} não contraria o fato de σ(φ(f )) ser
fechado, pois a imagem de um conjunto compacto (no caso, σ(a)) por uma função contı́nua (no caso,
f ) é sempre um conjunto compacto (ou seja, fechado e limitado).
23.3.5 Raı́zes Quadradas de Operadores em Álgebras de Banach

Na teoria dos operadores é muito importante definir condições sob as quais se possa associar uma
raiz quadrada a certos tipos de operadores. Esta seção é dedicada ao assunto e apresentaremos inici-
almente alguns resultados gerais, para o contexto de álgebras de Banach ou de Banach-∗, e ao final
nos especializaremo-nos a operadores auto-adjuntos em álgebras C∗ ou agindo em espaços de Hilbert.
Algumas das demonstrações abaixo são um tanto técnicas e sua leitura pode ser dispensada em uma
primeira visita. Começamos com o seguinte resultado.
Teorema 23.18 Seja B uma álgebra de Banach com unidade e w ∈ B tal que kwk ≤ 1. Então existe
y ∈ B tal que y 2 = − w. Esse y é dado por
∞
X N
X
y := cn w n := lim cn w n , (23.45)
N →∞
n=0 n=0
sendo que o limite em (23.45) converge na norma de B e onde
1 (2n − 3)!! (2n − 3)!!

c0 = 1, c1 = − , e cn = − n
= − , n≥1, (23.46)
2 2 n! (2n)!!
√
são os coeficientes da expansão em série de Taylor em torno de z 0 = 0 da função f (z) = 1 − z,
∞
X
analı́tica no disco unitário aberto D1 = {z ∈ | |z| < 1}: f (z) = cn z n . 2
n=0
Destacamos o fato que o enunciado acima fala de kwk ≤ 1 e não apenas kwk < 1. Isso será
importante mais adiante. Por ser um tanto técnica, a demonstração do Teorema 23.18 é apresentada
no Apêndice 23.A, página 1151. Nossa demonstração é inspirada na (mas não idêntica à) de [99]. 19
Corolário 23.7 Seja B uma álgebra de Banach-∗ com unidade. Se x ∈ B é tal que kxk ≤ 1 então
existe y ∈ B auto-adjunto (y ∗ = y) tal que − x∗ x = y ∗ y = y 2 . 2
Prova. Seja w = x∗ x. Tem-se kwk = kx∗ xk ≤ kx∗ k kxk = kxk2 ≤ 1. Podemos, portanto, aplicar o
N
X
Teorema 23.18, acima. Fora isso, nesse caso sn = cn (x∗ x)n são todos auto-adjuntos pois (x∗ x)∗ =
n=0
x∗ x e os cn ’s são reais. Assim, y = lim sN é também auto-adjunto (por que?). Logo, pelo que vimos
N →∞
y∗y = y2 = − x∗ x, o que querı́amos provar.
Corolário 23.8 Seja B uma álgebra de Banach com unidade. Seja w ∈ B tal que k − wk ≤ 1. Então
existe y ∈ B tal que y 2 = w. Se B for também uma álgebra de Banach-∗ e w for auto-adjunto, então
existe y auto-adjunto com a mencionada propriedade. 2
19
É instrutivo compará-la à de [14] (Teorema 2.2.10) para álgebras C ∗ .
Prova. O operador − w satisfaz as condições do Teorema 23.18, página 1072. Logo, existe y ∈ B tal
que y 2 = − ( − w) = w.

v
Corolário 23.9 Seja B uma álgebra de Banach com unidade. Seja v ∈ B, v 6= 0, tal que − ≤
kvk
1. Então existe y ∈ B tal que y 2 = v. Se B for também uma álgebra de Banach-∗ e v for auto-adjunto,
então existe y auto-adjunto com a mencionada propriedade. 2
v
Prova. O operador satisfaz as condições do corolário anterior. Logo, existe y0 ∈ B tal que
kvk
v v
y02 = − − = . Portanto y = kvk1/2 y0 é tal que y 2 = v.
kvk kvk
O Corolário 23.9 tem uma conseqüência para álgebras C∗ : todo elemento de uma álgebra C∗ que
tenha espectro positivo tem uma raiz quadrada. Isso será demonstrado no que segue.
23.3.6 Elementos Positivos de Álgebras C∗

Um elemento auto-adjunto v de uma álgebra C∗ A é dito ser positivo se satisfazer σ(v) ⊂ [0, ∞), ou
seja, σ(v) ⊂ [0, kvk]. A proposição seguinte estabelece um fato básico sobre elementos positivos em
álgebras C∗ o qual será repetidamente empregado no que segue.
Proposição 23.29 Se a e b são elementos auto-adjuntos e positivos de uma álgebra C ∗ com unidade
e tais que a + b = 0 então a = 0 e b = 0. 2
Prova. Se σ(a) ⊂ [0, ∞) então, pelo Teorema da Aplicação Espectral, Teorema 23.14, página 1061,
vale que σ(−a) ⊂ (−∞, 0]. Logo, se b = −a tem-se σ(b) ⊂ (−∞, 0]. Se b é positivo (ou seja, se
σ(b) ⊂ [0, ∞), isso implica que σ(b) = {0}. Logo r(b) = 0 e pelo Teorema 23.16, concluı́mos que
kbk = 0. Assim, a = −b = 0.
O leitor deve ser advertido que as afirmações da última proposição não são necessariamente válidas
em álgebras de Banach que não sejam álgebras C∗ . A seguinte proposição estabelece algumas condições
equivalentes à positividade.
Proposição 23.30 Se v é um elemento auto-adjunto não-nulo de uma álgebra C ∗ com unidade A, são
equivalentes as seguintes afirmações:
1. σ(v) ⊂ [0, kvk].

v
2. − kvk ≤ 1.
3. Existe y ∈ A auto-adjunto tal que y 2 = v e kyk = kvk1/2 .

O operador y do item 3 não é único pois −y, por exemplo, tem a mesma propriedade. Porém, existe
um único yp auto-adjunto com espectro positivo, tal que yp2 = v. 2
Mais adiante (Teorema 23.20) provaremos o importante fato que em álgebras C ∗ , elementos da
forma x∗ x são positivos.
Prova da Proposição 23.30.
1 → 2 Pelo Teorema da Aplicação

Espectral,
n Teorema 23.14, página
o n 1061, e pelas hipóteses
o sobre o
v λ λ
espectro de v, tem-se σ − kvk = 1 − kvk , λ ∈ σ(v) ⊂ 1 − kvk , λ ∈ [0, kvk] = [0, 1].

v v
Assim, pelo Teorema 23.16, página 1066, − kvk =r − kvk ≤ 1.
2 → 3 A existência de y segue do Corolário 23.9. Como y é auto-adjunto vale, pela propriedade C ∗ ,

kyk2 = ky 2 k = kvk.
3 → 1 Isso segue do Teorema da Aplicação Espectral, Teorema 23.14, página 1061.
Podemos encontrar um yp auto-adjunto com espectro positivo e tal que yp2 = v usando o Homomor-
fismo de Gelfand φv (Teorema 23.17, página 1070) da seguinte forma. Como σ(v) ⊂ [0, √ kvk], a função
f ∈ C(σ(v)) → dada √
por f (λ) = λ, λ ∈ σ(v),
√ é2 contı́nua e positiva, assim como f . Assim, pelo
2
Teorema 23.17, yp := φv ( f ) satisfaz yp = φv ( f ) = φv (f ) = v. Pelo item 2 daquele Teorema, vemos
que σ(yp ) ⊂ [0, ∞).
Para provar a unicidade do elemento positivo yp usaremos o seguinte lema, ademais de interesse por
si só.
Lema 23.4 Se a e b são dois elementos auto-adjuntos positivos de uma álgebra C ∗ com unidade A tais
que ab = ba então ab é também auto-adjunto positivo. 2
Prova. Se a e b são positivos, o homomorfismo de Gelfand fornece dois operadores auto-adjuntos

positivos cp e dp tais que c2p = a e d2p = b. Pela construção do homomorfismo de Gelfand, cp é o limite
em norma de polinômios em a e dp é o limite em norma de polinômios em b. Como a e b comutam, esses
aproximantes polinomiais também comutam e, portanto cp dp = dp cp . Assim, ab = (cp )2 (dp )2 = (cp dp )2 ,
que é auto-adjunto positivo, pelo Teorema da Aplicação Espectral, Teorema 23.14, página 1061.
Para demonstrar a unicidade de yp , comecemos lembrando que yp é obtido pelo homomorfismo de

Gelfand e, portanto, é um limite em norma de polinômios em v. Assim, se b é um operador qualquer
que comuta com v, então b comuta com yp . Vamos supor que b seja também positivo e tal que b2 = v.
Como b3 = b(b2 ) = (b2 )b segue que bv = vb. Assim, b e yp também comutam. Teremos assim,
byp =yp b
0 = (v − v)(yp − b) = (yp2 − b2 )(yp − b) = (yp − b)(yp + b)(yp − b)
byp =yp b
= (yp − b)yp (yp − b) + (yp − b)b(yp − b) = (yp − b)2 yp + (yp − b)2 b .
Pelo Lema 23.4, ambos (yp − b)2 yp e (yp − b)2 b são positivos e, portanto, pela Proposição 23.29,
concluı́mos que (yp − b)2 yp = 0 e (yp − b)2 b = 0. Subtraindo um do outro, obtemos (yp − b)3 = 0, o que
trivialmente implica (yp − b)4 = 0. Agora, como yp − b é auto-adjunto obtemos, aplicando duas vezes
a propriedade C∗ da norma: kyp − bk4 = k(yp − b)2 k2 = k(yp − b)4 k = 0, provando que yp = b. Isso
estabeleceu a unicidade desejada e completou a prova da Proposição 23.30.
Vemos que um elemento auto-adjunto v de uma álgebra C∗ com unidade A é positivo se satisfizer
quaisquer das condições equivalentes da Proposição 23.30, acima. Mais adiante provaremos o impor-
tante fato que em álgebras C∗ , elementos da forma x∗ x são positivos. O primeiro passo nessa direção
é o seguinte teorema de decomposição.
Proposição 23.31 Todo elemento auto-adjunto a de A, uma álgebra C ∗ com unidade, pode ser escrito
na forma a = a+ − a− , onde a± são auto-adjuntos e positivos, comutam com a e satisfazem a+ a− =
a− a+ = 0. 2
Prova. Sejam as funções reais f+ (λ) := 21 (|λ| + λ) e f− (λ) := 21 (|λ| − λ). Ambas são contı́nuas,
positivas, satisfazem f+ f− = 0 e λ = f+ (λ) − f− (λ). Usando o homomorfismo de Gelfand φa , definimos
a+ := φa (f+ ) e a− := φa (f− ). Pelo Teorema 23.17, esses operadores têm as propriedades desejadas.
Vamos denotar por A+ o conjunto de todos os elementos auto-adjuntos positivos de uma álgebra C∗
com unidade A. O seguinte teorema resume as propriedades geométricas e topológicas mais importantes
de A+ .
Teorema 23.19 O conjunto A+ , formado por todos os elementos auto-adjuntos positivos de uma
álgebra C∗ com unidade A, é um cone convexo e fechado (na topologia da norma de A) e tem a
propriedade A+ ∩ (−A+ ) = {0}. 2
Prova. A afirmação que A+ ∩ (−A+ ) = {0} é um mero refraseamento da Proposição 23.29. Se a é

positivo e auto-adjunto então, pelo Teorema da Aplicação Espectral, Teorema 23.14, página 1061, λa
também o é para todo λ ≥ 0. Isso provou que A+ é um cone. Provemos agora que A+ é convexo.
Provemos primeiramente que se a ∈ A+ , então para todo p ≥ kak vale k − p−1 ak ≤ 1. De fato,
o Teorema da Aplicação Espectral,
h Teorema
i 23.14, diz-nos que σ( − p−1 a) = {1 − λ/p, λ ∈ σ(a)} ⊂
{1 − λ/p, λ ∈ [0, kak]} = 1 − kak p
, 1 ⊂ [0, 1]. Isso provou que r( − p−1 a) ≤ 1 e, pelo Teorema
23.16, página 1066, segue que k − p−1 ak ≤ 1.
Sejam agora a, b ∈ A+ e considere-se a combinação linear convexa λa + (1 − λ)b com λ ∈ [0, 1].
Para provar que λa + (1 − λ)b ∈ A+ , tomemos P > max{kak, kbk} e escrevamos

− P −1 (λa + (1 − λ)b) = λ − P −1 a + (1 − λ) − P −1 b

≤ λ − P −1 a + (1 − λ) − P −1 b
≤ λ + (1 − λ) = 1 ,
a última desigualdade sendo conseqüência do comentário do parágrafo acima pois, pela escolha, P > kak
e P > kbk. Isso implica que o espectro de −P −1 (λa + (1 − λ)b) está em [−1, 1] e, portanto, o espectro
de P −1 (λa + (1 − λ)b) está em [0, 2]. Assim, σ(λa + (1 − λ)b) ⊂ [0, 2P ], provando que λa + (1 − λ)b
é positivo.
Resta-nos provar que A+ é fechado. Seja an ∈ A+ uma seqüência de elementos de A+ que converge
em norma a a ∈ A. Desejamos provar que a ∈ A+ . Tomemos a 6= 0, pois se a = 0 não há o que provar,
pois 0 ∈ A+ . Sem perda de generalidade, podemos assumir que todos os an são não-nulos. Como cada
an

an é positivo, vale pelo item 2 da Proposição 23.30 − kan k ≤ 1, ou seja, kan k − an ≤ kan k. Pela
continuidade da norma, an → a implica kan k → kak. Logo,

kak − a = lim kan k − an ≤ lim kan k = kak .
n→∞ n→∞

a
Isso provou que − kak
≤ 1 e, portanto, a ∈ A+ .
Corolário 23.10 Seja A uma álgebra C∗ com unidade. Se a, b ∈ A+ então a + b ∈ A+ . 2
Prova. a + b = 2( a+b
2
). Agora, a+b
2
∈ A+ pois é uma combinação linear convexa de elementos de A+ ,
a+b
que é convexo. Logo, 2( 2 ) ∈ A+ , pois A+ é um cone.
Corolário 23.11 Seja A uma álgebra C∗ com unidade. Se para algum z ∈ A valer −z ∗ z ∈ A+ , então
z = 0. 2
Prova. Pela Proposição 23.18, página 1060, σ(z ∗ z) \ {0} = σ(zz ∗ ) \ {0}. Assim, se −z ∗ z é auto-adjunto
e positivo, −zz ∗ também o é. Logo, pelo Corolário 23.10, −z ∗ z − zz ∗ é auto-adjunto e positivo.
Definamos x := (z + z ∗ )/2 e y := (z − z ∗ )/(2i). Tem-se que
−A+ 3 −(−z ∗ z − zz ∗ ) = 2x2 + 2y 2 .
Como x e y são auto-adjuntos 2x2 e 2y 2 são positivos e, pelo Corolário 23.10, 2x2 + 2y 2 também o
é. Assim, provamos que 2x2 + 2y 2 ∈ A+ ∩ (−A+ ). Pelo Teorema 23.19, isso implica 2x2 + 2y 2 = 0
e, pela Proposição 23.29, segue que x2 = 0 e y 2 = 0. Pela propriedade C∗ da norma, segue que
kxk2 = kx2 k = 0, provando que x = 0. Analogamente prova-se que y = 0. Como z = x + iy, segue que
z = 0.
Chegamos agora ao resultado mais importante a respeito de elementos auto-adjuntos positivos em

álgebras C∗ .
Teorema 23.20 Em uma uma álgebra C∗ com unidade A todo elemento da forma x∗ x é positivo. Pelo
item 3 da Proposição 23.30, concluı́mos que uma condição necessária e suficiente para que um elemento
auto-adjunto v ∈ A seja positivo é que exista x ∈ A tal que v = x ∗ x. 2
Prova. Seja a = x∗ x, que obviamente é auto-adjunto. Pela Proposição 23.31, podemos escrever a =
a+ − a− onde a± são auto-adjuntos e positivos, comutam com a e satisfazem a+ a− = a− a+ = 0.
Tudo o que queremos é provar que a− = 0. Seja w = xa− . Temos que −w ∗ w = −a− x∗ xa− =
−a− (a+ − a− )a− = (a− )3 . Como a− é positivo, (a− )3 também o é (pelo Teorema 23.14, página 1061).
Logo, −w ∗ w é positivo. Pelo Corolário 23.11, isso implica w = 0, ou seja, xa− = 0. Multiplicando à
esquerda por x∗ , teremos 0 = x∗ xa− = (a+ − a− )a− = −(a− )2 . Como a− é auto-adjunto, a propriedade
C∗ da norma implica ka− k2 = k(a− )2 k = 0. Assim, x∗ x = a+ , que é positivo por construção.
23.3.7 O Lema da Raiz Quadrada em espaços de Hilbert. A Decomposição

Polar
Os resultados acima estabeleceram algumas condições suficientes para que um elemento de uma álgebra
de Banach possua uma raiz quadrada. Vamos agora particularizar essa análise para operadores auto-
adjuntos agindo em espaços de Hilbert. O resultado que obtemos é o Lema da Raiz Quadrada, a
seguir. Devemos informar o leitor que esse Lema pode ser também demonstrado por outros meios, a
saber, através do Teorema Espectral para operadores auto-adjuntos agindo em espaços de Hilbert (vide
Seção 23.6.1, página 1112). A análise abaixo tem, porém, certas vantagens, por exemplo, por permitir
demonstrar de modo relativamente simples que a raiz quadrada de um operador compacto e positivo é
também um operador compacto.
Um operador limitado e auto-adjunto A agindo em um espaço de Hilbert H é dito ser positivo
se hφ, Aφi ≥ 0 para todo φ ∈ H. Anteriormente, havı́amos dito que um operador auto-adjunto era
positivo se seu espectro o fosse. O importante lema abaixo diz-nos, incidentalmente, que essas duas
noções de positividade são equivalentes.
Teorema 23.21 (Lema da Raiz Quadrada.) Seja H um espaço de Hilbert complexo e seja A ∈
B(H), auto-adjunto e positivo, ou seja, tal que hφ, Aφi ≥ 0 para todo φ ∈ H. Então existe um único
B ∈ B(H) igualmente auto-adjunto e positivo tal que B 2 = A. 2

A

Prova. Pelo Corolário 23.9 é suficiente mostrar que − ≤ 1. Usando o Teorema 23.12, página
kAk
1049, tem-se que

A A hφ, Aφi
− = sup φ, − φ = sup 1 − ≤ 1
kAk kAk kAk
φ∈H, kφk=1 φ∈H, kφk=1
pois
hφ, Aφi
0≤ ≤1 (23.47)
kAk
para kφk = 1. Pelo Corolário 23.9 e pela prova do Teorema 23.18, tem-se que existe B satisfazendo
B 2 = A, a saber, !
X∞
1/2 0 n
B = kAk + cn ( − A ) , (23.48)
n=1
A
com A0 := . Essa expressão mostra que B é auto-adjunto (pois é o limite em norma de uma
kAk
seqüência de operadores auto-adjuntos). Como a soma é convergente em norma, tem-se pela continui-
dade do produto escalar que
∞
!
X
1/2 0 n
hφ, Bφi = kAk 1+ cn hφ, ( − A ) φi , (23.49)
n=1
para φ ∈ H com kφk = 1.

Vamos mostrar agora que 0 ≤ hφ, ( − A0 )n φi ≤ 1. De fato, se n é par, n = 2m, temos
hφ, ( − A0 )n φi = h( − A0 )m φ, ( − A0 )m φi = k( − A0 )m φk2 ≥ 0.
Se n é ı́mpar, n = 2m + 1, temos

0 n 0 ψ ψ
hφ, ( − A ) φi = hψ, ( − A )ψi = 1− , A0 kψk2 ≥ 0,
kψk kψk
por (23.47), onde ψ = ( − A0 )m φ. Assim,
0 ≤ hφ, ( − A0 )n φi ≤ k( − A0 )n k = k( − A0 )kn ≤ 1.
Retornando à (23.49) e lembrando que cn ≤ 0 para n ≥ 1, tem-se

∞
!
X √
1/2
hφ, Bφi ≥ kAk 1+ cn = kAk1/2 1 − 1 = 0.
n=1
Isso mostra que B é positivo.

Vamos agora provar20 a unicidade de B. Comecemos notando que se T é um operador que comuta
com A, então T comuta com B, devido ao fato de o lado direito de (23.48) ser convergente em norma.
Seja então B 0 auto-adjunto e positivo tal que (B 0 )2 = A. Então (B 0 )3 = B 0 A = AB 0 , mostrando

que B 0 e A comutam. Assim B e B 0 também comutam (por (23.48)). Usando essa comutatividade,
0 = (A − A)(B − B 0 ) = (B 2 − (B 0 )2 )(B − B 0 ) = (B − B 0 )(B + B 0 )(B − B 0 ) = B1 + B2 ,
onde B1 = (B − B 0 )B(B − B 0 ) e B2 = (B − B 0 )B 0 (B − B 0 ).
Sucede, porém, que para todo ψ ∈ H,
hψ, B1 ψi = h(B − B 0 )ψ, B(B − B 0 )ψi ≥ 0
pela positividade de B e, analogamente,
hψ, B2 ψi = h(B − B 0 )ψ, B 0 (B − B 0 )ψi ≥ 0

20
Seguiremos basicamente [99].
pela suposta positividade de B 0 . Como B1 + B2 = 0, segue que B1 = B2 = 0.

Assim,
0 = B1 − B2 = (B − B 0 )B(B − B 0 ) − (B − B 0 )B 0 (B − B 0 )
= (B − B 0 )(B(B − B 0 ) − B 0 (B − B 0 )) = (B − B 0 )3 .
Logo, usando duas vezes a propriedade C∗ da norma, tem-se
0 = k(B − B 0 )4 k = k((B − B 0 )2 )∗ (B − B 0 )2 k = k(B − B 0 )2 k2 = k(B − B 0 )∗ (B − B 0 )k2 = kB − B 0 k4 ,
o que prova que kB − B 0 k = 0, ou seja, B = B 0 .
• A raiz quadrada de um operador positivo e a unidade
Vimos acima em (23.48) que se A é um operador limitado não-nulo, auto-adjunto e positivo agindo
em um espaço de Hilbert H então
" ∞ n #
√ X A
A := kAk1/2 + cn − , (23.50)
n=1
kAk
√
é igualmente auto-adjunto e satisfaz ( A)2 = A. Claramente,
" N n #
√ X A
A := lim kAk1/2 + cn −
N →∞
n=1
kAk
" N
# " N n p #
X X X
p n A
:= lim kAk1/2 1 + cn + lim kAk1/2 cn (−1) .
N →∞
n=1
N →∞
n=1 p=1
p kAk
PN PN
Como c0 = 1, temos 1 + n=1 cn = n=0 cn . Tem-se para qualquer N ≥ 1 que
N
X N
X ∞
X ∞
X
n
√ n
cn = lim cn t = lim 1 − t − lim cn t = − lim c n tn .
t→1− t→1− t→1− t→1−
n=0 n=0 n=N +1 n=N +1
P∞
Note-se agora que,
P∞por (23.A.1), a série n=0 cn converge absolutamente e, portanto, temos P∞ para qual-
quer > 0 que |c n | ≤ para todo N grande o suficiente. Assim, para |t| < 1, c n t n
≤
P∞ n=N +1 n=N +1
|c
n=N +1 n | ≤ , para todo N grande o suficiente. Logo,

X N X∞ X∞

cn = lim cn tn = lim cn tn ≤ .
t→1− t→1−
n=0 n=N +1 n=N +1
N
X
Tomando → 0, concluı́mos que lim cn = 0 e daı́ segue que
N →∞
n=0
" N n p #
√ X X n A
A = lim kAk1/2 cn (−1)p . (23.51)
N →∞
n=1 p=1
p kAk
ou seja, √
A = lim PN (A) , (23.52)
N →∞
onde PN (A) é o polinômio em A dado por

N
X N
X
p n p
PN (A) := pN, p A , onde pN, p ≡ pN, p (kAk) := (−1) cn kAk1/2−p . (23.53)
p=1 n=p
p
O interessante nas expressões (23.51)-(23.53) é que cada PN (A) não contem nenhum termo da forma
const. , ou seja, proporcional à unidade (note o leitor que a soma em p em (23.53) começa em p = 1).
Esse fato será relevante quando discutirmos a raiz quadrada de operadores compactos e positivos.
• A Decomposição Polar de Operadores Limitados em Espaços de Hilbert
É um fato elementar
p que todo número complexo z pode ser representado na forma polar z = e iθ ρ
com ρ = |z| = x2 + y 2 , x e y sendo as partes real e imaginária de z, respectivamente. No caso de
operadores limitados agindo em espaços de Hilbert há uma relação semelhante que discutiremos agora.
Se A é um operador limitado agindo em um espaço de Hilbert H, é claro que A∗ A é um operador
auto-adjunto e positivo, pois hψ, A∗ AψiH = hAψ, AψiH = kAψk2 ≥ 0 para todo ψ ∈ H. Portanto,
pelo Teorema 23.21, página 1077, A∗ A possui uma raiz quadrada, a qual é igualmente um operador
√auto-
adjunto e positivo (e unicamente definida por essas propriedades). Vamos denotá-la por |A| := A∗ A,
a qual será denominada o módulo de A. Vale então o seguinte.
Teorema 23.22 (A Decomposição Polar de Operadores Limitados em Espaços de Hilbert)
Seja A ∈ B(H) um operador limitado agindo
√ em um espaço de Hilbert H. Então A pode ser es-
crito na forma A = U |A|, onde |A| := A∗ A e U ∈ B(H) é uma isometria parcial a qual satisfaz
Ran (U ) = Ran (A) e é unicamente determinada pela condição Ker (U ) = Ker (A). 2
Prova. Comecemos observando que

|A|ψ = Aψ , ∀ψ ∈ H , (23.54)
pois

|A|ψ 2 = h|A|ψ, |A|ψi = hψ, |A|2 ψi = hψ, A∗ Aψi = hψ, A∗ Aψi = hAψ, Aψi = Aψ 2 .
H H H H H
O fato que k|A|ψk = kAψk implica, obviamente, que |A|ψ = 0 se e somente se Aψ = 0, ou seja,
Ker (|A|) = Ker (A). Podemos então definir uma função bijetora U : Ran (|A|) → Ran (A) por
U (|A|ψ) := Aψ , ∀ψ ∈ H . (23.55)
O próximo passo é mostrar que U é linear. De fato, para α, β ∈ e ψ, φ ∈ H, arbitrários, tem-se

(23.55) (23.55)
U α|A|ψ+β|A|φ = U |A|(αψ+βφ) = A(αψ+βφ) = αAψ+βAφ = αU (|A|ψ)+βU (|A|φ) ,
o que prova a linearidade de U . Passamos assim a escrever (23.55) como U |A|ψ := Aψ, o que incidental-
mente mostra que A = U |A|, pois ψ ∈ H é arbitrário. A relação (23.54) diz-nos que kU |A|ψk = kAψk
e, portanto, a norma de U , restrito a Ran (|A|) é igual a 1.
Sabemos que o completamento de Ran (A) é o seu fecho Ran (A) e podemos considerar U como
uma aplicação de Ran (|A|) em Ran (A). Pelo Teorema BLT (Teorema 23.1, página 1017), U possui
uma extensão única ao completamento Ran (|A|), que é Ran (|A|), sendo que essa extensão também
tem norma 1. Para evitar sobrecarregar a notação denotamos essa extensão também por U , valendo
U : Ran (|A|) → Ran (A). Como kU k = 1, U é uma isometria.
⊥
Notemos agora que Ran (|A|) = Ran (|A|)⊥ (vide Proposição 22.2, página 992). Agora, φ ∈
Ran (|A|)⊥ se e somente se hφ, |A|ψiH = 0 para todo ψ ∈ H. Como |A| é auto-adjunto, isso implica
que φ ∈ Ran (|A|)⊥ se e somente se h|A|φ, ψiH = 0 para todo ψ ∈ H. Logo, φ ∈ Ran (|A|)⊥ se e
somente se |A|φ = 0 e, por (23.54), se e somente se Aφ = 0. Assim, concluı́mos que
⊥ (23.54)
Ran (|A|) = Ran (|A|)⊥ = Ker (|A|) = Ker (A) . (23.56)
Vamos agora estender U para todo H. Uma possı́vel extensão é a seguinte. Lembremos pelo
Teorema da Decomposição Ortogonal (Teorema 22.2, página 991) que todo ξ ∈ H pode ser escrito na
⊥
forma ξ = χ + φ com χ ∈ Ran (|A|) e φ ∈ Ran (|A|) . Assim, definimos U ξ := U χ, o que equivale
⊥
a impor que U age como o operador nulo em Ran (|A|) . Novamente, denotamos essa extensão
⊥
também por U e, como Ran (|A|) = Ker (A) (vide (23.56)), continua valendo A = U |A|. Como U
⊥
é uma isometria quando restrito a Ran (|A|) , tem-se Ker (U ) = Ker (A).
Provemos agora a unicidade. Seja V uma isometria parcial tal que A = V |A| e Ker (V ) = Ker (A).
É evidente que para todo ψ ∈ H vale 0 = Aψ − Aψ = V |A|ψ − U |A|ψ, o que prova que V = U em
Ran (|A|) e, conseqüentemente, em Ran (|A|), pois U e V são limitados. Como V e U são nulos em
⊥
Ran (|A|) = Ker (A), concluı́mos que V = U em toda parte.
23.4 Um Pouco sobre Estados e Representações de Álgebras

C∗
Conforme a definição que apresentamos em páginas anteriores, uma álgebra normada C é dita ser uma
álgebra C∗ se for uma álgebra de Banach-∗ com relação a uma certa norma k · k e com a propriedade
adicional que ka∗ ak = kak2 para todo a ∈ C. Álgebras C∗ têm, como teremos a oportunidade de ver,
uma relação ı́ntima com a teoria de operadores em espaços de Hilbert, até mesmo por que a álgebra
B(H) dos operadores limitados agindo em um espaço de Hilbert H é um exemplo básico de álgebra C ∗ .
Por abstraı́rem e generalizarem várias das propriedades de álgebras de operadores agindo em espaços
de Hilbert, álgebras C∗ desempenham também um papel importante na Fı́sica Quântica. Vamos nesta
seção discutir algumas das suas propriedades mais básicas.
• Funcionais Lineares em Álgebras C∗
Se C é uma álgebra C∗ , uma aplicação φ : C → é dita ser um funcional linear se φ(αa + βb) =
αφ(a) + βφ(b) para todos α, β ∈ e todos a, b ∈ C. Como toda álgebra C∗ é um espaço de Banach
vale também a afirmação que um funcional linear φ é contı́nuo se e somente se for limitado, ou seja, se
existir M ≥ 0 tal que kφ(a)k ≤ M kak para todo a ∈ C. Se um funcional linear φ é limitado sua norma
é definida por kφk = supa∈C, a6=0 |φ(a)|
kak
. Claramente vale também aqui a afirmação que o conjunto dos
funcionais lineares limitados é um espaço de Banach em relação à essa norma.
Um funcional linear φ é dito ser positivo se φ(a∗ a) ≥ 0 para todo a ∈ C. Funcionais lineares
positivos desempenham um importante papel na teoria das álgebras C∗ .
Se φ é um funcional linear positivo de uma álgebra C∗ , C, podemos definir em C uma forma
sesquilinear positiva (para a definição, vide página 112) dada por
ha, bi = φ(a∗ b), a, b ∈ C.
E. 23.20 Exercı́cio. Verifique que isso é de fato uma forma sesquilinear positiva em C. 6
Pelo Teorema 2.6, página 113, valem para qualquer funcional linear positivo φ as seguintes propri-
edades:
φ(a∗ b) = φ(b∗ a) (23.57)
e
|φ(a∗ b)|2 ≤ φ(a∗ a)φ(b∗ b), (23.58)
denominada desigualdade de Cauchy-Schwarz. De (23.57) é possı́vel provar que para qualquer funcional
linear positivo φ vale φ(a∗ ) = φ(a) para todo a ∈ C. A prova é trivial no caso de a álgebra ter uma
identidade (tome-se b = em (23.57)). Para a prova no caso geral, veja as referências [14], [28] ou [7].
Um importante resultado sobre funcionais lineares positivos é o seguinte.
Teorema 23.23 Todo funcional linear positivo em uma álgebra C∗ é limitado e, portanto, contı́nuo.
Fora isso, se a álgebra tiver unidade e φ é um funcional positivo vale kφk = φ( ). 2
Prova. Apresentaremos apenas a demonstração para álgebras que possuem uma unidade. A demons-
tração completa pode ser encontrada, por exemplo, nas referências [14], [28] ou [7].
Notemos primeiramente que se φ é um funcional linear positivo em uma álgebra com unidade então
φ( ) ≥ 0, pois φ( ) = φ( ∗ ) ≥ 0, já que φ é positivo.
Seja x ∈ C com a propriedade que kxk ≤ 1. Então o Corolário 23.7, página 1072, diz-nos que existe
um elemento y ∈ C tal que − x∗ x = y ∗ y. Se φ é um funcional linear positivo, tem-se então que
φ( − x∗ x) = φ(y ∗ y) ≥ 0, ou seja,
0 ≤ φ(x∗ x) ≤ φ( ). (23.59)
Por outro lado, vale que
|φ(x)|2 = |φ( ∗ x)|2 ≤ φ( ∗

)φ(x∗ x) = φ( )φ(x∗ x) ≤ φ( )2 ,
onde usamos a desigualdade de Cauchy-Schwarz (23.58) na primeira desigualdade e (23.59) na última

a
desigualdade. Se a é um elemento não-nulo arbitrário de C então x = é tal que kxk = 1 e, por
kak
isso, vale pela relação que acabamos de provar:
2
a
φ ≤ φ( )2
kak
o que implica |φ(a)| ≤ φ( )kak, para todo a 6= 0. Como essa relação vale trivialmente para a = 0, vale
para todo a ∈ C, provando que φ é limitado.
Mostremos agora que kφk = φ( ) para qualquer funcional linear positivo φ. Notemos primeiramente
que φ( ) ≤ kφk k k, ou seja,
φ( ) ≤ kφk. (23.60)
Agora, pela desigualdade de Cauchy-Schwarz (23.58) temos
|φ(a)|2 = |φ( ∗ a)|2 ≤ φ( ) φ(a∗ a) ≤ φ( )kφk ka∗ ak = φ( ) kφk kak2,
o que implica
|φ(a)|2
kφk2 = sup ≤ φ( )kφk,
a6=0 kak2
que diz-nos que
kφk ≤ φ( ).
Junto com (23.60), isso implica kφk = φ( ), como querı́amos.
• Estados em Álgebras C∗
Um funcional linear positivo ω de uma álgebra C∗ é dito ser um estado se for normalizado de forma
que kωk = 1. Se a álgebra tiver uma unidade isso equivale a dizer que ω( ) = 1.
Estados desempenham um papel da maior importância na teoria das álgebras C∗ e suas aplicações
em Fı́sica pois, como teremos a oportunidade de discutir, estados de álgebras C∗ estão intimamente
ligados a estados fı́sicos de sistemas quânticos (daı́ a escolha do nome “estado”).
Por ora, e já no intuito de preparar essa discussão, mostremos uma construção importante que pode
ser feita com estados de uma álgebra C∗ , a chamada construção GNS, que consiste em um procedimento
canônico de obtenção de representações de álgebras C∗ em espaços de Hilbert, algo de suma relevância
para as aplicações de álgebras C∗ na fı́sica quântica.
• Vetores Cı́clicos
Seja H um espaço de Hilbert e S um conjunto de operadores limitados agindo em H. Um vetor

Ω ∈ H é dito ser um vetor cı́clico para o conjunto S se o conjunto de vetores {AΩ, A ∈ S} for um
conjunto denso em H.
• A Construção GNS
Teorema 23.24 Seja ω um estado de uma álgebra C∗ que denotaremos por C. É possı́vel com esses
ingredientes construir um espaço de Hilbert Hω e uma representação πω da álgebra C por operadores
limitados agindo em Hω tal que πω (a∗ ) = πω (a)∗ para todo a ∈ C (uma representação com essa propri-
edade é dita ser uma representação-∗). Fora isso, se a álgebra C possuir uma unidade então existe em
Hω um vetor Ω com a propriedade que ω(a) = hΩ, πω (a)ΩiHω . Esse vetor Ω é um vetor cı́clico para a
representação πω , ou seja, {πω (a)Ω, a ∈ C} é um conjunto denso em Hω . 2
A construção do espaço de Hilbert Hω e da representação πω é denominada construção GNS em

honra a Gelfand21 , Naimark22 e Segal23 que a desenvolveram nos anos 1940.
Prova. A idéia da demonstração é usar o fato que C é um espaço vetorial e tentar transformar C em
um espaço de Hilbert, definindo primeiramente em C um produto escalar.
Podemos, usando o estado ω, definir em C uma forma sesquilinear positiva por ha, bi := ω(a∗ b) com
a, b ∈ C. Sucede, porém, que pode haver elementos não-nulos n da álgebra para os quais ω(n ∗ n) = 0.
Para esses elementos terı́amos hn, ni = 0 com n 6= 0. Isso diz-nos que a forma sesquilinear positiva
acima não é, em geral, um produto escalar e, portanto, essa tentativa ingênua de fazer de C um espaço
de Hilbert em geral falha. Há, no entanto, um procedimento que permite contornar esse problema,
o qual passaremos a descrever. Esse procedimento já foi, aliás, discutido no tópico sobre “Formas
Sesquilineares Positivas e Produtos Escalares”, página 117.
Vamos olhar mais de perto o conjunto dos elementos n da álgebra com a propriedade acima. De-
nominemos
N = {n ∈ C| ω(n∗ n) = 0}. (23.61)
Vamos mostrar os seguintes três fatos sobre N:
1. Tem-se que
N = {n ∈ C| ω(b∗ n) = 0 para todo b ∈ C}.
2. N é um sub-espaço linear fechado de C.
3. N é um ideal à esquerda de C, ou seja, para cada n ∈ N vale que an ∈ N para todo a ∈ C.
Prova de 1. Seja N1 = {n ∈ C| ω(b∗ n) = 0 para todo b ∈ C}. Pela desigualdade de Cauchy-

Schwarz tem-se que
|ω(b∗ n)|2 ≤ ω(b∗ b)ω(n∗ n).
Assim, se n ∈ N vale que ω(b∗ n) = 0 para todo b ∈ C. Logo N ⊂ N1 . Agora, se n0 ∈ N1 então
ω(b∗ n0 ) = 0 para todo b, em particular para b = n0 , ou seja, ω((n0 )∗ n0 ) = 0, ou seja, n0 ∈ N, provando
que N1 ⊂ N. Logo, N = N1 .
21
22
Mark Aronovich Naimark (1909-1978).
23
I. E. Segal ().
Prova de 2. Sejam m, n ∈ N e α, β ∈ . Então para qualquer b ∈ C valem ω(b∗ m) = ω(b∗ n) = 0.

Logo,
ω(b∗ (αm + βn)) = αω(b∗ m) + βω(b∗ n) = 0,
mostrando que αm + βn ∈ N.
Seja ni , i ∈ , uma seqüência em N que converge a um elemento n ∈ C. Pela continuidade de ω

(lembre-se que ω é um funcional linear positivo e, portanto, contı́nuo), vale para todo b ∈ C
ω(b∗ n) = lim ω(b∗ ni ) = lim 0 = 0,

i→∞ i→∞
provando que N é fechado.

Prova de 3. Sejam n ∈ N, a, b ∈ C. Temos que
ω(b∗ (an)) = ω((a∗ b)∗ n) = 0 (por que?).
Assim, para todo b ∈ C vimos que ω(b∗ (an)) = 0, o que prova que an ∈ N para todo a ∈ C e todo
n ∈ N, ou seja, N é um ideal à esquerda de C.
Uma vez provadas essas três propriedades de N, vamos retomar a construção do espaço de Hilbert
Hω . Como N é um sub-espaço de C, podemos construir o sub-espaço quociente C/N pela construção
delineada na seção 2.1.1, página 93. O espaço C/N é formado pelas classes de equivalência [a] =
{a + n, n ∈ N}, a ∈ C e tem por vetor nulo [0] = {n, n ∈ N} = N.
Seguindo a idéia anterior, definimos em C/N a forma sesquilinear positiva dada por
h[a], [b]i = ω(a∗ b).
Notemos que essa expressão é bem-definida, no sentido que o lado direito não depende do representante
tomado nas classes. Assim, se substituı́ssemos a por a + n com n ∈ N, o lado direito ficaria
ω((a + n)∗ b) = ω(a∗ b) + ω(n∗ b) = ω(a∗ b)
pois ω(n∗ b) = ω(b∗ n) = 0. Analogamente ω(a∗ (b + n)) = ω(a∗ b). Notemos também que h[a], [b]i é
agora um produto escalar, pois h[a], [a]i = ω(a∗ a) que é zero se e somente se a ∈ N, em cujo caso
terı́amos [a] = [0] (por que?).
O espaço C/N é assim um espaço vetorial dotado de um produto escalar. Normalmente C/N
não é completo em relação à norma induzida por esse produto escalar, mas podemos considerar seu
completamento canônico C/N g (vide página 739) que é completo e, portanto, é um espaço de Hilbert.
g
Esse é o espaço de Hilbert Hω do enunciado do teorema: Hω = C/N.
Passemos agora à construção da representação πω da álgebra C. Pela construção do completamento
canônico podemos considerar C/N como um subconjunto denso de Hω = C/N. g Para a ∈ C, definamos
πω (a) em C/N da seguinte forma:
πω (a)[z] = [az], (23.62)
z ∈ C.
Há uma série de coisas a se provar sobre essa definição. Primeiro notemos que a expressão (23.62)
é bem definida no sentido que independe do elemento z tomado na classe. Isso se deve ao fato de
N ser um ideal à esquerda da álgebra C. Assim, se trocássemos z por z + n com n ∈ N terı́amos

a(z + n) = az + an e como an ∈ N, segue que [a(z + n)] = [az].
É também evidente pela definição (23.62) que em C/N tem-se para todo [z] ∈ C/N que
πω (αa + βb)[z] = απω (a)[z] + βπω (b)[z] (23.63)
e
πω (a)πω (b)[z] = πω (ab)[z], (23.64)
para todos α, β ∈ e todos a, b ∈ C. Notemos que (23.63) e (23.64) dizem que πω é uma representação
de C em C/N. Mais abaixo vamos mostrar que essas relações são válidas não apenas no conjunto denso
C/N, mas em todo Hω .
Vamos agora mostrar que para cada a ∈ C, πω (a) é um operador limitado agindo em C/N.
Temos que para [z] ∈ C/N, [z] 6= [0]
kπω (a)[z]k2 = k[az]k2 = h[az], [az]i = ω((az)∗ (az)) = ω(z ∗ (a∗ a)z)
ω(z ∗ (a∗ a)z) ∗ ω(z ∗ (a∗ a)z)

= ω(z z) = k[z]k2 . (23.65)
ω(z ∗ z) ω(z ∗ z)
Tem-se, porém, que

ω(z ∗ az)
φ(a) := (23.66)
ω(z ∗ z)
é um estado em C. De fato φ é positivo, pois
ω(z ∗ (c∗ c)z) ω((cz)∗ (cz))

φ(c∗ c) = = ≥ 0
ω(z ∗ z) ω(z ∗ z)
pois ω é positivo. Fora isso φ( ) = 1, como facilmente se vê. Assim, tem-se kφk = 1 e, portanto,
|φ(c)| ≤ kφk kck ≤ kck para todo c ∈ C.
Retornando à (23.65), tem-se
kπω (a)[z]k2 = φ(a∗ a) k[z]k2 ≤ kφk ka∗ ak k[z]k2 = ka∗ ak k[z]k2 = kak2 k[z]k2 ,
donde concluı́mos que em C/N vale

kπω (a)k ≤ kak.
Isso provou que πω (a) é um operador limitado agindo no sub-espaço denso C/N. Podemos então
evocar o Teorema BLT (página 1017) e dizer que πω (a) tem uma extensão única para todo Hω , que
também denotaremos por πω (a), com a mesma norma operatorial. Portanto, vale também para essa
extensão que kπω (a)k ≤ kak.
Pela continuidade de πω (a) é fácil ver que as relações (23.63) e (23.64) valem para todo H ω , ou seja,
πω (αa + βb) = απω (a) + βπω (b) (23.67)

e
πω (a)πω (b) = πω (ab), (23.68)
provando que πω é uma representação da álgebra por operadores limitados em Hω .
Falta-nos mostrar ainda que πω (a∗ ) = πω (a)∗ para todo a ∈ C. Notemos que para [x], [y] ∈ C/N
vale
h[x], πω (a∗ )[y]i = h[x], [a∗ y]i = ω(x∗ a∗ y) = ω((ax)∗ y)
= h[ax], [y]i = hπω (a)[x], [y]i = h[x], πω (a)∗ [y]i, (23.69)
provando que em C/N vale πω (a∗ ) = πω (a)∗ . Por continuidade essa relação pode ser estendida para
todo Hω , mostrando que πω é uma representação-∗ de C.
Se C tem uma unidade, seja Ω = [ ] e calculemos hΩ, πω (a)Ωi:
hΩ, πω (a)Ωi = h[ ], πω (a)[ ]i = h[ ], [a ]i = h[ ], [a]i = ω( ∗ a) = ω(a).
Assim, vemos que o vetor Ω, em um certo sentido “representa” o estado ω em Hω , pois ω(a) =
hΩ, πω (a)Ωi para todo a ∈ C.
Que Ω á um vetor cı́clico para a representação πω é elementar pois, {πω (a)Ω, a ∈ C} = {[a], a ∈
C} = C/N e C/N é obviamente denso em Hω = C/N. g
Isso completa a demonstração do teorema.
• A Construção GNS. Um exemplo
Vamos agora mostrar a construção GNS em um caso mais ou menos explı́cito.

O Teorema 23.11, página 1042 diz-nos que para um espaço de Hilbert H o conjunto B(H) dos
operadores lineares agindo em H é uma álgebra C∗ . Para o caso em que H é o espaço de dimensão
finita n , B(H) coincide com a álgebra Mat(n, ) das matrizes n × n com entradas complexas.
Se M é uma matriz cujos elementos são Mij , i, j ∈ {1, . . . , n}, define-se o traço de M por
n
X
tr (M ) = Mii .
i=1
É bem sabido que para duas matrizes quaisquer M e N vale a chamada propriedade cı́clica do traço:
tr (M N ) = tr (N M ). Fora isso, tem-se que
n
X n X
X n n X
X n n X
X n
tr (M ∗ M ) = (M ∗ M )ii = (M ∗ )ik Mki = Mki Mki = |Mki |2 ,
i=1 i=1 k=1 i=1 k=1 i=1 k=1
o que diz-nos que

tr (M ∗ M ) ≥ 0 (23.70)
para qualquer matriz M .
Note-se também que se M é tal que tr (M ∗ M ) = 0 então

n X
X n
|Mki |2 = 0,
i=1 k=1
o que só é possı́vel se Mij = 0 para todos i e j, ou seja,
tr (M ∗ M ) = 0 ⇐⇒ M = 0. (23.71)
Seja ρ uma matriz n × n com as seguintes propriedades: ρ é auto-adjunta, seus autovalores r i

satisfazem ri ≥ 0. Como é bem sabido, se ρ é auto-adjunta, ρ pode ser diagonalizada por uma
transformação unitária, ou seja, existe uma matriz V ∈ Mat(n, ) unitária (V ∗ V = V V ∗ = ) tal que
V ∗ ρV é a matriz diagonal  
r1
 .. 
V ∗ ρV = Dρ =  . .
rn
Dada uma matriz ρ como acima, podemos definir uma matriz ρ1/2 da seguinte forma:
ρ1/2 := V Dρ1/2 V ∗ ,
onde  √ 
r1
 .. 
Dρ1/2 =  . .
√
rn
É fácil ver que
ρ1/2 ρ1/2 = (V Dρ1/2 V ∗ )(V Dρ1/2 V ∗ ) = V (Dρ1/2 )2 V ∗ = V Dρ V ∗ = ρ.
Para futuros propósitos vamos definir também P , o projetor ortogonal sobre o sub-espaço fechado
Im(ρ1/2 ): se n 3 u = v + w, com v ∈ Im(ρ1/2 ) e w ∈ (Im(ρ1/2 ))⊥ então
P u = v. (23.72)
É fácil mostrar que P é auto-adjunto e satisfaz (P )2 = P (mostre!). Fora isso, é óbvio pela definição
que P ρ1/2 = ρ1/2 . Como ρ1/2 é auto-adjunto, concluı́mos que
ρ1/2 = (ρ1/2 )∗ = (P ρ1/2 )∗ = ρ1/2 P,
o que mostra que

P ρ1/2 = ρ1/2 P = ρ1/2 .
Isso tem por conseqüência que
P ρP = (P ρ1/2 )ρ1/2 P = ρ1/2 ρ1/2 = ρ. (23.73)
Usaremos isso adiante.

Vamos supor que ρ também satisfaça tr (ρ) = 1. Então, é fácil constatar que
Mat(n, ) 3 A 7→ ωρ (A) = tr (ρA)
é um estado em Mat(n, ). De fato, ωρ é um funcional linear e também positivo, pois
ωρ (A∗ A) = tr (ρA∗ A) = tr (ρ1/2 ρ1/2 A∗ A) = tr (ρ1/2 A∗ Aρ1/2 ) = tr ((Aρ1/2 )∗ Aρ1/2 ) ≥ 0, (23.74)
pela propriedade (23.70). Fora isso, é claro que ωρ ( ) = tr (ρ ) = tr (ρ) = 1.

É possı́vel mostrar (não o faremos aqui) que todo estado de Mat(n, ) é da forma ω ρ , para algum
ρ com as propriedades acima.
Uma primeira tentativa
Como Mat(n, ) é também um espaço vetorial. Vamos definir em Mat(n, ) um produto escalar
dado por
hA, Bi = tr (A∗ B). (23.75)
Por (23.70) e (23.71) segue que h·, ·i é de fato um produto escalar.
E. 23.21 Exercı́cio. Mostre que Mat(n, ) é um espaço de Hilbert com o produto escalar de (23.75).
6
O exercı́cio acima diz-nos que o espaço vetorial Mat(n, ) é um espaço de Hilbert com o produto
escalar h·, ·i de (23.75). Como tal, denominaremos o espaço vetorial Mat(n, ) por H.
Definimos uma representação π de Mat(n, ) em H da seguinte forma:
π(A)B = AB,
para matrizes A e B ∈ Mat(n, ). É trivial verificar que π assim definida é uma representação da
álgebra Mat(n, ) em H.
Definindo-se
Ωρ := ρ1/2 ∈ H,
tem-se
hΩρ , π(A)Ωρ i = hρ1/2 , π(A)ρ1/2 i = hρ1/2 , Aρ1/2 i = tr ((ρ1/2 )∗ Aρ1/2 )
= tr (ρ1/2 Aρ1/2 ) = tr (ρ1/2 ρ1/2 A) = tr (ρA) = ωρ (A). (23.76)
Vemos assim que o vetor Ωρ = ρ1/2 “representa” o estado ωρ em H.

Um problema com essa construção é o seguinte. Pelas hipóteses assumidas não é sempre verdade
que ρ e ρ1/2 são invertı́veis. Conseqüentemente não podemos garantir que Ωρ é um vetor cı́clico
para a representação π, pois se ρ1/2 não for invertı́vel nem toda a matriz pode ser escrita da forma
π(A)ρ1/2 = Aρ1/2 , para algum A ∈ Mat(n, ) (por que?). Assim, caso ρ não possua inversa, a
construção apresentada acima não coincide com a construção GNS.
A Construção GNS
A alternativa correta é começar definindo em Mat(n, ) uma forma sesquilinear positiva dada agora
por
hA, Biρ = ωρ (A∗ B) = tr (ρA∗ B). (23.77)
Que h·, ·iρ é uma forma sesquilinear é claro. Que é positiva segue de (23.74).
Como hA, Aiρ = tr ((Aρ1/2 )∗ Aρ1/2 ), o conjunto N de (23.61) vem a ser agora
N = {N ∈ Mat(n, )| N ρ1/2 = 0}.

Se ρ1/2 não for invertı́vel, N pode ter outros elementos além da matriz nula. Note que N = {N ∈
Mat(n, )| Ker (N ) ⊃ Im(ρ1/2 ) = 0} e que se ρ1/2 não é invertı́vel, não é sobrejetora, ou seja, Im(ρ1/2 )
é um conjunto menor que n .
Sejam as classes de equivalência [A] = {A+N, N ∈ N}, A ∈ Mat(n, ). Afirmamos que AP ∈ [A],
onde P é o projetor sobre Im(ρ1/2 ), definido em (23.72). De fato, como P ρ1/2 = ρ1/2 (por que?), segue
facilmente que
(AP − A)ρ1/2 = Aρ1/2 − Aρ1/2 = 0,
provando que AP − A ∈ N. Podemos assim identificar Mat(n, )/N com o subconjunto de Mat(n, )
formado pelas matrizes da forma AP com A ∈ Mat(n, ):
Mat(n, )/N ≡ {AP, A ∈ Mat(n, )}.
Como no caso da construção geral, definimos em Mat(n, )/N um produto escalar por
hAP, BP iρ = ωρ ((AP )∗ BP ) = ωρ (P ∗ A∗ BP ) = ωρ (P A∗ BP )
= tr (ρP A∗ BP ) = tr ((P ρP )A∗ B) = tr (ρA∗ B) = ωρ (A∗ B). (23.78)

Acima usamos (23.73).
É um exercı́cio simples (faça!) mostrar que Mat(n, )/N é um espaço de Hilbert com esse produto
escalar.
Definimos uma representação πρ de Mat(n, ) agindo em Mat(n, )/N por
πρ (A)BP = (AB)P,
A, B ∈ Mat(n, ).
Note-se também que Mat(n, )/N 3 P = P . É evidente que
{πρ (A)P, A ∈ Mat(n, )} = {AP, A ∈ Mat(n, )} = Mat(n, )/N,
mostrando que P ∈ Mat(n, )/N é um vetor cı́clico para a representação π ρ .
Definindo-se
Ωρ := P ∈ Mat(n, )/N,
teremos
hΩρ , πρ (A)Ωρ iρ = hP, AP iρ = ωρ (P ∗ AP ) = tr (ρP AP )
= tr ((P ρP )A) = tr (ρA) = ωρ (A), (23.79)

onde usamos novamente (23.73). Vemos assim que o vetor Ωρ “representa” o estado ωρ em Mat(n, )/N.
23.5 O Espectro de Operadores em Espaços de Banach

A noção de espectro é de grande importância tanto no estudo de propriedades estruturais de operadores
quanto em aplicações. Na Fı́sica Quântica sua relevância manifesta-se já nos seus fundamentos, pois é
um postulado básico que os valores obtidos em mensurações individuais de um observável são elementos
do espectro do operador auto-adjunto a ele associado. Nessa seção trataremos de definir o conceito de
espectro de modo preciso e geral. O estudo do espectro de operadores tem uma de suas culminações
no teorema espectral, do qual trataremos com detalhe mais adiante em diversos casos de interesse.
Comecemos com uma advertência. Muitos estudantes, especialmente de Fı́sica, têm a noção pre-
concebida (oriunda de maus cursos e/ou de imprecisões matemáticas de alguns (muitos) livros-texto
introdutórios de Mecânica Quântica) que o espectro de um operador coincide com o conjunto de seus
autovalores. Essa noção é incorreta. Como discutiremos, o espectro de um operador é, em geral, maior
que o conjunto de seus autovalores. Há, de fato, certos tipos de operadores cujo espectro coincide
com o conjunto de autovalores (tal é o caso de matrizes agindo em espaços de dimensão finita, ou de
operadores compactos auto-adjuntos), mas tais situações são especiais. Há mesmo operadores (vere-
mos exemplos) que não possuem autovalores, mas têm um espectro não-trivial. Lamentavelmente, tal
noção incorreta é a fonte de muitos mal-entendidos (nem sempre inconseqüentes!) entre a comunidade
de fı́sicos e a de matemáticos e isso é mais uma razão para sugerirmos um estudo cuidadoso da noção
de espectro.
• O conjunto resolvente e o espectro de um operador
Seja X um espaço de Banach e seja T ∈ B(X) um operador limitado agindo em X. Dizemos que um
número complexo λ ∈ é um elemento do conjunto resolvente de T se o operador λ − T for bijetor
como aplicação de X em X. Estamos no caso 1 do Teorema 23.13 e, pelo Teorema da Aplicação Inversa,
Teorema 23.8, página 1038, isso implica que (λ − T )−1 um operador limitado de X em X, ou seja, um
elemento de B(X).
Assim, definimos o conjunto resolvente de T ∈ B(X), denotado por ρ(T ), por
n o
ρ(T ) := λ ∈ | λ − T é bijetor .
Dizemos que um número complexo λ ∈ é um elemento do espectro de T se λ não for um elemento

do conjunto resolvente de T , ou seja, se λ − T não for bijetor como aplicação de X em X.
Assim, definimos o espectro de T ∈ B(X), denotado por σ(T ), por
σ(T ) := \ ρ(T ) ,
ou seja, n o
σ(T ) := λ ∈ | λ − T não é bijetor .
Nota. A razão da nomenclatura “conjunto resolvente” é a seguinte: em muitas aplicações (como no caso
de equações integrais) interessa-nos resolver equações do tipo (λ −T )ψ = φ para todo φ elemento de um
espaço de Banach X. Isso só é possı́vel se λ − T for bijetor, em cujo caso a solução é ψ = (λ − T ) −1 φ.
• Tipos de espectro. O espectros pontual, contı́nuo e residual
Um ponto de central importância na análise de propriedades de operadores é classificar seu espectro

de acordo com certas categorias. Há várias classificações que correspondem a vários tipos de espectro
(não-necessariamente disjuntos, como conjuntos): o espectro pontual, o espectro residual, o espectro
contı́nuo, o espectro absolutamente contı́nuo, o espectro singular contı́nuo, o espectro essencial, o
espectro transiente, o espectro recorrente e possivelmente outros. Trataremos de alguns desses tipos de
espectro nestas Notas, começando aqui pela classificação do espectro de operadores agindo em espaços
de Banach em espectro pontual, contı́nuo e residual.
Se T ∈ B(X) é um operador limitado agindo em um espaço de Banach X e λ é um elemento de
σ(T ), então λ − T não é bijetor. Estamos no caso 2 do Teorema 23.13, página 1055, o qual quebra-se
em três casos mutuamente exclusivos:
Caso a. O operador λ − T não é injetor, e (λ − T )−1 não pode ser definida na imagem de λ − T ,
pois Ker (λ − T ) é não-trivial, ou seja, existe v 6= 0 com T v = λv. Isso nos diz λ é autovalor de
T . Isso conduz à seguinte definição:
Denotamos por σp (T ) o conjunto de todos os autovalores de T :
σp (T ) := {λ ∈ | ∃ x ∈ X, x 6= 0, tal que T x = λx} .
σp (T ) é denominado espectro pontual de T , ou espectro discreto de T ou ainda espectro de auto-

valores de T . Claro está que σp (T ) ⊂ σ(T ). É importante frisar que esses dois conjuntos podem
não ser coincidentes e que se pode ter σp (T ) = ∅. Veremos exemplos mais abaixo.
Caso b. O operador λ − T é injetor, Ker (λ − T ) é composto apenas pelo vetor nulo (e, portanto, λ
não é autovalor de T ). Fora isso Ran (λ −T ) é denso e (λ −T )−1 existe agindo em Ran (λ −T )
mas não é limitada. Isso conduz à seguinte definição:
Denotamos por σc (T ) o conjunto de todos os λ ∈ tais λ não é um autovalor de T , Ran (λ − T )
é denso e (λ − T )−1 existe agindo em Ran (λ − T ) mas não é limitada. σc (T ) é denominado
espectro contı́nuo de T 24 .
Por fim, temos o
Caso c. O operador λ − T é injetor, Ker (λ − T ) é composto apenas pelo vetor nulo (e, portanto,
λ não é autovalor de T ). Porém, Ran (λ − T ) não é denso e (λ − T )−1 existe agindo em
Ran (λ − T ), podendo ser limitada ou não. Isso conduz à seguinte definição:
Denotamos por σr (T ) o conjunto de todos os λ ∈ tais λ não é um autovalor de T , Ran (λ − T )
não é denso e (λ − T )−1 existe agindo em Ran (λ − T ), podendo ser limitada ou não. σr (T ) é
denominado espectro residual de T .
Está claro pelas definições acima que
σ(T ) = σp (T ) ∪ σc (T ) ∪ σr (T ) (23.80)
24
Vale aqui advertir o estudante que alguns textos, como [99], [103] e [68], adotam uma definição diferente de espectro
contı́nuo. Nossa definição é encontrada em textos como [132], [75] e outros.
sendo a união disjunta. Os vários tipos de espectro descritos acima serão ilustrados em exemplos
apresentados mais abaixo (página 1097), aos quais o leitor poderá passar agora, se o desejar, mas
para a uma melhor compreensão dos mesmos precisamos antes de alguns resultados gerais da teoria
espectral.
• O operador resolvente e propriedades topológicas do espectro
Se um número complexo λ pertence ao conjunto resolvente de T ∈ B(X), define-se o operador

resolvente de T calculado em λ, denotado por Rλ (T ), por
Rλ (T ) := (λ − T )−1 .
Pelas hipóteses Rλ (T ) é bijetor para todo λ ∈ ρ(T ) e é um elemento de B(X) (pelo Teorema da
Aplicação Inversa, Teorema 23.8, página 1038).
Muitas propriedades de ρ(T ) (e, portanto de σ(T )) podem ser derivadas de propriedades de seus
operadores resolventes. Por exemplo, mostraremos mais adiante que ρ(T ) é sempre um conjunto aberto
de (e, portanto, σ(T ) é sempre um conjunto fechado de ) e mostraremos também que σ(T ) nunca
é igual a todo (e, portanto, σ(T ) nunca é vazio).
Proposição 23.32 (Primeira identidade do resolvente) Seja X um espaço de Banach e T ∈
B(X). Se λ e µ pertencem ao conjunto resolvente ρ(T ) de T , então
Rλ (T ) − Rµ (T ) = (µ − λ)Rλ (T )Rµ (T ) . (23.81)
A demonstração é idêntica àquela da Proposição 23.21, página 1061. Iremos agora estabelecer uma
série de resultados sobre propriedades do operador resolvente que culminarão com a Proposição 23.35.
Todos são essencialmente casos particulares de resultados demonstrados acima no caso geral de álgebras
de Banach com unidade.
Lema 23.5 Seja X um espaço de Banach e T ∈ B(X). Se λ e µ pertencem ao conjunto resolvente
ρ(T ) de T e |λ − µ| < kRµ (T )k−1 então
" ∞
# " ∞
#
X n
X n
Rλ (T ) = Rµ (T ) + (µ − λ)n (Rµ (T )) = + (µ − λ)n (Rµ (T )) Rµ (T ) . (23.82)
n=1 n=1
O lema acima é um caso particular do Lema 23.3, página 1062, para álgebras de Banach com
unidade gerais, e por isso sua demonstração é dispensada.
Proposição 23.33 Seja X um espaço de Banach e T ∈ B(X). Então ρ(T ) é um subconjunto aberto
de , o que implica que σ(T ) é um subconjunto fechado de . 2
Novamente, a proposição acima é um caso particular da Proposição 23.22, página 1063, para álgebras
de Banach com unidade gerais, e por isso sua demonstração é dispensada. A Proposição que segue é o
análogo da Proposição 23.23, página 1063, mas sua demonstração difere por um ligeiro detalhe.
Proposição 23.34 Seja X um espaço de Banach e T ∈ B(X). Então, para cada x ∈ X e para cada
` ∈ X† , funcional linear contı́nuo em X, a função de variável complexa f x, ` : ρ(T ) → dada por
fx, ` (λ) := `(Rλ (T )x) é holomórfica (i.e. analı́tica) em cada componente conexa de ρ(T ). 2
Prova. Seja µ ∈ ρ(T ) e λ tal que |λ − µ| < kRµ (T )k−1 . Tem-se por (23.82) que λ ∈ ρ(T ) e
∞
X !
(23.82)
fx, ` (λ) := `(Rλ (T )x) = ` Rµ (T ) + (µ − λ)n (Rµ (T ))n+1 x
n=1
∞
X
(µ − λ)n ` (Rµ (T ))n+1 x . (23.83)
continuidade
= `(Rµ (T )x) +
n=1
Como
` (Rµ (T ))n+1 x ≤ k`k k (Rµ (T ))n+1 xk ≤ k`k kRµ (T )kn+1 kxk
segue de |λ − µ| < kRµ (T )k−1 que a última série em (23.83) é absolutamente convergente e, portanto,
define uma função holomórfica na bola aberta de raio kRµ (T )k−1 centrada em µ, a qual pode, pelos
procedimentos usuais, ser estendida analiticamente à componente conexa de ρ(T ) que contem µ.
A proposição seguinte é importante, pois finalmente estabelece que o espectro de um operador

contı́nuo em um espaço de Banach nunca é vazio. Trata-se essencialmente de um caso particular da
Proposição 23.24 da página 1063, com a ligeira diferença que na demonstração substituı́mos as funções
f` pelas funções fx, ` definidas acima.
Proposição 23.35 Seja X um espaço de Banach e T ∈ B(X). Então, σ(T ) é um conjunto não-vazio
e está contido na bola fechada de raio kT k centrada em 0: {z ∈ | |z| ≤ kT k}. 2
Prova. Vamos supor que ρ(T ) = . Então, pela Proposição 23.34, para todo x ∈ X e para todo `
funcional linear contı́nuo em X a função fx, ` (λ) := `(Rλ (T )x) seria inteira, isto é, analı́tica em toda
parte. Agora, para |λ| > kT k
" ∞
#
X
Rλ (T ) = (λ − T )−1 = λ−1 ( − λ−1 T )−1 = λ−1 + λ−n T n (23.84)
n=1
de acordo com (23.33) da Proposição 23.14, página 1056, pois pela hipótese kλ −1 T k < 1. Assim,
" ∞ n #
1 X kT k 1
kRλ (T )k ≤ 1+ = .
|λ| n=1
|λ| |λ| − kT k
Isso mostra que lim kRλ (T )k = 0. Logo, como |fx, ` (λ)| = |`(Rλ (T )x)| ≤ k`k kRλ (T )k kxk, segue
|λ|→∞
que lim |fx, ` (λ)| = 0. Com isso, concluı́mos que fx, ` (λ) é uma função inteira, limitada e converge
|λ|→∞
a zero no infinito. Pelo bem-conhecido Teorema de Liouville25 da Análise Complexa, isso implica que
fx, ` (λ) é identicamente nula para todo λ ∈ . Se, porém, `(Rλ (T )x) for nulo para cada funcional linear
contı́nuo ` então, pelo Corolário 23.1, página 1031, terı́amos Rλ (T )x = 0 para todo x ∈ X, um absurdo,
pois Rλ (T ) é a inversa de um operador. Assim concluı́mos que ρ(T ) não pode ser igual a todo e,
portanto, σ(T ) 6= ∅.
Pela Proposição 23.14, página 1056, a expressão (23.84) mostra que R λ (T ) está definida para todo
|λ| > kT k. Assim, {z ∈ | |z| > kT k} ⊂ ρ(T ). Logo, σ(T ) ⊂ {z ∈ | |z| ≤ kT k}.
• O espectro de operadores limitados em espaços de Hilbert
Vamos a partir de agora especializar nossa discussão para operadores agindo em espaços de Hil-
bert. Para apresentarmos nossos próximos resultados, vamos introduzir a seguinte notação: se S ⊂
denotamos por S cc o conjunto dos elementos complexo-conjugados de S: S cc := {z ∈ | z ∈ S}.
Se T é um operador limitado agindo em um espaço de Hilbert H, então pelo item 7 do Teorema
23.11, página 1042 temos que se λ ∈ ρ(T ), vale ((λ − T )∗ )−1 = ((λ − T )−1 )∗ , o que significa que
λ ∈ ρ(T ∗ ) e Rλ (T )∗ = Rλ (T ∗ ). Provamos então o seguinte:
Proposição 23.36 Se T é um operador limitado agindo em um espaço de Hilbert H, então R λ (T )∗ =
Rλ (T ∗ ) para todo λ ∈ ρ(T ), o que implica ρ(T ∗ ) = ρ(T )cc e σ(T ∗ ) = σ(T )cc . 2
• O espectro residual e o pontual em um espaço de Hilbert
A próxima proposição detalha um pouco mais a relação estabelecida na Proposição 23.36 entre σ(T )
e σ(T ∗ ). Dela extrairemos a informação importante que operadores auto-adjuntos agindo em espaços
de Hilbert não têm espectro residual.
Proposição 23.37 Se T é um operador limitado agindo em um espaço de Hilbert H, então
1. σr (T ) ⊂ σp (T ∗ )cc .
2. σp (T ) ⊂ σp (T ∗ )cc ∪ σr (T ∗ )cc . 2
Prova. Se λ ∈ σr (T ) então Ran (λ − T ) não é denso em H. Então existe φ ∈ Ran (λ − T )⊥ não-nulo.

Portanto, hφ, (λ − T )ψi = 0 para todo ψ ∈ H. Isso diz que h(λ − T ∗ )φ, ψi = 0 para todo ψ ∈ H, o
que implica (λ − T ∗ )φ = 0 e, portanto, φ é um autovetor de T ∗ com autovalor λ. Assim, λ ∈ σp (T ∗ ).
Isso provou o item 1.
Se λ ∈ σp (T ), então existe um sub-espaço não-trivial L de H formado pelos autovetores de T com
autovalor λ tal que (λ − T )φ = 0 para todo φ ∈ L. Isso naturalmente implica que h(λ − T ∗ )ψ, φi =
25
hψ, (λ − T )φi = 0 para todo ψ ∈ H e todo φ ∈ L. Portanto, Ran (λ − T ∗ ) é um subconjunto de L⊥ .

Caso λ não for um auto-valor de T ∗ , então isso diz-nos que λ ∈ σr (T ∗ ) (vide a definição de espectro
residual à página 1092). Assim, ou λ ∈ σp (T ∗ ) ou λ ∈ σr (T ∗ ) e, portanto, λ ∈ σp (T ∗ ) ∪ σr (T ∗ ). Isso
provou o item 2.
A proposição acima pode ser generalizada para espaços de Banach, mas não trataremos disso aqui.
Ainda no contexto de espaços de Hilbert temos o seguinte corolário importante que afirma que o
espectro de um operador auto-adjunto é apenas a união do espectro pontual com o contı́nuo.
Corolário 23.12 Se A é um operador limitado e auto-adjunto agindo em um espaço de Hilbert H,
então seu espectro residual é vazio. 2
Prova. Pela Proposição 23.37, página 1095, temos σr (A) ⊂ σp (A), pois A = A∗ e pois σp (A)cc = σp (A),
já que na Proposição 23.7, página 1046, provamos que o espectro pontual de um operador auto-adjunto
agindo em um espaço de Hilbert é real. Agora, pela definição, os espectros residual e pontual são
disjuntos. Logo, σr (A) = ∅.
• O espectro de operadores auto-adjuntos em espaços de Hilbert é real
Devido a sua importância no contexto da Fı́sica Quântica, existe um particular interesse nas pro-
priedades espectrais de operadores auto-adjuntos (limitados ou não) agindo em espaços de Hilbert. Na
Proposição 23.7, página 1046, já provamos que o espectro pontual de tais operadores é um subconjunto
da reta real. O mesmo vale para o espectro completo, como vemos no próximo teorema.
Teorema 23.25 Se A é um operador limitado e auto-adjunto agindo em um espaço de Hilbert H,
então seu espectro é um sub-conjunto da reta real, mais precisamente, é um sub-conjunto fechado de
[−kAk, kAk]. 2
Prova. Esse teorema é um caso particular da Proposição 23.27, página 1067. Apresentamos uma
segunda demonstração que usa a estrutura do espaço de Hilbert.
Seja z ∈ escrito na forma z = x + iy, com x, y ∈ . Se considerarmos o operador Az := z − A,

é fácil verificar que

kAz ψk2 = |y|2 kψk2 + k(x − A)ψk2 . (23.85)
De fato,
kAz ψk2 = hiyψ + (x − A)ψ, iyψ + (x − A)ψi
= |y|2 kψk2 + k(x − A)ψk2 −iyhψ, (x − A)ψi + iyh(x − A)ψ, ψi .

| {z }
=0 pois (x −A) é auto-adjunto
De (23.85), concluı́mos que

kAz ψk ≥ |y| kψk (23.86)
e que (trocando y → −y)

kAz ψk ≥ |y| kψk (23.87)
para todo ψ ∈ H. Assim, vemos que se y 6= 0, então Az ψ é nulo se e somente se ψ = 0, ou seja, Az
é injetora como aplicação de H em Ran (Az ). Assim, existe A−1 z : Ran (Az ) → H. Mostremos que
essa aplicação é limitada. Seja φ ∈ Ran (Az ) e escrevamos φ = Az ψ para algum ψ ∈ H. Teremos por
(23.86) que kφk ≥ |y| kA−1 −1 −1 −1
z φk, de onde concluı́mos que kAz k ≤ |y| , o que prova que Az é limitada.
Com isso, podemos evocar a Proposição 23.13, página 1056, e afirmar que Ran (A z ) é um sub-espaço
fechado de H (caso y 6= 0).
Vamos agora supor que o sub-espaço fechado Ran (Az ) seja diferente de H. Então, para cada
χ ∈ Ran (Az )⊥ não-nulo teremos hχ, Az ψi = 0 para todo ψ ∈ H. Como A∗z = Az , segue que
hAz χ, ψi = 0 para todo ψ ∈ H, o que implica Az χ = 0. Ora, isso contraria (23.87), que vale para todo
ψ ∈ H, pois supomos χ não-nulo.
Logo, concluı́mos que Ran (Az ) = H e como Az é injetora, concluı́mos que A−1
z : H → H existe,
−1 −1 −1
sendo limitada pelo que vimos acima com kAz k ≤ |y| . É claro que Az = Rz (A), o operador
resolvente de A. Assim, estabelecemos que se y 6= 0 então z = x + iy ∈ ρ(A) para todo x ∈ ,
provando que σ(A) ⊂ . Que σ(A) é fechado e que σ(A) ⊂ [−kAk, kAk] segue das Proposições 23.33

e 23.35.
• Alguns exemplos e contra-exemplos
Exemplo 23.1 No caso em que X é o espaço vetorial de dimensão finita n , temos B(X) = Mat ( , n),
o conjunto das matrizes complexas n × n. Nesse caso, se M é uma matriz complexa n × n, σ(M ) é
o conjunto de todos os números complexos tais que a matriz λ − M não tem inversa. Ora, é bem
sabido que uma matriz é não-invertı́vel se e somente se seu determinante for nulo. Logo, σ(M ) = {λ ∈
| det(λ − M ) = 0}, ou seja, σ(M ) coincide com o conjunto das raı́zes do polinômio caracterı́stico
de M : pM (x) = det(x − M ), o qual, pelo Teorema Fundamental da Álgebra, possui n raı́zes não
necessariamente distintas no plano complexo. Assim, σ(M ) não é vazio (o que veremos ser verdade
também para qualquer operador em um espaço de Banach). Se uma matriz K ∈ Mat ( , n) não
possui inversa, sabe-se por um argumento geral que existe pelo menos um vetor não-nulo v ∈ n tal
que Kv = 0 (vide Corolário 3.1 à página 147). Disso concluı́mos que se λ ∈ σ(M ) para uma matriz
M ∈ Mat ( , n) então existe v ∈ n não-nulo tal que (λ − M )v = 0, ou seja, M v = λv. Isso significa
que λ é um autovalor de M (e v um autovetor de M com autovalor λ). Portanto, em Mat ( , n) o
espectro coincide com o conjunto de autovalores. ◊
No caso de espaços de Banach gerais, o fato de um operador K não ser bijetor não necessariamente
implica que exista um vetor não-nulo v tal que Kv = 0. Daı́, no caso de espaços de Banach gerais, o
espectro de um operador não necessariamente coincide com o conjunto de seus autovalores, ainda que
a recı́proca seja verdadeira: todo autovalor λ de um operador T é um elemento de seus espectro, já que
(λ − T ) não é bijetora, pois tanto o vetor nulo 0 quanto um autovetor v não-nulo de T com autovalor
λ são mapeados no vetor nulo 0. Veremos vários exemplos adiante mas, por ora, ilustremos isso com
o seguinte.
Exemplo 23.2 Seja X = C([a, b]) o conjunto de todas as funções complexas contı́nuas definidas no
intervalo [a, b] e seja T : C([a, b]) → C([a, b]) o operador (T f )(x) := xf (x), definido para toda função
contı́nua f . Se T possuı́sse um autovetor não-nulo g com autovalor λ, valeria (T g)(x) = xg(x) = λg(x)
e terı́amos (x − λ)g(x) = 0 para todo x ∈ [a, b]. Ora, isso é impossı́vel se g é não-nulo. Logo T não
tem autovalores. No entanto, (λ − T )f (x) = (x − λ)f (x) e disso vemos que λ − T é bijetora se e
1
somente se λ 6∈ [a, b], pois uma função da forma λ−x g(x) é um elemento de C([a, b]) para qualquer
g ∈ C([a, b]) se e somente se λ 6∈ [a, b]. Concluı́mos disso que ρ(T ) = \ [a, b] e que σ(T ) = [a, b].
Esse operador T tem, portanto, um espectro não-trivial mas não tem autovalores. ◊
Exemplo 23.3 Seja H = `2 , o espaço de Hilbert das seqüências de quadrado somável e considere-se o
seguinte operador definido em `2 :
S(a1 , a2 , a3 , a4 , a5 , . . .) := (0, a1 , a2 , a3 , a4 , . . .) .
S é denominado operador de shift, ou operador de deslocamento. É um exercı́cio elementar constatar

que sua adjunta S ∗ é dada por
S ∗ (a1 , a2 , a3 , a4 , a5 , . . .) := (a2 , a3 , a4 , a5 , a6 , . . .) .
É também elementar provar que kSk = kS ∗ k = 1. Assim, pela Proposição 23.35, página 1094, σ(S) e
σ(S ∗ ) estão contidos na bola fechada de raio 1 centrada em 0.
S não tem autovalores. De fato, suponhamos que exista (a1 , a2 , a3 , a4 , a5 , . . .) ∈ `2 e λ ∈ tais
que S(a1 , a2 , a3 , a4 , a5 , . . .) = λ(a1 , a2 , a3 , a4 , a5 , . . .). Isso significa que
λ(a1 , a2 , a3 , a4 , a5 , . . .) = (0, a1 , a2 , a3 , a4 , . . .) .
Se λ = 0, isso implica que todos os aj ’s são nulos. Se λ 6= 0, temos λa1 = 0, λa2 = a1 , λa3 = a2 etc.,
Mas a primeira relação implica a1 = 0, o que faz com que a segunda relação implique a2 = 0 etc., e
novamente temos que os aj ’s são todos nulos. Assim, S só possui autovetores nulos, ou seja, não possui
autovalores: σp (S) = ∅. Pelo item 1 da Proposição 23.37, página 1095, isso implica σr (S ∗ ) = ∅.
Procuremos agora saber se S ∗ possui autovalores. Seja (a1 , a2 , a3 , a4 , a5 , . . .) ∈ `2 e λ ∈ tais
que S ∗ (a1 , a2 , a3 , a4 , a5 , . . .) = λ(a1 , a2 , a3 , a4 , a5 , . . .). Isso significa que
λ(a1 , a2 , a3 , a4 , a5 , . . .) = (a2 , a3 , a4 , a5 , a6 , . . .) ,
o que implica a2 = λa1 , a3 = λa2 , a4 = λa3 , ou seja, an = λn−1 a1 . Assim, os autovetores serão da
forma
a1 (1, λ, λ2 , λ3 , λ4 , . . .) .
Uma tal seqüência é um elemento de `2 se e somente se |λ| < 1. Concluı́mos que o espectro pontual de
S ∗ é não-vazio e é igual ao disco aberto de raio 1 em centrado em 0: σp (S ∗ ) = {λ ∈ | |λ| < 1}.
Vamos agora mostrar que espectro residual de S é não-vazio. Para λ ∈ com |λ| < 1, seja vλ o
autovetor de S ∗ com autovalor λ dado por vλ = (1, λ, λ2 , λ3 , λ4 , . . .). Temos S ∗ vλ = λvλ . Para todo
x ∈ `2 teremos

hvλ , (λ − S)xi`2 = (λ − S ∗ )vλ , x `2 = 0 .
Disso concluı́mos que para todo x ∈ `2 o vetor (λ − S)x pertence ao sub-espaço ortogonal ao vetor
vλ . Assim, Ran (λ − S) não é denso em `2 para nenhum |λ| < 1 e, conseqüentemente {λ ∈ | |λ| <
1} ⊂ σr (S). Agora, pelo item 1 da Proposição 23.37, página 1095, tem-se também σ r (S) ⊂ σp (S ∗ )cc =
{λ ∈ | |λ| < 1}. Logo, σr (S) = {λ ∈ | |λ| < 1}.
Concluı́mos até agora que σp (S) = ∅, σr (S) = {λ ∈ | |λ| < 1}, σp (S ∗ ) = {λ ∈ | |λ| < 1} e
σr (S ∗ ) = ∅. Como σ(S) é fechado, contido em {λ ∈ | |λ| ≤ 1} e contem σr (S) = {λ ∈ | |λ| < 1},
concluı́mos que σ(S) = {λ ∈ | |λ| ≤ 1}. Analogamente, σ(S ∗ ) = {λ ∈ | |λ| ≤ 1}. Como a união
(23.80) é disjunta, concluı́mos que σc (S) = σc (S ∗ ) = {λ ∈ | |λ| = 1}. Temos finalmente o seguinte
quadro:
σ(S) = {λ ∈ | |λ| ≤ 1}, σp (S) = ∅, σc (S) = {λ ∈ | |λ| = 1}, σr (S) = {λ ∈ | |λ| < 1},
σ(S ∗ ) = {λ ∈ | |λ| ≤ 1}, σp (S ∗ ) = {λ ∈ | |λ| < 1}, σc (S ∗ ) = {λ ∈ | |λ| = 1}, σr (S ∗ ) = ∅.

◊
Exemplo 23.4 (Extraı́do de [99]). Seja X = `∞ , o espaço de Banach das seqüências limitadas e
considere-se o seguinte operador definido em `∞ :
T 0 (a1 , a2 , a3 , a4 , a5 , . . .) := (0, a1 , a2 , a3 , a4 , . . .) .
T 0 é denominado operador de shift (mas note-se que difere de S, definido acima, pois aquele era definido
apenas em `2 ). De maneira análoga ao que fizemos acima para o operador S, mostra-se que T 0 não
possui autovalores: σp (T 0 ) = ∅.
Vamos mostrar agora que todo λ ∈ com |λ| = 1 pertence ao espectro residual de T 0 . Sejam
a = {an } e b = {bn } duas seqüências de `∞ tais que a = (λ − T 0 )b. Isso significa que
(a1 , a2 , a3 , a4 , a5 , . . .) = (λb1 , λb2 − b1 , λb3 − b2 , λb4 − b3 , λb5 − b4 , . . .) .
Assim, teremos a1 = λb1 , a2 = λb2 − b1 , a3 = λb3 − b2 , a4 = λb4 − b3 etc. Como |λ| = 1, tem-se λ−1 = λ
e essas relações implicam
n
n+1 X
bn = λ λm a m , (23.88)
m=1
∞
como facilmente se constata. Se c ∈ ` , tem-se para qualquer n ∈ que
kc − ak∞ = sup |cm − am | ≥ |cn − an | = |λn (cn − an )| = |λn cn − λn an |

m∈
≥ |Re(λn cn − λn an )| ≥ Re(λn cn − λn an ) = Re(λn cn ) − Re(λn an ) ,

onde, acima, usamos que |λn | = 1 pois |λ| = 1 e que |z| ≥ |Re(z)| ≥ Re(z) para qualquer z ∈ .
Concluı́mos disso que
Re(λn an ) ≥ Re(λn cn ) − kc − ak∞ . (23.89)
n
Vamos agora tomar cn da forma cn = λ e seja a ∈ `∞ contido na bola aberta de raio 1/2 centrada
em c, ou seja, kc − ak∞ < 1/2. Por (23.89), teremos que Re(λn an ) ≥ 1 − 1/2 =P 1/2. Dessa forma,
vemos que se b é tal que a = (λ − T 0 )b então, por (23.88), teremos λn+1 bn = nm=1 λm am , o que
implica

|bn | = λn+1 bn ≥ Re λn+1 bn ≥ Re λn+1 bn
n
! n n
(23.88) X X X 1 n
m m
= Re λ am = Re (λ am ) ≥ = .
m=1 m=1 m=1
2 2
Agora, a relação |bn | ≥ n/2 não pode ser satisfeita se b é uma seqüência limitada (ou seja, um elemento
n
de `∞ ). Concluı́mos que a bola aberta de raio 1/2 centrada no elemento c ∈ `∞ dado por cn = λ
não pode estar na imagem de λ − T 0 e, portanto, a imagem de `∞ por esse operador não é densa em
`∞ . Concluı́mos, assim, que σr (T 0 ) contem o cı́rculo unitário {λ ∈ | |λ| = 1}. É possı́vel provar (vide
[99]) que σr (T 0 ) = {λ ∈ | |λ| ≤ 1}. ◊
Exemplo 23.5 Um outro exemplo que estudamos explicitamente é o operador de integração de Vol-
terra W , discutido no Exemplo 23.6 à página 1111 e seguintes. Lá determinamos explicitamente o
operador resolvente de W e seu espectro. ◊
23.6 Operadores Compactos em Espaços de Banach e de Hil-

bert
Nesta seção introduziremos a importante noção de operador compacto. Essa noção é importante por
diversas razões. Em um sentido a ser precisado, operadores compactos agindo entre espaços de Banach
de dimensão infinita são aqueles cujas caracterı́sticas mais se aproximam das de matrizes. Para eles
vale também a forma mais simples do Teorema Espectral, que apresentamos no contexto de matrizes
na Seção 3.4, página 159. Historicamente o estudo de propriedades de operadores compactos deu inicio
à Análise Funcional, através do estudo empreendido entre 1904 e 1910 por Hilbert e colaboradores da
chamada equação integral de Fredholm, a qual surge no tratamento do problema de Sturm-Liouville
(vide Capı́tulo 9, página 521, em particular a Seção 9.5, página 542). Esses trabalhos levaram à
introdução do própria noção de espaço de Hilbert e à primeira versão do Teorema Espectral para
operadores (compactos) agindo em espaços de Hilbert.
• Operadores de posto finito
Sejam A e B dois espaços de Banach e seja M : A → B um operador linear limitado. Dizemos

que M é um operador de posto finito se a imagem de A por M estiver contida em um sub-espaço
de dimensão finita de B. Assim, se M é de posto finito, existe um conjunto de, digamos, N vetores
linearmente independentes b1 , . . . , bN em B tais que M x = β1 (x)b1 + · · · + βN (x)bN para todo x ∈ A,
onde β1 (x), . . . , βN (x) ∈ dependem de x. Como M é linear, é claro que cada βk é um funcional
linear em A. Como M é contı́nuo, vale
N
X N
X
lim βk (x − y)bk = lim βk (x − y)bk = lim M (x − y) = 0 ,
kx−ykA →0 kx−ykA →0 kx−ykA →0
k=1 k=1
o que implica lim βk (x − y) = 0, ou seja, cada βk é um funcional linear contı́nuo (e, portanto,
kx−ykA →0
limitado) de A em . Assim, existe B > 0 tal que |βk (x)| ≤ BkxkA para todo k = 1, . . . , N .
Dessa forma, vemos que se xn , n ∈ , é uma seqüência limitada de vetores em A (ou seja, existe

X > 0 tal que kxn kA ≤ X para todo n ∈ ) então |βk (xn )| ≤ BX para todo n ∈ e todo k. Assim,

XN N
X XN

kM xn kB = βk (xn )bk ≤ |βk (xn )| kbk kB ≤ BX kbk kB .

k=1 B k=1 k=1
Isso diz-nos que todos os vetores da seqüência M xn estão contidos na bola fechada centrada em 0 e
de raio BX(kb1 kB + · · · + kb1 kB ) do sub-espaço de dimensão finita gerado por b1 , . . . , bN . Assim,
pelo bem conhecido Teorema de Bolzano26 -Weierstrass27 , a seqüência M xn , possui pelo menos uma
sub-seqüência convergente.
Essa propriedade, válida para operadores de posto finito, inspira a definição de operadores compac-
tos.
• Operadores Compactos
Um operador linear limitado C agindo entre dois espaços de Banach A e B é dito ser um operador
compacto se para toda seqüência limitada xn ∈ A, n ∈ , a seqüência Cxn em B possui pelo menos

uma seqüência convergente.

A denominação “operador compacto” provem da seguinte propriedade equivalente: um operador
C agindo entre dois espaços de Banach A e B é compacto (seguindo a definição acima) se e somente
se o fecho em B da imagem por C de qualquer conjunto limitado em A é compacto (na topologia de
B). Essa equivalência é uma conseqüência de propriedades bem-conhecidas de conjuntos compactos em
espaços métricos e a prova é deixada como exercı́cio. Essa propriedade pode ser tomada como definição
alternativa da noção de operador compacto e assim é feito em alguns textos.
Como vimos, operadores de posto finito são compactos, mas a recı́proca não é verdadeira em
dimensão infinita. Porém, a seguinte proposição é imediata das observações acima.
Proposição 23.38 Todo operador linear agindo entre dois espaços de Banach de dimensão finita A e
B é compacto. 2
Dentre os exemplos mais importantes de operadores compactos estão os operadores de Fredholm

e de Volterra, discutidos às páginas 1109 e 1110, respectivamente, os quais surgem na teoria das
equações diferenciais e integrais (em particular, no chamado problema de Sturm-Liouville, introduzido
no Capı́tulo 9, página 521) e suas aplicações. Para estudá-los, no entanto, precisamos desenvolver um
pouco a teoria geral.
• Operadores compactos e seqüências fracamente convergentes
Com o uso do Princı́pio de Limitação Uniforme, Teorema 23.6, página 1031, podemos estabelecer
o seguinte resultado fundamental sobre operadores compactos.
Teorema 23.26 Seja C : A → B um operador compacto agindo entre dois espaços de Banach A e B.
Seja xn ∈ A, n ∈ uma seqüência de vetores de A e suponha que exista x ∈ A tal que `(x n ) ∈ ,

n ∈ , seja uma seqüência convergente a `(x) para todo funcional linear contı́nuo ` : A → (i.e., x n

é fracamente convergente a x). Então Cxn ∈ A, n ∈ converge em norma a Cx em B.

2
Prova. Denotemos por A† o dual topológico de A (i.e., A† é o conjunto de todos os funcionais lineares
26
Bernard Placidus Johann Nepomuk Bolzano (1781-1848).
27
contı́nuos de A). O Teorema 23.2, página 1020, diz-nos que A† é igualmente um espaço de Banach com
a norma definida em (23.3), página 1021.
Para z ∈ A definamos a aplicação ẑ : A† → dada por ẑ(`) = `(z). Como |ẑ(`)| = |`(z)| ≤
k`kA† kzkA (pois ` é um funcional linear contı́nuo), segue que ẑ é um funcional linear contı́nuo em A† .
Por (23.4), vale kẑk = kzkA .
Pelas hipóteses, para cada ` ∈ A† a seqüência numérica `(xn ) converge a `(x) ∈ . Daı́, |`(xn )| é
limitada, ou seja, existe M` > 0 tal que |`(xn )| ≤ M` para todo n ∈ .
Para a seqüência xn ∈ A, n ∈ de vetores de A do enunciado, podemos considerar o conjunto

†
de operadores A → xn , n ∈ }. Agora, para cada ` ∈ A† vale
lineares e limitados por S : {c
que |c
xn (`)| ≤ M` para todo xcn ∈ S. Estamos, portanto, sob as condições do Princı́pio de Limitação
Uniforme, Teorema 23.6, página 1031, e podemos afirmar que existe M > 0 tal que kc x n k ≤ M para
todo n ∈ , ou seja, kxn kA ≤ M para todo n ∈ .

Sejam agora definidos em B a seqüência yn := Cxn , n ∈ e o vetor y := Cx. Para cada ` ∈ A†

vale
`(yn ) − `(y) = `(yn − y) = `(C(xn − x)) = ` ◦ C(xn − x) .
Todavia, ` ◦ C é um elemento de A† pois é linear e contı́nuo (sendo a composição de duas aplicações
contı́nuas). Logo, pelas hipóteses, ` ◦ C(xn ) converge a ` ◦ C(x), o que implica que `(yn ) converge a
`(y).
Desejamos provar que yn converge a y na norma de B. Vamos supor, por absurdo, que isso não
ocorra. Então, existe algum > 0 tal que
kynj − ykB > (23.90)
para todos ynj de uma sub-seqüência de yn . Agora, ynj = Cxnj e como kxnj kA ≤ M para todo j e
C é compacto, {ynj }j∈ possui uma sub-seqüência convergente em norma em B. Vamos denotar essa

sub-seqüência por yk0 , k ∈ e seja y 0 ∈ B o seu limite. É certo por (23.90) que y 0 6= y. Agora, Como

kyk0 − y 0 kB converge a 0, segue que

|`(yk0 ) − `(y 0 )| ≤ k`kkyk0 − y 0 kB → 0 .
Vimos acima, porém, `(yn ) converge a `(y). Como yk0 é uma sub-seqüência de yn , então `(yk0 ) deve
também convergir a `(y). Assim provamos que `(y 0 − y) = 0 para todo ` ∈ A† , o que implica y 0 = y,
• Propriedades algébricas de operadores compactos
As seguintes proposições revelam propriedades algébricas importantes dos operadores compactos.

Proposição 23.39 Sejam X e Y dois espaços de Banach e sejam A, B : X → Y dois operadores
compactos. Então para todos α, β ∈ o operador αA + βB é igualmente compacto. 2
Prova. Seja xn uma seqüência limitada de vetores em X. Então existe uma sub-seqüência xnj de xn tal
que a seqüência Axnj converge em norma em Y, pois A é compacto. É elementar constatar que isso
implica que αAxnj também converge em norma em Y. Como a seqüência xnj é (obviamente) limitada,
ela possui uma sub-seqüência xnjk tal que βBxnjk converge em norma em Y. Daı́, é elementar constatar
que (αA + βB)xnjk converge em norma em Y, completando a prova.
A proposição acima mostra que o conjunto de operadores compactos agindo entre dois espaços de
Banach X e Y é um espaço linear. Tem-se também o seguinte.
Proposição 23.40 Sejam X e Y e Z três espaços de Banach e sejam A : Y → Z e B : X → Y dois
operadores limitados. Então se A ou B for compacto (ou ambos o forem) o produto AB : X → Z é
compacto. 2
Prova. Seja xn uma seqüência limitada em X, ou seja, existe M > 0 tal que kxn kX ≤ M para todo
n ∈ . Então Bxn é uma seqüência limitada em Y (pois B é limitado e kBxn kY ≤ kBk kxn kX ≤

kBkM ). Logo, se A for compacto, ABxn possui uma sub-seqüência convergente na norma de Z e,
portanto, o produto AB é compacto. Se por outro lado B for compacto, então Bx n possui uma sub-
seqüência Bxnj convergente. Por ser convergente, Bxnj é uma seqüência de Cauchy em Y, ou seja,
para todo > 0 podemos encontrar k e l grandes o suficiente tais que kB(xnk − xnl )kY ≤ . Logo,
kAB(xnk − xnl )kZ ≤ kAkkB(xnk − xnl )kY ≤ kAk, provando que ABxnj é uma seqüência de Cauchy
em Z e, portanto, converge, o que novamente estabelece que o produto AB é compacto.
O seguinte corolário é imediato.

Proposição 23.41 Se X é um espaço de Banach o conjunto dos operadores compactos de X em X
forma uma álgebra, que denotaremos por K(X). A álgebra K(X) é uma sub-álgebra da álgebra de todos
os operadores limitados agindo em X, B(X), é um ideal à esquerda e à direita de B(X). 2
A seguinte proposição é igualmente relevante no contexto de espaços de Hilbert.

Proposição 23.42 Se H é um espaço de Hilbert e A : H → H é compacto então A ∗ é igualmente
compacto. 2
Prova. Seja xm uma seqüência limitada de vetores em H, ou seja, existe M > 0 tal que kxn kH ≤ M
para todo n ∈ . Tem-se que

kA∗ (xn − xm )k2H = hA∗ (xn − xm ), A∗ (xn − xm )iH = h(xn − xm ), AA∗ (xn − xm )iH
Cauchy-Schwarz
≤ kxn − xm kH kAA∗ (xn − xm )kH ≤ 2M kAA∗ (xn − xm )kH ,
pois k(xn − xm )kH ≤ kxn kH + kxm kH ≤ 2M . Como A é compacto, AA∗ também o é (Proposição
23.40, acima). Logo AA∗ xn possui uma sub-seqüência AA∗ xnj convergente em norma, que, portanto,
é de Cauchy. Assim, para qualquer > 0 podemos encontrar k e l grandes o suficiente tais que
kAA∗ (xnk − xnl )kH ≤ . Logo, kA∗ (xnk − xnl )k2H ≤ 2M , provando que A∗ xnj é uma seqüência de
Cauchy e, portanto, converge.
• Limite em norma de operadores compactos
A seguinte proposição revela uma propriedade topológica importante dos operadores compactos.
Proposição 23.43 Sejam X e Y dois espaços de Banach e seja Cn : X → Y, n ∈ uma seqüência de
operadores compactos. Vamos supor que Cn converge na norma de B(X, Y) a um operador limitado
C ∈ B(X, Y), ou seja, kC − Cn kB(X, Y) → 0 quando n → ∞. Então C é compacto. Isso revela que o
conjunto dos operadores compactos é fechado na topologia uniforme de B(X, Y). 2
Prova. Seja x0n ∈ X uma seqüência limitada de vetores qualquer. Que x0n ∈ X é limitada significa que
existe M > 0 tal que kx0n kX ≤ M para todo n ∈ . Então,

kC(x0n − x0m )kY = k(C − Ck )(x0n − x0m ) + Ck (x0n − x0m )kY
≤ k(C − Ck )(x0n − x0m )kY + kCk (x0n − x0m )kY
≤ kC − Ck k kx0n − x0m kX + kCk (x0n − x0m )kY . (23.91)
Seja n , n ∈ , uma seqüência de números positivos que converge a zero e tal que b < a se b > a

(sem perda de generalidade, podemos tomar n = 1/n, n ≥ 1). Como por hipótese kC − Cn kB(X, Y) → 0
quando n → ∞ podemos escolher k1 grande o suficiente de forma que kC − Ck1 k < 1 . Fixemos um tal
k1 . Como kx0n kX ≤ M para todo n ∈ , vale também que kx0n − x0m kX ≤ kx0n kX + kx0m kX ≤ 2M . Logo,

por (23.91),
kC(x0n − x0m )kY ≤ 2M 1 + kCk1 (x0n − x0m )kY .
Como Ck é compacto, existe uma sub-seqüência x1j = x0nj , j ∈ , da seqüência x0n tal que Ck1 x1j converge

em norma para j → ∞ e, portanto, é uma seqüência de Cauchy em Y, Assim, existe N1 ≡ N (1 ) ∈
tal que, se l ≥ N1 e m ≥ N1 , então kCk1 (x1l − x1m )kY ≤ 1 . Disso concluı́mos que
kC(x1l − x1m )kY ≤ (2M + 1)1 ,
para todos l ≥ N1 e m ≥ N1 .
Notemos que a seqüência x1n é fixada por 1 . Podemos, porém, proceder indutivamente construindo
uma sub-seqüência x2n da seqüência x1n e assim sucessivamente da seguinte forma. Para o elemento a
da seqüência dos ’s, tomamos ka tal que Cka satisfaz kC − Cka k < a . Por uma aplicação da mesma
desigualdade que conduziu a (23.91), concluı́mos que
kC(xna−1 − xm
a−1
)kY ≤ 2M a + kCka (xna−1 − xa−1
m )kY .
Como Cka é compacto, existe uma sub-seqüência xaj = xna−1

j
, j ∈ , da seqüência xna−1 tal que Cka xaj

converge em norma para j → ∞ e, portanto, é uma seqüência de Cauchy em Y, Assim, existe N a ≡

N (a ) ∈ tal que, se l ≥ Na e m ≥ Na , então kCka (xal − xam )kY ≤ a . Disso concluı́mos que

kC(xal − xam )kY ≤ (2M + 1)a , (23.92)
para todos l ≥ Na e m ≥ Na .
Daqui por diante escolheremos a seqüência de inteiros Na , a ∈ como sendo uma seqüência

crescente, ou seja, tomamos Nb > Na caso b > a (ou seja b < a ). Uma tal escolha é sempre possı́vel
(por que?).
Para cada a ≥ 1 a sub-seqüência xan , n ∈ , é uma sub-seqüência de xna−1 , n ∈ , e todas são

sub-seqüências de x0n , n ∈ . Definamos agora a seqüência ua := xaNa , a ∈ , também sub-seqüência

de x0n , n ∈ . Tomemos b > a. Como xbn , n ∈ , é uma sub-seqüência de xan , n ∈ , teremos que

ub = xbNb = xal para algum l ≥ Nb > Na (justifique por que l ≥ Nb lembrando que xbn , n ∈ , é uma
sub-seqüência de xan , n ∈ ). Assim, com o uso de (23.92), obtemos

kC(ub − ua )kY = kC(xal − xaNa )kY ≤ (2M + 1)a ,
pois l > Na . Agora, como a → 0 para a → ∞, existe para cada > 0 um a tal que (2M + 1)a < .
Para tal a valerá kC(ub − ua )kY < para qualquer b > a. Isso está nos dizendo que a seqüência
Cun , n ∈ , é é uma seqüência de Cauchy em Y e, portanto, converge em norma, pois Y é um espaço

de Banach. Como un , n ∈ , é uma sub-seqüência de uma seqüência limitada arbitrária x0n , n ∈ ,

isso provou que C é compacto.
Um importante corolário imediato é o seguinte:

Corolário 23.13 O conjunto de todos os operadores compactos agindo em um espaço de Hilbert H
forma uma álgebra C∗ (sem unidade, se H não for de dimensão finita!) em relação à norma de B(H),
a involução sendo dada pela adjunção A → A∗ . 2
Prova. Que o conjunto de todos os operadores compactos agindo em um espaço de Hilbert H forma
uma álgebra com involução dada pela adjunção A → A∗ foi provado nas Proposições 23.39-23.42,
acima. A Proposição 23.43 estabeleceu que o conjunto de todos os operadores compactos agindo em
um espaço de Hilbert H é um sub-espaço linear fechado de B(H) e portanto, é completo. As demais
propriedades, como a propriedade C∗ , são conseqüência do Teorema 23.11, página 1042, já que os
operadores compactos agindo em H são elementos de B(H). O operador unidade não é compacto,
pois nem toda seqüência limitada tem uma sub-seqüência convergente em norma, exceto se H possuir
dimensão finita.
No caso de espaços de Hilbert separáveis é possı́vel provar um resultado mais especı́fico.
• Operadores Compactos em Espaços de Hilbert Separáveis
Vamos agora nos especializar em operadores compactos agindo em espaços de Hilbert separáveis.
Veremos que o Teorema 23.26, página 1101 tem uma importante conseqüência nesse caso que aponta
na direção de uma generalização do Teorema Espectral para operadores compactos (agindo em espaços
de Hilbert separáveis).
Teorema 23.27 Seja H um espaço de Hilbert separável e seja C : H → H compacto. Seja {ψ n , n ∈
} uma base ortonormal completa em H. Então,
C = lim CN ,
N →∞
o limite se dando na topologia uniforme de B(H) (a da norma operatorial), onde, para N ∈ , N ≥ 1,

definimos os operadores
N
X
CN ψ := hψk , ψiH Cψk
k=1
para todo ψ ∈ H. 2
Prova. Defina-se, para n ∈ , n ≥ 1,
µn := sup kCφkH ,
φ∈Pn⊥ , kφkH =1
onde Pn := [ψ1 , . . . , ψn ] é o sub-espaço de dimensão finita gerado pelos vetores ψ1 , . . . , ψn . É

evidente pela definição que µn é monotonamente decrescente. Como µn ≥ 0 para todo n, a seqüência
não-crescente µn deve convergir a um µ ≥ 0.
Vamos provar que, em verdade, µ = 0. Comecemos observando que em cada conjunto Ξ n := {φ ∈
Pn⊥ , kφkH = 1} sempre podemos encontrar pelo menos um vetor ξ tal kCξk ≥ µ/2. Se assim não fosse,
terı́amos kCξk < µ/2 para todo ξ ∈ Ξn , o que é absurdo, pois isso implica que µn < µ/2 mas µn é uma
seqüência decrescente convergindo a µ.
Escolhamos então para cada n um vetor ξn com kCξn k ≥ µ/2. Como kξn kH = 1 e ξn ∈ Pn⊥ e como
{ψn , n ∈ } é uma base ortonormal completa em H, segue facilmente que

lim hy, ξn iH = 0
n→∞
para todo y ∈ H (justifique!). Pelo Teorema da Representação de Riesz, Teorema 22.8, página 1008, isso
está dizendo-nos que limn→∞ `(ξn ) = 0 para todo funcional linear contı́nuo ` de H. Agora, pelo Teorema
23.26, página 1101, isso implica que Cξn converge a zero em norma. Assim, como µ/2 ≤ kCξn kH para
todo n, segue que µ = 0, como querı́amos mostrar.
A implicação importante desse fato é a seguinte. Para qualquer ψ ∈ H teremos
N
! M
!
X X
Cψ − CN ψ = C ψ − hψn , ψiH ψn = C lim hψn , ψiH ψn = CP⊥
nψ ,
M →∞
n=1 n=N +1
onde P⊥ ⊥
n é o projetor ortogonal sobre Pn . Logo,
⊥
kC − CN k = sup CPn ψ = sup kCψkH = µn ,
H
ψ∈H, kψkH =1 ψ∈Pn⊥ , kψkH =1
de onde concluı́mos que

lim kC − CN k = lim µn = µ = 0 .
N →∞ N →∞
Isso completa a demonstração.
No teorema acima é interessante observar que os operadores CN são de posto finito e, portanto,
compactos. Concluı́mos, assim, que todo operador compacto agindo em um espaço de Hilbert separável
H pode ser aproximado na norma de B(H) por operadores de posto finito. Comentamos, porém, que
a restrição a espaços de Hilbert separáveis pode ser eliminada. Isso será provado no Teorema 23.31,
página 1119. Uma questão que permaneceu em aberto por muito tempo foi saber se essa propriedade
se estenderia a operadores compactos agindo em espaços de Banach. Essa questão foi respondida
negativamente por P. Enflo28 em 197329 , o qual exibiu um exemplo de um operador compacto em um
espaço de Banach que não se deixa aproximar em norma por operadores de posto finito.
• Um exemplo de operador compacto a se ter em mente
Seja λn , n ∈ , uma seqüência de números complexos que converge a zero, ou seja, lim n→∞ |λn | = 0.

Sejam também φn , n ∈ , e ψn , n ∈ , dois conjuntos ortonormais de vetores em um espaço de

Hilbert H, que suporemos ser de dimensão infinita, mas não necessariamente separável. Temos, então,
hφn , φm iH = δn, m e hψn , ψm iH = δn, m para todos m e n ∈ .
Pretendemos provar que a seqüência de operadores de posto finito definidos para cada N ∈ por
N
X
QN ψ := λn hφn , ψiH ψn , ∀ψ∈H,
n=1
é uma seqüência de Cauchy na norma de B(H). De fato, se ψ ∈ H, tem-se, para M < N ,

2
XN

k(QN − QM )ψk2 = λn hφn , ψiH ψn

n=M +1
* N N
+
X X
= λn hφn , ψiH ψn , λn hφn , ψiH ψn
n=M +1 n=M +1 H
N
X N
X
= λn0 λn hφn0 , ψiH hφn , ψiH hψn0 , ψn iH
| {z }
n0 =M +1 n=M +1 = δn, n0
N
X
= |λn |2 |hφn , ψiH |2
n=M +1
X
N
≤ max |λm | 2
|hφn , ψiH |2
m∈{M +1, ..., N }
n=M +1
des. de Bessel (22.16)

2
≤ max |λm | kψk2 .
m∈{M +1, ..., N }
Logo,
kQN − QM k2 ≤ max |λm |2 .
m∈{M +1, ..., N }
28
Per Enflo (1944-).
29
P. Enflo, “A counterexample to the approximation property in Banach spaces”, Acta Math. 130, 309-317 (1973).
Agora, como por hipótese, |λn | → 0 para n → ∞, segue que max |λm |2 pode ser feito menor que
m∈{M +1, ..., N }
qualquer > 0 dado, desde que M (e, portanto, N , pois M < N ) seja grande o suficiente. Isso provou
que QN , N ∈ , é uma seqüência de Cauchy na norma operatorial de B(H). Como B(H) é um espaço

de Banach, concluı́mos que QN converge quando N → ∞ para um operador Q ∈ B(H). Como Q é

o limite em norma de uma seqüência de operadores compactos (os operadores Q N são compactos por
serem de posto finito), concluı́mos pela Proposição 23.43, página 1104, que Q é igualmente compacto.
Escrevemos,
X∞
Q := λn hφn , · iH ψn . (23.93)
n=1
Antes de mudarmos de assunto, façamos um breve comentário sobre a expressão (23.93) que elu-
cidará um ponto que virá mais adiante. Como todo numero complexo, os λn têm a forma polar
λn = |λn |eiαn , onde αn ∈ . Na expressão (23.93) as fases eiαn podem ser absorvidas nos vetores

ψn , sem que os mesmos deixem de formar um conjunto ortonormal. Assim, genericamente, operadores
compactos como (23.93) podem ser escritos como
∞
X
Q = µn hφn , · iH ψn . (23.94)
n=1
onde µn , n ∈ , é uma seqüência de números reais não-negativos que converge a zero e φ n , n ∈

,e
ψn , n ∈ , são conjuntos ortonormais de vetores do espaço de Hilbert H.

Veremos mais adiante que esse exemplo não é gratuito: em verdade, todo operador compacto agindo
em um espaço de Hilbert H pode ser representado na forma (23.94) para alguma uma seqüência µ n ,
n ∈ , de números reais não-negativos que converge a zero, e para certos φ n , n ∈ , e ψn , n ∈ ,

conjuntos ortonormais de vetores de H. Vide Teorema 23.31, página 1119.

O leitor deve cuidadosamente comparar as afirmações feitas acima com as do Teorema 23.27.
• A raiz quadrada de um operador compacto, auto-adjunto e positivo
Se C é um operador não-nulo, compacto e positivo agindo em um espaço de Hilbert H, vimos em

(23.51)-(23.53), página 1080, que
N N !
√ X X n
C = lim (−1)p cn kCk1/2−p C p , (23.95)
N →∞
p=1 n=p
p
sendo os cn ’s definidos em (23.46). O lado direito é o limite em norma de um polinômio em C com

coeficientes reais e que não contem nenhum termo proporcional à unidade . Como C é compacto e
um tal
√ polinômio em C é igualmente compacto (Proposição 23.41), concluı́mos pela Proposição 23.43,
que
√ C é também compacto. Como discutido no Lema da Raiz Quadrada, Lema 23.21, página 1077,
C é também auto-adjunto e positivo.
Se A é um operador compacto (não necessariamente auto-adjunto), então A ∗ A é compacto (pela
Proposição 23.40, página 1103), auto-adjunto (pois (A∗ A) ∗ ∗ ∗
√ = A A) e positivo (pois hx, A Axi =
∗
hAx, Axi = kAxk ≥ 0 para todo x ∈ H). Logo, |A| := A A é compacto, auto-adjunto e positivo.
Para futura referência, coletamos os resultados discutidos acima na seguinte proposição.
Proposição 23.44√ Se C é um operador compacto, auto-adjunto e positivo agindo em um espaço de

Hilbert
√ H, então C é igualmente compacto e auto-adjunto e positivo. Se A é compacto, então |A| :=
∗
A A é compacto, auto-adjunto e positivo. 2
• O operador integral de Fredholm
Seja o intervalo compacto [a, b] ⊂ e seja k : [a, b] × [a, b] → uma função fixada contı́nua de

duas variáveis. Para f ∈ C([a, b]), uma função contı́nua (real ou complexa) definida em [a, b], seja
Z b
(Kf )(x) := k(x, y)f (y) dy .
a
É bastante claro que K é um operador linear mapeando funções contı́nuas em [a, b] em funções
contı́nuas em [a, b], ou seja, K : C([a, b]) → C([a, b]). Isso pois k foi suposta ser contı́nua nas
duas variáveis. O espaço vetorial C([a, b]) é um é um espaço de Banach com a norma no supremo:
kf k∞ := supx∈[a, b] |f (x)|. Não é difı́cil de se ver que K é limitado nessa norma, pois |(Kf )(x)| ≤
Z b Z b
0
|k(x, y)|dy sup ||f (y )| = |k(x, y)|dy kf k∞ e, portanto kKf k∞ ≤ M kf k∞ , onde M =
a y 0 ∈[a, b] a
(b − a) supx, y∈[a, b] |k(x, y)| < ∞, devido à continuidade de k.
O operador K é denominado operador integral de Fredholm30 , ou simplesmente operador de Fredholm
e surge no problema de Sturm-Liouville, como discutido no Capı́tulo 9, página 521. Um fato muito
relevante para o problema de Sturm-Liouville é que K é um operador compacto, enquanto operador
agindo em C([a, b]). As conseqüências desse para o problema de Sturm-Liouville foram discutidas
no Capı́tulo 9 e seguem de outros resultados gerais sobre operadores compactos que discutiremos nas
próximas seções.
Mostraremos que K é compacto usando dois tipos de argumento, ambos instrutivos, o primeiro
sendo mais elementar.
n
I. Se pn (x, y) := Σ pn, k, l xk y l é um polinômio de grau n nas variáveis x e y, então Pn : C([a, b]) →
k, l=0
C([a, b]) definido por
Z n n Z !
b X X b
(Pn f )(x) := pn (x, y) f (y) dy = pn, k, l y l f (y) dy xk
a k=0 l=0 a
é claramente um operador de posto finito (os monômios xk são elementos de C([a, b])) e, portanto,
é compacto. Se k(x, y) é contı́nua no retângulo compacto [a, b] × [a, b] então, pelo Teorema de
Weierstrass, k pode ser uniformemente aproximada por polinômios em x e y. É fácil ver daı́ (exercı́cio!)
que isso implica que K é aproximada na norma de B(C([a, b])) por operadores de posto finito como P n
acima. Assim, pela Proposição 23.43, página 1104, K é compacto como operador agindo em C([a, b]).
II. Para um certo N > 0, seja BN ⊂ C([a, b]) a bola de raio N centrada em 0: BN := {f ∈
C([a, b]), kf k∞ < N}. Se f é uma função qualquer de BN , teremos que (Kf )(x) − (Kf )(x0 ) =
30
Rb 0 0
Rb
a
(k(x, y) − k(x , y))f (y)dy. Logo, |(Kf )(x) − (Kf )(x )| ≤ kf k ∞ a
|k(x, y) − k(x0 , y)|dy ≤ N(b −
a) supy∈[a, b] |k(x, y) − k(x , y)|. Como k é contı́nua, podemos para todo 0 > 0 encontrar δ 0 > 0 tal
0
que |k(x, y) − k(x0 , y)| < 0 sempre que |x − x0 | < δ 0 . Esse δ 0 (0 ) depende apenas de 0 , pois pode ser
escolhido independente de x, x0 e y, já que k é contı́nua em um compacto.
Assim, concluı́mos que para

0
todo > 0 podemos encontrar δ() > 0, a saber, δ() = δ (b−a)N tal que |(Kf )(x) − (Kf )(x0 )| <
sempre que |x − x0 | < δ(). O fato de δ não depender de x nem de x0 nem de f significa que o
conjunto de funções {Kf, f ∈ BN } é o que se denomina ser um conjunto eqüicontı́nuo de funções.
Por um teorema clássico de Análise conhecido como Teorema de Ascoli (ou de Ascoli-Arzela), sabe-
se que toda seqüência de funções eqüicontı́nuas possui pelo menos uma sub-seqüência convergente na
norma do supremo. Assim, se fn é uma seqüência de funções em BN , a seqüência Kfn tem pelo menos
sub-seqüência convergente na norma do supremo. Ora, isso precisamente afirma que K é compacto.
• O operador integral de Volterra
Um outro operador importante em equações diferenciais e integrais é o chamado operador integral

de Volterra31 , ou simplesmente operador de Volterra:
Z x
(V f )(x) := k(x, y)f (y) dy ,
a
definido para f contı́nua no intervalo [a, b] onde, como no caso do operador de Fredholm, k é uma
função fixa contı́nua no retângulo [a, b] × [a, b]. É fácil ver que V é um operador linear mapeando
C([a, b]) em si mesmo. Podemos escrever
Z b
(V f )(x) = v(x, y)f (y) dy ,
a
com v(x, y) = k(x, y)χ[a, x] (y), onde

1, se y ∈ [a, x]
χ[a, x] (y) := .
0, se y ∈
6 [a, x]
Como v é limitada no retângulo [a, b] × [a, b], é fácil mostrar, repetindo o que fizemos para o operador
de Fredholm, que V é um operador limitado agindo em C([a, b]). Porém, como v não é contı́nua (pois
χ[a, x] não o é), não podemos repetir os argumentos que conduziram-nos à conclusão que o operador de
Fredholm é compacto. No entanto, os operadores de Volterra são compactos, como mostra o seguinte
argumento.
Para n ∈ , consideremos o operador de Fredholm definido por
Z b
(Vn f )(x) = vn (x, y)f (y) dy , onde vn (x, y) := k(x, y) e−n(|x−y|−(x−y)) .
a
Vemos que se a ≤ y ≤ x então vn (x, y) = k(x, y) = v(x, y). Se, porém, x < y ≤ b, teremos
limn→∞ vn (x, y) = 0, que é quanto vale v na mesma região. Assim, vemos ao menos intuitivamente
que Vn → V quando n → ∞. Vamos provar que essa convergência se dá na norma de B(C([a, b])).
31
Como os Vn são compactos (por serem de Fredholm), isso implica que V é compacto pela Proposição
23.43, página 1104. Observemos, então, que para f ∈ C([a, b]), vale
Z b
(V f )(x) − (Vn f )(x) = (v(x, y) − vn (x, y)) f (y) dy
a
Z b Z b
= (v(x, y) − vn (x, y)) f (y) dy = − k(x, y)e−n(|x−y|−(x−y)) f (y) dy .
x x
Logo, ! Z b
|((V − Vn )f )(x)| ≤ sup |k(x, y)| kf k∞ e−n(|x−y|−(x−y)) dy .
x, y∈[a, b] x
Agora,
Z b Z b−x Z b−x
−n(|x−y|−(x−y)) y 0 =y−x −n(|y 0 |+y 0 ) 0 0 1 − e−2n(b−x)
e dy = e dy = e−2ny dy 0 = .
x 0 0 2n
Dessa forma, !
1 − e−2n(b−a)
k(V − Vn )f k∞ ≤ sup |k(x, y)| kf k∞ ,
x, y∈[a, b] 2n
e, portanto, !
1 − e−2n(b−a)
kV − Vn k ≤ sup |k(x, y)| ,
x, y∈[a, b] 2n
provando que lim kV − Vn k = 0. Isso demonstrou que os operadores de Volterra são compactos.
n→∞
Exemplo 23.6 Um caso interessanteR é aquele em que k(x, y) ≡ 1. Denotemos por W o correspondente
x
operador de Volterra: (W f )(x) = a f (y) dy. Vamos provar que esse operador de Volterra não tem
autovalores.
Rx Suponhamos que exista λ ∈ e uma função g ∈ C([a, b]) não-nula tais que W g = λg, ou
seja, a g(y) dy = λg(x). Essa igualdade indica que g é diferenciável e tem-se g(x) = λg 0 (x) para todo
x ∈ [a, b]. Para λ = 0 sairia disso que g(x) = 0 para todo x ∈ [a, b], situação que já descartamos,
−1
Se λ 6= 0 aRequação diferencial g 0 (x) = λ−1 g(x) tem como solução g(x) = g(a)eλ (x−a) . Porém, de
x
g(x) = λ−1 a g(y) dy vemos que g(a) = 0 e novamente terı́amos g(x) = 0 para todo x ∈ [a, b].
Rx
Assim, o operador (W f )(x) = a f (y) dy agindo em C([a, b]) é um exemplo de operador compacto
que não possui autovalores. Como todo operador agindo em um espaço de Banach, W tem um espectro
não-vazio mas, como vimos, seu espectro pontual é vazio. Vamos agora provar que σ(W ) = {0}. Para
R x f diferenciável e seja g ∈ Ran (λ − W )) tal que (λ − W )f = g, ou seja, g(x) =
λ 6= 0, seja
λf (x) − a f (y)dy, o que implica g(a) = λf (a). Como f é diferenciável, g também o é e tem-se
g 0 = λf − f . A solução dessa equação diferencial para f com a condição f (a) = g(a)/λ é
Z
1 1 x x −y
f (x) = g(x) + 2 e λ e λ g(y) dy , (23.96)
λ λ a
como facilmente se mostra. Definindo o operador de multiplicação Eλ : C([a, b]) → C([a, b]) por
x
(Eλ h)(x) := e− λ h(x) a expressão (23.96) está dizendo-nos que para λ =
6 0, o operador (λ − W ) −1 ,
restrito ao espaço C 1 ([a, b]) das funções contı́nuas e diferenciáveis (como a função g acima), é dado
por
1 1
(λ − W )−1 C 1 ([a, b]) = + 2 Eλ−1 W Eλ .
λ λ
O operador à direita é limitado e C ([a, b]) é denso em C([a, b]). Logo, (λ − W )−1 existe em toda
1
parte, valendo, portanto, para o operador resolvente Rλ (W ) a expressão

1 1
Rλ (W ) = + 2 Eλ−1 W Eλ , ∀λ 6= 0 ,
λ λ
provando que se λ 6= 0 então λ é um elemento do conjunto resolvente de W : λ ∈ ρ(W ). Isso estabeleceu
que ρ(W ) = \ {0} e que σ(W ) = {0}.
No caso λ = 0 a imagem de λ − W = −W é o conjunto C 1 ([a, b]), que é denso em C([a, b]).
Logo, {0} pertence ao espectro contı́nuo σc (W ) e não ao espectro residual σr (W ), que deve ser vazio.
Resumindo,
σ(W ) = {0}, σp (W ) = ∅, σc (W ) = {0} e σr (W ) = ∅ . (23.97)
Notemos, por fim que |(W f )(x)| ≤ kf k∞ (x − a) e, portanto kW k ≤ b − a. Para a função constante
igual a 1, vale (W 1)(x) = x − a. Logo kW 1k∞ = b − a e como k1k∞ = 1, segue que kW k ≥ b − a,
provando que kW k = b − a. Concluı́mos que W tem um raio espectral nulo (por (23.97)), mas uma
norma não-nula. ◊
Notemos, por fim, que tanto os operadores de Fredholm quando os de Volterra são limitados e
definidos em C([a, b]), que é um conjunto denso em espaços de Hilbert do tipo L2 ([a, b], r(x)dx) com
r positiva e contı́nua. Assim, pelo Teorema BLT, Teorema 23.1, página 1017, esses operadores podem
ser estendidos a operadores compactos agindo nesses espaços de Hilbert.
23.6.1 O Teorema Espectral para Operadores Compactos Auto-adjuntos

Vamos na presente seção demonstrar a versão do Teorema Espectral para operadores compactos auto-
adjuntos, generalizando em parte o teorema espectral provado para matrizes na Seção 3.4, página
159.
Faremos implicitamente uso, em tudo o que segue, da Proposição 23.7, página 1046, que estabelece
que os autovalores de um operador auto-adjunto são reais e que para tais operadores os autovetores de
autovalores distintos são ortogonais entre si.
• Autovalores de Operadores Compactos Auto-adjuntos
O teorema a seguir tem um papel central a desempenhar na demonstração do teorema espectral

para operadores compactos auto-adjuntos, por garantir que os mesmos sempre possuem pelo menos
um autovalor.
Teorema 23.28 Seja C é um operador compacto e auto-adjunto agindo em um espaço de Hilbert H e

denotemos por σp (C) o conjunto de todos os autovalores de C.
I. Então, σp (C) 6= ∅ pois ou kCk ∈ σp (C) ou −kCk ∈ σp (C) (ou ambos), ou seja, ou kCk ou −kCk
(ou ambos) são autovalores de C.
II. Além disso, tem-se,

h i
1. σp (C) ⊂ − kCk, kCk .
2. Cada autovalor de C, exceto eventualmente um autovalor nulo (se houver), tem degene-
rescência finita.
3. σp (C) é um conjunto infinito, exceto se C for de posto finito.
4. Se C não for de posto finito, 0 será o único ponto de acumulação de σ p (C).
5. Se C não for de posto finito, σp (C) é enumerável. 2
Enfatizamos que o espaço de Hilbert H, no enunciado acima, não é necessariamente separável. Um

outro comentário concerne o caso de operadores compactos não-auto-adjuntos. Se C é um operador
compacto não-auto-adjunto, pode-se provar que o conjunto de seus autovalores não-nulos é também
enumerável e se acumula no máximo em zero, mas pode ser vazio, o que não ocorre no caso de operadores
compactos auto-adjuntos (parte I do enunciado acima). Um exemplo é operador de Volterra W , tratado
tratado no Exemplo 23.6 à página 1111.
Prova do Teorema 23.28. Suporemos C 6= 0, de outra forma não há o que demonstrar. Provaremos
separadamente as partes I e II.
Prova da parte I. Como C é auto-adjunto, vale kCk = sup |hψ, Cψi| (Teorema 23.12, página 1049).
ψ∈H, kψk=1
Logo, existe uma seqüência ψn , n ∈ , de vetores em H com kψn k = 1 tal que kCk = lim |hψn , Cψn i|
n→∞
∗
(justifique!). Como C = C , hψn , Cψn i é um número real. Dessa forma, como o módulo de hψn , Cψn i
converge a kCk, hψn , Cψn i deve ter uma sub-seqüência que converge a kCk ou uma sub-seqüência
que converge a −kCk (ou ambas). Para evitar sobrecarregar a notação, também denotaremos essa
sub-seqüência por hψn , Cψn i, a qual convergirá para c = ±kCk, conforme o caso. Agora, usando o
fato que c é real, que c2 = kCk2 e que C = C ∗ , teremos
kCψn − cψn k2 = hCψn − cψn , Cψn − cψn i = kCψn k2 + c2 kψn k2 −2chψn , Cψn i
| {z }
=1
≤ kCk2 kψn k2 +c2 − 2chψn , Cψn i = 2c (c − hψn , Cψn i) .

| {z } | {z }
=c2 =1
Como lim hψn , Cψn i = c, concluı́mos que

n→∞
lim (Cψn − cψn ) = 0 . (23.98)

n→∞
Como ψn é uma seqüência limitada e C é compacto, a seqüência Cψn possui uma sub-seqüência Cψnj
convergente, ou seja, existe ψ ∈ H tal que lim Cψnj = ψ. A expressão (23.98) está então dizendo-nos
n→∞
que
ψ = lim Cψnj = c lim ψnj . (23.99)
n→∞ n→∞
Assim,
(23.99)
(23.99)
C é linear C é contı́nuo
Cψ = C c lim ψnj = cC lim ψnj = c lim Cψnj = cψ .
n→∞ n→∞ n→∞
Assim, se ψ 6= 0, ψ é um autovetor de C com autovalor c = +kCk ou c = −kCk. Agora, ver que ψ 6= 0

é fácil, pois, por (23.99)

kψk = c lim ψnj = |c| lim kψnj k = |c| = kCk 6= 0 .
n→∞ n→∞ | {z }
=1
Isso completa a prova da parte I.
Prova da parte II.

II.1. Se λ é um autovalor de C existe um autovetor (não-nulo) φ ∈ H de C: Cφ = λφ. Podemos
escolher φ de modo que kφk = 1. Isso implicah |λ| = kλφk i= kCφk ≤ kCk kφk = kCk. Logo, como
λ ∈ (pois C é auto-adjunto), segue que λ ∈ − kCk, kCk .

II.2. Vamos supor que λ seja um autovalor de C e que seja infinitamente degenerado32 . Isso significa
que o sub-espaço Mλ gerado pelos autovetores de C com autovalor λ tem dimensão infinita. Podemos
escolher em Mλ um conjunto ortonormal de vetores φn , n ∈ . Como hφn , φm i = δn, m , segue que para

m 6= n, kφn − φm k2 = h(φn − φm ), (φn − φm )i = 2. Logo, também para m 6= n,
kCφn − Cφm k2 = kλφn − λφm k2 = |λ|2 kφn − φm k2 = 2|λ|2 .
Assim, se λ 6= 0, vemos que Cφn , n ∈ não é uma seqüência de Cauchy, assim como nenhuma de

suas sub-seqüências. Isso contraria a hipótese que C é compacto. Essa contradição leva-nos a excluir
a possibilidade de λ ser infinitamente degenerado, exceto se λ = 0.
II.3. Vamos supor que σp (C) seja um conjunto finito. Pelo item II.2 o sub-espaço gerado por todos os
autovetores de C com autovalor não-nulo é de dimensão finita e, portanto, é fechado. Vamos denotá-lo
por M. É bastante claro que M é um sub-espaço invariante por C (justifique!). Assim, pelo Corolário
23.2, página 1047, M⊥ é igualmente um sub-espaço fechado que é invariante por C.
Vamos denotar por P o projetor ortogonal sobre M e por P ⊥ = − P o projetor ortogonal sobre
M⊥ . Tem-se para todo ξ ∈ H
CP ⊥ ξ = CP ⊥ ξ = (P + P ⊥ )CP ⊥ ξ = P CP ⊥ ξ + P ⊥ CP ⊥ ξ = P ⊥ CP ⊥ ξ ,
pois P CP ⊥ ξ = 0, já que CP ⊥ ξ ∈ M⊥ , pois P ⊥ ξ ∈ M⊥ e M⊥ é invariante por C. Isso significa que
P ⊥ CP ⊥ = CP ⊥ . (23.100)
32
Aqui supomos implicitamente que H não tem dimensão finita, senão não haveria o que demonstrar
Como C e P ⊥ são auto-adjuntos, também obtem-se da última igualdade que
P ⊥ C = (CP ⊥ )∗ = (P ⊥ CP ⊥ )∗ = P ⊥ CP ⊥ = CP ⊥ ,
mas não usaremos isso.

Observemos agora que P ⊥ CP ⊥ é compacto (pela Proposição 23.40, página 1103) e auto-adjunto.
Assim, pela parte I, existe ϕ ∈ H, ϕ 6= 0, tal que P ⊥ CP ⊥ ϕ = ±kP ⊥ CP ⊥ kϕ. Essa igualdade diz-nos
que ϕ ∈ M⊥ , pois P ⊥ (CP ⊥ ϕ) ∈ M⊥ , devido ao fator P ⊥ à esquerda. Se assim é, então P ⊥ ϕ = ϕ e,
portanto, P ⊥ CP ⊥ ϕ = P ⊥ Cϕ = Cϕ, a última igualdade seguindo do fato que C mantem M⊥ invariante.
Estabelecemos, assim, que Cϕ = ±kP ⊥ CP ⊥ kϕ.
Agora, se kP ⊥ CP ⊥ k 6= 0, então ϕ seria um autovetor de C com autovalor não-nulo, o que significa
que ϕ ∈ M, pela definição de M. Ora, se ϕ 6= 0, isso não é possı́vel, pois o único vetor que M e M ⊥
têm em comum é o vetor nulo. Concluı́mos daı́ que kP ⊥ CP ⊥ k = 0, ou seja, P ⊥ CP ⊥ = 0. Logo, por
(23.100), CP ⊥ = 0. Isso, por sua vez, diz-nos que para todo ψ ∈ M⊥ vale Cψ = CP ⊥ ψ = 0.
Assim, concluı́mos que C aniquila todo o sub-espaço M⊥ , ou seja, que M⊥ é constituı́do por au-
tovetores de C com autovalor zero. Pelo Teorema da Decomposição Ortogonal, Teorema 22.2, página
991, todo vetor ψ ∈ H pode ser escrito na forma ψ = ψM + ψM⊥ , com ψM ∈ M e ψM⊥ ∈ M⊥ . Logo,
Cψ = CψM ∈ M, pois M é invariante por C. Como M é de dimensão finita, o fato que Cψ ∈ M para
todo ψ ∈ H está precisamente dizendo-nos que C é de posto finito.
É também fácil de se ver que se C é de posto finito então C tem um conjunto finito de autovalores.
Isso completa o que querı́amos provar.
II.4. Se C não é de posto finito, vimos no item II.3 que σp (C) não é um conjunto finito. Como, pelo
h i
item II.1, σp (C) está contido no intervalo fechado e limitado (ou seja, compacto) − kCk, kCk , σp (C)
deve possuir pelo menos um ponto de acumulação (Teorema de Bolzano-Weierstrass). Seja x 0 um
desses pontos de acumulação de σp (C) e vamos supor que x0 6= 0. Como x0 é um ponto de acumulação
de σp (C), temos em cada intervalo aberto (x0 − , x0 + ), com > 0, infinitos autovalores de C.
Tomemos pequeno o suficiente de modo que 0 6∈ (x0 − , x0 + ), ou seja, tomemos > 0 mas tal que
|x0 | > . Tomemos também uma coleção contável λn , n ∈ , de autovalores distintos de C contidos no

intervalo (x0 − , x0 + ). É claro que |λn | > |x0 | − para todo n. Seja, para cada n ∈ , um autovetor

φn de C com autovalor λn e com kφn k = 1. Como os autovalores são distintos, vale hφn , φm i = δn, m .
Assim, para n 6= m,
kCφn −Cφm k2 = kλn φn −λm φm k2 = h(λn φn −λm φm ), (λn φn −λm φm )i = |λn |2 +|λm |2 > 2(|x0 |−)2 .
Como 2(|x0 | − )2 não depende de m e n, isso está dizendo-nos que Cφn , n ∈ , não é uma seqüência

de Cauchy, assim como nenhuma de suas sub-seqüências. Isso contraria o fato de C ser compacto.
Logo, x0 6= 0 não pode ser ponto de acumulação de autovalores de C. Como pelo menos um ponto de
acumulação deve existir, esse deve ser o ponto x0 = 0.
h i
II.5. Tomemos em − kCk, kCk um intervalo fechado [a, b] que não contem 0. Se [a, b] contivesse
infinitos autovalores de C, então haveria em [a, b] um ponto de acumulação de tais autovalores, o
que já vimos ser impossı́vel. Assim [a, b] ∩ σp (C) é um conjunto finito. Portanto, conjuntos como
h i h i
−kCk, − kCk
n
∩ σ p (C) e kCk
n
, kCk ∩ σp (C) são finitos para todo n ≥ 1, n ∈ . Como
[∞
kCk kCk
σp (C) \ {0} = −kCk, − ∪ , kCk ∩ σp (C) ,
n=1
n n
concluı́mos que o lado direito é uma união contável de conjuntos contáveis (finitos). Logo, σ p (C) \ {0}
é contável e, portanto, σp (C) é contável.
Isso completa a prova da parte II.
Estamos agora prontos para abordar o Teorema Espectral para operadores compactos e auto-
adjuntos.
• O Teorema Espectral para operadores compactos auto-adjuntos
Para o enunciar o Teorema Espectral para operadores compactos auto-adjuntos e para simplificar
sua demonstração precisamos acertar algumas convenções.
Se C é um operador compacto e auto-adjunto agindo em um espaço de Hilbert H, vimos no Teorema
23.28 que o conjunto de seus autovalores é contável (e até mesmo finito, caso C seja de posto finito)
e cada autovalor não-nulo é finitamente degenerado. Vamos denotar por λn , n ∈ , o conjunto dos
autovalores não-nulos, convencionando que se um autovalor λ tem multiplicidade k então ele aparece
k, vezes seguidas na contagem, de forma que tenhamos, digamos, λm = · · · = λm+k−1 = λ. Com
isso, a seqüência λn , n ∈ , contem cada autovalor repetido o número de vezes correspondente à

sua multiplicidade. Podemos convencionar também que os autovalores são ordenados de tal forma
que |λk | ≤ |λl | para todo k ≥ l, ou seja, de forma que a seqüência |λn |, n ∈ seja não-crescente.
Sabemos que autovetores correspondentes a autovalores distintos são ortogonais entre si. O sub-espaço
Mλ gerado pelos autovetores de autovalor λ tem dimensão k, a multiplicidade de λ. Com isso, podemos
encontrar em Mλ um conjunto ortonormal de k autovetores φm , . . . , φm+k−1 . Constituı́mos dessa forma
um conjunto ortonormal φn , n ∈ , de autovetores de C, cada qual com autovalor λn : Cφn = λn φn ,

para todo n ∈ . Vamos denotar por Pn o projetor ortogonal relativo a cada autovetor φn : para todo

ψ ∈ H vale Pn ψ := hφn , ψi φn .
Caso C seja de posto finito, então as seqüências λn , n ∈ , φn , n ∈ e Pn , n ∈ são, em verdade,
seqüências finitas.
Lembramos também que caso C não seja de posto finito, então 0 é o único ponto de acumulação da
seqüência λn , n ∈ (novamente pelo Teorema 23.28), o que implica limn→∞ λn = 0, fato que usaremos

adiante.
Com essas convenções e com essa notação, temos o seguinte:
Teorema 23.29 (Teorema Espectral para Operadores Compactos Auto-adjuntos) Seja C um
operador compacto e auto-adjunto agindo em um espaço de Hilbert H. Então, a seqüência de opera-
N
X
dores de posto finito λn Pn , N ∈ , converge a C na norma de B(H). Assim, para todo ψ ∈ H

n=1
tem-se ∞ ∞
X X
Cψ = λn P n ψ = λn hφn , ψi φn . (23.101)
n=1 n=1
Enfatizamos que o espaço de Hilbert H, no enunciado acima, não é necessariamente separável.

Como Cφn = λn φn , a expressão (23.101) significa também que para todo ψ ∈ H,
∞
X
Cψ = hφn , ψi Cφn .
n=1
Compare-se isso às afirmações do Teorema 23.27, página 1105.
Prova do Teorema 23.29. Seja Pn := [φ1 , . . . , φn ] o sub-espaço de H gerado pelos vetores φ1 , . . . , φn .

Por ser de dimensão finita, Pn é um sub-espaço fechado de H. Para cada N ∈ , N ≥ 1, defina-se
N
X
KN := C − λn P n .
n=1
P
Caso kKM k = 0 para algum M ∈ , então C = M

n=1 λn Pn e a prova está completa. Caso kKN k 6= 0

para todo N ∈ , procedemos da seguinte forma.

Como os vetores φn formam um conjunto ortonormal, vale Pi φj = hφi , φj iH φi = δi, j φi . Logo, se

1 ≤ l ≤ N , tem-se
N
X
KN φl = Cφl − λn P n φl = λ l φl − λ l φl = 0
n=1
o que significa dizer que KN aniquila o sub-espaço PN .

Os Pj ’s são auto-adjuntos e compactos (por serem de posto finito) e, portanto, cada KN é também
compacto e auto-adjunto. O Teorema 23.28, página 1113, garante, então, que K N possui um autovalor
igual a kKN k ou a −kKN k. Seja ψ um autovetor não-nulo correspondente. Teremos KN ψ = cN ψ onde
cN = kKN k ou cN = −kKN k. Como KN aniquila o sub-espaço PN , essa igualdade e a hipótese que
cN 6= 0 implicam que ψ ∈ (PN )⊥ .
Para ver isso, lembremos que pelo Teorema da Decomposição Ortogonal, Teorema 22.2, página
991, podemos escrever ψ = χ + ξ, onde χ ∈ PN e ξ ∈ (PN )⊥ . Como KN é auto-adjunto e aniquila
todo vetor de PN , vale hχ, KN ψiH = hKN χ, ψiH = 0. Como, KN ψ = cN ψ, isso diz-nos que
0 = cN hχ, ψiH = cN hχ, χiH = cN kχk2 , provando que χ = 0 e que ψ = ξ ∈ (PN )⊥ .
Agora, o fato que ψ ∈ (PN )⊥ implica Pn ψ = 0 para todo 1 ≤ n ≤ N . Logo, KN ψ = Cψ e a
igualdade KN ψ = cN ψ significa Cψ = cN ψ, ou seja, kKN k ou −kKN k é um autovalor de C.
Quando definimos a seqüência λn , n ∈ , convencionamos colocar consecutivamente autovalores

de multiplicidade repetida e ordená-los de modo que |λn |, n ∈ seja uma seqüência não-crescente.

Isso implica que se cN = ±kKN k é um autovalor de C cujo autovetor não pertence a Pn , então temos
|cN | ≤ |λN |, ou seja, kKN k ≤ |λN |. Agora, também pelo Teorema 23.28, limN →∞ |λN | = 0, o que
implica limN →∞ kKN k = 0. Isso é precisamente o que querı́amos provar.
• Base ortonormal completa de autovetores de um operador compacto auto-adjunto

Seja C um operador compacto e auto-adjunto agindo em um espaço de Hilbert (não necessariamente

separável) H. Seja B1 = {φn | n ∈ }, como acima, um conjunto ortonormal contável de autovetores

de C com autovalores não-nulos. Seja T o fecho do sub-espaço gerado pelos vetores φ n , n ∈ . É fácil

de ver que se ψ ∈ T ⊥ , então ψ ∈ Ker (C). De fato, para todo ψ ∈ T ⊥ vale hφn , ψiH = 0 para todo
n e, por (23.101), isso implica Cψ = 0. Vemos, portanto, que H é uma soma direta dos sub-espaços
fechados T e Ker (C). Como Ker (C) é fechado, é um espaço de Hilbert e, portanto, possui uma base
ortonormal completa (não necessariamente contável) B0 . Todos os vetores dessa base são autovetores
de C com autovalor nulo. O conjunto B0 ∪ B1 será, portanto, uma base ortogonal completa em H,
formada por autovalores (nulos ou não) de C. Concluı́mos então a prova do seguinte teorema:
Teorema 23.30 Seja C um operador compacto e auto-adjunto agindo em um espaço de Hilbert (não
necessariamente separável) H. Então H possui uma base ortonormal completa formada por autovetores
(com autovalores nulos ou não) de C. 2
Esse teorema pode também ser demonstrado sem evocar-se o Teorema espectral. Para tal, considere-
se o sub-espaço fechado A de H formado pela soma direta de T e Ker (C). Ou seja, A é o sub-espaço
fechado gerado por todos os autovetores de C (com autovalores nulos ou não). Como A é mantido
invariante por C, então A⊥ também o é (Corolário 23.2, página 1047). Se P ⊥ é o projetor ortogonal
sobre A⊥ , então o fato de A⊥ ser invariante por C significa CP ⊥ = P ⊥ CP ⊥ . Agora, P ⊥ CP ⊥ é
obviamente compacto e auto-adjunto (Proposição 23.40, página 1103). Vamos supor que kP ⊥ CP ⊥ k 6=
0. Pelo Teorema 23.28, existirá φ ∈ H, φ 6= 0, tal que P ⊥ CP ⊥ φ = cφ, onde c = ±kP ⊥ CP ⊥ k. Essa
expressão implica φ ∈ A⊥ (devido ao fator P ⊥ do lado esquerdo). Assim, ela afirma que Cφ = cφ. Mas
isso diz-nos que φ é autovalor de C, o que só é possı́vel se φ ∈ A. Logo kP ⊥ CP ⊥ k = 0, mas isso, por
sua vez, implica CP ⊥ = 0, pois CP ⊥ = P ⊥ CP ⊥ . Logo, para todo ψ ∈ A⊥ teremos Cψ = CP ⊥ ψ = 0,
o que implica ψ ∈ Ker (C). Agora, Ker (C) ⊂ A e o único vetor que A e A⊥ têm em comum é o vetor
nulo. Provamos então que se ψ ∈ A⊥ então ψ = 0, ou seja A = H. Pela definição, isso diz precisamente
que o conjunto ortonormal B0 ∪ B1 , que gera A, é uma base ortonormal completa em H, encerrando
novamente a prova.
Os Teoremas 23.28 e 23.30 foram demonstrados por Hilbert33 , Schmidt34 , Riesz35 e Schauder36 . O
Teorema Espectral para operadores compactos auto-adjuntos foi provado por Hilbert em 1906, sendo o
restante da teoria (re)elaborado pelos demais autores por volta de 1908. Esses trabalhos são os marcos
iniciais da Análise Funcional. Para mais detalhes históricos desses importantes desenvolvimentos, vide
[30].
• O caso de operadores compactos não-auto-adjuntos
O Teorema Espectral demonstrado acima para operadores compactos e auto-adjuntos pode ser,
como veremos, estendido para operadores compactos não-auto-adjuntos. Já observamos, porém, que
nem todo operador compacto em espaços de dimensão infinita possui autovalores. Assim, esperamos
alguma diferença em relação ao caso auto-adjunto, pois na decomposição espectral
√ (23.101) são os
autovalores λn de C que comparecem. A observação crucial vem do fato que |C| := C ∗ C é compacto
33
34
Erhard Schmidt (1876-1959).
35
36
Juliusz Pawel Schauder (1899-1943). Schauder foi tragicamente assassinado pela Gestapo.
e auto-adjunto (Proposição 23.44, página 1109) e, pelo Teorema 23.28, página 1113, possui autovalores,
valendo inclusive o Teorema 23.29.
Seja C um operador compacto mas não necessariamente auto-adjunto e seja C = U |C| sua decom-
posição polar (Teorema 23.22, página 1080). Pela Proposição 23.44, página 1109, sabemos que |C| é
compacto, auto-adjunto e positivo. Podemos, pelo Teorema Espectral para operadores compactos e
auto-adjuntos, Teorema 23.29, página 1116, escrever
∞
X
|C| = µn hφn , · i φn ,
n=1
onde µn são os autovalores positivos de |C| (os quais são positivos pois |C| é um operador positivo) e
φn os correspondentes autovetores normalizados. Usando a decomposição polar C = U |C|, temos então
∞
X
C = µn hφn , · i U φn .
n=1
Lembremos que, pelo Teorema da Decomposição Polar (Teorema 23.22, página 1080), Ker (U ) =
Ker (|C|) = Ker (C), de modo que U φn 6= 0 se µn > 0.
Em resumo, o que concluı́mos desses comentários é o seguinte:
Teorema 23.31 (Decomposição Espectral para Operadores Compactos) Seja C um operador
compacto agindo em um espaço de Hilbert H. Então existem números positivos µ n , n ∈ e conjuntos
ortonormais φn , n ∈ , e ψn , n ∈ , em H tais que

∞
X
C = µn hφn , · i ψn , (23.102)
n=1
a convergência da série de operadores do lado esquerdo se dando na norma de B(H). Se C for de posto
finito, a soma acima será finita. Assim, para todo ψ ∈ H podemos escrever
∞
X
Cψ = µn hφn , ψi ψn , (23.103)
n=1
A expressão (23.102) está também dizendo-nos que todo operador compacto C pode ser aproximado
em norma por operadores de posto finito. Isso generaliza o Teorema 23.27, página 1105, pois aqui não
precisamos supor que H seja separável. 2
• Valores singulares de um operador compacto
Os números µn que comparecem em (23.102) e (23.103) são denominados valores singulares do

operador compacto C. Vemos que trata-se dos autovalores de |C|. O operador C não necessariamente
tem autovalores mas sempre tem valores singulares e, por isso, há que se fazer a distinção entre ambos
os conceitos.
• Operadores Nucleares
Já comentamos à página 1107 que nem todo operador compacto agindo em espaços de Banach pode
ser aproximado por operadores de posto finito. Para espaços de Hilbert, no entanto, isso é verdade,
como atesta a expressão (23.103). No entanto, essa mesma expressão motiva uma importante definição
que apresentaremos e discutiremos brevemente aqui: a de operadores nucleares, noção introduzida por
Grothendieck37 .
limitado N : X → Y é dito ser um operador
Sejam X e Y dois espaços de Banach. Um operador P
nuclear se existirem constantes µn > 0, n ∈ , com ∞ n=1 µn < ∞, funcionais lineares contı́nuos

†
ln :∈ X com kln kX† = 1 para todo n ∈ e vetores yn ∈ Y com kyn kY = 1 para todo n ∈ , tais que

∞
X
Nx = µn ln (x) yn , (23.104)
n=1
para todo x ∈ X.
P
A condição ∞ n=1 µn < ∞, é incluı́da por ser suficiente para garantir convergência do lado direito
da expressão (23.104). Pela expressão (23.103), vemos que um operador compacto em um espaço de
Hilbert é nuclear se e somente se a seqüência de seus valores singulares for somável.
E. 23.22 Exercı́cio-exemplo. Seja ψn , n ∈ , um conjunto ortonormal de vetores em um espaço de

Hilbert H e seja Pn o projetor ortogonal sobre ψn . O operador

X∞
1
C = Pn
n=1
n
é compacto (vide o exemplo da equação (23.93)) mas não é nuclear. Mostre isso. 6
Como exercı́cio, deixamos ao leitor demonstrar as seguintes afirmações, válidas no contexto geral de
espaços de Banach: 1. todo operador de posto finito é nuclear (isso é evidente, aliás); 2. todo operador
nuclear é compacto; 3. toda combinação linear de dois operadores nucleares é novamente um operador
nuclear; 4. o produto (à direita ou à esquerda) de um operador nuclear por um operador contı́nuo é
novamente um operador nuclear. Vide [132].
23.7 O Teorema Espectral para Operadores Limitados Auto-

adjuntos em Espaços de Hilbert
Na presente seção trataremos do Teorema Espectral para operadores limitados auto-adjuntos agindo
em espaços de Hilbert em suas diversas formas. Seguiremos proximamente [99], mas completaremos
várias lacunas daquela exposição.
37
Alexander Grothendieck (1928-).
23.7.1 O Cálculo Funcional Contı́nuo e o Homomorfismo de Gelfand

P
Começamos com uma definição elementar. Se p(x) = a0 + nk=1 ak xk é um polinômio em
Px ∈ , e
n k
T ∈ B(H), H sendo um espaço de Hilbert, define-se p(T ) ∈ B(H)
P por p(T ) := a 0 + k=1 ak T .
n
Convencionando que T 0 = , podemos escrever também p(T ) = k=0 ak T k .
O seguinte lema resume alguns fatos fundamentais a respeito de polinômios de operadores auto-
adjuntos em espaços de Hilbert e é um caso particular da Proposição 23.28, página 1069, dispensando
demonstração.
Lema 23.6 Seja H um espaço de Hilbert e A ∈ B(H) um operador limitado e auto-adjunto. Seja
n
também p(x) = Σ ak xk um polinômio em x ∈ . Então, o espectro de p(A) é a imagem por p do
k=0
espectro de A, ou seja,
σ(p(A)) = {p(λ), λ ∈ σ(A)} =: p(σ(A)) . (23.105)
Fora isso, kp(A)k = sup |p(λ)|. 2
λ∈σ(A)
Seja agora o espaço de Banach C(σ(A)) da funções complexas contı́nuas definidas no espectro
de A dotado da norma kf k∞ := supλ∈σ(A) |f (λ)| e seja P (σ(A)) o sub-espaço de C(σ(A)) formado
por polinômios. Sabemos pelo Teorema de Weierstrass que P (σ(A)) é denso em C(σ(A)). Vimos
também no Lema 23.6 que a aplicação φA ≡ φ : P (σ(A)) → B(H) dada por φ(p) = p(A) satisfaz
kφ(p)kH = kpk∞ . Ora, isso diz-nos que φ é limitada e, pelo Teorema BLT, Teorema 23.1, página 1017,
pode ser estendida unicamente e isometricamente ao fecho de P (σ(A)) que é C(σ(A)). Essa extensão
também será denotada por φ. Assim, para toda f ∈ C(σ(A)) podemos definir φ(f ) como limite em
norma de operadores φ(p), com p sendo polinômios que convergem a f na norma k · k ∞ .
Denotaremos também sugestivamente φ(f ), para f ∈ C(σ(A)), por f (A). Tem-se os seguintes fatos
sobre φ(f ) (vide [99]).
Teorema 23.32 (Cálculo Funcional Contı́nuo) Seja H um espaço de Hilbert, seja A ∈ B(H)
auto-adjunto e seja φA ≡ φ : C(σ(A)) → B(H) definida acima. Para todo polinômio p vale φ(p) =
p(A). Como vimos, pelo Teorema BLT, Teorema 23.1, página 1017, tem-se kφ(f )k H = kf k∞ para toda
f ∈ C(σ(A)). Fora isso, valem as seguintes afirmações:
1. A aplicação φ é um ∗-homomorfismo algébrico, ou seja,

φ(αf + βg) = αφ(f ) + βφ(g) , φ(f g) = φ(f )φ(g) , φ(f )∗ = φ(f ) ,
φ(1) = ,
(23.106)
para todas f, g ∈ C(σ(A)) e todos α, β ∈ . Como f g = gf , segue de (23.106) que φ(f )φ(g) =
φ(g)φ(f ) para todas f, g ∈ C(σ(A)).
2. Se f ≥ 0 tem-se também φ(f ) ≥ 0.
3. Se fn ∈ C(σ(A)), n ∈ é uma seqüência de converge na norma k · k∞ a uma função f ∈

C(σ(A)) então φ(fn ) converge a φ(f ) na norma de B(H). Reciprocamente, se φ(fn ) converge
na norma de B(H), então existe f ∈ C(σ(A)) tal que limn→∞ φ(fn ) = φ(f ). Isso diz-nos que
{φ(f ), f ∈ C(σ(A))} é fechada na norma de B(H). Com a propriedade do item 1, isso significa
que {φ(f ), f ∈ C(σ(A))} é uma álgebra C∗ Abeliana com unidade.
4. Se ϕ ∈ H é um autovetor de A com autovalor λ0 , então φ(f )ϕ = f (λ0 )ϕ. Mais genericamente,

vale σ(φ(f )) = {f (λ), λ ∈ σ(A)}. 2
O ∗-homomorfismo φ : C(σ(A)) → B(H) é por vezes denominado homomorfismo de Gelfand 38 .
Prova do Teorema 23.32. A demonstração desse teorema segue muito proximamente a demonstração do
Teorema 23.17, página 1070 e, de fato, quase todas as asserções acima são casos particulares daquele
teorema pois B(H) é uma álgebra C∗ com unidade. Para facilitar a leitor e destacar algumas poucas
especificidades, apresentamos a demonstração com detalhe.
Prova do item 1. A aplicação φ é limitada e, portanto, contı́nua. As propriedades (23.106), que carac-
terizam φ como um ∗-homomorfismo algébrico, são triviais de se verificar no subespaço denso P (σ(A))
e daı́ se estendem facilmente a todo C(σ(A)) por continuidade.
Prova do item 2. Se f ≥ 0 então f = g 2 para alguma g real e contı́nua. Logo, pela propriedade de
homomorfismo φ(f ) = φ(g 2 ) = φ(g)φ(g) = φ(g)∗ φ(g), que é um operador positivo.
Prova do item 3. Tem-se kφ(fn ) − φ(f )k = kφ(f − fn )k = kf − fn k∞ . Logo, se kf − fn k∞ → 0, segue
kφ(fn ) − φ(f )k → 0. Reciprocamente, se φ(fn ) converge na norma de B(H), segue que φ(fn ) é uma
seqüência de Cauchy em B(H). Assim, como kφ(fn ) − φ(fm )k = kfn − fm k∞ , a seqüência fn é de
Cauchy em C(σ(A)) com a norma k · k∞ . Como C(σ(A)) é completo em relação a essa norma, existe
f ∈ C(σ(A)) à qual fn converge e, portanto, limn→∞ φ(fn ) = φ(f ).
Prova do item 4. Para provar que φ(f )ϕ = f (λ0 )ϕ caso Aϕ = λ0 ϕ, notemos em primeiro lugar que para
qualquer polinômio p vale, claramente, φ(p)ϕ = p(λ0 )ϕ. Se tomarmos uma seqüência de polinômios p
que converge a f na norma k · k∞ teremos o resultado desejado por continuidade.
1
Se λ não pertence à imagem de σ(A) por f então r := (f −λ) é contı́nua e, portanto, φ(r) está
bem definida e vale φ(r)φ(f − λ) = φ(f − λ)φ(r) = , pelas propriedades de homomorfismo, provando
que φ(f ) − λ é bijetora com inversa limitada e que, portanto, λ ∈ ρ(φ(f )), o conjunto resolvente de
φ(f ). Isso estabeleceu que o complemento da imagem de f , \ {f (λ), λ ∈ σ(A)}, é um subconjunto
de ρ(φ(f )). Logo, σ(φ(f )) ⊂ {f (λ), λ ∈ σ(A)}. Vamos agora demonstrar a inclusão oposta. Seja
µ ∈ {f (λ), λ ∈ σ(A)}, ou seja, µ = f (λ0 ) para algum λ0 ∈ σ(A) e vamos supor que µ ∈ ρ(φ(f )), ou
seja, que F := φ(f ) − f (λ0 ) é bijetora. Seja agora P := φ(p) − p(λ0 ) para algum polinômio p tal que
kf − pk∞ < . Teremos, F − P = φ(f − p) − (f (λ0 ) − p(λ0 )) e, assim,
kF − P k ≤ kφ(f − p)k + |f (λ0 ) − p(λ0 )| k k = kf − pk∞ + |f (λ0 ) − p(λ0 )| ≤ 2kf − pk∞ < 2 .
Agora, pelo Corolário 23.3, página 1058, se escolhermos esse pequeno o suficiente tal que kF − P k <
kF −1 k−1 , então P será invertı́vel em B(H), o que implica p(λ0 ) 6∈ σ(φ(p)) com λ0 ∈ σ(A). Isso
contraria (23.105). Logo, devemos ter µ 6∈ ρ(φ(f )), ou seja, µ ∈ σ(φ(f )), o que prova {f (λ), λ ∈
σ(A)} ⊂ σ(φ(f )), estabelecendo a igualdade desses dois conjuntos. Isso completa a prova do Teorema
23.32
Comentamos que a identificação σ(φ(f )) = {f (λ), λ ∈ σ(A)} não contraria o fato de σ(φ(f )) ser
fechado, pois a imagem de um conjunto compacto (no caso, σ(A)) por uma função contı́nua (no caso,
f ) é sempre um conjunto compacto (ou seja, fechado e limitado).
38
23.7.2 Generalizando o Cálculo Funcional Contı́nuo. As Medidas Espec-

trais
Seja daqui por diante A um operador auto-adjunto limitado fixo, definido em um espaço de Hilbert H.
O Teorema 23.32 é muito importante por permitir definir objetos como f (A) para uma função
contı́nua f definida no espectro de um operador auto-adjunto A agindo em um espaço de Hilbert.
Sucede, porém, que é possı́vel fazer ainda mais e definir f (A) mesmo para certas funções f que não
sejam contı́nuas. A necessidade de um tal resultado não é meramente um capricho matemático, mas é
importante para alcançarmos um resultado mais profundo, a saber, a versão por projetores espectrais
do teorema espectral da qual falaremos mais abaixo.
Nosso ponto de partida é a seguinte observação. Seja ψ ∈ H e seja f ∈ C(σ(A)). Então, a aplicação
f 7→ hψ, f (A)ψiH = hψ, φ(f )ψiH é claramente um funcional linear definido em C(σ(A)). Fora isso,
para todo f ∈ C(σ(A)) vale
Cauchy-Schwarz
|hψ, φ(f )ψiH | ≤ kφ(f )k kψk2 = kf k∞ kψk2 ,
provando que a aplicação C(σ(A)) 3 f 7→ hψ, φ(f )ψiH é limitada e, portanto, contı́nua. Além disso, se
f ≥ 0, vimos pelo Teorema 23.32 que φ(f ) é um operador positivo. Isso significa que hψ, φ(f )ψiH ≥ 0
para todo ψ ∈ H. Por fim, se f ≡ 1, segue que φ(f ) = e hψ, φ(f )ψiH = kψk2 < ∞.
Em resumo, provamos que para ψ ∈ H com a aplicação C(σ(A)) 3 f 7→ hψ, φ(f )ψiH é um funci-
onal linear contı́nuo, positivo. Esses fatos aparentemente inocentes têm uma conseqüência profunda e
altamente não-trivial. Um clássico teorema de Análise conhecido como Teorema da Representação de
Riesz39 afirma que
Teorema 23.33 (Teorema da Representação de Riesz ou Teorema de Riesz-Markov) Seja X
um espaço topológico localmente compacto e Hausdorff e seja C c (X) o espaço das funções contı́nuas
definidas em X que tenham suporte compacto. Então, se l : Cc (X) → é um funcional linear positivo
em Cc (X), existe uma (única) medida positiva µ sobre uma σ-álgebra M que contem a σ-álgebra de
Borel de X tal que Z
l(f ) = f dµ .
X
para toda f ∈ Cc (X). A medida µ e a σ-álgebra M satisfaz µ(K) < ∞ para todo compacto K ⊂ X e é
regular, ou seja
µ(E) = inf{µ(V ), E ⊂ V, V aberto} (23.107)
para todo E ∈ M e
µ(E) = sup{µ(K), K ⊂ E, K compacto} (23.108)
para todo E ∈ M com µ(E) < ∞. Por fim, o espaço de medida produzido por M e µ é completo, ou
seja, se E ∈ M é tal que µ(E) = 0 então todo subconjunto de E pertence a M. 2
39
O enunciado do teorema acima foi extraı́do de [105], onde sua demonstração pode também ser encon-
trada40 . Alguns autores (por ex. [104]) referem-se a esse Teorema como Teorema de Riesz-Markov 41 .
Em nosso caso, X = σ(A) não é apenas localmente compacto, mas compacto e, portanto, C c (X) =
C(σ(A)). Podemos, então, escrever
Z
hψ , f (A)ψi = f dµψ, A (23.109)
σ(A)
para toda f ∈ C(σ(A)), onde denotamos a medida em σ(A), cuja existência é garantida pelo Teorema
23.33, por µψ, A para lembrar sua dependência em ψ e A.
A medida µψ, A é denominada medida espectral do operador A associada ao vetor ψ ∈ H.
No que se segue, estudaremos várias propriedades dessa medida. Por exemplo, provaremos no item
4 do Teorema 23.35, abaixo, que se ϕ ∈ H, com kϕk = 1, é um autovetor de A com autovalor λ 0 , então
a medida µϕ, A é a medida de Dirac centrada em λ0 .
E. 23.23 Exercı́cio. Mostre que µαψ, A = |α|2 µψ, A para todo α ∈ . 6
A importância da relação (23.109) para nossa tarefa de estender o cálculo funcional para funções
não-contı́nuas é a seguinte. Apesar de a função f em (23.109) ser contı́nua, o lado esquerdo está bem
Rdefinido para qualquer função Boreliana limitada, ou seja, se g : σ(A) → é Boreliana e limitada então
g dµψ, A está bem definida. A questão é: existe um operador g(A) ∈ B(H) tal que hψ , g(A)ψi =
Rσ(A)
σ(A)
g dµψ, A ? Mostraremos que, de fato, um tal operador pode ser definido por essa relação. A idéia é
explorar identidade de polarização para definir o que seria o equivalente aos produtos escalares gerais
hψ , g(A)φi e mostrar que esse equivalente é uma forma sesquilinear e bicontı́nua (em ψ e φ ∈ H), o
que, como veremos, permite definir o operador limitado g(A).
Este é o momento oportuno para introduzirmos a noção geral de forma sesquilinear bicontı́nua em
espaços de Hilbert e estabelecermos um resultado geral sobre essa noção.
• Formas sesquilineares bicontı́nuas
Uma forma sesquilinear42 S : H × H → é dita ser bicontı́nua se existir M > 0 tal que |S(u, v)| ≤
M kuk kvk para todos u, v ∈ H. O seguinte resultado é fundamental para o que segue.
Proposição 23.45 Se S : H × H → é uma forma sesquilinear bicontı́nua em um espaço de Hilbert
H então existe um operador limitado S, único, tal que
S(u, v) = hSu, vi
para todos u, v ∈ H. 2
40
Teorema 2.14 da edição [105].
41
Andrei Andreyevich Markov (1903-1979). O pai desse Markov, que tinha o mesmo nome que o filho e viveu entre 1856
e 1922, foi também um matemático célebre e foi o inventor das cadeias de Markov da teoria dos processos estocásticos,
entre outras coisas. O trabalho do segundo Markov contendo o teorema que citamos sobre funcionais lineares é: A.
Markov, “On mean values and exterior densities”, Mat. Sbornik N.S. 4 (46) (1938) 165-191. Para mais referências
históricas, vide [104].
42
A definição de forma sesquilinear encontra-se à página 112.
Prova. Para cada u fixo, a aplicação v 7→ S(u, v) é um funcional linear contı́nuo. Assim, pelo Teorema
de Representação de Riesz para espaços de Hilbert, Teorema 22.8, página 1008, existe para cada u ∈ H
um vetor ηu tal que S(u, v) = hηu , vi. Seja S : H → H a função (que não pressupomos ser linear) que
associa u a ηu : S(u) = ηu . Escrevemos, portanto, S(u, v) = hS(u), vi para todos u, v ∈ H.
Como S é sesquilinear, tem-se S(α1 u1 +α2 u2 , v) = α1 S(u1 , v)+α2 S(u2 , v), para todos u1 , u2 , v ∈ H
e α1 , α2 ∈ . Assim,
hS(α1 u1 + α2 u2 ), vi = α1 hS(u1 ), vi + α2 hS(u2 ), vi
= hα1 S(u1 ), vi + hα2 S(u2 ), vi = h(α1 S(u1 ) + α2 S(u2 )), vi ,

para todos u1 , u2 , v ∈ H e α1 , α2 ∈ , o que implica S(α1 u1 + α2 u2 ) = α1 S(u1 ) + α2 S(u2 ), ou seja, S
é linear. Pela hipótese de S ser bicontı́nua, tem-se |hSv, ui| ≤ M kuk kvk para todos u, v ∈ H. Assim,
kSvk2 = |hSv, Svi| ≤ M kSvk kvk. Isso implica kSvk ≤ M kvk para todo v ∈ H, provando que S é um
operador linear limitado. A unicidade de S é elementar.
• A construção do operador g(A)
No que segue, Bl (σ(A)) designará o conjunto de todas as funções complexas Borelianas e limitadas
definidas em σ(A).
Proposição 23.46 Para cada g ∈ Bl (σ(A)), Boreliana e limitada, a aplicação Sg : H × H →
definida por
3 Z
1 X −n
Sg (u, v) := i g dµψn , A (23.110)
4 n=0 σ(A)
onde ψn := u + in v, é uma aplicação sesqui-linear e bicontı́nua em H, sendo que |S g (u, v)| ≤

kgk∞ kuk kvk para todos u, v ∈ H. Assim, pela Proposição 23.45, existe um operador limitado, que
denotaremos por g(A), tal que
Sg (u, v) = hu, g(A)vi
para todos u, v ∈ H. É claro também que
kg(A)k ≤ kgk∞ . (23.111)
2
Prova. Para cada função f contı́nua tem-se pela identidade de polarização (2.21), página 124, e por
(23.109), que
3 Z 3
1 X −n 1 X −n
Sf (u, v) = i f dµψn , A = i hψn , f (A)ψn i
4 n=0 σ(A) 4 n=0
3
1 X −n
= i h(u + in v), f (A)(u + in v)i = hu, f (A)vi ,
4 n=0
Isso mostra que Sf é sesquilinear e é bicontı́nua pois, por Cauchy-Schwarz, vale |hu, f (A)vi| ≤
kf (A)k kuk kvk. Queremos agora provar que essas propriedades estendem-se às formas S g , com g ∈
Bl (σ(A)), e a idéia é explorar o fato que tais funções podem ser aproximadas por funções contı́nuas.
Mais especificamente, usaremos o seguinte resultado:
Teorema 23.34 (Teorema de Lusin) 43 Seja X um espaço localmente compacto e Hausdorff e seja
µ uma medida positiva sobre uma σ-álgebra M de X que contem a σ-álgebra de Borel de X tal que: 1)
µ(K) < ∞ para todo compacto K ⊂ X; 2) µ é regular, ou seja µ(E) = inf{µ(V ), E ⊂ V, V aberto}
para todo E ∈ M e µ(E) = sup{µ(K), K ⊂ E, K compacto} para todo E ∈ M com µ(E) < ∞; 3) o
espaço de medida produzido por M e µ é completo, ou seja, se E ∈ M é tal que µ(E) = 0 então todo
subconjunto de E pertence a M.
Suponha que g é uma função complexa e mensurável em X com a propriedade que g(x) = 0 se
x 6∈ B, sendo B ⊂ X tal que µ(B) < ∞. Então para todo > 0 existe f ∈ C c (X) tal que

µ {x ∈ X| g(x) 6= f (x)} ≤ .
Além disso, f pode ser escolhida de forma que
sup |f (x)| ≤ sup |g(x)| .

x∈X x∈X
O enunciado do teorema acima foi extraı́do de [105], onde sua demonstração pode também ser encon-
trada44 . O Teorema 23.34 tem o seguinte corolário elementar, que usaremos adiante.
Corolário 23.14 Seja X é um espaço localmente compacto e Hausdorff e µ j , j = 1, . . . , n, uma
coleção finita de medidas satisfazendo as condições do Teorema 23.34. Seja g é uma função complexa
e Boreliana em X com a propriedade que g(x) = 0 se x 6∈ B, sendo B ⊂ X tal que µ j (B) < ∞,
j = 1, . . . , n. Então para todo > 0 existe f ∈ Cc (X) tal que

µj {x ∈ X| g(x) 6= f (x)} ≤
para todo j = 1, . . . , n. Além disso, f pode ser escolhida de forma que
sup |f (x)| ≤ sup |g(x)| .

x∈X x∈X
Prova. Seja D := {x ∈ X| g(x) 6= f (x)}. Pelas hipóteses, as medidas µj têm em comum a σ-

álgebra de Borel em X, onde podemos definir a medida µ := µ1 + · · · + µn , a qual também satisfaz
todasas condições do Teorema 23.34. Logo, existe
f ∈ C c (X) com (µ 1 + · · · + µ n ) D ≤ , ou seja,
µ1 D + · · · + µn D ≤ , o que implica µj D ≤ para todo j = 1, . . . , n, pois as medidas são
positivas.
43
Nikolai Nikolaevich Lusin (ou Luzin) (1883-1950).
44
Teorema 2.24 da edição [105].
Note-se que as condições 1, 2 e 3 do enunciado do Teorema 23.34 são aquelas garantidas pelo Teorema
23.33 e, portanto, valem para as medidas µψ, A definidas em X = σ(A). A nós nos interessa o seguinte.
Pelo Teorema de Lusin, Teorema 23.34, se g ∈ Bl (σ(A)) é Boreliana e limitada então para todo > 0
existe f ∈ C(σ(A)) tal que µ(E) ≤ , onde E ⊂ σ(A) é o conjunto E := {x ∈ σ(A)| g(x) 6= f (x)} . É
claro disso que
Z Z Z

(f − g) dµψ, A ≤ |f − g| dµψ, A = |f − g| dµψ, A ≤ kf − gk∞ µ(E) ≤ 2kgk∞ ,

σ(A) σ(A) E
(23.112)
onde usamos o fato que, novamente pelo Teorema de Lusin, kf k∞ ≤ kgk∞, o que implica kf − gk∞ ≤
kf k∞ + kgk∞ ≤ 2kgk∞ . Para u, v ∈ H fixos e > 0 podemos, pelo Corolário 23.14, escolher
f ∈ C(σ(A)) de forma que Z
|f − g| dµψn, A ≤ 2kgk∞ (23.113)
σ(A)
para todos os quatro vetores ψn = u + in v, n = 0, . . . , 3. Assim, com u, v ∈ H fixos e para uma tal f
teremos
3 Z 3 Z
1 X X
−n
|Sg (u, v) − Sf (u, v)| = i (g − f )dµψn , A ≤ |g − f |dµψn , A ≤ 8kgk∞ .
4 n=0 σ(A) n=0 σ(A)
(23.114)
Com isso podemos provar que Sg é sesquilinear explorando o fato que Sf o é para toda f contı́nua. De
fato, para todos u, v1 , v2 ∈ H e α1 , α2 ∈ , temos Sf (u, α1 v1 + α2 v2 ) − α1 Sf (u, v1 ) − α2 Sf (u, v2 ) = 0
se f for contı́nua e daı́ segue que

Sg (u, α1 v1 + α2 v2 ) − α1 Sg (u, v1 ) − α2 Sg (u, v2 )

= Sg (u, α1 v1 +α2 v2 )−α1 Sg (u, v1 )−α2 Sg (u, v2 ) − Sf (u, α1 v1 +α2 v2 )−α1 Sf (u, v1 )−α2 Sf (u, v2 )
≤ |Sg (u, α1 v1 + α2 v2 ) − Sf (u, α1 v1 + α2 v2 )|
+ |α1 | |Sg (u, v1 ) − Sf (u, v1 )| + |α2 | |Sg (u, v2 ) − Sf (u, v2 )| .
Por (23.114), os três últimos termos podem ser escolhidos tão pequenos quanto se queira pela escolha de
uma f ∈ C(σ(A)) apropriada (evocando o Corolário 23.14), o que nos leva a concluir que S g (u, α1 v1 +
α2 v2 ) = α1 Sg (u, v1 ) + α2 Sg (u, v2 ), estabelecendo a linearidade de Sg em relação ao segundo argumento.
A anti-linearidade em relação ao primeiro argumento é provada da mesma forma. Resta-nos mostrar
que Sg é bicontı́nua. Escolhendo novamente f ∈ C(σ(A)) de forma que |Sg (u, v) − Sf (u, v)| ≤ , para
algum > 0 qualquer (vide (23.114)), e usando que |Sf (u, v)| ≤ kf (A)k kuk kvk, teremos
|Sg (u, v)| = |Sg (u, v)−Sf (u, v)+Sf (u, v)| ≤ |Sg (u, v)−Sf (u, v)|+|Sf (u, v)| ≤ +kf (A)k kuk kvk .
(23.115)
Lembremos que kf (A)k = kf k∞ e que, pelo Teorema de Lusin, Teorema 23.34, podemos escolher f
de modo que kf k∞ ≤ kgk∞ . Assim, |Sg (u, v)| ≤ + kgk∞kuk kvk. Como isso vale para todo > 0,
concluı́mos que |Sg (u, v)| ≤ kgk∞ kuk kvk, provando que Sg é bicontı́nua. Isso completa a prova da
Proposição 23.46.
A Proposição 23.46 estabelece uma associação entre funções Borelianas limitadas g definidas em
σ(A) e operadores limitados g(A) agindo em H. Denotemos essa aplicação por φ̂ : Bl (σ(A)) → B(H),
ou seja, g(A) ≡ φ̂(g) A associação f 7→ f (A), para f contı́nua, é, como vimos no curso da demonstração
da Proposição 23.46, um caso particular, de modo que φ̂ : Bl (σ(A)) → B(H) é uma extensão da
aplicação φ : C(σ(A)) → B(H) do Cálculo Funcional Contı́nuo, Teorema 23.32. Sobre a aplicação φ̂
temos o seguinte teorema.
Teorema 23.35 (Cálculo Funcional Boreliano) Seja H um espaço de Hilbert, seja A ∈ B(H)
auto-adjunto e seja φˆA ≡ φ̂ : Bl (σ(A)) → B(H) definida acima. φ̂ é uma extensão de φ : C(σ(A)) →
B(H) do Teorema 23.32 e, portanto, para f ∈ C(σ(A)) vale φ̂(f ) = φ(f ) = f (A). Em particular, para
todo polinômio p vale φ̂(p) = p(A). Por (23.111), kφ̂(g)kH ≤ kgk∞ para toda g ∈ Bl (σ(A)). Fora isso,
valem as seguintes afirmações:
1. A aplicação φ̂ é um ∗-homomorfismo algébrico, ou seja,
φ̂(αg + βh) = αφ̂(g) + β φ̂(h) , φ̂(gh) = φ̂(g)φ̂(h) , φ̂(g)∗ = φ̂(g) ,

φ̂(1) = ,
(23.116)
para todas g, h ∈ Bl (σ(A)) e todos α, β ∈ . Como gh = hg, segue de (23.116) que φ̂(g)φ̂(h) =
φ̂(h)φ̂(g) para todas g, h ∈ Bl (σ(A)).
2. Se g ≥ 0 tem-se também φ̂(g) ≥ 0.
3. Sejam g ∈ Bl (σ(A)) e gn ∈ Bl (σ(A)), n ∈ , tais que lim gn (x) = g(x) para todo x ∈ σ(A) mas
n→∞
tais que existe M > 0 para o qual kgn k∞ < M para todo n ∈ . Então, gn (A) converge a g(A)

na topologia forte, ou seja, para todo ψ ∈ H a seqüência gn (A)ψ converge a g(A)ψ.
4. Se ϕ ∈ H é um autovetor de A com autovalor λ0 , então µϕ, A é a medida de Dirac centrada em

λ0 e φ̂(g)ϕ = g(λ)ϕ para toda g ∈ Bl (σ(A)). Em geral tem-se σ(φ̂(g)) ⊂ {g(λ), λ ∈ σ(A)}. 2
Comentamos que no Teorema 23.32, página 1121, estabelecemos que σ(φ(f )) = {f (λ), λ ∈ σ(A)}
para f contı́nua. Tal propriedade não pode valer, em geral, para funções Borelianas limitadas, já pelo
fato de que a imagem de um conjunto compacto por uma função Boreliana limitada não é necessaria-
mente um conjunto compacto.

Prova do item 1. Como Sg (u, y) dada em (23.110) é claramente linear em g, concluı́mos que φ̂ também
o é: φ̂(αg + βh) = αφ̂(g) + β φ̂(h) para todas g, h ∈ Bl (σ(A)) e todas α, β ∈ .
Para provar que φ̂(gh) = φ̂(g)φ̂(h) é suficiente provar que hu, (gh)(A)vi = hu, g(A)h(A)vi para
cada u, v ∈ H. Fixemos esse par de vetores e, evocando o Corolário 23.14, escolhamos f 1 ∈ C(σ(A))
tal que
µψn , A ({x ∈ σ(A) : g(x) 6= f1 (x)}) ≤
para todos os quatro vetores ψn = u + in h(A)v, n = 0, . . . , 3 e para os quatro vetores ψn = u + in v,

n = 0, . . . , 3. Fixada f1 , e evocando o Corolário 23.14, escolhamos f2 ∈ C(σ(A)) tal que
µψn , A ({x ∈ σ(A) : h(x) 6= f2 (x)}) ≤
para todos os quatro vetores ψn = f1 (A)∗ u + in v, n = 0, . . . , 3 e para os quatro vetores ψn = u + in v,

n = 0, . . . , 3.
Com essas escolhas valem, como em (23.112)
Z
|f1 − g| dµψn , A ≤ 2kgk∞
σ(A)
para todos os quatro vetores ψn = u + in h(A)v, n = 0, . . . , 3 e, portanto, como em (23.114),
|Sg (u, h(A)v) − Sf1 (u, h(A)v)| ≤ 8kgk∞ . (23.117)
Analogamente, Z
|f2 − h| dµψn , A ≤ 2khk∞
σ(A)
para todos os quatro vetores ψn = f1 (A)∗ u + in v, n = 0, . . . , 3. e, portanto, como em (23.114),
|Sh (f1 (A)∗ u, v) − Sf2 (f1 (A)∗ u, v)| ≤ 8khk∞ . (23.118)
Como
n o n o[n o
x ∈ σ(A) : g(x)h(x) 6= f1 (x)f2 (x) ⊂ x ∈ σ(A) : g(x) 6= f1 (x) x ∈ σ(A) : h(x) 6= f2 (x)
(justifique!), segue também que

µψ n , A x ∈ σ(A) : g(x)h(x) 6= f1 (x)f2 (x)

≤ µ ψn , A x ∈ σ(A) : g(x) 6= f1 (x) + µ ψn , A x ∈ σ(A) : h(x) 6= f2 (x) ≤ 2
para todos os quatro vetores ψn = u + in v, n = 0, . . . , 3. Isso implica, como em (23.112),

Z
|f1 f2 − gh| dµψn , A ≤ 4kghk∞
σ(A)
para todos os quatro vetores ψn = u + in v, n = 0, . . . , 3 e, portanto, como em (23.114),
|Sgh (u, v) − Sf1 f2 (u, v)| ≤ 16kgk∞ . (23.119)

Teremos, fazendo uso de (23.117), (23.118) e (23.119),
|hu, (gh)(A)vi − hu, g(A)h(A)vi| = |Sgh (u, v) − Sg (u, h(A)v)|
= |Sgh (u, v) − Sf1 (u, h(A)v) − Sg (u, h(A)v) + Sf1 (u, h(A)v)|
≤ |Sgh (u, v) − Sf1 (u, h(A)v)| + |Sg (u, h(A)v) − Sf1 (u, h(A)v)|
(23.117)
≤ |Sgh (u, v) − Sf1 (u, h(A)v)| + 8kgk∞
= |Sgh (u, v) − hu, f1 (A)h(A)vi| + 8kgk∞
= |Sgh (u, v) − hf1 (A)∗ u, h(A)vi| + 8kgk∞
= |Sgh (u, v) − Sh (f1 (A)∗ u, v)| + 8kgk∞
= |Sgh (u, v) − Sf2 (f1 (A)∗ u, v)
− Sh (f1 (A)∗ u, v) + Sf2 (f1 (A)∗ u, v)| + 8kgk∞
≤ |Sgh (u, v) − Sf2 (f1 (A)∗ u, v)|
+ |Sh (f1 (A)∗ u, v) − Sf2 (f1 (A)∗ u, v)| + 8kgk∞
(23.118)
≤ |Sgh (u, v) − Sf2 (f1 (A)∗ u, v)| + 8(khk∞ + kgk∞ )
= |Sgh (u, v) − hf1 (A)∗ u, f2 (A)vi| + 8(khk∞ + kgk∞ )
= |Sgh (u, v) − hu, f1 (A)f2 (A)vi| + 8(khk∞ + kgk∞)
= |Sgh (u, v) − hu, (f1 f2 )(A)vi| + 8(khk∞ + kgk∞ )
= |Sgh (u, v) − Sf1 f2 (u, v)| + 8(khk∞ + kgk∞ )
(23.119)
≤ 16kghk∞ + 8(khk∞ + kgk∞)
= 8(2kghk∞ + khk∞ + kgk∞) .
Como é arbitrário, concluı́mos que hu, (gh)(A)vi = hu, g(A)h(A)vi para todos u, v ∈ H, o que im-
plica (gh)(A) = g(A)h(A), ou seja, φ̂(gh) = φ̂(g)φ̂(h), estabelecendo a propriedade de homomorfismo.
Provar que φ̂(g)∗ = φ̂(g) segue das seguintes linhas auto-explicativas:
3 Z
∗ 1X n
hv, g(A) ui = hu, g(A)vi = Sg (u, v) = i gdµψn , A
4 n=0 σ(A)
3
1X n
= i h(u + in v), g(A)(u + in v)i = hv, g(A)ui ,
4 n=0
sendo que a última igualdade é demonstrada explicitamente, expandindo-se o produto escalar na soma.
Isso estabeleceu que g(A)∗ = g(A), ou seja, φ̂(g)∗ = φ̂(g).
√
Prova do item 2. Se g é Boreliana limitada e positiva então g também o é (vide Proposição 20.13,
√ √ √ √ √
página 951). Com isso, φ̂(g) = φ̂( g g) = φ̂( g)φ̂( g), que é um operador positivo, pois φ̂( g) =
√ √ √
φ̂ g = φ̂( g)∗ , já que g é real.
Prova do item 3. Sejam g ∈ Bl (σ(A)) e gn ∈ Bl (σ(A)), n ∈ tais que lim gn (x) = g(x) para todo
n→∞
x ∈ σ(A) mas tais que existe M > 0 para o qual kgn k∞ < M para todo n ∈ . Fixemos ψ ∈ H.
Tem-se que
k(gn (A) − g(A))ψk2 = hψ, (gn (A) − g(A))∗ (gn (A) − g(A))ψi
Z
= |gn − g|2 dµψ, A
σ(A)
Z
≤ kgn − gk∞ |gn − g| dµψ, A
σ(A)
Z
≤ (M + kgk∞ ) |gn − g| dµψ, A .
σ(A)
Neste ponto evocamos

Z o Teorema da Convergência Dominada, Teorema 20.6 da página 935, o qual
garante45 que lim |gn − g| dµψ, A = 0. Assim, lim k(gn (A) − g(A))ψk = 0 para cada ψ ∈ H, o
n→∞ σ(A) n→∞
que significa que gn (A) → g(A) na topologia forte.
Prova do item 4. Seja ϕ ∈ H é um autovetor
R de A com autovalor λ0 . Adotemos kϕk = 1 e consideremos
a medida µϕ, A tal que hϕ, f (A)ϕi = σ(A) f dµϕ, A para f contı́nua (vide (23.109)). Pelo Teorema 23.32,
f (A)ϕ = f (λ0 )ϕ. Logo, por (23.112),
Z
f dµϕ, A = f (λ0 ) (23.120)
σ(A)
para toda função f ∈ C(σ(A)).

Vamos provar que µϕ, A ({λ0 }) é não-nula. Seja G um aberto contendo o conjunto fechado {λ0 }.
Então, F = σ(A) \ G é fechado. Pelo Lema de Urysohn46 existe uma função fu ∈ C(σ(A)) satisfazendo
45
Cada gn é dominada pela função constante M , a qual claramente pertence a L1 (σ(A), dµψ, A ).
46
Pavel Samuilovich Urysohn (1898-1924). Urysohn morreu tragicamente, afogado na costa da Bretanha. A demons-
tração do Lema de Urysohn pode ser encontrada em qualquer bom livro de topologia.
0 ≤ fu (x) ≤ 1 para todo x ∈ σ(A) e tal que fu (λ0 ) = 1 e fu (x) = 0 para todo x ∈ F . Assim, fu pode
R (23.120)
ser não-nula apenas no aberto G. Logo, como σ(A) fu dµϕ, A = fu (λ0 ) = 1, vale
Z Z 0≤fu ≤1
1 = fu dµϕ, A = fu dµϕ, A ≤ µϕ, A (G) . (23.121)
σ(A) G
Pela regularidade da medida µϕ, A (propriedade (23.107), página 1123), vale

(23.121)
µϕ, A ({λ0 }) = inf{µϕ, A (G), {λ0 } ⊂ G, G aberto} ≥ 1. (23.122)
Evocando o Teorema de Lusin, Teorema 23.34, existe para todo > 0 uma função f ∈ C(σ(A)) tal
R µϕ, A ({x ∈ σ(A) : g(x) 6= f (x)}) ≤ R e kf k∞ ≤ kgk∞ Como
que vimos (vide (23.112)), isso implica

σ(A) (g − f ) dµϕ, A < 2kgk∞ , ou seja, σ(A) g dµϕ, A − f (λ0 ) < 2kgk∞ e, portanto,
Z
g dµϕ, A = lim f (λ0 ) .
σ(A) →0
Vamos mostrar que lim→0 f (λ0 ) = g(λ0 ). Se assim não fosse, terı́amos f (λ0 ) 6= g(λ0 ) para
todo pequeno o suficiente, ou seja, para tais ’s valeria λ0 ∈ {x ∈ σ(A) : g(x) 6= f (x)}. Logo,
µϕ, A ({λ0 }) ≤ µϕ, A ({x ∈ σ(A) : g(x) 6= f (x)}) < , o que implica µϕ, A ({λ0 }) = 0, contrariando
(23.122)47 . Com isso, estabelecemos que
Z
g dµϕ, A = g(λ0 ) (23.123)
σ(A)
para toda função Boreliana limitada g. Em particular,

R se B ⊂ σ(A) é um conjunto Boreliano e χ B
é sua função caracterı́stica, então µϕ, A (B) = σ(A) χB dµϕ, A = χB (λ0 ). Isso está dizendo-nos que
µϕ, A = δ{λ0 } , a medida de Dirac centrada em λ0 (vide página 840).
Para completar a prova que g(A)ϕ = g(λ0 )ϕ para toda g ∈ Bl (σ(A)), notamos que
k(g(A) − g(λ0 ) )ϕk2 = hϕ, (g(A) − g(λ0 ) )∗ (g(A) − g(λ0 ) )ϕ i

Z
(23.123)
= |g − g(λ0 )|2 dµϕ, A = |g(λ0 ) − g(λ0 )|2 = 0 ,
σ(A)
provando que g(A)ϕ = g(λ0 )ϕ.

1
Se λ não pertence ao fecho da imagem de σ(A) por g então r := (g−λ)
é Boreliana e limitada
e, portanto, φ̂(r) está bem definida e vale φ̂(r)φ̂(g − λ) = φ̂(g − λ)φ̂(r) = , pelas propriedades
de homomorfismo, provando que φ̂(g) − λ é bijetora com inversa limitada e que, portanto, λ ∈
ρ(φ̂(g)), o conjunto resolvente de φ̂(g). Isso estabeleceu que o complemento do fecho da imagem de g,
\ {g(λ), λ ∈ σ(A)}, é um subconjunto de ρ(φ̂(g)). Logo, σ(φ̂(g)) ⊂ {g(λ), λ ∈ σ(A)}.
47
Esse argumento casualmente prova que f (λ0 ) = g(λ0 ) para todo pequeno o suficiente, um resultado intuitivamente
esperado, já que µϕ, A ({λ0 }) 6= 0
Com isso a demonstração do Teorema 23.35 está completa.
Uma das conseqüências mais importantes da extensão de φ a φ̂ reside no fato que agora podemos
definir operadores como φ̂(χB ) = χB (A), onde χB é a função caracterı́stica de um conjunto Boreliano
B de σ(A). Como veremos, podemos com o uso de tais operadores generalizar o Teorema Espectral
para operadores auto-adjuntos limitados, um fato de importância fundamental, inclusive para a Fı́sica
Quântica. Para tratar disso devemos primeiro discutir a noção geral de medidas com valores em
projeções ortogonais (mvpo’s).
23.7.3 Medidas com Valores em Projeções Ortogonais
Definição. Seja K um conjunto compacto (i.e., fechado e limitado) de , doravante fixo. Vamos
denotar por B(K) a coleção de todos os conjuntos Borelianos de K. Uma associação E K ≡ E :

B(K) → B(H) que a cada conjunto Boreliano B ∈ B(K) associa um operador limitado EB é dita ser
uma medida com valores em projeções ortogonais (mvpo) se as seguintes condições forem satisfeitas.
1. Cada EB é um projetor ortogonal, ou seja, EB2 = EB e EB∗ = EB .
2. E∅ = 0 e EK = .
3. EB1 EB2 = EB1 ∩B2 para todos B1 , B2 ∈ B(K).
4. Para toda coleção contável Bn , n ∈ , de Borelianos em K satisfazendo Bk ∩ Bl = ∅ sempre que

k 6= l, tem-se
N
X
E S
Bn = s−lim EBn ,
n∈ N →∞
n=1
onde s−lim é o limite na topologia forte, ou seja, para todo ψ ∈ H vale

N
X
E S
Bn ψ = lim EBn ψ .
n∈ N →∞
n=1
A relevância dessa definição ficará clara com o Teorema 23.37, adiante. Notemos por ora que para cada
ψ ∈ H com ψ 6= 0 podemos definir, para todo B ∈ B(K),
νψ, E (B) := hψ, EB ψi . (23.124)
O ı́ndice E servirá para lembrar a dependência de ν da medida com valores em projeções ortogonais
{EB ∈ B(H), B ⊂ K, B Boreliano}.
Teremos, νψ, E (∅) = hψ, E∅ ψi = 0 e νψ, E (B) ≥ 0 para todo B, pois hψ, EB ψi = hψ, EB∗ EB ψi =
kEB ψk2 . Além disso, O item 4 da definição acima tem a seguinte conseqüência: se Bn , n ∈ , é uma
coleção contável de Borelianos em K satisfazendo Bk ∩ Bl = ∅ sempre que k 6= l, então
! * N
+
[ X
νψ, E Bn = ψ, E S
Bn ψ = ψ, s−lim EBn ψ
n∈ N →∞
n∈
n=1
N
X N
X
= lim hψ, EBn ψi = lim νψ, E (Bn ) .
N →∞ N →∞
n=1 n=1
Essas propriedades estão dizendo-nos que νψ, E é uma medida positiva sobre a σ-álgebra de Borel de
K. Se kψk = 1, tem-se que νψ, E (K) = hψ, EK ψi = kψk2 = 1, e vemos nesse caso νψ, E é uma medida
de probabilidade em K.
Se assim é, podemos construir uma integral (de Lebesgue) sobre a medida Boreliana νRψ, E , tal como
desenvolvido no Capı́tulo 20, página 895, e com a mesma teremos definidas as integrais gdνψ, E para
toda g Boreliana e limitada. Como mostraremos, seguindo passos semelhantes, mas não idênticos, à
construção dos operadores φ̂(A) ≡ g(A) feita acima (passos esses iniciados com aRProposição 23.46 e
que culminaram com o Teorema 23.35), podemos construir
R a partir das integrais gdνψ, E operadores
limitados, que denotaremos por φE (g) ≡ gE , tais que gdνψ, E = hψ, gE ψi para todo ψ ∈ H.
• Construindo os operadores φE (g) ≡ gE
Nossa construção dos operadores φE (g) ≡ gE assemelha-se àquela

R dos operadores φ̂(A) ≡ g(A) mas,
ao contrário daquele caso, não podemos partir do pressuposto que f dνψ, E = hψ, fE ψi para f ∈ C(K)
contı́nua, pois os operadores fE não foram ainda definidos. Nossa estratégia será inicialmente definir
tais operadores para as funções Borelianas simples de K e, a partir delas, definir os operadores g E para
g Boreliana e limitada.
Seja X um conjunto e Y ⊂ X. Define-se a função caracterı́stica de Y , denotada χY : X → por

1, se x ∈ Y
χY (x) = .
0, se x 6∈ Y
P
Seja, s = m k=1 αk χBk uma função simples Boreliana limitada definida em K, onde Bk ∈ B(K) e
αk , para todo k = 1, . . . , m. O conjunto de todas as funções
Pm simples Borelianas limitadas definida em
K será denotado por Sl (K). Definimos φE (s) ≡ sE := k=1 αk EBk . É elementar constatar que
φE (αr + βs) = αφE (r) + βφE (s) , φE (rs) = φE (r)φE (s) ,
φE (s)∗ = φE (s) , φE (1) = φE (χK ) = , (23.125)
para todas r, s ∈ Sl (K) e todos α, β ∈ . Como rs = sr, segue de que φE (r)φE (s) = φE (r)φE (s) para
todas r, s ∈ Sl (K). Assim, P
φE : Sl (K) → B(H) é um ∗-homomorfismo. Observe-se que se s ∈ Sl (K) é
representado na forma s = m k=1 αk χBk (com os Bk ’s disjuntos) então o espectro de s é {α1 , . . . , αm }
e ksk coincide com max{|α1 |, . . . , |αm |} = supx∈K |s(x)| ≡ ksk∞ .
Temos o seguinte análogo à Proposição 23.46, da página 1125:
Proposição 23.47 Para cada g ∈ Bl (K), Boreliana e limitada, a aplicação Sg : H × H → definida

por
3 Z
1 X −n
Sg (u, v) := i g dνψn , E (23.126)
4 n=0 K
onde ψn := u + in v, é uma aplicação sesqui-linear e bicontı́nua em H, sendo que |S g (u, v)| ≤

kgk∞ kuk kvk para todos u, v ∈ H. Assim, pela Proposição 23.45, existe um operador limitado, que
denotaremos por φE (g) ≡ gE , tal que
Sg (u, v) = hu, gE vi
para todos u, v ∈ H. Vale igualmente que
kgE k ≤ kgk∞ . (23.127)
Pm
Prova. Para cada função s ∈ Sl (K) da forma s = k=1 αk χBk tem-se pela identidade de polarização
(2.21), página 124, que
3 Z m 3 Z
1 X −n X 1 X −n
Ss (u, v) = i sdνψn , E = αk i χBk dνψn , E
4 n=0 K k=1
4 n=0 K
m
X 3
1 X −n
= αk i νψn , E (Bk )
k=1
4 n=0
m
X 3 3
(23.124) 1 X −n 1 X −n
= αk i hψn , EBk ψn i = i hψn , sE ψn i
k=1
4 n=0 4 n=0
3
1 X −n
= i h(u + in v), sE (u + in v)i
4 n=0
= hu, sE vi ,
Isso mostra que Ss , com s ∈ Sl (K), é sesquilinear e é bicontı́nua pois, por Cauchy-Schwarz, vale
|hu, sE vi| ≤ ksE k kuk kvk ≤ ksk∞ kuk kvk. Queremos agora provar que essas propriedades estendem-se
às formas Sg , com g ∈ Bl (K), e a idéia é explorar o fato que tais funções podem ser aproximadas
por funções simples. Mais especificamente, usaremos os seguintes fatos: pelo Lema 20.3, página 920, e
pelo Corolário 20.2, se g ∈ Bl (K), existe uma seqüência sn ∈ Sl (K) tal que limn→∞ sn (x) = g(x) para
todo x ∈ K. Podemos escolhe-la de forma que supx∈K |sn (x)| ≤ supx∈K |g(x)| para todo n. Agora,
pelo Teorema da Convergência
R Dominada, Teorema 20.6, página 935, segue do fato de a própria g ser
integrável que limn→∞ K |sn − g|dν = 0. Se ν é uma R soma finita de medidas, ν = ν1 + · · · + νl , segue
disso que para todo > 0 existe s ∈ Sl (K) tal que K |s − g|dνk < para todo k = 1, . . . , l e de modo
que supx∈K |s(x)| ≤ supx∈K |g(x)|.
Disso extraı́mos essencialmente a mesma conseqüência que em (23.114): para cada u, v ∈ H,

g ∈ Bl (K) e > 0 podemos encontrar s ∈ Sl (K) tal que |Sg (u, v) − Ss (u, v)| ≤ . Como em (23.115),
isso implica, |Sg (u, v)| = |Sg (u, v) − Ss (u, v) + Ss (u, v)| ≤ |Sg (u, v) − Ss (u, v)| + |Ss (u, v)| ≤
+ ksE k kuk kvk e como ksE k ≤ ksk∞ ≤ kgk∞ temos também |Sg (u, v)| ≤ kgk∞kuk kvk para todo
u, v ∈ H.
Tendo provado que Sg é sesquilinear e bicontı́nua, concluı́mos novamente pela Proposição 23.45,
que existe um operador limitado φE (g) ≡ gE , tal que Sg (u, v) = hu, gE vi para todos u, v ∈ H com
kgE k ≤ kgk∞.
Sobre φE (g) : Bl (K) → B(H) vale o seguinte:

Teorema 23.36 (Cálculo Funcional Boreliano (versão para mvpo’s)) Seja H um espaço de Hil-
bert, K ⊂ compacto e E : B(K) → B(H) uma medida com valores em projeções ortogonais e seja

φE : Bl (K) → B(H) definida acima. Então, kφE (g)kH ≤ kgk∞ para toda g ∈ Bl (K). Fora isso, valem
as seguintes afirmações:
1. A aplicação φE é um ∗-homomorfismo algébrico, ou seja,
φE (αg + βh) = αφE (g) + βφE (h) , φE (gh) = φE (g)φE(h) ,
φE (g)∗ = φE (g) , φE (1) = , (23.128)

para todas g, h ∈ Bl (K) e todos α, β ∈ . Como gh = hg, segue de (23.128) que φE (g)φE(h) =
φE (h)φE (g) para todas g, h ∈ Bl (K).
2. Se g ≥ 0 tem-se também φE (g) ≥ 0.
3. Sejam g ∈ Bl (K) e gn ∈ Bl (K), n ∈ , tais que lim gn (x) = g(x) para todo x ∈ K mas tais
n→∞
que existe M > 0 para o qual kgn k∞ < M para todo n ∈ . Então, φE (gn ) converge a φE (g) na

topologia forte, ou seja, para todo ψ ∈ H a seqüência φE (gn )ψ converge a φE (g)ψ. 2
Prova. As demonstrações dos itens 1 e 2 repetem os mesmos passos das demonstrações respectivas
do Teorema 23.35, apenas com a diferença que as funções Borelianas não são aqui aproximadas por
funções contı́nuas, mas por funções simples.
• Integração sobre uma medida com valores em projeções ortogonais
Por analogia à definição de integral sobre medidas, vamos escrever

Z Z
φE (g) ≡ gE ≡ g(λ) dEλ ≡ g(λ) dEλ ,
K
R
para denotar o operador obtido na Proposição 23.47 tal que hψ, gE ψi = gdνψ, E para todo ψ ∈ H
com kψk = 1. Com essa notação, podemos também formalmente escrever
Z Z
hψ, gE ψi ≡ g(λ) hψ, dEλ ψi ≡ g(λ) dhψ, Eλ ψi
e entender dhψ, Eλ ψi como uma nova notação para dνψ, E .

O fato de φE ser um ∗-homomorfismo entre as álgebras Bl (K) e B(H) (Teorema 23.36, página 1136)
expressa-se na nova notação da seguinte forma, que nada mais é que a (23.128):
Z Z Z
αg(λ) + βh(λ) dEλ = α g(λ) dEλ + β h(λ) dEλ , (23.129)
K K K
Z Z Z
(gh)(λ) dEλ = g(λ) dEλ h(λ) dEλ , (23.130)
K K K
Z ∗ Z
g(λ) dEλ = g(λ) dEλ , (23.131)
K K
Z Z Z
χK (λ) dEλ ≡ 1 dEλ ≡ dEλ = , (23.132)
K K K
válidas para todas g, h ∈ Bl (K) e todos α, β ∈ .

De particular importância é o operador obtido do monômio f (λ) = λ. Vamos denotá-lo por A E :
Z
AE := λ dEλ .
Mostraremos que a cada operador A limitado auto-adjunto existe uma única medida E com valores
em projeções ortogonais com a propriedade que AE = A.
23.7.4 Os Projetores Espectrais e o Teorema Espectral

Seja B ⊂ σ(A) um conjunto Boreliano. Então χB ∈ Bl (σ(A)). A introdução dos operadores φ̂(g) =
g(A) para g Boreliana e limitada permite-nos definir os operadores limitados PB := φ̂(χB∩σ(A) ) ≡
χB (A), denominados projetores espectrais do operador auto-adjunto A. Suas propriedades básicas estão
coletadas no seguinte teorema:
Teorema 23.37 Seja A um operador auto-adjunto agindo em um espaço de Hilbert H. Então a
associação P : B(σ(A)) → B(H) que a cada Boreliano de σ(A) associa um operador limitado dada por
B(σ(A)) 3 B 7→ PB := φ̂(χB ) ≡ χB (A) ∈ B(H) é uma medida com valores em projeções ortogonais,
mais especificamente, tem-se
1. Cada PB é um projetor ortogonal, ou seja, PB2 = PB e PB∗ = PB .

2. P∅ = 0 e Pσ(A) = .
3. PB1 PB2 = PB1 ∩B2 para todos B1 , B2 ⊂ σ(A) Borelianos.
4. Se Bn , n ∈ , é uma coleção contável de Borelianos em σ(A) satisfazendo B k ∩ Bl = ∅ sempre

que k 6= l, então
XN
P Bn = s−lim
S
PB n ,
n∈ N →∞
n=1
onde s−lim é o limite na topologia forte, ou seja, para todo ψ ∈ H vale

N
X
P S
Bn ψ = lim PB n ψ .
n∈ N →∞
n=1
5. Se ψ ∈ H, vale
µψ, A (B) = hψ, PB ψi , (23.133)
para todo B ∈ B(σ(A)).
Os projetores PB com B ∈ B(σ(A)) são denominados projetores espectrais do operador A. 2

Prova do item 1. Como χ2B = χB e χB = χB , o item 1 segue do item 1 do Teorema 23.35.
Prova do item 2. χ∅ = 0 e, daı́, P∅ = φ̂(χ∅ ) = 0. Fora isso, χσ(A) coincide em σ(A) com o polinômio
constante igual a 1. Logo, pelo enunciado Teorema 23.35, tem-se Pσ(A) = φ̂(χσ(A) ) = φ̂(1) = .
Prova do item 3. χB1 χB2 = χB1 ∩B2 . Logo, pela propriedade de homomorfismo de φ̂, item 1 do Teorema
23.35, vale PB1 PB2 = φ̂(χB1 )φ̂(χB2 ) = φ̂(χB1 ∩B2 ) = PB1 ∩B2 .
P
Prova do item 4. A seqüência de funções Borelianas gN = N n=1 χBn satisfaz kgN k∞ = 1 para todo N ,
pois os Bn são disjuntos e, portanto, cada ponto x ∈ σ(A) pode estar no máximo em um dos Bn ’s. É
também claro que para cada x ∈ σ(A)
N
X
χ S
Bn (x) = lim χBn (x) = lim gN (x) .
n∈ N →∞ N →∞
n=1
Portanto, pelo item 3 do Teorema 23.35, segue que

N
! N
X X
φ̂ χ S
Bn = s−lim φ̂ χB n = s−lim φ̂ (χBn ) ,
n∈ N →∞ N →∞
n=1 n=1
ou seja,
N
X
P S
Bn = s−lim PB n .
n∈ N →∞
n=1
R
Prova do item 5. A prova é elementar, pois µψ, A (B) = σ(A)
χB dµψ, A = hψ, χB (A)ψi ≡ hψ, PB ψi.
É evidente agora que νφ, P = µψ, A , pelo menos quando essas medidas estão restritas à σ-álgebra de
Borel de σ(A). Com o uso da notação introduzida acima, teremos
Z
g(A) = g(λ) dPλ (23.134)
σ(A)
para toda g ∈ Bl (σ(A)) e, em particular, podemos escrever o próprio operador auto-adjunto A na

forma Z
A = λ dPλ . (23.135)
σ(A)
As relações (23.129)-(23.132) ficam

Z Z Z
αg(λ) + βh(λ) dPλ = α g(λ) dPλ + β h(λ) dPλ , (23.136)
σ(A) σ(A) σ(A)
Z Z Z
(gh)(λ) dPλ = g(λ) dPλ h(λ) dPλ , (23.137)
σ(A) σ(A) σ(A)
Z ∗ Z
g(λ) dPλ = g(λ) dPλ , (23.138)
σ(A) σ(A)
Z Z Z
χσ(A) (λ) dPλ ≡ 1 dPλ ≡ dPλ = , (23.139)
σ(A) σ(A) σ(A)
válidas para todas g, h ∈ Bl (σ(A)) e todos α, β ∈ .
• Unicidade dos projetores espectrais
Se tivermos uma outra medida E com valores em projeções ortogonais tal que A E = A, será essa
medida
R idêntica
R à medida dos projetores espectrais P definida acima? A Rresposta é sim! De
R fato, se A =
σ(A)
λ dPλ = σ(A) λ dEλ vale para todo polinômio p a relação p(A) = σ(A) p(λ) dPλ = σ(A) p(λ) dEλ
(para isso, use (23.129)-(23.130) e (23.136)-(23.137)). Assim, para todo ψ ∈ H e todo polinômio p,
vale
Z Z Z Z
ψ, p(λ) dPλ ψ = ψ, p(λ) dEλ ψ , ou seja, p(λ) dµψ, A = p(λ) dνψ, E .
σ(A) σ(A) σ(A) σ(A)
R R
Pelo Teorema de Weierstrass, concluı́mos disso que σ(A) f dµψ, A = σ(A) f dνψ, E para toda função
contı́nua f ∈ C(σ(A)).
R Usando novamente
R o Teorema de Lusin, Teorema 23.34, e o Corolário 23.14,
obtem-se daı́ que σ(A) g dµψ, A = σ(A) g dνψ, E para toda função Boreliana limitada g ∈ Bl (σ(A)). Em
R R
particular, para um conjunto Boreliano B ⊂ σ(A), arbitrário, tem-se σ(A) χB dµψ, A = σ(A) χB dνψ, E ,
ou seja, µψ, A (B) = νψ, E (B). Isso, por sua vez afirma, por (23.124) e por (23.133), que hψ, PB ψi =
hψ, EB ψi para todo ψ ∈ H, o que, pela identidade de polarização (expressão (2.21), página 124) implica
PB = EB . Como B é arbitrário, isso significa que as medidas com valores em projetores ortogonais P
e E coincidem, caso A = AE .
• O Teorema Espectral para operadores auto-adjuntos limitados
Chegamos assim ao seguinte:

Teorema 23.38 (Teorema Espectral) Seja H um espaço de Hilbert e seja A ∈ B(H) auto-adjunto.
Então existe uma única medida com valores em projeções ortogonais P : B(σ(A)) → B(H), a saber,
aquela estabelecida no Teorema 23.37, com B(σ(A)) 3 B 7→ PB := φ̂(χB ) ≡ χB (A) ∈ B(H), tal que,
com a notação acima, Z
A = λ dPλ . (23.140)
σ(A)
Tem-se, também de modo único, Z

g(A) = g(λ) dPλ .
σ(A)
para toda g ∈ Bl (σ(A)) e de sorte que as relações (23.136)-(23.139) são válidas para todas g, h ∈
Bl (σ(A)) e todos α, β ∈ . 2
A expressão (23.140) é denominada representação espectral, ou decomposição espectral do operador

auto-adjunto limitado A. O Teorema Espectral é de importância fundamental para a Fı́sica Quântica,
mas antes de discutirmos isso na Seção 23.7.5, façamos alguns comentários de natureza notacional.
• A notação de Dirac
Na Fı́sica Quântica, encontra-se para as expressões (23.134)-(23.135) a notação, dita notação de

Dirac48 , Z Z
A = λ d|λihλ| , g(A) = g(λ) d|λihλ| ,
σ(A) σ(A)
ou seja, nela identificamos dPλ ≡ d|λihλ|. Assim, na notação de Dirac (23.136)-(23.139) ficam
Z Z Z
αg(λ) + βh(λ) d|λihλ| = α g(λ) d|λihλ| + β h(λ) d|λihλ| ,
σ(A) σ(A) σ(A)
Z Z Z
(gh)(λ) d|λihλ| = g(λ) d|λihλ| h(λ) d|λihλ| ,
σ(A) σ(A) σ(A)
Z ∗ Z
g(λ) d|λihλ| = g(λ) d|λihλ| ,
σ(A) σ(A)
Z Z Z
χσ(A) (λ) d|λihλ| ≡ 1 d|λihλ| ≡ d|λihλ| = ,
σ(A) σ(A) σ(A)
válidas para todas g, h ∈ Bl (σ(A)) e todos α, β ∈ .

Advertimos o leitor que, ao contrário do que é lamentavelmente sugerido em muitos livros-texto de
Mecânica Quântica, não é sempre legı́timo interpretar o sı́mbolo |λihλ| como um projetor sobre um
autovetor |λi, pois nem todo λ ∈ σ(A) é um autovalor de A e |λi não necessariamente designa um
legı́timo vetor de H. A notação de Dirac é apenas isso: uma notação. Mais especificamente, é uma
notação para representar os fatos descritos no Teorema Espectral, Teorema 23.38.
Há uma pequena literatura matemática que pretende atender ao interesse de alguns fı́sicos no sentido
de atribuir um status extra-notacional às manipulações formais envolvendo os sı́mbolos “bra” hλ| e “ket”
48
|λi, através dos chamados “rigged Hilbert spaces”49 . Citemos aqui [99]: “We must emphasize that we
regard the spectral theorem as sufficient for any argument where a nonrigorous approach might rely on
the Dirac notation; thus, we only recommend the abstract rigged space approach to readers with a strong
emotional attachment to the Dirac formalism”.
23.7.5 A Relevância do Teorema Espectral para a Fı́sica Quântica (um

pouco de Fı́sica, finalmente)
• O Teorema Espectral e distribuições de probabilidade no espectro
Se ψ ∈ H é um vetor não-nulo do espaço de Hilbert H e g : Bl (σ(A)) → é uma função Boreliana

limitada definida no espectro de um operador auto-adjunto e limitado A, sabemos pelas considerações
acima que Z Z
hψ, g(A)ψi = g dµψ, A = g(λ) dhψ, Pλ ψi .
σ(A) σ(A)
A medida µψ, A é uma medida positiva em σ(A) e se kφk = 1 sabemos também que
Z Z
dµψ, A = dhψ, Pλ ψi = 1 .
σ(A) σ(A)
Esses dois fatos estão dizendo-nos que µψ, A é uma medida de probabilidade em σ(A). Esse simples fato
matemático tem uma conseqüência significativa no contexto da Fı́sica Quântica, o qual está na raiz da
axiomatização e formalização da mesma em termos de espaços de Hilbert e de operadores agindo em
espaços de Hilbert. Para melhor compreendermos esse fato, façamos algumas considerações gerais.
• Algumas considerações gerais sobre teorias fı́sicas
A Fı́sica compõe-se de várias teorias, relacionadas entre si de diversas formas e que em maior ou
menor grau de aproximação descrevem o mundo observável. Podemos listar a Mecânica Clássica, a
Termodinâmica, a Mecânica Quântica, a Teoria Quântica de Campos Relativista, a Teoria da Relativi-
dade Geral e a Mecânica Estatı́stica. Essas diversas teorias possuem, porém, uma série de ingredientes
em comum. Qualquer teoria fı́sica deve saber especificar:
As grandezas fı́sicas observáveis e sua descrição matemática, a relações entre esses observáveis,
tais como relações de compatibilidade, relações algébricas etc.
O conjunto de valores que podem surgir de medidas individuais de observáveis.
A associação entre sistemas fı́sicos, os observáveis e as distribuições de probabilidade que descre-

vem medidas desses observáveis nos estados.
O conjunto dos estados puros.

49
Vide, e.g., os trabalhos de John Roberts “The Dirac Bra and Ket Formalism”, J. Math. Phys. 7, 1097-1104 (1966)
e “Rigged Hilbert Spaces in Quantum Mechanics”, Commun. Math. Phys. 3, 98-119 (1966). O próprio Roberts não mais
valoriza esse tipo de abordagem.
A dinâmica dos observáveis e dos estados.
As simetrias dos sistemas fı́sicos descritos e suas implementações em estados e observáveis.
Vamos tentar discutir melhor alguns dos pontos acima.
• Observáveis e Distribuições de Probabilidade
Cada teoria fı́sica possui seu próprio conjunto de grandezas observáveis e um de seus objetivos prin-
cipais é descrever o resultado de medidas desses observáveis em sistemas fı́sicos. Seja A uma grandeza
fı́sica observável e C(A) o conjunto de valores possı́veis resultantes de medições de A (em qualquer
estado). É um fato experimental que medidas repetidas de um observável A, mantidas as mesmas
condições, ou seja, no mesmo estado fı́sico E do sistema estudado, não fornecem necessariamente o
mesmo valor em C(A), tendo um caráter aleatório.
É um fato observacional que uma sucessão idealmente infinita de medidas experimentais de A, todas
sob as mesmas condições fı́sicas do sistema em questão, deverá produzir uma distribuição estatı́stica
em C(A) definida por uma medida de probabilidade. Denominemos genericamente essas condições
fı́sicas por E (que pode concretamente representar um conjunto de parâmetros fı́sicos do sistema) e
por µE, A a medida de probabilidade em questão. Essa medida de probabilidade µE, A é uma função
tanto do conjunto de condições E que especifica o sistema quanto do observável A considerado. Essa
medida de probabilidade µE, A é denominada estado (ou estado fı́sico) do sistema em questão em relação
ao observável A. Como toda informação sobre as propriedades do sistema fı́sico no que concerne ao
observável A deve ser resultante da análise estatı́stica das medições experimentais de A no sistema,
concluı́mos que a medida de probabilidade µE, A , ou seja, o estado fı́sico do sistema, contem em si toda
informação disponı́vel sobre essas propriedades.
Aqui encontra-se embutido um princı́pio fı́sico (filosófico, se quiserem) que apenas a realidade ob-
jetiva proveniente da experimentação permite inferências sobre um sistema fı́sico, e essa realidade
manifesta-se na forma distribuições estatı́sticas nos conjuntos C(A) para os vários observáveis A com
os quais estudamos o sistema. Em outras palavras, a realidade de um sistema fı́sico só é alcançada com
base em experimentação e as inferências sobre o mesmo devem ser inferências estatı́sticas com base nos
dados experimentais. É somente com base nessas inferências que se pode determinar padrões gerais (se
houver) que conduzam à elaboração de leis fı́sicas e teorias para explicá-las com base em princı́pios mais
simples (postulados fı́sicos) e inferência matemática. Permitam-nos um comentário histórico-filosófico.
É uma crença geral dos fı́sicos, expressa pela primeira vez por Galilei5051 no séculos XVI-XVII, mas
com raı́zes mais profundas, que a formulação de teorias fı́sicas com base em idéias matemáticas, uma
50
Galileo Galilei (1564-1642). “O livro da natureza não pode ser lido até aprendermos sua linguagem e nos tornarmos
familiares com os sı́mbolos no qual está escrito. E ele está escrito em linguagem matemática, e suas letras são triângulos,
cı́rculos e outras figuras geométricas, sem as quais é humanamente impossı́vel compreender uma única palavra e há
apenas um vagar perdido em um labirinto escuro”’. Il Saggiatore, 1623. Aos “triângulos e cı́rculos” acrescentarı́amos
modernamente equações diferenciais, medidas de probabilidade, operadores em espaços de Hilbert e álgebras C ∗ .
51
O original de Galilei é “La filosofia è scritta in questo grandissimo libro che continuamente ci sta aperto innanzi a
gli occhi (io dico l’universo), ma non si può intendere se prima non s’impara a intender la lingua, e conoscer i caratteri,
ne’ quali è scritto. Egli è scritto in lingua matematica, e i caratteri sono triangoli, cerchi, ed altre figure geometriche,
senza i quali mezi è impossibile a intenderne umanamente parola; senza questi è un aggirarsi vanamente per un’oscuro
laberinto”.
construção da mente humana, seja possı́vel. Que tal tenha seja verdade, o que é corroborado pela
história da Fı́sica até agora, é talvez o maior enigma de toda a Ciência.
Há três possı́veis origens para a aleatoriedade, que mencionamos acima, observada na medição de
um observável em um sistema fı́sico, origens essas que podem ocorrer concomitantemente: ela pode ser
proveniente de erros experimentais de medição, pode ser proveniente de um conhecimento incompleto
do sistema estudado, ou pode ser intrı́nseca do sistema descrito, fato identificado pela primeira vez na
Fı́sica Atômica.
Normalmente, na elaboração de teorias fı́sicas, considera-se a situação ideal na qual imprecisões
experimentais são negligenciadas. Ainda assim restam as duas outras fontes de aleatoriedade, as quais
então devem ser devidamente consideradas no arcabouço teórico. Mais adiante lembraremos como isso
é feito em alguns casos.
O fato que queremos enfatizar é que teorias fı́sicas devem ser capazes de associar a cada estado
fı́sico de um sistema e a cada observável uma distribuição de probabilidades que descreve uma sucessão
de medições daquele observável naquele estado. Note-se que isso não exclui teorias deterministas, como
a Mecânica Clássica, pois situações determinı́sticas também podem ser descritas por distribuições de
probabilidade, tais como distribuições delta de Dirac.
• Variâncias e estados puros
No processo de análise estatı́stica dos resultados de medições de um observável A de um sistema

fı́sico em um determinado estado várias grandezas desempenham um papel. Uma delas é o chamado
valor médio das medidas de A nessa distribuição, ou seja, sua esperança ou valor esperado, que será
denotado aqui por por hAiE . Outras grandezas relevantes são os momenta hAn iE , n ∈ . É um
fato matemático bem conhecido (conseqüência do Teorema de Weierstrass, aliás) que se C(A) for um
conjunto compacto, então a medida de probabilidade µE, A pode ser recuperada a partir do conjunto
de momenta hAn iE , n ∈ . 52
Outra grandeza estocástica importante é a chamada variância, dada por Var E (A) := hA2 iE −hAi2E =
h(A − hAiE )2 iE ≥ 0, que fornece uma indicação qualitativa do quanto os valores das medições de A
afastam-se de seu valor médio. Na Teoria de Probabilidades, o valor esperado (ou “esperança”) de
uma função mensurável (“variável aleatória”) A definida em um espaço amostral Ω e sua variância em
relação a uma medida de probabilidade µ em Ω são dadas por
Z Z
µ (A) ≡ hAiµ := A dµ , Varµ (A) := (A − hAiµ )2 dµ ,
Ω Ω
respectivamente.
Apesar de não ser a única grandeza estocástica que fornece esse tipo de informação qualitativa, a
variância é uma grandeza útil. Na Mecânica Quântica, por exemplo, o célebre princı́pio de incerteza
de Heisenberg53 é uma afirmação sobre a variância de dois observáveis (momento e posição em uma
52
Daı́ a importância de considerarmos observáveis A que sejam limitados, ou seja, para os quais C(A) seja compacto.
Como discutiremos, na Fı́sica Quântica C(A) é identificado com σ(A), o espectro de um operador auto-adjunto A. σ(A)
é compacto (fechado e limitado) se A for um operador auto-adjunto e limitado. Na chamada formulação algébrica das
Teorias Quânticas de Campos, todo o tratamento é feito considerando-se observáveis que sejam operadores auto-adjuntos
e limitados, em espaços de Hilbert ou de álgebras C∗ . Vide [49] ou [3].
53
Werner Karl Heisenberg (1901-1976).
mesma direção cartesiana): Var(px ) Var(x) ≥ ~2 /4.

Na teoria de probabilidades, uma medida de probabilidades em um espaço amostral µ é dita ser pura
se não puder ser escrita como combinação linear convexa de duas outras medidas de probabilidades
do mesmo espaço amostral, ou seja, se não puder ser escrita na forma µ = αµ1 + (1 − α)µ2 onde µ1
e µ1 e µ2 são também medidas de probabilidade e 0 < α < 1. É um exercı́cio fácil mostrar que se
µ = αµ1 + (1 − α)µ2 , então
hAiµ = αhAiµ1 + (1 − α)hAiµ2
e h i2
Varµ (A) = αVarµ1 (A) + (1 − α)Varµ2 (A) + α(1 − α) hAiµ1 − hAiµ2 .
Varµ (A) ≥ αVarµ1 (A) + (1 − α)Varµ2 (A) ≥ min{Varµ1 (A) , Varµ2 (A)}.
Assim, a variância Varµ (A) na medida não-pura µ é sempre maior ou igual à menor das duas variâncias
Varµ1 (A) ou Varµ2 (A). Entendemos, dessa forma, que se restringirmos as medidas µ a um certo conjunto
de medidas M sobre o espaço amostral, então os menores valores possı́veis das variâncias Var µ (A) de
uma função A fixa são alcançadas quando µ encontra-se no sub-conjunto das medidas de probabilidades
puras de M. Nesse sentido, as medidas de probabilidade puras representam aquelas com o menor desvio
possı́vel da grandeza representada por A do seu valor médio.
Dizemos que um sistema fı́sico está em um estado puro para um determinado observável A se µ E, A for
pura. Os estados puros de um sistema fı́sico representam, assim, aqueles com menores “flutuações” da
grandeza observável A. Compreendemos, assim, que determinar quais os estados puros de um sistema
fı́sico e quais as variâncias de observáveis nesses estados puros fornece uma importante informação
sobre as menores flutuações possı́veis que podem ser observadas nesse sistema. Essa é uma importante
informação sobre o grau de aleatoriedade intrı́nseca (ou seja, não proveniente de erros experimentais
ou de conhecimento incompleto) da teoria fı́sica subjacente que descreve o sistema em questão.
Como discutiremos à página 1149, uma outra razão da importância dos estados puros reside no fato
que tanto na Mecânica Clássica quanto na Mecânica Quântica vale a afirmação que o conhecimento dos
valores esperados de um observável em todos os estados puros de um sistema determina univocamente
esse observável.
• O modelo da Mecânica Clássica
Na Mecânica Clássica todos os processos experimentais básicos de medida envolvem medidas de

posição e velocidade, as quais podem ser efetuadas simultânea e independentemente, de modo que, em
princı́pio, quaisquer funções envolvendo as coordenadas e os momenta de um sistema são grandezas
fı́sicas observáveis. É possı́vel constituir novos observáveis procedendo operações algébricas simples com
outros observáveis, tais como combinações lineares, produtos etc. É, portanto, conveniente considerar
a álgebra de todas as funções definidas no espaço de fase do sistema considerado como constituindo
a coleção de todas as grandezas fı́sicas observáveis desse sistema. Como o resultado de uma medida
fı́sica é sempre um número real as grandezas fı́sicas observáveis devem ser funções do espaço de fase
em números reais . Por razões técnicas é conveniente tomar apenas a álgebra das funções definidas

no espaço de fase que sejam mensuráveis em relação à medida de Liouville 54 dqdp, evitando assim
patologias matemáticas.
Uma caracterı́stica importante de sistemas clássicos é a possibilidade de medição simultânea e in-
dependente de quaisquer observáveis distintos. Tal caracterı́stica é denominada compatibilidade de
observáveis. Uma conseqüência da compatibilidade dos observáveis clássicos, a qual acabou implicita-
mente embutida nas observações acima, é que os mesmos formam uma álgebra comutativa.
Dado um observável assim abstratamente definido como sendo uma função f (q, p) podemos nos
perguntar que valores obteremos ao fazer uma medida desse observável em um certo instante de tempo?
A resposta é um tanto decepcionantemente óbvia: se as coordenadas do sistema considerado forem
naquele instante de tempo q0 e seus momenta p0 , então o valor medido de f será f (q0 , p0 ). A coleção
C(f ) de todos os possı́veis de resultados de medidas de f é, portanto, a imagem de f como função de
em .
Na Mecânica Clássica os estados fı́sicos são descritos por distribuições de probabilidade no espaço
de fase, de modo que valores médios de um observável f são dados por
Z
hf i = f (q, p) ρ(q, p) dqdp , (23.141)
R
com ρ(q, p) ≥ 0 e ρ(q, p) dqdp = 1. Nesse sentido podemos identificar a função (ou medida) ρ com
o próprio estado do sistema, pois dela obtem-se univocamente as distribuições de probabilidade nos
conjuntos C(f ), que identificamos com a imagem das funções f : → .
Distribuições tipo medida delta de Dirac ρq0 , p0 (q, p) = δ(q − q0 )δ(p − p0 ) com
Z
hf iq0 , p0 = f (q, p)ρq0 , p0 (q, p) dqdp = f (q0 , p0 )
representam estados puros do sistema tratado e podem ser interpretadas como estados com informação
maximal. Para estados como ρq0 , p0 (q, p) = δ(q − q0 )δ(p − p0 ) tem-se certeza quanto a posições e
momenta dos constituintes do sistema e a variância da distribuição de f é nula, assim como as demais
flutuações, pois
Varq0 , p0 (f ) = hf 2 iq0 , p0 − hf i2q0 , p0 = f (q0 , p0 )2 − f (q0 , p0 )2 = 0 .
Em tais estados, medidas do observável f fornecem um e somente um valor, a saber, f (q 0 , p0 ). Nenhuma
aleatoriedade ocorre, portanto, na medição de quaisquer observáveis quando o sistema encontra-se em
um estado puro clássico. A crença de que é sempre possı́vel fixar todos os parâmetros de um sistema
de modo a fixar completamente seu estado e de modo a eliminar toda aleatoriedade em medições
de observáveis é por vezes denominada “realismo”. A Mecânica Clássica, assim como toda a Fı́sica
Clássica, é nesse sentido realista. Essa caracterı́stica não é encontrada na Fı́sica Quântica, onde os
estados puros podem produzir variâncias não-nulas.
Na Mecânica Clássica não apenas estados puros têm interesse. Na Mecânica Estatı́stica Clássica,
por exemplo, considera-se também estados com distribuições do tipo
1
ρ(q, p) = δ(H(q, p) − E) (23.142)
V (E)
54
no chamado ensemble micro-canônico com R energia E, onde H(q, p) é o Hamiltoniano do sistema e V (E)
é a constante de normalização V (E) = δ(H(q, p) − E) dqdp (suposta finita). No chamado ensemble
canônico adota-se o chamado estado de Gibbs55
1
ρ(q, p) = e−βH(q, p) , (23.143)
Z(β)
R
com a constante de normalização Z(β) = e−βH(q, p) dqdp suposta finita, β sendo o inverso da tempe-
ratura.
A dinâmica dos observáveis de um sistema mecânico clássico é definida pelo fluxo Hamiltoniano no
espaço de fase, o qual é caracterizado pelas equações de Hamilton56 ,
q̇ = −∂p H(q, p) , ṗ = ∂q H(q, p) ,
onde o Hamiltoniano H é uma função diferenciável definida no espaço de fase e satisfazendo condições
adequadas para garantir unicidade e existência de soluções (de preferência globais) para as equações
acima a partir de condições iniciais q(0) e p(0). Se qt e pt são soluções das equações de Hamilton, a
evolução de um observável f é expressa por ft (q, p) := f (qt , pt ). Assim, por (23.141),
Z Z
hf it := hft i = f (qt , pt ) ρ(q, p) dqdp = f (q, p) ρ(q−t , p−t ) dq−t dp−t .
Como a medida de Liouville R dqdp é invariante por um fluxo Hamiltoniano (Teorema de Liouville),
concluı́mos que hf it = f (q, p) ρt (q, p) dqdp, onde ρt (q, p) := ρ(q−t , p−t ) representa a evolução
temporal do estado descrito por ρ. Essa relação ensina-nos como a evolução dos observáveis na Mecânica
Clássica reflete-se na evolução dos estados.
Por (23.142) e (23.143), é evidente que as medidas dos ensemble micro-canônico e canônico são
invariantes pela evolução temporal (um requisito para que as mesmas descrevam estados de equilı́brio),
pois H(qt , pt ) = H(q, p) para todo t.
• O quadro da Fı́sica Quântica
Na Fı́sica Quântica não mais é verdade que os processos experimentais de medida envolvem medidas
de posição e velocidade, pois estas não podem ser feitas de modo independente e simultâneo. Perde-se,
portanto, a propriedade de compatibilidade de alguns observáveis. Como é bem sabido o desenvolvi-
mento histórico da Mecânica Quântica levou à proposição que os observáveis devem ser representados
por operadores auto-adjuntos agindo em um espaço de Hilbert. Um dos postulados adotados afirma
que medidas individuais de um observável representado por um operador A devem ser elementos do
espectro desse operador.
Segundo os postulados da Mecânica Quântica, os estados fı́sicos do sistema quântico com um número
finito de graus de liberdade (ou seja, descrevendo um número finito de partı́culas) são descritos por
“matrizes densidade”57 atuando em um espaço de Hilbert H, ou seja, operadores auto-adjuntos positivos
55
Josiah Willard Gibbs (1839-1903).
56
57
Cabe mencionar que boa parte da interpretação matemática da Fı́sica Quântica que apresentaremos de modo re-
sumido no que segue origina-se das contribuições de von Neumann. János von Neumann (1903-1957). Von Neumann
também adotou os nomes de Johann von Neumann e John von Neumann.
ρ com Tr (ρ) = 1 de modo que o valor médio de um conjunto idealmente infinito de medidas do
observável A no estado descrito por ρ são dadas por hAi = Tr (ρA).
A escolha de operadores auto-adjuntos para o papel de observáveis é motivada por duas proprieda-
des: 1o o espectro de um operador auto-adjunto é um sub-conjunto da reta real, fato condizente com
o postulado que afirma que medidas individuais de um observável devem ser elementos do espectro do
operador associado; 2o o teorema espectralPafirma que operadores auto-adjuntos podem ser representa-
dos por somas (ou integrais) do tipo A = λ∈σ(A) λ Pλ . Aqui, Pλ designa formalmente o projetor sobre
o sub-espaço de auto-vetores de A com auto-valor λ. Por σ(A) denota-se o espectro de A. O sı́mbolo
de soma empregado
R acima tem um sentido apenas formal, devendo ser substituı́do por um sı́mbolo de
integral A = σ(A) λ dPλ , no sentido descrito no Teorema Espectral, Teorema 23.38, página 1139.
A importância do Teorema Espectral na formalização de teorias quânticas é enorme, pois é através
dele que podemos obter as distribuições probabilı́sticas associadas a medidas de um observável A em
um dado estado. De fato, pela prescrição acima e pelo Teorema Espectral, tem-se
X
hAi = Tr (ρA) = λ pλ , (23.144)
λ∈σ(A)
onde pλ = Tr (ρPλ ). Agora, é claro que pλ ≥ 0 e

 
X X
pλ = Tr ρ Pλ  = Tr (ρ) = 1 .
λ∈σ(A) λ∈σ(A)
Esses dois fatos conjuntamente com (23.144) conduzem à interpretação que p λ representa a medida de
probabilidade em σ(A) que descreve distribuições de medidas dos valores do observável A no estado
descrito por ρ. Nesse sentido podemos identificar ρ com o próprio estado do sistema, pois dele obtem-se
univocamente as distribuições de probabilidade nos conjuntos C(A), que identificamos com os espectros
σ(A) dos operadores auto-adjuntos A.
As observações acima mostram que a interpretação de observáveis da Fı́sica Quântica usual em
termos de operadores auto-adjuntos agindo em espaços de Hilbert é coerente com o propósito básico de
descrever medidas experimentais de observáveis e suas distribuições de probabilidade. Comentamos de
passagem que o esquema acima pode ser ainda generalizado e abstraı́do no seguinte sentido. As álgebras
de observáveis de sistemas quânticos podem ser tomadas como álgebras C ∗ abstratas e os estados fı́sicos
correspondem a estados sobre essas álgebras, ou seja, funcionais lineares positivos e normalizados. Nesse
contexto é igualmente possı́vel recuperar a descrição probabilista que esquematizamos acima. A grande
vantagem dessa descrição manifesta-se no tratamento de sistemas quânticos com um número infinito de
graus de liberdade, como na Mecânica Estatı́stica Quântica e na Teoria Quântica de Campos. Por ser
uma descrição independente de espaços de Hilbert, a descrição de observáveis em termos de álgebras C ∗
permite descrever fenômenos tı́picos de sistemas número infinito de graus de liberdade, como regras de
super-seleção e transições de fase. Para aplicações em Fı́sica das álgebras C ∗ remetemos às referências
[49], [3] e [15].
A evolução temporal de observáveis em um sistema com um número finito de graus de liberdade
é caracterizada por uma representação unitária fortemente contı́nua do grupo aditivo (represen-

tando a simetria de evolução temporal, para sistemas independentes do tempo): 3 t 7→ U (t), onde

U (0) = , U (t)U (t0 ) = U (t + t0 ) e U (t)−1 = U (t)∗ para todos t, t0 ∈ . Se A é um observável, sua

evolução será dada por At := U (t)AU (t)∗ . Assim, hAit := hAt i = Tr (ρAt ) = Tr (ρU (t)AU (t)∗ ) e pela
propriedade cı́clica do traço, obtemos hAit = Tr (ρt A) onde ρt := U (t)∗ ρU (t). Essa expressão mostra
como a evolução dos observáveis reflete-se na evolução dos estados. O fato de a evolução U (t) ser
fortemente contı́nua garante, pelo Teorema de Stone58 (vide [99]) que existe um operador auto-adjunto
(não necessariamente limitado) H tal que U (t) = e−iHt/~ para todo t ∈ . Com isso podemos (a menos

de tecnicalidades relativas a domı́nios) transformar por diferenciação a relação A t := U (t)AU (t)∗ na

equação de Heisenberg i~∂t At = [H, At ]. Para os estados teremos, analogamente, i~∂t ρt = −[H, ρt ].
Na Fı́sica Quântica a questão da compatibilidade de dois observáveis está diretamente ligada à
comutatividade dos operadores associados: dois observáveis só podem ser medidos simultaneamente
se os operadores correspondentes comutarem entre si. Essa questão é particularmente importante em
teorias quânticas de campos relativı́sticas, onde o chamado princı́pio de localidade de Einstein deve
ser respeitado. Esse princı́pio, um dos mais centrais em toda a Fı́sica, afirma que eventos separados
por intervalos tipo espaço não podem se relacionar causalmente. Esse princı́pio deve ser traduzido
nas teorias quânticas de campos relativı́sticas pela imposição que observáveis associados a pontos ou
regiões separadas por intervalo tipo espaço devem comutar entre si. As conseqüências dessa imposição
à estrutura das teorias quânticas de campos relativı́sticas são enormes, mas não nos cabe discutı́-las
aqui (vide, por exemplo, [49] e [3]).
Retornando a (23.144), estados puros de sistemas quânticos descritos em um espaço de Hilbert H
correspondem à situação na qual ρ é um projetor sobre um sub-espaço unidimensional de H: ρ = P ψ ,
ou seja, na notação de Dirac ρ = |ψihψ|, onde ψ ∈ H é um vetor normalizado kψk = 1. Assim, para
um estado puro com ρ = Pψ e kψk = 1 teremos hAiψ = hψ, Aψi.
O equivalente ao estado de Gibbs (23.143) à temperatura inversa β para um sistema quântico com
um número finito de partı́culas é ρβ = e−βH /Tr(e−βH ), caso o operador Hamiltoniano seja tal que
Tr(e−βH ) ≤ ∞ (o que é tipicamente o caso se o sistema é restrito a um volume espacial finito). Tais
operadores ρβ comutam com H e são, portanto, invariantes pela evolução temporal, como desejado
para estados de equilı́brio.
Um fato importante é que os estados puros podem apresentar variância não-nula para valores médios
de medidas de certos observáveis, o que não ocorre na Mecânica Clássica:

hA2 iψ − hAi2ψ = ψ, A2 ψ − (ψ, Aψ)2 6= 0,
a menos que ψ seja auto-vetor de A. De fato, para A auto-adjunto,
2
2 1 2
1
2

ψ, A ψ − (ψ, Aψ) = ψ ⊗ ψ, (A ⊗ − ⊗ A) ψ ⊗ ψ = (A ⊗ − ⊗ A)ψ ⊗ ψ .
2 2
Portanto, se hA2 iψ − hAi2ψ = 0 tem-se (A ⊗ − ⊗ A)ψ ⊗ ψ = 0, ou seja, Aψ ⊗ ψ = ψ ⊗ Aψ, o que,
pela definição de produto tensorial, implica59 Aψ = λψ para algum número λ.
Assim, a interpretação usual da Mecânica Quântica admite que o caráter aleatório de medidas de
observáveis em estados puros de sistemas quânticos seja uma propriedade intrı́nseca desses sistemas,
não sendo devido a um conhecimento incompleto dos mesmos nem a erros de experimentação. Mais
58
Marshall Harvey Stone (1903-1989).
59
⊗ ψ = ψ⊗ Aψ o operador (|ψihψ|) ⊗ , onde |ψihψ|
Para o estudante: aplicando-se a ambos os lados da igualdade Aψ
é o projetor sobre ψ, tem-se (ψ, Aψ)(ψ ⊗ψ) = ψ ⊗Aψ, ou seja, ψ ⊗ (ψ, Aψ)ψ = ψ ⊗Aψ, o que implica Aψ = (ψ, Aψ)ψ.
ainda, o conhecimento do estado de um sistema em um dado instante de tempo não permitiria prever
o resultados de medidas individuais de observáveis nesse estado em instantes futuros.
A Fı́sica Quântica contraria nesse sentido a crença do determinismo clássico, ou seja, a crença
que a evolução de medidas experimentais de observáveis um sistema é completamente determinada
por condições iniciais. Vale, porém, uma outra forma de determinismo: a evolução dos estados de
um sistema, ou seja, de suas medidas de probabilidade, é determinada por condições iniciais desses
estados (por exemplo, através da equação de Schrödinger60 na Mecânica Quântica não-relativista). A
determinação precisa de como se dá essa evolução em sistemas fı́sicos concretos (na prática, de qual
é o operador Hamiltoniano que gera a evolução temporal) é uma das tarefas centrais da Fı́sica. No
caso da Fı́sica das Partı́culas Elementares, por exemplo, grandes progressos foram feitos nessa direção,
especialmente após os anos 70 do século XX, com o surgimento do chamado modelo padrão, mas a
tarefa ainda está longe de ser considerada concluı́da.
• A recuperação de um observável a partir dos seus valores esperados em estados puros
Façamos aqui um comentário sobre o papel especial desempenhado pelos estados puros tanto na
Mecânica Clássica quanto na Mecânica Quântica.
Como mencionamos, estados puros na Mecânica Clássica são caracterizados
R por medidas de Dirac no
espaço de fase ρq0 , p0 (q, p) = δ(q −q0 )δ(p−p0 ). Como hf iq0 , p0 = f (q, p)ρq0 , p0 (q, p) dqdp = f (q0 , p0 ),
vemos que o conhecimento de todos os valores esperados de uma grandeza observável f em todos os
estados puros permite recuperar a função f (q, p) em todos os pontos do espaço de fase.
Teorias quânticas formuladas em espaços de Hilbert H têm a mesma caracterı́stica, a despeito do
fato de haver estados puros com variância não-nula. O conhecimento de todos os valores esperados em
estados puros hAiψ = hψ, Aψi com kψk = 1 permite, por meio da identidade de polarização (expressão
(2.21), página 124), identificar univocamente o operador auto-adjunto limitado A. De fato, dados dois
vetores u, v ∈ H, temos a identidade
3
X 3
X
−n
hu, Avi = i n 2
ku + i vk hψn , Aψn i = i−n kψn k2 hAiψn , (23.145)
n=0 n=0
u + in v
onde ψn := . Assim, se para cada par de vetores u, v ∈ H calcularmos ku + in vk2 e
ku + in vk
prepararmos o estado puro determinado pelos quatro vetores ψn (normalizados a 1) e medirmos os
quatro valores esperados de A nesses estados, hAiψn , teremos os produtos escalares hu, Avi por (23.145).
Em princı́pio tais operações são possı́veis, pois em princı́pio pode-se preparar um sistema em quaisquer
dos seus estados puros. Notemos que a determinação de todos os produtos escalares hu, Avi para todos
u, v ∈ H fixa o operador A, pois se um outro operador B é tal que hu, Avi = hu, Bvi para todos
u, v ∈ H, então A = B (assumindo ambos limitados).
Comentemos também que uma vez fixado o operador auto-adjunto A, o Teorema Espectral, Teorema
23.38, página 1139, garante a existência e unicidade
R dos projetores espectrais P B , B Boreliano em
σ(A), e da sua representação espectral A = σ(A) λdPλ . O conhecimento dos PB ’s permite recuperar
R
as medidas espectrais µψ, A (B) = hψ, PB ψi e com elas determinar as integrais σ(A) λn dhψ, Pλ ψi,
60
Erwin Rudolf Josef Alexander Schrödinger (1887-1961).
para todo n ∈ , que identificamos, também pelo Teorema Espectral, com os momenta da grandeza

observável A: hAn iψ . Assim, o conhecimento de todos os primeiros momenta hAiψ para todo ψ ∈ H
com kψk = 1 permite determinar as medidas espectrais µψ, A e todos os demais momenta hAn iψ , n ∈ .
Do ponto de vista da Teoria de Probabilidades essa é uma situação especial, pois nem sempre é possı́vel
recuperar os momenta de uma variável aleatória em uma famı́lia de medidas de probabilidade a partir
apenas do conhecimento dos primeiros momenta dessa variável aleatória nessa famı́lia.
Apêndice
23.A Prova do Teorema 23.18

√
A função complexa f (z) = 1 − z é analı́tica no disco unitário aberto D1 = {z ∈ | |z| < 1} e tem
nesse domı́nio uma série de Taylor absolutamente convergente dada por
∞
X
f (z) = cn z n
n=0
onde
1 (2n − 3)!!
c0 = 1, c1 = − , e cn = − , n≥1.
2 (2n)!!
É bastante claro que |cn | ≤ 1 para todo n (mostre isso).
Em verdade, a série de Taylor de f (z) converge absolutamente no disco unitário fechado D 1 = {z ∈
| |z| ≤ 1}. Para ver isso notemos que os coeficientes cn são todos negativos, exceto quando n = 0.
Assim, tem-se para todo N ≥ 0,
XN
(|cn | + cn ) = 2c0 = 2,
n=0
ou seja,
N
X N
X
|cn | = 2 − cn .
n=0 n=0
Logo,
N
X N
X N
X √
|cn | = 2 − cn = 2 − lim cn tn ≤ 2 − lim 1−t = 2. (23.A.1)
t→1− t→1−
n=0 n=0 n=0
Acima, limt→1− é o limite quando t aproxima-se de 1 pelos reais com valores menores que 1 (lembre-se
que a série de Taylor de f (z) não converge se |z|
PN> 1). nA desigualdade√ da terceira linha deve-se ao
fato de que, para t ∈ [0, 1), a série de Taylor n=0 cn t converge a 1 − t e é decrescente, pois os
P √
coeficientes cn são todos negativos para n ≥ 1, o que implica N n
n=0 cn t ≥ 1 − t. O sinal “−” inverte
o sentido da desigualdade para “≤”.
Com isso, para |z| ≤ 1,
N
X N
X
|cn | |z|n ≤ |cn | ≤ 2 (23.A.2)
n=0 n=0
61
para todo N , provando que a série de Taylor de f (z) converge absolutamente para |z| ≤ 1.
61
Os argumentos acima foram extraı́dos de [99].
Note-se também que, como f (z)2 = 1 − z, vale

 
∞
!2 ∞ X
∞ ∞
X X X  X 
1−z = cn z n = cn cm z m+n = zp  cn cm 
n=0 n=0 m=0 p=0 m+n=p
m, n≥0
   
∞
X ∞
 X  X  X 
= (c0 )2 + 2c0 c1 z + zp  cn cm  = 1 − z + zp  cn cm  , (23.A.3)
p=2 m+n=p p=2 m+n=p
m, n≥0 m, n≥0
o que nos leva a concluir, pela unicidade da série de Taylor, que

X
cn cm = 0, para todo p ≥ 2. (23.A.4)
m+n=p
m, n≥0
Usaremos essa identidade abaixo.
E. 23.24 Exercı́cio. Justifique todas as passagens acima a partir do fato que a série de Taylor de f
converge absolutamente para |z| ≤ 1. 6
Seja w um elemento da álgebra B tal que kwk ≤ 1. Defina-se para N ∈ ,

N
X
sN = cn w n ,
n=0
com a convenção que w 0 = . Vamos mostrar dois fatos sobre sN : primeiro que os sN formam uma
seqüência da Cauchy e segundo que essa seqüência converge a um elemento y tal que y 2 = − w.
Mostremos que {sN , N ∈ } é uma seqüência de Cauchy na álgebra B. Seja N < M . Temos
XM
sM − sN = cn w n . Logo,
n=N +1
M
X M
X M
X
n n
ksM − sN k ≤ |cn | kw k ≤ |cn | kwk ≤ |cn |
n=N +1 n=N +1 n=N +1
PN
Por (23.A.2), as somas parciais kN = n=0 |cn | são limitadas superiormente e, por formarem uma
seqüência
PM crescente, convergem, sendo portanto uma seqüência de Cauchy. Assim |k M − kN | =
n=N +1 n | pode ser feito arbitrariamente pequeno para M e N grandes o suficiente. Isso prova
|c
que sN , N ∈ , é também uma seqüência de Cauchy na álgebra B. Como B é uma espaço de Banach,

a completeza assegura que sN converge a um elemento y da álgebra.

Mostremos agora que y 2 = − w. Isso é equivalente a mostrar que lim (sN )2 = − w (por que?).
N →∞
Agora  
N
!2 N X
N 2N
X X X  X 
2
(sN ) = cn w n
= cn cm w n+m
= wp 
 c n c m
.

n=0 n=0 m=0 p=0 n+m=p
0≤n≤N
0≤m≤N
Para N > 2 podemos escrever

     
2N
X N 2N
 X  X  X  X  X 

p
w   2
cn cm  = (c0 ) + 2c0 c1 w + p
w  
cn cm  + wp  c c .
 n m 
p=0 n+m=p p=2 n+m=p p=N +1 n+m=p
0≤n≤N 0≤n≤N 0≤n≤N
0≤m≤N 0≤m≤N 0≤m≤N
Como (c0 )2 + 2c0 c1 w = − w, segue que

   
N
X 2N
 X  X  X 
2
(sN ) − ( − w) = p
w  
cn cm  + wp  c c .
 n m 
p=2 n+m=p p=N +1 n+m=p
0≤n≤N 0≤n≤N
0≤m≤N 0≤m≤N
Resta-nos provar que essas duas somas convergem a zero quando N → ∞. Na verdade, a primeira
soma é igual a zero, pois
   
N
X  X N
X  X
 
wp 
 c n c m
 =
 wp  cn cm 
p=2 n+m=p p=2 n+m=p
0≤n≤N m, n≥0
0≤m≤N
X
e, para p ≥ 2 vimos em (23.A.4) que cn cm = 0.
n+m=p
m, n≥0
Com isso, temos apenas que

 
2N
X  X 
2
(sN ) − ( − w) = wp 
 c n c m
.

p=N +1 n+m=p
0≤n≤N
0≤m≤N
Agora, para p ≥ 2,
N N p−N −1 p−N −1
X X X X X
cn cm = cn cp−n = cn cp−n − cn cp−n = − cn cp−n ,
n+m=p n=p−N n=0 n=0 n=0
0≤n≤N
0≤m≤N
N
X X
já que cn cp−n = cn cp = 0. Portanto,
n=0 m+n=p

2N 2N p−N −1 2N p−N −1
X X X X X X
k(sN )2 − ( − w)k ≤ kwkp cn cm ≤ cn cp−n ≤ |cn | |cp−n|.
n+m=p
p=N +1 p=N +1 n=0 p=N +1 n=0
0≤n≤N
0≤m≤N
(23.A.5)
Agora,
2N p−N −1 N q
−1 X N −1 N −1
X X q=p−N −1
X X X
|cn | |cp−n| = |cn | |cq−n+N +1| = |cn | |cq−n+N +1 |
p=N +1 n=0 q=0 n=0 n=0 q=n
N −1 N −1
!
X X
= |cn | |cq−n+N +1 |
n=0 q=n
N −1 2N −n
!
r=q−n+N +1
X X
= |cn | |cr |
n=0 r=N +1
N −1 2N
! N −1
! 2N
!
X X X X
≤ |cn | |cr | = |cn | |cr |
n=0 r=N +1 n=0 r=N +1
2N
X
(23.A.2)
≤ 2 |cr |. (23.A.6)
r=N +1
E. 23.25 Exercı́cio. Justifique todas as passagens acima. 6
Assim,
2N
X
k(sN )2 − ( − w)k ≤ 2 |cr |. (23.A.7)
r=N +1
2N
X N
X
Já vimos, porém, que |cr | → 0 quando N → ∞, pois as somas parciais kN = |cr | formam
r=N +1 r=0
um seqüência de Cauchy. Portanto, o lado direito de (23.A.7) converge a zero quando N → ∞,
provando que y 2 = − w.
Capı́tulo 24
Noções de Estruturas Algébricas
Conteúdo
24.1 Álgebras Universais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1156
24.2 Ação de Uma Álgebra Universal sobre uma Outra Álgebra Universal (*) 1163
o aprofundar seu estudo de Matemática o estudante freqüentemente depara com conceitos

como o de grupo, semi-grupo, álgebra, anel, corpo, módulo etc. Nosso objetivo nessa seção
é apresentar definições básicas de tais conceitos acompanhadas, quando possı́vel, de alguns
exemplos relevantes. Nossa intenção não é de forma alguma a de cobrir esses assuntos e seus
resultados mais importantes, mas apenas a de introduzir ao leitor, de maneira mais ou menos unificada,
noções dessas estruturas algébricas, de modo que o mesmo possa encontrar aqui referências rápidas às
mesmas quando delas necessitar. O estudante já familiar com alguns desses conceitos (os conceitos
de grupo e álgebra são populares entre estudantes de Fı́sica) encontrará nessa exposição uma visão
unificada dos mesmos, a unificação se dando em torno de conceitos como o de álgebra universal, que
introduziremos a seguir.
Esta seção deve ser compreendida como uma continuação do Capı́tulo 1 e dispensa a leitura das
demais, exceto daquela. O leitor pode achar ser esta seção uma longa seqüência contendo apenas
definições e exemplos, com poucos resultados, o que é correto. Seu objetivo, porém, é apresentar várias
idéias comuns a várias áreas de um ponto de vista unificado. Incluir resultados importantes sobre
assuntos como álgebras ou teoria de grupos levaria estas notas muito além de seu objetivo e tornaria
suas dimensões grandes demais. Uma certa familiaridade prévia com alguns dos conceitos discutidos
ajudará a tornar a leitura mais fácil, motivante e menos abstrata.
• Operações e Relações
Sejam C e I dois conjuntos e consideremos o produto cartesiano C I (o conceito de produto cartesiano

de conjuntos foi definido na seção 1). Uma função f : C I → C é por vezes dita ser uma operação sobre
C. Se I é um conjunto finito, f é dita ser uma operação finitária sobre C.
Um conjunto R ⊂ C I d́ito ser uma relação em C. Se I é um conjunto finito, R é dito ser uma
relação finitária em C.
• Funções Finitárias
Sejam C e I dois conjuntos e consideremos funções f : C I → C. Se I é um conjunto finito

f : C I → C é dita ser uma função finitária sobre C ou operação finitária sobre C. Sem perda de
generalidade consideraremos aqui funções finitárias do tipo f : C n → C para algum n ∈ . Se f é uma

função finitária para um dado n, f é dita ser uma função n-ária sobre C. Um exemplo de uma função
não finitária seria uma função do tipo f : C → C que a cada seqüência em C associa um elemento de

C.
1155
Funções 2-árias serão chamadas aqui de funções binárias e funções 1-árias são chamadas de funções
unárias.
Por vezes iremos falar também de funções 0-árias sobre C, que consistem em funções f : {∅} → C.
Uma tal função tem por imagem simplesmente um√elemento fixo de C. Exemplos de funções 0-árias
sobre seriam f (∅) = 1 ou f (∅) = 0 ou f (∅) = 2. Freqüentemente denotamos tais funções pelo
elemento
√ de C por ela associado. Nos três exemplos acima, poderı́amos denotar as funções por 1, 0 ou
2, respectivamente.
• Relações Finitárias
Há uma nomenclatura análoga para o caso de relações. Sejam C e I dois conjuntos e consideremos
relações R ⊂ C I . Se I é um conjunto finito R é dita ser uma relação finitária sobre C. Sem perda
de generalidade consideraremos aqui relações finitárias do tipo R ⊂ C n para algum n ∈ . Se R é
uma relação finitária para um dado n, R é dita ser uma relação n-ária sobre C. Para o caso n = 1 as
relações são também chamadas de unárias e para o caso n = 2 são ditas binárias. Relações binárias
foram estudadas à página 22.
• Estruturas
Seja C um conjunto, F uma coleção de operações (não necessariamente finitárias) sobre C e seja
R uma coleção de relações (não necessariamente finitárias) em C. A tripla hC, F, Ri é dita ser uma
estrutura sobre C. Note-se que tanto F quanto R podem ser vazias.
Dado que operações sobre um conjunto C também são relações sobre C, a definição de estru-
tura acima poderia ser simplificada. É porém conveniente mantê-la como está, pois opções são de
importância especial.
Uma estrutura hC, Fi é dita ser uma estrutura algébrica e uma estrutura hC, Ri é dita ser uma
estrutura relacional. Deste segundo tipo de estrutura não trataremos aqui. Aqui estudaremos apenas
um tipo especial de estrutura algébrica, as chamadas álgebras universais, das quais veremos vários
exemplos importantes à toda a Matemática e à Fı́sica.
24.1 Álgebras Universais

Uma Álgebra Universal é constituida por um conjunto C e uma coleção F de funções finitárias sobre
C. A coleção F não precisa ser finita. Freqüentemente denotaremos uma álgebra universal por hC, Fi.
O estudo sistemático das álgebras universais foi iniciado por Withehead1 e Birkhoff2 , tendo Boole,
Hamilton, DeMorgan e Sylvester como precursores. Vamos a alguns exemplos.
2
1. Seja C = e F = {s, m}, onde s e m são duas funções binárias dadas por s :
→ ,
s(x, y) = x + y e m : 2 → , s(x, y) = x · y.

1
Alfred North Withehead (1861-1947).
2
George David Birkhoff (1884-1944).
2. Seja C = Mat(n) (o conjunto das matrizes complexas n × n para um certo n ∈ ) e F = {s, m},
onde s e m são duas funções binárias dadas por s : C 2 → C, s(A, B) = A + B e m : C 2 → C,

s(A, B) = A · B.
3. Seja C o conjunto de todas as matrizes complexas n × m (para n e m ∈ ) e seja F = {c, s, t}

onde c : C → C é a função unária dada por c(A) = A (a matriz complexo-conjugada de A),

s : C 2 → C é a função binária dada por s(A, B) = A + B e t : C 3 → C é a função 3-ária dada
por t(A, B, C) = AB T C, onde B T é a transposta da matriz B.
Vários outros exemplos serão vistos abaixo. Algumas álgebras universais com propriedades especiais
recebem denominações próprias e são chamadas de grupos, semi-grupos, anéis, corpos, álgebras etc.
Vamos introduzı́-las adiante.
• Tipos de Operações e de Relações
Ainda um comentário sobre a nomenclatura.

Sejam C e I conjuntos e seja α : C I → C uma operação sobre o conjunto C. A cardinalidade de I
é dita ser o tipo da operação α. Assim, uma função n-ária é também dita ser de tipo n. Analogamente,
se R ⊂ C I é uma relação em C a cardinalidade de I é dita ser o tipo da relação R.
• Comentário Sobre a Notação
Antes de prosseguirmos, façamos uma observação sobre a notação que é costumeiramente adotada,
especialmente quando se trata de funções binárias.
Dado um conjunto C e uma função binária denotada por um sı́mbolo φ, a imagem de um par
(a, b) ∈ C 2 é comummente denotada por φ(a, b). É muito prático, por vezes, usar uma outra notação
e denotar φ(a, b) por a φ b. Essa notação é denominada mesofixa. Um exemplo claro desse uso está
na função soma, denotada pelo sı́mbolo + : 2 → de dois números complexos. Denotamos +(z, w)
por z + w. Outro exemplo está na função produto · : 2 → de dois números complexos. Denotamos
·(z, w) por z · w.
Essa notação será usada adiante para outras funções binárias além das funções soma e produto de
números ou matrizes.
Funções unárias também têm por vezes uma notação especial, freqüentemente do tipo exponencial.
Tal é o caso da operação que associa a cada elemento de um grupo à sua inversa, g 7→ g −1 , ou o
caso da operação que associa a cada conjunto o seu complementar A 7→ A c . Ou ainda o caso da
transposição de matrizes M 7→ M T , da conjugação de números complexos z 7→ z ∗ para o que usa-se
também sabidamente a notação z 7→ z.
• Comutatividade e Associatividade
Uma função binária χ : C 2 → C é dita ser comutativa se para quaisquer a e b ∈ C valer

χ(a, b) = χ(b, a),
ou seja, na nova notação, se
aχb = bχa.
Funções binárias comutativas são freqüentemente chamadas de Abelianas 3 .

Uma função binária χ : C 2 → C é dita ser associativa se para quaisquer a, b e c ∈ C valer
χ(a, χ(b, c)) = χ(χ(a, b), c),
ou seja, na nova notação, se

aχ(bχc) = (aχb)χc.
Vamos agora apresentar em seqüência vários exemplos de álgebras universais de importância em

Matemática. Em todos eles as funções de F são 0-árias, unárias ou binárias.
• Reticulados
Um reticulado4 sobre um conjunto C é uma álgebra universal hC, Fi onde F é um conjunto de duas
funções binárias denotadas por ∧ e ∨ (lê-se “e” e “ou”, respectivamente), F = {∧, ∨}, as quais são
supostas satisfazer as seguintes relações, validas para todos a, b e c ∈ C (usaremos a nova notação):
1. Idempotência:
a ∧ a = a, a ∨ a = a.
2. Comutatividade:
a ∧ b = b ∧ a, a ∨ b = b ∨ a.
3. Associatividade:
a ∧ (b ∧ c) = (a ∧ b) ∧ c,
a ∨ (b ∨ c) = (a ∨ b) ∨ c.
4. Absorvência5 :
a ∧ (a ∨ b) = a,
a ∨ (a ∧ b) = a.
Vamos a exemplos.
1. Seja C = (B), para algum conjunto B e sejam as funções ∧ e ∨ definidas para todos a, b ⊂ B,
por a ∧ b = a ∪ b, a ∨ b = a ∩ b.
E. 24.1 Exercı́cio. Mostre que isso é um reticulado no sentido da definição acima. 6
2. Seja C = e sejam as funções ∧ e ∨ definidas para todos a, b ∈

, por a ∧ b = max{a, b},
a ∨ b = min{a, b}.

3
4
Denominado “lattice” em inglês e “Verband” em alemão.
5
Também denominada “Amalgamento”.
3. Uma generalização do caso acima. Seja C um conjunto linearmente ordenado (a definição está à
página 30) e sejam as funções ∧ e ∨ definidas para todos a, b ∈ C, por

a, se a ≥ b
a ∧ b := ,
b, de outra forma

a, se a ≤ b
a ∨ b := .
b, de outra forma
• Reticulados Distributivos
Um reticulado é dito ser distributivo se também forem satisfeitas as propriedades
1.
a ∧ (b ∨ c) = (a ∧ b) ∨ (a ∧ c).
2.
a ∨ (b ∧ c) = (a ∨ b) ∧ (a ∨ c).
E. 24.4 Exercı́cio. Nos exemplos acima quais reticulados são distributivos? 6
• Álgebras Booleanas
Uma álgebra Booleana6 é uma álgebra universal formada por um conjunto B e por uma famı́lia
F de cinco funções finitárias: duas binárias, denotadas por ∧ e ∨, uma função unária, denotada por
C e denominada “negação” ou “complemento” e duas funções 0-árias, denotadas genericamente por 0
e 1 (denominadas, obviamente, “zero” e “um”), as quais representam elementos fixos distintos de B.
As funções acima são supostas satisfazer aos seguintes requisitos: 1) B, ∧ e ∨ formam um reticulado
distributivo. 2) Para todo a ∈ B vale que 0 ∨ a = a e que 1 ∧ a = a. 3) Para todo a ∈ B vale que
a ∨ C(a) = 1 e que a ∧ C(a) = 0.
Exemplo Básico. Seja A um conjunto e tomemos B = (A). Para a, b ∈ (A) definamos a∧b = a∪b,
a ∨ b = a ∩ b, C(a) = A \ a, 0 = ∅, 1 = A. Como exercı́cio mostre que o sistema assim definido é uma
álgebra Booleana.
• Semi-grupos
Um semi-grupo é uma álgebra universal formada simplesmente por um conjunto S e por uma
operação binária associativa denotada por “·” e denominada “produto” ou “multiplicação”.
6
George Boole (1815-1864).
Exemplos. dotado da operação de multiplicação usual é um semi-grupo (mas não um grupo. Vide

abaixo.). O mesmo pode ser dito de Mat(n), o conjunto das matrizes complexas n × n com o produto
usual de matrizes.
Outro exemplo importante é o seguinte. Seja C um conjunto e tomemos S = C C , o conjunto de
todas as funções de C em C. Então S é um semi-grupo com o produto formado pela composição de
funções: “◦”.
• Monóides
Um monóide é um semi-grupo, formado por um conjunto C e uma função binária associativa

denotada por “·” (produto), com a propriedade de existir em C um elemento e, denominado elemento
neutro, o qual é suposto satisfazer as seguintes duas propriedades:
a·e=a e e · a = a, (24.1)
para todo a ∈ C.
Note-se que um monóide pode ser também entendido como sendo uma álgebra universal hC, Fi,
onde C é um conjunto e F = {·, e} é formado por uma função binária associativa “·” (produto) e uma
função 0-ária e (com e ∈ C) com a propriedade de elemento neutro (24.1) em relação ao produto “·”.
Exemplo. dotado da operação de multiplicação usual é um monóide onde o elemento neutro é o
número 1.
Exemplo. dotado da operação de soma usual é um monóide onde o elemento neutro é o número
0.
Exemplo. Seja C um conjunto e tomemos S = C C , o conjunto de todas as funções de C em C.
Então S é um semi-grupo com o produto formado pela composição de funções: ◦. S é também um
monóide, onde o elemento neutro é a função identidade id(s) = s, ∀s ∈ C.
Contra-exemplo. O conjunto + = {x ∈ , x > 0} é um semi-grupo (Abeliano) em relação à
operação de soma, mas não é um monóide.
• Grupos
Esta é uma das estruturas matemáticas mais importantes e o alcance de suas aplicações dispensa
comentários.
Um grupo é uma álgebra universal hC, Fi, onde C é um conjunto e F = {·, I, e} é formada por
uma função binária associativa “·” denominada produto, por uma função 0-ária e (com e ∈ C) com a
propriedade de elemento neutro (24.1) em relação ao produto “·” e por uma função unária I (chamada
de inversão), com a propriedade que
a · I(a) = I(a) · a = e
para todo a ∈ C. Freqüentemente denotamos I(a) = a−1 , que é chamado de “inversa” ou “elemento
inverso” de a. O elemento e é freqüentemente denominado identidade do grupo.
Note-se que todo grupo é um semi-grupo e também um monóide.
Contra-exemplos. O conjunto C0 = {x ∈ , x > 1} é um semi-grupo em relação ao produto

de multiplicação usual mas não é um monóide. O conjunto C1 = {x ∈ , x ≥ 1} é um monóide
(e portanto um semi-grupo) em relação ao produto de multiplicação usual mas não é um grupo. O

conjunto C2 = {x ∈ , x > 0} é um grupo em relação ao produto de multiplicação usual.

Contra-exemplos. O conjunto C = Mat(n, ) de todas as matrizes n × n, n ∈ , é um monóide
em relação ao produto usual de matrizes, mas não é um grupo, dado que nem todas as matrizes são
invertı́veis. Já o conjunto de todas as matrizes unitárias n × n é um grupo em relação ao produto usual
de matrizes (por que?).
Vamos nos abster de apresentar mais exemplos de grupos, dado que os mesmos são bem conhecidos
e que nenhuma lista de exemplos lhes faria jus.
Um semi-grupo, um monóide ou um grupo são ditos ser Abelianos ou comutativos se sua operação
de produto for comutativa. Neste caso o produto é por vezes denotado pelo sı́mbolo “+”.
• Anéis
Um anel é uma álgebra universal constituı́da por um conjunto R (“Ring” em inglês e alemão) e
uma coleção F = {+, ·, 0} formada por duas funções binárias comutativas e associativas, + e · e por
uma função 0-ária 0 ∈ R com as seguintes propriedades:
1. A álgebra universal hR, {+, 0}i é um grupo comutativo.

2. A álgebra universal hR, {·}i é um semi-grupo.
3. Propriedade distributiva. Para quaisquer a, b, c ∈ R valem
a · (b + c) = (a · b) + (a · c) e (b + c) · a = (b · a) + (c · a).
E. 24.5 Exercı́cio importante. Mostre que em um anel sempre vale que a · 0 = 0 para todo a ∈ R. 6
Exemplos. , , , e Mat(n, ) são exemplos de anéis com relação às operações usuais de soma
e multiplicação.
Apresentaremos em seqüência uma série de definições após as quais discutiremos exemplos relevan-
tes.
• Anéis com Unidade
Um anel com unidade é um anel hR, {+, ·, 0}i com a propriedade de existir em R um elemento 1,
chamado de unidade, com 1 6= 0, tal que a · 1 = 1 · a = a para todo a ∈ R.
Outro modo de dizer isso é dizer que um anel com unidade é uma álgebra universal hR, {+, ·, 0, 1}i
onde hR, {+, ·, 0}i é um anel e 1 é uma operação 0-ária tal que a · 1 = 1 · a = a para todo a ∈ R.
• Anéis sem Divisores de Zero
Dado um anel hR, {+, ·, 0}i um elemento não-nulo a ∈ R é dito ser um divisor de zero se existir
pelo menos um b ∈ R com b 6= 0 tal que a · b = 0 ou b · a = 0.
Se em um anel tivermos que a · b = 0 implica que ou a = 0 ou b = 0 ou ambos, então esse anel é

dito ser um anel sem divisores de zero.
Exemplos. e são anéis sem divisores de zero (com os produtos e somas usuais), mas os anéis

Mat(n, ), n > 1, têm divisores de zero (com o produto e soma usual), pois tem-se, por exemplo,

1 0 0 0 0 0
= .
0 0 0 1 0 0
• Anel de Integridade
Um anel comutativo, com unidade e sem divisores de zero é dito ser um anel de integridade ou
também um domı́nio de integridade.
Para a relação entre anéis de integridade e corpos, vide adiante.
• Anéis de Divisão
Um anel de divisão é constituı́do por um conjunto R e uma coleção F = {+, ·, I, 0, 1} formada

por duas funções binárias comutativas e associativas, + e ·, uma função unária I (inversão) e por duas
funções 0-ária 0, 1 ∈ R, com 0 6= 1 e com as seguintes propriedades:
1. A álgebra universal hR, {+, ·, 0}i é um anel.
2. Para todo a ∈ R vale a · 1 = 1 · a = a.
3. O domı́nio de I é R \ {0} e para todo a no domı́nio vale I(a) · a = a · I(a) = 1.
Freqüentemente denota-se I(a) por a−1 .

Pelo fato de a operação I de inversão não ser definida em todo R (temos que excluir o elemento 0)
um anel de divisão não é uma álgebra universal mas o que se chama de uma álgebra universal parcial.
Para uma classificação mais detalhada desses sistemas vide, por exemplo, [47].
E. 24.6 Exercı́cio importante. Mostre que um anel de divisão não pode possuir divisores de zero.
Portanto, todo anel de divisão comutativo é também um anel de integridade. 6
Exemplos. Com as definições usuais , e são anéis de divisão mas não o é (falta a inversa).

Mat(n, ) com n > 1 também não é um anel de divisão com as definições usuais pois nem toda a
matriz é invertı́vel.
• Corpos
Um anel de divisão hR, {+, ·, I, 0, 1}i cujo produto “·” é comutativo é denominado um corpo 7 .
Exemplos.
7
Em inglês a palavra empregada é field. A expressão em português provavelmente provem do francês corp ou do
alemão Körper.
• Corpos Não-comutativos
Como a única distinção entre as definições de corpos e de anéis de divisão é que para os primeiros a
comutatividade do produto é requerida, diz-se também por vezes que anéis de divisão não-comutativos
são corpos não-comutativos.
• Corpos e Anéis de Integridade
É bem claro pelas definições que todo corpo é também um anel de integridade. A reciproca é
parcialmente válida:
Teorema 24.1 Todo anel de integridade finito é um corpo. 2
Prova. Se A é um anel de integridade, tudo que precisamos é mostrar que todo elemento não-nulo
de A é invertı́vel. Seja a um elemento de A \ {0}. Definamos a aplicação α : A \ {0} → A dada por
α(y) = ay.
Note que, como A é um anel de integridade o lado direito é não nulo pois nem a nem y o são. Assim,
α é em verdade uma aplicação de A \ {0} em A \ {0} e, como tal, é injetora, pois se ay = az, segue
que a(y − z) = 0, o que só é possı́vel se y = z, pois A é um anel de integridade e a 6= 0. Agora,
uma aplicação injetora de um conjunto finito em si mesmo tem necessariamente que ser sobrejetora
(por que?). Assim, α é uma bijeção de A \ {0} sobre si mesmo. Como 1 ∈ A \ {0}, segue que existe
y ∈ A \ {0} tal que ay = 1, ou seja, a tem uma inversa. Como a é um elemento arbitrário de A \ {0},
segue que todo elemento de A \ {0} tem inversa e, portanto, A é um corpo.
Anéis de integridade infinitos não são necessariamente corpos:
Anti-exemplo. Um exemplo de um anel de integridade que não é um corpo é o conjunto de todos
os polinômios de em com o produto e soma usuais. Em verdade, os únicos polinômios que tem
inverso multiplicativo são os polinômios constantes não nulos.
24.2 Ação de Uma Álgebra Universal sobre uma Outra Álgebra

Universal (*)
Algumas estruturas freqüentemente encontradas, como espaços vetoriais, álgebras e módulos, não se
enquadram no conceito de álgebras universais mas podem ser encarados como constituı́dos por pares
de álgebras universais dotadas de uma ação de uma das álgebras universais sobre a outra. A noção
abstrata de ação de uma álgebra universal sobre uma outra álgebra universal será vista mais adiante.
Inicialmente trataremos de definir os conceitos de espaços vetoriais, álgebras e módulos
• Espaços Vetoriais
Assim como o conceito de grupo, o conceito de espaço vetorial é também um dos mais importantes
da Matemática e suas aplicações também dispensam comentários. O conceito de espaços vetorial não
se enquadra plenamente no de álgebra universal e envolve como ingredientes, um grupo Abeliano A e

um corpo K, conectados por um ação de K em A (definida abaixo).
Um espaço vetorial é formado por um grupo Abeliano A e por um corpo K e por uma aplicação
K × A → A, que denotamos simbolicamente por “·”,
K × A → A 3 (α, v) 7→ α · v ∈ A,
1. Associatividade
α · (β · v) = (αβ) · v,
para todos α, β ∈ K, v ∈ A.
2. 1 · v = v para todo v ∈ A.
3. Distributividade em relação à soma no corpo: (α + β) · v = (α · v) + (β · v), para todos α, β ∈ K,

v ∈ A.
4. Distributividade em relação à soma no grupo Abeliano: α · (v + w) = (α · v) + (α · w), para todos

α ∈ K, v, w ∈ A.
Acima, no item 1, αβ representa o produto de α e β em K etc.

O produto “·”: K × A → A com as propriedades acima é um exemplo do que se chama de uma
ação de um corpo sobre um grupo Abeliano. O conceito mais geral de ação de uma álgebra universal
sobre uma outra será visto à página 1166.
Quando necessário denotaremos um espaço vetorial como uma tripla hA, K, ·i.
E. 24.7 Exercı́cio. Mostre que das definições acima segue que, num espaço vetorial hA, K, ·i, sempre
vale que 0 · v = 0 para todo v ∈ A. 6
Dado um espaço vetorial A formado por um anel A sobre o qual age um corpo K como definido
acima (usaremos também a notação hA, Ki), denotaremos aqui o produto α · v, α ∈ K, v ∈ A
simplesmente por α v.
• Álgebras
A definição de álgebra segue passos análogos aos da definição de espaço vetorial.

Uma álgebra é formada por um anel A e por um corpo K e por uma aplicação de K sobre A,
K × A → A, que denotamos simbolicamente por “·”,
K × A → A 3 (α, v) 7→ α · v ∈ A
1. Considerando apenas a estrutura de A como grupo Abeliano, o par hK, Ai é um espaço vetorial.
2. Para todos α ∈ K e todos a, b ∈ A vale que
α · (a · b) = (α · a) · b = a · (α · b). (24.2)
O leitor pode convencer-se que uma álgebra pode ser também caracterizada como um espaço vetorial
V = hA, Ki (K corpo, A grupo Abeliano) dotado de um produto · : A × A → A de forma que
1. Com o produto “·” o conjunto A tem uma estrutura de anel.

2. A propriedade (24.2) acima é válida.
Daqui por diante denotaremos o produto α · v, α ∈ K, v ∈ A simplesmente por α v.
• Álgebras Associativas e Não-Associativas
Se numa álgebra o produto “·” definido entre os vetores do espaço vetorial for associativo a álgebra
é dita ser uma álgebra associativa, de outra forma ela é dita ser uma álgebra não-associativa.
O estudante não deve pensar que álgebras não-associativas são raras e desinteressantes. Em ver-
dade uma das primeiras álgebras com a qual estudantes de Fı́sica ou Matemática se deparam é não-
associativa, a saber, a álgebra do produto vetorial em 3 (denotado por ~a × ~b ou por ~a ∧ ~b).

E. 24.8 Exercı́cio. Mostre que para os vetores de base canônicos ~i, ~j e ~k tem-se (~i ×~i) × ~j = ~0 × ~j = ~0
mas ~i × (~i × ~j) = ~i × ~k = −~j 6= ~0. 6
• Álgebras de Lie
Aqui novamente estamos diante de um assunto vastı́ssimo e vamos limitar-nos às definições.
Uma álgebra de Lie é uma álgebras A cujo produto é não-comutativo e não-associativo mas para o
qual, porém, as seguintes propriedades são válidas:
a · b = −b · a (24.3)
para todos a e b ∈ A e
a · (b · c) + b · (c · a) + c · (a · b) = 0, (24.4)
para todos a, b e c ∈ A.
A propriedade (24.3) é denominada anti-comutatividade e a propriedade (24.4) é denominada iden-
tidade de Jacobi.
Para se compreender a importância da identidade de Jacobi na estrutura das álgebras de Lie,
notemos que, para um produto anti-comutativo (i.e. a · b = −b · a) a condição de associatividade
a · (b · c) = (a · b) · c fica
a · (b · c) + c · (a · b) = 0.
Compare-se esta relação com (24.4).
Por razões históricas o produto de dois elementos de um álgebra de Lie é mais freqüentemente
denotado pelo sı́mbolo [a, b] ao invés de a · b.
• Morfismos entre Álgebras Universais
Sejam hA, Ai e hB, Bi duas álgebras universais. Uma função ∆ : A → B é dita preservar o tipo
das operações de A se para todo α ∈ A a operação ∆(α) ∈ B tiver o mesmo tipo que a operação α.
Assim, uma aplicação que preserva o tipo leva aplicações unárias em unárias, aplicações binárias
em binárias etc.
Um morfismo da álgebra universal hA, Ai na álgebra universal hB, Bi é um par de aplicações
hD, ∆i com D : A → B e ∆ : A → B, onde ∆ é uma aplicação que preserva o tipo e de tal forma que
para todo α ∈ A tenhamos
D ◦ α = ∆(α) ◦ D
como aplicações An → B, onde n é o tipo de α.
Isso significa que para todo α ∈ A temos
D(α(a1 , . . . , an )) = ∆(α)(D(a1 ), . . . , D(an ))
para toda (a1 , . . . , an ) ∈ An , n sendo o tipo de α.

Exemplo. Sejam as álgebras universais h + , {·, 1}i e h , {+, 0}i com as definições usuais e seja

o par h ln, Li, onde ln : + → é o logaritmo neperiano e L : {·, 1} → {+, 0} dado por L(·) = +,

L(1) = 0. Então h ln, Li é um morfismo de h + , {·, 1}i em h , {+, 0}i, dado que para todo

a, b ∈ + vale

ln(a · b) = ln(a) + ln(b).
• Ações de uma Álgebra Universal sobre uma outra Álgebra Universal
Por razões de completeza apresentaremos aqui a noção geral de ação de uma álgebra universal sobre
uma outra. A leitura desta seção pode ser omitida pois não afetará o que segue.
Vamos começar com algumas definições. Sejam A e B dois conjuntos e seja uma função G : A×B →
B.
Para todo n, m ∈ definamos
G(n, 1) : An × B → B n tal que (a1 , . . . , an , b) 7→ (G(a1 , b), . . . , G(an , b))
com ai ∈ A, b ∈ B.
Para todo m, m ∈ definamos
G(1, m) : A × B m → B m tal que (a, b1 , . . . , bm ) 7→ (G(a, b1 ), . . . , G(a, bm ))
com a ∈ A, bi ∈ B.
Para um conjunto C qualquer idC : C → C denota a identidade em C: idC (c) = c, ∀c ∈ C.
Fora isso, se γ : C → C é uma aplicação, denotaremos por γ (n) : An → An a aplicação tal que
γ (n) (c1 , . . . , cn ) = (γ(c1 ), . . . , γ(cn )).
Finalmente, para duas aplicações α : An → A e β : B m → B o par (α, β) denota a aplicação
An × B m → A × B dada por (α, β)(a1 , . . . , an , b1 , . . . , bm ) = (α(a1 , . . . , an ), β(b1 , . . . , bm ))).
Com isso podemos formular a definição desejada de ação de uma álgebra universal sobre uma outra.
Sejam hA, Ai e hB, Bi duas álgebras universais. Uma ação de hA, Ai sobre hB, Bi é um par
hG, Γi onde
G:A×B →B e Γ:A→B
são aplicações tais que Γ preserva tipos e as seguintes condições são válidas: Para quaisquer α ∈ A e
β ∈ B (cujos tipos serão n e m, respectivamente) tem-se que
G ◦ (α, β) = Γ(α) ◦ G(n, 1) ◦ (idAn , β) = β ◦ G(1, m) ◦ (α, idB m ) (24.5)
como aplicações An × B m → B.
De (24.5) segue que
G ◦ (α, idB ) = Γ(α) ◦ G(n, 1) ◦ (idAn , idB ) (24.6)
e
G ◦ (idA , β) = β ◦ G(1, m) ◦ (idA , idB m ). (24.7)
De (24.6) e (24.7) segue que

(n)
G(n, 1) ◦ (idAn , β) = β ◦ G(1, m) ◦j (24.8)
e (m)
G(1, m) ◦ (α, idB m ) = Γ(α) ◦ G(n, 1) ◦ k, (24.9)
onde j : An × B m → (A × B m )n é dada por
j(a1 , . . . , an , b1 , . . . , bm ) := (a1 , b1 , . . . , bm , a2 , b1 , . . . , bm , . . . , an , b1 , . . . , bm )
e k : An × B m → (An × B)m é dada por
k(a1 , . . . , an , b1 , . . . , bm ) := (a1 , . . . , an , b1 , a1 , . . . , an , b2 , . . . , a1 , . . . , an , bm ).
Das relações (24.8) e (24.9) segue que a condição (24.5) pode ser escrita como
(n) (m)
G ◦ (α, β) = Γ(α) ◦ β ◦ G(1, m) ◦ j = β ◦ Γ(α) ◦ G(n, 1) ◦ k. (24.10)
Observação. Acima estamos considerando idA , idB , como elementos de A, respectivamente de B, o

que sempre pode ser feito sem perda de generalidade.
Capı́tulo 25
O Limite Indutivo de Álgebras
Conteúdo
amos neste capı́tulo apresentar uma construção do chamado limite indutivo de certas famı́lias
de álgebras, em particular de álgebras de Banach. Tal construção é freqüentemente empre-
gada, por exemplo na teoria das álgebras C∗ onde é usada na construção de uma classe
importante de álgebras C∗ , as chamadas álgebras AF.
No caminho que seguiremos indicaremos primeiro como construir o chamado limite indutivo algébrico,
construção essa que pode ser efetuada não só em famı́lias de álgebras, mas também em famı́lias de gru-
pos, de anéis, de semi-grupos, de espaços vetoriais etc. A seguir trataremos do caso de espaços de
famı́lias de espaços de Banach e construiremos o chamado limite indutivo de Banach de (A, φ).
• O “Limite Indutivo Algébrico” de uma Famı́lia de Álgebras
Um conjunto I é dito ser um conjunto dirigido (“directed set”) se for dotado de uma relação de
ordem parcial, que denotaremos por “”, e se for dotado da seguinte propriedade: para quaisquer dois
elementos a e b de I existe pelo menos um terceiro elemento c ∈ I tal que a c e b c.
Seja I um conjunto dirigido que trataremos aqui como um conjunto de ı́ndices. Vamos estar aqui
supondo que associada a cada i ∈ I haja uma álgebra Ai e que, para cada par i, j ∈ I com i j haja
um morfismo de álgebra φij : Ai → Aj satisfazendo os seguintes requisitos:
1. Para todo i, j, k ∈ I com i j k, φik = φjk ◦ φij
2. Para todo i ∈ I, φii = idAi .
A propriedade 1) acima é chamada de “coerência”.

No que segue estaremos supondo que todas as álgebras Ai são álgebras em relação ao mesmo corpo
(por exemplo, ).
Uma coleção de álgebras e morfismos de álgebra com as propriedades acima é dito ser um sistema
indutivo de álgebras e denotaremos um tal sistema por (A, φ).
A tı́tulo de ilustração o leitor pode ter em mente o caso em que I = e onde cada álgebra A i é

uma sub-álgebra de Ai+1 , φi, i+1 sendo a inclusão de Ai em Ai+1 e φij := φi, i+1 ◦ φi+1, i+2 ◦ . . . ◦ φj−1, j ,
para todos i, j ∈ com i < j.

G
Seja A = Ai a união disjunta das álgebras Ai . Lembramos que a união disjunta de uma famı́lia
i∈I [ [
Xi , i ∈ Λ, de conjuntos foi definida (página 26) como (x, i). Com o propósito de definir o
i∈Λ x∈Xi
conceito de limite indutivo associado ao sistema indutivo (A, φ) vamos definir em A uma relação de
1168
equivalência. Sejam x ∈ Ai e y ∈ Aj . Dizemos que x ∼ y se existir pelo menos um k ∈ I com1

(k i) ∧ (k j) tal que
φik (x) = φjk (y).
Vamos mostrar em primeiro lugar que tal realmente define uma relação de equivalência.
1. x ∼ x, x ∈ Ai . Para tal tome-se k = i.
2. Se x ∼ y então y ∼ x. Óbvio, pela definição.
3. Se x ∼ y e y ∼ z então x ∼ z. Sejam x ∈ Ai , y ∈ Aj e z ∈ Ak . Então existem k 0 e k 00 tais que

(k 0 i) ∧ (k 0 j), (k 00 j) ∧ (k 00 k) com
φik0 (x) = φjk0 (y)
e
φjk00 (y) = φkk00 (z).
Seja então k 000 ∈ I com (k 000 k 0 ) ∧ (k 000 k 00 ). Teremos
φik000 (x) = φk0 k000 ◦φik0 (x) = φk0 k000 ◦φjk0 (y) = φjk000 (y) = φk00 k000 ◦φjk00 (y) = φk00 k000 ◦φkk00 (z) = φkk000 (z).
Assim, φik000 (x) = φkk000 (z) com (k 000 i) ∧ (k 000 k), provando que x ∼ z.
Isto posto, denotaremos por Aφ a coleção das classes de equivalência de A pela relação ∼: Aφ :=
A/ ∼. Notemos que Aφ depende da coleção {Ai , i ∈ I} e dos morfismos φij usados.
Antes de prosseguirmos provemos o seguinte pequeno resultado, do qual faremos uso:
Lema 25.1 Para todo i ∈ I, todo a ∈ Ai e todos k, k 0 ∈ I com k i, k 0 i, tem-se que φik (a) ∼
φik0 (a). 2
Prova. Seja x ≡ φik (a) ∈ Ak , y ≡ φik0 (a) ∈ Ak0 e seja k 00 ∈ I com (k 00 k) ∧ (k 00 k 0 ). Temos que
φkk00 (x) = φkk00 ◦ φik (a) = φik00 (a)
e
φk0 k00 (y) = φk0 k00 ◦ φik0 (a) = φik00 (a).
Logo, φkk00 (x) = φk0 k00 (y), provando que x ∼ y.
Este lema diz que, para todo i ∈ I, todo a ∈ Ai e todos k, k 0 ∈ I com k i, k 0 i, tem-se que
[φik (a)] = [φik0 (a)],
o que também diz que i ∈ I, todo a ∈ Ai e todo k ∈ I com k i temos
[a] = [φik (a)].

1
Lembramos que os sı́mbolos ∧ e ∨ representam os conectivos lógicos “e” e “ou”, respectivamente.
Podemos atribuir a Aφ uma estrutura de álgebra. Em primeiro lugar, se [x] é a classe de equivalência
associada a um elemento x, definimos α[x] := [αx]. Aqui α é um elemento qualquer do corpo de escalares
das álgebras.
É preciso demonstrar a independência dessa definição dos representantes tomados na classe, mas
isso é fácil de se verificar, pois se x0 ∼ x com x0 ∈ Aj e x ∈ Ai , existe k ∈ I com (k i) ∧ (k j) com
φik (x) = φjk (x0 ). Logo, φik (αx) = φjk (αx0 ), provando que (αx0 ) ∼ (αx), ou seja, que [αx0 ] = [αx].
Sejam x ∈ Ai , y ∈ Aj e (k i) ∧ (k j). Definimos
[x] + [y] := [φik (x) + φjk (y)].
É preciso demonstrar a independência dessa definição dos representantes tomados, assim como do k
adotado.
A independência de k é imediata, pois se (k 0 i) ∧ (k 0 j) então tomemos k 00 ∈ I tal que
(k k) ∧ (k 00 k 0 ). Denotando z1 = φik (x) + φjk (y) e z2 = φik0 (x) + φjk0 (y) teremos
00
φkk00 (z1 ) = φik00 (x) + φjk00 (y) = φk0 k00 (φik0 (x) + φjk0 (y)) = φk0 k00 (z2 ),
mostrando que z1 ∼ z2 e que [φik (x) + φjk (y)] = [φik0 (x) + φjk0 (y)].
Vamos agora provar a independência da definição de [x] + [y] do representante tomado em [x]. A
independência em relação ao representante em [y] é análoga. Seja x0 ∈ Ai0 com x0 ∼ x e seja k 0 ∈ I
com (k 0 i) ∧ (k 0 i0 ) ∧ (k 0 j) e tal que φik0 (x) = φi0 k0 (x0 ). Temos que
φi0 k0 (x0 ) + φjk0 (y) = φik0 (x) + φjk0 (y).
Logo
[φi0 k0 (x0 ) + φjk0 (y)] = [φik0 (x) + φjk0 (y)] = [φik (x) + φjk (y)],
pela independência em k, provando o que se desejava.
Notemos também que para todo y,
[0] + [y] = [φik (0) + φjk (y)] = [φjk (y)] = [y],
mostrando que [0] é o elemento neutro da adição definida acima e que
[x] + (−1)[x] = [x] + [−x] = [φik (x) + φik (−x)] = [φik (x) − φik (x)] = [0].
As operações de multiplicação por escalar e de soma em que foram definidas acima dão a A φ uma
estrutura de espaço vetorial. Vamos agora definir um produto em Aφ . Definimos
[x][y] := [φik (x)φjk (y)],
onde, novamente x ∈ Ai , y ∈ Aj e k é tal que (k i) ∧ (k j).
É preciso demonstrar a independência dessa definição dos representantes tomados, assim como do k
adotado. Para vermos a independência em relação ao k adotado, seja (k 0 i) ∧ (k 0 j) então tomemos
k 00 ∈ I tal que (k 00 k) ∧ (k 00 k 0 ). Denotando z1 ≡ φik (x)φjk (y) e z2 ≡ φik0 (x)φjk0 (y) teremos, usando
o fato que os φ’s são morfismos de álgebra,
φkk00 (z1 ) = φik00 (x)φjk00 (y) = φk0 k00 (φik0 (x)φjk0 (y)) = φk0 k00 (z2 ),
mostrando que z1 ∼ z2 e que [φik (x)φjk (y)] = [φik0 (x)φjk0 (y)].

Vamos agora provar a independência da definição de [x][y] do representante tomado em [x]. A
independência em relação ao representante em [y] é análoga. Seja x0 ∈ Ai0 com x0 ∼ x e seja k 0 ∈ I
com (k 0 i) ∧ (k 0 i0 ) ∧ (k 0 j) e tal que φik0 (x) = φi0 k0 (x0 ). Temos que
φi0 k0 (x0 )φjk0 (y) = φik0 (x)φjk0 (y).
Logo
[φi0 k0 (x0 )φjk0 (y)] = [φik0 (x)φjk0 (y)] = [φik (x)φjk (y)],
pela independência em k.
Notemos também, por fim, que para todo y,
[0][y] = [φik (0)φjk (y)] = [0φjk (y)] = [0].
O conjunto Aφ , dotado da estrutura algébrica definida acima, é chamado de limite indutivo algébrico
do sistema indutivo (A, φ).
• Alguns Exemplos
Vamos ilustrar a construção acima com exemplos. Seja I = com a ordem usual e A n = Mat(n, ),
a álgebra das matrizes complexas n × n.
Há três possı́veis morfismos de álgebra de Mat(2) em Mat(3), como indicado abaixo:
 
0 0 0
a b
φ12, 3 :=  0 a b  .
c d
0 c d
 
a 0 b
a b
φ22, 3 :=  0 0 0  ,
c d
c 0 d
 
a b 0
a b
φ32, 3 :=  c d 0  ,
c d
0 0 0
E. 25.1 Exercı́cio. Mostre que os três φ’s definidos acima são homomorfismos de A 2 em A3 e que são
os únicos homomorfismos desse tipo. 6
Há entre An e An+1 exatamente n + 1 homomorfismos. O exemplo acima ilustra como os mesmos
são obtidos: para uma matriz n × n a, φin, n+1 (a) é uma matriz (n + 1) × (n + 1) obtida inserindo-se
em a uma coluna na i-ésima posição e uma linha na i-ésima posição, ambas apenas com zeros:
 
a1, 1 . . . a1, i−1 0 a1, i . . . a1, n
 .. .. .. .. .. .. .. 
   . . . . . . . 
a1, 1 . . . a1, n  
a
 i−1, 1 . . . ai−1, i−1 0 ai−1, i . . . ai−1, n 
 .. .. ..   
φin, n+1  . . .  :=  0 ... 0 0 0 ... 0 .
 
an, 1 . . . an, n  ai, 1 . . . ai, i−1 0 ai, i . . . ai, n 
 .. .. .. .. .. .. .. 
 . . . . . . . 
an, 1 . . . an, i−1 0 an, i . . . an, n
Uma possı́vel coleção de morfismos coerentes é dada da seguinte forma. Seja a coleção {i a , a ∈ }
onde, para a, o ı́ndice ia assume valores em {1, . . . , a + 1}. Sejam An e Am , com n < m, e
i
φin,n ,...,i
m
m−1
:= φin,n n+1 ◦ . . . ◦ φm−1,
m−1
m.
Note-se porém que morfismos com ı́ndices {in , . . . , im } distintos podem ainda assim ser idênticos. O
que distingue os morfismos entre si é a localização das linhas e colunas nulas.
Cada coleção I = {ia , a ∈ } caracteriza (não univocamente) um limite indutivo algébrico AI .
E. 25.2 Exercı́cio. Suponha que adotemos um sistema indutivo onde I = com a ordem usual,
n+1,...,m
An = Mat(n, ) e onde os morfismos são dados por φn, m , ou seja, com cada ia assumindo o valor
máximo possı́vel (última linha e coluna de zeros introduzida em cada etapa). Mostre que matrizes como
 
a b 0
a b
e  c d 0 
c d
0 0 0
são equivalentes e que matrizes como
 
0 0 0
a b
e  0 a b ,
c d
0 c d
não são equivalentes. 6
Vamos considerar outro exemplo. Seja s ∈ fixo, s 6= 0, e I = {2n s, n ∈ } com a ordem usual.

Seja An = Mat(2n s, ) e seja φn m definida da seguinte forma: para todo a ∈ Mat(2n s, C),
| ⊕ a ⊕{z. . . ⊕ a},
φn m (a) := a
2m−n vezes
onde, para uma matriz N × N , a,

a 0N
a⊕a = ,
0N a
onde 0N é a matriz nula N × N e
 
a 0 N 0N
a ⊕ a ⊕ a =  0N a 0 N  ,
0N 0N a
etc. Mais genericamente, para q ∈ , q ≥ 2 e s ∈ , s 6= 0, podemos tomar I = {q n s, n ∈

} com a
ordem usual, An = Mat(q n s, ) e φn m definida da seguinte forma: para todo a ∈ Mat(q n s, ),
| ⊕a⊕
φn m (a) := a {z. . . ⊕ a} .
q m−n vezes
O limite indutivo algébrico assim obtido será caracterizado por q e s: A(q, s).
Vamos agora a mais um exemplo que, num caso especial, engloba o anterior. Seja {q i ∈ , qi ≥
2, i ∈ } uma seqüência de números naturais positivos maiores ou iguais a 2 e s ∈ , s 6= 0. Seja

Q0 = s e Qn := sq1 · · · qn , n ≥ 1. Tomemos I = {Qn , n ∈ } com a ordem usual, e An = Mat(Qn , )

e φn m definida da seguinte forma. Sejam Tn ∈ Mat(qn , ), n ∈ , n ≥ 1, matrizes idempotentes (ou

seja, que satisfazem Tn2 = Tn ) não nulas e definamos para todo a ∈ Mat(Qn , )
φn, n+1 (a) = a ⊗ Tn+1 .
E. 25.3 Exercı́cio. Verifique que isso define um morfismo de álgebra entre Mat(Q n , ) e Mat(Qn+1 , ).
Por que razão a condição de idempotência Tn2 = Tn é importante? 6
Seja então para todo m > n
φn, m := φn, n+1 ◦ · · · ◦ φm−1, m .
Pela definição é claro que os φ’s assim definidos formam uma coleção coerente de morfismos. O limite
indutivo algébrico assim obtido será aqui denotado por A({q}, s, {T }).
E. 25.4 Exercı́cio. Verifique que o exemplo anterior, A(q, s), corresponde a tomar-se q n = 2 e Tn = q ,
n∈ . 6
Os exemplos acima serão discutidos com mais detalhe quando tratarmos das álgebras AF. Passemos
agora à seguinte discussão. Se as álgebras Ai , i ∈ I forem todas álgebras de Banach estamos muitas
vezes interessados em construir um limite indutivo que seja também uma álgebra de Banach. É preciso
para tal introduzir uma norma conveniente em A a partir das normas das álgebras Ai e construir seu
completamento. Há para tal uma série de problemas dos quais passaremos a tratar.
• O “Limite Indutivo de Banach” de uma Famı́lia de Álgebras de Banach
Vamos considerar agora a situação na qual as álgebras Ai são álgebras de Banach com norma k · ki .
O sistema (A, φ) é dito ser um sistema indutivo normado se todos os φi j forem contı́nuos (ou seja,
limitados) e se tivermos
lim sup kφi j kj < ∞.
j
Pelo teorema de Banach-Steinhaus (A, φ) é um sistema indutivo normado se e somente se tivermos
lim sup kφi j (x)kj < ∞. (25.1)

j
para todo i e para todo x ∈ Ai .

Podemos fazer de A uma álgebra semi-normada definindo
|||[x]||| := lim sup kφij (x)kj ,

ji
onde x ∈ Ai é um representante de [x].

Precisamos mostrar que a definição acima independe do representante tomado na classe. Para tal
usaremos a propriedade que denominamos “Invariância por Redução Inicial do Domı́nio” à página 880.
Sejam x ∈ Ai e x0 ∈ Ai0 com x ∼ x0 e k ∈ I tal que (k i) ∧ (k i0 ) e
φik (x) = φi0 k (x0 ).
Definindo para n ∈ I
In := {m ∈ I| m n},
tem-se que
k|[x]k| = lim sup kφij (x)kj
j∈Ii
e
k|[x0 ]k| = lim sup kφi0 j (x)kj .
j∈Ii0
Nota: é um exercı́cio simples mostrar que In são também conjuntos dirigidos. A definição de lim sup
pode ser encontrada na Seção 18.3, à página 879.
Dado o conjunto Ii escrevamos Ii = I0 ∪ J onde J := Ik e I0 := Ii \ J. Vamos mostrar que os
conjuntos I0 e J satisfazem as condições requeridas para a propriedade que denominamos “invariância
por redução inicial do domı́nio” à página 880:
1. Para todo i0 ∈ I0 existe pelo menos um j ∈ J tal que i0 j.
2. J é um conjunto dirigido pela mesma relação de ordem .
3. Para todo j ∈ J vale que se l j então l ∈ J.
A propriedade 2 já foi observada acima. Se j ∈ Ik e l j então l k e portanto l ∈ Ik ≡ J,

provando 3. Para provar 1 notemos que se i0 ∈ Ii então, como Ii é um conjunto dirigido deve existir
j ∈ Ii tal que (j i0 ) ∧ (j k). A condição j k diz que j ∈ Ik ≡ J, provando 1.
Pela propriedade de invariância por redução inicial do domı́nio tem-se então que
k|[x]k| = lim sup kφij (x)kj = lim sup kφij (x)kj .

j∈Ii j∈Ik
Mutatis mutantis temos também que
k|[x0 ]k| = lim sup kφi0 j (x0 )kj = lim sup kφi0 j (x0 )kj .
j∈Ii0 j∈Ik
Porém, para j ∈ Ik
φij (x) = φkj ◦ φik (x) = φkj ◦ φi0 k (x0 ) = φi0 k (x0 ),
provando finalmente que

k|[x]k| = k|[x0 ]k|.
Uma vez estabelecido que k|[x]k| independe do representante tomado na classe [x] vamos agora
provar que |||[x]||| é de fato uma semi-norma.
Proposição 25.1 Para todas as classes [x] e [y] valem:
1. |||α[x]||| = |α| |||[x]|||;

2. |||[x] + [y]||| ≤ |||[x]||| + |||[y]|||;
3. |||[x][y]||| ≤ |||[x]||| · |||[y]|||.
Prova. A prova de 1 é elementar. Para provar 2 notemos o seguinte. Sejam x e y representantes

de [x] e [y], respectivamente, em Ai e Aj , respectivamente. Então, existe k com (k i) ∧ (k j) de
forma que
|||[x] + [y]||| = |||[φik (x) + φjk (y)]|||
= lim sup kφk j 00 (φik (x) + φjk (y))k

j 00 k
≤ lim sup kφi j 00 (x)k + lim sup kφj j 00 (y)k

j 00 k j 00 k
≤ lim sup kφi j 00 (x)k + lim sup kφj j 00 (y)k

j 00 i j 00 j
= |||[x]||| + |||[y]|||.
A prova de 3 é análoga. Sejam x, y, i, j como acima. Então existe k tal que

|||[x][y]||| = |||[φik (x)φjk (y)]|||
= lim sup kφk j 00 (φik (x)φjk (y))k

j 00 k
≤ lim sup kφi j 00 (x)k kφj j 00 (y)k

j 00 k

≤ lim sup kφi j 00 (x)k lim sup kφj j 00 (y)k
j 00 i j 00 j
= |||[x]||| · |||[y]|||.
O limite indutivo normado de (A, φ) é então definido tomando-se o cociente de A com os vetores
em A com semi-norma ||| · ||| igual a zero. Nesse novo espaço ||| · k|| induz uma norma que também
denotaremos por ||| · |||.
O limite indutivo de Banach, ou simplesmente limite indutivo é definido tomando-se o completa-

mento do limite indutivo normado de (A, φ) na métrica definida pela norma ||| · |||. É evidente pela
construção que a álgebra assim obtida, que denotaremos por A∞ , é uma álgebra de Banach.
Seja Ai , i ∈ I, uma famı́lia de álgebras C∗ . Uma álgebra C∗ A é dita ser um limite indutivo das
álgebras Ai se existirem morfismos de álgebra C∗ fi : Ai → A para todo i ∈ I tais que ∪i∈I Ai seja
denso em norma em A.
Vamos no próximo item mostrar uma situação geral na qual o limite indutivo de uma famı́lia de
álgebras pode ser construı́do.
• O Limite Indutivo de Álgebras C ∗
Vamos considerar agora o caso em que as álgebras Ai sejam todas álgebras C∗ e que os morfismos φij
sejam *-morfismos, ou seja, tais que para todo i, j ∈ Λ, i j, e todo a ∈ Ai tenhamos φij (a∗ ) = φij (a)∗ .
Naturalmente que
kφij (a∗ a)kj = kφij (a∗ )φij (a)kj = kφij (a)∗ φij (a)kj = kφij (a)k2j
pela propriedade C∗ das álgebras Aj .

Em um tal caso diremos que o sistema indutivo (A, φ) é um sistema indutivo C∗ .
Definimos no limite indutivo algébrico das álgebras Ai a operação ∗ por [x]∗ = [x∗ ]. Vamos mostrar
que essa definição não depende do representante tomado na classe [x]. Seja para tal y ∈ [x] com x ∈ A i
e y ∈ Aj e seja k ∈ Λ tal que (k i) ∧ (k j) e φik (x) = φjk (y). Segue que φik (x∗ ) = φik (x)∗ =
φjk (y)∗ = φjk (y ∗ ). Isso mostra que x∗ e y ∗ são equivalentes, que é o que se queria provar.
Desejamos agora provar a propriedade C∗ da semi-norma ||| · |||. Para tal notemos que, como x e
x∗ pertencem à mesma álgebra (digamos, Ai ) temos [x][x∗ ] = [x x∗ ] (por que?) e assim
2
∗ ∗ ∗
|||[x] [x]||| = |||[x x ]||| = lim sup kφij (x x )kj = lim sup kφij (x)k2j = lim sup kφij (x)kj = |||[x]|||2 .
ji ji ji
Isso mostrou que a semi-norma ||| · ||| também satisfaz a propriedade C∗ e que o limite indutivo de
Banach de um sistema indutivo C∗ é também uma álgebra C∗ , que denotaremos por A∞ .
Vamos agora construir o sistema de morfismos fi de álgebra C∗ mencionado. Seja, para cada i ∈ Λ,
fi : Ai → A∞ , dado por Ai 3 x 7→ [x] ∈ A∞ . Vamos verificar que, para cada i ∈ Λ, fi é de fato um
morfismo de álgebra C∗ . De fato, para todo x, y ∈ Ai temos fi (x+y) = [x+y] = [x]+[y] = fi (x)+fi (y)
(por que? Justifique a segunda igualdade) e fi (xy) = [xy] = [x][y] = fi (x)fi (y) (por que? Justifique
a segunda igualdade). Fora isso, como já vimos, fi (x∗ ) = [x∗ ] = [x]∗ = fi (x)∗ . Notemos também que,
por construção, ∪i∈Λ (Ai ) é denso em A∞ e assim A∞ é um limite indutivo C∗ da famı́lia Ai , i ∈ Λ.
Referências Bibliográficas
A lista bibliográfica abaixo contém livros-texto onde parte do material contido nestas notas também
pode ser encontrado e outros textos cuja leitura é igualmente recomendada.
[1] R. P. Agarwal e V. Lakshmikantham. Uniqueness and Nonuniqueness Criteria for Ordinary Diffe-
rential Equations. World Scientific (1993).
[2] L. H. Alves Monteiro. Sistemas Dinâmicos, (2002). Ed. Livraria da Fı́sica.
[3] Huzihiro Araki. Mathematical Theory of Quantum Fields. Oxford Science Publications. (1999).
[4] G. Arfken. Mathematical Methods for Physicists. Academic Press Inc. (1970).
[5] V. I. Arnold. Equações Diferenciais Ordinárias. Editora Mir. (1985).
[6] V. I. Arnold. Mathematical Methods of Classical Mechanics. Second Edition. Springer Verlag. (1989).
Versão em português: Métodos Matemáticos da Mecânica Clássica. Ed. Mir, Moscou (1987).
[7] W. B. Arveson. An Invitation to C ∗ -Algebras.
[8] Heinz Bauer. Maß- und Integrationstheorie. Ed. Walter de Gruyter. Berlin, New York. (1992).
[9] F. Brauer and C. Castillo-Chávez. Mathematical Models in Population Biology and Epidemiology.
[10] G. Birkhoff and G. C. Rota. Differential Equations.
[11] R. P. Boas Jr.. Entire Functions. Academis Press. New Yourk. (1954).
[12] H. Bohr. Collected Mathematical Works. In Three Volumes. Dansk Matematisk Forening. Cope-
nhagen. (1952).
[13] W. E. Boyce and R. C. DiPrima. Elementary Differential Equations and Boundary Value Problems.
John Wiley and Sons. New York. (1986).
[14] O. Bratteli and D. W. Robinson. Operator Algebras and Quantum Statistical Mechanics I. Springer
Verlag. (1979).
[15] O. Bratteli and D. W. Robinson. Operator Algebras and Quantum Statistical Mechanics II. Springer
Verlag. (1979).
[16] G. Cain. Introduction to General Topology.
1177
[17] J. Cigler und H. C. Reichel. Topologie, Eine Grundvorlesung.
[18] C. Chevalley. Theory of Lie Groups.
[19] R. V. Churchill. Variáveis Complexas e suas Aplicações.
[20] E. A. Coddington. An Introduction to Ordinary Differential Equations. Dover Publications, Inc.

New York. (1989).
[21] E. A. Coddington and N. Levinson. Theory of Ordinary Differential Equations.
[22] C. Corduneanu. Almost Periodic Functions. Interscience Publishers - John Wiley & Sons (1968).
[23] R. Courant and F. John. Introduction to Calculus and Analysis. Vol. I Springer Verlag, Berlin,
(2000).
[24] R. Courant and F. John. Introduction to Calculus and Analysis. Vol. II Springer Verlag, Berlin,
(2000).
[25] R. Courant and D. Hilbert. Methods of Mathematical Physics. Vol. I John Wiley & Sons (1989).
[26] R. Courant and D. Hilbert. Methods of Mathematical Physics. Vol. II John Wiley & Sons (1989).
[27] Richard Courant e Herbert Robbins. O que é Matemática. Editora Ciência Moderna.
[28] K. R. Davidson. C ∗ -Algebras by Example.
[29] Philip J. Davis. Interpolation & Approximation. Dover Publications Inc. (1975).
[30] J. Dieudonnè. History of Functional Analysis. North Holland, (1981).
[31] D. G. de Figueiredo. Análise de Fourier e equações diferenciais parciais. Coleção Euclides. IMPA.
[32] H. M. Edwards Riemann’s Zeta Function. Dover Publications Inc. (1974).
[33] J. P. Elliott and P. G. Dawber. Symmetry in Physics.
[34] L. C. Evans. Partial Differential Equations. American Mathematical Society. (1998).
[35] K. J. Falconer The Geometry of Fractal Sets. Cambridge Univ. Press. (1985).
[36] A. Fazzio e K. Watari. Introdução à Teoria de Grupos.
[37] D. G. de Figueiredo e A. F. Neves. Equações Diferenciais Aplicadas. Coleção Matemática Univer-

sitária. IMPA.
[38] G. Frey. Elementare Zahlenthorie.
[39] J. P. Fernandez. Medida e Integração. Projeto Euclides. IMPA, CNPq. (1976). Livros Técnicos e
Cientı́ficos, Editora.
[40] A. Galindo e P. Pascual. Quantum Mechanics I. Springer Verlag. (1990).

[41] A. Galindo e P. Pascual. Quantum Mechanics II. Springer Verlag. (1990).
[42] L. Garding. Encontros com a Matemática. Ed. Universidade de Brası́lia. 2a. Edição (1997).
[43] P. R. Garabedian. Partial Differential Equations. AMS Chelsea Publishing. (1998).
[44] I. M. Gelfand, R. A. Minlos and Z. Ya. Shapiro. Representations of the rotation and Lorentz groups
and their applications.
[45] R. Geroch. Mathematical Physics. The University of Chicago Press. (1985).
[46] J. Glimm and A. Jaffe. Quantum Physics. A Functional Integral Point of View. Second Edition.
Springer-Verlag. (1987).
[47] G. Grätzer. Universal Algebra.
[48] Ronald L. Graham, Donald E. Knuth and Oren Patashnik. Concrete Mathematics - A Foundation
for Computer Science. Addison-Wesley Publishing Company. (1994).
[49] R. Haag. Local Quantum Physics. Second edition. Berlin Heidelberg: Springer Verlag (1996).
[50] P. R. Halmos. Teoria Ingênua dos Conjuntos. Ed. Polı́gono. (1970).
[51] P. R. Halmos. Measure Theory. Springer Verlag. (2000).
[52] Paul R. Halmos. Espaços Vetoriais de Dimensão Finita.
[53] G. H. Hardy and E. M. Wright. An Introduction to the Theory of Numbers. Oxford Univ. Press.
[54] S. W. Hawking and G. F. R. Ellis. The Large Scale Structure of Space-Time. Cambridge Univ.
Press. (1973).
[55] S. Helgason. Geometric Analysis on Symmetric Spaces. Mathematical Surveys and Monographs,
vol. 39. American Mathematical Society. (1991).
[56] E. Henze. Einführung in die Maßtheorie.
[57] H. Heuser. Lehrbuch der Analysis. Teil 1. B. G. Teubner, Stuttgart (1993).
[58] H. Heuser. Lehrbuch der Analysis. Teil 2. B. G. Teubner, Stuttgart (1993).
[59] H. Heuser. Funktionalanalysis. B. G. Teubner, Stuttgart.
[60] H. Heuser. Gewöhnliche Differentialgleichungen. B. G. Teubner, Stuttgart.
[61] J. Hilgert und K.-H. Neeb. Lie Gruppen und Lie Algebren.
[62] E. Hille. Ordinary Differential Equations in the Complex Domain.
[63] Morris W. Hirsch, Stephen Smale and Robert L. Devaney. Differential Equations, Dynamical
Systems & An Introduction to Chaos. Elsevier, Academic Press. (2004)
[64] Harry Hochstadt. The Functions of Mathematical Physics. Dover Publications Inc. (1971).
[65] Harry Hochstadt. Differential Equations. A Modern Approach. Dover Publications Inc. (1975).
[66] J. Hofbauer and K. Sigmung. The Theory of Evolution and Dynamical Systems. Cambridge Uni-
versity Press, 1988.
[67] N. Jacobson. Lie Algebras.
[68] T. Kato Perturbation Theory of Linear Operators. Springer Verlag, Berlin-Heidelberg-New York
(1976).
[69] Yitzhak Katznelson. An Introduction to Harmonic Analysis. Dover Publications. (1978).
[70] Louis H. Kauffman. Knots and Physics. World Scientific Pub. Co. 3rd edition (2001).
[71] A. Kirillov. Éléments de la Theorie des Représentations.
[72] A. N. Kolmogorov and S. V. Fomin. Introductory Real Analysis.
[73] T. W. Körner Fourier Analysis. Cambridge University Press. (1996).
[74] S. G. Krantz e H. R. Parks The Implicit Function Theorem: History, Theory and Applications.
Birkhäuser (2002).
[75] Erwin Kreyszig. Introductory Functional Analysis with Applications. John Wiley and Sons Inc,
(1989).
[76] L. Landau e E. Lifchitz Curso de Fı́sica. Mecânica. Editora Mir.
[77] L. Landau e E. Lifchitz. Curso de Fı́sica. Mecânica Quântica. Editora Mir.
[78] S. Lang. Algebra.
[79] N. N. Lebedev. Special Functions & their Applications. Dover Publications Inc. (1972).
[80] T. D. Lee. Particle Physics. An Introduction to Field theory.
[81] Elliot H. Lieb and Michael Loss. Analysis.
[82] Elon L. Lima. Espaços Métricos. Projeto Euclides. IMPA, CNPq. (1977). Livros Técnicos e Ci-
entı́ficos, Editora.
[83] Elon L. Lima. Curso de Análise. Vol. 1. Projeto Euclides. IMPA, CNPq. (1976). Livros Técnicos
e Cientı́ficos, Editora.
[84] Elon L. Lima. Curso de Análise. Vol. 2. Projeto Euclides. IMPA, CNPq. (1981). Livros Técnicos
e Cientı́ficos, Editora.
[85] R. S. MacKay and J. D. Meiss, editors. Hamiltonian Dynamical Systems. A reprint selection.
Adam Hilger, Bristol and Philadelphia. (1987).
[86] W. Magnus und F. Oberhettinger. Formel und Sätze für die speziellen Funktionen der mathema-
tischen Physik. Springer Verlag, (1948).
[87] G. Meinardus. Approximation von Funktionen und ihre numerische Behandlung. Springer-Verlag.
Berlin, Göttingen, Heidelberg, New York. (1964).
[88] Richard K. Miller. Non-linear Volterra Integral Equations. W. A. Benjamin, Inc. (1971).
[89] F. Miraglia. Teoria dos Conjuntos. Um Mı́nimo. Edusp 1991.
[90] D. S. Mitrinovic, J. E. Pecaric and A M Fink. Inequalities for functions and their integrals and
derivatives Kluver (1994)
[91] M. E. Munroe. Introduction to Measure and Integration. Addison-Wesley Publishing Company,

Inc. (1953).
[92] Gerard J. Murphy. C∗ -Algebras and Operator Theory. Academis Press. (1990).
[93] M. Naimark et A. Stern. Théorie des Représentations des Groups. Editions Mir. URSS. (1979).
[94] M. Nakahara. Geometry, Topology and Physics.
[95] H. M. Nussenzveig. Curso apresentado na 1a Escola de Verão Jorge André Swieca – Partı́culas
e Campos. (1981). Editado pela Sociedade Brasileira de Fı́sica. Edts. G. da C. Marques e R. C.
Shellard.
[96] I. G. Petrovsky. Lectures on Partial Differential Equations. Dover Publications Inc. (1991).
[97] L. S. Pontriaguin. Continuous Groups.
[98] D. Porter and D. S. G. Stirling. Integral Equations. Cambridge U. P. (1990).
[99] M. Reed and B. Simon. Methods of Modern Mathematical Physics. Vol. 1: Functional Analysis.
Academic Press. New York. (1972-1979).
[100] M. Reed and B. Simon. Methods of Modern Mathematical Physics. Vol. 2: Fourier Analysis,
Self-Adjointness. Academic Press. New York. (1972-1979).
[101] M. Reed and B. Simon. Methods of Modern Mathematical Physics. Vol. 3: Scattering Theory
Academic Press. New York. (1972-1979).
[102] M. Reed and B. Simon. Methods of Modern Mathematical Physics. Vol. 4. Academic Press. New
York. (1972-1979).
[103] F. Riesz and B. Sz.-Nagy. Functional Analysis. Dover Inc, (1955).
[104] H. L. Royden. Real Analysis. Prentice Hall, Inc. (1988).
[105] W. Rudin. Real and Complex Analysis. McGraw-Hill Internatinal Editions. (1987).
[106] W. Rudin. Functional Analysis.

[107] H. Sagan. Boundary and Eigenvalue Problems in Mathematical Physics.
[108] J. J. Sakurai. Modern Quantum Mechanics Revised version. Addison-Wesley. (1994).
[109] J. J. Sakurai. Advanced Quantum Mechanics. Addison-Wesley. (1967).
[110] Luiz A. B. San Martin. Álgebras de Lie.
[111] Günter Sharf Quantum Gauge Theories. A True Ghost Story. John Wiley and Sons, Inc. (2001).
[112] A. Schönhage. Approximationstheorie. Walter de Gruyter & Co. Berlin. New York. (1971).
[113] W. R. Scott. Group Theory.
[114] B. Simon. Representations of Finite and Compact Groups. Graduate Studies in Mathematics, vol.
10. Americam Mathematical Society. (1996).
[115] G. F. Simmons. Topology and Modern Analysis.
[116] L. J. Slater. Confluent Hypergeometric Functions. Cambridge University Press. (1960).
[117] J. Sotomayor. Lições de equações diferenciais ordinárias. Projeto Euclides. (1979).
[118] M. Spivak. Calculus.
[119] P. Suppes. Axiomatic Set Theory. Dover Publications Inc.
[120] A. F. Timan. Theory of Approximation of Functions of a Real Variable. Dover Publications Inc.
(1994).
[121] E. C. Titchmarsh. Theory of Functions. Oxford University Press, London and New York. (1939).
[122] E. C. Titchmarsh. (Revised by D. R. Heath-Brown). The Theory of the Riemann Zeta-Function.

Claendon Press, Oxford. (1986).
[123] F. G. Tricomi. Integral Equations. Dover Publications Inc.
[124] F. W. Warmer. Foundations of Differentiable Manifolds and Lie Groups. Springer Verlag. (1983).
[125] G. N. Watson. A Treatise on the Theory of Bessel Functions. Second Edition. Cambridge Uni-
versity Press. (1966).
[126] Hermann Weyl. The Theory of Groups and Quantum Mechanics.
[127] B. Van der Waerden. Die gruppentheoretische Methode in der Quantenmechanik. Springer Verlag,
Berlin, (1932).
[128] S. Weinberg. The Quantum Theory of Fields. Vol. I. Foundations. Cambridge Univ. Press. (1995).
[129] S. Weinberg. The Quantum Theory of Fields. Vol. II. Modern Applications. Cambridge Univ.
Press. (1996).
[130] E. T. Whittaker and G. N. Watson. A Course of Modern Analysis.
[131] Eugene P. Wigner. Group Theory and Quantum Mechanics. (1931).
[132] K. Yosida. Functional Analysis Springer Verlag.
[133] N. Young. An Introduction to Hilbert Space.
[134] Y. Z. Zhang. Special Relativity and its Experimental Foundations. World Scientific (1997).
[135] D. Zwillinger Handbook of Differential Equations. Academic Press, Inc. (1989).

Índice Remissivo
O Teorema Espectral, 162 A Equação de Laplace em três dimensões em

B(V, W) é um espaço de Banach se W o for, coordenadas esféricas, 495
1019 A Estrutura Causal. Transformações que Pre-
Lp (M, dµ), p ≥ 1, são espaços vetoriais comple- servam a Estrutura Causal, 621
xos e normados, 942 A Forma Determinante, 111
σ-álgebra, 813 A Forma Geral das Matrizes de SU(2), 597
L↑ 3222378+ é um Sub-grupo Normal de L, 636 A Forma Geral das Soluções, 334
L1 (M, dµ) é um espaço vetorial complexo, 938 A Identidade de Polarização, 124
é um anel de divisão, 91 A Multiplicidade Algébrica e a Multiplicidade
+ estendido, 49 Geométrica, 148

A σ-Álgebra Induzida, 829 A Multiplicidade Geométrica de um Autovalor,
A σ-Álgebra Produto, 830 148
A σ-álgebra de Borel, 822 A Noção Usual de Continuidade na Reta Real,
A Adjunta de uma Matriz, 175 889
A Aplicação Diferencial Exponencial dexp, 233 A Noção de σ-Álgebra Gerada, 821
A Coleção de todos os Geradores de Sub-grupos A Noção de Cardinalidade de Conjuntos, 36
Uniparamétricos, 682 A Noção de Produto Tensorial de Dois Espaços
A Construção GNS. Um exemplo, 1087 Vetoriais, 77
A Construção GNS, 1084 A Noção de Produto Tensorial de Dois Grupos,
A Convenção que c = 1, 624 76
A Decomposição Polar de Operadores Limitados A Noção de Soma Direta de Dois Espaços Veto-
em Espaços de Hilbert, 1080 riais, 76
A Definição de Medida, 839 A Noção de Soma Direta de Dois Grupos, 76
A Desigualdade Triangular, 123 A Noção de Topologia Gerada, 818
A Desigualdade de Cauchy para Seqüências. Um A Norma Associada a um Produto Escalar, 122
produto escalar para `2 , 759 A Norma de Operadores Auto-Adjuntos Limita-
A Desigualdade de Cauchy-Schwarz, 113 dos, 1049
A Desigualdade de Hölder. Demonstração, 756 A Relação entre V e V 0 , 102
A Desigualdade de Minkowski. Demonstração, A Relação entre ad e Ad, 231
758 A Relevância de L+ , L↑ 3222378 e L↑+ 3222378
A Desigualdade de Minkowski, 115 na Fı́sica, 635
A Equação de Helmholtz em duas dimensões em A Representação Trivial, 706
coordenadas polares, 493 A Soma Direta de Dois Espaços de Banach, 1033
A Equação de Helmholtz em três dimensões em A Soma Direta de dois Espaços Vetoriais, 80
coordenadas esféricas, 498 A Soma Direta de dois Grupos Abelianos, 80
A Equação de Laplace em duas dimensões em A Topologia τ é Separável, 825

coordenadas polares, 492 A Topologia Fraca de uma Coleção de Funções,
1184
974 A função geratriz exponencial dos polinômios de

A Topologia Gerada por um Ordenamento To- Laguerre associados, 462
tal, 827 A função geratriz exponencial dos polinômios de
A Topologia Induzida (ou “Relativa”), 828 Laguerre, 458
A Topologia Produto de Espaços Topológicos, A integração de Lebesgue e conjuntos de medida
830 zero, 924
A Topologia de Sorgenfrey de , 820
A integral de Riemann imprópria e sua relação
A Topologia de Sorgenfrey não é uma Topologia com a de Lebesgue em , 931
Métrica, 826 A inversa em álgebras de Banach, 1056

A União Disjunta de uma Famı́lia Arbitrária de A noção de espectro de operadores em álgebras
Conjuntos, 26 de Banach, 1059
A álgebra das funções mensuráveis, 950 A noção de ponto singular simples para EDOs
A álgebra das funções simples, 919 de ordem m, 343
A álgebra de Heisenberg gh3 ( ), 576 A notação de Dirac, 1140
A álgebra de Heisenberg ghn ( ), n ≥ 3, 578 A raiz quadrada de um operador compacto, auto-
A cardinalidade de C1/3 , 861 adjunto e positivo, 1108
A condição (7.81) e a constante A, 384 A raiz quadrada de um operador positivo e a
A condição de Lipschitz, 787 unidade, 1079
A construção do operador g(A), 1125 A recuperação de um observável a partir dos
A decomposição de vetores em bases ortogonais seus valores esperados em estados puros,
completas, 1001 1149
A desigualdade de Bessel, 998 A regra de composição para D(t, s), 304
A desigualdade de Cauchy-Schwarz. Um pro- A relação entre D(t, s) e D(t), 303
duto escalar em L2 (M, dµ), 943 A relação entre Jn e J0 , n ∈ , 467
A desigualdade de Young, 764 A relação entre jn e j0 , n ∈ , 479

A equação de Bernoulli, 263 A representação normal, 918

A equação de Euler, 346 A série de Dyson no plano complexo, 319
A equação de Laguerre generalizada, 463 Ação à direita de G sobre (G/H)r , 68
A equação de Riccati generalizada, 264 Ação à esquerda de G sobre (G/H)l , 67
A equação de difusão, 491 Ações à direita e à esquerda sobre o coset por
A equação de onda, 491 um subgrupo normal, 69
A equação não-homogênea, 323 Ações de uma Álgebra Universal sobre uma ou-
A estrutura linear dos conjuntos `p , 753 tra Álgebra Universal, 1166
A estrutura linear dos espaços Lp (M, dµ), 940 Ações, 61
A forma geral das soluções no caso de singulari- Abertos densos, 969
dades simples, 341 Abertos e Fechados, 816
A função caracterı́stica de um conjunto, 915 Advertência, 882
A função degrau, ou função de Heaviside, 315 Ainda mais exemplos de conjuntos de Cantor
A função geratriz das funções de Bessel, 468 (com uma surpresa), 867
A função geratriz dos polinômios de Legendre Alguma Notação, 142
associados, 446 Algumas Propriedades Básicas de Formas Line-
A função geratriz dos polinômios de Legendre, ares Alternantes, 109
440 Algumas Propriedades de Funções Analı́ticas de
A função geratriz exponencial dos polinômios de Matrizes, 221
Hermite, 453 Algumas considerações gerais sobre teorias fı́sicas,
1141 Autovalores e autovetores de operadores unitários,

Alguns Exemplos, 1171 1046
Alguns Fatos sobre Grupos Topológicos, 674 Autovetores, 147
Alguns esclarecimentos, 922 Base de uma Topologia, 822
Alguns exemplos e contra-exemplos, 1097 Base ortonormal completa de autovetores de um
Anéis com Unidade, 59, 1161 operador compacto auto-adjunto, 1118
Anéis de Divisão, 60, 1162 Bases Algébricas em Espaços Vetoriais, 95
Anéis de Integridade, 60 Bases Topológicas em Espaços Vetoriais, 99
Anéis sem Divisores de Zero, 59, 1161 Bases ortonormais completas e bases topológicas,
Anéis, 55, 1161 1004
Analiticidade da solução, 323 Bases ortonormais completas, 999
Anel de Integridade, 1162 Bolas Abertas em Espaços Métricos, 744
Aplicação para funções numéricas, 948 Caráteres de Grupos Finitos, 724
Aplicações diferenciáveis em espaços de Banach. Caráteres e Funções Centrais, 722
A derivada de Fréchet, 909 Caracterı́stica de um Corpo, 53
Aplicações, Mapeamentos, Mapas, Funcionais, Caso diagonalizável, 306
Operadores, Operações, Produtos etc., Caso não-diagonalizável, 306
22 Centralizadores e Normalizadores, 71
As Aplicações Ad, 231 Certas extensões contı́nuas de funções, 980
As Aplicações ad, 230 Ciclos, 566
As Equações Integrais de Fredholm , 788 Classe de Conjugação, 723
As Equações Integrais de Volterra, 790 Colchetes de Poisson, 58
As Métricas dp em n , 760 Combinações Lineares, 95
As Matrizes de Pauli, 596 Comentário Sobre a Notação, 45, 1157
As desigualdades de Hölder e Minkowski para Comentário ao Teorema 14.6. Continuidade em
seqüências, 754 relação às condições iniciais, 803
As equações de Helmholtz e de Laplace, 492 Comentário ao Teorema 14.6. Continuidade por
As funções de Airy de primeiro e de segundo mudanças de parâmetros, 804
tipo, 366 Comentário final sobre as séries perturbativas,
As funções de Green para o problema, 502, 505 314
As integrais de Riemann e Lebesgue em interva- Comentário sobre Matrizes Bijetoras, 146
los compactos, 930 Comentário sobre a equação de Bessel no inter-
As relações de ortogonalidade das funções de valo J = [0, ∞), 477
Bessel no intervalo [0, 1], 474 Comentário sobre autovalores negativos, 540
Automorfismos de SL( , 2), 644 Comentários e Nomenclatura, 813
Automorfismos descontı́nuos do grupo ( , +),
Comentários sobre soluções globais. O Exemplo
97 5.17, 289
Autovalores de L2 , 714 Comentários sobre soluções globais. O Exemplo
Autovalores de Operadores Compactos Auto-adjuntos, 5.20, 290
1112 Complementos ortogonais, 990
Autovalores e autovetores de operadores auto- Completeza de Espaços Métricos e sua Topolo-
adjuntos, 1046 gia, 745
Autovalores e autovetores de operadores limi- Completeza, 736
tados. Multiplicidade de um autovalor, Componentes conexas, 972
1045 Comutatividade e Associatividade, 1157
Condição para os conjuntos C{f } (F ) terem me- Convergência em espaços métricos, 732
dida de Lebesgue não-nula, 869 Corpos Não-comutativos, 60, 1163
Condições de contorno homogêneas caracterizam Corpos e Anéis de Integridade, 61, 1163
um espaço vetorial, 525 Corpos, 60, 1162
Condições de contorno lineares e homogêneas, Cosets à direita, ou “right cosets”, 67
522 Cosets à esquerda, ou “left cosets”, 66
Condições de contorno não-homogêneas caracte- Cosets por subgrupos normais, 69
rizam um espaço convexo, 525 Critério de Lebesgue para integrabilidade de Ri-
Conjuntos Abertos em Espaços Métricos, 743 emann, 905
Conjuntos Bem-Ordenados, 33 De volta ao polinômio mı́nimo, 158
Conjuntos Contáveis, 37 Deficiências da integral de Riemann, 906
Conjuntos Densos em Espaços Métricos, 739 Definição do problema, 526
Conjuntos Dirigidos, 31 Definição geral de EDOs, 249
Conjuntos Fechados em Espaços Métricos e Com- Definindo a Exponenciação de ad, 231
pleteza, 835 Dependência Linear, 94
Conjuntos Limitados, 34 Derivada de uma exponencial em relação a um
Conjuntos conexos, 971 parâmetro, 243
Conjuntos contáveis da reta real têm medida de Derivadas parciais, 913
Lebesgue nula, 857 Desigualdades envolvendo somas de potências,
Conjuntos convexos, 988 765
Conjuntos de Cantor, 973 Detalhando a definição de produto escalar, 116
Conjuntos densos em parte alguma, 968 Determinante de Matrizes, 112
Conjuntos densos em si mesmo, 969 Diagonalização de Matrizes, 160
Conjuntos densos, 968 Diagonalizabilidade de Projetores, 169
Conjuntos desconexos, 970 Diferenciação e integração de funções de uma
Conjuntos fechados em espaços de Hilbert, 987 variável real, 910
Conjuntos ortonormais e séries convergentes, 996 Dilatações, 622
Conjuntos ortonormais, 993 Dimensão Algébrica, 95
Conjuntos perfeitos, 969 Dois Resultados sobre o Grupo de Lorentz, 633
Conjuntos totalmente desconexos, 973 Elementos Maximais e Minimais, 33
Conseqüências do Teorema de Hahn-Banach para Elementos de Matriz dos Geradores L1 , L2 e L3 ,
espaços vetoriais normados, 1030 716
Considerações gerais sobre operadores em espaços Enunciado e Demonstração do Teorema da De-
de Hilbert, 1040 composição de Jordan, 190
Continuidade da norma e do produto escalar, Equações Diferenciais de Segunda Ordem e as
988 Equações Integrais de Volterra, 791
Continuidade de operações algébricas em álgebras Equações Matriciais Complexas, 323
de Banach, 1052 Equações Matriciais, 301
Continuidade e Convergência em Espaços Métricos, Equações Numéricas, 782
892 Equações diferenciais ordinárias com retardo, 254
Continuidade e Convergência em Espaços To- Equações diferenciais ordinárias lineares a coefi-
pológicos Gerais, 893 cientes constantes, 252
Continuidade por partes, 890 Equações diferenciais ordinárias lineares, 251
Continuidade, 127 Equações exatas de ordem n, 274
Convergência de seqüências de conjuntos, 43 Equações exatas de primeira ordem, 271
Equações lineares homogêneas e não-homogêneas, Fórmula de Rodrigues para os polinômios de

252 Hermite, 454
Equivalência entre Normas, 121 Fórmula de Rodrigues para os polinômios de La-
Equivalência entre Semi-Normas, 122 guerre, 457
Equivalência entre equações de ordem n e siste- Fórmula de Rodrigues para os polinômios de Le-
mas de EDOs, 260 gendre, 438
Equivalência entre normas matriciais, 213 Fórmula de adição das funções de Bessel, 469
Espaços Métricos. O Completamento Canônico, Famı́lias de Conjuntos, 24
739 Famı́lias de Pseudo-Métricas, 748
Espaços Reflexivos, 1022 Fatos básicos sobre o espectro de operadores em
Espaços Topológicos Separáveis e Espaços To- álgebras de Banach e Banach-∗, 1059
pológicos Segundo-Contáveis, 824 Fatos gerais sobre a inversa de operadores em
Espaços Vetoriais, 1163 B(X), 1054
Espaços de Banach, 748 Fecho de Conjuntos em Espaços Métricos, 834
Espaços de Hilbert são reflexivos, 1022 Fechos e complementos ortogonais, 992
Espaços de Hilbert separáveis, 1005 Fecho, 831
Espaços de Hilbert, 749 Formas Alternantes Maximais, 110
Espaços métricos e outros exemplos básicos, 730 Formas Alternantes, 108
Estados em Álgebras C∗ , 1083 Formas Bilineares Não-Degeneradas, 108
Estruturas, 44, 1156 Formas Bilineares Não-Singulares, 108
Exemplo de Operador Não-Limitado. O Funci- Formas Bilineares em n , 129
onal Delta de Dirac, 1015 Formas Bilineares em n , 128
Exemplos Básicos de Álgebras de Lie, 57 Formas Bilineares, 107

Exemplos Simples, 47 Formas Sesquilineares Hermitianas em n , 130
Exemplos básicos de σ-álgebras, 815 Formas Sesquilineares Positivas e Produtos Es-
Exemplos básicos de topologias, 815 calares, 117
Exemplos de Formas Sesquilineares e Produtos Formas Sesquilineares em n , 127
Escalares, 118 Formas Sesquilineares. Definições, 112
Exemplos de Funcionais Lineares, 101 Formas Simpléticas, 109, 129
Exemplos e contra-exemplos, 809 Formas invariantes de spinores, 650
Exemplos. A integral de Lebesgue em , 929
Formas sesquilineares bicontı́nuas, 1124
Exemplos. Integração com a medida de conta- Formas sesquilineares não-singulares, 113
gem. Relação com os espaços `p , 929 Formas simpléticas reais e produtos escalares re-
Exemplos. Integração com a medida delta de ais, 132
Dirac, 928 Fronteira ou Bordo, 833
Exemplos, 30, 74, 135, 712, 840 Funções Analı́ticas de Matrizes, 216
Existência de extensões majoradas por funcio- Funções Finitárias, 44, 1155
nais convexos, 1025 Funções Sobrejetoras, Injetoras e Bijetoras, 23
Expansão de multipolos, 497 Funções com valores em espaços de Banach. In-
Exponenciação e álgebras de Lie matriciais. Um tegrabilidade de Riemann, 902
contra-exemplo, 701 Funções complexas integráveis, 926
Exponenciais de Matrizes. Comutatividade, 219 Funções complexas mensuráveis, 952
Exponenciais e Logaritmos de Matrizes, 218 Funções contı́nuas são integráveis por Riemann,
Extensões de Funções, 26 901
Extensões de Operadores, 1017 Funções definidas por sup’s e inf’s, 917
Funções geratrizes de Dirichlet, 433 Intertwiners, 707

Funções geratrizes exponenciais, 433 Intervalos de Tipo Luz, de Tipo Tempo e de
Funções geratrizes, 433 Tipo Espaço, 620
Funções integráveis, 925 Intervalos, 18
Funções mensuráveis complexas, 917 Introdução e motivação, 342
Funções mensuráveis e funções simples, 920 Invariância de µL por translações, 854
Funções mensuráveis entre espaços topológicos, Invariância de Normas Associadas a Produtos
948 Escalares, 123
Funções mensuráveis. Definição e comentários, Invariância por Redução Inicial do Domı́nio, 880
915 Iterando a fórmula de Duhamel, 244
Funções simples, 919 Lema de Schur, 710
Funções, 22 Limitações da integral de Lebesgue, 931
Funcionais Lineares em Álgebras C∗ , 1082 Limite do Supremo e Limite do Ínfimo de um
Funcionais lineares contı́nuos, 1007 Conjunto, 881
Funcionais lineares limitados, 1007 Limite em norma de operadores compactos, 1104
Funcionais lineares, 1007 Limites do Ínfimo e Limites do Supremo de Famı́lias
Funcionais sub-aditivos, sub-lineares e convexos, de Conjuntos, 42
1025 Máximos e Mı́nimos, 32
GL( , n) é Grupo de Lie, 679 Método dos Fatores Integrantes, 272
GL( , n) é um Grupo Topológico, 677 Métricas equivalentes. Métricas que geram a
GL( , n) é uma Variedade Analı́tica, 678 mesma topologia, 745
GL( , n) é denso em Mat( , n), 677 Métricas, 729
GL( , n) é um Conjunto Aberto de Mat( , n), Módulos, 58
676 Mais Exemplos de Topologias: a Topologia Co-
Grupo Abeliano Livremente Gerado por um Con- contável e a Co-finita, 817
junto, 78 Mais Exemplos, 30
Grupos Topológicos Conexos e Desconexos, 673 Mais Sobre O Limite do Supremo e Sobre o Li-
Grupos Topológicos, 672 mite do Ínfimo, 882
Grupos de Lie Nilpotentes, 697 Mais Sobre a Topologia Usual de , 820
Grupos de Lie, 673 Mais exemplos de conjuntos de Cantor, 864

Grupos de Permutações de n Elementos, 565 Mais propriedades da matriz de monodromia,
Grupos, 46, 1160 330
Homomorfismos Não-Contı́nuos de ( , +), 683
Majorantes e Minorantes, 34
Imagens e pré-imagens de funções, 23 Matrizes Auto-adjuntas e Diagonalizabilidade,
Inexistência de solução, 283 179
Inexistência de soluções globais, 285 Matrizes Diagonalizáveis e Matrizes Simples, 161
Integração de funções mensuráveis. A integral Matrizes Diagonalizáveis, 159
de Lebesgue, 924 Matrizes Hermitianas, Normais e Unitárias, 176
Integração de funções simples, 921 Matrizes Normais e Diagonalizabilidade, 181
Integração sobre uma medida com valores em Matrizes Similares. Transformações de Similari-
projeções ortogonais, 1136 dade, 146
Integrabilidade de Riemann. Critérios alterna- Matrizes Simples, 149
tivos, 901 Medidas Completas e o Teorema de Caratheo-
Integrais indefinidas de funções simples, 922 dory, 850
Interior, 832 Medidas Completas, 849
Medidas definidas pela integral de funções sim- O Método de Frobenius, 336

ples não-negativas, 923 O Núcleo e a Imagem de um Operador Linear,
Monóides, 45, 1160 186
Monodromia não trivial. Um exemplo, 331 O Polinômio Caracterı́stico de uma Matriz, 145
Monodromia, 327 O Polinômio Mı́nimo, 153
Morfismos em Espaços Vetoriais, 65 O Produto Cartesiano de uma Famı́lia Arbitrária
Morfismos em Grupos, 64 de Conjuntos, 27
Morfismos em Álgebras, 66 O Produto Direto de Grupos, 72
Morfismos entre Álgebras Universais, 1166 O Produto Semi-Direto de Grupos, 73
Números Reais Algébricos e Transcendentes, 40 O Produto Tensorial de dois Espaços Vetoriais,
Números Reais. A Construção de Cantor. Com- 81
pletamento, 767 O Produto Tensorial de dois Grupos Abelianos,
Não-unicidade de soluções, 284 80
Norma Quaterniônica, 92 O Produto Tensorial de dois Módulos sobre uma
Norma e Produto Escalar, 123 Álgebra Associativa, 81
Normas de Matrizes. A Norma Operatorial, 211 O Sinal, ou Paridade, de uma Permutação, 569
Normas, 120 O Teorema BLT, 1017
Nota Histórica, 265 O Teorema Espectral e distribuições de proba-
Nota sobre as funções de Bessel de ordem inteira bilidade no espectro, 1141
negativa, 399 O Teorema Espectral para operadores auto-adjuntos
Notação Matricial. A Métrica de Minkowski, limitados, 1139
624 O Teorema Espectral para operadores compac-
Notações para produtos escalares, 116 tos auto-adjuntos, 1116
O Adjunto em Espaços de Banach, 1048 O Teorema da Aplicação Aberta, 1034
O Axioma da Escolha, 27 O Teorema da Aplicação Inversa, 1038
O Bi-dual Algébrico de um Espaço Vetorial, 104 O Teorema da Convergência Dominada, 935
O Cálculo Funcional para Matrizes Diagonalizáveis, O Teorema da Convergência Monótona, 933
169 O Teorema de Hahn-Banach para espaços veto-
O Centro de GL( , n), 71 riais complexos, 1028
O Centro de um Grupo, 70 O Teorema de Hahn-Banach para espaços veto-
O Determinante de Exponenciais de Matrizes, riais reais, 1027
222 O Teorema de Hamilton-Cayley e a Inversa de
O Dual Topológico de um Espaço Vetorial, 101 Matrizes, 157
O Espectro de uma Matriz, 144 O Teorema de Hellinger-Toeplitz, 1040
O Exemplo de Vitali, 837 O Teorema de Peter-Weyl. Relações de Ortogo-
O Expoente de Lyapunov, 804 nalidade, 720
O Gráfico de um Operador, 1034 O Teorema de Pitágoras, 995
O Grupo Euclidiano, 614 O Teorema de Riesz-Fischer para seqüências. Com-
O Grupo Quociente de G por N , 70 pleteza dos espaços `∞ e `p , p ≥ 1, 761
O Grupo de Galilei, 639 O Teorema de Weierstrass, 978
O Grupo de Poincaré, 628 O Teorema do Gráfico Fechado, 1038
O Grupo de Tranças, 570 O Teorema do Valor Médio, 912
O Lema de Fatou, 934 O Traço de uma Matriz, 150
O Lema de Zorn, 35 O “Limite Indutivo Algébrico” de uma Famı́lia
O Limite Indutivo de Álgebras C ∗ , 1176 de Álgebras, 1168
O “Limite Indutivo de Banach” de uma Famı́lia O operador integral de Fredholm, 1109

de Álgebras de Banach, 1173 O operador integral de Volterra, 1110
O caso γ− − γ+ ∈ \ {0}, 380 O operador resolvente e propriedades topológicas
O caso γ− − γ+ ∈ , 378 do espectro, 1061, 1093
O caso γ− − γ+ 6∈ , 378 O princı́pio de sobreposição para equações line-
O caso γ− = γ+ , 378 ares homogêneas, 252
O caso ρ = 2ω0 > 0, 309 O problema de Sturm com condições de con-
O caso ρ = 0, 310 torno não-homogêneas, 531
O caso ρ 6= 2ω0 , 308 O quadro da Fı́sica Quântica, 1146
O caso k = 0, γ = 0. Partı́cula submetida a O raio espectral, 1064
força externa dependente do tempo, 311 O sistema de Lotka-Volterra, 257
O caso comutativo, 317 Observáveis e Distribuições de Probabilidade,
O caso de condições de contorno não-homogêneas, 1142
548 Observações, 300
O caso de equações lineares não-homogêneas, Obtendo Produtos Escalares a Partir de Nor-
253 mas, 125
O caso de operadores compactos não-auto-adjuntos, Operações básicas com famı́lias de conjuntos, 24
1118 Operações e Relações, 44, 1155
O conjunto de Cantor ternário é denso em si Operador de Casimir, 713
mesmo e totalmente desconexo, 863 Operadores Auto-adjuntos, Operadores Unitários
O conjunto de Cantor ternário, 859 e Operadores Normais, 1044
O conjunto resolvente e o espectro de um ope- Operadores Compactos em Espaços de Hilbert
rador, 1091 Separáveis, 1105
O espaço das funções almost-periódicas. Uma Operadores Compactos, 1101
digressão, 994 Operadores Contı́nuos, 1013
O espaço vetorial B(V, W), 1016 Operadores Limitados, 1014
O espectro de operadores auto-adjuntos em espaços Operadores Lineares, 1012
de Hilbert é real, 1096 Operadores Nilpotentes, 185
O espectro de operadores limitados em espaços Operadores Nucleares, 1120
de Hilbert, 1095 Operadores Simétricos e Unitários. Ortogonali-
O espectro de operadores unitários e de operado- dade de Autovetores, 178
res auto-adjuntos em álgebras C∗ , 1067 Operadores compactos e seqüências fracamente
O espectro residual e o pontual em um espaço convergentes, 1101
de Hilbert, 1095 Operadores de posto finito, 1100
O fecho de um subespaço linear é também um Ordem Lexicográfica, 31
subespaço linear, 987 Origens, 464
O grupo P↑3222378
+ em 1+1-dimensões, 641 Os Autovalores de Matrizes Hermitianas e de
O grupo O(1, 1) (O Grupo de Lorentz em 1+1 Matrizes Unitárias, 177
√
dimensões), 586 Os Corpos ( p), com p Primo, 51
O grupo U(1), 586 Os Corpos p , com p Primo, 51
O grupo de Heisenberg GH3 ( ), 575 Os Geradores do Grupo Euclidiano E2 , 615
O grupo de Heisenberg GHn ( ), n ≥ 3, 577 Os Geradores do Grupo Euclidiano E3 , 614
O método de Newton para zeros de funções, 783 Os Geradores do Grupo de Poincaré, 640
O modelo da Mecânica Clássica, 1144 Os Geradores dos Boosts de Lorentz, 636
O número e é um número irracional, 734 Os Grupos O(n) e SO(n), 582
Os Grupos O(p, m) e SO(p, m), 582 complexas, 133

Os Grupos U (n) e SU (n), 583 Produtos escalares e formas simpléticas reais,
Os Grupos U (p, m) e SU (p, m), 583 118
Os Grupos n , 48 Produzindo Bases de Topologias, 822
Os Grupos Ortogonais Complexos, 584 Projetores Ortogonais, 179
Os Grupos SL( , 2)/{− , } e L↑+ 3222378 são Projetores e Projetores Ortogonais, 1047
Isomorfos, 648 Projetores, 162
Os Grupos SO(2) e O(2), 584 Propriedades Básicas de Medidas, 842
Os Harmônicos Esféricos, 450 Propriedades adicionais, 472
Os Polinômios de Chebyshev, 368 Propriedades algébricas de operadores compac-
Os Polinômios de Hermite, 363 tos, 1102
Os Polinômios de Legendre, 360 Propriedades elementares da integração de funções
Os Sub-grupos Rot e SRot, 629 complexas, 927
Os Sub-grupos Próprio, Ortócrono e Restrito do Propriedades elementares da integração de funções
Grupo de Lorentz, 634 simples, 923
Os “Boosts” de Lorentz, 630 Propriedades elementares da integração, 925
Os conjuntos Lp (M, dµ), 928 Propriedades elementares de funções, 25
Os espaços L1 (M, dµ), 939 Propriedades genéricas, 970
Os espectro e a operação de adjunção, 176 Propriedades topológicas do grupo dos operado-
Os geradores de SRot, 637 res invertı́veis, 1058
Os grupos GL(n, ), SL(n, ) e SL(n, ), 572 Prova do Teorema de Caratheodory, 845
Os números e e π são irracionais e transcenden- Prova do Teorema de Weierstrass, 981
tes, 41 Quase em toda parte, 858
Outra Caracterização do Fecho de um Conjunto, Quatérnions e Álgebras de Matrizes 2 × 2, 89
833 Quocientes, 93
Outros Completamentos dos Racionais. Números Recordando alguns fatos gerais e um pouco de
p-ádicos, 770 notação, 1053
Outros Isomorfismos entre L↑+ 3222378 e SL( , Redes e Seqüências, 32
2)/{− , }, 648 Reescrevendo a equação diferencial na forma de
Outros Subgrupos de GL( , n) e de GL( , n),
Liouville, 525
573 Reescrevendo a série de Dyson., 316
Outros problemas que não de valor inicial, 282 Regularidade de µL , 855
Outros resultados análogos, 246 Relações Finitárias, 44, 1156
Pares Ordenados, 21 Relações de Compatibilidade, 29
Partes positiva e negativa de uma função, 918 Relações de Equivalência, 28
Partições, 898 Relações de Ordem Total, 30
Polinômios de Matrizes, 152 Relações de inclusão entre os conjuntos Lp (M, dµ)
Problemas bem-postos, 282 quando µ(M ) < ∞ , 944
Problemas de valor inicial, 280 Relações de ortogonalidade para as funções de
Produto Direto e Soma Direta de Coleções Ar- Bessel esféricas no intervalo [0, 1], 480
bitrárias de Grupos, 82 Relações de ortogonalidade para os polinômios
Produtos Cartesianos e Contabilidade, 41 de Hermite, 452
Produtos Escalares em n , 130 Relações de ortogonalidade para os polinômios
Produtos Internos ou Produtos Escalares, 116 de Laguerre, 456
Produtos escalares complexos sobre estruturas Relações de ortogonalidade para os polinômios
de Legendre associados, 447 Seqüências de Cauchy, 732

Relações de ortogonalidade para os polinômios Seqüências, 731
de Legendre, 436 Singularidades tipo pólo de S(z). Pontos Singu-
Relações de recorrência para as funções de Bessel lares Regulares, 336
esféricas, 479 Sistemas de primeira ordem, 259
Relações de recorrência para as funções de Bes- Sistemas lineares de primeira ordem, 260
sel, 465 Solução de equações lineares de primeira ordem,
Relações de recorrência para os polinômios de 262
Hermite, 455 Solução para condição inicial em instante ar-
Relações de recorrência para os polinômios de bitrário, 305
Laguerre associados, 462 Soluções da equação de Clairaut. A solução sin-
Relações de recorrência para os polinômios de gular, 276
Laguerre, 457 Soluções da equação de D’Alembert-Lagrange,
Relações de recorrência para os polinômios de 278
Legendre associados, 446 Soluções de equações com pontos singulares sim-
Relações de recorrência para os polinômios de ples, 345
Legendre, 439 Soluções nulas, 323
Relações e Grupos Gerados Módulo Relações, 79 Soma Direta de Coleções Arbitrárias de Espaços
Relações, 22 Vetoriais, 82
Relacionando problemas com condições de con- Soma Direta e Soma Semi-Direta de Álgebras de
torno não-homogêneas e homogêneas, 524 Lie, 696
Representação matricial de sistemas lineares, 260 Somas Diretas de Sub-Espaços, 185
Representações Equivalentes, 707 Somas de Darboux, 903
Representações Irredutı́veis para Operadores, 709 Somas de Riemann. Integrabilidade de Riemann,
Representações Irredutı́veis, 708 899
Representações de Grupos, 63 Spinores, 649
Representações de Álgebras, 64 Sub-Espaços Invariantes, 707
Representações integrais das funções de Bessel, Sub-Grupos Normais, 68
470 Sub-Grupos Uniparamétricos e Álgebras de Lie,
Representações integrais para os polinômios de 687
Legendre associados, 443 Sub-Grupos Uniparamétricos em Sub-Grupos Fe-
Representações integrais para os polinômios de chados, 683
Legendre, 441 Sub-álgebras Abelianas, 90
Reticulados Distributivos, 1159 Sub-espaços Invariantes, 185
Reticulados, 1158 Sub-espaços gerados por conjuntos ortonormais
Revisitando a desigualdade de Hölder, 945 finitos, 997
Revisitando o Teorema 10.8, 638 Sub-espaços invariantes, 1046
SL( , 2) e o Espaço de Minkowski, 644 Sub-espaços, 93
Séries de Potências de Matrizes, 216 Sub-grupos Uniparamétricos de GL( , n) e a
Semi-Normas, 121 Álgebra de Lie Associada a GL( , n),
Semi-grupos, 45, 1159 682
Semi-normas em `p , p ≥ 1, 760 Sub-grupos, 48
Seqüências `∞ e `p , 751 Sub-seqüências, 731
Seqüências de Cauchy de Números Racionais, Suporte de uma função, 78
767 Teorema da decomposição ortogonal, 991
Teorema do melhor aproximante, 989 Uma pseudo-métrica em L1 (M, dµ), 939

Tipos de Operações e de Relações, 45, 1157 Unicidade de solução para a equação de difusão
Tipos de espectro. O espectros pontual, contı́nuo em regiões finitas, 513
e residual, 1092 Unicidade de solução para a equação de vibrações
Topologia, 813 elásticas em regiões finitas, 517
Transformações Lineares e a Estrutura Causal, Unicidade de soluções para a equação de difusão
625 em um intervalo finito, 486
Transitividade e Espaços Homogêneos, 63 Unicidade de soluções para a equação de ondas
Transposições Elementares e suas Relações, 569 em um intervalo finito, 488
Transposições Elementares, 568 Unicidade dos projetores espectrais, 1139
Transposições, 567 Uns poucos exemplos, 973
Troca de Paridade e Reversão Temporal, 628 Valores singulares de um operador compacto,
Um Exemplo, 540 1119
Um Limite Inferior para os Autovalores, 541 Variâncias e estados puros, 1143
Um Teorema de Fuchs, 346 Variedades Diferenciáveis, 671
Um comentário sobre a matriz de monodromia, Varredura Linear, 95
333 Vetores Cı́clicos, 1083
Um comentário sobre a ortonormalidade das funções Zeros das funções de Bessel, 473
ψp, l, m , 510 Álgebras Associativas e Não-Associativas, 1165
Um comentário, 340 Álgebras Associativas, 1050
Um exemplo de operador compacto a se ter em Álgebras Booleanas, 1159
mente, 1107 Álgebras com Involução, 1051
Um exemplo. A seqüência de Fibonacci, 434 Álgebras de Banach-∗, 1052
Um problema de teoria de perturbações, 313 Álgebras de Banach, 1052
Um resultado útil, 143 Álgebras de Divisão, 60
Um subgrupo conexo não-fechado de GL( , 2), Álgebras de Lie Nilpotentes, 694
700 Álgebras de Lie Simples e Semi-Simples, 695
Um teorema sobre existência e unicidade de soluções, Álgebras de Lie Solúveis, 695
523 Álgebras de Lie, 56, 1165
Uma Condição Suficiente para Diagonalizabili- Álgebras C∗ , 1052
dade, 170 Álgebras, 55, 1164
Uma Métrica no Conjunto dos Racionais, 766 Ínfimo e Supremo, 34
Uma condição para mensurabilidade de funções, Órbita de uma ação, 63
947
Uma conseqüência da identidade de polarização,
125
Uma conseqüência de (8.98) empregada no es-
tudo do átomo de hidrogênio, 461
Uma ilustração elementar do Teorema de Ca-
ratheodory, 848
Uma notação, 526
Uma observação importante, 527
Uma propriedade da norma, 987
Uma propriedade da solução das equações ho-
mogêneas, 296
São Paulo, 17 de junho de 2005
João Carlos Alves Barata

Depto. de Fı́sica Matemática
Instituto de Fı́sica
Universidade de São Paulo
Caixa Postal 66 318
05315 970 São Paulo. SP. Brasil
Email: jbarata@if.usp.br
Tel.: (011) 3091 7002
Fax.: (011) 3091 6833

Curso de Física-Matemática

Enviado por

Dados do documento

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Curso de Física-Matemática

Enviado por

Direitos autorais:

Formatos disponíveis

Universidade de São Paulo

Versão de 17 de junho de 2005

1.6 Tópicos Especiais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83

II Tópicos de Álgebra Linear 140

3 Tópicos de Álgebra Linear I 141

3.7.3 Matrizes Nilpotentes e sua Representação Canônica . . . . . . . . . . . . . . . . 193

4 Tópicos de Álgebra Linear II 210

4.3 A Fórmula de Lie-Trotter e a Fórmula do Comutador . . . . . . . . . . . . . . . . . . . 227

III Equações Diferenciais 247

5 Equações Diferenciais Ordinárias. Uma Introdução 248

5.4.2 Teoremas de Existência e Unicidade de Soluções . . . . . . . . . . . . . . . . . . 286

6 Sistemas de Equações Diferenciais Lineares 292

7 Soluções de Equações Diferenciais Ordinárias Lineares no Plano Complexo 355

7.2.2 A Equação de Euler Revisitada . . . . . . . . . . . . . . . . . . . . . . . . . . . 385

8 Propriedades de Algumas Soluções de Equações Diferenciais Ordinárias e Aplicações424

8.3.5 O Problema da Membrana Circular . . . . . . . . . . . . . . . . . . . . . . . . . 503

9 Introdução ao Problema de Sturm-Liouville 521

10 Grupos. Alguns Exemplos 564

10.2.2 O Grupo de Borel e Grupo de Heisenberg . . . . . . . . . . . . . . . . . . . . . 574

11 Grupos de Lie e Álgebras de Lie. Uma Breve Introdução 670

11.3.4 Sub-Grupos Uniparamétricos e Álgebras de Lie . . . . . . . . . . . . . . . . . . 683

12 Uma Breve Introdução à Teoria das Representações de Grupos 706

V Topologia Geral, Teoria da Medida e Integração 726

13 Espaços Métricos 727

14 O Teorema do Ponto Fixo de Banach e Algumas de Suas Conseqüências 779

14.3.3 Um Teorema de Comparação de Soluções de EDO’s . . . . . . . . . . . . . . . . 801

15 Espaços Topológicos e Espaços Mensuráveis. Definições e Propriedades Básicas 812

17 A Medida de Lebesgue 852

18 Convergência, Pontos Limite e Pontos de Acumulação em Espaços Topológicos 876

19 Continuidade de Funções em Espaços Topológicos 888

20 Elementos da Teoria da Integração 895

21 Alguns Tópicos Especiais em Topologia e Análise 968

21.3 A Topologia Produto de Espaços Topológicos . . . . . . . . . . . . . . . . . . . . . . . 975

VI Análise Funcional 985

22 Noções Básicas Sobre Espaços de Hilbert 986

23 Operadores Lineares Limitados em Espaços de Banach e de Hilbert 1011

23.6.1 O Teorema Espectral para Operadores Compactos Auto-adjuntos . . . . . . . . 1112

24 Noções de Estruturas Algébricas 1155

25 O Limite Indutivo de Álgebras 1168

João Carlos Alves Barata São Paulo, 17 de junho de 2005.

“O comportamento de um fı́sico em relação à Matemática é similar a de um ladrão inteligente em

Se z é um número complexo denotaremos seu complexo conjugado por z. A notação z ∗ (mais

O sı́mbolo A := B ou B =: A denota que A é definido pela expressão B. O sı́mbolo A ≡ B indica

Se x = (x1 , . . . , xn ) e y = (y1 , . . . , yn ) são vetores complexos com n componentes (ou seja,

Se x = (x1 , . . . , xn ) e y = (y1 , . . . , yn ) são vetores complexos com n componentes (ou seja,

Mat( , n) ou Mat(n, ) designa o conjunto de todas as matrizes reais n × n. Mat( , n) ou

Mat(n, ) designa o conjunto de todas as matrizes complexas n × n.

A designa a matriz transposta de

Se A é um operador linear em um espaço vetorial complexo (com um certo produto escalar),

Denotaremos o operador identidade agindo em um espaço vetorial (a matriz identidade, agindo

Dado um conjunto X 6= ∅, denota-se por (X) a coleção de todos os sub-conjuntos de X. (X)

A topologia usual da reta real será denotada aqui por τ .

A σ-álgebra de Borel de será (quase sempre) denotada aqui por M[τ ].

menor inteiro maior ou igual a x.

futuramente. Por ora, pedimos atenção ao leitor.

O sı́mbolo 2 indica o fim de um enunciado. O sı́mbolo indica o fim de uma demonstração. O

B(X) designa o conjunto de operadores limitados agindo em um espaço de Banach X. B(H)

O domı́nio de um operador T (agindo em um espaço de Banach ou de Hilbert) será denotado

imaginária de um número complexo ou mesmo com a da parte imaginária de um operador agindo

(a, b) = {x ∈ , com a < x < b}

é dito ser um intervalo aberto. Para a ≤ b ∈ o conjunto

é dito ser um intervalo fechado. Para a < b ∈ os conjuntos

[a, b) = {x ∈ , com a ≤ x < b}

1.1 Conjuntos, Relações e Funções . . . . . . . . . . . . . . . . . . . . . . . . . 21

se a ≤ b. Se a é par e b é ı́mpar então dizemos sempre que a p−i b.

x ≤ y. Se x e y forem irracionais dizemos que x r−i y se x ≤ y. Se x é racional e y é irracional então

(x1 , . . . , xp ) L (y1 , . . . , yp ) no sentido dado no parágrafo anterior, ou se (x1 , . . . , xp ) = (y1 , . . . , yp ),

uma relaçao de ordem (parcial!) da seguinte forma: (x, y) (x 0 , y 0 ) se x = x0 e se y ≤ y 0 . Em palavras,

Seja X um conjunto dotado de uma ordem parcial denotada por e seja A ⊂ X.