Você está na página 1de 1195

Universidade de São Paulo

Instituto de Fı́sica
Departamento de Fı́sica Matemática
2005

Curso de Fı́sica-Matemática
Notas de Aula
João Carlos Alves Barata

Versão de 17 de junho de 2005

Estas notas ou sua versão mais recente podem ser encontradas no seguinte endereço WWW:
http://denebola.if.usp.br/∼jbarata/Notas de aula
Prefácio 14
Notação e Advertências 16

Índice

I Capı́tulos Introdutórios 19

1 Noções Básicas 20
1.1 Conjuntos, Relações e Funções . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
1.1.1 Relações e Funções . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
1.1.2 Relações de Ordem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
1.1.3 Cardinalidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
1.1.4 Ínfimos e Supremos de Famı́lias de Conjuntos . . . . . . . . . . . . . . . . . . . 42
1.2 Estruturas Algébricas Básicas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
1.2.1 Semi-grupos, Monóides e Grupos . . . . . . . . . . . . . . . . . . . . . . . . . . 45
1.2.2 Corpos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
1.2.3 Espaços Vetoriais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
1.2.4 Anéis, Álgebras e Módulos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
1.2.5 Mais sobre Anéis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
1.2.6 Ações e Representações . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
1.2.7 Morfismos, Homomorfismos, Epimorfismos, Isomorfismos, Monomorfismos, En-
domorfismos e Automorfismos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
1.3 Cosets, Sub-Grupos Normais e o Grupo Quociente. O Centro de um Grupo . . . . . . . 66
1.3.1 Cosets . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
1.3.2 Sub-Grupos Normais e o Grupo Quociente . . . . . . . . . . . . . . . . . . . . . 68
1.3.3 O Centro de um Grupo. Centralizadores e Normalizadores . . . . . . . . . . . . 70
1.4 O Produto Direto e o Produto Semi-Direto de Grupos . . . . . . . . . . . . . . . . . . . 72
1.5 Somas Diretas e Produtos Tensoriais . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
1.5.1 Discussão Informal Preliminar . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
1.5.2 Grupos Gerados por Conjuntos. Grupos Gerados por Relações . . . . . . . . . . 78
1.5.3 Somas Diretas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
1.5.4 Produtos Tensoriais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
1.5.5 Produtos Diretos e Somas Diretas Arbitrários . . . . . . . . . . . . . . . . . . . 82
1.5.6 Módulos e Derivações . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83

2
3/1195

1.6 Tópicos Especiais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83


1.6.1 O Grupo de Grothendieck . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
1.6.2 Grupóides . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86
1.6.3 Quatérnions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87

2 Espaços Vetoriais 93
2.1 Espaços Vetoriais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
2.1.1 Sub-Espaços e Espaços Quocientes . . . . . . . . . . . . . . . . . . . . . . . . . 93
2.1.2 Bases Algébricas de um Espaço Vetorial . . . . . . . . . . . . . . . . . . . . . . 94
2.1.3 O Dual Algébrico de um Espaço Vetorial . . . . . . . . . . . . . . . . . . . . . 100
2.2 Formas Lineares, Sesquilineares e Produtos Escalares em Espaços Vetoriais . . . . . . . 107
2.2.1 Formas Multilineares . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107
2.2.2 Formas Sesquilineares e as Desigualdades de Cauchy-Schwarz e Minkowski . . . 112
2.2.3 Produtos Escalares . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116
2.2.4 Exemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118
2.3 Normas em Espaços Vetoriais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120
2.4 Formas Bilineares e Sesquilineares em Espaços de Dimensão Finita . . . . . . . . . . . 126
2.5 Estruturas Complexas sobre Espaços Vetoriais Reais . . . . . . . . . . . . . . . . . . . . 131

II Tópicos de Álgebra Linear 140

3 Tópicos de Álgebra Linear I 141


3.1 Rudimentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141
3.2 Noções Básicas sobre o Espectro de uma Matriz . . . . . . . . . . . . . . . . . . . . . . 144
3.2.1 O Traço de uma Matriz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 150
3.3 Polinômios de Matrizes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 152
3.3.1 O Teorema de Hamilton-Cayley . . . . . . . . . . . . . . . . . . . . . . . . . . . 154
3.4 Matrizes Diagonalizáveis e o Teorema Espectral . . . . . . . . . . . . . . . . . . . . . . 159
3.4.1 Diagonalização Simultânea de Matrizes . . . . . . . . . . . . . . . . . . . . . . . 171
3.5 Matrizes Auto-adjuntas, Normais e Unitárias . . . . . . . . . . . . . . . . . . . . . . . . 175
3.6 Matrizes Triangulares . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 182
3.7 O Teorema de Decomposição de Jordan e a Forma Canônica de Matrizes . . . . . . . . 184
3.7.1 Resultados Preparatórios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 185
3.7.2 O Teorema da Decomposição de Jordan . . . . . . . . . . . . . . . . . . . . . . 190
4/1195

3.7.3 Matrizes Nilpotentes e sua Representação Canônica . . . . . . . . . . . . . . . . 193


3.7.4 A Forma Canônica de Matrizes . . . . . . . . . . . . . . . . . . . . . . . . . . . 197
3.8 Algumas Representações Especiais de Matrizes . . . . . . . . . . . . . . . . . . . . . . . 200
3.8.1 A Decomposição Polar de Matrizes . . . . . . . . . . . . . . . . . . . . . . . . . 200
3.8.2 O Teorema da Triangularização de Schur . . . . . . . . . . . . . . . . . . . . . . 202
3.8.3 A Decomposição QR e a Decomposição de Iwasawa (“KAN”) . . . . . . . . . . 205

4 Tópicos de Álgebra Linear II 210


4.1 Uma Topologia Métrica em Mat ( , n) . . . . . . . . . . . . . . . . . . . . . . . . . . . 211
4.2 Exponenciais, Logaritmos e Funções Analı́ticas de Matrizes . . . . . . . . . . . . . . . . 216
4.2.1 A Exponenciação de Matrizes e os Grupos GL( , n) e GL( , n) . . . . . . . . 224


4.3 A Fórmula de Lie-Trotter e a Fórmula do Comutador . . . . . . . . . . . . . . . . . . . 227


4.4 Aplicações Lineares em Mat ( , n) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 230
4.5 A Fórmula de Baker, Campbell e Hausdorff . . . . . . . . . . . . . . . . . . . . . . . . 236
4.6 A Fórmula de Duhamel e Algumas de suas Conseqüências . . . . . . . . . . . . . . . . 242

III Equações Diferenciais 247

5 Equações Diferenciais Ordinárias. Uma Introdução 248


5.1 Definição e Alguns Exemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 249
5.1.1 Equações Diferenciais Ordinárias Lineares . . . . . . . . . . . . . . . . . . . . . 251
5.1.2 Equações Ordinárias de Segunda Ordem. Exemplos de Interesse . . . . . . . . . 255
5.2 Sistemas de Equações Diferenciais Ordinárias . . . . . . . . . . . . . . . . . . . . . . . 257
5.3 Alguns Métodos de Solução de Equações Diferenciais Ordinárias . . . . . . . . . . . . . 262
5.3.1 Solução de Equações Ordinárias Lineares de Primeira Ordem . . . . . . . . . . . 262
5.3.2 As Equações de Bernoulli e de Riccati . . . . . . . . . . . . . . . . . . . . . . . 263
5.3.3 Integração de Equações Separáveis . . . . . . . . . . . . . . . . . . . . . . . . . 265
5.3.4 O Método de Variação de Constantes . . . . . . . . . . . . . . . . . . . . . . . . 266
5.3.5 O Método de Substituição de Prüfer . . . . . . . . . . . . . . . . . . . . . . . . 268
5.3.6 O Método de Inversão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 270
5.3.7 Solução de Equações Exatas e o Método dos Fatores Integrantes . . . . . . . . . 271
5.3.8 Soluções das Equações de D’Alembert-Lagrange e Clairaut . . . . . . . . . . . . 276
5.4 Discussão sobre Problemas de Valor Inicial . . . . . . . . . . . . . . . . . . . . . . . . . 280
5.4.1 Problemas de Valor Inicial. Patologias e Exemplos a se Ter em Mente . . . . . . 283
5/1195

5.4.2 Teoremas de Existência e Unicidade de Soluções . . . . . . . . . . . . . . . . . . 286


5.4.3 Soluções Globais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 288
5.4.4 Dependência Contı́nua de Condições Iniciais e de Parâmetros . . . . . . . . . . . 290

6 Sistemas de Equações Diferenciais Lineares 292


6.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 293
6.2 Unicidade e Existência de Soluções . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 293
6.2.1 Unicidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 293
6.2.2 Existência. A Série de Dyson . . . . . . . . . . . . . . . . . . . . . . . . . . . . 297
6.2.3 Propriedades de D(s, t) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 301
6.3 Equações com Coeficientes Constantes . . . . . . . . . . . . . . . . . . . . . . . . . . . 305
6.3.1 Alguns Exemplos e Aplicações . . . . . . . . . . . . . . . . . . . . . . . . . . . . 307
6.4 Teoria de Perturbações de Sistemas Lineares . . . . . . . . . . . . . . . . . . . . . . . . 311
6.5 Mais sobre a Série de Dyson. Produtos de Tempo Ordenado . . . . . . . . . . . . . . . 315
6.6 Sistemas de Equações Diferenciais Lineares no Plano Complexo . . . . . . . . . . . . . 318
6.6.1 O Caso Analı́tico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 319
6.6.2 Resolução por Séries de Potências . . . . . . . . . . . . . . . . . . . . . . . . . . 325
6.6.3 Sistemas com Pontos Singulares. Monodromia . . . . . . . . . . . . . . . . . . . 326
6.6.4 Sistemas com Pontos Singulares Simples . . . . . . . . . . . . . . . . . . . . . . 337
6.7 Sistemas Provenientes de EDO’s de Ordem m . . . . . . . . . . . . . . . . . . . . . . . 341
6.7.1 Pontos Singulares Simples em EDO’s de Ordem m . . . . . . . . . . . . . . . . . 342
6.7.2 Singularidades no Infinito . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 346
6.7.3 Alguns Exemplos de Interesse . . . . . . . . . . . . . . . . . . . . . . . . . . . . 348

7 Soluções de Equações Diferenciais Ordinárias Lineares no Plano Complexo 355


7.1 Soluções em Séries de Potências para Equações Regulares . . . . . . . . . . . . . . . . . 356
7.1.1 A Equação do Oscilador Harmônico Simples . . . . . . . . . . . . . . . . . . . . 357
7.1.2 A Equação de Legendre . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 358
7.1.3 A Equação de Hermite . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 362
7.1.4 A Equação de Airy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 365
7.1.5 A Equação de Chebyshev . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 367
7.1.6 O Caso de Equações Regulares Gerais . . . . . . . . . . . . . . . . . . . . . . . . 370
7.2 Solução de Equações Singulares Regulares. O Método de Frobenius . . . . . . . . . . . 372
7.2.1 Equações Singulares Regulares. O Caso Geral . . . . . . . . . . . . . . . . . . . 376
6/1195

7.2.2 A Equação de Euler Revisitada . . . . . . . . . . . . . . . . . . . . . . . . . . . 385


7.2.3 A Equação de Bessel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 388
7.2.4 A Equação de Laguerre . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 399
7.2.5 A Equação Hipergeométrica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 402
7.2.6 A Equação Hipergeométrica Confluente . . . . . . . . . . . . . . . . . . . . . . . 406
7.3 Algumas Equações Associadas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 409
7.3.1 A Equação de Legendre Associada . . . . . . . . . . . . . . . . . . . . . . . . . 409
7.3.2 A Equação de Laguerre Associada . . . . . . . . . . . . . . . . . . . . . . . . . . 411
7.3.3 A Equação de Bessel Esférica . . . . . . . . . . . . . . . . . . . . . . . . . . . . 412
7.A Prova da Proposição 7.1. Justificando os Polinômios de Legendre . . . . . . . . . . . . 414
7.B Provando (7.14) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 416
7.C Justificando os Polinômios de Hermite . . . . . . . . . . . . . . . . . . . . . . . . . . . 418
7.D Provando (7.20) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 420
7.E Porque λ deve ser um Inteiro Positivo na Equação de Laguerre . . . . . . . . . . . . . . 421

8 Propriedades de Algumas Soluções de Equações Diferenciais Ordinárias e Aplicações424


8.1 Discussão Preliminar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 425
8.1.1 Definições e Considerações Preliminares . . . . . . . . . . . . . . . . . . . . . . . 425
8.1.2 Relações de Ortogonalidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 428
8.1.3 Fórmulas de Rodrigues . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 430
8.1.4 Funções Geratrizes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 432
8.2 Propriedades de Algumas Funções Especiais . . . . . . . . . . . . . . . . . . . . . . . . 436
8.2.1 Propriedades dos Polinômios de Legendre . . . . . . . . . . . . . . . . . . . . . . 436
8.2.2 Propriedades dos Polinômios de Legendre Associados. Harmônicos Esféricos . . 442
8.2.3 Propriedades dos Polinômios de Hermite . . . . . . . . . . . . . . . . . . . . . . 452
8.2.4 Propriedades dos Polinômios de Laguerre . . . . . . . . . . . . . . . . . . . . . . 456
8.2.5 Propriedades dos Polinômios de Laguerre Associados . . . . . . . . . . . . . . . 460
8.2.6 Propriedades das Funções de Bessel . . . . . . . . . . . . . . . . . . . . . . . . . 463
8.2.7 Propriedades das Funções de Bessel Esféricas . . . . . . . . . . . . . . . . . . . . 478
8.3 Algumas Aplicações Selecionadas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 482
8.3.1 O Método de Separação de Variáveis . . . . . . . . . . . . . . . . . . . . . . . . 482
8.3.2 Uma Breve Discussão Sobre Unicidade de Soluções . . . . . . . . . . . . . . . . 485
8.3.3 As Equações de Helmholtz e de Laplace . . . . . . . . . . . . . . . . . . . . . . 491
8.3.4 O Problema da Corda Pendurada . . . . . . . . . . . . . . . . . . . . . . . . . . 499
7/1195

8.3.5 O Problema da Membrana Circular . . . . . . . . . . . . . . . . . . . . . . . . . 503


8.3.6 O Oscilador Harmônico na Mecânica Quântica e a Equação de Hermite . . . . . 506
8.3.7 O Átomo de Hidrogênio e a Equação de Laguerre Associada . . . . . . . . . . . 507
8.A Provando (8.44) à Força Bruta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 511
8.B Alguns Teoremas de Unicidade de Soluções de Equações Diferenciais Parciais . . . . . . 512

9 Introdução ao Problema de Sturm-Liouville 521


9.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 521
9.2 O Problema de Sturm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 526
9.2.1 Resolvendo o Problema de Sturm. A Função de Green . . . . . . . . . . . . . . 527
9.2.2 O Teorema de Green . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 530
9.3 O Problema de Sturm-Liouville . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 532
9.4 Propriedades Básicas dos Autovalores e das Autofunções de Problemas de Sturm-Liouville534
9.4.1 Realidade dos Autovalores. Ortogonalidade de Autofunções . . . . . . . . . . . . 534
9.4.2 A Simplicidade dos Autovalores . . . . . . . . . . . . . . . . . . . . . . . . . . . 537
9.4.3 Condições Suficientes para a Positividade dos Autovalores . . . . . . . . . . . . 538
9.5 A Equação Integral de Fredholm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 542
9.6 Uma Aplicação do Problema de Sturm-Liouville . . . . . . . . . . . . . . . . . . . . . . 545
9.7 Comentários Finais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 549
9.7.1 O Problema de Sturm-Liouville Singular . . . . . . . . . . . . . . . . . . . . . . 549
9.A Prova do Teorema 9.1. Existência e Unicidade . . . . . . . . . . . . . . . . . . . . . . . 551
9.B Prova da Proposição 9.1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 552
9.C Comentário Sobre o Determinante Wronskiano . . . . . . . . . . . . . . . . . . . . . . . 554
9.D Ausência de Autovalores em um Problema Singular . . . . . . . . . . . . . . . . . . . . 555
9.E Demonstração do Teorema 9.3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 556
9.F Prova da Desigualdade (9.E.22) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 560

IV Grupos 563

10 Grupos. Alguns Exemplos 564


10.1 O Grupo de Permutações . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 565
10.1.1 Ciclos, Transposições e Transposições Elementares . . . . . . . . . . . . . . . . . 566
10.2 Alguns Grupos Matriciais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 571
10.2.1 Os Grupos GL(n) e SL(n) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 571
8/1195

10.2.2 O Grupo de Borel e Grupo de Heisenberg . . . . . . . . . . . . . . . . . . . . . 574


10.2.3 Grupos Associados a Formas Bilineares e Sesquilineares . . . . . . . . . . . . . . 580
10.2.4 Os Grupos Ortogonais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 582
10.2.5 Os Grupos Unitários . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 583
10.3 Os Grupos SO(2), SO(3), SU(2) e SL( , 2) . . . . . . . . . . . . . . . . . . . . . . . . 584
10.3.1 Os Grupos SO(2), O(2), SO(1, 1) e O(1, 1) . . . . . . . . . . . . . . . . . . . . . 584
10.3.2 O Grupo SO(3) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 588
10.3.3 O Grupo SU(2) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 596
10.3.4 A Relação entre SO(3) e SU(2) . . . . . . . . . . . . . . . . . . . . . . . . . . . 599
10.3.5 O Grupo SL( , 2) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 602
10.4 Generalidades sobre os grupos SU(n) e SO(n) . . . . . . . . . . . . . . . . . . . . . . . 603
10.4.1 Os Grupos SU(n) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 604
10.4.2 O Grupo SU(3) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 607
10.4.3 Os Grupos SO(n) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 608
10.5 O Grupo Afim e o Grupo Euclidiano . . . . . . . . . . . . . . . . . . . . . . . . . . . . 613
10.6 O Grupo de Lorentz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 617
10.6.1 O Espaço-Tempo, a Noção de Intervalo e a Estrutura Causal . . . . . . . . . . . 618
10.6.2 A Invariância do Intervalo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 624
10.6.3 O Grupo de Lorentz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 627
10.6.4 Alguns Sub-Grupos do Grupo de Lorentz . . . . . . . . . . . . . . . . . . . . . . 628
10.6.5 A Estrutura do Grupo de Lorentz . . . . . . . . . . . . . . . . . . . . . . . . . . 632
10.6.6 Os Geradores do Grupo de Lorentz . . . . . . . . . . . . . . . . . . . . . . . . . 636
10.7 O Grupo de Poincaré . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 640
10.8 SL( , 2) e o Grupo de Lorentz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 643
10.A Prova do Teorema 10.8 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 652
10.B Um Isomorfismo entre SL( , 2)/{ , − } e L↑+ . . . . . . . . . . . . . . . . . . . . . . . 662

11 Grupos de Lie e Álgebras de Lie. Uma Breve Introdução 670


11.1 Variedades e Grupos de Lie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 671
11.2 Breves Considerações sobre Grupos Topológicos . . . . . . . . . . . . . . . . . . . . . . 673
11.3 Grupos de Lie Matriciais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 676
11.3.1 Uma Topologia Métrica em GL( , n) . . . . . . . . . . . . . . . . . . . . . . . . 676
11.3.2 O Grupo de Lie GL( , n) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 677
11.3.3 Sub-Grupos Uniparamétricos e seus Geradores . . . . . . . . . . . . . . . . . . . 680
9/1195

11.3.4 Sub-Grupos Uniparamétricos e Álgebras de Lie . . . . . . . . . . . . . . . . . . 683


11.3.5 Subgrupos Fechados de GL( , n) . . . . . . . . . . . . . . . . . . . . . . . . . . 688
11.4 A Relação entre Grupos de Lie Matriciais e suas Álgebras de Lie . . . . . . . . . . . . . 692
11.4.1 Álgebras de Lie Nilpotentes, Solúveis, Simples e Semi-Simples . . . . . . . . . . 693
11.4.2 Questões sobre a Exponenciação de Álgebras de Lie . . . . . . . . . . . . . . . . 697
11.4.3 Alguns Exemplos Especiais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 700

12 Uma Breve Introdução à Teoria das Representações de Grupos 706


12.1 Representações de Grupos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 706
12.2 Representações Irredutı́veis de SO(3) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 713
12.3 A Medida de Haar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 717
12.4 Representações de Grupos Compactos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 719
12.5 O Teorema de Peter-Weyl . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 720

V Topologia Geral, Teoria da Medida e Integração 726

13 Espaços Métricos 727


13.1 Métricas e Espaços Métricos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 729
13.2 Topologia de Espaços Métricos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 743
13.3 Pseudo-Métricas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 746
13.4 Espaços de Banach e de Hilbert . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 748
13.4.1 Espaços de Seqüências . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 750
13.A Algumas Desigualdades Básicas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 764
13.B Números reais e p-ádicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 766
13.C Aproximações para π . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 773

14 O Teorema do Ponto Fixo de Banach e Algumas de Suas Conseqüências 779


14.1 O Teorema de Ponto Fixo de Banach . . . . . . . . . . . . . . . . . . . . . . . . . . . . 780
14.1.1 Aplicação a Equações Numéricas. O Método de Newton . . . . . . . . . . . . . 782
14.1.2 Uma Generalização do Teorema de Ponto Fixo de Banach . . . . . . . . . . . . 786
14.2 As Equações Integrais de Fredholm e de Volterra . . . . . . . . . . . . . . . . . . . . . 787
14.3 Aplicações à Teoria das Equações Diferenciais Ordinárias . . . . . . . . . . . . . . . . . 795
14.3.1 O Teorema de Picard-Lindelöf . . . . . . . . . . . . . . . . . . . . . . . . . . . . 795
14.3.2 Generalizando o Teorema de Picard-Lindelöf. Soluções Globais . . . . . . . . . . 800
10/1195

14.3.3 Um Teorema de Comparação de Soluções de EDO’s . . . . . . . . . . . . . . . . 801


14.4 O Teorema da Função Implı́cita e o Teorema da Função Inversa . . . . . . . . . . . . . 805
14.4.1 O Teorema da Função Implı́cita . . . . . . . . . . . . . . . . . . . . . . . . . . . 805
14.4.2 O Teorema da Função Inversa . . . . . . . . . . . . . . . . . . . . . . . . . . . . 810
14.A O Lema de Grönwall . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 811

15 Espaços Topológicos e Espaços Mensuráveis. Definições e Propriedades Básicas 812


15.1 Definições, Propriedades Elementares e Exemplos . . . . . . . . . . . . . . . . . . . . . 813
15.2 Algumas Construções Especiais e Exemplos . . . . . . . . . . . . . . . . . . . . . . . . 818
15.2.1 Topologias e σ-álgebras Geradas . . . . . . . . . . . . . . . . . . . . . . . . . . . 818
15.2.2 Bases de Espaços Topológicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 822
15.2.3 Topologias e σ-álgebras Induzidas . . . . . . . . . . . . . . . . . . . . . . . . . . 828
15.2.4 Topologias e σ-álgebras Produto . . . . . . . . . . . . . . . . . . . . . . . . . . . 830
15.3 Interior e Fecho de Conjuntos em Espaços Topológicos . . . . . . . . . . . . . . . . . . 830
15.3.1 Fecho de Conjuntos em Espaços Métricos . . . . . . . . . . . . . . . . . . . . . . 834

16 Medidas 836
16.1 O Problema da Teoria da Medida . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 836
16.2 Medidas de Conjuntos. Definição, Exemplos e Propriedades Básicas . . . . . . . . . . . 839
16.3 Construindo Medidas. A Medida Exterior e o Teorema de Caratheodory . . . . . . . . 843

17 A Medida de Lebesgue 852


17.1 A Construção da Medida de Lebesgue . . . . . . . . . . . . . . . . . . . . . . . . . . . . 852
17.1.1 A σ-álgebra de Borel em  e a Medida de Borel-Lebesgue . . . . . . . . . . . . 855
n
17.1.2 A Medida Produto e a Medida de Lebesgue em  . . . . . . . . . . . . . . . . 858
17.2 Conjuntos de Cantor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 859
17.3 Bases de Hamel e a Medida de Lebesgue . . . . . . . . . . . . . . . . . . . . . . . . . . 871

18 Convergência, Pontos Limite e Pontos de Acumulação em Espaços Topológicos 876


18.1 Primeiras Definições . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 876
18.2 Espaços Hausdorff . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 878
18.3 O Limite do Ínfimo e o Limite do Supremo . . . . . . . . . . . . . . . . . . . . . . . . . 879
18.4 Redes e o Caso de Espaços Topológicos Gerais . . . . . . . . . . . . . . . . . . . . . . . 884
18.4.1 Redes em Espaços Métricos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 886
11/1195

19 Continuidade de Funções em Espaços Topológicos 888


19.1 Funções Contı́nuas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 888
19.2 Outras Caracterizações do Conceito de Continuidade em Espaços Topológicos . . . . . . 891
19.2.1 Continuidade e Convergência . . . . . . . . . . . . . . . . . . . . . . . . . . . . 892

20 Elementos da Teoria da Integração 895


20.1 Comentários Preliminares . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 896
20.2 A Integração no Sentido de Riemann . . . . . . . . . . . . . . . . . . . . . . . . . . . . 898
20.2.1 A Integral de Riemann Imprópria . . . . . . . . . . . . . . . . . . . . . . . . . . 907
20.2.2 Diferenciação e Integração em Espaços de Banach . . . . . . . . . . . . . . . . . 909
20.3 A Integração no Sentido de Lebesgue . . . . . . . . . . . . . . . . . . . . . . . . . . . . 914
20.3.1 Funções Mensuráveis e Funções Simples . . . . . . . . . . . . . . . . . . . . . . . 915
20.3.2 A Integral de Lebesgue. Integração em Espaços Mensuráveis . . . . . . . . . . . 921
20.3.3 A Integral de Lebesgue e sua Relação com a de Riemann . . . . . . . . . . . . . 930
20.3.4 Teoremas Básicos sobre Integração e Convergência . . . . . . . . . . . . . . . . . 933
20.3.5 Alguns Resultados de Interesse . . . . . . . . . . . . . . . . . . . . . . . . . . . 936
20.4 Os Espaços Lp e Lp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 938
20.4.1 As Desigualdades de Hölder e de Minkowski . . . . . . . . . . . . . . . . . . . . 941
20.4.2 O Teorema de Riesz-Fischer. Completeza . . . . . . . . . . . . . . . . . . . . . . 945
20.A Demonstração da Proposição 20.3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 946
20.B Caracterizações e Propriedades de Funções Mensuráveis . . . . . . . . . . . . . . . . . . 947
20.C Prova do Lema 20.3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 953
20.D Demonstração de (20.22) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 954
20.E A Equivalência das Definições (20.23) e (20.24) . . . . . . . . . . . . . . . . . . . . . . 955
20.F Prova do Teorema da Convergência Monótona . . . . . . . . . . . . . . . . . . . . . . . 957
20.G Prova do Lema de Fatou . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 958
20.H Prova do Teorema da Convergência Dominada . . . . . . . . . . . . . . . . . . . . . . . 959
20.I Prova dos Teoremas 20.2 e 20.3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 960
20.J Prova das Desigualdades de Hölder e Minkowski . . . . . . . . . . . . . . . . . . . . . . 963
20.K Prova do Teorema de Riesz-Fischer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 965

21 Alguns Tópicos Especiais em Topologia e Análise 968


21.1 Uma Coletânea de Definições . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 968
21.2 A Noção de Topologia Fraca . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 974
12/1195

21.3 A Topologia Produto de Espaços Topológicos . . . . . . . . . . . . . . . . . . . . . . . 975


21.4 O Teorema da Categoria de Baire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 977
21.5 Aproximação de Funções . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 978
21.5.1 Aproximação de Funções Contı́nuas por Polinômios . . . . . . . . . . . . . . . . 978

VI Análise Funcional 985

22 Noções Básicas Sobre Espaços de Hilbert 986


22.1 Aspectos Topológicos Básicos de Espaços de Hilbert . . . . . . . . . . . . . . . . . . . . 986
22.2 Aspectos Geométricos Básicos de Espaços de Hilbert . . . . . . . . . . . . . . . . . . . 988
22.2.1 Bases Ortonormais Completas em Espaços de Hilbert . . . . . . . . . . . . . . . 993
22.3 Funcionais Lineares e o Dual Topológico de um Espaço de Hilbert . . . . . . . . . . . . 1007
22.3.1 O Teorema da Representação de Riesz . . . . . . . . . . . . . . . . . . . . . . . 1008

23 Operadores Lineares Limitados em Espaços de Banach e de Hilbert 1011


23.1 Operadores Lineares em Espaços Vetoriais Normados . . . . . . . . . . . . . . . . . . . 1013
23.1.1 Espaços de Banach de Operadores . . . . . . . . . . . . . . . . . . . . . . . . . . 1017
23.1.2 O Dual Topológico de um Espaço de Banach . . . . . . . . . . . . . . . . . . . . 1021
23.1.3 O Teorema de Hahn-Banach e Algumas Conseqüências do Mesmo . . . . . . . . 1025
23.1.4 O Teorema de Banach-Steinhaus ou Princı́pio de Limitação Uniforme . . . . . . 1031
23.1.5 O Teorema da Aplicação Aberta e o Teorema do Gráfico Fechado . . . . . . . . 1032
23.2 Operadores Limitados em Espaços de Hilbert . . . . . . . . . . . . . . . . . . . . . . . 1040
23.2.1 O Adjunto de um Operador em um Espaço de Hilbert . . . . . . . . . . . . . . . 1042
23.3 Álgebras de Banach e Álgebras C∗ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1050
23.3.1 Álgebras de Banach . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1050
23.3.2 A Inversa de Operadores Limitados . . . . . . . . . . . . . . . . . . . . . . . . . 1053
23.3.3 O Espectro de Operadores em Álgebras de Banach . . . . . . . . . . . . . . . . 1059
23.3.4 O Homomorfismo de Gelfand em Álgebras C∗ . . . . . . . . . . . . . . . . . . . 1069
23.3.5 Raı́zes Quadradas de Operadores em Álgebras de Banach . . . . . . . . . . . . . 1072
23.3.6 Elementos Positivos de Álgebras C∗ . . . . . . . . . . . . . . . . . . . . . . . . . 1073
23.3.7 O Lema da Raiz Quadrada em espaços de Hilbert. A Decomposição Polar . . . 1077
23.4 Um Pouco sobre Estados e Representações de Álgebras C∗ . . . . . . . . . . . . . . . . 1081
23.5 O Espectro de Operadores em Espaços de Banach . . . . . . . . . . . . . . . . . . . . . 1091
23.6 Operadores Compactos em Espaços de Banach e de Hilbert . . . . . . . . . . . . . . . . 1100
13/1195

23.6.1 O Teorema Espectral para Operadores Compactos Auto-adjuntos . . . . . . . . 1112


23.7 O Teorema Espectral para Operadores Limitados Auto-adjuntos em Espaços de Hilbert 1120
23.7.1 O Cálculo Funcional Contı́nuo e o Homomorfismo de Gelfand . . . . . . . . . . 1121
23.7.2 Generalizando o Cálculo Funcional Contı́nuo. As Medidas Espectrais . . . . . . 1123
23.7.3 Medidas com Valores em Projeções Ortogonais . . . . . . . . . . . . . . . . . . . 1133
23.7.4 Os Projetores Espectrais e o Teorema Espectral . . . . . . . . . . . . . . . . . . 1137
23.7.5 A Relevância do Teorema Espectral para a Fı́sica Quântica (um pouco de Fı́sica,
finalmente) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1141
23.A Prova do Teorema 23.18 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1151

24 Noções de Estruturas Algébricas 1155


24.1 Álgebras Universais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1156
24.2 Ação de Uma Álgebra Universal sobre uma Outra Álgebra Universal (*) . . . . . . . . 1163

25 O Limite Indutivo de Álgebras 1168


14/1195

Prefácio

intenção básica destas Notas é fornecer a estudantes de Fı́sica noções matemáticas impor-
tantes para uma melhor compreensão de desenvolvimentos modernos da Fı́sica Teórica e da
Matemática.
De modo geral o texto é de leitura auto-suficiente, mas vez por outra algum estudo complementar
é sugerido. Estas Notas, porém, não são substituto à leitura dos bons livros sobre os assuntos aqui
tratados. Entretanto, procuramos apresentar (muitas vezes em exercı́cios!) o maior número possı́vel
de exemplos e contra-exemplos para as várias situações tratadas de modo a motivar melhor definições
e resultados, o que é menos comum em textos com tratamentos mais sistemáticos. Parte do material
pode ser encontrada em diversas fontes, citadas na bibliografia, mas a apresentação e sua ordem são
próprias. Há também nestas Notas demonstrações do próprio autor de resultados conhecidos que são,
por alguma razão, dificilmente encontradas na literatura.
Fazemos notar que estas notas estão ainda sendo trabalhadas e alguns capı́tulos e seções podem
vir a ser alterados, corrigidos ou acrescidos de material. Além disso, novos capı́tulos serão escritos. O
material já presente é, porém, útil a todos aqueles que queiram iniciar-se nos assuntos aqui expostos.
Versões atualizadas serão colocadas na “rede” (no endereço acima indicado) sempre que possı́vel.
O autor agradece a todos os que apresentarem sugestões. Fabulosas somas em dinheiro são ofere-
cidas a todos aqueles que encontrarem erros no texto. Entre os já aquinhoados encontram-se os Srs.
Matheus Grasselli, Alexandre T. Baraviera, Marcos V. Travaglia, Daniel Augusto Cortez, Djogo F. C.
Patrão, Cléber de Mico Muramoto, Katiúscia Nadyne Cassemiro, Urbano Lopes França Junior, Gus-
tavo Barbagallo de Oliveira, Priscila Vieira Franco Gondeck, Darielder Jesus Ribeiro, Henrique Scemes
Xavier, Daniel Augusto Turolla Vanzella, Leonardo Fernandes Dias da Motta, Krishnamurti José de
Andrade, Pedro Tavares Paes Lopes, Diego Cortegoso Assêncio, Fleury José de Oliveira Filho, Paulo
Henrique Reimberg, Fabı́ola Diacenco Xavier e Márcio André Prieto Aparı́cio Lopez aos quais somos
muito gratos por correções e sugestões.
As Seções 10.B, página 662, e 14.3.1, página 795, são de autoria de Daniel Augusto Cortez, a quem
especialmente agradecemos.

João Carlos Alves Barata São Paulo, 17 de junho de 2005.


Departamento de Fı́sica Matemática do IFUSP
15/1195

“O comportamento de um fı́sico em relação à Matemática é similar a de um ladrão inteligente em


relação ao código penal: ele estuda apenas o suficiente para evitar punições”.
I. M. Gelfand (1913-).

“A mente não é um vaso a ser repleto, mas uma tocha a ser acesa”.
Plutarco (46?-120).

“Talvez eu não tenha tido êxito em fazer as coisas difı́ceis tornarem-se fáceis, mas pelo menos eu nunca
fiz um assunto fácil tornar-se difı́cil”.
F. G. Tricomi (1897-1978).

“In science, self-satisfaction is death. Personal self-satisfaction is the death of the scientist. Collective
self-satisfaction is the death of the research. It is restlessness, anxiety, dissatisfaction, agony of mind
that nourish science”.
Jacques Lucien Monod (1910-1976), in New Scientist, 1976.

“Não existe nenhuma categoria da Ciência à qual se possa dar o nome de Ciência Aplicada. O que
existe são a Ciência e as aplicações da Ciência, intimamente ligadas, como frutos à árvore que os
gerou”.
Louis Pasteur (1822-1895), in “Pourquoi la France n’a pas trouvé d’hommes supérieurs au moment du
péril”, Revue Scientifique (Paris, 1871).
16/1195

Notação e Advertências

Para facilitar a consulta e a leitura, listamos aqui sem muitos comentários um pouco da notação
que empregaremos nestas Notas.

Se z é um número complexo denotaremos seu complexo conjugado por z. A notação z ∗ (mais


comum em textos de Fı́sica) pode ocorrer mais raramente.

O sı́mbolo A := B ou B =: A denota que A é definido pela expressão B. O sı́mbolo A ≡ B indica


que A e B são duas notações distintas para o mesmo objeto.

Se x = (x1 , . . . , xn ) e y = (y1 , . . . , yn ) são vetores reais com n componentes (ou seja, elementos
de n ) então definimos


hx, yi := x1 y1 + · · · + xn yn .


n
Trata-se do produto escalar usual em  .

Se x = (x1 , . . . , xn ) e y = (y1 , . . . , yn ) são vetores complexos com n componentes (ou seja,


elementos de n ) então definimos

hx, yi  := x1 y1 + · · · + xn yn .
n
Trata-se do produto escalar usual em .

Se x = (x1 , . . . , xn ) e y = (y1 , . . . , yn ) são vetores complexos com n componentes (ou seja,


elementos de n ) então definimos

hx, yi 
:= x1 y1 + · · · + xn yn .
n
Trata-se de uma forma bilinear em .

Mat( , n) ou Mat(n, ) designa o conjunto de todas as matrizes reais n × n. Mat( , n) ou


 

Mat(n, ) designa o conjunto de todas as matrizes complexas n × n.


T
Se A é um elemento de Mat( , n) ou de Mat( , n), então


 A designa a matriz transposta de


T
A, ou seja, a matriz cujos elementos de matriz ij são A ij = Aji .

Se A é um operador linear em um espaço vetorial complexo (com um certo produto escalar),


seu adjunto é denotado por A∗ . Em textos de Fı́sica é mais comum denotá-lo por A† , mas não
usaremos isso aqui.
Assim, se A ∈ Mat( , n), então A∗ será a adjunta de A (em relação ao produto escalar usual,
acima). O elemento de matriz ij de A∗ será (A∗ )ij = Aji .

Denotaremos o operador identidade agindo em um espaço vetorial (a matriz identidade, agindo


em um espaço vetorial de dimensão finita) pelo sı́mbolo . Esse sı́mbolo também representará a
unidade de uma álgebra.
17/1195

Designaremos um produto escalar entre dois vetores u e v sempre por hu, vi e nunca por (u, v),
para não causar confusão com a notação para par ordenado. Outra notação possı́vel é aquela
empregada freqüentemente em textos de Mecânica Quântica: hu | vi, mas faremos raramente uso
dessa notação.

Ainda sobre produtos escalares, seguiremos sempre a convenção dos textos de Fı́sica: um produto
escalar em um espaço vetorial sobre os complexos é linear em relação ao segundo argumento e
antilinear em relação ao primeiro. Assim, se α e β são números complexos, teremos hαu, βvi =
αβhu, vi. Textos de Matemática adotam por vezes a convenção oposta (ou mesmo ambas!).

Sobre o emprego das palavras função, aplicação, mapeamento, mapa, funcional, operador, operação,
produto e forma, que por vezes causam perplexidade em estudantes, remetemos ao comentário à
página 22.

Dado um conjunto X 6= ∅, denota-se por (X) a coleção de todos os sub-conjuntos de X. (X)


é denominado o conjunto das partes de X.

A topologia usual da reta real  será denotada aqui por τ .




A σ-álgebra de Borel de  será (quase sempre) denotada aqui por M[τ ].




A σ-álgebra dos sub-conjuntos de  mensuráveis por Lebesgue será (quase sempre) denotada
aqui por MµL .

Para x ∈ , o sı́mbolo bxc designa o maior inteiro menor ou igual a x. O sı́mbolo dxe designa o


menor inteiro maior ou igual a x.

Há ainda nestas Notas um problema não totalmente sanado quando ao conjunto dos números
naturais . Em algumas seções adotou-se 0 ∈ , ou seja,
  = {0, 1, 2, 3, . . .} em outras,


adotou-se 0 6∈ , ou seja, = {1, 2, 3, . . .}. Esperamos que isso seja definitivamente corrigido
 

futuramente. Por ora, pedimos atenção ao leitor.

O sı́mbolo 2 indica o fim de um enunciado. O sı́mbolo indica o fim de uma demonstração. O


sı́mbolo 6 indica o fim do enunciado de um exercı́cio. O sı́mbolo ◊ indica o fim do enunciado de
um exemplo.

B(X) designa o conjunto de operadores limitados agindo em um espaço de Banach X. B(H)


designa o conjunto de operadores limitados agindo em um espaço de Hilbert H.

C(L) designa o conjunto de todas as funções contı́nuas (reais ou complexas, dependendo do caso),
definidas em L (na topologia que se estiver considerando em L).

B(L) designa a coleção de todos os conjuntos Borelianos de L (em relação à topologia que se
estiver considerando em L). Bl (L) designa a coleção de todas as funções Borelianas (reais ou
complexas, dependendo do caso), definidas em L.

O domı́nio de um operador T (agindo em um espaço de Banach ou de Hilbert) será denotado


por D(T ) ou por Dom(T ). A imagem (“range”) de T será denotada por R(T ) ou por Ran (T )
ou, mais raramente, por Im (T ), mas essa última notação pode causar confusão com a da parte
18/1195

imaginária de um número complexo ou mesmo com a da parte imaginária de um operador agindo


em um espaço de Hilbert: Im (T ) := 2i1 (T − T ∗ ).

As noções de propriedade válida quase em toda parte e de propriedade genérica são definidas nas
páginas 858 e 970, respectivamente.

• Intervalos

Ainda não introduzimos os números reais nem a relação de ordem entre eles mas, como essas noções
são conhecidas, vamos colocar aqui uma palavra sobre a nomenclatura usada para descrever intervalos
da reta real. Para a < b ∈ o conjunto


(a, b) = {x ∈  , com a < x < b}

é dito ser um intervalo aberto. Para a ≤ b ∈  o conjunto

[a, b] = {x ∈  , com a ≤ x ≤ b}

é dito ser um intervalo fechado. Para a < b ∈  os conjuntos

[a, b) = {x ∈  , com a ≤ x < b}

e
(a, b] = {x ∈  , com a < x ≤ b}
são ditos ser intervalos semi-abertos (ou semi-fechados).
É importante dizer que a nomenclatura “aberto” ou “fechado” acima é usada independentemente
da topologia usada em (a noção de topologia será introduzida adiante).

Parte I

Capı́tulos Introdutórios

19
Capı́tulo 1
Noções Básicas
Conteúdo

1.1 Conjuntos, Relações e Funções . . . . . . . . . . . . . . . . . . . . . . . . . 21


1.1.1 Relações e Funções . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
1.1.2 Relações de Ordem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
1.1.3 Cardinalidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
1.1.4 Ínfimos e Supremos de Famı́lias de Conjuntos . . . . . . . . . . . . . . . . . . 42
1.2 Estruturas Algébricas Básicas . . . . . . . . . . . . . . . . . . . . . . . . . 44
1.2.1 Semi-grupos, Monóides e Grupos . . . . . . . . . . . . . . . . . . . . . . . . . 45
1.2.2 Corpos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
1.2.3 Espaços Vetoriais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
1.2.4 Anéis, Álgebras e Módulos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
1.2.5 Mais sobre Anéis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
1.2.6 Ações e Representações . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
1.2.7 Morfismos, Homomorfismos, Epimorfismos, Isomorfismos, Monomorfismos, En-
domorfismos e Automorfismos . . . . . . . . . . . . . . . . . . . . . . . . . . 64
1.3 Cosets, Sub-Grupos Normais e o Grupo Quociente. O Centro de um
Grupo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
1.3.1 Cosets . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
1.3.2 Sub-Grupos Normais e o Grupo Quociente . . . . . . . . . . . . . . . . . . . 68
1.3.3 O Centro de um Grupo. Centralizadores e Normalizadores . . . . . . . . . . . 70
1.4 O Produto Direto e o Produto Semi-Direto de Grupos . . . . . . . . . . . 72
1.5 Somas Diretas e Produtos Tensoriais . . . . . . . . . . . . . . . . . . . . . . 75
1.5.1 Discussão Informal Preliminar . . . . . . . . . . . . . . . . . . . . . . . . . . 75
1.5.2 Grupos Gerados por Conjuntos. Grupos Gerados por Relações . . . . . . . . 78
1.5.3 Somas Diretas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
1.5.4 Produtos Tensoriais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
1.5.5 Produtos Diretos e Somas Diretas Arbitrários . . . . . . . . . . . . . . . . . . 82
1.5.6 Módulos e Derivações . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
1.6 Tópicos Especiais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
1.6.1 O Grupo de Grothendieck . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
1.6.2 Grupóides . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86
1.6.3 Quatérnions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87

20
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 1 21/1195

ste capı́tulo introdutório pretende (re)apresentar ao leitor uma série de noções matemáticas
básicas abrangendo rudimentos da teoria dos conjuntos e algumas estruturas algébricas. O
objetivo não é um tratamento extensivo dos diversos assuntos, já que vários deles serão desen-
volvidos em capı́tulos futuros. Trata-se quase de um guia de consulta onde são apresentadas,
junto com exemplos simples, várias noções e definições básicas que utilizaremos. O estudante deve
retornar a este capı́tulo sempre que necessário.

1.1 Conjuntos, Relações e Funções


Partiremos do pressuposto de serem familiares as noções básicas envolvendo conjuntos, como a noção
de pertinência x ∈ C, de união de dois conjuntos A ∪ B e de interseção de dois conjuntos A ∩ B.
Para A, B ⊂ X denotamos por A \ B a chamada diferença entre os conjuntos A e B, a saber
A \ B := {x ∈ X tal que x ∈ A mas x 6∈ B}. (1.1)

Por vezes usa-se a notação A − B para A \ B. Para A ⊂ X denota-se por A c o chamado complemento
de A em relação a X: Ac := X \ A. Note-se que ao usar-se o sı́mbolo Ac deve estar subentendido qual
o conjunto X ao qual o complemento se refere. É fácil ver que se A, B ⊂ X então A \ B = B c ∩ A.
Dizemos que um conjunto B ⊂ A é um subconjunto próprio de A se A \ B 6= ∅, ou seja, se houver
elementos em A que não estão em B.
Se A e B são conjuntos e A ∩ B = ∅ então A ∪ B é dita ser uma união disjunta de A e B.
Se X é um conjunto denota-se por (X) a coleção de todos os subconjuntos de X. (X) é por
vezes chamado de conjunto das partes de X. Por convenção adota-se sempre que ∅ ∈ (X). Assim,
dizer que A ⊂ X equivale a dizer A ∈ (X).
Por A4B denota-se a chamada diferença simétrica entre A e B:
A4B := (A ∪ B) \ (A ∩ B). (1.2)

E. 1.1 Exercı́cio. Mostre que A4B = B4A e que (A4B)4C = A4(B4C). 6

• Pares Ordenados

Um conceito básico importante em Matemática é o de par ordenado. O conceito de par ordenado


(a, b) formado por dois elementos genéricos a, b ∈ X é intuitivo. A intuição é que entende-se como par
ordenado uma lista de dois elementos sendo que um deles assume a posição de “primeiro” elemento
da lista (no caso, a) e o outro a de “segundo” (no caso, b). Formalmente define-se (a, b) como sendo
o conjunto {a, {b}}. Esta definição formal corresponde à intuição pois, no conjunto C = {a, {b}}, há
uma distinção entre o papel de a e de b, dado que a é um elemento do conjunto C, enquanto que b
é um elemento de um subconjunto de C, a saber do conjunto C \ {a}. Apesar de existir a definição
formal acima, recomenda-se ao estudante fiar-se inicialmente na intuição por trás do conceito.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 1 22/1195

Dados dois conjuntos A e B definimos por A × B o conjunto de todos os pares ordenados (a, b)
sendo a ∈ A e b ∈ B. O conjunto A × B é chamado de produto Cartesiano1 de A e B. Note que, em
geral, A × B 6= B × A. Por quê?
Mais adiante apresentaremos uma generalização da noção de produto Cartesiano de conjuntos.

1.1.1 Relações e Funções

• Relações

Sejam A e B conjuntos e seja o produto Cartesiano A × B. Um subconjunto de A × B é dito ser


uma relação binária, ou simplesmente relação entre A e B.
Exemplo. Seja A o conjunto de homens vivos e B o conjunto de mulheres vivas e seja R ⊂ A × B
o conjunto R := {(a, b), a é irmão de b}. R representa uma relação (de irmandade) entre homens e
mulheres.
Outros exemplos virão abaixo.
Dada uma relação G ⊂ A × B entre conjuntos A e B há duas noções importantes associadas: a de
domı́nio da relação e a de imagem da relação. Define-se por domı́nio de G o conjunto

Dom(G) := {a ∈ A tal que (a, b) ∈ G para algum b ∈ B}. (1.3)

Define-se por imagem de G o conjunto

Im(G) := {b ∈ B tal que (a, b) ∈ G para algum a ∈ A}. (1.4)

Note-se que Dom(G) ⊂ A e que Im(G) ⊂ B.

• Funções

Este é talvez o mais importante exemplo de relação. Sejam A e B conjuntos e F uma relação entre
A e B. Então, a relação F é dita ser uma função de A em B se Dom(F ) = A e se (a, b) ∈ F e
(a, b0 ) ∈ F só for possı́vel caso b = b0 . Em outras palavras, a cada elemento a de A a função associa um
e apenas um elemento b de B que faz o papel de segundo elemento do par ordenado (a, b). Este segundo
elemento associado pela função F ao elemento a, é mais conveniente denotá-lo por F (a). Assim, uma
função é o conjunto de pares {(a, F (a)) ∈ A × B, a ∈ A}. Freqüentemente denotamos uma função F
de A em B por F : A → B.

• Aplicações, Mapeamentos, Mapas, Funcionais, Operadores, Operações, Produtos etc.

Muito freqüentemente usam-se as palavras aplicação, mapeamento, mapa, funcional, operador,


operação, produto, transformação, forma, e talvez ainda outras, para designar certos tipos de funções
entre conjuntos. Essa abundância de palavras causa freqüentemente confusão e mesmo perplexidade
1
Assim chamado em honra a René Descartes (1596-1650). O adjetivo Cartesiano provem da latinização de seu nome
como Cartesius.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 1 23/1195

em estudantes recém-iniciados mas, em essência, todos esses objetos são funções, no sentido abstrato
que definimos acima.
O que difere seu uso é por vezes a tradição de certas áreas e os tipos de conjuntos que as funções
têm como domı́nio e imagem. A palavra “função”, propriamente, é mais freqüentemente empregada
quando se trata de funções numéricas, por exemplo de em ou de em . A palavra “funcional” 2
 

é freqüentemente empregada quando se trata de funções que levam vetores ou funções numéricas em
números. Um exemplo deR funcional é a função que leva funções reais contı́nuas f nas suas integrais
1
no intervalo [0, 1]: f 7→ 0 f (x)dx. A palavra “operador” tipicamente designa funções lineares entre
espaços vetoriais (como, por exemplo, as matrizes, que são funções lineares entre espaços vetoriais de
dimensão finita). “Produtos” ou “operações” freqüentemente designam funções de C × C em C, para
um conjunto C não-vazio qualquer, ou seja, funções de duas variáveis em um conjunto C, assumindo
valores no próprio conjunto C. A palavra “forma” por vezez designa certas funções bi-lineares de
V × V em ou , sendo V um espaço vetorial. As palavras “aplicação”, “mapa” e “mapeamento” são


freqüentemente empregadas para designar funções em áreas como Topologia, Geometria Diferencial ou
Sistemas Dinâmicos.
Certas palavras são empregadas para designar certas funções com propriedades especiais. Um
“homeomorfismo”, por exemplo, é uma função bijetora entre dois espaços topológicos que seja contı́nua
e cuja inversa seja também contı́nua. Um “difeomorfismo” é um homeomorfismo entre duas variedades
diferenciáveis que seja infinitamente diferenciável. Há ainda vários outros “morfismos”, como discutido
na Seção 1.2.7, à página 64.
Em verdade, é conveniente dispormos por vezes de uma certa variedade de palavras diferentes
simplesmente para evitarmos o emprego monótono e descolorido da palavra “função”. Com um pouco
de ironia, lembremos por fim a definição circular de Edward Teller: “An intelectual is someone who
thinks the same things and uses the same words as other intelectuals”.

• Imagens e pré-imagens de funções

Seja f : X → Y uma função. Se A ⊂ X, definimos


f (A) := {y ∈ Y | y = f (x) para algum x ∈ A}.
Se B ⊂ Y , definimos
f −1 (B) := {x ∈ X| f (x) ∈ B}.
f (A) é dita ser a imagem de A por f e f −1 (B) é dita ser a pré-imagem de B por f .
O uso do sı́mbolo f −1 para designar pré-imagem f −1 (B) de um conjunto B é uma escolha infeliz
(mas universalmente aceita), pois pode causar confusão com a noção de função inversa de f , que pode
não estar definida. O estudante deve estar atento.

• Funções Sobrejetoras, Injetoras e Bijetoras

Uma função F : A → B é dita ser sobrejetora se Im(F ) = B. Uma função F : A → B é dita


ser injetora ou injetiva se a cada b ∈ Im(F ) existir um e somente um elemento a ∈ Dom(F ) tal que
(a, b) ∈ F . Uma função que for sobrejetora e injetora é dita ser bijetora.
2
A palavra “funcional” foi empregada pela primeira vez na Matemática por Jacques Salomon Hadamard (1865-1963).
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 1 24/1195

Seja uma função bijetora F ⊂ A × B. Então, a relação F −1 ⊂ B × A dada por

F −1 = {(b, a) tal que (a, b) ∈ F }

é, em verdade, uma função denominada função inversa de F . É claro que (F −1 )−1 = F .

• Famı́lias de Conjuntos

Seja X um conjunto não-vazio. Uma coleção F não-vazia de sub-conjuntos de X é por vezes dita
ser uma famı́lia de conjuntos (que são sub-conjuntos de algum X fica subentendito). Se F for uma
famı́lia de conjuntos e existirem um conjunto não-vazio I e uma função bijetora f : I → F, então
dizemos que a famı́lia F é indexada por I e os elementos de I são denominados ı́ndices. Se λ é um
ı́ndice, designaremos sua imagem pela função f simplesmente por Aλ ∈ F.
Uma indexação de uma coleção F não-vazia de sub-conjuntos de X sempre existe: podemos tomar
I = F e f a função identidade.

• Operações básicas com famı́lias de conjuntos

Sejam X e I conjuntos arbitrários não-vazios e seja associado a cada α ∈ I um sub-conjunto A α de


X. O conjunto I será freqüentemente denominado conjunto ou famı́lia de ı́ndices. Vamos introduzir
alguma notação a ser usada em todas estas Notas. Definimos
[
Aα := {x ∈ X tal que x ∈ Aα para algum α ∈ I} (1.5)
α∈I

e \
Aα := {x ∈ X tal que x ∈ Aα para todo α ∈ I}. (1.6)
α∈I

As definições acima implicam as importantes propriedades descritas na proposição que segue, cuja
demonstração deixamos como exercı́cio.
Proposição 1.1 Sejam B ⊂ X, X não-vazio, e {Aα ⊂ X, α ∈ I} uma coleção arbitrária de subcon-
juntos de X. Então valem as seguintes relações:
! !
[ \ \ [
B\ Aα = (B \ Aα ) , B\ Aα = (B \ Aα ) , (1.7)
α∈I α∈I α∈I α∈I

! !
\ \ [ [
Aα \B = (Aα \ B) , Aα \B = (Aα \ B) , (1.8)
α∈I α∈I α∈I α∈I
! !
\ \ [ [
B∪ Aα = (B ∪ Aα ) , B∩ Aα = (B ∩ Aα ) , (1.9)
α∈I α∈I α∈I α∈I
! !
[ [ \ \
B∪ Aα = (B ∪ Aα ) , B∩ Aα = (B ∩ Aα ) . (1.10)
α∈I α∈I α∈I α∈I
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 1 25/1195

As relações, (1.7) implicam


!c !c
[ \ \ [
Aα = (Aα )c , Aα = (Aα )c . (1.11)
α∈I α∈I α∈I α∈I

• Propriedades elementares de funções

As seguintes proposições são importantes e freqüentemente usadas:


Proposição 1.2 Seja f : X → Y uma função e seja Λ um conjunto de ı́ndices. Se A λ ⊂ X para todo
λ ∈ Λ, então !
[ [
f Aλ = f (Aλ ) , (1.12)
λ∈Λ λ∈Λ
mas !
\ \
f Aλ ⊂ f (Aλ ) . (1.13)
λ∈Λ λ∈Λ

Se Bλ ⊂ Y para todo λ ∈ Λ, então


!
[ [
f −1 Bλ = f −1 (Bλ ) , (1.14)
λ∈Λ λ∈Λ

e !
\ \
f −1 Bλ = f −1 (Bλ ) . (1.15)
λ∈Λ λ∈Λ
2

A demonstração é elementar e é deixada como exercı́cio.


T  T
EmT(1.13) não se pode provar a igualdade entre f λ∈Λ A λ e λ∈Λ f (Aλ ) e a razão é a seguinte:
se y ∈ λ∈Λ f (Aλ ) então y T ∈ f (Aλ ) para todo λ ∈ Λ. Assim, em cada Aλ existe um xλ com y = f (xλ ).
Mas pode ocorrer que em λ∈Λ Aλ não exista nenhum elemento x com y = f (x). O seguinte exemplo
ilustra isso. Seja f (x) = x2 definida em [−1, 1]. Tomemos A1 = [−1, 0], A2 = [0, 1]. Então,
f (A1 ) = [0, 1] e f (A2 ) = [0, 1]. Portanto, f (A1 ) ∩ f (A2 ) = [0, 1]. Porém, f (A1 ∩ A2 ) = f ({0}) = {0}.
apesar disso, vale o seguinte:
Proposição 1.3 Se f : X → Y é injetora então, se Aλ ⊂ X para todo λ ∈ Λ, vale
!
\ \
f Aλ = f (Aλ ) . (1.16)
λ∈Λ λ∈Λ

2
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 1 26/1195

A demonstração é elementar e é deixada como exercı́cio.


Em relação às operações de complemento e diferença de conjuntos temos o seguinte:
Proposição 1.4 Se f : X → Y é uma função e B, C ⊂ Y , então
c
f −1 (B c ) = f −1 (B) ,
f −1 (B \ C) = f −1 (B) \ f −1 (C) .
Aqui, B c = Y \ B. Fora isso, se f : X → Y é uma função injetora e sobrejetora e A, B ⊂ X, então
f (Ac ) = (f (A))c ,
f (A \ B) = f (A) \ f (B) .
Aqui, Ac = X \ A. 2

A demonstração é elementar e é deixada como exercı́cio.

• A União Disjunta de uma Famı́lia Arbitrária de Conjuntos

Sejam, como acima, um conjunto I (não necessariamente finito ou contável) e Ai , i ∈ I, conjuntos


indexados por elementos de I. Os conjuntos Ai podem eventualmente possuir elementos comuns, ou
seja, pode haver elementos x que comparecem
S em vários conjuntos Ai . Porém, quando formamos a
união usual dos conjuntos Ai , ou seja, i∈I Ai , cada elemento x comparece apenas uma vez, mesmo que
pertença a vários Ai ’s. Por vezes estamos interessados em formar um outro tipo de união de conjuntos
onde essa possı́vel multiplicidade de cada elemento x possa ser levada em conta. A definição abaixo é,
para tal, das mais adequadas.
G
Definimos a união disjunta da famı́lia de conjuntos Ai como sendo o conjunto, denotado por Ai ,
i∈I
dado pela união de todos os pares ordenados (a, i) com i ∈ I, a ∈ Ai , ou seja,
G [ [
Ai := (a, i) .
i∈I i∈I a∈Ai

Uniões disjuntas desempenham um papel em várias áreas da Matemática. Na Geometria Diferencial,


por exemplo, o chamado fibrado tangente de uma variedade diferenciável é definido como a união
disjunta dos espaços tangentes à variedade.

• Extensões de Funções

Seja F : A → B uma função e suponha que A seja subconjunto de um outro conjunto A0 . Uma
função G : A0 → B é dita ser uma extensão de F se F e G coincidirem na parte comum de seus
domı́nios, que vem a ser o conjunto A, ou seja, se G(a) = F (a) para todo a ∈ A.
Se lembrarmos que uma função F : A → B é um subconjunto de A×B e que uma função G : A0 → B
é um subconjunto de A0 × B e se notarmos que A × B ⊂ A0 × B caso A ⊂ A0 , então uma definição
alternativa de extensão seria seguinte: uma função G é uma extensão de uma função F se F ⊂ G,
ambas entendidas como subconjuntos de A0 × B.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 1 27/1195

E. 1.2 Exercı́cio. Verifique a equivalência dessas duas definições do conceito de extensão de funções.
6

Como veremos, o conceito de extensão de funções é freqüentemente empregado na teoria dos ope-
radores lineares em espaços de Hilbert.

• O Produto Cartesiano de uma Famı́lia Arbitrária de Conjuntos

Já discutimos o conceito de produto Cartesiano de dois conjuntos A e B: A × B e com ele introdu-
zimos a noção de função. De posse dessa noção podemos, com vistas a uma generalização, apresentar
uma outra visão do conceito de produto Cartesiano de dois conjuntos, a saber, podemos dizer que A×B
é o conjunto de todas as funções f : {1, 2} → A ∪ B tais que f (1) ∈ A e f (2) ∈ B. A idéia é dizer que
cada par ordenado (a, b) com a ∈ A e b ∈ B é uma função onde o primeiro membro do par é a imagem
de 1 (por ser o primeiro) e o segundo a imagem de 2 (por ser o segundo). Essa idéia permite definir pro-
dutos Cartesianos de um número finito n de conjuntos A1 , A2 , . . . , An denotado por A1 × A2 × . . . × An
n
[
como sendo o conjunto de todas as funções f : {1, 2, . . . , n} → Aj satisfazendo f (j) ∈ Aj para todo
j=1
n
[
j ∈ {1, . . . , n}. A função f tem, por assim dizer, o papel de ordenar os elementos de Aj tomando-se
j=1
sucessivamente um elemento de cada Ai por vez. O produto Cartesiano A1 × A2 × . . . × An é assim
entendido como o conjunto formado por todas as ênuplas ordenadas (a1 , . . . , an ) com ai ∈ Ai .
Essa idéia pode ser generalizada ainda mais. Sejam I um conjunto não-vazio (não necessariamente
finito ou contável) e Ai , i ∈ I, conjuntos não-vazios indexados por elementos de I. Definimos então o
produto Cartesiano da famı́lia de conjuntos {Ai , i ∈ I}, denotado por
Y
Ai
i∈I
[
como sendo o conjunto de todas as funções f : I → Aj tais que f (x) ∈ Ax para todo x ∈ I. O
j∈I
Axioma da Escolha (página
Q 27) consiste na afirmação (ou melhor dizendo, na suposição, já que se trata
de um axioma) que i∈I Ai é não-vazio.
Se por ventura todos os conjuntos Ai forem idênticos então denota-se o produto Cartesiano acima
por AI . Assim, AI denota o conjunto de todas as funções de I em A.
{1, 2}
Desta forma ×
 e
  são duas notações distintas para o mesmo objeto, que também é
denotado simplesmente por 
2
, como se sabe. Genericamente d designa {1,...,d} para d ∈ , d > 0.
  

• O Axioma da Escolha

O Axioma da Escolha consiste na seguinte afirmativa:


Seja As , s ∈ I, uma famı́lia de conjuntos não-vazios, onde I é um conjunto arbitrário (não-vazio)
de ı́ndices. Então, podemos construir um conjunto A tomando (“escolhendo”)[ um elemento a s de cada
conjunto As . Em termos mais técnicos, o axioma diz que há funções F : I → As tais que F (s) ∈ As
s∈I
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 1 28/1195

Q
para todo s ∈ I, ou seja, o produto Cartesiano s∈I As é não vazio3 .
A primeira vista esse axioma parece constituir-se de uma obviedade. Sucede, porém, que, sobretudo
pelo fato de o conjunto I de ı́ndices ser arbitrário (podendo ser até um conjunto infinito e não-contável),
a afirmativa que o mesmo contém não pode ser derivada de princı́pios mais básicos. O axioma faz uma
afirmação de existência (de uma função como a F , ou de um conjunto como A formado por elementos
escolhidos de cada As ) que, geralmente, não pode ser demonstrada construtivamente, ou seja, por
exibição explı́cita de uma tal função F ou de um conjunto A.
Faremos uso explı́cito do Axioma da Escolha adiante quando exibirmos exemplos de conjuntos não-
mensuráveis. O Axioma da Escolha foi originalmente formulado por Zermelo4 em 1904 como parte da
sua demonstração do chamado Princı́po do Bom-Ordenamento, Teorema 1.1, página 34. Vide [50].
Uma tı́pica situação na qual se faz uso do Axioma da Escolha ocorre quando são dados um conjunto
X e uma uma relação de equivalência E em X e constrói-se um conjunto A ⊂ X tomando-se um
representante de cada classe de equivalência de X por E.
Nem sempre é possı́vel exibir explicitamente os elementos de A, mas assumimos (via Axioma da
Escolha) que um tal conjunto existe. Para ter-se em mente um caso onde uma tal situação ocorre,
tome-se o exemplo dado em (1.18), página 29.

• Relações de Equivalência

Outro tipo importante de relação é formado pelas chamadas relações de equivalência. Uma relação
E ⊂ A × A é dita ser uma relação de equivalência em um conjunto não-vazio A se os seguintes quesitos
forem satisfeitos:

1. (a, a) ∈ E para todo a ∈ A.


2. (a, b) ∈ E implica que (b, a) ∈ E.
3. (a, b) ∈ E e (b, c) ∈ E implicam que (a, c) ∈ E.

Se o par (a, b) pertence a uma relação de equivalência E então a e b são ditos serem equivalentes
E
segundo E. Quase sempre usa-se a notação a ∼ b, ou simplesmente a ∼ b, para indicar que dois
elementos são equivalentes segundo uma relação de equivalência dada.
Seja A um conjunto e E ⊂ A × A uma relação de equivalência em A. Para cada a ∈ A podemos
definir o conjunto
E(a) := {a0 ∈ A tal que (a, a0 ) ∈ E}. (1.17)
Esse conjunto é chamado de classe de equivalência de a (pela relação de equivalência E).

E. 1.3 Exercı́cio. Seja A um conjunto e E ⊂ A × A é uma relação de equivalência em A. Suponha que


a, b ∈ A e que a ∼ b segundo E. Prove que E(a) = E(b). 6

E. 1.4 Exercı́cio importante. Prove que se A é um conjunto e E ⊂ A × A é uma relação de equivalência


em A então A é a união disjunta de classes de equivalência de seus elementos. 6
3
Q
Para a definição do produto Cartesiano s∈I As , vide página 27.
4
Ernst Friedrich Ferdinand Zermelo (1871-1953).
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 1 29/1195

E. 1.5 Exercı́cio. Seja o conjunto dos números reais  e seja a relação W ⊂  ×  definida por

W := {(x, y) ∈  ×  tal que x − y ∈ }, (1.18)

onde é o conjunto dos números racionais. Prove que W é uma relação de equivalência. 6

• Relações de Compatibilidade

Seja P um conjunto. Uma relação de compatibilidade em P é um conjunto C ⊂ P × P com as


seguintes propriedades:

1. Se γ e γ 0 são tais que (γ, γ 0 ) ∈ C, então (γ 0 , γ) ∈ C.

2. Para todo γ ∈ P vale (γ, γ) 6∈ C.

Para uma dada relação de compatibilidade C denotamos γ ∼C γ 0 caso (γ, γ 0 ) ∈ C e dizemos que
γ e γ 0 são C-compatı́veis. Caso contrário, denotamos γ 6∼C γ 0 se (γ, γ 0 ) 6∈ C e dizemos que γ e γ 0 são
C-incompatı́veis.
Se uma dada relação C é subentendida, denotamos simplesmente γ ∼ γ 0 caso (γ, γ 0 ) ∈ C e dizemos
simplesmente que γ e γ 0 são compatı́veis.
Relações de compatibilidade são importantes na Mecânica Estatı́stica, especialmente nas chamadas
expansões de polı́meros e de “clusters”.
Exemplo. Seja X um conjunto não-vazio e P = (X) \ {∅}, a coleção de todos os subconjuntos
não-vazios de X. Uma relação de compatibilidade em P é a seguinte: A ∼ B ⇐⇒ A ∩ B = ∅.
Verifique.

1.1.2 Relações de Ordem


Seja X um conjunto não-vazio. Uma relação R ⊂ X × X é dita ser uma relação de ordem parcial em
X, ou simplesmente uma relação de ordem em X, se as seguintes condições forem satisfeitas:

1. Para todo a ∈ X tem-se que (a, a) ∈ R.

2. Se (a, b) ∈ R e (b, a) ∈ R então forçosamente a = b.

3. Se (a, b) ∈ R e (b, c) ∈ R então (a, c) ∈ R.

Se X possui uma ordem parcial R, X é chamado de conjunto parcialmente ordenado por R. Em


textos matemáticos em lı́ngua inglesa, conjuntos parcialmente ordenados são freqüêntemente denomi-
nados posets (de “partially ordered sets”). A noção de conjunto parcialmente ordenado foi introduzida
por Hausdorff5
5
Felix Hausdorff (1868-1942). Hausdorff foi um dos criadores da Topologia e da moderna Teoria dos Conjuntos.
Perseguido pelo nacional-socialismo, suicidou-se em 1942 para evitar ser enviado a um campo de concentração.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 1 30/1195

Exemplo. Seja X um conjunto e (X) a coleção de todos os sub-conjuntos de X. Podemos estabe-


lecer em (X) uma relação R do seguinte tipo: para A, B ⊂ X tem-se (A, B) ∈ R se A ⊂ B. Como
exercı́cio deixamos ao estudante mostrar que esta é uma relação de ordem parcial de acordo com a
definição acima. Este exemplo ilustra também por que chamar tal relação de ordem de “parcial”. A
razão é que nem todo par (A, B) é elemento de R pois, para dois conjuntos A e B arbitrários, nem
sempre vale que A ⊂ B ou que B ⊂ A (por exemplo se A ∩ B = ∅).
Em função da analogia com essa relação de ordem usual dos números reais é costume, dada uma
relação de ordem R qualquer, indicar que (a, b) ∈ R através da notação a  b. Por vezes, o sı́mbolo
≤ é também usado, mas tentaremos empregá-lo apenas para denotar a relação de ordem usual entre
números reais.

• Relações de Ordem Total

Outro conceito importante é o de relação de ordem total. Uma ordem parcial R em um conjunto X
é dita ser uma relação de ordem total se para todo a, b ∈ X tem-se que (a, b) ∈ R ou que (b, a) ∈ R.
Se X possui uma relação de ordem total R então X é dito ser totalmente ordenado ou linearmente
ordenado. Assim, se X é um conjunto dotado de uma relação de ordem parcial, dizemos que um
sub-conjunto A ⊂ X é linearmente ordenado se a  b ou b  a para todo a, b ∈ A.

• Exemplos

Exemplo. Seja  o conjunto de números reais e a relação de ordem (x, y) ∈ R se x − y for um


número negativo ou nulo (ou seja, se x ≤ y). Mostre que essa é uma relação de ordem total em . 

Contra-exemplo. Seja C um conjunto não-vazio qualquer. Então, (C) é ordenado pela inclusão de
conjuntos: A  B se e somente se A ⊂ B. Porém (C) não é linearmente ordenado pois se A ∩ B = ∅
não podemos dizer que A  B nem que B  A.
2 3
E. 1.6 Exercı́cio. Você consegue construir uma relação de ordem em  ou em  ? E uma relação de
ordem total? 6

• Mais Exemplos

Seja o conjunto dos números naturais . Podemos estabelecer em a relação de ordem usual onde
 

dizemos que x ≤ y se x − y for um número negativo ou nulo. Esta relação é uma relação de ordem
total. O leitor não deve pensar que essa é a única relação de ordem total existente em . Um outro 

exemplo é o seguinte.
Vamos estabelecer uma relação de ordem em que denotaremos pelo sı́mbolo p−i . Sejam a,


b ∈ . Se a e b forem pares dizemos que a p−i b se a ≤ b. Se a e b forem ı́mpares dizemos que a p−i b


se a ≤ b. Se a é par e b é ı́mpar então dizemos sempre que a p−i b.

E. 1.7 Exercı́cio. Mostre que a relação p−i estabelece uma relação de ordem total em  . 6

Um exemplo análogo pode ser construı́do em . Vamos estabelecer uma relação de ordem em
 

que denotaremos pelo sı́mbolo r−i . Sejam x, y ∈ . Se x e y forem racionais dizemos que x r−i y se

JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 1 31/1195

x ≤ y. Se x e y forem irracionais dizemos que x r−i y se x ≤ y. Se x é racional e y é irracional então


dizemos sempre que x r−i y.

E. 1.8 Exercı́cio. Mostre que a relação r−i estabelece uma relação de ordem total em  . 6

• Ordem Lexicográfica

É possı́vel estabelecer uma relação de ordem total em 2 da seguinte forma: dizemos que (x1 , x2 ) L


(y1 , y2 ) se x1 < y1 ou se x1 = y1 e x2 ≤ y2 . Essa relação de ordem é denominada relação de ordem


lexicográfica de 2 . 

Essa definição pode ser facilmente generalizada. Seja X um conjunto totalmente ordenado por uma
relação de ordem total X . Então, X n pode ser totalmente ordenado dizendo-se (x1 , . . . , xn ) L
(y1 , . . . , yn ) se houver um j ∈ {1, . . . , n}, tal que xi = yi para todo i < j e xj X yj .

S∞Seja nX um conjunto totalmente ordenado por uma relação de ordem total X e seja Seja X =
n=1 X . Podemos estabelecer em X uma ordem total X , também denominada lexicográfica, da
seguinte maneira. Sejam m, n ∈ e p = min{m, n}. Então, dizemos (x1 , . . . , xm ) X (y1 , . . . , yn ) se


(x1 , . . . , xp ) L (y1 , . . . , yp ) no sentido dado no parágrafo anterior, ou se (x1 , . . . , xp ) = (y1 , . . . , yp ),


mas m < n.

E. 1.9 Exercı́cio. Por que essas relações de ordem são denominadas “lexicográficas”? Pense na maneira
como palavras (de tamanho arbitrário!) são ordenadas em um dicionário. 6

Podemos ainda estender a definição de ordem lexicográfica. Seja X um conjunto totalmente orde-
nado por uma relação de ordem total X e seja Y um conjunto totalmente ordenado por uma relação
de ordem total Y . Então, X Y pode ser totalmente ordenado dizendo-se X Y 3 x L y ∈ X Y se houver
um j ∈ Y , tal que x(i) = y(i) para todo i Y j e x(j) X y(j).
Exemplo. Sejam f, g, duas funções de em . Dizemos que f L g se existir y ∈
  tal que 

f (x) = g(x) para todo x < y mas f (y) ≤ g(y). Lembrando que o conjunto de todas as funções de 

em é , vê-se que essa definição coincide com a dada acima.




 

• Conjuntos Dirigidos

Um conjunto I é dito ser um conjunto dirigido (“directed set”) se for dotado de uma relação de
ordem parcial, que denotaremos por “”, e se for dotado da seguinte propriedade: para quaisquer dois
elementos a e b de I existe pelo menos um terceiro elemento c ∈ I tal que a  c e b  c.
Exemplo.  é um conjunto dirigido com a relação de ordem usual.
Exemplo.  é um conjunto dirigido com a relação de ordem r−i definida acima.
Exemplo. Seja o conjunto n , n = 1, 2, . . ., e seja I o conjunto de todos os abertos limitados de n
 

(um conjunto é limitado se for subconjunto de alguma bola aberta de raio finito centrada na origem).
Mostre que I é um conjunto dirigido pela relação de ordem de inclusão: A  B se A ⊂ B. Note que
essa relação de ordem não é uma relação de ordem total.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 1 32/1195

Contra-Exemplo. Seja X um conjunto não-vazio e seja I = (X) \ {X}, ou seja, I é a coleção


de todos os subconjuntos de X, exceto o próprio X. Podemos ter em I uma relação de ordem (de
inclusão) dizendo que A  B se A ⊆ B. Notemos, porém, que I não é um conjunto dirigido pois
para A ∈ I, A 6= ∅ temos X \ A ∈ I mas não existe em I nenhum conjunto que contenha A e X \ A
simultaneamente como subconjuntos.
Exemplo. Causalidade de Einstein. Seja 4 o espaço-tempo quadri-dimensional de Minkowski e
sejam E0 = (t0 , x0 , y0 , z0 ) e E1 = (t1 , x1 , y1 , z1 ) dois eventos em 4 . Dizemos que o evento E0 precede
causalmente o evento E1 , (em notação simbólica E0 Einstein E1 ), se t0 ≤ t1 e se

c2 (t1 − t0 )2 − (x1 − x0 )2 − (y1 − y0 )2 − (z1 − z0 )2 ≥ 0 ,

onde c é a velocidade da luz.


4 4
E. 1.10 Exercı́cio. Mostre que Einstein é uma relação de ordem em e que é um conjunto dirigido
por essa relação. 6

• Redes e Seqüências

Seja I um conjunto dirigido com respeito à uma relação de ordem parcial . Se M é um conjunto
não-vazio, uma função f : I → M é denominada uma rede em M baseada no conjunto dirigido I com
respeito a  ou, simplesmente, uma rede6 em M .
Uma seqüência em M é uma rede baseada em , que é um conjunto dirigido com respeito à ordem


usual dos naturais, ou seja, é uma função f : → M .

A noção de rede é importante, por exemplo, no estudo de funções contı́nuas em espaços topológicos
gerais e na definição da noção de convergência (vide Capı́tulo 18, página 876).
Se f : → M é uma seqüência em M , os elementos f (n) de sua imagem são freqüentemente


denotados por uma notação com ı́ndices: fn . É também comum denotar-se a própria seqüência por
{fn , n ∈ } ou por {fn }n∈ , que, estritamente falando, representam a imagem de f em M .


• Máximos e Mı́nimos

Se X é um conjunto dotado de uma relação de ordem parcial (que denotamos por ) diz-se que
um elemento z ∈ X é um máximo de X se x  z para todo x ∈ X. Se z e z 0 são máximos de X então,
por hipótese, valem ambas as relações z  z 0 e z 0  z, o que implica z = z 0 . Assim, se X possuir um
máximo ele é único, e é denotado por max(X).
Se A ⊂ X, a relação de ordem parcial em X induz uma relação de ordem parcial em A. Com essa
relação, podemos definir max(A), se existir, como o elemento de A tal que a  max(A) para todo
a ∈ A. Note que, por definição, max A ∈ A.
Analogamente, um elemento a é dito ser um mı́nimo de X se a  x para todo x ∈ X. Se a e a0
são mı́nimos de X então, por hipótese, valem ambas as relações a  a0 e a0  a, o que implica a = a0 .
Assim, se X possuir um mı́nimo ele é único, e é denotado por min(X).
6
Alguns autores em lı́ngua portuguesa preferem usar a palavra reticulado em lugar de rede.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 1 33/1195

• Elementos Maximais e Minimais

Seja X é um conjunto dotado de uma relação de ordem parcial (que denotamos por ).
Um elemento z ∈ X é dito ser maximal se não existir x ∈ X, x 6= z tal que z  x.
Um elemento a ∈ X é dito ser minimal se não existir x ∈ X, x 6= a tal que x  a.
Os elementos maximais e minimais de um conjunto parcialmente ordenado X, se exitirem, não são
necessariamente únicos, como mostra o seguinte exemplo.

E. 1.11 Exercı́cio-Exemplo. Considere no plano 2 o quadrado fechado Q = [0, 1] × [0, 1], ou seja, os


elementos de Q são pares ordenados (x, y) ∈ 2 com 0 ≤ x ≤ 1 e 0 ≤ y ≤ 1. Estabelecemos em Q




uma relaçao de ordem (parcial!) da seguinte forma: (x, y)  (x 0 , y 0 ) se x = x0 e se y ≤ y 0 . Em palavras,


(x, y)  (x0 , y 0 ) se ambos os pontos estiverem em uma mesma linha vertical, mas (x, y) estiver mais baixo
que (x0 , y 0 ). Cheque que isso é, de fato, uma relação de ordem, mas que não é uma ordem total, pois não
se pode comparar pontos que estão em linhas verticais diferentes.
Com essa definição convença-se que todos os elementos da forma (x, 1) são maximais. Porém, se x
for diferente de x0 , não se pode nem dizer que (x, 1)  (x0 , 1) nem que (x0 , 1)  (x, 1). Igualmente,
convença-se que todos os elementos da forma (x, 0) são minimais.
Note também que para a existência de elementos maximais é importante que Q contenha pontos na aresta
de cima e (com coordenada y = 1), analogamente, para a existência de elementos minimais é importante
que Q contenha pontos aresta de baixo (com coordenada y = 0). Por exemplo, se você definir a mesma
relação de ordem no quadrado aberto (0, 1) × (0, 1) não há mais elementos maximais ou minimais. 6

Se um conjunto não-vazio e parcialmente ordenado X possuir um único elemento maximal, este


elemento é denominado o maior elemento de X. Reciprocamente, se um conjunto não-vazio e parcial-
mente ordenado X possuir um único elemento minimal, este elemento é denominado o menor elemento
de X.

• Conjuntos Bem-Ordenados

Um conjunto X dotado de uma relação parcial de ordem  é dito ser um conjunto bem-ordenado
se todo subconjunto A não vazio de X tem um elemento mı́nimo em A.

E. 1.12 Exercı́cio. Mostre que todo conjunto bem-ordenado segundo uma relação parcial de ordem é
também totalmente ordenado segundo a mesma relação. 6

E. 1.13 Exercı́cio. A recı́proca não é, entretanto, verdadeira. Mostre que é totalmente ordenado pela


relação usual de ordem entre números reais, mas não é um conjunto bem-ordenado. 6

E. 1.14 Exercı́cio. Mostre que o conjunto dos números naturais  é bem-ordenado. 6

A importância de conjuntos bem-ordenados é que a eles se aplica uma generalização do bem-


conhecido método de indução matemática, muito empregado em demonstrações de teoremas, deno-
minada princı́pio de indução transfinita. O estudante interessado encontrará em [50] uma excelente
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 1 34/1195

referência introdutória. Nesta mesma referência o estudante interessado encontrará uma demonstração
do seguinte e importante resultado, devido a Zermelo7 :
Teorema 1.1 (Teorema do Bom-Ordenamento) Se X é um conjunto não-vazio então é possı́vel
encontrar uma relação de ordem  em X tal que X é bem-ordenado por essa relação. 2

Incidentalmente, o Teorema 1.1 junto com a afirmação do Exercı́cio E. 1.12 informam que todo
conjunto não-vazio possui ao menos uma relação de ordem total.

• Majorantes e Minorantes

Seja X um conjunto dotado de uma ordem parcial denotada por  e seja A ⊂ X. Se existe t ∈ X
tal que a  t para todo a ∈ A dizemos que t é um majorante de A, ou um limitante superior 8 de A.
Analogamente, se existe h ∈ X tal que h  a para todo a ∈ A dizemos que h é um minorante de A
ou um limitante inferior9 de A.

• Conjuntos Limitados

Seja X um conjunto dotado de uma ordem parcial denotada por . Um conjunto A ⊂ X que tenha
pelo menos um majorante é dito ser um conjunto limitado superiormente. Um conjunto A ⊂ X que
tenha pelo menos um minorante é dito ser um conjunto limitado inferiormente.

• Ínfimo e Supremo

Seja X um conjunto dotado de uma ordem parcial denotada por  e seja A ⊂ X.


O mı́nimo do conjunto de majorantes de A, se existir, é dito ser o supremo de A e é indicado por
sup(A). Note que o supremo de A, se existir, é único, por ser o mı́nimo de um conjunto. Assim, s ∈ X
é dito ser o supremo de A se for um majorante de A e se s  t para todo t que seja majorante de A.
Note que o supremo de um conjunto A ⊂ X não é necessariamente um elemento de A, ao contrário do
que ocorre com o máximo de A (caso exista).
O máximo do conjunto dos minorantes de A, se existir, é dito ser o ı́nfimo de A e é indicado por
inf(A). Note que o ı́nfimo de A, se existir, é único, por ser o máximo de um conjunto. Assim, i é o
ı́nfimo de A se for um minorante de A e se h  i para todo h que seja minorante de A. Note que o
ı́nfimo de um conjunto A ⊂ X não é necessariamente um elemento de A, ao contrário do que ocorre
com o mı́nimo de A (caso exista).
É interessante notar o seguinte. Dado um conjunto X dotado de uma ordem parcial poderı́amos nos
perguntar se todo subconjunto limitado superiormente de X possui um supremo ou, analogamente, se
todo subconjunto de X limitado inferiormente possui um ı́nfimo. A validade ou não dessas propriedades
depende de X e da relação de ordem em questão. Por exemplo, para X = , o conjunto dos racionais
7
Ernst Friedrich Ferdinand Zermelo (1871-1953).
8
A expressão “limite superior” é também usada na literatura, mas deve ser evitada para não causar confusão com a
noção de limite.
9
A expressão “limite inferior” é também usada na literatura, mas deve ser evitada para não causar confusão com a
noção de limite.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 1 35/1195

com a relação de ordem usual, verifica-se que a propriedade não é valida. Tomemos A = {x ∈ , x 2 <
2}. Claramente esse conjunto é limitado inferior e superiormente mas não possui nem supremo nem
ı́nfimo (por quê?). Para X = e X ∈ (com as relações de ordem usuais) a propriedade é, porém,
 

válida.

E. 1.15 Exercı́cio. Tome X = com a relação de ordem usual. Mostre que inf((−1, 1)) = −1 e que


sup((−1, 1)) = 1. Note que −1 e 1 não são elementos de (−1, 1). 6

E. 1.16 Exercı́cio. Suponha que A e B sejam dois sub-conjuntos de um conjunto X dotado de uma
ordem total e que inf(A) e inf(B) existam. Mostre então que

inf(A ∪ B) = min{inf(A), inf(B)}.

E. 1.17 Exercı́cio. Suponha que A e B sejam dois sub-conjuntos de um conjunto X dotado de uma
ordem total e que sup(A) e sup(B) existam. Mostre então que

sup(A ∪ B) = max{sup(A), sup(B)}.

• O Lema de Zorn

Uma das afirmativas fundamentais de toda a Matemática usual é o seguinte resultado, conhecido
como lema de Zorn, em homenagem a um dos seus formuladores10 :
Lema 1.1 (Lema de Kuratowski-Zorn) Seja X um conjunto não-vazio e  uma relação de ordem
parcial em X. Suponha que todo sub-conjunto linearmente ordenado de X tenha pelo menos um majo-
rante em X. Então, todo sub-conjunto linearmente ordenado de X tem algum majorante em X que é
também um elemento maximal de X. Implicitamente isso está dizendo que, sob as hipóteses, X possui
ao menos um elemento maximal. 2

Para uma demonstração do Lema de Zorn, vide, por exemplo, [50].

E. 1.18 Exercı́cio. Verifique que se X = [0, 1] é ordenado pela relação de ordem usual todo sub-
conjunto de X tem um majorante em X e que 1 é um desses possı́veis majorantes. Verifique que 1 é um
elemento maximal de X. 6

E. 1.19 Exercı́cio. Verifique que se X = [0, 1) é linearmente ordenado pela relação de ordem usual e
nem todo sub-conjunto de X tem um majorante em X (tente, por exemplo, sub-conjuntos do tipo [a, 1)
com 0 ≤ a < 1). Verifique que X não tem um elemento maximal. 6
10
Max August Zorn (1906-1993). Em verdade, o Lema de Zorn foi primeiramente descoberto por Kazimierz Kuratowski
(1896-1980). O trabalho de Kuratowski data de 1922 e o de Zorn de 1935.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 1 36/1195

E. 1.20 Exercı́cio. Cheque se as hipóteses do Lema de Zorn são satisfeitas ou não nos quadrados abertor
e fechados do Exemplo E. 1.11, página 33. 6

O Lema de Zorn é “equivalente” ao chamado Axioma da Escolha (vide página 27), ou seja, admitir
um como verdadeiro leva a demonstrar a validade do segundo. Essa equivalência não será provada
aqui (vide, por exemplo, [50]). Toda a Matemática usual é fundada na aceitação de um ou de outro
como verdadeiro e, em princı́pio, uma nova Matemática pode ser construı́da (com resultados distintos
dos da Matemática usual) se esses dois axiomas forem substituı́dos por um terceiro inequivalente. A
relevância de tais Matemáticas em Fı́sica é uma questão em aberto.

1.1.3 Cardinalidade

• A Noção de Cardinalidade de Conjuntos

Seja K uma coleção de conjuntos. Dados dois conjuntos A e B da coleção K, dizemos que A e
B são equivalentes se houver uma função bijetora de A sobre B, ou seja, se houver uma função com
domı́nio igual a A e imagem igual a B tal que a cada elemento b ∈ B existe um único elemento a ∈ A
com f (a) = b.

E. 1.21 Exercı́cio. Mostre que essa é uma relação de equivalência entre os conjuntos da coleção K. 6

Para dois conjuntos que são equivalentes no sentido acima diz-se também que os mesmos têm a
mesma cardinalidade. Ou seja, dois conjuntos têm a mesma cardinalidade se e somente se houver uma
função bijetora entre eles.
Um conjunto A é dito ter n elementos (para um número natural n) se for equivalente ao conjunto
{1, . . . , n}.

Nota. Esta última definição pressupõe que o conceito de número natural já seja conhecido. Outra construção mais simples em termos de
pressupostos é feita de modo informal como segue: diz-se que um conjunto tem um elemento se for equivalente ao conjunto {∅}; que um
conjunto tem dois elementos se for equivalente ao conjunto {∅, {∅}}; que tem três elementos se for equivalente ao conjunto {∅, {∅, {∅}}} e assim
por diante. Em verdade essa construção permite produzir uma definição do conceito de número natural: o número “um” é, grosseiramente
falando, o nome dado à classe de equivalência formada pelos conjuntos equivalentes ao conjunto {∅}; o número “dois” é o nome dado à classe
de equivalência do conjunto {∅, {∅}}; o número “três” é nome dado à classe de equivalência do conjunto {∅, {∅, {∅}}} e assim por diante.
Aliás, o número “zero” é o nome dado à classe de equivalência de ∅. O números naturais seriam então o conjunto de todas as classes de
equivalência construı́das dessa forma. Esta definição11 do conceito de número natural, devida a von Neumann12 , pressupõe apenas conhecidos
conceitos primitivos como os de conjuntos, classes de equivalência e de conjunto vazio. O leitor poderá encontrar uma discussão extensa sobre
a definição de números naturais em [119, 89, 50].

Diz-se que um conjunto A é finito se tiver a cardinalidade de {1, . . . , n} para algum n ∈  . A é


dito ser infinito se não for finito.

E. 1.22 Exercı́cio. Seja A um conjunto finito com n elementos. Mostre que (A) tem 2 n elementos.
11
J. von Neumann “Zur Einführung transfiniten Zahlen”, Acta Szeged 1 (1923) 199-208.
12
János von Neumann (1903-1957). Von Neumann também adotou os nomes de Johann von Neumann e John von
Neumann.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 1 37/1195

• Conjuntos Contáveis

Um conjunto A é dito ser contável se for finito ou se tiver a cardinalidade do conjunto dos números
naturais, ou seja, se for finito ou se existir uma função bijetora f : → A cujo domı́nio é
 e cuja 

imagem é todo A.

Nota. Por vezes conjuntos contáveis que não são finitos são chamados de conjuntos enumeráveis. Não
há, infelizmente, unidade nessa nomenclatura mas empregá-la-emos aqui se vier a ser necessário.
Vamos agora provar alguns teoremas fundamentais sobre conjuntos contáveis (cuja importância,
apesar da aparente simplicidade dos enunciados, não pode ser subestimada pois seu alcance estende-se
por toda a Matemática, em particular, por muito do que veremos no restante do curso).
Precisamos da seguinte proposição:
Proposição 1.5 Um conjunto é contável se e somente se for equivalente a um subconjunto de  . 2

Prova. Por definição todo conjunto contável A (finito ou não) é equivalente a algum subconjunto de 

(no pior dos casos ao próprio ).

Provemos então a recı́proca. Seja A equivalente a um subconjunto Z de . Se Z for finito A 

também o será e portanto contável. Suponhamos então que Z não é finito. Vamos construir uma
função bijetora F :→ Z. A mesma é definida da seguinte forma

F (1) = min Z,

F (n) = min{Z \ {F (1), F (2), . . . , F (n − 1)}} para n = 2, 3, . . . .

É fácil ver que F é bijetora e que sua imagem é Z (faça isso). Assim, Z é enumerável e, portanto, A
também o é.

Esta proposição tem uma conseqüência simples:


Proposição 1.6 Se A é um conjunto contável e B ⊂ A então B é contável. 2

Prova. Se A é contável e B ⊂ A então B é equivalente a um subconjunto de  e, portanto, pela


proposição anterior, B é contável.

Chegamos um importante teorema:


Teorema 1.2 O produto Cartesiano  ×  é contável. 2

Prova. Seja a função G : ×


 →  dada por G(a, b) = 2a 3b . A imagem dessa função é um


subconjunto próprio de  mas essa função é bijetora: a cada elemento z de sua imagem há um e
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 1 38/1195

somente um par (a, b) de números naturais tais que 2a 3b = z (por quê?). Assim, fica provado pela
Proposição 1.5 que × é contável.
 

Note que, como  ×  não é finito (por quê?) é um conjunto enumerável.


Esse último teorema tem uma conseqüência de grande importância:
Teorema 1.3 O conjunto + dos números racionais positivos é um conjunto contável. 2

Prova. Todo racional positivo é da forma p/q onde p e q ∈ são irredutı́veis ou primos entre si (ou


seja, não há “cancelamentos” que permitam escrever p/q = a/b com a < p e b < q). Assim, há uma
correspondência um-a-um entre + e o subconjunto de × formado por todos os pares (p, q) onde p
 

e q são primos entre si. Como × é contável, a Proposição 1.6 diz então que + é também contável.
 

E. 1.23 Exercı́cio. Prove que o conjunto dos números inteiros e o conjunto dos números racionais
são conjuntos contáveis. 6

Um fato também importante é que há conjuntos de números que não são contáveis. O exemplo
mais importante é o dos números reais.
Teorema 1.4 O conjunto dos números reais não é contável. 2

Prova. Para provar isso basta mostrar que há um subconjunto de que não é contável. Considere o 

conjunto U de todos os números reais do intervalo [0, 1) tais que apenas os dı́gitos 0 ou 1 aparecem
em sua representação decimal. Por exemplo, números como 0, 001101 ou 0, 1 ou 0 ou 0, 1011 ou
1/9 = 0, 11111 . . . são elementos de U . De modo mais preciso, U é o subconjunto do intervalo [0, 1)
formado por todos os números u que podem pode ser escritos da forma
X∞
dn (u)
u = n
,
n=1
10

onde dn (u) ∈ {0, 1} para todo n ≥ 1. dn (u) é o n-ésimo dı́gito do número u na base decimal. Note
que dois elementos u e v de U são iguais se e somente se dn (u) = dn (v) para todo n (prove isso!).
Vamos provar que U não é um conjunto contável. Para isso vamos supor o oposto, ou seja, que U
é contável e veremos que essa hipótese leva a um absurdo. Vamos supor que haja uma função bijetora
f:  → U cuja imagem é U . Considere o número real a definido por
X∞
1 − dn (f (n))
a = n
.
n=1
10

Como 1 − dn (f (n)) é igual a 0 ou a 1 (por que?), segue obviamente que a é um elemento de U .


Entretanto, é fácil ver que a não faz parte da imagem da função f . Para ver isso note que se a fosse
um elemento da imagem de f haveria um inteiro m tal que f (m) = a. Mas isso significa então que o
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 1 39/1195

m-ésimo dı́gito de a seria dm (a) = dm (f (m)). Mas pela definição do próprio a, o seu m-ésimo dı́gito é
1 − dm (f (m)). Assim, terı́amos que dm (f (m)) = 1 − dm (f (m)) o que não é possı́vel.
Concluı́mos então que a é um elemento de U mas não pode ser um elemento da imagem da função f .
Isso é uma contradição, pois supomos justamente que a imagem da f era todo o conjunto U . Portanto,
U não é contável e, assim, também não o é.


Nota. É fácil ver que, em verdade, poderı́amos substituir a base decimal, usada na representação do
conjunto U acima, por qualquer base b ∈ com b > 2. Ou seja, se considerarmos o conjunto U b de


todos os reais u do intervalo [0, 1] representáveis na base b, b ∈ , b > 2, da forma 

X∞
dn (u)
u = n
.
n=1
b

onde dn (u) ∈ {0, 1}, então, repetindo o que fizemos acima, verı́amos que Ub não é contável. Claramente
U = U10 .

Nota. O caso da base binária b = 2 foi excluı́do da última nota pois nele não vale a unicidade da
representação dos elementos de U2 na forma
X∞
dn (u)
u = .
n=1
2n

onde dn (u) ∈ {0, 1}. Para ver isso, faça o exercı́cio seguinte.

E. 1.24 Exercı́cio. Mostre que na base binária 0, 1 e 0, 01111111 . . . representam o mesmo número, a
saber, o número 1/2. Sugestão: use a fórmula da progressão geométrica infinita para calcular quanto vale
0, 01111111 . . .. 6

Nota. Os conjuntos Ub , b > 2, são exemplos de uma classe de conjuntos chamados de conjuntos
de Cantor13 . Tornaremos a reencontrar tais conjuntos quando falarmos de Teoria da Medida (vide
Capı́tulo 17, especialmente Seção 17.2, página 859.).
Ainda sobre os números reais, tem-se também o seguinte fato, que para referência futura formulamos
como uma proposição.
2
Proposição 1.7  e  têm a mesma cardinalidade. 2

Prova. É suficiente mostrar que (0, 1) e (0, 1) × (0, 1) têm a mesma cardinalidade, pois a função
x → (1 + tanh(x))/2 é uma bijeção de em (0, 1). Fixemos para cada x ∈ (0, 1) uma representação


decimal x = 0, d1 d2 d3 . . . com dn ∈ {0, . . . , 9}. Seja F : (0, 1) → (0, 1) × (0, 1) definida por
F (0, d1 d2 d3 d4 . . .) := ( 0, d1 d3 d5 d7 . . . , 0, d2 d4 d6 d8 . . . ) .
F é bijetora e F −1 : (0, 1) × (0, 1) → (0, 1) é dada por
F −1 (( 0, a1 a2 a3 a4 . . . , 0, b1 b2 b3 b4 . . . )) = 0, a1 b1 a2 b2 a3 b3 a4 b4 . . . .
13
Georg Ferdinand Ludwig Philipp Cantor (1845-1918).
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 1 40/1195

Finalizamos com um outro teorema de grande importância:


[
Teorema 1.5 Se Ci , i ∈  , são conjuntos contáveis então C = Ci também o é. 2
i∈ 

Prova. Se cada Ci é contável então para cada i ∈ há uma função bijetora gi :
 → Ci cuja imagem 

é Ci . Defina-se então a função G : ( × ) → C dada por G(a, b) = ga (b). Esta função não é, em
 

geral, bijetora, pois podem existir elementos comuns entre conjuntos Ci e Cj com i 6= j e terı́amos
gi (m) = gj (n) para algum n e m. Entretanto, a imagem de G é C.
Considere então em × a seguinte relação de equivalência: o par (a, b) é equivalente ao par
 

(c, d) se e somente se ga (b) = gc (d). O conjunto × pode ser então, como já observamos, escrito
 

como a união disjunta de suas classes de equivalência pela relação acima. Construamos então um
subconjunto K de × tomando-se um e somente um elemento de cada classe de equivalência escolhido
 

arbitrariamente (usamos aqui o Axioma da Escolha para afirmar que tal construção é possı́vel).
Defina então agora a função H : K → C dada por H(a, b) = ga (b) para (a, b) ∈ K. Pela própria
construção do conjunto K essa função H é bijetora e sua imagem é C. Como K é um subconjunto de
 × que é contável, temos que K também o é e, portanto, C é contável.


• Números Reais Algébricos e Transcendentes

Na reta real diz-se que um número x é um número algébrico se x for raiz de um polinômio do tipo
P (t) = a0 + a1 t + a2 t2 + · · · + an tn ,
para algum n ∈ , onde os coeficientes a0 , . . . , an são números racionais. Um tal polinômio é dito ser


um polinômio racional.
racional p − qt. Há também
Todo número racional p/q é também algébrico pois é raiz do polinômio √
muitos números irracionais que são algébricos. Por exemplo, o número 2 é raiz do polinômio ra-
cional −2 + t2 e, portanto, é algébrico. Os números reais que não são algébricos são chamados de
transcendentes.

E. 1.25 Exercı́cio. Prove que o conjunto de todos os números algébricos da reta real é um conjunto
contável. Use para tal o fato de que os racionais formam um conjunto contável. 6

O exercı́cio anterior pode ser usado para concluir que existem números transcendentes (que não
são raiz de nenhum polinômio racional) pois os reais, como sabemos, não são contáveis enquanto,
segundo o exercı́cio, os algébricos o são. Deve, portanto, haver uma coleção não-contável de números
transcendentes na reta real.
Historicamente, a existência de números transcendentes foi estabelecida (por outros argumentos)
por Liouville14 em 1851. Em 1874, Cantor15 demonstrou a afirmação do exercı́cio acima, provando que
14
Joseph Liouville (1809-1882).
15
Georg Ferdinand Ludwig Philipp Cantor (1845-1918).
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 1 41/1195

o conjunto de todos os números algébricos da reta real é um conjunto contável.

E. 1.26 Exercı́cio. Seja 0 = e 1 o conjunto dos números algébricos, definidos como o conjunto de
todos os zeros reais de polinômios com coeficientes racionais. Definimos 2 como o conjunto de todos os
zeros reais de polinômios com coeficientes em 1 . Sucessivamente, definimos n , n ≥
S∞1 como o conjunto
de todos os zeros reais de polinômios com coeficientes em n−1 . Seja também = n=0 n . Mostre que
todos os n e são conjuntos contáveis e, portanto, subconjuntos próprios de .  6

• Os números e e π são irracionais e transcendentes

Sabe-se que os números e e π são irracionais e transcendentes.


As provas de que e e e2 são irracionais foram primeiramente obtidas por Euler16 em 1737. Uma
prova que e é irracional pode ser encontrada nestas Notas à página 734 ou, por exemplo, em [118] ou
[53].
A prova de que π é irracional não é tão simples quanto a de que e é irracional. A demonstração de
que π é irracional foi primeiramente obtida por Lambert17 em 1768 e consistiu em provar que se r é
um número racional não-nulo então nem er nem tan(r) podem ser racionais. Como tan(π/4) = 1, que
é racional, segue que π/4 deve ser irracional.
A demonstração de que e é transcendente foi obtida pela primeira vez por Hermite 18 em 1873.
A demonstração de que π é transcendente foi obtida pela primeira vez por Lindemann19 em 1882.
Um fato de grande interesse é que provar que π é algébrico seria equivalente 20 a resolver o célebre
problema da quadratura do cı́rculo, que consiste em achar um método através do qual, “apenas com
régua e compasso” constrói-se um quadrado cuja área é igual a de um cı́rculo de raio 1. √ Tal seria
possı́vel caso houvessem meios de se construir um segmento de reta cujo comprimento seja π. Esse
problema clássico da geometria Euclidiana ficou em aberto por cerca de dois mil anos (!), tendo sido
resolvido negativamente em 1882 por Lindemann quando este provou, justamente, que π não é um
número algébrico, concluindo assim a impossibilidade da construção proposta.
Para provas de que e é transcendente vide, por exemplo, [118] ou [53]. Para provas que π é irracional
e transcendente e para uma série de outros resultados congêneres, vide [53].

• Produtos Cartesianos e Contabilidade

É interessante notar que produtos Cartesianos contáveis de conjuntos contáveis não são, geralmente,
conjuntos contáveis. Considere como exemplo o produto Cartesiano
Y
K := {0, 1} = {0, 1} , 

i∈ 

16
Leonhard Euler (1707-1783).
17
Johann Heinrich Lambert (1728-1777).
18
Charles Hermite (1822-1901). A prova original da transcendência de e encontra-se em Comptes rendus, 77 18-24
(1873).
19
Carl Louis Ferdinand von Lindemann (1852-1939). A prova original da transcendência de π encontra-se em Math.
Ann. 20, 213-225 (1882).
20
Para uma bela discussão sobre isso, vide [27].
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 1 42/1195

que é denominado espaço de Cantor21 . Podemos mostrar que K não é contável. Cada elemento de K
é uma função d : → {0, 1}. Podemos assim associar univocamente a cada d o número real



X d(n)
n=1
10n
que é um elemento do conjunto U ⊂ definido acima. Por outro lado, todo elemento de U pode ser


escrito assim para um único d ∈ K. Assim, K e U têm a mesma cardinalidade e, portanto, K não é
contável pois U , como já vimos, não o é.

E. 1.27 Exercı́cio. Mostre que todos os conjuntos Ub , definidos acima, com b > 2, tem a mesma
cardinalidade de K (e, portanto, a mesma cardinalidade entre si). 6

1.1.4 Ínfimos e Supremos de Famı́lias de Conjuntos


Seja I um conjunto arbitrário de ı́ndices e {Ai , i ∈ I}\ uma coleção de conjuntos indexados por
elementos de I. Chama-se por vezes o conjunto inf Ai := Ai de ı́nfimo da coleção {Ai , i ∈ I} e o
i∈I
[ i∈I
conjunto sup Ai := Ai de supremo da coleção {Ai , i ∈ I}.
i∈I
i∈I

Essas noções S
coincidem com as noções de ı́nfimo e supremo apresentadas à página 34 se conside-
rarmos em X = i∈I Ai a relação de ordem definida pela inclusão de conjuntos: se A, B ⊂ X dizemos
que A  B se A ⊂ B.

E. 1.28 Exercı́cio. Mostre isso. 6

• Limites do Ínfimo e Limites do Supremo de Famı́lias de Conjuntos

Seja {An , n ∈ } uma coleção contável de subconjuntos de um conjunto X. Define-se um conjunto




chamado de limite do ı́nfimo da coleção, denotado por limAn , como sendo o conjunto dado por
∞ \
[ ∞
limAn := Ak .
n=1 k=n

O chamado limite do supremo da coleção, denotado por limAn , é o conjunto definido por
∞ [
\ ∞
limAn := Ak .
n=1 k=n

Se considerarmos a relação de ordem entreTconjuntos definida pela inclusão de conjuntos, é de


se notar que a seqüência de conjuntos Bn := ∞ k=n Ak , n ∈ , está ordenada de forma crescente


S Bn  Bm se n ≤ m) e limAn é seu supremo. Analogamente, a seqüência de conjuntos


(ou seja,
Cn := ∞ k=n Ak , n ∈ , está ordenada de forma decrescente (ou seja, Cn  Cm se n ≥ m) e limAn é


seu ı́nfimo.
21
Georg Ferdinand Ludwig Philipp Cantor (1845-1918).
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 1 43/1195

E. 1.29 Exercı́cio. Justifique a seguinte afirmativa: limAn é o conjunto de todos os pontos x de X que
pertencem a todos os conjuntos An exceto a no máximo um número finito deles. Dizemos, nesse caso, que
x pertence a quase todos os An ’s). 6

E. 1.30 Exercı́cio. Justifique a seguinte afirmativa: limAn é o conjunto de todos os pontos x de X que
pertencem um número infinito de conjuntos An . Dizemos, nesse caso, que x pertence freqüentemente aos
An ’s). 6

• Convergência de seqüências de conjuntos

Chegamos a uma definição importante: dizemos que uma coleção contável de conjuntos {A n , n ∈  }
converge a um conjunto A se
limAn = limAn = A.
Se uma coleção contável de conjuntos {An , n ∈ } converge a um conjunto A, então A é dito ser o


n→∞
limite de An , e escrevemos, como usualmente, A = lim An , ou ainda An −→ A.
n→∞

E. 1.31 Exercı́cio. Justifique a seguinte afirmativa: lim An só existe se não há pontos x ∈ X que,
n→∞
simultaneamente, pertençam a infinitos conjuntos A n e não pertençam a infinitos conjuntos An . 6

E. 1.32 Exercı́cio. Seja a famı́lia contável de subconjuntos de dada por A n = [0, 10] se n for par e


An = [0, 5] se n for ı́mpar. Determine limAn e limAn e limn→∞ An se este existir. 6

E. 1.33 Exercı́cio. Seja a famı́lia contável de subconjuntos de dada por A n = [0, 1] se n for par e


An = [2, 3] se n for ı́mpar. Determine limAn e limAn e lim An , se este existir. 6


n→∞

E. 1.34 Exercı́cio. Seja a famı́lia contável de subconjuntos de dada por 

 
1 1
An = − , 1+
n+1 n+1

com n ∈  . Determine limAn , limAn e lim An , se este existir. 6


n→∞

E. 1.35 Exercı́cio. Seja a famı́lia contável de subconjuntos de dada por 

 
1 1
An = , 1−
n+2 n+2

com n ∈  . Determine limAn , limAn e lim An , se este existir. 6


n→∞

E. 1.36 Exercı́cio. Crie seus próprios exemplos de famı́lias contáveis A n de subconjuntos de  e estude
seus limAn , limAn e lim An , se este existir. 6
n→∞
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 1 44/1195

1.2 Estruturas Algébricas Básicas


Ainda atentos ao caráter introdutório apresentaremos aqui definições e exemplos das estruturas algébricas
mais comuns.

• Operações e Relações

Sejam C e I dois conjuntos não-vazios e consideremos o produto Cartesiano C I (o conceito de


produto Cartesiano de conjuntos foi definido à página 27). Uma função f : C I → C é por vezes dita
ser uma operação sobre C. Se I é um conjunto finito, f é dita ser uma operação finitária sobre C.
Um conjunto R ⊂ C I é dito ser uma relação em C. Se I é um conjunto finito, R é dito ser uma
relação finitária em C.

• Funções Finitárias

Sejam C e I dois conjuntos e consideremos funções f : C I → C. Se I é um conjunto finito


f : C I → C é dita ser uma função finitária sobre C ou operação finitária sobre C. Sem perda de
generalidade consideraremos aqui funções finitárias do tipo f : C n → C para algum n ∈ . Se f é uma


função finitária para um dado n, f é dita ser uma função n-ária sobre C. Um exemplo de uma função
não finitária seria uma função do tipo f : C → C que a cada seqüência em C associa um elemento de


C.
Funções 2-árias serão chamadas aqui de funções binárias e funções 1-árias são chamadas de funções
unárias.
Por vezes iremos falar também de funções 0-árias sobre C, que consistem em funções f : {∅} → C.
Uma tal função tem por imagem simplesmente um√elemento fixo de C. Exemplos de funções 0-árias
sobre  seriam f (∅) = 1 ou f (∅) = 0 ou f (∅) = 2. Freqüentemente denotamos tais funções pelo
elemento de C por ela associado. Nos três exemplos acima, poderı́amos denotar as funções por 1, 0 ou

2, respectivamente.

• Relações Finitárias

Há uma nomenclatura análoga para o caso de relações. Sejam C e I dois conjuntos e consideremos
relações R ⊂ C I . Se I é um conjunto finito R é dita ser uma relação finitária sobre C. Sem perda
de generalidade consideraremos aqui relações finitárias do tipo R ⊂ C n para algum n ∈ . Se R é 

uma relação finitária para um dado n, R é dita ser uma relação n-ária sobre C. Para o caso n = 1 as
relações são também chamadas de unárias e para o caso n = 2 são ditas binárias. Relações binárias
foram estudadas à página 22.

• Estruturas

Seja C um conjunto, F uma coleção de operações (não necessariamente finitárias) sobre C e seja
R uma coleção de relações (não necessariamente finitárias) em C. A tripla hC, F, Ri é dita ser uma
estrutura sobre C. Note-se que tanto F quanto R podem ser vazias.
Dado que operações sobre um conjunto C também são relações sobre C, a definição de estrutura
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 1 45/1195

acima poderia ser simplificada. É porém conveniente mantê-la como está, pois funções são de im-
portância especial.
Uma estrutura hC, Fi é dita ser uma estrutura algébrica e uma estrutura hC, Ri é dita ser uma
estrutura relacional.

• Tipos de Operações e de Relações

Ainda um comentário sobre a nomenclatura.


Sejam C e I conjuntos e seja α : C I → C uma operação sobre o conjunto C. A cardinalidade de I
é dita ser o tipo da operação α. Assim, uma função n-ária é também dita ser de tipo n. Analogamente,
se R ⊂ C I é uma relação em C a cardinalidade de I é dita ser o tipo da relação R.

• Comentário Sobre a Notação

Antes de prosseguirmos, façamos uma observação sobre a notação que é costumeiramente adotada,
especialmente quando se trata de funções binárias.
Dado um conjunto C e uma função binária denotada por um sı́mbolo φ, a imagem de um par
(a, b) ∈ C 2 é comummente denotada por φ(a, b). É muito prático, por vezes, usar uma outra notação
e denotar φ(a, b) por a φ b. Essa notação é denominada mesofixa. Um exemplo claro desse uso está
na função soma, denotada pelo sı́mbolo + : 2 → de dois números complexos. Denotamos +(z, w)
por z + w. Outro exemplo está na função produto · : 2 → de dois números complexos. Denotamos
·(z, w) por z · w.
Essa notação será usada adiante para outras funções binárias além das funções soma e produto de
números ou matrizes.
Funções unárias também têm por vezes uma notação especial, freqüentemente do tipo exponencial.
Tal é o caso da operação que associa a cada elemento de um grupo à sua inversa, g 7→ g −1 , ou o
caso da operação que associa a cada conjunto o seu complementar A 7→ A c . Ou ainda o caso da
transposição de matrizes M 7→ M T , da conjugação de números complexos z 7→ z ∗ para o que usa-se
também sabidamente a notação z 7→ z.

1.2.1 Semi-grupos, Monóides e Grupos

• Semi-grupos

Um semi-grupo é um conjunto não-vazio S dotado de uma operação binária S × S → S denotada


por “·” e denominada produto tal que a seguinte propriedade é satisfeita.

1. Associatividade. Para todos a, b e c ∈ S vale (a · b) · c = a · (b · c).

• Monóides
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 1 46/1195

Um monóide é um conjunto não-vazio M dotado de uma operação binária M × M → M denotada


por “·” e denominada produto tal que as seguintes propriedades são satisfeitas.

1. Associatividade. Para todos a, b e c ∈ M vale (a · b) · c = a · (b · c).

2. Elemento neutro. Existe um (único!) elemento e ∈ M , denominado elemento neutro, tal que
g · e = e · g = g para todo g ∈ M .

Observação A unicidade do elemento neutro é garantida pela observação que se houvesse e 0 ∈ M


tal que g · e0 = e0 · g = g para todo g ∈ M terı́amos e0 = e0 · e = e.

• Grupos

Uma das noções mais fundamentais de toda a Matemática é a de grupo. Um grupo é um conjunto
não-vazio G dotado de uma operação binária G × G → G denotada por “·” e denominada produto e de
uma operação unária G → G (bijetora) denominada inversa, denotada pelo expoente “ −1 ”, tais que as
seguintes propriedades são satisfeitas.

1. Associatividade. Para todos a, b e c ∈ G vale (a · b) · c = a · (b · c).

2. Elemento neutro. Existe um (único!) elemento e ∈ G, denominado elemento neutro, tal que
g · e = e · g = g para todo g ∈ G.

3. Inversa. Para cada g ∈ G existe um (único!) elemento h ∈ G tal que g · h = h · g = e. Esse


elemento é denominado a inversa de g e denotado por g −1 .

Observações.

1. A unicidade do elemento neutro é garantida pela observação que se houvesse e 0 tal que g · e0 =
e0 · g = g para todo g ∈ G terı́amos e0 = e0 · e = e.

2. Analogamente se estabelece a unicidade da inversa, pois se g, h ∈ G são tais que h · g = g · h = e,


teremos g −1 = g −1 · e = g −1 · (g · h) = (g −1 · g) · h = e · h = h.

3. A função G 3 g 7→ g −1 ∈ G, que associa cada elemento de G à sua inversa, é um exemplo de uma


função unária.

4. Como e · e = e segue que e−1 = e.

5. Para todo g ∈ G vale (g −1 )−1 = g pois, usando a associatividade,

(g −1 )−1 = ( g −1 )−1 · e = (g −1 )−1 · (g −1 · g) = ((g −1 )−1 · g −1 ) · g = e · g = g .

Um grupo é dito ser comutativo ou Abeliano22 se a · b = b · a para todos a, b ∈ G. Essa nomenclatura


se aplica também a semi-grupos e monóides.
É evidente que todo grupo é um monóide e que todo monóide é um semi-grupo.
22
Niels Henrik Abel (1802-1829).
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 1 47/1195

Existe uma construção canônica devida a Grothendieck, que discutimos à página 84, que permite
construir um grupo Abeliano a partir de um semi-grupo Abeliano dado. Essa construção é importante
em várias áreas da Matemática. O leitor interessado poderá passar sem perda à discussão da página
84.

• Exemplos Simples

1. O conjunto S = {1, 2, 3, . . .} é um semi-grupo em relação à operação de soma usual. O conjunto


M = {0, 1, 2, 3, . . .} é um monóide em relação à operação de soma usual, sendo o elemento
neutro e = 0. O conjunto G = = {. . . , −2, −1, 0, 1, 2, . . .} é um grupo em relação à
operação de soma usual, sendo o elemento neutro e = 0 e a inversa n−1 = −n.

2.  dotado da operação de multiplicação usual é um monóide onde o elemento neutro é o número


1. Não é um grupo, pois 0 não tem inversa multiplicativa.

3. O conjunto {x ∈  , x > 0} é um semi-grupo Abeliano em relação à operação de soma, mas não


é um monóide.

4. O conjunto + = {x ∈
  , x ≥ 0} é um monóide Abeliano em relação à operação de soma mas
não um grupo.

5. O conjunto dos números inteiros é um grupo Abeliano em relação à operação usual de soma
de números inteiros. Esse grupo é comummente denotado por ( , +), para lembrar o conjunto
considerado (no caso, ) e a operação considerada nesse conjunto (no caso, +) .

6. O conjunto dos números racionais é um grupo Abeliano em relação à operação usual de soma
de números racionais. Esse grupo é comummente denotado por ( , +).

7. O conjunto \ {0} = {r ∈ , r 6= 0} é um grupo Abeliano em relação à operação usual de


produto de números racionais. Esse grupo é comummente denotado por ( , ·).

8. O conjunto dos números reais é um grupo Abeliano em relação à operação usual de soma de


números reais. Esse grupo é comummente denotado por ( , +). 

9. O conjunto dos números complexos é um grupo Abeliano em relação à operação usual de soma
de números complexos. Esse grupo é comummente denotado por ( , +).

10. O conjunto \ {0} = {x ∈ , x 6= 0} é um grupo Abeliano em relação à operação usual de


 

produto de números reais. Esse grupo é comummente denotado por ( , ·). 

11. O conjunto \ {0} = {z ∈ , z 6= 0} é um grupo Abeliano em relação à operação usual de


produto de números complexos. Esse grupo é comummente denotado por ( , ·).

12. Mat( , n), o conjunto das matrizes complexas n × n com o produto usual de matrizes é apenas
um monóide.

13. Mat( , n), o conjunto das matrizes complexas n × n é um grupo em relação à operação de soma
de matrizes.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 1 48/1195

14. O conjunto GL( , n) de todas as matrizes reais n × n com determinante não-nulo (e, portanto,


invertı́veis) é um grupo em relação a operação de produto usual de matrizes. GL( , n) é não- 

Abeliano.
15. O conjunto GL( , n) de todas as matrizes complexas n × n com determinante não-nulo (e,
portanto, invertı́veis) é um grupo em relação a operação de produto usual de matrizes. GL( , n)
é não-Abeliano.
16. Seja X um conjunto não-vazio. Então (X) é um grupo Abeliano em relação à operação de
diferença simétrica A4B, A, B ∈ X, definida em (1.2), página 21. De fato, o Exercı́cio E. 1.1,
página 21, garante associatividade e comutatividade, o elemento neutro é o conjunto vazio ∅ e
para todo A ∈ (X) tem-se A−1 = A. Verifique!
17. Outro exemplo importante é o seguinte. Seja C um conjunto não-vazio e tomemos S = C C , o
conjunto de todas as funções de C em C. Então, S é um monóide com o produto formado pela
composição de funções: f ◦ g, e onde o elemento neutro é a função identidade id(s) = s, ∀s ∈ C.
O sub-conjunto de C C formado pelas funções bijetoras é um grupo não-Abeliano, onde o produto
é a composição de funções, o elemento neutro é a função identidade e o elemento inverso de uma
função f : C → C é a função inversa f −1 . Esse grupo é denominado grupo de permutações do
conjunto C e denotado por P erm(C).

E. 1.37 Exercı́cio. Em caso de dúvida, prove todas as afirmações acima. 6

• Sub-grupos

Seja G um grupo em relação a uma operação “·” e cujo elemento neutro seja e. Um subconjunto
H de G é dito ser um sub-grupo de G se for também por si só um grupo em relação à mesma operação,
ou seja, se

1. e ∈ H,
2. h1 · h2 ∈ H para todos h1 ∈ H e h2 ∈ H,
3. h−1 ∈ H para todo h ∈ H.

Todo grupo G sempre possui pelo menos dois sub-grupos: o próprio G e o conjunto {e} formado
apenas pelo elemento neutro de G.
É fácil verificar que ( , +) e ( , +) são sub-grupos de ( , +). É fácil ver que SL( , n), o
 

conjunto de todas as matrizes reais n × n com determinante igual a 1, é um sub-grupo de GL( , n). 

Idem para SL( , n) em relação a GL( , n).

• Os Grupos n

O bem conhecido algoritmo de Euclides23 afirma que, dado n ∈ , n > 0, então todo número inteiro


z pode ser escrito de maneira única na forma z = qn + r, onde q ∈ e r ∈ {0, 1, . . . , n − 1}.


23
Euclides de Alexandria (≈ 325 A.C, ≈ 265 A.C.).
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 1 49/1195

O número r é denominado resto da divisão de z por n e é também denotado por r = z mod n.


Seja n um inteiro positivo maior ou igual a 2 e seja o conjunto {0, 1, . . . , n − 1}. Vamos definir
uma operação binária em {0, 1, . . . , n − 1}, denominada soma e denotada pelo sı́mbolo “+”, da
seguinte forma:
α + β = [α + β] mod n
para todos α, β ∈ {0, 1, . . . , n − 1}. Acima [α + β] representa a soma usual de números inteiros em
.

E. 1.38 Exercı́cio. Prove que a operação de soma definida acima é uma operação binária de {0, 1, . . . , n−
1} e mostre que a mesma é associativa, comutativa e tem 0 como elemento neutro. 6

E. 1.39 Exercı́cio. Para cada a ∈ {0, 1, . . . , n − 1}, defina a−1 = (n − a) mod n. Mostre que
a−1 ∈ {0, 1, . . . , n − 1} e que a + a−1 = 0. 6

Os dois exercı́cios acima provam que {0, 1, . . . , n − 1} é um grupo Abeliano em relação à operação
de soma definida acima. Esse grupo é denominado grupo n .

• 

+ estendido

O conjunto + = {x ∈ , x ≥ 0} é um semi-grupo Abeliano em relação à operação de soma e


 

em relação à operação de produto e vale ainda a propriedade distributiva a(b + c) = ab + ac. + é 

também, sabidamente, um conjunto linearmente ordenado pela relação de ordem usual.


Vamos abaixo descrever um outro conjunto linearmente ordenado que contém + e é também um 

semi-grupo Abeliano em relação à operação de soma e em relação à operação de produto e vale ainda
a propriedade distributiva.
Definimos um conjunto, que denotaremos por R+ , juntando a + um conjunto formado por um 

elemento, elemento esse que denotaremos provisoriamente por ω, com ω 6∈ + , para o qual certas 

relações algébricas serão definidas. Seja R+ = + ∪ {ω} e definimos as operações de soma e produto


em R+ da seguinte forma: se a e b são elementos de + suas soma e produto são definidos como


usualmente. Fora isso, valem

1. a + ω = ω + a = ω, para todo a ∈ 

+.

2. ω + ω = ω.

3. aω = ωa = ω, para todo a ∈ 

+, a 6= 0.

4. 0ω = ω0 = 0.

5. ωω = ω.

E. 1.40 Exercı́cio. Verifique que R+ é um semi-grupo Abeliano em relação à operação de soma e em


relação à operação de produto definidas acima e que vale ainda a propriedade distributiva. 6
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 1 50/1195

R+ é linearmente ordenado tomando-se em 

+ a relação de ordem usual e fixando-se a < ω para


todo a ∈ + .

É bastante claro que na definição abstrata acima o objeto representado pelo sı́mbolo ω desempenha o
papel formalmente desempenhado por um número infinito positivo. A construção das relações algébricas
acima prescinde, porém, dessa noção, pois ω pode ser qualquer objeto (fora de + ). 

Com um certo abuso de linguagem, é costume, substituir o sı́mbolo ω pelo sı́mbolo ∞, dando
a entender que ω representa algo como um número infinito positivo. É comum também denotar-se
R+ = [0, ∞].

E. 1.41 Exercı́cio. Que problemas surgem quando se tenta estender a construção acima para o conjunto
 de todos os reais? 6

1.2.2 Corpos
Um corpo24 é um conjunto não-vazio C dotado de duas operações binárias, denotadas por + e ·,
denominadas soma e produto, respectivamente, satisfazendo o seguinte: para α, β e γ ∈ C quaisquer,
valem

1. A operação de soma tem as seguintes propriedades:

(a) Comutatividade: α + β = β + α
(b) Associatividade: α + (β + γ) = (α + β) + γ
(c) Elemento neutro: existe um elemento 0 ∈ C, chamado de zero, tal que α + 0 = α para todo
α ∈ C.
(d) Para cada α ∈ C existe um único elemento denotado por β com a propriedade α + β = 0.
Esse elemento é mais comummente denotado por −α.

2. A operação de produto tem as seguintes propriedades:

(a) Comutatividade: α · β = β · α
(b) Associatividade: α · (β · γ) = (α · β) · γ
(c) Elemento neutro: existe um elemento 1 ∈ C, chamado de unidade, tal que α · 1 = α para
todo α ∈ C.
(d) Para cada α ∈ C, α 6= 0, existe um único elemento denotado por β com a propriedade
α · β = 1. Esse elemento é mais comummente denotado por α−1 .

3. O produto é distributivo em relação à adição: α · (β + γ) = α · β + α · γ.

Note-se que corpos são grupos comutativos em relação à operação de soma e monóides comutativos
em relação à operação de produto.
24
Em inglês a palavra empregada é field. A expressão em português provavelmente provem do francês corp ou do
alemão Körper.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 1 51/1195

Os elementos de um corpo são por vezes denominados escalares.


Exemplos. É fácil verificar que , e  são corpos em relação às operações usuais de soma e
produto. O conjunto das matrizes n × n para qualquer n ≥ 2 com o produto usual de matrizes não é
um corpo pois, entre outras razões, o produto não é comutativo.
Em um corpo C sempre vale que α · 0 = 0 para todo α ∈ C. De fato, como 0 = 0 + 0, segue que
α · 0 = α · (0 + 0) = α · 0 + α · 0.
Somando-se a ambos os lados o elemento inverso −α · 0 teremos
α · 0 + (−α · 0) = α · 0 + α · 0 + (−α · 0),
ou seja,
0 = α · 0 + 0 = α · 0,
como querı́amos provar. Pela comutatividade do produto vale também 0 · α = 0 para todo α ∈ C.
Vamos exibir outros exemplos menos triviais de corpos.

• Os Corpos ( p), com p Primo


E. 1.42 Exercı́cio. Mostre que o conjunto de todos os números reais da forma a + b 2, com a e b
racionais, é um corpo. 6

O corpo do exemplo acima é denotado por ( 2).

E. 1.43 Exercı́cio. Seja p um número primo. Mostre que o conjunto de todos os números reais da forma

a + b p, com a e b racionais, é um corpo. 6

O corpo do exemplo acima é denotado por ( p).

E. 1.44 Exercı́cio. Mostre que o conjunto de todos os números reais da forma a + b 2 com a e b
inteiros não é um corpo. 6

• Os Corpos p, com p Primo

O bem conhecido algoritmo de Euclides25 afirma que, dado n ∈ , n > 0, então todo número inteiro


z pode ser escrito de maneira única na forma z = qn + r, onde q ∈ e r ∈ {0, 1, . . . , n − 1}.


O número r é denominado resto da divisão de z por n e é também denotado por r = z mod n.
Seja n um inteiro positivo maior ou igual a 2 e seja n o conjunto {0, 1, . . . , n − 1}. Vamos definir
operações de soma e produto em n da seguinte forma:
α + β = [α + β] mod n e α · β = [αβ] mod n.
Acima [α + β] e [αβ] são a soma e o produto usuais em .
Temos o seguinte teorema:
25
Euclides de Alexandria (≈ 325 A.C, ≈ 265 B.C.).
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 1 52/1195

Teorema 1.6 O conjunto n é um corpo com as operações acima definidas se e somente se n for um
número primo. 2

Prova. As operações de soma e produto definidas acima são automaticamente comutativas, associativas
e distributivas (por que?). Fora isso sempre vale que −α = n − α para todo α ∈ n . Resta-nos estudar
a existência de elementos inversos α−1 . Vamos supor que n seja um corpo. Então, a ∈ {2, . . . , n − 1}
tem uma inversa em n , ou seja, um número b ∈ {1, . . . , n − 1} tal que a · b = 1. Lembrando a
definição de produto em n , isso significa que existe um inteiro r tal que ab = rn + 1. Mas isso implica
1 n
b− =r .
a a
Como o lado esquerdo não é um número inteiro, o lado direito também não pode ser. Isso diz então que
n/a não pode ser inteiro para nenhum a ∈ {2, . . . , n − 1}, ou seja, n não tem divisores e é, portanto,
um primo. Resta-nos mostrar que p é efetivamente um corpo quando p é primo, o que agora se reduz
a mostrar que para todo a ∈ p existe um elemento inverso.
Para apresentar a demonstração, recordemos três conceitos da teoria de números. 1. Sejam dois
números inteiros f e g, dizemos que f divide g se g/f ∈ . Se f divide g, denotamos esse fato por
f |g. 2. Sejam dois números inteiros f e g. O máximo divisor comum de f e g, denotado mdc(f, g) é
o maior inteiro m tal que m|f e m|g. 3. Dois números inteiros f e g são ditos ser primos entre si se
mdc(f, g) = 1.
A demonstração da existência de inverso em p será apresentada em partes. Vamos primeiro
demonstrar a seguinte afirmativa.
Lema 1.2 Se f e g são dois números inteiros quaisquer então existem inteiros k 0 e l0 tais que

mdc(f, g) = k 0 f + l0 g.

Prova. Seja m = mdc(f, g). Seja M o conjunto de todos os números positivos que sejam da forma
kf + lg com k e l inteiros. Seja m0 o menor elemento de M . Note que como os elementos de M são
positivos, esse menor elemento existe. Claramente

m0 = k 0 f + l 0 g (1.19)

para algum k 0 e l0 . Como, por definição, m|f e m|g, segue que m|m0 , o que só é possı́vel se

m0 ≥ m. (1.20)

Vamos agora demonstrar por contradição que m0 |f . Se isso não fosse verdade, existiriam (pelo algoritmo
de Euclides) inteiros α e β com
0 < β < m0 (1.21)
tal que
f = αm0 + β.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 1 53/1195

Usando (1.19) isso diz que

β = f − α(k 0 f + l0 g) = (1 − αk 0 )f + (−αl0 )g.

Mas, como β > 0 isso diz que β ∈ M . Logo, β ≥ m0 , contradizendo (1.21). Logo m0 |f . De maneira
totalmente análoga prova-se que m0 |g. Portanto m0 ≤ mdc(f, g) = m. Lembrando que havı́amos
provado (1.20), segue que m = m0 e, portanto m = k 0 f + l0 g, demonstrando o Lema.

Corolário 1.1 Se f e g são dois números inteiros primos entre si então existem inteiros k 0 e l0 tais
que
1 = k 0 f + l0 g.
2

Prova. Pela definição, como f e g são dois números inteiros primos entre si segue que mdc(f, g) = 1.

Para finalmente demonstrarmos a existência de inverso em p , com p primo, seja a ∈ {1, . . . , p−1}.
É óbvio que a e p são primos entre si (por que?). Assim, pelo corolário, existem inteiros r e s com

1 = sa − rp.

Isso diz que sa = rp + 1. Logo, definindo b ∈ p como sendo b = s mod p teremos

ba = (s mod p)a = (rp + 1) mod p = 1,

ou seja, b = a−1 , completando a demonstração.

• Caracterı́stica de um Corpo

Seja C um corpo e 1 sua unidade. Para um número natural n definimos n · 1 = 1| + ·{z


· · + 1}.
n vezes
Define-se a caracterı́stica de C como sendo o menor número natural não-nulo n tal que n · 1 = 0.
Se um tal número não existir, diz-se que o corpo tem caracterı́stica zero.

Exemplos. , , , ( 2) têm caracterı́stica zero. p , p primo, tem caracterı́stica p. Mostre isso.


E. 1.45 Exercı́cio. Mostre que a caracterı́stica de um corpo é ou igual a zero ou é um número primo.
Sugestão: Mostre primeiro que (nm) · 1 = (n · 1)(m · 1) para quaisquer números naturais n e m. Use então
o fato que todo natural pode ser decomposto em um produto de fatores primos e use o fato que, em um
corpo, se a · b = 0 então ou a ou b ou ambos são zero (ou seja, todo corpo é um anel de integridade: não
tem divisores de zero). 6
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 1 54/1195

1.2.3 Espaços Vetoriais


Um espaço vetorial V sobre um corpo K é um conjunto de elementos chamados vetores dotado de uma
operação “+”: V × V → V denominada soma e também de um produto por escalares “·”: K × V → V
com as seguintes propriedades:

1. A cada par u, v ∈ V de vetores é associado um elemento u + v ∈ V , denominado soma de u e v,


com as seguintes propriedades:

(a) A soma é comutativa:


u+v =v+u
para todos u, v ∈ V ,
(b) A soma é associativa:
u + (v + w) = (u + v) + w
para todos u, v, w ∈ V ,
(c) Existe um único vetor denotado por 0, denominado vetor nulo, tal que

u+0=u

para todo u ∈ V ,
(d) A cada u ∈ V existe associado um único vetor denotado por −u tal que

u + (−u) = 0.

2. A cada par α ∈ K, u ∈ V existe associado um vetor denotado por α · u ∈ V , denominado produto


de u por α, de forma que

(a) O produto por escalares é associativo:

α · (β · u) = (αβ) · u,

para todos α, β ∈ K e u ∈ V , onde αβ é o produto de α por β em K,


(b) 1 · u = u para todo u ∈ V , onde 1 é a unidade de K,
(c) O produto por escalares é distributivo em relação à soma de vetores:

α · (u + v) = α · u + α · v,

para todo α ∈ K e todos u, v ∈ V ,


(d) O produto por escalares é distributivo em relação à soma de escalares:

(α + β) · u = α · u + β · u,

para todos α, β ∈ K e todo u ∈ V .

Note-se que espaços vetoriais são grupos comutativos em relação à operação de soma.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 1 55/1195

E. 1.46 Exercı́cio. Mostre usando os postulados acima que 0·u = 0 para todo u ∈ V , onde, permitindo-
nos um certo abuso de linguagem, o 0 do lado esquerdo representa o zero do corpo K e o do lado direito o
vetor nulo de V . 6

Nomenclatura. Os elementos de um corpo sobre os quais um espaço vetorial se constitui são


freqüentemente denominados escalares.

Notação. É freqüente omitir-se o sı́mbolo “·” de produto por escalares quando nenhuma confusão é
possı́vel.
Anti-exemplo. Tomemos o conjunto dos reais com a operação de soma usual, um corpo p com p
primo e o produto p × → , α · x, α ∈ p e x ∈ dada pelo produto usual em . Essa estrutura
   

não forma um espaço vetorial. A regra distributiva

(α + β) · x = α · x + β · x

não é satisfeita para todo α, β ∈ p. Acima, α · x é o produto usual em  .

É quase desnecessário mencionar o quão importantes espaços vetoriais são no contexto da Fı́sica,
onde, porém, quase somente espaços vetoriais sobre o corpo dos reais ou dos complexos aparecem.
Discutiremos mais aspectos básicos da teoria dos espaços vetoriais na Seção 2.1, página 93.

1.2.4 Anéis, Álgebras e Módulos

• Anéis

Um anel é um conjunto A dotado de duas operações binárias denotadas por “+” e “·” e denominadas
soma e produto, respectivamente, tais que A é um grupo Abeliano em relação à operação de soma e
um semi-grupo em relação à operação de produto. Por fim, a operação de produto é distributiva em
relação à soma: para quaisquer a, b e c ∈ A valem a · (b + c) = a · b + a · c e (a + b) · c = a · c + b · c.
Como usual, denotamos por −a a inversa aditiva do elemento a de um anel.
Se 0 é o elemento neutro de um anel A em relação à operação de soma, então a · 0 = 0 pois, como
0 = 0 + 0, tem-se pela propriedade distributiva a · 0 = a · 0 + a · 0, que implica 0 = a · 0 − (a · 0) =
a · 0 + a · 0 − (a · 0) = a · 0.

• Álgebras

Uma álgebra é um espaço vetorial V sobre um corpo K dotado de uma operação de produto binária
“·” dita produto da álgebra, de modo que as seguintes propriedades são satisfeitas
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 1 56/1195

1. O produto da álgebra é distributivo em relação a soma vetorial: para todos a, b e c ∈ V valem

a · (b + c) = a · b + a · c e (a + b) · c = a · c + b · c.

2. O produto por escalares comuta com o produto da álgebra e é distributivo em relação a ele: para
todos a, b ∈ V e α ∈ K vale

α(a · b) = (αa) · b = a · (αb).

Uma álgebra V é dita ser uma álgebra comutativa ou Abeliana26 se para todos a, b ∈ V tivermos

a · b = b · a.

Uma álgebra V é dita ser uma álgebra associativa se para todos a, b e c ∈ V tivermos

a · (b · c) = (a · b) · c.

Álgebras associativas são anéis.

Notação. Se A é uma álgebra associativa, podemos sem ambigüidade denotar o produto de dois de seus
elementos a, b ∈ A simplesmente por por ab. Pela mesma razão, em uma álgebra associativa produtos
triplos como a(bc) e (ab)c podem ser escritos sem ambigüidade como abc.
Devemos dizer que há muitas álgebras importantes encontradas na Fı́sica que não são nem comu-
tativas nem associativas. Por exemplo, a álgebras do produto vetorial em 3 não é nem comutativa


nem associativa.

• Álgebras de Lie

Uma classe especialmente importante de álgebras não-comutativas e não-associativas é formada


pelas chamadas álgebras de Lie.
Uma álgebra L (sobre um corpo K) é dita ser uma álgebra de Lie27 se seu produto, além das
propriedades 1 e 2 da página 55, satisfizer

1. Anti-comutatividade. Para todos a, b ∈ L vale a · b = −b · a.

2. Identidade de Jacobi28 . Para todos a, b e c ∈ L vale

a · (b · c) + c · (a · b) + b · (c · a) = 0. (1.22)

Por razões históricas o produto de dois elementos de uma álgebra de Lie é denotado pelo sı́mbolo
[a, b] em lugar de a · b.
26
Niels Henrik Abel (1802-1829).
27
Marius Sophus Lie (1842-1899).
28
Carl Gustav Jacob Jacobi (1804-1851).
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 1 57/1195

Seja A uma álgebra associativa. Podemos associar a A uma álgebra de Lie definindo o produto
[a, b] = ab − ba para a, b ∈ A. A anti-comutatividade é óbvia e a identidade de Jacobi segue do fato
que
[a, [b, c]] + [c, [a, b]] + [b, [c, a]]

= a(bc − cb) − (bc − cb)a + c(ab − ba) − (ab − ba)c + b(ca − ac) − (ca − ac)b

= abc − acb − bca + cba + cab − cba − abc + bac + bca − bac − cab + acb

= 0,
como facilmente se constata.

• Exemplos Básicos de Álgebras de Lie

Todos os exemplos aqui exibidos são relevantes na teoria dos grupos de Lie.
3
E. 1.47 Exercı́cio. Mostre que  dotado do produto vetorial usual é uma álgebra de Lie. 6

E. 1.48 Exercı́cio. Mostre que Mat ( , n) (ou Mat ( , n)), o conjunto de todas as matrizes n × n


reais (complexas) é uma álgebra de Lie com relação ao produto [A, B] = AB − BA. 6

E. 1.49 Exercı́cio. Mostre que o subconjunto de Mat ( , n) (ou de Mat ( , n)) formado pelas matrizes


com traço nulo é uma álgebra de Lie com relação ao produto [A, B] = AB − BA. 6

E. 1.50 Exercı́cio. Mostre que o subconjunto de Mat ( , n) (ou de Mat ( , n)) formado pelas matrizes


anti-simétricas, ou seja, tais que AT = −A, é uma álgebra de Lie com relação ao produto [A, B] =
AB − BA. 6

E. 1.51 Exercı́cio. Mostre que o subconjunto de Mat ( , n) formado pelas matrizes anti-autoadjuntas,
ou seja, tais que A∗ = −A, é uma álgebra de Lie (sobre o corpo dos reais!) com relação ao produto
[A, B] = AB − BA. 6

E. 1.52 Exercı́cio. Conclua igualmente que o subconjunto de Mat ( , n) formado pelas matrizes anti-
autoadjuntas, ou seja, tais que A∗ = −A, e de traço nulo (Tr (A) = 0) é uma álgebra de Lie (sobre o corpo
dos reais!) com relação ao produto [A, B] = AB − BA. 6

E. 1.53 Exercı́cio. Fixada uma matriz B ∈ Mat ( , n), mostre que o subconjunto de Mat ( , n)
 

formado pelas matrizes A com a propriedade AB = −BAT é uma álgebra de Lie real com relação ao
produto [A, B] = AB − BA. 6

E. 1.54 Exercı́cio. Fixada uma matriz B ∈ Mat ( , n), mostre que o subconjunto de Mat ( , n)
formado pelas matrizes A com a propriedade AB = −BA∗ é uma álgebra de Lie real com relação ao
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 1 58/1195

produto [A, B] = AB − BA. 6

Tratemos agora de exibir um exemplo básico de uma álgebra de Lie de dimensão infinita.

• Colchetes de Poisson

Sejam f (p, q) e g(p, q), com f : 2 →   e g : 2 → , duas funções reais, infinitamente


 

diferenciáveis, de duas variáveis reais p e q. Definimos os colchetes de Poisson 29 de f e g, denotados


por {f, g}, por
∂f ∂g ∂f ∂g
{f, g} := − .
∂p ∂q ∂q ∂p
É claro que {f, g} é igualmente uma função infinitamente diferenciável de p e q.
Os colchetes de Poisson satisfazem as seguintes propriedades: para quaisquer funções f, g e h como
acima, valem

1. Linearidade. {f, αg + βh} = α{f, g} + β{f, h} para quaisquer α, β ∈  . Analogamente


{αf + βg, h} = α{f, h} + β{g, h}.

2. Anti-simetria. {f, g} = −{g, f }.

3. Identidade de Jacobi30 . {f, {g, h}} + {h, {f, g}} + {g, {h, f }} = 0.

4. Identidade de Leibniz31 . {f, gh} = {f, g}h + g{f, h}.

E. 1.55 Exercı́cio importante. Verifique a validade das quatro propriedades acima. 6

As propriedades 1 e 2 e 3 indicam que o conjunto das funções 2 → infinitamente diferenciáveis


 

é uma álgebra de Lie com o produto definido pelos colchetes de Poisson. Trata-se de uma álgebra de
Lie de dimensão infinita.
A definição acima dos colchetes de Poisson pode ser facilmente generalizada para variedades dife-
renciáveis de dimensão par, mas não trataremos disso aqui por ora. Os colchetes de Poisson desempe-
nham um papel importante na Mecânica Clássica.

E. 1.56 Exercı́cio. Mostre que matrizes A, B, C de Mat ( , n) (ou de Mat ( , n)) também satisfazem


uma identidade de Leibniz: [A, BC] = [A, B]C + B[A, C]. Em verdade, essa identidade é válida em
qualquer álgebra associativa. Mostre isso também (a prova é idêntica ao caso de matrizes). 6

• Módulos

Seja A um anel. Um A-módulo à esquerda é um grupo Abeliano M (cujo produto, seguindo a


convenção, denotaremos por “+”) dotado de uma função A × M → M que a cada par a ∈ A, m ∈ M
29
Siméon Denis Poisson (1781-1840).
30
Carl Gustav Jacob Jacobi (1804-1851).
31
Gottfried Wilhelm von Leibniz (1646-1716).
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 1 59/1195

associa um elemento de M denotado por a · m com as seguintes propriedades: para todos a, b ∈ A e


todos m, n ∈ M

1. a · (m + n) = a · m + a · n,

2. (a + b) · m = a · m + b · m,

3. a · (b · m) = (ab) · m,

4. Se A possuir uma identidade e, então e · m = m.

Seja A um anel. Um A-módulo à direita é um grupo Abeliano M dotado de uma função M ×A → M


que a cada par a ∈ A, m ∈ M associa um elemento de M denotado por m · a com as seguintes
propriedades: para todos a, b ∈ A e todos m, n ∈ M

1. (m + n) · a = m · a + n · a,

2. m · (a + b) = m · a + m · b,

3. (m · b) · a = m · (ba),

4. Se A possuir uma identidade e, então m · e = m.

Sejam A e B dois anéis. Um bimódulo em relação a A e B é um grupo Abeliano M dotado de


duas funções A × M → M e M × B → M que a cada a ∈ A, b ∈ B e m ∈ M associam elementos de
M denotados por a · m e m · b, respectivamente, de modo que M seja um A-módulo à esquerda e um
B-módulo à direita e de modo que valha

1. a · (m · b) = (a · m) · b para todos a ∈ A, b ∈ B, m ∈ M .

1.2.5 Mais sobre Anéis


Apresentaremos em seqüência uma série de definições após as quais discutiremos exemplos relevantes.

• Anéis com Unidade

Um anel com unidade é um anel R com a propriedade de existir em R um elemento 1, chamado de


unidade, com 1 6= 0, tal que a · 1 = 1 · a = a para todo a ∈ R.

• Anéis sem Divisores de Zero

Dado um anel R um elemento não-nulo a ∈ R é dito ser um divisor de zero se existir pelo menos
um b ∈ R com b 6= 0 tal que a · b = 0 ou b · a = 0.
Se em um dado anel a relação a · b = 0 só for possı́vel se a = 0 ou b = 0 ou ambos, então esse anel
é dito ser um anel sem divisores de zero.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 1 60/1195

Exemplos. e são anéis sem divisores de zero (com os produtos e somas usuais), mas os anéis


Mat(n, ), n > 1, têm divisores de zero (com o produto e soma usual), pois tem-se, por exemplo,
    
1 0 0 0 0 0
= .
0 0 0 1 0 0

E. 1.57 Exercı́cio. Mostre que em 4 tem-se 2 · 2 = 0, ou seja, 2 é um divisor de zero. Há outros
divisores de zero? 6

E. 1.58 Exercı́cio. Mostre que em n existem divisores de zero caso n não seja um número primo. 6

• Anéis de Integridade

Um anel comutativo (ou seja, cujo produto é comutativo), com unidade e sem divisores de zero é
dito ser um anel de integridade ou também um domı́nio de integridade.
Para a relação entre anéis de integridade e corpos, vide adiante.

• Anéis de Divisão

Um anel R é dito ser um anel de divisão se possuir uma unidade multiplicativa 1, i.e., um elemento
tal que para todo a ∈ R vale a · 1 = 1 · a = a e se para todo a ∈ R, a 6= 0, existir uma inversa
multiplicativa em R, ou seja, um elemento denotado por a−1 tal que a · a−1 = a−1 · a = 1.

E. 1.59 Exercı́cio importante. Mostre que um anel de divisão não pode possuir divisores de zero.
Portanto, todo anel de divisão comutativo é também um anel de integridade. 6

Exemplos. Com as definições usuais , e são anéis de divisão mas não o é (falta a inversa).


Mat(n, ) com n > 1 também não é um anel de divisão com as definições usuais pois nem toda a
matriz é invertı́vel.
Outro exemplo de anel de divisão (não comutativo!) são os quatérnions, que serão discutidos à
página 87.

• Álgebras de Divisão

Uma álgebra A é dita ser uma álgebra de divisão se possuir uma unidade multiplicativa 1, i.e., um
elemento tal que para todo a ∈ A vale a · 1 = 1 · a = a e se para todo a ∈ A, a 6= 0, existir uma inversa
multiplicativa em A, ou seja, um elemento denotado por a−1 tal que a · a−1 = a−1 · a = 1.

• Corpos

Todo anel de divisão cujo produto “·” é comutativo é um corpo (verifique).

• Corpos Não-comutativos
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 1 61/1195

Como a única distinção entre as definições de corpos e de anéis de divisão é que para os primeiros a
comutatividade do produto é requerida, diz-se também por vezes que anéis de divisão não-comutativos
são corpos não-comutativos.

• Corpos e Anéis de Integridade

É bem claro pelas definições que todo corpo é também um anel de integridade. A reciproca é
parcialmente válida:
Teorema 1.7 Todo anel de integridade finito é um corpo. 2

Prova. Se A é um anel de integridade, tudo que precisamos é mostrar que todo elemento não-nulo de
A é invertı́vel. Seja a um elemento de A \ {0}. Definamos a aplicação α : A \ {0} → A dada por

α(y) = ay.

Note que, como A é um anel de integridade o lado direito é não nulo pois nem a nem y o são. Assim,
α é, em verdade, uma aplicação de A \ {0} em A \ {0} e, como tal, é injetora, pois se ay = az, segue
que a(y − z) = 0, o que só é possı́vel se y = z, pois A é um anel de integridade e a 6= 0. Agora,
uma aplicação injetora de um conjunto finito em si mesmo tem necessariamente que ser sobrejetora
(por que?). Assim, α é uma bijeção de A \ {0} sobre si mesmo. Como 1 ∈ A \ {0}, segue que existe
y ∈ A \ {0} tal que ay = 1, ou seja, a tem uma inversa. Como a é um elemento arbitrário de A \ {0},
segue que todo elemento de A \ {0} tem inversa e, portanto, A é um corpo.

Anéis de integridade infinitos não são necessariamente corpos:


Anti-exemplo. Um exemplo de um anel de integridade que não é um corpo é o conjunto de todos
os polinômios de em com o produto e soma usuais. Em verdade, os únicos polinômios que têm
inverso multiplicativo são os polinômios constantes não-nulos.

1.2.6 Ações e Representações

• Ações

Seja M um conjunto não-vazio e G um grupo. Uma função α : G × M → M é dita ser uma ação à
esquerda de G sobre M se as seguintes condições forem satisfeitas:

1. Para todo g ∈ G a função α(g, ·) : M → M é bijetora32 .

2. Se e é a identidade de G então α(e, ·) : M → M é a função identidade: α(e, x) = x para todo


x ∈ M.
32
Para g ∈ G fixo, α(g, ·) : M → M denota a função M 3 m 7→ α(g, m) ∈ M , ou seja, a função que a cada m ∈ M
associa α(g, m) ∈ M .
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 1 62/1195

3. Para todos g, h ∈ G e todo x ∈ M vale

α(g, α(h, x)) = α(gh, x). (1.23)

Uma função β : G × M → M é dita ser uma ação à direita de G sobre M se as seguintes condições
forem satisfeitas

1. Para todo g ∈ G a função β(g, ·) : M → M é bijetora.

2. Se e é a identidade de G então β(e, ·) : M → M é a função identidade: β(e, x) = x para todo


x ∈ M.

3. Para todos g, h ∈ G e todo x ∈ M vale

β(g, β(h, x)) = β(hg, x). (1.24)

Note-se que a distinção básica entre (1.23) e (1.24) é a ordem do produto no grupo. Se G é Abeliano
não há distinção entre uma ação à direita ou à esquerda.

E. 1.60 Exercı́cio. Seja α : G × M → M uma ação à esquerda de um grupo G em um conjunto M .


Mostre que β : G × M → M definida por β(g, x) = α(g −1 , x) é uma ação à direita de G em M . 6

É freqüente encontrar-se outras notações para designar ações de grupos em conjuntos. Uma ação à
esquerda α(g, x) é freqüentemente denotada por αg (x), de modo que a relação (1.23) fica αg (αh (x)) =
αgh (x). Para uma ação à direita, (1.24) fica βg (βh (x)) = βhg (x).
Talvez a notação mais conveniente seja denotar uma ação à esquerda α(g, x) simplesmente por g · x
ou apenas gx. A relação (1.23) fica g(hx) = (gh)x. Para uma ação à direita β(g, x) a notação fica x · g,
ou apenas xg, de modo que (1.24) fica (xh)g = x(hg). Essa notação justifica o uso da nomenclatura à
direita ou à esquerda para classificar as ações.
Seja F uma coleção de funções bijetoras de um conjunto M em si mesmo. Uma ação α : G×M → M
é dita ser uma ação de G em M pela famı́lia F se para todo g ∈ G as funções α(g, ·) : M → M forem
elementos do conjunto F.

E. 1.61 Exercı́cio. Seja G = SO(n) o grupo de todas as matrizes reais n × n ortogonais (ou seja, tais
que RT = R−1 , onde RT denota a transposta de R). Seja M o conjunto de todas as matrizes reais n × n
simétricas (ou seja, tais que AT = A). Mostre que αR (A) := RART , com R ∈ SO(n) e A ∈ M, é uma
ação à esquerda de G em M . Com as mesmas definições, mostre que β R (A) := RT AR é uma ação à direita
de G em M.
Sugestão. O único ponto que poderia ser difı́cil para alguns seria mostrar que, para cada R fixo, α R é
bijetora, ou seja, é sobrejetora e injetora. Para mostrar que α R é sobrejetora, note que se A é uma matriz
simétrica qualquer, podemos trivialmente escrever A = R(R T AR)RT , mostrando que A = αR (B), onde
B = RT AR é simétrica. Para provar que αR é injetora note que, se RA1 RT = RA2 RT , segue facilmente,
multiplicando-se por RT à esquerda e por R à direita, que A1 = A2 . 6
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 1 63/1195

E. 1.62 Exercı́cio. Seja G = SU(n) o grupo de todas as matrizes complexas n × n unitárias (ou seja,
tais que U ∗ = U −1 , onde U ∗ denota a adjunta de U : U ∗ = U T ). Seja M o conjunto de todas as matrizes
complexas n × n Hermitianas (ou seja, tais que A∗ = A). Mostre que αU (A) := U AU ∗ , com U ∈ SU(n)
e A ∈ M, é uma ação à esquerda de G em M. Com as mesmas definições, mostre que β U (A) := U ∗ AU é
uma ação à direita de G em M. 6

• Órbita de uma ação

Seja G um grupo e α : G × M → M uma ação (à esquerda ou à direita) de G sobre um conjunto


não-vazio M . Para m ∈ M , definimos a órbita de m pela ação α como sendo o conjunto Orb α (m) :=
{αg (m), g ∈ G} ⊂ M .
Claro está que para todo m ∈ M vale m ∈ Orbα (m).

E. 1.63 Exercı́cio. Mostre que para todo m ∈ M vale a afirmação que para todo m 0 ∈ Orbα (m) tem-se
Orbα (m0 ) = Orbα (m). 6

E. 1.64 Exercı́cio. Conclúa que se existe m ∈ M tal que Orbα (m) = M , então Orbα (m0 ) = M para
todo m0 ∈ M . 6

• Transitividade e Espaços Homogêneos

O fato descrito no Exercı́cio E. 1.64 conduz naturalmente às seguintes definições.


Seja G um grupo e α : G × M → M uma ação (à esquerda ou à direita) de G sobre um conjunto
não-vazio M . Dizemos que α age transitivamente em M se existir m ∈ M tal que {α g (m), g ∈ G} = M .
Em palavras, α age transitivamente em M se existir pelo menos um elemento de M cuja órbita é todo
M . Pelo Exercı́cio E. 1.63, se um elemento de M possui essa propriedade, então todos a possuem.
Se uma ação α age transitivamente em M dizemos que M é um espaço homogêneo do grupo G pela
a ação α, ou simplesmente um espaço homogêneo do grupo G.

• Representações de Grupos

Uma representação de um grupo é uma ação a esquerda do mesmo em um espaço vetorial pela
famı́lia das aplicações lineares invertı́veis agindo nesse espaço vetorial.
Sejam G um grupo e V um espaço vetorial sobre um corpo K. Uma representação de G em V é
uma função π : G × V → V tal que para todo g ∈ G as funções π(g, ·) : V → V sejam lineares e
bijetivas e satisfazem π(e, v) = v e π(g, π(h, v)) = π(gh, v) para todos g, h ∈ G e todo v ∈ V .
Devido à linearidade é conveniente denotar π(g, v) por π(g)v. Uma representação satisfaz assim:

1. Para todo g ∈ G, π(g) é uma aplicação linear bijetora de V em V :

π(g)(αu + βv) = απ(g)u + βπ(g)v

para todos α, β ∈ K e todos u, v ∈ V .


JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 1 64/1195

2. π(e) = , o operador identidade em V .


3. Para todos g, h ∈ G vale
π(g)π(h) = π(gh).

• Representações de Álgebras

Seja A uma álgebra sobre um corpo K e V um espaço vetorial sobre o mesmo corpo. Uma repre-
sentação de A em V é uma famı́lia de funções lineares de V em V , {π(a), a ∈ A}, satisfazendo

1. Para todo a ∈ A, π(a) : V → V é uma aplicação linear, ou seja

π(a)(αu + βv) = απ(a)u + βπ(a)v

para todos α, β ∈ K e todos u, v ∈ V .


2. Para todos α, β ∈ K e todos a, b ∈ A vale

π(αa + βb) = απ(a) + βπ(b).

3. Para todos a, b ∈ A
π(ab) = π(a)π(b).

Uma representação π de uma álgebra A em um espaço vetorial V é dita ser uma representação fiel
se π(a) = 0 só ocorrer para a = 0.
Uma representação π de uma álgebra A em um espaço vetorial V é dita ser uma representação
não-degenerada se π(a)v = 0 para todo a ∈ A só ocorrer para v = 0.

1.2.7 Morfismos, Homomorfismos, Epimorfismos, Isomorfismos, Mono-


morfismos, Endomorfismos e Automorfismos
Dos radicais gregos hómos: semelhante, igual; mónos: um, sozinho; epi: sobre; ı́sos: semelhante, igual; endon: para dentro, dentro; autós:
próprio, mesmo e morphé: forma.

Nesta seção nos limitaremos a listar algumas definições básicas que serão usadas e desenvolvidas no
restante do texto, onde também exemplos serão apresentados. A pretensão não é a de desenvolver os
assuntos, mas de apresentar as definições para referência futura.
Em termos informais um morfismo entre duas estruturas de um mesmo tipo (dois grupos, dois
espaços vetoriais, duas álgebras, dois anéis etc.) é uma função entre as mesmas que respeita as operações
de produto lá definidas.

• Morfismos em Grupos

Dados dois grupos G e H, com unidades eG e eH , respectivamente, uma função φ : G → H é dita


ser um homomorfismo ou morfismo de grupos se φ(eG ) = eH e se φ(a · b) = φ(a) · φ(b) para todos
a, b ∈ G.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 1 65/1195

Dados dois grupos G e H, com unidades eG e eH , respectivamente, uma função φ : G → H é dita


ser um anti-homomorfismo se φ(eG ) = eH e se φ(a · b) = φ(b) · φ(a) para todos a, b ∈ G. Por exemplo,
a aplicação φ : G → G tal que φ(g) = g −1 é um anti-homomorfismo (verifique).
Um homomorfismo φ : G → H entre dois grupos é dito ser um monomorfismo se for injetivo.
Um homomorfismo φ : G → H entre dois grupos é dito ser um epimorfismo se for sobrejetor.
Um homomorfismo φ : G → H entre dois grupos é dito ser um isomorfismo se for bijetor, em cujo
caso a aplicação inversa φ−1 : H → G é também um homomorfismo.
Se dois grupos G e H forem tais que exista um isomorfismo φ entre ambos dizemos que G e H são
isomorfos (por φ) e denotamos esse fato por G 'φ H, ou simplesmente por G ' H.

E. 1.65 Exercı́cio importante. Mostre que a relação de isomorfia entre grupos é uma relação de
equivalência. 6

Um homomorfismo ρ de um grupo G em si mesmo ρ : G → G é dito ser um endomorfismo de G.


Um isomorfismo α de um grupo G em si mesmo α : G → G é dito ser um automorfismo de G.
Um exemplo básico de automorfismo é o seguinte: seja g ∈ G fixo. Definimos αg : G → G por
αg (a) = g −1 ag para todo a ∈ G.

E. 1.66 Exercı́cio. Mostre que para cada g ∈ G fixo, αg é um homomorfismo e que sua inversa é αg−1 .
6

Um automorfismo de um grupo G é dito ser um automorfismo interno se for da forma αg para


algum g ∈ G.
Muitas das definições apresentadas acima têm seus análogos em outras estruturas, como espaços
vetoriais, álgebras, anéis, módulos etc. Trataremos de alguns casos.

• Morfismos em Espaços Vetoriais

Sejam U e V dois espaços vetoriais sobre o mesmo corpo K. Uma função φ : U → V é dita ser um
homomorfismo ou morfismo de espaços vetoriais se φ(α1 u1 + α2 u2 ) = α1 φ(u1 ) + α2 φ(u2 ) para todos
α1 , α2 ∈ K e todos u1 , u2 ∈ U .
Sejam U e V dois espaços vetoriais sobre o mesmo corpo K. Uma função φ : U → V é dita ser um
isomorfismo de espaços vetoriais se for um morfismo de espaços vetoriais, e se for bijetora.
Se dois espaços vetoriais U e V sobre o mesmo corpo forem tais que exista um isomorfismo φ entre
ambos dizemos que U e V são isomorfos (por φ) e denotamos esse fato por U 'φ V , ou simplesmente
por U ' V .

E. 1.67 Exercı́cio importante. Mostre que a relação de isomorfia entre espaços vetoriais é uma relação
de equivalência. 6

Em espaços vetoriais os conceitos de mono-, endo- e e automorfismo não são muito empregados.
Em verdade, morfismos de espaços vetoriais são mais freqüentemente denominados operadores lineares
ou aplicações lineares, como matrizes, por exemplo.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 1 66/1195

No caso de espaços vetoriais sobre o corpo dos complexos existem também os conceitos de anti-
homomorfismo, anti-isomorfismo etc. Sejam U e V dois espaços vetoriais sobre . Uma função φ :
U → V é dita ser um anti-homomorfismo ou anti-morfismo de espaços vetoriais se φ(α 1 u1 + α2 u2 ) =
α1 φ(u1 )+α2 φ(u2 ) para todos α1 , α2 ∈ e todos u1 , u2 ∈ U . O conceito de anti-isomorfismo é análogo.

• Morfismos em Álgebras

Sejam A e B duas álgebras (sobre o mesmo corpo K, como espaços vetoriais). Uma função φ :
A → B é dita ser um homomorfismo ou morfismo de álgebras se for um morfismo de espaços vetoriais
(ou seja φ(α1 a1 + α2 a2 ) = α1 φ(a1 ) + α2 φ(a2 ) para todos α1 , α2 ∈ K e todos a1 , a2 ∈ A) e se
φ(a1 · a2 ) = φ(a1 ) · φ(a2 ) para todos a1 , a2 ∈ A.
Sejam A e B duas álgebras sobre o mesmo corpo K. Uma função φ : A → B é dita ser um
isomorfismo de álgebras se for um morfismo de álgebras e se for bijetora.
Se duas álgebras A e B sobre o mesmo corpo forem tais que exista um isomorfismo φ entre ambos
dizemos que A e B são isomorfas (por φ) e denotamos esse fato por A 'φ B, ou simplesmente por
A ' B.

E. 1.68 Exercı́cio importante. Mostre que a relação de isomorfia entre álgebras é uma relação de
equivalência. 6

Um morfismo de álgebra ρ de uma álgebra A em si mesma ρ : A → A é dito ser um endomorfismo


de A.

1.3 Cosets, Sub-Grupos Normais e o Grupo Quociente. O


Centro de um Grupo

1.3.1 Cosets

• Cosets à esquerda, ou “left cosets”

Seja G um grupo e H um sub-grupo de G. Podemos definir em G uma relação de equivalência, que


denotaremos por ∼H l (o sub-ı́ndice “l” denotando “left”) dizendo que dois elementos x e y de G são
−1
equivalentes se x y ∈ H. Representaremos por x ∼H l y o fato de x e y serem equivalentes no sentido
acima.

E. 1.69 Exercı́cio importante. Verifique que a definição acima corresponde de fato a uma relação de
equivalência. 6

Denotemos por (G/H)l a coleção das classes de equivalência de G pela relação ∼H


l . O conjunto
(G/H)l é denominado coset à esquerda de G por H, ou left coset de G por H.
Seja [·]l a aplicação G → (G/H)l que associa a cada elemento de G a classe de equivalência a qual
o elemento pertence. A aplicação [·]l é denominada aplicação quociente à esquerda associada a H.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 1 67/1195

Note-se que [·]l é sobrejetora mas, em geral, não é injetora, pois se g 0 ∼H 0


l g então [g ]l = [g]l . Com isso,
os elementos de (G/H)l poderão ser denotados por [g]l com g ∈ G, o que freqüentemente faremos.
Podemos identificar [g]l com o conjunto gH = {gh, h ∈ H} ⊂ G. De fato, g 0 ∈ gH se e somente se
existe h ∈ H tal que g 0 = gh e, portanto, se e somente se g −1 g 0 ∈ H, ou seja, se e somente se g ∼H 0
l g.

• Cosets à direita, ou “right cosets”

Seja G um grupo e H um sub-grupo de G. Podemos definir em G uma relação de equivalência, que


denotaremos por ∼H r (o sub-ı́ndice “r” denotando “right”) dizendo que dois elementos x e y de G são
equivalentes se xy −1 ∈ H. Representaremos por x ∼H r y o fato de x e y serem equivalentes no sentido
acima.

E. 1.70 Exercı́cio importante. Verifique que a definição acima corresponde de fato a uma relação de
equivalência. 6

Denotemos por (G/H)r a coleção das classes de equivalência de G pela relação ∼H


r . O conjunto
(G/H)r é denominado coset à direita de G por H, ou right coset de G por H.
Seja [·]r a aplicação G → (G/H)r que associa a cada elemento de G a classe de equivalência a qual o
elemento pertence. A aplicação [·]r é denominada aplicação quociente à direita associada a H. Note-se
que [·]r é sobrejetora mas, em geral, não é injetora, pois se g 0 ∼H 0
r g então [g ]r = [g]r . Com isso, os
elementos de (G/H)r poderão ser denotados por [g]r com g ∈ G, o que freqüentemente faremos.
Podemos identificar [g]r com o conjunto Hg = {hg, h ∈ H} ⊂ G. De fato, g 0 ∈ Hg se e somente se
existe h ∈ H tal que g 0 = hg e, portanto, se e somente se g 0 g −1 ∈ H, ou seja, se e somente se g 0 ∼H
r g.

Doravante, denotaremos ∼H H
l simplesmente por ∼l e ∼r por ∼r , ficando o subgrupo H subentendido.

• Ação à esquerda de G sobre (G/H)l

É sempre possı́vel definir uma ação à esquerda de G sobre o coset à esquerda (G/H) l , a qual age
transitivamente em (G/H)l (vide definição à página 63). Isso faz de (G/H)l um espaço homogêneo de
G (vide definição à página 63).
Seja G um grupo, H um sub-grupo de G e seja o coset à esquerda (G/H)l , definido acima. Defina

α : G × (G/H)l → (G/H)l tal que G × (G/H)l 3 (g, [f ]l ) 7→ αg ([f ]l ) := [gf ]l ∈ (G/H)l .

Então, α define uma ação à esquerda de G sobre (G/H)l . De fato, tem-se que

1. Para cada g ∈ G, αg : (G/H)l → (G/H)l é bijetora, pois se existem f1 , f2 ∈ G tais que


[gf1 ]l = [gf2 ]l , então gf1 ∼l gf2 , ou seja, (gf1 )−1 (gf2 ) ∈ H, ou seja, (f1 )−1 f2 ∈ H. Isso estabelece
que f1 ∼l f2 , ou seja, que [f1 ]l = [f2 ]l , provando que αg : (G/H)l → (G/H)l é injetora. Note-se
que αg : (G/H)l → (G/H)l é sobrejetora, pois αg ([g −1 f ]l ) = [f ]l e variando f em G, [f ]l varre
todo (G/H)l .

2. Para a identidade e ∈ G, αe ([f ]l ) = [ef ]l = [f ]l para todo f ∈ G, provando que αe : (G/H)l →


(G/H)l é a aplicação identidade.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 1 68/1195

3. Para todos g, h ∈ G vale αg (αh ([f ]l )) = αg ([hf ]l ) = [ghf ]l = αgh ([f ]l ) para qualquer f ∈ G.

Isso provou que α : G × (G/H)l → (G/H)l é uma ação à esquerda de G em (G/H)l .


Não é difı́cil ver que a ação α age transitivamente em (G/H)l . De fato, se e é a unidade de G, então
αg ([e]l ) = [g]l e variando g por todo G a imagem [g]l varre todo (G/H)l .

• Ação à direita de G sobre (G/H)r

É sempre possı́vel definir uma ação à direita de G sobre o coset à direita (G/H) r , a qual age
transitivamente em (G/H)r (vide definição à página 63). Isso faz de (G/H)r um espaço homogêneo de
G (vide definição à página 63).
Seja G um grupo, H um sub-grupo de G e seja o coset à direita (G/H)r , definido acima. Defina

β : G × (G/H)r → (G/H)r tal que G × (G/H)r 3 (g, [f ]r ) 7→ βg ([f ]r ) := [f g]r ∈ (G/H)r .

Então, β define uma ação à direita de G sobre (G/H)r . De fato, tem-se que

1. Para cada g ∈ G, βg : (G/H)r → (G/H)r é bijetora, pois se existem f1 , f2 ∈ G tais que


[f1 g]r = [f2 g]r , então f1 g ∼r f2 g, ou seja, (f1 g)(f2 g)−1 ∈ H, ou seja, f1 (f2 )−1 ∈ H. Isso
estabelece que f1 ∼r f2 , ou seja, que [f1 ]r = [f2 ]r , provando que βg : (G/H)r → (G/H)r é
injetora. Note-se que βg : (G/H)r → (G/H)r é sobrejetora, pois βg (f [g −1 ]r ) = [f ]r e variando f
em G, [f ]r varre todo (G/H)r .
2. Para a identidade e ∈ G, βe ([f ]r ) = [f e]r = [f ]r para todo f ∈ G, provando que βe : (G/H)r →
(G/H)r é a aplicação identidade.
3. Para todos g, h ∈ G vale βg (βh ([f ]r )) = βg ([f h]r ) = [f hg]r = βhg ([f ]r ) para qualquer f ∈ G.

Isso provou que β : G × (G/H)r → (G/H)r é uma ação à direita de G em (G/H)r .


Não é difı́cil ver que a ação β age transitivamente em (G/H)r . De fato, se e é a unidade de G,
então αg ([e]r ) = [g]r e variando g por todo G a imagem [g]r varre todo (G/H)r .

Os cosets (G/H)l e (G/H)r podem ser identificados e transformados em grupos se uma certa
hipótese for feita sobre o sub-grupo H e sua relação com G. Esse é nosso assunto na Seção 1.3.2.

1.3.2 Sub-Grupos Normais e o Grupo Quociente

• Sub-Grupos Normais

Seja G um grupo. Um sub-grupo N de G é dito ser normal se gng −1 ∈ N para todo g ∈ G e todo
n ∈ N . Se N é um sub-grupo normal de G denotamos esse fato escrevendo N  G. Observe que todo
sub-grupo de um grupo Abeliano G é normal.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 1 69/1195

E. 1.71 Exercı́cio. Sejam G e H dois grupos e ϕ : G → H um homomorfismo. Mostre que Ran (ϕ) :=
{ϕ(g)| g ∈ G} é um sub-grupo de H. 6

E. 1.72 Exercı́cio importante. Sejam G e H dois grupos e ϕ : G → H um homomorfismo. Seja e H a


unidade de H. Mostre que Ker (ϕ) := {g ∈ G| ϕ(g) = eH } é um sub-grupo normal de G. 6

Nota sobre a nomenclatura dos dois exercı́cios acima. O sı́mbolo Ran provém da palavra inglesa “range” (“alcance”, em português) e é
freqüentemente empregado como sinônimo da imagem de uma função ou aplicação. O sı́mbolo Ker provem do inglês “kernel” (“núcleo” ou
“caroço”, em português).

• Cosets por subgrupos normais

Nesse contexto, a seguinte proposição é fundamental.


Proposição 1.8 Seja G um grupo e seja N um sub-grupo de G. Então, uma condição necessária e
suficiente para que possamos identificar (G/N )l com (G/N )r , ou seja, para que tenhamos [g]l = [g]r
para todo g ∈ G, é que N  G, ou seja, que N seja um sub-grupo normal de G. 2

Prova. Por definição, g 0 ∈ [g]l se e somente existe n ∈ N tal que g −1 g 0 = n, o que é verdade se e
somente se g 0 g −1 = gng −1 . Mas g 0 ∈ [g]r se e somente se g 0 g −1 ∈ N . Assim [g]l = [g]r para todo g ∈ G
se e somente se gng −1 ∈ N para todo g ∈ G e n ∈ N , o que é verdade se somente se N é um subgrupo
normal de G.

Com isso, caso N  G, definimos [g] := [g]l = [g]r para todo g ∈ G e definimos o coset de G por N
por G/N := (G/N )l = (G/N )r , ou seja, G/N = {[g], g ∈ G}.

Advertência. O leitor deve ser advertido aqui que, infelizmente, é comum na literatura denotar o
coset à esquerda (G/H)l por G/H, mesmo quando H não é normal (vide, por exemplo, [114] ou [55],
entre outros). Evitaremos fazer isso, pois isso pode levar a uma confusão de conceitos.

• Ações à direita e à esquerda sobre o coset por um subgrupo normal

Se H é um subgrupo qualquer de G, definimos páginas acima uma ação transitiva à esquerda


α : G × (G/H)l → (G/H)l e uma ação transitiva à direita β : G × (G/H)r → (G/H)r . Fica claro
pela Proposição 1.8 que se N  G, podemos definir tanto
α : G × (G/N ) → G/N tal que G × (G/N ) 3 (g, [f ]) 7→ αg ([f ]) := [gf ] ∈ G/N
como uma ação à esquerda de G sobre G/N quanto
β : G × (G/N ) → G/N tal que G × (G/N ) 3 (g, [f ]) 7→ βg ([f ]) := [f g] ∈ G/N
como uma ação à direita de G sobre G/N . Ambas as ações agem transitivamente.

• O Grupo Quociente de G por N


JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 1 70/1195

Sub-grupos normais são importantes, pois com eles podemos fazer da coleção de classes de equi-
valência G/N um grupo, denominado grupo quociente de G por N . A construção é a seguinte.
Seja N  G. Podemos fazer de G/N um grupo definindo o produto como [g]N [h]N = [gh]N . É
muito fácil ver que, se esta expressão está bem definida, ela de fato representa um produto associativo
na coleção de classes de equivalência G/N . O elemento neutro seria a classe [e] N , onde e é a identidade
de g. Por fim, [g]−1 −1
N = [g ]N . O ponto não trivial é mostrar que a definição de produto como
[g]N [h]N = [gh]N faz sentido, ou seja, é independente dos elementos tomados nas classes de g e h. Para
isso precisaremos que N seja normal.
O que temos de fazer é mostrar que se g 0 ∼N g e h0 ∼N h então g 0 h0 ∼N gh, ou seja, precisamos
mostrar que se g 0 g −1 ∈ N e h0 h−1 ∈ N então g 0 h0 (gh)−1 ∈ N . Mas, de fato, tem-se que

g 0 h0 (gh)−1 = g 0 h0 h−1 g −1 = (g 0 g −1 )[g(h0 h−1 )g −1 ].

Agora, por hipótese, h0 h−1 ∈ N . Daı́, como N é normal (é aqui que essa hipótese entra pela primeira
vez), g(h0 h−1 )g −1 ∈ N . Como, também pela hipótese, g 0 g −1 ∈ N e N é um sub-grupo, concluı́mos que
g 0 h0 (gh)−1 ∈ N , ou seja, g 0 h0 ∼N gh. Assim [g]N [h]N = [gh]N está bem definido e faz das classes G/N
um grupo. Esse grupo é denominado de grupo quociente de G por N .
A noção de grupo quociente é muito importante na teoria de grupos e iremos explorar algumas das
aplicações nessas notas. Adiante usarêmo-la para construir a noção de produto tensorial e soma direta
de vários objetos, tais como grupos, álgebras etc. A noção de grupo quociente é importante por permitir
estudar a relação de certos grupos entre si. Mais adiante, por exemplo, mostraremos que o grupo SO(3)
é isomorfo ao grupo SU (2)/{ , − }, um resultado de direto interesse fı́sico na Mecânica Quântica. A
noção de grupo quociente é também muito importante em problemas combinatórios envolvendo grupos,
mas não falaremos disso aqui. Para uma discussão mais ampla, vide [113], [114] ou [93].

1.3.3 O Centro de um Grupo. Centralizadores e Normalizadores

• O Centro de um Grupo

Seja G um grupo. O conjunto dos elementos de G que têm a propriedade de comutarem com todos
os elementos de G é denominado o centro do grupo G e é freqüentemente denotado por 33 Z(G). Em
sı́mbolos:
Z(G) := {h ∈ G| hg = gh para todo g ∈ G} .

Note que Z(G) nunca é um conjunto vazio, pois o elemento neutro de G sempre pertence e Z(G).
Em alguns grupos, porém, esse pode ser o único elemento de Z(G). Esse é o caso, por exemplo, do
grupo de permutações de n elementos (por que?).

E. 1.73 Exercı́cio. Mostre que Z(G) é sempre um subgrupo Abeliano de G. 6

É elementar constatar que para qualquer grupo G, seu centro Z(G) é um subgrupo normal de G.
É igualmente elementar constatar que se G é Abeliano então Z(G) = G.
33
O emprego da letra Z provavelmente provem da palavra alemã “Zentrum”.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 1 71/1195

• Centralizadores e Normalizadores

Seja G um grupo e F um sub-conjunto não vazio de G.


Dado um elemento h ∈ G, denotamos por hF h−1 o conjunto de todos os elementos de G que sejam
da forma hf h−1 para algum f ∈ F , ou seja, hF h−1 := {hf h−1 , f ∈ F }.
O chamado normalizador de F (em G), denotado por N (F, G) (ou simplesmente por N (F ), quando
G é subentendido), é o conjunto de todos os elementos g ∈ G tais que gF g −1 = F .
O chamado centralizador de F (em G), denotado por C(F, G) (ou simplesmente por C(F ), quando
G é subentendido), é o conjunto de todos os elementos de G que comutam com todos os elementos de
F:
C(F, G) := {g ∈ G| gf = f g para todo f ∈ F }.

E. 1.74 Exercı́cio. Mostre que o centralizador de F ⊂ G é um sub-grupo de G. 6

E. 1.75 Exercı́cio. Se F ⊂ G, mostre que o normalizador N (F ) ≡ N (F, G) de F em G é um sub-grupo


de G. Mostre que se F é um subgrupo de G então F é normal em relação a N (F ) (ou seja, F  N (F )) e
que se H é um subgrupo de G tal que F é normal em relação a H (ou seja, F  H), então H ⊂ N (F ) e,
portanto, N (F ) é o maior subgrupo de G em relação ao qual F é normal. 6

• O Centro de GL( , n)

Como exercı́cio vamos determinar o centro de GL( , n). Se A ∈ Z(GL( , n)) então AB = BA
para toda B ∈ GL( , n). Tomemos, em particular, uma matriz B da forma B = + E a, b , onde E a, b ,
com a, b ∈ {1, . . . , n}, é a matriz cujo elemento ij é nulo a menos que i = a e que j = b, em cujo
caso (E a, b )ij = 1. Em sı́mbolos, (E a, b )ij = δia δjb . (Antes de prosseguir, convença-se que + E a, b ∈
GL( , n), notando que det( + E a, b ) 6= 0). Agora, como AB = BA, segue que AE a, b = E a, b A. Pela
regra de produto de matrizes, isso significa
n
X n
X
(AE a, b )ij = Aik (E a, b )kj = Aik δka δjb = Aia δjb
k=1 k=1

q
n
X n
X
a, b a, b
(E A)ij = (E )ik Akj = δia δkb Akj = Abj δia .
k=1 k=1

Assim, Aia δjb = Abj δia . Tomando-se j = b, concluı́mos Aia = Abb δia . Como a e b são arbitrários,
concluı́mos dessa igualdade que Abb = λ, constante independente de b. Daı́, Aia = λδia , o que significa
que A = λ . Como det(A) 6= 0, devemos ter λ 6= 0.
Para futura referência expressamos nossas conclusões na forma de uma proposição:
Proposição 1.9 O centro do grupo GL( , n), ou seja, Z(GL( , n)), coincide com o conjunto de
todas as matrizes da forma λ , com λ 6= 0, ou seja, é o conjunto das matrizes não-nulas que são
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 1 72/1195

múltiplos da unidade. Em sı́mbolos,

Z(GL( , n)) = {λ , λ ∈ , λ 6= 0} .

Como conseqüência podemos afirmar que se uma matriz A ∈ Mat ( , n) comuta com todas as demais
matrizes de Mat ( , n) então A = λ para algum λ ∈ . 2

E. 1.76 Exercı́cio. Mostre que o centro de SL( , n) é o conjunto de todas as matrizes da forma λ ,
com λ ∈ satisfazendo λn = 1. Mostre que esse grupo é isomorfo ao grupo n . 6

E. 1.77 Exercı́cio. Mostre que o centro de SL( , n) é o conjunto de todas as matrizes da forma λ ,


com λ ∈ satisfazendo λn = 1. Esse grupo é { } quando n é ı́mpar e { , − } quando n é par. (Lembre-se




que SL( , n) é formado apenas por matrizes reais).


 6

1.4 O Produto Direto e o Produto Semi-Direto de Grupos


Vamos aqui descrever dois procedimentos importantes que permitem construir um grupo a partir de
dois outros grupos dados.
Sejam G e H dois grupos, cujas identidades são eG e eH , respectivamente. É por vezes muito
importante fazer do produto Cartesiano G × H um grupo.

• O Produto Direto de Grupos

A maneira mais fácil é definir o produto de dois pares ordenados (g1 , h1 ), (g2 , h2 ), com g1 , g2 ∈ G
e h1 , h2 ∈ H, por
(g1 , h1 ) · (g2 , h2 ) := (g1 g2 , h1 h2 ).
O leitor pode facilmente se convencer que esse produto é associativo, que (e G , eH ) é o elemento neutro
e que (g, h)−1 = (g −1 , h−1 ).
Isso faz de G × H um grupo, denominado produto direto de G e H. Esse grupo é por vezes denotado
por G ⊗ H.

E. 1.78 Exercı́cio. Mostre que G ⊗ H e H ⊗ G são isomorfos. 6

A definição acima pode ser amplamente generalizada. Seja Gs ,Qs ∈ Λ, uma coleção de grupos
indexados por s ∈ Λ. ConsideremosSo produto Cartesiano G := s∈Λ Gs , definido como sendo a
Λ → s∈Λ Gs , com f (s) ∈ Gs . Então, podemos fazer de G um grupo
coleção de todasQas funções f :Q
definindo para s∈Λ f1 (s) , s∈Λ f2 (s) ∈ G o produto
! ! !
Y Y Y
f1 (s) · f2 (s) = f1 (s)f2 (s) .
s∈Λ s∈Λ s∈Λ
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 1 73/1195

Como facilmente se vê, esse produto faz de G um grupo, denominado produto direto da coleção de
grupos Gs , s ∈ Λ.

• O Produto Semi-Direto de Grupos

Dados dois grupos G e H há uma outra maneira de fazer de G × H um grupo além do produto
direto. Para tal é necessário que exista uma ação de G em H por automorfismos de H. Expliquemos
melhor isso.
Lembremos que um automorfismo α de um grupo H é um isomorfismo de H em si mesmo α : H →
H. Uma ação (à esquerda) de G sobre H por automorfismos é um função α : G × H → H tal que a
cada par (g, h) ∈ G × H associa um elemento denotado por αg (h) de H de tal forma que as seguintes
condições sejam satisfeitas:

1. Para todo g ∈ G, a função αg (·) : H → H é um automorfismo de H, ou seja, αg (h)αg (h0 ) =


αg (hh0 ), sendo que αg (·) : H → H é bijetora com (αg )−1 = αg−1 .

2. Para todo h ∈ H vale αeG (h) = h.

3. Para todo h ∈ H vale αg (αg0 (h)) = αgg0 (h) para quaisquer g, g 0 ∈ G.

Acima eG e eH são as unidades de G e H, respectivamente.

E. 1.79 Exercı́cio-exemplo. Um exemplo importante é o seguinte. Seja N  G. Então, com n ∈ N ,


αg (n) := gng −1 define uma ação (à esquerda) de G sobre N por automorfismos. Verifique! 6

Pela definição geral, tem-se pelas propriedades 1, 2 e 3 acima que para quaisquer g ∈ G e h ∈ H

αg (eH )h = αg (eH )αg (αg−1 (h)) = αg (eH αg−1 (h)) = αg (αg−1 (h)) = h,

o que implica αg (eH ) = eH para todo g ∈ G.


Se G e H são grupos e α : G × H → H é uma ação à esquerda de G sobre H por automorfismos,
então podemos definir em G×H um produto de dois pares ordenados (g1 , h1 ), (g2 , h2 ), com g1 , g2 ∈ G
e h1 , h2 ∈ H, por
(g1 , h1 ) · (g2 , h2 ) := (g1 g2 , h1 αg1 (h2 )).

E. 1.80 Exercı́cio importante. Mostre que esse produto é associativo, que (e G , eH ) é a unidade e que
para quaisquer g ∈ G, h ∈ H tem-se (g, h)−1 = (g −1 , αg−1 (h−1 )). 6

Com isso G × H adquire a estrutura de um grupo, denominado produto semi-direto de G por H


pelo automorfismo α : G × H → H, ou simplesmente produto semi-direto de G por H quando um
automorfismo α : G × H → H especı́fico é subentendido. Na literatura o produto semi-direto de G por
H é denotado de várias formas: por G ×α H, por G ⊗α H, por Gsα H, ou por por GsH quando um
automorfismo α : G × H → H especı́fico é subentendido. Nestas notas adotaremos as duas últimas
formas.

• Exemplos
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 1 74/1195

I. Seja G um grupo e N  G. Então, para g1 , g2 ∈ G e n1 , n2 ∈ N o produto

(g1 , n1 ) · (g2 , n2 ) := (g1 g2 , n1 g1 n2 g1−1 )

define o grupo GsN , produto semi-direto de um grupo G por um sub-grupo normal N através do
automorfismo natural.
II. Considere o grupo G, formado por todos os números reais não-nulos com o produto dado pela
multiplicação usual e o grupo H, formado por todos os reais com o produto dado pela soma: G =
( \ {0}, ·) e H = ( , +).
 

Para todo a ∈ \ {0} e x ∈ definimos α : G × H → H por αa (x) := ax. Para cada a ∈ G, tem-se
 

que αa é bijetora, com inversa dada por α1/a . Fora isso, αa (x) + αa (y) = ax + ay = a(x + y) = αa (x + y).
Assim, αa é um automorfismo (condição 1. da definição acima). Fora isso, para todo x ∈ H, α 1 (x) = x
(condição 2.). Por fim, para todo x ∈ H, αa (αb (x)) = abx = αab (x), para quaisquer a, b ∈ G (condição
3.). Concluı́mos que α é uma ação à esquerda de G sobre H por automorfismos.
Assim, fazemos de G × H um grupo Gsα H com o produto

(a, x) · (b, y) := (ab, x + ay) .

O elemento neutro é o par (1, 0) e (a, x)−1 = (1/a, −x/a).


Para interpretar o que esse grupo Gsα H significa, vamos definir uma ação34 Γ de Gsα H sobre o
conjunto da seguinte forma. Para (a, x) ∈ Gsα H e z ∈ , definimos
 

Γ((a, x), z) := az + x.

Para verificar que isso é uma ação notemos as seguintes propriedades: i. para cada (a, x) fixo
Γ((a, x), z) é uma função bijetora de em (lembre-se que a 6= 0). ii. Para todo z ∈ ,
  

Γ((1, 0), z) = z.

iii. Γ((a, x), Γ((b, y), z)) = Γ((a, x), bz + y) = a(bz + y) + x = abz + (x + ay)

= Γ((ab, x + ay), z) = Γ((a, x) · (b, y), z).

Isso mostrou que Γ é uma ação de Gsα H sobre o conjunto . Como vemos, a ação de um elemento


(a, x) consiste em uma combinação de uma multiplicação por a 6= 0 seguida por uma translação por
x ∈ . Isso exibe o significado geométrico do grupo Gsα H. Vamos a um outro exemplo semelhante.


III. Considere o conjunto de todas as operações do espaço tridimensional que envolvem rotações e
translações. Por exemplo, considere-se a operação na qual cada vetor ~x é primeiramente rodado por
uma matriz de rotação R ∈ SO(3) e em seguida é transladado por um vetor ~x0 :

~x 7→ R~x + ~x0 . (1.25)

A composição de duas de tais operações conduz à transformação ~x 7→ R 0 (R~x + ~x0 ) + ~x00 , ou seja,

~x 7→ (R0 R)~x + ~x00 + R0 ~x0 . (1.26)


34
O conceito de ação de um grupo em um conjunto foi definido à página 61.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 1 75/1195

O espaço vetorial 3 é naturalmente um grupo Abeliano em relação à adição de vetores. Se R ∈




SO(3), αR (~x0 ) := R~x0 define uma ação por automorfismos de SO(3) sobre 3 . A expressão (1.26) 

inspira a definição do produto semi-direto SO(3)sα 3 por 

(R0 , ~x00 ) · (R, ~x0 ) = (R0 R, ~x00 + R0~x0 ).

E. 1.81 Exercı́cio. Verifique que a transformação (1.25) define uma ação à esquerda do grupo SO(3)s α 3 

sobre o conjunto 3 .  6

n
Definição. Os grupos En := SO(n)sα  são denominados grupos Euclidianos3536 .
IV. Seja V um espaço vetorial (e, como tal, um grupo Abeliano em relação à soma de vetores) e seja
Aut(V ) a coleção de todas as aplicações lineares bijetoras de V em V .
n n
Por exemplo V =  e Aut(  ) é o conjunto de todas as matrizes reais n × n invertı́veis.
Então, fazemos de Aut(V ) × V um grupo, definindo

(A, v) · (B, u) := (AB, v + Au).

Esse grupo é por vezes denominado grupo afim do espaço vetorial V .


Observação. O caso V =  corresponde exatamente ao exemplo II, acima.
Mencionamos, por fim, que o grupo de Poincaré, introduzido à página 628, é também um exemplo
de um grupo definido como um produto semi-direto de dois grupos, a saber, o produto semi-direto do
grupo das transformações de Lorentz com grupo das translações no espaço-tempo.

1.5 Somas Diretas e Produtos Tensoriais

1.5.1 Discussão Informal Preliminar


Nesta seção apresentaremos duas maneiras distintas de construir grupos Abelianos a partir de dois
grupos Abelianos dados, que são o chamado produto tensorial de dois grupos e a chamada soma direta
de dois grupos. As construções precisas (especialmente a do produto tensorial) são um tanto elaboradas,
mas as idéias por trás delas são simples, de modo que tentaremos primeiramente apresentá-las de modo
elementar para depois (a partir da Seção 1.5.2) nos dedicarmos à sua definição precisa.
Essas construções prestam-se também a definir o produto tensorial e a soma direta de espaços
vetoriais (sobre um mesmo corpo), o que também discutiremos.
Na Seção 1.5.5 serão apresentadas mais generalizações envolvendo (uma coleção arbitrária) de grupos
não necessariamente Abelianos.
Um comentário pertinente (destinado aos estudantes mais avançados) é que as construções de
produto tensorial e soma direta de espaços vetoriais que apresentaremos adiante correspondem às noções
35
Euclides de Alexandria (≈ 325 A.C, ≈ 265 A.C.).
36 n
Para alguns autores, os grupos Euclidianos são os grupos O(n)sα .
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 1 76/1195

de produto tensorial e soma direta algébricos. Isso significa que outras estruturas, como uma topologia,
ou propriedades, como completeza, não são necessariamente herdadas pela construção. Assim, por
exemplo, o produto tensorial algébrico de dois espaços de Banach não é necessariamente um espaço de
Banach. Para tal é necessário introduzir um completamento extra, que pode não ser único.

• A Noção de Soma Direta de Dois Grupos

Sejam A e B dois grupos Abelianos, com identidades eA e eB (e cujas operações de produto de-
notaremos ambas pelo mesmo sı́mbolo “+”). Desejamos encontrar uma maneira de fazer do produto
Cartesiano A × B um grupo também. Uma maneira de fazer isso é definir a “soma” de dois pares
ordenados (a, b), (a0 , b0 ) ∈ A × B por

(a, b) + (a0 , b0 ) := (a + a0 , b + b0 ). (1.27)

O leitor pode facilmente constatar que essa operação é uma operação binária de A × B em si mesmo,
que ela é associativa, que tem por elemento neutro o par (eA , eB ) e que para cada (a, b) ∈ A × B
a inversa é (a, b)−1 = (−a, −b), onde −a é o elemento inverso de a em A, e analogamente para −b.
Portanto, com esse produto, A × B é um grupo.
Com essa estrutura, facilmente se verifica que A × B torna-se um grupo Abeliano, denominado
soma direta de A e B ou produto direto37 de A e B e denotado pelo sı́mbolo A ⊕ B. Com essa estrutura
de grupo em mente, os pares ordenados (a, b) são freqüentemente denotados pelo sı́mbolo a ⊕ b.

• A Noção de Soma Direta de Dois Espaços Vetoriais

Sejam U e V dois espaços vetoriais em relação a um mesmo corpo que, sem perda de generalidade,
consideraremos doravante como sendo o corpo dos complexos. U e V são dois grupos Abelianos em
relação às respectivas operações de soma de vetores. Assim, pela construção acima, podemos definir o
grupo U ⊕ V . Esse objeto ainda não tem uma estrutura de espaço vetorial (sobre os complexos), pois
não dissemos como definir o produto de um elemento de U ⊕ V por um escalar α ∈ . Isso é feito da
seguinte forma, para u ∈ U , v ∈ V , define-se α(u ⊕ v) por

α(u ⊕ v) := (αu) ⊕ (αv). (1.28)

E. 1.82 Exercı́cio. Constate que, com essa definição, U ⊕ V torna-se um espaço vetorial, ou seja,
verifique que são válidos os postulados da definição formal de espaço vetorial dados à página 54. 6

Esse espaço vetorial que denotaremos por U ⊕ V , é denominado soma direta dos espaços U e V


ou produto direto38 de U e V .

• A Noção de Produto Tensorial de Dois Grupos

37
A distinção entre produto direto e soma direta só se faz quando uma coleção não-finita de grupos é envolvida. Vide
Seção 1.5.5.
38
A distinção entre produto direto e soma direta só se faz quando uma coleção não-finita de espaços vetoriais é
envolvida. Vide Seção 1.5.5.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 1 77/1195

A definição de produto tensorial de dois grupos Abelianos A e B, que denotaremos por A ⊗ B,


é distinta da de soma direta. A idéia básica, porém, é a mesma, ou seja, tentar fazer do produto
Cartesiano A × B um grupo, mas a regra de produto é muito diferente daquela dada em (1.27). Em
primeiro lugar, os elementos de A ⊗ B são somas formais finitas de pares ordenados de A × B como
(a, b) + (a0 , b0 ),
mas não impomos a relação (1.27). O que realmente entendemos por “soma formal” será explicado
adiante, quando definirmos o conceito de grupo Abeliano livremente gerado por um conjunto, uma
noção muito simples. Por ora fiquemos apenas com a noção intuitiva. Para dar a A ⊗ B uma estrutura
de grupo, desejamos impor algumas condições às somas formais acima. Primeiramente impomos que
(a, b) + (a0 , b0 ) = (a0 , b0 ) + (a, b),
para todos a, a0 ∈ A, b, b0 ∈ B. Em segundo lugar, impomos que
(a + a0 , b) = (a, b) + (a0 , b)
e que
(a, b + b0 ) = (a, b) + (a, b0 )
para todos a, a0 ∈ A, b, b0 ∈ B. O estudante deve notar que essas imposições são mais limitadas que
aquelas de (1.27). Note também que as imposições acima são inspiradas na bem-conhecida propriedade
de transitividade de produtos e somas de números reais ou complexos: (x+x0 )y = xy +x0 y e x(y +y 0) =
xy + xy 0 .

E. 1.83 Exercı́cio. Mostre que com as regras de soma dadas acima todos os pares (e A , b) e (a, eB )
são identificados entre si e com o elemento neutro da operação de soma de pares ordenados. Fora isso, o
elemento inverso de um par (a, b) é (−a, b) = (a, −b). Mostre que, com isso, A ⊗ B é um grupo Abeliano,
denominado Produto Tensorial dos Grupos Abelianos A e B. 6

Com essa estrutura de grupo em mente, os pares ordenados (a, b) são freqüentemente denotados
pelo sı́mbolo a ⊗ b.

• A Noção de Produto Tensorial de Dois Espaços Vetoriais

Sejam U e V dois espaços vetoriais em relação a um mesmo corpo que, sem perda de generalidade,
consideraremos doravante como sendo o corpo dos complexos. U e V são dois grupos Abelianos em
relação às respectivas operações de soma de vetores. Assim, pela construção acima, podemos definir o
grupo U ⊗ V . Esse objeto ainda não tem uma estrutura de espaço vetorial (sobre os complexos), pois
não dissemos como definir o produto de um elemento de U ⊗ V por um escalar α ∈ . Isso é feito da
seguinte forma, para u ∈ U , v ∈ V , define-se α(u ⊗ v) impondo
α(u ⊗ v) := (αu) ⊗ (v) = (u) ⊗ (αv). (1.29)
O estudante deve comparar essa regra de produto por escalares com a regra 1.28.
Para elementos de U ⊗ V que sejam somas finitas, como por exemplo u ⊗ v + u0 ⊗ v 0 , impomos
α (u ⊗ v + u0 ⊗ v 0 ) := α (u ⊗ v) + α (u0 ⊗ v 0 )

= (αu) ⊗ v + (αu0 ) ⊗ v 0 = u ⊗ (αv) + u0 ⊗ (αv 0 ).


JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 1 78/1195

E. 1.84 Exercı́cio. Constate que, com essa definição, U ⊗ V torna-se um espaço vetorial, ou seja,
verifique que são válidos os postulados da definição formal de espaço vetorial dados à página 54. 6

Esse espaço vetorial que denotaremos por U ⊗ V , é denominado produto tensorial dos espaços U


e V.

Vamos agora tentar formalizar as noções que apresentamos acima, apresentando suas definições
matemáticas precisas. O leitor que acredita ter entendido o que apresentamos acima pode dispensar-se
de ler o restante da presente seção.

1.5.2 Grupos Gerados por Conjuntos. Grupos Gerados por Relações

• Suporte de uma função

Seja f : X → G uma função de um conjunto não-vazio X em um grupo G. O suporte de f , denotado


por supp (f ), é o conjunto de todos os pontos x ∈ X tais que f (x) 6= e, onde e é a unidade de G:
supp (f ) := {x ∈ X| f (x) 6= e}. Uma função f : X → G é dita ser de suporte finito se seu suporte for
um conjunto finito.

• Grupo Abeliano Livremente Gerado por um Conjunto

Uma noção importante que usaremos adiante é a de grupo Abeliano livremente gerado por um
conjunto X. Seja X um conjunto. Seja F (X) a coleção de todas as funções de suporte finito de X
em . É fácil ver que F (X) tem naturalmente uma estrutura de grupo Abeliano, definindo, para f ,
f 0 ∈ F (X) o produto de f e f 0 como sendo o elemento f f 0 = (f + f 0 ) de F (X) dado por

(f + f 0 )(x) = f (x) + f 0 (x). (1.30)

para todo x ∈ X. É claro que esse (f + f 0 ) tem suporte finito. O elemento neutro e de F (X) é
claramente a função identicamente nula. Pelo fato de F (X) ter essa estrutura natural de grupo F (X)
é denominado grupo Abeliano livremente gerado pelo conjunto X.
Para x ∈ X vamos denotar por δx a função caracterı́stica de x:

1, se y = x
δx (y) := . (1.31)
0, se y 6= x

Claramente δx ∈ F (X). Dado que cada f ∈ F (X) tem suporte finito, pode-se escrevê-lo da forma
N
X
f = a n δ xn , (1.32)
n=1

para valores de N e dos an ’s dependentes de f , com {x1 , . . . , xN } = supp f e com ai ∈ para


i = 1, . . . , N .
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 1 79/1195

Com um flagrante abuso de linguagem é costume escrever (1.32) da forma


N
X
f = a n xn , (1.33)
n=1

onde fica, por assim dizer, subentendido que aqui os xn ’s representam não os elementos de X mas sim
suas funções caracterı́sticas (X pode ser um conjunto qualquer, de modo que operações como soma de
elementos de X ou multiplicação de elementos de X por um inteiro podem não serem sequer definidas).
É fácil verificar que F (X) é um grupo Abeliano livre (daı́ seu nome), o que quer dizer que não há em
F (X) nenhuma relação não trivial entre seus elementos, a não ser aquela que lhe confere Abelianidade:
f f 0 f −1 f 0 −1 = e.

• Relações e Grupos Gerados Módulo Relações

Vamos passar agora a uma construção muito importante, a de grupo Abeliano livremente gerado
por um conjunto módulo relações. Vamos apresentar essa construção de forma bem geral.
Seja J um conjunto (em princı́pio arbitrário) de ı́ndices e sejam então, para cada j ∈ J, elementos
de F (X) dados por
n(j)
X
rj = αj, i xj, i (1.34)
i=1
onde, para cada j ∈ J, n(j) ∈ e, para todo j ∈ J e i ∈ {1, . . . , n(j)}, tem-se αj, i ∈ e xj, i ∈ X com


xj, i 6= xj, i0 se i 6= i0 . Denotamos R := {rj , j ∈ J}. Os elementos de R serão chamados “relações”.


Seja então R o subgrupo de F (X) formado por todos os elementos de F (X) que são combinações
lineares finitas de rj ’s com coeficientes em :

s ∈ R ⇐⇒ s = s1 rj1 + · · · + sm rjm , (1.35)


para certos si ∈ em∈  , que dependem de s. R é dito ser o subgrupo de F (X) gerado pelos rj ’s.
Por ser um subgrupo de um grupo Abeliano, R é normal. Assim, podemos definir o “grupo Abeliano
livremente gerado por X, módulo as relações R” como sendo o grupo F (X)/R. Note-se que [R] R = e,
o que equivale a dizer que os elementos de R são identificados como zero (daı́ serem chamados de
“relações”, pois refletem identidades que não existiam em F (X) e que estão sendo agora impostas em
F (X)/R).

Vamos ilustrar as definições e construções acima apresentando as definições de soma direta e produto
tensorial de dois grupos Abelianos e, em seguida, de dois espaços vetoriais. As definições de acima são
particularmente relevantes para o conceito de produto tensorial.

1.5.3 Somas Diretas

• A Soma Direta de dois Grupos Abelianos


JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 1 80/1195

Sejam A e B dois grupos Abelianos cujo produto de grupo denotaremos aditivamente: com o
sı́mbolo +. Seja X = A × B. Seja em F (X) = F (A × B) o conjunto R de relações dado por

R := {r ∈ F (X)| r = (a + a0 , b + b0 ) − (a, b) − (a0 , b0 ), com a, a0 ∈ A e b, b0 ∈ B}. (1.36)

Seja R = R(A × B) o subgrupo de F (A × B) gerado por R. Chegamos assim à definição do grupo


Abeliano A ⊕ B, a soma direta de A e B, que é definido como A ⊕ B := F (A × B)/R(A × B).

Notação. Para a ∈ A e b ∈ B denotaremos por a ⊕ b o elemento de A ⊕ B que corresponde (na notação


discutida acima) à função δ(a, b) .

• A Soma Direta de dois Espaços Vetoriais

Sejam U e V dois espaços vetoriais (sobre ). Como U e V são dois grupos Abelianos, o grupo
Abeliano U ⊕ V está definido pelo procedimento acima. Isso, entretanto, ainda não faz de U ⊕ V um
espaço vetorial.
Para isso é preciso definir o produto de um escalar por um elemento de U ⊕ V . Definimos então o
produto de um escalar α ∈ por um elemento u ⊕ v ∈ U ⊗ V como sendo o elemento (αu) ⊕ (αv), ou
seja,
α(u ⊕ v) := (αu) ⊕ (αv).
É fácil constatar que, com essa definição, U ⊕ V torna-se um espaço vetorial (vide a definição formal


de espaço vetorial à página 54), que denotaremos por U ⊕ V . O assim definido espaço vetorial U ⊕ V
 

é denominado a soma direta dos espaços vetoriais U e V sobre o corpo .

1.5.4 Produtos Tensoriais


A definição de produtos tensoriais é mais delicada e faz uso mais forte do conceito de grupo livremente
gerado por um conjunto.

• O Produto Tensorial de dois Grupos Abelianos

Sejam A e B dois grupos Abelianos cujo produto de grupo denotaremos aditivamente: com o
sı́mbolo +. Seja X = A × B. Seja em F (X) = F (A × B) o conjunto R de relações dado por

R := {r ∈ F (X)| r = (a + a0 , b) − (a, b) − (a0 , b)

ou r = (a, b + b0 ) − (a, b) − (a, b0 ), com a, a0 ∈ A e b, b0 ∈ B}. (1.37)

Seja R = R(A × B) o subgrupo de F (A × B) gerado por R. Chegamos assim à definição do grupo


Abeliano A ⊗ B, o produto tensorial de A e B, que é definido como A ⊗ B := F (A × B)/R(A × B).

Notação. Para a ∈ A e b ∈ B denotaremos por a ⊗ b o elemento de A ⊗ B que corresponde (na notação


discutida acima) à função δ(a, b) .

• O Produto Tensorial de dois Espaços Vetoriais


JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 1 81/1195

Sejam U e V dois espaços vetoriais (sobre ). Como U e V são dois grupos Abelianos, o grupo
Abeliano U ⊗ V está definido pelo procedimento da última sub-seção. Isso, entretanto, ainda não faz
de U ⊗ V um espaço vetorial. Para isso tomemos X = U ⊗ V e consideremos o sub-espaço de F (X)
definido por

R := {r ∈ F (U ⊗ V )| r = (αu) ⊗ v − u ⊗ (αv), com α ∈ , u ∈ U, v ∈ V }. (1.38)

Como antes, seja R = R(U ⊗ V ) o subgrupo gerado por R. Definimos agora um novo grupo Abeliano
U ⊗ V como U ⊗ V := F (U ⊗ V )/R(U ⊗ V ).
 

U ⊗ V é por ora apenas mais um grupo Abeliano, mas podemos adicionar-lhe uma estrutura de


espaço vetorial da seguinte forma.


Primeiramente é preciso definir o produto de um escalar por um elemento de U ⊗ V . Para elementos 

da forma u ⊗ v com u ∈ U e v ∈ V , definimos então o produto α(u ⊗ v), para α ∈ por


 

α(u ⊗ v) := (αu) ⊗ v = u ⊗ (αv).


  

A última igualdade segue da definição de U ⊗ V . 

Os demais elementos de U ⊗ V são da forma de combinações lineares finitas com coeficientes




inteiros de elementos como u ⊗ v, ou seja, são da forma




n
X
ck (uk ⊗ vk ) 

k=1

para algum n > 0 e ck ∈ . Para os mesmos definimos


n
! n
X X
α ck (uk ⊗ vk ) 

:= ck α (uk ⊗ vk ) 

k=1 k=1

n
X n
X
= ck (αuk ) ⊗ vk = 

ck uk ⊗ (αvk ).


k=1 k=1

É fácil constatar que, com essa definição, U ⊗ V torna-se um espaço vetorial (vide a definição


formal de espaço vetorial à página 54), que também denotaremos por U ⊗ V . O assim definido espaço 

vetorial U ⊗ V é denominado produto tensorial dos espaços vetoriais U e V sobre o corpo .




• O Produto Tensorial de dois Módulos sobre uma Álgebra Associativa

Vamos aqui a uma definição que nos será importante. Sejam M e N dois bimódulos sobre uma
álgebra associativa A, ambos supostos serem espaços vetoriais sobre o corpo dos complexos. Conforme a
sub-seção anterior podemos definir o espaço vetorial M ⊗ N . Entretanto, em muitos casos é necessário


definir um outro tipo de produto tensorial entre M e N .


Para tal seja X = M ⊗ N e definamos em F (X) o conjunto de relações


R := {r ∈ F (X)| r = (ma) ⊗ n − m ⊗ (an), com a ∈ A, m ∈ M, n ∈ N }.


 

(1.39)
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 1 82/1195

Definamos então R = R(M ⊗ N ) como o subgrupo gerado por R e o produto tensorial




M ⊗A N := F (M ⊗ N )/R(M ⊗ N ).
 

(1.40)

Podemos fazer de M ⊗A N um módulo, digamos à direita, sobre A tomando o produto

a · (m ⊗A n) := (ma) ⊗A n = m ⊗A (an). (1.41)

Faremos uso freqüente desse produto tensorial adiante. O mais importante para nós será a identi-
dade (ma) ⊗A n = m ⊗A (an) válida em todo M ⊗A N para todo a ∈ A.

1.5.5 Produtos Diretos e Somas Diretas Arbitrários


Aqui apresentaremos as definições de produtos diretos e somas diretas de coleções arbitrárias de grupos
(não necessariamente Abelianos) e de espaços vetoriais.

• Produto Direto e Soma Direta de Coleções Arbitrárias de Grupos

Seja J um conjunto arbitrário de ı́ndices e G := {Gi , i ∈ J} uma coleção de grupos. Seja


o produto Cartesiano := ×i∈J Gi . Podemos fazer de um grupo definindo o produto de dois
elementos 3 g = ×a∈J ga , 3 h = ×b∈J hb como g · h = ×a∈J (ga ha ). Com essa estrutura é dito
Y
ser o produto direto dos grupos Gi , i ∈ J e será denotado por p = Gi .
i∈J

ppossui um subgrupo importante, aquele formado por elementos ×a∈J ga ∈ p onde apenas um
número finito de ga ’s é distinto da identidade ea doM
respectivo grupo Ga . Esse subgrupo é dito ser a
soma direta dos Gi ’s , i ∈ J e é denotado por s = Gi .
i∈J

• Soma Direta de Coleções Arbitrárias de Espaços Vetoriais

Se {Vi , i ∈ J} é uma coleção de espaços vetoriais que, em particular,


L são grupos Abelianos, cai
definida, pelo apresentado na sub-seção anterior, a soma direta s := i∈J Vi , definida primeiramente


como grupo Abeliano. s pode ser feito um espaço vetorial definindo-se, para um escalar genérico α ∈ ,


α · (×a∈J va ) := ×a∈J (αva ), (1.42)

para todo ×a∈J va ∈ 

s.

Um caso especial que irá nos interessar é o seguinte: seja M um bimódulo sobre uma álgebra
associativa A e tomemos J = e Vn = M ⊗A n ≡ M ⊗A · · · ⊗A M . O exposto acima permite definir a
| {z }


M n vezes
soma direta M ⊗A n .
n∈ 
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 1 83/1195

1.5.6 Módulos e Derivações


Seja A uma álgebra sobre com identidade e e seja M um bimódulo sobre A. Uma aplicação linear
δ : A → M é dita ser uma derivação de A em M se satisfaz a regra de Leibniz39 :

δ(ab) = aδ(b) + δ(a)b, (1.43)


para todos a, b ∈ A.
Vamos a alguns exemplos.
Exemplo 1. Seja A uma álgebra sobre com unidade e e M = A ⊗ A com os seguintes produtos


de bimódulo:
a · (b ⊗ c) := (ab) ⊗ c, (1.44)

(b ⊗ c) · a := b ⊗ (ca). (1.45)
Deixa-se ao leitor verificar a associatividade dos produtos de bimódulo nesse caso. Defina-se
δ(a) := a ⊗ e − e ⊗ a. (1.46)
Deixa-se ao leitor verificar a validade da regra de Leibniz nesse exemplo. Note-se também que, por
essa definição, δ(e) = 0.
Exemplo 2. Seja A uma álgebra sobre com unidade e e M = A ⊗ A com os seguintes produtos


de bimódulo:
a · (b ⊗ c) := (ab) ⊗ c, (1.47)

(b ⊗ c) · a := b ⊗ (ca) − (bc) ⊗ a. (1.48)


Deixa-se ao leitor verificar a associatividade dos produtos de bimódulo nesse caso. Defina-se
δ(a) := e ⊗ a. (1.49)
Deixa-se ao leitor verificar a validade da regra de Leibniz nesse exemplo. Note-se também que, por
essa definição, δ(e) = e ⊗ e 6= 0.
Exemplo 3. Exemplo importante de derivações pode ser visto em álgebras de Lie. Seja A uma
álgebra de Lie vista como um bimódulo sobre si mesma. Seja z um elemento fixo da álgebra e seja a
aplicação dz : A → A dada por dz (a) = [z, a]. É fácil verificar (faça!) usando a identidade de Jacobi
(1.22) que
dz ([a, b]) = [dz (a), b] + [a, dz (b)]
para todo a, b ∈ A. Assim, tem-se que a cada z ∈ A é associada uma derivação d z .

1.6 Tópicos Especiais


Esta seção é formada por alguns assuntos independentes que, embora relevantes, não se enquadram na
exposição introdutória que pretendı́amos ter nas seções anteriores.
39
Gottfried Wilhelm von Leibniz (1646-1716).
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 1 84/1195

1.6.1 O Grupo de Grothendieck


Vamos agora descrever uma construção que permite obter um grupo Abeliano a partir de um semi-grupo
Abeliano dado. Um grupo construı́do por esse procedimento é chamado de grupo de Grothendieck 40
associado ao semi-grupo Abeliano em questão. Grupos de Grothendieck desempenham um papel im-
portante em várias áreas da Matemática, como por exemplo na chamada K-teoria.
Seja um semi-grupo Abeliano S (não necessariamente dotado de um elemento neutro) cujo produto
denotamos pelo sı́mbolo +.
Consideremos em primeiro lugar o produto Cartesiano S × S e vamos introduzir lá uma relação de
equivalência da seguinte forma: dois pares (a, b) e (a0 , b0 ) ∈ S × S são equivalentes, (a, b) ∼ (a0 , b0 ),
se existir pelo menos um elemento p ∈ S tal que

a + b0 + p = a0 + b + p. (1.50)
Vamos mostrar que isso define de fato uma relação de equivalência. Em primeiro lugar é claro que
(a, b) ∼ (a, b) para qualquer par (a, b) ∈ S 2 = S × S, dado que aqui, para verificar (1.50), basta tomar
qualquer elemento p ∈ S. Em segundo lugar é evidente que se (a, b) ∼ (a0 , b0 ) então (a0 , b0 ) ∼ (a, b).
Finalmente, vamos mostrar que se (a, b) ∼ (c, d) e (c, d) ∼ (e, f ) então (a, b) ∼ (e, f ). Por hipótese
existem p e p0 ∈ S tais que

a+d+p=b+c+p e c + f + p 0 = d + e + p0 .

Daqui extraı́mos que

(a + d + p) + (c + f + p0 ) = (b + c + p) + (d + e + p0 ),

ou seja, que
a + f + p00 = b + e + p00 ,
onde p00 = d + c + p + p0 . Essa relação diz precisamente que (a, b) ∼ (e, f ), completando a prova de
que temos assim uma relação de equivalência em S 2 .
Vamos então considerar agora o conjunto K(S) := S 2 / ∼ de todas as classes de equivalência defi-
nidas acima. Vamos construir em K(S) uma estrutura de grupo Abeliano, cujo produto denotaremos
por +. Dadas duas classes [(a, b)] e [(c, d)] definimos

[(a, b)] + [(c, d)] := [(a + c, b + d)].

Note-se que por essa definição tem-se (verifique!)

[(a, b)] + [(c, d)] = [(c, d)] + [(a, b)]

para todo a, b, c, d ∈ S.
A primeira coisa a fazer é mostrar que essa definição independe dos elementos tomados nas classes.
Para isto basta provar que se (a0 , b0 ) ∼ (a, b) então (a + c, b + d) ∼ (a0 + c, b0 + d). Se (a0 , b0 ) ∼ (a, b)
então existe p ∈ S tal que
a + b0 + p = a0 + b + p.
40
Alexander Grothendieck (1928-).
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 1 85/1195

Somando-se c + d a ambos os lados tiramos

(a + c) + (b0 + d) + p = (a0 + c) + (b + d) + p

que é precisamente a afirmativa que (a + c, b + d) ∼ (a0 + c, b0 + d).


É igualmente fácil verificar que para quaisquer x, y ∈ S tem-se que (x, x) ∼ (y, y) e que, portanto,
[(x, x)] = [(y, y)]. Vamos provar que há em K(S) um elemento neutro. Este é precisamente a classe
e := [(x, x)] com x ∈ S arbitrário. Note-se que, para qualquer par (a, b) ∈ S 2 teremos

[(a, b)] + [(x, x)] = [(a + x, b + x)] = [(a, b)] ,

pois (a + x + b) + p = (b + x + a) + p para qualquer p ∈ S.


Falta-nos provar a associatividade do produto e a existência de uma inversa para cada elemento de
K(S). Para a associatividade, notemos que
 
[(a, b)] + [(c, d)] + [(e, f )] := [(a, b)] + [(c + e, d + f )] = [(a + c + e, b + d + f )] ,
 
[(a, b)] + [(c, d)] + [(e, f )] := [(a + c, b + d)] + [(e, f )] = [(a + c + e, b + d + f )] .

Para provar a existência de inversa notemos que para cada par (a, b) ∈ S 2 podemos tomar [(a, b)]−1 :=
[(b, a)] pois
[(a, b)] + [(a, b)]−1 = [(a, b)] + [(b, a)] = [(a + b, a + b)] = e .

Isso mostrou que K(S) tem uma estrutura de grupo Abeliano. Este é o chamado grupo de Grothen-
dieck associado ao semi-grupo Abeliano S.
Como de costume, denotaremos [(a, b)]−1 por −[(a, b)]. Assim, −[(a, b)] = [(b, a)].

E. 1.85 Exercı́cio. Seja o monóide Abeliano  dos números naturais contendo o 0 com a soma usual.
Mostre que K( ) ' .
 6

O exercı́cio acima indica a possibilidade de se definir os números inteiros a partir dos naturais.
Os inteiros seriam, por definição, o grupo de Grothendieck do monóide Abeliano dos naturais com a
operação de soma usual.

E. 1.86 Exercı́cio. Seja o monóide Abeliano 1 dos números naturais maiores ou iguais a 1 com o


produto dado pela multiplicação usual. Mostre que K( 1 ) ' + , o grupo dos racionais positivos (sem o


zero) com o produto dado pela multiplicação usual. 6

O exercı́cio acima indica a possibilidade de se definir os números racionais positivos a partir dos
naturais. Os racionais seriam, por definição, o grupo de Grothendieck do monóide Abeliano dos naturais
com a operação de produto usual.
Para cada elemento a de um monóide Abeliano M podemos associar um elemento de K(M ) por
M 3 a 7→ [a] := [(a, 0)] ∈ K(M ). É fácil ver que todo elemento [(a, b)] de K(M ) pode ser escrito da
forma [(a, b)] = [a]−[b] e que [a]−[b] = [a0 ]−[b0 ] se e somente se existir p ∈ M com a+b0 +p = a0 +b+p.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 1 86/1195

1.6.2 Grupóides
Um grupóide é definido da seguinte forma. É dado um conjunto C e um subconjunto C0 ⊂ C, o qual
é a imagem de duas funções unárias p e c (chamadas de “partida” e “chegada”), ou seja, p : C → C 0 ,
c : C → C0 . Os elementos de C0 são pontos fixos de p e de c, ou seja,
c(α) = α e p(α) = α
para todo α ∈ C0 (aqui denotaremos os elementos de C por letras gregas).
Define-se em C × C um subconjunto (ou seja, uma relação em C), que denotaremos por RC , da
seguinte forma:
RC := {(α, β) ∈ C 2 | p(α) = c(β)}.

É também dada uma função binária RC → C, que denotaremos por “·” e que denominaremos
“produto”, a qual satisfaz as seguintes hipóteses:

1. Associatividade: α · (β · γ) = (α · β) · γ sempre que os produtos estejam definidos, ou seja, se


(β, γ), (α, β · γ), (α, β) e (α · β, γ) forem todos elementos de RC
2. Para todo (α, β) ∈ RC temos p(α · β) = p(β).
3. Para todo (α, β) ∈ RC temos c(α · β) = c(α).
4. Para todo α ∈ C temos α · p(α) = α.
5. Para todo α ∈ C temos c(α) · α = α.

Fora isso, existe para cada α ∈ C uma assim chamada inversa bilateral α −1 ∈ C a qual satisfaz
α · α−1 = c(α) e α−1 · α = p(α). Note que, por essa definição, tem-se que, para todo α0 ∈ C0 ,
α0 · α0−1 = α0−1 · α0 = α0 .
Estes ingredientes definem um grupóide. Note-se que um grupóide não necessariamente contem um
“elemento neutro” (vide exemplos).
Exemplo. Caminhos. Este exemplo é um protótipo da definição de grupóide acima, ou seja, aquela
possivelmente foi criada tendo o mesmo como exemplo-guia.
Seja I o intervalo fechado [0, 1] e vamos considerar o conjunto C de todas as funções contı́nuas de
I em um espaço topológico Hausdorff qualquer (por exemplo 2 ). Um elemento γ de C é uma curva


orientada contı́nua em 2 que tem um ponto de partida γ(0) e um ponto de chegada γ(1).


Podemos introduzir uma relação de equivalência em C da seguinte forma: duas curvas α e β ∈ C


são equivalentes (α ∼ β) se existir uma bijeção contı́nua b : I → I com b(0) = 0, b(1) = 1, tal que
α = β ◦ b. Vamos denominar por C as classes de equivalência de C pela relação de equivalência acima:
C := C/ ∼.
O conjunto C0 é o subconjunto de C formado pelas classes de equivalência de curvas constantes:
[α] ∈ C0 ⇐⇒ α(t) = α(t0 ), ∀t, t0 ∈ I.
Definimos as funções unárias p e c da seguinte forma: p([γ]) é a classe de equivalência da curva
constante que a todo t ∈ I associa o ponto γ(0) de 2 , o ponto de partida de γ; c([γ]) é a classe de


equivalência da curva constante que a todo t ∈ I associa o ponto γ(1) de 2 , o ponto de chegada de γ.

JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 1 87/1195

Dados dois elementos em C queremos agora definir o seu produto. A idéia a ser seguida é que o
produto de duas curvas é definido apenas quando o ponto de chegada da primeira coincide com o ponto
de partida da segunda e resulta em uma curva única unindo o ponto de partida da primeira com o
ponto de chegada da última. Matematicamente isso é feito definindo-se o produto [β] · [α] como sendo
a classe de equivalência da curva β ∗ α definida pela composição

α(2t), para 0 ≤ t ≤ 1/2
β ∗ α(t) := .
β(2t − 1), para 1/2 < t ≤ 1

Claramente β ∗ α só é um elemento de C (ou seja, uma curva contı́nua) se α(1) = β(0).
Por fim a inversa bilateral de [α] é definida como sendo a classe [α −1 ], onde α−1 (t) = α(1 − t).
Deixamos para o leitor como exercı́cio mostrar que a estrutura definida acima é a de um grupóide.
Notemos que para a composição ∗ acima não vale a associatividade: (α ∗ β) ∗ γ 6= α ∗ (β ∗ γ), se
ambos os lados estiverem definidos (por que?). No entanto, as curvas (α ∗ β) ∗ γ e α ∗ (β ∗ γ) são
equivalentes no sentido da definição acima e de tal forma que para o produto “·” definido nas classes
C vale a associatividade [α] · ([β] · [γ]) = ([α] · [β]) · [γ], se ambos os lados estiverem definidos (por
que?). Essa é a razão de termos feito a construção nas classes C e não diretamente em C. Esse fato
já deve ser familiar ao leitor que conheça o conceito de grupo de homotopia de espaços topológicos.
O grupóide apresentado acima e o grupo de homotopia são, aliás, fortemente aparentados e ao leitor
sugere-se pensar sobre qual a conexão entre ambos.
Exemplo. Relações de equivalência. Seja K um conjunto no qual haja uma relação de equivalência
R ⊂ K × K. Tomamos C = R e C0 = {(x, x), x ∈ K} ⊂ R. Definimos

1. p((x, y)) := (x, x), ∀x, y ∈ K com x ∼ y.

2. c((x, y)) := (y, y), ∀x, y ∈ K com x ∼ y.

3. Produto: (x, y) · (y, z) := (x, z), ∀x, y, z ∈ K com x ∼ y ∼ z.

4. Inversa bilateral: (x, y)−1 := (y, x).

É fácil de se verificar (faça-o) que a estrutura assim definida é a de um grupóide.

1.6.3 Quatérnions
Vamos nesta seção tratar brevemente de um tipo de álgebra que possui algumas aplicações interessantes
na teoria de grupos e outros lugares, a chamada álgebra dos quatérnions.
Dado um espaço vetorial como 2 há várias maneiras de definir no mesmo um produto de modo a


fazer do mesmo uma álgebra. Por exemplo, podemos definir em 2 o produto 

(x1 , x2 ) · (y1 , y2 ) = (x1 y1 , x2 y2 ), (1.51)

que é associativo e comutativo, como também o produto

(x1 , x2 ) · (y1 , y2 ) = (x1 y1 − x2 y2 , x1 y2 + x2 y2 ), (1.52)


JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 1 88/1195

que é igualmente associativo e comutativo (Exercı́cio. Verifique).


O produto (1.51) faz de 2 uma álgebra isomorfa a ⊗ , ou seja, a duas cópias da álgebra usual
  

dos números reais. O produto (1.52) faz de 2 uma álgebra isomorfa à dos números complexos . (Em


verdade, os números complexos são definidos como sendo a álgebra 2 com o produto (1.52)!). 

3
Em  podemos definir igualmente vários tipos de produtos, tais como o produto

(x1 , x2 , x3 ) · (y1 , y2 , y3 ) = (x1 y1 , x2 y2 , x3 y3 ), (1.53)

que é igualmente associativo e comutativo; o produto

(x1 , x2 , x3 ) · (y1 , y2 , y3 ) = (x1 y1 , x2 y2 − x3 y3 , x2 y3 + x3 y2 ), (1.54)

também associativo e comutativo ou ainda um produto como

(x1 , x2 , x3 ) · (y1 , y2 , y3 ) = (x2 y3 − x3 y2 , x3 y1 − x1 y3 , x1 y2 − x2 y1 ), (1.55)

que não é nem associativo nem comutativo. O produto (1.53) faz de 3 uma álgebra isomorfa a 

 ⊗ ⊗ (três cópias da álgebra dos reais). O produto (1.54) faz de 3 uma álgebra isomorfa a ⊗
   

e o produto (1.55) é o bem conhecido produto vetorial.


O que se pode então fazer em 4 ? Naturalmente poder-se-ia definir em
 
4
várias álgebras imitando
o que fizemos acima. Por exemplo, com o produto

(x1 , x2 , x3 , x4 ) · (y1 , y2 , y3 , y4 ) = (x1 y1 , x2 y2 , x3 y3 , x4 y4 ), (1.56)


4
 torna-se uma álgebra associativa e comutativa isomorfa a  ⊗  ⊗  ⊗  . Com o produto

(x1 , x2 , x3 , x4 ) · (y1 , y2 , y3 , y4 ) = (x1 y1 − x2 y2 , x1 y2 + x2 y1 , x3 y3 − x4 y4 , x3 y4 + x4 y3 ), (1.57)


4
 torna-se uma álgebra associativa e comutativa isomorfa a ⊗ . Com o produto

(x1 , x2 , x3 , x4 ) · (y1 , y2 , y3 , y4 ) = (x2 y3 − x3 y2 , x3 y1 − x1 y3 , x1 y2 − x2 y1 , x4 y4 ) (1.58)


4 3
 torna-se uma álgebra não-associativa e não-comutativa isomorfa a  ⊗ , com o produto vetorial


na componente 3 . 

Há também outros produtos que são meras variantes das listadas acima (ache algumas). Existe,
porém, um outro produto não trivial, denominado produto quaterniônico, que faz de 4 uma álgebra 

associativa mas não-comutativa e com unidade. Esse produto foi descoberto por W. R. Hamilton 41 .
A história da descoberta desse produto em 4 , feita em 1843, é muito interessante e representou um


marco na história da Álgebra. Esse produto é o seguinte

(x0 , x1 , x2 , x3 ) · (y0 , y1 , y2 , y3 ) =

(x0 y0 −x1 y1 −x2 y2 −x3 y3 , x0 y1 +y0 x1 +x2 y3 −x3 y2 , x0 y2 +y0 x2 +x3 y1 −x1 y3 , x0 y3 +y0 x3 +x1 y2 −x2 y1 ).
(1.59)

41
William Rowan Hamilton (1805-1865). W. R. Hamilton foi também o inventor do chamado formalismo Hamiltoniano
da Mecânica Clássica.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 1 89/1195

E. 1.87 Exercı́cio. Mostre que o produto acima é associativo. 6

O espaço vetorial 4 dotado do produto acima é denominado álgebra dos quatérnions ou álgebra


quaterniônica e é denotada freqüentemente por . A álgebra é associativa mas não é comutativa.


tem uma unidade, a saber, o vetor (1, 0, 0, 0) ∈ 4 . 

E. 1.88 Exercı́cio. Mostre que não é uma álgebra comutativa. 6

E. 1.89 Exercı́cio. Mostre que (1, 0, 0, 0) é a unidade de . 6

Há uma maneira melhor de representar o produto quaterniônico que a expressão (1.59). Vamos
escrever os vetores da base canônica de 4 como


e0 = (1, 0, 0, 0), e1 = (0, 1, 0, 0), e2 = (0, 0, 1, 0), e3 = (0, 0, 0, 1),

de modo que todo x ∈ 4 pode ser escrito na forma x = x0 e0 + x1 e1 + x2 e2 + x3 e3 . O produto




quaterniônico pode então ser definido pelo produto dos elementos da base canônica, que segue as
seguintes regras:

4
1. e0 é a unidade da álgebra: x · e0 = e0 · x = x para todo x ∈  .

2. (e1 )2 = (e2 )2 = (e3 )2 = −e0 .

3. ei ej = −ej ei para todo i 6= j com i, j = 1, 2, 3.

4. e1 e2 = e3 , e2 e3 = e1 e e3 e1 = e2 .

E. 1.90 Exercı́cio. Verifique que essas regras reproduzem perfeitamente (1.59). 6

Além de ser de manipulação mais simples, essas regras permitem representar a álgebra quaterniônica
de um modo talvez mais familiar, a saber, em termos de certas matrizes complexas 2 × 2.

• Quatérnions e Álgebras de Matrizes 2 × 2

Sejam a e b dois números complexos e seja M (a, b) a matriz


 
a b
M (a, b) = ,
−b a

onde z é o complexo conjugado de z ∈ . É fácil de se ver que o conjunto de todas as matrizes dessa
forma é uma álgebra:
M (a, b)M (c, d) = M (ac − bd, ad + bc).

E. 1.91 Exercı́cio. Verifique! 6


JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 1 90/1195

Existe um isomorfismo entre a álgebra dos quatérnions e essa álgebra de matrizes 2 × 2. Basta
associar (bijetivamente!) a cada quádrupla (x0 , x1 , x2 , x3 ) a matriz M (x0 + ix3 , x2 + ix1 ):
 
x0 + ix3 x2 + ix1
x = (x0 , x1 , x2 , x3 ) ←→ =: M (x). (1.60)
−x2 + ix1 x0 − ix3

É fácil verificar então (faça!) que o produto quaterniônico é respeitado por essa associação:

M (x)M (y) = M (x · y),


4
onde, acima, x · y é o produto quaterniônico de x e y ∈  .
Note-se que por essa associação tem-se

M (x) = M (x0 e0 + x1 e1 + x2 e2 + x3 e3 ) = x0 M (e0 ) + x1 M (e1 ) + x2 M (e2 ) + x3 M (e3 ),

com
M (e0 ) = , M (e1 ) = iσ1 , M (e2 ) = iσ2 , M (e3 ) = iσ3 ,
onde  
1 0
=
0 1
e      
0 1 0 −i 1 0
σ1 = , σ2 = e σ3 =
1 0 i 0 0 −1
são as chamadas matrizes de Pauli42 , que satisfazem

1. (σ1 )2 = (σ2 )2 = (σ3 )2 = ,

2. σi σj = −σj σi para todo i 6= j e

3. σ1 σ2 = iσ3 , σ2 σ3 = iσ1 , σ3 σ1 = iσ2 .

E. 1.92 Exercı́cio. Verifique essas propriedades. 6

• Sub-álgebras Abelianas

possui algumas sub-álgebras Abelianas.

E. 1.93 Exercı́cio. Mostre que 1 := {x ∈ 4 , x = x0 e0 + x1 e1 = (x0 , x1 , 0, 0)} é uma sub-álgebra




Abeliana de que é isomorfa à álgebra dos complexos. 6

4
E. 1.94 Exercı́cio. Mostre o mesmo para 2 := {x ∈  , x = x0 e0 + x2 e2 = (x0 , 0, x2 , 0)} e
4
3 := {x ∈ , x = x0 e0 + x3 e3 = (x0 , 0, 0, x3 )}.
 6

42
Wolfgang Pauli (1900-1958).
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 1 91/1195

E. 1.95 Exercı́cio. Será possı́vel fazer de 4 um espaço vetorial complexo? Seja α ∈


 e considere para
x ∈ 4 o produto do escalar α pelo vetor x definido por


α · x = (Re(α)e0 + Im(α)e1 ) · x,

onde o produto do lado direito é o o produto quaterniônico. Mostre que isso faz de 4 um espaço vetorial 

sobre o corpo dos complexos. Para isto verifique as propriedades definidoras de um espaço vetorial listadas
à página 54. 6

E. 1.96 Exercı́cio. No exercı́cio anterior há outros produtos do escalar α pelo vetor x que podem ser
considerados:
α · x = (Re(α)e0 + Im(α)e2 ) · x,
ou
α · x = (Re(α)e0 + Im(α)e3 ) · x,
ou mesmo
α · x = x · (Re(α)e0 + Im(α)e1 )
4 4
etc. Mostre que todos esses seis produtos de escalares α ∈ por vetores x ∈  fazem de  um espaço
vetorial sobre o corpo dos complexos. 6

• é um anel de divisão

É fácil ver que a álgebra dos quatérnions é um anel de divisão (vide página 60), ou seja, todo
x ∈ 4 , x 6= 0, tem uma inversa em relação ao produto quaterniônico. Do isomorfismo M definido em


(1.60) acima vê-se que

det(M (x)) = det (M (x0 + ix1 , x2 + ix3 )) = (x0 )2 + (x1 )2 + (x2 )2 + (x3 )2

e, portanto, M (x) tem uma matriz inversa sempre que x 6= 0.


4
De fato, definindo-se para x = x0 e0 + x1 e1 + x2 e2 + x3 e3 ∈  o conjugado quaterniônico

x = x 0 e0 − x 1 e1 − x 2 e2 − x 3 e3

e do fato facilmente constatável que43

x · x = (x0 )2 + (x1 )2 + (x2 )2 + (x3 )2 ∈ 

é fácil ver que para x 6= 0 tem-se  


−1 1 4
x = x ∈ ,
x·x


ou seja x−1 · x = x · x−1 = e0 .

E. 1.97 Exercı́cio. Verifique. 6


43
Com um abuso de linguagem identificamos aqui ((x0 )2 +(x1 )2 +(x2 )2 +(x3 )2 )e0 ∈ 4
com (x0 )2 +(x1 )2 +(x2 )2 +(x3 )2 ∈
.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 1 92/1195

Note que por ser um anel de divisão, não tem divisores de zero: x · y = 0 se e somente se x = 0
ou y = 0.

• Norma Quaterniônica

Em uma álgebra A uma função N : A → 

+ que satisfaça

N (a · b) = N (a)N (b)

para todo a, b ∈ A e N (a) = 0 ⇐⇒ a = 0 é dita ser uma norma algébrica.


Em e tem-se a norma algébrica N (z) = |z|, o módulo ou valor absoluto de z.
 também possui
uma norma algébrica. Para x ∈ 4 a expressão


N (x) = x · x

define44 uma norma algébrica em .

E. 1.98 Exercı́cio. Verifique que a mesma satisfaz N (x · y) = N (x)N (y). 6

Há um teorema devido a Hurwitz45 que afirma que há apenas quatro álgebras que são álgebras de
divisão46 e possuem uma norma algébrica: , , e a chamada álgebra dos octônions, da qual não


falaremos aqui. Esta última, por sinal, não é associativa.


A álgebra possui várias outras propriedades interessantes, mas vamos encerrar aqui nossa ex-
posição introdutória. O leitor interessado poderá encontrar mais sobre nos bons livros de álgebra,
especialmente nos mais antigos.

44
Vide nota de rodapé 43, página 91.
45
Adolf Hurwitz (1859-1919).
46
Vide definição à página 60
Capı́tulo 2
Espaços Vetoriais
Conteúdo
2.1 Espaços Vetoriais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
2.1.1 Sub-Espaços e Espaços Quocientes . . . . . . . . . . . . . . . . . . . . . . . . 93
2.1.2 Bases Algébricas de um Espaço Vetorial . . . . . . . . . . . . . . . . . . . . . 94
2.1.3 O Dual Algébrico de um Espaço Vetorial . . . . . . . . . . . . . . . . . . . . 100
2.2 Formas Lineares, Sesquilineares e Produtos Escalares em Espaços Veto-
riais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107
2.2.1 Formas Multilineares . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107
2.2.2 Formas Sesquilineares e as Desigualdades de Cauchy-Schwarz e Minkowski . . 112
2.2.3 Produtos Escalares . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116
2.2.4 Exemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118
2.3 Normas em Espaços Vetoriais . . . . . . . . . . . . . . . . . . . . . . . . . . 120
2.4 Formas Bilineares e Sesquilineares em Espaços de Dimensão Finita . . . 126
2.5 Estruturas Complexas sobre Espaços Vetoriais Reais . . . . . . . . . . . . 131

noção de espaço vetorial que introduzimos na Seção 1.2.3, página 54, é da maior importância
na Fı́sica e na Matemática. Neste capı́tulo vamos desenvolvê-la com mais detalhe. Particular
atenção será dada às noções de forma multilinear, forma sesquilinear, produto escalar e norma
em espaços vetoriais.

2.1 Espaços Vetoriais

2.1.1 Sub-Espaços e Espaços Quocientes

• Sub-espaços

Seja V um espaço vetorial sobre um corpo K. Um subconjunto W de V é dito ser um sub-espaço


de V (sobre o mesmo corpo K) se para todo α, β ∈ K e todo u, v ∈ W valer que αu + βv ∈ W . É
evidente que um sub-espaço de um espaço vetorial é por si só um espaço vetorial.

• Quocientes

Se W é um sub-espaço de um espaço vetorial V sobre um corpo K, então é possı́vel definir em V


uma relação de equivalência EW ⊂ V × V da seguinte forma: dizemos que (u, v) ∈ V × V pertence a
EW se u − v ∈ W .

93
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 2 94/1195

E. 2.1 Exercı́cio. Mostre que isso de fato define uma relação de equivalência em V . 6

Seguindo a notação usual denotaremos também essa relação de equivalência pelo sı́mbolo ∼ W :
u ∼W v se u − v ∈ W .
Denotemos por V /W o conjunto das classes de equivalência de V pela relação E W . Denotaremos
por [u] ∈ V /W a classe de equivalência que contem o vetor u ∈ V .
Com esses ingredientes podemos transformar V /W em um espaço vetorial sobre K. Isso se dá
definindo em V /W uma soma e um produto por escalares. O vetor nulo será a classe de equivalência
[0] que contém o vetor 0. Como subconjunto de V , a classe [0], aliás, vem a ser o conjunto W (por
que?).
Se [u] e [v] são as classes de equivalência que contêm os elementos u e v, respectivamente, de V ,
então definimos
[u] + [v] = [u + v].

E. 2.2 Exercı́cio. Mostre que essa definição é coerente, no sentido que independe dos representantes (u
e v) escolhidos nas classes. 6

E. 2.3 Exercı́cio. Mostre que essa operação de soma é comutativa e associativa. 6

E. 2.4 Exercı́cio. Mostre que [u] + [0] = [u] para todo u ∈ V . 6

Analogamente, a operação de multiplicação por escalares é definida por

α[u] = [αu],

para todo u ∈ V .

E. 2.5 Exercı́cio. Mostre que essa definição é coerente, no sentido que independe do representante u
escolhido na classe. 6

E. 2.6 Exercı́cio. Mostre que o conjunto V /W é, portanto, um espaço vetorial sobre o corpo K com as
operações definidas acima. 6

O espaço vetorial V /W assim obtido é denominado espaço quociente de V por W .

2.1.2 Bases Algébricas de um Espaço Vetorial

• Dependência Linear

Um conjunto finito u1 , . . . , un ∈ V de vetores é dito ser linearmente dependente se existir um


conjunto de escalares α1 , . . . , αn ∈ V , nem todos nulos, tais que

α1 u1 + · · · + αn un = 0.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 2 95/1195

Um conjunto arbitrário de vetores é dito ser linearmente independente se não possuir nenhum sub-
conjunto finito que seja linearmente dependente.

• Combinações Lineares

Para um conjunto finito de vetores {u1 , . . . , un } ⊂ V e de escalares {α1 , . . . , αn } ⊂ K, uma


expressão como
α 1 u1 + · · · + α n un
é dita ser uma combinação linear dos vetores u1 , . . . , un .

• Varredura Linear

Seja C ⊂ V um conjunto de vetores. A varredura linear (“linear span”) de C, denotado por


span (C) é o conjunto de todos os vetores de V que podem ser escritos como uma combinação linear
finita de elementos de C.

• Bases Algébricas em Espaços Vetoriais

Aqui I designa um conjunto arbitrário não-vazio de ı́ndices.


Uma base algébrica1 em um espaço vetorial V é um conjunto B = {bi , i ∈ I} de vetores linearmente
independentes tais que span (B) = V e tais que qualquer vetor u de V pode ser escrito de modo único
como uma combinação linear finita de elementos de B.
Se B é uma base algébrica, então para cada u ∈ V existem univocamente definidos α1 , . . . , αn ∈ K
e i1 , . . . , in ∈ I tais que:
u = α 1 b i1 + · · · + α n b in .

Os seguintes teoremas podem ser demonstrados com uso do Lema de Zorn (omitiremos as demons-
trações aqui. Vide, por exemplo, [59]).
Teorema 2.1 Todo espaço vetorial V possui uma base algébrica, exceto o espaço vetorial trivial V =
{0}. 2

Teorema 2.2 Dado um espaço vetorial V (não trivial), todas as bases algébricas em V têm a mesma
cardinalidade. 2

• Dimensão Algébrica

Um espaço vetorial é dito ser de dimensão algébrica finita se possuir uma base algébrica finita. Se
um espaço vetorial V tem dimensão algébrica finita, sua dimensão algébrica, ou simplesmente dimensão
é definida como sendo o número de elementos de sua base.
Nem todo espaço vetorial tem uma base algébrica finita (vide exemplos abaixo). De modo geral,
se um espaço vetorial possui uma base algébrica, sua dimensão algébrica é definida como sendo a
1
Também denominada “base de Hamel”. Georg Hamel (1877-1954)
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 2 96/1195

cardinalidade de suas bases algébricas (pelo Teorema 2.2 acima são todas iguais).
Exemplo 1. V = n sobre o corpo dos complexos ou V = n sobre o corpo dos reais. Tais são bem


conhecidos exemplos-protótipo de espaços vetoriais de dimensão finita (= n).


Seja P = conjunto de todos os polinômios de uma variável real com coeficientes complexos: P n (t) ∈
P,
Pn (t) = an tn + · · · + a1 t + a0
com t ∈  , ai ∈ , é dito ser um polinômio de grau n se an 6= 0.
Exemplo 2. V = P sobre o corpo dos complexos. Este é claramente um espaço vetorial de dimensão
infinita. V possui uma base algébrica, a saber, o conjunto de todos os polinômios da forma b n = tn ,
n = 0, 1, 2, . . ..
Exemplo 3. V = sobre o corpo dos reais. O conjunto dos reais sobre o corpo dos reais é também


um espaço vetorial de dimensão 1, a saber, uma possı́vel base é formada pelo elemento 1: B = {1}, já
que, obviamente, qualquer elemento x ∈ pode ser escrito como x = x · 1, com x no corpo dos reais.


Esse exemplo pode parecer banal, e de fato o é, mas leva a um anti-exemplo curioso que mostra
que a dimensão algébrica de um espaço vetorial é também fortemente dependente do corpo de escalares
utilizado.
Exemplo 4. V =  sobre o corpo dos racionais.
A surpresa aqui é que este não é um espaço vetorial de dimensão algébrica finita: não existe um
conjunto finito {x1 , . . . , xm } de números reais tais que todo x ∈ possa ser escrito como 

x = r 1 x1 + · · · + r m xm ,

onde os números ri são racionais. A razão é que, como é um conjunto contável, a coleção de números
que se deixam escrever como o lado direito é uma coleção contável (tem a mesma cardinalidade de
m
). O conjunto , porém, não é contável.


Um resultado um tanto surpreendente diz, porém, que esse espaço vetorial possui uma base algébrica,
ou seja, existe um conjunto H ⊂ tal que para cada x ∈
 existe um conjunto finito h1 , . . . , hn


de elementos de H e um conjunto finito de racionais r1 , . . . , rn tais que x = r1 h1 + · · · + rn hn . A


demonstração da existência de uma tal base faz uso do Lema de Zorn e pode ser encontrada em [16]
ou [17]. Essa base é denominada base de Hamel de . 

Uma conseqüência curiosa da existência de bases de Hamel em  será discutida no tópico que se
inicia à página 97.
Outros exemplos menos dramáticos que mostram a dependência da dimensão com o corpo utilizado
são os seguintes: sejam V1 = sobre o corpo dos complexos e V2 = sobre o corpo dos reais. V1 tem
dimensão 1, mas V2 tem dimensão 2.
Mais adiante faremos uso do seguinte resultado:
Teorema 2.3 Se em um espaço vetorial V existir um conjunto {v1 , . . . , vn } de n vetores linearmente
independentes, então a dimensão algébrica de V é maior ou igual a n. 2

Prova. A demonstração é feita por absurdo. Suponhamos que haja uma base B = {b 1 , . . . , bk } em V
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 2 97/1195

com k < n. Então podemos escrever

v 1 = α 1 b1 + · · · + α k bk .

pois B é uma base. Nem todos os αi podem ser nulos. Supondo que αk seja um elemento não-nulo,
podemos escrever
bk = (αk )−1 (v1 − α1 b1 − · · · − αk−1 bk−1 ) (2.1)
Analogamente, temos que
v 2 = β 1 b1 + · · · + β k bk
e, usando (2.1), podemos escrever

v2 = γ1 b1 + · · · + γk−1 bk−1 + λ1 v1 .

Os γi não podem ser todos nulos, pois de outra forma terı́amos v2 = λ1 v1 , contrariando a hipótese
de os vi ’s serem linearmente independentes. Suponhamos que γk−1 seja o elemento não-nulo, podemos
escrever bk−1 como uma combinação linear envolvendo {b1 , . . . , bk−2 } e os vetores v1 e v2 . Prosseguindo,
concluiremos após k passos que
vk+1 = λ01 v1 + · · · + λ0k vk
contrariando a hipótese de que os vi ’s são linearmente independentes.

• Automorfismos descontı́nuos do grupo ( , +) 

Nota para os estudantes mais avançados.


Neste tópico usaremos as bases de Hamel da reta real para ilustrar uma patologia cuja existência
é por vezes mencionada na teoria de grupos, a saber, a existência de automorfismos descontı́nuos do
grupo ( , +).


Considere-se a equação f (x + y) = f (x) + f (y) para todo x, y ∈ . Podemos nos perguntar: 

que funções f :  →  podem satisfazê-la? É bastante claro que funções do tipo f (x) = cx, com
c constante real, satisfazem f (x + y) = f (x) + f (y) para todo x, y ∈ . Fora isso, f (x) = cx são 

contı́nuas e são bijeções de em (a menos que c = 0).


 

Serão essas as únicas funções com a propriedade f (x + y) = f (x) + f (y) para todo x, y ∈ ? Será 

que há outras funções com essa propriedade e que não sejam contı́nuas? Será que há outras funções com
essa propriedade, não-contı́nuas, e que também sejam bijeções de em ? A resposta a essa última  

pergunta é muito curiosa e conduz a uma classe de funções cuja existência ilustra algumas dificuldades
encontradas na teoria de grupos.
Provemos em primeiro lugar a seguinte afirmação:
Proposição 2.1 Se f : → satisfizer f (x + y) = f (x) + f (y) para todo x, y ∈
   e f for contı́nua
em toda reta real , então f é da forma f (x) = cx para algum c, constante real.
 2

Historicamente esse pequeno resultado é devido a Cauchy2 .


2
Augustin Louis Cauchy (1789-1857).
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 2 98/1195

Prova. Seja f contı́nua satisfazendo f (x + y) = f (x) + f (y) para todo x, y ∈ e f : → . É claro   

que, tomando x = y = 0 tem-se f (0) = f (0 + 0) = 2f (0) e, portanto f (0) = 0. Segue facilmente daı́
que 0 = f (0) = f (x + (−x)) = f (x) + f (−x) e, portanto f (−x) = −f (x) para todo x ∈ . 

Seja agora p inteiro positivo e x real, ambos arbitrários. Teremos que f (px) = f ((p − 1)x + x) =
f ((p − 1)x) + f (x) = f ((p − 2)x) + 2f (x) etc. Repetindo p vezes esse proceder, concluı́mos que
f (px) = pf (x). Como f (−x) = −f (x), essa relação vale para p negativo também. Seja agora q
inteiro, não-nulo. Então, pelo que acabamos de provar, f (1) = f (q/q) = qf (1/q) e concluı́mos que
f (1/q) = f (1)/q. Se então tivermos um número racional r da forma r = p/q, com p inteiro e q inteiro
não-nulo, teremos que f (r) = f (p/q) = pf (1/q) = (p/q)f (1) = rf (1). Finalizamos a prova evocando
a continuidade de f e o fato que todo x real pode ser aproximado por um número racional: seja
x ∈ e rn , n ∈ , uma seqüência de números racionais que coverge a x, i.e., x = lim n→∞ rn . Então
 

f (x) = f (limn→∞ rn ) = limn→∞ f (rn ) = (limn→∞ rn ) f (1) = xf (1). Na segunda igualdade usamos a
hipótese (crucial!) que f é contı́nua em toda parte. Denotando f (1) = c a afirmação está provada.

Com esse resultado em mãos podemos nos perguntar: haverá funções não-contı́nuas que satisfazem
f (x + y) = f (x) + f (y)? Talvez surpreendentemente, a resposta é positiva. Não só há funções não
contı́nuas com essa propriedade, mas há dentre elas funções bijetoras de em . Funções com tais  

caracterı́sticas um tanto patológicas podem ser construı́das com o uso das assim chamadas bases de
Hamel da reta real. Detalhemos.
Seja o espaço vetorial V dos números reais sob o corpo dos racionais. Como consideramos páginas
acima, esse espaço vetorial tem dimensão algébrica infinita, mas existe uma base H ⊂ de V , não- 

contável, denominada base de Hamel, tal que todo elemento x de pode ser escrito como combinação


linear finita (única!) por racionais de elementos de H, ou seja, para todo x ∈ existe um n (que 

depende de x), racionais r1 , . . . , rn (que dependem de x) e elementos h1 , . . . , hn de H (que também


dependem de x) tais que x pode ser escrita (de forma única!) como x = r1 h1 + · · · + rn hn . Denomina-
remos essa expressão a decomposição de x em H.
Notemos que se x e y são números reais e x = r1 h1 + · · · + rn hn e y = r10 h01 + · · · + rm 0
h0m são suas
decomposições em H, então a decomposição de x + y é r1 h1 + · · · + rn hn + r10 h01 + · · · + rm0
h0m .
Vamos definir uma função f :  → , da seguinte forma. Primeiramente fixamos seus valores


nos elementos de H tomando, para cada h ∈ H, f (h) := fh ∈ , onde os números fh são escolhidos


arbitrariamente. Em segundo lugar, para qualquer x ∈ , e cuja decomposição em H seja x =




r1 h1 + · · · + rn hn , definimos f (x) := r1 f (h1 ) + · · · + rn f (hn ) = r1 fh1 + · · · + rn fhn . Assim, se x e y são


números reais e x = r1 h1 + · · · + rn hn e y = r10 h01 + · · · + rm 0
h0m são suas decomposições em H, teremos
f (x + y) = r1 fh1 + · · · + rn fhn + r10 fh01 + · · · + rm
0
fh0m = f (x) + f (y).
O leitor pode convencer-se que há, para cada base de Hamel H, infinitas funções desse tipo (devido
à arbitrariedade da escolha dos fh ’s) e que todas são descontı́nuas, exceto se escolhermos fh = ch para
todo h ∈ H, com uma constante c fixa.
Espertamente, podemos tomar f como uma bijeção de H em H, ou seja, podemos escolher3 fh ∈ H
para todo h ∈ H e de modo que para todo h ∈ H exista um g ∈ H único tal que fg = h. Uma situação
trivial dessas é aquela na qual f é a identidade quando restrita a H: fh = h para todo h ∈ H, mas
outras escolhas são também possı́veis. Se f for uma bijeção de H em H, é fácil de se ver que imagem
3
Que tal é possı́vel é garantido pelo axioma da escolha −→ Exercı́cio.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 2 99/1195

de f no domı́nio  é toda a reta real  (mostre isso)!


Além disso, uma tal f , bijetora enquanto função de H em H, é igualmente bijetora como função
de  em . Mostremos isso. Sejam x e y ∈
 com decomposições x = r1 h1 + · · · + rn hn e y =


s1 g1 + · · · + sm gm com rj , sk ∈ e hj , gk ∈ H e suponhamos que f (x) = f (y). Isso significa que


r1 fh1 + · · · + rn fhn = s1 fg1 + · · · + sm fgm . Como cada fhj e cada fgk é elemento de H, essa igualdade
só é possı́vel se m = n, se fhj = fgπ(j) e se rj = sπ(j) para todo j = 1, . . . , n, onde π é um elemento do
grupo de permutações de n elementos (ou seja, é uma bijeção de {1, . . . , n} em si mesmo). Como f é
uma bijeção de H em si mesmo, segue que hj = gπ(j) para todo j = 1, . . . , n. Assim,
n
X n
X n
X
x = r j hj = sπ(j) gπ(j) = sj gj = y,
j=1 j=1 j=1

e, portanto, f :  →  é bijetora.
Uma função que satisfaça f (x + y) = f (x) + f (y) para todo x, y ∈ e f : → representa um   

endomorfismo do grupo ( , +). O que aprendemos no último parágrafo pode ser expresso na linguagem


da teoria de grupos como a afirmação que existem automorfismos de ( , +) que não são contı́nuos. 

Esse fato ilustra algumas situações patológicas que são por vezes encontradas ou mencionadas no
estudo de grupos contı́nuos. Com o uso de funções f desse tipo é possı́vel, por exemplo, construir
sub-grupos uniparamétricos não-contı́nuos de um grupo de Lie dado ou representações não-contı́nuas
de tais sub-grupos.
Assim, por exemplo, se A é uma matriz real n × n antisimétrica, então O(t) = exp(tA), t ∈ é um 

subgrupo uniparamétrico contı́nuo de SO(n), pois O(0) = e O(t)O(t0 ) = O(t+t0 ) para todos t, t0 ∈ , 

sendo os elementos de matriz de O(t) funções contı́nuas de t. Se agora definirmos P (t) = exp(f (t)A),
t ∈ , para uma função f : → , patológica como acima (ou seja, satisfazendo f (x+y) = f (x)+f (y)
  

para todo x, y ∈ , bijetora mas descontı́nua), ainda teremos P (0) = e P (t)P (t0 ) = P (t + t0 ) para


todos t, t0 ∈ , mas os elementos de matriz de P (t) não são funções contı́nuas de t.




• Bases Topológicas em Espaços Vetoriais

Nota para os estudantes mais avançados.


O conceito de base algébrica não deve ser confundido com o de base topológica, conceito esse per-
tencente ao contexto dos espaços vetoriais topológicos:
Uma base topológica em um espaço vetorial topológico V é um conjunto B = {b i , i ∈ I} de vetores
linearmente independentes tais que span (B) é um conjunto denso em V , ou seja, o fecho de span (B)
é V .
Uma base topológica é dita ser base topológica completa se não possuir nenhum subconjunto próprio
que também seja uma base topológica.
A dimensão topológica de um espaço vetorial é então definida como sendo a cardinalidade das bases
topológicas completas de V .
Para ilustrar como os conceitos de base algébrica e base topológica são diferentes, consideremos
novamente o seguinte Exemplo 4 acima:
Exemplo 5. V =  sobre o corpo dos racionais, com a topologia usual sobre  , tem uma base
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 2 100/1195

topológica completa de dimensão finita: B = {1}. De fato, o conjunto {r · 1, r ∈ } é denso em  .


Esse espaço vetorial possui então uma dimensão topológica igual a um.

Definição. Um espaço vetorial topológico sobre o corpo dos reais ou dos complexos é dito ser separável
se possuir uma base topológica contável.

2.1.3 O Dual Algébrico de um Espaço Vetorial


Seja V um espaço vetorial sobre um corpo K (por exemplo, o corpo ). Uma aplicação l : V → K,
definida sobre todo V , é dita ser um funcional linear se

l(αx + βy) = αl(x) + βl(y)

para todo x, y ∈ V e todo α, β ∈ K.

E. 2.7 Exercı́cio. Mostre que, de acordo com a definição acima, vale para qualquer funcional linear l
que l(0) = 0. 6

O conjunto de todos os funcionais lineares de V em K é denominado espaço dual algébrico de V e


denotado V 0 . O conjunto V 0 é feito um espaço vetorial (sobre K), através da seguinte relação:

(αl + βm)(x) := l(αx) + m(βx),

para todo l e m ∈ V 0 ; α, β ∈ K e todo x ∈ V . O vetor nulo de V 0 é o funcional linear que associa


trivialmente todo vetor de V a zero: l(x) = 0, ∀x ∈ V .
O seguinte teorema é verdadeiro e será implicitamente usado várias vezes no que segue. Sua de-
monstração é, como veremos, elementar mas instrutiva.
Teorema 2.4 Seja um espaço vetorial V sobre um corpo K. Se um vetor v tem a propriedade que
l(v) = 0 para todo l ∈ V 0 então v = 0. 2

Prova. Seja B uma base algébrica em V . Para cada elemento b ∈ B podemos associar um funcional
linear lb , definido da seguinte forma. Como todo w ∈ V pode ser escrito como uma combinação linear
finita de elementos de B, podemos sempre escrever

w = wb b + w 0 ,

onde w 0 é uma combinação linear finita de elementos de B \ {b} e wb ∈ K. (É claro que wb = 0 caso b
não compareça na decomposição de w em uma soma finita de elementos de B).
Definimos então
lb (w) = wb ,
para todo vetor w ∈ V . É um exercı́cio simples mostrar que, para cada b ∈ B, a aplicação lb : V → K
dada acima é um funcional linear.

E. 2.8 Exercı́cio. Mostre isso. 6


JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 2 101/1195

Seja então v um vetor como no enunciado do teorema. Se l(v) = 0 para todo l ∈ V 0 , vale obvi-
amente que lb (v) = 0 para todo b ∈ B. Isso, porém, trivialmente implica que v = 0, completando a
demonstração.

Notação. Para x ∈ V e l ∈ V 0 é muito freqüente, e graficamente conveniente, usar-se a notação hl, xi


em lugar de l(x).
Se A e B são espaços vetoriais e A ⊂ B então B 0 ⊂ A0 .

E. 2.9 Exercı́cio. Justifique essa última afirmativa. 6

• O Dual Topológico de um Espaço Vetorial

Seja V um espaço vetorial topológico. O conjunto de todos os funcionais lineares contı́nuos sobre
V é dito ser o dual topológico de V . O dual topológico será denotado nestas notas por V † . Note-se que
V † ⊂ V 0.

• Exemplos de Funcionais Lineares

Exemplo 1. Seja V = n , sobre o corpo dos complexos. Seja a1 , . . . , an um conjunto fixo de


números complexos. Para qualquer vetor z = (z1 , . . . , zn ) ∈ n defina-se

l(z) = a1 z1 + · · · + an zn .
n
Então l é um funcional linear em .

E. 2.10 Exercı́cio. Verifique. 6

Em verdade, é possı́vel demonstrar a recı́proca: em n todo funcional linear é da forma acima


para algum conjunto {a1 , . . . , an }. Essa afirmativa é um caso particular de um teorema importante
conhecido como “Lema de Riesz”, que será demonstrado no contexto mais geral dos chamados espaços
de Hilbert, dos quais n é um exemplo.
Seja P o conjunto de todos os polinômios de uma variável real com coeficientes complexos: P n (t) ∈ P,

Pn (t) = an tn + · · · + a1 t + a0

com t ∈ , ai ∈ , é dito ser um polinômio de grau n se an 6= 0. O conjunto P é claramente um espaço




vetorial sobre os complexos.


Exemplo 2. Para cada t0 ∈  e p ∈ P,

l(p) = p(t0 )

é um funcional linear em P.

E. 2.11 Exercı́cio. Verifique. 6

Esse exemplo pode ser generalizado:


JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 2 102/1195

Exemplo 3. Sejam t1 , . . . , tn ∈  , distintos, e a1 , . . . , an números complexos. Para todo p ∈ P,


definamos
l(p) = a1 p(t1 ) + · · · + an p(tn ).
Então l é um funcional linear em P.

E. 2.12 Exercı́cio. Verifique. 6

O último exemplo pode ser fortemente generalizado nos dois exemplos que seguem.
Exemplo 3. Seja (a, b) um intervalo finito de e h uma função complexa integrável nesse intervalo
Rb


(ou seja, a |h(t)|dt ≤ ∞). Então,


Z b
l(p) = h(t) p(t) dt
a
está definida para todo p ∈ P e define um funcional linear em P.

E. 2.13 Exercı́cio. Justifique as duas últimas afirmativas. 6


2
Exemplo 4. Seja a função g(x) = e−x . Então
Z ∞
l(p) = g(t) p(t) dt.
−∞

está definida para todo p ∈ P e define um funcional linear em P.

E. 2.14 Exercı́cio. Justifique as duas últimas afirmativas. 6

• A Relação entre V e V 0

Vamos aqui discutir o fato que sempre existe uma maneira (não-canônica, vide abaixo) de associar
vetores de um espaço vetorial V com elementos de seu dual algébrico V 0 .
Seja V um espaço vetorial sobre um corpo K e B ⊂ V uma base algébrica em V . Seja FB a coleção
de todas as funções de B em K. Afirmamos que existe uma bijeção de FB sobre V 0 , ou seja, esses dois
conjuntos podem ser identificados nesse sentido.
Para tal, seja f ∈ FB . Definimos uma aplicação I : FB → V 0 da seguinte forma. Como todo x ∈ V
pode ser escrito como uma combinação linear finita de elementos de B, digamos, x = α1 bi1 +· · ·+αn bin ,
escrevemos
I(f )(x) = α1 f (bi1 ) + · · · + αn f (bin ).
I(f ) é um funcional linear pois, se escrevemos y = αn+1 bin+1 + · · · + αn+m bin+m , teremos

I(f )(x + y) = α1 f (bi1 ) + · · · + αn+m f (bin+m )

= α1 f (bi1 ) + · · · + αn f (bin ) + αn+1 f (bin+1 ) + · · · + αn+m f (bin+m )

= I(f )(x) + I(f )(y). (2.2)


JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 2 103/1195

Isso então mostrou que I(f ) é de fato um elemento de V 0 para cada f ∈ FB . Vamos mostrar o reverso:
que a cada elemento l de V 0 há um elemento gl de FB associado e que I(gl ) = l. Seja novamente
x = α1 bi1 + · · · + αn bin ∈ V e seja l um elemento de V 0 . Tem-se

l(x) = α1 l(bi1 ) + · · · + αn l(bin ).

Definimos então gl : B → K por


gl (b) = l(b)
para todo b ∈ K. Pela definição

I(gl )(x) = α1 gl (bi1 ) + · · · + αn gl (bin ) = α1 l(bi1 ) + · · · + αn l(bin ) = l(x) (2.3)

para todo x ∈ V . Logo I(gl ) = l como querı́amos.


A aplicação I : FB → V 0 é, portanto, uma bijeção entre esses dois conjuntos. Notemos, porém, que
essa bijeção não é canônica no sentido que a mesma depende da base adotada. Se trocarmos B por
outra base a bijeção altera-se.
De posse desses fatos podemos entender a relação entre V e V 0 da seguinte forma. Seja o subconjunto
GB de FB formado por todas as funções que assumem valores não-nulos (no corpo K) apenas para um
conjunto finito de B, ou seja, para g ∈ GB existe um conjunto finito Bg = {b1 , . . . , bn } ⊂ B tal que g
é não-nula nos elementos de Bg , mas é nula em B \ Bg .
Os conjuntos GB e V podem ser identificados no seguinte sentido. Afirmamos que existe uma bijeção
J : GB → V . Tal é fácil de ver se lembrarmos que os elementos de V podem ser escritos como uma
combinação linear finita de elementos de B. De fato, para g ∈ GB definimos

J(g) = g(b1 )b1 + · · · + g(bn )bn ∈ V

onde {b1 , . . . , bn } = Bg . Reciprocamente, se x ∈ V e x = α1 bi1 + · · · + αn bin , definimos gx ∈ GB por

gx (bia ) = αa , a = 1, . . . , n

e
gx (b) = 0,
se b 6∈ {bi1 , . . . , bin }. É fácil ver então que

J(gx ) = g(bi1 )bi1 + · · · + g(bin )bin = α1 bi1 + · · · + αn bin = x , (2.4)

o que mostra que J é bijetora. Notemos novamente que essa bijeção também não é canônica, no sentido
que a mesma depende da base adotada. Se trocarmos B por outra base a bijeção altera-se.

E. 2.15 Exercı́cio importante. Mostre agora que J −1 : V → Gb é linear, ou seja, J −1 (αx + βy) =
αJ −1 (x) + βJ −1 (y) para todos x, y ∈ V e todos α, β ∈ K. 6

Juntando o discutido acima, concluı́mos que φ1 = I ◦ J −1 é uma aplicação linear injetora de V em


0
V . A mesma, porém, não é “natural”, pois depende da base algébrica B escolhida.
Assim, fixada uma base B em V há uma maneira de associar todos os elementos de V com elementos
do seu dual algébrico. Notemos porém que pode haver elementos de V 0 aos quais não correspondem tais
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 2 104/1195

identificações, ou seja, a imagem de φ1 = I ◦ J −1 é tipicamente (especialmente em dimensão infinita)


um subconjunto próprio de V 0 .
Exemplo. Seja P o espaço vetorial dos polinômios em definido acima. Seja T = {ti ∈ , i ∈ },
  

um conjunto contável de pontos distintos da reta real e seja q(t) = q0 + q1 t + · · · + qn tn , polinômio.


Definamos lq ∈ V 0 por
lq (p) = q0 p(t0 ) + q1 p(t1 ) + · · · + qn p(tn ).

E. 2.16 Exercı́cio. Mostre que a aplicação P 3 q → lq ∈ V 0 é linear e injetora. 6

E. 2.17 Exercı́cio. Será que com o conjunto T fixado todo elemento de V 0 seria da forma lq para algum
q?. Pense. Inspire-se nos exemplos 3 e 4 da página 102. O que acontece para conjuntos T diferentes? 6

Comentário. Mais interessante que a relação entre V e V 0 , é a relação de V com o dual algébrico de
V 0 , o chamado bi-dual algébrico de V e denotado por (V 0 )0 , assunto que discutiremos agora. A razão
é que, ao contrário do que tipicamente ocorre entre V e V 0 , há sempre uma aplicação linear injetora
entre V e (V 0 )0 que é natural, ou seja, independente de escolhas de bases.
Outro interesse na relação entre V e (V 0 )0 reside no fato que a mesma revela-nos, como veremos,
uma profunda distinção entre espaços vetoriais de dimensão finita e infinita.

• O Bi-dual Algébrico de um Espaço Vetorial

Se V é um espaço vetorial sobre um corpo K já observamos que V 0 é também um espaço vetorial
sobre o mesmo corpo. Assim, V 0 tem também seu dual algébrico que é denominado bi-dual algébrico
de V .
O bi-dual algébrico de um espaço vetorial V é o espaço (V 0 )0 . Como vimos nas páginas anteriores,
existe pelo menos uma aplicação linear injetiva de V em V 0 . Chamemos esta aplicação de φ1 . Ana-
logamente, existe pelo menos uma aplicação linear injetiva φ2 de V 0 em (V 0 )0 . A composição φ2 ◦ φ1
fornece uma aplicação linear injetiva de V em (V 0 )0 . Como φ1 e φ2 dependem de escolhas de base, a
composição φ2 ◦ φ1 também depende, não sendo, assim, natural.
Ao contrário do que ocorre na relação entre V e V 0 , podemos sempre encontrar uma aplicação
linear injetiva de V em (V 0 )0 que é natural: independente de base. Vamos denotá-la por λ. Definimos
λ : V → (V 0 )0 da seguinte forma: para x ∈ V , λ(x) é o elemento de (V 0 )0 que associa a cada l ∈ V 0 o
valor l(x):
λ(x)(l) = l(x).

E. 2.18 Exercı́cio. Mostre que λ : V → (V 0 )0 é linear. 6

E. 2.19 Exercı́cio. Mostre que λ : V → (V 0 )0 é injetora. Sugestão: use o Teorema 2.4, enunciado e
demonstrado na página 100. 6

É transparente pela definição de λ que a mesma é independente de bases e, portanto, “natural”. A


relação entre x ∈ V e um elemento de (V 0 )0 mostrada acima é tão direta que quase poderı́amos dizer que
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 2 105/1195

V é um subconjunto de (V 0 )0 : V ⊂ (V 0 )0 . Alguns autores, abusando um pouco da linguagem, chegam


mesmo a escrever uma tal relação de inclusão. Mais correta, no entanto é a relação λ(V ) ⊂ (V 0 )0 .
Poderı́amos nesse momento nos perguntar: quando podemos eventualmente ter λ(V ) = (V 0 )0 ? Para
o caso de espaços vetoriais sobre o corpo dos reais ou dos complexos resposta é simples e um tanto
surpreendente e se expressa no seguinte teorema.
Teorema 2.5 Seja V um espaço vetorial sobre o corpo dos reais ou dos complexos. Então λ(V ) = (V 0 )0
se e somente se V é um espaço vetorial de dimensão finita. 2

Este teorema revela uma importante distinção entre espaços de dimensão finita e infinita. Em
dimensão finita todos os funcionais lineares do dual algébrico de V 0 são da forma λ(x) para algum
vetor x. Em dimensão infinita, porém, há certamente elementos em (V 0 )0 que não são dessa forma.
Assim, ao tomarmos duais duplos em dimensão infinita sempre obtemos espaços vetoriais “maiores”, o
que não ocorre em dimensão finita.

Prova. Seja V um espaço vetorial sobre um corpo K = ou  .


Caso de dimensão finita. Vamos em primeiro lugar supor que V é de dimensão finita e denotemos
por dim V sua dimensão. Seja também B = {b1 , . . . , bn } uma base de V . É claro que o número de
elementos de B é n = dim V .
É fácil mostrar que o conjunto {λ(b1 ), . . . , λ(bn )} é linearmente independente em (V 0 )0 . De fato, se
existirem escalares αi tais que
α1 λ(b1 ) + · · · + αn λ(bn ) = 0
ou seja,
λ(α1 b1 + · · · + αn bn ) = 0
terı́amos para todo l ∈ V 0
λ(w)(l) = l(w) = 0
onde w = α1 b1 + · · · + α1 bn . Isso, porém, implica w = 0 (pelo Teorema 2.4, página 100), o que implica
α1 = · · · = αn = 0.
Isso claramente diz que dim (V 0 )0 ≥ dim V . Afirmamos que a igualdade só se dá se λ(V ) = (V 0 )0 .
De fato, se λ(V ) = (V 0 )0 então todo elemento de (V 0 )0 é da forma
λ(α1 b1 + · · · + αn bn ) = α1 λ(b1 ) + · · · + αn λ(bn )
e, portanto {λ(b1 ), . . . , λ(bn )} é uma base em (V 0 )0 e dim (V 0 )0 = dim V . Se, por outro lado, λ(V ) é um
subconjunto próprio de (V 0 )0 , existem elementos v 00 ∈ (V 0 )0 tais que v 00 − α1 λ(b1 ) − · · · − αn λ(bn ) 6= 0
para todos αi ∈ K. Portanto, {v 00 , λ(b1 ), . . . , λ(bn )} é um conjunto de n + 1 vetores linearmente
independentes. Logo dim (V 0 )0 > n = dim V , pelo Teorema 2.3, página 96.
Vamos então mostrar que obrigatoriamente tem-se que dim (V 0 )0 = dim V , provando o teorema.
Como vimos quando discutimos a relação entre V e V 0 à página 102, V 0 é equivalente ao conjunto
FB de todas as funções de B em K, enquanto que V é equivalente ao conjunto GB formado por todas
as funções que assumem valores não-nulos (no corpo K) apenas para um conjunto finito de B. Como
B tem um número finito de elementos, sucede GB = FB (por que?). Logo V e V 0 são equivalentes:
existe uma bijeção linear ϕ1 entre ambos.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 2 106/1195

A aplicação ϕ1 leva a base B em uma base ϕ1 (B) em V 0 . Para ver isso, notemos que todo elemento
l ∈ V 0 é da forma l = ϕ1 (v), para algum v ∈ V . Como todo v ∈ V é da forma v = α1 b1 +· · ·+αn bn , segue
que todo elemento l ∈ V 0 é da forma α1 ϕ1 (b1 )+· · ·+αn ϕ1 (bn ). Como ϕ1 é bijetora, {ϕ1 (b1 ), . . . , ϕ1 (bn )}
é um conjunto de vetores linearmente independentes pois se existirem escalares β1 , . . . , βn tais que
β1 ϕ1 (b1 ) + · · · + βn ϕ1 (bn ) = 0
terı́amos ϕ1 (β1 b1 + · · · + βn bn ) = 0 o que implica β1 b1 + · · · + βn bn = 0, pois ϕ1 é bijetora. Isso porém
implica β1 = · · · = βn = 0, pois {b1 , . . . , bn } é uma base. Assim, ϕ1 (B) = {ϕ1 (b1 ), . . . , ϕ1 (bn )} é uma
base em V 0 e, portanto, dim V 0 = n = dim V .
Analogamente, tem-se que V 0 e (V 0 )0 são equivalentes e, portanto, existe uma bijeção linear ϕ2 entre
ambos que leva a base ϕ1 (B) em uma base ϕ2 ◦ ϕ1 (B) em (V 0 )0 . Portanto, dim V 0 = dim (V 0 )0 .
Logo dim V = dim V 0 = dim (V 0 )0 , como querı́amos provar.
Caso de dimensão infinita. No caso de dimensão infinita desejamos mostrar que sempre há elementos
em (V 0 )0 que não são da forma λ(x) para algum x ∈ V .
Abaixo K é o corpo dos reais ou dos complexos.
Vamos primeiro delinear a estratégia a ser seguida. Seja B uma base em V (fixa daqui por diante).
Como sabemos, existe uma aplicação linear bijetora φ : FB → V 0 . Uma função s : B → K, s ∈ FB
é dita ser limitada se existir um M > 0 tal que |s(b)| < M para todo b ∈ B. Seja LB o conjunto de
todas as funções limitadas de B em K. É claro que LB ⊂ FB . Vamos mostrar o seguinte: não existe
nenhum vetor não-nulo v ∈ V com a propriedade que
λ(v)(β) = 0
para todo β ∈ φ(LB ). Seja v = α1 b1 + · · · + αm bm um tal vetor para o qual λ(v)(β) = 0. Isso significa
que para todo β ∈ φ(LB )
0 = λ(v)(β) = β(v) = α1 β(b1 ) + · · · + αm β(bm ).
Tomemos funcionais βi ’s da forma

1, se b = bi
βi (b) =
0, de outra forma
para i = 1, . . . , m. Como todo βi é um elemento de φ(LB ) (por que?), terı́amos 0 = βi (v) = αi para
todo i, o que implica v = 0.
A conclusão é que nenhum elemento de (V 0 )0 que seja da forma λ(v) para algum v ∈ V não-nulo
pode anular todos os elementos de φ(LB ) ⊂ V 0 . A estratégia que seguiremos será a de exibir um
elemento de (V 0 )0 que tem precisamente a propriedade de anular todos os elementos de φ(LB ). Um tal
elemento não pode pertencer, portanto, a λ(V ), o que mostra que λ(V ) é um subconjunto próprio de
(V 0 )0 no caso de dimensão infinita.
Seja u ∈ V 0 \ φ(LB ) e U o sub-espaço de V 0 gerado por u. Todo elemento l ∈ V 0 pode ser escrito
de modo único na forma
l = au + y
onde a ∈ K e y pertence ao sub-espaço complementar de U . Definamos α(l) = a. É claro que α ∈ (V 0 )0
e que α aniquila todo elemento de φ(LB ), pois estes pertencem ao sub-espaço complementar de U (por
que?). Assim, α ∈ (V 0 )0 mas α 6∈ λ(V ).
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 2 107/1195

2.2 Formas Lineares, Sesquilineares e Produtos Escalares em


Espaços Vetoriais

2.2.1 Formas Multilineares


Seja V um espaço vetorial sobre um corpo K (por exemplo, os reais ou os complexos) e n um número
inteiro positivo. Uma n-forma multilinear4 em V é uma função ω : V n → K que seja linear em cada um
dos seus argumentos, ou seja, para todo α, β ∈ K, todos v1 , . . . , vn ∈ V , vi0 ∈ V e todo i = 1, . . . , n
vale

ω (v1 , . . . , vi−1 , (αvi + βvi0 ), vi+1 , . . . , vn ) =

αω (v1 , . . . , vi−1 , vi , vi+1 , . . . , vn ) + βω (v1 , . . . , vi−1 , vi0 , vi+1 , . . . , vn ) (2.5)

O seguinte fato importante é conseqüência imediata da definição acima: se ω é uma n-forma mul-
tilinear então
ω (v1 , . . . , vi−1 , 0, vi+1 , . . . , vn ) = 0
para todo i, ou seja, se um dos argumentos é o vetor nulo a forma se anula.

E. 2.20 Exercı́cio. Prove isso. Sugestão: o que acontece se escolhermos α = β = 0? 6

Um fato importante é o seguinte: o conjunto de todas as n-formas lineares em um espaço vetorial


V sobre um corpo K é igualmente um espaço vetorial sobre K. Para tal procede-se da seguinte forma:
para duas n-formas lineares ω1 e ω2 e dois escalares α1 , α2 ∈ K define-se a combinação linear α1 ω1 +α2 ω2
como sendo a n-forma linear que a toda n-upla de vetores v1 , . . . , vn ∈ V associa

(α1 ω1 + α2 ω2 )(v1 , . . . , vn ) = α1 ω1 (v1 , . . . , vn ) + α2 ω2 (v1 , . . . , vn ).

E. 2.21 Exercı́cio. Complete os detalhes da prova que o conjunto de todas as n-formas lineares em um
espaço vetorial V sobre um corpo K forma um espaço vetorial sobre K. 6

• Formas Bilineares

De particular interesse é o caso n = 2, em cujo caso as formas são denominadas bilineares: uma
forma bilinear é uma função ω : V 2 → K que seja linear em cada um dos seus dois argumentos, ou
seja, para todo α, β ∈ K, todos u, v, w ∈ V , valem

ω(u, (αv + βw)) = αω(u, v) + βω(u, w),

ω((αu + βv), w) = αω(u, w) + βω(v, w).


4
Também chamada n-forma linear ou simplesmente n-forma.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 2 108/1195

Um exemplo básico importante é o seguinte. Seja V = n o espaço vetorial (sobre o corpo dos


reais) formado por n-uplas de números reais: V = {x = (x1 , . . . , xn ), xi ∈ }. Uma forma bilinear 

em V é dada por
Xn
hx, yi = xk y k .
 (2.6)
k=1

Outro exemplo é
ωA (x, y) = hx, Ayi , 

onde A é uma matriz n × n real qualquer.

• Formas Bilineares Não-Degeneradas

Uma forma bilinear ω é dita ser uma forma bilinear não-degenerada se satisfizer a seguinte condição:
se para todo vetor v valer ω(v, u) = 0, então u = 0.

• Formas Bilineares Não-Singulares

Seja V um espaço vetorial e ω uma forma bilinear em V . Para u ∈ V fixo a aplicação lu (v) = ω(u, v)
é um funcional linear em V , ou seja, um elemento do espaço dual V 0 . Se a aplicação l : V → V 0 que
associa cada u ∈ V ao funcional linear lu acima for um isomorfismo de espaços vetoriais a forma bilinear
ω é dita ser uma forma bilinear não-singular.
Há vários outros tipos de formas multilineares que são importantes, como por exemplo as chamadas
formas multilineares alternantes e, dentre estas as formas simpléticas.

• Formas Alternantes

Uma n-forma linear ω em um espaço vetorial V sobre um corpo K é dita ser alternante (ou anti-
simétrica) se satisfizer

ω (v1 , . . . , vi−1 , vi , vi+1 , vi+2 , . . . , vn ) = −ω (v1 , . . . , vi−1 , vi+1 , vi , vi+2 , . . . , vn ) (2.7)

para todos os vetores v1 , . . . , vn ∈ V e todo i = 1, . . . , n − 1. Em palavras, quando trocamos de


lugar dois argumentos vizinhos quaisquer a forma troca de sinal.
Deve ser bem claro que essa definição equivale à seguinte afirmação: se ω é uma n-forma linear
alternante, então para todo π ∈ Sn , o grupo de permutações de n elementos, vale

ω vπ(1) , . . . , vπ(n) = (sinalπ) ω (v1 , . . . , vn ) , (2.8)

para todos os vetores v1 , . . . , vn ∈ V , onde sinalπ é o sinal da permutação π (definido à página 569).

E. 2.22 Exercı́cio. Está claro? 6

Nomenclatura. Se ω é n-forma linear alternante, n é dito ser o grau de ω.


O conjunto de todas as n-formas lineares alternantes em um espaço vetorial V sobre um corpo K é
igualmente um espaço vetorial sobre K: para duas n-formas lineares alternantes ω1 e ω2 e dois escalares
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 2 109/1195

α1 , α2 ∈ K define-se a combinação linear α1 ω1 + α2 ω2 como sendo a n-forma linear que a toda n-upla
de vetores v1 , . . . , vn ∈ V associa

(α1 ω1 + α2 ω2 )(v1 , . . . , vn ) = α1 ω1 (v1 , . . . , vn ) + α2 ω2 (v1 , . . . , vn ).

É fácil constatar que a n-forma linear assim definida é também alternante.

E. 2.23 Exercı́cio. Complete os detalhes da prova que o conjunto de todas as n-formas lineares alter-
nantes em um espaço vetorial V sobre um corpo K forma um espaço vetorial sobre K. 6

• Formas Simpléticas

Formas bilineares alternantes não-degeneradas são denominadas formas simpléticas 5. Formas sim-
pléticas são importantes em algumas áreas da Fı́sica, como por exemplo na mecânica clássica e no
estudo de métodos de quantização.
Assim, uma forma simplética em um espaço vetorial V sobre um corpo K é uma forma bilinear
para a qual
ω(u, v) = −ω(v, u)
para todos os vetores u, v ∈ V e tal que se ω(u, v) = 0 para todo v, então u = 0.
n
Um exemplo básico importante no caso do espaço vetorial V =  e que, como veremos na Seção
2.4, é o caso geral é o seguinte:
ωA (x, y) = hx, Ayi , 

onde A é uma matriz n × n real anti-simétrica, ou seja, que satisfaz AT = −A, o que equivale a dizer
que seus elementos de matriz satisfazem Aij = −Aji . Fora isso, pela condição de não-degenerescência
A tem que ser invertı́vel, pois se hx, Ayi = 0 para todo y, então hAT x, yi = 0 para todo y, o
 

que só é possı́vel se AT x = 0. Isso implicaria que det(A) = det(AT ) = 0. Uma conseqüência do
fato de A ter de ser invertı́vel é que n tem que ser par. De fato, a condição A T = −A diz que
det(A) = det(−AT ) = (−1)n det(AT ) = (−1)n det(A). Portanto, se n é ı́mpar terı́amos det(A) = 0.

• Algumas Propriedades Básicas de Formas Lineares Alternantes

É evidente pela definição que se ω é uma n-forma alternante então ω (v1 , . . . , vn ) = 0 caso haja
vi = vj para algum par i 6= j. Em particular, para formas simpléticas ω(u, u) = 0 para todo u ∈ V .

E. 2.24 Exercı́cio. A propriedade mencionada no último parágrafo é equivalente à definição de forma


linear alternante: se ω é uma n-forma linear e ω (v1 , . . . , vn ) = 0 sempre que vi = vj para algum par i 6= j,
então ω é alternante. Prove isso. Sugestão: para i 6= j defina a forma bilinear ω ij (vi , vj ) := ω (v1 , . . . , vn )
onde todos os vetores v1 , . . . , vn estão fixos exceto vi e vj . Usando agora que ωij (x + y, x + y) = 0,
mostre que ωij (vi , vj ) = −ωij (vj , vi ) para todo vi e vj . A afirmação principal segue disso (por que?). 6

A seguinte proposição sobre formas lineares alternantes é importante:


5
Do grego symplektikós: que serve para ligar, trançado, enlaçado.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 2 110/1195

Proposição 2.2 Se ω é uma n-forma linear alternante e v1 , . . . , vn são vetores linearmente dependentes,
então
ω (v1 , . . . , vn ) = 0.
2

E. 2.25 Exercı́cio. Prove isso. 6

• Formas Alternantes Maximais

A Proposição 2.2 tem uma conseqüência imediata: se V é um espaço vetorial de dimensão n e ω é


uma forma linear alternante de ordem m > n, então ω = 0.

E. 2.26 Exercı́cio. Por quê? 6

Assim, em um espaço de dimensão n o grau máximo de uma forma alternante é n. Formas alternan-
tes de grau máximo são ditas formas alternantes maximais. Vamos mais adiante estudar como são essas
formas maximais, mas antes, precisamos discutir alguns fatos importantes sobre formas alternantes em
espaços de dimensão finita.
Em um espaço vetorial V de dimensão n o espaço vetorial das formas alternantes maximais é
unidimensional. Para ver isso notemos o seguinte. Seja {b1 , . . . , bn } uma base em V . Sejam agora ω1
e ω2 duas formas alternantes maximais em V e seja x1 , . . . , xn uma n-upla de vetores de V . Como
{b1 , . . . , bn } é uma base, podemos sempre escrever
n
X
xi = αij bj ,
j=1

para todo i = 1, . . . , n. Assim,


n
X n
X
ω1 (x1 , . . . , xn ) = ··· α1j1 · · · αnjn ω1 (bj1 , . . . , bjn )
j1 =1 jn =1

e, analogamente,
n
X n
X
ω2 (x1 , . . . , xn ) = ··· α1j1 · · · αnjn ω2 (bj1 , . . . , bjn ).
j1 =1 jn =1

Ocorre que ω1 (bj1 , . . . , bjn ) é zero caso ocorram dois ı́ndices jk iguais. Por isso, podemos reescrever
as expressões acima da seguinte forma:
X
ω1 (x1 , . . . , xn ) = α1j(1) · · · αnj(n) ω1 (bj(1) , . . . , bj(n) )
j∈Sn

e, analogamente, X
ω2 (x1 , . . . , xn ) = α1j(1) · · · αnj(n) ω2 (bj(1) , . . . , bj(n) ) ,
j∈Sn
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 2 111/1195

onde, acima, Sn é o conjunto de todas as bijeções de {1, . . . , n} em si mesmo (o chamado grupo de


permutações de n elementos).

E. 2.27 Exercı́cio. Justifique. 6

Como ω1 é uma forma alternante maximal, tem-se que

ω1 (bj(1) , . . . , bj(n) ) = sinal(j) ω1 (b1 , . . . , bn ).

Assim, !
X
ω1 (x1 , . . . , xn ) = α1j(1) · · · αnj(n) sinal(j) ω1 (b1 , . . . , bn )
j∈Sn

e, analogamente,
!
X
ω2 (x1 , . . . , xn ) = α1j(1) · · · αnj(n) sinal(j) ω2 (b1 , . . . , bn ).
j∈Sn

Como se vê nessas últimas expressões, ω1 (x1 , . . . , xn ) e ω2 (x1 , . . . , xn ) diferem apenas pelos fatores
ω1 (b1 , . . . , bn ) e ω2 (b1 , . . . , bn ), respectivamente. Como esses fatores são apenas números (elementos
do corpo K), são proporcionais um ao outro. Isso prova então que ω1 (x1 , . . . , xn ) e ω2 (x1 , . . . , xn )
são proporcionais um ao outro para toda n-upla x1 , . . . , xn e isso era o que querı́amos provar.
Com as observações acima chegamos ao importante conceito de forma determinante.

• A Forma Determinante

Como observamos acima, todas as n-formas lineares alternantes maximais de um espaço vetorial
V de dimensão n são proporcionais umas às outras. Assim, o conhecimento de uma forma alternante
maximal determina todas as outras.
A forma determinante6 ωdet em um espaço vetorial V de dimensão n é a n-forma linear alternante
maximal tal que ωdet (b1 , . . . , bn ) = 1 no caso em que {b1 , . . . , bn } é a base canônica de V :
     
1 0 0
0  1  0
     
0  0   
b1 =   , b2 =   , . . . , bn =  ...  .
 ..   ..   
. . 0
0 0 1

Assim, X
ωdet (x1 , . . . , xn ) = α1j(1) · · · αnj(n) sinal(j),
j∈Sn

onde αij é a j-ésima componente do vetor xi na base canônica.


6 3
Também chamada de forma volume, pois em , ωdet (x1 , x2 , x3 ) é igual ao volume do paralelepı́pedo descrito pelos
vetores x1 , x2 , x3 .
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 2 112/1195

Como observamos, todas as outras n-formas lineares alternantes maximais de V são proporcionais
a ωdet .

• Determinante de Matrizes

Sejam x1 , . . . , xn vetores, representados na base canônica por vetores-coluna


 
αi1
 .. 
xi =  .  .
αin

Denotamos por [[x1 , . . . , xn ]] a matriz n × n construı́da de forma que sua a-ésima coluna seja o
vetor-coluna xa , ou seja  
α11 · · · αn1
 ..  .
[[x1 , . . . , xn ]] =  ... ..
. . 
α1n · · · αnn

É evidente que toda matriz M (n × n) pode ser escrita na forma M = [[x1 , . . . , xn ]] para algum
conjunto de vetores x1 , . . . , xn que representam suas colunas.
Define-se então o determinante da matriz M como sendo

det(M ) := ωdet (x1 , . . . , xn ).

Cremos que o conceito de determinante de matrizes e suas propriedades básicas sejam bem conhe-
cidos do estudante.

2.2.2 Formas Sesquilineares e as Desigualdades de Cauchy-Schwarz e Min-


kowski

• Formas Sesquilineares. Definições

Seja V um espaço vetorial complexo. Uma forma sesquilinear7 é uma função ω : V × V → que
satisfaz as seguintes propriedades:
1. Linearidade em relação à segunda variável:

ω(u, αv + βw) = αω(u, v) + βω(u, w),

para todos os vetores u, v e w e para todos os números complexos α e β.


2. Anti-linearidade em relação à primeira variável:

ω(αu + βv, w) = αω(u, w) + βω(v, w),


7
Do radical grego sesqui: um e meio.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 2 113/1195

para todos os vetores u, v e w e para todos os números complexos α e β.


É imediato pela definição que toda forma sesquilinear ω se anula no vetor nulo, ou seja,

ω(u, 0) = ω(0, u) = 0,

para todo vetor u.

E. 2.28 Exercı́cio. Prove isso. 6

Uma forma sesquilinear é dita ser uma forma sesquilinear Hermitiana se satisfizer:
3. Simetria por conjugação complexa:

ω(u, v) = ω(v, u),

para todos os vetores u e v.


Uma forma sesquilinear é dita ser uma forma sesquilinear positiva se satisfizer
4. Positividade. Para todo u ∈ V ,
ω(u, u) ≥ 0.
Abaixo (Teorema 2.6, página 113) provaremos que toda forma sesquilinear positiva é automatica-
mente Hermitiana. Lá provaremos também que se ω é uma forma sesquilinear positiva então vale
que |ω(u, v)|2 ≤ ω(u, u) ω(v, v) para todos os vetores u e v. Essa desigualdade é conhecida como
Desigualdade de Cauchy-Schwarz.
Uma forma sesquilinear é dita ser uma forma sesquilinear não-degenerada se satisfizer:
5. Não-degenerescência. Se um vetor u é tal que vale ω(u, v) = 0 para todo vetor v, então u = 0.
Nomenclatura. Uma forma sesquilinear que não é não-degenerada é dita ser degenerada.

• Formas sesquilineares não-singulares

Seja V um espaço vetorial e ω uma forma sesquilinear em V . Para u ∈ V fixo a aplicação l u (v) =
ω(u, v) é um funcional linear em V , ou seja, um elemento do espaço dual V 0 . Se a aplicação anti-linear
l : V → V 0 que associa cada u ∈ V ao funcional linear lu acima for um anti-isomorfismo8 de espaços
vetoriais a forma sesquilinear ω é dita ser uma forma sesquilinear não-singular.

• A Desigualdade de Cauchy-Schwarz

De importância fundamental na teoria das formas sesquilineares é o seguinte teorema, que apresenta-
nos a importante desigualdade de Cauchy9 -Schwarz10 .
Teorema 2.6 Se ω é uma forma sesquilinear positiva, então é também Hermitiana, ou seja,

ω(u, v) = ω(v, u) ,
8
Definido à página 66.
9
Augustin Louis Cauchy (1789-1857).
10
Karl Herman Amandus Schwarz (1843-1921).
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 2 114/1195

para todos os vetores u e v. Fora isso vale a desigualdade de Cauchy-Schwarz: para todos os vetores u
e v,
|ω(u, v)|2 ≤ ω(u, u) ω(v, v). (2.9)
Por fim, se ω é uma forma sesquilinear positiva e não-degenerada então ω(u, u) = 0 se e somente se
u = 0. 2

Prova. Faremos uso do fato que, para qualquer número complexo λ e quaisquer vetores u e v vale, pela
hipótese de positividade,
ω(u + λv, u + λv) ≥ 0.
Escrevendo-se explicitamente o lado esquerdo temos a desigualdade

|λ|2 ω(v, v) + λ ω(u, v) + λ ω(v, u) + ω(u, u) ≥ 0.

E. 2.29 Exercı́cio. Verifique isso. 6

Vamos agora escrever λ na forma λ = x + iy, onde x é a parte real de λ e y sua parte imaginária.
A última expressão fica

f (x, y) := (x2 + y 2 )ω(v, v) + (x + iy)ω(u, v) + (x − iy)ω(v, u) + ω(u, u) ≥ 0.

E. 2.30 Exercı́cio. Verifique isso. 6

Vamos decompor ω(u, v) e ω(v, u) nas suas partes reais e imaginárias, escrevendo

ω(u, v) = α + iβ e ω(v, u) = γ + iδ, (2.10)

onde α, β, γ e δ ∈  . Ficamos com

f (x, y) = (x2 + y 2 )ω(v, v) + (xα − yβ) + i(xβ + yα) + (xγ + yδ) + i(xδ − yγ) + ω(u, u) ≥ 0. (2.11)

Como f (x, y) tem que ser real (e ≥ 0) segue que a parte imaginária da expressão acima deve ser nula
e, como ω(v, v) e ω(u, u) são reais, devemos ter

0 = (xβ + yα) + (xδ − yγ) = x(β + δ) + y(α − γ).

Como isso deve valer para todos x, y ∈  , segue que β = −δ e α = γ. Comparando com (2.10), isso
diz que
ω(u, v) = ω(v, u),
provando que ω é Hermitiano.
Com as relações β = −δ e α = γ a expressão (2.11) fica

f (x, y) = (x2 + y 2 )ω(v, v) + 2(xα − yβ) + ω(u, u). (2.12)


JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 2 115/1195

Vamos agora considerar dois casos: um onde ω(v, v) = 0 e outro onde ω(v, v) 6= 0. No primeiro

f (x, y) = 2(xα − yβ) + ω(u, u).

Assim, como ω(u, u) ≥ 0 pela positividade, a condição f (x, y) ≥ 0 é possı́vel para todos x e y ∈ 

se e somente se α = β = 0, ou seja, se e somente se ω(u, v) = 0 para todo u. Aqui a desigualdade de


Cauchy-Schwarz (2.9) é trivialmente satisfeita, pois ambos os lados são iguais a zero.
Passemos ao caso ω(v, v) 6= 0. Resta-nos provar a desigualdade de Cauchy-Schwarz (2.9) para esse
caso. Podemos reescrever o lado direito de (2.12) como
" 2  2 #  2 
α β α + β2
f (x, y) = ω(v, v) x + + y− + ω(u, u) − .
ω(v, v) ω(v, v) ω(v, v)

E. 2.31 Exercı́cio. Verifique. 6

Daı́, constatamos que f (x, y) ≥ 0 para todos x e y ∈ se e somente se




 2 
α + β2
ω(u, u) − ≥ 0,
ω(v, v)

ou seja, se e somente se
ω(u, u)ω(v, v) ≥ α2 + β 2 .
O lado direito é, porém, |ω(u, v)|2 , e a última desigualdade significa

|ω(u, v)|2 ≤ ω(u, u)ω(v, v),

que é a desigualdade de Cauchy-Schwarz que querı́amos demonstrar.


Finalmente, se ω é uma forma sesquilinear positiva e não-degenerada e um certo vetor u é tal que
ω(u, u) = 0, segue pela desigualdade de Cauchy-Schwarz que ω(u, v) = 0 para todo v, o que implica
u = 0, pois ω é não-degenerada.

• A Desigualdade de Minkowski

A desigualdade de Cauchy-Schwarz tem uma conseqüência de certa importância, a chamada De-


sigualdade de Minkowski: Se ω é uma forma sesquilinear positiva (em particular, se ω é um produto
escalar) então, para todos os vetores u e v, vale

ω(u − v, u − v)1/2 ≤ ω(u, u)1/2 + ω(v, v)1/2 . (2.13)


JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 2 116/1195

A demonstração é simples:

ω(u − v, u − v) = ω(u, u) − ω(u, v) − ω(v, u) + ω(v, v)

= ω(u, u) − 2Re (ω(u, v)) + ω(v, v)

≤ ω(u, u) + 2 |ω(u, v)| + ω(v, v)

≤ ω(u, u) + 2ω(u, u)1/2 ω(v, v)1/2 + ω(v, v)


 2
= ω(u, u)1/2 + ω(v, v)1/2 ,

que é o que se queria demonstrar. Acima, na passagem da terceira para a quarta linha, usamos a
desigualdade de Cauchy-Schwarz.

2.2.3 Produtos Escalares

• Produtos Internos ou Produtos Escalares

Uma forma sesquilinear positiva ω é dita ser um produto escalar ou produto interno se satisfizer:
6. ω(u, u) = 0 se e somente se u = 0.
A proposição seguinte apresenta uma definição alternativa de produto escalar.
Proposição 2.3 Uma forma sesquilinear positiva é um produto escalar se e somente se for não-
degenerada. 2

Prova. Se ω é um produto escalar, então se u é tal que ω(u, v) = 0 para todo v, vale em particular
(tomando v = u) que ω(u, u) = 0 e, portanto, u = 0. Assim, todo o produto escalar é não-degenerado.
Reciprocamente, pelo Teorema 2.6, página 113, se ω é uma forma sesquilinear positiva e não-degenerada,
então vale automaticamente que ω(u, u) = 0 se e somente se u = 0

• Notações para produtos escalares

Seguindo a convenção, denotaremos freqüentemente produtos escalares de dois vetores u e v não


por ω(u, v) mas por hu, vi. É freqüente também denotar um produto escalar de dois vetores u e v por
(u, v). Essa notação pode causar confusão com a de par ordenado e por isso a evitamos. Em textos
de Fı́sica é comum encontrar também a chamada notação de Dirac para produtos escalares: hu|vi. Por
diversas razões não compartilhamos do entusiasmo de alguns com essa notação e também a evitamos.

• Detalhando a definição de produto escalar

Como o conceito de produto escalar é muito importante, vamos detalhá-lo um pouco mais antes de
passarmos a exemplos.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 2 117/1195

Um produto escalar ou produto interno em um espaço vetorial V sobre o corpo dos complexos é
uma função V × V → , denotada por hu, vi, para u, v ∈ V , com as seguintes propriedades:

1. O produto escalar é linear na segunda variável:


hu, αv + βwi = αhu, vi + βhu, wi
para todos u, v e w ∈ V e todos α, β ∈ .
2. O produto escalar é anti-linear na primeira variável:
hαu + βv, wi = αhu, wi + βhv, wi
para todos u, v e w ∈ V e todos α, β ∈ , onde α é o complexo conjugado de α ∈ .
3. Conjugação complexa:
hu, vi = hv, ui
para todos u, v ∈ V .
4. Para todo u ∈ V
h0, ui = hu, 0i = 0.

5. Positividade. Para todo vetor u não-nulo


hu, ui > 0.

Nota. Alguns postulados da definição de produto escalar acima são redundantes, pois nem todos são
independentes. Nós os listamos apenas para ressaltar sua relevância individual. Por exemplo, o item
2 segue de 1 e 3 (por que?). O item 4 segue de 1 e 2 (por que?). Os itens 1, 2 e 5 implicam o item 3
(como veremos no Teorema 2.6). Independentes são apenas 1, 2 e 5 ou 1, 3 e 5.
Para um produto escalar de dois vetores vale a seguinte e importantı́ssima desigualdade, conhecida
como Desigualdade de Cauchy-Schwarz:
|hu, vi|2 ≤ |hu, ui||hv, vi|.
A demonstração (mais geral) é apresentada no Teorema 2.6, página 113.
Advertência. Em livros de Matemática definição de produto escalar é por vezes apresentada de forma
que se tenha linearidade na segunda variável e anti-linearidade na primeira variável acima. A convenção
que adotamos é oposta e é seguida, felizmente, por 100% dos textos de Fı́sica.

• Formas Sesquilineares Positivas e Produtos Escalares

Se V é um espaço vetorial dotado de uma forma sesquilinear positiva ω, existe uma maneira canônica
de construir a partir de V e ω um outro espaço vetorial dotado de um produto escalar.
Seja ω uma forma sesquilinear positiva em um espaço vetorial V . Então, existe um espaço vetorial
Ṽ , um produto escalar ω̃ e uma aplicação linear sobrejetora E : V → Ṽ tais que
ω̃(E(u), E(v)) = ω(u, v)
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 2 118/1195

e que E(u) = 0 em Ṽ caso ω(u, u) = 0.


Para a mencionada construção, notemos em primeiro lugar que o conjunto de todos os vetores u
com a propriedade que ω(u, u) = 0 formam um sub-espaço de V . De fato, se u e v são dois vetores
desse tipo, teremos que

ω(αu + βv, αu + βv) = |α|2 ω(u, u) + αβω(u, v) + αβω(v, u) + |β|2 ω(v, v) = 0,

pois ω(u, u) = ω(v, v) = 0, por hipótese, e pois ω(v, u) = ω(u, v) = 0 em função da condição de
ω ser positivo (pela desigualdade de Cauchy-Schwarz). Vamos denominar esse sub-espaço por Z. O
espaço vetorial quociente Ṽ = V /Z (vide a construção da página 93) tem as propriedades desejadas.
A aplicação E : V → Ṽ é a aplicação que associa cada elemento de v de V à sua classe de equivalência
[v]: E : V 3 v 7→ [v] ∈ Ṽ . Definimos então ω̃ por

ω̃([u], [v]) = ω(u, v).

É um exercı́cio simples (faça) mostrar que essa definição de fato independe dos representantes, no caso
u e v, tomados nas classes [u] e [v].

E. 2.32 Exercı́cio. Mostre que ω̃ é de fato um produto escalar em Ṽ . 6

• Produtos escalares e formas simpléticas reais

Seja V um espaço vetorial complexo dotado de um produto escalar h·, ·i. Então, a expressão

ω(u, v) := Im(hu, vi)

u, v ∈ V , define uma forma simplética real em V . As condições de antisimetria (ω(u, v) = −ω(v, u))
e de linearidade por combinações lineares com escalares reais são elementares de se constatar. Que
ω é não-degenerada, segue do fato que se ω(u, v) = 0 para todo u valeria, tomando u = −iv, 0 =
Im(h − iv, vi) = hv, vi, o que implica v = 0.
Na Seção 2.5, página 131, veremos que, sob hipóteses adequadas, toda forma simplética real é a
parte imaginária de um produto escalar em um espaço complexo.

2.2.4 Exemplos
Para ilustrar os conceitos apresentados acima, passemos a alguns exemplos.

• Exemplos de Formas Sesquilineares e Produtos Escalares


n
Exemplo 2.1 Seja V = . Um exemplo de produto escalar é dado pelo produto escalar usual:
n
X
ω(u, v) = hu, vi 
:= uk v k , (2.14)
k=1

onde u = (u1 , . . . , un ) e v = (v1 , . . . , vn ). ◊


JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 2 119/1195

n
Exemplo 2.2 Seja V = . Um exemplo de produto escalar é dado por

ω(u, v) = hAu, Avi , 

onde u = (u1 , . . . , un ), v = (v1 , . . . , vn ) e onde A é uma matriz n × n invertı́vel. ◊


n
Exemplo 2.3 Exemplo de uma forma sesquilinear Hermitiana que não é positiva. Seja V = e seja
ω dado por
Xn
ω(u, v) = hu, Avi = uk Akl vl ,


k, l=1

onde A é uma matriz n × n auto-adjunta, ou seja, seus elementos de matriz satisfazem A kl = Alk .
A assim definida ω é uma forma sesquilinear Hermitiana,  mas em  geral pode não ser positiva. Um
0 −i
caso concreto é o seguinte. Tomemos V = 2 e A = . Então, é fácil ver que ω(u, u) =
i 0
hu, Aui = i(u1 u2 − u1 u2 ) = −2Im(u1 u2 ), que pode ser negativo ou mesmo nulo. Assim, essa ω não é


positiva. É fácil ver, porém, que essa ω é não-degenerada (mostre isso!). ◊


n
Exemplo 2.4 Exemplo de uma forma sesquilinear que não é Hermitiana. Seja V = e seja dado
por
Xn
ω(u, v) = hu, Avi = uk Akl vl ,


k, l=1

onde A é uma matriz n × n que não é auto-adjunta, ou seja, Akl 6= Alk para pelo menos um elemento
de matriz Akl . A assim definida ω é uma forma sesquilinear,
 mas em geral pode não ser Hermitiana.
0 1
Um caso concreto é o seguinte. Tomemos V = 2 e A = . Então, é fácil ver que
0 0

ω(u, v) = hu, Avi  = u1 v2 ,

enquanto que ω(v, u) = v1 u2 . Logo, ω(u, v) e ω(v, u) podem ser distintos e ω não é Hermitiana. Fora
isso, essa ω também não é positiva e é degenerada (mostre isso!). ◊
Exemplo 2.5 Exemplo de uma forma sesquilinear positiva mas que não é um produto escalar. Seja
V = n e seja ω dado por
ω(u, v) = hAu, Avi 

onde A é uma matriz n × n não-invertı́vel. Então, existe u0 não-nulo tal que Au0 = 0. Daı́, segue que
ω(u0 , v) = hAu0 , Avi = 0 para todo v e, portanto, ω é degenerada e ω(u0 , u0 ) = 0.


 
2 1 0
Um caso concreto é o seguinte. Tomemos V = eA= . Note que A não é invertı́vel
0 0  
b 0
(por que?). Aqui temos que ω(u, v) = u1 v1 . Note que todo vetor da forma u = é tal que
u2
Aub = 0 e, portanto ω(ub , v) = 0 para todo v. ◊

Na Seção 2.4, página 126, mostraremos como é a forma geral de formas bilineares, sesquilineares
e produtos escalares nos espaços de dimensão finita n e n . Tratemos agora de dois exemplos em


espaços vetoriais de dimensão infinita.


JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 2 120/1195

Exemplo 2.6 Seja V = C([a, b]) o espaço vetorial das funções contı́nuas complexas de um intervalo
fechado [a, b] da reta real (a < b). Seja p uma função contı́nua estritamente positiva definida em [a, b],
ou seja, p(x) > 0 para todo x ∈ [a, b]. Então, a expressão
Z b
ω(f, g) = f (x)g(x) p(x)dx ,
a
para funções f e g de V define um produto escalar em V (justifique!). ◊
Exemplo 2.7 Seja V = C([0, 1]) o espaço vetorial das funções contı́nuas complexas de um intervalo
fechado [0, 1] da reta real. Seja p uma função tal que p é contı́nua e estritamente positiva no intervalo
[0, 1/2) e identicamente nula no intervalo [1/2, 1]. Então, a expressão
Z 1
ω(f, g) = f (x)g(x) p(x)dx ,
0

para funções f e g de V define uma forma sesquilinear positiva em V , que não é um produto escalar
(justifique!). ◊
Exemplo
Pn 2.8 Considere o espaço vetorial n e o produto escalar usual: ω(u, v) = hu, vi = 

i=1 ui vi . A desigualdade de Cauchy-Schwarz implica


2 ! n !
Xn Xn X

ui v i ≤ |uj |2 |vk |2 . (2.15)

i=1 j=1 k=1

E. 2.33 Exercı́cio. R Considere o espaço vetorial das funções contı́nuas no intervalo [0, 1] e o produto
1
escalar ω(f, g) = 0 f (x)g(x) dx. Tomando as funções f (x) = x e g(x) = ex , use a desigualdade de

Cauchy-Schwarz para mostrar que e ≥ 7. 6

E. 2.34 Exercı́cio. Tente livremente obter outras desigualdades interessantes do mesmo estilo usando
esse método. 6

2.3 Normas em Espaços Vetoriais


Aqui trataremos exclusivamente de espaços vetoriais sobre o corpo dos complexos.

• Normas

Uma norma é uma função V →  usualmente denotada por k · k, com as seguintes propriedades.

1. Para todo v ∈ V tem-se kvk ≥ 0.

2. kvk = 0 se e somente se v for o vetor nulo: v = 0.


JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 2 121/1195

3. Para qualquer α ∈ e qualquer v ∈ V tem-se kαvk = |α|kvk.

4. Para quaisquer vetores u e v ∈ V tem-se ku + vk ≤ kuk + kvk.

Por 3 e 4, vale que


kαu + βvk ≤ |α|kuk + |β|kvk
para quaisquer α, β ∈ e quaisquer vetores u e v ∈ V .

Nota. As quatro condições acima, em verdade, não são logicamente independentes e listamo-as devido
à sua importância individual. Assim, por exemplo, a condição de positividade 1 segue das condições 4
e 3. Isso será mostrado logo abaixo (página 121) quando falarmos de semi-normas. Note também que,
pelo item 3 acima, tem-se k0k = 0 (tome α = 0).

Nota. A condição 4, acima, é de particular importância e é denominada desigualdade triangular.


Um espaço vetorial pode ter várias normas. Vide exemplos abaixo.

• Equivalência entre Normas

Definição. Duas normas k · k1 e k · k2 em um espaço vetorial V são ditas equivalentes se existirem duas
constantes positivas c1 e c2 , com 0 < c1 ≤ c2 , tais que

c1 kvk1 ≤ kvk2 ≤ c2 kvk1

para todo vetor v ∈ V .

E. 2.35 Exercı́cio. Mostre que a relação de equivalência entre normas é uma relação de equivalência.
6

Tem-se o seguinte teorema, cuja demonstração pode ser encontrada, por exemplo, em [133]:
Teorema 2.7 Em um espaço vetorial de dimensão finita sobre ou  todas as normas são equiva-
lentes. 2

A afirmação desse teorema é freqüentemente falsa em espaços de dimensão infinita. A importância


da noção de equivalência de normas se manifesta no fato que duas normas equivalentes geram a mesma
topologia métrica.

• Semi-Normas

Uma semi-norma é uma função V →  usualmente denotada por k·k, com as seguintes propriedades.

1. Para todo v ∈ V tem-se kvk ≥ 0.

2. Para qualquer α ∈ e qualquer v ∈ V tem-se kαvk = |α|kvk.

3. Para quaisquer vetores u e v ∈ V tem-se ku + vk ≤ kuk + kvk.


JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 2 122/1195

Note-se que, pelo item 2, vale para uma semi-norma que k0k = 0. É evidente pelas definições que
toda norma é uma semi-norma. A diferença entre norma e semi-norma é que para uma semi-norma a
relação kvk = 0 não necessariamente implica v = 0.
Para uma semi-norma (ou norma) vale a desigualdade


kak ≥ ka − bk − kbk , (2.16)

para quaisquer a, b ∈ V . Como faremos uso da mesma no futuro, vamos apresentar sua demonstração
aqui, que é uma conseqüência direta da desigualdade triangular.
A desigualdade triangular diz-nos que

ka − bk ≤ kak + kbk (2.17)

e que
kbk = ka − (a − b)k ≤ kak + ka − bk. (2.18)
De (2.17) segue que
kak ≥ ka − bk − kbk
e de (2.18) que
kak ≥ −(ka − bk − kbk).
Quando dois números reais x e y são tais que x ≥ y e x ≥ −y então x ≥ |y|. Assim, as duas últimas
desigualdades dizem que

kak ≥ ka − bk − kbk ,
que é o que querı́amos provar.
Essa desigualdade diz, incidentalmente, que kak ≥ 0 para todo vetor de V . Isso mostra que o item
1 da definição de semi-norma e de norma é supérfluo.
Note-se também que se fizermos em (2.16) as substituições a → a − b, b → −b, obtemos


kak − kbk ≤ ka − bk, (2.19)

para quaisquer a, b ∈ V . Essa forma da desigualdade será empregada algumas vezes nestas notas.

• Equivalência entre Semi-Normas

Há uma noção de equivalência entre semi-normas que é idêntica à de equivalência entre normas.

• A Norma Associada a um Produto Escalar

Se ω é um produto escalar em um espaço vetorial V existe associada a ω uma norma k · k ω dada


por
kvkω = ω(v, v)1/2 ,
v ∈V.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 2 123/1195

E. 2.36 Exercı́cio. Mostre que os postulados da definição de norma são de fato satisfeitos. 6

• Invariância de Normas Associadas a Produtos Escalares

Se uma norma em um espaço vetorial V é produzida por um produto escalar, como acima, existe
naturalmente um grupo de transformações lineares de V em V que mantem essa norma invariante.
Esse grupo é discutido
pna Seção 10.2.3, página 580. Por exemplo, a chamada norma Euclidiana de n , 

n
definida por kxk = hx, xi para x ∈
, é invariante pelo grupo O(n) das matrizes ortogonais, ou


seja, das matrizes R, reais n × n, que satisfazem RT R = . Isso significa que kRxk = kxk para toda
R ∈ O(n). O grupo O(n) e seus amigos são discutidos na Seção 10.2.4, página 582 e seguintes.

• A Desigualdade Triangular

Talvez a principal importância da desigualdade de Minkowski (2.13) seja a seguinte. Vamos supor
que ω seja um produto escalar. Então podemos definir11 uma métrica ou distância entre dois vetores
a e b por
dω (a, b) := ka − bkω = ω(a − b, a − b)1/2 .
Como ω é um produto escalar, segue que dω (a, b) = 0 se e somente se a = b (por que?). É também
claro que dω (a, b) = dω (b, a) (por que?). Fora isso, segue da desigualdade de Minkowski que para
quaisquer vetores a, b e c vale
dω (a, b) ≤ dω (a, c) + dω (c, b).
Para ver isso, note que

dω (a, b) = ω(a − b, a − b)1/2

= ω((a − c) − (b − c), (a − c) − (b − c))1/2

≤ ω(a − c, a − c)1/2 + ω(b − c, b − c)1/2

= dω (a, c) + dω (c, b).

Acima, na passagem da segunda à terceira linha, usamos a desigualdade de Minkowski com u = a − b


e v = b − c.
A desigualdade dω (a, b) ≤ dω (a, c) + dω (c, b) é importante no estudo de propriedades topológicas
de espaços vetoriais e é denominada desigualdade triangular (pergunta ao estudante: de onde vem esse
nome?).
Note que a desigualdade triangular vale também se ω não for um produto escalar, mas apenas uma
forma sesquilinear positiva (por que?). Nesse caso é também verdade que d ω (a, b) = dω (b, a), porém,
não é mais verdade que dω (a, b) = 0 se e somente se a = b e, por isso, dω é dita ser uma pseudo-métrica.

• Norma e Produto Escalar


11
As noções de métrica e de espaços métricos serão discutidas no Capı́tulo 13.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 2 124/1195

Se um espaço vetorial V possuir um produto


p escalar então, como observamos, é possı́vel definir nele
uma norma da seguinte forma: kuk = hu, ui, u ∈ V .
A norma assim definida possui duas propriedades importantes que mencionamos aqui: a identidade
do paralelogramo e a identidade de polarização.
Identidade do paralelogramo: Para todos os vetores u, v ∈ V vale

ku + vk2 + ku − vk2 = 2kuk2 + 2kvk2 . (2.20)

Prova. Tem-se simplesmente pelas definições que

ku + vk2 = kuk2 + hu, vi + hv, ui + kvk2

e
ku − vk2 = kuk2 − hu, vi − hv, ui + kvk2 .
Somando-se ambas tem-se o resultado.

E. 2.37 Exercı́cio. Por que essa relação é chamada “identidade do paralelogramo”? 6

Identidade de polarização: Para todos os vetores u, v de um espaço vetorial complexo V vale


3
1 X −n
hu, vi = i ku + in vk2 ,
4 n=0

ou seja,
4hu, vi = ku + vk2 − ku − vk2 − iku + ivk2 + iku − ivk2 .

Prova. Exercı́cio. Expanda o lado direito e verifique a igualdade.

E. 2.38 Exercı́cio. Por que essa relação é chamada “identidade de polarização”? 6

Notemos que, com a definição dada acima de norma associada a um produto escalar, a desigualdade
de Cauchy-Schwarz fica
|hu, vi| ≤ kukkvk.

• A Identidade de Polarização

A identidade de polarização mencionada acima é um caso especial de uma outra ligeiramente mais
geral, também denominada identidade de polarização. Seja A um operador linear em um espaço vetorial
V sobre os complexos e sejam u e v elementos de seu domı́nio. Então vale que
3
1 X −n
hu, Avi = i h(u + in v), A(u + in v)i. (2.21)
4 n=0

E. 2.39 Exercı́cio. Mostre isso. 6


JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 2 125/1195

Tomando-se A como o operador identidade reobtem-se a identidade anterior.


A relação (2.21) mostra que se para um operador linear A conhecermos todas as quantidades
hψ, Aψi para todos os vetores ψ ∈ V , então conhecemos também todas as quantidades hu, Avi para
todos u, v ∈ V .
Para a fı́sica quântica a identidade de polarização (2.21) diz que se A for um observável (operador
auto-adjunto), então o conhecimento de todos os valores esperados de A, ou seja, das quantidades
hψ, Aψi com kψk = 1 e dos produtos escalares hu, vi para vetores com kuk = kvk = 1, fixa todas as
probabilidades de transição |hu, Avi|2 , pois
3
1 X −n
hu, Avi = i hψn , Aψn i (2 + in hu, vi + i−n hv, ui), (2.22)
4 n=0

onde
1 1
ψn = n
(u + in v) = p (u + in v).
ku + i vk n −n
2 + i hu, vi + i hv, ui

• Uma conseqüência da identidade de polarização

A relação (2.21) permite-nos facilmente provar a seguinte afirmação, freqüentemente empregada:


Proposição 2.4 Se um operador linear A agindo em um espaço vetorial complexo V satisfaz hu, Aui =
0 para todo vetor u ∈ V então A = 0. 2

Para matrizes reais em espaços vetoriais reais não vale uma afirmativa tão forte. Por exemplo,
se V = n P e A for uma matriz anti-simétrica, ou seja AT = −A, então vale automaticamente que


hx, Axi = na, b=1 xa Aab xb = 0, pois Aab = −Aba para todo x ∈ n . Porém, A pode ser não-nula.



Todavia, para matrizes simétricas vale o seguinte:


Proposição 2.5 Seja M ∈ Mat ( , n) uma matriz simétrica (ou seja, tal que M T = M ) para a qual


valha que hx, M xi = 0 para todo x ∈ n . Então M = 0.



 2

n
Prova. Se M é uma matriz simétrica, é fácil verificar que para quaisquer vetores u e v ∈  tem-se
1
hu, M vi = [h(u + v), M (u + v)i − h(u − v), M (u − v)i ] .
4
  

(Para provar isso expanda o lado direito e use que hu, M vi = hv, M ui , pois M é simétrica). Logo,
 

da hipótese sobre M , segue que hu, M vi = 0 para todos u e v ∈ n e, portanto, M = 0


 

• Obtendo Produtos Escalares a Partir de Normas

Nas últimas páginas vimos que podemos obter uma norma a partir de um produto escalar. Podemos
nos perguntar: se uma norma for dada em um espaço vetorial, seria possı́vel obter um produto escalar
a partir dessa norma?
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 2 126/1195

A chave para responder isso é sugerida pelas identidades do paralelogramo e de polarização, ambas
válidas para normas definidas a partir de produtos escalares: Se uma norma satisfaz a identidade do
paralelogramo, ou seja, se
ku + vk2 + ku − vk2 = 2kuk2 + 2kvk2 .
para todos os vetores u, v ∈ V , então um produto escalar pode ser definido por
3
1 X −n
hu, vi = i ku + in vk2 .
4 n=0

A demonstração que o lado direito define de fato um produto escalar é engenhosa, a principal dificuldade
consiste em demonstrar a linearidade do produto escalar (item 1 da definição de produto escalar).
Omitiremos a demonstração aqui, que pode ser encontrada, por exemplo na seção 16.8 e seguintes da
referência [72]. Vide também [132].
Mencionemos por fim que nem toda norma satisfaz a identidade do paralelogramo e, portanto, nem
sempre é possı́vel definir um produto escalar a partir de uma norma.

E. 2.40 Exercı́cio. Seja o espaço vetorial V = C([0, 1], ) das funções contı́nuas do intervalo [0, 1]
assumindo valores complexos e seja a norma kf k∞ = supx∈[0, 1] |f (x)|. Mostre que a identidade do pa-
ralelogramo não é satisfeita para as funções f (x) = x e g(x) = 1, x ∈ [0, 1], que são elementos de V .
6

E. 2.41 Exercı́cio. Seja o espaço vetorial V = n , com n ≥ 2. Para a = (a1 , . . . , an ) ∈ n a expressão


kakp := [|a1 |p + · · · + |an |p ]1/p , define uma norma em V = n , caso p ≥ 1. Mostre que essa norma viola
a identidade do paralelogramo para todo p 6= 2. Para tal considere os vetores u = (1, 0, 0, . . . , 0) e
v = (0, 1, 0, . . . , 0). A norma k · kp será discutida com mais detalhe no Capı́tulo 13. 6

2.4 Formas Bilineares e Sesquilineares em Espaços de Di-


mensão Finita
É possı́vel estabelecer a forma geral de uma forma bilinear ou sesquilinear em certos espaços vetoriais,
como os espaços de dimensão finita n ou n . É o que discutiremos nesta seção.


Faremos uso do chamado Teorema da Representação de Riesz, que afirma o seguinte.


Teorema 2.8 (Teorema da Representação de Riesz) Seja l um funcional linear contı́nuo em um
espaço de Hilbert H (com um produto escalar h·, ·iH ). Então existe φ ∈ H, único, tal que

l(x) = hφ, xiH , ∀x ∈ H.

A demonstração desse importante teorema pode ser encontrada na Seção 22.3.1, página 1008. No-
temos que esse teorema se aplica aos espaços vetoriais n ou n , pois os mesmos são espaços de Hilbert

JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 2 127/1195

em relação aos produtos escalares h·, ·i e h·, ·i , respectivamente, definidos em (2.6) e (2.14) (páginas



108 e 118).

• Continuidade

Vamos provar a seguinte afirmação: toda forma bilinear em n é contı́nua (em ambas as variáveis),


o mesmo valendo para formas bilineares ou sesquilineares em n .


Vamos provar a afirmação para as formas sesquilineares em n . Os outros casos são idênticos. Seja
ω uma forma sesquilinear em n . Para vetores x, y ∈ n , y 6= 0, escrevemos

ω(x, y) = kyk ω(x, y/kyk), (2.23)


p
onde kyk = hy, yi . Notemos então que se v é um vetor de norma igual a 1 e {b1 , . . . , bn } é uma


base ortonormal em n então v = v1 b1 + · · · + vn bn com |vj | ≤ 1. Assim,

ω(x, v) = v1 ω(x, b1 ) + · · · + vn ω(x, bn )

e, portanto,
|ω(x, v)| ≤ |ω(x, b1 )| + · · · + |ω(x, bn )|
Para cada x fixo o lado direito é uma constante Kx e não depende de v. Aplicando isso a (2.23),
teremos
|ω(x, y)| ≤ kykKx .
Isso mostra que
lim |ω(x, y)| = 0
y→0

para todo x fixo. Como ω(x, y) é linear na segunda variável, segue que

lim ω(x, y) = ω(x, y0 )


y→y0

para todo y0 ∈ n , provando a continuidade de ω na segunda variável. A prova para a primeira variável
é idêntica. Os casos em que ω é bilinear em n ou em n é análogo.


n
• Formas Sesquilineares em
n n
Seja ω uma forma sesquilinear em . Então, pelo que acabamos de ver, para cada x ∈
n
lx : → , lx (y) = ω(x, y)

é um funcional linear e contı́nuo. Pelo Teorema da Representação de Riesz existe um único vetor
ηx ∈ n tal que lx (y) = hηx , yi para todo y ∈ n , ou seja,


ω(x, y) = hηx , yi . 

n
Seja A a função que a cada x ∈ associa o (único!) vetor ηx com a propriedade acima: A(x) = ηx .
Tem-se,
ω(x, y) = hA(x), yi .  (2.24)
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 2 128/1195

Afirmamos que A é um operador linear, ou seja, A(α1 x1 + α2 x2 ) = α1 A(x1 ) + α2 A(x2 ) para todos
os números complexos α1 e α2 e todos os vetores x1 e x2 . De fato, por (2.24),
hA(α1 x1 + α2 x2 ), yi  = ω(α1 x1 + α2 x2 , y)

= α1 ω(x1 , y) + α2 ω(x2 , y)

= α1 hA(x1 ), yi + α2 hA(x2 ), yi  

= hα1 A(x1 ) + α2 A(x2 ), yi . 

n
Assim, para todo y ∈ tem-se
h [A(α1 x1 + α2 x2 ) − α1 A(x1 ) − α2 A(x2 )] , yi  = 0,
o que implica
A(α1 x1 + α2 x2 ) = α1 A(x1 ) + α2 A(x2 ),
que é o que querı́amos provar. Assim, A é em verdade um operador linear. Resumimos esses fatos no
seguinte teorema:
n
Teorema 2.9 Para toda forma sesquilinear ω em existe uma matriz n × n complexa Aω tal que
ω(x, y) = hAω x, yi 

n
para todos x, y ∈ . 2

n
Esse teorema estabelece assim a forma geral das formas sesquilineares em .

n
• Formas Bilineares em 

n n
Seja ω uma forma bilinear em  . Então, para cada x ∈ 

n
lx :  →  : lx (y) = ω(x, y)
é um funcional linear e contı́nuo. Pelo Teorema da Representação de Riesz existe um único vetor
ηx ∈ n tal que lx (y) = hηx , yi , ou seja,



ω(x, y) = hηx , yi . 

Seja A a função que a cada x ∈ n associa o (único!) vetor ηx com a propriedade acima: A(x) = ηx .


De maneira análoga ao que fizemos acima podemos provar que A é um operador linear, ou seja, uma
matriz n × n real e ω(x, y) = hAx, yi . 

Resumimos esses fatos no seguinte teorema:


n
Teorema 2.10 Para toda forma bilinear ω em  existe uma matriz n × n real Aω tal que
ω(x, y) = hAω x, yi 

n
para todos x, y ∈  . 2
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 2 129/1195

n
Esse teorema estabelece assim a forma geral das formas bilineares em  .

n
• Formas Bilineares em
n
Seja ω uma forma bilinear em . Então

ωs (x, y) = ω(x, y)

define uma forma sesquilinear em n , onde x = (x1 , . . . , xn ) para x = (x1 , . . . , xn ) ∈ n


. Pelo que
provamos acima, portanto, existe uma matriz complexa Aω tal que

ωs (x, y) = hAω x, yi . 

n
para todos x, y ∈ , ou seja,
ω(x, y) = hAω x, yi , 

n
para todos x, y ∈ .
Note que isso também diz que
ω(x, y) = hAω x, yi , 

onde Aω é o complexo conjugado da matriz Aω .


Resumimos esses fatos no seguinte teorema:
n
Teorema 2.11 Para toda forma bilinear ω em existe uma matriz n × n complexa Aω tal que

ω(x, y) = hAω x, yi 

n
para todos x, y ∈ . 2

n
Esse teorema estabelece assim a forma geral das formas bilineares em .

• Formas Simpléticas

Se ω é uma forma bilinear alternante em n ou n , ou seja, ω é bilinear e ω(x, y) = −ω(y, x),




então ω é da forma ω(x, y) = hA x, yi onde A é uma matriz anti-simétrica, ou seja, AT = −A. De




fato, como hx, yi = hy, xi e como ω(x, y) = −ω(y, x), segue que
 

hA x, yi 
= −hA y, xi 
= −h y, AT xi 
= −hAT x, yi . 

n n
Como isso vale para todo x, y ∈  (ou ), tem-se AT = −A.
n n
Isso determina a forma geral de uma forma bilinear alternante em  ou .
Se ω é uma forma simplética, ou seja, ω é uma forma bilinear alternante não-degenerada, então A
tem que ser também invertı́vel. De fato, se hAx, yi = 0 para todo y, então Ax = 0. Se A é invertı́vel


isso só é possı́vel se x = 0.


Uma conseqüência do fato de A ter de ser invertı́vel é que n tem que ser par. De fato, a condição
AT = −A diz que det(A) = det(−AT ) = (−1)n det(AT ) = (−1)n det(A). Portanto, se n é ı́mpar
terı́amos det(A) = 0.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 2 130/1195

A conclusão é que formas simpléticas só ocorrem nos espaços de dimensão finita n ou n se a 

dimensão n for par, e nesse caso, têm a forma ω(x, y) = hAx, yi , onde A é invertı́vel e satisfaz 

AT = −A.

n
• Formas Sesquilineares Hermitianas em
n
Se ω é uma forma sesquilinear Hermitiana em , tem-se ω(x, y) = ω(y, x). Se A é a matriz tal
que hAx, yi = ω(x, y), então


hAx, yi  = hAy, xi  = hx, Ayi  = hA∗ x, yi , 

onde A∗ := AT é a adjunta de A. Como a última relação vale para todo x, y ∈ n


, tem-se A = A∗ , ou
seja, A é uma matriz auto-adjunta.
n
Portanto, a forma geral de uma forma sesquilinear Hermitiana em é hAx, yi , onde A é uma


matriz auto-adjunta.

n
• Produtos Escalares em

Se ω é um produto escalar em n , ω é sesquilinear Hermitiana e ω(x, x) > 0 se x 6= 0. Se A é a


matriz tal que hAx, yi = ω(x, y), então


hAx, xi > 0  (2.25)


se x 6= 0. Uma conseqüência disso é o seguinte: se vi é um dos autovetores de A com autovalor λi ,
então λi > 0. De fato, tomando x = vi em (2.25), teremos12 0 < hAvi , vi i = λi hvi , vi i , o que implica  

λi > 0. Esse fato, em particular, nos diz que A é invertı́vel (pois o determinante de A é o produto de
seus autovalores).
Outra conseqüência dessas observações é a seguinte. É bem sabido que os autovetores vi de uma
matriz auto-adjunta A podem ser escolhidos de modo a formar uma √ base ortonormal (vide Teorema
3.12, página 179). Vamos definir uma matriz B de modo que Bvi = λi vi para todos os autovetores
vi de A. Isso define a ação de B nos vetores de uma base e, portanto, B fica definida em toda parte 13 .
É fácil provar que B assim definida é também auto-adjunta, B ∗ = B, e que B 2 = A. Claramente
B é também invertı́vel e tem autovalores > 0.

E. 2.42 Exercı́cio. Mostre esses fatos. 6

Disso concluı́mos que


ω(x, y) = hAx, yi 
= hBx, Byi . 

n
Em resumo, se ω é um produto escalar em então existe uma (única) matriz auto-adjunta Bω ,
invertı́vel e com autovalores > 0 tal que
ω(x, y) = hBω x, Bω yi 

n
para todo x, y ∈ .
12
Lembre-se que os autovalores de uma matriz auto-adjunta são sempre números reais.
13
Para o estudante mais avançado: aqui poderı́amos usar também o teorema espectral, Teorema 3.4.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 2 131/1195

2.5 Estruturas Complexas sobre Espaços Vetoriais Reais


Seja V um espaço vetorial real. Em V está, portanto, definido um produto por escalares reais: x v ∈ V ,
onde x ∈ e v ∈ V . Sob certas circunstâncias é possı́vel transformar V em um espaço vetorial complexo


definindo um produto por escalares complexos: z · v ∈ V para z ∈ e v ∈ V . Também sob hipóteses,


um produto escalar complexo pode ser definido em V .
Suponha que exista um operador linear J : V → V , agindo em V , com a propriedade J 2 = − ,
onde denota o operador identidade. Se z ∈ é da forma z = x + iy com x, y ∈ , defina-se em V o 

produto por escalares complexos por

(x + iy) · v := xv + yJv . (2.26)

As seguintes propriedades poder ser facilmente verificadas como exercı́cio:

1. O produto por escalares complexos (2.26) é associativo:

α · (β · u) = (αβ) · u ,

para todos α, β ∈ e u ∈ V , onde αβ é o produto de α por β em ,

2. 1 · u = u para todo u ∈ V .

3. O produto por escalares complexos (2.26) é distributivo em relação à soma de vetores:

α · (u + v) = α · u + α · v ,

para todo α ∈ e todos u, v ∈ V .

4. O produto por escalares complexos (2.26) é distributivo em relação à soma de escalares:

(α + β) · u = α · u + β · u ,

para todos α, β ∈ e todo u ∈ V .

Portanto, pela definição da Seção 1.2.3, página 54, V é um espaço vetorial complexo com o produto
definido acima. Vamos denotar por VJ esse espaço vetorial complexo, para não confundı́-lo com V , que
é um espaço vetorial real. Note que os vetores de V e de VJ são os mesmos, mas V e VJ representam
estruturas diferentes. VJ é dito ser uma estrutura complexa sobre o espaço vetorial real V .
Uma questão de grande interesse, especialmente no contexto das chamadas álgebras CAR e CCR
(vide [15]) que descrevem as álgebras de comutação e anticomutação canônicas da Mecânica Quântica
e das Teorias Quânticas de Campos (que descrevem modelos fermiônicos14 e bosônicos15 ), é saber se
é possivel introduzir um produto escalar complexo no espaço complexo VJ . Como veremos no que
segue, tal é possivel se houver em V uma forma simplética real ou um produto escalar real satisfazendo
certas hipóteses. Desenvolveremos primeiro as idéias gerais e apresentaremos exemplos posteriormente,
à página 135.
14
Enrico Fermi (1901-1954).
15
Satyendra Nath Bose (1894-1974).
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 2 132/1195

• Formas simpléticas reais e produtos escalares reais

Para mostrar como construir produtos escalares complexos no espaço complexo V J precisamos do
seguinte resultado preparatório, que tem interesse por si só, por estabelecer uma relação entre formas
simpléticas16 reais e produtos escalares reais.
Lema 2.1 Seja V um espaço vetorial real e suponha que exista um operador linear J : V → V
satisfazendo J 2 = − . Valem as seguintes afirmações

I. Se ε : V × V →  é um produto escalar real em V satisfazendo

ε(Ju, v) = −ε(u, Jv)

para todos u , v ∈ V , então σ : V × V →  definida para todos u, v ∈ V por

σ(u, v) := ε(Ju, v) = −ε(u, Jv) (2.27)

é uma forma simplética real e satisfaz


(a) σ(Ju, v) = −σ(u, Jv) para todos u , v ∈ V ,
(b) σ(u, Ju) ≥ 0 para todo u ∈ V .
II. Se σ : V × V →  é uma forma simplética real em V satisfazendo
(a) σ(Ju, v) = −σ(u, Jv) para todos u , v ∈ V ,
(b) σ(u, Ju) ≥ 0 para todo u ∈ V ,
então ε : V × V →  definida para todos u, v ∈ V por

ε(u, v) := σ(u, Jv) = −σ(Ju, v) (2.28)

é um produto escalar real e satisfaz


(a) ε(Ju, v) = −ε(u, Jv) para todos u , v ∈ V .
2

Prova da parte I. Pelas hipóteses, ε é um produto escalar real e, portanto, é uma forma bilinear real,
positiva, simétrica e não-degenerada. Que σ definida em (2.27) é uma forma bilinear é evidente. Para
todos u, v ∈ V tem-se
simetria
σ(u, v) = ε(Ju, v) = −ε(u, Jv) = −ε(Jv, u) = −σ(v, u) ,

provando que σ é uma forma alternante. Se σ(u, v) = 0 para todo v ∈ V , então ε(Ju, v) = 0 para
todo v ∈ V . Mas como ε é não-degenerada, segue que Ju = 0, o que implica u = 0, pois J 2 = − . Isso
provou que σ é não degenerada e, portanto, é uma forma simplética. Note-se agora que

σ(u, Jv) = ε(Ju, Jv) = −ε(u, J 2 v) = ε(u, v) = −σ(Ju, v) .


16
Para a definição, vide página 109.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 2 133/1195

Por fim, σ(u, Ju) = ε(Ju, Ju) ≥ 0, pois ε é um produto escalar. Pelo mesmo motivo, ε(Ju, Ju) = 0
se e somente se Ju = 0. Como J 2 = − , isso implica u = 0. Isso provou as afirmações da parte I.

Prova da parte II. Pelas hipóteses, σ é uma forma simplética real e, portanto, é uma forma bilinear real,
alternante e não-degenerada. Que ε definida em (2.28) é uma forma bilinear é evidente. Para todos
u, v ∈ V tem-se
alternância
ε(u, v) = σ(u, Jv) = −σ(Ju, v) = σ(v, Ju) = ε(u, v) ,

provando que ε é uma forma simétrica. Se ε(u, v) = 0 para todo v ∈ V , então σ(u, Jv) = 0 para todo
v ∈ V . Mas como σ é não-degenerada, segue que u = 0, provando que ε é uma forma não-degenerada.
Para todo u tem-se também ε(u, u) = σ(u, Ju) ≥ 0, por hipótese, provando que ε é uma forma
positiva. Assim, pela Proposição 2.3, página 116, ε é um produto escalar. Note-se agora que, por
definição, ε(u, v) = −σ(Ju, v) para todos u , v ∈ V . Disso segue que σ(u, v) = ε(Ju, v) e que

ε(u, Jv) = −σ(Ju, Jv) = σ(u, J 2 v) = −σ(u, v) = −ε(Ju, v) .

Isso provou as afirmações da parte II.

• Produtos escalares complexos sobre estruturas complexas

A proposição que segue mostra como se pode construir em VJ um produto escalar complexo se for
fornecida uma forma simplética real ou um produto escalar real em V satisfazendo certas hipóteses.
Proposição 2.6 Suponhamos que V seja um espaço vetorial real e que exista J : V → V , um operador
linear em V , satisfazendo J 2 = − . Então valem as seguintes afirmações:

A. Se existir uma forma simplética real σ : V × V →  satisfazendo

(a) σ(Ju, v) = −σ(u, Jv) para todos u , v ∈ V ,


(b) σ(u, Ju) ≥ 0 para todo u ∈ V 17 ,

então, V × V 3 (u, v) 7→ hu, viJ, σ ∈ definida por

hu, viJ, σ := σ(u, Jv) + iσ(u, v)

para todos u, v ∈ V , é um produto escalar complexo sobre a estrutura complexa V J .

B. Se existir um produto escalar real ε : V × V →  satisfazendo

(a) ε(Ju, v) = −ε(u, Jv) para todos u , v ∈ V ,

então, V × V 3 (u, v) 7→ hu, viJ, ε ∈ definida por

hu, viJ, ε := ε(u, v) + iε(Ju, v)

para todos u, v ∈ V , é um produto escalar complexo sobre a estrutura complexa V J .


17
Em [15] essa última condição não é mencionada, mas ela é necessária.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 2 134/1195

Prova. Mostremos em primeiro lugar que as hipóteses das partes A e B são equivalentes. Pelo Lema 2.1,
página 132, a existência de uma forma simplética real σ satisfazendo as hipóteses da parte A implica
a existência de um produto escalar real ε dado por ε(u, v) := σ(u, Jv) = −σ(Ju, v) satisfazendo as
hipóteses da parte B, sendo que, por essa definição de ε,
σ(u, Jv) + iσ(u, v) = ε(u, v) + iε(Ju, v) . (2.29)
Reciprocamente, também pelo Lema 2.1, página 132, a existência de um produto escalar real ε sa-
tisfazendo as hipóteses da parte B implica a existência de uma forma simplética real σ dada por
σ(u, v) := ε(Ju, v) = −ε(u, Jv) satisfazendo as hipóteses da parte A, sendo que, por essa definição
de σ, a igualdade (2.29) é também válida. Assim, é suficiente provarmos, digamos, a parte A.
Prova da parte A. É evidente que para quaisquer u, v, w ∈ V valem
h(u + v), wiJ, σ = hu, wiJ, σ + hv, wiJ, σ , hu, (v + w)iJ, σ = hu, viJ, σ + hu, wiJ, σ .
Além disso,
hv, uiJ, σ = σ(v, Ju) + iσ(v, u) = −σ(Ju, v) − iσ(u, v) = σ(u, Jv) − iσ(u, v) = hu, viJ, σ .
(2.30)
Para x, y ∈ tem-se também


hu, (x + iy) · viJ, σ = hu, xv + yJviJ, σ

= hu, xviJ, σ + hu, yJviJ, σ

= σ(u, xJv) + iσ(u, xv) + σ(u, yJ 2 v) + iσ(u, yJv)

J 2 =−
= σ(u, xJv) + iσ(u, xv) + σ(u, −yv) + iσ(u, yJv)
   
= x σ(u, Jv) + iσ(u, v) + iy σ(u, Jv) + iσ(u, v)

= (x + iy)hu, viJ, σ .
Pela propriedade (2.30), isso implica também h(x + iy) · u, viJ, σ = (x − iy)hu, viJ, σ , mostrando que
h·, ·iJ, σ é uma forma sesquilinear.
Pelas hipóteses, tem-se hu, uiJ, σ = σ(u, Ju) ≥ 0, mostrando que h·, ·iJ, σ é positiva. Se 0 =
hu, viJ, σ = σ(u, Jv) + iσ(u, v) para todo u, segue que σ(u, v) = 0 para todo u, o que implica que
v = 0, pois σ é não-degenerada (pela nossa definição de forma simplética). Isso mostrou que h·, ·i J, σ
é não-degenerada. Assim, h·, ·iJ, σ é uma forma sesquilinear positiva e não-degenerada e pelo Teorema
2.6, página 113, segue que hu, uiJ, σ = 0 se e somente se u = 0. Isso mostrou que h·, ·iJ, σ é um produto
escalar complexo em VJ .

• Exemplos
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 2 135/1195

Vamos primeiramente estudar o caso de espaços de dimensão finita. Vale a seguinte proposição:
Proposição 2.7 Um espaço vetorial real V de dimensão finita admite uma estrutura complexa (não
necessariamente única) se e somente se tiver dimensão par. 2

Prova. Se J é um operador linear agindo no espaço vetorial real de dimensão finita V , podemos
representá-lo como uma matriz. Se J 2 = − então, tomando-se o determinante de ambos os lados,
temos (det(J))2 = (−1)n , onde n é a dimensão de V . Como o lado esquerdo é positivo, n tem que
ser par. Reciprocamente, vamos supor que V tenha dimensão par, digamos 2m. Desejamos mostrar
que existe um operador linear agindo em V satisfazendo J 2 = − . Uma possı́vel escolha é a seguinte.
Como V tem dimensão par podemos encontrar dois subespaços V1 e V2 , ambos de dimensão m, com
V = V1 ⊕ V2 . Como V1 e V2 têm a mesma dimensão, são isomorfos, e existe um operador linear
A : V1 → V2 que é bijetivo (o Exemplo 2.9, abaixo, deixará isso mais claro. Um tal operador não é
necessariamente único, mas isso não representa um problema). Todo elemento v ∈ V pode ser escrito
da forma v = v1 ⊕ v2 com v1 ∈ V1 e v2 ∈ V2 . Podemos definir Jv = J(v1 ⊕ v2 ) := (−Av2 ) ⊕ (Av1 ). É
trivial, então, verificar que J 2 = − , como desejado.

Exemplo 2.9 Seja V um espaço vetorial real de dimensão 2m. Em alguma base, podemos representar
v ∈ V na forma de um vetor-coluna:
   
v1 −vm+1
 ..   .. 
 .   . 
   
 vm   −v2m 
v =   . Defina-se, então, Jv :=   , (2.31)
vm+1   v1 
 .   . 
 ..   .. 
v2m vm

ou seja, em forma matricial, na mesma base,


 
m − m
J =
m m

sendo m e m matrizes m × m. É elementar verificar que J 2 = − 2m , como desejado.


A escolha de J indicada acima dependeu de uma particular decomposição de V em dois sub-
espaços de dimensão m. Há várias outras decomposições possı́veis, que fornecem outros operadores J
e, portanto, outras estruturas complexas. Permanecendo no exemplo acima, é fácil ver que, se x, y ∈ , 

então o produto por escalares complexos fica


     
v1 v1 xv1 − yvm+1
 ..   ..   .. 
 .   .   . 
     
 vm   vm   xvm − yv2m 
(x + iy) ·   := (x + yJ)   =   . (2.32)
vm+1  vm+1  xvm+1 + yv1 
 .   .   .. 
 ..   ..   . 
v2m v2m xv2m + yvm
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 2 136/1195

Seguindo ainda o exemplo de (2.31) e (2.32) para V = 2m , vamos ilustrar a Proposição 2.6 e


produto escalar complexo para ( 2m )J . Adotemos para ε o produto escalar usual:




2m
X
ε(u, v) := uk vk = u1 v1 + · · · + u2m v2m .
k=1

Temos que
ε(Ju, v) = −um+1 v1 − · · · − u2m vm + u1 vm+1 + · · · + um v2m
e que
ε(u, Jv) = −u1 vm+1 − · · · − um v2m + um v1 + · · · + u2m vm
2m
Logo ε(Ju, v) = −ε(u, Jv) e podemos aplicar a Proposição 2.6, obtendo em (  )J o produto escalar

hu, viJ, ε = ε(u, v) + iε(Ju, v)


   
= u1 v1 + · · · + u2m v2m + i − um+1 v1 − · · · − u2m vm + u1 vm+1 + · · · + um v2m

= u1 (v1 + ivm+1 ) + · · · + um (vm + iv2m ) + um+1 (vm+1 − iv1 ) + · · · u2m (v2m − ivm )

= (u1 + ium+1 )(v1 + ivm+1 ) + · · · + (um + iu2m )(vm + iv2m ) .

E. 2.43 Exercı́cio. Verifique que hu, λ · viJ, ε = λhu, viJ, ε para todo λ ∈ . 6

Entendemos, assim, que a estrutura complexa que estudamos consiste nesse caso em identificar
bijetivamente 2m e m por


 
v1  
 . . v 1 + iv m+1
 .   
   
2m  vm   . 
3   ←→  .
.  ∈ m
v
 m+1   


 .   
 .. 
vm + iv2m
v2m
m
e adotar em o produto escalar complexo h·, ·i usual (definido à página 16).
 ◊

Vejamos como as idéias de acima podem ser generalizadas e de modo a incluir espaços de dimensão
infinita.
Exemplo 2.10 Se V é um espaço vetorial real de (dimensão finita ou não) é sempre possı́vel encontrar
um operador linear J satisfazendo J 2 = − se V possuir dois subespaços V1 e V2 com V = V1 ⊕ V2
e tais que existe A : V1 → V2 , linear e bijetora (em dimensão finita isso requer que V1 e V2 tenham a
mesma dimensão e, portanto, que V tenha dimensão par, como mencionado na Proposição 2.7). De
fato, para v ∈ V da forma v = v1 ⊕ v2 com v1 ∈ V1 e v2 ∈ V2 , definindo Jv := (−A−1 v2 ) ⊕ (Av1 ) é fácil
constatar que J 2 = − .
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 2 137/1195

Para um tal J o produto por um escalar complexo λ = x + iy, com x, y ∈ , fica definido por 


λ·(v1 ⊕v2 ) := (x+yJ)(v1 ⊕v2 ) = x(v1 ⊕v2 )+y (−A−1 v2 ) ⊕ (Av1 ) = (xv1 −yA−1 v2 )⊕(xv2 +yAv1 ) .

Se V é um espaço de Hilbert real separável com uma base {φk , k ∈ }, podemos tomar V1 e V2 

como os espaço gerados por {φk , k ∈ , k par} e {φk , k ∈ , k ı́mpar}, respectivamente. Uma
 

possı́vel escolha para a bijeção linear A : V1 → V2 seria



! ∞
X X
A a2m φ2m = a2m φ2m+1 ,
m=0 m=0

para a qual !

X ∞
X
−1
A a2m+1 φ2m+1 = a2m+1 φ2m ,
m=0 m=0

ou seja, em termos de elementos da base, Aφ2m = φ2m+1 e A−1 φ2m+1 = φ2m para todo m ≥ 0. Com
essa definição, terı́amos
" ∞ ! ∞
!# " ∞
! ∞
!#
X X X X
J a2m φ2m ⊕ a2m+1 φ2m+1 = − a2m+1 φ2m ⊕ a2m φ2m+1 .
m=0 m=0 m=0 m=0

O produto com escalares complexos λ = x + iy, com x, y ∈ , fica definido por 

∞ ∞
! ∞
!
X X X
(x + iy) · a m φm = (xa2m − ya2m+1 )φ2m ⊕ (xa2m+1 + ya2m )φ2m+1 .
m=0 m=0 m=0

Para um tal J o produto por um escalar complexo λ = x + iy com x, y ∈ fica definido por 


λ·(v1 ⊕v2 ) := (x+yJ)(v1 ⊕v2 ) = x(v1 ⊕v2 )+y (−A−1 v2 ) ⊕ (Av1 ) = (xv1 −yA−1 v2 )⊕(xv2 +yAv1 ) .


X ∞
X ∞
X
Para α, β ∈ V da forma α = α m φm , β = βm φm e ε(α, β) := αm βm , o produto escalar
m=0 m=0 m=0
real usual, constatamos que

X ∞
X ∞
X ∞
X
ε(α, Jβ) = − α2m β2m+1 + α2m+1 β2m e que ε(Jα, β) = − α2m+1 β2m + α2m β2m+1 .
m=0 m=0 m=0 m=0

Assim, ε(α, Jβ) = −ε(Jα, β) e pela parte B da Proposição 2.6, página 133, hα, βiJ, ε := ε(α, β) +
iε(Jα, β) é um produto escalar complexo. Explicitamente, tem-se

X
hα, βiJ, ε = (α2m + iα2m+1 )(β2m + iβ2m+1 ) .
m=0

E. 2.44 Exercı́cio. Verifique! Verifique também que hα, λ · βiJ, ε = λhα, βiJ, ε para todo λ ∈ . 6
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 2 138/1195

A forma simplética real associada a ε pela parte I do Lema 2.1, página 132, é

X ∞
X
σ(α, β) = −ε(α, Jβ) = α2m β2m+1 − α2m+1 β2m .
m=0 m=0


Exemplo 2.11 Uma situação que não se deve deixar de comentar é a seguinte. Se V é um espaço
vetorial complexo com um produto escalar complexo h·, ·i, V é naturalmente também um espaço
vetorial real, sendo que, como comentamos à página 118, σ(u, v) := Im(hu, vi) u, v ∈ V , define
uma forma simplética real em V . Definindo em V o operador linear Ju = iu, tem-se J 2 = − . A
multiplicação por escalares complexos não apresenta novidades: para x, y ∈ e u ∈ V vale, pela 

definição, (x + iy) · u = xu + yJu = (x + iy)u.


É fácil constatar que σ(u, Jv) = Im(hu, ivi) = −Im(hiu, vi) = −σ(Ju, v) e que σ(u, Ju) =
Im(hu, iui) = hu, ui ≥ 0. Assim, pela parte A da Proposição 2.6, página 133, hu, viJ, σ := σ(u, Jv) +
iσ(u, v) é um produto escalar complexo em V . No entanto, é facil ver que nesse caso hu, vi J, σ =
Im(hu, ivi) + iIm(hu, vi) = Re(hu, vi) + iIm(hu, vi) = hu, vi.
O produto escalar real ε associado a σ pela parte II do Lema 2.1, página 132, é

ε(u, v) = σ(u, Jv) = Im(hu, ivi) = Re(hu, vi) .

É interessante notar também que se tivéssemos adotado Ju = −iu, u ∈ V , terı́amos ainda para
σ(u, v) = Im(hu, vi) que σ(u, Jv) = −σ(Ju, v). Porém, σ(u, Ju) = −hu, ui ≤ 0, violando a
condição de positividade. ◊
Exemplo 2.12 Uma situação um pouco diferente é a seguinte. Seja V um espaço vetorial complexo
dotado de um produto escalar complexo h·, ·i. Sejam V1 e V2 dois sub-espaços ortogonais de V
(ortogonais segundo o produto escalar h·, ·i). Encarando V como um espaço real, definamos o operador
linear J : V → V por J(v1 ⊕ v2 ) = i(v1 ⊕ (−v2 )), onde v1 ∈ V1 e v2 ∈ V2 . É claro que J 2 = − . A
multiplicação por escalares complexos x + iy, com x, y ∈ , fica 

(x + iy) · (v1 ⊕ v2 ) = x(v1 ⊕ v2 ) + yJ(v1 ⊕ v2 ) = ((x + iy)v1 ) ⊕ ((x − iy)v2 ) ,

ou seja, λ · (v1 ⊕ v2 ) = (λv1 ) ⊕ (λv2 ), para todos λ ∈ , v1 ∈ V1 e v2 ∈ V2 .


É também fácil constatar que para o produto escalar real ε(u, v) = Re(hu, vi) vale a relação
ε(u, Jv) = −ε(Ju, v) (para isso é essencial que V1 e V2 sejam ortogonais segundo h·, ·i).
O forma simplética real σ associada a ε pela parte I do Lema 2.1, página 132, é, tomando u = u 1 ⊕u2 ,
v = v1 ⊕ v2 , com u1 , v1 ∈ V1 e u2 , v2 ∈ V2 ,

σ(u, v) := ε(Ju, v) = Im (hu1 , v1 i) − Im (hu2 , v2 i) ,

como facilmente se verifica.


Pela parte B da Proposição 2.6, página 133, hu, viJ, ε := ε(u, v) + iε(Ju, v) é um produto escalar
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 2 139/1195

complexo. Por essa definição, tem-se, tomando u = u1 ⊕ u2 , v = v1 ⊕ v2 , com u1 , v1 ∈ V1 e u2 , v2 ∈ V2 ,

hu, viJ, ε = h(u1 ⊕ u2 ), (v1 ⊕ v2 )iJ, ε

= Re(hu1 , v1 i) + Re(hu2 , v2 i) + i (Re(hiu1 , v1 i) + Re(h − iu2 , v2 i))

= Re(hu1 , v1 i) + Re(hu2 , v2 i) + iIm(hu1 , v1 i) − iIm(hu2 , v2 i)

= hu1 , v1 i + hu2 , v2 i .

E. 2.45 Exercı́cio. Verifique também que hu, λ · viJ, ε = λhu, viJ, ε para todo λ ∈ . 6


Parte II

Tópicos de Álgebra Linear

140
Capı́tulo 3
Tópicos de Álgebra Linear I
Conteúdo

3.1 Rudimentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141


3.2 Noções Básicas sobre o Espectro de uma Matriz . . . . . . . . . . . . . . . 144
3.2.1 O Traço de uma Matriz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 150
3.3 Polinômios de Matrizes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 152
3.3.1 O Teorema de Hamilton-Cayley . . . . . . . . . . . . . . . . . . . . . . . . . . 154
3.4 Matrizes Diagonalizáveis e o Teorema Espectral . . . . . . . . . . . . . . . 159
3.4.1 Diagonalização Simultânea de Matrizes . . . . . . . . . . . . . . . . . . . . . 171
3.5 Matrizes Auto-adjuntas, Normais e Unitárias . . . . . . . . . . . . . . . . 175
3.6 Matrizes Triangulares . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 182
3.7 O Teorema de Decomposição de Jordan e a Forma Canônica de Matrizes 184
3.7.1 Resultados Preparatórios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 185
3.7.2 O Teorema da Decomposição de Jordan . . . . . . . . . . . . . . . . . . . . . 190
3.7.3 Matrizes Nilpotentes e sua Representação Canônica . . . . . . . . . . . . . . 193
3.7.4 A Forma Canônica de Matrizes . . . . . . . . . . . . . . . . . . . . . . . . . . 197
3.8 Algumas Representações Especiais de Matrizes . . . . . . . . . . . . . . . 200
3.8.1 A Decomposição Polar de Matrizes . . . . . . . . . . . . . . . . . . . . . . . . 200
3.8.2 O Teorema da Triangularização de Schur . . . . . . . . . . . . . . . . . . . . 202
3.8.3 A Decomposição QR e a Decomposição de Iwasawa (“KAN”) . . . . . . . . . 205

principal objetivo deste capı́tulo é apresentar a demonstração do Teorema Espectral para


matrizes diagonalizáveis, em particular, para matrizes auto-adjuntas (resultado de grande
relevância para a Mecânica Quântica) e a demonstração do Teorema de Decomposição de
Jordan para matrizes gerais. Sempre trabalharemos no contexto de espaços vetoriais de
dimensão finita n sobre o corpo dos complexos. A leitura deste capı́tulo pressupõe serem conhecidos
do leitor alguns conceitos básicos de Álgebra Linear, tais como o conceito de determinante de matrizes,
suas propriedades e métodos de cálculo. Este capı́tulo será continuado no Capı́tulo 4, página 210, onde
outros aspectos de álgebras de matrizes serão explorados.

3.1 Rudimentos

• Alguma Notação

141
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 3 142/1195

O conjunto de todas as matrizes m×n com entradas complexas será denotado aqui por Mat ( , m, n).
O conjunto de todas as matrizes quadradas n × n com entradas complexas será denotado simplesmente
por Mat ( , n).
Dado um conjunto de n números complexos α1 , . . . , αn , denotaremos por diag (α1 , . . . , αn ) a
matriz A ∈ Mat ( , n) cujos elementos Aij são definidos da seguinte forma:

αi , se i = j
Aij = .
0, se i 6= j

Uma tal matriz é dita ser diagonal pois apenas os elementos de sua diagonal principal são eventualmente
não-nulos. Na representação usual  
α1 · · · 0
 
A =  ... . . . ...  .
0 · · · αn
A mais popular dentre as matrizes diagonais é a matriz identidade, que denotaremos por nestas notas:
 
1 ··· 0
 
= diag (1, . . . , 1) =  ... . . . ...  .
0 ··· 1

Denotaremos por a, b a matriz a × b cujos elementos de matriz são todos nulos. Denotaremos por
l a matriz identidade l × l. Por vezes, quando não houver perigo de confusão, poderemos omitir os
sub-ı́ndices e escrever a, b simplesmente como e l simplesmente como .
Sejam x1 , . . . , xn vetores, representados na base canônica por vetores-coluna
 
xa1
 
xa =  ...  .
xan

Denotaremos por [[x1 , . . . , xn ]] a matriz n × n construı́da de forma que sua a-ésima coluna seja o
vetor-coluna xa , ou seja  
x11 · · · xn1
 
[[x1 , . . . , xn ]] =  ... . . . ...  . (3.1)
1 n
xn · · · x n

Essa notação é útil por permitir a seguinte observação. Seja B uma matriz qualquer. Então,

B[[x1 , . . . , xn ]] = [[Bx1 , . . . , Bxn ]]. (3.2)

Essa relação é provada observando-se a regra de multiplicação de matrizes: a a-ésima coluna de


B[[x1 , . . . , xn ]] é
B11 xa1 + · · · + B1n xan
.. , (3.3)
.
a a
Bn1 x1 + · · · + Bnn xn
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 3 143/1195

que vem a ser as componentes de Bxa , representado como vetor-coluna na base canônica.
Ainda sobre essa notação, vale a seguinte identidade útil, cuja demonstração (elementar) deixamos
como exercı́cio: se D = diag (d1 , . . . , dn ) é uma matriz diagonal, então

[[x1 , . . . , xn ]] D = [[d1 x1 , . . . , dn xn ]] . (3.4)

Seja V um espaço vetorial dotado de um produto escalar h·, ·i. Dizemos que dois vetores u e v são
perpendiculares (em relação ao produto escalar h·, ·i) se hu, vi = 0.
Se v1 , . . . , vk são vetores em um espaço vetorial V , denotamos por [v1 , . . . , vk ] o sub-espaço gerado
pelos vetores v1 , . . . , vk , ou seja, a coleção de todos os vetores que são combinações lineares dos vetores
v1 , . . . , vk :
[v1 , . . . , vk ] = {α1 v1 + · · · + αk vk , α1 , . . . , αk ∈ }.

Denotamos por [v1 , . . . , vk ]⊥ o subespaço de todos os vetores perpendiculares a todos os vetores


de [v1 , . . . , vk ]:

[v1 , . . . , vk ]⊥ = { w ∈ V | hw, (α1 v1 + · · · + αk vk )i = 0 para todos α1 , . . . , αk ∈ }.

• Um resultado útil

Mais abaixo usaremos o seguinte fato:


Proposição 3.1 Seja M ∈ Mat ( , n) uma matriz da seguinte forma
 
A k, n−k
M =  ,
B C

onde A é uma matriz k × k, B é uma matriz (n − k) × k e C é uma matriz (n − k) × (n − k). Então

det(M ) = det(A) det(C) .

Prova. O primeiro ingrediente da prova é a constatação que


    
A k, n−k A k, n−k k k, n−k
M =   =   
B C B n−k n−k, k C
   
A k, n−k k k, n−k k k, n−k
=     .
n−k, k n−k B n−k n−k, k C

E. 3.1 Exercı́cio. Verifique! 6


JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 3 144/1195

Com isso, temos pela regra do determinante de um produto de matrizes que


     
A k, n−k k k, n−k k k, n−k
det(M ) = det   det   det   .
n−k, k n−k B n−k n−k, k C

Agora, pela regra de Laplace de cálculo de determinantes, é fácil constatar (faça-o!) que
   
A k, n−k k k, n−k
det   = det(A), det   = det(C) .
n−k, k n−k n−k, k C
e  
k k, n−k
det   = 1.
B n−k

Isso completa a prova.

3.2 Noções Básicas sobre o Espectro de uma Matriz

• O Espectro de uma Matriz

Seja A ∈ Mat ( , n) uma matriz n × n com entradas complexas. No estudo das propriedades de
A é de grande importância saber para quais números complexos λ a matriz λ − A é invertı́vel e para
quais não é.
Chegamos às seguintes importantes definições.

Definição. Um número complexo λ é dito ser um elemento do espectro de A ∈ Mat ( , n) se a matriz


λ − A não possuir uma inversa.

Definição. Um número complexo λ é dito ser um elemento do conjunto resolvente de A ∈ Mat ( , n)


se a matriz λ − A possuir uma inversa.
Em outras palavras, o espectro de A ∈ Mat ( , n), denotado por σ(A), é o conjunto de todos os
λ ∈ para os quais a matriz λ − A não tem inversa.
O conjunto resolvente de A ∈ Mat ( , n), denotado por ρ(A), é o conjunto de todos os λ ∈ para
os quais a matriz λ − A tem inversa.
É evidente que σ(A) e ρ(A) são conjuntos complementares, ou seja, σ(A) ∩ ρ(A) = ∅ mas σ(A) ∪
ρ(A) = .
Um fato importante é que λ −A é não-invertı́vel se e somente se det(λ −A) = 0. Assim, um número
complexo λ é um elemento do espectro de uma matriz A se e somente se for tal que det(λ − A) = 0.
Chegamos ao importante conceito de polinômio caracterı́stico de uma matriz.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 3 145/1195

• O Polinômio Caracterı́stico de uma Matriz

Seja A ∈ Mat ( , n) uma matriz cujos elementos de matriz são Aij . Para λ ∈ a expressão
 
λ − A11 −A12 ··· −A1n
 −A21 λ − A22 ··· −A2n 
 
det(λ − A) = det  .. .. .. .. 
 . . . . 
−An1 ··· · · · λ − Ann

define, como facilmente se constata pelos métodos usuais e bem conhecidos de cálculo de determinantes,
um polinômio de grau n na variável λ, com coeficientes complexos, os quais dependem dos elementos
de matriz Aij de A. Esse polinômio é denominado polinômio caracterı́stico de A e desempenha um
papel muito importante no estudo de propriedades de matrizes.
Denotaremos por vezes por pA o polinômio caracterı́stico de uma matriz A ∈ Mat ( , n). Como
todo polinômio complexo de grau n, pA possui n raı́zes, não necessariamente distintas no plano com-
plexo (teorema fundamental da álgebra). As raı́zes do polinômio caracterı́stico p A são denominadas
autovalores da matriz A. Assim, o espectro de uma matriz A coincide com o conjunto de seus auto-
valores. O estudo de autovalores de matrizes é de grande importância na Álgebra Linear e em suas
aplicações à Teoria das Equações Diferenciais, à Geometria, à Teoria dos Sistemas Dinâmicos e à Fı́sica,
especialmente à Fı́sica Quântica.
Seja A ∈ Mat ( , n) uma matriz e sejam α1 , . . . , αr , 1 ≤ r ≤ n, seus autovalores distintos, cada
qual com multiplicidade a1 , . . . , ar , respectivamente, ou seja, cada αi é uma raiz de ordem ai ∈ do 

polinômio caracterı́stico de A:
r
Y
q(λ) = det(λ − A) = (λ − αi )ai .
i=1

A quantidade ai é um número inteiro positivo e é denominado multiplicidade algébrica do autovalor α i .


Note-se que como o número de raı́zes de pA (contando as multiplicidades) é exatamente igual a seu
grau, segue facilmente que a seguinte relação é válida:
r
X
ai = n, (3.5)
i=1

ou seja, a soma das multiplicidades algébricas dos autovalores de uma matriz A ∈ Mat ( , n) é n.
Uma conseqüência elementar disso é a seguinte proposição útil:
Proposição 3.2 Seja A ∈ Mat ( , n) uma matriz e sejam α1 , . . . , αr , 1 ≤ r ≤ n, seus autovalores
distintos, cada qual com multiplicidade algébrica a1 , . . . , ar , respectivamente. Então
r
Y
det(A) = (αk )ak . (3.6)
k=1

2
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 3 146/1195

Qr ak
q(λ) = det(λ −A) =
Prova. Por definição, o polinômio caracterı́stico de A éQ k=1 (λ−αk ) . Tomando
n r ak n
λ = 0 e usando (3.5), teremos que det(−A) = (−1) k=1 (αk ) . Porém, det(−A) = (−1) det(A) e a
proposição está demonstrada.

Essa proposição diz que o determinante de uma matriz é o produto de seus autovalores, incluindo
a multiplicidade algébrica.

• Matrizes Similares. Transformações de Similaridade

Duas matrizes A ∈ Mat ( , n) e B ∈ Mat ( , n) são ditas similares se existir uma matriz invertı́vel
P ∈ Mat ( , n) tal que P −1 AP = B.
Para uma matriz invertı́vel P ∈ Mat ( , n) fixa, a transformação que leva cada matriz A ∈
Mat ( , n) à matriz P −1 AP é denominada transformação de similaridade.
Sabemos que o determinante é invariante por transformações de similaridade, pois para toda matriz
A vale det(A) = det(P −1 AP ).
O determinante não é o único objeto associado a uma matriz que é invariante por transformações
de similaridade. O polinômio caracterı́stico e, portanto, o conjunto de seus autovalores (incluindo as
multiplicidades), também o é. Isso pode ser visto da seguinte forma.
Sejam A e B duas matrizes similares com B = P −1 AP para algum P . O polinômio caracterı́stico
de A é pA (λ) = det(λ − A) e o de B é pB (λ) = det(λ − B). Pela invariância do determinante vale

pA (λ) = det(λ − A) = det(P −1 (λ − A)P ) = det(λ − P −1 AP ) = det(λ − B) = pB (λ). (3.7)

Assim, A e B têm o mesmo polinômio caracterı́stico e, portanto, seus autovalores são iguais, incluindo
suas multiplicidades.

• Comentário sobre Matrizes Bijetoras

Em parte do que segue estaremos implicitamente usando a seguinte proposição:


Proposição 3.3 Uma matriz A ∈ Mat ( , n) é bijetora se e somente se Av = 0 valer apenas para
v = 0. 2

Prova. Se A é bijetora, então existe A−1 . Logo, aplicando-se A−1 à esquerda na igualdade Av = 0,
obtem-se v = 0. Vamos agora provar a recı́proca: vamos supor que Av = 0 vale apenas para v = 0 e
provar que A é injetora e sobrejetora e, portanto, bijetora.
Prova-se que A é injetora por absurdo. Se A não é injetora, então, existem vetores x e y com x 6= y
mas com Ax = Ay. Como A é linear, isso implica A(x − y) = 0. Pela hipótese que Av = 0 vale apenas
para v = 0, segue que x = y, uma contradição.
Para provarmos que A é sobrejetora procedemos da seguinte forma. Seja {e 1 , . . . , en } uma base
em n . Vamos primeiramente mostrar que {Ae1 , . . . , Aen } é um conjunto linearmente independente
de vetores em n (e, portanto, uma base em n ). Suponhamos que assim não o seja e que existam
números complexos α1 , . . . , αn , não todos nulos, tais que α1 Ae1 + · · · + αn Aen = 0. Pela linearidade
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 3 147/1195

de A, segue que A (α1 e1 + · · · + αn en ) = 0. Novamente, pela hipótese que Av = 0 vale apenas para
v = 0, segue que α1 e1 + · · · + αn en = 0. Isso, porém, diz que os vetores {e1 , . . . , en } são linearmente
dependentes, o que é absurdo.
Logo, {Ae1 , . . . , Aen } é um conjunto de n vetores linearmente independente em n e, portanto, é
uma base nesse espaço. Assim, qualquer x ∈ n pode ser escrito como uma combinação linear tal como
x = β1 Ae1 + · · · + βn Aen = A (β1 e1 + · · · + βn en ). Isso mostra que x está na imagem de A. Como x é
arbitrário, segue que A é sobrejetora.

Um corolário evidente é o seguinte:


Corolário 3.1 Se uma matriz A ∈ Mat ( , n) não é bijetora (ou seja, se não possui inversa), então
existe um vetor não-nulo v tal que Av = 0. 2

• Autovetores

Seja λ0 um autovalor de uma matriz A. Então λ0 − A não tem inversa. Logo, como V = n é um
espaço vetorial de dimensão finita, existe pelo Corolário 3.1 acima pelo menos um vetor não-nulo v tal
que (λ0 − A)v = 0, ou seja, Av = λ0 v. Chegamos a mais uma importante definição:

Definição. Um vetor não-nulo v é dito ser um autovetor de uma matriz A se houver λ 0 ∈ tal que

Av = λ0 v.

6 0 então λ0 − A não tem inversa.


Note-se que se um tal λ0 satisfaz a relação acima para algum v =
λ0 é então um elemento do espectro de A, ou seja, um autovalor. λ0 é dito ser o autovalor associado
ao autovetor v.
Uma observação importante é a seguinte. Sejam v1 e v2 dois autovetores aos quais está associado o
mesmo autovalor, ou seja, Av1 = λ0 v1 e Av2 = λ0 v2 . Então, para quaisquer números complexos c1 e
c2 o vetor v = c1 v1 + c2 v2 também satisfaz Av = λ0 v. De fato,

Av = A(c1 v1 + c2 v2 ) = c1 Av1 + c2 Av2 = c1 λ0 v1 + c2 λ0 v2 = λ0 (c1 v1 + c2 v2 ) = λ0 v.

A conclusão a que se chega é que, para cada autovalor αi de uma matriz A, a coleção formada pelo
vetor nulo e todos os autovetores de A com autovalor αi é um subespaço vetorial. Vamos denotar esse
subespaço por E(αi ) ou simplesmente Ei .
Se αi e αj são autovalores distintos de A então os sub-espaços de autovetores E(α i ) e E(αj ) têm
em comum apenas o vetor nulo, ou seja, E(αi ) ∩ E(αj ) = {0}. Isso é fácil de provar, pois se w é tal
que Aw = αi w e Aw = αj w então, subtraindo-se uma relação da outra terı́amos 0 = (αi − αj )w, que
implica w = 0, já que αi 6= αj .
Essas considerações nos levam a mais um conceito importante: o de multiplicidade geométrica de
um autovalor.

• A Multiplicidade Geométrica de um Autovalor


JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 3 148/1195

Além do conceito de multiplicidade algébrica de um autovalor, há também o conceito de multipli-


cidade geométrica de um autovalor, do qual trataremos agora.
Como antes seja A ∈ Mat ( , n) uma matriz e sejam α1 , . . . , αr , 1 ≤ r ≤ n, seus autovalores
distintos, cada qual com multiplicidade algébrica a1 , . . . , ar , respectivamente.
Acima introduzimos os sub-espaços Ei = E(αi ), definidos como sendo os sub-espaços gerados por
todos os autovetores que têm αi como autovalor. A multiplicidade geométrica de um autovalor αi é
definida como sendo a dimensão do subespaço Ei , ou seja, como sendo o número máximo de autovetores
linearmente independentes com autovalor αi .
É importante advertir de imediato o leitor do fato que a multiplicidade algébrica e multiplicidade
geométrica de autovalores nem sempre coincidem. Isso é bem ilustrado no seguinte exemplo simples.
Seja  
0 1
A = .
0 0
Seu polinômio caracterı́stico é
 
λ −1
pa (λ) = det(λ − A) = det = λ2 .
0 λ
Assim, seu (único) autovalor é 0 com multiplicidade algébrica 2. Quais os seus autovetores? São aqueles
vetores que satisfazem Av = 0. Denotando v como um vetor coluna
 
a
v = ,
b
a relação Av = 0 significa     
0 1 a b
= = 0.
0 0 b 0
Logo b = 0 e todos os autovetores são da forma
 
a
v = ,
0

a ∈ . É evidente que o subespaço gerado pelos autovetores com autovalor zero tem dimensão 1.
Assim, a multiplicidade algébrica do autovalor zero é 2 mas a sua multiplicidade geométrica é 1.

• A Multiplicidade Algébrica e a Multiplicidade Geométrica

Apesar de a multiplicidade algébrica e a multiplicidade geométrica de um autovalor nem sempre


coincidirem, há uma relação de ordem entre eles. A saber, é possı́vel mostrar que a multiplicidade
geométrica de um autovalor é sempre menor ou igual à sua multiplicidade algébrica.
Isso segue das seguintes considerações. Seja λ0 um autovalor de A ∈ Mat ( , n) e E(λ0 ) o subespaço
gerado pelos autovetores com autovalor λ0 , e cuja dimensão denotaremos por d. Vamos escolher uma
base v1 , . . . , vd , vd+1 , . . . , vn onde os primeiros d vetores são elementos de E(λ0 ). Nessa base a matriz
A tem a forma  
D d, n−d
,
A3 A4
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 3 149/1195

 

onde D é uma matriz d × d diagonal D = diag λ0 , . . . , λ0 , A4 é uma matriz (n − d) × (n − d) e


| {z }
d vezes
A3 é uma matriz (n − d) × d. Alguns segundos (minutos?) de meditação, usando pela Proposição 3.1
da página 143, nos levam a concluir que o polinômio caracterı́stico de A é dado por
det(λ − A) = (λ − λ0 )d det(λ − A4 ).
Isso mostra que a multiplicidade algébrica de λ0 é pelo menos igual a d, sua multiplicidade geométrica.

E. 3.2 Exercı́cio. Realize a meditação sugerida acima. 6

• Matrizes Simples

O que foi exposto acima leva-nos naturalmente ao conceito de matriz simples que, como veremos
mais adiante, está intimamente ligado ao problema da diagonalizabilidade de matrizes.

Definição. Uma matriz A ∈ Mat ( , n) é dita ser simples se cada autovalor de A tiver uma multipli-
cidade algébrica igual à sua multiplicidade geométrica.
Deixamos para o leitor provar o seguinte fato: toda matriz diagonal é simples.

E. 3.3 Exercı́cio. Prove isso. 6

Adiante faremos uso da seguinte proposição.


Proposição 3.4 Se A ∈ Mat ( , n) é uma matriz simples e P ∈ Mat ( , n) é invertı́vel então P −1 AP
é também simples. 2

Prova. Já vimos (página 146) que A e P −1 AP têm o mesmo polinômio caracterı́stico e, portanto,
os mesmos autovalores, incluindo suas multiplicidades algébricas. Seja λ0 um desses autovalores com
multiplicidade algébrica d e sejam v1 , . . . , vd um conjunto de d autovetores linearmente indepen-
dentes de A. Os vetores P −1 v1 , . . . , P −1 vd são autovetores de P −1 AP com autovalor λ0 . De fato,
(P −1 AP ) P −1 vi = P −1 Avi = λ0 P −1 vi . Fora isso os d vetores P −1 v1 , . . . , P −1 vd são também linear-
mente independentes. Para ver isso, suponha houvesse constantes c1 , . . . , cd tais que
c1 P −1 v1 + · · · + cd P −1 vd = 0.
Multiplicando-se à esquerda por P terı́amos c1 v1 + · · · + cd vd = 0. Como v1 , . . . , vd são linearmente
independentes as constantes ci têm que ser todas nulas, provando que os vetores P −1 v1 , . . . , P −1 vd
são também linearmente independentes.
Isso prova que a multiplicidade geométrica do autovalor λ0 é pelo menos igual a d. Como ela não
pode ser maior que d (página 148), conclui-se que é igual a d provando a proposição.

A seguinte proposição elementar é por vezes útil para verificar se uma matriz é simples.
Proposição 3.5 Se todos os n autovalores de uma matriz A ∈ Mat ( , n) forem distintos então A é
simples. 2
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 3 150/1195

Prova. Se os autovalores de A são α1 , . . . , αn , todos distintos, então cada um tem multiplicidade


algébrica igual a 1. Forçosamente, sua multiplicidade geométrica é também igual a 1, já que a multi-
plicidade geométrica não pode ser maior que a algébrica.

Ressaltemos que a recı́proca da proposição acima não é verdadeira: uma matriz pode ser simples e
possuir autovalores com multiplicidade algébrica maior que 1.

3.2.1 O Traço de uma Matriz

• O Traço de uma Matriz

Seja A ∈ Mat ( , n), cujos elementos de matriz são Aij , i, j = 1, . . . n. Sejam λ1 , . . . , λn seus n
autovalores (não necessariamente distintos e repetidos conforme sua multiplicidade).
Definimos o traço de A como sendo a soma de seus n autovalores:
n
X
Tr (A) := λa .
a=1

Uma conclusão que se tira dessa definição é que se duas matrizes são similares, então ambas têm o
mesmo traço, ou seja, para qualquer matriz invertı́vel P e qualquer matriz A vale

Tr P −1 AP = Tr (A). (3.8)

A razão reside na observação feita acima que duas matrizes similares têm o mesmo conjunto de auto-
valores e, portanto, o mesmo traço.
Temos a seguinte e importante proposição:
Proposição 3.6 O traço de uma matriz A ∈ Mat ( , n) é igual a soma dos elementos de sua diagonal
principal, ou seja,
Xn X n
Tr (A) := λa = Aaa . (3.9)
a=1 a=1
2

Prova. A demonstração consistirá em se calcular o coeficiente de λn−1 no polinômio caracterı́stico p(λ)


de A de dois modos diferentes. O polinômio caracterı́stico de A é
 
λ − A11 −A12 · · · −A1n
 −A21 λ − A22 · · · −A2n 
 
p(λ) = det(λ − A) = det  .. .. . .. .
.. .
 . . 
−An1 ··· · · · λ − Ann
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 3 151/1195

P
As técnicas de cálculo de determinantes nos dizem que o coeficiente de λn−1 é − ni=1 Aii . Por exemplo,
para o caso n = 2
 
λ − A11 −A12
p(λ) = det = λ2 − λ(A11 + A22 ) + A11 A22 − A12 A21 .
−A21 λ − A22

E. 3.4 Exercı́cio. Convença-se da veracidade da afirmativa acima para o caso de n arbitrário. 6

Por outro lado, os autovalores de A, λ1 , . . . , λn , são por definição as raı́zes do polinômio carac-
terı́stico. Logo,
p(λ) = (λ − λ1 )(λ − λ2 ) · · · (λ − λn ).
Expandindo-se essa expressão, conclui-se que o coeficiente de λn−1 é

−(λ1 + · · · + λn ) = −Tr (A).

E. 3.5 Exercı́cio. Certo? 6

Do exposto acima, conclui-se que o coeficiente de λn−1 no polinômio caracterı́stico de A é


n
X
− Aii = −(λ1 + · · · + λn ) = −Tr (A),
i=1

o que termina a prova.

Essa proposição leva a duas outras propriedades igualmente importantes: a linearidade do traço e
a chamada propriedade cı́clica do traço.
Proposição 3.7 (A Linearidade do Traço) Sejam A, B ∈ Mat ( , n) e α, β ∈ . Então

Tr (αA + βB) = αTr (A) + βTr (B) .

Prova. A prova é imediata por (3.9).

É curioso notar que a linearidade do traço vista acima é evidente por (3.9), mas não é nem um
pouco evidente pela definição do traço de uma matriz como soma de seus autovalores, pois os auto-
valores individuais de αA + βB não são em geral combinações lineares dos autovalores de A e de B,
especialmente no caso em que A e B não comutam.
Proposição 3.8 (A Propriedade Cı́clica do Traço) Sejam A, B ∈ Mat ( , n). Então

Tr (AB) = Tr (BA).

2
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 3 152/1195

Prova. Pelo que vimos acima, tem-se


n n n
! n n
! n
X X X X X X
Tr (AB) = (AB)ii = Aij Bji = Bji Aij = (BA)jj = Tr (BA).
i=1 i=1 j=1 j=1 i=1 j=1

Na segunda e quarta igualdades usamos a regra de produto de matrizes. Na terceira igualdade apenas
trocamos a ordem das somas.

Novamente vale aqui o comentário que a propriedade cı́clica expressa na Proposição 3.8 não é
nada evidente pela definição do traço de uma matriz como soma de seus autovalores. Os autovalores
individuais de produto de matrizes AB não são em geral iguais aos do produto BA.
Mais adiante, demonstraremos uma outra propriedade importante do traço que o relaciona com
o determinante,
 a saber, provaremos que para qualquer matriz A, real ou complexa, n × n, tem-se
A Tr (A)
det e = e . Vide Proposição 4.7, página 222.

3.3 Polinômios de Matrizes

• Polinômios de Matrizes

Seja p um polinômio de grau m:


p(x) = am xm + · · · + a1 x + a0
com x ∈ , aj ∈ e am 6= 0. Para uma matriz A ∈ Mat ( , n) definimos o polinômio matricial p(A)
por
p(A) = am Am + · · · + a1 A + a0 .
Obviamente p(A) é também uma matriz n × n com entradas complexas.
Se as raı́zes do polinômio p forem α1 , . . . , αr , com multiplicidades m1 , . . . , mr , respectivamente,
então r
Y
p(x) = am (x − αj )mj ,
j=1

para todo x ∈ . É fácil provar, então, que


r
Y
p(A) = am (A − αj )mj .
j=1

E. 3.6 Exercı́cio. Justifique isso. 6

E. 3.7 Exercı́cio. Mostre que se D = diag (d1 , . . . , dn ) e q é um polinômio então


q(D) = diag (q(d1 ), . . . , q(dn )) .
6
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 3 153/1195

E. 3.8 Exercı́cio. Suponha que A = P −1 DP , onde D = diag (d1 , . . . , dn ). Se q é um polinômio


mostre que
q(A) = P −1 q(D)P = P −1 diag (q(d1 ), . . . , q(dn )) P.
6

• O Polinômio Mı́nimo

Vamos mostrar que para cada matriz A ∈ Mat ( , n) sempre existe pelo menos um polinômio p
com a propriedade que p(A) = .
Para tal notemos primeiramente que Mat ( , n) é um espaço vetorial complexo de dimensão n 2 .
De fato toda a matriz A ∈ Mat ( , n), cujos elementos de matriz são Aij ∈ pode ser trivialmente
escrita na forma n Xn
X
A = Aab E ab
a=1 b=1

onde E ab ∈ Mat ( , n) são matrizes cujos elementos de matriz são (E ab )ij = δi,a δj,b , ou seja, todos os
elementos de matriz de E ab são nulos, exceto o elemento a, b, que vale 1.

E. 3.9 Exercı́cio. Certo? 6

Assim, vemos que as matrizes {E ab , a = 1, . . . , n, b = 1, . . . , n} formam uma base em Mat ( , n),


mostrando que Mat ( , n) é um espaço vetorial de dimensão n2 . Isto posto, temos que concluir que
qualquer conjunto de mais de n2 matrizes não-nulas em Mat ( , n) é linearmente dependente.
Se uma das matrizes Ak , k = 1, . . . , n2 , for nula, digamos Aq = , então p(x) = xq , tem
a propriedade que p(A) = 0, que é o que desejamos provar. Se, por outro lado, as matrizes A k ,
2
k = 1, . . . , n2 , são todas não-nulas, então conjunto { , A, A2 , . . . , An } é linearmente dependente,
pois possui n2 + 1 elementos. Portanto, existem constantes c0 , . . . , cn2 , nem todas nulas, tais que
2
c 0 + c 1 A + c 2 A 2 + · · · + c n2 A n = .

Como o lado esquerdo é um polinômio em A, fica provada nossa afirmação que toda matriz possui um
polinômio que a anula. Chegamos às seguintes definições:

Definição. Polinômio Mônico. Um polinômio p : → de grau n é dito ser mônico se for da




forma
p(x) = xn + an−1 xn−1 + · · · + a1 x + a0 ,
ou seja, se o coeficiente do monômio de maior grau (no caso, xn ) for igual a 1. Note-se que polinômios
mônicos nunca são identicamente nulos.

Definição. Polinômio Mı́nimo de uma Matriz. Dada uma matriz A ∈ Mat ( , n), o polinômio
mı́nimo de A é o polinômio mônico de menor grau que é anulado em A, ou seja, é o polinômio não-nulo
de menor grau da forma
M (x) = xm + am−1 xm−1 + · · · + a1 x + a0
para o qual M (A) = .
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 3 154/1195

As considerações acima mostram que um tal polinômio sempre existe e que tem grau no máximo
igual a n2 . Essa é, no entanto, uma estimativa exagerada para o grau do polinômio mı́nimo de uma
matriz A ∈ Mat ( , n) pois, como veremos abaixo, o polinômio mı́nimo de uma matriz A ∈ Mat ( , n)
tem, na verdade, grau menor ou igual a n. Isso é um corolário de um teorema conhecido como Teorema
de Hamilton-Cayley, que demonstraremos abaixo.
Finalizamos com um teorema básico que garante a unicidade do polinômio mı́nimo e estabelece sua
relação com outros polinômios que anulam A.
Teorema 3.1 O polinômio mı́nimo M de uma matriz A ∈ Mat ( , n) é único. Fora isso se P é um
polinômio não identicamente nulo que também se anula em A, ou seja, P (A) = , então P é divisı́vel
por M , ou seja, existe um polinômio F tal que P (x) = F (x)M (x) para todo x ∈ . 2

Demonstração. Dada uma matriz A ∈ Mat ( , n), o polinômio mı́nimo de A é o polinômio de menor
grau da forma
M (x) = xm + am−1 xm−1 + · · · + a1 x + a0
para o qual M (A) = . Vamos supor que haja outro polinômio N da forma
N (x) = xm + bm−1 xm−1 + · · · + b1 x + b0
para o qual N (A) = . Subtraindo um do outro terı́amos o polinômio
(M − N )(x) = (am−1 − bm−1 )xm−1 + · · · + (a1 − b1 )x + (a0 − b0 ),
que tem grau menor ou igual a m − 1 e para o qual vale (M − N )(A) = M (A) − N (A) = − = .
Como, por hipótese, não há polinômios não-nulos com grau menor que o de M que anulam A, isso é
uma contradição, a menos que M = N . Isso prova a unicidade.
Seja P um polinômio não identicamente nulo para o qual valha P (A) = . Se p é o grau de P ,
deve-se ter p ≥ m, onde m é o grau do polinômio mı́nimo de A. Logo, pelos bem conhecidos fatos sobre
divisão de polinômios, podemos encontrar dois polinômios F e R, cujos graus são, respectivamente
p − m e r com 0 ≤ r < m, tais que
P (x) = F (x)M (x) + R(x),
para todo x ∈ . Ora, isso diz que
P (A) = F (A)M (A) + R(A).
Como P (A) = e M (A) = , isso implica R(A) = . Como, porém, o grau de R é menor que m,
tem-se que R deve ser identicamente nulo. Isso completa a prova.

3.3.1 O Teorema de Hamilton-Cayley


Vamos aqui demonstrar um teorema sobre matrizes que será usado mais adiante de várias formas, em
particular no Teorema Espectral, o chamado Teorema de Hamilton1 -Cayley2 . Esse teorema fornece
1
Sir William Rowan Hamilton (1805-1865).
2
Arthur Cayley (1821-1895).
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 3 155/1195

também, como veremos, um método eficiente para o cálculo da inversa de matrizes. Cayley e Hamilton
demonstraram casos particulares do teorema para matrizes 2 × 2, 3 × 3 (Cayley) e 4 × 4 (Hamilton).
A primeira demonstração geral é devida a Frobenius3 . Cayley, Hamilton e Sylvester4 estão entre os
fundadores modernos da teoria das matrizes5 .
Teorema 3.2 (Teorema de Hamilton-Cayley) Seja A ∈ Mat ( , n) e seja q(x) = det(x − A) o
polinômio caracterı́stico de A (e que tem grau n). Então q(A) = . 2

Prova. Desejamos mostrar que para todo vetor y ∈ n vale q(A)y = 0. Se y = 0 isso é trivial. Se
y 6= 0 mas com Ay = 0 então
q(A)y = (−1)n λ1 · · · λn y,
onde λ1 , · · · , λn são os autovalores de A. Mas a própria relação Ay = 0 indica que um dos autovalores
é igual a zero. Logo q(A)y = 0. Mais genericamente, se y 6= 0 e {y, Ay} não for um conjunto de vetores
linearmente independentes, então Ay e y são proporcionais, ou seja, existe um autovalor, digamos, λ n
tal que Ay = λn y. Nesse caso também tem-se
n−1
!
Y
q(A)y = (A − λi ) (A − λn )y = 0,
i=1

pois (A − λn )y = Ay − λn y = 0.
Seja então y daqui por diante um vetor fixado, não-nulo e tal que {y, Ay} é um conjunto de dois
vetores não-nulos e linearmente independentes.
n
Como o espaço tem dimensão n, nem todos os conjuntos de vetores da forma

{y, Ay, A2 y, . . . , Aj y}

são formados por vetores não-nulos linearmente independentes. Por exemplo, se j ≥ n, o conjunto
{y, Ay, A2 y, . . . , Aj y} não pode ser formado por vetores não-nulos linearmente independentes pois
seu número excede a dimensão do espaço.
Seja k o maior número tal que {y, Ay, A2 y, . . . Ak−1 y} é um conjunto de vetores não-nulos e
linearmente independentes. É claro que 1 < k ≤ n.
É claro também, pela definição de k, que

Ak y = hk y + hk−1 Ay + · · · + h1 Ak−1 y, (3.10)

para constantes h1 , . . . , hk .
Vamos denominar z1 = Ak−1 y, z2 = Ak−2 y, . . . , zk = y, ou seja, zj = Ak−j y, j = 1, . . . , k, todos
não-nulos por hipótese. Caso k < n, escolhamos ainda vetores zk+1 , . . . , zn de modo que o conjunto
{z1 , . . . , zn } forme uma base em n .
Coloquemo-nos agora a seguinte questão: qual é a forma da matriz A nessa base? No sub-espaço
gerado pelos vetores {z1 , . . . , zk } tem-se o seguinte: para i = 2, . . . , k vale Azi = zi−1 . Além disso, por
3
Ferdinand Georg Frobenius (1849-1917)
4
James Joseph Sylvester (1814-1897).
5
Muitos certamente se surpreenderão em saber que Cayley e Sylvester eram originalmente advogados.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 3 156/1195

(3.10), Az1 = h1 z1 + h2 z2 + · · · + hk zk . Isso mostra que o subespaço gerado pelos vetores {z1 , . . . , zk }
é invariante pela ação de A e o operador linear A, no mesmo subespaço, tem a forma
 
h1 1 0 . . . 0 0
 .. 
 h2 0 1 . 0 0
 . .. . . . . . . .. 
 .. . . . . .
 . (3.11)
 . 
hk−2 0 0 . . 1 0
 
hk−1 0 0 . . . 0 1
hk 0 0 . . . 0 0

E. 3.10 Exercı́cio. Justifique isso. 6

Se designarmos por P o operador que realiza essa mudança de base, o operador linear A na base
{z1 , . . . , zn } tem, portanto, a forma A0 = P −1 AP , onde
 
0 A1 k, n−k
A = ,
A2 A3
onde A1 é a matriz k×k definida em (3.11), A2 é uma matriz (n−k)×k e A3 é uma matriz (n−k)×(n−k).
Não nos será necessário especificar os elementos das matrizes A2 e A3 .
Outros segundos (minutos?) de meditação, usando a Proposição 3.1 da página 143, nos levam a
concluir que o polinômio caracterı́stico q pode ser escrito como
q(x) = det(x − A0 ) = det(x − A1 ) det(x − A3 ) .
(O estudante deve recordar-se que as matrizes A e A0 , por serem similares, têm o mesmo polinômio
caracterı́stico).
Vamos denominar qk (x) = det(x − A1 ) e rk (x) = det(x − A3 ). Claramente, q(x) = qk (x)rk (x).
Não será necessário, no que segue, calcular rk , mas precisaremos calcular qk . Como esse pequeno
resultado tem interesse independente, vamos formulá-lo como um lema, para futura referência.
Lema 3.1 Para h1 , . . . , hk ∈ , tem-se
 
x − h1 −1 0 . . . 0 0
 . 
 −h2 x −1 . . 0 0
 . .. .. .. .. 
 .. . . . . 

qk (x) := det   = xk − (h1 xk−1 + · · · + hk−1 x + hk ) . (3.12)
. 
 −hk−2 0 0 . . −1 0 
 
 −hk−1 0 0 . . . x −1
−hk 0 0 ... 0 x
2

Prova. A prova é feita por indução. Para k = 2 vale


 
x − h1 −1
q2 (x) = det = x2 − h1 x − h2 .
−h2 x
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 3 157/1195

Para k > 2, tem-se, pelas bem conhecidas regras de cálculo de determinantes,


   
x − h1 −1 0 0 x − h1 −1 0 0
 ..   .. 
 −h2 x . 0 0  −h2 x 0. 0
   . 
qk (x) = x det  ... .. ..
. .  + 1 det  .. .. ..
. . 
   
 −hk−2 0 x −1  −hk−2 0 x −1
−hk−1 0 ... 0 x (k−1)×(k−1) −hk 0 ... 0 0 (k−1)×(k−1)
 
−1 0 ... 0 0
 . 
x −1 . . 0 0
 .. .. .. . 
= xqk−1 (x) + (−1) k−1+1
(−hk ) det 
 . . . .. 

 .. 
0 0 . −1 0 
0 0 . . . x −1 (k−2)×(k−2)

= xqk−1 (x) + (−1)k+1 hk (−1)k−2

= xqk−1 (x) − hk (3.13)

E. 3.11 Exercı́cio. Complete os detalhes. 6

Assim, se pela hipótese indutiva qk−1 é da forma

qk−1 (x) = xk−1 − (h1 xk−2 + · · · + hk−2 x + hk−1 ),

segue de (3.13) que

qk (x) = x(xk−1 − (h1 xk−2 + · · · + hk−2 x + hk−1 )) − hk

= xk − (h1 xk−1 + · · · + hk−2 x2 + hk−1 x + hk ) (3.14)

como querı́amos provar.

Retomando, temos que q(A)y = qk (A)rk (A)y = rk (A)qk (A)y. Sucede, porém, que qk (A)y = 0. De
fato, pelo cômputo acima,

qk (A)y = Ak y − h1 Ak−1 y − · · · − hk−2 A2 y − hk−1 Ay − hk y

que é igual a zero por (3.10). Logo q(A)y = 0. Como y foi escolhido arbitrário, segue que q(A) = ,
demonstrando o Teorema de Hamilton-Cayley, Teorema 3.2.

• O Teorema de Hamilton-Cayley e a Inversa de Matrizes


JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 3 158/1195

O Teorema de Hamilton-Cayley fornece-nos um método de calcular a inversa de matrizes não-


singulares. De fato, se q(x) = xn + an−1 xn−1 + · · · + a1 x + a0 é o polinômio caracterı́stico de uma matriz
não-singular A, então o Teorema de Hamilton-Cayley afirma que
An + an−1 An−1 + · · · + a1 A + a0 = ,
ou seja, 
A An−1 + an−1 An−2 + · · · + a2 A + a1 = −a0 .
Isso tem por implicação
1 
A−1 = − An−1 + an−1 An−2 + · · · + a2 A + a1 .
a0

Nota. Usando a definição de polinômio caracterı́stico q(x) = det(x − A), é evidente (tomando-se
x = 0) que a0 = (−1)n det(A). Assim, a0 =6 0 se e somente se A for não-singular.
Em muitos casos é bastante eficiente calcular A−1 usando essa fórmula, pois a mesma envolve poucas
operações algébricas em comparação com outros métodos, o que é uma vantagem para valores grandes
de n. Compare, por exemplo, com a regra de Laplace6 para o cálculo de A−1 , que envolve o cômputo
de n2 + 1 determinantes de sub-matrizes de A.

E. 3.12 Exercı́cio. Use esse método para calcular a inversa das suas matrizes não-singulares favoritas.
6

• De volta ao polinômio mı́nimo

O Teorema 3.1, página 154, e o Teorema de Hamilton-Cayley, juntos, permitem-nos precisar algo a
respeito da forma geral do polinômio mı́nimo de uma matriz.
Se A ∈ Mat ( , n) tem r autovalores distintos α1 , . . . , αr , cada qual com multiplicidade algébrica
a1 , . . . , ar , respectivamente, então seu polinômio caracterı́stico q é da forma
r
Y
q(x) = (x − αk )ak .
k=1

Pelo Teorema de Hamilton-Cayley, q(A) = 0 e, portanto, pelo Teorema 3.1, M , o polinômio mı́nimo
de A, divide q. Logo, M deve ser da forma
s
Y
M (x) = (x − αkl )bl , (3.15)
l=1

onde s ≤ r, {αk1 , . . . , αks } ⊂ {α1 , . . . , αr } e onde 0 < bl ≤ akl para todo 1 ≤ l ≤ s. Seja agora,
porém, vm 6= 0 um autovetor de A com autovalor αm Segue do fato que M (A) = 0 que
s
Y s
Y
0 = M (A)vm = (A − αkl )bl vm = (αm − αkl )bl vm .
l=1 l=1

6
Pierre-Simon Laplace (1749-1827).
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 3 159/1195

Q
Logo, sl=1 (αm − αkl )bl = 0 e isso implica que αm ∈ {αk1 , . . . , αks }. Como isso vale para todo
1 ≤ m ≤ r, segue que {α1 , . . . , αr } ⊂ {αk1 , . . . , αks } e, portanto, {α1 , . . . , αr } = {αk1 , . . . , αks }.
Nossa conclusão é resumida no seguinte:
Proposição 3.9 Seja A ∈ Mat ( , n) com r autovalores distintos α1 , . . . , αr ∈ , cada qual com
multiplicidade algébrica a1 , , . . . , ar , sendo 1 ≤ r ≤ n. Então M , o polinômio mı́nimo de A, é da
forma
Yr
M (x) = (x − αk )bk , (3.16)
k=1

∀x ∈ , onde 0 < bl ≤ al para todo 1 ≤ l ≤ r. Em particular, se A ∈ Mat ( , n) tiver exatamente n


autovalores distintos, teremos que bl = al = 1 para todo 1 ≤ l ≤ n, e
n
Y
M (x) = q(x) = (x − αk ),
k=1

∀x ∈ . 2

3.4 Matrizes Diagonalizáveis e o Teorema Espectral

• Matrizes Diagonalizáveis

Vamos agora apresentar uma noção intimamente ligada à de matriz simples introduzida acima
(página 149), mas de importância maior.

Definição. Uma matriz A ∈ Mat ( , n) é dita ser diagonalizável se existir uma matriz invertı́vel
P ∈ Mat ( , n) tal que P −1 AP é uma matriz diagonal, ou seja,
 
d1 · · · 0
 
P −1 AP = D = diag (d1 , . . . , dn ) =  ... . . . ...  .
0 · · · dn

É fácil de se ver que os elementos da diagonal de D são os autovalores de A. De fato, se A é


diagonalizável por P , vale para seu polinômio caracterı́stico

p(λ) = det(λ − A) = det(P −1 (λ − A)P ) = det(λ − P −1 AP ) = det(λ − D)


 
λ − d1 · · · 0
 ..  = (λ − d ) · · · (λ − d ),
= det  ... ..
. .  1 n
0 · · · λ − dn

o que mostra que os di são as raı́zes do polinômio caracterı́stico de A e, portanto, seus autovalores.

E. 3.13 Exercı́cio. Justifique todas as passagens acima. 6


JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 3 160/1195

• Diagonalização de Matrizes

O próximo teorema é fundamental no estudo de matrizes diagonalizáveis.


Teorema 3.3 Uma matriz A ∈ Mat ( , n) é diagonalizável se e somente se possuir um conjunto de
n autovetores linearmente independentes, ou seja, se e somente se o sub-espaço gerado pela coleção de
todos os autovetores de A possuir dimensão n. 2

Prova. Vamos primeiro provar que se A ∈ Mat ( , n) possui um conjunto de n autovetores linearmente
independentes então A é diagonalizável. Para tal vamos construir a matriz P que diagonaliza A.
Seja {v 1 , . . . , v n } um conjunto de n autovetores linearmente independentes de A, cujos autovalores
são {d1 , . . . , dn }, respectivamente. Vamos denotar as componentes de v i na base canônica por vji ,
j = 1, . . . , n. Seja a matriz P definida por P = [[v 1 , . . . , v n ]], ou seja,
 
v11 · · · v1n
 
P =  ... . . . ...  .
vn1 · · · vnn
Como se vê pela construção, a a-ésima coluna de P é formada pelas componentes do vetor v a . Por
(3.2), segue que
AP = [[Av 1 , . . . , Av n ]] = [[d1 v 1 , . . . , dn v n ]].
Por (3.4) vale, porém, que
  
v11 · · · v1n d1 · · · 0
  
[[d1 v 1 , . . . , dn v n ]] =  ... . . . ...   ... . . . ...  = P D.
vn1 · · · vnn 0 · · · dn

E. 3.14 Exercı́cio. Verifique. 6

Portanto, AP = P D. Como, por hipótese, as colunas de P são formadas por vetores linearmente
independentes, tem-se que det(P ) 6= 0 (por que?). Logo, P é invertı́vel e, portanto, P −1 AP = D, como
querı́amos demonstrar.
Vamos provar agora a afirmação recı́proca que se A é diagonalizável, então possui n autovetores
linearmente independentes. Suponha que exista P tal que
 
d1 · · · 0
 
P −1 AP = D =  ... . . . ...  .
0 · · · dn

É evidente que os vetores da base canônica


     
1 0 0
0  1  0 
     
     
e 1 = 0  , e 2 = 0  , ..., en =  ... 
 ..   ..   
. . 0 
0 0 1
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 3 161/1195

são autovetores de D com Dea = da ea . Logo, v a = P ea são autovetores de A, pois

Av a = AP ea = P Dea = P (da ea ) = da P ea = da v a .

Provar que os vetores v a são linearmente independentes é fácil. Suponha que existam números com-
plexos α1 , . . . , αn tais que
α1 v 1 + · · · + αn v n = 0.
Multiplicando-se à esquerda por P −1 terı́amos

α1 e1 + · · · + αn en = 0.

Como os ea são obviamente linearmente independentes, segue que α1 = · · · = αn = 0, provando que os


v a são linearmente independentes.

• Matrizes Diagonalizáveis e Matrizes Simples

Vamos agora discutir a relação entre os conceitos de matriz diagonalizável e o de matriz simples,
conceito esse introduzido à página 149. Tem-se a saber o seguinte fato:
Proposição 3.10 Uma matriz A ∈ Mat ( , n) é diagonalizável se e somente se for simples, ou
seja, se e somente se a multiplicidade algébrica de cada um dos seus autovalores coincidir com sua
multiplicidade geométrica. 2

Prova. Se A é diagonalizável existe P tal que P −1 AP = D, diagonal. Como toda matriz diagonal, D
é simples. Escrevamos D na forma
 

D = diag α1 , . . . , α1 , . . . , αr , . . . , αr ,  .
| {z } | {z }
a1 vezes ar vezes

Um conjunto de n-autovetores de D linearmente independentes é fornecido pelos vetores da base


canônica:      
1 0 0
0  1  0 
     
     .. 
e 1 = 0  , e 2 = 0  , . . . , e n = . .
 ..   ..   
. . 0 
0 0 1
Os vetores e1 , . . . , ea1 geram o subespaço de autovetores com autovalor α1 de D etc.
Para a matriz A, os vetores P e1 , . . . , P ea1 geram o subespaço de autovetores com autovalor α1 etc.
É claro que a dimensão desse subespaço é a1 , pois P e1 , . . . , P ea1 são linearmente independentes, já
que os vetores da base canônica e1 , . . . , ea1 o são. Como isso também vale para os demais autovalores
concluı́mos que A é simples.
Resta-nos agora mostrar que se A ∈ Mat ( , n) é simples então A é diagonalizável. Como antes,
sejam α1 , . . . , αr , 1 ≤ r ≤ n, seus autovalores distintos, cada qual com multiplicidade algébrica
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 3 162/1195

a1 , . . . , ar , respectivamente, e seja E(αi ) o subespaço gerado pelos autovetores com autovalor αi .


Como A é simples, tem-se que a dimensão de E(αi ) é ai . Já observamos (página 147) que sub-espaços
E(αi ) associados a autovalores distintos têm em comum apenas o vetor nulo.Pr Assim, se em cada E(α i )
escolhermos ai vetores independentes, teremos ao todo um conjunto de i=1 ai = n autovetores (vide
(3.5)) linearmente independentes de A. Pelo Teorema 3.3, A é diagonalizável, completando a prova.

• Projetores

Uma matriz E ∈ Mat ( , n) é dita ser um projetor se satisfizer

E 2 = E.

Discutiremos várias propriedades importantes de projetores adiante, especialmente de uma classe


especial de projetores denominados projetores ortogonais. Por ora, vamos mostrar duas propriedades
que usaremos logo abaixo quando discutirmos o teorema espectral.
A primeira propriedade é a afirmação que se λ é um autovalor de um projetor E então ou λ é igual
a zero ou a um. De fato se v é um autovetor associado a um autovalor λ de E, tem-se que Ev = λv e
E 2 v = λ2 v. Como E 2 = E, segue que λ2 v = λv. Logo λ(λ − 1) = 0 e, portanto, λ = 0 ou λ = 1.
A segunda propriedade é uma conseqüência da primeira: o traço de um projetor E ∈ Mat ( , n) é
um número inteiro positivo ou nulo, mas menor ou igual a n. De fato, pela definição, o traço de um
projetor E é a soma de seus autovalores. Como os mesmos valem zero ou um a soma é um inteiro
positivo ou nulo. Como há no máximo n autovalores a soma não pode exceder n. Na verdade, o único
projetor cujo traço vale exatamente n é a identidade e o único projetor cujo traço vale exatamente 0
é a matriz nula (por que?).
Essas observações têm a seguinte conseqüência que usaremos adiante. Se E 1 , . . . , Er são r projetores
não-nulos com a propriedade que
Xr
= Ea
a=1

então r ≤ n. Para ver isso, basta tomar o traço de ambos os lados dessa expressão:
r
X
Tr ( ) = Tr (Ea ). (3.17)
a=1

O lado esquerdo vale n enquanto que o lado direito é uma soma de r inteiros positivos. Obviamente
isso só é possı́vel se r ≤ n.

• O Teorema Espectral

O chamado Teorema Espectral é um dos mais importantes teoremas de toda a Álgebra Linear e, em
verdade, de toda Análise Funcional, já que o mesmo possui generalizações para operadores limitados
e não-limitados (auto-adjuntos) agindo em espaços de Hilbert. Dessas generalizações trataremos na
Seção 23.6.1, página 1112, para o caso dos chamados operadores compactos e na Seção 23.7, página
1120, para o caso geral de operadores limitados auto-adjuntos. Nessa versão mais geral o teorema
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 3 163/1195

espectral é de importância fundamental para a interpretação da Fı́sica Quântica. Vide discussão da


Seção 23.7.5, página 1141.
Teorema 3.4 (O Teorema Espectral para Matrizes) Uma matriz A ∈ Mat ( , n) é diagona-
lizável se e somente se existirem r ∈ , escalares α1 , . . . , αr e projetores E1 , . . . , Er ∈ Mat ( , n)


tais que
X r
A = αa E a , (3.18)
a=1
r
X
= Ea (3.19)
a=1
e
Ei Ej = δi, j Ej .

Os escalares α1 , . . . , αr vêm a ser os autovalores de A. 2

Adiante demonstraremos uma versão um pouco mais detalhada desse importante teorema (Teorema
3.5, abaixo).
Os projetores Ea que surgem em (3.18) são denominados projetores espectrais de A. A decomposição
(3.18) é freqüentemente denominada decomposição espectral de A.
Prova do Teorema 3.4. Se A ∈ Mat ( , n) é diagonalizável existe P ∈ Mat ( , n) tal que P −1 AP =
D = diag (λ1 , . . . , λn ), onde λ1 , . . . , λn são os autovalores de A. Como pode haver autovalores
repetidos, vamos denotar por {α1 , . . . , αr }, 1 ≤ r ≤ n, o conjunto de autovalores distintos de A.
É bem claro que podemos escrever
r
X
D = α a Ka
a=1

onde as matrizes Ka são todas matrizes diagonais, cujos elementos diagonais são ou 0 ou 1 e tais que
r
X
Ka = . (3.20)
a=1

As matrizes Ka são simplesmente definidas de modo a terem elementos de matriz iguais a 1 nas posições
da diagonal ocupadas pelo autovalor αa em D e zero nos demais. Formalmente,

 1, se i = j e (D)ii = αa
(Ka )ij = 0, se i = j e (D)ii 6= αa .

0, se i 6= j

Por exemplo, se  
2 0 0 0
0 3 0 0
D = 
0

0 2 0
0 0 0 4
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 3 164/1195

teremos      
1 0 0 0 0 0 0 0 0 0 0 0
0 0 0 0 0 1 0 0 0 0 0 0
D = 2
0
+3 +4 .
0 1 0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0 0 0 1
É fácil constatar que as matrizes Ka têm a seguinte propriedade:

Ka Kb = δa, b Ka . (3.21)

De fato, é evidente que (Ka )2 = Ka para todo a, pois Ka é diagonal com zeros ou uns na diagonal.
Analogamente, se a 6= b Ka Kb = 0, pois os zeros ou uns aparecem em lugares distintos das diagonais
das duas matrizes.
Como A = P DP −1 , tem-se que
r
X
A = αa E a ,
a=1

onde Ea := P Ka P −1 . É fácil agora provar que


r
X
= Ea
a=1

e que
Ei Ej = δi, j Ej .
De fato, por (3.20),
r r r
!
X X X
Ea = P Ka P −1 = P Ka P −1 = P P −1 = .
a=1 a=1 a=1

Analogamente, tem-se por (3.21),

Ea Eb = P Ka P −1 P Kb P −1 = P Ka Kb P −1 = δa, b P Ka P −1 = δa, b Ea .

Vamos agora provar a recı́proca. Vamos supor que A possua a representação (3.18), onde os E a ’s
satisfazem as propriedades enunciadas.
Notemos primeiramente que para todo vetor x, os vetores Ek x ou são nulos ou são autovetores de
A. De fato, por (3.18)
Xr
AEk x = αj Ej Ek x = αk Ek x.
j=1

Logo ou Ek x = 0 ou Ek x é autovetor de A.
Como há no máximo n autovetores, o espaço por eles gerado tem dimensão menor ou igual a n.
Por (3.19), porém, vale para todo vetor x que
r
X
x = x = Ek x .
k=1
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 3 165/1195

Para x não-nulo, alguns dos Ek x, acima, devem ser não-nulos e, portanto, autovetores de A. Assim,
todo vetor x pode ser escrito como uma combinação linear de autovetores de A, o que significa que
o espaço gerado por esses autovetores tem dimensão exatamente igual a n. Pelo teorema 3.3, A é
diagonalizável. Isso completa a demonstração.

O Teorema Espectral, Teorema 3.4, pode ser formulado de um modo mais detalhado (Teorema
3.5). A principal utilidade dessa outra formulação é a de fornecer mais informações sobre os projetores
espectrais Ea (vide expressão (3.24), abaixo). Obtem-se também nessa nova formulação mais condições
necessárias e suficientes à diagonalizabilidade e que podem ser úteis, como veremos, por exemplo, no
Teorema 3.12 provado adiante (página 170).
Teorema 3.5 (Teorema Espectral para Matrizes. Versão Detalhada) Seja A ∈ Mat ( , n).
São equivalentes as seguintes afirmações:

1. A possui n autovetores linearmente independentes, ou seja, o sub-espaço gerado pelos autovetores


de A tem dimensão n.
2. A é diagonalizável, ou seja, existe uma matriz P ∈ Mat ( , n) invertı́vel tal que P −1 AP é uma
matriz diagonal diag (d1 , . . . , dn ), onde os di ’s são autovalores de A.
n
3. Para todo vetor x ∈ e todo escalar λ ∈ tais que (A − λ )2 x = 0, vale que (A − λ )x = 0.
4. Se x é um vetor não-nulo tal que (A − λ )x = 0 para algum λ ∈ então não existe nenhum
vetor y com a propriedade que (A − λ )y = x.
5. Todas as raı́zes do polinômio mı́nimo de A têm multiplicidade 1.
6. Existem r ∈ , escalares α1 , . . . , αr e projetores E1 , . . . , Er ∈ Mat ( , n), denominados


projetores espectrais de A, tais que


Xr
A = αa E a .
a=1
Além disso, as matrizes Ea satisfazem
r
X
= Ea (3.22)
a=1

e
Ei Ej = δi, j Ej . (3.23)

Os projetores espectrais Ek do item 6, acima, podem ser expressos em termos de polinômios da matriz
A:
1
Ek = mk (A) , (3.24)
mk (αk )
para todo k, 1 ≤ k ≤ r, onde os polinômios mk são definidos por
M (x) = (x − αk )mk (x) ,
M sendo o polinômio mı́nimo de A. 2
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 3 166/1195

Demonstração. A prova da equivalência será feita demonstrando-se sucessivamente as seguintes im-


plicações: 1 → 2, 2 → 3, 3 → 4, 4 → 5, 5 → 6, 6 → 1. Que 1 implica 2 já foi demonstrado no Teorema
3.3, página 160.

2 → 3. Seja D = P −1 AP diagonal. D = diag (d1 , . . . , dn ). Seja (A − λ )2 x = 0. Segue que

P −1 (A − λ )2 P y = 0

onde y = P −1 x. Logo,
(D − λ )2 y = 0,
ou seja,

(d1 − λ)2 y1 = 0

..
.

(dn − λ)2 yn = 0,

onde yj são as componentes de y:  


y1
 .. 
y =  . .
yn
Agora, é evidente que se (da − λ)2 ya = 0 então (da − λ)ya = 0. Logo

(D − λ )y = 0.

Usando-se y = P −1 x e multiplicando-se à direita por P , concluı́mos que

0 = P (D − λ )P −1 x = (P DP −1 − λ )x = (A − λ )x,

que é o que querı́amos provar.

3 → 4. A prova é feita por contradição. Vamos supor que para algum vetor x 6= 0 exista λ ∈ tal que
(A − λ )x = 0. Suponhamos também que exista vetor y tal que (A − λ )y = x. Terı́amos

(A − λ )2 y = (A − λ )x = 0.

Pelo item 3 isso implica (A − λ )y = 0. Mas isso diz que x = 0, uma contradição.

4 → 5. Seja M o polinômio mı́nimo de A, ou seja, o polinômio mônico7 de menor grau tal que M (A) = 0.
Vamos mostrar que todas as raı́zes de M têm multiplicidade 1. Vamos, por contradição, supor
que haja uma raiz, λ0 , com multiplicidade maior ou igual a 2. Terı́amos, para x ∈ ,

M (x) = p(x)(x − λ0 )2 .
7
A definição de polinômio mônico está à página 153.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 3 167/1195

Assim, M (A) = p(A)(A − λ0 )2 = 0. Como M é, por definição, o polinômio de menor grau que
zera em A, segue que
p(A)(A − λ0 ) 6= 0.
Assim, existe pelo menos um vetor z tal que p(A)(A − λ0 )z 6= 0. Vamos definir um vetor x por
x := p(A)(A − λ0 )z. Então

(A − λ0 )x = (A − λ0 )p(A)(A − λ0 )z = p(A)(A − λ0 )2 z = M (A)z = 0,

pois M (A) = 0. Agora, pela definição,

x = (A − λ0 )y

onde y = p(A)z. Pelo item 4, porém, isso é impossı́vel.

5 → 6. Pela hipótese que as raı́zes de M são simples segue da expressão (3.16) da Proposição 3.9, página
159, que para x ∈ ,
Yr
M (x) = (x − αj ) ,
j=1

onde αj são as raı́zes de M e que coincidem com os r autovalores distintos de A. Para k = 1, . . . , r


defina-se os polinômios mk por

M (x) =: (x − αk )mk (x),

ou seja,
r
Y
mk (x) := (x − αj ).
j=1
j6=k

É claro que mk (αj ) = 0 ⇐⇒ j 6= k (por que?).


Vamos agora definir mais um polinômio, g, da seguinte forma:
r
X 1
g(x) = 1 − mk (x).
mk (αk )
k=1

Como os polinômios mk têm grau r − 1, o polinômio g tem grau menor ou igual a r − 1. Porém,
observe-se que, para todos os αj , j = 1, . . . , r, vale
r
X 1 mj (αj )
g(αj ) = 1 − mk (αj ) = 1 − = 0
k=1
mk (αk ) mj (αj )

Assim, g tem pelo menos r raı́zes distintas! O único polinômio de grau menor ou igual a r − 1
que tem r raı́zes distintas é o polinômio nulo. Logo, concluı́mos que
r
X 1
g(x) = 1 − mk (x) ≡ 0
k=1
mk (αk )
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 3 168/1195

para todo x ∈ . Isso significa que todos os coeficientes de g são nulos. Assim, para qualquer
matriz B tem-se g(B) = 0. Para a matriz A isso diz que
r
X 1
= mk (A).
k=1
mk (αk )
Definindo-se
1
Ek := mk (A), (3.25)
mk (αk )
concluı́mos que
r
X
= Ek . (3.26)
k=1

Para todo k vale 0 = M (A) = (A − αk )mk (A), ou seja, Amk (A) = αk mk (A). Pela definição de
Ek isso significa
AEk = αk Ek .
Assim, multiplicando-se ambos os lados de (3.26) por A, segue que
r
X
A = αk E k .
k=1

Para completar a demonstração de 6, resta-nos provar que Ei Ej = δi, j Ej .


Para i 6= j tem-se pela definição dos Ek ’s que
1
Ei Ej = mi (A)mj (A)
mi (αi )mj (αj )
  
r r
1 Y  Y 
=  (A − αk )  (A − αl )
mi (αi )mj (αj ) k=1 l=1
k6=i l6=j

 
r
" r #
1  Y  Y
=  (A − αk ) (A − αl )
mi (αi )mj (αj ) k=1 l=1
k6=i, k6=j

 
r
Y
1  
=  (A − αk ) M (A)
mi (αi )mj (αj ) k=1
k6=i, k6=j

= 0,
pois M (A) = 0. Resta-nos provar que Ej2 = Ej para todo j. Multiplicando-se ambos os lados de
(3.26) por Ej teremos
Xr
Ej = Ej Ek = E j Ej ,
k=1
já que Ej Ek = 0 quando j 6= k. Isso completa a demonstração do item 6.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 3 169/1195

6 → 1. Notemos primeiramente que para todo vetor x, os vetores Ek x ou são nulos ou são autovetores
de A. De fato, por 6,
Xr
AEk x = αj Ej Ek x = αk Ek x.
j=1

Logo, ou Ek x = 0 ou Ek x é autovetor de A. O espaço gerado pelos autovetores de A obviamente


tem dimensão menor ou igual a n. Por (3.26), porém, vale para todo vetor x que
r
X
x = x = Ek x.
k=1

Assim, todo vetor x pode ser escrito como uma combinação linear de autovetores de A, o que
significa que o espaço gerado pelos autovetores tem dimensão exatamente igual a n.

Isso completa a demonstração do Teorema 3.5.

Destacamos ao leitor o fato de que a expressão (3.24) permite representar os projetores espectrais
diretamente em termos da matriz diagonalizável A.

• Diagonalizabilidade de Projetores

A proposição abaixo é uma aplicação simples do Teorema 3.5 a projetores. A mesma será usada
abaixo quando falarmos de diagonalização simultânea de matrizes.
Proposição 3.11 Seja E ∈ Mat ( , n) um projetor, ou seja, tal que E 2 = E. Então E é diagona-
lizável. 2

Prova. Seja E ∈ Mat ( , n) um projetor. Definamos E1 = E e E2 = − E. Então E2 é também um


projetor, pois

(E2 )2 = ( − E)2 = − 2E + E 2 = − 2E + E = − E = E2 .

Tem-se também que E1 E2 = 0, pois

E1 E2 = E( − E) = E − E 2 = E − E = 0.

Fora isso, é óbvio que = E1 + E2 e que E = α1 E1 + α2 E2 , com α1 = 1 e α2 = 0. Ora, isso tudo


diz que E satisfaz precisamente todas as condições do item 6 do Teorema 3.5. Portanto, pelo mesmo
teorema, E é diagonalizável.

• O Cálculo Funcional para Matrizes Diagonalizáveis

O Teorema Espectral tem o seguinte corolário, muitas vezes conhecido como cálculo funcional.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 3 170/1195

Teorema 3.6 (Cálculo Funcional) Seja A ∈ Mat ( , n) uma matriz diagonalizável e seja
r
X
A = αa E a .
a=1

sua decomposição espectral, de acordo com o Teorema Espectral, o Teorema 3.4. Então para qualquer
polinômio p vale
X r
p(A) = p(αa )Ea . (3.27)
a=1
2

Prova. Tem-se, pelas propriedades dos Ea ’s,


r
X r
X r
X
2
A = αa αb E a E b = αa αb δa, b Ea = (αa )2 Ea .
a, b=1 a, b=1 a=1

Analogamente, mostra-se que


r
X
m
A = (αa )m Ea ,
a=1

para qualquer m ∈  . O resto da prova é trivial.

E. 3.15 Exercı́cio. Usando (3.27) demonstre novamente o teorema de Hamilton-Cayley, agora apenas
para matrizes diagonalizáveis. 6

• Uma Condição Suficiente para Diagonalizabilidade

Até agora estudamos condições necessárias e suficientes para que uma matriz seja diagonalizável.
Vimos que uma matriz A ∈ Mat ( , n) é diagonalizável se e somente se for simples ou se e somente
se tiver n autovetores linearmente independentes ou se e somente se puder ser representada na forma
espectral, como em (3.18). Nem sempre, porém, é imediato verificar essas hipóteses, de modo que é
útil saber de condições mais facilmente verificáveis e que sejam pelo menos suficientes para garantir
diagonalizabilidade. Veremos abaixo que é, por exemplo, suficiente que uma matriz seja auto-adjunta
ou normal para garantir que ela seja diagonalizável.
Uma outra condição útil é aquela contida na seguinte proposição.
Proposição 3.12 Se A ∈ Mat ( , n) tem n autovalores distintos então A é diagonalizável. 2

Prova. Isso é imediato pelas Proposições 3.5 e 3.10, das páginas 149 e 161, respectivamente.

Observação. A condição mencionada na última proposição é apenas suficiente, pois há obviamente
matrizes diagonalizáveis que não têm autovalores todos distintos.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 3 171/1195

Outra forma de provar a Proposição 3.12 é a seguinte. Seja {λ1 , . . . , λn } o conjunto dos n
autovalores de A, todos distintos. O polinômio caracterı́stico de A é q(x) = (x − λ 1 ) · · · (x − λn ). Como
as raı́zes de q têm, nesse caso, multiplicidade 1, segue pela Proposição 3.9, página 159, que o polinômio
mı́nimo de A, M , coincide com o polinômio caracterı́stico de A: q(x) = M (x), ∀x ∈ . Logo, o
polinômio mı́nimo M de A tem também raı́zes com multiplicidade 1. Assim, pelo item 5 do Teorema
3.5, página 165, A é diagonalizável.

E. 3.16 Exercı́cio. Demonstre a seguinte afirmação: se os autovalores de uma matriz A são todos iguais
então A é diagonalizável se e somente se for um múltiplo de . Sugestão: use o Teorema Espectral ou a
forma geral do polinômio mı́nimo (3.16). 6

Segue da afirmativa desse exercı́cio que matrizes triangulares superiores com diagonal principal
constante, ou seja, da forma
 
α A12 . . . A1(n−1) A1n
 0 α . . . A2(n−1) A2n 
 
 .. . . .
. 
A = . . .  ,
 
0 0 . . . α A(n−1)n 
0 0 ... 0 α

só são diagonalizáveis se todos os elementos acima da diagonal principal forem nulos, ou seja, se A ij = 0,
∀j > i. Naturalmente, a mesma afirmativa é válida para matrizes da forma AT , triangulares inferiores
com diagonal principal constante.

3.4.1 Diagonalização Simultânea de Matrizes


Uma matriz A ∈ Mat ( , n) é dita ser diagonalizada por uma matriz P ∈ Mat ( , n) se P −1 AP for
uma matriz diagonal.
Uma questão muito importante é saber quando duas matrizes diagonalizáveis podem ser diagona-
lizadas por uma mesma matriz P . A resposta é fornecida no próximo teorema.
Teorema 3.7 (Diagonalização Simultânea de Matrizes) Duas matrizes diagonalizáveis A e B ∈
Mat ( , n) podem ser diagonalizadas pela mesma matriz P ∈ Mat ( , n) se e somente se AB = BA,
ou seja, se e somente se comutarem entre si. 2

Prova. A parte fácil da demonstração é provar que se A e B podem ser diagonalizadas pela mesma
matriz P então A e B comutam entre si. De fato

P −1 (AB − BA)P = (P −1 AP )(P −1 BP ) − (P −1 BP )(P −1 AP ) = 0,

pois P −1 AP e P −1 BP são ambas diagonais e matrizes diagonais sempre comutam entre si (por que?).
Assim, P −1 (AB − BA)P = 0 e, portanto, AB = BA.
Vamos agora passar a mostrar que se AB = BA então ambas são diagonalizáveis por uma mesma
matriz P .
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 3 172/1195

Sejam α1 , . . . , αr os r autovalores distintos de A e β1 , . . . , βs os s autovalores distintos de B.


Evocando o teorema espectral, A e B podem ser escritos de acordo com suas decomposições espec-
trais como r
X
A = αi EiA
i=1
e s
X
B = βj EjB ,
j=1

onde, de acordo com (3.24),


 −1  

Yr 
 r
Y 
EiA = (αi − αk )  (A − αk ) , i = 1, . . . , r (3.28)

 k=1 
 k=1
k6=i k6=i

e  −1  

Ys 
 s
Y 
EjB = (βj − βk )  (B − βk ) , j = 1, . . . , s. (3.29)

 k=1 
 k=1
k6=j k6=j

Como A e B comutam entre si e como EiA e EjB , dados em (3.28)-(3.29), são polinômios em A e B,
respectivamente, segue que EiA e EjB também comutam entre si para todo i e todo j.
Com isso, vamos definir
Qi, j = EiA EjB = EjB EiA
para i = 1, . . . , r e j = 1, . . . , s.
Note-se que os Qi, j ’s são projetores pois
Q2i, j = (EiA EjB )(EiA EjB ) = (EiA )2 (EjB )2 = EiA EjB = Qi, j .
Fora isso, é fácil ver que,
Qi, j Qk, l = δi, k δj, l Qi, j . (3.30)

E. 3.17 Exercı́cio. Mostre isso. 6

Note-se também que


r X
X s
= Qi, j , (3.31)
i=1 j=1

pois ! !
r X
X s r X
X s r
X s
X
Qi, j = EiA EjB = EiA EjB = = .
i=1 j=1 i=1 j=1 i=1 j=1

Afirmamos que podemos escrever


r X
X s
A = γi,A j Qi, j (3.32)
i=1 j=1
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 3 173/1195

e s
r X
X
B = γi,B j Qi, j , (3.33)
i=1 j=1

onde γi,A j = αi e γi,B j = βj . De fato, com essas definições,


r X
s r X
s r
! s
!
X X X X
γi,A j Qi, j = αi EiA EjB = αi EiA EjB = A = A.
i=1 j=1 i=1 j=1 i=1 j=1

Para B a demonstração é análoga.


Nas relações (3.32) e (3.33) é possı́vel fazer simplificações em função do fato de que nem todos os
projetores Qi, j são não-nulos. Seja Q1 . . . , Qt a lista dos projetores Qi, j não-nulos, ou seja,

{Q1 . . . , Qt } = {Qi, j | Qi, j 6= 0, i = 1, . . . , r e j = 1, . . . , s}.

É evidente por (3.30) que os Qk ’s são projetores e que

Qk Ql = δk, l Qk .

Por (3.31), tem-se


t
X
= Qk (3.34)
k=1

e por (3.32) e (3.33)


t
X
A = χA
k Qk (3.35)
k=1
t
X
B = χB
k Qk (3.36)
k=1

onde as constantes χA
k e χB
k estão relacionadas de modo óbvio com γi,A j e γi,B j , respectivamente.
Em (3.35) e (3.36) vemos que A e B, por serem diagonalizáveis e por comutarem entre si, têm
decomposições espectrais com os mesmos projetores espectrais. Note-se também que, pela observação
feita no tópico Projetores, à página 162 (vide equação (3.17)), tem-se 1 ≤ t ≤ n.
Vamos agora completar a demonstração que A e B podem ser diagonalizados por uma mesma matriz
invertı́vel P .
Seja Ek o subespaço dos autovetores de Qk com autovalor 1. Sub-espaços Ek ’s diferentes têm em
comum apenas o vetor nulo. De fato, se k 6= l e w é um vetor tal que Qk w = w e Ql w = w então, como
Qk Ql = 0 segue que
0 = (Qk Ql )w = Qk (Ql w) = Qk w = w.

Seja dk a dimensão do subespaço Ek e seja

u1k , . . . , udkk
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 3 174/1195

um conjunto de dk vetores linearmente independentes em Ek . Notemos que dk coincide com a multiplici-


dade algébrica do autovalor 1 de Qk , pois, conforme diz a Proposição 3.11, o projetor Qk é diagonalizável
e, portanto, é uma matriz simples (Proposição 3.10).
P P
Como = tk=1 Qk , tem-se, tomando-se o traço, que n = tk=1 dk .
Pelas definições, temos que
Ql uak = δk, l uak , (3.37)
pois Qk uak = uak e, portanto, Ql uak = Ql (Qk uak ) = (Ql Qk )uak = 0 para k 6= l.
Afirmamos que o conjunto de vetores

u11 , . . . , ud11 , u12 , . . . , ud22 , . . . u1t , . . . , udt t (3.38)

é um conjunto de n vetores linearmente independentes. De fato, suponha que existam constantes c k, j


tais que
X t Xdk
ck, j ujk = 0.
k=i j=1

Aplicando-se à direita Ql terı́amos


dl
X
cl, j ujl = 0,
j=1

o que só é possı́vel se cl, j = 0 para todo j pois u1l , . . . , udl l , foram escolhidos linearmente independentes.
Como l é arbitrário, concluı́mos que cl, j = 0 para todo l e todo j, o que mostra que o conjunto de
vetores em (3.38) é linearmente independente.
Seja então a matriz P ∈ Mat ( , n) definida por

P = [[u11 , . . . , ud11 , u12 , . . . , ud22 , . . . u1t , . . . , udt t ]].

P é invertı́vel pois o conjunto (3.38) é linearmente independente (e, portanto, det(P ) 6= 0).
Tem-se,
AP = [[Au11 , . . . , Aud11 , Au12 , . . . , Aud22 , . . . , Au1t , . . . , Audt t ]]
Pt
Escrevendo A = l=1 χA
l Ql (3.35) e usando (3.37), temos

t
X
Auak = χA a A a
l Q l uk = χ k uk .
l=1

Assim,
A d1 A d1
AP = [[χA 1 A 1 A 1 A dt
1 u1 , . . . , χ1 u1 , χ2 u1 , . . . , χ2 u1 , . . . , χt ut , . . . , χt ut ]] = P DA ,

onde  

DA = diag χA , . . . , χA A A A A
1 , χ2 , . . . , χ2 , . . . , χt , . . . , χt .
| 1 {z } | {z } | {z }
d1 vezes d2 vezes dt vezes

Portanto,
P −1 AP = DA .
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 3 175/1195

Analogamente,
BP = [[Bu11 , . . . , Bud11 , Bu12 , . . . , Bud22 , . . . Bu1t , . . . , Budt t ]].
Pt
Escrevendo B = l=1 χB
l Ql (3.36) temos,

B d1 B d2
BP = [[χB 1 B 1 B 1 B dt
1 u1 , . . . , χ1 u1 , χ2 u2 , . . . , χ2 u2 , . . . , χt ut , . . . , χt ut ]] = P DB ,

onde  

DB = diag χB , . . . , χB B B B B
1 , χ2 , . . . , χ2 , . . . , χt , . . . , χt .
| 1 {z } | {z } | {z }
d1 vezes d2 vezes dt vezes

Portanto,
P −1 BP = DB .

Isso provou que A e B são diagonalizáveis pela mesma matriz invertı́vel P . A demonstração do
Teorema 3.7 está completa.

3.5 Matrizes Auto-adjuntas, Normais e Unitárias

• A Adjunta de uma Matriz

Seja V um espaço vetorial dotado de um produto escalar h·, ·i e seja A : V → V um operador


linear. Um operador linear A∗ que para todos u, v ∈ V satisfaça

hu, Avi = hA∗ u, vi

é dito ser o operador adjunto de A. Em espaços vetoriais gerais não é óbvio (e nem sempre verdadeiro!)
que sempre exista o adjunto de um operador linear A dado. Há muitos casos, porém, nos quais isso
pode ser garantido8 . Aqui trataremos do caso dos espaços V = n com o produto escalar usual.
n
Sejam u = (u1 , . . . , un ) e v = (v1 , . . . , vn ) dois vetores de para os quais define-se o produto
escalar usual n
X
hu, vi = uk v k .
k=1

Um operador linear A é representado (na base canônica) por uma matriz cujos elementos de matriz
são Aij , com i, j ∈ {1, . . . , n}.
É um exercı́cio simples (faça!) verificar que o operador adjunto A∗ de A é representado (na base
canônica) por uma matriz cujos elementos de matriz são (A∗ )ij = Aji , com i, j ∈ {1, . . . , n}. Ou
seja, a matriz adjunta de A é obtida (na base canônica!) transpondo-se A e tomando-se o complexo
conjugado de seus elementos.
Os seguintes fatos são importantes:
8
Tal é o caso dos chamados operadores lineares limitados agindo em espaços de Hilbert, para os quais sempre é possı́vel
garantir a existência do adjunto.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 3 176/1195

n
Proposição 3.13 Se A e B são dois operadores lineares agindo em então
(αA + βB)∗ = αA∗ + βB ∗
para todos α, β ∈ . Fora isso,
(AB)∗ = B ∗ A∗ .
Por fim, vale para todo A que (A∗ )∗ = A. 2

Deixamos a demonstração como exercı́cio para o leitor.


A operação Mat ( , n) 3 A 7→ A∗ ∈ Mat ( , n) é demoninada operação de adjunção de matrizes.
Como vimos na Proposição 3.13, a operação de adjunção é anti-linear e é um anti-homomorfismo
algébrico.

• Os espectro e a operação de adjunção

Seja A ∈ Mat ( , n). Como já vimos, o espectro de A, σ(A), é o conjunto de raı́zes de seu
polinômio caracterı́stico, definido por pA (z) = det(z − A), z ∈ . Como para toda B ∈ Mat ( , n)
vale det(B ∗ ) = det(B) (por quê?), segue que pA (z) = det(z − A) = det(z − A∗ ) = pA∗ (z), ou seja,
pA∗ (z) = pA (z). Com isso, provamos a seguinte afirmação:
Proposição 3.14 Seja A ∈ Mat ( , n). Então, λ ∈ σ(A) se e somente se λ ∈ σ(A∗ ), ou seja, λ é um
autovalor de A se e somente se λ é um um autovalor de A∗ .

Em sı́mbolos, as afirmações acima são expressas pela igualdade σ(A) = σ(A∗ ).

• Matrizes Hermitianas, Normais e Unitárias

Vamos agora a algumas definições muito importantes.

Definição. Um operador linear em n é dito ser simétrico, Hermitiano ou auto-adjunto se A = A∗ , ou


seja, se para todos u, v ∈ V satisfizer
hu, Avi = hAu, vi.

Advertência. Em espaços vetoriais de dimensão finita as noções de operador simétrico, Hermitiano


ou auto-adjunto são sinônimas. Em espaços vetoriais de dimensão infinita, porém, há uma distinção
entre essas noções relativa a problemas com o domı́nio de definição de operadores.

Definição. Um operador linear em n


é dito ser normal se AA∗ = A∗ A. Ou seja, A é normal se comuta
com seu adjunto.

Definição. Um operador linear em n é dito ser unitário se A∗ A = AA∗ = . É claro que todo
operador unitário é normal e que um operador é unitário em n se e somente se A∗ = A−1 . Note que
se A é unitário então, para todos u, v ∈ V , tem-se
hAu, Avi = hu, vi.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 3 177/1195

n
Definição. Se A é um operador linear em define-se a parte real de A por
1
Re (A) = (A + A∗ )
2
e a parte imaginária de A por
1
Im (A) = (A − A∗ ).
2i
É claro que essas definições foram inspiradas nas relações análogas para números complexos. Note
também que
A = Re (A) + iIm (A).

E. 3.18 Exercı́cio. Por quê? 6

É importante notar que para qualquer operador linear A em n sua parte real e imaginária são
ambas operadores Hermitianos: (Re (A))∗ = Re (A) e (Im (A))∗ = Im (A).

E. 3.19 Exercı́cio. Mostre isso. 6

Para operadores normais tem-se a seguinte proposição, que será útil adiante e serve como caracte-
rização alternativa do conceito de operador normal.
n
Proposição 3.15 Um operador linear agindo em é normal se e somente se sua parte real comuta
com sua parte imaginária. 2

Deixamos a demonstração (elementar) como exercı́cio para o leitor.


A importância das definições acima reside no seguinte fato, que demonstraremos adiante: matrizes
Hermitianas e matrizes normais são diagonalizáveis. Antes de tratarmos disso, vamos discutir algumas
propriedades do espectro de matrizes Hermitianas e de matrizes unitárias.

• Os Autovalores de Matrizes Hermitianas e de Matrizes Unitárias

Os seguintes teoremas têm importância fundamental para o estudo de propriedades de matrizes


Hermitianas e de matrizes unitárias.
Teorema 3.8 Os autovalores de uma matriz Hermitiana são sempre números reais. 2

Prova. Seja A Hermitiana, λ um autovalor de A e v 6= 0 um autovetor de A com autovalor λ. Como


A é Hermitiana tem-se
hv, Avi = hAv, vi.
Como v é um autovetor, o lado esquerdo vale λhv, vi e o lado direito vale λhv, vi. Logo, (λ−λ)hv, vi =
0. Como v 6= 0 isso implica λ = λ, ou seja, λ é real.
 
2 1
Note-se que a recı́proca desse teorema é falsa. A matriz tem autovalores reais (2 e 3) mas
0 3
não é Hermitiana.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 3 178/1195

Para matrizes unitárias temos


Teorema 3.9 Os autovalores de uma matriz unitária são sempre números complexos de módulo 1. 2

Prova. Seja A unitária, λ um autovalor de A e v 6= 0 um autovetor de A com autovalor λ. Como A é


unitária tem-se
hAv, Avi = hv, vi.
Como v é um autovetor, o lado esquerdo vale λλhv, vi. Assim, (|λ|2 − 1)hv, vi = 0. Como v 6= 0 isso
implica |λ| = 1.

• Operadores Simétricos e Unitários. Ortogonalidade de Autovetores

Teorema 3.10 Os autovetores associados a autovalores distintos de uma matriz simétrica são ortogo-
nais entre si. 2

Prova. Seja A simétrica e λ1 , λ2 dois de seus autovalores, que suporemos distintos. Seja v1 autovetor
de A com autovalor λ1 e v2 autovetor de A com autovalor λ2 . Temos, por A ser simétrico,

hv1 , Av2 i = hAv1 , v2 i.

O lado esquerdo vale λ2 hv1 , v2 i e o lado direito λ1 hv1 , v2 i (lembre-se que λ1 é real). Assim

(λ2 − λ1 )hv1 , v2 i = 0.

Como λ2 6= λ1 , segue que hv1 , v2 i = 0, que é o que se queria provar.

Teorema 3.11 Os autovetores associados a autovalores distintos de uma matriz unitária são ortogo-
nais entre si. 2

Prova. Seja U unitária e sejam λ1 , λ2 dois de seus autovalores, sendo que suporemos λ1 6= λ2 . Seja v1
autovetor de U com autovalor λ1 e v2 autovetor de U com autovalor λ2 . Temos, por U ser unitário,

hU v1 , U v2 i = hv1 , U ∗ U v2 i = hv1 , v2 i.

O lado esquerdo vale λ2 λ1 hv1 , v2 i = λλ21 (lembre-se que λ1 é um número complexo de módulo 1 e,
portanto λ1 = λ−1
1 ). Assim  
λ2
− 1 hv1 , v2 i = 0.
λ1
Como λ2 6= λ1 , segue que hv1 , v2 i = 0, que é o que se queria provar.

• Projetores Ortogonais
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 3 179/1195

Um operador linear E agindo em n


é dito ser um projetor ortogonal se E 2 = E e se E ∗ = E.
Projetores ortogonais são importantes na decomposição espectral de matrizes auto-adjuntas, como
veremos.
Note-se que nem todo projetor é ortogonal. Por exemplo
 
1 0
E =
1 0

é um projetor (E 2 = E) mas não é ortogonal (E ∗ =


6 E). O mesmo vale para
 
1 0
E = .
2 0

Um exemplo importante de projetor ortogonal é representado por projetores sobre sub-espaços uni-
dimensionais
p gerados por vetores. Seja v um vetor cuja norma assumiremos ser 1, ou seja, kvk =
hv, vi = 1. Definimos o projetor Pv sobre o sub-espaço gerado por v por

Pv u := hv, ui v,

para todo vetor u. Provemos que Pv é um projetor ortogonal. Por um lado, tem-se

Pv2 u = hv, ui Pv v = hv, ui hv, vi v = hv, ui v = Pv u,

o que mostra que Pv2 = Pv . Por outro lado, para quaisquer vetores a e b, usando as propriedades de
linearidade, anti-linearidade e conjugação complexa do produto escalar, tem-se

ha, Pv bi = ha, hv, bi vi = hv, bi ha, vi = hha, vi v, bi = hhv, ai v, bi = hPv a, bi,

provando que Pv∗ = Pv . Isso mostra que Pv é um projetor ortogonal.


Um fato crucial sobre projetores como Pv é o seguinte. Se u e v são dois vetores ortogonais, ou seja,
se hu, vi = 0 então Pu Pv = Pv Pu = 0. Para provar isso notemos que para qualquer vetor a vale

Pu (Pv a) = Pu (hv, ai v) = hv, ai Pu v = hv, ai hu, vi u = 0.

O mesmo se passa para Pv (Pu a).

• Matrizes Auto-adjuntas e Diagonalizabilidade

Vamos aqui demonstrar a seguinte afirmação importante: toda matriz auto-adjunta é diagonalizável.
Uma outra demonstração (eventualmente mais simples) dessa afirmação pode ser encontrada na Seção
3.8.2, página 202. Vide Teorema 3.23, página 204.
Teorema 3.12 Se A ∈ Mat ( , n) é auto-adjunta então A é diagonalizável. Fora isso, A possui n
autovetores mutuamente ortogonais. A matriz P que diagonaliza A (ou seja, tal que P −1 AP é diagonal)
pode ser escolhida unitária, ou seja, tal que P −1 = P ∗ . 2
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 3 180/1195

Prova. A demonstração que A é diagonalizável será feita construindo-se uma representação espectral
para A. Seja λ1 um autovalor de A e v1 um autovetor de A com autovalor λ1 normalizado de tal forma
que kv1 k = 1. Vamos definir um operador A1 por
A 1 = A − λ 1 Pv 1 .
Como A e Pv1 são auto-adjuntos e λ1 é real, segue que A1 é igualmente auto-adjunto.
Afirmamos que A1 v1 = 0 e que [v1 ]⊥ é um sub-espaço invariante por A1 . De fato,
A1 v1 = Av1 − λ1 Pv1 v1 = λ1 v1 − λ1 v1 = 0.
Fora isso, se w ∈ [v1 ]⊥ tem-se
hA1 w, v1 i = hw, A1 v1 i = 0,
mostrando que A1 w é também elemento de [v1 ]⊥ .
O operador A1 restrito a [v1 ]⊥ é também auto-adjunto (por que?). Seja λ2 um de seus autovalores
com autovetor v2 ∈ [v1 ]⊥ , que escolhemos com norma 1. Seja
A 2 = A 1 − λ 2 Pv 2 = A − λ 1 Pv 1 − λ 2 Pv 2 .
Como λ2 também é real A2 é igualmente auto-adjunto. Fora isso afirmamos que A2 anula os vetores
do sub-espaço [v1 , v2 ] e mantem [v1 , v2 ]⊥ invariante. De fato,
A2 v1 = Av1 − λ1 Pv1 v1 − λ2 Pv2 v1 = λ1 v1 − λ1 v1 − λ2 hv2 , v1 iv2 = 0
pois hv2 , v1 i = 0. Analogamente,
A2 v2 = A1 v2 − λ2 Pv2 v2 = λ2 v2 − λ2 v2 = 0.
Por fim, para quaisquer α, β ∈ e w ∈ [v1 , v2 ]⊥ tem-se
hA2 w, (αv1 + βv2 )i = hw, A2 (αv1 + βv2 )i = 0
que é o que querı́amos provar.
Prosseguindo indutivamente, construiremos um conjunto de vetores v1 , . . . , vn , todos com norma
1 e com va ∈ [v1 , . . . , va−1 ]⊥ e um conjunto de números reais λ1 , . . . , λn tais que
A n = A − λ 1 Pv 1 − · · · − λ n Pv n
anula-se no sub-espaço [v1 , . . . , vn ]. Ora, como estamos em um espaço de dimensão n e os vetores vk
são mutuamente ortogonais, segue que [v1 , . . . , vn ] deve ser o espaço todo, ou seja, An = 0. Provamos
então que
A = λ 1 Pv 1 + · · · + λ n Pv n . (3.39)

Vamos provar agora que essa é a representação espectral de A. Como os v k ’s são mutuamente
ortogonais, é evidente que Pvk Pvl = δk, l Pvk . Resta-nos provar que Pv1 + · · · + Pvn = . Como
v1 , . . . , vn formam uma base, todo vetor x pode ser escrito como uma combinação linear
x = α 1 v1 + · · · + α n vn . (3.40)
Tomando-se o produto escalar com va , e usando o fato que os vk ’s são mutuamente ortogonais, tem-se
αa = hva , xi.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 3 181/1195

E. 3.20 Exercı́cio. Verifique. 6

Assim, (3.40) pode ser escrita como

x = hv1 , xiv1 + · · · + hvn , xivn = Pv1 x + · · · + Pvn x = (Pv1 + · · · + Pvn ) x.

Como isso vale para todo vetor x, segue que

Pv 1 + · · · + P v n = .

Assim, A possui uma representação espectral como (3.18). Pelo Teorema Espectral 3.4, A é diagona-
lizável.
Por (3.39), vemos que Ava = λa va (verifique!). Logo os λa ’s são autovalores de A e os va ’s
seus autovetores. Assim, se A é auto-adjunto, podemos escontrar n autovetores de A mutuamente
ortogonais, mesmo que sejam autovetores com o mesmo autovalor. Isso generaliza o Teorema 3.10.
Pelo que já vimos A é diagonalizada por P −1 AP , onde podemos escolher P = [[v 1 , . . . , v n ]]. É fácil
verificar, porém, que P é unitária. De fato, é um exercı́cio simples (faça!) mostrar que
 
hv1 , v1 i · · · hv1 , vn i
 .. .. .. 
P ∗P =  . . . .
hvn , v1 i · · · hvn , vn i

Como hva , vb i = δa, b , a matriz do lado direito é igual a , mostrando que P ∗ P = P P ∗ = e que,
portanto, P é unitária.

Para concluir essa discussão, temos:


Proposição 3.16 Uma matriz A ∈ Mat ( , n) é auto-adjunta, se e somente se for diagonalizável por
uma transformação de similaridade unitária e se seus autovalores forem reais. 2

Prova. Se A ∈ Mat ( , n) é diagonalizável por uma transformação de similaridade unitária e seus


autovalores são reais, ou seja, existe P unitária e D diagonal real com P ∗ AP = D, então A = P DP ∗
e A∗ = P D ∗ P ∗ . Como D é diagonal e real, vale D ∗ = D e, portanto, A∗ = P DP ∗ = A, provando que
A é auto-adjunta. A recı́proca já foi provada acima.

• Matrizes Normais e Diagonalizabilidade

O teorema que afirma que toda matriz simétrica é diagonalizável tem a seguinte conseqüência:
Teorema 3.13 Se A ∈ Mat ( , n) é normal então A é diagonalizável. 2

Prova. Já vimos que toda matriz A pode ser escrita na forma A = Re (A) + iIm (A) onde Re (A)
e Im (A) são auto-adjuntas. Vimos também que se A é normal Re (A) e Im (A) comutam entre si
(Proposição 3.15). Pelo Teorema 3.7, Re (A) e Im (A) podem ser simultaneamente diagonalizados.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 3 182/1195

Observação. Como no caso auto-adjunto, o operador que faz a diagonalização pode ser escolhido
unitário. De fato, vale uma afirmativa ainda mais forte.
Teorema 3.14 Uma matriz A ∈ Mat ( , n) é normal se e somente se for diagonalizável por um
operador unitário. 2

Prova. Resta provar apenas que se A é diagonalizável por um operador unitário P então A é normal.
Seja D = P ∗ AP . Tem-se D ∗ = P ∗ A∗ P (por que?). Assim,

A∗ A − AA∗ = P D ∗ P ∗ P DP ∗ − P DP ∗ P D ∗ P ∗ = P (D ∗ D − DD ∗ )P ∗ = 0

já que D ∗ e D comutam por serem diagonais (duas matrizes diagonais quaisquer sempre comutam. Por
quê?). Isso completa a prova que A é normal.

Uma outra demonstração (eventualmente mais simples) dessa afirmação pode ser encontrada na
Seção 3.8.2, página 202. Vide Teorema 3.24, página 205.

3.6 Matrizes Triangulares


Uma matriz S ∈ Mat ( , n) é dita ser triangular superior se forem nulos os elementos abaixo da diagonal
principal, ou seja, se Sij = 0 sempre que i > j. Note que esses não precisam ser necessariamente os
únicos elementos nulos de S.
Uma matriz I ∈ Mat ( , n) é dita ser triangular inferior se forem nulos os elementos acima da
diagonal principal, ou seja, se Iij = 0 sempre que i < j. Note que esses não precisam ser necessariamente
os únicos elementos nulos de I.
Proposição 3.17 Matrizes triangulares superiores possuem as seguintes propriedades:

1. A matriz identidade é uma matriz triangular superior.

2. O produto de duas matrizes triangulares superiores é novamente uma matriz triangular superior.

3. O determinante de uma matriz triangular superior é o produto dos elementos da sua diagonal.
Assim, uma matriz triangular superior é invertı́vel se e somente se não tiver zeros na diagonal.

4. Se uma matriz triangular superior é invertı́vel, sua inversa é novamente uma matriz triangular
superior. 2

As afirmações acima permanecem verdadeiras trocando “matriz triangular superior” por “matriz tri-
angular inferior”.

Prova. Os três primeiros itens são elementares. Para provar o item 4 usa-se o fato bem conhecido (a
chamada “regra de Laplace9 ”) que para qualquer matriz A ∈ Mat ( , n) o elemento ij da sua matriz
9
Pierre-Simon Laplace (1749-1827).
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 3 183/1195

inversa (se houver) é dado por


 ∆(A)ji
A−1 ij
= (−1)i+j , (3.41)
det(A)
onde ∆(A)ij é o determinante da matriz (n − 1) × (n − 1) obtida eliminando-se a i-ésima linha e a
j-ésima coluna da matriz A. (A matriz ∆(A) é por vezes denominada matriz dos co-fatores de A). É
fácil de constatar que se S é uma matriz triangular superior, tem-se ∆(S)ji = 0 se i > j. Logo, S −1 é
triangular superior, se existir.

As propriedades acima atestam que o conjunto das matrizes n × n triangulares superiores invertı́veis
forma um grupo, denominado por alguns autores Grupo de Borel10 de ordem n e denotado por GBn ( ).
O seguinte resultado sobre matrizes triangulares superiores será usado diversas vezes adiante.
Lema 3.2 Uma matriz triangular superior S ∈ Mat ( , n) é normal (ou seja, satisfaz SS ∗ = S ∗ S) se
e somente se for diagonal. 2

Prova. Se S é diagonal, S é obviamente normal pois S ∗ é também diagonal e matrizes diagonais sempre
comutam entre si. Provaremos a recı́proca, o que será feito por indução. Para n = 1 não há o que
provar. Se n = 2, S é da forma S = ( a0 cb ), com a, b, c ∈ . A condição SS ∗ = S ∗ S significa
 2   2 
|a| + |b|2 bc |a| ba
= ,
cb |c|2 ab |b|2 + |c|2

o que implica b = 0, provando que S é diagonal. Procedemos agora por indução, supondo n > 2 e que
o lema seja válido para matrizes (n − 1) × (n − 1) triangulares superiores normais. Se S ∈ Mat ( , n)
é triangular superior, S é da forma
   
  b 1 0
a bT  ..   .. 
S= , sendo a ∈ , b =  .  , = . ,
C
bn−1 0

ambas b e com n − 1 linhas, sendo C uma matriz (n − 1) × (n − 1) triangular superior. A condição


SS ∗ = S ∗ S significa  2   2 
|a| + bT b bT C ∗ |a| abT
= ,
Cb CC ∗ ab B + C ∗ C
sendo B a matriz cujos elementos são Bij = bi bj . Disso extraı́mos que bT b = 0, ou seja, |b1 |2 + · · · +
|bn−1 |2 = 0 e, portanto, b = . Com isso, ficamos com CC ∗ = C ∗ C, ou seja, C é normal. Como C é
triangular superior então, pela hipótese indutiva, C é diagonal. Isso, mais o fato provado que b é nulo,
implica que S é diagonal, provando o lema.

10
Armand Borel (1923-2003).
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 3 184/1195

3.7 O Teorema de Decomposição de Jordan e a Forma Canônica


de Matrizes
Nas seções anteriores demonstramos condições que permitem diagonalizar certas matrizes. Nem todas
as matrizes, porém, podem ser diagonalizadas. Podemos nos perguntar, no entanto, quão próximo
podemos chegar de uma matriz diagonal.
Mostraremos nesta seção que toda matriz A pode ser levada (por uma transformação de simila-
ridade) à uma forma próxima à diagonal, denominada forma canônica de Jordan 11 . Resumidamente
(a afirmação precisa será apresentada mais adiante), mostraremos que existe uma matriz P tal que
P −1 AP tem a seguinte forma:
 
λ1 γ 1 0 0 · · · 0 0
 0 λ2 γ2 0 · · · 0 0 
 
 0 0 λ 3 γ3 · · · 0 0 
 
 .. 
 0 0 0 λ4 . 0 0 , (3.42)
. .. .. .. . . .. .. 
 .. . . . . . 
. 

 0 0 0 0 · · · λn−1 γn−1 
0 0 0 0 ··· 0 λn

onde λ1 , . . . , λn são os autovalores de A e onde os γi valem 1 ou 0, mas que forma que a matriz
diagonal  
λ1 0 0 0 ··· 0 0
 0 λ2 0 0 ··· 0 0
 
 0 0 λ3 0 ··· 0 0
 
 .. 
 0 0 0 λ4 . 0 0 , (3.43)
. .. .. .. .. .. .. 
 .. . . . . . .
 
0 0 0 0 · · · λn−1 0 
0 0 0 0 ··· 0 λn
e a matriz supra-diagonal  
0 γ1 0 0 ··· 0 0
0 0 γ 2 0 ··· 0  0
 
0 0 0 γ 3 ··· 0  0
 
 .. 
0 0 0 0 . 0 0 , (3.44)
. . . . .. .. .. 
 .. .. .. .. . . . 
 
0 0 0 0 ··· 0 γn−1 
0 0 0 0 ··· 0 0
comutam entre si.
O resultado central que provaremos, e do qual as afirmativas feitas acima seguirão, diz que toda
matriz A pode ser levada por uma transformação do tipo P −1 AP a uma matriz da forma D + N , onde
11
Marie Ennemond Camille Jordan (1838-1922). A forma canônica de matrizes foi originalmente descoberta por
Weierstrass (Karl Theodor Wilhelm Weierstrass (1815-1897)) e redescoberta por Jordan em 1870.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 3 185/1195

D é diagonal e N é nilpotente (ou seja, tal que N q = 0 para algum q) e tais que D e N comutam:
DN = N D. Essa é a afirmativa principal do célebre “Teorema da Decomposição de Jordan”, que
demonstraremos nas páginas que seguem.
Esse Teorema da Decomposição de Jordan generaliza os teoremas sobre diagonalizabilidade de
matrizes: para matrizes diagonalizáveis tem-se simplesmente N = 0 para um P conveniente.
Antes de nos dedicarmos à demonstração desses fatos precisaremos de alguma preparação.

3.7.1 Resultados Preparatórios

• Somas Diretas de Sub-Espaços

Seja V um espaço vetorial e V1 e V2 dois de seus sub-espaços. Dizemos que V é a soma direta de V1
e V2 se todo vetor v de V puder ser escrito de modo único da forma v = v1 + v2 com v1 ∈ V1 e v2 ∈ V2 .
Se V é a soma direta de V1 e V2 escrevemos V = V1 ⊕ V2 .

• Sub-espaços Invariantes
n
Um subespaço E de é dito ser invariante pela ação de uma matriz A, se Av ∈ E para todo v ∈ E.
Se V = V1 ⊕ V2 e tanto V1 quanto V2 são invariantes pela ação de A, escrevemos A = A1 ⊕ A2 onde
Ai é A restrita a Vi . Se escolhermos uma base em V da forma {v1 , . . . , vm , vm+1 , . . . , vn }, onde
{v1 , . . . , vm } é uma base em V1 e {vm+1 , . . . , vn } é uma base em V2 , então nessa base A terá a forma
 
A1 m, n−m
A = . (3.45)
n−m, m A2

onde A1 ∈ Mat ( , m) e A2 ∈ Mat ( , n − m).

E. 3.21 Exercı́cio. Justifique a forma (3.45). 6

A representação (3.45) é dita ser uma representação em blocos diagonais de A, os blocos sendo as
sub-matrizes A1 e A2 .
Um fato relevante que decorre imediatamente de (3.45) e da Proposição 3.1, página 143, e que
usaremos freqüentemente adiante, é que se A = A1 ⊕ A2 então

det(A) = det(A1 ) det(A2 ).

• Operadores Nilpotentes

Seja V um espaço vetorial e N : V → V um operador linear agindo em V . O operador N é dito ser


nilpotente se existir um inteiro positivo q tal que N q = 0. O menor q para o qual N q = 0 é dito ser o
ı́ndice de N .
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 3 186/1195

Vamos a alguns exemplos.  


0 1 0
N = 0 0 1
0 0 0
é uma matriz nilpotente de ı́ndice 3.

E. 3.22 Exercı́cio. Verifique. 6

 
0 a c
N = 0 0 b 
0 0 0
com a 6= 0 e b 6= 0 é uma matriz nilpotente de ı́ndice 3.

E. 3.23 Exercı́cio. Verifique. 6

  

0 0 0 0 1 0
N =  0 0 1 e N =  0 0 0
0 0 0 0 0 0
são matrizes nilpotentes de ı́ndice 2.

E. 3.24 Exercı́cio. Verifique. 6

O seguinte fato sobre os autovalores de operadores nilpotentes será usado adiante.


Proposição 3.18 Se N ∈ Mat ( , n) é nilpotente então seus autovalores são todos nulos. Isso implica
que seu polinômio caracterı́stico é qN (x) = xn , x ∈ . Se o ı́ndice de N é q então o polinômio mı́nimo
de N é mN (x) = xq , x ∈ . 2

No Corolário 3.2, página 193, demonstraremos que uma matriz é nilpotente se e somente se seus
autovalores forem todos nulos.

Prova da Proposição 3.18. Se N = 0 o ı́ndice é q = 1 e tudo é trivial. Seja N 6= 0 com ı́ndice q > 1.
Seja v 6= 0 um autovetor de N com autovalor λ: N v = λv. Isso diz que 0 = N q v = λq v. Logo λq = 0
e, obviamente, λ = 0. É claro então que qN (x) = xn . Que o polinômio mı́nimo é mN (x) = xq segue
do fato que mN (x) deve ser um divisor de qn (x) (isso segue do Teorema 3.1 junto com o Teorema de
Hamilton-Cayley, Teorema 3.2). Logo mN (x) é da forma xk para algum k ≤ n. Mas o menor k tal que
mN (N ) = N k = 0 é, por definição, igual a q. Isso completa a prova.

Mais sobre matrizes nilpotentes será estudado na Seção 3.7.3 onde, em particular, discutiremos a
chamada forma canônica de matrizes nilpotentes.

• O Núcleo e a Imagem de um Operador Linear


JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 3 187/1195

Seja V um espaço vetorial e A : V → V um operador linear agindo em V .


O núcleo de A é definido como o conjunto de todos os vetores que são anulados por A:

N(A) = {x ∈ V | Ax = 0}.

A imagem de A é definida por

R(A) = {x ∈ V | ∃ y ∈ V tal que x = Ay}.

Afirmamos que N(A) e R(A) são dois sub-espaços de V . Note-se primeiramente que 0 ∈ N(A) e
0 ∈ R(A) (por que?). Fora isso, se x e y ∈ N(A) então, para quaisquer escalares α e β,

A(αx + βy) = αAx + βAy = 0,

provando que combinações lineares αx+βx0 também pertencem a N(A). Analogamente se x e x0 ∈ R(A)
então existem y e y 0 ∈ V com x = Ay, x0 = Ay 0 . Logo

αx + βx0 = A(αy + βy 0 ),

provando que combinações lineares αx + βy também pertencem a R(A).


Para um operador A fixado, e k ∈  , vamos definir

Nk = N(Ak )

e
Rk = R(Ak ).
Esses sub-espaços Nk e Rk são invariantes por A. De fato, se x ∈ Nk , então Ak (Ax) = A(Ak x) = A0 = 0,
mostrando que Ax ∈ Nk . Analogamente, se x ∈ Rk então x = Ak y para algum vetor y. Logo,
Ax = A(Ak y) = Ak (Ay), mostrando que Ax ∈ Rk .
Afirmamos que
Nk ⊂ Nk+1 (3.46)
e que
Rk ⊃ Rk+1 .
As demonstrações dessas afirmativas são quase banais. Se x ∈ Nk então Ak x = 0. Isso obviamente
implica Ak+1 x = 0. Logo x ∈ Nk+1 e, portanto, Nk ⊂ Nk+1 . Analogamente, se x ∈ Rk+1 então existe y
tal que x = Ak+1 y. Logo x = Ak (Ay), o que diz que x ∈ Rk . Portanto Rk+1 ⊂ Rk .
Isso diz que os conjuntos Nk formam uma cadeia crescente de conjuntos:

{0} ⊂ N1 ⊂ N2 ⊂ · · · ⊂ Nk ⊂ · · · ⊂ V, (3.47)

e os Rk formam uma cadeia decrescente de conjuntos:

V ⊃ R1 ⊃ R2 ⊃ · · · ⊃ Rk ⊃ · · · ⊃ {0}. (3.48)

Consideremos a cadeia crescente (3.47). Como os conjuntos Nk são sub-espaços de V , é claro que a
cadeia não pode ser estritamente crescente se V for um espaço de dimensão finita, ou seja, deve haver
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 3 188/1195

um inteiro positivo p tal que Np = Np+1 . Seja p o menor número inteiro para o qual isso acontece.
Afirmamos que para todo k ≥ 1 vale Np = Np+k .
Vamos provar isso. Se x ∈ Np+k então Ap+k x = 0, ou seja, Ap+1 (Ak−1 x) = 0. Logo, Ak−1 x ∈ Np+1 .
Dado que Np = Np+1 , isso diz que Ak−1 x ∈ Np , ou seja, Ap (Ak−1 x) = 0. Isso, por sua vez, afirma que
x ∈ Np+k−1 . O que fizemos então foi partir de x ∈ Np+k e concluir que x ∈ Np+k−1 . Se repetirmos
a argumentação k vezes concluiremos que x ∈ Np . Logo, Np+k ⊂ Np . Por (3.46) tem-se, porém, que
Np ⊂ Np+k e, assim, Np+k = Np .
Assim, a cadeia (3.47) tem, no caso de V ter dimensão finita, a forma

{0} ⊂ N1 ⊂ N2 ⊂ · · · ⊂ Np = Np+1 = · · · = Np+k = · · · ⊂ V. (3.49)

Como dissemos, p será daqui por diante o menor inteiro para o qual Np = Np+1 . O lema e o teorema
que seguem têm grande importância na demonstração do Teorema de Decomposição de Jordan.
Lema 3.3 Com as definições acima, Np ∩ Rp = {0}, ou seja, os sub-espaços Np e Rp têm em comum
apenas o vetor nulo. 2

Demonstração. Seja x tal que x ∈ Np e x ∈ Rp . Isso significa que Ap x = 0 e que existe y tal que
x = Ap y. Logo, A2p y = Ap x = 0, ou seja, y ∈ N2p . Pela definição de p tem-se que N2p = Np . Assim,
y ∈ Np . Logo Ap y = 0. Mas, pela própria definição de y valia que Ap y = x. Logo x = 0.

Esse lema tem a seguinte conseqüência importante.


Teorema 3.15 Com as definições acima vale que V = Np ⊕ Rp , ou seja, cada x ∈ V pode ser escrito
de modo único na forma x = xn + xr , onde xn ∈ Np e xr ∈ Rp . 2

Demonstração. Seja m a dimensão de Np e seja {u1 , . . . , um } uma base em Np . Vamos estender essa
base, incluindo vetores {vm+1 , . . . , vn } de modo que {u1 , . . . , um , vm+1 , . . . , vn } seja uma base
em V . Afirmamos que {Ap vm+1 , . . . , Ap vn } é uma base em Rp . Seja x ∈ Rp e seja y ∈ V tal que
x = Ap y. Como todo vetor de V , y pode ser escrito como combinação linear de elementos da base
{u1 , . . . , um , vm+1 , . . . , vn }:
Xm Xn
y = α i ui + αi v i .
i=1 i=m+1

Logo,
m
X n
X n
X
p p
x = α i A ui + αi A v i = αi A p v i . (3.50)
i=1 i=m+1 i=m+1

Os vetores {Ap vm+1 , . . . , Ap vn } são linearmente independentes. Isso se mostra com o seguinte argu-
mento. Se existirem escalares βm+1 , . . . , βn tais que
n
X
βi Ap vi = 0,
i=m+1
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 3 189/1195

então terı́amos !
n
X
Ap βi v i = 0,
i=m+1

ou seja,
n
X
βi v i ∈ N p .
i=m+1

Isso implica que existem constantes γ1 , . . . , γm tais que


n
X m
X
βi v i = γ i ui ,
i=m+1 i=1

pois os vetores {u1 , . . . , um } são uma base em Np . Ora, como {u1 , . . . , um , vm+1 , . . . , vn } são linear-
mente independentes, segue que os βi ’s e os γj ’s são todos nulos. Isso prova que {Ap vm+1 , . . . , Ap vn }
são linearmente independentes e, portanto, por (3.50), formam uma base em Rp .
Isso incidentalmente provou que a dimensão de Rp é n − m. Temos, portanto, que

dim (Np ) + dim (Rp ) = dim (V ) .

Para i = m + 1, . . . , n defina-se ui = Ap vi . Afirmamos que o conjunto de vetores

{u1 , . . . , um , um+1 , . . . , un } = {u1 , . . . , um , Ap vm+1 , . . . , Ap vn }

é também linearmente independente e, portanto, forma uma base em V . Suponhamos que haja cons-
tantes escalares α1 , . . . , αn tais que
n m n
!
X X X
0 = α i ui = α i ui + A p αi v i .
i=1 i=1 i=m+1

Isso implica, obviamente, !


m
X n
X
αi ui = −Ap αi v i .
i=1 i=m+1

O lado esquerdo dessa igualdade é um elemento de Np (pois u1 , . . . , um são uma base em Np ), enquanto
que o lado esquerdo é obviamente um elemento da imagem de Ap , ou seja, de Rp . Contudo, já vimos
(Lema 3.3) que o único vetor que Np e Rp têm em comum é o vetor nulo. Logo,
m
X
α i ui = 0 (3.51)
i=1

e n
X
αi Ap vi = 0. (3.52)
i=m+1

A relação (3.51) implica α1 = · · · = αm = 0, pois {u1 , . . . , um } é uma base em Np . A relação (3.52)


implica αm+1 = · · · = αn = 0, pois {Ap v1 , . . . , Ap vm } é uma base em Rp . Assim, todos os αi ’s são
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 3 190/1195

nulos, provando que {u1 , . . . , um , um+1 , . . . , un } = {u1 , . . . , um , Ap vm+1 , . . . , Ap vn } é um


conjunto de n vetores linearmente independentes.
Conseqüentemente, todo x ∈ V pode ser escrito na forma
n m n
!
X X X
x = α i ui = α i ui + A p αi v i .
i=1 i=1 i=m+1
| {z } | {z }
xn ∈Np xr ∈Rp

Provar a unicidade dessa decomposição fica como exercı́cio. Isso completa a demonstração.

Uma das coisas que o teorema que acabamos de demonstrar diz é que, dado um operador A, o
espaço V pode ser decomposto em uma soma direta de dois sub-espaços, invariantes por A: um onde
A é nilpotente, Np , e outro onde A é invertı́vel, Rp . A é nilpotente em Np pois Ap x = 0 para todo
elemento x de Np . A é invertı́vel em Rp pois se x ∈ Rp é tal que Ax = 0 isso implica x ∈ N1 ⊂ Np .
Mas x só pode pertencer a Np e a Rp se for nulo. Logo, em Rp , Ax = 0 se e somente se x = 0, provando
que A é invertı́vel12 . Para referência futura formulemos essa afirmativa na forma de um teorema:
Teorema 3.16 Se A é um operador linear não-nulo agindo em um espaço vetorial V = n então é
possı́vel decompor V em dois sub-espaços invariantes por A, V = S ⊕ T, de forma que A restrito a S é
nilpotente, enquanto que A restrito a T é invertı́vel. 2

Esse será o teorema básico do qual extrairemos a demonstração do Teorema de Decomposição de


Jordan.

3.7.2 O Teorema da Decomposição de Jordan


Chegamos agora ao resultado mais importante desta seção, o Teorema da Decomposição de Jordan 13 ,
um importante teorema estrutural sobre matrizes de importância em vários campos, por exemplo na
teoria das equações diferenciais ordinárias. Para tais aplicações, vide Capı́tulo 6, página 292.
O Teorema da Decomposição de Jordan também tem certa relevância na Teoria de Grupos, e o
usaremos para provar que toda matriz n × n complexa invertı́vel (ou seja, todo elemento do grupo
GL( , n)) pode ser escrita como exponencial de outra matriz (Proposição 4.11, página 224). No
Capı́tulo 4 usaremos o Teorema da Decomposição de Jordan para provar a identidade útil det(e A ) =
eTr (A) , válida para qualquer matrix n × n real ou complexa. (Proposição 4.7, página 222).

• Enunciado e Demonstração do Teorema da Decomposição de Jordan

Teorema 3.17 (Teorema da Decomposição de Jordan) Seja A um operador linear agindo no


espaço V = n e seja {α1 , . . . , αr } o conjunto de seus autovalores distintos. Então existem r
12
Lembre-se que esse argumento só funciona em espaços vetoriais V que tenham dimensão finita, o que estamos supondo
aqui.
13
Marie Ennemond Camille Jordan (1838-1922). A forma canônica de matrizes (que será discutida mais adiante) foi
originalmente descoberta por Weierstrass (Karl Theodor Wilhelm Weierstrass (1815-1897)) e redescoberta por Jordan
em 1870.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 3 191/1195

sub-espaços S1 , . . . , Sr tais que V = S1 ⊕ . . . ⊕ Sr e tais que cada Si é invariante por A. Ou seja,


A = A1 ⊕ . . . ⊕ Ar , onde Ai é A restrita a Si . Fora isso, cada Ai , é da forma Ai = αi i + Ni , onde i é
a matriz identidade em Si e onde Ni é nilpotente. Por fim, a dimensão si de cada subespaço Si é igual
à multiplicidade algébrica do autovalor αi . 2

Demonstração. Seja {α1 , . . . , αr } o conjunto dos autovalores distintos de A e seja ni a multiplicidade


algébrica do autovalor αi . Seja A1 = A − α1 . Pelo Teorema 3.16, página 190, V pode ser escrito como
V = S1 ⊕ T1 , onde S1 e T1 são invariantes por A1 , sendo A1 nilpotente em S1 e invertı́vel em T1 . Assim,
A1 é da forma A1 = N1 ⊕ M1 com N1 nilpotente e M1 invertı́vel. Logo

A = α1 + A1 = (α1 S1 + N1 ) ⊕ (α1 T1 + M1 ), (3.53)

onde S1 é a matriz identidade em S1 etc. Vamos mostrar que a dimensão de S1 é igual à multiplicidade
algébrica de α1 . Por (3.53) o polinômio caracterı́stico de A é

qA (λ) = det(λ − A) = det((λ − α1 ) S1 − N1 ) det((λ − α1 ) T1 − M1 ).

Se qN1 denota o polinômio caracterı́stico de N1 , tem-se

det((λ − α1 ) S1 − N1 ) = qN1 (λ − α1 ) = (λ − α1 )s1 ,

onde, na última igualdade, usamos a Proposição 3.18, página 186, sobre a forma do polinômio carac-
terı́stico de uma matriz nilpotente. Daı́, segue que

qA (λ) = (λ − α1 )s1 qM1 (λ − α1 ),

sendo qM1 o polinômio caracterı́stico de M1 . Como M1 é invertı́vel, M1 não tem o zero como autovalor.
Logo, qM1 (0) 6= 0. Portanto s1 é igual à multiplicidade de α1 como raiz de qA , ou seja, é igual a n1 , a
multiplicidade algébrica de α1 .
A idéia agora é prosseguir decompondo agora o operador α1 T1 + M1 que aparece em (3.53) da
mesma maneira como fizermos acima com A.
Seja A0 = α1 T1 + M1 e que age em T1 , que é um espaço de dimensão n − n1 . Definimos A2 =
A 0 − α 2 T1 .
Evocando novamente o Teorema 3.16, página 190, T1 pode ser escrito como T1 = S2 ⊕ T2 , onde S2
e T2 são invariantes por A2 , sendo A2 nilpotente em S2 e invertı́vel em T2 . Assim, V = S1 ⊕ S2 ⊕ T2 .
Agindo em T1 = S2 ⊕ T2 , A2 é da forma A2 = N2 ⊕ M2 com N2 nilpotente e M2 invertı́vel. Logo

A0 = α 2 T1 + A2 = (α2 S2 + N2 ) ⊕ (α2 T2 + M2 ). (3.54)

Vamos, como acima, mostrar que a dimensão de S2 é igual à multiplicidade algébrica de α2 .


Pela definição,

A = (α1 S1 + N1 ) ⊕ A0 = (α1 S1 + N1 ) ⊕ (α2 S2 + N2 ) ⊕ (α2 T2 + M2 ).

Logo,
qA (λ) = det ((λ − α1 ) S1 − N1 ) det ((λ − α2 ) S2 − N2 ) det ((λ − α2 ) T2 − M2 ).
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 3 192/1195

Portanto, pelos mesmos argumentos usados acima,


qA (λ) = (λ − α1 )n1 (λ − α2 )s2 qM2 (λ − α2 ).
Como M2 é invertı́vel, M2 não tem autovalor zero e, assim, qM2 (0) 6= 0. Logo, s2 = n2 . T2 é assim um
sub-espaço de dimensão n − n1 − n2 .
Prosseguindo nas mesmas linhas, após r passos chegaremos a um sub-espaço Tr de dimensão n −
n1 − · · · − nr = 0 (por (3.5), página 145). Aı́, teremos V = S1 ⊕ · · · ⊕ Sr , onde cada Si tem dimensão
ni e
A = (α1 S1 + N1 ) ⊕ · · · ⊕ (αr Sr + Nr )
onde os Ni ’s são todos nilpotentes. Isso completa a demonstração.

Um corolário importante do Teorema de Decomposição de Jordan é o seguinte:


Teorema 3.18 Para toda matriz A ∈ Mat ( , n) existe uma matriz invertı́vel P ∈ Mat ( , n) tal que
P −1 AP = D + N , onde D é uma matriz diagonal formada pelos autovalores de A e N é uma matriz
nilpotente e de tal forma que D e N comutam: DN = N D.
Conseqüentemente, toda matriz A ∈ Mat ( , n) pode ser escrita na forma A = A d + An com
Ad An = An Ad , sendo Ad diagonalizável e An nilpotente, a saber, Ad = P DP −1 e An = P N P −1 , com
D e N dados acima. 2

Demonstração do Teorema 3.18. O Teorema 3.17 está dizendo que, numa base conveniente, A tem a
forma de blocos diagonais
 
α1 s 1 + N 1 0 ··· 0
   
A1 0 · · · 0  
 0 α 2 s2 + N 2 · · · 0 
 0 A2 · · · 0   
   
A =  .. .. . . ..  =  , (3.55)
 . . . .   .. .. . . .. 
 . . . . 
0 0 · · · Ar  
 
0 0 · · · α r sr + N r
ou seja,
A = D + N,
onde  
α1 s 1 0 ··· 0  
 0 α · · · 0 
 2 s2 
D =  .. .. . . . . , α1 , . . . , αr , . . . , αr 
..  = diag |α1 , .{z } | {z }
 . . . . 
s1 vezes sr vezes
0 0 · · · α r sr
e  
N1 0 · · · 0
 0 N2 · · · 0 
 
N =  .. .. . . ..  . (3.56)
 . . . . 
0 0 · · · Nr
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 3 193/1195

Acima si é a dimensão do sub-espaço Si .


É fácil de se ver que N é uma matriz nilpotente, pois se o ki é o ı́ndice de Ni (ou seja, ki é o menor
inteiro positivo para o qual Niki = 0), então para k := max (k1 , . . . , kr ) tem-se
 
(N1 )k 0 ··· 0
 0 (N2 )k · · · 0 
 
N k =  .. .. .. ..  = 0.
 . . . . 
0 0 · · · (Nr )k

Em verdade, k = max (k1 , . . . , kr ) é o ı́ndice de N (por que?).


Por fim, como cada Ni comuta com αi si , fica claro que D e N comutam. Isso completa a demons-
tração.

Corolário 3.2 Uma matriz M ∈ Mat ( , n) é nilpotente se e somente se todos os seus autovalores
forem nulos. 2

Prova. A Proposição 3.18, página 186, afirma que se M é nilpotente todos os seus autovalores são
nulos. O Teorema 3.18, página 192, afirma que se os autovalores de M são nulos, então existe P tal
que P −1 M P = N , nilpotente. Isso implica que M é nilpotente.

3.7.3 Matrizes Nilpotentes e sua Representação Canônica


Os teoremas que estudamos acima nesta seção revelam a importância de matrizes nilpotentes. Um fato
relevante é que elas podem ser representadas de uma forma especial, denominada forma canônica, da
qual traremos logo abaixo. Antes, alguma preparação se faz necessária.
Seja N ∈ Mat ( , n) uma matriz nilpotente de ı́ndice q, ou seja, N q = 0, mas N q−1 6= 0. Para uso
futuro, provemos o seguinte lema:
Lema 3.4 Seja N uma matriz nilpotente de ı́ndice q. Estão existe um vetor v 6= 0 tal que os q vetores

v, N v, N 2 v, ..., N q−1 v , (3.57)

são linearmente independentes. Fora isso, o subespaço q-dimensional J v, q := hv, N v, N 2 v, . . . , N q−1 vi


de V gerado por esses q vetores é invariante por N . 2

Prova. Se q = 1, então N = 0 e não há nada a provar, pois a afirmação é trivialmente verdadeira para
qualquer v 6= 0. Seja então q > 1 (em cujo caso N 6= 0, trivialmente). Sabemos, por hipótese, que
a matriz N q−1 é não-nula. Isso significa que existe pelo menos um vetor v 6= 0 tal que N q−1 v 6= 0.
Fixemos um tal vetor. É imediato que os vetores N v, N 2 v, . . . , N q−1 v são todos não-nulos pois,
se tivéssemos N j v = 0 para algum 1 ≤ j < q − 1, então, aplicando-se N q−1−j à esquerda, terı́amos
N q−1 v = 0, uma contradição.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 3 194/1195

Sejam agora α1 , . . . , αq escalares tais que

α1 v + α2 N v + α3 N 2 v + · · · + αq N q−1 v = 0. (3.58)

Aplicando-se N q−1 nessa igualdade e lembrando que N q = 0, concluı́mos que α1 N q−1 v = 0. Como
N q−1 v 6= 0, segue que α1 = 0 e, com isso, (3.58) fica

α2 N v + α3 N 2 v + · · · + αq N q−1 v = 0. (3.59)

Aplicando agora N q−2 nessa igualdade concluı́mos que α2 = 0. Prosseguindo, concluı́mos depois de
q passos que todos os escalares αj são nulos. Isso prova que os q vetores de (3.57) são linearmente
independentes.
Que o subespaço Jv, q definido acima é invariante por N é evidente pois, para quaisquer escalares
β1 , . . . , βq , tem-se

N β1 v + β2 N v + · · · + βq N q−1 v = β1 N v + β2 N 2 v + · · · + βq−1 N q−1 v ∈ Jv, q .

O seguinte teorema é central para o que segue.


Teorema 3.19 Se N é uma matriz nilpotente de ı́ndice q agindo em V e v um vetor com a propriedade
que N q−1 v 6= 0, então existe um subespaço K de V tal que Jv, q ∩ K = {0}, tal que V = Jv, q ⊕ K e tal
que K é também invariante por N . 2

Prova.14 A prova é feita por indução em q. Note-se que se q = 1, então N = 0 e a afirmativa é trivial,
pois podemos tomar como v qualquer vetor não-nulo, Jv, q seria o subespaço gerado por esse v e K o
subespaço complementar a v, que é trivialmente invariante por N , pois N = 0.
Vamos supor então que a afirmação seja válida para matrizes nilpotentes de ı́ndice q − 1 e provar
que a mesma é válida para matrizes nilpotentes de ı́ndice q. O que desejamos é construir um subespaço
K com as propriedades desejadas, ou seja, tal que V = Jv, q ⊕ K, sendo K invariante por N .
Seja V0 = R(N ) o conjunto imagem de N . Sabemos que V0 é um subespaço de V e que é invariante
por N . Fora isso, N é nilpotente de ı́ndice q − 1 agindo em V0 (por que?)
Seja v0 = N v ∈ V0 . É claro que N q−2 v0 = N q−1 v 6= 0. Assim, pelo Lema 3.57, o subespaço
(q − 1)-dimensional

Jv0 , q−1 = hv0 , N v0 , . . . , N q−2 v0 i = hN v, N 2 v, . . . , N q−1 vi = JN v, q−1 ,

que é um sub-espaço de V0 , é invariante por N e, da hipótese indutiva, concluı́mos que existe um


subespaço K0 de V0 que é invariante por N tal que JN v, q−1 ∩ K0 = {0} e tal que V0 = JN v, q−1 ⊕ K0 .
Seja agora K1 := {x ∈ V | N x ∈ K0 }. Vamos provar a seguinte afirmação:
14
Extraı́da, com modificações, de [52].
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 3 195/1195

I. Todo vetor x de V pode ser escrito na forma x = y + z onde y ∈ Jv, q e z ∈ K1 .


Para provar isso, notemos que para qualquer x ∈ V vale certamente que N x ∈ V0 . Portanto,
como pela hipótese indutiva V0 = JN v, q−1 ⊕ K0 , podemos escrever N x = y 0 + z 0 , com y 0 ∈ JN v, q−1
e z 0 ∈ K0 . Como y 0 ∈ JN v, q−1 , y 0 é da forma de uma combinação linear y 0 = α1 N v + · · · +
αq−1 N q−1 v = N y, onde y := α1 v + α2 N v + · · · + αq−1 N q−2 v é um elemento de Jv, q . Logo,
z 0 = N (x − y). Como z 0 ∈ K0 , segue que z := x − y ∈ K1 . Assim, x = y + z, com y ∈ Jv, q e
z ∈ K1 . Isso provou I.

Note que a afirmação feita em I não significa que V = Jv, q ⊕ K1 , pois os sub-espaços Jv, q e K1
podem ter uma intersecção não-trivial. Tem-se, porém, o seguinte:

II. Jv, q ∩ K0 = {0}.


Provemos essa afirmação. Seja x ∈ Jv, q ∩ K0 . Como x ∈ Jv, q , x é da forma x = α1 v + α2 N v +
· · · + αq N q−1 v. Logo N x = α1 N v + α2 N 2 v + · · · + αq−1 N q−1 v ∈ JN v, q−1 . Agora, como x ∈ K0 e,
por hipótese, K0 é invariante por N , segue que N x ∈ K0 . Logo, N x ∈ JN v, q−1 ∩ K0 . Todavia,
mencionamos acima que JN v, q−1 ∩ K0 = {0}. Logo, N x = 0, ou seja, 0 = N x = α1 N v + α2 N 2 v +
· · · + αq−1 N q−1 v. Como os vetores N v, . . . , N q−1 v são linearmente independentes, concluı́mos
que α1 = · · · αq−1 = 0. Logo, x = αq N q−1 v. Isso significa que x ∈ JN v, q−1 . Demonstramos,
então, que se x ∈ Jv, q ∩ K0 então x ∈ JN v, q−1 ∩ K0 mas, como JN v, q−1 ∩ K0 = {0}, segue que
x = 0. Isso conclui a prova de II.

III. K0 e Jv, q ∩ K1 , são dois sub-espaços disjuntos de K1 .


A demonstração é muito simples. É evidente que Jv, q ∩ K1 é subespaço de K1 . Como K0 é
invariante pela ação de N , segue que se x ∈ K0 então N x ∈ K0 . Pela definição, isso diz que
x ∈ K1 e concluı́mos que K0 é um subespaço e K1 .
Que K0 e Jv, q ∩ K1 são sub-espaços disjuntos, segue do fato que
II
K0 ∩ (Jv, q ∩ K1 ) = K1 ∩ (Jv, q ∩ K0 ) = K1 ∩ {0} = {0} .

A afirmação III implica que K1 = (Jv, q ∩ K1 ) ⊕ K0 ⊕ K00 para algum subespaço K00 de K1 (não
necessariamente único). Seja agora K := K0 ⊕ K00 . Note que K1 = (Jv, q ∩ K1 ) ⊕ K e, portanto,

(Jv, q ∩ K1 ) ∩ K = {0} . (3.60)

Provaremos que esse K possui as propriedades desejadas, ou seja, que V = Jv, q ⊕K, sendo K invariante
por N . Isso é feito em três passos.

1. Jv, q e K são sub-espaços disjuntos, ou seja, Jv, q ∩ K = {0}, pois, como K ⊂ K1 , segue que
K = K ∩ K1 e, portanto,
(3.60)
Jv, q ∩ K = Jv, q ∩ (K ∩ K1 ) = (Jv, q ∩ K1 ) ∩ K = {0} .

2. Jv, q ⊕K contem os vetores de Jv, q e de (Jv, q ∩K1 )⊕K = K1 . Por I, isso implica que Jv, q ⊕K = V .
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 3 196/1195

3. K é invariante por N , pois o fato que K ⊂ K1 , implica, pela definição de K1 , que N K ⊂ N K1 ⊂


K0 ⊂ K.

A prova do Teorema 3.19 está completa

A principal conseqüência do Teorema 3.19 é a seguinte.


Proposição 3.19 Seja N ∈ Mat ( , n) uma matriz nilpotente de ı́ndice q. Então existem

1. um inteiro positivo r, com 1 ≤ r ≤ n,

2. r números inteiros positivos n ≥ q1 ≥ q2 ≥ · · · ≥ qr ≥ 1, com q1 + · · · + qr = n,

3. r vetores v1 , . . . , vr satisfazendo N qj vj = 0 mas N qj −1 vj 6= 0, j = 1, . . . , r,

tais que
V = J v1 , q1 ⊕ · · · ⊕ J vr , qr .
2

Prova. Se q = 1 então N = 0. Basta tomar r = n e escolher v1 , . . . , vn uma base qualquer em V . Os


qj ’s são todos iguais a 1.
Consideremos então q > 1 com N 6= 0. Tomemos q1 = q. Pelo Teorema 3.19, existem um vetor
v1 6= 0 e um subespaço K 1 , invariante por N tais que

V = J v1 , q1 ⊕ K 1 .

Como K 1 é invariante por N , podemos também dizer que a matriz N é nilpotente quando restrita
a K 1 (já que é nilpotente em todo V ). Denotemos por q2 o ı́ndice de N quando restrita a K 1 . É claro
que q2 ≤ q = q1 .
Assim, podemos aplicar o Teorema 3.19 para a matriz N restrita a K 1 e concluir que existe v2 6= 0
em K 1 e um subespaço K 2 de K 1 , invariante por N , tais que K 1 = Jv2 , q2 ⊕ K 2 . Note que N q2 v2 = 0,
pois v2 ∈ K 1 .
Com isso, temos
V = J v1 , q1 ⊕ J v2 , q2 ⊕ K 2 .
Novamente K 2 é invariante por N e, como K 2 é um sub-espaço de K 1 . O ı́ndice de N em K 2 será
q3 ≤ q 2 ≤ q 1 .
O espaço V tem dimensão finita. Assim, a prova se concluı́ repetindo o procedimento acima um
número finito r de vezes. Note que N qj vj = 0, pois N q1 v1 = 0, e vj ∈ K j−1 para todo j = 2, . . . , r.

Pela construção acima, é claro que q1 + · · · + qr = n, a dimensão de V , e que os n vetores

v1 , N v1 , . . . , N q1 −1 v1 , v2 , N v2 , . . . , N q2 −1 v2 , . . . , vr , N vr , . . . , N qr −1 vr
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 3 197/1195

são linearmente independentes e formam uma base em V . Vamos denotá-los (na ordem em que aparecem
acima) por b1 , . . . , bn .
Note agora que, pela construção, N bj = bj+1 , para j em cada um dos conjuntos

{1, . . . , q1 − 1}, {1 + q1 , . . . , q1 + q2 − 1}, {1 + q1 + q2 , . . . , q1 + q2 + q3 − 1},

... {1 + q1 + · · · + qr−1 , . . . , q1 + · · · + qr − 1} , (3.61)

com l = 0, . . . , r − 1, sendo que N bj = 0 para todo j na forma q1 + · · · + ql , l = 1, . . . , r.

E. 3.25 Exercı́cio impotante para compreender o que segue. Justifique as últimas afirmações. 6

Isso significa que na base b1 , . . . , bn os elementos de matriz de N são todos nulos exceto aqueles na
forma Nj, j+1 com j em algum dos conjuntos listados em (3.61), em cujo caso Nj, j+1 = 1. Pictoriamente,
isso diz-nos que na base b1 , . . . , bn a matriz N assume uma forma genericamente ilustrada na Figura
3.1. Essa é a denominada forma canônica da matriz nilpotente N ou representação canônica da matriz
nilpotente N , que descrevemos mais detalhadamente no que segue.
Os elementos da diagonal principal são todos nulos. Os únicos elementos não-nulos da matriz
podem estar localizados apenas na diagonal imediatamente acima da principal, ou seja, aquela diagonal
formada por elementos de matriz do tipo Nj, j+1 com j = 1, . . . , n − 1. Chamaremos essa diagonal de
primeira supra-diagonal. Os elementos da primeira supra-diagonal podem ser 0 ou 1, da forma seguinte:
a primeira supra-diagonal possuirá r fileiras. As primeiras r − 1 fileiras são formadas por q j elementos,
j = 1, . . . , n − 1, sendo os primeiros qj − 1 elementos iguais a 1 e o último igual a 0. A última fileira
terá qr − 1 elementos iguais a 1. Assim, se qr = 1, o último elemento da primeira supra-diagonal será
nulo, proveniente da (r − 1)-ésima fileira (essa é a única forma de aparecer um zero no último elemento
da primeira supra-diagonal).
Note que zeros consecutivos podem ocorrer, se tivermos alguns qj ’s iguais a 1. Note também que
os elementos da primeira supra-diagonal podem ser todos nulos (o que valerá se r = n, em cujo caso
q1 = · · · = rn = 1. Isso só pode ocorrer se N = 0 e, nesse caso, q = 1) ou todos iguais a 1 (o que valerá
se r = 1, em cujo caso q1 = n).

3.7.4 A Forma Canônica de Matrizes


Finalizamos esta seção e nossa discussão sobre o Teorema da Decomposição de Jordan e suas con-
seqüências reunindo o que descobrimos até aqui.
Se A ∈ Mat ( , n) o Teorema 3.17, página 191 ensinou-nos que numa base conveniente (ou seja,
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 3 198/1195

0 1 (q − 1) vezes
1

} 1
0
1
(q − 1) vezes
2
0
N =
} 1
0

0
1

1
0

0 (q − 1) vezes
r
1

0 } 1
0

Figura 3.1: Forma canônica tı́pica de uma matriz nilpotente N . Os elementos da primeira supra-
diagonal podem valer 0 ou 1. Todos os demais elementos de matriz são nulos.

por uma transformação de similaridade P0−1 AP0 ), toda matriz A tem a forma de blocos diagonais:
 
α1 n1 + N 1 0 ··· 0
   
A1 0 · · · 0  
 0 α 2 n2 + N 2 · · · 0 
 0 A2 · · · 0   
−1    
P0 AP0 =  .. .. . . ..  =  , (3.62)
 . . . .   .. .. . . .. 
 . . . . 
0 0 · · · Ar  
 
0 0 · · · α r nr + N r

sendo α1 , . . . , αr os autovalores distintos de A. O j-ésimo bloco é de tamanho nj × nj , sendo que nj


é a multiplicidade algébrica do autovalor αj . As matrizes Nj são nilpotentes.
Cada matriz Nj pode ser levada à sua forma canônica Njc (tal como explicado em (3.1) e no que se
lhe segue) em uma base conveniente, ou seja, por uma transformação de similaridade Pj−1 Nj Pj . Assim,
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 3 199/1195

definindo  
P1 0 · · · 0
 0 P2 · · · 0 
 
P =  .. .. . . ..  (3.63)
. . . .
0 0 · · · Pr
vemos que P −1 (P0−1 AP0 )P = (P0 P )−1 A(P0 P ), sendo que, por (3.62),
 −1 
P1 (α1 n1 + N1 ) P1 0 ··· 0
 
 
 0 P2−1 (α2 n2 + N2 ) P1 ··· 0 
 
 
P −1 (P0−1 AP0 )P =  
 .. .. .. .. 
 . . . . 
 
 
0 0 · · · Pr−1 (αr nr + N r ) Pr
 
α1 n1 + N1c 0 ··· 0
 
 
 0 α2 + N2c · · · 0 
 n2 
 
=  . (3.64)
 .. .. .. .. 
 . . . . 
 
 
0 0 · · · αr nr + Nrc

E. 3.26 Exercı́cio. Complete os detalhes. 6

A matriz final de (3.64) é denominada forma canônica da matriz A, ou forma canônica de Jordan
da matriz A. Como dissemos, toda matriz A assume essa forma numa certa base. Devido ao fato de
todos as sub-matrizes nilpotentes Njc terem a forma canônica, os únicos elementos não-nulos da forma
canônica da matriz A podem estar ou na diagonal principal (sendo estes os autovalores de A, cada
um aparecendo em uma fileira de nj elementos), ou na primeira supra-diagonal, sendo que estes valem
apenas 0 ou 1 e seguem as regras descritas acima. Isso é ilustrado na Figura 3.2,
A Figura 3.2, mostra a forma canônica de uma matriz que possui 4 autovalores distintos α 1 , α2 , α3
e α4 . A primeira supra-diagonal é formada pela seqüência de números
γ11 , . . . , γ1a , 0, γ11 , . . . , γ1b , 0, γ11 , . . . , γ1c , 0, γ11 , . . . , γ1d , (3.65)
sendo que os γij assumem apenas os valores 0 ou 1, de acordo com as regras explicadas acima quando
discutimos a forma canônica de matrizes nilpotentes. Todos os elementos fora da diagonal principal e
da primeira supradiagonal são nulos. O primeiro bloco é de dimensão (a + 1) × (a + 1), o segundo bloco
é de dimensão (b + 1) × (b + 1) etc., sendo a + 1 a multiplicidade algébrica de α1 , b + 1 a multiplicidade
algébrica de α2 etc.
É interessante notar que na primeira supra-diagonal, sempre ocorrem zeros nos pontos localizados
fora dos blocos, ou seja, nos pontos onde ocorrem transições entre dois autovalores distintos (indicados
por setas na Figura 3.2). Esses são os zeros que ocorrem explicitamente na lista (3.65).
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 3 200/1195

Por fim, comentamos que a forma canônica não é exatamente única, pois é possı́vel ainda fazer
transformações de similaridade que permutem os blocos de Jordan da matriz. Além disso, dentro de
cada sub-espaço invariante (onde cada bloco age) é possı́vel fazer certas permutações dos elementos da
base, de modo a preservar a diagonal e permutar os γi ’s da primeira supradiagonal.

3.8 Algumas Representações Especiais de Matrizes


Nas seções anteriores apresentamos algumas formas especiais de representar matrizes com determinadas
caracterı́sticas, como aquelas expressas no Teorema Espectral e no Teorema de Jordan. Nesta seção
apresentaremos outras representações, relevantes em certos contextos, como a decomposição polar.

3.8.1 A Decomposição Polar de Matrizes


É bem conhecido o fato de que todo√número complexo z pode ser escrito na forma polar z = |z|e iθ , onde
|z| ≥ 0 e θ ∈ . Tem-se que |z| = zz e eiθ = z|z|−1 . Há uma afirmação análoga válida para matrizes


A ∈ Mat ( , n), a qual é muito útil, e da qual trataremos nesta seção. Antes de enunciarmos esse
resultado de forma mais precisa (o Teorema da Decomposição Polar, Teorema 3.20, abaixo), façamos
algumas observações preliminares.
Seja A ∈ Mat ( , n) e seja a matriz A∗ A. Notemos primeiramente que (A∗ A)∗ = A∗ A∗∗ = A∗ A, ou
seja, A∗ A e auto-adjunta. Pelo Teorema 3.12, página 179, é possı́vel encontrar um conjunto ortonormal
{vk , k = 1, . . . , n} de autovetores de A∗ A, com autovalores dk , k = 1, . . . , n, respectivamente, sendo
que a matriz
P := [[v1 , . . . , vn ]] (3.66)
(para a notação, vide (3.1)) é unitária e diagonaliza A∗ A, ou seja, P ∗ (A∗ A)P = D, sendo D a matriz
diagonal D := diag (d1 , . . . , dn ), cujos elementos da diagonal são os autovalores de A∗ A. Os autovalores
dk são todos maiores ou iguais a zero. De fato, se vk 6= 0 é um autovetor de A∗ A com autovalor dk ,
teremos dk kvk k2 = dk hvk , vk i = hvk , Bvk i = hvk , A∗ Avk i = hAvk , Avk i = kAvk k2 . Logo,
   

dk = kAvk k2 /kvk k2 ≥ 0.
Com esses fatos à mão, vamos definir uma matriz diagonal, que denotaremos sugestivamente por
√ √ 2
D , por D 1/2 := diag ( d1 , . . . , dn ). Tem-se que D 1/2 = D, uma propriedade óbvia15 . Note-se
1/2
∗ √
também que D 1/2 = D 1/2 , pois cada dk é real.

Definamos agora a matriz A∗ A, por

A∗ A := P D 1/2 P ∗ . (3.67)
√ √ ∗ ∗ √
Essa matriz A∗ A é auto-adjunta, pois A∗ A = P D 1/2 P ∗ = P D 1/2 P ∗ = A∗ A. Observemos que
√ 2
A∗ A = P (D 1/2 )2 P ∗ = P DP ∗ = A∗ A. Disso segue que
 √ 2  2 

det A∗ A = det A∗ A = det(A∗ A) = det(A∗ ) det(A) = det(A) det(A) = | det(A)|2 .

15
√ √
Essa não é a única matriz com essa propriedades, pois qualquer matriz do tipo diag (± d1 , . . . , ± dn ), com os
sinais ± escolhidos independentemente uns dos outros, também tem como quadrado a matriz D.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 3 201/1195

 √ √
Provamos assim que det A∗ A = | det(A)| e, portanto, A∗ A é invertı́vel se e somente se A o for.

Alguns autores denotam a matriz A∗ A por |A|, por analogia com o módulo de um número com-
plexo. Podemos agora formular e demonstrar o resultado que procuramos:
Teorema 3.20 (Teorema da Decomposição Polar) Seja A ∈ Mat ( , n). Então existe uma ma-
triz unitária U ∈ Mat ( , n) tal que √
A = U A∗ A . (3.68)
Se A é invertı́vel, então U é univocamente determinada. A representação (3.68) é denominada repre-
sentação polar de A. 2

Prova. Sejam, como acima, dk , k = 1, . . . , n os autovalores de A∗ A com autovetores respectivos vk ,


k = 1, . . . , n. Sabemos pelo Teorema 3.12, página 179 que podemos escolher os vk ’s de forma que
hvk , vl i = δk l .


Como vimos acima, os autovalores dk satisfazem dk ≥ 0. Sem perda de generalidade, vamos supô-los
ordenados de forma que dk > 0 para todo k = 1, . . . , r e dk = 0 para todo k = r + 1, . . . , n. Com essa
escolha, tem-se que
Avk = 0 para todo k = r + 1, . . . , n , (3.69)
pois de A∗ Avk = 0, seque que 0 = hvk , A∗ Avk i = hAvk , Avk i = kAvk k2 .
 

Para k = 1, . . . , r, sejam wk os vetores definidos da seguinte forma:


1
wk := √ Avk , k = 1, . . . , r . (3.70)
dk

É fácil ver que


1 1 dk dk
hwk , wl i  = √ hAvk , Avl i = √ hA∗ Avk , vl i = √ hvk , vl i = √ δk l = δ k l
dk dl


dk dl


dk dl


dk dl

para todos k, l = 1, . . . , r. Assim, o conjunto de vetores {wk , k = 1, . . . , r} forma um conjunto


ortonormal. A eles podemos acrescentar um novo conjunto {wk , k = r + 1, . . . , n}, escolhido ar-
bitráriamente, de vetores ortonormais pertenentes ao complemento ortogonal do sub-espaço gerado por
{wk , k = 1, . . . , r} e construir assim, um conjunto ortonormal {wk , k = 1, . . . , n}.
Sejam agora a matriz P , definida em (3.66) e as seguintes matrizes de Mat ( , n):

Q := [[w1 , . . . , wn ]] , U := QP ∗

(para a notação, vide (3.1)). Como {vk , k = 1, . . . , n} e {wk , k = 1, . . . , n} são dois conjuntos
ortonormais, segue que P e Q são matrizes unitárias (por quê?) e, portanto, U também é unitária.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 3 202/1195

√ √ 
É fácil ver que AP = QD 1/2 , onde D 1/2 = diag d1 , . . . , dn , De fato,
(3.66) (3.2)
AP = A[[v1 , . . . , vn ]] = [[Av1 , . . . , Avn ]]

(3.69)
= [[Av1 , . . . , Avr 0, . . . , 0]]

(3.70) p p
= [[ d1 w1 , . . . , dr wr 0, . . . , 0]]

(3.4)
[[w1 , . . . , wn ]]D 1/2 = QD 1/2 .
=
(3.67) √
Agora, de AP = QD 1/2 , segue que A = QD 1/2 P ∗ = U P D 1/2 P ∗ = U A∗ A, que é o que querı́amos
provar.
Para mostrar√ que U é univocamente
√ determinado se A for √invertı́vel, suponhamos que exista U 0
∗ 0 ∗
tal que A = U A A = U A A. Como comentamos √ acima,
√ A∗ A é invertı́vel se e somente se A
o for. Logo, se A é invertı́vel, a igualdade U A∗ A = U 0 A∗ A implica U = U 0 , estabelecendo a
unicidade. Caso A não seja invertı́vel a arbitrariedade de U reside na escolha dos vetores ortogonais
{wk , k = r + 1, . . . , n}.

O seguinte corolário é elementar:


Teorema 3.21 Seja A ∈ Mat ( , n). Então existe uma matriz unitária V ∈ Mat ( , n) tal que

A = AA∗ V . (3.71)
Se A é invertı́vel, então V é univocamente determinada. 2

∗ ∗
p √
Prova. Para a matriz A , (3.68) diz-nos que A = U (A ∗ )∗ A ∗ = U AA∗ para alguma matriz
√ 0 √ 0
unitária U0 . Como AA∗ é auto-adjunta, segue que A = AA∗ U0 . Identificando V = U0∗ , obtemos o

que desejamos.

O Teorema da Decomposição Polar pode ser generalizado para abranger operadores limitados agindo
em espaços de Hilbert (vide Teorema 23.22, página 1080) e mesmo para abranger operadores não-
limitados agindo em espaços de Hilbert (vide [99]).

3.8.2 O Teorema da Triangularização de Schur


O teorema que apresentamos abaixo, devido a Schur16 , é semelhante, mas não idêntico, ao Teorema de
Jordan: toda matriz de Mat ( , n) pode ser levada por uma transformação de similaridade induzida
por uma matriz unitária a uma matriz triangular superior (para a definição, vide Seção 3.6, página
182). Esse teorema é alternativamente denominado Teorema da Triangularização de Schur ou Teorema
da Decomposição de Schur. Como veremos, esse teorema pode ser usado para fornecer uma outra
demonstração (eventualmente mais simples) da diagonalizabilidade de matrizes auto-adjuntas e de
matrizes normais por matrizes unitárias.
16
Issai Schur (1875-1941).
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 3 203/1195

Teorema 3.22 (Teorema da Decomposição de Schur) Seja A ∈ Mat ( , n). Então existe U ∈
Mat ( , n), unitária, e S ∈ Mat ( , n), triangular superior, tais que A = U ∗ SU . Os elementos da
diagonal de S são os autovalores de A. 2

Antes de provarmos esse teorema, mencionemos um corolário evidente:


Corolário 3.3 Seja A ∈ Mat ( , n). Então existe V ∈ Mat ( , n), unitária, e I ∈ Mat ( , n),
triangular inferior, tais que A = V ∗ IV . Os elementos da diagonal de I são os autovalores de A. 2

Prova do Corolário 3.3. Pelo Teorema 3.22, a matriz A∗ pode ser escrita da forma A∗ = V ∗ SV , com V
unitária e S triangular superior. Logo, A = V ∗ S ∗ V . Porém, S ∗ ≡ I é triangular inferior.
Também pelo Teorema 3.22, os autovalores de A∗ são os elementos diagonais de S, que são o
complexo conjugado dos elementos diagonais de S ∗ ≡ I. Mas os autovalores de A são o complexo
conjugado dos autovalores de A∗ (pela Proposição 3.14, página 176) e, portanto, são os elementos
diagonais de I.

Prova do Teorema 3.22. Comecemos observando que se A = U ∗ SU com U unitário, então A e S têm o
mesmo polinômio caracterı́stico e, portanto, os mesmos autovalores, incluindo a multiplicidade (vide a
discussão
Qn em torno de (3.7), página 146). Mas o polinômio caracterı́stico de S é p S (x) = det(x − S) =
k=1 (x − Skk ), pois S é triangular superior e, portanto, os autovalores de S são os elementos de sua
diagonal. Passemos à demonstração da afirmativa principal, ou seja, que A = U ∗ SU com U unitário e
S triangular superior.
Seja n ≥ 2 e v1 um autovetor de A com autovalor λ1 e kv1 k = 1. Seja U (1) uma matriz unitária da
(1) (1) (1)
forma U (1) = [[u1 , . . . , un ]] com u1 = v1 , ou seja, cuja primeira coluna é o vetor v1 . Então,
 (1) (1)

λ1 b1 ··· bn−1
 (1) (1) 
(1) (3.2)
0
(1) 
a11 ··· a1(n−1) 
AU
(1) (1) (1) (1) (1)
= [[Au1 , . . . , Aun ]] = [[λ1 u1 , Au2 , . . . , Aun ]] = U  . .. .. 
.. 
 .. . . . 
(1) (1)
0 a(n−1)1 · · · a(n−1)(n−1)

(1) (1)
para certos bk e akl , k, l = 1, . . . , n − 1, onde
n−1
X
(1) (1) (1) (1) (1)
Auk = b k u1 + alk ul+1 , k = 2, . . . , n . (3.72)
l=1

Para simplificar a notação, definimos


 (1)
    (1) (1) 
b1 0 a11 ··· a1(n−1)
   ..   
b(1) =  ...  , n−1 = . , A(1) =  ... ..
.
..
.  ,
(1) (1) (1)
bn−1 0 a(n−1)1 · · · a(n−1)(n−1)
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 3 204/1195

( n−1 tendo n − 1 linhas) e escrevemos a identidade (3.72) como


 T
(1) ∗ (1) λ1 b(1)
U AU = (1)
. (3.73)
n−1 A

Para n = 2 isso demonstra o teorema, pois afirma que


!
(1)
(1) ∗ λ1 b 1
U AU (1) = (1) ,
0 a11

sendo o lado direito uma matriz triangular superior. Para n > 2 procedemos por indução. Supondo a
afirmação válida para matrizes (n − 1) × (n − 1), então existe uma matriz unitária V ∈ Mat ( , n − 1)
tal que V ∗ A(1) V = S (1) ,sendo S (1) triangular superior. Assim, definindo a matriz unitária U (2) ∈
1 T
Mat ( , n) por U (2) := n−1
n−1
V
, teremos por (3.73),
∗ ∗ ∗
U (1) U (2) AU (1) U (2) = U (2) U (1) AU (1) U (2)
 T
 T T

1 n−1 λ1 b(1) 1 n−1
= ∗
n−1 V n−1 A(1) n−1 V
 T 
λ1 V T b(1)
=
n−1 V ∗ A(1) V
 T 
λ1 V T b(1)
= ,
n−1 S (1)

que é triangular superior, pois S (1) o é. Como U (1) U (2) é unitária (pois U (1) e U (2) o são), o teorema
está provado.

Comentário. Toda matriz triangular superior S pode ser escrita na forma D + N , sendo D a matriz
diagonal formada pela diagonal de S (ou seja, Dii = Sii para todo i = 1, . . . , n) e N é nilpotente (pois
é triangular superior, mas com diagonal nula). Assim, o Teorema 3.22 afirma que toda matriz A pode
ser levada à forma D + N por uma transformação de similaridade unitária. Porém, o Teorema 3.22 não
garante (nem é verdade, em geral) que D e N comutem. Assim, o Teorema 3.22 é distinto do Teorema
de Jordan, Teorema 3.18, página 192.
O Teorema 3.22 tem por corolário o seguinte teorema, já provado anteriormente por outros meios
(Teorema 3.12, página 179, e Proposição 3.16, página 181).
Teorema 3.23 Uma matriz A ∈ Mat ( , n) é auto-adjunta, se e somente se for diagonalizável por
uma transformação de similaridade unitária e se seus autovalores forem reais. 2

Prova. Pelo Teorema 3.22, existe uma matriz unitária U tal que U ∗ AU = S, sendo S triangular superior
cujos elementos diagonais são os autovalores de A. Assim, se A = A∗ , seque que S ∗ = (U ∗ AU )∗ =
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 3 205/1195

U ∗ A∗ U = U ∗ AU = S. Mas para uma matriz triangular superior S, a igualdade S = S ∗ implica que S


é diagonal e os elementos da diagonal são reais.
Reciprocamente, se A ∈ Mat ( , n) é diagonalizável por uma transformação de similaridade unitária
e seus autovalores são reais, ou seja, existe U unitária e D diagonal real com U ∗ AU = D, então
A = U DU ∗ e A∗ = U D ∗ U ∗ . Como D é diagonal e real, vale D ∗ = D e, portanto, A∗ = U DU ∗ = A,
provando que A é auto-adjunta.

Pelo Teorema 3.22, se A ∈ Mat ( , n) é uma matriz normal e U ∗ AU = S, com U unitária e S


triangular superior, então S é normal (justifique!). Assim, junto com o Lema 3.2, página 183, provamos
o seguinte:
Teorema 3.24 Uma matriz A ∈ Mat ( , n) é normal se e somente se for diagonalizável por uma
transformação de similaridade unitária. 2

Essas afirmações foram demonstradas por outros meios no Teorema 3.14, página 182.

3.8.3 A Decomposição QR e a Decomposição de Iwasawa (“KAN”)


O propósito desta seção é apresentar a chamada decomposição de Iwasawa 17 , ou decomposição KAN 18 ,
de matrizes invertı́veis, Teorema 3.26. Esse teorema tem relação com a teoria dos grupos de Lie, como
discutiremos brevemente ao final. Os dois primeiros resultados preparatórios abaixo, Proposição 3.20
e Teorema 3.25 (Decomposição QR), têm interesse por si só.
Proposição 3.20 Seja R ∈ Mat ( , n) uma matriz triangular superior cujos elementos diagonais são
não-nulos (i.e., R é invertı́vel). Então, podemos escrever R = AN , onde A ∈ Mat ( , n) é a matriz
diagonal formada com a diagonal de R: A = diag (R11 , . . . , Rnn ), e N ∈ Mat ( , n) é uma matriz
triangular superior cujos elementos diagonais são iguais a 1. 2

17
Kenkichi Iwasawa (1917-1998).
18
Infelizmente não há uniformidade na literatura quanto à denominação dessa decomposição. Vamos chamá-la de
“decomposição de Iwasawa” pois a mesma é um caso particular (para o grupo GL( , n) das matrizes complexas n × n
invertı́veis) de um teorema mais geral da teoria dos grupos de Lie, denominado Teorema da Decomposição de Iwasawa,
que afirma que todo elemento g de um grupo de Lie semi-simples pode ser escrito como produto de um elemento k de
um sub-grupo compacto maximal, por um elemento a de um subgrupo Abeliano (real) e por um elemento n de um
sub-grupo nilpotente (ou seja, cuja álgebra de Lie é nilpotente): g = kan. Em Alemão, as palavras compacto, Abeliano e
nilpotente são “Kompakt”, “Abelsch” e “Nilpotent”, daı́ a denominação “decomposição KAN ” para essa decomposição,
denominação essa encontrada em alguns textos.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 3 206/1195

Prova. É fácil constatar que (abaixo m ≡ n − 1)


     R12 R1n 
R11 R12 · · · · · · R1n R11 0 · · · · · · 0 1 R11 · · · ··· R11
 .   .  .. 
 0 R22 . . R2n   0 R22 . . 0  0 1 . R2n

 . .   . .   .. 
R22
R =  .. .. .. ..   .. .. .. ..  . ... ... .. 
 .. . . .  =  .. . . .   .. . .  .
 ..   ..  .. 
 0 . Rmm Rmn   0 . Rmm 0  0 . 1 Rmn 
Rmm
0 ··· ··· 0 Rnn 0 ··· ··· 0 Rnn 0 ··· ··· 0 1
| {z }| {z }
A N

O estudante deve comparar as afirmações do teorema a seguir com o Teorema da Decomposição


Polar, Teorema 3.20, página 201, e com o Teorema da Decomposição de Schur, Teorema 3.22, página
203.
Teorema 3.25 (Teorema da Decomposição QR) Seja M ∈ Mat ( , n) uma matriz invertı́vel.
Então M pode ser escrita na forma M = QR, onde Q ∈ Mat ( , n) é unitária e R ∈ Mat ( , n) é
triangular superior, sendo que os elementos diagonais de R são estritamente positivos.

Prova do Teorema 3.25. Seja M = [[m1 , . . . , mn ]]. Como M é invertı́vel, os vetores mk , k = 1, . . . , n,


são linearmente independentes, ou seja, formam uma base em n . Podemos, portanto, usar o procedi-
mento de ortogonalização de Gram19 -Schmidt20 e construir uma nova base ortonormal de vetores qj ,
j = 1, . . . , n, a partir dos vetores ml , l = 1, . . . , n. Tais vetores são definidos por
j−1
X
mj − hql , mj i ql 

m1 l=1
q1 = , qj = , j = 2, . . . , n .
km1 k j−1
X

m
j − hq l , m j i q l



l=1

Como é fácil verificar, tem-se hqi , qj i = δi j para todos i, j = 1, . . . , n. As relações acima implicam


trivialmente
j−1
j−1
X X

m1 = q1 km1 k , m j = q j m j − hql , mj i ql + ql hql , mj i , j = 2, . . . , n ,

 

l=1 l=1

19
Jørgen Pedersen Gram (1850-1916).
20
Erhard Schmidt (1876-1959).
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 3 207/1195

relações estas que podem ser escritas em forma matricial como


 
R11 hq1 , m2 i  ··· ··· hq1 , mn i 

 
 
 .. 
 0 R22 . ··· hq2 , mn i 
 


 
 . .. .. .. .. 
[[m1 , . . . , mn ]] = [[q1 , . . . , qn ]] R, onde R := 
 .. . . . .  ,

 
 
 .. 
 0 . R(n−1)(n−1) hqn−1 , mn i 
  

 
0 ··· ··· 0 Rnn
(3.74)
com
j−1
X

R11 = km1 k , Rjj = m j − hql , mj i ql , j = 2, . . . , n .



l=1

E. 3.27 Exercı́cio. Convença-se da validade da relação (3.74). 6

Definindo Q := [[q1 , . . . , qn ]], a relação (3.74) diz-nos que M = QR, sendo R triangular superior
(como se vê) e Q unitária (pois os vetores ql , l = 1, . . . , n, são ortonormais). Isso completa a prova do
Teorema 3.25.

Chegamos assim ao importante Teorema da Decomposição de Iwasawa para matrizes invertı́veis:


Teorema 3.26 (Teorema da Decomposição de Iwasawa, ou Decomposição KAN ) Seja M ∈
Mat ( , n) uma matriz invertı́vel. Então M pode ser escrita de modo único na forma M = KAN ,
onde K ∈ Mat ( , n) é uma matriz unitária, A ∈ Mat ( , n) é a uma matriz diagonal, tendo elementos
diagonais estritamente positivos, e N ∈ Mat ( , n) é uma matriz triangular superior cujos elementos
diagonais são iguais a 1. 2

Prova. A afirmação que M pode ser escrita na forma M = KAN , com K, A e N com as propriedades
acima segue imediatamente da Proposição 3.20 e do Teorema 3.25, dispensando demonstração. O único
ponto a se demonstrar é a unicidade dessa decomposição.
Vamos então supor que para algum M ∈ Mat ( , n) existam K, K0 ∈ Mat ( , n), matrizes
unitárias, A, A0 ∈ Mat ( , n), matrizes diagonais, tendo elementos diagonais estritamente positivos, e
N, N0 ∈ Mat ( , n) matrizes triangulares superiores cujos elementos diagonais são iguais a 1, tais que
M = KAN = K0 A0 N0 .
Segue imediatamente disso que K0−1 K = A0 N0 N −1 A−1 . O lado esquerdo dessa igualdade é uma
matriz unitária e, portanto, normal. O lado direito é uma matriz triangular superior (pela Proposição
3.17, página 182). Pelo Lema 3.2, página 183, A0 N0 N −1 A−1 deve ser uma matriz diagonal D. Assim,
temos que K0−1 K = D e A0 N0 N −1 A−1 = D. A primeira dessas relações diz-nos que D é unitária.
A segunda diz-nos que N0 N −1 = A−1 −1
0 DA, ou seja, N0 = D0 N , onde D0 := A0 DA é diagonal (por
ser o produto de três matrizes diagonais). Agora, N e N0 são matrizes triangulares superiores cujos
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 3 208/1195

elementos diagonais são iguais a 1. Portanto, a relação N0 = D0 N com D0 diagonal só é possı́vel se
D0 = (de outra forma haveria elementos na diagonal de N ou de N0 diferentes de 1), estabelecendo
que N = N0 .
Provamos, assim, que A−1 −1
0 DA = , ou seja, D = A0 A . Agora, A e A0 são diagonais, tendo na
diagonal números reais positivos. Logo, D também é diagonal e tem na diagonal números reais positivos
e, portanto, D = D ∗ . Como D é unitária (como observado linhas acima), segue que D 2 = . Logo,
os elementos Dkk da diagonal de D satisfazem Dkk = ±1, para todo k = 1, . . . , n (os sinais podendo
ser distintos para k’s distintos). Agora, como A0 = DA e como A e A0 têm na diagonal números reais
positivos, não podemos ter Dkk = −1 para algum k e, portanto, D = . Conseqüentemente, K = K0
e A = A0 , estabelecendo a unicidade desejada.

Note o leitor que o conjunto das matrizes unitárias de Mat ( , n) forma um sub-grupo de GL( , n)
(o grupo das matrizes complexas n × n invertı́veis). O conjunto das matrizes diagonais de Mat ( , n)
tendo elementos diagonais estritamente positivos é igualmente um sub-grupo de GL( , n). Por fim,
o conjunto das matrizes triangulares superiores de Mat ( , n) cujos elementos diagonais são iguais
a 1 é também um sub-grupo de GL( , n). Assim, o Teorema 3.26 afirma que cada elemento de
GL( , n) pode ser escrito de modo único como produto de elementos de cada um desses três sub-
grupos. Esse é um caso particular de um teorema da teoria dos grupos de Lie conhecido como Teorema
da Decomposição de Iwasawa.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 3 209/1195

1
α γ1
1
0
a
γ1
0 α1 0
α
2
γ
1
2
0
0

b
0 γ
2
α2 0
1
α γ
3 3
0
c
γ
3
0 α

0 3 0
α
4
γ1
4
0
d
γ
4
0 α
4

Figura 3.2: Forma canônica de uma matriz com 4 autovalores distintos α1 , α2 , α3 e α4 . Os γ’s
assumem apenas os valores 0 ou 1, de acordo com as regras explicadas acima. Todos os elementos fora
da diagonal principal e da primeira supradiagonal são nulos. As setas indicam zeros que ocorrem na
primera supradiagonal nos pontos onde ocorre transição entre os blocos, conseqüência do fato de esses
elementos estarem fora dos blocos.
Capı́tulo 4
Tópicos de Álgebra Linear II
Conteúdo
4.1 Uma Topologia Métrica em Mat ( , n) . . . . . . . . . . . . . . . . . . . . . 211
4.2 Exponenciais, Logaritmos e Funções Analı́ticas de Matrizes . . . . . . . . 216
4.2.1 A Exponenciação de Matrizes e os Grupos GL( , n) e GL( , n) . . . . . . . 224


4.3 A Fórmula de Lie-Trotter e a Fórmula do Comutador . . . . . . . . . . . 227


4.4 Aplicações Lineares em Mat ( , n) . . . . . . . . . . . . . . . . . . . . . . . . 230
4.5 A Fórmula de Baker, Campbell e Hausdorff . . . . . . . . . . . . . . . . . 236
4.6 A Fórmula de Duhamel e Algumas de suas Conseqüências . . . . . . . . 242

presente capı́tulo diferencia-se do anterior por explorar aspectos mais topológicos de álgebras
de matrizes. Portanto, uma certa familiaridade com as noções básicas de espaços métricos
(vide Capı́tulo 13) é útil. Discutiremos a definição de funções analı́ticas de matrizes, em
particular, a exponencial e o logaritmo. Nosso principal objetivo, porém, é provar as seguintes
relações: para matrizes A, B ∈ Mat ( , n), valem:
Fórmula de Lie1 -Trotter2 .     m
1 1
exp (A + B) = lim exp A exp B . (4.1)
m→∞ m m
Fórmula do comutador:
        m2
1 1 1 1
exp ([A, B]) = lim exp A exp B exp − A exp − B . (4.2)
m→∞ m m m m
Série de Lie: X∞
1
exp(B)A exp(−B) = A + [B, [B, . . . , [B , A] . (4.3)
m! | {z }
m=1 m vezes
Fórmula de Baker-Campbell-Hausdorff3 (sobre a convergência, vide comentário adiante):
 
1 1 1
exp(A) exp(B) = exp A + B + [A, B] + [A, [A, B]] + [B, [B, A]] + · · · . (4.4)
2 12 12
Fórmula de Duhamel4 : Z 1  
exp(A + B) = exp(A) + exp (1 − s)(A + B) B exp sA ds , (4.5)
0
da qual se obtem a série de Duhamel:
" Z t ∞ Z t Z t1 Z m
#
X tm−1 Y 
−t1 A
e t(A+B)
= e tA
+ e t1 A
Be dt1 + ··· e−tk A Betk A
dtm · · · dt1 . (4.6)
0 m=2 0 0 0 k=1
1
Marius Sophus Lie (1842-1899).
2
Hale Freeman Trotter (1931-)
3
Henry Frederick Baker (1866-1956). John Edward Campbell (1862-1924). Felix Hausdorff (1868-1942).
4
Jean Marie Constant Duhamel (1797-1872).

210
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 4 211/1195

A série dentro da exponencial no lado direito de (4.4) é um tanto complexa, mas envolve apenas
comutadores múltiplos de A e B. A expressão completa encontra-se em (4.46), página 237. Ao
contrário das fórmulas que lhe precedem e sucedem, a fórmula de Baker-Campbell-Hausdorff não é
válida para quaisquer matrizes A e B pois, no caso geral, a convergência da série do lado direito só
pode ser estabelecida para matrizes suficientemente “pequenas”, a saber, tais que kAk e kBk sejam
√ 
 

ambas menores que 12 ln 2 − 22 ≈ 0, 12844 . . .. A definição de norma operatorial de matrizes será


apresentada adiante. Claro é que, nos casos felizes em que os comutatores múltiplos das matrizes A e
B se anulam a partir de uma certa ordem, a série do lado direito será finita e, portanto, convergente.
Comentamos ao leitor mais avançado que as expressões acima (e suas demonstrações abaixo) valem
não apenas para álgebras de matrizes, mas também no contexto mais geral de álgebras-∗ de Banach.
As fórmulas acima são empregadas em várias áreas da Fı́sica (como na Mecânica Quântica, na
Mecânica Estatı́stica e na Teoria Quântica de Campos) e da Matemática (como na Teoria de Grupos).
Faremos uso delas, por exemplo, nos Capı́tulos 10 e 11. Suas provas serão apresentadas, pela ordem,
na Proposição 4.12, página 227, na Proposição 4.13, página 232, no Teorema 4.1 da Seção 4.5, página
236 e na Seção 4.6, página 242. A única demonstração que se pode classificar como complexa é a da
fórmula de Baker-Campbell-Hausdorff, as demais são simples. No correr das páginas seguintes outras
identidades úteis, não listadas acima, serão obtivas.

4.1 Uma Topologia Métrica em Mat ( , n)


Discutiremos nesta seção uma topologia métrica natural em Mat ( , n) a qual usaremos na Seção 4.2
para definir certas funções analı́ticas de matrizes, tais como a exponencial e o logaritmo.
Recordando, Mat ( , n) é o conjunto de todas as matrizes complexas n×n e GL( , n) ⊂ Mat ( , n)
é o conjunto de todas as matrizes complexas n × n invertı́veis. Como já observamos, GL( , n) é um
grupo.

• Normas de Matrizes. A Norma Operatorial

Seja V um espaço vetorial de dimensão finita, como n ou np , dotado de uma norma k · kV . Para


n
3 u = (u1 , . . . , un ), por exemplo, podemos adotar kuk n := |u1 |2 + · · · + |un |2 . Vamos denotar


por L(V ) o conjunto de todas as aplicações lineares de V em V . É bem sabido que L(V ) é igualmente
um espaço vetorial. Por exemplo, L( n ) = Mat ( , n) e L( n ) = Mat ( , n).
 

Com uso da norma de V é possı́vel definir uma norma também em L(V ). Para A ∈ L(V ) define-se

kAukV
kAkL(V ) := sup .
u∈V kukV
u6=0

E. 4.1 Exercı́cio. Mostre que k · kL(V ) assim definida é, de fato, uma norma no espaço vetorial L(V ).
6
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 4 212/1195

Observação. Note que


kAkL(V ) = sup kAukV .
u∈V
kukV =1

Para A ∈ L(V ), a norma kAkL(V ) definida acima é denominada norma operatorial. Como co-
mentaremos abaixo, há outras normas em L( n ) e L( n ) que não a norma operatorial, mas que são


equivalentes àquela.
Observação. É uma conseqüência imediata da definição de norma operatorial que

kAukV ≤ kAkL(V ) kukV (4.7)

para todo vetor u ∈ V .


A norma operatorial tem a seguinte propriedade importante: para A, B ∈ L(V ) quaisquer, tem-se

kABkL(V ) ≤ kAkL(V ) kBkL(V ) .

E. 4.2 Exercı́cio importante. Mostre isso. Sugestão: use (4.7). 6

Observação. Em Mat ( , n) é possı́vel provar que kA∗ kMat ( 

, n) = kAkMat ( 

, n) . Vide Teorema
23.11, página 1042.
É importante comentar que o procedimento de construção de normas em L(V ) pode ser repetido.
Como L(V ) é igualmente um espaço vetorial normado e de dimensão finita, podemos definir uma norma
em L(L(V )) (o conjunto de todas as aplicações lineares de L(V ) em L(V )) definindo para A ∈ L(L(V ))

kAAkL(V )
kAkL(L(V )) := sup .
A∈L(V ) kAkL(V )
A6=0

E assim por diante para todos os espaços de aplicações L(L(· · · L(V )) · · · ).


Vamos a um exemplo. Tomemos V = n , L(V ) = Mat ( , n). Seja uma matriz X ∈ Mat ( , n)
fixa. Com ela poderemos definir um elemento denotado por ad[X] de L(Mat ( , n)) por

ad[X]A := [X, A] = XA − AX, A ∈ Mat ( , n).

É evidente que ad[X] é uma aplicação linear de Mat ( , n) em Mat ( , n), ou seja, um elemento de
L(Mat ( , n)). Note-se que

kXA − AXkMat ( 

, n)
kad[X]kL(Mat ( 

, n)) = sup
A∈L(V ) kAkMat ( , n) 

A6=0

kXAkMat ( , n) + kAXkMat (
 

, n)
≤ sup
A∈L(V ) kAkMat ( , n) 

A6=0

≤ 2kXkMat ( 

, n) . (4.8)
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 4 213/1195

Daqui para a frente denotaremos a norma operatorial de matrizes em n por k · k ou simplesmente 

por k · k. Além da norma operatorial, há outras normas que podem ser definidas em L( n ). Para
A ∈ Mat ( , n) podemos, por exemplo, definir as seguintes normas:
kAk∞ := max |Aab |, (4.9)
a, b = 1, ..., n

n X
X n
kAk1 := |Aab |, (4.10)
a=i b=1

n X
n
!1/2
X
kAk2 := |Aab |2 , (4.11)
a=i b=1

n X
n
!1/p
X
kAkp := |Aab |p , com p ≥ 1. (4.12)
a=i b=1

A expressão (4.12) generaliza (4.10) e (4.11).

E. 4.3 Exercı́cio. Mostre que (4.9)-(4.12) de fato definem normas em Mat ( , n). (Note que (4.10)-
(4.11) são casos particulares de (4.12)). Use a desigualdade de Minkowski (página 758) para (4.12). 6

E. 4.4 Exercı́cio. A norma (4.11) tem uma interpretação interessante. Mostre que,
hA, Bi = Tr (A∗ B), A, B ∈ Mat ( , n),
define um produto
pescalar em p
Mat ( , n). Mostre que (4.11) é a norma associada a esse produto escalar,
ou seja, kAk2 = hA, Ai = Tr (A∗ A). 6

Observação. É importante lembrar o Teorema 2.7, mencionado à página 121, que afirma que em
espaços vetoriais de dimensão finita todas as normas são equivalentes. Assim, em Mat ( , n) a norma
operatorial kAk e as normas kAk∞ e kAkp com p ≥ 1 são todas equivalentes. Note-se, porém, que


a propriedade da norma operatorial kABk ≤ kAk kBk não é necessariamente compartilhada por
  

outras normas. Em geral, tem-se kABk ≤ ckAk kBk para alguma constante c > 0.

E. 4.5 Exercı́cio. Seja D ∈ Mat ( , n) uma matriz diagonal: D = diag (d1 , . . . , dn ) com dk ∈ .
Mostre que kDk = max{|d1 |, . . . , |dn |}, ou seja, para matrizes diagonais kDk = kDk∞ .


6 

• Equivalência entre normas matriciais

Aqui denotaremos a norma operatorial de uma matriz A por kAk.


Sejam ei , i = 1, . . . , n os vetores da base canônica de n , ou seja, os vetores cuja j-ésima
componente é (ei )j = δij . Se A ∈ Mat ( , n), é claro que a i-ésima componente do vetor Aej é
(Aej )i = Aij . Daı́,
X n
kAej k2
= |Aij |2 .


2
kej k 

i=1
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 4 214/1195

Logo, para todo j,


( n
)
kAvk2 kAej k2 X
kAk2 := sup ≥ max = max |Aij |2 . (4.13)
 

v∈ n kvk2 
j=1, ..., n kej k2 
j=1, ..., n
i=1
v6=0

Pn
Tem-se também o seguinte. Para qualquer vetor v ∈ n , vale (Av)i = j=1 Aij vj . Assim, pela
desigualdade de Cauchy-Schwarz (2.15), página 120,
n
! n ! n
!
X X X
2 2 2 2
|(Av)i | ≤ |Aij | |vk | = |Aij | kvk2 . 

j=1 k=1 j=1

Daı́, !
n
X n X
X n
kAvk2 = 

|(Av)i |2 ≤ |Aij |2 kvk2 .




i=1 i=1 j=1

Logo,
Xn X n
2 kAvk2
kAk := sup ≤ |Aij |2 . (4.14)


v∈ n kvk2 i=1 j=1




v6=0

n
X 
Como |Aij |2 ≥ max |Aij |2 , segue de (4.13) que
i=1, ..., n
i=1

kAk2 ≥ max max |Aij |2 .


j=1, ..., n i=1, ..., n

Logo, para todo i, j vale |Aij | ≤ kAk, ou seja,

kAk∞ ≤ kAk.

De (4.14) vemos também que


n X
X n n X
X n
kAk2 ≤ |Aij |2 ≤ kAk2∞ = n2 kAk2∞ .
i=1 j=1 i=1 j=1

Concluı́mos assim que em Mat ( , n)

kAk∞ ≤ kAk ≤ nkAk∞ . (4.15)

A expressão (4.15) mostra-nos que caso tenhamos uma seqüência de matrizes A m com kAm k → 0
quando m → ∞, então cada elemento de matriz (Am )ij também converge a zero quando m → ∞. E
vice-versa: Se (Am )ij → 0 para todos ij quando m → ∞, então kAm k → 0 quando m → ∞.

Nota. Antes de prosseguirmos, comentemos também que as duas desigualdades (4.15) são optimais,
ou seja, não podem ser melhoradas para matrizes genéricas. Por exemplo, é evidente que k k ∞ = 1
e que k k = 1. Assim, pelo menos nesse caso tem-se a igualdade na primeira desigualdade de (4.15).
Há também um caso em que se tem a igualdade na segunda desigualdade de (4.15). Considere-se a
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 4 215/1195

matriz M cujos elementos de matriz são todos iguais a 1, ou seja, Mij = 1 para todos i, j. Seja o
vetor u de n cujas componentes são todas iguais a 1, ou seja, ui = 1 para todo i. É elementar ver
kM uk 

que M u = nu. Logo = n. Portanto, kM k ≥ n e kM k∞ = 1. Assim, kM k ≥ nkM k∞ e, da


kuk 

segunda desigualdade de (4.15), concluı́mos que, nesse caso, kM k = nkM k∞ .

A desigualdade (4.14) significa que kAk ≤ kAk2 . Ao mesmo tempo, a desigualdade (4.13) mostra
que
X n X n Xn
2 2
nkAk = kAk ≥ |Aij |2 = kAk22 .
j=1 j=1 i=1

Logo, concluı́mos que em Mat ( , n)


1
√ kAk2 ≤ kAk ≤ kAk2 . (4.16)
n

E. 4.6 Exercı́cio. Mostre que em Mat ( , n)


1
kAk1 ≤ kAk ≤ nkAk1 . (4.17)
n2
n
X
Sugestão: Mostre primeiro que kAk∞ ≤ |Aij | ≤ n2 kAk∞ ou seja
i, j=1

kAk∞ ≤ kAk1 ≤ n2 kAk∞ . (4.18)

e, então, use (4.15). 6

E. 4.7 Exercı́cio. Mostre que as desigualdades (4.18) também não podem ser melhoradas. 6

Nota. As expressões (4.15), (4.16), (4.17) e (4.18) mostram-nos de modo explı́cito que em Mat ( , n)
as normas k·k, k·k∞, k·k1 e k·k2 são equivalentes (vide definição à página 121). Como já mencionamos,
em espaços de dimensão finita todas as normas matriciais são equivalentes.

A importância de se introduzir uma norma em L(V ) é que podemos dessa forma introduzir uma
noção de distância entre elementos desse conjunto, ou seja, podemos definir uma métrica em L(V )
por d(A, B) = kA − Bk. Deixamos para o leitor a tarefa de demonstrar que isso de fato define uma
métrica em L(V ). Com isso, fazemos de L(V ) um espaço dotado de uma topologia métrica. Fora
isso, o importante Teorema 23.2 demonstrado à página 1020 afirma que L(V ) será um espaço métrico
completo se V o for. Logo, como n e n são sabidamente espaços vetoriais completos, assim o serão


Mat ( , n), Mat ( , n), assim como L(Mat ( , n)) etc. É possı́vel dessa forma falar de convergência de


seqüências e séries de matrizes de Mat ( , n), Mat ( , n), assim como de elementos de L(Mat ( , n))


etc. Abaixo faremos uso repetido desse fato fundamental.


JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 4 216/1195

4.2 Exponenciais, Logaritmos e Funções Analı́ticas de Matri-


zes
No estudo da teoria de grupos e em outras áreas é muito conveniente definir certas funções de operadores
lineares, tais como exponenciais, logaritmos etc. Já abordamos a definição da exponenciação de matrizes
nos capı́tulos 3 e 6. Vamos aqui tentar uma abordagem mais geral.

• Séries de Potências de Matrizes

Seja A ∈ Mat ( , n) uma matriz n × n complexa e seja {am m ∈  } uma seqüência de números
complexos. A expressão

X N
X
am Am = lim am Am = a 0 + a 1 A + a 2 A2 + a 3 A3 + · · ·
N →∞
m=0 m=0

é dita ser uma série de potências convergente, caso o limite acima exista em Mat ( , n).

Nota. Adotaremos sempre a convenção que A0 = .


A seguinte proposição é fundamental:

X ∞
X
m
Proposição 4.1 A séria de potências am A é convergente se |am | kAkm < ∞.


2
m=0 m=0

P∞
A importância dessa proposição reside no fato que m=0 |am |kAkm é uma série numérica e, portanto,


mais simples de lidar.


N
X
Prova. Sejam as somas parciais SN := am Am . Teremos para M < N ,
m=0

X
N N
X
m
kSN − SM k 

= am A ≤ |am | kAkm .



m=M +1 

m=M +1

P PN
Agora, como a série numérica ∞m=0 |a m | kAk m
converge, s N := m=0 |am | kAk
m
é uma seqüência de
PN
 

m
Cauchy. Logo m=M +1 |am | kAk pode ser feito menor que qualquer  > 0 dado, desde que escolhamos


M e N grandes o suficiente. Logo SN é também uma seqüência de Cauchy no espaço métrico completo
Mat ( , n). Portanto, SN converge em Mat ( , n) quando N → ∞.

• Funções Analı́ticas de Matrizes

A Proposição 4.1 conduz à seguinte definição. Seja r > 0 e Dr = {z ∈ | |z| < r} o disco aberto
de raio r centrado em 0 no plano complexo. Seja f : Dr → uma função analı́tica em Dr . Como bem
sabemos, f pode ser expressa em termos de uma série de potências (série de Taylor centrada em z 0 = 0):
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 4 217/1195

P
f (z) = ∞ m
onde fm = f (m) (0)/m!. É bem sabido também que essa série é absolutamente
m=0 fm z ,P
convergente em Dr : ∞ m
m=0 |fm | |z| < ∞, se |z| < r. Podemos então definir


X
f (A) := fm Am
m=0

para toda a matriz A com kAk < r, pois a proposição acima garante que a série de matrizes do lado


direito converge a alguma matriz de Mat ( , n), que denotamos por f (A), fazendo uma analogia óbvia
com a função numérica f .
A seguinte proposição sobre essas funções de matrizes será freqüentemente usada no que seguirá.
Proposição 4.2 I. Sejam f e g duas funções analı́ticas no mesmo domı́nio D r . Definamos (f +
g)(z) := f (z) + g(z) e (f g)(z) := f (z)g(z), z ∈ Dr . Então, para A ∈ Mat ( , n) com kAk < r 

teremos f (A) + g(A) = (f + g)(A) e f (A)g(A) = g(A)f (A) = (f g)(A).


II. Sejam f e g duas funções analı́ticas, com domı́nios Drf e Drg , respectivamente, e tais que a
imagem de g esteja contida no domı́nio de f . Podemos então definir f ◦ g(z) := f (g(z)). Então, para
A ∈ Mat ( , n) com kAk < rg teremos f (g(A)) = f ◦ g(A).


Prova. ←→ Exercı́cio.
Note-se que a parte I da proposição acima afirma que existe um homomorfismo da álgebra das
funções analı́ticas em um domı́nio Dr ⊂ e Mat ( , n).
Vamos mais adiante usar o seguinte resultado, que essencialmente afirma que as matrizes f (A)
definidas acima, com f analı́tica em um domı́nio Dr ⊂ , dependem continuamente de A.

P∞ em kum domı́nio Dr ⊂ , com f tendo a série


Proposição 4.3 Seja f função complexa analı́tica
de Taylor absolutamente convergente f (z) = k=0 fk z , |z| < r. Seja também Bm , m ∈ , uma 

seqüência de matrizes de Mat ( , n) tais que limm→∞ kBm k = 0. Então, para todo A ∈ Mat ( , n)


com kAk < r tem-se




lim f (A + Bm ) = f (A).
m→∞
2

Prova. Comecemos com um comentário sobre o enunciado do teorema. Para que f (A + B m ) esteja
definido é necessário que kA + Bm kC < r. Como kA + Bm kC ≤ kAk + kBm k e kAk < r, a condição
  

é satisfeita para m grande o suficiente, pois limm→∞ kBm k = 0. Assim, estaremos supondo que m é


grande o suficiente de modo que kBm k <  para algum  tal que kAk +  < r. Feita essa ressalva,
 

passemos à demonstração.
A prova da proposição segue como conseqüência das duas observações seguintes. A primeira é que
para quaisquer matrizes X, Y ∈ Mat ( , n) e qualquer k inteiro positivo tem-se a seguinte identidade
algébrica:
Xk−1
k k
X −Y = X p (X − Y ) Y k−1−p . (4.19)
p=0
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 4 218/1195

Para provar isso, basta expandir a soma do lado direito e mostrar, após alguns cancelamentos, que
obtem-se o lado esquerdo (faça!).

P∞A segunda observação é que se f é analı́tica em Dr , sua


P derivada também o é. Assim, f 0 (z) =
k=0 kfk z
k−1
converge absolutamente para |z| < r, ou seja, ∞ k=0 k|fk | |z|
k−1
< ∞ sempre que |z| < r.
Assim,

X  
f (A + Bm ) − f (A) = fk (A + Bm )k − Ak .
k=0

Usando (4.19) com X = A + Bm e Y = A, teremos



X k−1
X
f (A + Bm ) − f (A) = fk (A + Bm )p Bm Ak−1−p .
k=0 p=0

Logo,

X k−1
X
kf (A + Bm ) − f (A)k 

≤ kBm k 

|fk | kA + Bm kp kAkk−1−p .
 

k=0 p=0

Agora, como dissemos, kA + Bm k < kAk +  < r e, obviamente, kAk < kAk +  < r. Portanto,
   


X k−1
X ∞
X
kf (A + Bm ) − f (A)k 

≤ kBm k 

|fk | (kAk + )k−1 = kBm k




k|fk | (kAk + )k−1 .


 

k=0 p=0 k=0

Como comentamos acima, a soma do lado direito é finita. Como, porém, kBm k → 0 para m → ∞, 

teremos limm→∞ kf (A + Bm ) − f (A)k = 0, que é o que querı́amos provar.




• Exponenciais e Logaritmos de Matrizes

Com as definições apresentadas acima, podemos definir exponenciais e logaritmos de matrizes.


Temos,

X
A 1 m
exp(A) ≡ e := A (4.20)
m=0
m!
para toda matriz A ∈ Mat ( , n), pois a série de Taylor da função exponencial converge absolutamente
em todo o plano complexo.
Analogamente, podemos definir
X∞
(−1)m−1 m
ln( + A) = A (4.21)
m=1
m

para toda matriz A ∈ Mat ( , n) com kAk < 1, pois a série de Taylor da função ln(1 + z) converge


absolutamente em D1 .

Nota. Para kA − k < 1 podemos definir ln(A) por ln(A) := ln( + (A − )).

JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 4 219/1195

E. 4.8 Exercı́cio. Usando a Proposição 4.2, mostre que (exp(A)) m = exp(mA) para toda matriz
A ∈ Mat ( , n) e todo m ∈ . Mostre também que

exp(ln( + A)) = +A

para toda matriz A ∈ Mat ( , n) com kAk < 1 e que




ln (exp(B)) = B

para toda matriz B ∈ Mat ( , n) com k exp(B) − k < 1. 

Note que
X∞
1 m X∞
1

k exp(B) − k 

= B ≤ kBkm = ekBk − 1.
m=1 m! m!


m=1

Assim, a condição k exp(B) − k < 1 é satisfeita se kBk < ln 2.


 

Sobre a exponencial de matrizes temos o seguinte:


Proposição 4.4 Existe uma bola aberta Br (0) de raio r > 0 centrada em 0 em Mat ( , n) tal que
a aplicação exp : Mat ( , n) → Mat ( , n) definida acima é um homeomorfismo (em verdade, um
difeomorfismo) entre Br (0) e sua imagem, exp(Br (0)), a qual é uma vizinhança aberta da matriz
identidade . 2

X∞
1 m
Prova. Temos que, para todo A ∈ Mat ( , n), exp(A) − = A + ϕ(A), onde ϕ(A) := A . É
m=2
m!
fácil ver que kϕ(A)k
kAk
→ 0 para kAk → 0. exp(A) − é contı́nua e diferenciável em uma vizinhança de 0
(em verdade, em toda parte) e sua derivada em 0 é a identidade. A afirmação da Proposição 4.4 segue
então do bem conhecido Teorema da Aplicação Inversa (vide, por exemplo, [84]).

Junto com o último exercı́cio, isso prova a seguinte proposição:


Proposição 4.5 Para toda matriz A ∈ Mat ( , n) com kA − k < 1 tem-se 

exp(ln(A)) = A.

Para toda matriz B ∈ Mat ( , n) com kBk < ln 2 tem-se




ln (exp(B)) = B. (4.22)

• Exponenciais de Matrizes. Comutatividade

Para dois números complexos z e w é bem conhecida a validade da propriedade exp(z) exp(w) =
exp(z + w) da função exponencial. Podemos nos perguntar: será essa propriedade válida também
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 4 220/1195

para matrizes? A resposta é que em geral tal relação não é válida, apenas em certos casos especiais.
A questão de determinar o produto de exponenciais de matrizes tem grande importância em várias
manipulações algébricas e muito do que seguirá abordará esse problema.
Lembremos a primeiramente a seguinte proposição.
Proposição 4.6 Se A, B ∈ Mat ( , n) são duas matrizes que comutam, ou seja, AB = BA, então

eA+B = eA eB = eB eA . (4.23)

A propriedade (4.23) é familiar quando A e B são números, mas não é óbvia quando A e B são
matrizes. De fato a relação acima é geralmente falsa caso A e B sejam matrizes que não comutam.
No caso em que A e B não comutam o produto eA eB pode ser computado com uso da fórmula de
Baker-Campbell-Hausdorff, discutida na Seção 4.5, página 236.
Prova de (4.23). Pela definição
X∞ X∞
A+B 1 m 1
e = + (A + B) = (A + B)m ,
m=1
m! m=0
m!

onde convencionamos que (A + B)0 = . Como A e B comutam, vale a regra do binômio de Newton5
X m  
m m p m−p
(A + B) = AB .
p=0
p

E. 4.9 Exercı́cio. Por quê? Vale a regra do binômio de Newton no caso de A e B não comutarem?
Teste alguns exemplos. 6

Assim,
X∞ X m   X∞ X m
A+B 1 m p m−p 1
e = A B = Ap B m−p .
m=0 p=0
m! p m=0 p=0
(m − p)!p!
Agora, vale a seguinte regra de mudança de ordem de somas:
∞ X
X m ∞ X
X ∞
(· · · ) = (· · · ).
m=0 p=0 p=0 m=p

E. 4.10 Exercı́cio. Por quê? 6

Logo, !
∞ X
X ∞ X∞ ∞
X
1 1 p 1
eA+B = p m−p
AB = A B m−p .
p=0 m=p
(m − p)!p! p=0
p! m=p
(m − p)!
5
Isaac Newton (1643-1727).
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 4 221/1195

Agora, com a mudança de variável l = m − p,



X ∞
X
1 m−p 1 l
B = B = eB .
m=p
(m − p)! l!
l=0

Assim,
X∞
A+B 1 p B
e = A e = e A eB .
p=0
p!

Analogamente se prova que eA+B = eB eA .

Podemos nos perguntar: o que ocorre se A e B não comutarem? Há alguma maneira de calcular
exp(A + B) em termos de produtos de exp(A) e exp(B) nesse caso? A resposta a essas questões é dada
por três fórmulas muito importantes, a fórmula de Lie-Trotter, a fórmula do comutador e a fórmula de
Baker-Campbell-Hausdorff, das quais trataremos mais adiante.

• Algumas Propriedades de Funções Analı́ticas de Matrizes

Os exercı́cios seguintes, os quais são muito simples de provar, apresentam afirmativas freqüentemente
usadas sobre funções analı́ticas de matrizes.

E. 4.11 Exercı́cio. Usando a definição (4.20), mostre que



P −1 exp(A)P = exp P −1 AP (4.24)

para matrizes n × n reais ou complexas A e P , sendo P invertı́vel. 6

E. 4.12 Exercı́cio. Usando a definição (4.20), mostre que



exp(A)T = exp AT e que exp(A)∗ = exp (A∗ )

para A ∈ Mat ( , n) ou A ∈ Mat ( , n).  6

Os exercı́cios acima podem ser facilmente generalizados:



X
E. 4.13 Exercı́cio. Seja f (z) := fm z m uma série de potências convergente para |z| < r0 para algum
m=0
r0 > 0. Então para A ∈ Mat ( , n) com kAk < r0 tem-se


!T ∞ ∞
!∗ ∞
X X  X X
T m
fm A m
= fm A e fm A m
= fm (A∗ )m ,
m=0 m=0 m=0 m=0
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 4 222/1195


X

T
ou seja, f (A) = f A T ∗ ∗
e f (A) = f (A ), onde f (z) := fm z m = f (z). Prove essas afirmativas.
m=0
Prove também que !

X ∞
X
−1
m
P fm A m
P = fm P −1 AP ,
m=0 m=0

ou seja, P −1 f (A)P = f (P −1 AP ). 6

Também muito útil é a afirmação contida no seguinte exercı́cio:



X ∞
X
E. 4.14 Exercı́cio. Sejam f (z) = fm z m e g(z) = gm z m duas séries de potências convergentes
m=0 m=0
em |z| < r1 e |z| < r2 , respectivamente. Sejam A e B ∈ Mat ( , n) duas matrizes com kAk < r 1 e
kBk < r2 tais que AB = BA. Então f (A)g(B) = g(B)f (A). Prove isso. 6

• O Determinante de Exponenciais de Matrizes

O Teorema de Decomposição de Jordan (Teorema 3.18, página 192) permite-nos demonstrar o


seguinte resultado muito útil sobre o determinante de exponenciais de matrizes.
Proposição 4.7 Seja A ∈ Mat ( , n) ou A ∈ Mat ( , n). Então vale que 


det eA = eTr (A) . (4.25)

É suficiente que provemos (4.25) para matrizes complexas primeiro, pois matrizes reais podem ser
obtidas de matrizes complexas do limite quando a parte imaginária dos elementos de matriz vai a zero
e a continuidade, tanto do lado direito quanto do lado esquerdo de (4.25) em relação aos elementos de
matriz de A, garante a validade daquela expressão para matrizes reais também.
Para a prova precisamos de um lema preparatório simples.
Lema 4.1 Se D ∈ Mat ( , n) é uma matriz diagonal complexa n × n, então

det eD = eTr (D) .

Igualmente, se N ∈ Mat ( , n) é uma matriz nilpotente complexa n × n, então



det eN = eTr (N ) = 1.

Prova. A parte referente à matriz diagonal é a mais fácil. Suponhamos que D é a matriz diagonal
D = diag (d1 , . . . , dn ), sendo que os elementos da diagonal são os autovalores de D. Segue que eD
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 4 223/1195

 
é a matriz diagonal D = diag ed1 , . . . , edn . Assim, pela Proposição 3.2, página 145, det eD =
ed1 +···+dn = eTr (D) .
Tratemos agora da parte referente à matriz nilpotente N . Iremos provar provar que se N é nilpotente
todos os autovalores de eN são iguais a 1. Pela Proposição 3.18, página 186, os autovalores de N são
todos nulos, Assim, se φ é um autovetor de N teremos eN φ = φ, ou seja, φ é autovetor de eN com
autovalor 1. Infelizmente isso não nos permite concluir diretamente que todos os demais autovetores
de eN tem a mesma propriedade, mas, como veremos, isso é verdade.
Vamos supor que o ı́ndice de N seja k, ou seja, N k+1 = 0. Assim,
Xk
N 1 m
e = + N .
m=1
m!
Seja ψ 6= 0 um autovetor de eN com autovalor λ e suponhamos que λ 6= 1. De eN ψ = λψ tem-se
Xk
1 m
(λ − 1)ψ = N ψ (4.26)
m=1
m!
e, assim, aplicando N k a ambos os lados, concluı́mos que
(λ − 1)N k ψ = 0,
já que no lado direito aparecem potências como N k+1 ψ, N k+2 ψ etc., todas nulas. Como λ 6= 1, devemos
ter N k ψ = 0. Retornando a (4.26), podemos reescrevê-la como
k−1
X 1 m
(λ − 1)ψ = N ψ
m=1
m!
eliminando o termo com N k ψ. Aplicando N k−1 a ambos os lados, concluı́mos que
(λ − 1)N k−1 ψ = 0,
já que no lado direito aparecem potências como N k ψ, N k+1 ψ etc., todas nulas. Como λ 6= 1, devemos
ter N k−1 ψ = 0. Prosseguindo dessa forma concluiremos por fim que N ψ = 0. Assim, eN ψ = ψ = ψ,
provando que λ = 1, uma contradição.
A conclusão
 é que todos os autovalores de eN são iguais a 1, e pela Proposição 3.2, página 145,
det eN = 1. Notemos que, pelaProposição 3.18, página 186, os autovalores de N são todos nulos e,
assim, Tr (N ) = 0. Logo, det eN = 1 = eTr (N ) . Isso completa a prova do lema.

Prova da Proposição 4.7. Pelo Teorema de Decomposição de Jordan, existe uma matriz invertı́vel
T tal que A = T −1 (D + N )T , onde D é diagonal, N é nilpotente e DN = N D. Logo,

eA = exp T −1 (D + N )T = T −1 exp(D + N )T = T −1 exp(D) exp(N )T.
Portanto,
      
det eA = det T −1 eD eN T = det T −1 det eD det eN det (T ) = det eD det eN ,
pois det (T −1 ) = 1/ det (T ). Assim, pelo Lema 4.1, pela Proposição 3.7 e pela propriedade (3.8),

det eA = eTr (D) eTr (N ) = eTr (D+N ) = eTr (T (D+N )T ) = eTr (A) ,
−1

completando a prova.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 4 224/1195

4.2.1 A Exponenciação de Matrizes e os Grupos GL( , n) e GL( , n) 

Recordemos que GL( , n) (respectivamente, GL( , n)) designa o grupo das matrizes invertı́veis


complexas (reais) n × n. Aqui discutiremos a relação entre a exponenciação de matrizes e esses grupos.
Essa discussão terá um papel mais relevante quando tratarmos da teoria dos grupos de Lie e álgebras
de Lie nos Capı́tulos 10 e 11.
Em primeiro lugar, tem-se a seguinte proposição elementar:
Proposição 4.8 A aplicação exp definida em (4.20) é uma aplicação de Mat ( , n) em GL( , n)
(ou, correspondentemente, de Mat ( , n) em GL( , n)).
  2

Prova. É evidente pela definição (4.20) que exp(0) = . Tudo o que se deseja provar é que para
qualquer A ∈ Mat ( , n) então exp(A) é invertı́vel. Ora, por (4.23), é elementar constatar que
exp(A)−1 = exp(−A).

Tem-se também o seguinte:


Proposição 4.9 Para n ≥ 2 as aplicações exp : Mat ( , n) → GL( , n) e exp : Mat ( , n) → 

GL( , n) não são injetoras.


 2

Prova. Para matrizes complexas, basta constatar que, no exemplo das matrizes diagonais na forma
D = diag (2πk1 i, . . . , 2πkn i, ) com kl ∈ , tem-se exp(D) = .
 
0 1
Para matrizes reais, considere-se a matriz real A(α) := αJ onde J := , α ∈ . Como
−1 0


facilmente se vê, tem-se para m ∈ , A(α)2m = (−1)m (α)2m e A(α)2m+1 = (−1)m (α)2m+1 J. Daı́,


como facilmente se verifica por (4.20),


 
cos α sen α
exp(A(α)) = cos(α) + sen (α)J = .
− sen α cos α

Logo, exp(A(2πk)) = para todo k ∈ . Assim a exponenciação de matrizes reais 2 × 2 não pode ser
injetora. É fácil, a partir desse exemplo, construir outros para matrizes reais n × n com n ≥ 2.

Agora veremos duas proposições nas quais as matrizes reais e complexas se diferenciam.
Proposição 4.10 As aplicações exp : Mat ( , n) → GL( , n), n ≥ 1, não são sobrejetoras.
  2

Proposição 4.11 As aplicações exp : Mat ( , n) → GL( , n), n ≥ 1, são sobrejetoras. 2

Prova da Prop. 4.10. Pela Proposição 4.25, o determinante da exponencial de qualquer matriz real é
positivo. Ora, existem em GL( , n) matrizes com determinante negativo. Logo, a exponenciação de


matrizes reais não pode ser sobrejetora.


JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 4 225/1195

Comentário. Sobre matrizes reais é possı́vel dizer mais que o enunciado da Proposição 4.10 e sua
prova. Em verdade, não são apenas as matrizes com determinante negativo que estão fora da imagem
da exponenciação de matrizes reais. Há algumas com determinante positivo que também estão fora.
Se M é uma matriz real invertı́vel então seus autovalores são as raı́zes do polinômio caracterı́stico
p(x) = det(x − M ). Como M é real, esse polinômio tem coeficientes reais e, como é bem sabido, as
raı́zes de polinômios com coeficientes reais ou são números reais ou são pares de números complexos
complexo-conjugados
  uns dos outros. Por exemplo, as raı́zes do polinômio caracterı́stico da matriz
0 1
são ±i. De qualquer forma, uma matriz com determinante positivo pode, digamos, ter duas
−1 0
raı́zes negativas distintas simples, como é, por exemplo, o caso da matriz
 
1 0 0
0 −1 0  . (4.27)
0 0 −2

Isso posto, estudemos os autovalores das matrizes da forma eA com A real. Esses são as raı́zes do
polinômio caracterı́stico p(x) = det(x − eA ). Como toda matriz real é também membro de Mat ( , n)
podemos aplicar o Teorema da Decomposição de Jordan (Teorema 3.18, página 192) e afirmar que
existe uma matriz invertı́vel complexa P tal que P −1 AP = D + N com D diagonal, N nilpotente,
DN = N D, sendo que D tem na diagonal os autovalores da matriz real A. Assim, pela propriedade
do determinante,

p(x) = det(x − eA ) = det P −1 (x − eA )P = det(x − eD eN ).

É fácil de ver daı́6 que os autovalores de eA são os elementos da diagonal da matriz diagonal eD , que
são, como comentamos acima, exponenciais dos autovalores da matriz real A. Podemos nos perguntar:
podem os elementos da diagonal de eD serem números negativos? A resposta é sim, mas para isso é
necessário que A tenha um autovalor complexo cuja parte imaginária seja da forma (2k + 1)π, com k
inteiro. Ora, como A é real, existe pelo que comentamos acima, um outro autovalor complexo de A cuja
parte imaginária é da forma −(2k + 1)π, pois os autovalores complexos aparecem em pares complexo-
conjugados. Isso diz-nos que os autovalores negativos de eA tem multiplicidade par! Ora, isso nem
sempre é o caso para matrizes invertı́veis, como mostra o exemplo do último parágrafo. Assim, matrizes
reais com determinante positivo e com pelo menos um autovalor negativo com multiplicidade ı́mpar
não estão na imagem da exponencial de nenhuma matriz real. Tal é o caso da matriz de (4.27). Em
verdade, mesmo matrizes com determinante positivo e com autovalores negativos com multiplicidade
par podem não estar na imagem da exponencial. Tal é o caso das matrizes −1 a
0 −1 com a 6= 0 (mostre
isso).

Prova da Prop. 4.11. A Proposição 4.11 afirma que toda matriz complexa invertı́vel n × n pode ser
escrita como exponencial de outra matriz complexa n × n. Provemos isso. Seja A ∈ GL( , n). Pelo
Teorema da Decomposição de Jordan (Teorema 3.18, página 192) existe uma matriz invertı́vel P tal que
P −1 AP = D + N com D diagonal, N nilpotente, DN = N D, sendo que D tem na diagonal principal
os autovalores da matriz A. Esse último fato diz-nos que D não tem autovalores nulos e, portanto, é
também invertı́vel.
6
Pois numa base conveniente a matriz eD eN é uma matriz triangular superior, tendo na diagonal principal os elementos
da diagonal de eD .
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 4 226/1195

Podemos assim escrever D + N = D( + D −1 N ). O que faremos agora é provar os seguintes fatos:


1. D pode ser escrita como D = eF para alguma matriz F conveniente. 2. + D −1 N pode ser escrita
como + D −1 N = eG para alguma matriz G conveniente. 3. Podemos escolher F e G de modo que
F G = GF . Desses três fatos concluı́mos que P −1 AP = exp(F + G) e, portanto, A = exp (M ), onde
M = P (F + G)P −1 . Isso prova o que desejamos.
Prova de 1. Sejam α1 , . . . , αl os autovalores distintos de D. Pelo Teorema Espectral (vide Teorema
X l
3.4, página 163, ou Teorema 3.5, página 165) podemos escrever D = αj Ej , onde as matrizes Ej
j=1
satisfazem (3.22) e (3.23) e, de acordo com (3.24), podem ser expressas como polinômios em D (um fato
1
que será usado mais abaixo): Ej = mj (α j)
mj (D). (Os polinômios mj foram definidos na demonstração
do Teorema 3.5). Seja, para cada j, um número complexo fj escolhido de forma que exp(fj ) = αj .
Encontrar tais fj ’s sempre é possı́vel pois os αj ’s são não-nulos, já que D é invertı́vel. Se definirmos
l
X
F := fj Ej
j=1

é fácil constatar por (3.22) e (3.23) que exp(F ) = D (faça!). Isso prova 1. Note que, pelo que
comentamos acima, vale
Xl
fj
F = mj (D) , (4.28)
j=1
mj (αj )
ou seja, F pode ser expressa como um polinômio em D.
Prova de 2. Como D −1 e N comutam (por que?), segue que D −1 N é nilpotente de ordem, digamos,
k+1
k, ou seja (D −1 N ) = 0. Assim, para z ∈ escolhido de modo que kzD −1 N k < 1, o logaritmo de
−1
+ zD N está bem definido e vale (vide (4.21))
Xk
(−z)m m
G(z) = − D −1 N . (4.29)
m=1
m

Sabemos pela Proposição 4.5 que nesse caso em que kzD −1 N k < 1, ou seja, |z| < 1/kD −1 N k, temos
exp(G(z)) = + zD −1 N . (4.30)
Queremos agora provar que essa igualdade vale para todo z. Usando novamente o fato que as matrizes
k+1
D −1 e N comutam entre si, o fato que (D −1 N ) = 0 e o fato que a soma em (4.29) é finita, teremos
k
!
X (−z)m  m
exp(G(z)) = exp − D −1 N
m=1
m

k
Y  
(−z)m m
= exp − D −1 N
m=1
m

k
" k
#
Y X (−1)l (−z)ml ml
= + D −1 N .
m=1 l=1
l! ml
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 4 227/1195

Como as somas a produtos acima são finitos (conseqüência da nilpotência de D −1 N ), constatamos que
exp(G(z)) é um polinômio em z para todo z ∈ . Ora, já verificamos acima que, quando |z| é pequeno,
exp(G(z)) é igual ao polinômio em z dado por + zD −1 N . Como polinômios são funções analı́ticas
em toda parte isso implica que exp(G(z)) = + zD −1 N para todo z ∈ . Em particular, para z = 1,
o que significa que + D −1 N = exp(G), onde

Xk
(−1)m+1 m
G ≡ G(1) = D −1 N . (4.31)
m=1
m

E. 4.15 Exercı́cio. Usando a definição (4.31), prove explicitamente que exp(G) = + D −1 N . 6

Prova de 3. Por (4.28), F é um polinômio em D. Assim, F comuta com D −1 e com N . Logo,


por (4.31), F comuta com G. Isso é o que querı́amos provar e, assim, a prova da Proposição 4.11 está
completa.

4.3 A Fórmula de Lie-Trotter e a Fórmula do Comutador


Há duas expressões envolvendo produtos de exponenciais de matrizes que são bastante úteis. São as
fórmulas conhecidas como fórmula de Lie-Trotter7 e fórmula do comutador. A fórmula de Lie-Trotter
é importante não apenas no estudo de grupos de Lie matriciais mas também na Mecânica Estatı́stica
e na Mecânica Quântica, onde é freqüentemente empregada. A fórmula de Lie-Trotter, por exemplo, é
usada na Mecânica Estatı́stica para relacionar sistemas quânticos de spin a sistemas clássicos de spin.
Proposição 4.12 Para quaisquer matrizes A, B ∈ Mat ( , n) valem:
Fórmula de Lie-Trotter:
    m
1 1
exp (A + B) = lim exp A exp B . (4.32)
m→∞ m m

Fórmula do Comutador:
        m2
1 1 1 1
exp ([A, B]) = lim exp A exp B exp − A exp − B . (4.33)
m→∞ m m m m
2

7
A fórmula de Lie-Trotter foi originalmente demonstrada por Lie (Marius Sophus Lie (1842-1899)) e posteriormente
generalizada por vários autores, entre eles Trotter (Hale Freeman Trotter (1931-)) em “On the Product of Semi-Groups
of Operators”. Proc. Amer. Math. Soc. 10, 545-551 (1959). O leitor poderá encontrar várias dessas generalizações (por
exemplo para operadores auto-adjuntos não-limitados agindo em espaços de Hilbert) em [99]. O assunto é ainda hoje
objeto de pesquisa.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 4 228/1195

Prova. Vamos primeiramente provar a fórmula de Lie-Trotter8 e posteriormente passar à fórmula do


comutador. Começamos definindo, para m ∈ , 

   
1 1
Sm := exp A exp B ,
m m
 
1
Tm := exp (A + B) .
m
Note-se que (Tm )m = exp (A + B) e que tudo o que desejamos é provar que (Sm )m converge a
exp (A + B), ou seja,
lim k(Sm )m − (Tm )m k = 0. 

m→∞

Precisamos, portanto, estudar (Sm )m − (Tm )m . Para isso, é útil empregarmos a identidade algébrica
(4.19). Daquela relação e das propriedades da norma operatorial, segue que
m−1
X
m
k(Sm ) − (Tm ) k m 

≤ kSm kp kSm − Tm k kTm km−1−p .





(4.34)
p=0

Pela definição, temos para qualquer matriz M ∈ Mat ( , n)



X ∞
1 k X∞
1

k exp (M ) k = 

M ≤ kM kk = ekM k .
k! k!


k=0 k=0 

Assim,    
1 1
kSm k 


exp m A
exp
B
≤ e(kAk +kBk )/m

m 

e kTm k ≤ e(kAk

+kBk )/m
. Retornando a (4.34), teremos
m−1
X
m m (kAk +kBk )(m−1)/m
k(Sm ) − (Tm ) k 

≤ e kSm − Tm k 

≤ mkSm − Tm k e(kAk 
+kBk )
.
p=0

Na última desigualdade usamos que (m − 1)/m < 1 e que kSm − Tm k não depende de p. 

Como se vê da última expressão, tudo que que temos que fazer para provar k(S m )m − (Tm )m k vai 

a zero quando m → ∞ é provar que kSm − Tm k vai a zero com 1/m2 quando m cresce. Isso é feito


escrevendo as expressões explı́citas para Sm e Tm em termos da série de Taylor da função exponencial:

     
1 1 1
Sm − Tm = exp A exp B − exp (A + B)
m m m
" ∞
#" ∞
# " ∞
#
1 X m−k k 1 X m−k k 1 X m−k
= + A+ A + B+ B − + (A + B) + (A + B)k .
m k=2
k! m k=2
k! m k=2
k!
8
Para a fórmula de Lie-Trotter seguiremos aqui a demonstração de [99].
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 4 229/1195

Expandindo-se a última linha, e identificando os termos em 1/m, é fácil constatar que


1 1 1 1 1
Sm − T m = + A + B − − (A + B) + 2 Sm = Sm ,
m m m m m2
onde Sm é uma série, um tanto complicada, mas convergente em norma e tal que lim m→∞ kSm k = 

finito. Assim,
1
mkSm − Tm k ≤ 

kSm k 

m
e, portanto,
lim k(Sm )m − (Tm )m k = 0. 

m→∞

Isso demonstrou a fórmula de Lie-Trotter. O estudante mais avançado pode facilmente convencer-se
que precisamente a mesma demonstração se aplica ao contexto de operadores limitados agindo em
espaços de Banach.
Para a fórmula do comutador usaremos outro procedimento. Definimos
       
1 1 1 1
Um := exp A exp B exp − A exp − B
m m m m
e teremos

" ∞
#" ∞
#
1 1 2 X m−k k 1 1 2
X m−k k
Um = + A+ A + A + B+ B + B
m 2m2 k=3
k! m 2m2 k=3
k!
" ∞
#" ∞
#
1 1 2 X (−m)−k k 1 1 X (−m) −k
× − A+ A + A − B+ B2 + Bk .
m 2m2 k=3
k! m 2m2 k=3
k!

Com um pouco de paciência podemos expandir o produto dos quatro fatores do lado direito e constatar
(faça!) que os termos envolvendo 1/m se cancelam e o termo proporcional a 1/m 2 é AB − BA (outros
termos como (1/m2 )A2 e (1/m2 )B 2 também se cancelam. Verifique!). Ou seja, ficamos com
1 1
Um = + (AB − BA) + Rm , (4.35)
m2 m3
onde m13 Rm são os termos restantes da expansão. Rm é uma expressão complicada, mas envolvendo
séries convergentes e de tal forma que limm→∞ kRm k é finito.


Isso diz que para m grande o suficiente a norma de Um − é pequena e, assim, podemos tomar o
logaritmo de Um , definido por ln(Um ) = ln( + (Um − )). Por (4.35) e pela expansão do logaritmo
teremos

ln(Um ) = ln( + (Um − ))


 
1 1
= ln + 2 (AB − BA) + 3 Rm
m m

1 1 0
= (AB − BA) + R ,
m2 m3 m
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 4 230/1195

ou seja,
1 0
m2 ln(Um ) = [A, B] +
R , (4.36)
m m
onde R0m é novamente uma expressão complicada, mas envolvendo séries convergentes e de tal forma
que limm→∞ kR0m k é finito. Como limm→∞ m1 R0m = 0 podemos escrever, pela Proposição 4.3,


 
1 0
exp([A, B]) = lim exp [A, B] + Rm .
m→∞ m

Agora, por (4.36),


 
1 0  2 2
exp [A, B] + Rm = exp m2 ln(Um ) = (exp (ln(Um )))m = (Um )m .
m

Logo,
2
exp([A, B]) = lim (Um )m .
m→∞

Isso é o que desejávamos provar9 .

E. 4.16 Exercı́cio. Demonstre a fórmula de Lie-Trotter usando as idéias da prova da fórmula do


comutador. 6

4.4 Aplicações Lineares em Mat ( , n)


O conjunto de matrizes Mat ( , n) é naturalmente um espaço vetorial complexo de dimensão finita n 2 ,
pois combinações lineares de matrizes complexas n × n são novamente matrizes complexas n × n e a
matriz nula faz o papel de vetor nulo. Como tal, há várias aplicações lineares agindo em Mat ( , n).
Vamos nesta seção exibir e estudar algumas dessas aplicações e discutir suas relações. Os resultados aos
quais chegaremos são de interesse por si só, mas nossa intenção é também a de preparar a demonstração
da fórmula de Baker-Campbell-Hausdorff.

• As Aplicações ad

Dada uma matriz X ∈ Mat ( , n) fixa podemos definir uma aplicação linear ad[X] em Mat ( , n),
ad[X] : Mat ( , n) → Mat ( , n) por

ad[X](A) := [X, A] = XA − AX.

para toda matriz A ∈ Mat ( , n).


9
O estudante pode estar curioso (ou perplexo) sobre o por quê de não finalizamos a demonstração partindo de (4.36),
2
escrevendo m2 ln(Um ) = ln((Um )m ) e tomando diretamente daı́ o limite m → ∞. A razão é que o fato de Um ser próximo
2 2
de em norma não garante que (Um )m também o seja. Assim, o logaritmo de (Um )m pode não fazer sentido. Para
evitar esse transtorno lógico é mais conveniente finalizar a demonstração com uso da função exponencial de matrizes,
para a qual tais problemas de definição não ocorrem.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 4 231/1195

• As Aplicações Ad

Analogamente, seja G ∈ GL( , n) uma matriz invertı́vel fixa. Podemos definir uma aplicação linear
Ad[G] em Mat ( , n), Ad[G] : Mat ( , n) → Mat ( , n) por
Ad[G](A) := GAG−1 .

• Definindo a Exponenciação de ad

Denotaremos por (ad[X])p ou ad[X]p a p-ésima potência de ad[X]:


ad[X]p (A) = [X, [X, . . . , [X , A].
| {z }
p vezes

Aqui, p = 1, 2, . . .. Para facilitar a notação em aplicações futuras, convencionaremos que ad[X] 0 (A) =
A para toda matriz A ∈ Mat ( , n).
Dado que ad[X] é uma aplicação linear em um espaço vetorial de dimensão finita, sua exponencial
é bem definida. Definimos Exp[ad[X]] como sendo a aplicação linear no espaço das matrizes complexas
n × n, Exp[ad[X]] : Mat ( , n) → Mat ( , n) dada por
X∞ X∞
1 1
Exp[ad[X]](A) := (ad[X])m (A) := A + (ad[X])m (A),
m=0
m! m=1
m!

X∞
1
= A+ [X, [X, . . . , [X , A]
m! | {z }
m=1 m vezes

para toda A ∈ Mat ( , n). A convergência da série é automaticamente garantida pelas observações da
Seção 4.2.

• A Relação entre ad e Ad

Há uma relação elegante entre as aplicações ad e Ad, a qual se expressa na seguinte proposição:
Proposição 4.13 Seja X ∈ Mat ( , n) qualquer. Então
Ad[exp(X)] = Exp[ad[X]] , (4.37)
ou seja, para toda matriz A ∈ Mat ( , n) vale
X∞
1
exp(X)A exp(−X) = A + (ad[X])m (A), (4.38)
m=1
m!
ou seja,
X∞
1
exp(X)A exp(−X) = A + [X, [X, . . . , [X , A]
m! | {z }
m=1 m vezes

1 1
= A + [X, A] + [X, [X, A]] + [X, [X, [X, A]]] + · · · . (4.39)
2! 3!
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 4 232/1195

Comentário 1. A expressão (4.38) ou (4.39) é comummente denominada série de Lie, mas alguns
autores também a denominam fórmula de Baker-Campbell-Hausdorff. Reservaremos esse nome apenas
para a expressão (4.46), adiante.

Comentário 2. As expressões (4.38) e (4.39) são empregadas de várias formas na Mecânica Quântica,
na Mecânica Estatı́stica Quântica e na Teoria Quântica de Campos, especialmente na Teoria de Per-
turbações e nas Teorias de Calibre.

Prova. Seja t ∈  e sejam A e X matrizes complexas n × n fixas quaisquer. Definamos


X∞
tm
Γ1 (t) := Exp[ad[tX]](A) = A + (ad[X])m (A)
m=1
m!

e
Γ2 (t) := Ad[exp(tX)](A) = exp(tX)A exp(−tX).
Vamos mostrar que Γ1 (t) = Γ2 (t) para todo t provando para isso que ambas satisfazem a mesma
equação diferencial linear com a mesma condição inicial.
É trivial constatar que Γ1 (0) = Γ2 (0) = A. Pela definição tem-se

X∞
d tm−1
Γ1 (t) = (ad[X])m (A)
dt m=1
(m − 1)!


!
X tm−1
= ad[X] (ad[X])m−1 (A)
m=1
(m − 1)!


!
X tm
= ad[X] (ad[X])m (A)
m=0
m!

= ad[X] (Exp[ad[tX]](A))

= ad[X](Γ1 (t)).

Em resumo, Γ1 (t) satisfaz


d
Γ1 (t) = ad[X](Γ1 (t)).
dt
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 4 233/1195

d
Analogamente, calculemos Γ (t).
dt 2
Aplicando a regra de Leibniz10 ,

d d
Γ2 (t) = (exp(tX)A exp(−tX))
dt dt
= X exp(tX)A exp(−tX) − exp(tX)A exp(−tX)X

= ad[X](exp(tX)A exp(−tX))

= ad[X](Γ2 (t)).

Em resumo, Γ2 (t) satisfaz


d
Γ2 (t) = ad[X](Γ2 (t)).
dt
Constatamos assim que Γ1 (t) e Γ2 (t) satisfazem a mesma equação diferencial com a mesma condição
inicial. Pelo Teorema de existência e unicidade de soluções de sistemas de equações diferenciais lineares
com coeficientes constantes discutido na Seção 6.2, isso implica que Γ1 (t) = Γ2 (t) para todo t ∈ e, 

em particular para t = 1, que é a afirmação do teorema.

Comentário. O teorema acima e sua demonstração exemplificam uma situação não muito incomum,
onde apresenta-se um resultado que é muito difı́cil de ser provado por um procedimento mas muito
fácil de ser demonstrado por outro. Tente o leitor demonstrar a identidade (4.38) expandindo as
exponenciais do lado direito em suas séries de Taylor, ou seja, escrevendo
∞ X
X ∞
(−1)l
exp(X)A exp(−X) = X k AX l
k=0 l=0
k!l!

e reordenando as somas de modo a obter o lado esquerdo de (4.38)! Ainda que seja possı́vel provar
(4.38) dessa forma, um tal procedimento é muitı́ssimo mais complexo que aquele que empregamos, e
que faz apenas uso de um fato básico bem conhecido da teoria das equações diferenciais.

E. 4.17 Exercı́cio. Tenha a idéia certa antes de tentar resolver qualquer problema. 6

• A Aplicação Diferencial Exponencial dexp

Seja F (t) uma matriz complexa n × n cujos elementos de matriz (F (t))ij são funções diferenciáveis
em relação a t. Seja também F 0 (t) a matriz cujo elemento ij é dtd (F (t))ij . Em palavras, F 0 (t) é obtida
diferenciando cada elemento de matriz de F (t).
Vamos nos colocar o seguinte problema: como calcular dtd exp(F (t))? O estudante apressado poderia
imaginar que dtd exp(F (t)) = exp(F (t))F 0 (t). Isso é, todavia, em geral falso, pois essa regra de derivação
não vale para matrizes! Isso é assim, pois a matriz F 0 (t) não necessariamente comuta com a matriz
10
Gottfried Wilhelm von Leibniz (1646-1716).
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 4 234/1195

F (t). Tem-se, em verdade, que para todo m = 1, 2, 3, . . .,


 
m−1
X
d d  
m
(F (t)) = F (t) · · · F (t) = F (t)k F 0 (t)F (t)m−k−1 .
dt dt | {z }
k=0
m vezes

Conseqüentemente,
X∞ Xn−1
d 1
exp(F (t)) = F (t)k F 0 (t)F (t)n−k−1 . (4.40)
dt n=1
n!
k=0

Isso motiva a seguinte definição. Para X ∈ Mat ( , n) fixo, definimos uma aplicação linear
dexp[X] : Mat ( , n) → Mat ( , n), denominada aplicação diferencial exponencial, por
X∞ Xn−1
1 k
dexp[X](A) := X AX n−k−1 , (4.41)
n=1 k=0
n!

para todo A ∈ Mat ( , n).

E. 4.18 Exercı́cio. Mostre que a série do lado direito está bem definida, ou seja, que é convergente para
todos X e A. 6

Com essa definição podemos, por (4.40), escrever


d
exp(F (t)) = dexp[F (t)](F 0 (t)). (4.42)
dt
Para uma expressão alternativa para a derivada da exponencial de uma matriz dependente de um
parâmetro, vide equação (4.61), página 243.
Por razões que ficarão claras adiante quando provarmos a fórmula de Baker, Campbell e Hausdorff,
é conveniente expressar dexp[X] em termos de ad[X]. Como veremos, é possı́vel fazer isso e o resultado
está expresso na Proposição 4.14 que apresentaremos e demonstraremos a seguir.
Antes, porém, duas definições. Para z ∈ definimos a função complexa φ(z) por
X∞
1 − e−z (−1)m m
φ(z) := = z . (4.43)
z m=0
(m + 1)!

Como a série de Taylor do lado direito converge para todo z ∈ , φ(z) é uma função inteira, ou seja, é
analı́tica em toda parte.
Pelos nossos comentários da Seção 4.2, podemos definir para todo X ∈ Mat ( , n) uma aplicação
linear Φ[X] : Mat ( , n) → Mat ( , n) dada por
Φ[X] := φ(ad[X]), (4.44)
ou seja, Φ[X] é a aplicação que a todo A ∈ Mat ( , n) associa a matriz Φ[X](A) dada por
X∞
(−1)m
Φ[X](A) = ad[X]m (A). (4.45)
m=0
(m + 1)!

Pelos comentários da Seção 4.2 a série do lado direito converge para todos X, A ∈ Mat ( , n).
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 4 235/1195

Proposição 4.14 Com as definições apresentadas acima, vale para todos A, X ∈ Mat ( , n) a
expressão
dexp[X](A) = exp(X) Φ[ad[X]](A) ,
ou seja, !
X∞
(−1)m
dexp[X](A) = exp(X) ad[X]m (A) .
m=0
(m + 1)!
2

Também como comentado acima, é inútil tentar provar a proposição partindo de (4.41) e aplicando
força-bruta. A demonstração usará uma série de truques elegantes.

Prova. Vamos definir, para A, X ∈ Mat ( , n) fixas e t ∈  ,

H(t) := t dexp[tX](A).

A idéia é descobrir uma equação diferencial que H(t) satisfaz e, em seguida, resolvê-la. Note-se que,
pela definição, H(0) = 0. Como veremos, resolver a equação diferencial é tarefa relativamente fácil.
Um pouco mais trabalhoso é encontrar a equação diferencial. Para isso temos que calcular a derivada
de H(t) em relação a t.
Pela definição de H(t) e de dexp[tX](A) em (4.41), tem-se
∞ X
n−1 n
!
d d d X t
H(t) = (t dexp[tX](A)) = X k AX n−k−1
dt dt dt n=1 k=0
n!

∞ X
X n−1 X∞ X n
tn−1 k n−k−1 tn k
= X AX = X AX n−k
n=1 k=0
(n − 1)! n=0 k=0
n!

∞ X
X n ∞
X ∞ X
X n
tn k n−k tn n tn
= A+ X AX = A+ AX + X k AX n−k
n=1 k=0
n! n=1
n! n=1 k=1
n!

∞ n
! ∞ X
n ∞ X
n
X t X tn X tn
n k n−k
= A + X + X AX = A exp(tX) + X k AX n−k
n=1
n! n=1 k=1
n! n=1 k=1
n!

∞ X
n
!
X tn−1
= A exp(tX) + tX X k−1 AX n−k
n=1 k=1
n!

∞ X
n−1 n−1
!
X t
= A exp(tX) + tX X k AX n−k−1
n=1 k=0
n!

= A exp(tX) + X (t dexp[tX](A)) = A exp(tX) + XH(t) .


JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 4 236/1195

Em resumo, H(t) satisfaz a equação diferencial


d
H(t) = XH(t) + A exp(tX),
dt
com a condição inicial H(0) = 0.
Como estudamos à página 301 da Seção 6.2.2, a solução geral da equação matricial
d
M(t) = XM(t) + G(t)
dt
é Z t
M(t) = exp(tX)M(0) + exp((t − s)X)G(s)ds.
0

Assim, como H(0) = 0 e G(t) = A exp(tX), teremos


Z t
H(t) = exp((t − s)X)A exp(sX) ds
0
Z t Z t
= exp(tX) exp(−sX)A exp(sX) ds = exp(tX) Ad[exp(−sX)](A) ds
0 0

Z t Z tX∞
(4.37) (−s)m
= exp(tX) Exp[−ad[sX]](A) ds = exp(tX) ad[X]m (A) ds
0 0 m=0 m!

X∞ Z t X∞
(−1)m m m (−1)m tm+1
= exp(tX) ad[X] (A) s ds = exp(tX) ad[X]m (A)
m=0
m! 0 m=0
(m + 1)!

X∞
(−1)m tm
= t exp(tX) ad[X]m (A)
m=0
(m + 1)!

(4.45)
= t exp(tX) Φ[tX](A) .

Essa expressão vale para todo t ∈  . Tomando t = 1, teremos H(1) = exp(X)Φ[X](A), ou seja,

dexp[X](A) = exp(X) Φ[X](A),

que é o que querı́amos provar.

Reunindo todos esses resultados, estamos agora preparados para provar a fórmula de Baker, Camp-
bell e Hausdorff.

4.5 A Fórmula de Baker, Campbell e Hausdorff


A presente seção é dedicada á demonstração do seguinte teorema.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 4 237/1195

Teorema 4.1 (Fórmula de Baker-Campbell-Hausdorff


 ) Para A, B ∈ Mat ( , n) tais que kAk
√ 


1 2
e kBk sejam ambas menores que 2 ln 2 − 2 ≈ 0, 12844 . . ., vale


exp(A) exp(B) = exp(A ∗ B),


com

k
!
X X X (−1)k Y 1
A∗B = A+B+ ···
k, l≥0 a1 , b1 ≥0 ak , bk ≥0
l!(k + 1)(b1 + · · · + bk + 1) i=1
ai !bi !
k+l>0 a1 +b1 >0 ak +bk >0

× ad[A]a1 ad[B]b1 · · · ad[A]ak ad[B]bk ad[A]l (B). (4.46)


Os primeiros termos de (4.46) são
1 1 1
A ∗ B = A + B + [A, B] + [A, [A, B]] + [B, [B, A]] + · · · (4.47)
2 12 12
2

Comentário. A expressão (4.46) é a célebre fórmula de Baker11 , Campbell12 e Hausdorff13 , que desem-
penha um papel importante no estudo de grupos de Lie e outras áreas. Advertimos que, devido à sua
complexidade e devido à restrição quanto à norma das matrizes A e B, a fórmula de Baker-Campbell-
Hausdorff tem um escopo de aplicações relativamente limitado no que concerne a cômputos de produtos
de exponenciais. A mesma fórmula, porém, presta-se à demonstração de vários teoremas, especialmente
na teoria dos grupos de Lie. Uma situação interessante na qual a fórmula de Baker-Campbell-Hausdorff
pode ser empregada é aquela na qual comutadores de ordem suficientemente grande das matrizes A e
B se anulam, pois aı́ o lado direito de (4.46) ou (4.47) tem um número finito de termos. Tal ocorre nas
chamadas álgebras de Lie nilpotentes. O leitor que procura um exemplo simples do uso de (4.47) pode
interessar-se em ler sobre o chamado grupo de Heisenberg na Seção 10.2.2, página 574.
Prova do Teorema 4.1. A estratégia que empregaremos para provar a fórmula de Baker, Campbell
e Hausdorff é muito semelhante àquela empregada na demonstração da Proposição 4.14. Seja, para
A, B ∈ Mat ( , n) fixas tais que kAk < ln(2)/2 e kBk < ln(2)/2, a matriz14
 

G(t) := ln (exp(A) exp(tB)) , (4.48)


para t ∈ [−1, 1]. Vamos identificar uma equação diferencial satisfeita por G(t), e em seguida resolvê-la.
Comecemos procurando calcular a derivada de G(t) em relação a t. Isso é uma tarefa mais difı́cil do
que parece e procederemos de modo indireto. É conveniente calcular primeiro a derivada de exp(G(t)).
Por um lado temos que
exp(G(t)) = exp(A) exp(tB)
11
Henry Frederick Baker (1866-1956).
12
John Edward Campbell (1862-1924).
13
Felix Hausdorff (1868-1942).
14
A condição kAk < ln(2)/2 e kBk < ln(2)/2 garante que k exp(A) exp(tB) − k < 1 para todo t ∈ [−1, 1]. Assim,
o logaritmo de exp(A) exp(tB) em (4.48) está definido.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 4 238/1195

e, portanto,
d d
exp(G(t)) = exp(A) exp(tB) = exp(A) exp(tB)B.
dt dt
Por outro tem-se, pela definição da aplicação dexp, que
d
exp(G(t)) = dexp[G(t)](G0 (t)).
dt
Portanto,
dexp[G(t)](G0 (t)) = exp(A) exp(tB)B.
Usando a Proposição 4.14 essa última igualdade pode ser escrita como
exp(G(t)) Φ[G(t)](G0 (t)) = exp(A) exp(tB)B,
o que implica que
Φ[G(t)](G0 (t)) = exp(−G(t)) exp(A) exp(tB)B = exp(−tB) exp(−A) exp(A) exp(tB)B = B.
Resumindo, tem-se
Φ[G(t)](G0 (t)) = B. (4.49)
0
A idéia que agora perseguiremos é tentar inverter essa expressão de modo a obter G (t) (que aparece
no argumento de Φ no lado esquerdo).
Para isso faremos uso do seguinte lema:
Lema 4.2 Sejam as funções complexas
1 − e−z
φ(z) := , z∈ ,
z
já definida em (4.43) e
z ln(z)
ψ(z) := , |z − 1| < 1.
z−1
Então vale
ψ(ez )φ(z) = 1
para todo z tal que |z| < ln 2. 2

Prova. Usando a expansão em série de Taylor da função ln, podemos escrever


X (−1)k−1 ∞
ln(z) ln(1 + (z − 1))
ψ(z) := z = z = z (z − 1)k−1 . (4.50)
z−1 z−1 k=1
k

Isso mostra que ψ(z) é analı́tica na região |z − 1| < 1.


X∞
z z 1 m
Agora, se |z| < ln 2, tem-se que |e − 1| < 1, pois e − 1 = z e
m=1
m!

X∞ X∞
z 1 m 1
|e − 1| ≤ |z| < (ln 2)m = eln 2 − 1 = 1.
m=1
m! m=1
m!
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 4 239/1195

Assim, ez está dentro da região onde ψ é analı́tica, onde vale que


 z  
z e z 1 − e−z
ψ(e )φ(z) = = 1,
ez − 1 z
que é o que querı́amos provar.

O uso que faremos desse lema é o seguinte. Seja X ∈ Mat ( , n) qualquer. Por analogia com a
definição de Φ[X] em (4.44), definimos

Ψ[X] := ψ(Exp[ad[X]]) = ψ(Ad[exp(X)])

Assim,
Ψ[X]Φ[X] := ψ(Exp[ad[X]])φ(ad[X]) = id,
onde id é a aplicação identidade: id(A) := A, para toda A ∈ Mat ( , n). Portanto, aplicando Ψ[G(t)]
a (4.49), teremos
G0 (t) = Ψ[G(t)](B).

Essa é a equação diferencial procurada e que é satisfeita por G(t), com a condição inicial G(0) = A.
Para prosseguir devemos escrevê-la de forma mais conveniente.
Pela definição da aplicação Ad, é bem fácil ver que

Ad[eX eY ] = Ad[eX ]Ad[eY ].

E. 4.19 Exercı́cio. Verifique. 6

Assim,

Ψ[G(t)] = ψ (Ad[exp(G(t)))]) = ψ (Ad[exp(A) exp(tB))])

= ψ (Ad[exp(A)] Ad[exp(tB))]) = ψ (Exp[ad[A]] Exp[ad[tB]]) .

A equação diferencial para G(t) assume, portanto, a forma

G0 (t) = ψ (Exp[ad[A]] Exp[ad[tB]]) (B), (4.51)

com G(0) = A.
Antes de passarmos à resolução dessa equação, comentemos brevemente que o lado direito de (4.51)
está bem definido desde que a norma de Exp[ad[A]] Exp[ad[tB]] seja menor que ln(2), devido à definição
de ψ. Uma conta simples, mas que omitiremos aqui, garante que isso se dá desde que kAk e kBk
√ 
 

1 2
sejam ambas menores que 2 ln 2 − 2 ≈ 0, 12844 . . ..
Isto posto, nossa tarefa agora é resolver (4.51), o que pode ser feito por uma simples integração.
Teremos, portanto,
Z t Z t
0
G(t) − G(0) = G (s) ds = ψ (Exp[ad[A]] Exp[ad[sB]]) (B) ds.
0 0
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 4 240/1195

Tomando-se t = 1 teremos
Z 1
A B

ln e e = A+ ψ (Exp[ad[A]] Exp[ad[sB]]) (B) ds. (4.52)
0

Estando já na reta final, resta-nos calcular a integral do lado direito, o que pode ser feito com o uso
da expansão em série de ψ dada em (4.50) e um pouco de paciência. É o que faremos.
Por (4.50), teremos

ψ (Exp[ad[A]] Exp[ad[sB]]) (B)



X (−1)k−1
= (Exp[ad[A]] Exp[ad[sB]]) (Exp[ad[A]] Exp[ad[sB]] − id)k−1 (B)
k=1
k
" ∞
#
X (−1)k−1
= (Exp[ad[A]] Exp[ad[sB]] − id)k−1 Exp[ad[A]] Exp[ad[sB]](B)
k=1
k
" ∞
#
X (−1)k−1 k−1
= (Exp[ad[A]] Exp[ad[sB]] − id) Exp[ad[A]](B), (4.53)
k=1
k

onde, na última passagem usamos o fato óbvio que

Exp[ad[sB]](B) = Ad[exp(sB)](B) = exp(sB)B[exp(−sB) = B.

Desejamos escrever esta última expressão diretamente em termos das aplicações ad[A]] e ad[sB].
O último fator, Exp[ad[A]], é simplesmente

X∞
1
Exp[ad[A]] = ad[A]l . (4.54)
l=0
l!

Fora isso,
X∞ X ∞ X
1 1
Exp[ad[A]] Exp[ad[sB]] − id = ad[A]a ad[sB]b − id = sb ad[A]a ad[B]b .
a=0 b=0
a!b! a, b≥0
a!b!
a+b>0

Com isso,

(Exp[ad[A]] Exp[ad[sB]] − id)k−1

X X sb1 +···+sk−1
= ··· ad[A]a1 ad[B]b1 · · · ad[A]ak−1 ad[B]bk−1 . (4.55)
a1 , b1 ≥0 ak−1 , bk−1 ≥0
a1 !b1 ! · · · ak−1 !bk−1 !
a1 +b1 >0 ak−1 +bk−1 >0
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 4 241/1195

Inserindo-se (4.54) e (4.55) em (4.53) tem-se

Z 1
ψ (Exp[ad[A]] Exp[ad[sB]]) (B) ds
0

Z ∞ X
∞ k−1
!
1X X X k−1 b1 +···+bk−1 Y
(−1) s 1
= ···
0 k=1 l=0 a1 , b1 ≥0 ak−1 , bk−1 ≥0
l!k i=1
ai !bi !
a1 +b1 >0 ak−1 +bk−1 >0

× ad[A]a1 ad[B]b1 · · · ad[A]ak−1 ad[B]bk−1 ad[A]l (B) ds. (4.56)


Trocando-se a integral pelas somas

Z 1
ψ (Exp[ad[A]] Exp[ad[sB]]) (B) ds
0

∞ X
∞ k−1
!
X X X (−1)k−1 Y 1
= ···
k=1 l=0 a1 , b1 ≥0 ak−1 , bk−1 ≥0
l!k i=1
ai !bi !
a1 +b1 >0 ak−1 +bk−1 >0

Z 1
a1 b1 ak−1 bk−1 l
× ad[A] ad[B] · · · ad[A] ad[B] ad[A] (B) sb1 +···+bk−1 ds
0

∞ X
∞ k−1
!
X X X (−1)k−1 Y 1
= ···
k=1 l=0 a1 , b1 ≥0 ak−1 , bk−1 ≥0
l!k(b1 + · · · + bk−1 + 1) i=1
ai !bi !
a1 +b1 >0 ak−1 +bk−1 >0

× ad[A]a1 ad[B]b1 · · · ad[A]ak−1 ad[B]bk−1 ad[A]l (B)

∞ X
∞ k
!
X X X (−1)k Y 1
= ···
k=0 l=0 a1 , b1 ≥0 ak , bk ≥0
l!(k + 1)(b1 + · · · + bk + 1) i=1
ai !bi !
a1 +b1 >0 ak +bk >0

× ad[A]a1 ad[B]b1 · · · ad[A]ak ad[B]bk ad[A]l (B). (4.57)


Na última igualdade fizemos apenas a mudança de variáveis k → k + 1.

Retornando a (4.52), temos então ln eA eB = A ∗ B, onde

∞ X
∞ k
!
X X X (−1)k Y 1
A∗B = A+ ···
k=0 l=0 a1 , b1 ≥0 ak , bk ≥0
l!(k + 1)(b1 + · · · + bk + 1) i=1
ai !bi !
a1 +b1 >0 ak +bk >0

× ad[A]a1 ad[B]b1 · · · ad[A]ak ad[B]bk ad[A]l (B) (4.58)


JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 4 242/1195

É fácil ver que o termo com k = l = 0 nas somas do lado direito é igual a B. Com essa identificação,
finalmente chega-se a (4.46).
 Como já comentamos a convergência é garantida se kAk e kBk forem
√ 
 

ambas menores que 12 ln 2 − 22 ≈ 0, 12844 . . ..

E. 4.20 Exercı́cio importante. Colecionando os termos com a1 + b1 + · · · + ak + bk + l ≤ 2 em (4.46),


mostre que os primeiros termos de A ∗ B são aqueles dados em (4.47), página 237. 6

Comentário. Um comentário que adiantamos é que, como discutiremos melhor no Capı́tulo 11, o
produto “∗” expresso em (4.46), define uma estrutura de grupo em sub-álgebras de Lie nilpotentes de
Mat ( , n). De fato, é possı́vel provar que “∗” é um produto associativo (pois o produto de exponenciais
de matrizes é associativo) e é fácil ver que A ∗ 0 = A e que A ∗ (−A) = 0 para toda matriz A. Com
isso, a matriz nula é o elemento neutro do grupo e −A é a inversa de A. Isso também mostra que é por
vezes possı́vel construir um produto associativo a partir de outro não-associativo, como o comutador
de matrizes.

4.6 A Fórmula de Duhamel e Algumas de suas Conseqüências


Nesta seção demonstraremos a Fórmula de Duhamel15 :
Z 1
 
exp(A + B) = exp(A) + exp (1 − s)(A + B) B exp sA ds , (4.59)
0

válida para quaisquer matrizes A, B ∈ Mat ( . n), e estudaremos algumas de suas conseqüências. A
demonstração é simples. Diferenciando-se es(A+B) e−sA em relação a s, tem-se
     
d s(A+B) −sA d s(A+B) −sA s(A+B) d −sA
e e = e e +e e
ds ds ds
   
s(A+B) −sA s(A+B) −sA
= e (A + B) e +e (−A) e

= es(A+B) B e−sA .
Integrando-se ambos os lados entre 0 e t, obtem-se
Z t
t(A+B) −tA
e e − = es(A+B) B e−sA ds ,
0

de onde segue que Z t


e t(A+B)
= e tA
+ es(A+B) B e−(s−t)A ds ,
0
15
Jean Marie Constant Duhamel (1797-1872).
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 4 243/1195

A mudança de variável de integração s → t − s conduz a


Z t
t(A+B) tA
e = e + e(t−s)(A+B) B esA ds . (4.60)
0

Para t = 1, isso reduz-se a (4.59), que é o que querı́amos provar. De (4.60) podem ser extraı́das várias
relações úteis, que trataremos agora.

• Derivada de uma exponencial em relação a um parâmetro

Uma das conseqüências mais úteis da fórmula de Duhamel é uma relação para a derivada da ex-
ponencial de uma matriz que depende de um parâmetro. Seja A(λ) ∈ Mat ( . n) uma matriz que
depende contı́nua e diferenciavelmente de um parâmetro λ. Então vale
Z 1  
d A(λ)  (1−s)A(λ) d
e = e A(λ) esA(λ) ds . (4.61)
dλ 0 dλ
Essa relação tem aplicações em equações diferenciais e na Mecânica Estatı́stica, dentro e fora do
equilı́brio. Alguns autores também denominam-na fórmula de Duhamel. O leitor deve compará-la
à expressão alternativa (4.42). Passemos à demonstração.
Sendo A(λ) diferenciável, vale, para todo  suficientemente pequeno,
d
A(λ + ) = A(λ) +  A(λ) + R(λ, ), (4.62)

onde
1
lim R(λ, ) = 0 . (4.63)
→0 
Tem-se, então,
 
d def. 1
exp(A(λ)) = lim exp(A(λ + )) − exp(A(λ))
dλ →0 

   
(4.62) 1 d
= lim exp A(λ) +  A(λ) + R(λ, ) − exp (A(λ))
→0  dλ
 Z 1   
(4.59) 1 A(λ) (1−s)(A(λ)+ dA (λ)+R(λ, )) dA sA(λ) A(λ)
= lim e + e dλ  (λ) + R(λ, ) e ds − e
→0  0 dλ
Z 1   
(1−s)(A(λ)+ dA (λ)+R(λ, )) dA sA(λ)
= lim e dλ (λ) e ds
→0 0 dλ
Z 1   
(1−s)(A(λ)+ dA (λ)+R(λ, )) 1 sA(λ)
+ lim e dλ R(λ, ) e ds
→0 0 
Z 1   Z 1   
(1−s)A(λ) dA sA(λ) (1−s)A(λ) 1 sA(λ)
= e (λ) e ds + e lim R(λ, ) e ds
0 dλ 0 →0 

Z 1  
(4.63) (1−s)A(λ) dA
= e (λ) esA(λ) ds ,
0 dλ
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 4 244/1195

como querı́amos demonstrar.

• Iterando a fórmula de Duhamel

Na expressão (4.60) exponenciais do tipo eλ(A+B) aparecem em ambos os lados. Isso sugere que
podemos inserir iterativamente (4.60) dentro de si mesma de modo a obter outras expressões recorrentes,
como apresentado nas passagens auto-explicativas abaixo. Partindo de (4.60) e repetindo a iteração
duas vezes, tem-se
Z t
t(A+B) tA
e = e + e(t−s1 )(A+B) B es1 A ds1
0
Z t Z t−s1 
tA (t−s1 )A (t−s1 −s2 )(A+B) s2 A
= e + e + e Be ds2 B es1 A ds1
0 0

Z t Z tZ t−s1
= e tA
+ e (t−s1 )A
Be s1 A
ds1 + e(t−s1 −s2 )(A+B) B es2 A B es1 A ds2 ds1
0 0 0
Z t
tA
= e + e(t−s1 )A B es1 A ds1 +
0
Z tZ t−s1  Z t−s1 −s2 
(t−s1 −s2 )A (t−s1 −s2 −s3 )(A+B) s3 A
e + e Be ds3 B es2 A B es1 A ds2 ds1
0 0 0

Z t Z tZ t−s1
= e tA
+ e (t−s1 )A
Be s1 A
ds1 + e(t−s1 −s2 )A B es2 A B es1 A ds2 ds1
0 0 0
Z tZ t−s1 Z t−s1 −s2
+ e(t−s1 −s2 −s3 )(A+B) B es3 A B es2 A B es1 A ds3 ds2 ds1 .
0 0 0

Repetindo-se N vezes o procedimento, teremos


" Z t
e t(A+B)
= e tA
+ e−s1 A B es1 A ds1
0

N Z tZ Z m−1
#
X t−s1 t−s1 −···−sm−1 Y 
+ ··· e−(s1 +···+sm )A B esm−k A
dsm · · · ds1
m=2 0 0 0 k=0

Z tZ t−s1 Z t−s1 −···−sm m


Y 
+ ··· e(t−s1 −···−sm+1 )(A+B) B esm+1−k A dsm+1 · · · ds1 ,(4.64)
0 0 0 k=0

para todo N ∈  , N ≥ 2, sendo que convencionamos definir a produtória de matrizes da esquerda


L
Y
para a direita, ou seja, na forma Mk = M1 · · · ML (é necessário fixar uma convenção devido à
k=1
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 4 245/1195

não-comutatividade do produto de matrizes). Com as mudanças de variáveis

t1 = t − s1 s1 = t − t1
t2 = t − (s1 + s2 ) s2 = t1 − t2
.. , .. ,
. .
tm = t − (s1 + · · · + sm ) sm = tm−1 − tm
podemos reescrever as integrais entre colchetes acima na forma
" Z t N Z t Z t1 Z tm−1 m−1 #
X Y 
et(A+B) = + et1 A B e−t1 A dt1 + ··· etm−k A B e−tm−k A dtm · · · dt1 etA
0 m=2 0 0 0 k=0

Z tZ t−s1 Z t−s1 −···−sm m


Y
(t−s1 −···−sm+1 )(A+B)

+ ··· e B esm+1−k A dsm+1 · · · ds1 . (4.65)
0 0 0 k=0

E. 4.21 Exercı́cio. Verifique! 6

Substituindo A → A∗ e B → B ∗ na expressão acima, tomando a adjunta da expressão resultante e


usando o fato que, para qualquer matriz M ∈ Mat ( , n), vale (exp (M ∗ ))∗ = exp(M ), obtem-se
" Z t N Z t Z t1 Z tm−1 Y
m
#
X 
et(A+B) = etA + e−t1 A B et1 A dt1 + ··· e−tk A B etk A dtm · · · dt1
0 m=2 0 0 0 k=1

Z tZ Z "m+1 #
t−s1 t−s1 −···−sm Y 
+ ··· esk A B e(t−s1 −···−sm+1 )(A+B) dsm+1 · · · ds1 . (4.66)
0 0 0 k=1

E. 4.22 Exercı́cio. Verifique! 6

Para matrizes ou elementos de uma álgebra-∗ de Banach é possı́vel tomar o limite N → ∞ nas
expressões (4.64)-(4.66), como na proposição que segue.
Proposição 4.15 Sejam matrizes A, B ∈ Mat ( , n). Então,

" Z t
e t(A+B)
= e tA
+ e−s1 A B es1 A ds1
0

∞ Z tZ Z m−1
#
X t−s1 t−s1 −···−sm−1 Y 
+ ··· e−(s1 +···+sm )A B esm−k A
dsm · · · ds1 , (4.67)
m=2 0 0 0 k=0

ou, equivalentemente,
" Z t ∞ Z tZ Z m
#
X t1 tm−1 Y 
−t1 A
e t(A+B)
= e tA
+ e t1 A
B e dt1 + ··· e−tk A B etk A
dtm · · · dt1 , (4.68)
0 m=2 0 0 0 k=1
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 4 246/1195

para todo t ∈ , a convergência sendo uniforme para t em compactos. As expansões em série acima


são denominadas séries de Duhamel. 2

Prova. A prova consiste em mostrar que o limite N → ∞ de (4.64) ou (4.66) existe. Tomemos
provisoriamente t ∈ [−T, T ] para
 algum T > 0. Para τ ∈ [−T, T ], tem-se keτ A k ≤ e|τ |kAk ≤ eT kAk .
Seja M := max eT kAk , eT kA+Bk . Tem-se

Z Z Z tm−1 Y
t t1 m

−tk A tk A
··· e Be dtm · · · dt1
0 0 0
k=1

Z tZ t1 Z tm−1 m
2m m (M 2 kBk|t|)
≤ M kBk ··· dtm · · · dt1 =
0 0 0 m!
e, analogamente,

Z Z Z t−s1 −···−sm
t t−s1 m
Y  (M kBk|t|)m+1
t−(s1 +···+sm+1 )(A+B) sm+1−k A
··· e Be dsm+1 · · · ds1 ≤ M .
0 0 0 (m + 1)!
k=0

As duas desigualdades provam a convergência uniforme para t ∈ [−T, T ]. Como T é arbitrário, a


convergência se dá para todo t ∈ . 

Na Seção 6.4, página 311, apresentamos uma generalização da expressão (4.68), a chamada série de
Dyson para da teoria de perturbações (vide, em particular, a expressão (6.26)).

• Outros resultados análogos

O método de demonstração da fórmula de Duhamel apresentado acima pode ser empregado na


obtenção de outros resultados. Sejam novamente matrizes A, B ∈ Mat ( , n). Então, vale
Z t
tB
[A, e ] = e(t−s)B [A, B]esB ds . (4.69)
0

d

Para a prova, observamos que ds
e−sB Ae sB
= e−sB [A, B]esB (justifique!). Integrando-se ambos os
lados de 0 a t, obtem-se Z t
−tB
e Ae tB
−A = e−sB [A, B]esB ds . (4.70)
0

Multiplicando-se à esquerda por etB chega-se à expressão (4.69). Expressões como (4.69) são emprega-
das na teoria de perturbações na Mecânica Quântica.
Parte III

Equações Diferenciais

247
Capı́tulo 5
Equações Diferenciais Ordinárias. Uma Introdução
Conteúdo

5.1 Definição e Alguns Exemplos . . . . . . . . . . . . . . . . . . . . . . . . . . 249


5.1.1 Equações Diferenciais Ordinárias Lineares . . . . . . . . . . . . . . . . . . . . 251
5.1.2 Equações Ordinárias de Segunda Ordem. Exemplos de Interesse . . . . . . . 255
5.2 Sistemas de Equações Diferenciais Ordinárias . . . . . . . . . . . . . . . . 257
5.3 Alguns Métodos de Solução de Equações Diferenciais Ordinárias . . . . . 262
5.3.1 Solução de Equações Ordinárias Lineares de Primeira Ordem . . . . . . . . . 262
5.3.2 As Equações de Bernoulli e de Riccati . . . . . . . . . . . . . . . . . . . . . . 263
5.3.3 Integração de Equações Separáveis . . . . . . . . . . . . . . . . . . . . . . . . 265
5.3.4 O Método de Variação de Constantes . . . . . . . . . . . . . . . . . . . . . . 266
5.3.5 O Método de Substituição de Prüfer . . . . . . . . . . . . . . . . . . . . . . . 268
5.3.6 O Método de Inversão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 270
5.3.7 Solução de Equações Exatas e o Método dos Fatores Integrantes . . . . . . . 271
5.3.8 Soluções das Equações de D’Alembert-Lagrange e Clairaut . . . . . . . . . . 276
5.4 Discussão sobre Problemas de Valor Inicial . . . . . . . . . . . . . . . . . . 280
5.4.1 Problemas de Valor Inicial. Patologias e Exemplos a se Ter em Mente . . . . 283
5.4.2 Teoremas de Existência e Unicidade de Soluções . . . . . . . . . . . . . . . . 286
5.4.3 Soluções Globais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 288
5.4.4 Dependência Contı́nua de Condições Iniciais e de Parâmetros . . . . . . . . . 290

este capı́tulo apresentaremos uma breve introdução à teoria das equações diferenciais or-
dinárias, abordando vários assuntos que serão aprofundados em outros capı́tulos. Na Fı́sica,
equações diferenciais são representações matemáticas diretas ou indiretas de leis naturais e
não é de surpreender, portanto, o papel central que as mesmas nela desempenham. Pode-se,
sem medo de exagero, afirmar que o desenvolvimento da Fı́sica moderna pós-Newtoniana só se tornou
possı́vel quando se compreendeu a importância de se expressar as leis básicas da natureza em termos
de equações diferenciais e quando se desenvolveram métodos de resolução das mesmas. Desde o século
XVIII as equações diferenciais tornaram-se não apenas um dos principais instrumentos teóricos de
trabalho dos fı́sicos, mas a linguagem mesma pela qual as leis da Fı́sica se expressam.
Um exemplo básico é segunda lei de Newton da Mecânica Clássica, que popularmente consiste na
afirmação que para uma partı́cula de massa m (movendo-se em, digamos, em uma dimensão, do ponto
de vista de um referencial inercial) o produto de sua massa por sua aceleração é igual à força que age
sobre ela. Se y(t) é a posição da partı́cula (em um sistema de referência inercial) e a força F que age
sobre ela em um instante de tempo t depender apenas do tempo t, da posição y(t) no instante t e

248
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 5 249/1195

da velocidade ẏ(t) no mesmo instante t, então a segunda lei de Newton assume a forma da equação
diferencial ordinária de segunda ordem
mÿ(t) = F (t, y(t), ẏ(t)) .
A Fı́sica apresenta outros exemplos de leis que se expressam em termos de equações diferenciais (parci-
ais), tais como as leis do Eletromagnetismo (equações de Maxwell), da Mecânica dos Fluidos (equações
de Euler e de Navier-Stokes), da Mecânica Quântica (equações de Schrödinger, de Klein-Gordon e de
Dirac), na Teoria da Relatividade Geral (equação de Einstein) etc.
Atualmente, o estudo das equações diferenciais e suas aplicações estende-se a outras sub-áreas da
Fı́sica, tais como a quı́mica, a biologia, a economia, finanças etc. , Para excelentes introduções, legı́veis
profundas e abrangentes, à teoria das equações diferenciais ordinárias, recomendamos [5] e [63].

5.1 Definição e Alguns Exemplos


Vamos iniciar nossa discussão tentando, de um modo geral e abstrato, definir o que se entende por uma
equação diferencial ordinária (que, seguindo a praxe, abreviaremos por EDO).

• Definição geral de EDOs

Seja n ≥ 1 um número natural e seja G(x1 , . . . xn+2 ) uma função (real ou complexa) de n + 2
variáveis (reais ou complexas). Entende-se por uma equação diferencial ordinária de ordem n de uma
função (incógnita) y de uma variável t associada à função G a equação
G(t, y(t), y 0 (t), . . . , y (n) (t)) = 0 . (5.1)
Assim sendo, o número n é dito ser a ordem da equação.
Um exemplo (escolhido arbitrariamente, sem aplicação prática conhecida) seria o caso da função de
três variáveis
G(x1 , x2 , x3 ) = x21 + sen (x2 ) − 3x1 cos(x3 ) . (5.2)
A equação diferencial ordinária de primeira ordem associada a essa função seria
t2 + sen (y(t)) − 3t cos(y 0 (t)) = 0 . (5.3)

É evidente que só faz sentido associar uma equação diferencial a uma função G de n + 2 variáveis,
como acima, se a mesma possuir zeros, ou seja, se a equação algébrica G(x 1 , . . . , xn+2 ) = 0 possuir
soluções (reais ou complexas, dependendo do interesse). Por exemplo, se G(x1 , x2 , x3 ) é uma função
de três variáveis reais ou complexas da forma G(x1 , x2 , x3 ) = |x1 |2 + |x2 |2 + |x3 |2 + 1 então não há
nenhuma equação diferencial associada à mesma, já que não há números reais ou complexos tais que
G(x1 , x2 , x3 ) = 0 e, portanto, a equação |t|2 + |y(t)|2 + |y 0 (t)|2 + 1 = 0, ainda que possa ser escrita,
trivialmente não possui qualquer solução.
Em muitos casos a equação algébrica G(x1 , . . . xn+2 ) = 0 permite escrever de modo único (ao menos
em uma região finita) a variável xn+2 em termos das demais:
xn+2 = F (x1 , . . . xn+1 ) , (5.4)
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 5 250/1195

onde F é alguma função de n+1 variáveis. Condições para isso são garantidas pelo importante Teorema
da Função Implı́cita (vide Seção 14.4, página 805, ou qualquer bom livro-texto sobre funções de várias
variáveis). Nesses casos felizes, a equação diferencial para G equivale (ao menos localmente) à equação

y (n) (t) = F (t, y(t), . . . , y (n−1) (t)) . (5.5)

Nos casos em que G é tal que não permite a separação global da dependência de x n+2 como em (5.4) a
equação diferencial é dita ser implı́cita. Equações implı́citas são por vezes difı́ceis de lidar. Trataremos
da solução de algumas delas na Seção 5.3, página 262. Um exemplo de uma equação implı́cita foi
apresentado em (5.2)-(5.3). Outro exemplo é a equação diferencial (associada à conservação de energia
mecânica de uma partı́cula de massa m se movendo em uma dimensão sob a ação de um potencial U ):
m
(ẏ(t))2 + U (y(t)) = E ,
2
onde E é uma constante.
Daqui por diante estaremos mais freqüentemente interessados em equações diferenciais de ordem
n da forma (5.5) para alguma função de n + 1 variáveis F . Para ilustrar equações do tipo (5.5),
apresentemos mais alguns exemplos.
Exemplo 5.1 Sejam m, ρ e k constantes positivas e f uma função de uma variável. Seja G a função
de quatro variáveis
G(x1 , x2 , x3 , x4 ) = mx4 + kx2 + ρx3 − f (x1 ) .
É evidente que para a equação algébrica G(x1 , x2 , x3 , x4 ) = 0 podemos escrever

x4 = F (x1 , x2 , x3 ) ,

onde
1
F (x1 , x2 , x3 ) = − (kx2 + ρx3 − f (x1 )) .
m
A equação diferencial (de segunda ordem) associada a essa função F é ÿ(t) = F (t, y(t) ẏ(t)), ou
seja
mÿ(t) + ρẏ(t) + ky(t) = f (t) .
O estudante pode imediatamente reconhecer que se trata da equação do oscilador harmônico amortecido
submetido a uma força dependente do tempo f (t). ◊

Vamos a outros exemplos escritos diretamente em termos da função F .


Exemplo 5.2 Sejam g e l duas constantes positivas e seja F a função
g
F (x1 , x2 , x3 ) = − sen (x2 ) .
l
A equação diferencial (de segunda ordem) associada a essa função F é
g
ÿ(t) = − sen (y(t)) .
l
O estudante pode imediatamente reconhecer que se trata da equação do pêndulo simples. ◊
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 5 251/1195

Exemplo 5.3 (Equação de van der Pol) Sejam µ e k constantes e

F (x1 , x2 , x3 ) = −µx3 (x22 − 1) − kx2 .

A equação diferencial (de segunda ordem) associada a essa função F é

y 00 (t) + µy 0 (t)(y(t)2 − 1) + ky(t) = 0 .

Esta equação é conhecida como equação de van der Pol, em honra ao engenheiro que a propôs como a
equação básica para o triodo (uma espécie de “avô” do transistor). ◊
Exemplo 5.4 Sejam α e β constantes e

F (x1 , x2 ) = −αx2 + βx22 .

A equação diferencial (de primeira ordem) associada a essa função F é

y 0 (t) = −αy(t) + βy(t)2 .

Essa equação aparece em vários problemas, por exemplo no estudo da evolução de populações. ◊

Vários outros exemplos serão apresentados adiante.

5.1.1 Equações Diferenciais Ordinárias Lineares


No estudo das equações diferenciais é muito útil classificar equações que possuam certas propriedades
comuns. Uma classificação muito importante é aquela que separa as equações diferenciais em lineares
e não-lineares e as primeiras em homogêneas e não-homogêneas.

• Equações diferenciais ordinárias lineares

Seja a equação diferencial ordinária de ordem n

y (n) (t) = F (t, y(t), . . . , y (n−1) (t)) . (5.6)

Se a função F (x1 , . . . xn+1 ) for uma função linear das variáveis x2 , . . . xn+1 , então (5.6) é dita ser
linear. Em um tal caso, F (x1 , . . . xn+1 ) é da forma

F (x1 , . . . xn+1 ) = f1 (x1 ) + f2 (x1 )x2 + · · · + fn+1 (x1 )xn+1 ,

para certas funções de uma variável f1 , . . . , fn+1 .


É fácil constatar que toda equação diferencial ordinária e linear de ordem n é da forma

y (n) (t) + an−1 (t)y (n−1) (t) + · · · + a1 (t)y 0 (t) + a0 (t)y(t) = f (t) , (5.7)

para funções reais ou complexas a0 , . . . , an−1 e f . Veremos inúmeros exemplos adiante (vide Seção
5.1.2).
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 5 252/1195

Equações que não são lineares são (obviamente) ditas ser não-lineares. Exemplos são a equação do
pêndulo simples
ẍ(t) + sen (x(t)) = 0
e a de van der Pol
ÿ(t) + µẏ(t)(y(t)2 − 1) + ky(t) = 0 .
Equações não-lineares são em muitos sentidos mais “complexas” que equações lineares e têm sido
objeto de intenso estudo nas últimas décadas. Neste texto não trataremos de métodos de resolução de
equações não-lineares, com exceção das equações de Bernoulli e Riccati, discutidas mais adiante, e dos
métodos recursivos desenvolvidos no Capı́tulo 14 para as equações integrais de Fredholm e de Volterra.

• Equações diferenciais ordinárias lineares a coeficientes constantes

Caso as funções a0 , . . . , an−1 em (5.7) sejam constantes, a equação (5.7) é dita ser a coeficientes
constantes. Como discutiremos, há um método geral para obter soluções de equações diferenciais
ordinárias lineares a coeficientes constantes (para qualquer ordem n).

• Equações lineares homogêneas e não-homogêneas

Caso a função f seja identicamente nula, a equação (5.7) é dita ser homogênea. De outra forma, se
f não for identicamente nula, equação (5.7) é dita ser não-homogênea.
Equações lineares e homogêneas têm uma propriedade de grande importância, o chamado princı́pio
de sobreposição, do qual trataremos agora.

• O princı́pio de sobreposição para equações lineares homogêneas

Seja uma equação diferencial ordinária linear e homogênea de ordem n


y (n) (t) + an−1 (t)y (n−1) (t) + · · · + a1 (t)y 0 (t) + a0 (t)y(t) = 0 . (5.8)
O chamado princı́pio de sobreposição é a afirmativa que se y a e yb são duas soluções de (5.8) então
combinações lineares arbitrárias αya + βyb são também soluções de (5.8). Aqui α e β são números reais
(k) (k)
ou complexos arbitrários. A prova é simples. A k-ésima derivada de αya + βyb é αya + βyb . Assim,
substituindo-se y por αya + βyb no lado esquerdo de (5.8), teremos

(αya + βyb )(n) + an−1 (t)(αya + βyb )(n−1) + · · · + a1 (t)(αya + βyb )0 + a0 (t)(αya + βyb ) =

(n) (n−1)
(αya(n) + βyb ) + an−1 (t)(αya(n−1) + βyb ) + · · · + a1 (t)(αya0 + βyb0 ) + a0 (t)(αya + βyb ) =
 

α ya(n) + an−1 (t)ya(n−1) + · · · + a1 (t)ya0 + a0 (t)ya 


| {z }
=0
 
(n) (n−1)
+ β yb + an−1 (t)yb + · · · + a1 (t)yb0 + a0 (t)yb  = 0 .
| {z }
=0
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 5 253/1195

Uma conclusão importante que se extrai do princı́pio de sobreposição é que o conjunto de todas
as soluções de uma equação diferencial ordinária linear e homogênea é um espaço vetorial, real ou
complexo, dependendo do caso.
Como o estudante facilmente percebe, o princı́pio de sobreposição vale também para sistemas de
equações diferenciais ordinárias lineares e homogêneas, assim como para equações diferenciais parciais
lineares e homogêneas, tais como as equações de difusão, de onda, de Laplace, as equações de Maxwell no
vácuo, a equação de Schrödinger e muitas outras equações da Fı́sica. Nelas o princı́pio de sobreposição
é amplamente empregado.
Historicamente, o princı́pio de sobreposição era conhecido desde os primeiros estudos sobre equações
diferenciais no século XVIII, mas foi através dos trabalhos de Helmholtz1 sobre acústica que sua im-
portância foi inteiramente percebida na resolução de equações diferenciais (ordinárias e parciais) lineares
de interesse fı́sico. A influência de Helmholtz não pode ser subestimada, mesmo no que concerne a
aplicações práticas: a leitura de Helmholtz, que também inventara um dispositivo eletromecânico para
a produção artificial do som de vogais, inspirou Bell2 a realizar experiências de transmissão simultânea
de múltiplos sinais de código Morse3 em uma única linha telegráfica, empregando freqüên