Escolar Documentos
Profissional Documentos
Cultura Documentos
USP - Curso de Física-Matemática
USP - Curso de Física-Matemática
2006
Curso de Fı́sica-Matemática
João Carlos Alves Barata
Estas notas ou sua versão mais recente podem ser encontradas no seguinte endereço WWW:
http://denebola.if.usp.br/∼jbarata/Notas de aula
Índice
Prefácio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
Notação e Advertências . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
I Capı́tulos Introdutórios 21
1 Noções Básicas 22
1.1 Conjuntos, Relações e Funções . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
1.1.1 Relações e Funções . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
1.1.2 Relações de Ordem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
1.1.3 Cardinalidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
1.1.4 Ínfimos e Supremos de Famı́lias de Conjuntos . . . . . . . . . . . . . . . . . . . 44
1.2 Estruturas Algébricas Básicas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
1.2.1 Semi-grupos, Monóides e Grupos . . . . . . . . . . . . . . . . . . . . . . . . . . 49
1.2.2 Corpos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
1.2.3 Espaços Vetoriais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
1.2.4 Anéis, Álgebras e Módulos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
1.2.5 Mais sobre Anéis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
1.2.6 Ações e Representações . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
1.2.7 Morfismos, Homomorfismos, Epimorfismos, Isomorfismos, Monomorfismos, En-
domorfismos e Automorfismos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
1.3 Cosets, Sub-Grupos Normais e o Grupo Quociente. O Centro de um Grupo . . . . . . . 73
1.3.1 Cosets . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
1.3.2 Subgrupos Normais e o Grupo Quociente . . . . . . . . . . . . . . . . . . . . . . 75
1.3.3 O Centro de um Grupo. Centralizadores e Normalizadores . . . . . . . . . . . . 77
1.4 O Produto Direto e o Produto Semi-Direto de Grupos . . . . . . . . . . . . . . . . . . . 78
1.5 Somas Diretas e Produtos Tensoriais . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82
1.5.1 Discussão Informal Preliminar . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82
1.5.2 Grupos Gerados por Conjuntos. Grupos Gerados por Relações . . . . . . . . . . 84
1.5.3 Somas Diretas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86
1.5.4 Produtos Tensoriais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
1.5.5 Produtos Diretos e Somas Diretas Arbitrários . . . . . . . . . . . . . . . . . . . 88
1.5.6 Módulos e Derivações . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
2
3/1461
IV Grupos 757
20 Medidas 1058
20.1 O Problema da Teoria da Medida . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1058
20.2 Medidas de Conjuntos. Definição, Exemplos e Propriedades Básicas . . . . . . . . . . . 1061
20.3 Construindo Medidas. A Medida Exterior e o Teorema de Caratheodory . . . . . . . . 1065
Bibliografia 1442
Prefácio
A intenção básica destas Notas é fornecer a estudantes de Fı́sica noções matemáticas impor-
tantes para uma melhor compreensão de desenvolvimentos modernos da Fı́sica Teórica e da
Matemática.
De modo geral o texto é de leitura auto-suficiente, mas vez por outra algum estudo complementar
é sugerido. Estas Notas, porém, não são substituto à leitura dos bons livros sobre os assuntos aqui
tratados. Entretanto, procuramos apresentar (muitas vezes em exercı́cios!) o maior número possı́vel
de exemplos e contra-exemplos para as várias situações tratadas de modo a motivar melhor definições
e resultados, o que é menos comum em textos com tratamentos mais sistemáticos. Parte do material
pode ser encontrada em diversas fontes, citadas na bibliografia, mas a apresentação e sua ordem são
próprias. Há também nestas Notas demonstrações do próprio autor de resultados conhecidos que são,
por alguma razão, dificilmente encontradas na literatura.
Fazemos notar que estas notas estão ainda sendo trabalhadas e alguns capı́tulos e seções podem
vir a ser alterados, corrigidos ou acrescidos de material. Além disso, novos capı́tulos serão escritos. O
material já presente é, porém, útil a todos aqueles que queiram iniciar-se nos assuntos aqui expostos.
Versões atualizadas serão colocadas na “rede” (no endereço acima indicado) sempre que possı́vel.
O autor agradece a todos os que apresentarem sugestões. Fabulosas somas em dinheiro são ofere-
cidas a todos aqueles que encontrarem erros no texto. Entre os já aquinhoados encontram-se os Srs.
Matheus Grasselli, Alexandre T. Baraviera, Marcos V. Travaglia, Daniel Augusto Cortez, Djogo F. C.
Patrão, Cléber de Mico Muramoto, Katiúscia Nadyne Cassemiro, Urbano Lopes França Junior, Gus-
tavo Barbagallo de Oliveira, Priscila Vieira Franco Gondeck, Darielder Jesus Ribeiro, Daniel Augusto
Turolla Vanzella, Leonardo Fernandes Dias da Motta, Krishnamurti José de Andrade, Pedro Tavares
Paes Lopes, Diego Cortegoso Assêncio, Fleury José de Oliveira Filho, Paulo Henrique Reimberg, Fabı́ola
Diacenco Xavier e Márcio André Prieto Aparı́cio Lopez aos quais somos muito gratos por correções e
sugestões.
As Seções 14.B, página 871, e 18.4.1, página 1014, foram originalmente escritas por Daniel Augusto
Cortez. A Seção 10.6, página 613, foi originalmente escrita por André M. Timpanaro, Fleury J. Oliveira
e Paulo H. Reimberg. A eles dedicamos agradecimentos especiais.
“A mente não é um vaso a ser repleto, mas uma tocha a ser acesa”.
Plutarco (46?-120).
“Talvez eu não tenha tido êxito em fazer as coisas difı́ceis tornarem-se fáceis, mas pelo menos eu nunca
fiz um assunto fácil tornar-se difı́cil”.
F. G. Tricomi (1897-1978).
“In science, self-satisfaction is death. Personal self-satisfaction is the death of the scientist. Collective
self-satisfaction is the death of the research. It is restlessness, anxiety, dissatisfaction, agony of mind
that nourish science”.
Jacques Lucien Monod (1910-1976), in New Scientist, 1976.
“Não existe nenhuma categoria da Ciência à qual se possa dar o nome de Ciência Aplicada. O que
existe são a Ciência e as aplicações da Ciência, intimamente ligadas, como frutos à árvore que os
gerou”.
Louis Pasteur (1822-1895), in “Pourquoi la France n’a pas trouvé d’hommes supérieurs au moment du
péril”, Revue Scientifique (Paris, 1871).
18/1461
Notação e Advertências
Para facilitar a consulta e a leitura, listamos aqui sem muitos comentários um pouco da notação
que empregaremos nestas Notas.
Se x = (x1 , . . . , xn ) e y = (y1 , . . . , yn ) são vetores reais com n componentes (ou seja, elementos
de Rn ) então definimos
hx, yiR := x1 y1 + · · · + xn yn .
Trata-se do produto escalar usual em Rn .
hx, yiC := x1 y1 + · · · + xn yn .
hx, yiR := x1 y1 + · · · + xn yn .
Designaremos um produto escalar entre dois vetores u e v sempre por hu, vi e nunca por (u, v),
para não causar confusão com a notação para par ordenado. Outra notação possı́vel é aquela
empregada freqüentemente em textos de Mecânica Quântica: hu | vi, mas faremos raramente uso
dessa notação.
Ainda sobre produtos escalares, seguiremos sempre a convenção dos textos de Fı́sica: um produto
escalar em um espaço vetorial sobre os complexos é linear em relação ao segundo argumento e
antilinear em relação ao primeiro. Assim, se α e β são números complexos, teremos hαu, βvi =
αβhu, vi. Textos de Matemática adotam por vezes a convenção oposta (ou mesmo ambas!).
Sobre o emprego das palavras função, aplicação, mapeamento, mapa, funcional, operador, operação,
produto e forma, que por vezes causam perplexidade em estudantes, remetemos ao comentário à
página 25.
A σ-álgebra dos sub-conjuntos de R mensuráveis por Lebesgue será (quase sempre) denotada
aqui por MµL .
Para x ∈ R, o sı́mbolo ⌊x⌋ designa o maior inteiro menor ou igual a x. O sı́mbolo ⌈x⌉ designa o
menor inteiro maior ou igual a x.
Há ainda nestas Notas um problema não totalmente sanado quanto ao conjunto dos números
naturais N. Em algumas seções adotou-se 0 ∈ N, ou seja, N = {0, 1, 2, 3, . . .} em outras,
adotou-se 0 6∈ N, ou seja, N = {1, 2, 3, . . .}. Esperamos que isso seja definitivamente corrigido
futuramente. Por ora, pedimos atenção ao leitor.
C(L) designa o conjunto de todas as funções contı́nuas (reais ou complexas, dependendo do caso),
definidas em L (na topologia que se estiver considerando em L).
B(L) designa a coleção de todos os conjuntos Borelianos de L (em relação à topologia que se
estiver considerando em L). Bl (L) designa a coleção de todas as funções Borelianas (reais ou
complexas, dependendo do caso), definidas em L.
As noções de propriedade válida quase em toda parte e de propriedade genérica são definidas nas
páginas 1080 e 1196, respectivamente.
• Intervalos
Ainda não introduzimos os números reais nem a relação de ordem entre eles mas, como essas noções
são conhecidas, vamos colocar aqui uma palavra sobre a nomenclatura usada para descrever intervalos
da reta real. Para a < b ∈ R o conjunto
[a, b] = {x ∈ R, com a ≤ x ≤ b}
e
(a, b] = {x ∈ R, com a < x ≤ b}
são ditos ser intervalos semi-abertos (ou semi-fechados).
É importante dizer que a nomenclatura “aberto” ou “fechado” acima é usada independentemente
da topologia usada em R (a noção de topologia será introduzida adiante).
Parte I
Capı́tulos Introdutórios
21
Capı́tulo 1
Noções Básicas
Conteúdo
1.1 Conjuntos, Relações e Funções . . . . . . . . . . . . . . . . . . . . . . . . . 23
1.1.1 Relações e Funções . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
1.1.2 Relações de Ordem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
1.1.3 Cardinalidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
1.1.4 Ínfimos e Supremos de Famı́lias de Conjuntos . . . . . . . . . . . . . . . . . . 44
1.2 Estruturas Algébricas Básicas . . . . . . . . . . . . . . . . . . . . . . . . . 47
1.2.1 Semi-grupos, Monóides e Grupos . . . . . . . . . . . . . . . . . . . . . . . . . 49
1.2.2 Corpos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
1.2.3 Espaços Vetoriais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
1.2.4 Anéis, Álgebras e Módulos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
1.2.5 Mais sobre Anéis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
1.2.6 Ações e Representações . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
1.2.7 Morfismos, Homomorfismos, Epimorfismos, Isomorfismos, Monomorfismos, En-
domorfismos e Automorfismos . . . . . . . . . . . . . . . . . . . . . . . . . . 71
1.3 Cosets, Sub-Grupos Normais e o Grupo Quociente. O Centro de um
Grupo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
1.3.1 Cosets . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
1.3.2 Subgrupos Normais e o Grupo Quociente . . . . . . . . . . . . . . . . . . . . 75
1.3.3 O Centro de um Grupo. Centralizadores e Normalizadores . . . . . . . . . . . 77
1.4 O Produto Direto e o Produto Semi-Direto de Grupos . . . . . . . . . . . 78
1.5 Somas Diretas e Produtos Tensoriais . . . . . . . . . . . . . . . . . . . . . . 82
1.5.1 Discussão Informal Preliminar . . . . . . . . . . . . . . . . . . . . . . . . . . 82
1.5.2 Grupos Gerados por Conjuntos. Grupos Gerados por Relações . . . . . . . . 84
1.5.3 Somas Diretas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86
1.5.4 Produtos Tensoriais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
1.5.5 Produtos Diretos e Somas Diretas Arbitrários . . . . . . . . . . . . . . . . . . 88
1.5.6 Módulos e Derivações . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
1.6 Tópicos especiais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90
1.6.1 O Grupo de Grothendieck . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90
1.6.2 Grupóides . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92
1.6.3 Quatérnions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94
22
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 1 23/1461
E ste capı́tulo introdutório pretende (re)apresentar ao leitor uma série de noções matemáticas
básicas abrangendo rudimentos da teoria (“ingênua”) dos conjuntos e algumas estruturas
algébricas. O objetivo não é um tratamento extensivo dos diversos assuntos, já que vários
deles serão desenvolvidos em capı́tulos futuros. Trata-se quase de um guia de consulta onde
são apresentadas, junto com exemplos simples, várias noções e definições básicas que utilizaremos. O
estudante deve retornar a este capı́tulo sempre que necessário.
Por vezes usa-se a notação A − B para A \ B. Para A ⊂ X denota-se por Ac o chamado complemento
de A em relação a X: Ac := X \ A. Note-se que ao usar-se o sı́mbolo Ac deve estar subentendido qual
o conjunto X ao qual o complemento se refere. É fácil ver que se A, B ⊂ X então A \ B = B c ∩ A.
Vale também (Ac )c = A e A ∩ B = A \ B c = B \ Ac para todos A, B ⊂ X.
Dizemos que um conjunto B ⊂ A é um subconjunto próprio de A se A \ B 6= ∅, ou seja, se todo
elemento de B for elemento de A mas houver elementos em A que não pertencem a B.
Se A e B são conjuntos e A ∩ B = ∅ então A ∪ B é dita ser uma união disjunta de A e B.
Se X é um conjunto denota-se por P(X) a coleção de todos os subconjuntos de X. P(X) é por
vezes chamado de conjunto das partes de X. Por convenção adota-se sempre que ∅ ∈ P(X). Assim,
dizer que A ⊂ X equivale a dizer A ∈ P(X).
Por A△B denota-se a chamada diferença simétrica entre A e B:
A△B := (A ∪ B) \ (A ∩ B) . (1.2)
• Pares ordenados
uma distinção entre o papel de a e de b, dado que a é um elemento do conjunto C, enquanto que b
é um elemento de um subconjunto de C, a saber do conjunto C \ {a}. Apesar de existir a definição
formal acima, recomenda-se ao estudante fiar-se inicialmente na intuição por trás do conceito.
Dados dois conjuntos A e B definimos por A × B o conjunto de todos os pares ordenados (a, b)
sendo a ∈ A e b ∈ B. O conjunto A × B é chamado de produto Cartesiano1 de A e B. Note que, em
geral, A × B 6= B × A (por quê?).
Mais adiante apresentaremos generalizações das noções de acima.
• Relações
• Funções
Este é talvez o mais importante exemplo de relação. Sejam A e B conjuntos e F uma relação entre
A e B. Então, a relação F é dita ser uma função de A em B se Dom(F ) = A e se (a, b) ∈ F e
(a, b′ ) ∈ F só for possı́vel caso b = b′ . Em outras palavras, a cada elemento a de A a função associa um
e apenas um elemento b de B que faz o papel de segundo elemento do par ordenado (a, b). Este segundo
elemento associado pela função F ao elemento a, é mais conveniente denotá-lo por F (a). Assim, uma
função é o conjunto de pares {(a, F (a)) ∈ A × B, a ∈ A}. Freqüentemente denotamos uma função F
de A em B por F : A → B.
Se B ⊂ Y , definimos n o
−1
f (B) := x ∈ X| f (x) ∈ B .
f (A) é dita ser a imagem de A por f e f −1 (B) é dita ser a pré-imagem de B por f .
O uso do sı́mbolo f −1 para designar pré-imagem f −1 (B) de um conjunto B é uma escolha infeliz
(mas universalmente aceita), pois pode causar confusão com a noção de função inversa de f , que pode
não estar definida. O estudante deve estar atento.
é, em verdade, uma função denominada função inversa de F . É claro que (F −1 )−1 = F .
• Famı́lias de conjuntos
Seja X um conjunto não-vazio. Uma coleção F não-vazia de sub-conjuntos de X é por vezes dita
ser uma famı́lia de conjuntos. Se F for uma famı́lia de conjuntos e existirem um conjunto não-vazio I
e uma função bijetora f : I → F, então dizemos que a famı́lia F é indexada por I e os elementos de I
são denominados ı́ndices. Se λ é um ı́ndice, designaremos sua imagem pela função f simplesmente por
Aλ ∈ F.
Uma indexação de uma coleção F não-vazia de sub-conjuntos de X sempre existe: podemos tomar
I = F e f a função identidade.
e \ n o
Aα := x ∈ X tal que x ∈ Aα para todo α ∈ I . (1.6)
α∈I
As definições acima implicam as importantes propriedades descritas na proposição que segue, cuja
demonstração deixamos como exercı́cio.
Proposição 1.1 Sejam B ⊂ X, X não-vazio, e {Aα ⊂ X, α ∈ I} uma coleção arbitrária de subcon-
juntos de X. Então valem as seguintes relações:
! !
[ \ \ [
B\ Aα = (B \ Aα ) , B\ Aα = (B \ Aα ) , (1.7)
α∈I α∈I α∈I α∈I
! !
\ \ [ [
Aα \B = (Aα \ B) , Aα \B = (Aα \ B) , (1.8)
α∈I α∈I α∈I α∈I
! !
\ \ [ [
B∪ Aα = (B ∪ Aα ) , B∩ Aα = (B ∩ Aα ) , (1.9)
α∈I α∈I α∈I α∈I
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 1 27/1461
! !
[ [ \ \
B∪ Aα = (B ∪ Aα ) , B∩ Aα = (B ∩ Aα ) . (1.10)
α∈I α∈I α∈I α∈I
e !
\ \
f −1 Bλ = f −1 (Bλ ) . (1.15)
λ∈Λ λ∈Λ
2
f −1 (B \ C) = f −1 (B) \ f −1 (C) .
Aqui, B c = Y \ B. Fora isso, se f : X → Y é uma função injetora e sobrejetora e A, B ⊂ X, então
f (Ac ) = (f (A))c ,
f (A \ B) = f (A) \ f (B) .
Aqui, Ac = X \ A. 2
• Extensões de funções
Seja F : A → B uma função e suponha que A seja subconjunto de um outro conjunto A′ . Uma
função G : A′ → B é dita ser uma extensão de F se F e G coincidirem na parte comum de seus
domı́nios, que vem a ser o conjunto A, ou seja, se G(a) = F (a) para todo a ∈ A.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 1 29/1461
E. 1.2 Exercı́cio. Verifique a equivalência dessas duas definições do conceito de extensão de funções. 6
Como veremos, o conceito de extensão de funções é freqüentemente empregado na teoria dos ope-
radores lineares em espaços de Hilbert.
Já discutimos o conceito de produto Cartesiano de dois conjuntos A e B: A × B e com ele introdu-
zimos a noção de função. De posse dessa noção podemos, com vistas a uma generalização, apresentar
uma outra visão do conceito de produto Cartesiano de dois conjuntos, a saber, podemos dizer que A×B
é o conjunto de todas as funções f : {1, 2} → A ∪ B tais que f (1) ∈ A e f (2) ∈ B. A idéia é dizer que
cada par ordenado (a, b) com a ∈ A e b ∈ B é uma função onde o primeiro membro do par é a imagem
de 1 (por ser o primeiro) e o segundo a imagem de 2 (por ser o segundo). Essa idéia permite definir pro-
dutos Cartesianos de um número finito n de conjuntos A1 , A2 , . . . , An denotado por A1 × A2 × . . . × An
n
[
como sendo o conjunto de todas as funções f : {1, 2, . . . , n} → Aj satisfazendo f (j) ∈ Aj para todo
j=1
n
[
j ∈ {1, . . . , n}. A função f tem, por assim dizer, o papel de ordenar os elementos de Aj tomando-se
j=1
sucessivamente um elemento de cada Ai por vez. O produto Cartesiano A1 × A2 × . . . × An é assim
entendido como o conjunto formado por todas as ênuplas ordenadas (a1 , . . . , an ) com ai ∈ Ai .
Essa idéia pode ser generalizada ainda mais. Sejam I um conjunto não-vazio (não necessariamente
finito ou contável) e Ai , i ∈ I, conjuntos não-vazios indexados por elementos de I. Definimos então o
produto Cartesiano da famı́lia de conjuntos {Ai , i ∈ I}, denotado por
Y
Ai
i∈I
[
como sendo o conjunto de todas as funções f : I → Aj tais que f (x) ∈ Ax para todo x ∈ I. O
j∈I
Axioma da Escolha (página
Q 29) consiste na afirmação (ou melhor dizendo, na suposição, já que se trata
de um axioma) que i∈I Ai é não-vazio.
Se por ventura todos os conjuntos Ai forem idênticos então denota-se o produto Cartesiano acima
por AI . Assim, AI denota o conjunto de todas as funções de I em A.
Desta forma N × N e N{1, 2} são duas notações distintas para o mesmo objeto, que também é
denotado simplesmente por N2 , como se sabe. Genericamente Nd designa N{1,...,d} para d ∈ N, d > 0.
• O Axioma da escolha
• Relações de equivalência
Outro tipo importante de relação é formado pelas chamadas relações de equivalência. Uma relação
E ⊂ A × A é dita ser uma relação de equivalência em um conjunto não-vazio A se os seguintes quesitos
forem satisfeitos:
Se o par (a, b) pertence a uma relação de equivalência E então a e b são ditos serem equivalentes
E
segundo E. Quase sempre usa-se a notação a ∼ b, ou simplesmente a ∼ b, para indicar que dois
elementos são equivalentes segundo uma relação de equivalência dada.
Seja A um conjunto e E ⊂ A × A uma relação de equivalência em A. Para cada a ∈ A podemos
definir o conjunto
E(a) := {a′ ∈ A tal que (a, a′ ) ∈ E} . (1.17)
3
Q
Para a definição do produto Cartesiano s∈I As , vide página 29.
4
Ernst Friedrich Ferdinand Zermelo (1871-1953).
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 1 31/1461
E. 1.5 Exercı́cio. Seja o conjunto dos números reais R e seja a relação W ⊂ R × R definida por
n o
W := (x, y) ∈ R × R tal que x − y ∈ Q , (1.18)
onde Q é o conjunto dos números racionais. Prove que W é uma relação de equivalência. 6
• Relações de compatibilidade
Para uma dada relação de compatibilidade C denotamos γ ∼C γ ′ caso (γ, γ ′ ) ∈ C e dizemos que
γ e γ ′ são C-compatı́veis. Caso contrário, denotamos γ 6∼C γ ′ se (γ, γ ′ ) 6∈ C e dizemos que γ e γ ′ são
C-incompatı́veis.
Se uma dada relação C é subentendida, denotamos simplesmente γ ∼ γ ′ caso (γ, γ ′ ) ∈ C e dizemos
simplesmente que γ e γ ′ são compatı́veis.
Relações de compatibilidade são importantes na Mecânica Estatı́stica, especialmente nas chamadas
expansões de polı́meros e de “clusters”.
Exemplo. Seja X um conjunto não-vazio e P = P(X) \ {∅}, a coleção de todos os subconjuntos
não-vazios de X. Uma relação de compatibilidade em P é a seguinte: A ∼ B ⇐⇒ A ∩ B = ∅.
Verifique.
2. Se a b e b a então forçosamente a = b.
3. Se a b e b c então a c.
Outro conceito importante é o de relação de ordem total. Uma ordem parcial R em um conjunto X
é dita ser uma relação de ordem total se para todo a, b ∈ X tem-se que (a, b) ∈ R ou que (b, a) ∈ R.
Se X possui uma relação de ordem total R então X é dito ser totalmente ordenado ou linearmente
ordenado. Assim, se X é um conjunto dotado de uma relação de ordem parcial, dizemos que um
sub-conjunto A ⊂ X é linearmente ordenado se a b ou b a para todo a, b ∈ A.
• Exemplos
E. 1.6 Exercı́cio. Você consegue construir uma relação de ordem em R2 ou em R3 ? E uma relação de
ordem total? 6
5
Felix Hausdorff (1868-1942). Hausdorff foi um dos criadores da Topologia e da moderna Teoria dos Conjuntos.
Perseguido pelo nacional-socialismo, suicidou-se em 1942 para evitar ser enviado a um campo de concentração.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 1 33/1461
• Mais exemplos
Seja o conjunto dos números naturais N. Podemos estabelecer em N a relação de ordem usual onde
dizemos que x ≤ y se x − y for um número negativo ou nulo. Esta relação é uma relação de ordem
total. O leitor não deve pensar que essa é a única relação de ordem total existente em N. Um outro
exemplo é o seguinte.
Vamos estabelecer uma relação de ordem em N que denotaremos pelo sı́mbolo p−i . Sejam a,
b ∈ N. Se a e b forem pares dizemos que a p−i b se a ≤ b. Se a e b forem ı́mpares dizemos que a p−i b
se a ≤ b. Se a é par e b é ı́mpar então dizemos sempre que a p−i b.
E. 1.7 Exercı́cio. Mostre que a relação p−i estabelece uma relação de ordem total em N. 6
Um exemplo análogo pode ser construı́do em R. Vamos estabelecer uma relação de ordem em R
que denotaremos pelo sı́mbolo r−i . Sejam x, y ∈ R. Se x e y forem racionais dizemos que x r−i y se
x ≤ y. Se x e y forem irracionais dizemos que x r−i y se x ≤ y. Se x é racional e y é irracional então
dizemos sempre que x r−i y.
E. 1.8 Exercı́cio. Mostre que a relação r−i estabelece uma relação de ordem total em R. 6
• Ordem lexicográfica
É possı́vel estabelecer uma relação de ordem total em R2 da seguinte forma: dizemos que (x1 , x2 ) L
(y1 , y2 ) se x1 < y1 ou se x1 = y1 e x2 ≤ y2 . Essa relação de ordem é denominada relação de ordem
lexicográfica de R2 .
Essa definição pode ser facilmente generalizada. Seja X um conjunto totalmente ordenado por uma
relação de ordem total X . Então, X n pode ser totalmente ordenado dizendo-se (x1 , . . . , xn ) L
(y1 , . . . , yn ) se houver um j ∈ {1, . . . , n}, tal que xi = yi para todo i < j e xj X yj .
S∞Seja nX um conjunto totalmente ordenado por uma relação de ordem total X e seja Seja X =
n=1 X . Podemos estabelecer em X uma ordem total X, também denominada lexicográfica, da
seguinte maneira. Sejam m, n ∈ N e p = min{m, n}. Então, dizemos (x1 , . . . , xm ) X (y1 , . . . , yn ) se
(x1 , . . . , xp ) L (y1 , . . . , yp ) no sentido dado no parágrafo anterior, ou se (x1 , . . . , xp ) = (y1 , . . . , yp ),
mas m < n.
E. 1.9 Exercı́cio. Por que essas relações de ordem são denominadas “lexicográficas”? Pense na maneira
como palavras (de tamanho arbitrário!) são ordenadas em um dicionário. 6
Podemos ainda estender a definição de ordem lexicográfica. Seja X um conjunto totalmente orde-
nado por uma relação de ordem total X e seja Y um conjunto totalmente ordenado por uma relação
de ordem total Y . Então, X Y pode ser parcialmente ordenado dizendo-se X Y ∋ x L y ∈ X Y se
houver um j ∈ Y , tal que x(i) = y(i) para todo i Y j e x(j) X y(j).
Exemplo. Sejam f, g, duas funções de R em R. Dizemos que f L g se existir y ∈ R tal que
f (x) = g(x) para todo x < y mas f (y) ≤ g(y). Lembrando que o conjunto de todas as funções de R
em R é RR , vê-se que essa definição coincide com a dada acima.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 1 34/1461
• Conjuntos dirigidos
Um conjunto I é dito ser um conjunto dirigido (“directed set”) se for dotado de uma relação de
ordem parcial, que denotaremos por “”, e se for dotado da seguinte propriedade: para quaisquer dois
elementos a e b de I existe pelo menos um terceiro elemento c ∈ I tal que a c e b c.
Exemplo. R é um conjunto dirigido com a relação de ordem usual.
Exemplo. R é um conjunto dirigido com a relação de ordem r−i definida acima.
Exemplo. Seja o conjunto Rn , n = 1, 2, . . ., e seja I o conjunto de todos os abertos limitados de Rn
(um conjunto é limitado se for subconjunto de alguma bola aberta de raio finito centrada na origem).
Mostre que I é um conjunto dirigido pela relação de ordem de inclusão: A B se A ⊂ B. Note que
essa relação de ordem não é uma relação de ordem total.
Contra-Exemplo. Seja X um conjunto não-vazio e seja I = P(X) \ {X}, ou seja, I é a coleção
de todos os subconjuntos de X, exceto o próprio X. Podemos ter em I uma relação de ordem (de
inclusão) dizendo que A B se A ⊆ B. Notemos, porém, que I não é um conjunto dirigido pois
para A ∈ I, A 6= ∅ temos X \ A ∈ I mas não existe em I nenhum conjunto que contenha A e X \ A
simultaneamente como subconjuntos.
Exemplo. Causalidade de Einstein. Seja M4 o espaço-tempo quadri-dimensional de Minkowski e
sejam E0 = (t0 , x0 , y0 , z0 ) e E1 = (t1 , x1 , y1 , z1 ) dois eventos em M4 . Dizemos que o evento E0 precede
causalmente o evento E1 , (em notação simbólica E0 Einstein E1 ), se t0 ≤ t1 e se
E. 1.10 Exercı́cio. Mostre que Einstein é uma relação de ordem em M4 e que M4 é um conjunto dirigido
por essa relação. 6
• Reticulados e seqüências
Seja I um conjunto dirigido com respeito à uma relação de ordem parcial . Se M é um conjunto
não-vazio, uma função f : I → M é denominada uma reticulado em M baseada no conjunto dirigido I
com respeito a ou, simplesmente, um reticulado6 em M.
Uma seqüência em M é um reticulado baseada em N, que é um conjunto dirigido com respeito à
ordem usual dos naturais, ou seja, é uma função f : N → M.
A noção de reticulado é importante, por exemplo, no estudo de funções contı́nuas em espaços
topológicos gerais e na definição da noção de convergência (vide Capı́tulo 22, página 1098).
Se f : N → M é uma seqüência em M, os elementos f (n) de sua imagem são freqüentemente
denotados por uma notação com ı́ndices: fn . É também comum denotar-se a própria seqüência por
{fn , n ∈ N} ou por {fn }n∈N , que, estritamente falando, representam a imagem de f em M.
• Máximos e mı́nimos
6
Alguns autores preferem usar a palavra rede em lugar de reticulado.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 1 35/1461
Se X é um conjunto dotado de uma relação de ordem parcial (que denotamos por ) diz-se que
um elemento z ∈ X é um máximo de X se x z para todo x ∈ X. Se z e z ′ são máximos de X então,
por hipótese, valem ambas as relações z z ′ e z ′ z, o que implica z = z ′ . Assim, se X possuir um
máximo ele é único, e é denotado por max(X).
Se A ⊂ X, a relação de ordem parcial em X induz uma relação de ordem parcial em A. Com essa
relação, podemos definir max(A), se existir, como o elemento de A tal que a max(A) para todo
a ∈ A. Note que, por definição, max A ∈ A.
Analogamente, um elemento a é dito ser um mı́nimo de X se a x para todo x ∈ X. Se a e a′
são mı́nimos de X então, por hipótese, valem ambas as relações a a′ e a′ a, o que implica a = a′ .
Assim, se X possuir um mı́nimo ele é único, e é denotado por min(X).
Seja X um conjunto dotado de uma relação de ordem parcial (que denotamos por ).
Um elemento z ∈ X é dito ser um elemento maximal se não existir x ∈ X, x 6= z tal que z x.
Um elemento a ∈ X é dito ser um elemento minimal se não existir x ∈ X, x 6= a tal que x a.
Os elementos maximais e minimais de um conjunto parcialmente ordenado X, se exitirem, não são
necessariamente únicos, como mostra o seguinte exemplo.
E. 1.11 Exercı́cio-Exemplo. Considere no plano R2 o quadrado fechado Q = [0, 1] × [0, 1], ou seja, os
elementos de Q são pares ordenados (x, y) ∈ R2 com 0 ≤ x ≤ 1 e 0 ≤ y ≤ 1. Estabelecemos em Q
uma relação de ordem (parcial!) da seguinte forma: (x, y) (x′ , y ′) se x = x′ e se y ≤ y ′. Em palavras,
(x, y) (x′ , y ′) se ambos os pontos estiverem em uma mesma linha vertical, mas (x, y) estiver mais baixo
que (x′ , y ′). Cheque que isso é, de fato, uma relação de ordem, mas que não é uma ordem total, pois não
se pode comparar pontos que estão em linhas verticais diferentes.
Com essa definição convença-se que todos os elementos da forma (x, 1) são maximais. Porém, se x
for diferente de x′ , não se pode nem dizer que (x, 1) (x′ , 1) nem que (x′ , 1) (x, 1). Igualmente,
convença-se que todos os elementos da forma (x, 0) são minimais.
Note também que para a existência de elementos maximais é importante que Q contenha pontos na aresta
de cima e (com coordenada y = 1), analogamente, para a existência de elementos minimais é importante
que Q contenha pontos aresta de baixo (com coordenada y = 0). Por exemplo, se você definir a mesma
relação de ordem no quadrado aberto (0, 1) × (0, 1) não há mais elementos maximais ou minimais. 6
• Conjuntos bem-ordenados
Um conjunto X dotado de uma relação parcial de ordem é dito ser um conjunto bem-ordenado
se todo subconjunto A não vazio de X tem um elemento mı́nimo em A.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 1 36/1461
E. 1.12 Exercı́cio. Mostre que todo conjunto bem-ordenado segundo uma relação parcial de ordem é
também totalmente ordenado segundo a mesma relação. 6
E. 1.13 Exercı́cio. A recı́proca não é, entretanto, verdadeira. Mostre que R é totalmente ordenado pela
relação usual de ordem entre números reais, mas não é um conjunto bem-ordenado. 6
Incidentalmente, o Teorema 1.1 junto com a afirmação do Exercı́cio E. 1.12 informam que todo
conjunto não-vazio possui ao menos uma relação de ordem total.
• Majorantes e minorantes
Seja X um conjunto dotado de uma ordem parcial denotada por e seja A ⊂ X. Se existe t ∈ X
tal que a t para todo a ∈ A dizemos que t é um majorante de A, ou um limitante superior8 de A.
Analogamente, se existe h ∈ X tal que h a para todo a ∈ A dizemos que h é um minorante de A
ou um limitante inferior9 de A.
• Conjuntos limitados
Seja X um conjunto dotado de uma ordem parcial denotada por . Um conjunto A ⊂ X que tenha
pelo menos um majorante é dito ser um conjunto limitado superiormente. Um conjunto A ⊂ X que
tenha pelo menos um minorante é dito ser um conjunto limitado inferiormente.
• Ínfimo e supremo
E. 1.15 Exercı́cio. Tome X = R com a relação de ordem usual. Mostre que inf((−1, 1)) = −1 e que
sup((−1, 1)) = 1. Note que −1 e 1 não são elementos de (−1, 1). 6
E. 1.16 Exercı́cio. Suponha que A e B sejam dois sub-conjuntos de um conjunto X dotado de uma
ordem total e que inf(A) e inf(B) existam. Mostre então que
inf(A ∪ B) = min{inf(A), inf(B)} .
6
E. 1.17 Exercı́cio. Suponha que A e B sejam dois sub-conjuntos de um conjunto X dotado de uma
ordem total e que sup(A) e sup(B) existam. Mostre então que
sup(A ∪ B) = max{sup(A), sup(B)} .
6
• O Lema de Zorn
Uma das afirmativas fundamentais de toda a Matemática usual é o seguinte resultado, conhecido
como lema de Zorn, em homenagem a um dos seus formuladores10 :
Lema 1.1 (Lema de Kuratowski-Zorn) Seja X um conjunto não-vazio e uma relação de ordem
parcial em X. Suponha que todo sub-conjunto linearmente ordenado de X tenha pelo menos um majo-
rante em X. Então, todo sub-conjunto linearmente ordenado de X tem algum majorante em X que é
também um elemento maximal de X. Implicitamente isso está dizendo que, sob as hipóteses, X possui
ao menos um elemento maximal. 2
10
Max August Zorn (1906-1993). Em verdade, o Lema de Zorn foi primeiramente descoberto por Kazimierz Kuratowski
(1896-1980). O trabalho de Kuratowski data de 1922 e o de Zorn de 1935.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 1 38/1461
E. 1.18 Exercı́cio. Verifique que se X = [0, 1] é ordenado pela relação de ordem usual todo sub-conjunto
de X tem um majorante em X e que 1 é um desses possı́veis majorantes. Verifique que 1 é um elemento
maximal de X. 6
E. 1.19 Exercı́cio. Verifique que se X = [0, 1) é linearmente ordenado pela relação de ordem usual e
nem todo sub-conjunto de X tem um majorante em X (tente, por exemplo, sub-conjuntos do tipo [a, 1)
com 0 ≤ a < 1). Verifique que X não tem um elemento maximal. 6
E. 1.20 Exercı́cio. Cheque se as hipóteses do Lema de Zorn são satisfeitas ou não nos quadrados abertos
e fechados do Exemplo E. 1.11, página 35. 6
O Lema de Zorn é “equivalente” ao chamado Axioma da Escolha (vide página 29), ou seja, admitir
um como verdadeiro leva a demonstrar a validade do segundo. Essa equivalência não será provada
aqui (vide, por exemplo, [55]). Toda a Matemática usual é fundada na aceitação de um ou de outro
como verdadeiro e, em princı́pio, uma nova Matemática pode ser construı́da (com resultados distintos
dos da Matemática usual) se esses dois axiomas forem substituı́dos por um terceiro inequivalente. A
relevância de tais Matemáticas em Fı́sica é uma questão em aberto.
1.1.3 Cardinalidade
Seja K uma coleção de conjuntos. Dados dois conjuntos A e B da coleção K, dizemos que A e
B são equivalentes se houver uma função bijetora de A sobre B, ou seja, se houver uma função com
domı́nio igual a A e imagem igual a B tal que a cada elemento b ∈ B existe um único elemento a ∈ A
com f (a) = b.
E. 1.21 Exercı́cio. Mostre que essa é uma relação de equivalência entre os conjuntos da coleção K. 6
Para dois conjuntos que são equivalentes no sentido acima diz-se também que os mesmos têm a
mesma cardinalidade. Ou seja, dois conjuntos têm a mesma cardinalidade se e somente se houver uma
função bijetora entre eles.
Um conjunto A é dito ter n elementos (para um número natural n) se for equivalente ao conjunto
{1, . . . , n}.
Nota. Esta última definição pressupõe que o conceito de número natural já seja conhecido. Outra construção mais simples em termos de
pressupostos é feita de modo informal como segue: diz-se que um conjunto tem um elemento se for equivalente ao conjunto {∅}; que um
conjunto tem dois elementos se for equivalente ao conjunto {∅, {∅}}; que tem três elementos se for equivalente ao conjunto {∅, {∅, {∅}}} e assim
por diante. Em verdade essa construção permite produzir uma definição do conceito de número natural: o número “um” é, grosseiramente
falando, o nome dado à classe de equivalência formada pelos conjuntos equivalentes ao conjunto {∅}; o número “dois” é o nome dado à classe
de equivalência do conjunto {∅, {∅}}; o número “três” é nome dado à classe de equivalência do conjunto {∅, {∅, {∅}}} e assim por diante.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 1 39/1461
Aliás, o número “zero” é o nome dado à classe de equivalência de ∅. O números naturais seriam então o conjunto de todas as classes de
equivalência construı́das dessa forma. Esta definição11 do conceito de número natural, devida a von Neumann12 , pressupõe apenas conhecidos
conceitos primitivos como os de conjuntos, classes de equivalência e de conjunto vazio. O leitor poderá encontrar uma discussão extensa sobre
a definição de números naturais em [139, 103, 55].
E. 1.22 Exercı́cio. Seja A um conjunto finito com n elementos. Mostre que P(A) tem 2n elementos. 6
• Conjuntos contáveis
Um conjunto A é dito ser contável se for finito ou se tiver a cardinalidade do conjunto dos números
naturais, ou seja, se for finito ou se existir uma função bijetora f : N → A cujo domı́nio é N e cuja
imagem é todo A.
Nota. Por vezes conjuntos contáveis que não são finitos são chamados de conjuntos enumeráveis. Não
há, infelizmente, unidade nessa nomenclatura mas empregá-la-emos aqui se vier a ser necessário.
Vamos agora provar alguns teoremas fundamentais sobre conjuntos contáveis (cuja importância,
apesar da aparente simplicidade dos enunciados, não pode ser subestimada pois seu alcance estende-se
por toda a Matemática, em particular, por muito do que veremos no restante do curso).
Precisamos da seguinte proposição:
Proposição 1.5 Um conjunto é contável se e somente se for equivalente a um subconjunto de N. 2
Prova. Por definição todo conjunto contável A (finito ou não) é equivalente a algum subconjunto de N
(no pior dos casos ao próprio N).
Provemos então a recı́proca. Seja A equivalente a um subconjunto Z de N. Se Z for finito A
também o será e portanto contável. Suponhamos então que Z não é finito. Vamos construir uma
função bijetora F : N → Z. A mesma é definida da seguinte forma
F (1) = min Z,
n o
F (n) = min Z \ F (1), F (2), . . . , F (n − 1) para n = 2, 3, . . . .
É fácil ver que F é bijetora e que sua imagem é Z (faça isso). Assim, Z é enumerável e, portanto, A
também o é.
11
J. von Neumann “Zur Einführung transfiniten Zahlen”, Acta Szeged 1, 199-208 (1923).
12
János von Neumann (1903-1957). Von Neumann também adotou os nomes de Johann von Neumann e John von
Neumann.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 1 40/1461
Prova. Todo racional positivo é da forma p/q, onde p e q ∈ N são irredutı́veis ou primos entre si (ou
seja, não há “cancelamentos” que permitam escrever p/q = a/b com a < p e b < q). Assim, há uma
correspondência um-a-um entre Q+ e o subconjunto de N × N formado por todos os pares (p, q) onde p
e q são primos entre si. Como N × N é contável, a Proposição 1.6 diz então que Q+ é também contável.
E. 1.23 Exercı́cio. Prove que o conjunto dos números inteiros Z e o conjunto dos números racionais Q
são conjuntos contáveis. 6
Um fato também importante é que há conjuntos de números que não são contáveis. O exemplo
mais importante é o dos números reais.
Teorema 1.3 O conjunto dos números reais não é contável. 2
Prova. Para provar isso basta mostrar que há um subconjunto de R que não é contável. Considere o
conjunto U de todos os números reais do intervalo [0, 1) tais que apenas os dı́gitos 0 ou 1 aparecem
em sua representação decimal. Por exemplo, números como 0, 001101 ou 0, 1 ou 0 ou 0, 1011 ou
1/9 = 0, 11111 . . . são elementos de U. De modo mais preciso, U é o subconjunto do intervalo [0, 1)
formado por todos os números u que podem ser escritos da forma
X∞
dn (u)
u = ,
n=1
10n
onde dn (u) ∈ {0, 1} para todo n ≥ 1. dn (u) é o n-ésimo dı́gito do número u na base decimal. Note
que dois elementos u e v de U são iguais se e somente se dn (u) = dn (v) para todo n (prove isso!).
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 1 41/1461
Vamos provar que U não é um conjunto contável. Para isso vamos supor o oposto, ou seja, que U
é contável e veremos que essa hipótese leva a um absurdo. Vamos supor que haja uma função bijetora
f : N → U cuja imagem é U. Considere o número real a definido por
X∞
1 − dn (f (n))
a = n
.
n=1
10
Nota. É fácil ver que, em verdade, poderı́amos substituir a base decimal, usada na representação do
conjunto U acima, por qualquer base b ∈ N com b > 2. Ou seja, se considerarmos o conjunto Ub de
todos os reais u do intervalo [0, 1] representáveis na base b, b ∈ N, b > 2, da forma
X∞
dn (u)
u = n
.
n=1
b
onde dn (u) ∈ {0, 1}, então, repetindo o que fizemos acima, verı́amos que Ub não é contável. Claramente
U = U10 .
Nota. O caso da base binária b = 2 foi excluı́do da última nota pois nele não vale a unicidade da
representação dos elementos de U2 na forma
X∞
dn (u)
u = .
n=1
2n
onde dn (u) ∈ {0, 1}. Para ver isso, faça o exercı́cio seguinte.
E. 1.24 Exercı́cio. Mostre que na base binária 0, 1 e 0, 01111111 . . . representam o mesmo número, a
saber, o número 1/2. Sugestão: use a fórmula da progressão geométrica infinita para calcular quanto vale
0, 01111111 . . .. 6
Nota. Os conjuntos Ub , b > 2, são exemplos de uma classe de conjuntos chamados de conjuntos
de Cantor13 . Tornaremos a reencontrar tais conjuntos quando falarmos de Teoria da Medida (vide
Capı́tulo 21, especialmente Seção 21.2, página 1081.).
Ainda sobre os números reais, tem-se também o seguinte fato, que para referência futura formulamos
como uma proposição.
13
Georg Ferdinand Ludwig Philipp Cantor (1845-1918).
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 1 42/1461
Prova. É suficiente mostrar que (0, 1) e (0, 1) × (0, 1) têm a mesma cardinalidade, pois a função
x → (1 + tanh(x))/2 é uma bijeção de R em (0, 1). Fixemos para cada x ∈ (0, 1) uma representação
decimal x = 0, d1d2 d3 . . . com dn ∈ {0, . . . , 9}. Seja F : (0, 1) → (0, 1) × (0, 1) definida por
F −1 (( 0, a1 a2 a3 a4 . . . , 0, b1 b2 b3 b4 . . . )) = 0, a1 b1 a2 b2 a3 b3 a4 b4 . . . .
Prova. Se cada Ci é contável então para cada i ∈ N há uma função bijetora gi : N → Ci cuja imagem
é Ci . Defina-se então a função G : (N × N) → C dada por G(a, b) = ga (b). Esta função não é, em
geral, bijetora, pois podem existir elementos comuns entre conjuntos Ci e Cj com i 6= j e terı́amos
gi (m) = gj (n) para algum n e m. Entretanto, a imagem de G é C.
Considere então em N × N a seguinte relação de equivalência: o par (a, b) é equivalente ao par
(c, d) se e somente se ga (b) = gc (d). O conjunto N × N pode ser então, como já observamos, escrito
como a união disjunta de suas classes de equivalência pela relação acima. Construamos então um
subconjunto K de N×N tomando-se um e somente um elemento de cada classe de equivalência escolhido
arbitrariamente (usamos aqui o Axioma da Escolha para afirmar que tal construção é possı́vel).
Defina agora a função H : K → C dada por H(a, b) = ga (b) para (a, b) ∈ K. Pela própria
construção do conjunto K essa função H é bijetora e sua imagem é C. Como K é um subconjunto de
N × N que é contável, temos que K também o é e, portanto, C é contável.
Na reta real diz-se que um número x é um número algébrico se x for raiz de um polinômio do tipo
P (t) = a0 + a1 t + a2 t2 + · · · + an tn ,
para algum n ∈ N, onde os coeficientes a0 , . . . , an são números racionais. Um tal polinômio é dito ser
um polinômio racional.
E. 1.25 Exercı́cio. Prove que o conjunto de todos os números algébricos da reta real é um conjunto
contável. Use para tal o fato de que os racionais formam um conjunto contável. 6
O exercı́cio anterior pode ser usado para concluir que existem números transcendentes (que não
são raiz de nenhum polinômio racional) pois os reais, como sabemos, não são contáveis enquanto,
segundo o exercı́cio, os algébricos o são. Deve, portanto, haver uma coleção não-contável de números
transcendentes na reta real.
Historicamente, a existência de números transcendentes foi estabelecida (por outros argumentos)
por Liouville14 em 1851. Em 1874, Cantor15 demonstrou a afirmação do exercı́cio acima, provando que
o conjunto de todos os números algébricos da reta real é um conjunto contável.
E. 1.26 Exercı́cio. Seja A0 = Q e A1 o conjunto dos números algébricos, definidos como o conjunto de
todos os zeros reais de polinômios com coeficientes racionais. Definimos A2 como o conjunto de todos os
zeros reais de polinômios com coeficientes em A1 . Sucessivamente, definimos An , n ≥
S∞1 como o conjunto
de todos os zeros reais de polinômios com coeficientes em An−1 . Seja também A = n=0 An . Mostre que
todos os An e A são conjuntos contáveis e, portanto, subconjuntos próprios de R. 6
resolvido negativamente em 1882 por Lindemann quando este provou, justamente, que π não é um
número algébrico, concluindo assim a impossibilidade da construção proposta.
Para provas de que e é transcendente vide, por exemplo, [138] ou [58]. Para provas que π é irracional
e transcendente e para uma série de outros resultados congêneres, vide [58].
É interessante notar que produtos Cartesianos contáveis de conjuntos contáveis não são, geralmente,
conjuntos contáveis. Considere como exemplo o produto Cartesiano
Y
K := {0, 1} = {0, 1}N ,
i∈N
que é denominado espaço de Cantor21 . Podemos mostrar que K não é contável. Cada elemento de K
é uma função d : N → {0, 1}. Podemos assim associar univocamente a cada d o número real
∞
X d(n)
n=1
10n
que é um elemento do conjunto U ⊂ R definido acima. Por outro lado, todo elemento de U pode ser
escrito assim para um único d ∈ K. Assim, K e U têm a mesma cardinalidade e, portanto, K não é
contável pois U, como já vimos, não o é.
E. 1.27 Exercı́cio. Mostre que todos os conjuntos Ub , definidos acima, com b > 2, tem a mesma
cardinalidade de K (e, portanto, a mesma cardinalidade entre si). 6
Essas noções S
coincidem com as noções de ı́nfimo e supremo apresentadas à página 36 se conside-
rarmos em X = i∈I Ai a relação de ordem definida pela inclusão de conjuntos: se A, B ⊂ X dizemos
que A B se A ⊂ B.
dado por
∞ \
[ ∞
limAn := Ak .
n=1 k=n
O chamado limite do supremo da coleção, denotado por limAn , é o conjunto definido por
∞ [
\ ∞
limAn := Ak .
n=1 k=n
E. 1.29 Exercı́cio. Justifique a seguinte afirmativa: limAn é o conjunto de todos os pontos x de X que
pertencem a todos os conjuntos An exceto a no máximo um número finito deles. Dizemos, nesse caso, que
x pertence a quase todos os An ’s). 6
E. 1.30 Exercı́cio. Justifique a seguinte afirmativa: limAn é o conjunto de todos os pontos x de X que
pertencem a um número infinito de conjuntos An . Dizemos, nesse caso, que x pertence freqüentemente aos
An ’s). 6
Proposição 1.9 Seja {An , n ∈ N} uma coleção contável de subconjuntos de um conjunto não-vazio
X. Então, c
(limAn )c = limAcn e limAn = limAcn .
2
Prova. A prova é uma aplicação imediata das definições e das relações (1.11) da Proposição 1.1, página
26.
Proposição 1.10 Seja {An , n ∈ N} uma coleção contável de subconjuntos de um conjunto não-vazio
X. Então,
limAn ⊂ limAn .
2
Prova. A prova é imediata pelos Exercı́cios E. 1.29 e E. 1.30, pois se x ∈ X é tal que x pertence a todos
os conjuntos An exceto a no máximo um número finito deles (isto é, se x ∈ limAn ), então x pertence a
um número infinito de conjuntos An (isto é, x ∈ limAn ).
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 1 46/1461
∞ \
∞
! ∞ \
∞
!
[ [
= Ak ∩ Ack′
n=1 k=n n′ =1 k ′ =n′
∞ [
∞ ∞
! ∞
!
Prop. 1.1
[ \ \
= Ak ∩ Ack′ .
n=1 n′ =1 k=n k ′ =n′
∞
! ∞
!
\ \
Agora, para cada par n, n′ tem-se Ak ∩ Ack′ = ∅, pois essa intersecção é um subconjunto
k=n k ′ =n′
de conjuntos
c como Ak ∩ Ack com k ≥ n e k ≥ n′ e, evidentemente, Ak ∩ Ack = ∅. Assim, (limAn ) ∩
limAn = ∅, o que implica limAn ⊂ limAn .
Chegamos a uma definição importante: dizemos que uma coleção contável de conjuntos {An , n ∈ N}
converge a um conjunto A se
limAn = limAn = A.
Se uma coleção contável de conjuntos {An , n ∈ N} converge a um conjunto A, então A é dito ser o
n→∞
limite de An , e escrevemos, como usualmente, A = lim An , ou ainda An −→ A.
n→∞
E. 1.31 Exercı́cio. Justifique a seguinte afirmativa: lim An só existe se não há pontos x ∈ X que,
n→∞
simultaneamente, pertençam a infinitos conjuntos An e não pertençam a infinitos conjuntos An . 6
Uma seqüência An de conjuntos é dita ser crescente, ou expansiva, se An ⊂ An+1 para todo n. Uma
seqüência An de conjuntos é dita ser decrescente, ou contrativa, se An+1 ⊂ An para todo n.
Proposição 1.11 Se uma seqüência An de conjuntos for crescente ou decrescente então lim An existe.
Se An é crescente, vale
[∞
lim An = Ak .
k=1
Se An é decrescente, vale
∞
\
lim An = Ak .
k=1
2
∞
\ ∞ \
[ ∞
Prova. Seja An uma seqüência crescente de conjuntos. Então, Ak = An . Logo, limAn = Ak =
k=n n=1 k=n
∞
[ ∞
[ ∞
[
An . Por outro lado, pelo fato de An ser crescente vale também que Ak = Ak . Logo,
n=1 k=n k=1
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 1 47/1461
∞ [
\ ∞ ∞ [
\ ∞ ∞
[
limAn = Ak = Ak = Ak . Com isso, estabeleceu-se que limAn = limAn e, portanto,
n=1 k=n n=1 k=1 k=1
∞
[
limAn existe e vale limAn = Ak .
k=1
E. 1.32 Exercı́cio. Seja a famı́lia contável de subconjuntos de R dada por An = [0, 10] se n for par e
An = [0, 5] se n for ı́mpar. Determine limAn e limAn e limn→∞ An se este existir. 6
E. 1.33 Exercı́cio. Seja a famı́lia contável de subconjuntos de R dada por An = [0, 1] se n for par e
An = [2, 3] se n for ı́mpar. Determine limAn e limAn e lim An , se este existir. 6
n→∞
E. 1.36 Exercı́cio. Crie seus próprios exemplos de famı́lias contáveis An de subconjuntos de R e estude
seus limAn , limAn e lim An , se este existir. 6
n→∞
• Operações e relações
Um conjunto R ⊂ C I é dito ser uma relação em C. Se I é um conjunto finito, R é dito ser uma
relação finitária em C.
• Funções finitárias
• Magmas
Um conjunto C dotado de uma relação binária C ×C → C é dito ser um magma. Essa nomenclatura
foi introduzida por Bourbaki22 mas não é, porém, universalmente empregada.
• Relações finitárias
Há uma nomenclatura análoga para o caso de relações. Sejam C e I dois conjuntos e consideremos
relações R ⊂ C I . Se I é um conjunto finito R é dita ser uma relação finitária sobre C. Sem perda
de generalidade consideraremos aqui relações finitárias do tipo R ⊂ C n para algum n ∈ N. Se R é
uma relação finitária para um dado n, R é dita ser uma relação n-ária sobre C. Para o caso n = 1 as
relações são também chamadas de unárias e para o caso n = 2 são ditas binárias. Relações binárias
foram estudadas à página 24.
• Estruturas
Seja C um conjunto, F uma coleção de operações (não necessariamente finitárias) sobre C e seja
R uma coleção de relações (não necessariamente finitárias) em C. A tripla hC, F, Ri é dita ser uma
estrutura sobre C. Note-se que tanto F quanto R podem ser vazias.
Dado que operações sobre um conjunto C também são relações sobre C, a definição de estrutura
acima poderia ser simplificada. É porém conveniente mantê-la como está, pois funções são de im-
22
Nicolas Bourbaki. Nome coletivo adotado por um grupo de importantes matemáticos franceses, nascido por volta
de 1935, que teve grande, mas declinante, influência na estruturação e sistematização da Matemática ao longo do século
XX. O grupo Bourbaki sofreu diversas crı́ticas pelo seu abstracionismo, considerado em certos cı́rculos como excessivo e
mesmo estéril.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 1 49/1461
portância especial.
Uma estrutura hC, Fi é dita ser uma estrutura algébrica e uma estrutura hC, Ri é dita ser uma
estrutura relacional.
Antes de prosseguirmos, façamos uma observação sobre a notação que é costumeiramente adotada,
especialmente quando se trata de funções binárias.
Dado um conjunto C e uma função binária denotada por um sı́mbolo φ, a imagem de um par
(a, b) ∈ C 2 é comummente denotada por φ(a, b). É muito prático, por vezes, usar uma outra notação
e denotar φ(a, b) por a φ b. Essa notação é denominada mesofixa. Um exemplo claro desse uso está
na função soma, denotada pelo sı́mbolo + : C2 → C de dois números complexos. Denotamos +(z, w)
por z + w. Outro exemplo está na função produto · : C2 → C de dois números complexos. Denotamos
·(z, w) por z · w.
Essa notação será usada adiante para outras funções binárias além das funções soma e produto de
números ou matrizes.
Funções unárias também têm por vezes uma notação especial, freqüentemente do tipo exponencial.
Tal é o caso da operação que associa a cada elemento de um grupo à sua inversa, g 7→ g −1, ou o
caso da operação que associa a cada conjunto o seu complementar A 7→ Ac . Ou ainda o caso da
transposição de matrizes M 7→ M T , da conjugação de números complexos z 7→ z ∗ para o que usa-se
também sabidamente a notação z 7→ z.
• Quase-grupos e loops
e′ = e′ · e = e.
Em um loop, todo elemento possui uma única inversa à direita e uma única inversa à esquerda (não
necessariamente iguais). Ou seja, para cada a ∈ L existem um único elemento em L que denotamos
por a−1
l , denominado inverso à esquerda de a, tal que al
−1
· a = e e um único elemento em L que
denotamos por ar , denominado inverso à direita de a, tal que a · a−1
−1
r = e. A existência e unicidade
de tais elementos é conseqüência da propriedade definidora de quase-grupo.
• Semi-grupos
• Monóides
2. Elemento neutro. Existe um (único!) elemento e ∈ M, denominado elemento neutro, tal que
g · e = e · g = g para todo g ∈ M.
• Grupos
Uma das noções mais fundamentais de toda a Matemática é a de grupo. Um grupo é um conjunto
não-vazio G dotado de uma operação binária G × G → G denotada por “·” e denominada produto e de
uma operação unária G → G (bijetora) denominada inversa, denotada pelo expoente “−1 ”, tais que as
seguintes propriedades são satisfeitas.
2. Elemento neutro. Existe um (único!) elemento e ∈ G, denominado elemento neutro, tal que
g · e = e · g = g para todo g ∈ G.
Observações elementares:
1. A unicidade do elemento neutro é garantida pela observação que se houvesse e′ tal que g · e′ =
e′ · g = g para todo g ∈ G terı́amos e′ = e′ · e = e.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 1 51/1461
• Exemplos simples
5. O conjunto dos números inteiros Z é um grupo Abeliano em relação à operação usual de soma
de números inteiros. Esse grupo é comummente denotado por (Z, +), para lembrar o conjunto
considerado (no caso, Z) e a operação considerada nesse conjunto (no caso, +) .
6. O conjunto dos números racionais Q é um grupo Abeliano em relação à operação usual de soma
de números racionais. Esse grupo é comummente denotado por (Q, +).
23
Niels Henrik Abel (1802-1829).
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 1 52/1461
8. O conjunto dos números reais R é um grupo Abeliano em relação à operação usual de soma de
números reais. Esse grupo é comummente denotado por (R, +).
9. O conjunto dos números complexos C é um grupo Abeliano em relação à operação usual de soma
de números complexos. Esse grupo é comummente denotado por (C, +).
12. Mat(C, n), o conjunto das matrizes complexas n × n com o produto usual de matrizes é apenas
um monóide.
13. Mat(C, n), o conjunto das matrizes complexas n × n é um grupo em relação à operação de soma
de matrizes.
14. O conjunto GL(R, n) de todas as matrizes reais n × n com determinante não-nulo (e, portanto,
invertı́veis) é um grupo em relação a operação de produto usual de matrizes. GL(R, n) é não-
Abeliano se n > 1.
15. O conjunto GL(C, n) de todas as matrizes complexas n × n com determinante não-nulo (e,
portanto, invertı́veis) é um grupo em relação a operação de produto usual de matrizes. GL(C, n)
é não-Abeliano se n > 1.
16. O conjunto GL(Q, n) de todas as matrizes racionais n×n com determinante não-nulo (e, portanto,
invertı́veis) é um grupo não-Abeliano (se n > 1) em relação a operação de produto usual de
matrizes. O conjunto GL(Z, n) de todas as matrizes inteiras n × n com determinante não-nulo
(e, portanto, invertı́veis) é um monoide não-Abeliano (se n > 1) em relação a operação de produto
usual de matrizes. Não é um grupo pois a inversa de uma matriz invertı́vel com entradas inteiras
não é sempre uma matriz com entradas inteiras.
17. O conjunto SL(C, n) de todas as matrizes complexas n × n com determinante igual a 1 (e,
portanto, invertı́veis) é um grupo não-Abeliano (se n > 1) em relação a operação de produto
usual de matrizes. O mesmo é verdadeiro para SL(R, n), SL(Q, n) e SL(Z, n), as matrizes reais,
racionais ou inteiras, respectivamente, com determinante igual a 1.
18. Seja X um conjunto não-vazio. Então P(X) é um grupo Abeliano em relação à operação de
diferença simétrica A△B, A, B ∈ X, definida em (1.2), página 23. De fato, o Exercı́cio E. 1.1,
página 23, garante associatividade e comutatividade, o elemento neutro é o conjunto vazio ∅ e
para todo A ∈ P(X) tem-se A−1 = A. Verifique!
• Sub-grupos
Seja G um grupo em relação a uma operação “·” e cujo elemento neutro seja e. Um subconjunto
H de G é dito ser um sub-grupo de G se for também por si só um grupo em relação à mesma operação,
ou seja, se
1. e ∈ H,
2. h1 · h2 ∈ H para todos h1 ∈ H e h2 ∈ H,
Todo grupo G sempre possui pelo menos dois sub-grupos: o próprio G e o conjunto {e} formado
apenas pelo elemento neutro de G.
É fácil verificar que (Z, +) e (Q, +) são sub-grupos de (R, +). É fácil ver que SL(R, n), o
conjunto de todas as matrizes reais n × n com determinante igual a 1, é um sub-grupo de GL(R, n).
Idem para SL(C, n) em relação a GL(C, n).
• Os grupos Zn
O bem conhecido algoritmo de Euclides24 afirma que, dado n ∈ N, n > 0, então todo número inteiro
z pode ser escrito de maneira única na forma z = qn + r, onde q ∈ Z e r ∈ {0, 1, . . . , n − 1}.
O número r é denominado resto da divisão de z por n e é também denotado por r = z mod n.
Seja n um inteiro positivo maior ou igual a 2 e seja o conjunto {0, 1, . . . , n − 1}. Vamos definir
uma operação binária em {0, 1, . . . , n − 1}, denominada soma e denotada pelo sı́mbolo “+”, da
seguinte forma:
α + β = [α + β] mod n
para todos α, β ∈ {0, 1, . . . , n − 1}. Acima [α + β] representa a soma usual de números inteiros em
Z.
E. 1.38 Exercı́cio. Prove que a operação de soma definida acima é uma operação binária de {0, 1, . . . , n−
1} e mostre que a mesma é associativa, comutativa e tem 0 como elemento neutro. 6
E. 1.39 Exercı́cio. Para cada a ∈ {0, 1, . . . , n − 1}, defina a−1 = (n − a) mod n. Mostre que
a−1 ∈ {0, 1, . . . , n − 1} e que a + a−1 = 0. 6
24
Euclides de Alexandria (≈ 325 A.C, ≈ 265 A.C.).
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 1 54/1461
Os dois exercı́cios acima provam que {0, 1, . . . , n − 1} é um grupo Abeliano em relação à operação
de soma definida acima. Esse grupo é denominado grupo Zn , ou Z(n).
• R+ estendido
1. a + ω = ω + a = ω, para todo a ∈ R+ .
2. ω + ω = ω.
3. aω = ωa = ω, para todo a ∈ R+ , a 6= 0.
4. 0ω = ω0 = 0.
5. ωω = ω.
E. 1.40 Exercı́cio. Verifique que R+ é um semi-grupo Abeliano (em verdade, um monoide abeliano)
em relação à operação de soma e em relação à operação de produto definidas acima e que vale ainda a
propriedade distributiva. 6
E. 1.41 Exercı́cio. Que problemas surgem quando se tenta estender a construção acima para o conjunto
R de todos os reais? 6
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 1 55/1461
1.2.2 Corpos
Um corpo25 é um conjunto não-vazio C dotado de duas operações binárias, denotadas por + e ·,
denominadas soma e produto, respectivamente, satisfazendo o seguinte: para α, β e γ ∈ C quaisquer,
valem
(a) Comutatividade: α + β = β + α
(b) Associatividade: α + (β + γ) = (α + β) + γ
(c) Elemento neutro: existe um elemento 0 ∈ C, chamado de zero, tal que α + 0 = α para todo
α ∈ C.
(d) Inversa: para cada α ∈ C existe um único elemento denotado por β com a propriedade
α + β = 0. Esse elemento é mais comummente denotado por −α.
(a) Comutatividade: α · β = β · α
(b) Associatividade: α · (β · γ) = (α · β) · γ
(c) Elemento neutro: existe um elemento 1 ∈ C, chamado de unidade, tal que α · 1 = α para
todo α ∈ C.
(d) Inversa: para cada α ∈ C, α 6= 0, existe um único elemento denotado por β com a proprie-
dade α · β = 1. Esse elemento é mais comummente denotado por α−1 .
Note-se que corpos são grupos comutativos em relação à operação de soma e monóides comutativos
em relação à operação de produto. A distributividade é a única propriedade listada acima que relaciona
essas operações.
Os elementos de um corpo são por vezes denominados escalares.
Exemplos. É fácil verificar que Q, R e C são corpos em relação às operações usuais de soma e
produto. O conjunto das matrizes n × n para qualquer n ≥ 2 com o produto usual de matrizes não é
um corpo pois, entre outras razões, o produto não é comutativo.
Em um corpo C sempre vale que α · 0 = 0 para todo α ∈ C. De fato, como 0 = 0 + 0, segue que
α · 0 = α · (0 + 0) = α · 0 + α · 0 .
α · 0 + (−α · 0) = α · 0 + α · 0 + (−α · 0) ,
25
Em inglês a palavra empregada é field. A expressão em português provavelmente provem do francês corp ou do
alemão Körper.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 1 56/1461
ou seja,
0 = α·0+0 = α·0 ,
como querı́amos provar. Pela comutatividade do produto vale também 0 · α = 0 para todo α ∈ C.
Vamos exibir outros exemplos menos triviais de corpos.
√
• Os corpos Q( p), com p primo
√
E. 1.42 Exercı́cio. Mostre que o conjunto de todos os números reais da forma a + b 2, com a e b
racionais, é um corpo. 6
√
O corpo do exemplo acima é denotado por Q( 2).
E. 1.43 Exercı́cio. Seja p um número primo. Mostre que o conjunto de todos os números reais da forma
√
a + b p, com a e b racionais, é um corpo. 6
√
O corpo do exemplo acima é denotado por Q( p).
√
E. 1.44 Exercı́cio. Mostre que o conjunto de todos os números reais da forma a + b 2 com a e b inteiros
não é um corpo. 6
O bem conhecido algoritmo de Euclides26 afirma que, dado n ∈ N, n > 0, então todo número inteiro
z pode ser escrito de maneira única na forma z = qn + r, onde q ∈ Z e r ∈ {0, 1, . . . , n − 1}.
O número r é denominado resto da divisão de z por n e é também denotado por r = z mod n.
Seja n um inteiro positivo maior ou igual a 2 e seja Zn o conjunto {0, 1, . . . , n − 1}. Vamos definir
operações de soma e produto em Zn da seguinte forma:
Prova. As operações de soma e produto definidas acima são automaticamente comutativas, associativas
e distributivas (por que?). Fora isso sempre vale que −α = n − α para todo α ∈ Zn . Resta-nos estudar
a existência de elementos inversos α−1 . Vamos supor que Zn seja um corpo. Então, a ∈ {2, . . . , n − 1}
tem uma inversa em Zn , ou seja, um número b ∈ {1, . . . , n − 1} tal que a · b = 1. Lembrando a
26
Euclides de Alexandria (≈ 325 A.C, ≈ 265 A.C.).
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 1 57/1461
definição de produto em Zn , isso significa que existe um inteiro r tal que ab = rn + 1. Mas isso implica
1 n
b− = r .
a a
Como o lado esquerdo não é um número inteiro, o lado direito também não pode ser. Isso diz então que
n/a não pode ser inteiro para nenhum a ∈ {2, . . . , n − 1}, ou seja, n não tem divisores e é, portanto,
um primo. Resta-nos mostrar que Zp é efetivamente um corpo quando p é primo, o que agora se reduz
a mostrar que para todo a ∈ Zp existe um elemento inverso.
Para apresentar a demonstração, recordemos três conceitos da teoria de números. 1. Sejam dois
números inteiros f e g, dizemos que f divide g se g/f ∈ Z. Se f divide g, denotamos esse fato por
f |g. 2. Sejam dois números inteiros f e g. O máximo divisor comum de f e g, denotado mdc(f, g) é
o maior inteiro m tal que m|f e m|g. 3. Dois números inteiros f e g são ditos ser primos entre si se
mdc(f, g) = 1.
A demonstração da existência de inverso em Zp será apresentada em partes. Vamos primeiro
demonstrar a seguinte afirmativa.
Lema 1.2 Se f e g são dois números inteiros quaisquer então existem inteiros k ′ e l′ tais que
mdc(f, g) = k ′ f + l′ g .
Prova. Seja m = mdc(f, g). Seja M o conjunto de todos os números positivos que sejam da forma
kf + lg com k e l inteiros. Seja m′ o menor elemento de M. Note que como os elementos de M são
positivos, esse menor elemento existe. Claramente
m′ = k ′ f + l′ g (1.19)
para algum k ′ e l′ . Como, por definição, m|f e m|g, segue que m|m′ , o que só é possı́vel se
m′ ≥ m. (1.20)
Vamos agora demonstrar por contradição que m′ |f . Se isso não fosse verdade, existiriam (pelo algoritmo
de Euclides) inteiros α e β com
0 < β < m′ (1.21)
tal que
f = αm′ + β .
Usando (1.19) isso diz que
β = f − α(k ′ f + l′ g) = (1 − αk ′ )f + (−αl′ )g .
Mas, como β > 0 isso diz que β ∈ M. Logo, β ≥ m′ , contradizendo (1.21). Logo m′ |f . De maneira
totalmente análoga prova-se que m′ |g. Portanto m′ ≤ mdc(f, g) = m. Lembrando que havı́amos
provado (1.20), segue que m = m′ e, portanto m = k ′ f + l′ g, demonstrando o Lema.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 1 58/1461
Corolário 1.1 Se f e g são dois números inteiros primos entre si então existem inteiros k ′ e l′ tais
que
1 = k ′ f + l′ g .
2
Prova. Pela definição, como f e g são dois números inteiros primos entre si segue que mdc(f, g) = 1.
Para finalmente demonstrarmos a existência de inverso em Zp , com p primo, seja a ∈ {1, . . . , p−1}.
É óbvio que a e p são primos entre si (por que?). Assim, pelo corolário, existem inteiros r e s com
1 = sa − rp .
• Caracterı́stica de um corpo
Seja C um corpo e 1 sua unidade. Para um número natural n definimos n · 1 = |1 + ·{z · · + 1}.
n vezes
Define-se a caracterı́stica de C como sendo o menor número natural não-nulo n tal que n · 1 = 0.
Se um tal número não existir, diz-se que o corpo tem caracterı́stica zero.
√
Exemplos. Q, R, C, Q( 2) têm caracterı́stica zero. Zp , p primo, tem caracterı́stica p. Mostre isso.
E. 1.45 Exercı́cio. Mostre que a caracterı́stica de um corpo é ou igual a zero ou é um número primo.
Sugestão: Mostre primeiro que (nm) · 1 = (n · 1)(m · 1) para quaisquer números naturais n e m. Use então
o fato que todo natural pode ser decomposto em um produto de fatores primos e use o fato que, em um
corpo, se a · b = 0 então ou a ou b ou ambos são zero (ou seja, todo corpo é um anel de integridade: não
tem divisores de zero). 6
u+0=u
para todo u ∈ V ,
(d) A cada u ∈ V existe associado um único vetor denotado por −u tal que
u + (−u) = 0.
α · (β · u) = (αβ) · u,
α · (u + v) = α · u + α · v,
(α + β) · u = α · u + β · u,
Note-se que espaços vetoriais são grupos comutativos em relação à operação de soma.
E. 1.46 Exercı́cio. Mostre usando os postulados acima que 0 · u = 0 para todo u ∈ V , onde, permitindo-
nos um certo abuso de linguagem, o 0 do lado esquerdo representa o zero do corpo K e o do lado direito o
vetor nulo de V . 6
Notação. É freqüente omitir-se o sı́mbolo “·” de produto por escalares quando nenhuma confusão é
possı́vel.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 1 60/1461
Anti-exemplo. Tomemos o conjunto dos reais com a operação de soma usual, um corpo Zp com p
primo e o produto Zp × R → R, α · x, α ∈ Zp e x ∈ R dada pelo produto usual em R. Essa estrutura
não forma um espaço vetorial. A regra distributiva
(α + β) · x = α · x + β · x
É quase desnecessário mencionar o quão importantes espaços vetoriais são no contexto da Fı́sica,
onde, porém, quase somente espaços vetoriais sobre o corpo dos reais ou dos complexos aparecem.
Discutiremos mais aspectos básicos da teoria dos espaços vetoriais na Seção 2.1, página 100.
• Anéis
Um anel é um conjunto A dotado de duas operações binárias denotadas por “+” e “·” e denominadas
soma e produto, respectivamente, tais que A é um grupo Abeliano em relação à operação de soma e
um semi-grupo em relação à operação de produto. Por fim, a operação de produto é distributiva em
relação à soma: para quaisquer a, b e c ∈ A valem a · (b + c) = a · b + a · c e (a + b) · c = a · c + b · c.
Como usual, denotamos por −a a inversa aditiva do elemento a de um anel.
Se 0 é o elemento neutro de um anel A em relação à operação de soma, então a · 0 = 0 pois, como
0 = 0 + 0, tem-se pela propriedade distributiva a · 0 = a · 0 + a · 0, que implica 0 = a · 0 − (a · 0) =
a · 0 + a · 0 − (a · 0) = a · 0.
• Álgebras
Uma álgebra é um espaço vetorial V sobre um corpo K dotado de uma operação de produto binária
“·” dita produto da álgebra, de modo que as seguintes propriedades são satisfeitas
a · (b + c) = a · b + a · c e (a + b) · c = a · c + b · c .
2. O produto por escalares comuta com o produto da álgebra e é distributivo em relação a ele: para
todos a, b ∈ V e α ∈ K vale
Uma álgebra V é dita ser uma álgebra comutativa ou uma álgebra Abeliana27 se para todos a, b ∈ V
tivermos
a · b = b · a.
Uma álgebra V é dita ser uma álgebra associativa se para todos a, b e c ∈ V tivermos
a · (b · c) = (a · b) · c .
1. O conjunto Mat (C, n) das matrizes complexas n × n é uma álgebra complexa, associativa e não-
comutativa (se n > 1) em relação à soma e ao produto usuais de matrizes. O conjunto Mat (Z, n)
das matrizes inteiras n × n é um anel (não-comutativo, se n > 1) em relação à soma e ao produto
usuais de matrizes.
2. O conjunto Mat (Q, n) das matrizes racionais n × n é um anel (não-comutativo, se n > 1) em
relação à soma e ao produto usuais de matrizes. É também uma álgebra em relação ao corpo dos
racionais Q.
3. O conjunto Pol(C) de todos os polinômios em uma variável complexa com coeficientes complexos
é uma álgebra complexa, associativa e Abeliana em relação à soma e ao produto usuais de
polinômios. O conjunto Pol(Z) de todos os polinômios em uma variável complexa com coeficientes
inteiros é um anel Abeliano em relação à soma e ao produto usuais de polinômios.
4. O conjunto Pol(Q) de todos os polinômios em uma variável complexa com coeficientes racionais é
um anel Abeliano em relação à soma e ao produto usuais de polinômios. É também uma álgebra
associativa e Abeliana em relação ao corpo dos racionais Q.
Notação. Se A é uma álgebra associativa, podemos sem ambigüidade denotar o produto de dois de
seus elementos a, b ∈ A simplesmente por ab. Pela mesma razão, em uma álgebra associativa produtos
triplos como a(bc) e (ab)c podem ser escritos sem ambigüidade como abc.
Devemos dizer que há muitas álgebras importantes encontradas na Fı́sica que não são nem comuta-
tivas nem associativas. Por exemplo, a álgebra do produto vetorial em R3 não é nem comutativa nem
associativa. Dentre as álgebras não-associativas destacam-se pela sua importância as álgebras de Lie.
• Álgebras de Lie
a · (b · c) + c · (a · b) + b · (c · a) = 0 . (1.22)
Por razões históricas o produto de dois elementos de uma álgebra de Lie é denotado pelo sı́mbolo
[a, b] em lugar de a · b.
Seja A uma álgebra associativa. Podemos associar a A uma álgebra de Lie definindo o produto
[a, b] = ab − ba, denominado comutador de a e b ∈ A. A anti-comutatividade desse produto é óbvia e
a identidade de Jacobi segue do fato que
= a(bc − cb) − (bc − cb)a + c(ab − ba) − (ab − ba)c + b(ca − ac) − (ca − ac)b
= abc − acb − bca + cba + cab − cba − abc + bac + bca − bac − cab + acb
= 0,
Todos os exemplos aqui exibidos são relevantes na teoria dos grupos de Lie.
E. 1.48 Exercı́cio. Mostre que R3 dotado do produto vetorial usual é uma álgebra de Lie. 6
E. 1.49 Exercı́cio. Mostre que Mat (R, n) (ou Mat (C, n)), o conjunto de todas as matrizes n × n reais
(complexas) é uma álgebra de Lie com relação ao produto [A, B] = AB − BA. 6
E. 1.50 Exercı́cio. Mostre que o subconjunto de Mat (R, n) (ou de Mat (C, n)) formado pelas matrizes
com traço nulo é uma álgebra de Lie com relação ao produto [A, B] = AB − BA. 6
E. 1.51 Exercı́cio. Mostre que o subconjunto de Mat (R, n) (ou de Mat (C, n)) formado pelas matrizes
anti-simétricas, ou seja, tais que AT = −A, é uma álgebra de Lie com relação ao produto [A, B] =
AB − BA. 6
E. 1.52 Exercı́cio. Mostre que o subconjunto de Mat (C, n) formado pelas matrizes anti-autoadjuntas,
ou seja, tais que A∗ = −A, é uma álgebra de Lie (sobre o corpo dos reais!) com relação ao produto
[A, B] = AB − BA. 6
29
Carl Gustav Jacob Jacobi (1804-1851).
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 1 63/1461
E. 1.53 Exercı́cio. Conclua igualmente que o subconjunto de Mat (C, n) formado pelas matrizes anti-
autoadjuntas, ou seja, tais que A∗ = −A, e de traço nulo (Tr(A) = 0) é uma álgebra de Lie (sobre o corpo
dos reais!) com relação ao produto [A, B] = AB − BA. 6
E. 1.54 Exercı́cio. Fixada uma matriz B ∈ Mat (R, n), mostre que o subconjunto de Mat (R, n)
formado pelas matrizes A com a propriedade AB = −BAT é uma álgebra de Lie real com relação ao
produto [A, B] = AB − BA. 6
E. 1.55 Exercı́cio. Fixada uma matriz B ∈ Mat (C, n), mostre que o subconjunto de Mat (C, n)
formado pelas matrizes A com a propriedade AB = −BA∗ é uma álgebra de Lie real com relação ao
produto [A, B] = AB − BA. 6
Tratemos agora de exibir um exemplo básico de uma álgebra de Lie de dimensão infinita.
• Colchetes de Poisson
E. 1.57 Exercı́cio. Mostre que matrizes A, B, C de Mat (R, n) (ou de Mat (C, n)) também satisfazem
uma identidade de Leibniz: [A, BC] = [A, B]C + B[A, C]. Em verdade, essa identidade é válida em
qualquer álgebra associativa. Mostre isso também (a prova é idêntica ao caso de matrizes). 6
• Álgebras de Jordan
Uma álgebra não-associativa J sobre um corpo K é dita ser uma álgebra de Jordan33 se seu produto
satisfizer
(a · a) · (a · b) = a · ((a · a) · b) . (1.23)
Como a identidade de Jordan é trivialmente satisfeita por uma álgebra associativa, alguns autores
aceitam a inclusão das álgebras associativas dentre as de Jordan (desde que sejam também comutativas,
naturalmente). De qualquer forma, dada uma álgebra associativa (não-necessariamente comutativa) é
sempre possivel definir um produto que faz dela uma álgebra de Jordan.
De fato, se A é uma álgebra associativa (não-necessariamente comutativa) sobre R ou C34 , cujo
produto denotamos por ab, o produto
1
a·b = (ab + ba)
2
faz de A uma álgebra de Jordan.
E. 1.58 Exercı́cio. Verifique que esse produto é comutativo (trivial) e satisfaz a identidade de Jordan.
Verifique também que esse produto não é, em geral, associativo se A não for Abeliana. Esse produto é
denominado produto de Jordan. 6
E. 1.59 Exercı́cio. Verifique que a coleção das matrizes auto-adjuntas de Mat (C, n) forma uma álgebra
de Jordan para o produto de Jordan acima. 6
• Módulos
1. a · (m + n) = a · m + a · n,
2. (a + b) · m = a · m + b · m,
3. a · (b · m) = (ab) · m,
1. (m + n) · a = m · a + n · a,
2. m · (a + b) = m · a + m · b,
3. (m · b) · a = m · (ba),
1. a · (m · b) = (a · m) · b para todos a ∈ A, b ∈ B, m ∈ M.
Dado um anel R um elemento não-nulo a ∈ R é dito ser um divisor de zero se existir pelo menos
um b ∈ R com b 6= 0 tal que a · b = 0 ou b · a = 0.
Se em um dado anel a relação a · b = 0 só for possı́vel se a = 0 ou b = 0 ou ambos, então esse anel
é dito ser um anel sem divisores de zero.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 1 66/1461
Exemplos. C e R são anéis sem divisores de zero (com os produtos e somas usuais), mas os anéis
Mat(n, C), n > 1, têm divisores de zero (com o produto e soma usuais), pois tem-se, por exemplo,
1 0 0 0 0 0
= .
0 0 0 1 0 0
E. 1.60 Exercı́cio. Mostre que em Z4 tem-se 2 · 2 = 0, ou seja, 2 é um divisor de zero. Há outros
divisores de zero? 6
E. 1.61 Exercı́cio. Mostre que em Zn existem divisores de zero caso n não seja um número primo. 6
• Anéis de integridade
Um anel comutativo (ou seja, cujo produto é comutativo), com unidade e sem divisores de zero é
dito ser um anel de integridade ou também um domı́nio de integridade.
Para a relação entre anéis de integridade e corpos, vide adiante.
• Anéis de divisão
Um anel R é dito ser um anel de divisão se possuir uma unidade multiplicativa 1, i.e., um elemento
tal que para todo a ∈ R vale a · 1 = 1 · a = a e se para todo a ∈ R, a 6= 0, existir uma inversa
multiplicativa em R, ou seja, um elemento denotado por a−1 tal que a · a−1 = a−1 · a = 1.
E. 1.62 Exercı́cio importante. Mostre que um anel de divisão não pode possuir divisores de zero. Por-
tanto, todo anel de divisão comutativo é também um anel de integridade. 6
Exemplos. Com as definições usuais R, C e Q são anéis de divisão mas Z não o é (falha a existência
da inversa multiplicativa). Mat(n, C), com n > 1, também não é um anel de divisão com as definições
usuais pois nem toda a matriz não-nula é invertı́vel.
Outro exemplo de anel de divisão (não comutativo!) são os quatérnions, que serão discutidos à
página 94.
• Álgebras de divisão
Uma álgebra A é dita ser uma álgebra de divisão se possuir uma unidade multiplicativa 1, i.e., um
elemento tal que para todo a ∈ A vale a · 1 = 1 · a = a e se para todo a ∈ A, a 6= 0, existir uma inversa
multiplicativa em A, ou seja, um elemento denotado por a−1 tal que a · a−1 = a−1 · a = 1.
• Corpos
• Corpos não-comutativos
Como a única distinção entre as definições de corpos e de anéis de divisão é que para os primeiros a
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 1 67/1461
comutatividade do produto é requerida, diz-se também por vezes que anéis de divisão não-comutativos
são corpos não-comutativos.
É bem claro pelas definições que todo corpo é também um anel de integridade. A reciproca é
parcialmente válida:
Teorema 1.6 Todo anel de integridade finito é um corpo. 2
Prova. Se A é um anel de integridade, tudo que precisamos é mostrar que todo elemento não-nulo de
A é invertı́vel. Seja a um elemento de A \ {0}. Definamos a aplicação α : A \ {0} → A dada por
α(y) = ay .
Note que, como A é um anel de integridade o lado direito é não nulo pois nem a nem y o são. Assim,
α é, em verdade, uma aplicação de A \ {0} em A \ {0} e, como tal, é injetora, pois se ay = az, segue
que a(y − z) = 0, o que só é possı́vel se y = z, pois A é um anel de integridade e a 6= 0. Agora,
uma aplicação injetora de um conjunto finito em si mesmo tem necessariamente que ser sobrejetora
(por que?). Assim, α é uma bijeção de A \ {0} sobre si mesmo. Como 1 ∈ A \ {0}, segue que existe
y ∈ A \ {0} tal que ay = 1, ou seja, a tem uma inversa. Como a é um elemento arbitrário de A \ {0},
segue que todo elemento de A \ {0} tem inversa e, portanto, A é um corpo.
A prova do Teorema 1.7 não será apresentada aqui. Uma demonstração elegante, devida a Witt36 ,
pode ser encontrada na magnı́fica referência [2].
35
Joseph Henry Maclagen Wedderburn (1882-1948). O trabalho original de Wedderburn é: J. H. M. Wedderburn, “A
theorem on finite algebras”, Trans. Amer. Math. Soc. 6, 349-352 (1905). Esse trabalho contém três demonstrações do
Teorema 1.7.
36
Ernst Witt (1911-1991). O trabalho original de Witt é “Über die Kommutativität endlicher Schiefköerper”. Abh.
Math. Sem. Univ. Hamburg, 8, 413 (1931).
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 1 68/1461
• Ações
indexAções
Seja M um conjunto não-vazio e G um grupo. Uma função α : G × M → M é dita ser uma ação à
esquerda de G sobre M se as seguintes condições forem satisfeitas:
Uma função β : G × M → M é dita ser uma ação à direita de G sobre M se as seguintes condições
forem satisfeitas
Note-se que a distinção básica entre (1.24) e (1.25) é a ordem do produto no grupo. Se G é Abeliano
não há distinção entre uma ação à direita ou à esquerda.
É freqüente encontrar-se outras notações para designar ações de grupos em conjuntos. Uma ação à
esquerda α(g, x) é freqüentemente denotada por αg (x), de modo que a relação (1.24) fica αg (αh (x)) =
αgh (x). Para uma ação à direita, (1.25) fica βg (βh (x)) = βhg (x).
Talvez a notação mais conveniente seja denotar uma ação à esquerda α(g, x) simplesmente por g · x
ou apenas gx. A relação (1.24) fica g(hx) = (gh)x. Para uma ação à direita β(g, x) a notação fica x · g,
ou apenas xg, de modo que (1.25) fica (xh)g = x(hg). Essa notação justifica o uso da nomenclatura à
direita ou à esquerda para classificar as ações.
Seja F uma coleção de funções bijetoras de um conjunto M em si mesmo. Uma ação α : G×M → M
é dita ser uma ação de G em M pela famı́lia F se para todo g ∈ G as funções α(g, ·) : M → M forem
elementos do conjunto F.
37
Para g ∈ G fixo, α(g, ·) : M → M denota a função M ∋ m 7→ α(g, m) ∈ M , ou seja, a função que a cada m ∈ M
associa α(g, m) ∈ M .
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 1 69/1461
E. 1.64 Exercı́cio. Seja G = SO(n) o grupo de todas as matrizes reais n × n ortogonais (ou seja, tais
que RT = R−1 , onde RT denota a transposta de R). Seja M o conjunto de todas as matrizes reais n × n
simétricas (ou seja, tais que AT = A). Mostre que αR (A) := RART , com R ∈ SO(n) e A ∈ M, é uma
ação à esquerda de G em M. Com as mesmas definições, mostre que βR (A) := RT AR é uma ação à direita
de G em M.
Sugestão. O único ponto que poderia ser difı́cil para alguns seria mostrar que, para cada R fixo, αR é
bijetora, ou seja, é sobrejetora e injetora. Para mostrar que αR é sobrejetora, note que se A é uma matriz
simétrica qualquer, podemos trivialmente escrever A = R(RT AR)RT , mostrando que A = αR (B), onde
B = RT AR é simétrica. Para provar que αR é injetora note que, se RA1 RT = RA2 RT , segue facilmente,
multiplicando-se por RT à esquerda e por R à direita, que A1 = A2 . 6
E. 1.65 Exercı́cio. Seja G = SU(n) o grupo de todas as matrizes complexas n × n unitárias (ou seja,
tais que U ∗ = U −1 , onde U ∗ denota a adjunta de U: U ∗ = U T ). Seja M o conjunto de todas as matrizes
complexas n × n Hermitianas (ou seja, tais que A∗ = A). Mostre que αU (A) := UAU ∗ , com U ∈ SU(n)
e A ∈ M, é uma ação à esquerda de G em M. Com as mesmas definições, mostre que βU (A) := U ∗ AU é
uma ação à direita de G em M. 6
E. 1.66 Exercı́cio. Mostre que para todo m ∈ M vale a afirmação que para todo m′ ∈ Orbα (m) tem-se
Orbα (m′ ) = Orbα (m). 6
E. 1.67 Exercı́cio. Conclúa que se existe m ∈ M tal que Orbα (m) = M, então Orbα (m′ ) = M para
todo m′ ∈ M. 6
• Representações de grupos
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 1 70/1461
Uma representação de um grupo é uma ação a esquerda do mesmo em um espaço vetorial pela
famı́lia das aplicações lineares invertı́veis agindo nesse espaço vetorial.
Sejam G um grupo e V um espaço vetorial sobre um corpo K. Uma representação de G em V é
uma função π : G × V → V tal que para todo g ∈ G as funções π(g, ·) : V → V sejam lineares e
bijetivas e satisfazem π(e, v) = v e π(g, π(h, v)) = π(gh, v) para todos g, h ∈ G e todo v ∈ V .
Devido à linearidade é conveniente denotar π(g, v) por π(g)v. Uma representação satisfaz assim:
• Representações de álgebras
Seja A uma álgebra sobre um corpo K e V um espaço vetorial sobre o mesmo corpo. Uma repre-
sentação de A em V é uma famı́lia de funções lineares de V em V , {π(a), a ∈ A}, satisfazendo
3. Para todos a, b ∈ A
π(ab) = π(a)π(b) .
Uma representação π de uma álgebra A em um espaço vetorial V é dita ser uma representação fiel
se π(a) = 0 só ocorrer para a = 0.
Uma representação π de uma álgebra A em um espaço vetorial V é dita ser uma representação
não-degenerada se π(a)v = 0 para todo a ∈ A só ocorrer para v = 0.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 1 71/1461
Nesta seção nos limitaremos a listar algumas definições básicas que serão usadas e desenvolvidas no
restante do texto, onde também exemplos serão apresentados. A pretensão não é a de desenvolver os
assuntos, mas de apresentar as definições para referência futura.
Em termos informais um morfismo entre duas estruturas de um mesmo tipo (dois grupos, dois
espaços vetoriais, duas álgebras, dois anéis etc.) é uma função entre as mesmas que respeita as operações
de produto lá definidas.
• Morfismos em grupos
indexMorfismos em grupos
Dados dois grupos G e H, com unidades eG e eH , respectivamente, uma função φ : G → H é dita
ser um homomorfismo ou morfismo de grupos se φ(eG ) = eH e se φ(a · b) = φ(a) · φ(b) para todos
a, b ∈ G.
Dados dois grupos G e H, com unidades eG e eH , respectivamente, uma função φ : G → H é dita
ser um anti-homomorfismo se φ(eG ) = eH e se φ(a · b) = φ(b) · φ(a) para todos a, b ∈ G. Por exemplo,
a aplicação φ : G → G tal que φ(g) = g −1 é um anti-homomorfismo (verifique).
Um homomorfismo φ : G → H entre dois grupos é dito ser um monomorfismo se for injetivo.
Um homomorfismo φ : G → H entre dois grupos é dito ser um epimorfismo se for sobrejetor.
Um homomorfismo φ : G → H entre dois grupos é dito ser um isomorfismo se for bijetor, em cujo
caso a aplicação inversa φ−1 : H → G é também um homomorfismo.
Se dois grupos G e H forem tais que exista um isomorfismo φ entre ambos dizemos que G e H são
isomorfos (por φ) e denotamos esse fato por G ≃φ H, ou simplesmente por G ≃ H.
E. 1.68 Exercı́cio importante. Mostre que a relação de isomorfia entre grupos é uma relação de equi-
valência. 6
E. 1.69 Exercı́cio. Mostre que para cada g ∈ G fixo, αg é um homomorfismo e que sua inversa é αg−1 .
6
Muitas das definições apresentadas acima têm seus análogos em outras estruturas, como espaços
vetoriais, álgebras, anéis, módulos etc. Trataremos de alguns casos.
Sejam U e V dois espaços vetoriais sobre o mesmo corpo K. Uma função φ : U → V é dita ser um
homomorfismo ou morfismo de espaços vetoriais se φ(α1 u1 + α2 u2 ) = α1 φ(u1 ) + α2 φ(u2 ) para todos
α1 , α2 ∈ K e todos u1, u2 ∈ U.
Sejam U e V dois espaços vetoriais sobre o mesmo corpo K. Uma função φ : U → V é dita ser um
isomorfismo de espaços vetoriais se for um morfismo de espaços vetoriais, e se for bijetora.
Se dois espaços vetoriais U e V sobre o mesmo corpo forem tais que exista um isomorfismo φ entre
ambos dizemos que U e V são isomorfos (por φ) e denotamos esse fato por U ≃φ V , ou simplesmente
por U ≃ V .
E. 1.70 Exercı́cio importante. Mostre que a relação de isomorfia entre espaços vetoriais é uma relação
de equivalência. 6
Em espaços vetoriais os conceitos de mono-, endo- e e automorfismo não são muito empregados.
Em verdade, morfismos de espaços vetoriais são mais freqüentemente denominados operadores lineares
ou aplicações lineares, como matrizes, por exemplo.
No caso de espaços vetoriais sobre o corpo dos complexos existem também os conceitos de anti-
homomorfismo, anti-isomorfismo etc. Sejam U e V dois espaços vetoriais sobre C. Uma função φ :
U → V é dita ser um anti-homomorfismo ou anti-morfismo de espaços vetoriais se φ(α1 u1 + α2 u2 ) =
α1 φ(u1 )+α2φ(u2 ) para todos α1 , α2 ∈ C e todos u1 , u2 ∈ U. O conceito de anti-isomorfismo é análogo.
• Morfismos em álgebras
indexMorfismos em álgebras
Sejam A e B duas álgebras (sobre o mesmo corpo K, como espaços vetoriais). Uma função φ :
A → B é dita ser um homomorfismo ou morfismo de álgebras se for um morfismo de espaços vetoriais
(ou seja φ(α1 a1 + α2 a2 ) = α1 φ(a1 ) + α2 φ(a2 ) para todos α1 , α2 ∈ K e todos a1 , a2 ∈ A) e se
φ(a1 · a2 ) = φ(a1 ) · φ(a2 ) para todos a1 , a2 ∈ A.
Sejam A e B duas álgebras sobre o mesmo corpo K. Uma função φ : A → B é dita ser um
isomorfismo de álgebras se for um morfismo de álgebras e se for bijetora.
Se duas álgebras A e B sobre o mesmo corpo forem tais que exista um isomorfismo φ entre ambos
dizemos que A e B são isomorfas (por φ) e denotamos esse fato por A ≃φ B, ou simplesmente por
A ≃ B.
E. 1.71 Exercı́cio importante. Mostre que a relação de isomorfia entre álgebras é uma relação de equi-
valência. 6
1.3.1 Cosets
E. 1.72 Exercı́cio importante. Verifique que a definição acima corresponde de fato a uma relação de
equivalência. 6
E. 1.73 Exercı́cio importante. Verifique que a definição acima corresponde de fato a uma relação de
equivalência. 6
Doravante, denotaremos ∼H H
l simplesmente por ∼l e ∼r por ∼r , ficando o subgrupo H subentendido.
É sempre possı́vel definir uma ação à esquerda de G sobre o coset à esquerda (G/H)l , a qual age
transitivamente em (G/H)l (vide definição à página 69). Isso faz de (G/H)l um espaço homogêneo de
G (vide definição à página 69).
Seja G um grupo, H um sub-grupo de G e seja o coset à esquerda (G/H)l , definido acima. Defina
α : G × (G/H)l → (G/H)l tal que G × (G/H)l ∋ (g, [f ]l ) 7→ αg ([f ]l ) := [gf ]l ∈ (G/H)l .
Então, α define uma ação à esquerda de G sobre (G/H)l . De fato, tem-se que
É sempre possı́vel definir uma ação à direita de G sobre o coset à direita (G/H)r , a qual age
transitivamente em (G/H)r (vide definição à página 69). Isso faz de (G/H)r um espaço homogêneo de
G (vide definição à página 69).
Seja G um grupo, H um sub-grupo de G e seja o coset à direita (G/H)r , definido acima. Defina
β : G × (G/H)r → (G/H)r tal que G × (G/H)r ∋ (g, [f ]r ) 7→ βg ([f ]r ) := [f g]r ∈ (G/H)r .
Então, β define uma ação à direita de G sobre (G/H)r . De fato, tem-se que
3. Para todos g, h ∈ G vale βg (βh ([f ]r )) = βg ([f h]r ) = [f hg]r = βhg ([f ]r ) para qualquer f ∈ G.
Os cosets (G/H)l e (G/H)r podem ser identificados e transformados em grupos se uma certa
hipótese for feita sobre o sub-grupo H e sua relação com G. Esse é nosso assunto na Seção 1.3.2.
• Sub-Grupos normais
Seja G um grupo. Um subgrupo N de G é dito ser um subgrupo normal se gng −1 ∈ N para todo
g ∈ G e todo n ∈ N. Se N é um sub-grupo normal de G denotamos esse fato escrevendo N G.
Observe que todo sub-grupo de um grupo Abeliano G é normal.
E. 1.74 Exercı́cio. Sejam G e H dois grupos e ϕ : G → H um homomorfismo. Mostre que Ran (ϕ) :=
{ϕ(g)| g ∈ G} é um sub-grupo de H. 6
Nota sobre a nomenclatura dos dois exercı́cios acima. O sı́mbolo Ran provém da palavra inglesa “range” (“alcance”, em português) e é
freqüentemente empregado como sinônimo da imagem de uma função ou aplicação. O sı́mbolo Ker provem do inglês “kernel” (“núcleo” ou
“caroço”, em português).
Prova. Por definição, g ′ ∈ [g]l se e somente existe n ∈ N tal que g −1g ′ = n, o que é verdade se e
somente se g ′g −1 = gng −1. Mas g ′ ∈ [g]r se e somente se g ′ g −1 ∈ N. Assim [g]l = [g]r para todo g ∈ G
se e somente se gng −1 ∈ N para todo g ∈ G e n ∈ N, o que é verdade se somente se N é um subgrupo
normal de G.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 1 76/1461
Com isso, caso N G, definimos [g] := [g]l = [g]r para todo g ∈ G e definimos o coset de G por N
por G/N := (G/N)l = (G/N)r , ou seja, G/N = {[g], g ∈ G}.
Advertência. O leitor deve ser advertido aqui que, infelizmente, é comum na literatura denotar o
coset à esquerda (G/H)l por G/H, mesmo quando H não é normal (vide, por exemplo, [132] ou [61],
entre outros). Evitaremos fazer isso, pois isso pode levar a uma confusão de conceitos.
Sub-grupos normais são importantes, pois com eles podemos fazer da coleção de classes de equi-
valência G/N um grupo, denominado grupo quociente de G por N. A construção é a seguinte.
Seja N G. Podemos fazer de G/N um grupo definindo o produto como [g]N [h]N = [gh]N . É
muito fácil ver que, se esta expressão está bem definida, ela de fato representa um produto associativo
na coleção de classes de equivalência G/N. O elemento neutro seria a classe [e]N , onde e é a identidade
de g. Por fim, [g]−1 −1
N = [g ]N . O ponto não trivial é mostrar que a definição de produto como
[g]N [h]N = [gh]N faz sentido, ou seja, é independente dos elementos tomados nas classes de g e h. Para
isso precisaremos que N seja normal.
O que temos de fazer é mostrar que se g ′ ∼N g e h′ ∼N h então g ′h′ ∼N gh, ou seja, precisamos
mostrar que se g ′ g −1 ∈ N e h′ h−1 ∈ N então g ′ h′ (gh)−1 ∈ N. Mas, de fato, tem-se que
g ′ h′ (gh)−1 = g ′h′ h−1 g −1 = (g ′ g −1)[g(h′ h−1 )g −1] .
Agora, por hipótese, h′ h−1 ∈ N. Daı́, como N é normal (é aqui que essa hipótese entra pela primeira
vez), g(h′ h−1 )g −1 ∈ N. Como, também pela hipótese, g ′ g −1 ∈ N e N é um sub-grupo, concluı́mos que
g ′ h′ (gh)−1 ∈ N, ou seja, g ′h′ ∼N gh. Assim [g]N [h]N = [gh]N está bem definido e faz das classes G/N
um grupo. Esse grupo é denominado de grupo quociente de G por N.
A noção de grupo quociente é muito importante na teoria de grupos e iremos explorar algumas das
aplicações nessas notas. Adiante usarêmo-la para construir a noção de produto tensorial e soma direta
de vários objetos, tais como grupos, álgebras etc. A noção de grupo quociente é importante por permitir
estudar a relação de certos grupos entre si. Mais adiante, por exemplo, mostraremos que o grupo SO(3)
é isomorfo ao grupo SU(2)/{1, −1}, um resultado de direto interesse fı́sico na Mecânica Quântica. A
noção de grupo quociente é também muito importante em problemas combinatórios envolvendo grupos,
mas não falaremos disso aqui. Para uma discussão mais ampla, vide [131], [132] ou [108].
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 1 77/1461
• O centro de um grupo
Seja G um grupo. O conjunto dos elementos de G que têm a propriedade de comutarem com todos
os elementos de G é denominado o centro do grupo G e é freqüentemente denotado por38 Z(G). Em
sı́mbolos:
Z(G) := {h ∈ G| hg = gh para todo g ∈ G} .
Note que Z(G) nunca é um conjunto vazio, pois o elemento neutro de G sempre pertence e Z(G).
Em alguns grupos, porém, esse pode ser o único elemento de Z(G). Esse é o caso, por exemplo, do
grupo de permutações de n elementos (por que?).
É elementar constatar que para qualquer grupo G, seu centro Z(G) é um subgrupo normal de G.
É igualmente elementar constatar que se G é Abeliano então Z(G) = G.
• Centralizadores e normalizadores
• O centro de GL(C, n)
Como exercı́cio vamos determinar o centro de GL(C, n). Se A ∈ Z(GL(C, n)) então AB = BA
para toda B ∈ GL(C, n). Tomemos, em particular, uma matriz B da forma B = 1 + E a, b , onde E a, b ,
com a, b ∈ {1, . . . , n}, é a matriz cujo elemento ij é nulo a menos que i = a e que j = b, em cujo
38
O emprego da letra Z provavelmente provem da palavra alemã “Zentrum”.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 1 78/1461
caso (E a, b )ij = 1. Em sı́mbolos, (E a, b )ij = δia δjb . (Antes de prosseguir, convença-se que 1 + E a, b ∈
GL(C, n), notando que det(1 + E a, b ) 6= 0). Agora, como AB = BA, segue que AE a, b = E a, b A. Pela
regra de produto de matrizes, isso significa
n
X n
X
a, b a, b
(AE )ij = Aik (E )kj = Aik δka δjb = Aia δjb
k=1 k=1
q
n
X n
X
(E a, b A)ij = (E a, b )ik Akj = δia δkb Akj = Abj δia .
k=1 k=1
Assim, Aia δjb = Abj δia . Tomando-se j = b, concluı́mos Aia = Abb δia . Como a e b são arbitrários,
concluı́mos dessa igualdade que Abb = λ, constante independente de b. Daı́, Aia = λδia , o que significa
que A = λ1. Como det(A) 6= 0, devemos ter λ 6= 0.
Para futura referência expressamos nossas conclusões na forma de uma proposição:
Proposição 1.13 O centro do grupo GL(C, n), ou seja, Z(GL(C, n)), coincide com o conjunto de
todas as matrizes da forma λ1, com λ 6= 0, ou seja, é o conjunto das matrizes não-nulas que são
múltiplos da unidade. Em sı́mbolos,
Como conseqüência podemos afirmar que se uma matriz A ∈ Mat (C, n) comuta com todas as demais
matrizes de Mat (C, n) então A = λ1 para algum λ ∈ C. 2
E. 1.79 Exercı́cio. Mostre que o centro de SL(C, n) é o conjunto de todas as matrizes da forma λ1,
com λ ∈ C satisfazendo λn = 1. Mostre que esse grupo é isomorfo ao grupo Zn . 6
E. 1.80 Exercı́cio. Mostre que o centro de SL(R, n) é o conjunto de todas as matrizes da forma λ1, com
λ ∈ R satisfazendo λn = 1. Esse grupo é {1} quando n é ı́mpar e {1, −1} quando n é par. (Lembre-se
que SL(R, n) é formado apenas por matrizes reais). 6
A maneira mais fácil é definir o produto de dois pares ordenados (g1 , h1 ), (g2 , h2 ), com g1 , g2 ∈ G
e h1 , h2 ∈ H, por
(g1 , h1 ) · (g2 , h2 ) := (g1 g2 , h1 h2 ) .
O leitor pode facilmente se convencer que esse produto é associativo, que (eG , eH ) é o elemento neutro
e que (g, h)−1 = (g −1 , h−1 ).
Isso faz de G × H um grupo, denominado produto direto de G e H. Esse grupo é por vezes denotado
por G ⊗ H.
A definição acima pode ser amplamente generalizada. Seja Gs ,Qs ∈ Λ, uma coleção de grupos
indexados por s ∈ Λ. ConsideremosSo produto Cartesiano G := s∈Λ Gs , definido como sendo a
Λ → s∈Λ Gs , com f (s) ∈ Gs . Então, podemos fazer de G um grupo
coleção de todasQas funções f :Q
definindo para f
s∈Λ 1 (s) , s∈Λ f2 (s) ∈ G o produto
! ! !
Y Y Y
f1 (s) · f2 (s) = f1 (s)f2 (s) .
s∈Λ s∈Λ s∈Λ
Como facilmente se vê, esse produto faz de G um grupo, denominado produto direto da coleção de
grupos Gs , s ∈ Λ.
Dados dois grupos G e H há uma outra maneira de fazer de G × H um grupo além do produto
direto. Para tal é necessário que exista uma ação de G em H por automorfismos de H. Expliquemos
melhor isso.
Lembremos que um automorfismo α de um grupo H é um isomorfismo de H em si mesmo α : H →
H. Uma ação (à esquerda) de G sobre H por automorfismos é um função α : G × H → H tal que a
cada par (g, h) ∈ G × H associa um elemento denotado por αg (h) de H de tal forma que as seguintes
condições sejam satisfeitas:
Pela definição geral, tem-se pelas propriedades 1, 2 e 3 acima que para quaisquer g ∈ G e h ∈ H
αg (eH )h = αg (eH )αg (αg−1 (h)) = αg (eH αg−1 (h)) = αg (αg−1 (h)) = h ,
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 1 80/1461
E. 1.83 Exercı́cio importante. Mostre que esse produto é associativo, que (eG , eH ) é a unidade e que
para quaisquer g ∈ G, h ∈ H tem-se (g, h)−1 = (g −1 , αg−1 (h−1 )). 6
• Exemplos
define o grupo GsN, produto semi-direto de um grupo G por um sub-grupo normal N através do
automorfismo natural.
II. Considere o grupo G, formado por todos os números reais não-nulos com o produto dado pela
multiplicação usual e o grupo H, formado por todos os reais com o produto dado pela soma: G =
(R \ {0}, ·) e H = (R, +).
Para todo a ∈ R \ {0} e x ∈ R definimos α : G × H → H por αa (x) := ax. Para cada a ∈ G, tem-se
que αa é bijetora, com inversa dada por α1/a . Fora isso, αa (x) + αa (y) = ax+ ay = a(x+ y) = αa (x+ y).
Assim, αa é um automorfismo (condição 1. da definição acima). Fora isso, para todo x ∈ H, α1 (x) = x
(condição 2.). Por fim, para todo x ∈ H, αa (αb (x)) = abx = αab (x), para quaisquer a, b ∈ G (condição
3.). Concluı́mos que α é uma ação à esquerda de G sobre H por automorfismos.
Assim, fazemos de G × H um grupo Gsα H com o produto
Γ((a, x), z) := az + x .
Para verificar que isso é uma ação notemos as seguintes propriedades: i. para cada (a, x) fixo
Γ((a, x), z) é uma função bijetora de R em R (lembre-se que a 6= 0). ii. Para todo z ∈ R,
39
O conceito de ação de um grupo em um conjunto foi definido à página 68.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 1 81/1461
Γ((1, 0), z) = z.
iii. Γ((a, x), Γ((b, y), z)) = Γ((a, x), bz + y) = a(bz + y) + x = abz + (x + ay)
Isso mostrou que Γ é uma ação de Gsα H sobre o conjunto R. Como vemos, a ação de um elemento
(a, x) consiste em uma combinação de uma multiplicação por a 6= 0 seguida por uma translação por
x ∈ R. Isso exibe o significado geométrico do grupo Gsα H. Vamos a um outro exemplo semelhante.
III. Considere o conjunto de todas as operações do espaço tridimensional que envolvem rotações e
translações. Por exemplo, considere-se a operação na qual cada vetor ~x é primeiramente rodado por
uma matriz de rotação R ∈ SO(3) e em seguida é transladado por um vetor ~x0 :
A composição de duas de tais operações conduz à transformação ~x 7→ R′ (R~x + ~x0 ) + ~x′0 , ou seja,
E. 1.84 Exercı́cio. Verifique que a transformação (1.26) define uma ação à esquerda do grupo SO(3)sα R3
sobre o conjunto R3 . 6
Sejam A e B dois grupos Abelianos, com identidades eA e eB (e cujas operações de produto de-
notaremos ambas pelo mesmo sı́mbolo “+”). Desejamos encontrar uma maneira de fazer do produto
Cartesiano A × B um grupo também. Uma maneira de fazer isso é definir a “soma” de dois pares
ordenados (a, b), (a′ , b′ ) ∈ A × B por
O leitor pode facilmente constatar que essa operação é uma operação binária de A × B em si mesmo,
que ela é associativa, que tem por elemento neutro o par (eA , eB ) e que para cada (a, b) ∈ A × B
a inversa é (a, b)−1 = (−a, −b), onde −a é o elemento inverso de a em A, e analogamente para −b.
Portanto, com esse produto, A × B é um grupo.
Com essa estrutura, facilmente se verifica que A × B torna-se um grupo Abeliano, denominado
soma direta de A e B ou produto direto de A e B 42 e denotado pelo sı́mbolo A ⊕ B. Com essa estrutura
de grupo em mente, os pares ordenados (a, b) são freqüentemente denotados pelo sı́mbolo a ⊕ b.
Sejam U e V dois espaços vetoriais em relação a um mesmo corpo que, sem perda de generalidade,
consideraremos doravante como sendo o corpo dos complexos. U e V são dois grupos Abelianos em
relação às respectivas operações de soma de vetores. Assim, pela construção acima, podemos definir o
42
A distinção entre produto direto e soma direta só se faz quando uma coleção não-finita de grupos é envolvida. Vide
Seção 1.5.5.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 1 83/1461
grupo U ⊕ V . Esse objeto ainda não tem uma estrutura de espaço vetorial (sobre os complexos), pois
não dissemos como definir o produto de um elemento de U ⊕ V por um escalar α ∈ C. Isso é feito da
seguinte forma, para u ∈ U, v ∈ V , define-se α(u ⊕ v) por
E. 1.85 Exercı́cio. Constate que, com essa definição, U ⊕V torna-se um espaço vetorial, ou seja, verifique
que são válidos os postulados da definição formal de espaço vetorial dados à página 58. 6
Esse espaço vetorial que denotaremos por U ⊕C V , é denominado soma direta dos espaços U e V
ou produto direto43 de U e V .
(a, b) + (a′ , b′ ) ,
mas não impomos a relação (1.28). O que realmente entendemos por “soma formal” será explicado
adiante, quando definirmos o conceito de grupo Abeliano livremente gerado por um conjunto, uma
noção muito simples. Por ora fiquemos apenas com a noção intuitiva. Para dar a A ⊗ B uma estrutura
de grupo, desejamos impor algumas condições às somas formais acima. Primeiramente impomos que
(a + a′ , b) = (a, b) + (a′ , b)
e que
(a, b + b′ ) = (a, b) + (a, b′ )
para todos a, a′ ∈ A, b, b′ ∈ B. O estudante deve notar que essas imposições são mais limitadas que
aquelas de (1.28). Note também que as imposições acima são inspiradas na bem-conhecida propriedade
de transitividade de produtos e somas de números reais ou complexos: (x+x′ )y = xy +x′ y e x(y +y ′) =
xy + xy ′ .
E. 1.86 Exercı́cio. Mostre que com as regras de soma dadas acima todos os pares (eA , b) e (a, eB )
são identificados entre si e com o elemento neutro da operação de soma de pares ordenados. Fora isso, o
elemento inverso de um par (a, b) é (−a, b) = (a, −b). Mostre que, com isso, A ⊗ B é um grupo Abeliano,
denominado Produto Tensorial dos Grupos Abelianos A e B. 6
43
A distinção entre produto direto e soma direta só se faz quando uma coleção não-finita de espaços vetoriais é
envolvida. Vide Seção 1.5.5.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 1 84/1461
Com essa estrutura de grupo em mente, os pares ordenados (a, b) são freqüentemente denotados
pelo sı́mbolo a ⊗ b.
Sejam U e V dois espaços vetoriais em relação a um mesmo corpo que, sem perda de generalidade,
consideraremos doravante como sendo o corpo dos complexos. U e V são dois grupos Abelianos em
relação às respectivas operações de soma de vetores. Assim, pela construção acima, podemos definir o
grupo U ⊗ V . Esse objeto ainda não tem uma estrutura de espaço vetorial (sobre os complexos), pois
não dissemos como definir o produto de um elemento de U ⊗ V por um escalar α ∈ C. Isso é feito da
seguinte forma, para u ∈ U, v ∈ V , define-se α(u ⊗ v) impondo
O estudante deve comparar essa regra de produto por escalares com a regra 1.29.
Para elementos de U ⊗ V que sejam somas finitas, como por exemplo u ⊗ v + u′ ⊗ v ′ , impomos
α (u ⊗ v + u′ ⊗ v ′ ) := α (u ⊗ v) + α (u′ ⊗ v ′ )
E. 1.87 Exercı́cio. Constate que, com essa definição, U ⊗V torna-se um espaço vetorial, ou seja, verifique
que são válidos os postulados da definição formal de espaço vetorial dados à página 58. 6
Esse espaço vetorial que denotaremos por U ⊗C V , é denominado produto tensorial dos espaços U
e V.
Vamos agora tentar formalizar as noções que apresentamos acima, apresentando suas definições
matemáticas precisas. O leitor que acredita ter entendido o que apresentamos acima pode dispensar-se
de ler o restante da presente seção.
Uma noção importante que usaremos adiante é a de grupo Abeliano livremente gerado por um
conjunto X. Seja X um conjunto. Seja F (X) a coleção de todas as funções de suporte finito de X
em Z. É fácil ver que F (X) tem naturalmente uma estrutura de grupo Abeliano, definindo, para f ,
f ′ ∈ F (X) o produto de f e f ′ como sendo o elemento f f ′ = (f + f ′ ) de F (X) dado por
para todo x ∈ X. É claro que esse (f + f ′ ) tem suporte finito. O elemento neutro e de F (X) é
claramente a função identicamente nula. Pelo fato de F (X) ter essa estrutura natural de grupo F (X)
é denominado grupo Abeliano livremente gerado pelo conjunto X.
Para x ∈ X vamos denotar por δx a função caracterı́stica de x:
1, se y = x
δx (y) := . (1.32)
0, se y 6= x
Claramente δx ∈ F (X). Dado que cada f ∈ F (X) tem suporte finito, pode-se escrevê-lo da forma
N
X
f = an δxn , (1.33)
n=1
onde fica, por assim dizer, subentendido que aqui os xn ’s representam não os elementos de X mas sim
suas funções caracterı́sticas (X pode ser um conjunto qualquer, de modo que operações como soma de
elementos de X ou multiplicação de elementos de X por um inteiro podem não serem sequer definidas).
É fácil verificar que F (X) é um grupo Abeliano livre (daı́ seu nome), o que quer dizer que não há em
F (X) nenhuma relação não trivial entre seus elementos, a não ser aquela que lhe confere Abelianidade:
f f ′ f −1 f ′ −1 = e.
Vamos passar agora a uma construção muito importante, a de grupo Abeliano livremente gerado
por um conjunto módulo relações. Vamos apresentar essa construção de forma bem geral.
Seja J um conjunto (em princı́pio arbitrário) de ı́ndices e sejam então, para cada j ∈ J, elementos
de F (X) dados por
n(j)
X
rj = αj, i xj, i , (1.35)
i=1
onde, para cada j ∈ J, n(j) ∈ N e, para todo j ∈ J e i ∈ {1, . . . , n(j)}, tem-se αj, i ∈ Z e xj, i ∈ X com
xj, i 6= xj, i′ se i 6= i′ . Denotamos R := {rj , j ∈ J}. Os elementos de R serão chamados “relações”.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 1 86/1461
Seja então R o subgrupo de F (X) formado por todos os elementos de F (X) que são combinações
lineares finitas de rj ’s com coeficientes em Z:
Vamos ilustrar as definições e construções acima apresentando as definições de soma direta e produto
tensorial de dois grupos Abelianos e, em seguida, de dois espaços vetoriais. As definições de acima são
particularmente relevantes para o conceito de produto tensorial.
Sejam A e B dois grupos Abelianos cujo produto de grupo denotaremos aditivamente: com o
sı́mbolo +. Seja X = A × B. Seja em F (X) = F (A × B) o conjunto R de relações dado por
R := {r ∈ F (X)| r = (a + a′ , b + b′ ) − (a, b) − (a′ , b′ ), com a, a′ ∈ A e b, b′ ∈ B} . (1.37)
Seja R = R(A × B) o subgrupo de F (A × B) gerado por R. Chegamos assim à definição do grupo
Abeliano A ⊕ B, a soma direta de A e B, que é definido como A ⊕ B := F (A × B)/R(A × B).
Sejam U e V dois espaços vetoriais (sobre C). Como U e V são dois grupos Abelianos, o grupo
Abeliano U ⊕ V está definido pelo procedimento acima. Isso, entretanto, ainda não faz de U ⊕ V um
espaço vetorial.
Para isso é preciso definir o produto de um escalar por um elemento de U ⊕ V . Definimos então o
produto de um escalar α ∈ C por um elemento u ⊕ v ∈ U ⊗ V como sendo o elemento (αu) ⊕ (αv), ou
seja,
α(u ⊕ v) := (αu) ⊕ (αv) .
É fácil constatar que, com essa definição, U ⊕C V torna-se um espaço vetorial (vide a definição formal
de espaço vetorial à página 58), que denotaremos por U ⊕C V . O assim definido espaço vetorial U ⊕C V
é denominado a soma direta dos espaços vetoriais U e V sobre o corpo C.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 1 87/1461
Sejam A e B dois grupos Abelianos cujo produto de grupo denotaremos aditivamente: com o
sı́mbolo +. Seja X = A × B. Seja em F (X) = F (A × B) o conjunto R de relações dado por
Sejam U e V dois espaços vetoriais (sobre C). Como U e V são dois grupos Abelianos, o grupo
Abeliano U ⊗ V está definido pelo procedimento da última sub-seção. Isso, entretanto, ainda não faz
de U ⊗ V um espaço vetorial. Para isso tomemos X = U ⊗ V e consideremos o sub-espaço de F (X)
definido por
Como antes, seja R = R(U ⊗ V ) o subgrupo gerado por R. Definimos agora um novo grupo Abeliano
U ⊗C V como U ⊗C V := F (U ⊗ V )/R(U ⊗ V ).
U ⊗C V é por ora apenas mais um grupo Abeliano, mas podemos adicionar-lhe uma estrutura de
espaço vetorial da seguinte forma.
Primeiramente é preciso definir o produto de um escalar por um elemento de U ⊗C V . Para elementos
da forma u ⊗C v com u ∈ U e v ∈ V , definimos então o produto α(u ⊗C v), para α ∈ C por
n
X n
X
= ck (αuk ) ⊗C vk = ck uk ⊗C (αvk ) .
k=1 k=1
É fácil constatar que, com essa definição, U ⊗C V torna-se um espaço vetorial (vide a definição
formal de espaço vetorial à página 58), que também denotaremos por U ⊗C V . O assim definido espaço
vetorial U ⊗C V é denominado produto tensorial dos espaços vetoriais U e V sobre o corpo C.
Vamos aqui a uma definição que nos será importante. Sejam M e N dois bimódulos sobre uma
álgebra associativa A, ambos supostos serem espaços vetoriais sobre o corpo dos complexos. Conforme a
sub-seção anterior podemos definir o espaço vetorial M ⊗C N. Entretanto, em muitos casos é necessário
definir um outro tipo de produto tensorial entre M e N.
Para tal seja X = M ⊗C N e definamos em F (X) o conjunto de relações
M ⊗A N := F (M ⊗C N)/R(M ⊗C N) . (1.41)
Faremos uso freqüente desse produto tensorial adiante. O mais importante para nós será a identi-
dade (ma) ⊗A n = m ⊗A (an) válida em todo M ⊗A N para todo a ∈ A.
Gp possui um subgrupo importante, aquele formado por elementos ×a∈J ga ∈ Gp onde apenas um
número finito de ga ’s é distinto da identidade ea doM
respectivo grupo Ga . Esse subgrupo é dito ser a
soma direta dos Gi ’s , i ∈ J e é denotado por Gs = Gi .
i∈J
para todos a, b ∈ A.
Vamos a alguns exemplos.
Exemplo 1. Seja A uma álgebra sobre C com unidade e e M = A ⊗C A com os seguintes produtos
de bimódulo:
a · (b ⊗ c) := (ab) ⊗ c, (1.45)
(b ⊗ c) · a := b ⊗ (ca) . (1.46)
Deixa-se ao leitor verificar a associatividade dos produtos de bimódulo nesse caso. Defina-se
δ(a) := a ⊗ e − e ⊗ a . (1.47)
Deixa-se ao leitor verificar a validade da regra de Leibniz nesse exemplo. Note-se também que, por
essa definição, δ(e) = 0.
44
Gottfried Wilhelm von Leibniz (1646-1716).
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 1 90/1461
Exemplo 2. Seja A uma álgebra sobre C com unidade e e M = A ⊗C A com os seguintes produtos
de bimódulo:
a · (b ⊗ c) := (ab) ⊗ c , (1.48)
Deixa-se ao leitor verificar a associatividade dos produtos de bimódulo nesse caso. Defina-se
δ(a) := e ⊗ a . (1.50)
Deixa-se ao leitor verificar a validade da regra de Leibniz nesse exemplo. Note-se também que, por
essa definição, δ(e) = e ⊗ e 6= 0.
Exemplo 3. Exemplo importante de derivações pode ser visto em álgebras de Lie. Seja A uma
álgebra de Lie vista como um bimódulo sobre si mesma. Seja z um elemento fixo da álgebra e seja a
aplicação dz : A → A dada por dz (a) = [z, a]. É fácil verificar (faça!) usando a identidade de Jacobi
(1.22) que
dz ([a, b]) = [dz (a), b] + [a, dz (b)]
para todo a, b ∈ A. Assim, tem-se que a cada z ∈ A é associada uma derivação dz .
a + b′ + p = a′ + b + p . (1.51)
Vamos mostrar que isso define de fato uma relação de equivalência. Em primeiro lugar é claro que
(a, b) ∼ (a, b) para qualquer par (a, b) ∈ S 2 = S × S, dado que aqui, para verificar (1.51), basta tomar
45
Alexander Grothendieck (1928-).
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 1 91/1461
qualquer elemento p ∈ S. Em segundo lugar é evidente que se (a, b) ∼ (a′ , b′ ) então (a′ , b′ ) ∼ (a, b).
Finalmente, vamos mostrar que se (a, b) ∼ (c, d) e (c, d) ∼ (e, f ) então (a, b) ∼ (e, f ). Por hipótese
existem p e p′ ∈ S tais que
a+d+p = b+c+p e c + f + p ′ = d + e + p′ .
Daqui extraı́mos que
(a + d + p) + (c + f + p′ ) = (b + c + p) + (d + e + p′ ) ,
ou seja, que
a + f + p′′ = b + e + p′′ ,
onde p′′ = d + c + p + p′ . Essa relação diz precisamente que (a, b) ∼ (e, f ), completando a prova de
que temos assim uma relação de equivalência em S 2 .
Vamos considerar agora o conjunto K(S) := S 2 / ∼ de todas as classes de equivalência definidas
acima. Como é usual, denotaremos por [(a, b)] a classe à qual pertence o par (a, b) ∈ S 2 . Vamos
construir em K(S) uma estrutura de grupo Abeliano, cujo produto também denotaremos por +. Dadas
duas classes [(a, b)] e [(c, d)] definimos
[(a, b)] + [(c, d)] := [(a + c, b + d)] .
Note-se que por essa definição tem-se (verifique!)
[(a, b)] + [(c, d)] = [(c, d)] + [(a, b)]
para todo a, b, c, d ∈ S, pelo fato de a operação de soma ser Abeliana em S.
A primeira coisa a fazer é mostrar que essa definição independe dos elementos tomados nas classes.
Para isto basta provar que se (a′ , b′ ) ∼ (a, b) então (a + c, b + d) ∼ (a′ + c, b′ + d). Se (a′ , b′ ) ∼ (a, b)
então existe p ∈ S tal que
a + b′ + p = a′ + b + p .
Somando-se c + d a ambos os lados tiramos
(a + c) + (b′ + d) + p = (a′ + c) + (b + d) + p
que é precisamente a afirmativa que (a + c, b + d) ∼ (a′ + c, b′ + d).
É igualmente fácil verificar que para quaisquer x, y ∈ S tem-se que (x, x) ∼ (y, y) e que, portanto,
[(x, x)] = [(y, y)]. Vamos provar que há em K(S) um elemento neutro. Este é precisamente a classe
e := [(x, x)] com x ∈ S arbitrário. Note-se que, para qualquer par (a, b) ∈ S 2 teremos
[(a, b)] + [(x, x)] = [(a + x, b + x)] = [(a, b)] ,
pois (a + x + b) + p = (b + x + a) + p para qualquer p ∈ S.
Falta-nos provar a associatividade do produto e a existência de uma inversa para cada elemento de
K(S). Para a associatividade, notemos que
[(a, b)] + [(c, d)] + [(e, f )] := [(a, b)] + [(c + e, d + f )] = [(a + c + e, b + d + f )] ,
[(a, b)] + [(c, d)] + [(e, f )] := [(a + c, b + d)] + [(e, f )] = [(a + c + e, b + d + f )] .
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 1 92/1461
Para provar a existência de inversa notemos que para cada par (a, b) ∈ S 2 podemos tomar [(a, b)]−1 :=
[(b, a)] pois
[(a, b)] + [(a, b)]−1 = [(a, b)] + [(b, a)] = [(a + b, a + b)] = e .
Isso mostrou que K(S) tem uma estrutura de grupo Abeliano. Este é o chamado grupo de Grothen-
dieck associado ao semi-grupo Abeliano S.
Como de costume, denotaremos [(a, b)]−1 por −[(a, b)]. Assim, −[(a, b)] = [(b, a)].
E. 1.88 Exercı́cio. Seja o monóide Abeliano N dos números naturais contendo o 0 com a soma usual.
Mostre que K(N) ≃ Z. 6
O exercı́cio acima indica a possibilidade de se definir os números inteiros a partir dos naturais.
Os inteiros seriam, por definição, o grupo de Grothendieck do monóide Abeliano dos naturais com a
operação de soma usual.
E. 1.89 Exercı́cio. Seja o monóide Abeliano N1 dos números naturais maiores ou iguais a 1 com o produto
dado pela multiplicação usual. Mostre que K(N1 ) ≃ Q+ , o grupo dos racionais positivos (sem o zero) com
o produto dado pela multiplicação usual. 6
O exercı́cio acima indica a possibilidade de se definir os números racionais positivos a partir dos
naturais. Os racionais seriam, por definição, o grupo de Grothendieck do monóide Abeliano dos naturais
com a operação de produto usual.
Para cada elemento a de um monóide Abeliano M podemos associar um elemento de K(M) por
M ∋ a 7→ [a] := [(a, 0)] ∈ K(M). É fácil ver que todo elemento [(a, b)] de K(M) pode ser escrito da
forma [(a, b)] = [a]−[b] e que [a]−[b] = [a′ ]−[b′ ] se e somente se existir p ∈ M com a+b′ +p = a′ +b+p.
E. 1.90 Exercı́cio. Aplique a construção de Grothendieck para o semi-grupo R+ , definido à página 54.
Mostre que o grupo assim obtido possui apenas um elemento. 6
1.6.2 Grupóides
Um grupóide é definido da seguinte forma. É dado um conjunto C e um subconjunto C0 ⊂ C, o qual
é a imagem de duas funções unárias p e c (chamadas de “partida” e “chegada”), ou seja, p : C → C0 ,
c : C → C0 . Os elementos de C0 são pontos fixos de p e de c, ou seja,
c(α) = α e p(α) = α
É também dada uma função binária RC → C, que denotaremos por “·” e que denominaremos
“produto”, a qual satisfaz as seguintes hipóteses:
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 1 93/1461
Fora isso, existe para cada α ∈ C uma assim chamada inversa bilateral α−1 ∈ C a qual satisfaz
α · α−1 = c(α) e α−1 · α = p(α). Note que, por essa definição, tem-se que, para todo α0 ∈ C0 ,
α0 · α0−1 = α0−1 · α0 = α0 .
Estes ingredientes definem um grupóide. Note-se que um grupóide não necessariamente contém um
“elemento neutro” (vide exemplos).
Exemplo. Caminhos. Este exemplo é um protótipo da definição de grupóide acima, ou seja, aquela
possivelmente foi criada tendo o mesmo como exemplo-guia.
Seja I o intervalo fechado [0, 1] e vamos considerar o conjunto C de todas as funções contı́nuas de
I em um espaço topológico Hausdorff qualquer (por exemplo R2 ). Um elemento γ de C é uma curva
orientada contı́nua em R2 que tem um ponto de partida γ(0) e um ponto de chegada γ(1).
Podemos introduzir uma relação de equivalência em C da seguinte forma: duas curvas α e β ∈ C
são equivalentes (α ∼ β) se existir uma bijeção contı́nua b : I → I com b(0) = 0, b(1) = 1, tal que
α = β ◦ b. Vamos denominar por C as classes de equivalência de C pela relação de equivalência acima:
C := C/ ∼.
O conjunto C0 é o subconjunto de C formado pelas classes de equivalência de curvas constantes:
[α] ∈ C0 ⇐⇒ α(t) = α(t′ ), ∀t, t′ ∈ I.
Definimos as funções unárias p e c da seguinte forma: p([γ]) é a classe de equivalência da curva
constante que a todo t ∈ I associa o ponto γ(0) de R2 , o ponto de partida de γ; c([γ]) é a classe de
equivalência da curva constante que a todo t ∈ I associa o ponto γ(1) de R2 , o ponto de chegada de γ.
Dados dois elementos em C queremos agora definir o seu produto. A idéia a ser seguida é que o
produto de duas curvas é definido apenas quando o ponto de chegada da primeira coincide com o ponto
de partida da segunda e resulta em uma curva única unindo o ponto de partida da primeira com o
ponto de chegada da última. Matematicamente isso é feito definindo-se o produto [β] · [α] como sendo
a classe de equivalência da curva β ∗ α definida pela composição
α(2t), para 0 ≤ t ≤ 1/2
β ∗ α(t) := .
β(2t − 1), para 1/2 < t ≤ 1
Claramente β ∗ α só é um elemento de C (ou seja, uma curva contı́nua) se α(1) = β(0).
Por fim a inversa bilateral de [α] é definida como sendo a classe [α−1 ], onde α−1 (t) = α(1 − t).
Deixamos para o leitor como exercı́cio mostrar que a estrutura definida acima é a de um grupóide.
Notemos que para a composição ∗ acima não vale a associatividade: (α ∗ β) ∗ γ 6= α ∗ (β ∗ γ), se
ambos os lados estiverem definidos (por que?). No entanto, as curvas (α ∗ β) ∗ γ e α ∗ (β ∗ γ) são
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 1 94/1461
equivalentes no sentido da definição acima e de tal forma que para o produto “·” definido nas classes
C vale a associatividade [α] · ([β] · [γ]) = ([α] · [β]) · [γ], se ambos os lados estiverem definidos (por
que?). Essa é a razão de termos feito a construção nas classes C e não diretamente em C. Esse fato
já deve ser familiar ao leitor que conheça o conceito de grupo de homotopia de espaços topológicos.
O grupóide apresentado acima e o grupo de homotopia são, aliás, fortemente aparentados e ao leitor
sugere-se pensar sobre qual a conexão entre ambos.
Exemplo. Relações de equivalência. Seja K um conjunto no qual haja uma relação de equivalência
R ⊂ K × K. Tomamos C = R e C0 = {(x, x), x ∈ K} ⊂ R. Definimos
1.6.3 Quatérnions
Vamos nesta seção tratar brevemente de um tipo de álgebra que possui algumas aplicações interessantes
na teoria de grupos e outros lugares, a chamada álgebra dos quatérnions.
Dado um espaço vetorial como R2 há várias maneiras de definir no mesmo um produto de modo a
fazer do mesmo uma álgebra. Por exemplo, podemos definir em R2 o produto
que não é nem associativo nem comutativo. O produto (1.54) faz de R3 uma álgebra isomorfa a
R ⊗ R ⊗ R (três cópias da álgebra dos reais). O produto (1.55) faz de R3 uma álgebra isomorfa a R ⊗ C
e o produto (1.56) é o bem conhecido produto vetorial.
O que se pode então fazer em R4 ? Naturalmente poder-se-ia definir em R4 várias álgebras imitando
o que fizemos acima. Por exemplo, com o produto
(x0 , x1 , x2 , x3 ) · (y0 , y1 , y2 , y3 ) =
(x0 y0 −x1 y1 −x2 y2 −x3 y3 , x0 y1 +y0 x1 +x2 y3 −x3 y2 , x0 y2 +y0x2 +x3 y1 −x1 y3 , x0 y3 +y0x3 +x1 y2 −x2 y1 ) .
(1.60)
O espaço vetorial R4 dotado do produto acima é denominado álgebra dos quatérnions ou álgebra
quaterniônica e é denotada freqüentemente por H (em honra a Hamilton). A álgebra H é associativa
mas não é comutativa. H tem uma unidade, a saber, o vetor (1, 0, 0, 0) ∈ R4 .
Há uma maneira melhor de representar o produto quaterniônico que a expressão (1.60). Vamos
escrever os vetores da base canônica de R4 como
4. e1 e2 = e3 , e2 e3 = e1 e e3 e1 = e2 .
Além de ser de manipulação mais simples, essas regras permitem representar a álgebra quaterniônica
de um modo talvez mais familiar, a saber, em termos de certas matrizes complexas 2 × 2.
onde z é o complexo conjugado de z ∈ C. É fácil de se ver que o conjunto de todas as matrizes dessa
forma é uma álgebra:
M(a, b)M(c, d) = M(ac − bd, ad + bc) .
Existe um isomorfismo entre a álgebra dos quatérnions e essa álgebra de matrizes 2 × 2. Basta
associar (bijetivamente!) a cada quádrupla (x0 , x1 , x2 , x3 ) a matriz M(x0 − ix3 , x2 + ix1 ):
x0 − ix3 x2 + ix1
x = (x0 , x1 , x2 , x3 ) ←→ =: M(x) . (1.61)
−x2 + ix1 x0 + ix3
É fácil verificar então (faça!) que o produto quaterniônico é respeitado por essa associação:
M(x)M(y) = M(x · y) ,
com
M(e0 ) = 1, M(e1 ) = iσ1 , M(e2 ) = iσ2 , M(e3 ) = −iσ3 ,
onde
1 0 0 1 0 −i 1 0
1 = , σ1 = , σ2 = e σ3 = ,
0 1 1 0 i 0 0 −1
• Sub-álgebras Abelianas
E. 1.99 Exercı́cio. Será possı́vel fazer de R4 um espaço vetorial complexo? Seja α ∈ C e considere para
x ∈ R4 o produto do escalar α pelo vetor x definido por
α · x = (Re(α)e0 + Im(α)e1 ) · x ,
onde o produto do lado direito é o o produto quaterniônico. Mostre que isso faz de R4 um espaço vetorial
sobre o corpo dos complexos. Para isto verifique as propriedades definidoras de um espaço vetorial listadas
à página 58. 6
E. 1.100 Exercı́cio. No exercı́cio anterior há outros produtos do escalar α pelo vetor x que podem ser
considerados:
α · x = (Re(α)e0 + Im(α)e2 ) · x ,
47
Wolfgang Ernst Pauli (1900-1958).
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 1 98/1461
ou
α · x = (Re(α)e0 + Im(α)e3 ) · x ,
ou mesmo
α · x = x · (Re(α)e0 + Im(α)e1 )
etc. Mostre que todos esses seis produtos de escalares α ∈ C por vetores x ∈ R4 fazem de R4 um espaço
vetorial sobre o corpo dos complexos. 6
• H é um anel de divisão
É fácil ver que a álgebra dos quatérnions é um anel de divisão (vide página 66), ou seja, todo
x ∈ R4 , x 6= 0, tem uma inversa em relação ao produto quaterniônico. Do isomorfismo M definido em
(1.61) acima vê-se que
x = x0 e0 − x1 e1 − x2 e2 − x3 e3
Note que por H ser um anel de divisão, H não tem divisores de zero: x · y = 0 se e somente se x = 0
ou y = 0.
• Norma quaterniônica
N(a · b) = N(a)N(b)
Em R e C tem-se a norma algébrica N(z) = |z|, o módulo ou valor absoluto de z. H também possui
uma norma algébrica. Para x ∈ R4 a expressão
N(x) = x · x
Há um teorema devido a Hurwitz50 que afirma que há apenas quatro álgebras que são álgebras de
divisão51 e possuem uma norma algébrica: R, C, H e a chamada álgebra dos octônions, da qual não
falaremos aqui. Esta última, por sinal, não é associativa.
A álgebra H possui várias outras propriedades interessantes, mas vamos encerrar aqui nossa ex-
posição introdutória. O leitor interessado poderá encontrar mais sobre H nos bons livros de álgebra,
especialmente nos mais antigos.
49
Vide nota de rodapé 48, página 98.
50
Adolf Hurwitz (1859-1919).
51
Vide definição à página 66
Capı́tulo 2
Espaços Vetoriais
Conteúdo
2.1 Espaços Vetoriais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100
2.1.1 Sub-Espaços e Espaços Quocientes . . . . . . . . . . . . . . . . . . . . . . . . 100
2.1.2 Bases Algébricas de um Espaço Vetorial . . . . . . . . . . . . . . . . . . . . . 102
2.1.3 O Dual Algébrico de um Espaço Vetorial . . . . . . . . . . . . . . . . . . . . 107
2.2 Formas Lineares, Sesquilineares e Produtos Escalares em Espaços Veto-
riais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114
2.2.1 Formas Multilineares . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114
2.2.2 Formas Sesquilineares e as Desigualdades de Cauchy-Schwarz e Minkowski . . 119
2.2.3 Produtos Escalares . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123
2.2.4 Exemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126
2.3 Normas em Espaços Vetoriais . . . . . . . . . . . . . . . . . . . . . . . . . . 128
2.4 Formas Bilineares e Sesquilineares em Espaços de Dimensão Finita . . . 135
2.5 Estruturas Complexas sobre Espaços Vetoriais Reais . . . . . . . . . . . . 140
Apêndices . . . . . . . . . . . . . . . . . . . . 149
2.A Prova do Teorema de Fréchet, von Neumann e Jordan . . . . . . . . . . . 149
A noção de espaço vetorial que introduzimos na Seção 1.2.3, página 58, é da maior importância
na Fı́sica e na Matemática. Neste capı́tulo vamos estudá-la com mais detalhe. Particular
atenção será dada às noções de forma multilinear, forma sesquilinear, produto escalar e norma
em espaços vetoriais. As importantes desigualdades de Cauchy-Schwarz e de Minkowski
serão demonstradas com bastante generalidade. Este capı́tulo trata quase exclusivamente de aspéctos
“algébricos” de espaços vetoriais, pondo de lado aspéctos topológicos, os quais serão discutidos em
capı́tulos futuros.
• Sub-espaços
100
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 2 101/1461
• Quocientes
E. 2.1 Exercı́cio. Mostre que isso de fato define uma relação de equivalência em V . 6
Seguindo a notação usual denotaremos também essa relação de equivalência pelo sı́mbolo ∼W :
u ∼W v se u − v ∈ W .
Denotemos por V /W o conjunto das classes de equivalência de V pela relação EW . Denotaremos
por [u] ∈ V /W a classe de equivalência que contém o vetor u ∈ V .
Com esses ingredientes podemos transformar V /W em um espaço vetorial sobre K. Isso se dá
definindo em V /W uma soma e um produto por escalares. O vetor nulo será a classe de equivalência
[0] que contém o vetor 0. Como subconjunto de V , a classe [0], aliás, vem a ser o conjunto W (por
que?).
Se [u] e [v] são as classes de equivalência que contêm os elementos u e v, respectivamente, de V ,
então definimos
[u] + [v] = [u + v].
E. 2.2 Exercı́cio. Mostre que essa definição é coerente, no sentido que independe dos representantes (u
e v) escolhidos nas classes. 6
α[u] = [αu],
para todo u ∈ V .
E. 2.5 Exercı́cio. Mostre que essa definição é coerente, no sentido que independe do representante u
escolhido na classe. 6
E. 2.6 Exercı́cio. Mostre que o conjunto V /W é, portanto, um espaço vetorial sobre o corpo K com as
operações definidas acima. 6
• Dependência linear
Um conjunto arbitrário de vetores é dito ser linearmente independente se não possuir nenhum sub-
conjunto finito que seja linearmente dependente.
• Combinações lineares
• Varredura linear
Seja C ⊂ V um conjunto de vetores. A varredura linear (“linear span”) de C, denotado por span (C)
é o conjunto de todos os vetores de V que podem ser escritos como uma combinação linear finita de
elementos de C.
Os seguintes teoremas podem ser demonstrados com uso do Lema de Zorn (omitiremos as demons-
trações aqui. Vide, por exemplo, [65]).
Teorema 2.1 Todo espaço vetorial V possui uma base algébrica, exceto o espaço vetorial trivial V =
{0}. 2
Teorema 2.2 Dado um espaço vetorial V (não-trivial), todas as bases algébricas em V têm a mesma
cardinalidade. 2
1
Também denominada “base de Hamel”. Georg Hamel (1877-1954).
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 2 103/1461
• Dimensão algébrica
Um espaço vetorial é dito ser de dimensão algébrica finita se possuir uma base algébrica finita. Se
um espaço vetorial V tem dimensão algébrica finita, sua dimensão algébrica, ou simplesmente dimensão
é definida como sendo o número de elementos de sua base.
Nem todo espaço vetorial tem uma base algébrica finita (vide exemplos abaixo). De modo geral,
se um espaço vetorial possui uma base algébrica, sua dimensão algébrica é definida como sendo a
cardinalidade de suas bases algébricas (pelo Teorema 2.2 acima são todas iguais).
Exemplo 1. V = Cn sobre o corpo dos complexos ou V = Rn sobre o corpo dos reais. Tais são bem
conhecidos exemplos-protótipo de espaços vetoriais de dimensão finita (= n).
Seja P = conjunto de todos os polinômios de uma variável real com coeficientes complexos: Pn (t) ∈
P,
Pn (t) = an tn + · · · + a1 t + a0
com t ∈ R, ai ∈ C, é dito ser um polinômio de grau n se an 6= 0.
Exemplo 2. V = P sobre o corpo dos complexos. Este é claramente um espaço vetorial de dimensão
infinita. V possui uma base algébrica, a saber, o conjunto de todos os polinômios da forma bn = tn ,
n = 0, 1, 2, . . ..
Exemplo 3. V = R sobre o corpo dos reais. O conjunto dos reais sobre o corpo dos reais é também
um espaço vetorial de dimensão 1, a saber, uma possı́vel base é formada pelo elemento 1: B = {1}, já
que, obviamente, qualquer elemento x ∈ R pode ser escrito como x = x · 1, com x no corpo dos reais.
Esse exemplo pode parecer banal, e de fato o é, mas leva a um anti-exemplo curioso que mostra
que a dimensão algébrica de um espaço vetorial é também fortemente dependente do corpo de escalares
utilizado.
Exemplo 4. V = R sobre o corpo dos racionais.
A surpresa aqui é que este não é um espaço vetorial de dimensão algébrica finita: não existe um
conjunto finito {x1 , . . . , xm } de números reais tais que todo x ∈ R possa ser escrito como
x = r1 x1 + · · · + rm xm ,
onde os números ri são racionais. A razão é que, como Q é um conjunto contável, a coleção de números
que se deixam escrever como o lado direito é uma coleção contável (tem a mesma cardinalidade de
Qm ). O conjunto R, porém, não é contável.
Um resultado um tanto surpreendente diz, porém, que esse espaço vetorial possui uma base algébrica,
ou seja, existe um conjunto H ⊂ R tal que para cada x ∈ R existe um conjunto finito h1 , . . . , hn
de elementos de H e um conjunto finito de racionais r1 , . . . , rn tais que x = r1 h1 + · · · + rn hn . A
demonstração da existência de uma tal base faz uso do Lema de Zorn e pode ser encontrada em [20]
ou [22]. Essa base é denominada base de Hamel de R.
Uma conseqüência curiosa da existência de bases de Hamel em R será discutida no tópico que se
inicia à página 104.
Outros exemplos menos dramáticos que mostram a dependência da dimensão com o corpo utilizado
são os seguintes: sejam V1 = C sobre o corpo dos complexos e V2 = C sobre o corpo dos reais. V1 tem
dimensão 1, mas V2 tem dimensão 2.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 2 104/1461
Prova. A demonstração é feita por absurdo. Suponhamos que haja uma base B = {b1 , . . . , bk } em V
com k < n. Então podemos escrever
v1 = α1 b1 + · · · + αk bk .
pois B é uma base. Nem todos os αi podem ser nulos. Supondo que αk seja um elemento não-nulo,
podemos escrever
bk = (αk )−1 (v1 − α1 b1 − · · · − αk−1 bk−1 ) (2.1)
Analogamente, temos que
v2 = β1 b1 + · · · + βk bk
e, usando (2.1), podemos escrever
v2 = γ1 b1 + · · · + γk−1bk−1 + λ1 v1 .
Os γi não podem ser todos nulos, pois de outra forma terı́amos v2 = λ1 v1 , contrariando a hipótese
de os vi ’s serem linearmente independentes. Suponhamos que γk−1 seja o elemento não-nulo, podemos
escrever bk−1 como uma combinação linear envolvendo {b1 , . . . , bk−2 } e os vetores v1 e v2 . Prosseguindo,
concluiremos após k passos que
vk+1 = λ′1 v1 + · · · + λ′k vk ,
contrariando a hipótese de que os vi ’s são linearmente independentes.
Com esse resultado em mãos podemos nos perguntar: haverá funções não-contı́nuas que satisfazem
f (x + y) = f (x) + f (y)? Talvez surpreendentemente, a resposta é positiva. Não só há funções não
contı́nuas com essa propriedade, mas há dentre elas funções bijetoras de R em R. Funções com tais
caracterı́sticas um tanto patológicas podem ser construı́das com o uso das assim chamadas bases de
Hamel da reta real. Detalhemos.
Seja o espaço vetorial V dos números reais sob o corpo dos racionais. Como consideramos páginas
acima, esse espaço vetorial tem dimensão algébrica infinita, mas existe uma base H ⊂ R de V , não-
contável, denominada base de Hamel, tal que todo elemento x de R pode ser escrito como combinação
linear finita (única!) por racionais de elementos de H, ou seja, para todo x ∈ R existe um n (que
depende de x), racionais r1 , . . . , rn (que dependem de x) e elementos h1 , . . . , hn de H (que também
dependem de x) tais que x pode ser escrita (de forma única!) como x = r1 h1 + · · · + rn hn . Denomina-
remos essa expressão a decomposição de x em H.
Notemos que se x e y são números reais e x = r1 h1 + · · · + rn hn e y = r1′ h′1 + · · · + rm ′
h′m são suas
decomposições em H, então a decomposição de x + y é r1 h1 + · · · + rn hn + r1′ h′1 + · · · + rm′
h′m .
Vamos definir uma função f : R → R, da seguinte forma. Primeiramente fixamos seus valores
nos elementos de H tomando, para cada h ∈ H, f (h) := fh ∈ R, onde os números fh são escolhidos
arbitrariamente. Em segundo lugar, para qualquer x ∈ R, e cuja decomposição em H seja x =
r1 h1 + · · · + rn hn , definimos f (x) := r1 f (h1 ) + · · · + rn f (hn ) = r1 fh1 + · · · + rn fhn . Assim, se x e y são
números reais e x = r1 h1 + · · · + rn hn e y = r1′ h′1 + · · · + rm ′
h′m são suas decomposições em H, teremos
f (x + y) = r1 fh1 + · · · + rn fhn + r1′ fh′1 + · · · + rm
′
fh′m = f (x) + f (y).
O leitor pode convencer-se que há, para cada base de Hamel H, infinitas funções desse tipo (devido
à arbitrariedade da escolha dos fh ’s) e que todas são descontı́nuas, exceto se escolhermos fh = ch para
todo h ∈ H, com uma constante c fixa.
2
Augustin Louis Cauchy (1789-1857).
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 2 106/1461
e, portanto, f : R → R é bijetora.
Uma função que satisfaça f (x + y) = f (x) + f (y) para todo x, y ∈ R e f : R → R representa um
endomorfismo do grupo (R, +). O que aprendemos no último parágrafo pode ser expresso na linguagem
da teoria de grupos como a afirmação que existem automorfismos de (R, +) que não são contı́nuos.
Esse fato ilustra algumas situações patológicas que são por vezes encontradas ou mencionadas no
estudo de grupos contı́nuos. Com o uso de funções f desse tipo é possı́vel, por exemplo, construir
sub-grupos uniparamétricos não-contı́nuos de um grupo de Lie dado ou representações não-contı́nuas
de tais sub-grupos.
Assim, por exemplo, se A é uma matriz real n × n antisimétrica, então O(t) = exp(tA), t ∈ R é um
subgrupo uniparamétrico contı́nuo de SO(n), pois O(0) = 1 e O(t)O(t′ ) = O(t+t′ ) para todos t, t′ ∈ R,
sendo os elementos de matriz de O(t) funções contı́nuas de t. Se agora definirmos P (t) = exp(f (t)A),
t ∈ R, para uma função f : R → R, patológica como acima (ou seja, satisfazendo f (x+y) = f (x)+f (y)
para todo x, y ∈ R, bijetora mas descontı́nua), ainda teremos P (0) = 1 e P (t)P (t′ ) = P (t + t′ ) para
todos t, t′ ∈ R, mas os elementos de matriz de P (t) não são funções contı́nuas de t.
A dimensão topológica de um espaço vetorial é então definida como sendo a cardinalidade das bases
topológicas completas de V .
Para ilustrar como os conceitos de base algébrica e base topológica são diferentes, consideremos
novamente o seguinte Exemplo 4 acima:
Exemplo 5. V = R sobre o corpo dos racionais, com a topologia usual sobre R, tem uma base
topológica completa de dimensão finita: B = {1}. De fato, o conjunto {r · 1, r ∈ Q} é denso em R.
Esse espaço vetorial possui então uma dimensão topológica igual a um.
Definição. Um espaço vetorial topológico sobre o corpo dos reais ou dos complexos é dito ser separável
se possuir uma base topológica contável.
E. 2.7 Exercı́cio. Mostre que, de acordo com a definição acima, vale para qualquer funcional linear l que
l(0) = 0. 6
Prova. Seja B uma base algébrica em V . Para cada elemento b ∈ B podemos associar um funcional
linear lb , definido da seguinte forma. Como todo w ∈ V pode ser escrito como uma combinação linear
finita de elementos de B, podemos sempre escrever
w = wb b + w ′ ,
onde w ′ é uma combinação linear finita de elementos de B \ {b} e wb ∈ K. (É claro que wb = 0 caso b
não compareça na decomposição de w em uma soma finita de elementos de B).
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 2 108/1461
Definimos então
lb (w) = wb ,
para todo vetor w ∈ V . É um exercı́cio simples mostrar que, para cada b ∈ B, a aplicação lb : V → K
dada acima é um funcional linear.
Seja então v um vetor como no enunciado do teorema. Se l(v) = 0 para todo l ∈ V ′ , vale obvi-
amente que lb (v) = 0 para todo b ∈ B. Isso, porém, trivialmente implica que v = 0, completando a
demonstração.
Seja V um espaço vetorial topológico. O conjunto de todos os funcionais lineares contı́nuos sobre
V é dito ser o dual topológico de V . O dual topológico será denotado neste texto por V † . Note-se que
V † ⊂ V ′.
é um funcional linear em P.
O último exemplo pode ser fortemente generalizado nos dois exemplos que seguem.
Exemplo 3. Seja (a, b) um intervalo finito de R e h uma função complexa integrável nesse intervalo
Rb
(ou seja, a |h(t)|dt ≤ ∞). Então,
Z b
l(p) = h(t) p(t) dt
a
está definida para todo p ∈ P e define um funcional linear em P.
• A Relação entre V e V ′
Vamos aqui discutir o fato que sempre existe uma maneira (não-canônica, vide abaixo) de associar
vetores de um espaço vetorial V com elementos de seu dual algébrico V ′ .
Seja V um espaço vetorial sobre um corpo K e B ⊂ V uma base algébrica em V . Seja FB a coleção
de todas as funções de B em K. Afirmamos que existe uma bijeção de FB sobre V ′ , ou seja, esses dois
conjuntos podem ser identificados nesse sentido.
Para tal, seja f ∈ FB . Definimos uma aplicação I : FB → V ′ da seguinte forma. Como todo x ∈ V
pode ser escrito como uma combinação linear finita de elementos de B, digamos, x = α1 bi1 +· · ·+αn bin ,
escrevemos
I(f )(x) = α1 f (bi1 ) + · · · + αn f (bin ) .
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 2 110/1461
I(f ) é um funcional linear pois, se escrevemos y = αn+1 bin+1 + · · · + αn+m bin+m , teremos
Isso então mostrou que I(f ) é de fato um elemento de V ′ para cada f ∈ FB . Vamos mostrar o reverso:
que a cada elemento l de V ′ há um elemento gl de FB associado e que I(gl ) = l. Seja novamente
x = α1 bi1 + · · · + αn bin ∈ V e seja l um elemento de V ′ . Tem-se
gx (bia ) = αa , a = 1, . . . , n
e
gx (b) = 0 ,
se b 6∈ {bi1 , . . . , bin }. É fácil ver então que
o que mostra que J é bijetora. Notemos novamente que essa bijeção também não é canônica, no sentido
que a mesma depende da base adotada. Se trocarmos B por outra base a bijeção altera-se.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 2 111/1461
E. 2.15 Exercı́cio importante. Mostre agora que J −1 : V → Gb é linear, ou seja, J −1 (αx + βy) =
αJ −1 (x) + βJ −1 (y) para todos x, y ∈ V e todos α, β ∈ K. 6
E. 2.17 Exercı́cio. Será que com o conjunto T fixado todo elemento de V ′ seria da forma lq para algum
q?. Pense. Inspire-se nos exemplos 3 e 4 da página 109. O que acontece para conjuntos T diferentes? 6
Comentário. Mais interessante que a relação entre V e V ′ , é a relação de V com o dual algébrico de
V ′ , o chamado bi-dual algébrico de V e denotado por (V ′ )′ , assunto que discutiremos agora. A razão
é que, ao contrário do que tipicamente ocorre entre V e V ′ , há sempre uma aplicação linear injetora
entre V e (V ′ )′ que é natural, ou seja, independente de escolhas de bases.
Outro interesse na relação entre V e (V ′ )′ reside no fato que a mesma revela-nos, como veremos,
uma profunda distinção entre espaços vetoriais de dimensão finita e infinita.
Se V é um espaço vetorial sobre um corpo K já observamos que V ′ é também um espaço vetorial
sobre o mesmo corpo. Assim, V ′ tem também seu dual algébrico que é denominado bi-dual algébrico
de V .
O bi-dual algébrico de um espaço vetorial V é o espaço (V ′ )′ . Como vimos nas páginas anteriores,
existe pelo menos uma aplicação linear injetiva de V em V ′ . Chamemos esta aplicação de φ1 . Ana-
logamente, existe pelo menos uma aplicação linear injetiva φ2 de V ′ em (V ′ )′ . A composição φ2 ◦ φ1
fornece uma aplicação linear injetiva de V em (V ′ )′ . Como φ1 e φ2 dependem de escolhas de base, a
composição φ2 ◦ φ1 também depende, não sendo, assim, natural.
Ao contrário do que ocorre na relação entre V e V ′ , podemos sempre encontrar uma aplicação
linear injetiva de V em (V ′ )′ que é natural: independente de base. Vamos denotá-la por λ. Definimos
λ : V → (V ′ )′ da seguinte forma: para x ∈ V , λ(x) é o elemento de (V ′ )′ que associa a cada l ∈ V ′ o
valor l(x):
λ(x)(l) = l(x) .
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 2 112/1461
E. 2.19 Exercı́cio. Mostre que λ : V → (V ′ )′ é injetora. Sugestão: use o Teorema 2.4, enunciado e
demonstrado na página 107. 6
Este teorema revela uma importante distinção entre espaços de dimensão finita e infinita. Em
dimensão finita todos os funcionais lineares do dual algébrico de V ′ são da forma λ(x) para algum
vetor x. Em dimensão infinita, porém, há certamente elementos em (V ′ )′ que não são dessa forma.
Assim, ao tomarmos duais duplos em dimensão infinita sempre obtemos espaços vetoriais “maiores”, o
que não ocorre em dimensão finita.
e, portanto {λ(b1 ), . . . , λ(bn )} é uma base em (V ′ )′ e dim (V ′ )′ = dim V . Se, por outro lado, λ(V ) é um
subconjunto próprio de (V ′ )′ , existem elementos v ′′ ∈ (V ′ )′ tais que v ′′ − α1 λ(b1 ) − · · · − αn λ(bn ) 6= 0
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 2 113/1461
β1 ϕ1 (b1 ) + · · · + βn ϕ1 (bn ) = 0
λ(v)(β) = 0 ,
para todo β ∈ φ(LB ). Seja v = α1 b1 + · · · + αm bm um tal vetor para o qual λ(v)(β) = 0. Isso significa
que para todo β ∈ φ(LB )
para i = 1, . . . , m. Como todo βi é um elemento de φ(LB ) (por que?), terı́amos 0 = βi (v) = αi para
todo i, o que implica v = 0.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 2 114/1461
A conclusão é que nenhum elemento de (V ′ )′ que seja da forma λ(v) para algum v ∈ V não-nulo
pode anular todos os elementos de φ(LB ) ⊂ V ′ . A estratégia que seguiremos será a de exibir um
elemento de (V ′ )′ que tem precisamente a propriedade de anular todos os elementos de φ(LB ). Um tal
elemento não pode pertencer, portanto, a λ(V ), o que mostra que λ(V ) é um subconjunto próprio de
(V ′ )′ no caso de dimensão infinita.
Seja u ∈ V ′ \ φ(LB ) e U o sub-espaço de V ′ gerado por u. Todo elemento l ∈ V ′ pode ser escrito
de modo único na forma
l = au + y ,
onde a ∈ K e y pertence ao sub-espaço complementar de U. Definamos α(l) = a. É claro que α ∈ (V ′ )′
e que α aniquila todo elemento de φ(LB ), pois estes pertencem ao sub-espaço complementar de U (por
que?). Assim, α ∈ (V ′ )′ mas α 6∈ λ(V ).
O seguinte fato importante é conseqüência imediata da definição acima: se ω é uma n-forma mul-
tilinear então
ω (v1 , . . . , vi−1 , 0, vi+1 , . . . , vn ) = 0
para todo i, ou seja, se um dos argumentos é o vetor nulo a forma se anula.
4
Também chamada n-forma linear ou simplesmente n-forma.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 2 115/1461
E. 2.21 Exercı́cio. Complete os detalhes da prova que o conjunto de todas as n-formas lineares em um
espaço vetorial V sobre um corpo K forma um espaço vetorial sobre K. 6
• Formas bilineares
De particular interesse é o caso n = 2, em cujo caso as formas são denominadas formas bilineares:
uma forma bilinear é uma função ω : V 2 → K que seja linear em cada um dos seus dois argumentos,
ou seja, para todo α, β ∈ K, todos u, v, w ∈ V , valem
ω(u, (αv + βw)) = αω(u, v) + βω(u, w) ,
Um exemplo básico importante é o seguinte. Seja V = Rn o espaço vetorial (sobre o corpo dos
reais) formado por n-uplas de números reais: V = {x = (x1 , . . . , xn ), xi ∈ R}. Uma forma bilinear
em V é dada por
X n
hx, yiR = xk yk . (2.6)
k=1
Outro exemplo é
ωA (x, y) = hx, AyiR ,
onde A é uma matriz n × n real qualquer.
Uma forma bilinear ω é dita ser uma forma bilinear não-degenerada se satisfizer a seguinte condição:
se para todo vetor v valer ω(v, u) = 0, então u = 0.
Seja V um espaço vetorial e ω uma forma bilinear em V . Para u ∈ V fixo a aplicação lu (v) = ω(u, v)
é um funcional linear em V , ou seja, um elemento do espaço dual V ′ . Se a aplicação l : V → V ′ que
associa cada u ∈ V ao funcional linear lu acima for um isomorfismo de espaços vetoriais a forma bilinear
ω é dita ser uma forma bilinear não-singular.
Há vários outros tipos de formas multilineares que são importantes, como por exemplo as chamadas
formas multilineares alternantes e, dentre estas as formas simpléticas.
• Formas alternantes
Uma n-forma linear ω em um espaço vetorial V sobre um corpo K é dita ser uma forma alternante
(ou uma forma anti-simétrica) se satisfizer
ω (v1 , . . . , vi−1 , vi , vi+1 , vi+2 , . . . , vn ) = −ω (v1 , . . . , vi−1 , vi+1 , vi , vi+2 , . . . , vn ) (2.7)
para todos os vetores v1 , . . . , vn ∈ V e todo i = 1, . . . , n − 1. Em palavras, quando trocamos de
lugar dois argumentos vizinhos quaisquer a forma troca de sinal.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 2 116/1461
Deve ser bem claro que essa definição equivale à seguinte afirmação: se ω é uma n-forma linear
alternante, então para todo π ∈ Sn , o grupo de permutações de n elementos, vale
ω vπ(1) , . . . , vπ(n) = (sinalπ) ω (v1 , . . . , vn ) , (2.8)
para todos os vetores v1 , . . . , vn ∈ V , onde sinalπ é o sinal da permutação π (definido à página 764).
E. 2.23 Exercı́cio. Complete os detalhes da prova que o conjunto de todas as n-formas lineares alternantes
em um espaço vetorial V sobre um corpo K forma um espaço vetorial sobre K. 6
• Formas simpléticas
Formas bilineares alternantes não-degeneradas são denominadas formas simpléticas5. Formas sim-
pléticas são importantes em algumas áreas da Fı́sica, como por exemplo na mecânica clássica e no
estudo de métodos de quantização.
Assim, uma forma simplética em um espaço vetorial V sobre um corpo K é uma forma bilinear
para a qual
ω(u, v) = −ω(v, u)
para todos os vetores u, v ∈ V e tal que se ω(u, v) = 0 para todo v, então u = 0.
Um exemplo básico importante no caso do espaço vetorial V = Rn e que, como veremos na Seção
2.4, é o caso geral é o seguinte:
ωA (x, y) = hx, AyiR ,
onde A é uma matriz n × n real anti-simétrica, ou seja, que satisfaz AT = −A, o que equivale a dizer
que seus elementos de matriz satisfazem Aij = −Aji . Fora isso, pela condição de não-degenerescência
A tem que ser invertı́vel, pois se hx, AyiR = 0 para todo y, então hAT x, yiR = 0 para todo y, o
que só é possı́vel se AT x = 0. Isso implicaria que det(A) = det(AT ) = 0. Uma conseqüência do
fato de A ter de ser invertı́vel é que n tem que ser par. De fato, a condição AT = −A diz que
det(A) = det(−AT ) = (−1)n det(AT ) = (−1)n det(A). Portanto, se n é ı́mpar terı́amos det(A) = 0.
É evidente pela definição que se ω é uma n-forma alternante então ω (v1 , . . . , vn ) = 0 caso haja
vi = vj para algum par i 6= j. Em particular, para formas simpléticas ω(u, u) = 0 para todo u ∈ V .
Assim, em um espaço de dimensão n o grau máximo de uma forma alternante é n. Formas alternan-
tes de grau máximo são ditas formas alternantes maximais. Vamos mais adiante estudar como são essas
formas maximais, mas antes, precisamos discutir alguns fatos importantes sobre formas alternantes em
espaços de dimensão finita.
Em um espaço vetorial V de dimensão n o espaço vetorial das formas alternantes maximais é
unidimensional. Para ver isso notemos o seguinte. Seja {b1 , . . . , bn } uma base em V . Sejam agora ω1
e ω2 duas formas alternantes maximais em V e seja x1 , . . . , xn uma n-upla de vetores de V . Como
{b1 , . . . , bn } é uma base, podemos sempre escrever
n
X
xi = αij bj ,
j=1
e, analogamente,
n
X n
X
ω2 (x1 , . . . , xn ) = ··· α1j1 · · · αnjn ω2 (bj1 , . . . , bjn ) .
j1 =1 jn =1
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 2 118/1461
Ocorre que ω1 (bj1 , . . . , bjn ) é zero caso ocorram dois ı́ndices jk iguais. Por isso, podemos reescrever
as expressões acima da seguinte forma:
X
ω1 (x1 , . . . , xn ) = α1j(1) · · · αnj(n) ω1 (bj(1) , . . . , bj(n) )
j∈Sn
e, analogamente, X
ω2 (x1 , . . . , xn ) = α1j(1) · · · αnj(n) ω2 (bj(1) , . . . , bj(n) ) ,
j∈Sn
Como se vê nessas últimas expressões, ω1 (x1 , . . . , xn ) e ω2 (x1 , . . . , xn ) diferem apenas pelos fatores
ω1 (b1 , . . . , bn ) e ω2 (b1 , . . . , bn ), respectivamente. Como esses fatores são apenas números (elementos
do corpo K), são proporcionais um ao outro. Isso prova então que ω1 (x1 , . . . , xn ) e ω2 (x1 , . . . , xn )
são proporcionais um ao outro para toda n-upla x1 , . . . , xn e isso era o que querı́amos provar.
Com as observações acima chegamos ao importante conceito de forma determinante.
• A forma determinante
Como observamos acima, todas as n-formas lineares alternantes maximais de um espaço vetorial
V de dimensão n são proporcionais umas às outras. Assim, o conhecimento de uma forma alternante
maximal determina todas as outras.
A forma determinante6 ωdet em um espaço vetorial V de dimensão n é a n-forma linear alternante
maximal tal que ωdet (b1 , . . . , bn ) = 1 no caso em que {b1 , . . . , bn } é a base canônica de V :
1 0 0
0 1 0
b1 = 0 , b2 = 0 , . . . , bn = ... .
.. ..
. . 0
0 0 1
6
Também chamada de forma volume, pois em R3 , ωdet (x1 , x2 , x3 ) é igual ao volume do paralelepı́pedo descrito pelos
vetores x1 , x2 , x3 .
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 2 119/1461
Assim, X
ωdet (x1 , . . . , xn ) = α1j(1) · · · αnj(n) sinal(j) ,
j∈Sn
• Determinante de matrizes
Cremos que o conceito de determinante de matrizes e suas propriedades básicas sejam bem conhe-
cidos do estudante que tenha uma formação básica em Cálculo e Álgebra Linear, mas as mesmas serão
(re)apresentadas e deduzidas na Seção 3.1, página 155. Vide, em particular, o Teorema 3.1, página
157.
Seja V um espaço vetorial complexo. Uma forma sesquilinear7 é uma função ω : V × V → C que
satisfaz as seguintes propriedades:
7
Do radical grego sesqui: um e meio.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 2 120/1461
É imediato pela definição que toda forma sesquilinear ω se anula no vetor nulo, ou seja,
ω(u, 0) = ω(0, u) = 0 ,
Uma forma sesquilinear é dita ser uma forma sesquilinear Hermitiana se satisfizer:
ω(u, v) = ω(v, u) ,
Abaixo (Teorema 2.6, página 121) provaremos que toda forma sesquilinear positiva é automatica-
mente Hermitiana. Lá provaremos também que se ω é uma forma sesquilinear positiva então vale
que |ω(u, v)|2 ≤ ω(u, u) ω(v, v) para todos os vetores u e v. Essa desigualdade é conhecida como
Desigualdade de Cauchy-Schwarz.
Uma forma sesquilinear é dita ser uma forma sesquilinear não-degenerada se satisfizer:
5. Não-degenerescência. Se um vetor u é tal que vale ω(u, v) = 0 para todo vetor v, então u = 0.
Nomenclatura. Uma forma sesquilinear que não é não-degenerada é dita ser degenerada.
Seja V um espaço vetorial e ω uma forma sesquilinear em V . Para u ∈ V fixo a aplicação lu (v) =
ω(u, v) é um funcional linear em V , ou seja, um elemento do espaço dual V ′ . Se a aplicação anti-linear
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 2 121/1461
• A desigualdade de Cauchy-Schwarz
De importância fundamental na teoria das formas sesquilineares é o seguinte teorema, que apresenta-
nos a importante desigualdade de Cauchy9 -Schwarz10 .
Teorema 2.6 Se ω é uma forma sesquilinear positiva, então é também Hermitiana, ou seja,
ω(u, v) = ω(v, u) ,
para todos os vetores u e v. Fora isso, vale a desigualdade de Cauchy-Schwarz: para todos os vetores
u e v,
|ω(u, v)|2 ≤ ω(u, u) ω(v, v) . (2.11)
Por fim, se ω é uma forma sesquilinear positiva e não-degenerada então ω(u, u) = 0 se e somente se
u = 0. 2
Prova. Faremos uso do fato que, para qualquer número complexo λ e quaisquer vetores u e v vale, pela
hipótese de positividade,
ω(u + λv, u + λv) ≥ 0 .
Escrevendo-se explicitamente o lado esquerdo temos a desigualdade
Vamos agora escrever λ na forma λ = x + iy, onde x é a parte real de λ e y sua parte imaginária.
A última expressão fica
Vamos decompor ω(u, v) e ω(v, u) nas suas partes reais e imaginárias, escrevendo
f (x, y) = (x2 + y 2)ω(v, v) + (xα − yβ) + i(xβ + yα) + (xγ + yδ) + i(xδ − yγ) + ω(u, u) ≥ 0 . (2.13)
8
Definido à página 72.
9
Augustin Louis Cauchy (1789-1857).
10
Karl Herman Amandus Schwarz (1843-1921).
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 2 122/1461
Como f (x, y) tem que ser real (e ≥ 0) segue que a parte imaginária da expressão acima deve ser nula
e, como ω(v, v) e ω(u, u) são reais, devemos ter
Como isso deve valer para todos x, y ∈ R, segue que β = −δ e α = γ. Comparando com (2.12), isso
diz que
ω(u, v) = ω(v, u),
provando que ω é Hermitiano.
Com as relações β = −δ e α = γ a expressão (2.13) fica
Vamos agora considerar dois casos: um onde ω(v, v) = 0 e outro onde ω(v, v) 6= 0. No primeiro
Assim, como ω(u, u) ≥ 0 pela positividade, a condição f (x, y) ≥ 0 é possı́vel para todos x e y ∈ R
se e somente se α = β = 0, ou seja, se e somente se ω(u, v) = 0 para todo u. Aqui a desigualdade de
Cauchy-Schwarz (2.11) é trivialmente satisfeita, pois ambos os lados são iguais a zero.
Passemos ao caso ω(v, v) 6= 0. Resta-nos provar a desigualdade de Cauchy-Schwarz (2.11) para
esse caso. Podemos reescrever o lado direito de (2.14) como
" 2 2 # 2
α β α + β2
f (x, y) = ω(v, v) x + + y− + ω(u, u) − .
ω(v, v) ω(v, v) ω(v, v)
• A desigualdade de Minkowski
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 2 123/1461
A demonstração é simples:
que é o que se queria demonstrar. Acima, na passagem da primeira para a segunda linha usamos a
Hermiticidade de ω e na passagem da terceira para a quarta linha, usamos a desigualdade de Cauchy-
Schwarz, ambos esses fatos sendo conseqüência do Teorema 2.6, página 121.
Uma forma sesquilinear positiva ω é dita ser um produto escalar ou produto interno se satisfizer:
6. ω(u, u) = 0 se e somente se u = 0.
Prova. Se ω é um produto escalar, então se u é tal que ω(u, v) = 0 para todo v, vale em particular
(tomando v = u) que ω(u, u) = 0 e, portanto, u = 0. Assim, todo o produto escalar é não-degenerado.
Reciprocamente, pelo Teorema 2.6, página 121, se ω é uma forma sesquilinear positiva e não-degenerada,
então vale automaticamente que ω(u, u) = 0 se e somente se u = 0
Como o conceito de produto escalar é muito importante, vamos detalhá-lo um pouco mais antes de
passarmos a exemplos.
Um produto escalar ou produto interno em um espaço vetorial V sobre o corpo dos complexos é
uma função V × V → C, denotada por hu, vi, para u, v ∈ V , com as seguintes propriedades:
3. Conjugação complexa:
hu, vi = hv, ui
para todos u, v ∈ V .
4. Para todo u ∈ V
h0, ui = hu, 0i = 0 .
hu, ui > 0 .
Nota. Alguns postulados da definição de produto escalar acima são redundantes, pois nem todos são
independentes. Nós os listamos apenas para ressaltar sua relevância individual. Por exemplo, o item
2 segue de 1 e 3 (por que?). O item 4 segue de 1 e 2 (por que?). Os itens 1, 2 e 5 implicam o item 3
(como veremos no Teorema 2.6). Independentes são apenas 1, 2 e 5 ou 1, 3 e 5.
Para um produto escalar de dois vetores vale a seguinte e importantı́ssima desigualdade, conhecida
como Desigualdade de Cauchy-Schwarz:
Advertência. Em livros de Matemática definição de produto escalar é por vezes apresentada de forma
que se tenha linearidade na primeira variável e anti-linearidade na segunda variável. A convenção que
adotamos é oposta e é seguida, felizmente, por 100% dos textos de Fı́sica.
Se V é um espaço vetorial dotado de uma forma sesquilinear positiva ω, existe uma maneira canônica
de construir a partir de V e ω um outro espaço vetorial dotado de um produto escalar.
Seja ω uma forma sesquilinear positiva em um espaço vetorial V . Então, existe um espaço vetorial
Ṽ , um produto escalar ω̃ e uma aplicação linear sobrejetora E : V → Ṽ tais que
pois ω(u, u) = ω(v, v) = 0, por hipótese, e pois ω(v, u) = ω(u, v) = 0 em função da condição de
ω ser positivo (pela desigualdade de Cauchy-Schwarz). Vamos denominar esse sub-espaço por Z. O
espaço vetorial quociente Ṽ = V /Z (vide a construção da página 101) tem as propriedades desejadas.
A aplicação E : V → Ṽ é a aplicação que associa cada elemento de v de V à sua classe de equivalência
[v]: E : V ∋ v 7→ [v] ∈ Ṽ . Definimos então ω̃ por
É um exercı́cio simples (faça) mostrar que essa definição de fato independe dos representantes, no caso
u e v, tomados nas classes [u] e [v].
Seja V um espaço vetorial complexo dotado de um produto escalar h·, ·i. Então, a expressão
u, v ∈ V , define uma forma simplética real em V . As condições de antisimetria (ω(u, v) = −ω(v, u))
e de linearidade por combinações lineares com escalares reais são elementares de se constatar. Que
ω é não-degenerada, segue do fato que se ω(u, v) = 0 para todo u valeria, tomando u = −iv, 0 =
Im(h − iv, vi) = hv, vi, o que implica v = 0.
Na Seção 2.5, página 140, veremos que, sob hipóteses adequadas, toda forma simplética real é a
parte imaginária de um produto escalar em um espaço complexo.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 2 126/1461
2.2.4 Exemplos
Para ilustrar os conceitos apresentados acima, passemos a alguns exemplos.
Exemplo 2.1 Seja V = Cn . Um exemplo de produto escalar é dado pelo produto escalar usual:
n
X
ω(u, v) = hu, viC := uk vk , (2.16)
k=1
onde A é uma matriz n × n auto-adjunta, ou seja, seus elementos de matriz satisfazem Akl = Alk .
A assim definida ω é uma forma sesquilinear Hermitiana, mas em geral pode não ser positiva. Um
0 −i
caso concreto é o seguinte. Tomemos V = C2 e A = . Então, é fácil ver que ω(u, u) =
i 0
hu, AuiC = i(u1 u2 − u1 u2 ) = −2Im(u1 u2 ), que pode ser negativo ou mesmo nulo. Assim, essa ω não é
positiva. É fácil ver, porém, que essa ω é não-degenerada (mostre isso!). ◊
Exemplo 2.4 Exemplo de uma forma sesquilinear que não é Hermitiana. Seja V = Cn e seja dado
por
X n
ω(u, v) = hu, AviC = uk Akl vl ,
k, l=1
onde A é uma matriz n × n que não é auto-adjunta, ou seja, Akl 6= Alk para pelo menos um elemento
de matriz Akl . A assim definida ω é uma forma sesquilinear,
mas em geral pode não ser Hermitiana.
0 1
Um caso concreto é o seguinte. Tomemos V = C2 e A = . Então, é fácil ver que
0 0
enquanto que ω(v, u) = v1 u2 . Logo, ω(u, v) e ω(v, u) podem ser distintos e ω não é Hermitiana. Fora
isso, essa ω também não é positiva e é degenerada (mostre isso!). ◊
Exemplo 2.5 Exemplo de uma forma sesquilinear positiva mas que não é um produto escalar. Seja
V = Cn e seja ω dado por
ω(u, v) = hAu , AviC
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 2 127/1461
onde A é uma matriz n × n não-invertı́vel. Então, existe u0 não-nulo tal que Au0 = 0. Daı́, segue que
ω(u0 , v) = hAu0 , AviC = 0 para todo v e, portanto, ω é degenerada e ω(u0, u0 ) = 0.
2 1 0
Um caso concreto é o seguinte. Tomemos V = C e A = . Note que A não é invertı́vel
0 0
b 0
(por que?). Aqui temos que ω(u, v) = u1 v1 . Note que todo vetor da forma u = é tal que
u2
Aub = 0 e, portanto ω(ub, v) = 0 para todo v. ◊
Na Seção 2.4, página 135, mostraremos como é a forma geral de formas bilineares, sesquilineares
e produtos escalares nos espaços de dimensão finita Rn e Cn . Tratemos agora de dois exemplos em
espaços vetoriais de dimensão infinita.
Exemplo 2.6 Seja V = C([a, b]) o espaço vetorial das funções contı́nuas complexas de um intervalo
fechado [a, b] da reta real (a < b). Seja p uma função contı́nua estritamente positiva definida em [a, b],
ou seja, p(x) > 0 para todo x ∈ [a, b]. Então, a expressão
Z b
ω(f, g) = f (x)g(x) p(x)dx ,
a
para funções f e g de V define uma forma sesquilinear positiva em V , que não é um produto escalar
(justifique!). ◊
Exemplo 2.8 Considere o espaço vetorial Cn e o produto escalar usual: ω(u, v) = hu, viC =
P n
i=1 ui vi . A desigualdade de Cauchy-Schwarz implica
2 ! !
Xn n
X n
X
uivi ≤ |uj |2 |vk |2 . (2.17)
i=1 j=1 k=1
E. 2.33 Exercı́cio. Considere o espaço vetorial das funções contı́nuas no intervalo [0, 1] e o produto
R1
escalar ω(f, g) = 0 f (x)g(x) dx. Tomando as funções f (x) = x e g(x) = ex , use a desigualdade de
√
Cauchy-Schwarz para mostrar que e ≥ 7. 6
E. 2.34 Exercı́cio. Tente livremente obter outras desigualdades interessantes do mesmo estilo usando
esse método. 6
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 2 128/1461
• Normas
Uma norma é uma função V → R usualmente denotada por k · k, com as seguintes propriedades.
Nota. As quatro condições acima, em verdade, não são logicamente independentes e listamo-as devido
à sua importância individual. Assim, por exemplo, a condição de positividade 1 segue das condições 4
e 3. Isso será mostrado logo abaixo (página 130) quando falarmos de semi-normas. Note também que,
pelo item 3 acima, tem-se k0k = 0 (tome α = 0).
também define uma norma em Cn , denominada norma ℓp . A única dificuldade em provar isso reside
em demonstrar a desigualdade triangular kz + wkp ≤ kzkp + kwkp para quaisquer z, w ∈ Cn . Isso será
feito com mais generalidade (para espaços de seqüências) na Seção 17.4.1, página 964 (vide expressão
(17.26) do Teorema 17.2, página 968).
Seja C([a, b], C) o espaço vetorial das funções complexas contı́nuas definidas no intervalo [a, b] ⊂ R.
A expressão Z b
kf k1 := |f (x)| dx , (2.21)
a
f ∈ C([a, b], C), define uma norma em C([a, b], C), denominada norma L1 . Verifique! A expressão
f ∈ C([a, b], C), também define uma norma em C([a, b], C), denominada norma do supremo.
Verifique!
A norma (2.21) pode ser generalizada. Para cada p ∈ R, p ≥ 1, a expressão
Z b p1
kf kp := |f (x)|p dx , (2.23)
a
f ∈ C([a, b], C), define uma norma em C([a, b], C), denominada norma Lp . A única dificuldade em
provar isso reside em demonstrar a desigualdade triangular kf + gkp ≤ kf kp + kgkp para quaisquer
f, g ∈ C([a, b], C). Isso será feito com mais generalidade (para funções em espaços mensuráveis) na
Seção 23.4.1, página 1167. Vide expressão (23.41) do Teorema 23.7, página 1167.
• Equivalência de normas
Definição. Duas normas k · k1 e k · k2 em um espaço vetorial V são ditas equivalentes se existirem duas
constantes positivas c1 e c2 , com 0 < c1 ≤ c2 , tais que
para todo vetor v ∈ V . A importância da noção de equivalência de normas se manifesta no fato que
duas normas equivalentes geram a mesma topologia métrica.
E. 2.35 Exercı́cio. Mostre que a relação de equivalência entre normas é uma relação de equivalência. 6
Tem-se o seguinte teorema, cuja demonstração pode ser encontrada, por exemplo, em [156]:
Teorema 2.7 Em um espaço vetorial de dimensão finita sobre C ou R todas as normas são equiva-
lentes. 2
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 2 130/1461
A afirmação desse teorema é freqüentemente falsa em espaços de dimensão infinita. Isso é atestado
no Exercı́cio E. 2.37.
E. 2.37 Exercı́cio. As normas k · k1 e k · k∞ do espaço C([a, b], C), definidas em (2.21) e (2.22),
respectivamente, não são equivalentes. É fácil ver que kf k1 ≤ (b − a)kf k∞ para toda f ∈ C([a, b], C)
(faça!). Seja, porém, a famı́lia de funções fα (x) = e−α(x−a) ∈ C([a, b], C) com α > 0. É fácil ver
que kfα k∞ = 1 e kfα k1 = α1 (1 − e−α(b−a) ) (faça!). Mostre que não existe nenhuma constante c tal que
kfα k∞ ≤ ckfα k1 para todo α > 0. 6
• Semi-Normas
Uma semi-norma é uma função V → R usualmente denotada por k·k, com as seguintes propriedades.
Note-se que, pelo item 2, vale para uma semi-norma que k0k = 0. É evidente pelas definições que
toda norma é uma semi-norma. A diferença entre norma e semi-norma é que para uma semi-norma a
relação kvk = 0 não necessariamente implica v = 0.
Para uma semi-norma (ou norma) vale a desigualdade
kak ≥ ka − bk − kbk , (2.24)
para quaisquer a, b ∈ V . Como faremos uso da mesma no futuro, vamos apresentar sua demonstração
aqui, que é uma conseqüência direta da desigualdade triangular.
A desigualdade triangular diz-nos que
e que
kbk = ka − (a − b)k ≤ kak + ka − bk . (2.26)
De (2.25) segue que
kak ≥ ka − bk − kbk
e de (2.26) que
kak ≥ −(ka − bk − kbk).
Quando dois números reais x e y são tais que x ≥ y e x ≥ −y então x ≥ |y|. Assim, as duas últimas
desigualdades dizem que
kak ≥ ka − bk − kbk ,
que é o que querı́amos provar.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 2 131/1461
Essa desigualdade diz, incidentalmente, que kak ≥ 0 para todo vetor de V . Isso mostra que o item
1 da definição de semi-norma e de norma é supérfluo.
Note-se também que se fizermos em (2.24) as substituições a → a − b, b → −b, obtemos
kak − kbk ≤ ka − bk , (2.27)
para quaisquer a, b ∈ V . Essa desigualdade será empregada algumas vezes neste texto.
Há uma noção de equivalência entre semi-normas que é idêntica à de equivalência entre normas.
E. 2.38 Exercı́cio. Mostre que os postulados da definição de norma são de fato satisfeitos. 6
Se uma norma em um espaço vetorial V é produzida por um produto escalar, como acima, existe
naturalmente um grupo de transformações lineares de V em V que mantem essa norma invariante.
Esse grupo é discutido
pna Seção 14.2.3, página 777. Por exemplo, a chamada norma Euclidiana de Rn ,
definida por kxk = hx, xiR para x ∈ Rn , é invariante pelo grupo O(n) das matrizes ortogonais, ou
seja, das matrizes R, reais n × n, que satisfazem RT R = 1. Isso significa que kRxk = kxk para toda
R ∈ O(n). O grupo O(n) e seus amigos são discutidos na Seção 14.2.4, página 779 e seguintes.
• A desigualdade triangular
Talvez a principal conseqüência da desigualdade de Minkowski (2.15) seja a seguinte. Vamos supor
que ω seja um produto escalar. Então podemos definir12 uma métrica ou distância entre dois vetores
a e b por
dω (a, b) := ka − bkω = ω(a − b, a − b)1/2 .
Como ω é um produto escalar, segue que dω (a, b) = 0 se e somente se a = b (por que?). É também
claro que dω (a, b) = dω (b, a) (por que?). Fora isso, segue da desigualdade de Minkowski que para
quaisquer vetores a, b e c vale
dω (a, b) ≤ dω (a, c) + dω (c, b).
12
As noções de métrica e de espaços métricos serão discutidas no Capı́tulo 17.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 2 132/1461
= dω (a, c) + dω (c, b) .
Acima, na passagem da segunda à terceira linha, usamos a desigualdade de Minkowski com u = a − b
e v = b − c.
A desigualdade dω (a, b) ≤ dω (a, c) + dω (c, b) é importante no estudo de propriedades topológicas
de espaços vetoriais e é denominada desigualdade triangular (pergunta ao estudante: de onde vem esse
nome?).
Note que a desigualdade triangular vale também se ω não for um produto escalar, mas apenas uma
forma sesquilinear positiva (por que?). Nesse caso é também verdade que dω (a, b) = dω (b, a), porém,
não é mais verdade que dω (a, b) = 0 se e somente se a = b e, por isso, dω é dita ser uma pseudo-métrica.
3
1X n
hu, vi = i ku + i−n vk2 , (2.30)
4 n=0
ou seja,
4hu, vi = ku + vk2 − ku − vk2 − iku + ivk2 + iku − ivk2 .
Notemos que, com a definição dada acima de norma associada a um produto escalar, a desigualdade
de Cauchy-Schwarz fica
|hu, vi| ≤ kukkvk .
• A identidade de polarização
A identidade de polarização mencionada acima é um caso especial de uma outra ligeiramente mais
geral, também denominada identidade de polarização. Seja A um operador linear em um espaço vetorial
V sobre os complexos e sejam u e v elementos de seu domı́nio. Então vale que
3
1 X −n
hu, Avi = i h(u + in v), A(u + in v)i , (2.31)
4 n=0
3
1X n
hu, Avi = i h(u + i−n v), A(u + i−n v)i , (2.32)
4 n=0
E. 2.42 Exercı́cio. Mostre isso. Sugestão: expanda o lado direito das igualdades acima e constate as
igualdades. 6
onde
1 1
ψn = n
(u + in v) = p (u + in v) .
ku + i vk n −n
2 + i hu, vi + i hv, ui
Para matrizes reais em espaços vetoriais reais não vale uma afirmativa tão forte. Por exemplo,
se V = Rn e A for uma matriz anti-simétrica, ou seja AT = −A, então vale automaticamente que
Xn
hx, AxiR = xa Aab xb = 0, pois Aab = −Aba para todo x ∈ Rn . Porém, A pode ser não-nula.
a, b=1
Prova. Se M é uma matriz simétrica, é fácil verificar que para quaisquer vetores u e v ∈ Rn tem-se
1
hu, MviR = [h(u + v), M(u + v)iR − h(u − v), M(u − v)iR ] .
4
(Para provar isso expanda o lado direito e use que hu, MviR = hv, MuiR , pois M é simétrica). Logo,
da hipótese sobre M, segue que hu, MviR = 0 para todos u e v ∈ Rn e, portanto, M = 0
Nas últimas páginas vimos que podemos obter uma norma a partir de um produto escalar e que
essa norma satisfaz a identidade do paralelogramo, expressão (2.28). Podemos nos perguntar: se uma
norma for dada em um espaço vetorial complexo, seria possı́vel obter um produto escalar a partir dessa
norma?
A resposta a essa questão é fornecida por um teorema devido a Fréchet14 , von Neumann15 e Jordan16 ,
teorema esse sugerido pela identidade de polarização, expressão (2.29), página 133.
Teorema 2.8 (Teorema de Fréchet, von Neumann e Jordan) Seja V um espaço vetorial com-
plexo, normado com norma k · k e vamos supor que essa norma satisfaça a identidade do paralelogramo
E. 2.43 Exercı́cio. Seja o espaço vetorial V = C([0, 1], C) das funções contı́nuas do intervalo [0, 1]
assumindo valores complexos e seja a norma kf k∞ = supx∈[0, 1] |f (x)|. Mostre que a identidade do pa-
ralelogramo não é satisfeita para as funções f (x) = x e g(x) = 1, x ∈ [0, 1], que são elementos de V .
6
espaço de Hilbert H (com um produto escalar h·, ·iH). Então existe φ ∈ H, único, tal que
A demonstração desse importante teorema pode ser encontrada na Seção 25.3.1, página 1245. No-
temos que esse teorema se aplica aos espaços vetoriais Rn ou Cn , pois os mesmos são espaços de Hilbert
em relação aos produtos escalares h·, ·iR e h·, ·iC , respectivamente, definidos em (2.6) e (2.16) (páginas
115 e 126).
• Continuidade
Vamos provar a seguinte afirmação: toda forma bilinear em Rn é contı́nua (em ambas as variáveis),
o mesmo valendo para formas bilineares ou sesquilineares em Cn .
Vamos provar a afirmação para as formas sesquilineares em Cn . Os outros casos são idênticos. Seja
ω uma forma sesquilinear em Cn . Para vetores x, y ∈ Cn , y 6= 0, escrevemos
e, portanto,
|ω(x, v)| ≤ |ω(x, b1 )| + · · · + |ω(x, bn )|
Para cada x fixo o lado direito é uma constante Kx e não depende de v. Aplicando isso a (2.36),
teremos
|ω(x, y)| ≤ kykKx .
Isso mostra que
lim |ω(x, y)| = 0
y→0
para todo x fixo. Como ω(x, y) é linear na segunda variável, segue que
para todo y0 ∈ Cn , provando a continuidade de ω na segunda variável. A prova para a primeira variável
é idêntica. Os casos em que ω é bilinear em Rn ou em Cn é análogo.
• Formas sesquilineares em Cn
Seja ω uma forma sesquilinear em Cn . Então, pelo que acabamos de ver, para cada x ∈ Cn
lx : Cn → C, lx (y) = ω(x, y)
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 2 137/1461
é um funcional linear e contı́nuo. Pelo Teorema da Representação de Riesz existe um único vetor
ηx ∈ Cn tal que lx (y) = hηx , yiC para todo y ∈ Cn , ou seja,
Seja A a função que a cada x ∈ Cn associa o (único!) vetor ηx com a propriedade acima: A(x) = ηx .
Tem-se,
ω(x, y) = hA(x), yiC . (2.37)
Afirmamos que A é um operador linear, ou seja, A(α1 x1 + α2 x2 ) = α1 A(x1 ) + α2 A(x2 ) para todos
os números complexos α1 e α2 e todos os vetores x1 e x2 . De fato, por (2.37),
= α1 ω(x1 , y) + α2 ω(x2 , y)
o que implica
A(α1 x1 + α2 x2 ) = α1 A(x1 ) + α2 A(x2 ) ,
que é o que querı́amos provar. Assim, A é em verdade um operador linear. Resumimos esses fatos no
seguinte teorema:
Teorema 2.10 Para toda forma sesquilinear ω em Cn existe uma matriz n × n complexa Aω tal que
para todos x, y ∈ Cn . 2
• Formas bilineares em Rn
lx : Rn → R : lx (y) = ω(x, y)
é um funcional linear e contı́nuo. Pelo Teorema da Representação de Riesz existe um único vetor
ηx ∈ Rn tal que lx (y) = hηx , yiR , ou seja,
Seja A a função que a cada x ∈ Rn associa o (único!) vetor ηx com a propriedade acima: A(x) = ηx .
De maneira análoga ao que fizemos acima podemos provar que A é um operador linear, ou seja, uma
matriz n × n real e ω(x, y) = hAx, yiR .
Resumimos esses fatos no seguinte teorema:
Teorema 2.11 Para toda forma bilinear ω em Rn existe uma matriz n × n real Aω tal que
ω(x, y) = hAω x, yiR ,
para todos x, y ∈ Rn . 2
• Formas bilineares em Cn
• Formas simpléticas
Se ω é uma forma sesquilinear Hermitiana em Cn , tem-se ω(x, y) = ω(y, x). Se A é a matriz tal
que hAx, yiC = ω(x, y), então
• Produtos escalares em Cn
para todo x, y ∈ Cn .
α · (β · u) = (αβ) · u ,
2. 1 · u = u para todo u ∈ V .
α · (u + v) = α · u + α · v ,
(α + β) · u = α · u + β · u ,
Portanto, pela definição da Seção 1.2.3, página 58, V é um espaço vetorial complexo com o produto
definido acima. Vamos denotar por VJ esse espaço vetorial complexo, para não confundı́-lo com V , que
é um espaço vetorial real. Note que os vetores de V e de VJ são os mesmos, mas V e VJ representam
estruturas diferentes. VJ é dito ser uma estrutura complexa sobre o espaço vetorial real V .
Uma questão de grande interesse, especialmente no contexto das chamadas álgebras CAR e CCR
(vide [18]) que descrevem as álgebras de comutação e anticomutação canônicas da Mecânica Quântica
e das Teorias Quânticas de Campos (que descrevem modelos fermiônicos19 e bosônicos20 ), é saber se
é possivel introduzir um produto escalar complexo no espaço complexo VJ . Como veremos no que
segue, tal é possivel se houver em V uma forma simplética real ou um produto escalar real satisfazendo
certas hipóteses. Desenvolveremos primeiro as idéias gerais e apresentaremos exemplos posteriormente,
à página 144.
Para mostrar como construir produtos escalares complexos no espaço complexo VJ precisamos do
seguinte resultado preparatório, que tem interesse por si só, por estabelecer uma relação entre formas
simpléticas21 reais e produtos escalares reais.
Lema 2.1 Seja V um espaço vetorial real e suponha que exista um operador linear J : V → V
satisfazendo J 2 = −1. Valem as seguintes afirmações
Prova da parte I. Pelas hipóteses, ε é um produto escalar real e, portanto, é uma forma bilinear real,
positiva, simétrica e não-degenerada. Que σ definida em (2.40) é uma forma bilinear é evidente. Para
todos u, v ∈ V tem-se
simetria
σ(u, v) = ε(Ju, v) = −ε(u, Jv) = −ε(Jv, u) = −σ(v, u) ,
provando que σ é uma forma alternante. Se σ(u, v) = 0 para todo v ∈ V , então ε(Ju, v) = 0 para
todo v ∈ V . Mas como ε é não-degenerada, segue que Ju = 0, o que implica u = 0, pois J 2 = −1. Isso
provou que σ é não degenerada e, portanto, é uma forma simplética. Note-se agora que
Por fim, σ(u, Ju) = ε(Ju, Ju) ≥ 0, pois ε é um produto escalar. Pelo mesmo motivo, ε(Ju, Ju) = 0
se e somente se Ju = 0. Como J 2 = −1, isso implica u = 0. Isso provou as afirmações da parte I.
Prova da parte II. Pelas hipóteses, σ é uma forma simplética real e, portanto, é uma forma bilinear real,
alternante e não-degenerada. Que ε definida em (2.41) é uma forma bilinear é evidente. Para todos
u, v ∈ V tem-se
alternância
ε(u, v) = σ(u, Jv) = −σ(Ju, v) = σ(v, Ju) = ε(v, u) ,
provando que ε é uma forma simétrica. Se ε(u, v) = 0 para todo v ∈ V , então σ(u, Jv) = 0 para todo
v ∈ V . Mas como σ é não-degenerada, segue que u = 0, provando que ε é uma forma não-degenerada.
Para todo u tem-se também ε(u, u) = σ(u, Ju) ≥ 0, por hipótese, provando que ε é uma forma
positiva. Assim, pela Proposição 2.3, página 123, ε é um produto escalar. Note-se agora que, por
definição, ε(u, v) = −σ(Ju, v) para todos u , v ∈ V . Disso segue que σ(u, v) = ε(Ju, v) e que
A proposição que segue mostra como se pode construir em VJ um produto escalar complexo se for
fornecida uma forma simplética real ou um produto escalar real em V satisfazendo certas hipóteses.
Proposição 2.6 Suponhamos que V seja um espaço vetorial real e que exista J : V → V , um operador
linear em V , satisfazendo J 2 = −1. Então valem as seguintes afirmações:
Prova. Mostremos em primeiro lugar que as hipóteses das partes A e B são equivalentes. Pelo Lema 2.1,
página 141, a existência de uma forma simplética real σ satisfazendo as hipóteses da parte A implica
a existência de um produto escalar real ε dado por ε(u, v) := σ(u, Jv) = −σ(Ju, v) satisfazendo as
hipóteses da parte B, sendo que, por essa definição de ε,
Reciprocamente, também pelo Lema 2.1, página 141, a existência de um produto escalar real ε sa-
tisfazendo as hipóteses da parte B implica a existência de uma forma simplética real σ dada por
σ(u, v) := ε(Ju, v) = −ε(u, Jv) satisfazendo as hipóteses da parte A, sendo que, por essa definição
de σ, a igualdade (2.42) é também válida. Assim, é suficiente provarmos, digamos, a parte A.
Prova da parte A. É evidente que para quaisquer u, v, w ∈ V valem
h(u + v), wiJ, σ = hu, wiJ, σ + hv, wiJ, σ , hu, (v + w)iJ, σ = hu, viJ, σ + hu, wiJ, σ .
Além disso,
hv, uiJ, σ = σ(v, Ju) + iσ(v, u) = −σ(Ju, v) − iσ(u, v) = σ(u, Jv) − iσ(u, v) = hu, viJ, σ .
(2.43)
22
Em [18] essa última condição não é mencionada, mas ela é necessária.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 2 144/1461
J 2 =−1
= σ(u, xJv) + iσ(u, xv) + σ(u, −yv) + iσ(u, yJv)
= x σ(u, Jv) + iσ(u, v) + iy σ(u, Jv) + iσ(u, v)
= (x + iy)hu, viJ, σ .
Pela propriedade (2.43), isso implica também h(x + iy) · u, viJ, σ = (x − iy)hu, viJ, σ , mostrando que
h·, ·iJ, σ é uma forma sesquilinear.
Pelas hipóteses, tem-se hu, uiJ, σ = σ(u, Ju) ≥ 0, mostrando que h·, ·iJ, σ é positiva. Se 0 =
hu, viJ, σ = σ(u, Jv) + iσ(u, v) para todo u, segue que σ(u, v) = 0 para todo u, o que implica que
v = 0, pois σ é não-degenerada (pela nossa definição de forma simplética). Isso mostrou que h·, ·iJ, σ
é não-degenerada. Assim, h·, ·iJ, σ é uma forma sesquilinear positiva e não-degenerada e pelo Teorema
2.6, página 121, segue que hu, uiJ, σ = 0 se e somente se u = 0. Isso mostrou que h·, ·iJ, σ é um produto
escalar complexo em VJ .
• Exemplos
Vamos primeiramente estudar o caso de espaços de dimensão finita. Vale a seguinte proposição:
Proposição 2.7 Um espaço vetorial real V de dimensão finita admite uma estrutura complexa (não
necessariamente única) se e somente se tiver dimensão par. 2
Prova. Se J é um operador linear agindo no espaço vetorial real de dimensão finita V , podemos
representá-lo como uma matriz. Se J 2 = −1 então, tomando-se o determinante de ambos os lados,
temos (det(J))2 = (−1)n , onde n é a dimensão de V . Como o lado esquerdo é positivo, n tem que
ser par. Reciprocamente, vamos supor que V tenha dimensão par, digamos 2m. Desejamos mostrar
que existe um operador linear agindo em V satisfazendo J 2 = −1. Uma possı́vel escolha é a seguinte.
Como V tem dimensão par podemos encontrar dois subespaços V1 e V2 , ambos de dimensão m, com
V = V1 ⊕ V2 . Como V1 e V2 têm a mesma dimensão, são isomorfos, e existe um operador linear
A : V1 → V2 que é bijetivo (o Exemplo 2.9, abaixo, deixará isso mais claro. Um tal operador não é
necessariamente único, mas isso não representa um problema). Todo elemento v ∈ V pode ser escrito
da forma v = v1 ⊕ v2 com v1 ∈ V1 e v2 ∈ V2 . Podemos definir Jv = J(v1 ⊕ v2 ) := (−Av2 ) ⊕ (Av1 ). É
trivial, então, verificar que J 2 = −1, como desejado.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 2 145/1461
Exemplo 2.9 Seja V um espaço vetorial real de dimensão 2m. Em alguma base, podemos representar
v ∈ V na forma de um vetor-coluna:
v1 −vm+1
.. ..
. .
vm −v2m
v = . Defina-se, então, Jv := , (2.44)
vm+1 v1
. .
.. ..
v2m vm
ou seja, em forma matricial, na mesma base,
0m −1m
J =
1m 0m
sendo 0m e 1m matrizes m × m. É elementar verificar que J 2 = −12m , como desejado.
A escolha de J indicada acima dependeu de uma particular decomposição de V em dois sub-
espaços de dimensão m. Há várias outras decomposições possı́veis, que fornecem outros operadores J
e, portanto, outras estruturas complexas. Permanecendo no exemplo acima, é fácil ver que, se x, y ∈ R,
então o produto por escalares complexos fica
v1 v1 xv1 − yvm+1
.. .. ..
. . .
vm vm xvm − yv2m
(x + iy) · := (x + yJ) = . (2.45)
vm+1 vm+1 xvm+1 + yv1
. . ..
.. .. .
v2m v2m xv2m + yvm
Seguindo ainda o exemplo de (2.44) e (2.45) para V = R2m , vamos ilustrar a Proposição 2.6 e
produto escalar complexo para (R2m )J . Adotemos para ε o produto escalar usual:
2m
X
ε(u, v) := uk vk = u1 v1 + · · · + u2m v2m .
k=1
Temos que
ε(Ju, v) = −um+1 v1 − · · · − u2m vm + u1 vm+1 + · · · + um v2m
e que
ε(u, Jv) = −u1 vm+1 − · · · − um v2m + um v1 + · · · + u2m vm
Logo ε(Ju, v) = −ε(u, Jv) e podemos aplicar a Proposição 2.6, obtendo em (R2m )J o produto escalar
hu, viJ, ε = ε(u, v) + iε(Ju, v)
= u1 v1 + · · · + u2m v2m + i − um+1 v1 − · · · − u2m vm + u1 vm+1 + · · · + um v2m
= u1 (v1 + ivm+1 ) + · · · + um (vm + iv2m ) + um+1 (vm+1 − iv1 ) + · · · u2m (v2m − ivm )
E. 2.46 Exercı́cio. Verifique que hu, λ · viJ, ε = λhu, viJ, ε para todo λ ∈ C. 6
Entendemos, assim, que a estrutura complexa que estudamos consiste nesse caso em identificar
bijetivamente R2m e Cm por
v1
.. v1 + ivm+1
.
v ..
R2m ∋ m ←→ . ∈ Cm
vm+1
.
..
vm + iv2m
v2m
e adotar em Cm o produto escalar complexo h·, ·iC usual (definido à página 18). ◊
Vejamos como as idéias de acima podem ser generalizadas e de modo a incluir espaços de dimensão
infinita.
Exemplo 2.10 Se V é um espaço vetorial real de (dimensão finita ou não) é sempre possı́vel encontrar
um operador linear J satisfazendo J 2 = −1 se V possuir dois subespaços V1 e V2 com V = V1 ⊕ V2
e tais que existe A : V1 → V2 , linear e bijetora (em dimensão finita isso requer que V1 e V2 tenham a
mesma dimensão e, portanto, que V tenha dimensão par, como mencionado na Proposição 2.7). De
fato, para v ∈ V da forma v = v1 ⊕ v2 com v1 ∈ V1 e v2 ∈ V2 , definindo Jv := (−A−1 v2 ) ⊕ (Av1 ) é fácil
constatar que J 2 = −1.
Para um tal J o produto por um escalar complexo λ = x + iy, com x, y ∈ R, fica definido por
λ·(v1 ⊕v2 ) := (x+yJ)(v1 ⊕v2 ) = x(v1 ⊕v2 )+y (−A−1 v2 ) ⊕ (Av1 ) = (xv1 −yA−1v2 )⊕(xv2 +yAv1) .
Se V é um espaço de Hilbert real separável com uma base {φk , k ∈ N}, podemos tomar V1 e V2
como os espaço gerados por {φk , k ∈ N, k par} e {φk , k ∈ N, k ı́mpar}, respectivamente. Uma
possı́vel escolha para a bijeção linear A : V1 → V2 seria
∞
! ∞
X X
A a2m φ2m = a2m φ2m+1 ,
m=0 m=0
para a qual !
∞
X ∞
X
A−1 a2m+1 φ2m+1 = a2m+1 φ2m ,
m=0 m=0
ou seja, em termos de elementos da base, Aφ2m = φ2m+1 e A−1 φ2m+1 = φ2m para todo m ≥ 0. Com
essa definição, terı́amos
" ∞ ! ∞
!# " ∞
! ∞
!#
X X X X
J a2m φ2m ⊕ a2m+1 φ2m+1 = − a2m+1 φ2m ⊕ a2m φ2m+1 .
m=0 m=0 m=0 m=0
Para um tal J o produto por um escalar complexo λ = x + iy com x, y ∈ R fica definido por
λ·(v1 ⊕v2 ) := (x+yJ)(v1 ⊕v2 ) = x(v1 ⊕v2 )+y (−A−1 v2 ) ⊕ (Av1 ) = (xv1 −yA−1v2 )⊕(xv2 +yAv1) .
∞
X ∞
X ∞
X
Para α, β ∈ V da forma α = αm φm , β = βm φm e ε(α, β) := αm βm , o produto escalar
m=0 m=0 m=0
real usual, constatamos que
∞
X ∞
X ∞
X ∞
X
ε(α, Jβ) = − α2m β2m+1 + α2m+1 β2m e que ε(Jα, β) = − α2m+1 β2m + α2m β2m+1 .
m=0 m=0 m=0 m=0
Assim, ε(α, Jβ) = −ε(Jα, β) e pela parte B da Proposição 2.6, página 142, hα, βiJ, ε := ε(α, β) +
iε(Jα, β) é um produto escalar complexo. Explicitamente, tem-se
∞
X
hα, βiJ, ε = (α2m + iα2m+1 )(β2m + iβ2m+1 ) .
m=0
E. 2.47 Exercı́cio. Verifique! Verifique também que hα, λ · βiJ, ε = λhα, βiJ, ε para todo λ ∈ C. 6
A forma simplética real associada a ε pela parte I do Lema 2.1, página 141, é
∞
X ∞
X
σ(α, β) = −ε(α, Jβ) = α2m β2m+1 − α2m+1 β2m .
m=0 m=0
◊
Exemplo 2.11 Uma situação que não se deve deixar de comentar é a seguinte. Se V é um espaço
vetorial complexo com um produto escalar complexo h·, ·i, V é naturalmente também um espaço
vetorial real, sendo que, como comentamos à página 125, σ(u, v) := Im(hu, vi) u, v ∈ V , define
uma forma simplética real em V . Definindo em V o operador linear Ju = iu, tem-se J 2 = −1. A
multiplicação por escalares complexos não apresenta novidades: para x, y ∈ R e u ∈ V vale, pela
definição, (x + iy) · u = xu + yJu = (x + iy)u.
É fácil constatar que σ(u, Jv) = Im(hu, ivi) = −Im(hiu, vi) = −σ(Ju, v) e que σ(u, Ju) =
Im(hu, iui) = hu, ui ≥ 0. Assim, pela parte A da Proposição 2.6, página 142, hu, viJ, σ := σ(u, Jv) +
iσ(u, v) é um produto escalar complexo em V . No entanto, é facil ver que nesse caso hu, viJ, σ =
Im(hu, ivi) + iIm(hu, vi) = Re(hu, vi) + iIm(hu, vi) = hu, vi.
O produto escalar real ε associado a σ pela parte II do Lema 2.1, página 141, é
É interessante notar também que se tivéssemos adotado Ju = −iu, u ∈ V , terı́amos ainda para
σ(u, v) = Im(hu, vi) que σ(u, Jv) = −σ(Ju, v). Porém, σ(u, Ju) = −hu, ui ≤ 0, violando a
condição de positividade. ◊
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 2 148/1461
Exemplo 2.12 Uma situação um pouco diferente é a seguinte. Seja V um espaço vetorial complexo
dotado de um produto escalar complexo h·, ·i. Sejam V1 e V2 dois sub-espaços ortogonais de V
(ortogonais segundo o produto escalar h·, ·i). Encarando V como um espaço real, definamos o operador
linear J : V → V por J(v1 ⊕ v2 ) = i(v1 ⊕ (−v2 )), onde v1 ∈ V1 e v2 ∈ V2 . É claro que J 2 = −1. A
multiplicação por escalares complexos x + iy, com x, y ∈ R, fica
= hu1 , v1 i + hu2 , v2 i .
E. 2.48 Exercı́cio. Verifique também que hu, λ · viJ, ε = λhu, viJ, ε para todo λ ∈ C. 6
◊
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 2 149/1461
Apêndices
2.A Prova do Teorema de Fréchet, von Neumann e Jordan
Nesta Seção apresentamos a demonstração do Teorema de Fréchet, von Neumann e Jordan, Teorema
2.8, página 134.
Vamos supor que k·k seja uma norma em um espaço vetorial complexo V e que satisfaça a identidade
do paralelogramo
ka + bk2 + ka − bk2 = 2kak2 + 2kbk2 (2.A.1)
para todos a, b ∈ V . Defina-se, para u, v ∈ V ,
3
1 X −n
ω(u, v) := i ku + in vk2 ,
4 n=0
fato, esse é o único ponto não-trivial da demonstração do Teorema 2.8 e o único em que a identidade
do paralelogramo é usada. O leitor verá que a demonstração de que ω é linear na segunda variável é
engenhosa, sendo feita, sucessivamente, primeiro para números inteiros, depois para racionais, depois
para números reais e, por fim, para números complexos.
Definindo-se, para u, v ∈ V ,
f (u, 0) = 0 . (2.A.8)
A seguinte proposição é fundamental para a prova de que ω é uma forma sesquilinear e em sua de-
monstração é feito uso da identidade do paralelogramo.
Proposição 2.8 Para todos u, v e w ∈ V vale
Por (2.A.6), segue que f (u + v, w) = f (u, w) + f (v, w), também para todos u, v e w ∈ V . 2
Prova. Precisamos apenas provar (2.A.9), o que é feito com uso da identidade do paralelogramo (2.A.1).
Por (2.A.1) com a = u + v e b = w, vê-se que
Somando (2.A.10) e (2.A.11), obtemos f (u, v + w) = f (u, v) + f (u, w), que é o que querı́amos.
Tomando v = w, (2.A.9) implica que f (u, 2v) = 2f (u, v). Vamos assumir que para algum n ∈ N,
n ≥ 1, valha f (u, nv) = nf (u, v). Isso é verdadeiro para n = 0 (por (2.A.8)) e n = 1 (trivialmente) e
vale também, como vimos, para n = 2. Então,
(2.A.9)
f (u, (n + 1)v) = f (u, v + nv) = f (u, v) + f (u, nv)
hipótese
= f (u, v) + nf (u, v) = (n + 1)f (u, v) .
para todo n ∈ N e todos u, v ∈ V . Substituindo v por n1 v, com n 6= 0, isso está também dizendo que
1 1
f u, v = f (u, v) , (2.A.13)
n n
Pela propriedade Hermitiana (2.A.3), segue também que ω(zu, v) = zω(u, v). Isso estabeleceu que ω
é uma forma sesquilinear. Assim, a prova do Teorema 2.8 está completa.
Parte II
153
Capı́tulo 3
Tópicos de Álgebra Linear. I
Conteúdo
3.1 Propriedades Básicas de Determinantes e Inversas de Matrizes . . . . . . 155
3.2 Noções Básicas sobre o Espectro de uma Matriz . . . . . . . . . . . . . . . 163
3.2.1 O Traço de uma Matriz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 169
3.3 Polinômios de Matrizes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 171
3.3.1 O Teorema de Hamilton-Cayley . . . . . . . . . . . . . . . . . . . . . . . . . . 173
3.4 Matrizes Diagonalizáveis e o Teorema Espectral . . . . . . . . . . . . . . . 178
3.4.1 Diagonalização Simultânea de Matrizes . . . . . . . . . . . . . . . . . . . . . 192
3.5 Matrizes Auto-adjuntas, Normais e Unitárias . . . . . . . . . . . . . . . . 196
3.5.1 Matrizes Positivas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 203
3.6 Matrizes Triangulares . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 206
3.7 O Teorema de Decomposição de Jordan e a Forma Canônica de Matrizes 207
3.7.1 Resultados Preparatórios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 208
3.7.2 O Teorema da Decomposição de Jordan . . . . . . . . . . . . . . . . . . . . . 214
3.7.3 Matrizes Nilpotentes e sua Representação Canônica . . . . . . . . . . . . . . 217
3.7.4 A Forma Canônica de Matrizes . . . . . . . . . . . . . . . . . . . . . . . . . . 221
3.8 Algumas Representações Especiais de Matrizes . . . . . . . . . . . . . . . 223
3.8.1 A Decomposição Polar de Matrizes . . . . . . . . . . . . . . . . . . . . . . . . 223
3.8.2 O Teorema da Triangularização de Schur . . . . . . . . . . . . . . . . . . . . 226
3.8.3 A Decomposição QR e a Decomposição de Iwasawa (“KAN”) . . . . . . . . . 228
3.9 Propriedades Especiais de Determinantes . . . . . . . . . . . . . . . . . . . 231
3.9.1 Expansão do Polinômio Caracterı́stico . . . . . . . . . . . . . . . . . . . . . . 231
3.9.2 A Desigualdade de Hadamard . . . . . . . . . . . . . . . . . . . . . . . . . . . 232
3.10 Exercı́cios Adicionais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 235
154
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 3 155/1461
• Alguma Notação
O conjunto de todas as matrizes m×n com entradas complexas será denotado aqui por Mat (C, m, n).
O conjunto de todas as matrizes quadradas n × n com entradas complexas será denotado simplesmente
por Mat (C, n).
Dado um conjunto de n números complexos α1 , . . . , αn , denotaremos por diag (α1 , . . . , αn ) a
matriz A ∈ Mat (C, n) cujos elementos Aij são definidos da seguinte forma:
αi , se i = j
Aij = .
0, se i 6= j
Uma tal matriz é dita ser diagonal pois apenas os elementos de sua diagonal principal são eventualmente
não-nulos. Na representação usual
α1 · · · 0
A = ... . . . ... .
0 · · · αn
A mais popular dentre as matrizes diagonais é a matriz identidade, que denotaremos por 1 neste texto:
1 ··· 0
1 := diag (1, . . . , 1) = ... . . . ... .
0 ··· 1
Denotaremos por 0a, b a matriz a × b cujos elementos de matriz são todos nulos. Denotaremos por
1l a matriz identidade l × l. Por vezes, quando não houver perigo de confusão, poderemos omitir os
sub-ı́ndices e escrever 0a, b simplesmente como 0 e 1l simplesmente como 1.
Sejam x1 , . . . , xn vetores, representados na base canônica por vetores-coluna
xa1
xa = ... .
xan
hh ii
1 n
Denotaremos por x , . . . , x a matriz n × n construı́da de forma que sua a-ésima coluna seja o
vetor-coluna xa , ou seja
hh ii x11 · · · xn1
x1 , . . . , xn = ... . . . ... . (3.1)
1 n
xn · · · xn
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 3 156/1461
A notação acima é útil por permitir a seguinte observação. Seja B uma matriz qualquer. Então,
hh ii hh ii
1 n 1 n
B x , ..., x = Bx , . . . , Bx . (3.4)
Essa
hh relação éii provada observando-se a regra de multiplicação de matrizes: a a-ésima coluna de
B x1 , . . . , xn é
B11 xa1 + · · · + B1n xan
.. , (3.5)
.
Bn1 xa1 +···+ Bnn xan
que vem a ser as componentes de Bxa , representado como vetor-coluna na base canônica.
Ainda sobre essa notação, vale a seguinte identidade útil, cuja demonstração (elementar) deixamos
como exercı́cio: se D = diag (d1 , . . . , dn ) é uma matriz diagonal, então
hh ii hh ii
x1 , . . . , xn D = d1 x1 , . . . , dn xn . (3.6)
Seja V um espaço vetorial dotado de um produto escalar h·, ·i. Dizemos que dois vetores u e v são
perpendiculares (em relação ao produto escalar h·, ·i) se hu, vi = 0.
Se v1 , . . . , vk são vetores em um espaço vetorial V , denotamos por [v1 , . . . , vk ] o sub-espaço gerado
pelos vetores v1 , . . . , vk , ou seja, a coleção de todos os vetores que são combinações lineares dos vetores
v1 , . . . , vk : n o
[v1 , . . . , vk ] = α1 v1 + · · · + αk vk , α1 , . . . , αk ∈ C .
onde ωdet é a forma alternante maximal em n dimensões, normalizada de sorte que ωdet (e1 , . . . , en ) = 1.
Com isso, vale det(1) = 1. Assim, se Sn denota o conjunto de todas as bijeções de {1, . . . , n} em
si mesmo (o chamado grupo de permutações de n elementos), tem-se ωdet (ej(1) , . . . , ej(n) ) = sinal(j)
para todo j ∈ Sn e, portanto, vale a expressão (2.10):
X
det(A) = A1j(1) · · · Anj(n) sinal(j) . (3.8)
j∈Sn
onde Men(A), chamada de matriz dos menores de A, é a matriz de Mat (C, n) definida de sorte
que cada elemento Men(A)ij seja o determinante da matriz (n − 1) × (n − 1) obtida eliminando-se
a i-ésima linha e a j-ésima coluna de A. Se n = 1, convenciona-se definir Men(A) = 1. Assim,
para det(A) 6= 0, a regra de Laplace escreve-se
1 (−1)i+j
A−1 ij
= Cof(A)ji = Men(A)ji . (3.11)
det(A) det(A)
1
Pierre-Simon Laplace (1749-1827).
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 3 158/1461
Em (3.97), página 232, apresentaremos outra fórmula explı́cita para o cômputo da inversa de ma-
trizes baseada no Teorema de Hamilton-Cayley (Teorema 3.3, página 174).
Prova de 2. Observemos a expressão (3.8). Usando o fato elementar que um produto de números com-
plexos não depende da ordem dos fatores, podemos escrever A1j(1) · · · Anj(n) = Al(1)j(l(1)) · · · Al(n)j(l(n))
para qualquer l ∈ Sn . Em particular, escolhendo l = j −1 obtemos A1j(1) · · · Anj(n) = Aj −1 (1)1 · · · Aj −1 (n)n .
Assim, por (2.10), e usando o fato que sinal(j) = sinal(j −1 ) para todo j ∈ Sn (justifique!), vale
X X
det(A) = Aj −1 (1)1 · · · Aj −1 (n)n sinal(j −1 ) = Aj −1 (1)1 · · · Aj −1 (n)n sinal(j −1 )
j∈Sn j −1 ∈Sn
X
= Aj(1)1 · · · Aj(n)n sinal(j) = det(AT ) .
j∈Sn
Quando da permuta de duas linhas ou colunas de A seu determinante troca de sinal devido à
alternância da forma ωdet . A igualdade det(A) = det AT ensina que isso também ocorre quando da
permuta de linhas.
hh ii hh ii hh ii
Prova de 3. Sejam A = a1 , . . . , an e B = b1 , . . . , bn . Temos que AB = Ab1 , . . . , Abn (vide
(3.4)). Agora,
n
X n
X n
X
(Abj )i = Aik (bj )k = (ak )i (bj )k , ou seja, Abj = (bj )k ak .
k=1 k=1 k=1
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 3 159/1461
Assim,
det(AB) = ωdet (Ab1 , . . . , Abn )
n n
!
X X
= ωdet (b1 )k1 ak1 , . . . , (bn )kn akn
k1 =1 kn =1
n
X n
X
multi-linearidade
= ··· (b1 )k1 · · · (bn )kn ωdet (ak1 , . . . , akn )
k1 =1 kn =1
X
= (b1 )k(1) · · · (bn )k(n) ωdet ak(1) , . . . , ak(n)
k∈Sn
X
= (b1 )k(1) · · · (bn )k(n) sinal(k) ωdet (a1 , . . . , an )
k∈Sn
!
X
= (b1 )k(1) · · · (bn )k(n) sinal(k) det(A)
k∈Sn
= det(B) det(A) .
Acima, na passagem da terceira para a quarta linha usamos o fato que ωdet (ak1 , . . . , akn ) anula-se a
menos que a k1 , . . . , kn sejam distintos, o que somente ocorre se forem da forma k(1), . . . , k(n),
respectivamente, para algum k ∈ Sn . Na passagem da quarta para a quinta linha usamos que
ωdet ak(1) , . . . , ak(n) = sinal(k) ωdet (a1 , . . . , an ), pois ωdet é uma forma alternante.
Estabelecemos, portanto, que det(AB) = det(A) det(B) = det(BA).
Prova de 4. Do item 3 segue que, para quaisquer A, S ∈ Mat (C, n), com S invertı́vel, vale det(A) =
det((AS −1 )S) = det(SAS −1 ).
Prova de 5. Se det(A) = 0 então A não pode ter inversa. Se existisse A−1 terı́amos 1 = det(1) =
det(AA−1 ) = det(A) det(A−1 ) = 0, absurdo.
n
X
onde a matriz Cof(A) foi definida em (3.10). Mostremos agora que para l 6= k a expressão Ajl Cof(A)jk
j=1
é nula. De fato,
n
X n
X
Ajl Cof(A)jk = Ajl ωdet (a1 , . . . , ak−1 , ej , ak+1 , . . . , an )
j=1 j=1
(3.14)
= ωdet (a1 , . . . , ak−1 , al , ak+1 , . . . , an ) = 0 ,
pois em ωdet (a1 , . . . , ak−1 , al , ak+1 , . . . , an ) o vetor al aparece na l-ésima e na k-ésima posição o que
faz ωdet anular-se, por ser uma forma alternante. Provamos, assim, que
n
X
Ajl Cof(A)jk = δkl det(A) . (3.16)
j=1
Vamos supor que det(A) 6= 0. Defina-se a matriz G = det(A)−1 Cof(A)T , cujos elementos de matriz são
Gkj = det(A)−1 Cof(A)jk . Então (3.16) diz-nos que
n
X
Gkj Ajl = δkl , ou seja, GA = 1 .
j=1
devido à linearidade e ao fato que ωdet (ej , . . . , ak−1 , ej , ak+1 , . . . , an ) = 0, pelo fato de ωdet ser
alternante. Agora, a j-ésima linha do vetor-coluna a1 − Ahhj1 ej é nula. Repetindo esse argumento ii
podemos anular j-ésima linha de todas as colunas da matriz a1 , . . . , ak−1 , ej , ak+1 , . . . , an , exceto
a k-ésima coluna, sem alterar seu determinante. Um pouco de meditação nos convence que a matriz
resultante é obtida da matriz A anulando-se a k-ésima coluna e a j-ésima linha, exceto no cruzamento
das duas, onde o elemento de matriz vale 1 (elemento jk). O determinante dessa matriz é Cof(A)jk .
Pelo item 2 e pela propriedade de alternância, sabemos que o determinante de uma matriz troca
de sinal quando permutamos a posição de duas colunas ou duas linhas quaisquer. Com esse tipo de
operação podemos transportar o 1 do elemento jk até a posição nn da matriz, ao preço de realizar
n − k transposições de colunas vizinhas e n − j de linhas vizinhas, as quais alteram o determinante por
fatores (−1)n−k e (−1)n−j , respectivamente. Temos com isso que
0
..
A[jk] .
Cof(A)jk = (−1)k+j det(A[jk]) com A[jk] := det ,
0
0 ··· 0 1
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 3 161/1461
onde A[jk] é a matriz de Mat (C, n − 1) obtida eliminando a j-ésima linha e a k-ésima coluna da matriz
A. Por (3.8), X
det A[jk] = A[jk] 1l(1) · · · A[jk] nl(n) sinal(l) .
l∈Sn
[jk]
Como A nl(n)
= δl(n), n (justifique!), segue que
X
det A[jk] = A[jk] 1l′ (1)
· · · A[jk] (n−1)l′ (n−1)
sinal(l′ )
l′ ∈Sn−1
X
= A[jk] 1l′ (1)
· · · A[jk] (n−1)l′ (n−1)
sinal(l′ )
l′ ∈Sn−1
= det A[jk] = Men(A)jk .
(Justifique por que a soma no lado direito da primeira linha acima é sobre Sn−1 e não mais sobre Sn ).
Provamos, portanto, que
Cof(A)jk = (−1)k+j Men(A)jk .
A relação (3.11) é imediata por (3.9).
Prova de 8. Eq. (3.13) é imediata por (3.15) e pelo item 7. Eq. (3.12) segue facilmente de (3.13) usando
o item 2.
E. 3.2 Exercı́cio. Seja Σ ∈ Mat (C, n) a matriz diagonal cujos elementos são, alternadamente +1 e −1:
Σ = diag (+1, −1, +1, . . . , (−1)n+1 ), ou seja, os elementos de matriz de Σ são Σij = (−1)i+1 δij . Mostre
que
Cof(A) = ΣMen(A)Σ−1
para toda matriz A ∈ Mat (C, n). 6
Para uma matriz M ∈ Mat (C, n), a transformação de similaridade M 7→ ΣMΣ−1 é denominada
“chessboard transformation”, pois com ela os sinais são trocados em M como alternam-se as cores das
casas em um tabuleiro de xadrez.
E. 3.3 Exercı́cio. Usando a regra de Laplace (3.9), mostre que para toda matriz A ∈ Mat (C, n) valem
as relações
Men(ΣAΣ−1 ) = ΣMen(A)Σ−1 , Cof(ΣAΣ−1 ) = ΣCof(A)Σ−1 ,
Cof(A) = Men(ΣAΣ−1 ) , Men(A) = Cof(ΣAΣ−1 ) .
6
1
Se A ∈ Mat (C, n) é invertı́vel, segue da regra de Laplace (3.9) que det(A−1 ) = det(A)n
det(Cof(A))
e, portanto,
det(Cof(A)) = det(A)n−1 . (3.17)
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 3 162/1461
E. 3.4 Exercı́cio. Mostre que para toda matriz A ∈ Mat (C, n), n ≥ 2, vale
n−2
Cof Cof(A) = det(A) A.
• Um resultado útil
Agora, pelas regras (3.12)-(3.13) de cálculo de determinantes, é fácil constatar (faça-o!) que
A 0k, n−k 1k 0k, n−k
det = det(A), det = det(C) .
0n−k, k 1n−k 0n−k, k C
e
1k 0k, n−k
det = 1.
B 1n−k
Isso completa a prova.
Seja A ∈ Mat (C, n) uma matriz n × n com entradas complexas. No estudo das propriedades de
A é de grande importância saber para quais números complexos λ a matriz λ1 − A é invertı́vel e para
quais não é. Essa questão conduz às seguintes importantes definições:
Definição. Um número complexo λ é dito ser um elemento do espectro de A ∈ Mat (C, n) se a matriz
λ1 − A não possuir uma inversa.
Definição. Um número complexo λ é dito ser um elemento do conjunto resolvente de A ∈ Mat (C, n)
se a matriz λ1 − A possuir uma inversa.
Em outras palavras, o espectro de A ∈ Mat (C, n), denotado por σ(A), é o conjunto de todos os
λ ∈ C para os quais a matriz λ1 − A não tem inversa.
O conjunto resolvente de A ∈ Mat (C, n), denotado por ρ(A), é o conjunto de todos os λ ∈ C para
os quais a matriz λ1 − A tem inversa.
É evidente que σ(A) e ρ(A) são conjuntos complementares, ou seja, σ(A) ∩ ρ(A) = ∅ mas σ(A) ∪
ρ(A) = C.
Um fato importante é que λ1 − A é não-invertı́vel se e somente se det(λ1 − A) = 0 (vide Teorema
3.1, página 157). Assim, um número complexo λ é um elemento do espectro de uma matriz A se e
somente se for tal que det(λ1 − A) = 0.
Chegamos ao importante conceito de polinômio caracterı́stico de uma matriz.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 3 164/1461
Seja A ∈ Mat (C, n) uma matriz cujos elementos de matriz são Aij . Para λ ∈ C a expressão
λ − A11 −A12 ··· −A1n
−A21 λ − A22 ··· −A2n
det(λ1 − A) = det .. .. .. ..
. . . .
−An1 ··· · · · λ − Ann
define, como facilmente se constata pelos métodos usuais e bem conhecidos de cálculo de determinantes,
um polinômio de grau n na variável λ, com coeficientes complexos, os quais dependem dos elementos de
matriz Aij de A. Esse polinômio é denominado polinômio caracterı́stico de A e desempenha um papel
muito importante no estudo de propriedades de matrizes. O leitor poderá encontrar na Seção 3.9.1,
página 231, uma expressão mais explı́cita para o polinômio caracterı́stico em termos dos elementos de
matriz Aij de A (vide (3.96), página 232), mas por ora não precisaremos de maiores detalhes sobre esse
polinômio.
Denotaremos por vezes por pA o polinômio caracterı́stico de uma matriz A ∈ Mat (C, n). Como
todo polinômio complexo de grau n, pA possui n raı́zes, não necessariamente distintas no plano com-
plexo (teorema fundamental da álgebra). As raı́zes do polinômio caracterı́stico pA são denominadas
autovalores da matriz A. Assim, o espectro de uma matriz A coincide com o conjunto de seus auto-
valores. O estudo de autovalores de matrizes é de grande importância na Álgebra Linear e em suas
aplicações à Teoria das Equações Diferenciais, à Geometria, à Teoria dos Sistemas Dinâmicos e à Fı́sica,
especialmente à Fı́sica Quântica.
Seja A ∈ Mat (C, n) uma matriz e sejam α1 , . . . , αr , 1 ≤ r ≤ n, seus autovalores distintos, cada
qual com multiplicidade a1 , . . . , ar , respectivamente, ou seja, cada αi é uma raiz de ordem ai ∈ N do
polinômio caracterı́stico de A:
r
Y
q(λ) = det(λ1 − A) = (λ − αi )ai .
i=1
ou seja, a soma das multiplicidades algébricas dos autovalores de uma matriz A ∈ Mat (C, n) é n.
Uma conseqüência elementar disso é a seguinte proposição útil:
Proposição 3.2 Seja A ∈ Mat (C, n) uma matriz e sejam α1 , . . . , αr , 1 ≤ r ≤ n, seus autovalores
distintos, cada qual com multiplicidade algébrica a1 , . . . , ar , respectivamente. Então
r
Y
det(A) = (αk )ak . (3.20)
k=1
2
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 3 165/1461
Qr
Prova. Por definição, o polinômio caracterı́stico de A é q(λ)
Q = det(λ1−A) = ak
k=1 (λ−αk ) . Tomando
n r ak n
λ = 0 e usando (3.19), teremos que det(−A) = (−1) k=1 (αk ) . Porém, det(−A) = (−1) det(A) e
a proposição está demonstrada.
Essa proposição diz que o determinante de uma matriz é o produto de seus autovalores, incluindo
a multiplicidade algébrica.
Duas matrizes A ∈ Mat (C, n) e B ∈ Mat (C, n) são ditas matrizes similares se existir uma matriz
invertı́vel P ∈ Mat (C, n) tal que P −1 AP = B.
Para uma matriz invertı́vel P ∈ Mat (C, n) fixa, a transformação que leva cada matriz A ∈
Mat (C, n) à matriz P −1 AP é denominada transformação de similaridade.
Sabemos que o determinante é invariante por transformações de similaridade, pois para toda matriz
A vale det(A) = det(P −1 AP ).
O determinante não é o único objeto associado a uma matriz que é invariante por transformações
de similaridade. O polinômio caracterı́stico e, portanto, o conjunto de seus autovalores (incluindo as
multiplicidades), também o é. Isso pode ser visto da seguinte forma.
Sejam A e B duas matrizes similares com B = P −1 AP para algum P . O polinômio caracterı́stico
de A é pA (λ) = det(λ1 − A) e o de B é pB (λ) = det(λ1 − B). Pela invariância do determinante vale
pA (λ) = det(λ1 −A) = det(P −1(λ1 −A)P ) = det(λ1 −P −1AP ) = det(λ1 −B) = pB (λ) . (3.21)
Assim, A e B têm o mesmo polinômio caracterı́stico e, portanto, seus autovalores são iguais, incluindo
suas multiplicidades.
Prova. Se A é bijetora, então existe A−1 . Logo, aplicando-se A−1 à esquerda na igualdade Av = 0,
obtem-se v = 0. Vamos agora provar a recı́proca: vamos supor que Av = 0 vale apenas para v = 0 e
provar que A é injetora e sobrejetora e, portanto, bijetora.
Prova-se que A é injetora por absurdo. Se A não é injetora, então, existem vetores x e y com x 6= y
mas com Ax = Ay. Como A é linear, isso implica A(x − y) = 0. Pela hipótese que Av = 0 vale apenas
para v = 0, segue que x = y, uma contradição.
Para provarmos que A é sobrejetora procedemos da seguinte forma. Seja {b1 , . . . , bn } uma base
em Cn . Vamos primeiramente mostrar que {Ab1 , . . . , Abn } é um conjunto linearmente independente
de vetores em Cn (e, portanto, uma base em Cn ). Suponhamos que assim não o seja e que existam
números complexos α1 , . . . , αn , não todos nulos, tais que α1 Ab1 + · · · + αn Abn = 0. Pela linearidade
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 3 166/1461
de A, segue que A (α1 b1 + · · · + αn bn ) = 0. Novamente, pela hipótese que Av = 0 vale apenas para
v = 0, segue que α1 b1 + · · · + αn bn = 0. Isso, porém, diz que os vetores {b1 , . . . , bn } são linearmente
dependentes, o que é absurdo.
Logo, {Ab1 , . . . , Abn } é um conjunto de n vetores linearmente independente em Cn e, portanto,
é uma base nesse espaço. Assim, qualquer x ∈ Cn pode ser escrito como uma combinação linear tal
como x = β1 Ab1 + · · · + βn Abn = A (β1 b1 + · · · + βn bn ). Isso mostra que x está na imagem de A.
Como x é arbitrário, segue que A é sobrejetora.
• Autovetores
Seja λ0 um autovalor de uma matriz A. Então λ0 1 − A não tem inversa. Logo, como V = Cn é um
espaço vetorial de dimensão finita, existe pelo Corolário 3.1 acima pelo menos um vetor não-nulo v tal
que (λ0 1 − A)v = 0, ou seja, Av = λ0 v. Chegamos a mais uma importante definição:
Definição. Um vetor não-nulo v é dito ser um autovetor de uma matriz A se houver λ0 ∈ C tal que
Av = λ0 v .
Note-se que se um tal λ0 satisfaz a relação acima para algum v 6= 0 então λ0 1 − A não tem inversa.
λ0 é então um elemento do espectro de A, ou seja, um autovalor. λ0 é dito ser o autovalor associado
ao autovetor v.
Uma observação importante é a seguinte. Sejam v1 e v2 dois autovetores aos quais está associado o
mesmo autovalor, ou seja, Av1 = λ0 v1 e Av2 = λ0 v2 . Então, para quaisquer números complexos c1 e
c2 o vetor v = c1 v1 + c2 v2 também satisfaz Av = λ0 v. De fato,
A conclusão a que se chega é que, para cada autovalor αi de uma matriz A, a coleção formada pelo
vetor nulo e todos os autovetores de A com autovalor αi é um subespaço vetorial. Vamos denotar esse
subespaço por E(αi) ou simplesmente Ei .
Se αi e αj são autovalores distintos de A então os sub-espaços de autovetores E(αi) e E(αj ) têm
em comum apenas o vetor nulo, ou seja, E(αi ) ∩ E(αj ) = {0}. Isso é fácil de provar, pois se w é tal
que Aw = αi w e Aw = αj w então, subtraindo-se uma relação da outra terı́amos 0 = (αi − αj )w, que
implica w = 0, já que αi 6= αj .
Essas considerações nos levam a mais um conceito importante: o de multiplicidade geométrica de
um autovalor.
a ∈ C. É evidente que o subespaço gerado pelos autovetores com autovalor zero tem dimensão 1.
Assim, a multiplicidade algébrica do autovalor zero é 2 mas a sua multiplicidade geométrica é 1.
det(λ1 − A) = (λ − λ0 )d det(λ1 − A4 ) .
Isso mostra que a multiplicidade algébrica de λ0 é pelo menos igual a d, sua multiplicidade geométrica.
• Matrizes Simples
O que foi exposto acima leva-nos naturalmente ao conceito de matriz simples que, como veremos
mais adiante, está intimamente ligado ao problema da diagonalizabilidade de matrizes.
Definição. Uma matriz A ∈ Mat (C, n) é dita ser uma matriz simples se cada autovalor de A tiver
uma multiplicidade algébrica igual à sua multiplicidade geométrica.
Deixamos para o leitor provar o seguinte fato: toda matriz diagonal é simples.
Prova. Já vimos (página 165) que A e P −1 AP têm o mesmo polinômio caracterı́stico e, portanto,
os mesmos autovalores, incluindo suas multiplicidades algébricas. Seja λ0 um desses autovalores com
multiplicidade algébrica d e sejam v1 , . . . , vd um conjunto de d autovetores linearmente indepen-
dentes de A. Os vetores P −1 v1 , . . . , P −1vd são autovetores de P −1AP com autovalor λ0 . De fato,
(P −1 AP ) P −1 vi = P −1Avi = λ0 P −1 vi . Fora isso os d vetores P −1 v1 , . . . , P −1 vd são também linear-
mente independentes. Para ver isso, suponha houvesse constantes c1 , . . . , cd tais que
c1 P −1 v1 + · · · + cd P −1 vd = 0 .
A seguinte proposição elementar é por vezes útil para verificar se uma matriz é simples.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 3 169/1461
Proposição 3.5 Se todos os n autovalores de uma matriz A ∈ Mat (C, n) forem distintos então A é
simples. 2
Ressaltemos que a recı́proca da proposição acima não é verdadeira: uma matriz pode ser simples e
possuir autovalores com multiplicidade algébrica maior que 1.
Seja A ∈ Mat (C, n), cujos elementos de matriz são Aij , i, j = 1, . . . n. Sejam λ1 , . . . , λn seus n
autovalores (não necessariamente distintos e repetidos conforme sua multiplicidade).
Definimos o traço de A como sendo a soma de seus n autovalores:
n
X
Tr(A) := λa .
a=1
Uma conclusão que se tira dessa definição é que se duas matrizes são similares, então ambas têm o
mesmo traço, ou seja, para qualquer matriz invertı́vel P e qualquer matriz A vale
Tr P −1AP = Tr(A) . (3.22)
A razão reside na observação feita acima que duas matrizes similares têm o mesmo conjunto de auto-
valores e, portanto, o mesmo traço.
Temos a seguinte e importante proposição:
Proposição 3.6 O traço de uma matriz A ∈ Mat (C, n) é igual a soma dos elementos de sua diagonal
principal, ou seja,
n
X X n
Tr(A) := λa = Aaa . (3.23)
a=1 a=1
2
P
As técnicas de cálculo de determinantes nos dizem que o coeficiente de λn−1 é − ni=1 Aii . Por exemplo,
para o caso n = 2
λ − A11 −A12
p(λ) = det = λ2 − λ(A11 + A22 ) + A11 A22 − A12 A21 .
−A21 λ − A22
E. 3.8 Exercı́cio. Convença-se da veracidade da afirmativa acima para o caso de n arbitrário. Sugestão:
use a expansão em cofatores (3.12)-(3.13) ou leia a Seção 3.9.1, página 231. 6
Por outro lado, os autovalores de A, λ1 , . . . , λn , são por definição as raı́zes do polinômio carac-
terı́stico. Logo,
p(λ) = (λ − λ1 )(λ − λ2 ) · · · (λ − λn ) .
Expandindo-se essa expressão, conclui-se que o coeficiente de λn−1 é
−(λ1 + · · · + λn ) = −Tr(A) .
Essa proposição leva a duas outras propriedades igualmente importantes: a linearidade do traço e
a chamada propriedade cı́clica do traço.
Proposição 3.7 (A Linearidade do Traço) Sejam A, B ∈ Mat (C, n) e α, β ∈ C. Então
Tr(αA + βB) = αTr(A) + βTr(B) .
2
É curioso notar que a linearidade do traço vista acima é evidente por (3.23), mas não é nem
um pouco evidente pela definição do traço de uma matriz como soma de seus autovalores, pois os
autovalores individuais de αA + βB não são em geral combinações lineares dos autovalores de A e de
B, especialmente no caso em que A e B não comutam.
Proposição 3.8 (A Propriedade Cı́clica do Traço) Sejam A, B ∈ Mat (C, n). Então
Tr(AB) = Tr(BA) .
2
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 3 171/1461
Na segunda e quarta igualdades usamos a regra de produto de matrizes. Na terceira igualdade apenas
trocamos a ordem das somas.
Novamente vale aqui o comentário que a propriedade cı́clica expressa na Proposição 3.8 não é
nada evidente pela definição do traço de uma matriz como soma de seus autovalores. Os autovalores
individuais de produto de matrizes AB não são em geral iguais aos do produto BA.
Mais adiante, demonstraremos uma outra propriedade importante do traço que o relaciona com
o determinante,
a saber, provaremos que para qualquer matriz A, real ou complexa, n × n, tem-se
A Tr(A)
det e = e . Vide Proposição 4.7, página 250.
• Polinômios de Matrizes
• O Polinômio Mı́nimo
Vamos mostrar que para cada matriz A ∈ Mat (C, n) sempre existe pelo menos um polinômio p
com a propriedade que p(A) = 0.
Para tal notemos primeiramente que Mat (C, n) é um espaço vetorial complexo de dimensão n2 .
De fato toda a matriz A ∈ Mat (C, n), cujos elementos de matriz são Aij ∈ C pode ser trivialmente
escrita na forma n Xn
X
A = Aab E ab
a=1 b=1
onde E ab ∈ Mat (C, n) são matrizes cujos elementos de matriz são (E ab )ij = δi,a δj,b, ou seja, todos os
elementos de matriz de E ab são nulos, exceto o elemento a, b, que vale 1.
Assim, vemos que as matrizes {E ab , a = 1, . . . , n, b = 1, . . . , n} formam uma base em Mat (C, n),
mostrando que Mat (C, n) é um espaço vetorial de dimensão n2 . Isto posto, temos que concluir que
qualquer conjunto de mais de n2 matrizes não-nulas em Mat (C, n) é linearmente dependente.
Se uma das matrizes Ak , k = 1, . . . , n2 , for nula, digamos Aq = 0, então p(x) = xq , tem
a propriedade que p(A) = 0, que é o que desejamos provar. Se, por outro lado, as matrizes Ak ,
k = 1, . . . , n2 , são todas não-nulas, então conjunto {1, A, A2 , . . . , An } é linearmente dependente,
2
pois possui n2 + 1 elementos. Portanto, existem constantes c0 , . . . , cn2 , nem todas nulas, tais que
c0 1 + c1 A + c2 A2 + · · · + cn2 An = 0 .
2
Como o lado esquerdo é um polinômio em A, fica provada nossa afirmação que toda matriz possui um
polinômio que a anula. Chegamos às seguintes definições:
Definição. Polinômio Mı́nimo de uma Matriz. Dada uma matriz A ∈ Mat (C, n), o polinômio
mı́nimo de A é o polinômio mônico de menor grau que é anulado em A, ou seja, é o polinômio não-nulo
de menor grau da forma
M(x) = xm + am−1 xm−1 + · · · + a1 x + a0
para o qual M(A) = 0.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 3 173/1461
As considerações acima mostram que um tal polinômio sempre existe e que tem grau no máximo
igual a n2 . Essa é, no entanto, uma estimativa exagerada para o grau do polinômio mı́nimo de uma
matriz A ∈ Mat (C, n) pois, como veremos abaixo, o polinômio mı́nimo de uma matriz A ∈ Mat (C, n)
tem, na verdade, grau menor ou igual a n. Isso é um corolário de um teorema conhecido como Teorema
de Hamilton-Cayley , que demonstraremos abaixo (Teorema 3.3, página 174).
Finalizamos com um teorema básico que garante a unicidade do polinômio mı́nimo e estabelece sua
relação com outros polinômios que anulam A.
Teorema 3.2 O polinômio mı́nimo M de uma matriz A ∈ Mat (C, n) é único. Fora isso se P é um
polinômio não-identicamente nulo que também se anula em A, ou seja, P (A) = 0, então P é divisı́vel
por M, ou seja, existe um polinômio F tal que P (x) = F (x)M(x) para todo x ∈ C. 2
Demonstração. Dada uma matriz A ∈ Mat (C, n), o polinômio mı́nimo de A é o polinômio de menor
grau da forma
M(x) = xm + am−1 xm−1 + · · · + a1 x + a0
para o qual M(A) = 0. Vamos supor que haja outro polinômio N da forma
N(x) = xm + bm−1 xm−1 + · · · + b1 x + b0
para o qual N(A) = 0. Subtraindo um do outro terı́amos o polinômio
(M − N)(x) = (am−1 − bm−1 )xm−1 + · · · + (a1 − b1 )x + (a0 − b0 ) ,
que tem grau menor ou igual a m − 1 e para o qual vale (M − N)(A) = M(A) − N(A) = 0 − 0 = 0.
Como, por hipótese, não há polinômios não-nulos com grau menor que o de M que anulam A, isso é
uma contradição, a menos que M = N. Isso prova a unicidade.
Seja P um polinômio não identicamente nulo para o qual valha P (A) = 0. Se p é o grau de P ,
deve-se ter p ≥ m, onde m é o grau do polinômio mı́nimo de A. Logo, pelos bem conhecidos fatos sobre
divisão de polinômios, podemos encontrar dois polinômios F e R, cujos graus são, respectivamente
p − m e r com 0 ≤ r < m, tais que
P (x) = F (x)M(x) + R(x) ,
para todo x ∈ C. Ora, isso diz que
P (A) = F (A)M(A) + R(A) .
Como P (A) = 0 e M(A) = 0, isso implica R(A) = 0. Como, porém, o grau de R é menor que m,
tem-se que R deve ser identicamente nulo. Isso completa a prova.
também, como veremos, um método eficiente para o cálculo da inversa de matrizes. Cayley e Hamilton
demonstraram casos particulares do teorema para matrizes 2 × 2, 3 × 3 (Cayley) e 4 × 4 (Hamilton).
A primeira demonstração geral é devida a Frobenius4 . Cayley, Hamilton e Sylvester5 estão entre os
fundadores modernos da teoria das matrizes6 .
Teorema 3.3 (Teorema de Hamilton-Cayley) Seja A ∈ Mat (C, n) e seja q(x) = det(x1 − A) o
polinômio caracterı́stico de A (e que tem grau n). Então q(A) = 0. 2
Prova. Desejamos mostrar que para todo vetor y ∈ Cn vale q(A)y = 0. Se y = 0 isso é trivial. Se y 6= 0
mas com Ay = 0 então
q(A)y = (−1)n λ1 · · · λn y ,
onde λ1 , · · · , λn são os autovalores de A. Mas a própria relação Ay = 0 indica que um dos autovalores
é igual a zero. Logo q(A)y = 0. Mais genericamente, se y 6= 0 e {y, Ay} não for um conjunto de vetores
linearmente independentes, então Ay e y são proporcionais, ou seja, existe um autovalor, digamos, λn
tal que Ay = λn y. Nesse caso também tem-se
n−1
!
Y
q(A)y = (A − λi 1) (A − λn 1)y = 0 ,
i=1
pois (A − λn 1)y = Ay − λn y = 0.
Seja então y daqui por diante um vetor fixado, não-nulo e tal que {y, Ay} é um conjunto de dois
vetores não-nulos e linearmente independentes.
Como o espaço Cn tem dimensão n, nem todos os conjuntos de vetores da forma
{y, Ay, A2 y, . . . , Aj y}
são formados por vetores não-nulos linearmente independentes. Por exemplo, se j ≥ n, o conjunto
{y, Ay, A2 y, . . . , Aj y} não pode ser formado por vetores não-nulos linearmente independentes pois
seu número excede a dimensão do espaço.
Seja k o maior número tal que {y, Ay, A2 y, . . . Ak−1 y} é um conjunto de vetores não-nulos e
linearmente independentes. É claro que 1 < k ≤ n.
É claro também, pela definição de k, que
para constantes h1 , . . . , hk .
Vamos denominar z1 = Ak−1 y, z2 = Ak−2 y, . . . , zk = y, ou seja, zj = Ak−j y, j = 1, . . . , k, todos
não-nulos por hipótese. Caso k < n, escolhamos ainda vetores zk+1 , . . . , zn de modo que o conjunto
{z1 , . . . , zn } forme uma base em Cn .
4
Ferdinand Georg Frobenius (1849-1917)
5
James Joseph Sylvester (1814-1897).
6
Muitos certamente se surpreenderão em saber que Cayley e Sylvester eram originalmente advogados.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 3 175/1461
Coloquemo-nos agora a seguinte questão: qual é a forma da matriz A nessa base? No sub-espaço
gerado pelos vetores {z1 , . . . , zk } tem-se o seguinte: para i = 2, . . . , k vale Azi = zi−1 . Além disso, por
(3.24), Az1 = h1 z1 + h2 z2 + · · · + hk zk . Isso mostra que o subespaço gerado pelos vetores {z1 , . . . , zk }
é invariante pela ação de A e o operador linear A, no mesmo subespaço, tem a forma
h1 1 0 . . . 0 0
..
h2 0 1 . 0 0
. .. . . . . . . ..
.. . . . . .
. (3.25)
.
hk−2 0 0 . . 1 0
hk−1 0 0 . . . 0 1
hk 0 0 . . . 0 0
Se designarmos por P o operador que realiza essa mudança de base, o operador linear A na base
{z1 , . . . , zn } tem, portanto, a forma A′ = P −1 AP , onde
′ A1 0k, n−k
A = ,
A2 A3
onde A1 é a matriz k×k definida em (3.25), A2 é uma matriz (n−k)×k e A3 é uma matriz (n−k)×(n−k).
Não nos será necessário especificar os elementos das matrizes A2 e A3 .
Outros segundos (minutos?) de meditação, usando a Proposição 3.1 da página 162, nos levam a
concluir que o polinômio caracterı́stico q pode ser escrito como
(O estudante deve recordar-se que as matrizes A e A′ , por serem similares, têm o mesmo polinômio
caracterı́stico).
Vamos denominar qk (x) = det(x1 − A1 ) e rk (x) = det(x1 − A3 ). Claramente, q(x) = qk (x)rk (x).
Não será necessário, no que segue, calcular rk , mas precisaremos calcular qk . Como esse pequeno
resultado tem interesse independente, vamos formulá-lo como um lema, para futura referência.
Lema 3.1 Para h1 , . . . , hk ∈ C, tem-se
x − h1 −1 0 . . . 0 0
.
−h2 x −1 . . 0 0
. .. .. .. ..
.. . . . .
qk (x) := det = xk − (h1 xk−1 + · · · + hk−1 x + hk ) . (3.26)
.
−hk−2 0 0 . . −1 0
−hk−1 0 0 . . . x −1
−hk 0 0 ... 0 x
2
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 3 176/1461
Retomando, temos que q(A)y = qk (A)rk (A)y = rk (A)qk (A)y. Sucede, porém, que qk (A)y = 0. De
fato, pelo cômputo acima,
que é igual a zero por (3.24). Logo q(A)y = 0. Como y foi escolhido arbitrário, segue que q(A) = 0,
demonstrando o Teorema de Hamilton-Cayley, Teorema 3.3.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 3 177/1461
Nota. Usando a definição de polinômio caracterı́stico q(x) = det(x1 − A), é evidente (tomando-se
x = 0) que a0 = (−1)n det(A). Assim, a0 6= 0 se e somente se A for não-singular.
Em muitos casos a fórmula (3.29) é bastante eficiente para calcular A−1 , pois a mesma envolve
poucas operações algébricas em comparação com outros métodos, o que é uma vantagem para valores
grandes de n. Compare, por exemplo, com a regra de Laplace, expressão (3.11), página 157, para o
cálculo de A−1 , que envolve o cômputo de n2 + 1 determinantes de sub-matrizes de ordem n − 1 de A.
E. 3.16 Exercı́cio. Use esse método para calcular a inversa das suas matrizes não-singulares favoritas.
6
O Teorema 3.2, página 173, e o Teorema de Hamilton-Cayley, juntos, permitem-nos precisar algo a
respeito da forma geral do polinômio mı́nimo de uma matriz.
Se A ∈ Mat (C, n) tem r autovalores distintos α1 , . . . , αr , cada qual com multiplicidade algébrica
a1 , . . . , ar , respectivamente, então seu polinômio caracterı́stico q é da forma
r
Y
q(x) = (x − αk )ak .
k=1
Pelo Teorema de Hamilton-Cayley, q(A) = 0 e, portanto, pelo Teorema 3.2, M, o polinômio mı́nimo
de A, divide q. Logo, M deve ser da forma
s
Y
M(x) = (x − αkl )bl , (3.30)
l=1
onde s ≤ r, {αk1 , . . . , αks } ⊂ {α1 , . . . , αr } e onde 0 < bl ≤ akl para todo 1 ≤ l ≤ s. Seja agora,
porém, vm 6= 0 um autovetor de A com autovalor αm Segue do fato que M(A) = 0 que
s
Y s
Y
0 = M(A)vm = (A − αkl 1) vm =
bl
(αm − αkl )bl vm .
l=1 l=1
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 3 178/1461
Q
Logo, sl=1 (αm − αkl )bl = 0 e isso implica que αm ∈ {αk1 , . . . , αks }. Como isso vale para todo
1 ≤ m ≤ r, segue que {α1 , . . . , αr } ⊂ {αk1 , . . . , αks } e, portanto, {α1 , . . . , αr } = {αk1 , . . . , αks }.
Nossa conclusão é resumida no seguinte:
Proposição 3.9 Seja A ∈ Mat (C, n) com r autovalores distintos α1 , . . . , αr ∈ C, cada qual com
multiplicidade algébrica a1 , , . . . , ar , sendo 1 ≤ r ≤ n. Então M, o polinômio mı́nimo de A, é da
forma
Yr
M(x) = (x − αk )bk , (3.31)
k=1
∀x ∈ C. 2
• Matrizes Diagonalizáveis
Vamos agora apresentar uma noção intimamente ligada à de matriz simples introduzida acima
(página 168), mas de importância maior.
Definição. Uma matriz A ∈ Mat (C, n) é dita ser uma matriz diagonalizável se existir uma matriz
invertı́vel P ∈ Mat (C, n) tal que P −1 AP é uma matriz diagonal, ou seja,
d1 · · · 0
P −1AP = D = diag (d1 , . . . , dn ) = ... . . . ... .
0 · · · dn
o que mostra que os di são as raı́zes do polinômio caracterı́stico de A e, portanto, seus autovalores.
• Diagonalização de Matrizes
Prova. Vamos primeiro provar que se A ∈ Mat (C, n) possui um conjunto de n autovetores linearmente
independentes então A é diagonalizável. Para tal vamos construir a matriz P que diagonaliza A.
Seja {v 1 , . . . , v n } um conjunto de n autovetores linearmente independentes de A, cujos autovalores
são {d1 , . . . , dn }, respectivamente. Vamos denotar as componentes de v i na base canônica por vji ,
hh ii
1 n
j = 1, . . . , n. Seja a matriz P definida por P = v , . . . , v , ou seja,
v11 · · · v1n
P = ... . . . ... .
vn1 · · · vnn
Como se vê pela construção, a a-ésima coluna de P é formada pelas componentes do vetor v a . Por
(3.4), segue que hh ii hh ii
AP = Av 1 , . . . , Av n = d1 v 1 , . . . , dn v n .
Portanto, AP = P D. Como, por hipótese, as colunas de P são formadas por vetores linearmente
independentes, tem-se que det(P ) 6= 0 (por que?). Logo, P é invertı́vel e, portanto, P −1 AP = D, como
querı́amos demonstrar.
Vamos provar agora a afirmação recı́proca que se A é diagonalizável, então possui n autovetores
linearmente independentes. Suponha que exista P tal que
d1 · · · 0
P −1 AP = D = ... . . . ... .
0 · · · dn
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 3 180/1461
Av a = AP ea = P Dea = P (da ea ) = da P ea = da v a .
Provar que os vetores v a são linearmente independentes é fácil. Suponha que existam números com-
plexos α1 , . . . , αn tais que
α1 v 1 + · · · + αn v n = 0 .
Multiplicando-se à esquerda por P −1 terı́amos
α1 e1 + · · · + αn en = 0 .
Vamos agora discutir a relação entre os conceitos de matriz diagonalizável e o de matriz simples,
conceito esse introduzido à página 168. Tem-se a saber o seguinte fato:
Proposição 3.10 Uma matriz A ∈ Mat (C, n) é diagonalizável se e somente se for simples, ou
seja, se e somente se a multiplicidade algébrica de cada um dos seus autovalores coincidir com sua
multiplicidade geométrica. 2
Prova. Se A é diagonalizável existe P tal que P −1 AP = D, diagonal. Como toda matriz diagonal, D é
simples. Escrevamos D na forma
D = diag α1 , . . . , α1 , . . . , αr , . . . , αr , .
| {z } | {z }
a1 vezes ar vezes
• Projetores
então r ≤ n. Para ver isso, basta tomar o traço de ambos os lados dessa expressão:
r
X
Tr(1) = Tr(Ea ) . (3.32)
a=1
O lado esquerdo vale n enquanto que o lado direito é uma soma de r inteiros positivos. Obviamente
isso só é possı́vel se r ≤ n.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 3 182/1461
• O Teorema Espectral
O chamado Teorema Espectral é um dos mais importantes teoremas de toda a Álgebra Linear e, em
verdade, de toda Análise Funcional, já que o mesmo possui generalizações para operadores limitados
e não-limitados (auto-adjuntos) agindo em espaços de Hilbert. Dessas generalizações trataremos na
Seção 26.6.1, página 1352, para o caso dos chamados operadores compactos e na Seção 26.7, página
1360, para o caso geral de operadores limitados auto-adjuntos. Nessa versão mais geral o teorema
espectral é de importância fundamental para a interpretação probabilı́stica da Fı́sica Quântica. Vide
discussão da Seção 26.7.5, página 1381.
Teorema 3.5 (O Teorema Espectral para Matrizes) Uma matriz A ∈ Mat (C, n) é diagona-
lizável se e somente se existirem r ∈ N, 1 ≤ r ≤ n, escalares distintos α1 , . . . , αr e projetores
não-nulos distintos E1 , . . . , Er ∈ Mat (C, n) tais que
r
X
A = αa Ea , (3.33)
a=1
r
X
1 = Ea (3.34)
a=1
e
Ei Ej = δi, j Ej .
Adiante demonstraremos uma versão um pouco mais detalhada desse importante teorema (Teorema
3.7, abaixo). Os projetores Ea que surgem em (3.33) são denominados projetores espectrais de A. A
decomposição (3.33) é freqüentemente denominada decomposição espectral de A. Na Proposição 3.11,
página 185 mostraremos como os projetores espectrais Ea de A podem ser expressos em termos de
polinômios em A. Na Proposição 3.12, página 185, provaremos a unicidade da decomposição espectral
de uma matriz diagonalizável.
Prova do Teorema 3.5. Se A ∈ Mat (C, n) é diagonalizável existe P ∈ Mat (C, n) tal que P −1 AP =
D = diag (λ1 , . . . , λn ), onde λ1 , . . . , λn são os autovalores de A. Como pode haver autovalores
repetidos, vamos denotar por {α1 , . . . , αr }, 1 ≤ r ≤ n, o conjunto de autovalores distintos de A.
É bem claro que podemos escrever
r
X
D = αa Ka ,
a=1
onde as matrizes Ka são todas matrizes diagonais, cujos elementos diagonais são ou 0 ou 1 e tais que
r
X
Ka = 1 . (3.35)
a=1
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 3 183/1461
As matrizes Ka são simplesmente definidas de modo a terem elementos de matriz iguais a 1 nas posições
da diagonal ocupadas pelo autovalor αa em D e zero nos demais. Formalmente,
1, se i = j e (D)ii = αa
(Ka )ij = 0, se i = j e (D)ii 6= αa .
0, se i 6= j
Por exemplo, se
2 0 0 0
0 3 0 0
D =
0
0 2 0
0 0 0 4
teremos
1 0 0 0 0 0 0 0 0 0 0 0
0 0 0 0 0 1 0 0 0 0 0 0
D = 2
0 +3
+4
.
0 1 0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0 0 0 1
É fácil constatar que as matrizes Ka têm a seguinte propriedade:
Ka Kb = δa, b Ka . (3.36)
De fato, é evidente que (Ka )2 = Ka para todo a, pois Ka é diagonal com zeros ou uns na diagonal.
Analogamente, se a 6= b Ka Kb = 0, pois os zeros ou uns aparecem em lugares distintos das diagonais
das duas matrizes.
Como A = P DP −1, tem-se que
r
X
A = αa Ea ,
a=1
−1
onde Ea := P Ka P . É fácil agora provar que
r
X
1 = Ea
a=1
e que
Ei Ej = δi, j Ej .
De fato, por (3.35),
r r r
!
X X X
Ea = P Ka P −1 = P Ka P −1 = P 1P −1 = 1 .
a=1 a=1 a=1
Vamos agora provar a recı́proca. Vamos supor que A possua a representação (3.33), onde os Ea ’s
satisfazem as propriedades enunciadas.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 3 184/1461
Notemos primeiramente que para todo vetor x, os vetores Ek x ou são nulos ou são autovetores de
A. De fato, por (3.33)
Xr
AEk x = αj Ej Ek x = αk Ek x .
j=1
Logo ou Ek x = 0 ou Ek x é autovetor de A.
Como há no máximo n autovetores, o espaço por eles gerado tem dimensão menor ou igual a n.
Por (3.34), porém, vale para todo vetor x que
r
X
x = 1x = Ek x .
k=1
Para x não-nulo, alguns dos Ek x, acima, devem ser não-nulos e, portanto, autovetores de A. Assim,
todo vetor x pode ser escrito como uma combinação linear de autovetores de A, o que significa que
o espaço gerado por esses autovetores tem dimensão exatamente igual a n. Pelo teorema 3.4, A é
diagonalizável. Isso completa a demonstração.
No Teorema 3.7, página 187, apresentaremos uma segunda demonstração do Teorema Espectral
para Matrizes, a qual lança luz sobre outras condições de diagonalizabilidade de matrizes. Antes,
exploremos algumas das conseqüências do Teorema Espectral.
O Teorema Espectral tem o seguinte corolário, muitas vezes conhecido como cálculo funcional.
Teorema 3.6 (Cálculo Funcional) Seja A ∈ Mat (C, n) uma matriz diagonalizável e seja
r
X
A = αa Ea .
a=1
sua decomposição espectral, de acordo com o Teorema Espectral, o Teorema 3.5. Então para qualquer
polinômio p vale
Xr
p(A) = p(αa )Ea . (3.37)
a=1
2
E. 3.19 Exercı́cio. Usando (3.37) demonstre novamente o Teorema de Hamilton-Cayley (Teorema 3.3,
página 174), agora apenas para matrizes diagonalizáveis. 6
O Cálculo Funcional para matrizes, Teorema 3.6, tem diversas conseqüências práticas, uma delas
sendo a seguinte proposição, que permite expressar os projetores espectrais de uma matriz A direta-
mente em termos de A.
Proposição 3.11 Seja A ∈ Mat (C, n), diagonalizável, e seja A = α1 E1 + · · · + αr Er , com os αk ’s
distintos, sua representação espectral, descrita no Teorema 3.5. Sejam os polinômios pj , j = 1, . . . , r,
definidos por
Yr
x − αl
pj (x) := . (3.38)
l=1
αj − αl
l6=j
Então,
Ej = pj (A) , ∀ j = 1, . . . , r . (3.39)
2
Prova. Pela definição dos polinômios pj , é evidente que pj (αk ) = δj, k . Logo, pelo Cálculo Funcional
para matrizes,
Xr
pj (A) = pj (αk )Ek = Ej .
k=1
Proposição 3.12 A representação espectral de uma matriz diagonalizável A ∈ Mat (C, n) descrita no
Teorema 3.5 é única. 2
r
X
Demonstração. Seja A ∈ Mat (C, n) diagonalizável e seja A = αk Ek a representação espectral de A
k=1
descrita no Teorema 3.5, onde αk , k = 1, . . . , r, com 1 ≤ r ≤ n são os autovalores distintos de A, Seja
Xr′
A= αk′ Ek′ uma segunda representação espectral para A, onde os αk′ ’s são distintos e onde os Ek′ ’s
k=1
r ′
X
são não-nulos e satisfazem Ej′ El′ = δj, l El′ e1= Ek′ . Por essa última propriedade segue que para
k=1
Pr′ ′
um dado vetor x 6= 0 vale x = de modo que nem todos os vetores Ek′ x são nulos. Seja Ek′ 0 x
k=1 Ek x,
P′
um desses vetores não-nulos. Tem-se que AEk′ 0 x = rk=1 αk′ Ek′ Ek′ 0 x = αk′ 0 Ek′ 0 x. Isso mostra que αk′ 0 é
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 3 186/1461
P′
(A igualdade pj (A) = rk=1 pj (αk )Ek′ segue do fato que os Ek′ ’s satisfazem as mesmas relações algébricas
que os Ek ’s e, portanto, para a representação espectral de A em termos dos Ek′ ’s vale também o Cálculo
Funcional). Lembrando que a igualdade Ej = Ej′ vale para todo 1 ≤ j ≤ r ′ , segue que
r r ′
X X
1 = Ek = Ek .
k=1 k=1
P
A última igualdade implica rk=r′+1 Ek = 0. Multiplicando por El com r ′ + 1 ≤ l ≤ r, segue que
El = 0 para todo r ′ + 1 ≤ l ≤ r. Isso só é possı́vel se r = r ′ , pois os E ′ k’s são não-nulos. Isso completa
a demonstração.
O Teorema Espectral, Teorema 3.5, pode ser formulado de um modo mais detalhado (Teorema
3.7). A principal utilidade dessa outra formulação é a de fornecer mais informações sobre os projetores
espectrais Ea (vide expressão (3.43), abaixo). Obtem-se também nessa nova formulação mais condições
necessárias e suficientes à diagonalizabilidade e que podem ser úteis, como veremos, por exemplo, no
Teorema 3.14 provado adiante (página 191).
Teorema 3.7 (Teorema Espectral para Matrizes. Versão Detalhada) Seja A ∈ Mat (C, n).
São equivalentes as seguintes afirmações:
2. A é diagonalizável, ou seja, existe uma matriz P ∈ Mat (C, n) invertı́vel tal que P −1AP é uma
matriz diagonal diag (d1 , . . . , dn ), onde os di ’s são autovalores de A.
3. Para todo vetor x ∈ Cn e todo escalar λ ∈ C tais que (A − λ1)2 x = 0, vale que (A − λ1)x = 0.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 3 187/1461
4. Se x é um vetor não-nulo tal que (A − λ1)x = 0 para algum λ ∈ C então não existe nenhum
vetor y com a propriedade que (A − λ1)y = x.
e
Ei Ej = δi, j Ej . (3.42)
Os projetores espectrais Ek do item 6, acima, podem ser expressos em termos de polinômios da matriz
A:
1
Ek = mk (A) , (3.43)
mk (αk )
para todo k, 1 ≤ k ≤ r, onde os polinômios mk são definidos por
P −1 (A − λ1)2 P y = 0
(d1 − λ)2 y1 = 0
..
.
(dn − λ)2 yn = 0,
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 3 188/1461
(D − λ1)y = 0 .
3 → 4. A prova é feita por contradição. Vamos supor que para algum vetor x 6= 0 exista λ ∈ C tal que
(A − λ1)x = 0. Suponhamos também que exista vetor y tal que (A − λ1)y = x. Terı́amos
(A − λ1)2 y = (A − λ1)x = 0 .
Pelo item 3 isso implica (A − λ1)y = 0. Mas isso diz que x = 0, uma contradição.
4 → 5. Seja M o polinômio mı́nimo de A, ou seja, o polinômio mônico7 de menor grau tal que M(A) = 0.
Vamos mostrar que todas as raı́zes de M têm multiplicidade 1. Vamos, por contradição, supor
que haja uma raiz, λ0 , com multiplicidade maior ou igual a 2. Terı́amos, para x ∈ C,
M(x) = p(x)(x − λ0 )2 .
Assim, M(A) = p(A)(A − λ0 1)2 = 0. Como M é, por definição, o polinômio de menor grau que
zera em A, segue que
p(A)(A − λ0 1) 6= 0 .
Assim, existe pelo menos um vetor z tal que p(A)(A − λ0 1)z 6= 0. Vamos definir um vetor x por
x := p(A)(A − λ0 1)z. Então
x = (A − λ0 1)y ,
5 → 6. Pela hipótese que as raı́zes de M são simples segue da expressão (3.31) da Proposição 3.9, página
178, que para x ∈ C,
Yr
M(x) = (x − αj ) ,
j=1
7
A definição de polinômio mônico está à página 172.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 3 189/1461
Como os polinômios mk têm grau r − 1, o polinômio g tem grau menor ou igual a r − 1. Porém,
observe-se que, para todos os αj , j = 1, . . . , r, vale
r
X 1 mj (αj )
g(αj ) = 1 − mk (αj ) = 1 − = 0.
k=1
mk (αk ) mj (αj )
Assim, g tem pelo menos r raı́zes distintas! O único polinômio de grau menor ou igual a r − 1
que tem r raı́zes distintas é o polinômio nulo. Logo, concluı́mos que
r
X 1
g(x) = 1 − mk (x) ≡ 0
mk (αk )
k=1
para todo x ∈ C. Isso significa que todos os coeficientes de g são nulos. Assim, para qualquer
matriz B tem-se g(B) = 0. Para a matriz A isso diz que
r
X 1
1 = mk (A) .
k=1
mk (αk )
Definindo-se
1
Ek := mk (A) , (3.44)
mk (αk )
concluı́mos que
r
X
1 = Ek . (3.45)
k=1
Para todo k vale 0 = M(A) = (A − αk 1)mk (A), ou seja, Amk (A) = αk mk (A). Pela definição de
Ek isso significa
AEk = αk Ek .
Assim, multiplicando-se ambos os lados de (3.45) por A, segue que
r
X
A = αk Ek .
k=1
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 3 190/1461
r
" r #
1 Y Y
= (A − αk 1) (A − αl 1)
mi (αi )mj (αj ) k=1 l=1
k6=i, k6=j
r
Y
1
= (A − αk 1) M(A)
mi (αi )mj (αj ) k=1
k6=i, k6=j
= 0,
pois M(A) = 0. Resta-nos provar que Ej2 = Ej para todo j. Multiplicando-se ambos os lados de
(3.45) por Ej teremos
Xr
Ej = Ej Ek = Ej Ej ,
k=1
6 → 1. Notemos primeiramente que para todo vetor x, os vetores Ek x ou são nulos ou são autovetores
de A. De fato, por 6,
Xr
AEk x = αj Ej Ek x = αk Ek x .
j=1
Assim, todo vetor x pode ser escrito como uma combinação linear de autovetores de A, o que
significa que o espaço gerado pelos autovetores tem dimensão exatamente igual a n.
Destacamos ao leitor o fato de que a expressão (3.43) permite representar os projetores espectrais
diretamente em termos da matriz diagonalizável A.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 3 191/1461
• Diagonalizabilidade de Projetores
A proposição abaixo é uma aplicação simples do Teorema 3.7 a projetores. A mesma será usada
abaixo quando falarmos de diagonalização simultânea de matrizes.
Proposição 3.13 Seja E ∈ Mat (C, n) um projetor, ou seja, tal que E 2 = E. Então E é diagona-
lizável. 2
(E2 )2 = (1 − E)2 = 1 − 2E + E 2 = 1 − 2E + E = 1 − E = E2 .
E1 E2 = E(1 − E) = E − E 2 = E − E = 0 .
Até agora estudamos condições necessárias e suficientes para que uma matriz seja diagonalizável.
Vimos que uma matriz A ∈ Mat (C, n) é diagonalizável se e somente se for simples ou se e somente
se tiver n autovetores linearmente independentes ou se e somente se puder ser representada na forma
espectral, como em (3.33). Nem sempre, porém, é imediato verificar essas hipóteses, de modo que é
útil saber de condições mais facilmente verificáveis e que sejam pelo menos suficientes para garantir
diagonalizabilidade. Veremos abaixo que é, por exemplo, suficiente que uma matriz seja auto-adjunta
ou normal para garantir que ela seja diagonalizável.
Uma outra condição útil é aquela contida na seguinte proposição.
Proposição 3.14 Se A ∈ Mat (C, n) tem n autovalores distintos então A é diagonalizável. 2
Prova. Isso é imediato pelas Proposições 3.5 e 3.10, das páginas 169 e 180, respectivamente.
Observação. A condição mencionada na última proposição é apenas suficiente, pois há obviamente
matrizes diagonalizáveis que não têm autovalores todos distintos.
Outra forma de provar a Proposição 3.14 é a seguinte. Seja {λ1 , . . . , λn } o conjunto dos n
autovalores de A, todos distintos. O polinômio caracterı́stico de A é q(x) = (x − λ1 ) · · · (x − λn ). Como
as raı́zes de q têm, nesse caso, multiplicidade 1, segue pela Proposição 3.9, página 178, que o polinômio
mı́nimo de A, M, coincide com o polinômio caracterı́stico de A: q(x) = M(x), ∀x ∈ C. Logo, o
polinômio mı́nimo M de A tem também raı́zes com multiplicidade 1. Assim, pelo item 5 do Teorema
3.7, página 187, A é diagonalizável.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 3 192/1461
E. 3.20 Exercı́cio. Demonstre a seguinte afirmação: se os autovalores de uma matriz A são todos iguais,
então A é diagonalizável se e somente se for um múltiplo de 1. Sugestão: use o Teorema Espectral ou a
forma geral do polinômio mı́nimo (3.31). 6
Segue da afirmativa desse exercı́cio que matrizes triangulares superiores com diagonal principal
constante, ou seja, da forma
α A12 . . . A1(n−1) A1n
0 α . . . A2(n−1) A2n
.. ,
A = ... ..
. .
0 0 . . . α A(n−1)n
0 0 ... 0 α
só são diagonalizáveis se todos os elementos acima da diagonal principal forem nulos, ou seja, se Aij = 0,
∀j > i. Naturalmente, a mesma afirmativa é válida para matrizes da forma AT , triangulares inferiores
com diagonal principal constante.
Prova. A parte fácil da demonstração é provar que se A e B podem ser diagonalizadas pela mesma
matriz P então A e B comutam entre si. De fato
pois P −1 AP e P −1 BP são ambas diagonais e matrizes diagonais sempre comutam entre si (por que?).
Assim, P −1(AB − BA)P = 0 e, portanto, AB = BA.
Vamos agora passar a mostrar que se AB = BA então ambas são diagonalizáveis por uma mesma
matriz P .
Sejam α1 , . . . , αr os r autovalores distintos de A e β1 , . . . , βs os s autovalores distintos de B.
Evocando o teorema espectral, A e B podem ser escritos de acordo com suas decomposições espec-
trais como r
X
A = αi EiA
i=1
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 3 193/1461
e s
X
B = βj EjB ,
j=1
e −1
Ys
s
Y
EjB = (βj − βk ) (B − βk 1) , j = 1, . . . , s . (3.47)
k=1
k=1
k6=j k6=j
Como A e B comutam entre si e como EiA e EjB , dados em (3.46)-(3.47), são polinômios em A e B,
respectivamente, segue que EiA e EjB também comutam entre si para todo i e todo j.
Com isso, vamos definir
Qi, j = EiA EjB = EjB EiA
para i = 1, . . . , r e j = 1, . . . , s.
Note-se que os Qi, j ’s são projetores pois
Q2i, j = (EiA EjB )(EiA EjB ) = (EiA )2 (EjB )2 = EiA EjB = Qi, j .
pois ! !
r X
X s r X
X s r
X s
X
Qi, j = EiA EjB = EiA EjB = 11 = 1 .
i=1 j=1 i=1 j=1 i=1 j=1
e r X
s
X
B = γi,B j Qi, j , (3.51)
i=1 j=1
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 3 194/1461
Qk Ql = δk, l Qk .
onde as constantes χA B A B
k e χk estão relacionadas de modo óbvio com γi, j e γi, j , respectivamente.
Em (3.53) e (3.54) vemos que A e B, por serem diagonalizáveis e por comutarem entre si, têm
decomposições espectrais com os mesmos projetores espectrais. Note-se também que, pela observação
feita no tópico Projetores, à página 181 (vide equação (3.32)), tem-se 1 ≤ t ≤ n.
Vamos agora completar a demonstração que A e B podem ser diagonalizados por uma mesma matriz
invertı́vel P .
Seja Ek o subespaço dos autovetores de Qk com autovalor 1. Sub-espaços Ek ’s diferentes têm em
comum apenas o vetor nulo. De fato, se k 6= l e w é um vetor tal que Qk w = w e Ql w = w então, como
Qk Ql = 0 segue que
0 = (Qk Ql )w = Qk (Ql w) = Qk w = w .
u1k , . . . , udkk
Pt Pt
Como 1 = k=1 Qk , tem-se, tomando-se o traço, que n = k=1 dk .
Pelas definições, temos que
Ql uak = δk, l uak , (3.55)
pois Qk uak = uak e, portanto, Ql uak = Ql (Qk uak ) = (Ql Qk )uak = 0 para k 6= l.
Afirmamos que o conjunto de vetores
é um conjunto de n vetores linearmente independentes. De fato, suponha que existam constantes ck, j
tais que
X dk
t X
ck, j ujk = 0 .
k=i j=1
o que só é possı́vel se cl, j = 0 para todo j pois u1l , . . . , udl l , foram escolhidos linearmente independentes.
Como l é arbitrário, concluı́mos que cl, j = 0 para todo l e todo j, o que mostra que o conjunto de
vetores em (3.56) é linearmente independente.
Seja então a matriz P ∈ Mat (C, n) definida por
hh ii
P = u11 , . . . , ud11 , u12 , . . . , ud22 , . . . u1t , . . . , udt t .
P é invertı́vel pois o conjunto (3.56) é linearmente independente (e, portanto, det(P ) 6= 0).
Tem-se, hh ii
AP = Au11 , . . . , Aud11 , Au12 , . . . , Aud22 , . . . , Au1t , . . . , Audt t .
P
Escrevendo A = tl=1 χA
l Ql (3.53) e usando (3.55), temos
t
X
Auak = χA a A a
l Ql uk = χk uk .
l=1
Assim,
hh ii
A d1 A d1
AP = χA u
1 1
1
, . . . , χ u
1 1 , χA 1
u
2 1 , . . . , χ u
2 1 , . . . , χA 1
u
t t , . . . , χA dt
u
t t = P DA ,
onde
DA = diag χA , . . . , χA A A A A
1 , χ2 , . . . , χ2 , . . . , χt , . . . , χt .
| 1 {z } | {z } | {z }
d1 vezes d2 vezes dt vezes
Portanto,
P −1 AP = DA .
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 3 196/1461
Analogamente,
hh ii
BP = Bu11 , . . . , Bud11 , Bu12 , . . . , Bud22 , . . . Bu1t , . . . , Budt t .
Pt
Escrevendo B = l=1 χB
l Ql (3.54) temos,
hh ii
B d1 B d2
BP = χB u
1 1
1
, . . . , χ u
1 1 , χB 1
u
2 2 , . . . , χ u
2 2 , . . . , χB 1
u
t t , . . . , χB dt
u
t t = P DB ,
onde
DB = diag χB , . . . , χB B B B B
1 , χ2 , . . . , χ2 , . . . , χt , . . . , χt .
| 1 {z } | {z } | {z }
d1 vezes d2 vezes dt vezes
Portanto,
P −1 BP = DB .
Isso provou que A e B são diagonalizáveis pela mesma matriz invertı́vel P . A demonstração do
Teorema 3.8 está completa.
Seja A ∈ Mat (C, n). Como já vimos, o espectro de A, σ(A), é o conjunto de raı́zes de seu
polinômio caracterı́stico, definido por pA (z) = det(z 1 − A), z ∈ C. Como para toda B ∈ Mat (C, n)
vale det(B ∗ ) = det(B) (por quê?), segue que pA (z) = det(z 1 − A) = det(z 1 − A∗ ) = pA∗ (z), ou seja,
pA∗ (z) = pA (z). Com isso, provamos a seguinte afirmação:
Proposição 3.16 Seja A ∈ Mat (C, n). Então, λ ∈ σ(A) se e somente se λ ∈ σ(A∗ ), ou seja, λ é um
autovalor de A se e somente se λ é um um autovalor de A∗ .
Definição. Um operador linear em Cn é dito ser normal se AA∗ = A∗ A. Ou seja, A é normal se comuta
com seu adjunto.
Definição. Um operador linear em Cn é dito ser unitário se A∗ A = AA∗ = 1. É claro que todo
operador unitário é normal e que um operador é unitário em Cn se e somente se A∗ = A−1 . Note que
se A é unitário então, para todos u, v ∈ V , tem-se
hAu, Avi = hu, vi .
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 3 198/1461
É importante notar que para qualquer operador linear A em Cn sua parte real e imaginária são
ambas operadores Hermitianos: (Re (A))∗ = Re (A) e (Im (A))∗ = Im (A).
Para operadores normais tem-se a seguinte proposição, que será útil adiante e serve como caracte-
rização alternativa do conceito de operador normal.
Proposição 3.17 Um operador linear agindo em Cn é normal se e somente se sua parte real comuta
com sua parte imaginária. 2
Teorema 3.11 Os autovetores associados a autovalores distintos de uma matriz simétrica são ortogo-
nais entre si. 2
Prova. Seja A simétrica e λ1 , λ2 dois de seus autovalores, que suporemos distintos. Seja v1 autovetor
de A com autovalor λ1 e v2 autovetor de A com autovalor λ2 . Temos, por A ser simétrico,
O lado esquerdo vale λ2 hv1 , v2 i e o lado direito λ1 hv1 , v2 i (lembre-se que λ1 é real). Assim
(λ2 − λ1 )hv1 , v2 i = 0 .
Teorema 3.12 Os autovetores associados a autovalores distintos de uma matriz unitária são ortogo-
nais entre si. 2
Prova. Seja U unitária e sejam λ1 , λ2 dois de seus autovalores, sendo que suporemos λ1 6= λ2 . Seja v1
autovetor de U com autovalor λ1 e v2 autovetor de U com autovalor λ2 . Temos, por U ser unitário,
O lado esquerdo vale λ2 λ1 hv1 , v2 i = λλ21 (lembre-se que λ1 é um número complexo de módulo 1 e,
portanto λ1 = λ−1
1 ). Assim
λ2
− 1 hv1 , v2 i = 0 .
λ1
Como λ2 6= λ1 , segue que hv1 , v2 i = 0, que é o que se queria provar.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 3 200/1461
• Projetores Ortogonais
Um exemplo importante de projetor ortogonal é representado por projetores sobre sub-espaços uni-
dimensionais gerados por vetores. Seja v um vetor cuja norma assumiremos ser 1, ou seja, kvk =
p
hv, vi = 1. Definimos o projetor Pv sobre o sub-espaço gerado por v por
Pv u := hv, ui v , (3.57)
para todo vetor u. Provemos que Pv é um projetor ortogonal. Por um lado, tem-se
Pv2 u = hv, ui Pv v = hv, ui hv, vi v = hv, ui v = Pv u ,
o que mostra que Pv2 = Pv . Por outro lado, para quaisquer vetores a e b, usando as propriedades de
linearidade, anti-linearidade e conjugação complexa do produto escalar, tem-se
ha, Pv bi = ha, hv, bi vi = hv, bi ha, vi = hha, vi v, bi = hhv, ai v, bi = hPv a, bi ,
provando que Pv∗ = Pv . Isso mostra que Pv é um projetor ortogonal.
Um fato crucial sobre projetores como Pv é o seguinte. Se u e v são dois vetores ortogonais, ou seja,
se hu, vi = 0 então Pu Pv = Pv Pu = 0. Para provar isso notemos que para qualquer vetor a vale
Pu (Pv a) = Pu (hv, ai v) = hv, ai Pu v = hv, ai hu, vi u = 0 .
O mesmo se passa para Pv (Pu a).
Vamos aqui demonstrar a seguinte afirmação importante: toda matriz auto-adjunta é diagonalizável.
Uma outra demonstração (eventualmente mais simples) dessa afirmação pode ser encontrada na Seção
3.8.2, página 226. Vide Teorema 3.24, página 228.
Teorema 3.13 Se A ∈ Mat (C, n) é auto-adjunta, então A possui n autovetores mutuamente orto-
normais v1 , . . . , vn , com autovalores λ1 , . . . , λn , respectivamente, e pode ser representada na forma
espectral
A = λ1 Pv1 + · · · + λn Pvn . (3.58)
Portanto, se A é auto-adjunta, então A é diagonalizável, sendo que é possı́vel encontrar uma matriz
unitária P que diagonaliza A, ou seja, tal que P −1 AP é diagonal e P −1 = P ∗ . 2
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 3 201/1461
Note-se que se α1 , . . . , αr com 1 ≤ r ≤ n são os autovalores distintos de A, então (3.58) pode ser
reescrita como A = α1 P1 + · · · + αr Pr , onde cada Pk é o projetore ortogonal dado pela soma dos Pvj ’s
de mesmo autovalor αk . A Proposição 3.12, página 185, garante a unicidade dessa representação para
A.
Prova do Teorema 3.13. A demonstração que A é diagonalizável será feita construindo-se a representação
espectral (3.58) para A. Seja λ1 um autovalor de A e v1 um autovetor de A com autovalor λ1 normalizado
de tal forma que kv1 k = 1. Vamos definir um operador A1 por
A1 = A − λ1 Pv1 .
A1 v1 = Av1 − λ1 Pv1 v1 = λ1 v1 − λ1 v1 = 0 .
Como λ2 também é real A2 é igualmente auto-adjunto. Fora isso afirmamos que A2 anula os vetores
do sub-espaço [v1 , v2 ] e mantem [v1 , v2 ]⊥ invariante. De fato,
A2 v2 = A1 v2 − λ2 Pv2 v2 = λ2 v2 − λ2 v2 = 0 .
An = A − λ1 Pv1 − · · · − λn Pvn
Vamos provar agora que essa é a representação espectral de A. Como os vk ’s são mutuamente
ortogonais, é evidente que Pvk Pvl = δk, l Pvk . Resta-nos provar que Pv1 + · · · + Pvn = 1. Como
v1 , . . . , vn formam uma base, todo vetor x pode ser escrito como uma combinação linear
x = α1 v1 + · · · + αn vn . (3.60)
Tomando-se o produto escalar com va , e usando o fato que os vk ’s são mutuamente ortogonais, tem-se
αa = hva , xi .
Pv1 + · · · + Pvn = 1 .
Assim, A possui uma representação espectral como (3.33). Pelo Teorema Espectral 3.5, A é diagona-
lizável.
Por (3.59), vemos que Ava = λa va (verifique!). Logo os λa ’s são autovalores de A e os va ’s
seus autovetores. Assim, se A é auto-adjunto, podemos escontrar n autovetores de A mutuamente
ortogonais, mesmo que sejam autovetores com o mesmo autovalor. Isso generaliza o Teorema 3.11.
hh ii
Pelo que já vimos A é diagonalizada por P −1 AP , onde podemos escolher P = v 1 , . . . , v n . É
fácil verificar, porém, que P é unitária. De fato, é um exercı́cio simples (faça!) mostrar que
hv1 , v1 i · · · hv1 , vn i
.. .. ..
P ∗P = . . . .
hvn , v1 i · · · hvn , vn i
Como hva , vb i = δa, b , a matriz do lado direito é igual a 1, mostrando que P ∗ P = P P ∗ = 1 e que,
portanto, P é unitária.
Prova. Se A ∈ Mat (C, n) é diagonalizável por uma transformação de similaridade unitária e seus
autovalores são reais, ou seja, existe P unitária e D diagonal real com P ∗ AP = D, então A = P DP ∗
e A∗ = P D ∗ P ∗ . Como D é diagonal e real, vale D ∗ = D e, portanto, A∗ = P DP ∗ = A, provando que
A é auto-adjunta. A recı́proca já foi provada acima.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 3 203/1461
O teorema que afirma que toda matriz simétrica é diagonalizável tem a seguinte conseqüência:
Teorema 3.14 Se A ∈ Mat (C, n) é normal então A é diagonalizável. 2
Prova. Já vimos que toda matriz A pode ser escrita na forma A = Re (A)+iIm (A) onde Re (A) e Im (A)
são auto-adjuntas. Vimos também que se A é normal Re (A) e Im (A) comutam entre si (Proposição
3.17). Pelo Teorema 3.8, Re (A) e Im (A) podem ser simultaneamente diagonalizados.
Observação. Como no caso auto-adjunto, o operador que faz a diagonalização pode ser escolhido
unitário. De fato, vale uma afirmativa ainda mais forte.
Teorema 3.15 Uma matriz A ∈ Mat (C, n) é normal se e somente se for diagonalizável por um
operador unitário. 2
Prova. Resta provar apenas que se A é diagonalizável por um operador unitário P então A é normal.
Seja D = P ∗ AP . Tem-se D ∗ = P ∗ A∗ P (por que?). Assim,
A∗ A − AA∗ = P D ∗ P ∗ P DP ∗ − P DP ∗P D ∗ P ∗ = P (D ∗ D − DD ∗ )P ∗ = 0 ,
já que D ∗ e D comutam por serem diagonais (duas matrizes diagonais quaisquer sempre comutam. Por
quê?). Isso completa a prova que A é normal.
Uma outra demonstração (eventualmente mais simples) dessa afirmação pode ser encontrada na
Seção 3.8.2, página 226. Vide Teorema 3.25, página 228.
Prova. A expressão ω(u, v) := hu, Avi, u, v ∈ Cn , define uma forma sesquilinear que, por hipótese, é
positiva, ou seja, satisfaz ω(u, u) ≥ 0 para todo u ∈ Cn . Pelo Teorema 2.6, página 121, ω é Hermitiana,
ou seja, ω(u, v) = ω(v, u) , para todos os vetores u e v. Mas isso significa que hu, Avi = hv, Aui, ou
seja, hu, Avi = hAu, vi para todos os vetores u e v e assim provou-se que A = A∗ . Uma outra forma
de demonstrar isso usa a desigualdade de polarização. Se A é positiva então, para quaisquer vetores
9
Vários dos resultados que seguem podem ser generalizados para operadores lineares positivos agindo em espaços de
Hilbert. Vide Teorema 26.21, página 1316.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 3 204/1461
u, v ∈ Cn vale h(u + in v), A(u + in v)i ≥ 0 para todo n ∈ Z e, portanto, h(u + in v), A(u + in v)i é um
número real. Usando a identidade de polarização, eqs. (2.31)-(2.32), página 133, vale, para quaisquer
vetores u, v ∈ Cn ,
3 3
(2.31) 1 X −n 1X n
hAv, ui = hu, Avi = i h(u + in v), A(u + in v)i = i h(u + in v), A(u + in v)i
4 n=0 4 n=0
3
1 X −n n n
= i i i h(u + in v), A(u + in v)i
4 n=0
3
sesquilin. 1 X −n −n
= i hi (u + in v), Ain (u + in v)i
4 n=0
3
1 X −n
= i h(v + i−n u), A((−1)n v + in u)i
4 n=0
3
1X
= (−1)n i−n h(v + i−n u), A(v + i−n u)i
4 n=0
3
1X n (2.32)
= i h(v + i−n u), A(v + i−n u)i = hv, Aui .
4 n=0
Assim, hAv, ui = hv, Aui para todos u, v ∈ Cn , o que significa que A é Hermitiana. Portanto,
por (3.58), podemos escrever A = λ1 Pv1 + · · · + λn Pvn , onde v1 , . . . , vn são autovetores mutuamente
ortonormais de A com autovalores λ1 , . . . , λn , respectivamente. Disso segue que hvj , Avj i = λj para
todo j = 1, . . . , n. Como o lado esquerdo é ≥ 0, por hipótese, segue que λj ≥ 0 para todo j = 1, . . . , n.
Se, reciprocamente, A for auto-adjunta com autovalores não-negativos, segue de (3.58) e da definição
Xn
de Pvj em (3.57) que hw, Awi = λj |hw, vj i|2 ≥ 0, para todo w ∈ Cn , provando que A é positiva.
j=1
Demonstração. Se A = B 2 com B positiva, então, como B é auto-adjunta (pela Proposição 3.19), segue
que para todo w ∈ Cn vale hw, Awi = hw, B 2 wi = hBw, Bwi = kBwk2 ≥ 0, provando que A é
positiva. Provemos agora a recı́proca.
Se A é positiva então, como comentamos na demonstração da Proposição 3.19, A é autoadjunta
com representação espectral A = λ1 Pv1 + · · · + λn Pvn , onde v1 , . . . , vn são autovetores mutuamente
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 3 205/1461
Como, pela ortonormalizade dos vj ’s, vale Pvj Pvk = δj, k Pvj , é fácil ver que B 2 = λ1 Pv1 +· · ·+λn Pvn = A.
A unicidade de B segue da unicidade da decomposição espectral, Proposição 3.12, página 185. A
igualdade (B 2 )B = B(B)2 significa AB = BA, provando que A e B comutam.
Prova. Se C comuta com A, então A comuta com qualquer polinômio em A. Vimos na Proposição
3.11, página 185, que os projetores espectrais de A podem ser √
escritos como polinômios em A. Assim,
C comuta com os projetores espectrais de A e, portanto, com A, devido a (3.61).
Demonstração. Seja A ∈ Mat (C, n). Se A é Hermitiana (vamos supor que A 6= 0, pois de outra
forma não há o que se provar), então, para todo w ∈ Cn , o produto escalar hw A2 wi é um número
real e, pela desigualdade de Cauchy-Schwarz, |hw A2 wi| ≤ kA2 k kwk2Cn . Assim, −kA2 k kwk2Cn ≤
hw, A2 wi ≤ kA2 k kwk2Cn Logo, a matriz 1 − A2 /kA2 k é positiva, pois
p hw, (1 − A2 /kA2 k)wi = kwk2Cn −
hw, A2 wi/kA2 k ≥ kwk2Cn − kwk2Cn = 0. Conseqüentemente, 1 − A2 /kA2 k existe e é positiva e
Hermitiana. Trivialmente, podemos escrever
p s ! p s !
kA2 k A A2 kA2 k A A2
A = p +i 1− + p −i 1− . (3.62)
2 kA2 k kA2 k 2 kA2 k kA2 k
q
Agora, as matrizes √ A
2
±i 1− A2
kA2 k
são unitárias. Para ver isso, notemos que
kA k
s !∗ s !
A A2 A A2
p +i 1− = p −i 1−
kA2 k kA2 k kA2 k kA2 k
e que s ! s !
A A2 A A2
p +i 1− p −i 1− 2 = 1.
kA2 k kA2 k kA2 k kA k
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 3 206/1461
q
Para provar a última igualdade basta expandir o produto e notar que, pelo Lema 3.2, A e 1− A2
kA2 k
As afirmações acima permanecem verdadeiras trocando “matriz triangular superior” por “matriz tri-
angular inferior”. 2
Prova. Os três primeiros itens são elementares. Para provar o item 4, usa-se a regra de Laplace,
expressão (3.11), página 157. Como é fácil de se ver, Cof(S)ji = 0 se i > j. Logo, S −1 é triangular
superior, se existir.
As propriedades acima atestam que o conjunto das matrizes n×n triangulares superiores invertı́veis
forma um grupo, denominado por alguns autores Grupo de Borel10 de ordem n e denotado por GBn (C).
O seguinte resultado sobre matrizes triangulares superiores será usado diversas vezes adiante.
10
Armand Borel (1923-2003).
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 3 207/1461
Lema 3.3 Uma matriz triangular superior S ∈ Mat (C, n) é normal (ou seja, satisfaz SS ∗ = S ∗ S) se
e somente se for diagonal. 2
Prova. Se S é diagonal, S é obviamente normal pois S ∗ é também diagonal e matrizes diagonais sempre
comutam entre si. Provaremos a recı́proca, o que será feito por indução. Para n = 1 não há o que
provar. Se n = 2, S é da forma S = ( a0 bc ), com a, b, c ∈ C. A condição SS ∗ = S ∗ S significa
2 2
|a| + |b|2 bc |a| ba
= ,
cb |c|2 ab |b|2 + |c|2
o que implica b = 0, provando que S é diagonal. Procedemos agora por indução, supondo n > 2 e que
o lema seja válido para matrizes (n − 1) × (n − 1) triangulares superiores normais. Se S ∈ Mat (C, n)
é triangular superior, S é da forma
b1 0
a bT .. ..
S= , sendo a ∈ C , b = . , 0 = . ,
0 C
bn−1 0
onde λ1 , . . . , λn são os autovalores de A e onde os γi valem 1 ou 0, mas que forma que a matriz
diagonal
λ1 0 0 0 ··· 0 0
0 λ2 0 0 ··· 0 0
0 0 λ3 0 ··· 0 0
..
0 0 0 λ4 . 0 0 , (3.64)
. .. .. .. .. .. ..
.. . . . . . .
0 0 0 0 · · · λn−1 0
0 0 0 0 ··· 0 λn
e a matriz supra-diagonal
0 γ1 0 0 ··· 0 0
0 0 γ2 0 ··· 0 0
0 0 0 γ3 ··· 0 0
..
0 0 0 0 . 0 0 , (3.65)
. . . . .. .. ..
.. .. .. .. . . .
0 0 0 0 ··· 0 γn−1
0 0 0 0 ··· 0 0
comutam entre si.
O resultado central que provaremos, e do qual as afirmativas feitas acima seguirão, diz que toda
matriz A pode ser levada por uma transformação do tipo P −1 AP a uma matriz da forma D + N, onde
D é diagonal e N é nilpotente (ou seja, tal que N q = 0 para algum q) e tais que D e N comutam:
DN = ND. Essa é a afirmativa principal do célebre “Teorema da Decomposição de Jordan”, que
demonstraremos nas páginas que seguem.
Esse Teorema da Decomposição de Jordan generaliza os teoremas sobre diagonalizabilidade de
matrizes: para matrizes diagonalizáveis tem-se simplesmente N = 0 para um P conveniente.
Antes de nos dedicarmos à demonstração desses fatos precisaremos de alguma preparação.
Seja V um espaço vetorial e V1 e V2 dois de seus sub-espaços. Dizemos que V é a soma direta de V1
e V2 se todo vetor v de V puder ser escrito de modo único da forma v = v1 + v2 com v1 ∈ V1 e v2 ∈ V2 .
Se V é a soma direta de V1 e V2 escrevemos V = V1 ⊕ V2 .
• Sub-espaços Invariantes
Um subespaço E de Cn é dito ser invariante pela ação de uma matriz A, se Av ∈ E para todo v ∈ E.
Se V = V1 ⊕ V2 e tanto V1 quanto V2 são invariantes pela ação de A, escrevemos A = A1 ⊕ A2 onde
Ai é A restrita a Vi . Se escolhermos uma base em V da forma {v1 , . . . , vm , vm+1 , . . . , vn }, onde
{v1 , . . . , vm } é uma base em V1 e {vm+1 , . . . , vn } é uma base em V2 , então nessa base A terá a forma
A1 0m, n−m
A = . (3.66)
0n−m, m A2
A representação (3.66) é dita ser uma representação em blocos diagonais de A, os blocos sendo as
sub-matrizes A1 e A2 .
Um fato relevante que decorre imediatamente de (3.66) e da Proposição 3.1, página 162, e que
usaremos freqüentemente adiante, é que se A = A1 ⊕ A2 então
• Operadores Nilpotentes
0 a c
N = 0 0 b
0 0 0
com a 6= 0 e b 6= 0 é uma matriz nilpotente de ı́ndice 3.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 3 210/1461
0 0 0 0 1 0
N = 0 0 1 e N = 0 0 0
0 0 0 0 0 0
são matrizes nilpotentes de ı́ndice 2.
No Corolário 3.3, página 216, demonstraremos que uma matriz é nilpotente se e somente se seus
autovalores forem todos nulos.
Prova da Proposição 3.22. Se N = 0 o ı́ndice é q = 1 e tudo é trivial. Seja N 6= 0 com ı́ndice q > 1.
Seja v 6= 0 um autovetor de N com autovalor λ: Nv = λv. Isso diz que 0 = N q v = λq v. Logo λq = 0
e, obviamente, λ = 0. É claro então que qN (x) = xn . Que o polinômio mı́nimo é mN (x) = xq segue
do fato que mN (x) deve ser um divisor de qn (x) (isso segue do Teorema 3.2 junto com o Teorema de
Hamilton-Cayley, Teorema 3.3), página 174). Logo mN (x) é da forma xk para algum k ≤ n. Mas o
menor k tal que mN (N) = N k = 0 é, por definição, igual a q. Isso completa a prova.
Mais sobre matrizes nilpotentes será estudado na Seção 3.7.3 onde, em particular, discutiremos a
chamada forma canônica de matrizes nilpotentes.
N(A) = {x ∈ V | Ax = 0} .
Afirmamos que N(A) e R(A) são dois sub-espaços de V . Note-se primeiramente que 0 ∈ N(A) e
0 ∈ R(A) (por que?). Fora isso, se x e y ∈ N(A) então, para quaisquer escalares α e β,
provando que combinações lineares αx+βx′ também pertencem a N(A). Analogamente se x e x′ ∈ R(A)
então existem y e y ′ ∈ V com x = Ay, x′ = Ay ′ . Logo
αx + βx′ = A(αy + βy ′) ,
Nk = N(Ak )
e
Rk = R(Ak ) .
Esses sub-espaços Nk e Rk são invariantes por A. De fato, se x ∈ Nk , então Ak (Ax) = A(Ak x) = A0 = 0,
mostrando que Ax ∈ Nk . Analogamente, se x ∈ Rk então x = Ak y para algum vetor y. Logo,
Ax = A(Ak y) = Ak (Ay), mostrando que Ax ∈ Rk .
Afirmamos que
Nk ⊂ Nk+1 (3.67)
e que
Rk ⊃ Rk+1 .
As demonstrações dessas afirmativas são quase banais. Se x ∈ Nk então Ak x = 0. Isso obviamente
implica Ak+1x = 0. Logo x ∈ Nk+1 e, portanto, Nk ⊂ Nk+1 . Analogamente, se x ∈ Rk+1 então existe y
tal que x = Ak+1 y. Logo x = Ak (Ay), o que diz que x ∈ Rk . Portanto Rk+1 ⊂ Rk .
Isso diz que os conjuntos Nk formam uma cadeia crescente de conjuntos:
{0} ⊂ N1 ⊂ N2 ⊂ · · · ⊂ Nk ⊂ · · · ⊂ V , (3.68)
V ⊃ R1 ⊃ R2 ⊃ · · · ⊃ Rk ⊃ · · · ⊃ {0} . (3.69)
Consideremos a cadeia crescente (3.68). Como os conjuntos Nk são sub-espaços de V , é claro que a
cadeia não pode ser estritamente crescente se V for um espaço de dimensão finita, ou seja, deve haver
um inteiro positivo p tal que Np = Np+1. Seja p o menor número inteiro para o qual isso acontece.
Afirmamos que para todo k ≥ 1 vale Np = Np+k .
Vamos provar isso. Se x ∈ Np+k então Ap+k x = 0, ou seja, Ap+1 (Ak−1 x) = 0. Logo, Ak−1 x ∈ Np+1 .
Dado que Np = Np+1 , isso diz que Ak−1 x ∈ Np , ou seja, Ap (Ak−1 x) = 0. Isso, por sua vez, afirma que
x ∈ Np+k−1. O que fizemos então foi partir de x ∈ Np+k e concluir que x ∈ Np+k−1 . Se repetirmos
a argumentação k vezes concluiremos que x ∈ Np . Logo, Np+k ⊂ Np . Por (3.67) tem-se, porém, que
Np ⊂ Np+k e, assim, Np+k = Np .
Assim, a cadeia (3.68) tem, no caso de V ter dimensão finita, a forma
Como dissemos, p será daqui por diante o menor inteiro para o qual Np = Np+1 . O lema e o teorema
que seguem têm grande importância na demonstração do Teorema de Decomposição de Jordan.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 3 212/1461
Lema 3.4 Com as definições acima, Np ∩ Rp = {0}, ou seja, os sub-espaços Np e Rp têm em comum
apenas o vetor nulo. 2
Demonstração. Seja x tal que x ∈ Np e x ∈ Rp . Isso significa que Ap x = 0 e que existe y tal que
x = Ap y. Logo, A2p y = Ap x = 0, ou seja, y ∈ N2p . Pela definição de p tem-se que N2p = Np . Assim,
y ∈ Np . Logo Ap y = 0. Mas, pela própria definição de y valia que Ap y = x. Logo x = 0.
Demonstração. Seja m a dimensão de Np e seja {u1 , . . . , um } uma base em Np . Vamos estender essa
base, incluindo vetores {vm+1 , . . . , vn } de modo que {u1 , . . . , um , vm+1 , . . . , vn } seja uma base
em V . Afirmamos que {Ap vm+1 , . . . , Ap vn } é uma base em Rp . Seja x ∈ Rp e seja y ∈ V tal que
x = Ap y. Como todo vetor de V , y pode ser escrito como combinação linear de elementos da base
{u1 , . . . , um , vm+1 , . . . , vn }:
Xm X n
y = αi ui + αi vi .
i=1 i=m+1
Logo,
m
X n
X n
X
p p
x = αi A ui + αi A vi = αi Ap vi . (3.71)
i=1 i=m+1 i=m+1
Os vetores {Ap vm+1 , . . . , Ap vn } são linearmente independentes. Isso se mostra com o seguinte argu-
mento. Se existirem escalares βm+1 , . . . , βn tais que
n
X
βi Ap vi = 0 ,
i=m+1
então terı́amos !
n
X
Ap βi vi = 0,
i=m+1
ou seja,
n
X
βi vi ∈ Np .
i=m+1
pois os vetores {u1 , . . . , um } são uma base em Np . Ora, como {u1 , . . . , um , vm+1 , . . . , vn } são linear-
mente independentes, segue que os βi ’s e os γj ’s são todos nulos. Isso prova que {Ap vm+1 , . . . , Ap vn }
são linearmente independentes e, portanto, por (3.71), formam uma base em Rp .
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 3 213/1461
O lado esquerdo dessa igualdade é um elemento de Np (pois u1, . . . , um são uma base em Np ), enquanto
que o lado esquerdo é obviamente um elemento da imagem de Ap , ou seja, de Rp . Contudo, já vimos
(Lema 3.4) que o único vetor que Np e Rp têm em comum é o vetor nulo. Logo,
m
X
αi ui = 0 (3.72)
i=1
e n
X
αi Ap vi = 0 . (3.73)
i=m+1
Provar a unicidade dessa decomposição fica como exercı́cio. Isso completa a demonstração.
Uma das coisas que o teorema que acabamos de demonstrar diz é que, dado um operador A, o
espaço V pode ser decomposto em uma soma direta de dois sub-espaços, invariantes por A: um onde
A é nilpotente, Np , e outro onde A é invertı́vel, Rp . A é nilpotente em Np pois Ap x = 0 para todo
elemento x de Np . A é invertı́vel em Rp pois se x ∈ Rp é tal que Ax = 0 isso implica x ∈ N1 ⊂ Np .
Mas x só pode pertencer a Np e a Rp se for nulo. Logo, em Rp , Ax = 0 se e somente se x = 0, provando
que A é invertı́vel12 . Para referência futura formulemos essa afirmativa na forma de um teorema:
12
Lembre-se que esse argumento só funciona em espaços vetoriais V que tenham dimensão finita, o que estamos supondo
aqui.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 3 214/1461
onde, na última igualdade, usamos a Proposição 3.22, página 210, sobre a forma do polinômio carac-
terı́stico de uma matriz nilpotente. Daı́, segue que
qA (λ) = (λ − α1 )s1 qM1 (λ − α1 ) ,
sendo qM1 o polinômio caracterı́stico de M1 . Como M1 é invertı́vel, M1 não tem o zero como autovalor.
Logo, qM1 (0) 6= 0. Portanto s1 é igual à multiplicidade de α1 como raiz de qA , ou seja, é igual a n1 , a
multiplicidade algébrica de α1 .
A idéia agora é prosseguir decompondo agora o operador α1 1T1 + M1 que aparece em (3.74) da
mesma maneira como fizermos acima com A.
Seja A′ = α1 1T1 + M1 e que age em T1 , que é um espaço de dimensão n − n1 . Definimos A2 =
A − α2 1T1 .
′
Evocando novamente o Teorema 3.17, página 214, T1 pode ser escrito como T1 = S2 ⊕ T2 , onde S2
e T2 são invariantes por A2 , sendo A2 nilpotente em S2 e invertı́vel em T2 . Assim, V = S1 ⊕ S2 ⊕ T2 .
Agindo em T1 = S2 ⊕ T2 , A2 é da forma A2 = N2 ⊕ M2 com N2 nilpotente e M2 invertı́vel. Logo
A′ = α2 1T1 + A2 = (α2 1S2 + N2 ) ⊕ (α2 1T2 + M2 ) . (3.75)
Vamos, como acima, mostrar que a dimensão de S2 é igual à multiplicidade algébrica de α2 .
Pela definição,
A = (α1 1S1 + N1 ) ⊕ A′ = (α1 1S1 + N1 ) ⊕ (α2 1S2 + N2 ) ⊕ (α2 1T2 + M2 ) .
Logo,
qA (λ) = det ((λ − α1 )1S1 − N1 ) det ((λ − α2 )1S2 − N2 ) det ((λ − α2 )1T2 − M2 ) .
Portanto, pelos mesmos argumentos usados acima,
qA (λ) = (λ − α1 )n1 (λ − α2 )s2 qM2 (λ − α2 ) .
Como M2 é invertı́vel, M2 não tem autovalor zero e, assim, qM2 (0) 6= 0. Logo, s2 = n2 . T2 é assim um
sub-espaço de dimensão n − n1 − n2 .
Prosseguindo nas mesmas linhas, após r passos chegaremos a um sub-espaço Tr de dimensão n −
n1 − · · · − nr = 0 (por (3.19), página 164). Aı́, teremos V = S1 ⊕ · · · ⊕ Sr , onde cada Si tem dimensão
ni e
A = (α1 1S1 + N1 ) ⊕ · · · ⊕ (αr 1Sr + Nr ) ,
onde os Ni ’s são todos nilpotentes. Isso completa a demonstração.
Demonstração do Teorema 3.19. O Teorema 3.18 está dizendo que, numa base conveniente, A tem a
forma de blocos diagonais
α1 1s1 + N1 0 ··· 0
A1 0 · · · 0
0 α2 1s2 + N2 · · · 0
0 A2 · · · 0
A = .. .. . . .. = , (3.76)
. . . . .. .. . . ..
. . . .
0 0 · · · Ar
0 0 · · · αr 1sr + Nr
ou seja,
A = D+N ,
onde
α1 1s1 0 ··· 0
0 α 1 · · · 0
2 s2
D = .. .. . . .. = diag α , . . . , α , . . . , αr , . . . , αr
| 1 {z }1 | {z }
. . . .
s1 vezes sr vezes
0 0 · · · αr 1sr
e
N1 0 · · · 0
0 N2 · · · 0
N = .. .. . . .. . (3.77)
. . . .
0 0 · · · Nr
Acima si é a dimensão do sub-espaço Si .
É fácil de se ver que N é uma matriz nilpotente, pois se o ki é o ı́ndice de Ni (ou seja, ki é o menor
inteiro positivo para o qual Niki = 0), então para k := max (k1 , . . . , kr ) tem-se
(N1 )k 0 ··· 0
0 (N2 )k · · · 0
k
N = .. .. . . .. = 0 .
. . . .
0 0 · · · (Nr )k
Corolário 3.3 Uma matriz M ∈ Mat (C, n) é nilpotente se e somente se todos os seus autovalores
forem nulos. 2
Prova. A Proposição 3.22, página 210, afirma que se M é nilpotente todos os seus autovalores são
nulos. O Teorema 3.19, página 215, afirma que se os autovalores de M são nulos, então existe P tal
que P −1 MP = N, nilpotente. Isso implica que M é nilpotente.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 3 217/1461
são linearmente independentes. Fora isso, o subespaço q-dimensional Jv, q := hv, Nv, N 2 v, . . . , N q−1 vi
de V gerado por esses q vetores é invariante por N. 2
Prova. Se q = 1, então N = 0 e não há nada a provar, pois a afirmação é trivialmente verdadeira para
qualquer v 6= 0. Seja então q > 1 (em cujo caso N 6= 0, trivialmente). Sabemos, por hipótese, que
a matriz N q−1 é não-nula. Isso significa que existe pelo menos um vetor v 6= 0 tal que N q−1 v 6= 0.
Fixemos um tal vetor. É imediato que os vetores Nv, N 2 v, . . . , N q−1 v são todos não-nulos pois,
se tivéssemos N j v = 0 para algum 1 ≤ j < q − 1, então, aplicando-se N q−1−j à esquerda, terı́amos
N q−1 v = 0, uma contradição.
Sejam agora α1 , . . . , αq escalares tais que
α1 v + α2 Nv + α3 N 2 v + · · · + αq N q−1 v = 0 . (3.79)
Aplicando-se N q−1 nessa igualdade e lembrando que N q = 0, concluı́mos que α1 N q−1 v = 0. Como
N q−1 v 6= 0, segue que α1 = 0 e, com isso, (3.79) fica
α2 Nv + α3 N 2 v + · · · + αq N q−1 v = 0 . (3.80)
Aplicando agora N q−2 nessa igualdade concluı́mos que α2 = 0. Prosseguindo, concluı́mos depois de
q passos que todos os escalares αj são nulos. Isso prova que os q vetores de (3.78) são linearmente
independentes.
Que o subespaço Jv, q definido acima é invariante por N é evidente pois, para quaisquer escalares
β1 , . . . , βq , tem-se
N β1 v + β2 Nv + · · · + βq N q−1 v = β1 Nv + β2 N 2 v + · · · + βq−1 N q−1 v ∈ Jv, q .
Prova.14 A prova é feita por indução em q. Note-se que se q = 1, então N = 0 e a afirmativa é trivial,
pois podemos tomar como v qualquer vetor não-nulo, Jv, q seria o subespaço gerado por esse v e K o
subespaço complementar a v, que é trivialmente invariante por N, pois N = 0.
Vamos supor então que a afirmação seja válida para matrizes nilpotentes de ı́ndice q − 1 e provar
que a mesma é válida para matrizes nilpotentes de ı́ndice q. O que desejamos é construir um subespaço
K com as propriedades desejadas, ou seja, tal que V = Jv, q ⊕ K, sendo K invariante por N.
Seja V0 = R(N) o conjunto imagem de N. Sabemos que V0 é um subespaço de V e que é invariante
por N. Fora isso, N é nilpotente de ı́ndice q − 1 agindo em V0 (por que?)
Seja v0 = Nv ∈ V0 . É claro que N q−2 v0 = N q−1 v 6= 0. Assim, pelo Lema 3.78, o subespaço
(q − 1)-dimensional
Jv0 , q−1 = hv0 , Nv0 , . . . , N q−2 v0 i = hNv, N 2 v, . . . , N q−1 vi = JN v, q−1 ,
que é um sub-espaço de V0 , é invariante por N e, da hipótese indutiva, concluı́mos que existe um
subespaço K0 de V0 que é invariante por N tal que JN v, q−1 ∩ K0 = {0} e tal que V0 = JN v, q−1 ⊕ K0 .
Seja agora K1 := {x ∈ V | Nx ∈ K0 }. Vamos provar a seguinte afirmação:
Note que a afirmação feita em I não significa que V = Jv, q ⊕ K1 , pois os sub-espaços Jv, q e K1
podem ter uma intersecção não-trivial. Tem-se, porém, o seguinte:
A afirmação III implica que K1 = (Jv, q ∩ K1 ) ⊕ K0 ⊕ K0′ para algum subespaço K0′ de K1 (não
necessariamente único). Seja agora K := K0 ⊕ K0′ . Note que K1 = (Jv, q ∩ K1 ) ⊕ K e, portanto,
Provaremos que esse K possui as propriedades desejadas, ou seja, que V = Jv, q ⊕K, sendo K invariante
por N. Isso é feito em três passos.
1. Jv, q e K são sub-espaços disjuntos, ou seja, Jv, q ∩ K = {0}, pois, como K ⊂ K1 , segue que
K = K ∩ K1 e, portanto,
(3.81)
Jv, q ∩ K = Jv, q ∩ (K ∩ K1 ) = (Jv, q ∩ K1 ) ∩ K = {0} .
2. Jv, q ⊕K contém os vetores de Jv, q e de (Jv, q ∩K1 )⊕K = K1 . Por I, isso implica que Jv, q ⊕K = V .
3. K é invariante por N, pois o fato que K ⊂ K1 , implica, pela definição de K1 , que NK ⊂ NK1 ⊂
K0 ⊂ K.
tais que
V = Jv1 , q1 ⊕ · · · ⊕ Jvr , qr .
2
V = Jv1 , q1 ⊕ K 1 .
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 3 220/1461
Como K 1 é invariante por N, podemos também dizer que a matriz N é nilpotente quando restrita
a K 1 (já que é nilpotente em todo V ). Denotemos por q2 o ı́ndice de N quando restrita a K 1 . É claro
que q2 ≤ q = q1 .
Assim, podemos aplicar o Teorema 3.20 para a matriz N restrita a K 1 e concluir que existe v2 6= 0
em K 1 e um subespaço K 2 de K 1 , invariante por N, tais que K 1 = Jv2 , q2 ⊕ K 2 . Note que N q2 v2 = 0,
pois v2 ∈ K 1 .
Com isso, temos
V = Jv1 , q1 ⊕ Jv2 , q2 ⊕ K 2 .
Novamente K 2 é invariante por N e, como K 2 é um sub-espaço de K 1 . O ı́ndice de N em K 2 será
q3 ≤ q2 ≤ q1 .
O espaço V tem dimensão finita. Assim, a prova se concluı́ repetindo o procedimento acima um
número finito r de vezes. Note que N qj vj = 0, pois N q1 v1 = 0, e vj ∈ K j−1 para todo j = 2, . . . , r.
são linearmente independentes e formam uma base em V . Vamos denotá-los (na ordem em que aparecem
acima) por b1 , . . . , bn .
Note agora que, pela construção, Nbj = bj+1 , para j em cada um dos conjuntos
E. 3.29 Exercı́cio impotante para compreender o que segue. Justifique as últimas afirmações. 6
Isso significa que na base b1 , . . . , bn os elementos de matriz de N são todos nulos exceto aqueles na
forma Nj, j+1 com j em algum dos conjuntos listados em (3.82), em cujo caso Nj, j+1 = 1. Pictoriamente,
isso diz-nos que na base b1 , . . . , bn a matriz N assume uma forma genericamente ilustrada na Figura
3.1. Essa é a denominada forma canônica da matriz nilpotente N ou representação canônica da matriz
nilpotente N, que descrevemos mais detalhadamente no que segue.
Os elementos da diagonal principal são todos nulos. Os únicos elementos não-nulos da matriz
podem estar localizados apenas na diagonal imediatamente acima da principal, ou seja, aquela diagonal
formada por elementos de matriz do tipo Nj, j+1 com j = 1, . . . , n − 1. Chamaremos essa diagonal de
primeira supra-diagonal. Os elementos da primeira supra-diagonal podem ser 0 ou 1, da forma seguinte:
a primeira supra-diagonal possuirá r fileiras. As primeiras r − 1 fileiras são formadas por qj elementos,
j = 1, . . . , n − 1, sendo os primeiros qj − 1 elementos iguais a 1 e o último igual a 0. A última fileira
terá qr − 1 elementos iguais a 1. Assim, se qr = 1, o último elemento da primeira supra-diagonal será
nulo, proveniente da (r − 1)-ésima fileira (essa é a única forma de aparecer um zero no último elemento
da primeira supra-diagonal).
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 3 221/1461
0 1 (q − 1) vezes
1
} 1
0
1
(q 2 − 1) vezes 0
N =
} 1
0
0
1
1
0
0 (q r − 1) vezes
1
0 } 1
0
Figura 3.1: Forma canônica tı́pica de uma matriz nilpotente N. Os elementos da primeira supra-
diagonal podem valer 0 ou 1. Todos os demais elementos de matriz são nulos.
Note que zeros consecutivos podem ocorrer, se tivermos alguns qj ’s iguais a 1. Note também que
os elementos da primeira supra-diagonal podem ser todos nulos (o que valerá se r = n, em cujo caso
q1 = · · · = rn = 1. Isso só pode ocorrer se N = 0 e, nesse caso, q = 1) ou todos iguais a 1 (o que valerá
se r = 1, em cujo caso q1 = n).
por uma transformação de similaridade P0−1AP0 ), toda matriz A tem a forma de blocos diagonais:
α1 1n1 + N1 0 ··· 0
A1 0 · · · 0
0 α2 1n2 + N2 ··· 0
0 A2 · · · 0
−1
P0 AP0 = .. .. . . . = , (3.83)
. . . .. .. .. .. ..
. . . .
0 0 · · · Ar
0 0 · · · αr 1nr + Nr
A matriz final de (3.85) é denominada forma canônica da matriz A, ou forma canônica de Jordan
da matriz A. Como dissemos, toda matriz A assume essa forma numa certa base. Devido ao fato de
todos as sub-matrizes nilpotentes Njc terem a forma canônica, os únicos elementos não-nulos da forma
canônica da matriz A podem estar ou na diagonal principal (sendo estes os autovalores de A, cada
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 3 223/1461
um aparecendo em uma fileira de nj elementos), ou na primeira supra-diagonal, sendo que estes valem
apenas 0 ou 1 e seguem as regras descritas acima. Isso é ilustrado na Figura 3.2,
A Figura 3.2, mostra a forma canônica de uma matriz que possui 4 autovalores distintos α1 , α2 , α3
e α4 . A primeira supra-diagonal é formada pela seqüência de números
sendo que os γij assumem apenas os valores 0 ou 1, de acordo com as regras explicadas acima quando
discutimos a forma canônica de matrizes nilpotentes. Todos os elementos fora da diagonal principal e
da primeira supradiagonal são nulos. O primeiro bloco é de dimensão (a + 1) × (a + 1), o segundo bloco
é de dimensão (b + 1) × (b + 1) etc., sendo a + 1 a multiplicidade algébrica de α1 , b + 1 a multiplicidade
algébrica de α2 etc.
É interessante notar que na primeira supra-diagonal, sempre ocorrem zeros nos pontos localizados
fora dos blocos, ou seja, nos pontos onde ocorrem transições entre dois autovalores distintos (indicados
por setas na Figura 3.2). Esses são os zeros que ocorrem explicitamente na lista (3.86).
Por fim, comentamos que a forma canônica não é exatamente única, pois é possı́vel ainda fazer
transformações de similaridade que permutem os blocos de Jordan da matriz. Além disso, dentro de
cada sub-espaço invariante (onde cada bloco age) é possı́vel fazer certas permutações dos elementos da
base, de modo a preservar a diagonal e permutar os γi ’s da primeira supradiagonal.
válida para matrizes A ∈ Mat (C, n), a qual é muito útil, e da qual trataremos nesta seção. Antes de
enunciarmos esse resultado de forma mais precisa (o Teorema da Decomposição Polar, Teorema 3.21,
abaixo), façamos algumas observações preliminares.
Seja A ∈ Mat (C, n) e seja a matriz A∗ A. Notemos primeiramente que (A∗ A)∗ = A∗ A∗∗ = A∗ A, ou
seja, A∗ A e auto-adjunta. Pelo Teorema 3.13, página 200, é possı́vel encontrar um conjunto ortonormal
{vk , k = 1, . . . , n} de autovetores de A∗ A, com autovalores dk , k = 1, . . . , n, respectivamente, sendo
que a matriz hh ii
P := v1 , . . . , vn (3.87)
(para a notação, vide (3.1)) é unitária e diagonaliza A∗ A, ou seja, P ∗(A∗ A)P = D, sendo D a matriz
diagonal D := diag (d1 , . . . , dn ), cujos elementos da diagonal são os autovalores de A∗ A. Os autovalores
dk são todos maiores ou iguais a zero. De fato, se vk 6= 0 é um autovetor de A∗ A com autovalor dk ,
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 3 224/1461
teremos dk kvk k2 = dk hvk , vk iC = hvk , Bvk iC = hvk , A∗ Avk iC = hAvk , Avk iC = kAvk k2 . Logo,
dk = kAvk k2 /kvk k2 ≥ 0.
Com esses fatos à mão, vamos definir uma matriz diagonal, que denotaremos sugestivamente por
√ √ 2
D , por D 1/2 := diag ( d1 , . . . , dn ). Tem-se que D 1/2 = D, uma propriedade óbvia15 . Note-se
1/2
∗ √
também que D 1/2 = D 1/2 , pois cada dk é real.
√
Definamos agora a matriz A∗ A, por
√
A∗ A := P D 1/2 P ∗ . (3.88)
√ √ ∗ ∗ √
∗
Essa matriz A A é auto-adjunta, pois A A = P D 1/2 P ∗ = P D 1/2 P ∗ = A∗ A. Observemos
∗
√ 2
que A∗ A = P (D 1/2 )2 P ∗ = P DP ∗ = A∗ A. Disso segue que
√ 2 2
√
det A∗ A = det A∗ A = det(A∗ A) = det(A∗ ) det(A) = det(A) det(A) = | det(A)|2 .
√ √
Provamos assim que det A∗ A = | det(A)| e, portanto, A∗ A é invertı́vel se e somente se A o for.
√
Alguns autores denotam a matriz A∗ A por |A|, por analogia com o módulo de um número com-
plexo. Podemos agora formular e demonstrar o resultado que procuramos:
Teorema 3.21 (Teorema da Decomposição Polar) Seja A ∈ Mat (C, n). Então existe uma ma-
triz unitária U ∈ Mat (C, n) tal que √
A = U A∗ A . (3.89)
Se A é invertı́vel, então U é univocamente determinada. A representação (3.89) é denominada repre-
sentação polar de A. 2
(para a notação, vide (3.1)). Como {vk , k = 1, . . . , n} e {wk , k = 1, . . . , n} são dois conjuntos
ortonormais, segue que P e Q são matrizes unitárias (por quê?) e, portanto, U também é unitária.
√ √
É fácil ver que AP = QD1/2 , onde D 1/2 = diag d1 , . . . , dn , De fato,
(3.87)
hh ii (3.4) hh ii
AP = A v1 , . . . , vn = Av1 , . . . , Avn
(3.90)
hh ii
= Av1 , . . . , Avr 0, . . . , 0
(3.91)
hhp p ii
= d1 w1 , . . . , dr wr 0, . . . , 0
(3.6)
hh ii
= w1 , . . . , wn D 1/2 = QD1/2 .
(3.88) √
Agora, de AP = QD1/2 , segue que A = QD1/2 P ∗ = UP D 1/2 P ∗ = U A∗ A, que é o que querı́amos
provar.
Para mostrar√ que U é univocamente
√ determinado se A for √invertı́vel, suponhamos que exista U ′
∗ ′ ∗
tal que A = U A A = U A A. Como comentamos √ acima,
√ A∗ A é invertı́vel se e somente se A
o for. Logo, se A é invertı́vel, a igualdade U A∗ A = U ′ A∗ A implica U = U ′ , estabelecendo a
unicidade. Caso A não seja invertı́vel a arbitrariedade de U reside na escolha dos vetores ortogonais
{wk , k = r + 1, . . . , n}.
∗ ∗
p √
Prova. Para a matriz A , (3.89) diz-nos que A = U (A∗ )∗ A∗ = U AA∗ para alguma matriz
√ 0 √ 0
unitária U0 . Como AA∗ é auto-adjunta, segue que A = AA∗ U0∗ . Identificando V = U0∗ , obtemos o
que desejamos.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 3 226/1461
O Teorema da Decomposição Polar pode ser generalizado para abranger operadores limitados agindo
em espaços de Hilbert (vide Teorema 26.22, página 1319) e mesmo para abranger operadores não-
limitados agindo em espaços de Hilbert (vide [116]).
Prova do Corolário 3.4. Pelo Teorema 3.23, a matriz A∗ pode ser escrita da forma A∗ = V ∗ SV , com V
unitária e S triangular superior. Logo, A = V ∗ S ∗ V . Porém, S ∗ ≡ I é triangular inferior.
Também pelo Teorema 3.23, os autovalores de A∗ são os elementos diagonais de S, que são o
complexo conjugado dos elementos diagonais de S ∗ ≡ I. Mas os autovalores de A são o complexo
conjugado dos autovalores de A∗ (pela Proposição 3.16, página 197) e, portanto, são os elementos
diagonais de I.
Prova do Teorema 3.23. Comecemos observando que se A = U ∗ SU com U unitário, então A e S têm o
mesmo polinômio caracterı́stico e, portanto, os mesmos autovalores, incluindo a multiplicidade (vide a
discussão em torno de (3.21), página 165). Mas o polinômio caracterı́stico de S é pS (x) = det(x1 −S) =
Q n
k=1 (x − Skk ), pois S é triangular superior e, portanto, os autovalores de S são os elementos de sua
diagonal. Passemos à demonstração da afirmativa principal, ou seja, que A = U ∗ SU com U unitário e
S triangular superior.
16
Issai Schur (1875-1941).
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 3 227/1461
Seja n ≥ 2hhe v1 um autovetorii de A com autovalor λ1 e kv1 k = 1. Seja U (1) uma matriz unitária da
(1) (1) (1)
forma U (1) = u1 , . . . , un com u1 = v1 , ou seja, cuja primeira coluna é o vetor v1 . Então,
(1) (1)
λ1 b1 ··· bn−1
h
h i
i hh i
i (1) (1)
(3.4) (1) (1) (1) 0 a11 ··· a1(n−1)
AU (1)
= Au1 , . . . , Au(1)
n = λ1 u1 , Au2 , . . . , Au(1)
n = U (1)
.. .. .. .. ,
. . . .
(1) (1)
0 a(n−1)1 · · · a(n−1)(n−1)
(1) (1)
para certos bk e akl , k, l = 1, . . . , n − 1, onde
n−1
X
(1) (1) (1) (1) (1)
Auk = bk u1 + alk ul+1 , k = 2, . . . , n . (3.93)
l=1
sendo o lado direito uma matriz triangular superior. Para n > 2 procedemos por indução. Supondo a
afirmação válida para matrizes (n − 1) × (n − 1), então existe uma matriz unitária V ∈ Mat (C, n − 1)
tal que V ∗ A(1) V = S (1) ,sendo S (1) triangular superior. Assim, definindo a matriz unitária U (2) ∈
1 0T
Mat (C, n) por U (2) := 0n−1 n−1
V
, teremos por (3.94),
∗ ∗ ∗
U (1) U (2) AU (1) U (2) = U (2) U (1) AU (1) U (2)
T
1 0Tn−1 λ1 b(1) 1 0Tn−1
=
0n−1 V∗ 0n−1 A(1) 0n−1 V
T
λ1 V T b(1)
=
0n−1 V ∗ A(1) V
T
λ1 V T b(1)
= ,
0n−1 S (1)
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 3 228/1461
que é triangular superior, pois S (1) o é. Como U (1) U (2) é unitária (pois U (1) e U (2) o são), o teorema
está provado.
Comentário. Toda matriz triangular superior S pode ser escrita na forma D + N, sendo D a matriz
diagonal formada pela diagonal de S (ou seja, Dii = Sii para todo i = 1, . . . , n) e N é nilpotente (pois
é triangular superior, mas com diagonal nula). Assim, o Teorema 3.23 afirma que toda matriz A pode
ser levada à forma D + N por uma transformação de similaridade unitária. Porém, o Teorema 3.23 não
garante (nem é verdade, em geral) que D e N comutem. Assim, o Teorema 3.23 é distinto do Teorema
de Jordan, Teorema 3.19, página 215.
O Teorema 3.23 tem por corolário o seguinte teorema, já provado anteriormente por outros meios
(Teorema 3.13, página 200, e Proposição 3.18, página 202).
Teorema 3.24 Uma matriz A ∈ Mat (C, n) é auto-adjunta, se e somente se for diagonalizável por
uma transformação de similaridade unitária e se seus autovalores forem reais. 2
Prova. Pelo Teorema 3.23, existe uma matriz unitária U tal que U ∗ AU = S, sendo S triangular superior
cujos elementos diagonais são os autovalores de A. Assim, se A = A∗ , segue que S ∗ = (U ∗ AU)∗ =
U ∗ A∗ U = U ∗ AU = S. Mas para uma matriz triangular superior S, a igualdade S = S ∗ implica que S
é diagonal e os elementos da diagonal são reais.
Reciprocamente, se A ∈ Mat (C, n) é diagonalizável por uma transformação de similaridade unitária
e seus autovalores são reais, ou seja, existe U unitária e D diagonal real com U ∗ AU = D, então
A = UDU ∗ e A∗ = UD ∗ U ∗ . Como D é diagonal e real, vale D ∗ = D e, portanto, A∗ = UDU ∗ = A,
provando que A é auto-adjunta.
Pelo Teorema 3.23, se A ∈ Mat (C, n) é uma matriz normal e U ∗ AU = S, com U unitária e S
triangular superior, então S é normal (justifique!). Assim, junto com o Lema 3.3, página 207, provamos
o seguinte:
Teorema 3.25 Uma matriz A ∈ Mat (C, n) é normal se e somente se for diagonalizável por uma
transformação de similaridade unitária. 2
Essas afirmações foram demonstradas por outros meios no Teorema 3.15, página 203.
discutiremos brevemente ao final. Os dois primeiros resultados preparatórios abaixo, Proposição 3.24
e Teorema 3.26 (Decomposição QR), têm interesse por si só.
Proposição 3.24 Seja R ∈ Mat (C, n) uma matriz triangular superior cujos elementos diagonais são
não-nulos (i.e., R é invertı́vel). Então, podemos escrever R = AN, onde A ∈ Mat (C, n) é a matriz
diagonal formada com a diagonal de R: A = diag (R11 , . . . , Rnn ), e N ∈ Mat (C, n) é uma matriz
triangular superior cujos elementos diagonais são iguais a 1. 2
nilpotente são “Kompakt”, “Abelsch” e “Nilpotent”, daı́ a denominação “decomposição KAN ” para essa decomposição,
denominação essa encontrada em alguns textos.
19
Jørgen Pedersen Gram (1850-1916).
20
Erhard Schmidt (1876-1959).
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 3 230/1461
Como é fácil verificar, tem-se hqi , qj iC = δi j para todos i, j = 1, . . . , n. As relações acima implicam
trivialmente
j−1
j−1
X
X
m1 = q1 km1 k , mj = qj
mj − hql , mj iC ql
+ ql hql , mj iC , j = 2, . . . , n ,
l=1 l=1
Prova. A afirmação que M pode ser escrita na forma M = KAN, com K, A e N com as propriedades
acima segue imediatamente da Proposição 3.24 e do Teorema 3.26, dispensando demonstração. O único
ponto a se demonstrar é a unicidade dessa decomposição.
Vamos então supor que para algum M ∈ Mat (C, n) existam K, K0 ∈ Mat (C, n), matrizes
unitárias, A, A0 ∈ Mat (C, n), matrizes diagonais, tendo elementos diagonais estritamente positivos, e
N, N0 ∈ Mat (C, n) matrizes triangulares superiores cujos elementos diagonais são iguais a 1, tais que
M = KAN = K0 A0 N0 .
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 3 231/1461
Segue imediatamente disso que K0−1 K = A0 N0 N −1 A−1 . O lado esquerdo dessa igualdade é uma
matriz unitária e, portanto, normal. O lado direito é uma matriz triangular superior (pela Proposição
3.21, página 206). Pelo Lema 3.3, página 207, A0 N0 N −1 A−1 deve ser uma matriz diagonal D. Assim,
temos que K0−1 K = D e A0 N0 N −1 A−1 = D. A primeira dessas relações diz-nos que D é unitária.
A segunda diz-nos que N0 N −1 = A−1 −1
0 DA, ou seja, N0 = D0 N, onde D0 := A0 DA é diagonal (por
ser o produto de três matrizes diagonais). Agora, N e N0 são matrizes triangulares superiores cujos
elementos diagonais são iguais a 1. Portanto, a relação N0 = D0 N com D0 diagonal só é possı́vel se
D0 = 1 (de outra forma haveria elementos na diagonal de N ou de N0 diferentes de 1), estabelecendo
que N = N0 .
Provamos, assim, que A−1 0 DA = 1, ou seja, D = A0 A . Agora, A e A0 são diagonais, tendo na
−1
diagonal números reais positivos. Logo, D também é diagonal e tem na diagonal números reais positivos
e, portanto, D = D ∗ . Como D é unitária (como observado linhas acima), segue que D 2 = 1. Logo,
os elementos Dkk da diagonal de D satisfazem Dkk = ±1, para todo k = 1, . . . , n (os sinais podendo
ser distintos para k’s distintos). Agora, como A0 = DA e como A e A0 têm na diagonal números reais
positivos, não podemos ter Dkk = −1 para algum k e, portanto, D = 1. Conseqüentemente, K = K0
e A = A0 , estabelecendo a unicidade desejada.
Note o leitor que o conjunto das matrizes unitárias de Mat (C, n) forma um sub-grupo de GL(C, n)
(o grupo das matrizes complexas n × n invertı́veis). O conjunto das matrizes diagonais de Mat (C, n)
tendo elementos diagonais estritamente positivos é igualmente um sub-grupo de GL(C, n). Por fim,
o conjunto das matrizes triangulares superiores de Mat (C, n) cujos elementos diagonais são iguais
a 1 é também um sub-grupo de GL(C, n). Assim, o Teorema 3.27 afirma que cada elemento de
GL(C, n) pode ser escrito de modo único como produto de elementos de cada um desses três sub-
grupos. Esse é um caso particular de um teorema da teoria dos grupos de Lie conhecido como Teorema
da Decomposição de Iwasawa.
onde, para 1 ≤ j1 < · · · < jm ≤ n, a1 , . . . , ej1 . . . , ejm . . . , an é a matriz obtida a partir da matriz
A substituindo sua jl -ésima coluna por ejl para cada l = 1, . . . , m. Note queno caso m = n, tem-se
forçosamente jl = l para cada l = 1, . . . , n e a1 , . . . , ej1 . . . , ejm . . . , an = e1 , . . . , en = 1.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 3 232/1461
Como cada vetor-coluna ejl contém 1 na jl -ésima linha, as demais linhas sendo nulas, as bem-
conhecidas regras de cálculo de determinantes ensinam-nos que, para todo m = 1, . . . , n − 1,
hh ii
det a1 , . . . , ej1 . . . , ejm . . . , an = det Aj1 , ..., jm ,
Aj1 , ..., jm sendo a matriz de Mat (C, n−m) (ou seja (n−m)×(n−m)) obtida a partir de A eliminando-lhe
as jl -ésimas linhas e colunas para todo l = 1, . . . , m. Assim, obtemos
!
n−1
X X
pA (λ) = λn + (−1)n−m λm det Aj1 , ..., jm + (−1)n det(A) , (3.96)
m=1 1≤j1 <···<jm ≤n
sendo Aij o elemento ij da matriz A. Segue disso que para toda matriz A ∈ Mat (C, n) vale
n
n/2
| det(A)| ≤ n max |Aij | . (3.99)
ij
21
Jacques Salomon Hadamard (1865-1963). A referência ao trabalho de Hadamard é: J. Hadamard, “Résolution d’une
question relativ aux déterminants”, Bull. Sci. Math. 28, 240-246 (1893).
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 3 233/1461
O importante na estimativa (3.99) é o tipo de dependência em n que se tem do lado direito. Ela
será usada, por exemplo, em estimativas de convergência da série de determinantes de Fredholm na
Seção 13.2, página 741.
Prova do Teorema 3.28. A prova de (3.99) é elementar, por (3.98). Passemos à prova de (3.98).
Seja A ∈ Mat (C, n). Se A não tem inversa, então det(A) = 0 e a desigualade (3.98) é trivialmente
satisfeita, não havendo o que se provar. Vamos então supor que A tenha inversa.
Seja A o conjunto de todas as matrizes M de Mat (C, n) com a propriedade que
n
X n
X
2
|Mij | = |Aij |2
i=1 i=1
para todo j = 1, . . . , n. Claro está que A ∈ A. É também claro que A é um subconjunto compacto
2
de Mat (C, n) (visto aqui como Cn ). A função | det(M)| é contı́nua como função de M e, portanto,
assume ao menos um máximo absoluto (não necessariamente único) em A, por este ser compacto
(teorema de Weierstrass). Seja T ∈ A um desses máximos. Note-se que | det(T )| ≥ | det(A)| > 0 e,
portanto, T tem inversa.
n
X
Para todo i = 1, . . . , n vale por (3.12), página 158, que det(T ) = Tij Cof(T )ij , onde Cof(T ),
j=1
chamada de matriz dos cofatores de T , foi definida no enunciado do Teorema 3.1, página 157. Seja fixo
esse i. Pela desigualdade de Cauchy-Schwarz, vale
n
! n ! n
! n !
X X X X
| det(T )|2 ≤ |Tij |2 |Cof(T )ij |2 = |Aij |2 |Cof(T )ij |2 . (3.100)
j=1 j=1 j=1 j=1
então T não pode maximizar o módulo de determinante entre as matrizes de A. De fato, considere a
matriz T ′ que é igual à matriz T , exceto sua i-ésima linha, que é dada por
X n 1/2
2
|Aij |
j=1
Tij :=
′
X n
Cof(T )ij ,
|Cof(T )ij |2
j=1
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 3 234/1461
j = 1, . . . , n. É claro que
n
X n
X
|Tij′ |2 = |Aij |2 ,
j=1 j=1
o que mostra que T ′ ∈ A (para as demais linhas T ′ concide com T e não há o que provar, pois T ∈ A).
Xn
′
Fora isso, det(T ) = Tij′ Cof(T )ij , pois Cof(T ′ )ij = Cof(T )ij , já que T ′ e T só diferem na i-ésima
j=1
linha. Assim,
n
X 1/2
2
|Aij | !1/2 !1/2
n
X n
X n
X
j=1
′
det(T ) = n |Cof(T )ij |2 = |Aij |2 |Cof(T )ij |2
X
|Cof(T )ij |2 j=1 j=1 j=1
j=1
e concluı́mos por (3.101) que terı́amos | det(T )| < det(T ′ ), contrariando a hipótese que | det(T )| é
máximo. Assim, devemos ter a igualdade em (3.100) e, pelos comentários de acima, isso implica que
existe λi ∈ C tal que Tij = λi Cof(T )ij para todo j, ou seja, a i-ésima linha de T é proporcional à
i-ésima linha de Cof(T ). Como i é arbitrário, isso vale para todo i.
Agora, como as linhas de T são proporcionais às de Cof(T ), segue que
n
X n n
1 X 2 1 X
det(T ) = Tij Cof(T )ij = |Tij | , = |Aij |2
j=1
λi j=1 λi j=1
Como a relação (3.17) vale para qualquer matriz invertı́vel, tem-se det(Cof(T )) = det(T )n−1 e,
n X
Y n
2
portanto, | det(T )| = |Aij |2 . Por construção, T maximiza | det(T )| em A. Como A ∈ A, segue
i=1 j=1
que
n X
Y n
| det(A)|2 ≤ |Aij |2 . (3.102)
i=1 j=1
onde pa > 0 para a = 1, . . . , n. Seja uma matriz A, com elementos de matriz Aij . Mostre que, com o
produto escalar h·, ·ip o elemento de matriz (A∗p )ij da adjunta A∗p da matriz A é dado por
pj
(A∗p )ij = Aji . (3.103)
pi
(Lembre-se que A∗p é definida de sorte que hu, Avip = hA∗p u, vip para todos u, v ∈ Cn ). 6
E. 3.35 Exercı́cio. Para a matriz adjunta definida em (3.103), verifique a validade das regras (A∗p )∗p = A
e (AB)∗p = B ∗p A∗p , para quaisquer matrizes A, B ∈ Mat (C, n). Calcule 1∗p . 6
E. 3.36 Exercı́cio. Mostre que para quaisquer u, v ∈ Cn vale hu, vip = hu, P viC , onde hu, viC =
Pn ∗p
n
a=1 ua va é o produto escalar usual em C e P = diag (p1 , . . . , pn ). Conclua disso que A = P −1 A∗ P ,
∗ ∗
onde A é a adjunta usual: (A )ij = Aji . 6
4 −i/2
E. 3.37 Exercı́cio. Determine os autovalores da matriz A = . Essa matriz não é auto-adjunta
2i 5
em relação ao produto escalar usual em C2 , mas possui autovalores reais. Justifique esse fato mostrando,
pelos exercı́cios anteriores, que A é auto-adjunta em relação ao produto escalar hu, vip = 2u1 v1 + u2 v2 /2.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 3 236/1461
∗p 4 −i/2
∗p
Mostre a adjunta A em relação a esse produto escalar é A = = A e constate explicitamente
2i 5
que hu, Avip = hAu, vip para todos u, v ∈ C2 . Determine os autovetores de A e constate que os mesmos
são ortogonais em relação ao produto escalar h·, ·ip . 6
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 3 237/1461
1
α 1 γ1
0
a
γ1
0 α1 0
α
1
γ
2 2
0
0
b
0 γ
2
α2 0
1
α γ3
3
0
c
γ
3
0 α
0 3 0
α
4
γ1
4
0
d
γ
4
0 α
4
Figura 3.2: Forma canônica de uma matriz com 4 autovalores distintos α1 , α2 , α3 e α4 . Os γ’s
assumem apenas os valores 0 ou 1, de acordo com as regras explicadas acima. Todos os elementos fora
da diagonal principal e da primeira supradiagonal são nulos. As setas indicam zeros que ocorrem na
primera supradiagonal nos pontos onde ocorre transição entre os blocos, conseqüência do fato de esses
elementos estarem fora dos blocos.
Capı́tulo 4
Tópicos de Álgebra Linear. II
Conteúdo
4.1 Uma Topologia Métrica em Mat (C, n) . . . . . . . . . . . . . . . . . . . . . 239
4.2 Exponenciais, Logaritmos e Funções Analı́ticas de Matrizes . . . . . . . . 244
4.2.1 A Exponenciação de Matrizes e os Grupos GL(C, n) e GL(R, n) . . . . . . . 252
4.3 A Fórmula de Lie-Trotter e a Fórmula do Comutador . . . . . . . . . . . 255
4.4 Aplicações Lineares em Mat (C, n) . . . . . . . . . . . . . . . . . . . . . . . . 258
4.5 A Fórmula de Baker, Campbell e Hausdorff . . . . . . . . . . . . . . . . . 264
O
4.6 A Fórmula de Duhamel e Algumas de suas Conseqüências . . . . . . . . 270
presente capı́tulo diferencia-se do anterior por explorar aspectos mais topológicos de álgebras
de matrizes. Portanto, uma certa familiaridade com as noções básicas de espaços métricos
(vide Capı́tulo 17) é útil. Discutiremos a definição de funções analı́ticas de matrizes, em
particular, a exponencial e o logaritmo. Nosso principal objetivo, porém, é provar as seguintes
relações: para matrizes A, B ∈ Mat (C, n), valem:
Fórmula de Lie-Trotter1 : m
1 1
exp (A + B) = lim exp A exp B . (4.1)
m→∞ m m
Fórmula do comutador:
m2
1 1 1 1
exp ([A, B]) = lim exp A exp B exp − A exp − B . (4.2)
m→∞ m m m m
Série de Lie: X∞
1
exp(B)A exp(−B) = A + [B, [B, . . . , [B , A] . (4.3)
m=1
m! | {z }
m vezes
Fórmula de Baker-Campbell-Hausdorff2 (sobre a convergência, vide comentário adiante):
1 1 1
exp(A) exp(B) = exp A + B + [A, B] + [A, [A, B]] + [B, [B, A]] + · · · . (4.4)
2 12 12
Fórmula de Duhamel3:
Z 1
exp(A + B) = exp(A) + exp (1 − s)(A + B) B exp sA ds , (4.5)
0
da qual se obtem a série de Duhamel:
" Z t ∞ Z t Z t1 Z m
#
X tm−1 Y
et(A+B)
= e 1+
tA
e−t1 A t1 A
Be dt1 + ··· e−tk A Betk A
dtm · · · dt1 . (4.6)
0 m=2 0 0 0 k=1
1
Marius Sophus Lie (1842-1899). Hale Freeman Trotter (1931-).
2
Henry Frederick Baker (1866-1956). John Edward Campbell (1862-1924). Felix Hausdorff (1868-1942).
3
Jean Marie Constant Duhamel (1797-1872).
238
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 4 239/1461
A série dentro da exponencial no lado direito de (4.4) é um tanto complexa, mas envolve apenas
comutadores múltiplos de A e B. A expressão completa encontra-se em (4.46), página 265. Ao contrário
das fórmulas que lhe precedem e sucedem, a fórmula de Baker-Campbell-Hausdorff não é válida para
quaisquer matrizes A e B pois, no caso geral, a convergência da série do lado direito só pode ser
estabelecida para matrizes suficientemente “pequenas”, a saber, tais que kAkC e kBkC sejam ambas
√
menores que 21 ln 2 − 22 ≈ 0, 12844 . . . (a definição da norma operatorial k · kC de matrizes será
apresentada adiante). Claro é que, nos casos felizes em que os comutatores múltiplos das matrizes A e
B se anulam a partir de uma certa ordem, a série do lado direito será finita e, portanto, convergente.
Comentamos ao leitor mais avançado que as expressões acima (e suas demonstrações abaixo) valem
não apenas para álgebras de matrizes, mas também no contexto mais geral de álgebras-∗ de Banach.
As fórmulas acima são empregadas em várias áreas da Fı́sica (como na Mecânica Quântica, na
Mecânica Estatı́stica e na Teoria Quântica de Campos) e da Matemática (como na Teoria de Grupos).
Faremos uso delas, por exemplo, nos Capı́tulos 14 e 15. Suas provas serão apresentadas, pela ordem,
na Proposição 4.12, página 255, na Proposição 4.13, página 260, no Teorema 4.1 da Seção 4.5, página
264 e na Seção 4.6, página 270. A única demonstração que se pode classificar como complexa é a da
fórmula de Baker-Campbell-Hausdorff, as demais são simples. No correr das páginas seguintes outras
identidades úteis, não listadas acima, serão obtivas.
Seja V um espaço vetorial de dimensão finita, como Cn ou Rnp , dotado de uma norma k · kV . Para
n
C ∋ u = (u1 , . . . , un ), por exemplo, podemos adotar kukCn := |u1|2 + · · · + |un |2 . Vamos denotar
por L(V ) o conjunto de todas as aplicações lineares de V em V . É bem sabido que L(V ) é igualmente
um espaço vetorial. Por exemplo, L(Cn ) = Mat (C, n) e L(Rn ) = Mat (R, n).
Com uso da norma de V é possı́vel definir uma norma também em L(V ). Para A ∈ L(V ) define-se
kAukV
kAkL(V ) := sup .
u∈V kukV
u6=0
E. 4.1 Exercı́cio. Mostre que k · kL(V ) assim definida é, de fato, uma norma no espaço vetorial L(V ).
6
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 4 240/1461
Para A ∈ L(V ), a norma kAkL(V ) definida acima é denominada norma operatorial. Como co-
mentaremos abaixo, há outras normas em L(Cn ) e L(Rn ) que não a norma operatorial, mas que são
equivalentes àquela.
Observação. É uma conseqüência imediata da definição de norma operatorial que
Observação. Em Mat (C, n) é possı́vel provar que kA∗ kMat (C, n) = kAkMat (C, n) . Vide Teorema
26.11, página 1281.
É importante comentar que o procedimento de construção de normas em L(V ) pode ser repetido.
Como L(V ) é igualmente um espaço vetorial normado e de dimensão finita, podemos definir uma norma
em L(L(V )) (o conjunto de todas as aplicações lineares de L(V ) em L(V )) definindo para A ∈ L(L(V ))
kAAkL(V )
kAkL(L(V )) := sup .
A∈L(V ) kAkL(V )
A6=0
É evidente que ad[X] é uma aplicação linear de Mat (C, n) em Mat (C, n), ou seja, um elemento de
L(Mat (C, n)). Note-se que
n X
X n
kAk1 := |Aab |, (4.10)
a=i b=1
n
n X
!1/2
X
kAk2 := |Aab |2 , (4.11)
a=i b=1
n X
n
!1/p
X
kAkp := |Aab |p , com p ≥ 1. (4.12)
a=i b=1
E. 4.3 Exercı́cio. Mostre que (4.9)-(4.12) de fato definem normas em Mat (C, n). (Note que (4.10)-
(4.11) são casos particulares de (4.12)). Use a desigualdade de Minkowski (página 971) para (4.12). 6
E. 4.4 Exercı́cio. A norma (4.11) tem uma interpretação interessante. Mostre que,
hA, Bi = Tr (A∗ B), A, B ∈ Mat (C, n),
define um produto
pescalar em p
Mat (C, n). Mostre que (4.11) é a norma associada a esse produto escalar,
ou seja, kAk2 = hA, Ai = Tr (A∗ A). 6
Observação. É importante lembrar o Teorema 2.7, mencionado à página 129, que afirma que em
espaços vetoriais de dimensão finita todas as normas são equivalentes. Assim, em Mat (C, n) a norma
operatorial kAkC e as normas kAk∞ e kAkp com p ≥ 1 são todas equivalentes. Note-se, porém, que
a propriedade da norma operatorial kABkC ≤ kAkC kBkC não é necessariamente compartilhada por
outras normas. Em geral, tem-se kABk ≤ ckAk kBk para alguma constante c > 0.
E. 4.5 Exercı́cio. Seja D ∈ Mat (C, n) uma matriz diagonal: D = diag (d1 , . . . , dn ) com dk ∈ C.
Mostre que kDkC = max{|d1|, . . . , |dn |}, ou seja, para matrizes diagonais kDkC = kDk∞ . 6
Pn
Tem-se também o seguinte. Para qualquer vetor v ∈ Cn , vale (Av)i = j=1 Aij vj . Assim, pela
desigualdade de Cauchy-Schwarz (2.17), página 127,
n
! n ! n
!
X X X
|(Av)i|2 ≤ |Aij |2 |vk |2 = |Aij |2 kvk2C .
j=1 k=1 j=1
Daı́, !
n
X n X
X n
kAvk2C = |(Av)i|2 ≤ |Aij |2 kvk2C .
i=1 i=1 j=1
Logo,
Xn X n
2 kAvk2C
kAk := sup ≤ |Aij |2 . (4.14)
v∈Cn kvk2C i=1 j=1
v6=0
n
X
Como |Aij |2 ≥ max |Aij |2 , segue de (4.13) que
i=1, ..., n
i=1
kAk∞ ≤ kAk.
X n
n X n X
X n
kAk2 ≤ |Aij |2 ≤ kAk2∞ = n2 kAk2∞ .
i=1 j=1 i=1 j=1
A expressão (4.15) mostra-nos que caso tenhamos uma seqüência de matrizes Am com kAm k → 0
quando m → ∞, então cada elemento de matriz (Am )ij também converge a zero quando m → ∞. E
vice-versa: Se (Am )ij → 0 para todos ij quando m → ∞, então kAm k → 0 quando m → ∞.
Nota. Antes de prosseguirmos, comentemos também que as duas desigualdades (4.15) são optimais,
ou seja, não podem ser melhoradas para matrizes genéricas. Por exemplo, é evidente que k1k∞ = 1
e que k1k = 1. Assim, pelo menos nesse caso tem-se a igualdade na primeira desigualdade de (4.15).
Há também um caso em que se tem a igualdade na segunda desigualdade de (4.15). Considere-se a
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 4 243/1461
matriz M cujos elementos de matriz são todos iguais a 1, ou seja, Mij = 1 para todos i, j. Seja o
vetor u de Cn cujas componentes são todas iguais a 1, ou seja, ui = 1 para todo i. É elementar ver
kMukC
que Mu = nu. Logo = n. Portanto, kMk ≥ n e kMk∞ = 1. Assim, kMk ≥ nkMk∞ e, da
kukC
segunda desigualdade de (4.15), concluı́mos que, nesse caso, kMk = nkMk∞ .
A desigualdade (4.14) significa que kAk ≤ kAk2 . Ao mesmo tempo, a desigualdade (4.13) mostra
que
X n X n Xn
2 2
nkAk = kAk ≥ |Aij |2 = kAk22 .
j=1 j=1 i=1
E. 4.7 Exercı́cio. Mostre que as desigualdades (4.18) também não podem ser melhoradas. 6
Nota. As expressões (4.15), (4.16), (4.17) e (4.18) mostram-nos de modo explı́cito que em Mat (C, n)
as normas k·k, k·k∞, k·k1 e k·k2 são equivalentes (vide definição à página 129). Como já mencionamos,
em espaços de dimensão finita todas as normas matriciais são equivalentes.
A importância de se introduzir uma norma em L(V ) é que podemos dessa forma introduzir uma
noção de distância entre elementos desse conjunto, ou seja, podemos definir uma métrica em L(V )
por d(A, B) = kA − Bk. Deixamos para o leitor a tarefa de demonstrar que isso de fato define uma
métrica em L(V ). Com isso, fazemos de L(V ) um espaço dotado de uma topologia métrica. Fora
isso, o importante Teorema 26.2 demonstrado à página 1257 afirma que L(V ) será um espaço métrico
completo se V o for. Logo, como Cn e Rn são sabidamente espaços vetoriais completos, assim o serão
Mat (C, n), Mat (R, n), assim como L(Mat (C, n)) etc. É possı́vel dessa forma falar de convergência de
seqüências e séries de matrizes de Mat (C, n), Mat (R, n), assim como de elementos de L(Mat (C, n))
etc. Abaixo faremos uso repetido desse fato fundamental.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 4 244/1461
Seja A ∈ Mat (C, n) uma matriz n × n complexa e seja {am m ∈ N} uma seqüência de números
complexos. A expressão
∞
X N
X
am Am = lim am Am = a0 1 + a1 A + a2 A2 + a3 A3 + · · ·
N →∞
m=0 m=0
é dita ser uma série de potências convergente, caso o limite acima exista em Mat (C, n).
P∞
A importância dessa proposição reside no fato que m=0 |am |kAkm
C é uma série numérica e, portanto,
mais simples de lidar.
N
X
Prova. Sejam as somas parciais SN := am Am . Teremos para M < N,
m=0
X
N
N
X
kSN − SM kC =
am Am
≤ |am | kAkm
C.
m=M +1 C m=M +1
P PN
Agora, como a série numérica ∞m=0 |a m | kAk m
C converge, s N := m
m=0 |am | kAkC é uma seqüência de
PN m
Cauchy. Logo m=M +1 |am | kAkC pode ser feito menor que qualquer ǫ > 0 dado, desde que escolhamos
M e N grandes o suficiente. Logo SN é também uma seqüência de Cauchy no espaço métrico completo
Mat (C, n). Portanto, SN converge em Mat (C, n) quando N → ∞.
A Proposição 4.1 conduz à seguinte definição. Seja r > 0 e Dr = {z ∈ C| |z| < r} o disco aberto
de raio r centrado em 0 no plano complexo. Seja f : Dr → C uma função analı́tica em Dr . Como bem
sabemos, f pode ser expressa em termos de uma série de potências (série de Taylor centrada em z0 = 0):
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 4 245/1461
P
f (z) = ∞ m
onde fm = f (m) (0)/m!. É bem sabido também que essa série é absolutamente
m=0 fm z ,P
convergente em Dr : ∞ m
m=0 |fm | |z| < ∞, se |z| < r. Podemos então definir
∞
X
f (A) := fm Am
m=0
para toda a matriz A com kAkC < r, pois a proposição acima garante que a série de matrizes do lado
direito converge a alguma matriz de Mat (C, n), que denotamos por f (A), fazendo uma analogia óbvia
com a função numérica f .
A seguinte proposição sobre essas funções de matrizes será freqüentemente usada no que seguirá.
Proposição 4.2 I. Sejam f e g duas funções analı́ticas no mesmo domı́nio Dr . Definamos (f +
g)(z) := f (z) + g(z) e (f g)(z) := f (z)g(z), z ∈ Dr . Então, para A ∈ Mat (C, n) com kAkC < r
teremos f (A) + g(A) = (f + g)(A) e f (A)g(A) = g(A)f (A) = (f g)(A).
II. Sejam f e g duas funções analı́ticas, com domı́nios Drf e Drg , respectivamente, e tais que a
imagem de g esteja contida no domı́nio de f . Podemos então definir f ◦ g(z) := f (g(z)). Então, para
A ∈ Mat (C, n) com kAkC < rg teremos f (g(A)) = f ◦ g(A). 2
Prova. ←→ Exercı́cio.
Note-se que a parte I da proposição acima afirma que existe um homomorfismo da álgebra das
funções analı́ticas em um domı́nio Dr ⊂ C e Mat (C, n).
Vamos mais adiante usar o seguinte resultado, que essencialmente afirma que as matrizes f (A)
definidas acima, com f analı́tica em um domı́nio Dr ⊂ C, dependem continuamente de A.
Prova. Comecemos com um comentário sobre o enunciado do teorema. Para que f (A + Bm ) esteja
definido é necessário que kA + Bm kC < r. Como kA + Bm kC ≤ kAkC + kBm kC e kAkC < r, a condição
é satisfeita para m grande o suficiente, pois limm→∞ kBm kC = 0. Assim, estaremos supondo que m é
grande o suficiente de modo que kBm kC < ǫ para algum ǫ tal que kAkC + ǫ < r. Feita essa ressalva,
passemos à demonstração.
A prova da proposição segue como conseqüência das duas observações seguintes. A primeira é que
para quaisquer matrizes X, Y ∈ Mat (C, n) e qualquer k inteiro positivo tem-se a seguinte identidade
algébrica:
Xk−1
k k
X −Y = X p (X − Y ) Y k−1−p . (4.19)
p=0
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 4 246/1461
Para provar isso, basta expandir a soma do lado direito e mostrar, após alguns cancelamentos, que
obtem-se o lado esquerdo (faça!).
Logo,
∞
X k−1
X
kf (A + Bm ) − f (A)kC ≤ kBm kC |fk | kA + Bm kpC kAkk−1−p
C .
k=0 p=0
Agora, como dissemos, kA + Bm kC < kAkC + ǫ < r e, obviamente, kAkC < kAkC + ǫ < r. Portanto,
∞
X k−1
X ∞
X
k−1
kf (A + Bm ) − f (A)kC ≤ kBm kC |fk | (kAkC + ǫ) = kBm kC k|fk | (kAkC + ǫ)k−1 .
k=0 p=0 k=0
Como comentamos acima, a soma do lado direito é finita. Como, porém, kBm kC → 0 para m → ∞,
teremos limm→∞ kf (A + Bm ) − f (A)kC = 0, que é o que querı́amos provar.
para toda matriz A ∈ Mat (C, n) com kAkC < 1, pois a série de Taylor da função ln(1 + z) converge
absolutamente em D1 .
Nota. Para kA − 1kC < 1 podemos definir ln(A) por ln(A) := ln(1 + (A − 1)).
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 4 247/1461
E. 4.8 Exercı́cio. Usando a Proposição 4.2, mostre que (exp(A))m = exp(mA) para toda matriz
A ∈ Mat (C, n) e todo m ∈ Z. Mostre também que
exp(ln(1 + A)) = 1 + A
ln (exp(B)) = B
X∞
1 m
Prova. Temos que, para todo A ∈ Mat (C, n), exp(A) − 1 = A + ϕ(A), onde ϕ(A) := A . É
m=2
m!
fácil ver que kϕ(A)k
kAk
→ 0 para kAk → 0. exp(A) − 1 é contı́nua e diferenciável em uma vizinhança de 0
(em verdade, em toda parte) e sua derivada em 0 é a identidade. A afirmação da Proposição 4.4 segue
então do bem conhecido Teorema da Aplicação Inversa (vide, por exemplo, [97]).
exp(ln(A)) = A.
ln (exp(B)) = B. (4.22)
Para dois números complexos z e w é bem conhecida a validade da propriedade exp(z) exp(w) =
exp(z + w) da função exponencial. Podemos nos perguntar: será essa propriedade válida também
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 4 248/1461
para matrizes? A resposta é que em geral tal relação não é válida, apenas em certos casos especiais.
A questão de determinar o produto de exponenciais de matrizes tem grande importância em várias
manipulações algébricas e muito do que seguirá abordará esse problema.
Lembremos a primeiramente a seguinte proposição.
Proposição 4.6 Se A, B ∈ Mat (C, n) são duas matrizes que comutam, ou seja, AB = BA, então
eA+B = eA eB = eB eA . (4.23)
A propriedade (4.23) é familiar quando A e B são números, mas não é óbvia quando A e B são
matrizes. De fato a relação acima é geralmente falsa caso A e B sejam matrizes que não comutam.
No caso em que A e B não comutam o produto eA eB pode ser computado com uso da fórmula de
Baker-Campbell-Hausdorff, discutida na Seção 4.5, página 264.
Prova de (4.23). Pela definição
X∞ X∞
1 1
eA+B
= 1+ m
(A + B) = (A + B)m ,
m=1
m! m=0
m!
onde convencionamos que (A + B)0 = 1. Como A e B comutam, vale a regra do binômio de Newton4
X m
m m p m−p
(A + B) = AB .
p=0
p
E. 4.9 Exercı́cio. Por quê? Vale a regra do binômio de Newton no caso de A e B não comutarem?
Teste alguns exemplos. 6
Assim,
X∞ X m X∞ X m
A+B 1 m p m−p 1
e = A B = Ap B m−p .
m=0 p=0
m! p m=0 p=0
(m − p)!p!
Agora, vale a seguinte regra de mudança de ordem de somas:
∞ X
X m ∞ X
X ∞
(· · · ) = (· · · ).
m=0 p=0 p=0 m=p
Logo, !
∞ X
X ∞ X∞ ∞
X
1 1 p 1
eA+B = p m−p
AB = A B m−p .
p=0 m=p
(m − p)!p! p=0
p! m=p
(m − p)!
4
Isaac Newton (1643-1727).
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 4 249/1461
Assim,
X∞
A+B 1 p B
e = A e = eA eB .
p=0
p!
Podemos nos perguntar: o que ocorre se A e B não comutarem? Há alguma maneira de calcular
exp(A + B) em termos de produtos de exp(A) e exp(B) nesse caso? A resposta a essas questões é dada
por três fórmulas muito importantes, a fórmula de Lie-Trotter, a fórmula do comutador e a fórmula de
Baker-Campbell-Hausdorff, das quais trataremos mais adiante.
Os exercı́cios seguintes, os quais são muito simples de provar, apresentam afirmativas freqüentemente
usadas sobre funções analı́ticas de matrizes.
∞
!T ∞ ∞
!∗ ∞
X X m X X
m
fm A = fm AT e fm A m
= fm (A∗ )m ,
m=0 m=0 m=0 m=0
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 4 250/1461
∞
X
T
ou seja, f (A) = f A T ∗ ∗
e f (A) = f (A ), onde f (z) := fm z m = f (z). Prove essas afirmativas.
m=0
Prove também que !
∞
X ∞
X
−1
m
P fm A m
P = fm P −1 AP ,
m=0 m=0
É suficiente que provemos (4.25) para matrizes complexas primeiro, pois matrizes reais podem ser
obtidas de matrizes complexas do limite quando a parte imaginária dos elementos de matriz vai a zero
e a continuidade, tanto do lado direito quanto do lado esquerdo de (4.25) em relação aos elementos de
matriz de A, garante a validade daquela expressão para matrizes reais também.
Para a prova precisamos de um lema preparatório simples.
Lema 4.1 Se D ∈ Mat (C, n) é uma matriz diagonal complexa n × n, então
det eD = eTr(D) .
Prova. A parte referente à matriz diagonal é a mais fácil. Suponhamos que D é a matriz diagonal
D = diag (d1 , . . . , dn ), sendo que os elementos da diagonal são os autovalores de D. Segue que eD
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 4 251/1461
é a matriz diagonal D = diag ed1 , . . . , edn . Assim, pela Proposição 3.2, página 164, det eD =
ed1 +···+dn = eTr(D) .
Tratemos agora da parte referente à matriz nilpotente N. Iremos provar provar que se N é nilpotente
todos os autovalores de eN são iguais a 1. Pela Proposição 3.22, página 210, os autovalores de N são
todos nulos, Assim, se φ é um autovetor de N teremos eN φ = φ, ou seja, φ é autovetor de eN com
autovalor 1. Infelizmente isso não nos permite concluir diretamente que todos os demais autovetores
de eN tem a mesma propriedade, mas, como veremos, isso é verdade.
Vamos supor que o ı́ndice de N seja k, ou seja, N k+1 = 0. Assim,
Xk
1 m
eN = 1 + N .
m=1
m!
Seja ψ 6= 0 um autovetor de eN com autovalor λ e suponhamos que λ 6= 1. De eN ψ = λψ tem-se
Xk
1 m
(λ − 1)ψ = N ψ (4.26)
m=1
m!
e, assim, aplicando N k a ambos os lados, concluı́mos que
(λ − 1)N k ψ = 0,
já que no lado direito aparecem potências como N k+1 ψ, N k+2 ψ etc., todas nulas. Como λ 6= 1, devemos
ter N k ψ = 0. Retornando a (4.26), podemos reescrevê-la como
k−1
X 1 m
(λ − 1)ψ = N ψ
m=1
m!
eliminando o termo com N k ψ. Aplicando N k−1 a ambos os lados, concluı́mos que
(λ − 1)N k−1 ψ = 0,
já que no lado direito aparecem potências como N k ψ, N k+1 ψ etc., todas nulas. Como λ 6= 1, devemos
ter N k−1 ψ = 0. Prosseguindo dessa forma concluiremos por fim que Nψ = 0. Assim, eN ψ = 1ψ = ψ,
provando que λ = 1, uma contradição.
A conclusão
é que todos os autovalores de eN são iguais a 1, e pela Proposição 3.2, página 164,
det eN = 1. Notemos que, pela Proposição 3.22, página 210, os autovalores de N são todos nulos e,
assim, Tr(N) = 0. Logo, det eN = 1 = eTr(N ) . Isso completa a prova do lema.
Prova da Proposição 4.7. Pelo Teorema de Decomposição de Jordan, existe uma matriz invertı́vel
T tal que A = T −1 (D + N)T , onde D é diagonal, N é nilpotente e DN = ND. Logo,
eA = exp T −1 (D + N)T = T −1 exp(D + N)T = T −1 exp(D) exp(N)T.
Portanto,
det eA = det T −1 eD eN T = det T −1 det eD det eN det (T ) = det eD det eN ,
pois det (T −1 ) = 1/ det (T ). Assim, pelo Lema 4.1, pela Proposição 3.7 e pela propriedade (3.22),
det eA = eTr(D) eTr(N ) = eTr(D+N ) = eTr(T (D+N )T ) = eTr(A) ,
−1
completando a prova.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 4 252/1461
Prova. É evidente pela definição (4.20) que exp(0) = 1. Tudo o que se deseja provar é que para
qualquer A ∈ Mat (C, n) então exp(A) é invertı́vel. Ora, por (4.23), é elementar constatar que
exp(A)−1 = exp(−A).
Prova. Para matrizes complexas, basta constatar que, no exemplo das matrizes diagonais na forma
D = diag (2πk1 i, . . . , 2πkn i, ) com kl ∈ Z, tem-se exp(D) = 1.
0 1
Para matrizes reais, considere-se a matriz real A(α) := αJ onde J := , α ∈ R. Como
−1 0
facilmente se vê, tem-se para m ∈ N, A(α)2m = (−1)m (α)2m 1 e A(α)2m+1 = (−1)m (α)2m+1 J. Daı́,
como facilmente se verifica por (4.20),
cos α senα
exp(A(α)) = cos(α)1 + sen(α)J = .
− senα cos α
Logo, exp(A(2πk)) = 1 para todo k ∈ Z. Assim a exponenciação de matrizes reais 2 × 2 não pode ser
injetora. É fácil, a partir desse exemplo, construir outros para matrizes reais n × n com n ≥ 2.
Agora veremos duas proposições nas quais as matrizes reais e complexas se diferenciam.
Proposição 4.10 As aplicações exp : Mat (R, n) → GL(R, n), n ≥ 1, não são sobrejetoras. 2
Proposição 4.11 As aplicações exp : Mat (C, n) → GL(C, n), n ≥ 1, são sobrejetoras. 2
Prova da Prop. 4.10. Pela Proposição 4.25, o determinante da exponencial de qualquer matriz real é
positivo. Ora, existem em GL(R, n) matrizes com determinante negativo. Logo, a exponenciação de
matrizes reais não pode ser sobrejetora.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 4 253/1461
Comentário. Sobre matrizes reais é possı́vel dizer mais que o enunciado da Proposição 4.10 e sua
prova. Em verdade, não são apenas as matrizes com determinante negativo que estão fora da imagem
da exponenciação de matrizes reais. Há algumas com determinante positivo que também estão fora.
Se M é uma matriz real invertı́vel então seus autovalores são as raı́zes do polinômio caracterı́stico
p(x) = det(x1 − M). Como M é real, esse polinômio tem coeficientes reais e, como é bem sabido, as
raı́zes de polinômios com coeficientes reais ou são números reais ou são pares de números complexos
complexo-conjugados
uns dos outros. Por exemplo, as raı́zes do polinômio caracterı́stico da matriz
0 1
são ±i. De qualquer forma, uma matriz com determinante positivo pode, digamos, ter duas
−1 0
raı́zes negativas distintas simples, como é, por exemplo, o caso da matriz
1 0 0
0 −1 0 . (4.27)
0 0 −2
Isso posto, estudemos os autovalores das matrizes da forma eA com A real. Esses são as raı́zes do
polinômio caracterı́stico p(x) = det(x1 − eA ). Como toda matriz real é também membro de Mat (C, n)
podemos aplicar o Teorema da Decomposição de Jordan (Teorema 3.19, página 215) e afirmar que
existe uma matriz invertı́vel complexa P tal que P −1 AP = D + N com D diagonal, N nilpotente,
DN = ND, sendo que D tem na diagonal os autovalores da matriz real A. Assim, pela propriedade
do determinante,
p(x) = det(x1 − eA ) = det P −1(x1 − eA )P = det(x1 − eD eN ).
É fácil de ver daı́5 que os autovalores de eA são os elementos da diagonal da matriz diagonal eD , que
são, como comentamos acima, exponenciais dos autovalores da matriz real A. Podemos nos perguntar:
podem os elementos da diagonal de eD serem números negativos? A resposta é sim, mas para isso é
necessário que A tenha um autovalor complexo cuja parte imaginária seja da forma (2k + 1)π, com k
inteiro. Ora, como A é real, existe pelo que comentamos acima, um outro autovalor complexo de A cuja
parte imaginária é da forma −(2k + 1)π, pois os autovalores complexos aparecem em pares complexo-
conjugados. Isso diz-nos que os autovalores negativos de eA tem multiplicidade par! Ora, isso nem
sempre é o caso para matrizes invertı́veis, como mostra o exemplo do último parágrafo. Assim, matrizes
reais com determinante positivo e com pelo menos um autovalor negativo com multiplicidade ı́mpar
não estão na imagem da exponencial de nenhuma matriz real. Tal é o caso da matriz de (4.27). Em
verdade, mesmo matrizes com determinante positivo e com autovalores negativos com multiplicidade
par podem não estar na imagem da exponencial. Tal é o caso das matrizes −1 a
0 −1 com a 6= 0 (mostre
isso).
Prova da Prop. 4.11. A Proposição 4.11 afirma que toda matriz complexa invertı́vel n × n pode ser
escrita como exponencial de outra matriz complexa n × n. Provemos isso. Seja A ∈ GL(C, n). Pelo
Teorema da Decomposição de Jordan (Teorema 3.19, página 215) existe uma matriz invertı́vel P tal que
P −1 AP = D + N com D diagonal, N nilpotente, DN = ND, sendo que D tem na diagonal principal
os autovalores da matriz A. Esse último fato diz-nos que D não tem autovalores nulos e, portanto, é
também invertı́vel.
5
Pois numa base conveniente a matriz eD eN é uma matriz triangular superior, tendo na diagonal principal os elementos
da diagonal de eD .
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 4 254/1461
Podemos assim escrever D + N = D(1 + D −1 N). O que faremos agora é provar os seguintes fatos:
1. D pode ser escrita como D = eF para alguma matriz F conveniente. 2. 1 + D −1 N pode ser escrita
como 1 + D −1 N = eG para alguma matriz G conveniente. 3. Podemos escolher F e G de modo que
F G = GF . Desses três fatos concluı́mos que P −1 AP = exp(F + G) e, portanto, A = exp (M), onde
M = P (F + G)P −1. Isso prova o que desejamos.
Prova de 1. Sejam α1 , . . . , αl os autovalores distintos de D. Pelo Teorema Espectral (vide Teorema
X l
3.5, página 182, ou Teorema 3.7, página 187) podemos escrever D = αj Ej , onde as matrizes Ej
j=1
satisfazem (3.41) e (3.42) e, de acordo com (3.43), podem ser expressas como polinômios em D (um fato
1
que será usado mais abaixo): Ej = mj (α j)
mj (D). (Os polinômios mj foram definidos na demonstração
do Teorema 3.7). Seja, para cada j, um número complexo fj escolhido de forma que exp(fj ) = αj .
Encontrar tais fj ’s sempre é possı́vel pois os αj ’s são não-nulos, já que D é invertı́vel. Se definirmos
l
X
F := fj Ej
j=1
é fácil constatar por (3.41) e (3.42) que exp(F ) = D (faça!). Isso prova 1. Note que, pelo que
comentamos acima, vale
Xl
fj
F = mj (D) , (4.28)
j=1
mj (αj )
ou seja, F pode ser expressa como um polinômio em D.
Prova de 2. Como D −1 e N comutam (por que?), segue que D −1 N é nilpotente de ordem, digamos,
k+1
k, ou seja (D −1 N) = 0. Assim, para z ∈ C escolhido de modo que kzD −1 Nk < 1, o logaritmo de
1 + zD N está bem definido e vale (vide (4.21))
−1
Xk
(−z)m m
G(z) = − D −1 N . (4.29)
m=1
m
Sabemos pela Proposição 4.5 que nesse caso em que kzD −1 Nk < 1, ou seja, |z| < 1/kD −1 Nk, temos
exp(G(z)) = 1 + zD −1 N . (4.30)
Queremos agora provar que essa igualdade vale para todo z. Usando novamente o fato que as matrizes
k+1
D −1 e N comutam entre si, o fato que (D −1 N) = 0 e o fato que a soma em (4.29) é finita, teremos
k
!
X (−z)m m
exp(G(z)) = exp − D −1 N
m=1
m
k
Y
(−z)m −1
m
= exp − D N
m=1
m
k
" k
#
Y X (−1)l (−z)ml ml
= 1+ D −1 N .
m=1 l=1
l! ml
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 4 255/1461
Como as somas a produtos acima são finitos (conseqüência da nilpotência de D −1 N), constatamos que
exp(G(z)) é um polinômio em z para todo z ∈ C. Ora, já verificamos acima que, quando |z| é pequeno,
exp(G(z)) é igual ao polinômio em z dado por 1 + zD −1 N. Como polinômios são funções analı́ticas
em toda parte isso implica que exp(G(z)) = 1 + zD −1 N para todo z ∈ C. Em particular, para z = 1,
o que significa que 1 + D −1 N = exp(G), onde
Xk
(−1)m+1 m
G ≡ G(1) = D −1 N . (4.31)
m=1
m
Fórmula do Comutador:
m2
1 1 1 1
exp ([A, B]) = lim exp A exp B exp − A exp − B . (4.33)
m→∞ m m m m
2
6
A fórmula de Lie-Trotter foi originalmente demonstrada por Lie (Marius Sophus Lie (1842-1899)) e posteriormente
generalizada por vários autores, entre eles Trotter (Hale Freeman Trotter (1931-)) em “On the Product of Semi-Groups
of Operators”. ProcȦmer. Math. Soc. 10, 545-551 (1959). O leitor poderá encontrar várias dessas generalizações (por
exemplo para operadores auto-adjuntos não-limitados agindo em espaços de Hilbert) em [116]. O assunto é ainda hoje
objeto de pesquisa.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 4 256/1461
Precisamos, portanto, estudar (Sm )m − (Tm )m . Para isso, é útil empregarmos a identidade algébrica
(4.19). Daquela relação e das propriedades da norma operatorial, segue que
m−1
X
m m
k(Sm ) − (Tm ) kC ≤ kSm kpC kSm − Tm kC kTm kC
m−1−p
. (4.34)
p=0
Assim,
1
1
kSm kC ≤
exp m A
exp
B
≤ e(kAkC +kBkC )/m
C m C
Na última desigualdade usamos que (m − 1)/m < 1 e que kSm − Tm kC não depende de p.
Como se vê da última expressão, tudo que que temos que fazer para provar k(Sm )m − (Tm )m kC vai
a zero quando m → ∞ é provar que kSm − Tm kC vai a zero com 1/m2 quando m cresce. Isso é feito
escrevendo as expressões explı́citas para Sm e Tm em termos da série de Taylor da função exponencial:
1 1 1
Sm − Tm = exp A exp B − exp (A + B)
m m m
" ∞
#" ∞
# " ∞
#
1 X m−k k 1 X m−k k 1 X m−k
= 1+ A+ A 1+ B+ B − 1 + (A + B) + (A + B)k .
m k=2
k! m k=2
k! m k=2
k!
7
Para a fórmula de Lie-Trotter seguiremos aqui a demonstração de [116].
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 4 257/1461
Isso demonstrou a fórmula de Lie-Trotter. O estudante mais avançado pode facilmente convencer-se
que precisamente a mesma demonstração se aplica ao contexto de operadores limitados agindo em
espaços de Banach.
Para a fórmula do comutador usaremos outro procedimento. Definimos
1 1 1 1
Um := exp A exp B exp − A exp − B
m m m m
e teremos
" ∞
#" ∞
#
1 1 2 X m−k k 1 1 X m−k k
Um = 1+ A+ A + A 1+ B+ B 2
+ B
m 2m2 k=3
k! m 2m2 k=3
k!
" ∞
#" ∞
#
1 1 2 X (−m)−k k 1 1 X (−m) −k
× 1− A+ A + A 1− B+ B2 + Bk .
m 2m2 k=3
k! m 2m2 k=3
k!
Com um pouco de paciência podemos expandir o produto dos quatro fatores do lado direito e constatar
(faça!) que os termos envolvendo 1/m se cancelam e o termo proporcional a 1/m2 é AB − BA (outros
termos como (1/m2 )A2 e (1/m2 )B 2 também se cancelam. Verifique!). Ou seja, ficamos com
1 1
Um = 1 + (AB − BA) + Rm , (4.35)
m2 m3
onde m13 Rm são os termos restantes da expansão. Rm é uma expressão complicada, mas envolvendo
séries convergentes e de tal forma que limm→∞ kRm kC é finito.
Isso diz que para m grande o suficiente a norma de Um − 1 é pequena e, assim, podemos tomar o
logaritmo de Um , definido por ln(Um ) = ln(1 + (Um − 1)). Por (4.35) e pela expansão do logaritmo
teremos
1 1
= 2
(AB − BA) + 3 R′m ,
m m
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 4 258/1461
ou seja,
1 ′
m2 ln(Um ) = [A, B] +
R , (4.36)
m m
onde R′m é novamente uma expressão complicada, mas envolvendo séries convergentes e de tal forma
que limm→∞ kR′m kC é finito. Como limm→∞ m1 R′m = 0 podemos escrever, pela Proposição 4.3,
1 ′
exp([A, B]) = lim exp [A, B] + Rm .
m→∞ m
Logo,
2
exp([A, B]) = lim (Um )m .
m→∞
• As Aplicações ad
Dada uma matriz X ∈ Mat (C, n) fixa podemos definir uma aplicação linear ad[X] em Mat (C, n),
ad[X] : Mat (C, n) → Mat (C, n) por
evitar esse transtorno lógico é mais conveniente finalizar a demonstração com uso da função exponencial de matrizes,
para a qual tais problemas de definição não ocorrem.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 4 259/1461
• As Aplicações Ad
Analogamente, seja G ∈ GL(C, n) uma matriz invertı́vel fixa. Podemos definir uma aplicação linear
Ad[G] em Mat (C, n), Ad[G] : Mat (C, n) → Mat (C, n) por
Ad[G](A) := GAG−1 .
• Definindo a Exponenciação de ad
Aqui, p = 1, 2, . . .. Para facilitar a notação em aplicações futuras, convencionaremos que ad[X]0 (A) =
A para toda matriz A ∈ Mat (C, n).
Dado que ad[X] é uma aplicação linear em um espaço vetorial de dimensão finita, sua exponencial
é bem definida. Definimos Exp[ad[X]] como sendo a aplicação linear no espaço das matrizes complexas
n × n, Exp[ad[X]] : Mat (C, n) → Mat (C, n) dada por
X∞ X∞
1 1
Exp[ad[X]](A) := (ad[X])m (A) := A + (ad[X])m (A),
m=0
m! m=1
m!
X∞
1
= A+ [X, [X, . . . , [X , A]
m! | {z }
m=1 m vezes
para toda A ∈ Mat (C, n). A convergência da série é automaticamente garantida pelas observações da
Seção 4.2.
• A Relação entre ad e Ad
Há uma relação elegante entre as aplicações ad e Ad, a qual se expressa na seguinte proposição:
Proposição 4.13 Seja X ∈ Mat (C, n) qualquer. Então
Ad[exp(X)] = Exp[ad[X]] , (4.37)
ou seja, para toda matriz A ∈ Mat (C, n) vale
X∞
1
exp(X)A exp(−X) = A + (ad[X])m (A), (4.38)
m=1
m!
ou seja,
X∞
1
exp(X)A exp(−X) = A + [X, [X, . . . , [X , A]
m! | {z }
m=1 m vezes
1 1
= A + [X, A] + [X, [X, A]] + [X, [X, [X, A]]] + · · · . (4.39)
2! 3!
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 4 260/1461
Comentário 1. A expressão (4.38) ou (4.39) é comummente denominada série de Lie, mas alguns
autores também a denominam fórmula de Baker-Campbell-Hausdorff. Reservaremos esse nome apenas
para a expressão (4.46), adiante.
Comentário 2. As expressões (4.38) e (4.39) são empregadas de várias formas na Mecânica Quântica,
na Mecânica Estatı́stica Quântica e na Teoria Quântica de Campos, especialmente na Teoria de Per-
turbações e nas Teorias de Calibre.
e
Γ2 (t) := Ad[exp(tX)](A) = exp(tX)A exp(−tX).
Vamos mostrar que Γ1 (t) = Γ2 (t) para todo t provando para isso que ambas satisfazem a mesma
equação diferencial linear com a mesma condição inicial.
É trivial constatar que Γ1 (0) = Γ2 (0) = A. Pela definição tem-se
X∞
d tm−1
Γ1 (t) = (ad[X])m (A)
dt m=1
(m − 1)!
∞
!
Xtm−1
= ad[X] (ad[X])m−1 (A)
m=1
(m − 1)!
∞
!
X tm
= ad[X] (ad[X])m (A)
m=0
m!
= ad[X] (Exp[ad[tX]](A))
= ad[X](Γ1 (t)).
d
Analogamente, calculemos Γ (t).
dt 2
Aplicando a regra de Leibniz9 ,
d d
Γ2 (t) = (exp(tX)A exp(−tX))
dt dt
= X exp(tX)A exp(−tX) − exp(tX)A exp(−tX)X
= ad[X](exp(tX)A exp(−tX))
= ad[X](Γ2 (t)).
Comentário. O teorema acima e sua demonstração exemplificam uma situação não muito incomum,
onde apresenta-se um resultado que é muito difı́cil de ser provado por um procedimento mas muito
fácil de ser demonstrado por outro. Tente o leitor demonstrar a identidade (4.38) expandindo as
exponenciais do lado direito em suas séries de Taylor, ou seja, escrevendo
∞ X
X ∞
(−1)l
exp(X)A exp(−X) = X k AX l
k=0 l=0
k!l!
e reordenando as somas de modo a obter o lado esquerdo de (4.38)! Ainda que seja possı́vel provar
(4.38) dessa forma, um tal procedimento é muitı́ssimo mais complexo que aquele que empregamos, e
que faz apenas uso de um fato básico bem conhecido da teoria das equações diferenciais.
E. 4.17 Exercı́cio. Tenha a idéia certa antes de tentar resolver qualquer problema. 6
Seja F (t) uma matriz complexa n × n cujos elementos de matriz (F (t))ij são funções diferenciáveis
em relação a t. Seja também F ′ (t) a matriz cujo elemento ij é dtd (F (t))ij . Em palavras, F ′ (t) é obtida
diferenciando cada elemento de matriz de F (t).
Vamos nos colocar o seguinte problema: como calcular dtd exp(F (t))? O estudante apressado poderia
imaginar que dtd exp(F (t)) = exp(F (t))F ′(t). Isso é, todavia, em geral falso, pois essa regra de derivação
não vale para matrizes! Isso é assim, pois a matriz F ′ (t) não necessariamente comuta com a matriz
9
Gottfried Wilhelm von Leibniz (1646-1716).
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 4 262/1461
Conseqüentemente,
X∞ Xn−1
d 1
exp(F (t)) = F (t)k F ′ (t)F (t)n−k−1. (4.40)
dt n=1
n!
k=0
Isso motiva a seguinte definição. Para X ∈ Mat (C, n) fixo, definimos uma aplicação linear
dexp[X] : Mat (C, n) → Mat (C, n), denominada aplicação diferencial exponencial, por
X∞ Xn−1
1 k
dexp[X](A) := X AX n−k−1, (4.41)
n=1 k=0
n!
E. 4.18 Exercı́cio. Mostre que a série do lado direito está bem definida, ou seja, que é convergente para
todos X e A. 6
Como a série de Taylor do lado direito converge para todo z ∈ C, φ(z) é uma função inteira, ou seja, é
analı́tica em toda parte.
Pelos nossos comentários da Seção 4.2, podemos definir para todo X ∈ Mat (C, n) uma aplicação
linear Φ[X] : Mat (C, n) → Mat (C, n) dada por
Φ[X] := φ(ad[X]), (4.44)
ou seja, Φ[X] é a aplicação que a todo A ∈ Mat (C, n) associa a matriz Φ[X](A) dada por
X∞
(−1)m
Φ[X](A) = ad[X]m (A). (4.45)
m=0
(m + 1)!
Pelos comentários da Seção 4.2 a série do lado direito converge para todos X, A ∈ Mat (C, n).
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 4 263/1461
Proposição 4.14 Com as definições apresentadas acima, vale para todos A, X ∈ Mat (C, n) a
expressão
dexp[X](A) = exp(X) Φ[ad[X]](A) ,
ou seja, !
X∞
(−1)m
dexp[X](A) = exp(X) ad[X]m (A) .
m=0
(m + 1)!
2
Também como comentado acima, é inútil tentar provar a proposição partindo de (4.41) e aplicando
força-bruta. A demonstração usará uma série de truques elegantes.
H(t) := t dexp[tX](A).
A idéia é descobrir uma equação diferencial que H(t) satisfaz e, em seguida, resolvê-la. Note-se que,
pela definição, H(0) = 0. Como veremos, resolver a equação diferencial é tarefa relativamente fácil.
Um pouco mais trabalhoso é encontrar a equação diferencial. Para isso temos que calcular a derivada
de H(t) em relação a t.
Pela definição de H(t) e de dexp[tX](A) em (4.41), tem-se
∞ X
n−1 n
!
d d d X t
H(t) = (t dexp[tX](A)) = X k AX n−k−1
dt dt dt n=1 k=0
n!
∞ X
X n−1 X∞ X n
tn−1 k n−k−1 tn k
= X AX = X AX n−k
n=1 k=0
(n − 1)! n=0 k=0
n!
∞ X
X n ∞
X ∞ X
X n
tn k n−k tn n tn
= A+ X AX = A+ AX + X k AX n−k
n=1 k=0
n! n=1
n! n=1 k=1
n!
∞ n
! ∞ X
n ∞ X
n
X t X tn X tn
= A 1+ X n
+ k
X AX n−k
= A exp(tX) + X k AX n−k
n=1
n! n=1 k=1
n! n=1 k=1
n!
∞ X
n
!
X tn−1
= A exp(tX) + tX X k−1 AX n−k
n=1 k=1
n!
∞ X
n−1 n−1
!
X t
= A exp(tX) + tX X k AX n−k−1
n=1 k=0
n!
Z t Z tX∞
(4.37) (−s)m
= exp(tX) Exp[−ad[sX]](A) ds = exp(tX) ad[X]m (A) ds
0 0 m=0 m!
X∞ Z t X∞
(−1)m m m (−1)m tm+1
= exp(tX) ad[X] (A) s ds = exp(tX) ad[X]m (A)
m=0
m! 0 m=0
(m + 1)!
X∞
(−1)m tm
= t exp(tX) ad[X]m (A)
m=0
(m + 1)!
(4.45)
= t exp(tX) Φ[tX](A) .
Essa expressão vale para todo t ∈ R. Tomando t = 1, teremos H(1) = exp(X)Φ[X](A), ou seja,
Reunindo todos esses resultados, estamos agora preparados para provar a fórmula de Baker, Camp-
bell e Hausdorff.
k
!
X X X (−1)k Y 1
A∗B = A+B+ ···
k, l≥0 a1 , b1 ≥0 ak , bk ≥0
l!(k + 1)(b1 + · · · + bk + 1) i=1
ai !bi !
k+l>0 a1 +b1 >0 ak +bk >0
Comentário. A expressão (4.46) é a célebre fórmula de Baker10 , Campbell11 e Hausdorff12 , que desem-
penha um papel importante no estudo de grupos de Lie e outras áreas. Advertimos que, devido à sua
complexidade e devido à restrição quanto à norma das matrizes A e B, a fórmula de Baker-Campbell-
Hausdorff tem um escopo de aplicações relativamente limitado no que concerne a cômputos de produtos
de exponenciais. A mesma fórmula, porém, presta-se à demonstração de vários teoremas, especialmente
na teoria dos grupos de Lie. Uma situação interessante na qual a fórmula de Baker-Campbell-Hausdorff
pode ser empregada é aquela na qual comutadores de ordem suficientemente grande das matrizes A e
B se anulam, pois aı́ o lado direito de (4.46) ou (4.47) tem um número finito de termos. Tal ocorre nas
chamadas álgebras de Lie nilpotentes. O leitor que procura um exemplo simples do uso de (4.47) pode
interessar-se em ler sobre o chamado grupo de Heisenberg na Seção 14.2.2, página 769.
Prova do Teorema 4.1. A estratégia que empregaremos para provar a fórmula de Baker, Campbell
e Hausdorff é muito semelhante àquela empregada na demonstração da Proposição 4.14. Seja, para
A, B ∈ Mat (C, n) fixas tais que kAkC < ln(2)/2 e kBkC < ln(2)/2, a matriz13
G(t) := ln (exp(A) exp(tB)) , (4.48)
para t ∈ [−1, 1]. Vamos identificar uma equação diferencial satisfeita por G(t), e em seguida resolvê-la.
Comecemos procurando calcular a derivada de G(t) em relação a t. Isso é uma tarefa mais difı́cil do
que parece e procederemos de modo indireto. É conveniente calcular primeiro a derivada de exp(G(t)).
Por um lado temos que
exp(G(t)) = exp(A) exp(tB)
10
Henry Frederick Baker (1866-1956).
11
John Edward Campbell (1862-1924).
12
Felix Hausdorff (1868-1942).
13
A condição kAkC < ln(2)/2 e kBkC < ln(2)/2 garante que k exp(A) exp(tB) − 1kC < 1 para todo t ∈ [−1, 1]. Assim,
o logaritmo de exp(A) exp(tB) em (4.48) está definido.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 4 266/1461
e, portanto,
d d
exp(G(t)) = exp(A) exp(tB) = exp(A) exp(tB)B.
dt dt
Por outro tem-se, pela definição da aplicação dexp, que
d
exp(G(t)) = dexp[G(t)](G′ (t)).
dt
Portanto,
dexp[G(t)](G′ (t)) = exp(A) exp(tB)B.
Usando a Proposição 4.14 essa última igualdade pode ser escrita como
exp(G(t)) Φ[G(t)](G′ (t)) = exp(A) exp(tB)B,
o que implica que
Φ[G(t)](G′ (t)) = exp(−G(t)) exp(A) exp(tB)B = exp(−tB) exp(−A) exp(A) exp(tB)B = B.
Resumindo, tem-se
Φ[G(t)](G′ (t)) = B. (4.49)
′
A idéia que agora perseguiremos é tentar inverter essa expressão de modo a obter G (t) (que aparece
no argumento de Φ no lado esquerdo).
Para isso faremos uso do seguinte lema:
Lema 4.2 Sejam as funções complexas
1 − e−z
φ(z) := , z ∈ C,
z
já definida em (4.43) e
z ln(z)
ψ(z) := , |z − 1| < 1.
z−1
Então vale
ψ(ez )φ(z) = 1
para todo z tal que |z| < ln 2. 2
X∞ X∞
z 1 m 1
|e − 1| ≤ |z| < (ln 2)m = eln 2 − 1 = 1.
m=1
m! m=1
m!
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 4 267/1461
O uso que faremos desse lema é o seguinte. Seja X ∈ Mat (C, n) qualquer. Por analogia com a
definição de Φ[X] em (4.44), definimos
Assim,
Ψ[X]Φ[X] := ψ(Exp[ad[X]])φ(ad[X]) = id,
onde id é a aplicação identidade: id(A) := A, para toda A ∈ Mat (C, n). Portanto, aplicando Ψ[G(t)]
a (4.49), teremos
G′ (t) = Ψ[G(t)](B).
Essa é a equação diferencial procurada e que é satisfeita por G(t), com a condição inicial G(0) = A.
Para prosseguir devemos escrevê-la de forma mais conveniente.
Pela definição da aplicação Ad, é bem fácil ver que
Assim,
com G(0) = A.
Antes de passarmos à resolução dessa equação, comentemos brevemente que o lado direito de (4.51)
está bem definido desde que a norma de Exp[ad[A]] Exp[ad[tB]] seja menor que ln(2), devido à definição
de ψ. Uma conta simples, mas que omitiremos aqui, garante que isso se dá desde que kAkC e kBkC
√
1 2
sejam ambas menores que 2 ln 2 − 2 ≈ 0, 12844 . . ..
Isto posto, nossa tarefa agora é resolver (4.51), o que pode ser feito por uma simples integração.
Teremos, portanto,
Z t Z t
′
G(t) − G(0) = G (s) ds = ψ (Exp[ad[A]] Exp[ad[sB]]) (B) ds.
0 0
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 4 268/1461
Tomando-se t = 1 teremos
Z 1
A B
ln e e = A+ ψ (Exp[ad[A]] Exp[ad[sB]]) (B) ds. (4.52)
0
Estando já na reta final, resta-nos calcular a integral do lado direito, o que pode ser feito com o uso
da expansão em série de ψ dada em (4.50) e um pouco de paciência. É o que faremos.
Por (4.50), teremos
Desejamos escrever esta última expressão diretamente em termos das aplicações ad[A]] e ad[sB].
O último fator, Exp[ad[A]], é simplesmente
X∞
1
Exp[ad[A]] = ad[A]l . (4.54)
l=0
l!
Fora isso,
X∞ X ∞ X
1 1
Exp[ad[A]] Exp[ad[sB]] − id = ad[A]a ad[sB]b − id = sb ad[A]a ad[B]b .
a=0 b=0
a!b! a, b≥0
a!b!
a+b>0
Com isso,
X X sb1 +···+sk−1
= ··· ad[A]a1 ad[B]b1 · · · ad[A]ak−1 ad[B]bk−1 . (4.55)
a1 , b1 ≥0 ak−1 , bk−1 ≥0
a1 !b1 ! · · · ak−1 !bk−1 !
a1 +b1 >0 ak−1 +bk−1 >0
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 4 269/1461
Z 1
ψ (Exp[ad[A]] Exp[ad[sB]]) (B) ds
0
Z ∞ X
∞ k−1
!
1X X X k−1 b1 +···+bk−1 Y
(−1) s 1
= ···
0 k=1 l=0 a1 , b1 ≥0 ak−1 , bk−1 ≥0
l!k i=1
ai !bi !
a1 +b1 >0 ak−1 +bk−1 >0
Z 1
ψ (Exp[ad[A]] Exp[ad[sB]]) (B) ds
0
∞
∞ X k−1
!
X X X (−1)k−1 Y 1
= ···
k=1 l=0 a1 , b1 ≥0 ak−1 , bk−1 ≥0
l!k i=1
ai !bi !
a1 +b1 >0 ak−1 +bk−1 >0
Z 1
a1 b1 ak−1 bk−1 l
× ad[A] ad[B] · · · ad[A] ad[B] ad[A] (B) sb1 +···+bk−1 ds
0
∞ X
∞ k−1
!
X X X (−1)k−1 Y 1
= ···
k=1 l=0 a1 , b1 ≥0 ak−1 , bk−1 ≥0
l!k(b1 + · · · + bk−1 + 1) i=1
ai !bi !
a1 +b1 >0 ak−1 +bk−1 >0
∞ X
∞ k
!
X X X (−1)k Y 1
= ···
k=0 l=0 a1 , b1 ≥0 ak , bk ≥0
l!(k + 1)(b1 + · · · + bk + 1) i=1
ai !bi !
a1 +b1 >0 ak +bk >0
∞ X
∞ k
!
X X X (−1)k Y 1
A∗B = A+ ···
k=0 l=0 a1 , b1 ≥0 ak , bk ≥0
l!(k + 1)(b1 + · · · + bk + 1) i=1
ai !bi !
a1 +b1 >0 ak +bk >0
É fácil ver que o termo com k = l = 0 nas somas do lado direito é igual a B. Com essa identificação,
finalmente chega-se a (4.46).
Como já comentamos a convergência é garantida se kAkC e kBkC forem
√
ambas menores que 21 ln 2 − 22 ≈ 0, 12844 . . ..
Comentário. Um comentário que adiantamos é que, como discutiremos melhor no Capı́tulo 15, o
produto “∗” expresso em (4.46), define uma estrutura de grupo em sub-álgebras de Lie nilpotentes de
Mat (C, n). De fato, é possı́vel provar que “∗” é um produto associativo (pois o produto de exponenciais
de matrizes é associativo) e é fácil ver que A ∗ 0 = A e que A ∗ (−A) = 0 para toda matriz A. Com
isso, a matriz nula é o elemento neutro do grupo e −A é a inversa de A. Isso também mostra que é por
vezes possı́vel construir um produto associativo a partir de outro não-associativo, como o comutador
de matrizes.
válida para quaisquer matrizes A, B ∈ Mat (C. n), e estudaremos algumas de suas conseqüências. A
demonstração é simples. Diferenciando-se es(A+B) e−sA em relação a s, tem-se
d s(A+B) −sA d s(A+B) −sA s(A+B) d −sA
e e = e e +e e
ds ds ds
s(A+B) −sA s(A+B) −sA
= e (A + B) e +e (−A) e
= es(A+B) B e−sA .
Integrando-se ambos os lados entre 0 e t, obtem-se
Z t
et(A+B) −tA
e −1 = es(A+B) B e−sA ds ,
0
Para t = 1, isso reduz-se a (4.59), que é o que querı́amos provar. De (4.60) podem ser extraı́das várias
relações úteis, que trataremos agora.
Uma das conseqüências mais úteis da fórmula de Duhamel é uma relação para a derivada da ex-
ponencial de uma matriz que depende de um parâmetro. Seja A(λ) ∈ Mat (C. n) uma matriz que
depende contı́nua e diferenciavelmente de um parâmetro λ. Então vale
Z 1
d A(λ) (1−s)A(λ) d
e = e A(λ) esA(λ) ds . (4.61)
dλ 0 dλ
Essa relação tem aplicações em equações diferenciais e na Mecânica Estatı́stica, dentro e fora do
equilı́brio. Alguns autores também denominam-na fórmula de Duhamel. O leitor deve compará-la
à expressão alternativa (4.42). Passemos à demonstração.
Sendo A(λ) diferenciável, vale, para todo ǫ suficientemente pequeno,
d
A(λ + ǫ) = A(λ) + ǫ A(λ) + R(λ, ǫ), (4.62)
dλ
onde
1
lim R(λ, ǫ) = 0 . (4.63)
ǫ→0 ǫ
Tem-se, então,
d def. 1
exp(A(λ)) = lim exp(A(λ + ǫ)) − exp(A(λ))
dλ ǫ→0 ǫ
(4.62) 1 d
= lim exp A(λ) + ǫ A(λ) + R(λ, ǫ) − exp (A(λ))
ǫ→0 ǫ dλ
Z 1
(4.59) 1 A(λ) (1−s)(A(λ)+ǫ dA (λ)+R(λ, ǫ)) dA sA(λ) A(λ)
= lim e + e dλ ǫ (λ) + R(λ, ǫ) e ds − e
ǫ→0 ǫ 0 dλ
Z 1
(1−s)(A(λ)+ǫ dA (λ)+R(λ, ǫ)) dA sA(λ)
= lim e dλ (λ) e ds
ǫ→0 0 dλ
Z 1
(1−s)(A(λ)+ǫ dA (λ)+R(λ, ǫ)) 1 sA(λ)
+ lim e dλ R(λ, ǫ) e ds
ǫ→0 0 ǫ
Z 1 Z 1
(1−s)A(λ) dA sA(λ) (1−s)A(λ) 1 sA(λ)
= e (λ) e ds + e lim R(λ, ǫ) e ds
0 dλ 0 ǫ→0 ǫ
Z 1
(4.63) (1−s)A(λ) dA
= e (λ) esA(λ) ds ,
0 dλ
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 4 272/1461
Na expressão (4.60) exponenciais do tipo eλ(A+B) aparecem em ambos os lados. Isso sugere que
podemos inserir iterativamente (4.60) dentro de si mesma de modo a obter outras expressões recorrentes,
como apresentado nas passagens auto-explicativas abaixo. Partindo de (4.60) e repetindo a iteração
duas vezes, tem-se
Z t
t(A+B) tA
e = e + e(t−s1 )(A+B) B es1 A ds1
0
Z t Z t−s1
tA (t−s1 )A (t−s1 −s2 )(A+B) s2 A
= e + e + e Be ds2 B es1 A ds1
0 0
Z t Z tZ t−s1
= e tA
+ e(t−s1 )A
Be s1 A
ds1 + e(t−s1 −s2 )(A+B) B es2 A B es1 A ds2 ds1
0 0 0
Z t
tA
= e + e(t−s1 )A B es1 A ds1 +
0
Z tZ t−s1 Z t−s1 −s2
(t−s1 −s2 )A (t−s1 −s2 −s3 )(A+B) s3 A
e + e Be ds3 B es2 A B es1 A ds2 ds1
0 0 0
Z t Z tZ t−s1
= e tA
+ e(t−s1 )A
Be s1 A
ds1 + e(t−s1 −s2 )A B es2 A B es1 A ds2 ds1
0 0 0
Z tZ t−s1 Z t−s1 −s2
+ e(t−s1 −s2 −s3 )(A+B) B es3 A B es2 A B es1 A ds3 ds2 ds1 .
0 0 0
N Z tZ Z m−1
#
X t−s1 t−s1 −···−sm−1 Y
+ ··· e−(s1 +···+sm )A B esm−k A
dsm · · · ds1
m=2 0 0 0 k=0
t1 = t − s1 s1 = t − t1
t2 = t − (s1 + s2 ) s2 = t1 − t2
.. , .. ,
. .
tm = t − (s1 + · · · + sm ) sm = tm−1 − tm
podemos reescrever as integrais entre colchetes acima na forma
" Z t N Z t Z t1 Z tm−1 m−1 #
X Y
et(A+B) = 1 + et1 A B e−t1 A dt1 + ··· etm−k A B e−tm−k A dtm · · · dt1 etA
0 m=2 0 0 0 k=0
Z tZ Z "m+1 #
t−s1 t−s1 −···−sm Y
+ ··· esk A B e(t−s1 −···−sm+1 )(A+B) dsm+1 · · · ds1 . (4.66)
0 0 0 k=1
Para matrizes ou elementos de uma álgebra-∗ de Banach é possı́vel tomar o limite N → ∞ nas
expressões (4.64)-(4.66), como na proposição que segue.
Proposição 4.15 Sejam matrizes A, B ∈ Mat (C, n). Então,
" Z t
et(A+B) tA
= e 1+ e−s1 A B es1 A ds1
0
∞ Z tZ Z m−1
#
X t−s1 t−s1 −···−sm−1 Y
+ ··· e−(s1 +···+sm )A B esm−k A
dsm · · · ds1 , (4.67)
m=2 0 0 0 k=0
ou, equivalentemente,
" Z t ∞ Z tZ Z m
#
X t1 tm−1 Y
et(A+B)
= e 1+
tA
e−t1 A t1 A
B e dt1 + ··· e−tk A B etk A
dtm · · · dt1 , (4.68)
0 m=2 0 0 0 k=1
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 4 274/1461
para todo t ∈ R, a convergência sendo uniforme para t em compactos. As expansões em série acima
são denominadas séries de Duhamel. 2
Prova. A prova consiste em mostrar que o limite N → ∞ de (4.64) ou (4.66) existe. Tomemos
provisoriamente t ∈ [−T, T ] para
algum T > 0. Para τ ∈ [−T, T ], tem-se keτ A k ≤ e|τ |kAk ≤ eT kAk .
Seja M := max eT kAk , eT kA+Bk . Tem-se
Z Z Z tm−1 Y
t t1 m
−tk A tk A
··· e Be dtm · · · dt1
0 0 0
k=1
Z tZ t1 Z tm−1 m
2m m (M 2 kBk|t|)
≤ M kBk ··· dtm · · · dt1 =
0 0 0 m!
e, analogamente,
Z Z Z t−s1 −···−sm
t t−s1 m
Y
(MkBk|t|)m+1
t−(s1 +···+sm+1 )(A+B) sm+1−k A
··· e Be dsm+1 · · · ds1
≤ M .
0 0 0
(m + 1)!
k=0
Na Seção 7.4, página 343, apresentamos uma generalização da expressão (4.68), a chamada série de
Dyson para da teoria de perturbações (vide, em particular, a expressão (7.26)).
d
Para a prova, observamos que ds
e−sB AesB = e−sB [A, B]esB (justifique!). Integrando-se ambos os
lados de 0 a t, obtem-se Z t
−tB
e tB
Ae −A = e−sB [A, B]esB ds . (4.70)
0
Multiplicando-se à esquerda por etB chega-se à expressão (4.69). Expressões como (4.69) são emprega-
das na teoria de perturbações na Mecânica Quântica.
Parte III
Equações Diferenciais
275
Capı́tulo 5
Equações Diferenciais Ordinárias. Uma Introdução
Conteúdo
5.1 Definição e Alguns Exemplos . . . . . . . . . . . . . . . . . . . . . . . . . . 277
5.1.1 Equações Diferenciais Ordinárias Lineares . . . . . . . . . . . . . . . . . . . . 279
5.1.2 Equações Ordinárias de Segunda Ordem. Exemplos de Interesse . . . . . . . 283
5.2 Sistemas de Equações Diferenciais Ordinárias . . . . . . . . . . . . . . . . 285
5.3 Discussão sobre Problemas de Valor Inicial . . . . . . . . . . . . . . . . . . 290
5.3.1 Problemas de Valor Inicial. Patologias e Exemplos a se Ter em Mente . . . . 293
5.3.2 Teoremas de Existência e Unicidade de Soluções . . . . . . . . . . . . . . . . 296
5.3.3 Soluções Globais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 298
5.3.4 Dependência Contı́nua de Condições Iniciais e de Parâmetros . . . . . . . . . 300
N este capı́tulo apresentaremos uma breve introdução à teoria das equações diferenciais or-
dinárias, abordando vários assuntos que serão aprofundados em outros capı́tulos. Na Fı́sica,
equações diferenciais são representações matemáticas diretas ou indiretas de leis naturais e
não é de surpreender, portanto, o papel central que as mesmas nela desempenham. Pode-se,
sem medo de exagero, afirmar que o desenvolvimento da Fı́sica moderna pós-Newtoniana só se tornou
possı́vel quando se compreendeu a importância de se expressar as leis básicas da natureza em termos
de equações diferenciais e quando se desenvolveram métodos de resolução das mesmas. Desde o século
XVIII as equações diferenciais tornaram-se não apenas um dos principais instrumentos teóricos de
trabalho dos fı́sicos, mas a linguagem mesma pela qual as leis da Fı́sica se expressam.
Um exemplo básico é segunda lei de Newton da Mecânica Clássica, que popularmente consiste na
afirmação que para uma partı́cula de massa m (movendo-se em, digamos, em uma dimensão, do ponto
de vista de um referencial inercial) o produto de sua massa por sua aceleração é igual à força que age
sobre ela. Se y(t) é a posição da partı́cula (em um sistema de referência inercial) e a força F que age
sobre ela em um instante de tempo t depender apenas do tempo t, da posição y(t) no instante t e
da velocidade ẏ(t) no mesmo instante t, então a segunda lei de Newton assume a forma da equação
diferencial ordinária de segunda ordem
A Fı́sica apresenta outros exemplos de leis que se expressam em termos de equações diferenciais (parci-
ais), tais como as leis do Eletromagnetismo (equações de Maxwell), da Mecânica dos Fluidos (equações
de Euler e de Navier-Stokes), da Mecânica Quântica (equações de Schrödinger, de Klein-Gordon e de
Dirac), na Teoria da Relatividade Geral (equação de Einstein) etc.
Atualmente, o estudo das equações diferenciais e suas aplicações estende-se a outras sub-áreas da
Fı́sica, tais como a quı́mica, a biologia, a economia, finanças etc. , Para excelentes introduções, legı́veis
profundas e abrangentes, à teoria das equações diferenciais ordinárias, recomendamos [6] e [69].
276
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 5 277/1461
Em termos simples, uma equação diferencial ordinária é uma relação a ser satisfeita por uma função
de uma variável e um conjunto finito de suas derivadas. Vamos tentar formalizar essa idéia.
Seja n ≥ 1 um número natural e seja G(x1 , . . . , xn+2 ) uma função (real ou complexa) de n + 2
variáveis (reais ou complexas). Entende-se por uma equação diferencial ordinária de ordem n de uma
função (incógnita) y de uma variável t associada à função G a equação
Assim sendo, o número n é dito ser a ordem da equação. Como dissemos, apenas as derivadas de
uma função incógnita em relação a uma das variáveis da qual eventualmente depende ocorrem em uma
equação diferencial ordinária. Se ocorrerem derivadas em relação a várias variáves, a equação é dita ser
uma equação diferencial parcial. Equações diferenciais parciais serão discutidas em outros capı́tulos,
adiante.
Um exemplo (escolhido arbitrariamente, sem aplicação prática conhecida) seria o caso da função de
três variáveis
G(x1 , x2 , x3 ) = x21 + sen(x2 ) − 3x1 cos(x3 ) . (5.2)
A equação diferencial ordinária de primeira ordem associada a essa função seria
É evidente que só faz sentido associar uma equação diferencial a uma função G de n + 2 variáveis,
como acima, se a mesma possuir zeros, ou seja, se a equação algébrica G(x1 , . . . , xn+2 ) = 0 possuir
soluções (reais ou complexas, dependendo do interesse). Por exemplo, se G(x1 , x2 , x3 ) é uma função
de três variáveis reais ou complexas da forma G(x1 , x2 , x3 ) = |x1 |2 + |x2 |2 + |x3 |2 + 1 então não há
nenhuma equação diferencial associada à mesma, já que não há números reais ou complexos tais que
G(x1 , x2 , x3 ) = 0 e, portanto, a equação |t|2 + |y(t)|2 + |y ′(t)|2 + 1 = 0, ainda que possa ser escrita,
trivialmente não possui qualquer solução.
Em muitos casos a equação algébrica G(x1 , . . . , xn+2 ) = 0 permite escrever de modo único (ao
menos em uma região finita) a variável xn+2 em termos das demais:
onde F é alguma função de n+1 variáveis. Condições para isso são garantidas pelo importante Teorema
da Função Implı́cita (vide Seção 18.5, página 1024, ou qualquer bom livro-texto sobre funções de várias
variáveis). Nesses casos felizes, a equação diferencial para G equivale (ao menos localmente) à equação
Nos casos em que G é tal que não permite a separação global da dependência de xn+2 como em (5.4)
a equação diferencial é dita ser uma equação diferencial implı́cita. Equações implı́citas são por vezes
difı́ceis de lidar. Trataremos da solução de algumas delas no Capı́tulo 6, página 302. Um exemplo de
uma equação implı́cita foi apresentado em (5.2)-(5.3). Outro exemplo é a equação diferencial (associada
à conservação de energia mecânica de uma partı́cula de massa m se movendo em uma dimensão sob a
ação de um potencial U):
m
(ẏ(t))2 + U(y(t)) = E ,
2
onde E é uma constante.
Daqui por diante estaremos mais freqüentemente interessados em equações diferenciais de ordem
n da forma (5.5) para alguma função de n + 1 variáveis F . Para ilustrar equações do tipo (5.5),
apresentemos mais alguns exemplos.
Exemplo 5.1 Sejam m, ρ e k constantes positivas e f uma função de uma variável. Seja G a função
de quatro variáveis
G(x1 , x2 , x3 , x4 ) = mx4 + kx2 + ρx3 − f (x1 ) .
É evidente que para a equação algébrica G(x1 , x2 , x3 , x4 ) = 0 podemos escrever
x4 = F (x1 , x2 , x3 ) ,
onde
1
F (x1 , x2 , x3 ) = − (kx2 + ρx3 − f (x1 )) .
m
A equação diferencial (de segunda ordem) associada a essa função F é ÿ(t) = F (t, y(t) ẏ(t)), ou
seja
mÿ(t) + ρẏ(t) + ky(t) = f (t) .
O estudante pode imediatamente reconhecer que se trata da equação do oscilador harmônico amortecido
submetido a uma força dependente do tempo f (t). ◊
Esta equação é conhecida como equação de van der Pol1 , em honra ao engenheiro que a propôs como
a equação básica para o triodo (uma espécie de “avô” do transistor). ◊
Exemplo 5.4 Sejam α e β constantes e
Essa equação aparece em vários problemas, por exemplo no estudo da evolução de populações. ◊
Algumas palavras devem ser ditas sobre a noção de solução de uma equação diferencial ordinária.
Uma solução clássica de uma equação diferencial ordinária de ordem m em um domı́nio Ω ⊂ R ou
Ω ⊂ C (suposto conexo e de interior não-vazio) é uma função m-vezes diferenciável que satisfaz a
equação em todos os pontos do interior de Ω. Existem também outras noções de solução, como a de
solução fraca, de solução distribucional etc. Discutiremos por ora apenas as soluções clássicas e, por
isso, abusando um pouco da linguagem, nos referiremos a elas simplesmente como “soluções”, sem
pender o qualificativo “clássicas”.
Se a função F (x1 , . . . xn+1 ) for uma função linear das variáveis x2 , . . . xn+1 , então (5.6) é dita ser
linear. Em um tal caso, F (x1 , . . . xn+1 ) é da forma
É fácil constatar que toda equação diferencial ordinária e linear de ordem n é da forma
y (n) (t) + an−1 (t)y (n−1) (t) + · · · + a1 (t)y ′ (t) + a0 (t)y(t) = f (t) , (5.7)
para funções reais ou complexas a0 , . . . , an−1 e f . Veremos inúmeros exemplos adiante (vide Seção
5.1.2).
Equações que não são lineares são (obviamente) ditas ser não-lineares. Exemplos são a equação do
pêndulo simples
ẍ(t) + sen(x(t)) = 0
e a de van der Pol
ÿ(t) + µẏ(t)(y(t)2 − 1) + ky(t) = 0 .
Equações não-lineares são em muitos sentidos mais “complexas” que equações lineares e têm sido ob-
jeto de intenso estudo nas últimas décadas, especialmente no que concerne ao comportamento “caótico”
observado em muitas delas. Nos capı́tulos que seguem, nossa ênfase será o desenvolvimento de métodos
de resolução de equações lineares, mas trataremos de métodos de resolução de algumas equações não-
lineares no Capı́tulo 6, página 302, e também no Capı́tulo 18 quando desenvolvermos métodos recursivos
no tratamento das equações integrais de Fredholm e de Volterra.
Caso as funções a0 , . . . , an−1 em (5.7) sejam constantes, a equação (5.7) é dita ser a equação
a coeficientes constantes. Como discutiremos, há um método geral para obter soluções de equações
diferenciais ordinárias lineares a coeficientes constantes (para qualquer ordem n).
Caso a função f seja identicamente nula, a equação (5.7) é dita ser uma equação diferencial ho-
mogênea. De outra forma, se f não for identicamente nula, equação (5.7) é dita ser uma equação
diferencial não-homogênea.
Equações lineares e homogêneas têm uma propriedade de grande importância, o chamado princı́pio
de sobreposição, do qual trataremos agora.
y (n) (t) + an−1 (t)y (n−1) (t) + · · · + a1 (t)y ′(t) + a0 (t)y(t) = 0 . (5.8)
O chamado princı́pio de sobreposição é a afirmativa que se ya e yb são duas soluções de (5.8) então
combinações lineares arbitrárias αya + βyb são também soluções de (5.8). Aqui α e β são números reais
(k) (k)
ou complexos arbitrários. A prova é simples. A k-ésima derivada de αya + βyb é αya + βyb . Assim,
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 5 281/1461
(αya + βyb )(n) + an−1 (t)(αya + βyb )(n−1) + · · · + a1 (t)(αya + βyb )′ + a0 (t)(αya + βyb) =
(n) (n−1)
(αya(n) + βyb ) + an−1 (t)(αya(n−1) + βyb ) + · · · + a1 (t)(αya′ + βyb′ ) + a0 (t)(αya + βyb) =
Uma conclusão importante que se extrai do princı́pio de sobreposição é que o conjunto de todas
as soluções de uma equação diferencial ordinária linear e homogênea é um espaço vetorial, real ou
complexo, dependendo do caso.
Como o estudante facilmente percebe, o princı́pio de sobreposição vale também para sistemas de
equações diferenciais ordinárias lineares e homogêneas, assim como para equações diferenciais parciais
lineares e homogêneas, tais como as equações de difusão, de onda, de Laplace, as equações de Maxwell no
vácuo, a equação de Schrödinger e muitas outras equações da Fı́sica. Nelas o princı́pio de sobreposição
é amplamente empregado.
Historicamente, o princı́pio de sobreposição era conhecido desde os primeiros estudos sobre equações
diferenciais no século XVIII, mas foi através dos trabalhos de Helmholtz2 sobre acústica que sua im-
portância foi inteiramente percebida na resolução de equações diferenciais (ordinárias e parciais) lineares
de interesse fı́sico. A influência de Helmholtz não pode ser subestimada, mesmo no que concerne a
aplicações práticas: a leitura de Helmholtz, que também inventara um dispositivo eletromecânico para
a produção artificial do som de vogais, inspirou Bell3 a realizar experiências de transmissão simultânea
de múltiplos sinais de código Morse4 em uma única linha telegráfica, empregando freqüências distintas
para cada mensagem. Tais experiências conduziram Bell em 1876 à invenção do telefone.
Vamos colocar a seguinte questão. Vale o princı́pio de sobreposição para equações diferenciais
ordinárias lineares não-homogêneas? Para tentar responder isso, considere-se a equação não-homogênea
y (n) (t) + an−1 (t)y (n−1) (t) + · · · + a1 (t)y ′(t) + a0 (t)y(t) = f (t) (5.9)
e sejam ya e yb duas soluções. Como acima, consideremos uma combinação linear αya + βyb e tentemos
repetir o que fizemos no caso homogêneo. Assim, substituindo-se y por αya + βyb no lado esquerdo de
2
Hermann Ludwig Ferdinand von Helmholtz (1821-1894).
3
Alexander Graham Bell (1847-1922).
4
Samuel Finley Breese Morse (1791-1872).
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 5 282/1461
(5.9), teremos
(αya + βyb )(n) + an−1 (t)(αya + βyb )(n−1) + · · · + a1 (t)(αya + βyb )′ + a0 (t)(αya + βyb) =
(n) (n−1)
(αya(n) + βyb ) + an−1 (t)(αya(n−1) + βyb ) + · · · + a1 (t)(αya′ + βyb′ ) + a0 (t)(αya + βyb) =
α ya(n) + an−1 (t)ya(n−1) + · · · + a1 (t)ya′ + a0 (t)ya
| {z }
= f (t)
(n) (n−1)
+ β yb + an−1 (t)yb + · · · + a1 (t)yb′ + a0 (t)yb = (α + β)f (t) .
| {z }
= f (t)
O que concluı́mos é que αya + βyb somente é uma nova solução de (5.9) se α + β = 1. Portanto, se ya
e yb são soluções de (5.9) então αya + (1 − α)yb é também solução de (5.9) para qualquer α.
Vimos que o princı́pio de sobreposição para equações não-homogêneas não se dá para α e β ar-
bitrários. Não se pode mais, portanto, dizer que o conjunto de soluções de uma equação não-homogênea
como (5.9) é um espaço vetorial, mas sim um espaço convexo.
Há ainda uma outra propriedade importante satisfeita pelas soluções de equações não-homogêneas.
Seja ynh uma solução particular da equação não-homogênea (5.9) e yh solução particular da equação
homogênea (5.8), a qual difere de (5.9) apenas pelo fato de ter-se f (t) = 0. Então tem-se que
é também solução da equação não-homogênea (5.9) para qualquer constante α. Para ver isso, inserimos
y = αyh + ynh no lado esquerdo de (5.9) e teremos
(αya + ynh )(n) + an−1 (t)(αyh + ynh )(n−1) + · · · + a1 (t)(αyh + ynh )′ + a0 (t)(αyh + ynh ) =
O que aprendemos com isso é que se tivermos uma solução particular de uma equação linear não-
homogênea obtemos uma outra solução mais geral adicionando a esta uma solução da equação linear
homogênea associada. Essa propriedade é muito útil na solução de equações não-homogêneas.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 5 283/1461
Apenas por curiosidade informamos que não apenas equações diferenciais do tipo (5.1) ou (5.5)
são objeto de interesse e de pesquisa. Um outro tipo são as chamadas equações com retardo, as quais
existem em diversas formas. Uma dessas forma é a seguinte. Sejam T0 , . . . , Tn1 constantes positivas.
Uma equação com retardo (fixo) é uma equação da forma
y (n) (t) = F (t, y(t − T0 ), . . . , y (n−1) (t − Tn−1 )). (5.11)
A diferença com relação a (5.5) é que aqui y (n) no instante t não depende de y, . . . , y n−1 no mesmo
instante t, mas em instantes anteriores.
Um exemplo interessante é o seguinte. Suponha que y(t) designe a população de uma espécie de
seres vivos vivendo em um certo habitat. O número de falecimentos por causas naturais (como doenças)
no intervalo t e t+dt é tipicamente proporcional a y(t) (justifique!). Assim, se a espécie não se reproduz,
a variação dy da população no intervalo t e t + dt será dy = −αy(t)dt para uma certa constante α,
ou seja, y satisfará a equação diferencial y ′(t) = −αy(t), que é uma equação de primeira ordem sem
retardo. Agora, admitamos que a espécie se reproduz. O número de cruzamentos entre elementos da
espécie no intervalo t e t + dt é tipicamente proporcional a y(t)2 (justifique!). Se admitirmos que o
número de nascimentos no intervalo entre t e t + dt é proporcional ao de cruzamentos ocorridos em
t − T0 (descontando assim o tempo de gestação T0 ) a equação diferencial para y terá que ser modificada
para
y ′ (t) = −αy(t) + β(y(t − T0 ))2
para uma certa constante β. Esta é uma equação de primeira ordem com retardo.
Há vários outros tipos de equações com retardo, por exemplo, aquelas onde os tempos de retardo
Ti não são fixos, mas dependem de t ou mesmo de y. Tais equações aparecem no Eletromagnetismo,
onde o retardo é devido à finitude da velocidade da luz.
O estudo de equações com retardo requer outros métodos que não aqueles que discutiremos aqui e
é atualmente assunto ativo de pesquisa, encontrando aplicações mesmo fora da Fı́sica, em áreas tais
como a Epidemiologia - como o exemplo acima ilustra - onde os retardos são tipicamente conseqüência
quer de tempos de gestação quer de tempos de latência (de doenças).
3. A Equação de Euler5 :
t2 ÿ(t) + at ẏ(t) + by(t) = 0 ,
onde a e b são constantes.
4. A Equação de Hill6 :
ÿ(t) + (λ + P (t))y(t) = 0 ,
onde P (t) é uma função periódica e λ constante. Um caso particular importante é o da equação
de Mathieu:
5. A Equação de Mathieu7 :
ÿ(t) + (a + b cos(ωt))y(t) = 0 ,
com a, b e ω constantes.
6. A Equação de Bessel8:
x2 y ′′ (x) + xy ′ (x) + (x2 − ν 2 )y(x) = 0 ,
ν ∈ R.
7. A Equação de Legendre9 :
(1 − x2 )y ′′ (x) − 2xy ′ (x) + λ(λ + 1)y(x) = 0 ,
λ ∈ R, e a equação de Legendre associada
µ2
(1 − x2 )y ′′(x) − 2xy ′ (x) + λ(λ + 1)y(x) − y(x) = 0 ,
1 − x2
λ, µ ∈ R.
8. A Equação de Hermite10 :
y ′′(x) − 2xy ′ (x) + λy(x) = 0 ,
λ ∈ R.
9. A Equação de Airy11 :
y ′′ (x) − xy(x) = 0 .
10. A Equação de Laguerre12 :
xy ′′ (x) + (1 − x)y ′ (x) + λy(x) = 0 ,
λ ∈ R, e a Equação de Laguerre associada
xy ′′ + (m + 1 − x)y ′ + (n − m)y = 0 ,
m, n constantes.
5
Leonhard Euler (1707-1783).
6
George William Hill (1838-1914).
7
Emile-Léonard Mathieu (1835-1890).
8
Friedrich Wilhelm Bessel (1784-1846).
9
Adrien-Marie Legendre (1752-1833).
10
Charles Hermite (1822-1901).
11
George Biddell Airy (1801-1892).
12
Edmond Nicolas Laguerre (1834-1886).
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 5 285/1461
λ ∈ R.
a, b, c constantes.
a, c constantes.
O leitor interessado poderá encontrar no Capı́tulo 10, página 583, problemas fı́sicos dos quais
emergem algumas das equações listadas acima.
onde cada Fi é uma função de um certo número de variáveis e nk são números inteiros maiores ou
iguais a 1. Para cada yj tem-se, portanto, uma equação de ordem nj , na qual comparecem também as
demais funções yk e suas derivadas de ordem até nk − 1.
Sistemas de equações diferenciais ordinárias são muito freqüentes em Fı́sica. Considere-se, por
exemplo, um sistema isolado de m partı́culas de massas Mi e coordenadas x~i , i = 1, . . . , m, interagindo
de forma que a partı́cula j exerce sobre a partı́cula i uma força F~ij (x~i − x~j ). A segunda lei de Newton
fica X
Mi x~¨i (t) = F~ij (x~i (t) − x~j (t)) ,
j6=i
• O sistema de Lotka-Volterra
Figura 5.1: A evolução do sistema de Lotka-Volterra para três condições iniciais distintas. O eixo
horizontal é a população p1 e o vertical p2 . Note que a evolução se dá em ciclos periódicos fechados,
uma caracterı́stica especial do sistema de Lotka-Volterra.
Também muito estudados20 são os modelos do tipo Lotka-Volterra com n espécies, caracterizados
pelo sistema de equações
n
X
ṗj (t) = αj pj (t) + βjk pj (t) pk (t) , j = 1, . . . , n .
k=1
Mais generalidades sobre o modelo de Lotka-Volterra e sobre outras aplicações de equações diferen-
ciais em modelos ecológicos e epidemiológicos podem ser encontradas, por exemplo, em [19] e [3]. Para
outra referência sobre o modelo de Lotka-Volterra e assuntos correlatos, vide [72].
Comparados à realidade dos sistemas biológicos os modelos apresentados acima são bastante sim-
plificados, deixando de lado vários efeitos possivelmente relevantes, tais como reprodução sexuada
(machos só se reproduzem com fêmeas, não com outros machos, fêmeas idem), imunidade ou não a
doenças por parte das populações, tempos de gestação, ausência de reprodução durante a gestação,
tempos de latência de doenças, limitação dos recursos do habitat, surgimento aleatório de mutações e
vários outros fatores. Há toda uma área de pesquisa voltada à modelagem realista de sistemas biológicos
e eco-sistemas. Alguns modelos estudados chegam a ser extremamente complexos, envolvendo dezenas
de equações e de incógnitas. Para uma referência atualizada sobre modelagem de sistemas biológicos,
vide [19] ou [72].
Muito importantes são os sistemas de m equações diferenciais ordinárias lineares de primeira ordem,
os quais têm a forma
ẏ1 (t) = a11 (t)y1 (t) + · · · + a1m (t)ym (t) + b1 (t) ,
ẏ2 (t) = a21 (t)y1 (t) + · · · + a2m (t)ym (t) + b2 (t) ,
.. (5.18)
.
ẏm (t) = am1 (t)y1 (t) + · · · + amm (t)ym (t) + bm (t) ,
para certas funções aij e bj de t.
No casos em que as funções bj acima são identicamente nulas o sistema é dito ser homogêneo. Caso
contrário, é dito ser não-homogêneo.
Como veremos, é muito conveniente escrever o sistema linear (5.18) acima em notação matricial.
De fato, definindo,
y1 (t) a11 (t) · · · a1m (t) b1 (t)
.. ,
Y (t) = ... , A(t) := ... ..
. . B(t) = ... ,
ym (t) am1 (t) · · · amm (t) bm (t)
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 5 289/1461
como facilmente se vê. Sistemas lineares de primeira ordem serão estudados em detalhe no Capı́tulo 7
onde, em particular, faremos uso abundante da notação matricial acima.
Provaremos agora um fato simples, mas de grande relevância, tanto teórica quanto em aplicações
(analı́ticas ou numéricas), a saber, que toda equação diferencial ordinária de ordem n é equivalente a
um sistema de n equações de primeira ordem.
Seja a equação diferencial ordinária de ordem n
F1 (t, y1 , . . . , yn ) = y2 ,
F2 (t, y1 , . . . , yn ) = y3 ,
..
.
Fn−1 (t, y1 , . . . , yn ) = yn ,
Fn (t, y1 , . . . , yn ) = F (t, y1 (t), . . . , yn (t)) .
Isso mostra que toda equação diferencial ordinária de ordem n, como (5.19), equivale a um sistema de
n equações de primeira ordem, como (5.20).
y (n) (t) + an−1 (t)y (n−1) (t) + · · · + a1 (t)y ′ (t) + a0 (t)y(t) = f (t) .
Determine o sistema linear de n equações de primeira ordem equivalente e mostre que o mesmo pode ser
escrito na forma matricial
Ẏ (t) = A(t)Y (t) + B(t) ,
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 5 290/1461
onde
y(t) 0
y ′ (t) 0
.. ..
Y (t) := . , B(t) := .
(n−2)
y (t) 0
(n−1)
y (t) f (t)
e A(t) é a matriz n × n
0 1 0 0 ··· 0
0 0 1 0 ··· 0
.. .. ..
.. .. ..
. . . . . .
A(t) := .
..
0 0 0 . 1 0
0 0 0 ··· 0 1
−a0 (t) −a1 (t) −a2 (t) ··· −an−2 (t) −an−1 (t)
Equação matriciais como a de acima serão estudadas com mais detalhe no Capı́tulo 7. 6
E. 5.3 Exercı́cio. Mostre que todo sistema de equações diferenciais ordinárias como (5.12) equivale
a um sistema de equações de primeira ordem. Sugestão: use a mesma idéia de acima, dando nomes às
(nj )
derivadas yi que aparecem no lado direito de (5.12). 6
Como é bem sabido, a solução da equação diferencial ẏ(t) = y(t) é dada por y(t) = cet, onde c é
uma constante, a qual pode ser fixada, por exemplo, prescrevendo-se o valor da função y em t = 0: y(0).
Há outros exemplos simples em que a necessidade de fixação de certos valores para a função y pode ser
vista de modo explı́cito. Considere-se a equação do oscilador harmônico simples ẍ+ω02 x = 0. A solução
geral dessa equação é x(t) = A cos(ω0 t) + B sen(ω0 t), onde A e B são duas constantes arbitrárias. Para
determiná-las é preciso fornecer duas informações extra sobre a função, por exemplo, sua posição e sua
velocidade em um instante de tempo. Se x0 e v0 forem a posição e velocidade no instante t = 0, então
é fácil constatar que A = x0 e B = v0 /ω0 . Outro par de informações é também eventualmente possı́vel.
Por exemplo, podemos fornecer posição e velocidade em outro instante de tempo que não t = 0, ou
em dois instantes de tempo distintos, um para a posição, outro para a velocidade. Em muitos casos é
possı́vel fixar a solução desejada informando apenas a posição em dois instantes de tempo distintos ou
as velocidades em dois instantes de tempo distintos.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 5 291/1461
De modo geral, para a determinação completa da solução de uma equação diferencial ordinária
de ordem n é preciso fornecer n informações sobre o valor da função e/ou suas derivadas em certos
instantes21 .
O tipo de situação mais comum para a determinação completa da solução de uma equação diferencial
ordinária de ordem n, especialmente em problemas da Mecânica, é aquele na qual são fornecidas
informações sobre a função e suas n − 1 primeiras derivadas em um único instante de tempo, digamos
t = 0. Tais problemas são conhecidos como problemas de valor inicial, ou problemas de Cauchy22 .
O exemplo do oscilador harmônico acima é um tı́pico problema de valor inicial: qual é a função que
satisfaz a equação diferencial ẍ + ω02 x = 0 e satisfaz x(0) = x0 e v(0) = v0 , para certos números x0 e v0
dados? Resposta: x(t) = x0 cos(ω0 t) + (v0 /ω0 ) sen(ω0 t).
Assim, o problema de valor inicial associado à equação de ordem n
para certos números dados y1 , . . . , yn , os quais são denominados condições iniciais ou dados iniciais.
Após definirmos o que se entende por problema de valor inicial, uma série de questões se coloca.
1. Todo problema de valor inicial tem solução? 2. Se tiver, é única? 3. Há condições suficientes para
garantir que uma solução exista? 4. E para que seja única? 5. E se existir solução, será ela válida
para todo t? 6. Há condições suficientes para garantir que uma solução exista para todo t? 7. Há
condições suficientes para garantir continuidade da solução em relação às condições iniciais? 8. Há
condições suficientes para garantir continuidade da solução em relação aos parâmetros que ocorrem na
equação?
Por várias razões as questões acima são muito importantes. Naturalmente, a melhor maneira de
mostrar que um problema de valor inicial tem solução é exibindo a solução. Isso, porém, nem sempre
é factı́vel, pois muitas equações são difı́ceis, ou mesmo impossı́veis, de se resolver de modo explı́cito.
Por exemplo, a equação do pêndulo simples θ̈ + gl sen(θ) = 0 tem solução para quaisquer condições
iniciais, mas essa solução não pode ser apresentada de forma fechada em termos de funções elementares
conhecidas, apenas em termos de expansões ou das chamadas funções elı́pticas. Vide, por exemplo,
[87]. (Para um tratamento da equação do pêndulo em termos de equações integrais, vide Seção 18.3,
página 1005, destas Notas). Daı́ a importância da questão 3: é muitas vezes necessário saber a priori
se uma solução existe antes de tentar encontrá-la.
Saber a priori se um problema de valor inicial tem solução e se essa solução é única pode ser
importante para justificar métodos de solução. Muitas vezes, ao encontrarmos a solução de um problema
de valor inicial perguntamo-nos se a solução encontrada é única. Por exemplo, pode-se facilmente
constatar que as funções x(t) = x0 cos(ω0 t) + (v0 /ω0 ) sen(ω0 t) são soluções da equação do oscilador
harmônico simples ẍ + ω02 x = 0 com as condições iniciais x(0) = x0 e v(0) = v0 . O que, porém, garante
que não há outras funções que também sejam solução dessa equação para essas condições iniciais? Nisso
21
Uma exceção notável é a equação de Clairaut, discutida na Seção 6.8, página 317, que possui uma solução, dita
solução singular, não depende de nenhum parâmetro livre.
22
Augustin Louis Cauchy (1789-1857).
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 5 292/1461
reside a importância da questão 4: em se sabendo a priori que a solução é única (esse é o caso para a
equação do oscilador harmônico simples) não é necessário procurar outras soluções.
Equações diferenciais de interesse em Fı́sica tipicamente dependem de certos parâmetros. Por
exemplo, a equação do oscilador harmônico simples, acima, depende do parâmetro ω0 , a equação do
pêndulo simples depende de g/l. Saber se a dependência de uma solução depende continuamente
de condições iniciais ou de parâmetros é importante em aplicações, por exemplo em Fı́sica, pois em
problemas reais tais dados são freqüentemente fornecidos com imprecisões e é, portanto, importante
poder garantir que erros pequenos no conhecimento dessas grandezas têm efeitos igualmente pequenos
nas soluções (ao menos para tempos não muito afastados do instante inicial).
Comecemos por dizer que a resposta às questões 1 e 2 é negativa. Veremos exemplos logo adiante.
Uma resposta às questões 3 e 4 será apresentada na forma de dois teoremas importantes, o de Peano
(Teorema 5.1, página 296), que fornece condições suficientes para garantir existência de soluções, e o
de Picard-Lindelöf (Teorema 5.2, página 297. Vide também sua generalização para espaços de Banach,
Teorema 18.4, página 1015), que fornece condições suficientes para garantir existência e unicidade de
soluções. Mostraremos em exemplos que a resposta à questão 5 é também negativa. Uma resposta
parcial à questão 6 (que é chamado de problema da existência de soluções globais) será discutida na
Seção 5.3.3, página 298, e as demonstrações dos resultados lá apresentados encontram-se na Seção
18.4.2, página 1019. As questões 7 e 8 são discutidas à página 300 e, com mais detalhe, na Seção
18.4.3, página 1020. Vide Teorema 18.7, página 1020, sua demonstração e os comentários que se lhe
seguem. Referências para várias dessas questões são [1], [42], [26], [11] e [66].
• Problemas bem-postos
Um comentário sobre nomenclatura. Na literatura sobre a teoria das equações diferenciais (or-
dinárias ou parciais), um problema no qual se possa garantir existência, unicidade e continuidade de
soluções em relação a condições iniciais e de contorno em alguma topologia (estabilidade) é dito ser um
problema bem-posto23 .
Como já mencionamos acima, há outros problemas que não o de valor inicial. Pode-se querer fixar
a função em dois pontos, por exemplo. Problemas desse tipo são muito comuns em equações ordinárias
obtidas pelo método de separação de variáveis em problemas de equações diferenciais parciais com
certas condições de contorno. Trataremos abundantemente desse tipo de problema quando discutirmos
o Problema de Sturm-Liouville no Capı́tulo 12, página 688.
Outros problemas envolvem outros tipos de exigência sobre a solução. Por exemplo, que ela seja
finita em certos pontos, ou de quadrado integrável. Esse último caso é comummente encontrado na
Mecânica Quântica.
23
A noção de prolema bem-posto foi introduzida por Jacques Salomon Hadamard (1865-1963) ao listar propriedades
que modelos matemáticos de sistemas fı́sicos devem idealmente possuir. Jaques Hadamard: “Sur les problèmes aux
dérivées partielles et leur signification physique”. Princeton University Bulletin, 49–52 (1902).
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 5 293/1461
• Inexistência de solução
Exemplo 5.5 (Inexistência de solução) Considere-se o problema de valor inicial no qual procura-se a
solução da equação
1
ẏ(t) =
t
que satisfaça a condição inicial y(0) = 0. Esse problema não possui nenhuma solução. ◊
Exemplo 5.6 (Inexistência de solução) Considere-se o problema de valor inicial no qual procura-se a
solução da equação
1
ẏ(t) = −
y(t)
que satisfaça a condição inicial y(0) = 0. Esse problema não possui nenhuma solução que seja real para
t > 0. ◊
Exemplo 5.7 (Inexistência de solução) Considere-se o problema de valor inicial no qual procura-se a
solução da equação p
ẏ(t) = 1 − y(t)2
que satisfaça a condição inicial y(0) = 2. Esse problema não possui nenhuma solução real. ◊
Exemplo 5.8 (Inexistência de solução) (De [69]) Considere-se o problema de valor inicial no qual
procura-se a solução da equação
ẏ(t) = H(y(t)) ,
onde
1, y < 0
H(y) := ,
−1, y ≥ 0
com a condição inicial y(0) = 0. Esse problema não possui nenhuma solução. Para entender por que,
observe que se y(0) = 0 então, pela equação diferencial, y ′(0) = −1, o que implica y(t) é decrescente
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 5 294/1461
para t próximo de 0, tornando-se negativa para t positivo próximo de 0. Mas para y negativo ẏ(t) vale
1 e y é crescente, uma contradição. ◊
Exemplo 5.9 (Inexistência de solução) Considere-se o problema de valor inicial no qual procura-se a
solução da equação
ẏ(t) = 2(y(t))3/2
que satisfaça a condição inicial y(0) = 1. Esse problema não possui nenhuma solução real. ◊
• Não-unicidade de soluções
Exemplo 5.10 (Não-unicidade de soluções) Considere-se o problema de valor inicial no qual procura-
se a solução da equação
ẏ(t) = 3(y(t))2/3
que satisfaça a condição inicial y(0) = 0. Esse problema não tem solução única. Por exemplo, as
funções
y1 (t) ≡ 0 e y2 (t) = t3
ambas satisfazem a equação diferencial e y1 (0) = y2 (0) = 0. ◊
O Exemplo 5.10, acima, foi encontrado por Peano em 1890. Há várias outras soluções, como vemos
na seguinte generalização.
Exemplo 5.11 (Não-unicidade de soluções) Seja 0 < β < 1. Considere-se o problema de valor inicial
no qual procura-se a solução da equação
1
ẏ(t) = |y(t)|β
1−β
que satisfaça a condição inicial y(0) = 0. Esse problema não tem solução única: a função y(t) ≡ 0,
∀t ∈ R, assim como, para todos c1 ≤ 0, c2 ≥ 0, as funções
1
−(c1 − t) 1−β , t ≤ c1
yc1, c2 (t) = 0, c1 < t < c2 , (5.21)
(t − c ) 1−β
1
2 , t ≥ c2
1
−(c1 − t) 1−β , t ≤ c1 0, t < c2
yc1 (t) = , yc2 (t) = (5.22)
1
0, t > c1 (t − c2 ) 1−β , t ≥ c2
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 5 295/1461
E. 5.10 Exercı́cio. Verifique! Desenhe gráficos de várias funções yc1 , c2 (t), yc1 (t) e yc2 (t) para vários
valores de c1 ≤ 0, c2 ≥ 0. 6
Exemplo 5.12 (Solução que só existe em um intervalo finito) A equação diferencial é aquela apre-
sentada no Exemplo 5.8, acima, com condição inicial y(0) = y0 > 0. Para −∞ < t < y0 a solução é
y(t) = y0 − t mas para t ≥ y0 surge a contradição discutida no Exemplo 5.8 e a equação diferencial não
mais possui solução. ◊
Exemplo 5.13 (Solução que diverge em tempo finito) Considere-se o problema de valor inicial no qual
procura-se a solução real da equação
ẏ(t) = y(t)2 ,
t ∈ R, que satisfaça a condição inicial y(0) = y0 ∈ R, y0 6= 0. A solução é
1
y(t) = 1 (5.23)
y0
−t
a qual diverge para t = 1/y0 . ◊
Exemplo 5.14 (Solução que diverge em tempo finito) Considere-se a equação diferencial
ẏ(t) = 1 + y(t)2 ,
t ∈ R. Sua solução é y(t) = tan(t + k), onde k é fixada por uma condição inicial. Se, por exemplo,
tomarmos y(0) = y0 , então k = arctan(y0 ). Essa solução, porém, existe apenas no intervalo aberto
(−k − π2 , −k + π2 ), pois tan(t + k) diverge nos extremos. ◊
Exemplo 5.15 (Solução que diverge em tempo finito) Considere-se uma partı́cula de massa m que se
move em uma dimensão sob a ação de um potencial repulsivo U(x) = − k4 x4 , com k > 0, com condição
inicial x(0) = 0, ẋ(0) = v0 > 0. Sua equação de movimento (a segunda lei de Newton) é
ẍ(t) − k ′ x(t)3 = 0 ,
onde k ′ = k/m. Qual o tempo que essa partı́cula leva para, partindo de x(0) = 0, chegar ao infinito?
A resposta é Z ∞
dx
T0→∞ = q ,
2 k 4
0
m
E + 4x
mv02
onde E = 2
> 0 é a energia mecânica da partı́cula. ◊
Para E > 0 a integral acima é finita (Justifique!). Logo, a partı́cula leva um tempo finito para chegar
ao infinito, ou seja, x(t) diverge em tempo finito. Isso mostra que a solução da equação diferencial
ẍ(t) − k ′ x(t)3 = 0, com k ′ > 0 e v0 > 0, existe apenas em um intervalo finito de valores de t.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 5 296/1461
E. 5.12 Exercı́cio. Mostre que o mesmo se passa com as equações diferenciais ẍ(t) − k ′ x(t)d = 0, para
todo d > 1, desde que k ′ > 0. O que acontece se k ′ < 0? O que acontece se k ′ > 0 mas d ≥ 1? 6
y(t0) = y0 . (5.25)
R = { (t, y) : |t − t0 | ≤ a, |y − y0 | ≤ b } , (5.26)
Então, o problema de valor inicial descrito pelas relações (5.24) e (5.25) apresenta pelo menos uma
solução. Além disso, essa solução existe pelo menos no intervalo fechado [t0 − β, t0 + β], onde
b
β := min a, . (5.28)
M
2
Em essência, o que esse teorema afirma é que se pode garantir a existência de soluções do problema
de valor inicial descrito pelas relações (5.24) e (5.25) se pelo menos a função F for contı́nua em um
retângulo centrado na condição inicial.
24
Giuseppe Peano (1858-1932). O Teorema de Peano data de 1886.
25
Charles Émile Picard (1856-1941).
26
Ernst Leonard Lindelöf (1870-1946). Seus trabalhos sobre existência e unicidade de soluções de equações diferenciais
ordinárias datam de 1890.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 5 297/1461
A prova desse teorema, que é baseada no importante teorema de Ascoli-Arzelà, não será apresentada
aqui e remetemos os estudantes aos bons livros (por exemplo, [42], [1], [26], [11] ou [66]).
O estudante pode (deve) verificar que os Exemplos 5.5 a 5.9, página 293, não satisfazem as condições
do Teorema de Peano, daı́ não haver solução naqueles casos.
O teorema de Peano garante condições suficientes para existência, mas não para unicidade de
solução. O estudante também pode (deve) verificar que os Exemplos 5.10 e 5.11, página 294 acima,
satisfazem as condições do teorema de Peano, mas para eles não vale a unicidade. É preciso requerer
mais da função F para ter-se unicidade da solução. Isso é obtido com o próximo teorema.
Teorema 5.2 Teorema de Picard-Lindelöf (Existência e Unicidade de Soluções). Seja a
equação diferencial ordinária real de primeira ordem
ẏ(t) = F (t, y(t)) (5.29)
(F : R2 → R sendo não-identicamente nula) com a condição inicial
y(t0) = y0 , (5.30)
com y0 ∈ R. Seja F : R2 → R contı́nua no retângulo fechado
R = { (t, y) : |t − t0 | ≤ a, |y − y0 | ≤ b } , (5.31)
com a, b > 0, sendo, portanto, limitada em R. Seja
M := max |F (t, y)| . (5.32)
(t, y)∈R
Suponha ainda que F seja Lipschitz contı́nua em R com relação ao seu segundo argumento, ou seja,
existe uma constante k (denominada constante de Lipschitz) tal que para todos (t, y), (t, v) ∈ R valha
|F (t, y) − F (t, v)| ≤ k |y − v| . (5.33)
Então, o problema de valor inicial descrito pelas relações (5.29) e (5.30) apresenta uma única solução.
Além disso, essa solução existe pelo menos no intervalo fechado [t0 − β, t0 + β], onde
b
β := min a, . (5.34)
M
Uma condição suficiente para que a condição de Lipschitz acima se cumpra é que ∂y f (t, y) exista e
seja limitada em todo R , em cujo caso a constante de Lipschitz seria dada por k := sup |∂y f (t, y)|.
(t, y)∈R
2
segue facilmente que F (t, v) − F (t, u) ≤ k|v − u|, onde k := max |∂y F (t, y)|, que é uma constante
(t, y)∈R
finita se ∂y F (t, y) for contı́nua em R. Assim, em essência, o que o Teorema de Picard-Lindelöf afirma
é que se pode garantir a existência e a unicidade de soluções do problema de valor inicial descrito pelas
relações (5.29) e (5.30) se pelo menos a função F e sua derivada parcial ∂y F (t, y) forem contı́nuas em
um retângulo centrado na condição inicial.
Como comentário final, afirmamos que os teoremas de Peano e Picard-Lindelöf podem ser facilmente
estendidos para sistemas de equações diferenciais de primeira ordem (em verdade, o Teorema 18.4,
página 1015, já é enunciado com essa generalidade). Como toda equação diferencial de ordem n é
equivalente a um tal sistema, essas generalizações garantem condições suficientes para existência ou
unicidade de solução de equações diferenciais ordinárias de qualquer ordem.
No caso de equações diferenciais parciais não existem teoremas tão fortes relativos à existência
e unicidade de problemas de valor inicial como há no caso de equações diferenciais ordinárias. Um
dos resultados mais importantes nessa direção, porém, é o Teorema de Cauchy-Kovalevskaya28 . Seu
enunciado e sua demonstração podem ser encontrados, por exemplo, em [30, 31].
28
Sofia Vasilyevna Kovalevskaya (1850-1891).
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 5 299/1461
E. 5.13 Exercı́cio. Mostre que a equação diferencial não-linear ẋ = cos(x) satisfaz as condições do
Teorema 5.3 e, portanto, possui soluções globais. Mostre explicitamente, por integração, que as soluções
são dadas por x(t) = arctan ( senh(t + c)), onde c é uma constante a ser fixada pela condição inicial. Por
essa expressão explı́cita contata-se claramente que as soluções existem para todo t ∈ R. 6
x3 et
ẋ = 2
+ t2 cos(x)
1+x
satisfaz as condições do Teorema 5.3. Sugestão: mostre que para esse caso
∂F (y 4 + 3y 2) t ∂F
(t, y) = e − t2 sen(y) e, portanto, em cada faixa Fa, t0 , (t, y) ≤ 3ea + a2 ,
∂y 2
(1 + y ) ∂y
E. 5.15 Exercı́cio. A equação diferencial não-linear ẋ = x2 não satisfaz as condições do Teorema 5.3,
pois a condição de Lipschitz requerida não é satisfeita em nenhuma faixa Fa, t0 . Mostre isso. Com efeito,
vimos no Exemplo 5.13, da página 295 que essa equação não possui soluções globais. Vide também os
comentários da página 300 sobre esse problema. 6
Analisemos agora o Exemplo 5.10, página 294 sob a luz dos Teoremas de Peano e de Picard-Lindelöf.
Aqui, F (t, y) = 3y 2/3 , t0 = 0, y0 = 0. Tomando-se um retângulo fechado centrado em (t0 , y0 ) = (0, 0),
ou seja, R = { (t, y) : |t| ≤ a, |y| ≤ b }, constata-se elementarmente que F é contı́nua e que
Assim, o Teorema de Peano n garante o a existência de solução para o intervalo fechado [−β, β], onde
b
b1/3
β := min a, M = min a, 3 (vide (5.28)). Os valores de a e de b podem ser escolhidos arbitra-
riamente grandes, sem violar a condição de continuidade de F . Conclui-se disso que podemos tomar β
arbitrariamente grande. Assim, nesse particular exemplo, o Teorema de Peano garante-nos a existência
de uma solução global, para todo t. Isso condiz com a observação que a solução identicamente nula,
bem como as soluções (5.21) e (5.22) existem para todo t.
Por fim, é fácil verificar que a função F (t, y) = 3y 2/3 não satisfaz a condição de Lipschitz |F (t, y) −
F (t, v)| ≤ k|y − v| para nenhum k em nenhum retângulo centrado em (0, 0). Para isso observe que
se tomássemos v = 0 e y ≥ 0, a condição de Lipschitz diria que 3y 2/3 ≤ ky, ou seja, 3y −1/3 ≤ k. Mas
uma tal desigualdade é impossı́vel, pois para y → 0 o lado esquerdo diverge!
Isso justifica por que não se pode aplicar Picard-Lindelöf nesse caso (e a solução, de fato, não é
única).
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 5 300/1461
O fato de o Teorema de Peano em princı́pio garantir apenas uma região conservadora de validade
de solução, a saber o intervalo [t0 − β, t0 + β], onde β é dado pela expressão (5.28), não está em
desacordo com os exemplos: há sistemas satisfazendo as condições do Teorema de Peano para os quais
não há soluções globais, ou seja, soluções que existem para todo t ∈ R. O Exemplo 5.13, página
295, é um tal caso. Vamos reanalisá-lo sob a luz dos Teoremas de Peano e Picard-Lindelöf, estudando
particularmente o que o Teorema de Peano nos diz sobre a região de existência de solução.
É bastante claro que no Exemplo 5.13 tem-se F (t, y) = y 2 , e t0 = 0 com y0 > 0. Tomando-se
um retângulo fechado centrado em (t0 , y0 ) = (0, y0 ), ou seja, R = { (t, y) : |t| ≤ a , |y − y0 | ≤ b },
constata-se elementarmente que F é contı́nua e que
O Teorema de Peano n garante oa existência de solução para o intervalo fechado [−β, β], onde β :=
b
b
min a, M = min a, (y0 +b)2 . O valor de a pode ser escolhido arbitrariamente grande, sem alterar
o valor de M e sem violar a condição de continuidade de F . Conclui-se disso que podemos tomar
b
β = .
(y0 + b)2
Para qual escolha de b a constante β assume seu maior valor? É um exercı́cio fácil (faça-o!) mostrar
que o lado direito da última expressão assume seu máximo em b = y0 , em cujo caso
1
β = .
4y0
Assim, o Teorema de Peano garante existência de solução no intervalo [− 4y10 , 4y10 ]. Sabemos, porém
que a solução (5.23) existe em um intervalo maior (e que contenha t = t0 = 0), a saber (−∞, y10 ).
O que se aprende disso é que o intervalo de solução obtido pela estimativa (5.28) nem sempre é
maximal, mas nem por isso contradiz-se o fato de nesse caso não haver solução válida para todo t.
Para sabermos se a solução é única, devemos estudar as condições do Teorema de Picard-Lindelöf.
Sabemos que F (t, y) − F (t, v) = y 2 − v 2 = (y + v)(y − v) . Logo, |F (t, y) − F (t, v)| = |y + v| |y − v|
e, para y e v no intervalo [y0 − b, y0 + b], tem-se |y + v| ≤ 2(y0 + b). Assim, adotando-se k = 2(y0 + b),
vale a condição de Lipschitz
|F (t, y) − F (t, v)| ≤ k|y − v|
para todos (t, y), (t, v) ∈ R. Assim, a solução do problema do Exemplo 5.13 será única para quaisquer
a e b que se tome.
18.4.3, página 1020. Vide Teorema 18.7, página 1020, sua demonstração e comentários que se lhe
seguem. Os resultados encontram-se resumidos nos dois teoremas abaixo, os quais valem também para
sistemas de equações diferenciais ordinárias.
Teorema 5.4 Seja a equação diferencial ordinária real de primeira ordem ẏ(t) = F (t, y(t)) com a
condição inicial y(t0 ) = y0 , com y0 ∈ R, e suponhamos que sejam satisfeitas as condições descritas
no Teorema 5.2, página 297, de modo que se garanta a existência de uma solução única y(t, y0 ) do
problema de valor inicial em um intervalo [t0 − β, t0 + β]. Então, existe uma vizinhança J de y0 ∈ R
onde a solução y(t, y0 ) depende continuamente de y0 . Mais precisamente, existe uma constante κ > 0
e uma vizinhança T de t0 contida em [t0 − β, t0 + β] tal que vale |y(t, y0 ) − y(t, y0′ )| ≤ κ|y0 − y0′ |eκ|t−t0 |
para todo y0′ ∈ J e todo t ∈ T . 2
Teorema 5.5 Seja a equação diferencial ordinária real de primeira ordem e dependente de um parâmetro
p: ẏ(t) = F (t, y(t), p) com a condição inicial y(t0) = y0 , com y0 ∈ R, e suponhamos que sejam sa-
tisfeitas as condições descritas no Teorema 5.2, página 297, de modo que se garanta a existência de
uma solução única y(t, p) do problema de valor inicial em um intervalo [t0 − β, t0 + β]. Suponhamos
também que F seja contı́nua e continuamente diferenciável em relação a p em alguma vizinhança.
Então, y(t, p) depende continuamente de p nessa vizinhança. 2
Capı́tulo 6
Alguns Métodos de Resolução de Equações
Diferenciais Ordinárias
Conteúdo
6.1 Solução de Equações Ordinárias Lineares de Primeira Ordem . . . . . . . 302
6.2 As Equações de Bernoulli e de Riccati . . . . . . . . . . . . . . . . . . . . . 303
6.3 Integração de Equações Separáveis . . . . . . . . . . . . . . . . . . . . . . . 306
6.4 O Método de Variação de Constantes . . . . . . . . . . . . . . . . . . . . . 307
6.5 O Método de Substituição de Prüfer . . . . . . . . . . . . . . . . . . . . . . 309
6.6 O Método de Inversão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 311
6.7 Solução de Equações Exatas e o Método dos Fatores Integrantes . . . . . 312
6.8 Soluções das Equações de D’Alembert-Lagrange e Clairaut . . . . . . . . 317
302
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 6 303/1461
Infelizmente a mesma facilidade não é encontrada para o caso das equações diferenciais lineares de
ordem dois ou maior. Considere-se a equação diferencial ordinária linear de primeira ordem
para funções a e b : R → C, contı́nuas. Vamos mostrar como resolver uma tal equação. Para tal,
defina-se Z t
p(t) := exp a(τ )dτ .
0
Multiplicando-se (6.1) por p(t) e usando o fato que ṗ(t) = a(t)p(t), teremos
d
[p(t)y(t)] = p(t)b(t) ,
dt
donde conclui-se que
Z t Z t
1 −1
y(t) = y(0) + p(s)b(s) ds = p(t) y(0) + p(t)−1 p(s) b(s) ds . (6.2)
p(t) 0 0
Essa expressão representa a solução geral de (6.1), a qual depende do valor de y(0), a ser especificado
(condição inicial).
E. 6.2 Exercı́cio. A solução (6.2) é daR forma (5.10), pois p(t)−1 é solução da equação homogênea
t
ẏ(t) + a(t)y(t) = 0 enquanto que p(t)−1 0 b(τ )p(τ ) dτ é solução particular da equação não-homogênea
(6.1). Verifique essas afirmações. 6
Rt
Naturalmente, para o cálculo explı́cito de y é necessário calcular a integral 0 a(τ )dτ que aparece
Rt
na definição de p, assim como, numa segunda etapa, a integral 0 b(τ )p(τ )dτ . Como essas funções são
conhecidas, isso pode ser possı́vel, em princı́pio, mas nem sempre obtem-se fórmulas explı́citas para as
mencionadas integrais. Ainda assim, (6.2) representa a solução completa do problema. Na pior das
hipóteses as integrais mencionadas podem ser calculadas numericamente de modo aproximado.
A solução (6.2) de (6.1) pode ser reobtida com o método dos fatores integrantes, tal como descrito
no Exemplo 6.3, página 315.
• A equação de Bernoulli
é denominada equação de Bernoulli1. Apesar desta equação ser um dos representantes mais simples
da classe das equações diferenciais não-lineares, a não-linearidade da mesma não acrescenta nenhuma
barreira à sua solubilidade, pois a simples substituição y(t) = 1/v(t) conduz à equação
onde Z t
p(t) := exp − a(τ ) dτ .
0
p(t)
y(t) = Z t .
v(0) + b(τ )p(τ ) dτ
0
As equações de Bernoulli são um caso particular de uma classe maior de equações diferenciais
ordinárias não-lineares, as chamadas equações de Riccati generalizadas.
for conhecida. De fato, se u é uma solução particular conhecida de (6.4) então a solução geral é da
forma
y(t) = u(t) + v(t) ,
onde v obedece à equação de Bernoulli
E. 6.5 Exercı́cio. Verifique isso, substituindo y = u + v em (6.4) e usando a hipótese que u é solução
de (6.4). 6
Observemos que qualquer equação diferencial ordinária linear homogênea de segunda ordem associa-
se naturalmente a uma equação de Riccati generalizada. De fato, dada a equação
• Nota Histórica
A equação de Riccati generalizada deve seu nome ao matemático e conde veneziano Iacopo Francesco
Riccati (1676-1754), que estudou a equação diferencial
y ′ (x) = α y 2(x) + xn , (6.5)
fora previamente estudada por Johann Bernoulli (1667-1748) em trabalho de 1694, sem que este apre-
sentasse solução para a mesma. Jacob Bernoulli (1654-1705), que honrou com seu nome a equação (6.3),
resolvida por ele em 1696, também estudara (6.6) e encontrara em 1703 uma solução para a mesma em
termos de uma razão de série de potências, que então expressou como uma série de potências simples.
Somente em 1841 Joseph Liouville (1809-1882) demonstrou que a solução de (6.6) não pode ser expressa
em termos de funções elementares. Em notação moderna a solução geral de (6.6) é
2 2
x x
AJ −3/4 + J 3/4
2 2
y(x) = x 2 2 ,
x x
J−1/4 − AJ1/4
2 2
para funções f e g convenientes. Consideremos a condição inicial y(x0 ) = y0 para algum x0 . Definindo,
Z x Z x
1
A(x) := ds e B(x) := f (s)ds ,
x0 g(s) x0
3
Há também uma noção de equação separável na teoria das equações diferenciais parciais (vide Seção 11.2, página
641), mas trata-se de outra coisa.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 6 307/1461
definida em um certo intervalo aberto I ⊂ R, com f contı́nua por partes, e vamos supor que sejam
conhecidas duas soluções independentes y1 e y2 da equação homogênea y ′′(x)+a(x)y ′(x)+b(x)y(x) = 0.
O método de variação de constantes consiste em determinar funções v1 e v2 tais que a combinação
seja solução da equação não-homogênea (6.8). A denominação do método como de “variação de cons-
tantes”, uma contradição em termos, provem do fato de que, como é bem sabido, a solução geral da
equação homogênea é v1 y1 (x) + v2 y2 (x) para v1 e v2 constantes.
4
Vide Seção 18.5, página 1024, ou qualquer bom livro de Cálculo de funções de várias variáveis, por exemplo, [29, 96,
97].
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 6 308/1461
Substituindo (6.9) em (6.8), e usando as hipóteses que y1′′ + ay1′ + by1 = 0 e y2′′ + ay2′ + by2 = 0,
obtem-se
[v1′ y1 + v2′ y2 ]′ + a[v1′ y1 + v2′ y2 ] + [v1′ y1′ + v2′ y2′ ] = f . (6.10)
Para determinar as duas funções v1 e v2 é preciso acrescentar mais uma equação diferencial envol-
vendo ambas as funções. A escolha dessa equação extra é essencialmente arbitrária, mas uma análise
de (6.10) mostra ser muito conveniente impor a relação v1′ y1 + v2′ y2 = 0 pois a expressão v1′ y1 + v2′ y2
aparece nos dois primeiros termos. Com isso, chegamos ao sistema de equações
v1′ y1 + v2′ y2 = 0 ,
sendo x0 ∈ I e c1 , c2 duas constantes de integração. A expressão Wy1 , y2 (x) := y1 (x)y2′ (x) − y1′ (x)y2 (x)
é denominada determinante Wronskiano5 e não se anula pois, por hipótese, y1 e y2 são independentes.
Assim, a solução procurada yv (x) = v1 (x)y1 (x) + v2 (x)y2 (x) tem a forma
Z x
y1 (s)y2 (x) − y1 (x)y2 (s)
yv (x) = [c1 y1 (x) + c2 y2 (x)] + f (s) ds
x0 y1 (s)y2′ (s) − y1′ (s)y2(s)
Z x
y1 (s)y2 (x) − y1 (x)y2 (s)
= [c1 y1 (x) + c2 y2 (x)] + f (s) ds ,
x0 Wy1 , y2 (s)
para um ponto x0 ∈ I arbitrário e constantes arbitrárias c1 e c2 a serem fixadas por condições iniciais
em x0 . O estudante deve observar que o termo [· · · ] da última expressão acima é uma solução da
equação homogênea e o último é uma solução particular da equação não-homogênea.
Uma observação simples permite reescrever a última expressão de uma forma por vezes mais con-
veniente. Se a é contı́nua por partes, é fácil constatar que
Z s
d
Wy1 , y2 (s) exp a(τ ) dτ
ds x0
" # Z s
h i h i
′′ ′ ′′ ′
= y2 (s) + a(s)y2 (s) + b(s)y2 (s) y1 (s) − y1 (s) + a(s)y1 (s) + b(s)y1 (s) y2 (s) exp a(τ ) dτ
x0
= 0,
5
Conde Josef Hoëné de Wronski (1778-1853).
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 6 309/1461
Sempre podemos escolher as funções y1 e y2 de forma que satisfaçam y1 (x0 ) = 1, y1′ (x0 ) = 0, y2 (x0 ) = 0,
y2′ (x0 ) = 1. Nesse caso Wy1 , y2 (x0 ) = 1 e concluı́mos que
Z x Z s
yv (x) = [c1 y1 (x) + c2 y2 (x)] + exp a(τ ) dτ y1 (s)y2 (x) − y1 (x)y2 (s) f (s) ds .
x0 x0
para x ∈ [a, b] ⊂ R, sendo p contı́nua e diferenciável, p(x) > 0 e q contı́nua. O chamado método de
substituição de Prüfer6 consiste em definir duas novas funções ρ e θ por
Esse é o sistema de equações procurado. Um aspecto notável do mesmo é que a primeira equação
envolve apenas θ. Se for possı́vel resolver essa equação, obtendo a função θ(x), a solução da segunda
equação seria Z x
1 1
ρ(x) = ρ(a) exp − q(y) sen(2θ(y)) dy , (6.15)
2 a p(y)
e, pela pela primeira equação de (6.12), terı́amos a solução
Z x
1 1
y(x) = ρ(a) exp − q(y) sen(2θ(y)) dy sen(θ(x)) .
2 a p(y)
Uma feliz situação particular na qual a equação para θ pode ser resolvida facilmente é aquela na
1
qual p(x) = q(x), em cujo caso ficamos com θ′ (x) = q(x), ρ′ (x) = 0, ou seja,
Z x
θ(x) = θ(a) + q(y) dy ρ(x) = ρ(a) .
a
E. 6.12 Exercı́cio. Resolva a equação do oscilador harmônico simples ẍ + ω02 x = 0 usando o método
acima. Sugestão: reescreva a equação tomando p(x) = ω0−1 e q(x) = ω0 . 6
• Zeros de soluções
Outro aspecto interessante do método de substituição de Prüfer reside no fato de que com a repre-
sentação de Prüfer y(x) = ρ(x) sen(θ(x)), pode-se realizar um estudo mais detalhado do zeros de y.
Algumas propriedades desses zeros são relevantes para o estudo de soluções certas equações diferenciais
de interesse.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 6 311/1461
para x ∈ [a, b] ⊂ R, sendo p e q reais, p contı́nua e diferenciável, p(x) > 0 e q contı́nua. Seja y uma
solução não-identicamente nula dessa equação e y(x) = ρ(x) sen(θ(x)) sua representação de Prüfer.
Então, um ponto ξ ∈ [a, b] é um zero de y se e somente se θ(ξ) = nπ para algum n ∈ Z. Além disso,
se y tem um zero em ξ ∈ [a, b] esse zero é simples. 2
Prova. Claro é que se θ(ξ) = nπ, então y(ξ) = ρ(ξ) sen(θ(ξ)) = 0. Reciprocamente, se y(ξ) = 0 então,
como ρ(ξ) > 0 (por (6.15)), segue que sen(θ(ξ)) = 0, o que só é possı́vel se θ(ξ) = nπ para algum
n ∈ Z.
Se ξ é um zero de y, segue por (6.12) que y ′(ξ) = ρ(ξ) cos(θ(ξ))/p(ξ) = (−1)n ρ(ξ)/p(ξ) provando
que y ′(ξ) 6= 0. Isso estabelece que ξ é um zero simples de y.
e assim analogamente para equações de ordem superior. Em alguns casos tais equações transformadas
podem ser mais fáceis de resolver que a original e a solução y pode ser obtida – ao menos localmente
– invertendo a solução y −1. Ilustraremos o método em dois exemplos.
Exemplo 6.1 Seja a equação diferencial de primeira ordem
1
y ′(x) = ,
a(y(x)) x + b(y(x)) xα
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 6 312/1461
onde a e b são duas funções contı́nuas e α ∈ R. Pela transformação acima, essa equação equivale a
1 1
= , ou seja, (y −1 )′ (z) = a(z) y −1 (z) + b(z) (y −1 (z))α ,
(y −1 )′ (z) a(z) y −1 (z) + b(z) (y −1 (z))α
que se trata de uma equação de Bernoulli generalizada para y −1 . A solução de equações de Bernoulli
foi apresentada na Seção 6.2, página 303. ◊
Exemplo 6.2 Considere a equação de segunda ordem y ′′ (x) + xy(x)(y ′(x))3 = 0. Pela transformação
de acima, essa equação equivale a
3
(y −1 )′′ (z) −1 1
− −1 ′ + y (z) z = 0 ou seja, (y −1)′′ (z) − zy −1 (z) = 0 ,
[(y ) (z)]3 (y −1 )′ (z)
que se trata da equação de Airy para y −1 . A solução da equação de Airy pode ser obtida pelo método
de expansão em série de potências. Vide Seção 8.1.4, página 420. ◊
(x1 , x2 ):
Z (x1 , x2 ) Z (x1 , x2 )
U(x1 , x2 ) := ~ w)
A( ~ · dw
~ = A1 (w1 , w2 )dw1 + A2 (w1 , w2 )dw2
(a, b) C (a, b) C
Z
1
dw1 dw2
= A1 (w1 (s), w2 (s)) + A2 (w1 (s), w2 (s)) ds . (6.19)
0 ds ds
Como D é simplesmente conexa, o Teorema de Green e a condição (6.18) implicam que essa integral
não depende da particular curva C adotada, mas apenas dos pontos extremos (a, b) e (x1 , x2 ). Pela
definição de U é imediato que
∂U ∂U
(x1 , x2 ) = A1 (x1 , x2 ) e (x1 , x2 ) = A2 (x1 , x2 ) (6.20)
∂x1 ∂x2
em todo D. Assim, a equação (6.17) pode ser escrita como
∂U ∂U d
(x, y(x)) + (x, y(x))y ′(x) = 0, ou seja, U(x, y(x)) = 0 .
∂x1 ∂x2 dx
Dessa forma, concluı́mos que a solução da equação (6.17) é a solução da equação implı́cita
U(x, y(x)) = U0 ,
caso essa exista. Aqui U0 é uma constante. Se estivermos interessados na condição inicial y(x0) =
y0 , para (x0 , y0 ) ∈ D, teremos U0 = U(x0 , y0 ). Pelo Teorema da Função Implı́cita7 , a equação
U(x, y(x)) = U(x0 , y0 ) terá uma solução y(x) em uma vizinhança de x0 satisfazendo y(x0 ) = y0 se U
∂U
for contı́nua e diferenciável em torno de (x0 , y0 ) e se ∂x 2
(x0 , y0 ) 6= 0, ou seja, se A2 (x0 , y0 ) 6= 0.
porém, ao multiplicarmos a equação (6.21) por uma fator ω(x, y(x)) convenientemente escolhido, a
equação pode transformar-se em uma equação exata, a qual pode, então, ser resolvida pelo método
descrito acima. Um tal ω, se existir, será denominado fator integrante da equação (6.21).
Definindo A1 (x1 , x2 ) := ω(x1 , x2 )B1 (x1 , x2 ) A2 (x1 , x2 ) := ω(x1 , x2 )B2 (x1 , x2 ), desejamos
determinar quais funções ω tornam válida a condição (6.18), ou seja, desejamos determinar a solução
ω da equação diferencial parcial linear de primeira ordem
∂ω ∂ω ∂B1 ∂B2
B1 (x1 , x2 ) (x1 , x2 ) − B2 (x1 , x2 ) (x1 , x2 ) + ω(x1 , x2 ) (x1 , x2 ) − (x1 , x2 ) = 0 .
∂x2 ∂x1 ∂x2 ∂x1
(6.22)
Resolver essa equação pode não ser possı́vel, ou pode ser uma tarefa ainda mais difı́cil que resolver
a equação original (6.21) por outros meios. Em certos casos ela pode ser resolvida pelo método das
caracterı́sticas, do qual falaremos adiante, mas há duas situações especiais que tornam a solução simples:
1 ∂B1 ∂B2
I. (x1 , x2 ) − (x1 , x2 ) = α(x1 ), uma função apenas da variável x1 .
B2 (x1 , x2 ) ∂x2 ∂x1
Nesse caso, (6.22) fica
B1 (x1 , x2 ) ∂ω ∂ω
(x1 , x2 ) − (x1 , x2 ) + ω(x1 , x2 )α(x1 ) = 0 .
B2 (x1 , x2 ) ∂x2 ∂x1
Escolhendo ω(x1 , x2 ) = ω(x1 ), uma função apenas da variável x1 , essa equação simplifica-se para
cuja solução é Z
x1
ω(x1 ) = c exp + α(ξ)dξ
a
∂ω B2 (x1 , x2 ) ∂ω
(x1 , x2 ) − (x1 , x2 ) + ω(x1 , x2 )β(x2 ) = 0 .
∂x2 B1 (x1 , x2 ) ∂x1
Escolhendo ω(x1 , x2 ) = ω(x2 ), uma função apenas da variável x2 , essa equação simplifica-se para
cuja solução é Z
x2
ω(x2 ) = d exp − β(ξ)dξ
b
Com Z x1 Z x1 Z χ
U(x1 , x2 ) = x2 exp a(ξ)dξ − b(χ) exp a(ξ)dξ dχ
x0 x0 x0
constata-se que
∂U ∂U
A1 (x1 , x2 ) = (x1 , x2 ) e A2 (x1 , x2 ) = (x1 , x2 ) .
∂x1 ∂x2
E. 6.15 Exercı́cio. Obtenha U calculando a integral em (6.19) para alguma curva C conveniente. 6
Pelo que vimos, a solução da equação diferencial satisfaz a equação implı́cita U(x, y(x)) = U0 ,
sendo U0 uma constante. Para uma condição inicial y(x0 ) = y0 , tem-se U0 = U(x0 , y0 ) = y0 e a
equação implı́cita U(x, y(x)) = y0 fica
Z x Z x Z χ
y(x) exp a(ξ)dξ − b(χ) exp a(ξ)dξ dχ = y0 ,
x0 x0 x0
cuja solução é
Z x Z x Z χ
y(x) = exp − a(ξ)dξ y0 + b(χ) exp a(ξ)dξ dχ ,
x0 x0 x0
Veremos agora como as idéias de acima podem ser generalizadas para equações de ordem n.
Seja F (x, x0 , x1 , . . . , xn ) uma função de n + 2 variáveis que define uma equação diferencial
ordinária de ordem n:
′ (n)
F x, y(x), y (x), . . . , y (x) = 0 . (6.23)
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 6 316/1461
Essa equação é dita ser uma equação diferencial exata se existir uma função diferenciável U(x, x0 , x1 , . . . , xn−
de n + 1 variáveis tal que
F (x, x0 , x1 , . . . , xn ) =
∂U ∂U ∂U
(x, x0 , x1 , . . . , xn−1 ) + x1 (x, x0 , x1 , . . . , xn−1 ) + · · · + xn (x, x0 , x1 , . . . , xn−1 ) ,
∂x ∂x0 ∂xn−1
(6.24)
então a equação (6.23) torna-se
∂U ∂U
x, y(x), y ′ (x), . . . , y (n−1) (x) + y ′(x) x, y(x), y ′ (x), . . . , y (n−1) (x)
∂x ∂x0
∂U
+ · · · + y (n) (x) x, y(x), y ′(x), . . . , y (n−1) (x) = 0 ,
∂xn−1
d
ou seja, U x, y(x), y ′(x), . . . , y (n−1) (x) = 0 e, portanto, vale
dx
U x, y(x), y ′(x), . . . , y (n−1) (x) = U0 , (6.25)
onde
∂U ∂U
A1 (x, x0 , x1 , . . . , xn−1 ) = (x, x0 , x1 , . . . , xn−1 ) + x1 (x, x0 , x1 , . . . , xn−1 ) (6.27)
∂x ∂x0
∂U
+ · · · + xn−1 (x, x0 , x1 , . . . , xn−1 ) ,
∂xn−2
∂U
A2 (x, x0 , x1 , . . . , xn−1 ) = (x, x0 , x1 , . . . , xn−1 ) . (6.28)
∂xn−1
invertendo localmente Z
dy
x = ± q + constante.
2
m
(U 0 − V (y))
◊
E. 6.16 Exercı́cio. Use o procedimento descrito acima para resolver a equação do oscilador harmônico
simples my ′′ (x) + ky(x) = 0, m > 0, k > 0 6
No que segue apresentaremos soluções das equações de acima, começando com a equação de Clairaut
(6.30) e depois tratando da equação de D’Alembert-Lagrange (6.29).
8
Jean Le Rond d’Alembert (1717-1783).
9
Joseph-Louis Lagrange (1736-1813).
10
Alexis Claude Clairaut (1713-1765).
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 6 318/1461
Há duas formas de satisfazer essa equação: a. impondo v ′ (x) = 0 ou, b. impondo x + B ′ (v(x)) = 0.
O fato notável sobre a solução y2 é que a mesma não depende de nenhum parâmetro livre (que pode-
ria ser fixado, eventualmente, por uma condição inicial). Soluções desse tipo são denominadas soluções
singulares11 de equações diferenciais. Tecnicamente, a definição de solução singular é a seguinte. Uma
solução ys de uma equação diferencial ordinária de primeira ordem é dita ser uma solução singular se
for tangente a cada solução geral yg dessa equação, ou seja, se para todo x no domı́nio de definição da
equação houver uma solução geral yg tal que ys (x) = yg (x) e ys′ (x) = yg′ (x).
E. 6.17 Exercı́cio. Mostre que a solução y2 (x) = x(B ′ )−1 (−x) + B((B ′ )−1 (−x)) é tangente às soluções
y1 (x) = c0 x+ B(c0 ). Sugestão: use o fato (e prove-o!) que x(B ′ )−1 (−x) + B((B ′ )−1 (−x)) é uma primitiva
de (B ′ )−1 (−x). 6
Geometricamente, uma solução singular pode ser visualizada da seguinte forma. Desenha-se no
plano (x, y) a famı́lia de todas as curvas (x, yg (x)), x ∈ R, para todas as soluções gerais yg . A solução
singular corresponde à curva envoltória dessa famı́lia de curvas.
A equação de Clairaut, com sua solução singular, foi resolvida pelo mesmo em 1734.
Uma terceira solução de (6.31) poderia ser obtida procedendo de modo ligeiramente distinto do
que foi feito na segunda solução. Resolvendo localmente em v a equação x + B ′ (v(x)) = 0, obtem-se
v(x) = (B ′ )−1 (−x). Como v(x) = y ′(x), obtem-se aparentemente uma terceira solução por integração:
y3 (x) = C(x) + c2 , c2 sendo uma constante e C(x) sendo uma primitiva de (B ′ )−1 (−x), ou seja, tal que
C ′ (x) = (B ′ )−1 (−x). Essa solução aparenta ter um parâmetro livre e aparenta ser distinta da solução
y2 , mas isso não é verdade. É preciso ainda impor que y3 satisfaça (6.30), ou seja, devemos impor que
′ −1 ′ −1 ′ −1
(O leitor
deve observar que x(B ) (−x) + B((B ) (−x)) é também uma primitiva de (B ) (−x),
d
pois dx x(B ′ )−1 (−x) + B((B ′ )−1 (−x)) = (B ′ )−1 (−x) como facilmente se verifica). Daı́, devemos ter
c2 = C(x) − (x(B ′ )−1 (−x) + B((B ′ )−1 (−x))) e, portanto, y3 (x) = x(B ′ )−1 (−x) + B((B ′ )−1 (−x)), que
coincide com a solução y2 .
Exemplo 6.5 Considere a equação de Clairaut
Nesse caso, B(z) = z 2 , B ′ (z) = 2z e (B ′ )−1 (w) = w/2. Assim, as duas soluções encontradas acima são
y1 (x) ≡ y1 (x, c0 ) = c0 x + (c0 )2 e y2 (x) = −x2 /4, como facilmente se constata. ◊
E. 6.18 Exercı́cio. Verifique que as soluções y1 (x, c0 ) e y2 (x) dadas no exemplo acima são de fato
soluções de (6.33). Mostre explicitamente que y2 (x) = −x2 /4 é uma solução singular no sentido da
definição dada acima, ou seja, para todo x existe c0 tal que y2 (x) = y1 (x, c0 ) e y2′ (x) = y1′ (x, c0 ). Desenhe
várias das curvas (x, y1 (x, c0 )), x ∈ R, para vários valores de c0 ∈ R e visualize a curva envoltória dessa
famı́lia de curvas, a qual corresponderá à curva (x, y2 (x)), x ∈ R, da solução singular. 6
Daqui por diante suporemos que A(z) 6≡ z. Como veremos, a equação (6.31) pode ser resolvida
com o uso do método dos fatores integrantes para obter uma equação exata e depois resolvê-la como
tal. Assim como (6.29), a equação (6.31) é uma equação de primeira ordem, mas a dependência em v ′
é muito mais simples. Em verdade, identificando
ou seja, para,
a equação (6.31) tem a forma (6.21). A condição de exatidão (6.18) não é satisfeita (verifique!) e
desejamos saber se um fator integrante pode ser encontrado. É fácil ver que nesse caso
1 ∂B1 ∂B2 1
(x1 , x2 ) − (x1 , x2 ) = =: β(x2 ) ,
B1 (x1 , x2 ) ∂x2 ∂x1 A(x2 ) − x2
uma função apenas da variável x2 . Vale, assim, o caso II da página 314, e o fator integrante é
Z x2
1
ω(x2 ) = exp dξ .
b (A(ξ) − ξ)
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 6 320/1461
Assim, definindo
Z x2
1
A1 (x1 , x2 ) := ω(x2 )B1 (x1 , x2 ) = (A(x2 ) − x2 ) exp dξ
b (A(ξ) − ξ)
Z x2
′ ′ 1
A2 (x1 , x2 ) := ω(x2 )B2 (x1 , x2 ) = (x1 A (x2 ) + B (x2 )) exp dξ
b (A(ξ) − ξ)
a equação A1 (x, v(x)) + A1 (x, v(x))v ′ (x) = 0, obtida multiplicando (6.31) por ω(v(x)), é exata. É
fácil verificar que nesse caso
Z x2 Z x2 Z χ
1 ′ 1
U(x1 , x2 ) = x1 (A(x2 ) − x2 ) exp dξ + B (χ) exp dξ dχ .
b (A(ξ) − ξ) b b (A(ξ) − ξ)
(6.34)
Assim, a solução para (6.31) é dada por U(x, v(x)) = c0 , c0 sendo uma constante. Agora, para a
obtenção das soluções desejadas de (6.29) há dois procedimentos:
a. Observa-se que a equação (6.29) pode ser lida como xA(v(x)) + B(v(x)) = y(x), que relaciona v
e y. Ao menos em princı́pio, podemos resolver essa equação para v e obter v(x) = I(x, y(x)).
Inserindo isso em U(x, v(x)) = c0 , obtemos U(x, I(x, y(x))) = c0 . Essa equação pode ser, ao
menos em princı́pio, resolvida em y para fornecer uma solução y1 (x), dependente de um parâmetro
livre c0 .
b. Resolve-se localmente a equação U(x, v(x)) = c0 para v, obtendo-se v(x) = H(x, c0 ) para alguma
função H. Observa-se que a equação (6.29) pode ser lida como y(x) = xA(v(x)) + B(v(x)), que
fornece y se v é dado. Assim, y2 (x) = xA(H(x, c0 )) + B(H(x, c0 )) é uma segunda solução de
(6.29). É de se notar que a solução y2 depende de um parâmetro livre c0 .
Um terceiro procedimento seria resolver localmente a equação R U(x, v(x)) = c0 para v, obtendo
v(x) = H(x, c0 ) para alguma função H, donde se extrai y3 (x) = H(x, c0 )dx + c1 , c1 sendo uma nova
constante. Para que se tenha uma solução de (6.29) é preciso inserir essa solução naquela equação, o
que implica y3 (x) = xA(H(x, c0 )) + B(H(x, c0 )), mostrando que essa terceira solução é idêntica à y2 .
′
Exemplo 6.6 A equação diferencial (2x + √ 1)y (x) − y(x) = 0 pode ser facilmente resolvida por in-
tegração, fornecendo a solução y0 (x) = k 2x + 1, k sendo uma constante. Para ilustrar o método
de solução desenvolvido acima, escrevemos essa equação diferencial na forma de uma equação de
D’Alembert-Lagrange:
2xy ′(x) − y(x) + y ′(x) = 0 . (6.35)
Aqui temos A(z) = 2z, B(z) = z, B ′ (z) = 1. Para a função U tem-se por (6.34) (tomamos aqui b = 1,
sem perda de generalidade)
Z x2 Z x2 Z χ
1 1
U(x1 , x2 ) = x1 x2 exp dξ + exp dξ dχ
1 ξ 1 1 ξ
Z x2
2 1 1
= x1 x2 + χ dχ = x1 + x22 − .
1 2 2
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 6 321/1461
q ′
c0
2
A equação U(x, v(x)) = c0 fica, então, (2x + 1)v(x) = (com c′0 c′0 = 2c0 + 1). Assim, v(x) = ± 2x+1 .
q ′ p
c0
Assim, H(x, c′0 ) = ± 2x+1 e a solução y2 fica y2 (x) = ± c′0 (2x + 1), que coincide em forma com a
solução y0 .
Para a solução y1 começamos por notar que (6.35) diz-nos que y(x) = (2x + 1)v(x) e, portanto,
v(x) = I(x, y(x)) = p y(x)/(2x + 1). A equação U(x, I(x, y(x))) = c0 fica y(x)2 /(2x + 1) − 1 = c0 , cuja
solução é y1 (x) = ± c′0 (2x + 1), também idêntica em forma à solução y0 . O fato de as soluções y1 e y2
coincidirem decorre de (6.35) ser uma equação linear, apresentando apenas uma solução, dependente
de um parâmetro (vide Seção 6.1, página 302). ◊
Exemplo 6.7 Considere a equação diferencial
α ′
2xy ′ (x) − y(x) − (y (x))3 = 0 , (6.36)
3
α 6= 0 sendo uma constante. Essa é uma equação de D’Alembert-Lagrange com A(z) = 2z, B(z) =
− α3 z 3 , B ′ (z) = −αz 2 . Para a função U tem-se, por (6.34) (tomamos aqui b = 1, sem perda de
generalidade),
Z x2 Z x2 Z χ
1 2 1
U(x1 , x2 ) = x1 x2 exp dξ − α χ exp dξ dχ
1 ξ 1 1 ξ
Z x2
2 α
= x1 x2 − α χ3 dχ = x1 x22 − (x42 − 1) .
1 4
E. 6.21 Exercı́cio. Verifique que (6.37) é, de fato, uma solução de (6.36). 6
Capı́tulo 7
Sistemas de Equações Diferenciais Ordinárias
Lineares
Conteúdo
7.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 323
7.2 Unicidade e Existência de Soluções . . . . . . . . . . . . . . . . . . . . . . . 324
7.2.1 Unicidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 324
7.2.2 Existência. A Série de Dyson . . . . . . . . . . . . . . . . . . . . . . . . . . . 327
7.2.3 Propriedades de D(s, t) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 332
7.3 Equações com Coeficientes Constantes . . . . . . . . . . . . . . . . . . . . . 336
7.3.1 Alguns Exemplos e Aplicações . . . . . . . . . . . . . . . . . . . . . . . . . . 338
7.4 Teoria de Perturbações de Sistemas Lineares . . . . . . . . . . . . . . . . . 343
7.5 Mais sobre a Série de Dyson. Produtos de Tempo Ordenado . . . . . . . 346
7.6 Sistemas de Equações Diferenciais Lineares no Plano Complexo . . . . . 349
7.6.1 O Caso Analı́tico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 350
7.6.2 Resolução por Séries de Potências . . . . . . . . . . . . . . . . . . . . . . . . 356
7.6.3 Sistemas com Pontos Singulares. Monodromia . . . . . . . . . . . . . . . . . 358
7.6.4 Sistemas com Pontos Singulares Simples . . . . . . . . . . . . . . . . . . . . . 368
7.7 Sistemas Provenientes de EDOs de Ordem m . . . . . . . . . . . . . . . . 373
7.7.1 Pontos Singulares Simples em EDO’s de Ordem m . . . . . . . . . . . . . . . 374
7.7.2 Singularidades no Infinito . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 378
7.7.3 Alguns Exemplos de Interesse . . . . . . . . . . . . . . . . . . . . . . . . . . . 380
7.8 Equações Fuchsianas. Sı́mbolos de Riemann . . . . . . . . . . . . . . . . . 386
7.8.1 Equações Fuchsianas de Primeira Ordem . . . . . . . . . . . . . . . . . . . . 386
7.8.2 Equações Fuchsianas de Segunda Ordem . . . . . . . . . . . . . . . . . . . . . 391
7.8.3 Sı́mbolos de Riemann. Simetrias de Equações Fuchsianas de Segunda Ordem 398
7.9 Exercı́cios Adicionais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 405
I remos neste capı́tulo estudar sistemas de equações diferenciais lineares ordinárias, com par-
ticular atenção a sistemas de equações diferenciais lineares associados a equações diferenciais
lineares de ordem n. Demonstraremos alguns teoremas básicos e apresentaremos métodos de
solução, com particular destaque para a série de Dyson. Alguns exemplos de interesse fı́sico
serão discutidos com certo detalhe. Inicialmente trataremos sistemas dependentes de uma variável real
e mais adiante generalizaremos nossos resultados para sistemas dependentes de uma variável complexa.
Tal generalização é particularmente importante para o tratamento de sistemas de equações diferenciais
322
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 7 323/1461
provenientes de equações diferenciais ordinárias lineares de ordem n, já que métodos de resolução de
tais equações, como o método de Frobenius, estão intimamente relacionados a propriedades analı́ticas
dos coeficientes da equação. O presente capı́tulo será continuado no Capı́tulo 8, onde discutiremos a
solução de equações diferenciais ordinárias lineares de ordem 2 utilizando o método de expansões em
série, e utilizando o método de Frobenius. Em seguida, no Capı́tulo 9, estudaremos propriedades de
algumas das soluções de maior interesse em Fı́sica.
7.1 Introdução
Seja t uma variável real, A(t) uma matriz m × m cujos elementos Aij (t), i, j = 1, . . . , m, são funções
contı́nuas (reais ou complexas) dadas de t e seja F (t) um vetor coluna
f1 (t)
F (t) = ...
fm (t)
7.2.1 Unicidade
Iremos mais adiante mostrar que, sob as hipóteses acima, o sistema (7.1), submetido a uma condição
inicial Y (0) = Y0 , sempre possui solução. Iremos em verdade exibir um método aproximativo para o
cálculo da solução.
Para preparar essa discussão devemos primeiramente demonstrar a unicidade da solução, ou seja,
precisamos mostrar que se houver uma função Y (t) satisfazendo Ẏ (t) = A(t)Y (t) + F (t) e Y (0) = Y0 ,
então não há outra função distinta de Y com essas propriedades. O fato de a solução ser única será de
importância quando discutirmos um método para calcular a solução.
Vamos considerar primeiro o caso mais simples onde a equação é homogênea Ẏ (t) = A(t)Y (t) e a
condição inicial é Y (0) = 0. Partiremos desse caso mais simples para poder tratar melhor depois o caso
geral. Integrando-se ambos os lados da igualdade Ẏ (t) = A(t)Y (t) entre 0 e t e usando que Y (0) = 0,
tem-se Z t
Y (t) = A(t1 )Y (t1 ) dt1 . (7.2)
0
Essa relação é uma identidade a ser satisfeita pela função Y (t) que eventualmente é solução da equação
Ẏ (t) = A(t)Y (t) com a condição inicial Y (0) = 0. Observemos que a função Y aparece no lado esquerdo
e também dentro da integral. Como a identidade acima vale para todo t, tem-se também que
Z t1
Y (t1 ) = A(t2 )Y (t2 ) dt2 .
0
ou seja, Z tZ t1
Y (t) = A(t1 )A(t2 ) Y (t2 ) dt2 dt1 .
0 0
Repetindo-se esse procedimento n vezes chega-se à seguinte identidade:
Z t Z t1 Z tn−1
Y (t) = ··· A(t1 )A(t2 ) · · · A(tn ) Y (tn ) dtn dtn−1 · · · dt1 . (7.3)
0 0 0
Lembrando que Y (t) é um vetor cujas componentes são funções yi(t) essa última identidade significa
para a a-ésima componente
m Z tZ
X t1 Z tn−1
ya (t) = ··· (A(t1 )A(t2 ) · · · A(tn ))ab yb(tn ) dtn dtn−1 · · · dt1 . (7.4)
b=1 0 0 0
Acima, (A(t1 )A(t2 ) · · · A(tn ))ab é o elemento ab da matriz A(t1 )A(t2 ) · · · A(tn ), formada pelo produto
de n matrizes.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 7 325/1461
De acordo com a regra de produto de matrizes, (A(t1 )A(t2 ) · · · A(tn ))ab é dado por
m X
X m m
X
(A(t1 )A(t2 ) · · · A(tn ))ab = ··· Aak1 (t1 )Ak1 k2 (t2 ) · · · Akn−1 b (tn ).
k1 =1 k2 =1 kn−1 =1
(7.5)
Vamos agora supor (provisoriamente) que t é limitado a um intervalo [0, T ] para algum T > 0
finito. Vamos definir
α = max max |Aij (t)| (7.6)
t∈[0, T ] i, j∈{1, ..., m}
e
M = max max |yi (t)|,
t∈[0, T ] i∈{1, ..., m}
ou seja α é o máximo valor alcançado pelo módulo dos elementos de matriz Aij (t) quando t varia
no intervalo [0, T ] e M é o máximo valor alcançado pelo módulo de todas as componentes yi (t) de
Y quando t varia no intervalo [0, T ]. Note-se que as mencionadas funções são limitadas pois, por
hipótese, são contı́nuas, e o intervalo [0, T ] é finito.
Retornando a (7.5), como todos os |Aij (tk )| são menores ou iguais a α e todos os |yb (tn )| são menores
ou iguais a M, tem-se que
m X
X m X m Xm Z t Z t1 Z tn−1
|ya(t)| ≤ ··· ··· αn M dtn dtn−1 · · · dt1 . (7.7)
b=1 k1 =1 k2 =1 kn−1 =1 0 0 0
E. 7.1 Exercı́cio importante. A última igualdade pode ser facilmente provada por indução. Faça-o. 6
pois há n somas sucessivas, em cada uma o ı́ndice assume m valores e o somando é sempre constante
(não depende dos ı́ndices).
Concluı́mos que
(αmt)n
|ya (t)| ≤ M . (7.8)
n!
Essa desigualdade deve ser satisfeita para t ∈ [0, T ] pela a-ésima componente da solução Y da
equação Ẏ = A(t)Y (t) com condição inicial Y (0) = 0. É importante notar, porém, que o lado esquerdo
não depende de n, que é simplesmente o número de vezes que repetimos a identidade (7.2) para obter
(7.3). O que ocorre, porém, se tomarmos n → ∞? É bem sabido que para qualquer x ≥ 0 fixo tem-se
xn
lim = 0.
n→∞ n!
Assim, tomando-se em (7.8) o limite n → ∞ em ambos os lados, conclui-se que ya (t) = 0 para todo a
e todo t ∈ [0, T ]. Como T foi escolhido arbitrário, segue que ya (t) = 0 para todo t e todo a.
Em resumo, concluı́mos que se Y é solução da equação Ẏ = A(t)Y (t) com condição inicial Y (0) = 0
então Y (t) = 0 para todo t. Não há, portanto, outra solução que não a função nula para a equação
homogênea Ẏ = A(t)Y (t) com condição inicial Y (0) = 0.
O que podemos dizer do caso geral da equação Ẏ = A(t)Y (t) + F (t) com uma condição inicial
Y (0) = Y0 ? Vamos supor que Y e X são duas soluções satisfazendo a mesma condição inicial, ou seja,
Y (0) = X(0) = Y0 . Definindo Z(t) = Y (t) − X(t) tem-se Z(0) = Y (0) − X(0) = Y0 − Y0 = 0 e
Ż(t) = Ẏ (t) − Ẋ(t) = A(t)Y (t) + F (t) − (A(t)X(t) + F (t)) = A(t)(Y (t) − X(t)) = A(t)Z(t).
Assim, Z é solução da equação homogênea Ż(t) = A(t)Z(t) com a condição inicial Z(0) = 0. Pelo
que acabamos de ver, Z é identicamente nula, o que prova que Y = X.
Isso provou então que a equação Ẏ = A(t)Y (t) + F (t) com uma condição inicial Y (0) = Y0 tem
também solução única, se houver. Provaremos adiante que há uma solução e mostraremos como calculá-
la.
Finalmente, observamos que todas as conclusões apresentadas acima permanecem se a condição
inicial for fixada não em t = 0 mas num ponto t0 qualquer.
As demonstrações que apresentamos acima têm mais uma conseqüência para as soluções das equações
homogêneas Ẏ (t) = A(t)Y (t), conseqüência essa da qual faremos uso mais adiante. Tem-se, a saber,
o seguinte: a solução Y (t) de uma equação homogênea Ẏ (t) = A(t)Y (t) anula-se em um ponto t0 ,
Y (t0 ) = 0 se e somente se Y (t) for nula para todo t.
A prova disso segue da seguinte observação. Se Y (t0 ) = 0 então
Z t
Y (t) = A(t1 )Y (t1 ) dt1 .
t0
Algumas páginas adiante (página 335) provaremos que vale entre D(t, s) e D(t) a seguinte relação:
D(t, s) = D(t)D(s)−1.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 7 328/1461
A série do lado direito de (7.10) e (7.11) é freqüentemente denominada série de Dyson1 , denominação
esta empregada especialmente em textos sobre Mecânica Quântica e Teoria Quântica da Campos.
Afirmamos que a equação Ẏ = A(t)Y (t) + F (t) com uma condição inicial Y (0) = Y0 tem solução,
a qual é dada por Z t
Y (t) = D(t)Y0 + D(t, s)F (s) ds . (7.12)
0
A demonstração será feita provando-se que o lado direito satisfaz a equação diferencial e a condição
inicial. Como a solução é única (pelo provado acima), infere-se que não pode haver outra que não
(7.12). Note-se, em particular, que pelo dito acima, a equação homogênea Ẏ = A(t)Y (t) com condição
inicial Y (0) = Y0 tem por solução
Y (t) = D(t)Y0 .
O estudante deve ter em mente que a expressão (7.12) generaliza o método de variação de constantes
apresentado na Seção 6.4, página 307. De fato, como veremos adiante, D(t, s) é idêntica à matriz
Wronskiana das soluções linearmente independentes da equação homogênea.
Comecemos por mostrar que as séries que aparecem em (7.10) e (7.11) são convergentes, sem o que
ambas as expressões não fariam sentido. Denotando por Dab (t, s) o elemento ab da matriz D(t, s),
temos
X∞ Z t Z t1 Z tn−1
Dab (t, s) = 1ab + ··· (A(t1 )A(t2 ) · · · A(tn ))ab dtn dtn−1 · · · dt1
n=1 s s s
∞ X
X m X
m m
X Z tZ t1 Z tn−1
= δa b + ··· ··· Aak1 (t1 )Ak1 k2 (t2 ) · · · Akn−1 b (tn ) dtn · · · dt1 .
n=1 k1 =1 k2 =1 kn−1 =1 s s s
temos
∞ X
X m m
X Z tZ t1 Z tn−1
|Dab (t, s)| ≤ 1 + ··· ··· |Aak1 (t1 )| |Ak1 k2 (t2 )| · · · Akn−1 b (tn ) dtn · · · dt1
n=1 k1 =1 kn−1 =1 s s s
∞
X m
X m
X Z tZ t1 Z tn−1
n
≤ 1+ α ··· ··· dtn · · · dt1
n=1 k1 =1 kn−1 =1 s s s
∞
X m m
|t − s|n X X
≤ 1+ αn ··· 1
n=1
n! k =1 k =1
1 n−1
∞
X |t − s|n n−1
≤ 1+ αn m
n=1
n!
1 αm|t−s|
= 1+ e −1
m
Isso mostra que, para cada elemento de matriz ab, a série do lado direito de (7.10) é absolutamente
convergente, e isso para todo s e t.
Para mostrar que (7.12) representa de fato a solução procurada, vamos mostrar que
∂
D(t, s) = A(t)D(t, s). (7.13)
∂t
Isso, em particular, diz que
d
D(t) = A(t)D(t). (7.14)
dt
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 7 330/1461
De fato,
( ∞ Z tZ Z )
∂ ∂ X t1 tn−1
D(t, s) = 1+ ··· A(t1 )A(t2 ) · · · A(tn ) dtn dtn−1 · · · dt1 .
∂t ∂t n=1 s s s
( Z t Z t Z t1
d
= 1+ A(t1 ) dt1 + A(t1 )A(t2 ) dt2 dt1
dt s s s
Z tZ Z )
t1 t2
+ A(t1 )A(t2 )A(t3 ) dt3 dt2 dt1 + · · ·
s s s
Z t Z tZ t2
= 0 + A(t) + A(t)A(t2 ) dt2 + A(t)A(t2 )A(t3 ) dt3 dt2 + · · ·
s s s
Z t Z tZ t2
= A(t) 1 + A(t2 ) dt2 + A(t2 )A(t3 ) dt3 dt2 + · · ·
s s s
Z t Z tZ t1
= A(t) 1 + A(t1 ) dt1 + A(t1 )A(t2 ) dt2 dt1 + · · ·
s s s
= A(t)D(t, s),
como querı́amos provar. Acima, na passagem da quarta para a quinta linha, fizemos uma série de
mudanças de nomes das variáveis de integração, chamando t2 de t1 , t3 de t2 etc.
De maneira análoga prova-se também que
∂
D(t, s) = −D(t, s)A(s).
∂s
É também evidente pela definição (7.10) que para todo t vale D(t, t) = 1. Analogamente, vale
D(0) = 1. Retornando à equação (7.12), notemos que calculando o lado direito em t = 0 temos
Z 0
Y (0) = D(0)Y0 + D(0, s)F (s) ds = 1Y0 + 0 = Y0
0
mostrando que o lado direito de (7.12) satisfaz a condição inicial Y (0) = Y0 . Derivando o lado direito
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 7 331/1461
provando que lado direito de (7.12) satisfaz a equação diferencial. Como a solução é única, ela deve ser
aquela dada em (7.12).
• Observações
A série de Dyson em (7.10) e (7.11) fornece a solução do sistema de equações Ẏ (t) = A(t)Y (t)+F (t)
através de (7.12). Devemos fazer notar, porém, que a série de Dyson não é o único meio de obter soluções
dessas equações. Em alguns casos particulares outros métodos podem ser mais eficazes, especialmente
se estivermos interessados em obter soluções em termos de funções conhecidas ou de expansões em
série. Tal é o caso, por exemplo, se os elementos de matriz de A(t) e F (t) são funções analı́ticas de t
ou possuem singularidades “fracas”, quando o chamado método de expansão em série de potências ou
o método de Frobenius podem ser empregados (vide para tal o Capı́tulo 8, página 411,). Em muitos
casos a série de Dyson não é útil quando se pretende obter soluções explı́citas, devido à complexidade
de se calcular explicitamente os produtos de matrizes A(t1 ) · · · A(tn ) e suas integrais.
A série de Dyson é, porém, bastante eficiente quando o interesse é obter soluções por métodos
numéricos, já que a mesma é rapidamente convergente. A série de Dyson é também muito útil quando
se tem pela frente problemas de teoria de perturbações. Isso será discutido com mais detalhe na Seção
7.4. Foi, aliás, estudando problemas de teoria de perturbações na Teoria Quântica de Campos que
Dyson chegou àquela série, inspirado provavelmente nos métodos iterativos de solução da equação
integral de Volterra (o leitor interessado pode estudar o tratamento da equação integral de Volterra
feito na Seção 18.3, página 1005, mas isso é dispensável para o que segue).
A série de Dyson possui generalizações para espaços de Hilbert e de Banach e mesmo quando A(t)
é uma famı́lia de operadores não-limitados. O leitor interessado poderá estudá-las em [117].
Um caso particular importante da solução via série de Dyson é aquele no qual a matriz A(t) é
constante, ou seja, não depende da variável t. Trataremos disso na Seção 7.3. Outras representações e
propriedades da série de Dyson são apresentadas no Apêndice 7.5, página 346.
• Equações Matriciais
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 7 332/1461
Até agora estudamos equações da forma Ẏ (t) = A(t)Y (t) + F (t), com condição inicial Y (0) = Y0 ,
onde A(t) é uma matriz m × m e onde Y e F são vetores coluna com m componentes:
y1 (t) f1 (t)
Y (t) = ... , F (t) = ... .
ym (t) fm (t)
Consideremos agora a equação Ṁ(t) = A(t)M(t)+G(t), com condição inicial M(0) = M0 , onde A(t),
G(t) e M(t) são matrizes m × m, a incógnita sendo a matriz M(t). Veremos facilmente que podemos
tratar esse problema com os mesmos métodos do anterior, onde a incógnita era um vetor coluna Y de
m componentes e não uma matriz quadrada.
De fato, como toda matriz m × m, as matrizes M(t) e G(t) são da forma (para notação, vide página
155) hh ii hh ii
M(t) = M1 (t), . . . , Mm (t) , G(t) = G1 (t), . . . , Gm (t) ,
onde Mi (t) e Gi (t) são vetores coluna com m componentes, representando a i-ésima coluna das matrizes
M(t) e G(t), respectivamente.
Nessa notação a equação diferencial Ṁ(t) = A(t)M(t) + G(t) fica
hh ii hh ii hh ii
Ṁ1 (t), . . . , M˙m (t) = A(t)M1 (t), . . . , A(t)Mm (t) + G1 (t), . . . , Gm (t) ,
como solução única de Ṁ(t) = A(t)M(t) + G(t), com condição inicial M(0) = M0 .
Definimos
Y k (t) = D(t)ek
para k = 1, . . . , m. Cada Y k (t) é solução da equação homogênea Ẏ (t) = A(t)Y (t) com a condição
inicial Y (0) = ek .
Um vetor Y0 representando uma condição inicial genérica
y10
..
Y0 = . (7.16)
0
ym
Assim, se Y (t) é solução da equação homogênea Ẏ (t) = A(t)Y (t) com a condição inicial Y (0) = Y0
temos que
m
X Xm
0 k
Y (t) = D(t)Y0 = yk D(t)e = yk0Y k (t). (7.17)
k=1 k=1
Em resumo, todas as soluções da equação homogênea Ẏ (t) = A(t)Y (t) podem ser escritas como com-
binações lineares das funções Y 1 (t), . . . , Y m (t), os coeficientes sendo as componentes yk0 do vetor Y0
na base canônica.
Em virtude dessas e de outras propriedades que ainda estudaremos é importante estudar as funções
Y (t). O conjunto de funções {Y 1 (t), . . . , Y m (t)} é denominado sistema fundamental ou sistema inte-
k
gral ou ainda base integral de soluções da equação Ẏ (t) = A(t)Y (t). O conceito de sistema fundamental
de soluções foi introduzido por Fuchs2 em 1866.
Importante nesse contexto é a matriz cujas colunas são formadas pelos vetores coluna Y k . Defina-se
(para a notação vide apêndice 3.1, página 155)
hh ii
W (t) = Y 1 (t), . . . , Y m (t) .
mostra que a matriz de Dyson (7.11) é idêntica à matriz Wronskiana e, portanto, podemos determinar
D(t) calculando-se os vetores Y 1 (t), . . . , Y m (t). Esse procedimento para determinar D(t) pode ser
mais fácil que calcular a série de Dyson do lado direito de (7.11).
A identidade (7.18) será também usada para outros propósitos, um deles será mostrar que D(t) é
uma matriz invertı́vel.
Vamos, de fato, mostrar que para todo t o conjunto {Y 1 (t), . . . , Y m (t)} é um conjunto de vetores
linearmente independente. Suponhamos o oposto, ou seja, que haja constantes α1 , . . . , αm nem todas
nulas, tais que
α1 Y 1 (t0 ) + · · · + αm Y m (t0 ) = 0
para algum t0 . Sabemos por (7.16)-(7.17) que a função
Pela hipótese, Y (t0 ) = 0. Pelo observado no tópico “Uma propriedade da solução das equações ho-
mogêneas” da página 327, isso implica que Y (t) = 0 para todo t. Logo α1 = · · · = αm = 0, uma
contradição que prova que os vetores {Y 1 (t), . . . , Y m (t)} devem ser linearmente independentes para
todo t.
Se os vetores {Y 1 (t),hh . . . , Y m (t)} são linearmente
ii independentes para todo t, então o determinante
da matriz Wronskiana Y 1 (t), . . . , Y m (t) nunca se anula.
O determinante hh ii
W(t) = det Y 1 (t), . . . , Y m (t)
é dito ser o Wronskiano do sistema linear homogêneo Ẏ (t) = A(t)Y (t). Como acabamos de ver W(t) 6= 0
para todo t.
Como a matriz Wronskiana é idêntica à matriz de Dyson (7.11), concluı́mos que o determinante
daquela matriz nunca se anula. Isso significa que a matriz inversa D(t)−1 existe para todo t.
Com o fato em mãos que existem as inversas D(t)−1 para todo t, vamos demonstrar agora a seguinte
identidade importante: para todo s e todo t vale
A prova é simples. Seja s fixo daqui por diante. Sejam A(t) = D(t, s) e B(t) = D(t)D(s)−1 .
Queremos provar que A(t) = B(t) para todo t. Observemos que A(s) = D(s, s) = 1 e que B(s) =
D(s)D(s)−1 = 1. Logo, A e B são iguais no ponto t = s. Fora isso,
d ∂ (7.13)
A(t) = D(t, s) = A(t)D(t, s) = A(t)A(t)
dt ∂t
e
d d (7.14)
B(t) = D(t) D(s)−1 = A(t)D(t)D(s)−1 = A(t)B(t).
dt dt
Assim, A e B são iguais no ponto t = s e satisfazem a mesma equação homogênea Ṁ (t) = A(t)M(t).
Pelos teoremas de unicidade que estabelecemos, segue que A(t) = B(t) para todo t, que é o que
querı́amos provar.
Com isso, podemos escrever a solução (7.12) de Ẏ (t) = A(t)Y (t) + F (t), com a condição inicial
Y (0) = Y0 , como
Z t
Y (t) = D(t)Y0 + D(t)D(s)−1F (s) ds
0
Z t
−1
= D(t) Y0 + D(s) F (s) ds .
0
Outro fato que se pode agora provar é o seguinte. Se Y (t) é solução da equação homogênea
Ẏ (t) = A(t)Y (t) com a condição inicial Y (0) = Y0 , então para todo s e todo t
De fato, Y (s) = D(s)Y0 . Portanto, D(t, s)Y (s) = D(t)D(s)−1 D(s)Y0 = D(t)Y0 = Y (t).
A relação (7.19) tem a seguinte conseqüência, cuja prova é agora elementar: para todos r, s e t vale
Essa expressão é denominada regra de composição para as matrizes de Dyson D(t, s). Note que é
muito mais difı́cil prová-la usando apenas a definição (7.10)!
Uma conseqüência das últimas observações é que se para a equação Ẏ (t) = A(t)Y (t) + F (t) for
dada uma “condição inicial” não em t = 0, mas em t = t0 , Y (t0 ) = Yt0 , a solução é então dada por
Z t
Y (t) = D(t, t0 )Yt0 + D(t, s)F (s) ds. (7.21)
t0
Mais propriedades da série de Dyson são discutidas no Apêndice 7.5, página 346.
∞
X Z tZ t1 Z tn−1
= 1+ An
··· dtn dtn−1 · · · dt1
n=1 s s s
∞
X (t − s)n
= 1+ An .
n=1
n!
Por analogia com a bem conhecida série de Taylor da função exponencial, define-se, para uma matriz
A,
X∞
1 n
exp(A) = e A
= 1+ A . (7.22)
n=1
n!
Assim,
D(t, s) = eA(t−s)
e
D(t) = eAt .
A convergência de (7.22) já foi provada quando tratamos da convergência da série de Dyson no caso
geral.
Assim, a solução de Ẏ (t) = AY (t) + F (t), com a condição inicial Y (0) = Y0 , é dada, segundo (7.12),
por Z t
At
Y (t) = e Y0 + eA(t−s) F (s)ds.
0
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 7 337/1461
O que se pode dizer sobre a dependência em t dos elementos de matriz de eAt ? Há dois casos
básicos a considerar. O primeiro é o caso em que A é diagonalizável; o segundo caso em que A não é
diagonalizável.
• Caso diagonalizável
Se A é diagonalizável então existe uma matriz P tal que P −1 AP = D onde D é uma matriz diagonal,
tendo na diagonal os autovalores de A. Assim,
∞
X tn
eAt
= 1+ An
n=1
n!
( ∞ n
)
X t
= P 1+ P −1 An P P −1
n=1
n!
( ∞ n
)
X t
= P 1+ (P −1 AP )n P −1
n=1
n!
( ∞ n
)
X t
= P 1+ Dn P −1
n=1
n!
= P eDt P −1.
Agora, se D = diag (λ1 , . . . , λm ), então eDt = diag (eλ1 t , . . . , eλm t ). É claro pela igualdade
eAt = P eDt P −1 que os elementos de matriz de eAt serão da forma
m
X
eAt ab
= ckab eλk t ,
k=1
• Caso não-diagonalizável
Caso A não seja diagonalizável, o Teorema da Decomposição de Jordan (na forma do Teorema 3.19,
página 215) nos garante que existe uma matriz P tal que P −1 AP = D + N, onde: 1) D é uma matriz
diagonal, cujos elementos da diagonal são os autovalores de A; 2) N é uma matriz nilpotente com
ı́ndice, digamos, q; 3) D e N comutam.
Portanto, como D e N comutam,
e
∞ n q−1 n
X t X t
exp(Nt) = 1 + N n
= 1+ N n.
n=1
n! n=1
n!
Observe-se que a série do lado direito é truncada em n = q pois N q = 0, já que N é nilpotente com
ı́ndice q. Assim, eN t é uma matriz cujos elementos são polinômios em t de grau menor que q.
Fica claro, fazendo-se o produto eDt eN t , que os elementos de matriz de eAt serão agora da forma
m
X
At
e ab
= ckab (t) eλk t ,
k=1
ou seja, serão combinações lineares de exponenciais do produto de autovalores de A com t. Há, porém,
uma diferença em relação ao caso diagonalizável, a saber, os coeficientes ckab (t) não são mais constantes,
mas são agora polinômios em t de grau menor que q e são dados em função dos elementos de matriz
de P e P −1 .
que nada mais é que a segunda lei de Newton para uma partı́cula de massa m ligada a uma mola de
constante k e se movendo em um meio (viscoso) que exerce sobre a partı́cula uma força do tipo −γv(t)
(v(t) é a velocidade da partı́cula no instante t). Fora isso age sobre a partı́cula mais uma força externa
que depende apenas do tempo: f (t). Acima m > 0, k ≥ 0 e γ ≥ 0.
Dividindo a equação acima por m, podemos escrevê-la como
onde r
k γ 1
ω0 = , ρ = , g(t) = f (t).
m m m
Podemos, por um método comummente usado, transformar essa equação de segunda ordem em um
sistema de duas equações de primeira ordem. Definindo v(t) = ẋ(t), ficamos com
ẋ(t) = v(t)
onde
x(t) 0 1 0
Y (t) = , A = , F (t) = .
v(t) −ω02 −ρ g(t)
A matriz A tem coeficientes constantes. Aprendemos nas seções anteriores que a solução dessa
equação, com uma condição inicial que fixa a posição e a velocidade da partı́cula em t = 0
x(0) x0
Y (0) = = ,
v(0) v0
é dada por Z t
At
Y (t) = e Y0 + eA(t−s) F (s) ds. (7.24)
0
Como se vê, precisamos calcular agora eAt para a matriz A dada acima.
A primeira questão que devemos nos colocar é se a matriz A é diagonalizável ou não. Seus autova-
lores são p p
−ρ + ρ2 − 4ω02 −ρ − ρ2 − 4ω02
λ1 = e λ2 = .
2 2
• O caso ρ 6= 2ω0
hh ii
Nesse caso A é diagonalizável pela matriz P = v1 , v2 , ou seja
√
−ρ+ ρ2 −4ω02
λ1 0 √0 2
P −1AP = D = = 2 ,
0 λ2 −ρ− ρ −4ω02
0 2
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 7 340/1461
onde p p
−ρ − ρ2 − 4ω02 −ρ + ρ2 − 4ω02
hh ii
P = v1 , v2 = 2ω02 2ω02 .
1 1
Calculando-se a inversa, tem-se
p
ω02 −ρ + ρ2 − 4ω02
− p 2 p
ρ − 4ω02 2 ρ2 − 4ω02
P −1 = p .
ω2 ρ + ρ2 − 4ω02
p 0 p
ρ2 − 4ω02 2 ρ2 − 4ω02
E. 7.7 Exercı́cio. Verifique as afirmações acima. Em particular, verifique que E1 e E2 são projetores e
satisfazem E1 E2 = 0 e E1 + E2 = 1. 6
O leitor é convidado agora a escrever as fórmulas explı́citas para x(t) e v(t) que advêm de (7.24) e
(7.25). Para x(t), por exemplo, obtem-se
Z t
−ρt/2 ρx0 + 2v0 1
x(t) = e x0 cos(ω1 t) + sen(ω1 t) + e−ρ(t−s)/2 sen(ω1 (t − s))f (s) ds,
2ω1 mω1 0
onde r
ρ2
ω1 = ω02 − .
4
Essa expressão vale tanto para ω0 > ρ/2 quanto para ω0 < ρ/2. Nesse segundo caso ω1 torna-se um
número imaginário puro:
ω1 = iω2 ,
onde r
ρ2
ω2 = − ω02
4
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 7 341/1461
sendo que
ρt
e− 2 0
eDt =
− ρt
0 e 2
e
1 t
eN t = 1 + Nt = .
0 1
Portanto,
ρt −ρt/2 −ρt/2
1+ 2 e te
eAt
=
.
ρ2 t ρt
− e−ρt/2 1− e−ρt/2
4 2
O leitor é convidado agora a escrever as fórmulas explı́citas para x(t) e v(t) que advêm de (7.24).
Para x(t), por exemplo, obtem-se
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 7 342/1461
ρ 1 Z t
−ρt/2
x(t) = e 1 + t x0 + t v0 + (t − s)e−ρ(t−s)/2 f (s) ds.
2 m 0
• O caso ρ = 0
O leitor é convidado agora a escrever as fórmulas explı́citas para x(t) e v(t) que advêm de (7.24).
Para x(t), por exemplo, obtem-se
Z t
v0 1
x(t) = x0 cos(ω0 t) + sen(ω0 t) + sen(ω0 (t − s))f (s) ds,
ω0 mω0 0
O leitor é convidado agora a escrever as fórmulas explı́citas para x(t) e v(t) que advêm de (7.24).
Para x(t), por exemplo, obtem-se
Z
1 t
x(t) = (x0 + v0 t) + (t − s)f (s) ds .
m 0
f 2
Por exemplo, no caso de f ser constante, segue disso a conhecidı́ssima relação x(t) = x0 + v0 t + 2m
t.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 7 343/1461
A(t) = L + I(t)
onde L é uma matriz constante e I(t) pode depender do tempo mas é, em um sentido a ser precisado,
“pequena”. Por exemplo, I(t) pode ser da forma I(t) = λJ(t), onde λ é uma constante “pequena”.
Se I fosse zero a solução seria Y (t) = eLt Y0 . Deve-se esperar que se I for pequena a solução de
Ẏ (t) = A(t)Y (t) não deve estar muito afastada de Y (t) = eLt Y0 e a presença de I(t) deve perturbar a
solução Y (t) = eLt Y0 apenas ligeiramente. Como determinar a perturbação que I provoca? Esse tipo
de problema é muito freqüentemente encontrado em Fı́sica.
Vamos usar aqui a série de Dyson para tratar esse problema no contexto acima de sistemas lineares.
O primeiro passo consiste em definir um novo vetor coluna X(t) por
Vamos verificar qual condição inicial e qual equação diferencial X(t) obedece. Tem-se que X(0) =
Y (0) = Y0 . Fora isso
d −Lt
Ẋ(t) = e Y (t)
dt
Assim, definindo-se
˜
I(t) = e−Lt I(t)eLt ,
concluı́mos que X(t) satisfaz
˜
Ẋ(t) = I(t)X(t).
Pela série de Dyson, a solução dessa equação com a condição inicial X(0) = Y0 é
(∞ Z Z Z tn−1 )
X t t1
X(t) = Y0 + ··· ˜ 1 )I(t
I(t ˜ 2 ) · · · I(t
˜ n ) dtn dtn−1 · · · dt1 Y0 .
n=1 0 0 0
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 7 344/1461
Y (t) = eLt Y0
(∞ Z Z Z )
X t t1 tn−1
+eLt ··· e−Lt1 I(t1 )eL(t1 −t2 ) I(t2 )eL(t2 −t3 ) · · · eL(tn−1 −tn ) I(tn )eLtn dtn · · · dt1 Y0 .
n=1 0 0 0
Vamos supor que I(t) seja da forma I(t) = λJ(t). Substituindo na última expressão obtemos a
solução expressa em termos de uma série de potências em λ:
Y (t) = eLt Y0
(∞ Z tZ Z )
X t1 tn−1
+ eLt λn ··· e−Lt1 J(t1 )eL(t1 −t2 ) J(t2 )eL(t2 −t3 ) · · · eL(tn−1 −tn ) J(tn )eLtn dtn · · · dt1 Y0
n=1 0 0 0
Z t Z t Z t1
Lt Lt −Lt1 Lt1 2 Lt −Lt1 L(t1 −t2 ) Lt2
= e Y0 +λe e J(t1 )e dt1 Y0 +λ e e J(t1 )e J(t2 )e dt2 dt1 Y0 +· · · .
0 0 0
Nessa forma é possı́vel ver as correções que o termo I(t) = λJ(t) adiciona à solução eLt Y0 quando
λ é uma constante pequena. A correção de primeira ordem em λ é
Z t
Lt −Lt1 Lt1
λe e J(t1 )e dt1 Y0 .
0
A de segunda ordem em λ é
Z t Z t1
2 Lt −Lt1 L(t1 −t2 ) Lt2
λ e e J(t1 )e J(t2 )e dt2 dt1 Y0
0 0
etc.
Todas essa expressões são empregadas em Mecânica Quântica.
Consideremos o problema de uma partı́cula de massa m presa a uma mola de constante k(t) =
k0 + λk1 (t) onde λ é um número pequeno, e sem nenhuma força adicional agindo sobre a partı́cula. Ou
seja, a constante de mola tem uma pequena dependência temporal e desejamos estudar o efeito dessa
pequena perturbação sobre a solução obtida quando λ = 0, a qual é, sabidamente,
v0
x0 cos(ω0 t) + sen(ω0 t),
ω0
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 7 345/1461
onde
x(t)
Y (t) = ,
v(t)
e
A(t) = A + λJ(t),
com
0 1
A =
−ω02 0
e
0 0
J(t) = .
− m1 k1 (t) 0
Z #
t
1 1
+ sen(ω0 t) k1 (t1 ) − cos2 (ω0 t1 )x0 + sen(ω0 t1 ) cos(ω0 t1 )v0 dt1 .
ω0 0 m
O cálculo explı́cito dessas integrais depende da forma de k1 (t).
O leitor é convidado nesse momento a ler nos bons livros de Mecânica Clássica (por ex., Arnold [7],
Landau-Lifchitz [87]) algo sobre o assunto “ressonância paramétrica”.
Se λ for pequeno e t não for muito grande a aproximação de primeira ordem em λ é uma aproximação
razoavelmente boa para a solução. As correções de ordem superior em λ podem também ser calculadas,
embora seu cômputo fique cada vez mais complexo, como se vê pela expressões (7.26) e seguintes.
Para t → ∞ os termos individuais da série perturbativa (7.26) podem divergir com t, sem que a
solução x(t) seja ela mesmo divergente. Esse tipo de comportamento não é tão estranho assim se nos
lembrarmos, por exemplo, do que acontece com a série da Taylor da função seno (ou co-seno):
X∞
(−1)n 2n+1 2n+1
sen(λt) = λ t
n=0
(2n + 1)!
Para prová-la, observe-se que, devido ao fato de R ser totalmente ordenado, para uma m-upla t1 , . . . , tm ∈
R composta de elementos distintos existe um e somente um elemento π0 ∈ Sm tal que tπ0 (m) < . . . <
tπ0 (1) . Assim, por (7.27), segue que há no lado esquerdo de (7.28) apenas um termo não-nulo: aquele
que corresponde a π0 , e esse termo vale 1, também devido a (7.27). A condição de os pontos t1 , . . . , tm
serem todos distintos entre si é importante nesse raciocı́nio, mas o conjunto dos pontos que não a
satisfazem é um conjunto de medida nula em Rm . Daı́, podemos afirmar que (7.28) vale quase em toda
a parte em Rm (ou seja, vale em todo Rm , exceto em um sub-conjunto de medida nula).
da qual certas conseqüências podem ser mais facilmente extraı́das. O leitor há de notar que nas integrais
em (7.29) as variáveis t1 , . . . , tm aparecem ordenadas na forma 0 ≤ tm ≤ tm−1 ≤ · · · ≤ t1 ≤ t. Dessa
forma, no produto de matrizes A(t1 )A(t2 ) · · · A(tm ) os fatores aparecem ordenados (da esquerda para
a direita) de acordo com a ordem temporal decrescente dos argumentos.
Devido à propriedade (7.27) de Θm (t1 , . . . , tm ), podemos reescrever (7.29) na forma
∞ Z
X t Z t
D(t) = 1 + ··· Θm (t1 , . . . , tm )A(t1 )A(t2 ) · · · A(tm ) dtm dtm−1 · · · dt1 . (7.30)
m=1 0 0
Note o leitor que uma diferença entre (7.29) e (7.30) está nos limites superiores das integrações, que
passam a ser todos iguais a t, o que é permitido pela introdução dos fatores Θm (t1 , . . . , tm ) nos
integrandos, fatores esses que se anulam caso a restrição tm ≤ tm−1 ≤ · · · ≤ t1 seja violada.
Se F (t1 , . . . , tm ) é uma função de m variáveis, tem-se evidentemente que
Z t Z t Z t Z t
··· F (t1 , . . . , tm ) dtm dtm−1 · · · dt1 = ··· F (tπ(1) , . . . , tπ(m) ) dtm dtm−1 · · · dt1 ,
0 0 0 0
E. 7.8 Exercı́cio. Justifique! Sugestão: mudança de variáveis mais a observação que o hipercubo [0, t]m
é invariante por permutações das coordenadas. 6
pois os termos somados no lado direito são todos iguais. Aplicando essa simples identidade a (7.30),
tem-se
∞
X Z Z t
1 X t
D(t) = 1 + ··· Θm (tπ(1) , . . . , tπ(m) )A(tπ(1) )A(tπ(2) ) · · · A(tπ(m) ) dtm dtm−1 · · · dt1 .
m=1
m! π∈S 0 0
m
(7.31)
Vamos definir
X
T A(t1 )A(t2 ) · · · A(tm ) := Θm (tπ(1) , . . . , tπ(m) )A(tπ(1) )A(tπ(2) ) · · · A(tπ(m) ) . (7.32)
π∈Sn
Para uma m-upla (t1 , . . . , tm ) ∈ [0, t]m composta de elementos distintos, existe um e somente
um elemento π0 ∈ Sm tal que tπ0 (m) < . . . < tπ0 (1) . Segue disso que o lado direito de (7.32) vale
A(tπ0 (1) )A(tπ0 (2) ) · · · A(tπ0 (m) ). O leitor deve observar que esse produto aparece ordenado da esquerda
para a direita na ordem decrescente dos argumentos. Por essa razão a expressão do lado esquerdo de
(7.32) é denominada produto de tempo ordenado das matrizes A, denotada por T (A(t1 ) · · · A(tm )):
Com essa notação podemos escrever (7.31) na forma
X∞ Z t Z t
1
D(t) = 1 + ··· T A(t1 )A(t2 ) · · · A(tm ) dtm dtm−1 · · · dt1 . (7.33)
m=1
m! 0 0
• O caso comutativo
Uma situação particular de interesse é aquela na qual as matrizes A(s) comutam para valores
distintos do argumento, ou seja, A(s)A(s′ ) = A(s′ )A(s) para todos s, s′ . Tal é o caso, por exemplo,
se A(s) forem matrizes 1 × 1, ou se forem diagonais, ou ainda se forem da forma A(s) = f (s)B para
alguma matriz constante B e alguma função real ou complexa f . Sob essa hipótese de comutatividade,
tem-se que para todo π ∈ Sm
pois a ordem dos fatores não importa, devido à comutatividade. A expressão (7.31) fica, então,
X∞ Z t Z t"X #
1
D(t) = 1 + ··· Θm (tπ(1) , . . . , tπ(m) ) A(t1 )A(t2 ) · · · A(tm ) dtm dtm−1 · · · dt1
m=1
m! 0 0 π∈S m
X∞ Z t Z t
(7.28) 1
= 1+ ··· A(t1 )A(t2 ) · · · A(tm ) dtm dtm−1 · · · dt1
m=1
m! 0 0
X∞ Z t m
1
1+
comut.
= A(τ )dτ
m=1
m! 0
Z t
def.
= exp A(τ )dτ . (7.34)
0
Concluı́mos que no caso comutativo, a solução da equação Ẏ = A(t)Y (t) + F (t) com uma condição
inicial Y (0) = Y0 dada em (7.12) fica
Rt
Z t R
t
A(τ )dτ
Y (t) = e 0 Y0 + e s A(τ )dτ F (s) ds . (7.36)
0
O estudante pode constatar que no caso n = 1 (um sistema com uma única equação de primeira ordem)
a expressão acima corresponde precisamente à solução dada em (6.2), página 303.
Estaremos aqui interessados em estudar esses sistemas de equações diferenciais quando uma condição
inicial é fornecida, ou seja, quando o valor de Y (z) em um ponto z0 ∈ D é especificado:
y10
Y (z0 ) =: Y0 = ... ,
0
ym
com y10 , . . . , ym
0
sendo constantes complexas. Notemos que ao procurarmos soluções Y (z) de (7.37)
é implicitamente sub-entendido que as mesmas funções Y (z) sejam analı́ticas, pois apenas funções
analı́ticas são diferenciáveis.
com a condição X(0) = Y0 . Pelas nossas considerações anteriores, isso implica X1 (t) = X2 (t), ∀t ∈
[0, 1], ou seja, Y1 (z(t)) = Y2 (z(t)), ∀t ∈ [0, 1]. Como a curva z(t) é arbitrária e sua imagem pode
estar em todo D, isso implica Y1 (z) = Y2 (z) para todo z ∈ D. Isso prova a unicidade da solução de
Y ′ (z) = A(z)Y (z), z ∈ D, com condição Y1 (z0 ) = Y2 (z0 ) = Y0 .
Uma vez garantida a unicidade da solução, tentemos exibı́-la. O que faremos é seguir a inspiração
fornecida pela série de Dyson, estudada anteriormente, e tentar generalizá-la para o plano complexo.
Seja então D um domı́nio aberto simplesmente conexo do plano complexo e A(z) analı́tica em D e
limitada em D. Seja também z0 ∈ D.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 7 351/1461
Uma vez demonstrada a unicidade da eventual solução de uma equação como Y ′ (z) = A(z)Y (z)
com condição Y (z0 ) = Y0 precisamos demonstrar que a solução existe. O que faremos é generalizar
nossas considerações anteriores sobre a série de Dyson para o plano complexo.
Para z e w ∈ D , seja D(z, w) a matriz m × m definida por
∞ Z
X z Z z1 Z zn−1
D(z, w) = 1 + ··· A(z1 )A(z2 ) · · · A(zn ) dzn dzn−1 · · · dz1 . (7.38)
n=1 w w w
Acima, todas as integrações complexas são feitas em uma curva C, simples, orientada de w a z e
inteiramente contida em D. Para cada n os pontos z1 , . . . , zn são ordenados em sentido crescente
ao longo de C. Mais precisamente, denotamos por C a curva contı́nua e diferenciável C : [0, 1] → D
parametrizada por t ∈ [0, 1] com w = C(0), z = C(1). Então, para cada n, tem-se zk = C(tk ),
1 ≤ k ≤ n, com 0 ≤ t1 ≤ · · · ≤ tn ≤ 1.
Devido ao fato de A ser analı́tica no domı́nio simplesmente conexo D, a matriz D(z, w) não depende
da particular curva orientada C adotada que conecta w a z (justifique isso!).
Afirmamos que a equação Y ′ (z) = A(z)Y (z) com uma condição Y (z0 ) = Y0 tem solução, a qual é
dada por
Y (z) = D(z, z0 )Y0 (7.39)
A demonstração será feita provando-se que o lado direito satisfaz a equação diferencial e a condição
inicial. Como a solução é única (pelo provado acima), infere-se que não pode haver outra.
Comecemos por mostrar que a série que aparece em (7.38) é convergente, sem o que aquela expressão
não faria sentido. O leitor facilmente constatará que o que faremos é uma simples imitação da prova
anterior para a reta real, dado que somente faremos uso da hipótese de que A(z) é limitada em D.
Sejam z e w dois pontos de um domı́nio D sob as hipóteses acima (D é aberto e simplesmente
conexo) e seja Cw→z uma curva contı́nua, diferenciável, orientada, ligando w a z e inteiramente contida
em D. Para z ′ ∈ Cw→z , denotemos por l(z ′ ) ≡ lCw→z (z ′ ) o comprimento medido de w a z ′ ao longo
da curva Cw→z . A função l : Cw→z → R+ é bijetora e, portanto, possui uma inversa, o que nos
permite parametrizar os pontos de Cw→z pelo comprimento l medido ao longo de Cw→z a partir de w.
Denotaremos por z ′ (l) essa parametrização, ou seja, z ′ (l) é o ponto de Cw→z cuja distância a w ao longo
de Cw→z é l ∈ R+ .
É um fato bemZ conhecido da teoria das funções de variáveis complexas que se f : D → C é ao menos
contı́nua5 , então f (z ′ )dz ′ , a integral de f de w a z ao longo da curva Cw→z , pode ser estimada
Cw→z
por Z Z l(z)
′
f (z )dz ≤ ′
|f (z ′ (l))| dl . (7.40)
Cw→z 0
5
Essa condição pode ser enfraquecida.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 7 352/1461
∞ X
X m X
m m
X Z z Z z1 Z zn−1
= δa b + ··· ··· Aak1 (z1 )Ak1 k2 (z2 ) · · · Akn−1 b (zn ) dzn · · · dz1 .
n=1 k1 =1 k2 =1 kn−1 =1 w w w
|Aak1 (z ′ (l1 ))| |Ak1 k2 (z ′ (l2 ))| · · · Akn−1 b (z ′ (ln )) dln · · · dl1
∞
X m
X m
X Z l(z) Z l1 Z ln−1
n
≤ 1+ α ··· ··· dln · · · dl1
n=1 k1 =1 kn−1 =1 0 0 0
∞
X n m
X m
X
n l(z)
≤ 1+ α ··· 1
n=1
n! k1 =1 kn−1 =1
∞
X l(z)n n−1
≤ 1+ αn m
n=1
n!
1 αml(z)
= 1+ e −1 .
m
Acima, usamos o fato, demonstrável por indução, que
Z l(z) Z l1 Z ln−1
l(z)n
··· dln · · · dl1 = . (7.41)
0 0 0 n!
Como mencionamos, l(z) é a distância de w a z ao longo da curva de integração, ou seja, é o comprimento
total dessa curva. Se D for um domı́nio convexo, podemos tomar a curva de integração como sendo
a linha reta que une w a z, em cujo caso teremos l(z) = |z − w|. Não precisamos, no entanto, supor
convexidade de D.
Provamos então que, para cada elemento de matriz ab, a série do lado direito de (7.38) é absoluta-
mente convergente, e isso para todo w e z ∈ D. Como, para cada N ∈ N, as funções
XN X m X m m
X Z z Z z1 Z zn−1
fN (z, w) = δab + ··· ··· Aak1 (z1 )Ak1 k2 (z2 ) · · · Akn−1 b (zn ) dzn · · · dz1 .
n=1 k1 =1 k2 =1 kn−1 =1 w w w
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 7 353/1461
são analı́ticas em D (pois integrais de funções analı́ticas são também analı́ticas), concluı́mos do exposto
acima que cada elemento de matriz Dab (z, w) é o limite uniforme (por quê?) da seqüência de funções
analı́ticas fN (z, w). Um teorema importante da análise complexa (vide e.g. [142]) afirma que sob essas
circunstâncias Dab (z, w) é também analı́tica em D.
Para mostrar que (7.39) representa de fato a solução procurada, vamos mostrar que
∂
D(z, w) = A(z)D(z, w). (7.42)
∂z
De fato,
( ∞ Z Z Z )
∂ ∂ X z z1 zn−1
D(z, w) = 1+ ··· A(z1 )A(z2 ) · · · A(zn ) dzn dzn−1 · · · dz1 .
∂z ∂z n=1 w w w
( Z Z Z
z z z1
∂
= 1+ A(z1 ) dz1 + A(z1 )A(z2 ) dz2 dz1
∂z w w w
Z Z Z )
z z1 z2
+ A(z1 )A(z2 )A(z3 ) dz3 dz2 dz1 + · · ·
w w w
Z z Z z Z z2
= 0 + A(z) + A(z)A(z2 ) dz2 + A(z)A(z2 )A(z3 ) dz3 dz2 + · · ·
w w w
Z z Z z Z z2
= A(z) 1 + A(z2 ) dz2 + A(z2 )A(z3 ) dz3 dz2 + · · ·
w w w
Z z Z z Z z1
= A(z) 1 + A(z1 ) dz1 + A(z1 )A(z2 ) dz2 dz1 + · · ·
w w w
= A(z)D(z, w),
como querı́amos provar. Acima, na passagem da quarta para a quinta linha, fizemos uma série de
mudanças de nomes das variáveis de integração, chamando z2 de z1 , z3 de z2 etc.
De maneira análoga prova-se também que
∂
D(z, w) = −D(z, w)A(w).
∂w
É também evidente pela definição (7.38) que para todo z vale D(z, z) = 1. Notemos que, por (7.39),
Y (z0 ) = D(z0 , z0 )Y0 = Y0 , mostrando que o lado direito de (7.39) satisfaz a condição Y (z0 ) = Y0 .
Derivando o lado direito de (7.39) em relação a z, tem-se
∂
Y ′ (z) = D(z, z0 )Y0 = A(z)D(z, z0 )Y0 = A(z)Y (z) ,
∂z
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 7 354/1461
provando que o lado direito de (7.39) satisfaz a equação diferencial. Como a solução é única, ela deve
ser aquela dada em (7.39).
De maneira análoga ao caso real podemos igualmente provar que vale a regra de composição
D(z1 , z3 ) = D(z1 , z2 )D(z2 , z3 ) , (7.43)
para quaisquer z1 , z2 e z3 contidos no domı́nio simplesmente conexo onde A é analı́tica.
E. 7.10 Exercı́cio. Prove (7.43) mostrando que ambos os lados satisfazem as mesmas equações diferen-
ciais e as mesmas condições iniciais. 6
• A equação não-homogênea
onde D(z, z0 ) foi definida acima e a integração do lado direito é tomada em qualquer curva simples,
contı́nua e diferenciável em D, pois D e F são analı́ticas em D. 6
• Analiticidade da solução
Uma importante conclusão que tiramos da análise acima é que, sob a hipótese que A é analı́tica
em D e limitada em D, então a solução Y da equação homogênea Y ′ (z) = A(z)Y (z) com condição
Y (z0 ) = Y0 , z0 ∈ D é igualmente analı́tica em D pois, como vimos, D(z, z0 ) é analı́tica em z.
• Soluções nulas
Há uma conseqüência das considerações acima que é bastante elementar, possuindo, porém, im-
plicações profundas, como veremos, por exemplo, quando discutirmos equações com pontos singulares.
Expressaremos essa conseqüência em forma de uma proposição:
Proposição 7.1 Seja a equação homogênea Y ′ (z) = A(z)Y (z) onde A(z) é analı́tica em um domı́nio
aberto e simplesmente conexo D. Então, se Ys (z) é uma solução dessa equação que se anula em um
ponto z0 ∈ D, ou seja, Ys (z0 ) = 0, vale Ys (z) = 0 para todo z ∈ D. 2
Essa proposição diz que se a solução de uma equação linear homogênea Y ′ (z) = A(z)Y (z) anula-se
em algum ponto de D (com A(z) analı́tica em um domı́nio aberto e simplesmente conexo D), então
ela anula-se em todo D. A prova é a simples observação que, pelo que vimos, a solução é dada por
Y (z) = D(z, z0 )Y (z0 ).
Até agora estudamos equações da forma Y ′ (z) = A(z)Y (z), com condição Y (z0 ) = Y0 , onde A(z) é
uma matriz m × m analı́tica em um domı́nio aberto e simplesmente conexo D que contém z0 e onde Y
é um vetor coluna com m componentes:
y1 (z)
Y (z) = ... .
ym (z)
Consideremos agora a equação M′ (z) = A(z)M(z), com condição M(z0 ) = M0 , onde A(z) e M(z)
são matrizes m × m, a incógnita sendo a matriz M(z) e a matriz A(z) sendo analı́tica em um domı́nio
aberto e simplesmente conexo D. Veremos facilmente que podemos tratar esse problema com os mesmos
métodos do anterior, onde a incógnita era um vetor coluna Y de m componentes e não uma matriz
quadrada. De fato, como toda matriz m × m, a matriz M(z) é da forma (para notação, vide página
155) hh ii
M(z) = M1 (z), . . . , Mm (z) ,
onde Mi (z) são vetores coluna com m componentes, representando a i-ésima coluna da matriz M(t).
Nessa notação a equação diferencial M′ (z) = A(z)M(z) fica
hh ii hh ii
M1′ (z), . . . , Mm
′
(z) = A(z)M1 (z), . . . , A(z)Mm (z) ,
solução desta equação, constata-se trivialmente que, para qualquer matriz m × m constante C, a
matriz M2 (z) = M1 (z)C é igualmente solução de M′ (z) = A(z)M(z), bastando para tal multiplicar a
equação à direita por C.
A seguinte afirmação recı́proca é também verdadeira:
Proposição 7.2 Se M1 (z) e M2 (z) são duas soluções invertı́veis de M′ (z) = A(z)M(z), com A(z)
analı́tica em um domı́nio aberto e simplesmente conexo D, então existe uma matriz constante invertı́vel
C tal que M2 (z) = M1 (z)C para todo z ∈ D. 2
Prova. Para ver isso, seja z0 um ponto arbitrário de D e defina-se M01 = M1 (z0 ) e M02 = M2 (z0 ). Seja
então C := (M01 )−1 M02 . Então, teremos que M3 (z), definida por M3 (z) = M2 (z) − M1 (z)C é também
solução da equação M′ (z) = A(z)M(z), mas que obviamente anula-se em z0 . Com isso, pela Proposição
7.1, M3 (z) é identicamente nula em todo D, ou seja, M2 (z) = M1 (z)C para todo z ∈ D.
onde Yn são vetores-coluna constantes com m componentes, tal qual Y (z). Note-se que, pela expressão
acima, Y (z0 ) = Y0 . Para ver isso, tome z = z0 em ambos os lados da expressão.
Como a matriz A é igualmente analı́tica em torno de z0 , A pode ser expressa por uma série de
Taylor convergente centrada em z0 :
∞
X
A(z) = (z − z0 )n An ,
n=0
onde An são igualmente matrizes m × m constantes. Com isso, a equação diferencial Y ′ (z) = A(z)Y (z)
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 7 357/1461
fica
∞ ∞
! ∞
!
X X X
(n + 1)(z − z0 )n Yn+1 = (z − z0 )k Ak (z − z0 )l Yl
n=0 k=0 l=0
∞ X
X ∞
= (z − z0 )k+l Ak Yl
k=0 l=0
∞
X n
X
= (z − z0 )n An−p Yp , (7.47)
n=0 p=0
E. 7.12 Exercı́cio importante. Complete os detalhes das deduções que levam a (7.47) e (7.48). 6
A expressão (7.48) nos permite obter os vetores Yn recursivamente a partir de Y0 . Com isso, a
solução Y (z) fica determinada por sua série de Taylor (7.46). Esse é o método de resolução por séries
de potências. Por exemplo, para n = 0, (7.48) nos dá
Y1 = A0 Y0 .
(z − z0 )2
Y (z) = Y0 + (z − z0 )A0 Y0 + A1 + A20 Y0 + · · ·
2
(z − z0 )2
= 1 + (z − z0 )A0 + 2
A1 + A0 + · · · Y0 . (7.49)
2
Isso permite-nos identificar a expressão entre colchetes {· · · } como sendo a expansão em série de
Taylor de D(z, z0 ).
E. 7.14 Exercı́cio importante. Desenvolva o método de expansão em série de potências para a resolução
da equação não-homogênea Y ′ (z) = A(z)Y (z) + F (z) com condição Y (z0 ) = Y0 , z0 ∈ D, onde A e F são
analı́ticas em um domı́nio simplesmente conexo D e limitadas em D. 6
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 7 358/1461
sendo 0 ≤ a < b (os casos em que a = 0 e/ou b = ∞ podem ser também permitidos). Vide Figura
7.1. Uma tı́pica situação na qual isso ocorre se dá quando A(z0 ), ou seja, alguns de seus elementos de
matriz, tem uma singularidade tipo pólo ou essencial6 em um ponto z0 . Em verdade, interessaremo-nos
mais pelo caso de singularidades tipo pólo, caso que, felizmente, corresponde à maioria das aplicações.
Notemos que a hipótese de A(z) ser analı́tica em um anel Az0 , a, b significa que A(z) pode ser expressa
em uma série de Laurent7 convergente (vide e.g. [24]) em Az0 , a, b :
∞
X
A(z) = (z − z0 )m Am .
m=−∞
Notemos que um anel Az0 , a, b é a união domı́nios abertos e simplesmente conexos do tipo Sz0 , a, b (φ1 , φ2 ),
com 0 < φ2 − φ1 < 2π, onde
Sz0 , a, b (φ1 , φ2 ) := z ∈ C| z − z0 = ρeiφ , com a < ρ < b e φ1 < φ < φ2 .
Denominaremos essas regiões setores. Vide Figura 7.2.
• Monodromia
Se tomarmos z1 e z dentro do anel Az0 , a, b , podemos encontrar um setor Sz0 , a, b (φ1 , φ2 ) que contém
ambos os pontos (se, por exemplo, na representação polar, z1 = ρ1 eiθ1 e z = ρeiθ , podemos tomar
φ1 < min{θ1 , θ} mod 2π e φ2 < max{θ1 , θ} mod 2π). Como A é analı́tica dentro de um tal setor
e o mesmo é simplesmente conexo, podemos representar a matriz de Dyson D(z, z1 ) na forma (7.38)
com as integrais tomadas em um caminho orientado de z1 a z inteiramente contido no interior de
Sz0 , a, b (φ1 , φ2 ) (e, portanto, de Az0 , a, b ). Isso permite definir D(z, z1 ) dentro de cada setor.
Uma questão muito importante para o que segue é saber o que ocorre com a matriz D(z, z1 ) se,
fixando z1 , fizermos z dar uma volta de 2π em torno do ponto z0 . Mais precisamente, consideremos os
pontos z(φ) definidos por z(φ) := (z − z0 )eiφ + z0 . Como é fácil constatar, ao variarmos φ entre 0 e 2π,
z(φ) move-se em um cı́rculo de raio |z − z0 | centrado em z0 e orientado em sentido anti-horário, sendo
que z(0) = z(2π) = z. Para 0 ≤ φ < 2π, os pontos z1 e z(φ) estão dentro de algum setor simplesmente
conexo de Az0 , a, b e podemos escrever, por (7.43), D(z(φ), z1 ) = D(z(φ), z)D(z, z1 ).
Consideremos a matriz D(z(φ), z). A mesma pode ser expressa na forma (7.38), sendo que podemos
tomar como caminho de integração o arco de cı́rculo orientado no sentido anti-horário C(φ) que vai de
z a z(φ) (lembremo-nos que |z(φ) − z0 | = |z − z0 |). Vide Figura 7.3. A para a matriz D(z, z1 ) podemos
6
Para o estudante que queira recordar esses conceitos sugerimos, por exemplo, [24].
7
Pierre Alphonse Laurent (1813-1854).
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 7 359/1461
b
a
z0
tomar o caminho de integração C1 da Figura 7.3. A medida em que φ aproxima-se de 2π, o caminho
de integração aproxima-se do cı́rculo fechado de raio |z − z0 | (indicado por C na Figura 7.3), orientado
de z a z no sentido anti-horário. Vemos assim que
lim D(z(φ), z1 ) = MD(z, z1 ) onde M := lim D(z(φ), z) .
φ→2π φ→2π
φ
2
b φ
a 1
z0
Um comentário que será importante é que toda matriz de monodromia é invertı́vel. Para ver-
mos isso, notemos que pela definição, M = limφ→2π D(z(φ), z). Assim, considerando o ponto z(π)
(escolhido de forma arbitrária, porém conveniente), tem-se pela fórmula de composição (7.43) que
M = limφ→2π D(z(φ), z) = limφ→2π D(z(φ), z(π))D(z(π), z) = Db (z, z(π))Da (z(π), z), sendo que
Da (z ′ , z) envolve integrações ao longo de um arco Ca , orientado de z a z(π), e Db (z, z(π)) envolve
integrações ao longo do arco Cb , orientado de z(π) a z. Ambos os arcos estão contidos em Az0 , a, b . A
união Ca ∪ Cb é uma curva fechada que dá exatamente uma volta completa no sentido anti-horário em
torno de z0 ao longo do anel Az0 , a, b , sem sair do mesmo. Ambas as matrizes Da (z ′ , z) e Db (z, z ′ ) são
invertı́veis. Portanto, a matriz M também o é.
Um segundo comentário é que a matriz de monodromia comuta com D(z, z1 ) e com A(z) para
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 7 361/1461
C1
C(φ)
z1
φ
z0
z(φ)
Figura 7.3: O arco de cı́rculo orientado no sentido anti-horário C(φ) que vai de z a z(φ).
todos z, z1 ∈ Az0 , a, b . Para ver isso, considere a curva C, fechada, orientada, inteiramente contida em
Az0 , a, b , indicada na Figura 7.4. Essa curva é a fronteira deH uma região simplesmente conexa, portanto,
se f (z) é uma função analı́tica em Az0 , a, b , sua integral C f (w) dw ao longo de C é nula. Por essa
razão, tem-se que
∞ I Z
X w1 Z wn−1
1+ ··· A(w1 )A(w2 ) · · · A(wn ) dwn dwn−1 · · · dw1 = 1 , (7.51)
n=1 C z z
pois todas as integrais ao lado direito se anulam (os integrandos são analı́ticos). A curva C pode
ser continuamente deformada à curva fechada indicada na Figura 7.5 sem alterar a igualdade (7.51).
Tem-se agora, porém, que o percurso ao longo de C pode ser caminhado pelo seguinte conjunto de
percursos sucessivos: 1) partindo do ponto z1 ao longo da curva C1 até o ponto z; 2) partindo de z ao
longo da curva fechada C2 , orientada no sentido anti-horário, até de volta a z; 3) partindo de z até z1 ,
ao longo da curva C3 ; 4) partindo de z1 ao longo da curva fechada C4 , orientada no sentido horário, até
de volta a z1 . Essas considerações e a expressão para M em (7.50) em termos de integrações ao longo
de um circuito arbitrário fechado que dá uma volta no sentido anti-horário em torno de z0 , levam-nos
a concluir que (7.51) significa que
M −1 D(z1 , z)MD(z, z1 ) = 1 .
Como D(z1 , z) = D(z, z1 )−1 , concluı́mos que MD(z, z1 ) = D(z, z1 )M, ou seja, M e D(z, z1 )
comutam para quaisquer z, z1 ∈ Az0 , a, b . Derivando em relação a z, obtemos MA(z)D(z, z1 ) =
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 7 362/1461
A(z)D(z, z1 )M e tomando z1 = z, segue que MA(z) = A(z)M, ou seja, M e A(z) comutam para
qualquer z ∈ Az0 , a, b .
z0
Os dois exercı́cios que seguem exibem mais propriedades de matrizes de monodromia em certos
casos.
E. 7.15 Exercı́cio. Monodromia no caso comutativo. Considere o caso em que A(z) é uma matriz
analı́tica no anel Az0 , a, b e tal que A(z)A(z ′ ) = A(z ′ )A(z) para todos z, z ′ ∈ Az0 , a, b . Usando (7.35),
página 349, e (7.50), mostre que I
M = exp A(w) dw , (7.52)
H
a integral sendo tomada ao longo de qualquer curva fechada que dê exatamente uma volta completa no
sentido anti-horário em torno de z0 ao longo do anel Az0 , a, b , sem sair do mesmo. 6
E. 7.16 Exercı́cio. Sejam A(z) matrizes n × n analı́ticas no anel Az0 , a, b . Suponha que dentro de
Az0 , a, b existam n2 pontos distintos z1 , . . . , zn2 com a propriedade que as n2 matrizes A(z1 ), . . . , A(zn2 )
são linearmente independentes. Mostre que isso implica que M = η 1 para algum η ∈ C, η 6= 0. Sugestão:
explore o fato que MA(z) = A(z)M para todo z ∈ Az0 , a, b . 6
*
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 7 363/1461
C1 C3
z1
C2
z0
C4
E. 7.17 Exercı́cio. As matrizes A(z) = z −1 R, acima, comutam para valores diferentes de z. Por essa
razão, D(z, z1 ) pode ser calculada com o uso da expressão (7.35), página 349. Obtenha (7.54) dessa forma.
6
E. 7.18 Exercı́cio. Obtenha (7.55) fazendo uso da relação (7.52), válida no caso comutativo. Verifique
explicitamente que MA(z) = A(z)M para todo z ∈ A0, b . Vide Exercı́cio E. 7.15. 6
E. 7.19 Exercı́cio. Mostre, fazendo uso da relação (7.52), que para qualquer matriz R a matriz de
6 1, é M = 1, ou seja, a monodromia é
monodromia associada às funções A(z) = z −p R, com p ∈ Z, p =
trivial. 6
Como já observamos, toda matriz de monodromia M é invertı́vel. Vamos mostrar que para cada
M existe uma matriz Γ tal que M = e2πiΓ . Por exemplo, para a M dada em (7.55) podemos tomar
Γ = R, onde R é dada em (7.53) (verifique!). Para a prova geral, vamos primeiro escrever M na sua
forma de Jordan (vide Teorema 3.19, página 215): seja T invertı́vel tal que T −1 MT = D + N onde D
é diagonal, N é nilpotente e DN = ND. Definimos, então,
1
Γ := T ln D + ln(1 + D −1 N) T −1 .
2πi
Antes de prosseguirmos comentemos que essa expressão está bem definida. De fato, D é uma matriz
diagonal D = diag (d1 , . . . , dm ), tendo na diagonal os autovalores de M. Como M é invertı́vel, nenhum
desses autovalores é nulo, assim ln D está bem definida como ln D = diag (ln(d1 ), . . . , ln(dm )). Fora
P
isso, ln(1 + D −1 N) é dada (já que D e N comutam) por ∞ k −1 k k
k=0 (−1) (D ) N , que é uma soma finita,
pois N é nilpotente.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 7 365/1461
Isto posto, dado que ln D e ln(1 + D −1 N) comutam (por que?), é fácil então ver que
e2πiΓ = T exp ln D + ln(1 + D −1 N) T −1
= T exp (ln D) exp ln(1 + D −1 N) T −1
= M,
eln(z−z0 )Γ = Q−1 eln(z−z0 )(D0 +N0 ) Q = Q−1 eln(z−z0 )D0 eln(z−z0 )N0 Q.
Se a matriz D0 for a matriz diagonal diag (γ1 , . . . , γm ) então a matriz eln(z−z0 )D0 é a matriz diagonal
diag ((z − z0 )γ1 , . . . , (z − z0 )γm ). Por outro lado, como N0 é nilpotente de ı́ndice menor ou igual a m
(ou seja N0m = 0), os elementos de matriz de eln(z−z0 )N0 são polinômios em ln(z − z0 ) de ordem menor
ou igual a m − 1. Conseqüentemente, cada elemento de matriz eln(z−z0 )Γ ab é da forma
m−1 m
!
X X
ln(z−z0 )Γ γl kl
e ab
= (z − z0 ) Cab (ln(z − z0 ))k (7.56)
k=0 l=1
kl
para certas constantes complexas Cab (algumas podendo ser nulas).
Note-se que os γl são, em geral, números complexos: os autovalores de Γ.
contém o termo 1, a expansão (7.56) sempre contém um termo não-nulo do tipo (ln(z − z0 ))k com
k = 0, ou seja, há um termo não-nulo que não envolve potências de ln(z − z0 ). Essa observação será
lembrada adiante.
Seja a equação Y ′ (z) = A(z)Y (z) com A(z) analı́tica no anel Az0 , a, b e seja como antes D(z, z1 ),
z, z1 ∈ Az0 , a, b , uma matriz fundamental dessa equação com uma matriz de monodromia M = e2πiΓ .
Para z1 fixo, seja S(z) a matriz definida por
S(z) = e− ln(z−z0 )Γ D(z, z1 ) .
Pelas hipóteses sobre D(z, z1 ) e pelas propriedades da função logaritmo, S(z) é analı́tica em cada setor
Sz0 , a, b (φ1 , φ2 ) com 0 < φ2 − φ1 < 2π.
Consideremos o que ocorre com S(z) quando a variável
z dá uma volta de 2π em torno de z0 , ou
seja, comparemos S(z) com10 limφ→2π S (z − z0 )eiφ + z0 . Temos que
!
lim S (z − z0 )eiφ + z0 = lim exp − ln((z − z0 )eiφ )Γ D (z − z0 )eiφ + z0 , z1
φ→2π φ→2π
− ln((z−z0 ))Γ
−iφΓ iφ
= e lim e lim D (z − z0 )e + z0 , z1
φ→2π φ→2π
= S(z) .
Isso diz-nos que S(z) é contı́nua no anel Az0 , a, b . Como é analı́tica em cada setor Sz0 , a, b (φ2 , φ1 ) com
0 < φ2 − φ1 < 2π, concluı́mos que S(z) é analı́tica em Az0 , a, b . Se pudermos tomar o raio interno do
anel arbitrariamente pequeno, S(z) pode ser singular em z0 . Essa singularidade, porém, se houver,
será do tipo pólo ou do tipo singularidade essencial, mas não do tipo ponto de ramificação, pois isso
contrariaria o fato de S(z) ser analı́tica em qualquer anel centrado em z0 .
Resumimos nossos conclusões em forma de uma proposição.
Proposição 7.3 Seja a equação Y ′ (z) = A(z)Y (z) com A(z) matriz m × m analı́tica no anel Az0 , a, b
e seja como antes D(z, z1 ), com z, z1 ∈ Az0 , a, b , uma matriz fundamental dessa equação com matriz
de monodromia M = e2πiΓ . Então, para z1 fixo, D(z, z1 ) é da forma
D(z, z1 ) = eln(z−z0 )Γ S(z), (7.57)
onde S(z) é analı́tica no anel Az0 , a, b . Se pudermos tomar o raio interno do anel arbitrariamente
pequeno, S(z) pode ser singular em z0 , a singularidade, se houver, sendo do tipo pólo ou do tipo
singularidade essencial.
Conseqüentemente, por (7.56), cada elemento de matriz D(z, z1 )ab , para z1 fixo, é da forma
m−1
XX m
D(z, z1 )ab = (z − z0 )γl (ln(z − z0 ))k Fab
kl
(z) , (7.58)
k=0 l=1
10
Note que, para z e z0 fixos, quando φ varia de 0 a 2π os pontos (z − z0 )eiφ + z0 descrevem um cı́rculo orientado no
sentido anti-horário no plano complexo e centrado em z0 . Esse cı́rculo tem raio |z − z0 |, inicia-se e termina em z.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 7 367/1461
kl
a, b = 1, . . . , m, onde cada função Fab (z) é analı́tica no anel Az0 , a, b . Novamente, se pudermos
kl
tomar o raio interno do anel arbitrariamente pequeno, cada Fab (z) pode ser singular em z0 . Essa
singularidade, se houver, é do tipo pólo ou do tipo singularidade essencial. As constantes complexas γl
são os autovalores de Γ. Os termos com k = 0 são não-nulos. 2
• O Método de Frobenius
A forma geral das matrizes fundamentais apresentada acima sugere e justifica um método de solução
para o caso de sistemas de equações lineares provenientes de uma equação diferencial ordinária de ordem
m (vide Seção 7.7):
y (m) (z) + am−1 (z)y (m−1) (z) + · · · a1 (z)y ′ (z) + a0 (z)y(z) = 0, (7.59)
O método consiste em procurar soluções na forma y(z) = (z − z0 )γ (ln(z − z0 ))k f (z), para algum γ ∈ C,
algum k = 0, . . . , m − 1, inteiro e f (z) analı́tica no anel Az0 , b . Como f possui uma singularidade tipo
pólo ou essencial em z0 , ela pode ser representada em Az0 , b por uma série de Laurent convergente (vide
e.g. [24]):
X∞
f (z) = cn (z − z0 )n .
n=−∞
ser do tipo pólo (de qualquer ordem), z0 é dito ser um ponto singular regular12 da equação Y ′ (z) =
A(z)Y (z).
No caso de z0 ser um ponto singular regular uma simplificação importante pode ser feita.
Se S(z) tem um pólo de ordem l em z0 , então S(z) = (z − z0 )−l S0 (z), onde S0 (z) é analı́tica em z0 .
Com isso, a forma geral (7.57) pode ser reescrita como
′
D(z, z1 ) = S0 (z) eln(z−z0 )Γ ,
onde Γ′ = Γ − l1.
Como se constata, é a mesma forma de (7.57), envolvendo apenas uma redefinição da matriz Γ,
sendo que agora o fator S0 (z) é uma matriz analı́tica. O ponto importante é que a conclusão (7.58)
sobre a forma geral dos elementos de matriz de D(z, z1 ) é igualmente válida, sendo que agora, porém,
kl
as funções Fab (z) são funções analı́ticas de z em z0 e não apenas no anel Az0 , b .
Nesse caso, então, o método de Frobenius discutido acima adquire o seguinte aspecto: procura-se
soluções na forma
∞
X
γ k
y(z) = (z − z0 ) (ln(z − z0 )) cn (z − z0 )n
n=0
e tenta-se determinar γ, k e os coeficientes cn de modo que a equação diferencial seja satisfeita. Esse
método é eficaz e, em muitos casos, prático, fornecendo soluções para várias equações diferenciais de
interesse na Fı́sica. Mais sobre o método de Frobenius pode ser encontrado nos bons livros sobre
equações diferenciais e Fı́sica-Matemática ou no Capı́tulo 8, com exemplos.
A questão que se coloca então é: quando ocorre que S(z) possui apenas singularidades do tipo
pólo em z0 ? A resposta depende do tipo de singularidade que a própria matriz A(z) possui em z0 .
Começaremos a discutir isso na Seção 7.6.4.
Teorema 7.1 Se z0 é um ponto singular simples da equação diferencial Y ′ (z) = A(z)Y (z), ou seja,
A0 (z) := (z − z0 )A(z) é analı́tica em z0 , então z0 é um ponto singular regular dessa equação, ou seja,
S(z) (definida acima) tem no máximo uma singularidade tipo pólo em z0 . 2
Prova. (Extraı́da de [137], com ligeiras modificações). Comecemos com alguns comentários prepa-
ratórios.
1. Para uma matriz complexa m×m qualquer K denotamos por kKk sua norma operatorial, definida
por
kKvkC
kKk := sup ,
v∈C , v6=0 kvkC
m
p
onde, para v = (v1 , . . . , vm ) ∈ Cm , definimos a norma vetorial kvkC := |v1 |2 + · · · + |vm |2 .
onde eb é o vetor da base canônica cuja b-ésima componente é 1 e as demais são nulas. Como é
óbvio, keb kC = 1. Assim,
kKeb kC kKvkC
|Kab | ≤ ≤ sup =: kKk. (7.60)
keb kC v∈Cm , v6=0 kvkC
3. Da definição da norma operatorial de uma matriz K, é evidente que vale kKvkC ≤ kKk kvkC
para qualquer vetor v. Pela definição, é bem fácil constatar desse fato que norma operatorial de
um produto de matrizes satisfaz
kKLk ≤ kKk kLk, (7.61)
para quaisquer matrizes complexas m × m K e L.
Agora passemos à demonstração do teorema. Com z, z1 ∈ Az0 , b e z1 fixo, vamos denotar D(z, z1 )
por Φ(z). Obviamente, Φ(z) satisfaz
Vamos escrever, para z ∈ Az0 , b , z = z0 + reiθ . Assim, r > 0 mede a distância de z a z0 . Vamos também
definir, para r > 0,
f (r, θ) := kΦ (z)k =
Φ z0 + reiθ
=
D z0 + reiθ , z1
.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 7 370/1461
por (7.62)
1
=
(z − z0 )−1 A0 (z)Φ(z)
= kA0 (z)Φ(z)k
r
por (7.61) 1 1
≤ kA0 (z)k kΦ(z)k = kA0 (z)k
Φ z0 + reiθ
r r
1
= kA0 (z)k f (r, θ)
r
C
≤ f (r, θ) ,
r
onde C := sup kA0 (z)k. Note-se que C é finito pois, por hipótese, A0 (z) é analı́tica em torno de z0 .
|z−z0 |<a
C
Obviamente, o fato que ∂f
∂r
(r, θ) ≤ f (r, θ) implica
r
∂f C
(r, θ) + f (r, θ) ≥ 0 .
∂r r
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 7 371/1461
Para x positivo, ln x ≥ 0 implica x ≥ 1. Assim, r1C f (r1 , θ) ≥ r C f (r, θ). Isso implica
d
f (r, θ) ≤ ,
rC
com d := max r1C f (r1 , θ). Com o que vimos, estabelecemos que
0≤θ≤2π
d
kΦ (z)k ≤
|z − z0 |C
para todo z ∈ Az0 , b com |z − z0 | < r1 . Sabemos que S(z) = e− ln(z−z0 )Γ Φ (z). Logo, com |z − z0 | < r1 ,
d
− ln(z−z )Γ
kS(z)k ≤ kΦ (z)k
e− ln(z−z0 )Γ
≤ C
e 0
. (7.63)
|z − z0 |
Vamos agora concentrar-nos em
e− ln(z−z0 )Γ
. Como é fácil de se ver, vale para qualquer matriz B e
qualquer número complexo β
βB
∞
X β k
k X∞
|β|k k X∞
|β|k
e
=
1 +
B
≤ 1+ kB k ≤ 1 + kBkk = e|β| kBk .
k!
k! k!
k=1 k=1 k=1
| ln w| ≤ − ln |w| + π .
d′
kS(z)k ≤ ,
|z − z0 |p
onde p := C + kΓk ≥ 0 e d′ = deπkΓk . Logo, por (7.60), vale para cada elemento de matriz S(z)ab de
S(z)
lim |z − z0 |p |S(z)ab | ≤ d′ ,
z→z0
sendo, portanto, finito. Isso implica que para qualquer inteiro k maior que p tem-se que a matriz
(z − z0 )k S(z) é analı́tica em z0 , implicando que S(z) tem uma singularidade tipo pólo em z0 .
• Um comentário
A recı́proca do Teorema 7.1 não é verdadeira: um contra-exemplo (de [137]) sendo o caso em que
0 1
A(z) = ,
2z −2 0
que claramente tem um pólo de ordem dois em z0 = 0. Não se trata, portanto, de uma singularidade
simples. Para esse caso, porém, tem-se, para todo z, z1 ∈ Az0 , b ,
−1
2z z1 + z 2 z1−2 z 2 z1−1 − z −1 z12
1
D(z, z1 ) = .
3 −2 −2 −1 −2 2
2(zz1 − z z1 ) 2zz1 + z z1
Claramente z0 = 0 é um ponto singular regular, já que D(z, z1 ) tem um pólo de ordem 2 em z0 = 0.
∂
E. 7.27 Exercı́cio. Para A e D dados acima, verifique que ∂z D(z, z1 ) = A(z)D(z, z1 ) e que
D(z1 , z1 ) = 1. Verifique que a matriz de monodromia de D(z, z1 ) é 1. 6
A conclusão mais importante do Teorema 7.1, página 369, diz respeito à forma geral das soluções
de equações com pontos singulares simples. Resumimos tudo no seguinte teorema.
Teorema 7.2 Seja a equação Y ′ (z) = A(z)Y (z) com A(z) matriz m × m analı́tica no anel Az0 , b
(para algum b > 0), z0 sendo um ponto singular simples dessa equação diferencial, ou seja, A0 (z) :=
(z − z0 )A(z) é analı́tica em z0 . Seja como antes D(z, z1 ), z, z1 ∈ Az0 , b , uma matriz fundamental
dessa equação com matriz de monodromia M = e2πiΓ . Então, para z1 fixo, D(z, z1 ) é da forma
D(z, z1 ) = eln(z−z0 )Γ S(z), onde S(z) é analı́tica no anel Az0 , b e tem no máximo uma singularidade
tipo pólo em z0 . Isso significa que S(z) é da forma S(z) = (z − z0 )−l S0 (z), para algum inteiro l ≥ 0,
onde S0 é analı́tica em z0 . Com isso, definindo Γ′ = Γ − l1, concluı́mos que D(z, z1 ) é da forma
′
D(z, z1 ) = eln(z−z0 )Γ S0 (z) , (7.64)
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 7 373/1461
kl
p, q = 1, . . . , m, onde as funções Fpq (z) são analı́ticas em z0 , podendo, portanto, ser expressas por
séries de Taylor centradas nesse ponto. As constantes complexas γl são os autovalores de Γ′ . Os termos
com k = 0 são não-nulos. 2
y (m) (z) + am−1 (z)y (m−1) (z) + · · · a1 (z)y ′ (z) + a0 (z)y(z) = 0, (7.66)
onde as m funções a0 , . . . , am−1 são analı́ticas em um domı́nio aberto simplesmente conexo comum D.
É fácil constatar (faça!) que essa equação equivale ao sistema
onde
y(z)
y ′ (z)
Y (z) := .. (7.67)
.
(m−1)
y (z)
e A(z) é a matriz m × m
0 1 0 0 ··· 0
0 0 1 0 ··· 0
.. .. ..
.. .. ..
. . . . . .
A(z) := , (7.68)
..
0 0 0 . 1 0
0 0 0 ··· 0 1
−a0 (z) −a1 (z) −a2 (z) ··· −am−2 (z) −am−1 (z)
a qual é analı́tica em D, por assim o serem as funções a0 , . . . , am−1 , em cujo caso aplicam-se as
conclusões supra-citadas, ou seja, a solução y(z) é igualmente analı́tica em D. Para futura referência
coletamos essa conclusão no seguinte teorema
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 7 374/1461
e suponhamos que as funções a0 , . . . , am−1 são todas analı́ticas em um domı́nio aberto e simplesmente
conexo D. Então as soluções da equação são igualmente analı́ticas em D. Em particular, se D contiver
um disco aberto Daz0 := {z ∈ C| |z − z0 | < a}, centrado em z0 e de raio a > 0, então as soluções da
equação podem ser expressas em termos de uma série de potências
∞
X
y(z) = cn (z − z0 )n ,
n=0
a qual converge (absolutamente) pelo menos no disco aberto Daz0 , ou seja, pelo menos para todo z ∈ C
tal que |z − z0 | < a. 2
• Introdução e motivação
Seja o sistema de equações Y ′ (z) = A(z)Y (z) procedente de uma EDO linear complexa homogênea
de ordem m como (7.66), com Y (z) como em (7.67) e A(z) dada em (7.68), definida em um domı́nio
D do plano complexo. Seja também z0 ∈ D.
Vamos supor que z0 seja um ponto singular de A(z), ou seja, A(z) não é analı́tica em z = z0 . É
bastante claro que se as funções ak (z), k = 0, . . . , m − 1, tiverem no máximo um pólo de ordem 1 em
z0 = 0, ou seja, se as funções (z − z0 )ak (z), k = 0, . . . , m − 1, forem todas analı́ticas em z0 , então z0
será um ponto singular regular de Y ′ (z) = A(z)Y (z), pois, teremos Y ′ (z) = (z − z0 )−1 A0 (z)Y (z), onde
A0 (z) := (z − z0 )A(z) é analı́tica em z0 . Assim, nesse caso, valeriam todas as importantes conclusões
a que chegamos na Seção 7.6.4, página 368, especialmente aquelas expressas no Teorema 7.2, página
373.
Sucede que há condições ainda menos restritivas sobre as funções ak (z), k = 0, . . . , m − 1, para as
quais as importantes conclusões sobre a forma geral da solução, expressas no Teorema 7.2, também se
aplicam. A saber, tal é o caso se as funções (z − z0 )m−k ak (z), k = 0, . . . , m − 1, forem todas analı́ticas
em z0 , ou seja, se cada função ak (z) tiver no máximo um pólo de ordem m − k em z0 .
No que segue iremos primeiramente justificar as afirmativas do último parágrafo para depois extrair
as conclusões pertinentes. Esse caminho nos conduzirá a uma noção mais abrangente do conceito de
ponto singular simples de equações diferenciais lineares complexas homogêneas de ordem m como (7.66).
Seja então Y ′ (z) = A(z)Y (z) com Y (z) como em (7.67) e com A(z) dada em (7.68), definida em
um domı́nio aberto e simplesmente conexo D com z0 ∈ D. Vamos definir um novo vetor coluna
ou seja, definindo h i
Ã(z) := (z − z0 ) E(z)A(z)E(z)−1 + E ′ (z)E(z)−1 , (7.70)
obtemos,
Ỹ ′ (z) = (z − z0 )−1 Ã(z)Ỹ (z). (7.71)
Para prosseguirmos (e para finalmente entendermos por que fizemos a mudança de Y para Ỹ ), é
muito importante calcularmos explicitamente a matriz Ã(z) definida acima.
E. 7.28 Exercı́cio muito importante. Calcule explicitamente a matriz Ã(z) definida acima. Use (7.70),
(7.68) e (7.69). 6
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 7 376/1461
O resultado é
0 1 0 ··· 0 0 0
0 1 1 0 0 0
..
0 0 2 . 0 0 0
.. .. .. .. ..
Ã(z) = . . . . . ,
0 0 0 m−3 1 0
0 0 0 ··· 0 m−2 1
b0 (z) b1 (z) b2 (z) ··· bm−3 (z) bm−2 (z) bm−1 (z)
onde
..
.
Como exemplo, tem-se no caso de particular interesse fı́sico das equações de segunda ordem
De volta ao caso geral, vemos que se as funções bk (z), 0 ≤ k ≤ m − 1, forem todas analı́ticas em
torno de z0 , então Ã(z) será analı́tica em torno de z0 e, portanto, o sistema (7.71) será um sistema com
um ponto singular simples em z0 . Coloquemos, assim, a seguinte definição:
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 7 377/1461
y (m) (z) + am−1 (z)y (m−1) (z) + · · · a1 (z)y ′ (z) + a0 (z)y(z) = 0. (7.72)
Um ponto z0 ∈ C é dito ser um ponto singular simples, ou ponto singular regular dessa equação se pelo
menos uma das funções ak (z) for singular em z0 mas de modo que todas as funções (z − z0 )m−k ak (z),
k = 0, . . . , m − 1, sejam analı́ticas em z0 . Isso significa que cada função ak (z) ou é analı́tica em z0 ou
tem um pólo em z0 cuja ordem deve no máximo ser m − k, sendo que supostamente pelo menos uma
das funções ak (z) é singular em z0 .
Isso significa que um ponto z0 é um ponto singular simples se A(z) não é analı́tica em z = z0 mas
se Ã(z) é analı́tica em z = z0 .
Assim, por exemplo, dizemos que z0 é um ponto singular simples da equação de segunda ordem (ou
seja, para m = 2) dada por y ′′(z) + a1 (z) y ′(z) + a0 (z) y(z) = 0 se a0 (z) tiver um pólo de ordem no
máximo 2 em z0 ou se a1 (z) tiver um pólo de ordem no máximo 1 em z0 , ou ambos. Vários exemplos
são apresentados e discutidos na Seção 7.7.3.
No caso de z0 ser um ponto singular simples de uma equação como (7.72), aplicam-se os resultados
da Seção 7.6.4, página 368, às soluções de (7.71). Discutiremos adiante as implicações deste fato.
Unindo as observações acima com o Teorema 7.2 chegamos à seguinte importante conclusão.
Teorema 7.4 Seja a equação diferencial linear homogênea complexa de ordem m
e seja z0 um ponto singular simples dessa equação, ou seja pelo menos uma das funções ak (z) é singular
em z0 mas de modo que todas as funções (z − z0 )m−k ak (z), k = 0, . . . , m − 1, sejam analı́ticas em z0 .
Então as soluções da equação diferencial são combinações lineares de soluções da forma
• A equação de Euler
• Um Teorema de Fuchs
Há um importante teorema, devido a Fuchs, que estabelece uma recı́proca do Teorema 7.4: se toda
solução da equação
y (m) (z) + am−1 (z)y (m−1) (z) + · · · + a1 (z)y ′ (z) + a0 (z)y(z) = 0 (7.75)
for uma combinação linear de funções da forma (z − z0 )γ (ln(z − z0 ))k fγ, k (z), para certos γ ∈ C,
k = 0, . . . , m − 1 e fγ, k analı́ticas em torno de z0 , então z0 é um ponto singular simples de (7.75), ou
seja, todas as funções (z − z0 )m−k ak (z), k = 0, . . . , m − 1, são analı́ticas em z0 . Uma demonstração
pode ser encontrada em [137].
Chamaremos essa equação “versão no infinito” da equação (7.76). Claramente essa equação equivale
a
U ′ (w) = C(w)U(w),
com
u(w) 0 1
U(w) := , C(w) := ,
u′ (w) −c0 (w) −c1 (w)
onde
a0 (1/w)
c0 (w) := ,
w4
2 a1 (1/w)
c1 (w) := − .
w w2
Analogamente ao que fizemos anteriormente, podemos transformar esse sistema no sistema equiva-
lente
1
Ũ ′ (w) = C̃(w)Ũ(w),
w
onde
Ũ(w) := E(w)U(w), C̃(w) := w E(w)C(w)E(w)−1 + E ′ (w)E(w)−1 ,
u(w)
1 0
com E(w) = , Ũ (w) = e
0 w
wu′(w)
0 1
0 1
C̃(w) = =
1 .
a0 w1
a1 w
−w 2 c0 (w) −wc1 (w) + 1 − −1 +
w2 w
Por analogia com nossas noções prévias, façamos as seguintes definições:
1. Diremos que a equação (7.76) é uma equação analı́tica no infinito se C(w) for analı́tica em torno
de w = 0.
2. Diremos que a equação (7.76) tem uma singularidade no infinito se C(w) não for analı́tica em
torno de w = 0.
3. Diremos que a equação (7.76) tem uma singularidade simples no infinito (ou que z0 = ∞ é um
ponto singular simples de (7.76)) se C(w) não for analı́tica em torno de w = 0 mas C̃(w) o for,
ou seja, se c0 (w) tiver um pólo de ordem no máximo 2 em w = 0 ou se c1 (w) tiver um pólo de
ordem no máximo 1 em w = 0, ou ambos.
Vários exemplos são discutidos na Seção 7.7.3.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 7 380/1461
E. 7.31 Exercı́cio importante. Complete os detalhes de todos os cálculos apresentados nos exemplos
que seguem. 6
2. A equação de Euler
z 2 y ′′ (z) + az y ′ (z) + b y(z) = 0,
ou seja,
a ′ b
y ′′(z) + y (z) + 2 y(z) = 0,
z z
onde a e b são constantes, corresponde a
0 1
A(z) = .
b a
− 2 −
z z
Para z0 = 0 tem-se
0 1
Ã(z) = .
−b −a + 1
Assim, z0 = 0 é um ponto singular simples da equação de Euler, exceto se a = b = 0, em cujo
caso z0 = 0 é um ponto regular.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 7 381/1461
5. A equação de Hermite
y ′′ (z) − 2z y ′ (z) + λ y(z) = 0,
onde λ ∈ R, corresponde a
0 1
A(z) = .
−λ 2z
Concluı́mos que a equação de Hermite é analı́tica em todo o plano complexo, assim sendo também
as suas soluções.
Ponto no infinito. A versão no infinito da equação de Hermite é
′′ 2 2 λ
u (w) + + 3 u′ (w) + 4 u(w) = 0.
w w w
6. A equação de Airy
y ′′ (z) − z y(z) = 0.
corresponde a
0 1
A(z) = .
z 0
Concluı́mos que a equação de Airy é analı́tica em todo o plano complexo, assim sendo também
as suas soluções.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 7 383/1461
9. A equação hipergeométrica
ou seja,
′′ c − (1 + a + b)z ab
y (z) + y ′(z) − y(z) = 0,
z(1 − z) z(1 − z)
com a, b, c constantes, corresponde a
0 1
A(z) =
.
ab (1 + a + b)z − c
z(1 − z) z(1 − z)
Para z0 = 1 teremos
0 1
Ã(z) = ,
ab(z − 1) −(a + b)z + c
−
z z
que é analı́tica em z0 = 1.
Assim, z0 = 0 e z0 = 1 são pontos singulares simples da equação hipergeométrica.
Ponto no infinito. A versão no infinito da equação hipergeométrica é
′′ 1 (2 − c)w + a + b − 1 ab
u (w) + u′ (w) − 2 u(w) = 0.
w w−1 w (w − 1)
ou seja, c
′′ a
y (z) + − 1 y ′ (z) − y(z) = 0,
z z
com a, c constantes, corresponde a
0 1
A(z) = a c.
1−
z z
Para z0 = 0 teremos
0 1
Ã(z) = ,
az z−c+1
que é analı́tica em z0 = 0. Assim, z0 = 0 é um ponto singular simples da equação de hiper-
geométrica confluente.
Ponto no infinito. A versão no infinito da equação hipergeométrica confluente é
′′ 2−c 1 a
u (w) + + 2 u′ (w) − 3 u(w) = 0.
w w w
• Equações Fuchsianas
Uma equação diferencial linear de ordem n é dita ser uma equação Fuchsiana14 se possuir um número
finito de pontos singulares, todos simples (incluindo eventualmente, mas não necessariamente, um ponto
singular simples no infinito). A equação Euler, a equação de Legendre e a equação hipergeométrica
são exemplos de equações Fuchsianas (vide Seção 7.7.3, acima). Equações com tal propriedade podem
ser resolvidas em todo o plano complexo pelo método de Frobenius, através de expansões em torno
dos pontos singulares simples. Além disso, equações Fuchsianas possuem algumas de propriedades de
transformação que facilitam seu estudo. Por exemplo, toda equação Fuchsiana de segunda ordem com
exatamente três pontos singulares pode ser transformada em uma equação hipergeométrica. Equações
Fuchsianas podem ser classificadas de forma mais ou menos sistemática de acordo com o número de
singularidades e é nosso propósito fazer essa classificação de modo a obter a forma geral de equações
Fuchsianas de primeira e de segunda ordem com uma, duas ou três singularidades (que, no caso de
equações de segunda ordem, correspondem à maioria das equações encontradas em aplicações).
a0 (1/w)
b0 (w) := − .
w2
No que segue vamos procurar a forma geral de uma tal equação que possua um certo número
de singularidades, todas simples, ou seja, de modo que a equação seja Fuchsiana. Começamos nos
perguntando se há equações sem quaisquer pontos singulares, nem no infinito.
14
Lazarus Immanuel Fuchs (1833-1902).
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 7 387/1461
Se (7.78) não possui pontos singulares finitos, então a0 (z) é uma função inteira de z (ou seja, é
X∞
(n)
analı́tica em toda parte) e, portanto, possui uma série de Taylor centrada em 0: a0 (z) = α0 z n ,
n=0
convergente para todo z ∈ C. Com isso vemos que
∞
X (n) 1
b0 (w) = − α0 (7.80)
n=0
w n+2
que convege para todo w ∈ C, w 6= 0. Para que (7.78) também não possua uma singularidade no
(n)
infinito, é necessário e suficiente que b0 seja analı́tica em 0. Isso só é possı́vel se α0 = 0 para todo n,
ou seja, se a0 for identicamente nula. Assim, a equação y ′ (z) = 0, cuja versão no infinito é u′ (w) = 0,
é a única equação diferencial de primeira ordem sem qualquer singularidade. Como veremos na Seção
7.8.2, não há equações de segunda ordem com essa caracterı́stica.
De (7.80) vemos também que não existem equações de primeira ordem que sejam regulares em toda
parte mas possuam uma singularidade simples no infinito. De fato, vemos por (7.80) que b0 tem um
pólo de ordem maior ou igual a dois em w = 0 e não de primeira ordem, como seria necessário para
que a singularidade no infinito fosse simples.
Consideremos agora o caso geral em que (7.78) é Fuchsiana e seus pontos singulares finitos são um
subconjunto de {z1 , . . . , zk } formado por k ≥ 1 pontos distintos. Isso significa que a0 (z) tem no
máximo um polo de ordem 1 nos pontos z1 , . . . zk com k ≥ 1, sendo portanto da forma
c0 (z)
a0 (z) = ,
(z − z1 ) · · · (z − zk )
onde c0 é uma função inteira de z (para que um certo za seja de fato singular simples é necessário que
c0 não tenha um zero em za ). Obtemos disso que
w k−2c0 (1/w)
b0 (w) = −
(1 − wz1 ) · · · (1 − wzk )
∞
X (n)
Como função inteira, c0 possui uma expansão de Taylor centrada em 0: c0 (z) = γ0 z n , a qual
n=0
converge para todo z ∈ C. Assim, obtemos
∞
X (n) 1
γ0
n=0
w n−k+2
b0 (w) = − . (7.81)
(1 − wz1 ) · · · (1 − wzk )
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 7 388/1461
Para que o ponto no infinito seja regular é necessário e suficiente que b0 (w) seja analı́tica em w = 0.
1 (n)
Pelo fato de (1−wz1 )···(1−wz k)
ser analı́tica em w = 0, isso requer que γ0 = 0 para todo n > k − 2. Para
k = 1 isso requer que a0 e b0 sejam identicamente nulas, não havendo, então, qualquer singularidade.
Para k ≥ 2 isso requer que a0 (z) e b0 (w) sejam da forma
k−2
X (n)
γ0 z n
n=0
a0 (z) =
(z − z1 ) · · · (z − zk )
e
k−2
X k−2
X
(n) 1 (k−2−n)
γ0 γ0 wn
n=0
w n−k+2 n→k−2−n n=0
b0 (w) = − = − .
(1 − wz1 ) · · · (1 − wzk ) (1 − wz1 ) · · · (1 − wzk )
Retornando a (7.81), para que o ponto no infinito seja singular simples é necessário que b0 (w) tenha
(n)
um pólo simples em w = 0. Uma condição necessária e suficiente para tal é que γ0 = 0 para todo
(k−1)
n > k − 1 com γ0 6= 0. Nesse caso a0 e b0 são da forma
k−1
X (n)
γ0 z n
n=0
a0 (z) =
(z − z1 ) · · · (z − zk )
e
k−1
X k−1
X
(n) 1 (k−1−n)
γ0 γ0 w n−1
n=0
w n−k+2 n→k−1−n n=0
b0 (w) = − = − ,
(1 − wz1 ) · · · (1 − wzk ) (1 − wz1 ) · · · (1 − wzk )
ou seja
(k−1) k−1
X
γ0 (k−1−n)
+ γ0 w n−1
w n=1
b0 (w) = − .
(1 − wz1 ) · · · (1 − wzk )
(n)
1. Caso k = 1. Nessa situação a equação será analı́tica no infinito apenas se γ0 = 0 para todo
n > −1, ou seja, se c0 for identicamente nula. Assim, a0 e b0 são também identicamente nulas e
as equações reduzem-se a y ′ (z) = 0 e u′ (w) = 0 e não há quaisquer singularidades.
Para que (7.78) tenha uma singularidade simples no infinito e outra singularidade simples em z1
devemos ter
(0) (0)
γ0 γ0
a0 (z) = e b0 (w) = − .
(z − z1 ) w(1 − wz1 )
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 7 389/1461
Assim, a única equação Fuchsiana com uma singularidade simples em z1 e uma singularidade
simples no infinito é da forma
(0) (0)
′ γ0 ′ γ0
y (z) + y(z) = 0 , cuja versão no infinito é u (w) − u(w) = 0 . (7.82)
(z − z1 ) w(1 − wz1 )
(n)
2. Caso k = 2. Para que a equação seja regular no infinito devemos ter γ0 = 0 para todo n > 0.
Assim, nesse caso a0 e b0 serão da forma
(0) (0)
γ0 γ0
a0 (z) = e b0 (w) = − .
(z − z1 )(z − z2 ) (1 − wz1 )(1 − wz2 )
Assim, a forma geral de uma equação de primeira ordem regular no infinito e com exatamente
dois pontos singulares simples em z1 e z2 é
(0) (0)
′ γ0 γ0
y (z)+ y(z) = 0 , cuja versão no infinito é u′ (w)− u(w) = 0.
(z − z1 )(z − z2 ) (1 − wz1 )(1 − wz2 )
Para que a equação tenha um ponto singular simples no infinito devemos ter
(1)
γ0 (0)
(0)
γ0
+
(1)
γ0 z γ0 +
a0 (z) = e b0 (w) = − w .
(z − z1 )(z − z2 ) (1 − wz1 )(1 − wz2 )
Concluı́mos que a forma geral de uma equação Fuchsiana com um ponto singular simples no
infinito e no máximo dois pontos singulares simples em z1 e z2 ∈ C é
(0) (1)
′ γ0 + γ0 z
y (z) + y(z) = 0 ,
(z − z1 )(z − z2 )
cuja versão no infinito é
(1) (0)
′ γ0 + γ0 w
u (w) − u(w) = 0 .
w(1 − wz1 )(1 − wz2 )
(0) (1)
Caso γ0 = −γ0 z2 essas equações ficam
(1) (1)
γ0 γ0
y ′ (z) + y(z) = 0 , e u′(w) − u(w) = 0
(z − z1 ) w(1 − wz1 )
e agora z2 não é mais uma singularidade da equação diferencial. Essas equações tem a mesma
forma de (7.82), o que não é de surpreender pois aqui temos apenas singularidades simples em z1
e no infinito.
Para futura referência resumamos os resultados obtidos até o momento na forma de uma proposição.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 7 390/1461
Proposição 7.4 Para a equação diferencial linear de primeira ordem no plano complexo
I. Para que (7.83) não tenha qualquer singularidade finita ou no infinito é necessário e suficiente
que seja da forma y ′ (z) = 0, cuja versão no infinito é u′ (w) = 0.
II. Não há equações Fuchsianas de primeira ordem como (7.83) que tenham apenas uma singulari-
dade simples, finita ou no infinito.
III. Para que (7.83) seja Fuchsiana tendo uma singularidade simples em z1 e outra no infinito é
necessário e suficiente que seja da forma
(0) (0)
γ0 γ0
y ′ (z) + y(z) = 0 , cuja versão no infinito é u′ (w) − u(w) = 0
(z − z1 ) w(1 − wz1 )
(0)
com γ0 6= 0.
IV. Para que (7.83) seja Fuchsiana, tendo o infinito como ponto regular e no máximo k singularidades
simples nos pontos z1 , . . . , zk com k ≥ 2, é necessário e suficiente que seja da forma
k−2
X (n)
γ0 z n
′
y (z) + n=0 y(z) = 0 ,
(z − z ) · · · (z − z )
1 k
V. Para que (7.83) seja Fuchsiana, tendo o infinito como ponto singular simples e no máximo k
singularidades simples nos pontos z1 , . . . , zk com k ≥ 2, é necessário e suficiente que seja da
forma
k−1
X (n)
γ0 z n
′
y (z) + n=0 y(z) = 0 ,
(z − z ) · · · (z − z )
1 k
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 7 391/1461
(k−1)
com γ0 6= 0, cuja versão no infinito é
k−1
(k−1)
γ0 X (k−1−n) n−1
w + γ0 w
u′ (w) − n=1
(1 − wz1 ) · · · (1 − wzk ) u(w) = 0 .
No que segue vamos procurar a forma geral de uma tal equação que possua um certo número
de singularidades, todas simples, ou seja, de modo que a equação seja Fuchsiana. Começamos nos
perguntando se há equações sem quaisquer pontos singulares, nem no infinito.
Se (7.84) não possuir pontos singulares finitos, então as funções a0 e a1 devem ser funções inteiras
(analı́ticas em todo C) e, portanto, possuem séries de Taylor centradas em 0
∞
X ∞
X
(n) (n)
a0 (z) = α0 z n , a1 (z) = α1 z n
n=0 n=0
onde as séries convergem para todo w ∈ C, w 6= 0. Trata-se claramente de séries de Laurent centradas
em w = 0 para b0 e b1 . Para que (7.84) também não possua uma singularidade no infinito, seria
(n)
necessário que b0 e b1 fossem analı́ticas em 0. Para b0 isso só seria possı́vel se α0 = 0 para todo n mas
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 7 392/1461
2
para b1 não há como alcançar essa condição devido ao termo w
de sua expansão de Laurent, o qual não
(n)
pode ser anulado por qualquer escolha dos coeficientes α1 .
Concluı́mos disso que não existem equações diferenciais lineares de segunda ordem sem quaisquer
pontos singulares finitos ou no infinito.
Se (7.84) não tiver pontos singulares finitos, vimos que possuirá um ponto singular no infinito. Sob
quais circunstâncias esse ponto no infinito é singular simples? Para tal é necessário que b0 (w) tenha
em w = 0 um polo de ordem no máximo 2 e b1 (w) tenha em w = 0 um polo de ordem no máximo 1.
(n) (n)
Assim, concluı́mos que devemos ter α0 = α1 = 0 para todo n. Em um tal caso as funções a0 , a1 e
b0 são identicamente nulas, enquanto que b1 (w) = 2/w. Concluı́mos que a única equação diferencial de
segunda ordem com apenas um ponto singular simples no infinito é a equação
2 ′
y ′′(z) = 0 , cuja versão no infinito é u′′ (w) + u (w) = 0 . (7.87)
w
Procuremos agora saber a forma geral de uma equação diferencial com apenas um ponto singular
finito em z = 0 e regular no infinito. Em tal caso, a0 (z) tem no máximo um polo duplo em z = 0 e a1
tem no máximo um polo simples z = 0, esse sendo se único ponto singular. Assim, a0 (z) e a1 (z) tem
as representações de Laurent
(−2) (−1) ∞
X (−1) ∞
X
α0 α0 (n) α1 (n)
a0 (z) = + + α0 z n , a1 (z) = + α1 z n
z2 z n=0
z n=0
Para que o ponto no infinito seja regular é necessário que b0 (w) e b1 (w) sejam analı́ticas em w = 0.
(n)
Como se constata das expansões de Laurent dadas acima dessas funções, isso requer que α0 = 0 para
(n) (−1)
todo n ≥ −2, α1 para todo n ≥ 0 e α1 = 2. Nesse caso as funções b0 e b1 são identicamente nulas,
assim como a função a0 , sendo que a1 (z) = 2/z. Concluı́mos que a única equação diferencial que possui
um único ponto singular simples finito em z = 0 e tem o infinito como ponto regular é a equação
2
y ′′ (z) + y ′ (z) = 0 , cuja versão no infinito é u′′ (w) = 0 . (7.88)
z
Essa equação será generalizada em (7.92) para uma singularidade que não seja no ponto z = 0.
Consideremos agora o caso geral em que (7.84) é Fuchsiana e seus pontos singulares finitos são um
subconjunto de {z1 , . . . , zk } formado por k ≥ 1 pontos distintos. Isso significa que a0 (z) tem no
máximo um polo de ordem 2 e a1 (z) no máximo um polo de ordem 1 nos pontos z1 , . . . zk com k ≥ 1.
Assim, ambas são da forma
c0 (z) c1 (z)
a0 (z) = e a1 (z) = ,
(z − z1 · · · (z − zk )2
)2 (z − z1 ) · · · (z − zk )
onde c0 e c1 são funções inteiras de z (para que um certo za seja de fato singular simples é necessário
que c0 não tenha um zero de ordem 2 em za e c1 não tenha um zero de ordem 1 em za ). Obtemos disso
que
w 2k−4 c0 (1/w) 2 w k−2 c1 (1/w)
b0 (w) = e b1 (w) = − .
(1 − wz1 )2 · · · (1 − wzk )2 w (1 − wz1 ) · · · (1 − wzk )
Como funções inteiras, c0 e c1 possuem expansões de Taylor centradas em 0
∞
X ∞
X
(n) (n)
c0 (z) = γ0 z n e c1 (z) = γ1 z n
n=0 n=0
Perguntemo-nos agora sob quais circunstâncias o infinito é também no máximo um ponto singular
simples da equação. Para tal, b0 deve ter no máximo um polo de ordem 2 e b1 no máximo um polo de
1 1
ordem 1 em w = 0. Como as funções (1−wz1 )2 ···(1−wz k)
2 e (1−wz )···(1−wz ) são analı́ticas em w = 0 e não
1 k
se anulam nesse ponto, concluı́mos que a condição procurada exige que w 2k−4c0 (1/w) tenha no máximo
um polo de ordem 2 em w = 0 e w k−2c1 (1/w) tenha no máximo um polo de ordem 1 em w = 0. Agora,
∞
X ∞
X
2k−4 (n) 1 k−2 (n) 1
w c0 (1/w) = γ0 e w c1 (1/w) = γ1 ,
n=0
w n+4−2k n=0
w n+2−k
(n) (n)
donde concluı́mos que γ0 = 0 para todo n > 2k − 2 e γ1 = 0 para todo n > k − 1. Assim,
2k−2
X k−1
X
(n) (n)
c0 (z) = γ0 z n e c1 (z) = γ1 z n ,
n=0 n=0
que são polinômios de grau menor ou igual a 2k − 2 e k − 1, respectivamente. Para a versão no infinito
da equação diferencial teremos nesse caso
2k−2
X 2k−2
X
(n) 1 (2k−2−n)
γ0 γ0 w n−2
n=0
w n+4−2k n→2k−2−n n=0
b0 (w) = = (7.89)
(1 − wz1 )2 · · · (1 − wzk )2 (1 − wz1 )2 · · · (1 − wzk )2
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 7 394/1461
e
k−1
X (n) 1
γ1
2 n=0
w n+2−k
b1 (w) = −
w (1 − wz1 ) · · · (1 − wzk )
k−1
X (n) 1
2(1 − wz1 ) · · · (1 − wzk ) − γ1
n=0
w n+1−k
=
w(1 − wz1 ) · · · (1 − wzk )
k−1
X (k−1−n)
2(1 − wz1 ) · · · (1 − wzk ) − γ1 wn
n→k−1−n n=0
= . (7.90)
w(1 − wz1 ) · · · (1 − wzk )
Das expressões (7.89) e (7.90) podemos identificar as condições para que b0 (w) e b1 (w) sejam regu-
1
lares em w = 0, ou seja, para que o infinito seja um ponto regular de (7.96): como (1−wz1 )2 ···(1−wz k)
2
1
e (1−wz1 )···(1−wzk ) são analı́ticas em w = 0 e não se anulam nesse ponto, para que b0 (w) e b1 (w) se-
2k−2
X (2k−2−n)
jam regulares em w = 0 é necessário e suficiente que γ0 w n−2 seja analı́tica em w = 0 e
n=0
k−1
X (k−1−n)
2(1 − wz1 ) · · · (1 − wzk ) − γ1 w n seja analı́tica em w = 0 (o que sempre é o caso) e tenha um
n=0
zero de ordem pelo menos 1 nesse ponto (observar o fator w no denominador de (7.90)).
(2k−3) (2k−2)
Para a primeira condição é necessário e suficiente que γ0 = γ0 = 0 (se k = 1, é necessário
(0) (k−1)
e suficiente que γ0 = 0). Para a segunda condição, é necessário e suficiente que γ1 = 2.
1. Caso k = 1. Nesse caso, para que (7.84) seja Fuchsiana com no máximo um ponto singular
simples no infinito e em z1 , temos que c0 e c1 devem ser polinômios e grau zero (ou seja, constantes)
e (7.84) é da forma
! !
(0) (0)
γ γ
y ′′ (z) + 1
y ′ (z) + 0
y(z) = 0 , (7.91)
z − z1 (z − z1 )2
(0) (0)
O ponto z1 é um ponto singular simples (exceto no caso trivial em que γ1 = γ0 = 0, quando
z1 é um ponto regular). Note que (7.91) é uma equação de Euler.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 7 395/1461
(0) (0)
Para que o infinito seja regular é necessário e suficiente que γ0 = 0 e γ1 = 2. Compare com a
discussão sobre a equação de Euler à página 380. Concluı́mos que a equação de Euler
′′ 2 ′ ′′ 2z1
y (z) + y (z) = 0 , cuja versão no infinito é u (w) − u′ (w) = 0 ,
z − z1 1 − wz1
(7.92)
é a única equação Fuchsiana com um único ponto singular, a saber z1 . Essa expressão generaliza
(7.88) e a ela se reduz para z1 = 0. Como vimos em (7.87), a equação y ′′ (z) = 0 é a única equação
Fuchsiana com um único ponto singular no infinito.
Note-se que a equação y ′′ (z) = 0 e sua versão no infinito u′′ (w) + 22 u′ (w) = 0 (vide (7.87))
são obtidas formalmente de (7.92) tomando-se o limite |z1 | → ∞. Tal processo é por vezes
denominado confluência de singularidades e será reencontrado quando tratarmos da relação entre
a equação hipergeométrica e a equação hipergeométrica confluente (vide discussão do começo da
Seção 8.2.8, página 466).
(0) (0)
A equação de Euler (7.91) com γ0 6= 0 ou γ1 6= 2 é a única equação Fuchsiana com dois pontos
singulares simples, um em z1 e o segundo no infinito. Logo abaixo veremos a forma geral das
equações Fuchsianas com com dois pontos singulares simples finitos.
2. Caso k = 2. Nesse caso, para que (7.84) seja Fuchsiana com no máximo pontos singulares
simples em z1 , z2 e no infinito, c0 e c1 devem ser polinômios de grau menor ou igual a 2 e 1,
respectivamente e (7.84) deve ser da forma
! !
(0) (1) (0) (1) (2)
′′ γ1 + γ1 z ′ γ0 + γ0 z + γ0 z 2
y (z) + y (z) + y(z) = 0 . (7.93)
(z − z1 )(z − z2 ) (z − z1 )2 (z − z2 )2
Os pontos z1 e z2 serão pontos singulares simples desde que os dois polinômios dos numeradores
dos coeficientes não tenham zeros de ordem 1 ou 2, respectivamente, nesses pontos. Por exemplo,
(0) (1) (0) (1) (2)
se γ1 + γ1 z = α(z − z2 ) e γ0 + γ0 z + γ0 z 2 = β(z − z2 )2 a equação torna-se
′′ α ′ β
y (z) + y (z) + y(z) = 0 ,
(z − z1 ) (z − z1 )2
que tem a mesma forma da equação de Euler (7.91), a qual, como vimos, é a única equação
Fuchsiana com um único ponto singular finito, a saber z1 (e eventualmente um outro no infinito).
(1)
Voltando a (7.93), para que o ponto no infinito seja regular é necessário e suficiente que γ0 =
(2) (1)
γ0 = 0 e γ1 = 2. Assim, a forma geral da equação Fuchsiana com no máximo dois pontos
singulares simples finitos z1 e z2 e regular no infinito é
! !
(0) (0)
′′ γ1 + 2z ′ γ0
y (z) + y (z) + y(z) = 0 .
(z − z1 )(z − z2 ) (z − z1 )2 (z − z2 )2
(0) (0)
Se escolhermos γ1 = −2z2 e γ0 = 0 o ponto z2 deixa de ser singular e essa equação reduz-se a
(7.92).
(1) (2) (1)
A equação (7.93) com γ0 6= 0 ou γ0 6= 0 ou γ1 6= 2 é a única equação Fuchsiana com um ponto
singular simples no infinito e com no máximo dois pontos singulares simples finitos, em z1 e z2 .
Mais adiante mostraremos que uma tal equação sempre pode ser transformada em uma equação
hipergeométrica.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 7 396/1461
3. Caso k = 3. Nesse caso, para que (7.84) seja Fuchsiana com no máximo pontos singulares
simples em z1 , z2 , z3 e no infinito, c0 e c1 devem ser polinômios de grau nenor ou igual a 4 e 2,
respectivamente e (7.84) deve ser da forma
4
X (n) n
! γ0 z
(0) (1) (2) 2
γ + γ z + γ z
′′
y (z) + 1 1 1
y (z) +
′
2
n=0
2
y(z) = 0 . (7.94)
2
(z − z1 )(z − z2 )(z − z3 ) (z − z1 ) (z − z2 ) (z − z3 )
Os pontos z1 , z2 e z3 serão singulares simples se os dois polinômios dos numeradores dos coefici-
entes acima não possuirem neles zeros de ordem 1 ou 2, respectivamente.
(3) (4)
Para que o ponto no infinito seja regular é necessário e suficiente que γ0 = γ0 = 0 e que
(2)
γ1 = 2. Nesse caso, (7.94) assume a forma
! !
(0) (1) 2 (0) (1) (2) 2
γ 1 + γ 1 z + 2z γ 0 + γ 0 z + γ 0 z
y ′′(z) + y ′(z) + y(z) = 0 . (7.95)
(z − z1 )(z − z2 )(z − z3 ) (z − z1 )2 (z − z2 )2 (z − z3 )2
Mais adiante mostraremos que, assim como a equação (7.93), que também tem três pontos sin-
gulares simples, esta equação também pode ser transformada em uma equação hipergeométrica.
(3) (4) (2)
Se γ0 6= 0, γ0 6= 0 ou γ1 6= 2, o infinito será um ponto regular simples de (7.94).
A forma geral das equações Fuchsianas com três pontos singulares simples (7.93) e (7.95) foi primei-
ramente estudada por Papperitz15 e especialmente por Riemann16 , o qual demonstrou diversos fatos
relevantes sobre essas equações. Sobre esses desenvolvimentos falaremos mais adiante na Seção 7.8.3.
Para futura referência capturamos os diversos resultados obtidos até agora na seguinte proposição:
Proposição 7.5 Para a equação diferencial linear de segunda ordem no plano complexo
y ′′(z) + a1 (z)y ′ (z) + a0 (z)y(z) = 0 (7.96)
valem as seguintes afirmações:
IV. Para que (7.96) seja Fuchsiana, tenha uma singularidade simples no infinito e tenha no máximo
singularidades simples nos pontos z1 , . . . , zk (com k ≥ 1) é necessário e suficiente que a0 e a1
sejam da forma
2k−2
X k−1
X
(n) (n)
γ0 z n γ1 z n
n=0 n=0
a0 (z) = e a1 (z) =
(z − z1 )2 · · · (z − zk )2 (z − z1 ) · · · (z − zk )
(2k−3) (2k−2) (0) (k−1)
onde ou γ0 6= 0 ou γ0 6= 0 (caso k = 1, basta γ0 6= 0) ou que γ1 6= 2. A versão no
infinito de (7.96) é nesse caso
com
2k−2
X (2k−2−n)
γ0 w n−2
n=0
b0 (w) = (7.97)
(1 − wz1 )2 · · · (1 − wzk )2
e
k−1
X (k−1−n)
2(1 − wz1 ) · · · (1 − wzk ) − γ1 wn
n=0
b1 (w) = . (7.98)
w(1 − wz1 ) · · · (1 − wzk )
V. Para que (7.96) seja Fuchsiana e tenha no máximo singularidades simples nos pontos z1 , . . . , zk
(2k−3) (2k−2)
(com k ≥ 1), sendo regular no infinito, é necessário e suficiente que γ0 = γ0 = 0 (caso
(0) (k−1)
k = 1, que γ0 = 0) e que γ1 = 2, ou seja, é necessário e suficiente que
2k−4
X k−2
X
(n) (n)
γ0 z n γ1 z n + 2z k−1
n=0 n=0
a0 (z) = e a1 (z) =
(z − z1 )2 · · · (z − zk )2 (z − z1 ) · · · (z − zk )
2
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 7 398/1461
Seja a equação diferencial Fuchsiana (7.84) e seja ζ ∈ C. Sejam definidos os números complexos
Por outro lado, se ζ é um ponto regular da equação Fuchsiana, então, pela definição, pζ = qζ = 0
−
e teremos λ+ζ = 1, λζ = 0. A equação, na região onde |z − ζ| é “pequeno” pode ser aproximada pela
+ −
equação y ′′(z) = 0, cuja solução geral é da forma α(z −ζ) + β, ou seja, da forma α(z −ζ)λζ + β(z −ζ)λζ ,
onde novamente α e β são constantes arbitrárias.
Aprendemos, assim, que os ı́ndices fixam as soluções da equação diferencial Fuchsiana (7.84) em
uma vizinhança pequena de um ponto ζ, quer esse ponto seja singular simples ou regular.
Para o ponto no infinito podemos, analogamente, definir ı́ndices. A versão no infinito de (7.84) é,
como visto, dada por (7.85)-(7.86) Definimos, então p∞ e q∞ por
Com isso definimos o polinômio indicial P∞ (λ) := λ2 + (q∞ − 1)λ + p∞ , cujos zeros são
p p
+ 1 − q∞ + (q∞ − 1)2 − 4p∞ − 1 − q∞ − (q∞ − 1)2 − 4p∞
λ∞ = , λ∞ = . (7.104)
2 2
Estes são os ı́ndices da equação diferencial Fuchsiana (7.84) no infinito.
Vimos páginas acima (vide, em especial, Proposição 7.5, página 396) que uma equação diferencial
linear de segunda ordem como (7.84) terá no máximo k singularidades simples17 nos pontos finitos
z1 , . . . , zk , sendo regular no infinito, se e somente se a0 e a1 forem da forma
2k−4
X k−2
X
(n) (n)
γ0 z n γ1 z n + 2z k−1
n=0 n=0
a0 (z) = e a1 (z) = . (7.105)
(z − z1 )2 · · · (z − zk )2 (z − z1 ) · · · (z − zk )
Para que a equação seja singular simples no infinito e tenha no máximo k − 1 singularidades simples
nos pontos finitos z1 , . . . , zk−1 é necessário e suficiente que
2k−4
X k−2
X
(n) (n)
γ0 z n γ1 z n
n=0 n=0
a0 (z) = e a1 (z) = , (7.106)
(z − z1 )2 · · · (z − zk−1 )2 (z − z1 ) · · · (z − zk−1 )
(2k−5) (2k−4) (k−2)
onde ou γ0 6= 0 ou γ0 6= 0 ou que γ1 6= 2.
Em ambos os casos há no máximo k singularidades, incluindo eventualmente uma no infinito.
Chama a atenção o fato de que em ambos os casos a0 depende de 2k − 3 constantes livres (as constantes
(n) (n)
γ0 , n = 0, . . . , 2k − 4), enquanto que a1 depende de k − 1 constantes livres (as constantes γ1 ,
n = 0, . . . , k − 2). Assim, para no máximo k singularidades simples a equação depende de 3k − 4
constantes livres.
Uma questão importante, cuja relevância será discutida mais adiante, é saber sob quais circunstâncias
essas 3k − 4 constantes podem ser inteiramente determinadas pelos ı́ndices das singularidades simples.
Essa questão foi proposta a estudada originalmente por Riemann e, para respondê-la, precisamos contar
quantos são os ı́ndices independentes numa situação de no máximo k singularidades simples. Como há
dois ı́ndices para cada singularidade, haveria em princı́pio um total de 2k ı́ndices independentes mas,
em verdade, há apenas 2k − 1. Isso se deve a fato expresso no seguinte lema.
Lema 7.1 Se a equação Fuchsiana (7.84) possui no máximo k singularidades simples em z1 , . . . , zk
(k ≥ 2), sendo regular no infinito, vale
k
X
−
(λ+
z l + λz l ) = k − 2
l=1
17
Assumiremos aqui que k ≥ 2.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 7 400/1461
Se (7.84) é regular em zl então, pela definição (7.99), pzl = qzl = 0, o que implica que λ+
zl = 1 e
− + −
λzl = 0 e, portanto, que λzl + λzl = 1. Assim, se (7.84) possui exatamente j singularidades simples
(incluindo eventualmente uma no infinito), então a soma de todos o ı́ndices desses pontos singulares é
igual a j − 2 2
Prova. Há dois casos a considerar: 1o os k pontos singulares simples são finitos z1 , . . . , zk ; 2o o infinito
é um ponto singular simples e há k − 1 pontos singulares simples finitos z1 , . . . , zk−1 .
k
X k
X
−
1o caso. Por (7.100), λ+ −
zl + λzl = 1 − qzl e, portanto, (λ+
z l + λz l ) = k − qzl . Pela definição em
l=1 l=1
P
(7.99), qzl é o resı́duo da função a1 em zl e, portanto, kl=1 qzl é a soma de todos os resı́duos de a1 em
seus pontos singulares z1 , . . . , zk . Como esses são todos os pontos singulares de a1 , concluı́mos pelo
Xk I
1
teorema dos resı́duos que qzl = a1 (z)dz, onde C é uma curva fechada orientada no sentido
2πi C
l=1
anti-horário que contém todos os pontos z1 , . . . , zk na região que delimita. Por simplicidade adotamos
C como sendo um cı́rculo de raio R grande o suficiente. Por (7.105),
I k−2
X I I
1 (n) 1 zn 1 z k−1
a1 (z) dz = γ1 dz + 2 dz; .
2πi C n=0
2πi C (z − z1 ) · · · (z − zk ) 2πi C (z − z1 ) · · · (z − zk )
H zn
Para n = 1, . . . , k − 2, as integrais C (z−z1 )···(z−z k)
dz são aproximadas para R →
H n−k H k−1 H
inf ty por C z dz = 0. Para R → ∞ a integral C (z−z1z)···(z−zk ) dz é aproximada por C z −1 dz = 2πi.
X k
Pk −
Concluı́mos que l=1 qzl = 2 e, portanto, (λ+ zl + λzl ) = k − 2.
l=1
k−1
X
−
o
2 caso. O tratamento aqui é análogo. Novamente λ+
zl + λ−
zl = 1 − qzl e, portanto, (λ+
z l + λz l ) =
l=1
k−1
X Pk−1
k−1− qzl e novamente l=1 qzl é a soma dos resı́duos de a1 em suas singularidades finitas, que
1
Hl=1
vale 2πi a (z)dz, onde C é uma curva fechada orientada no sentido anti-horário que contém todos
C 1
os pontos z1 , . . . , zk na região que delimita. Por simplicidade adotamos C como sendo um cı́rculo de
raio R grande o suficiente. Por (7.106)
I k−2
X I
(n) zn
a1 (z) dz = γ1 dz ,
C n=0 C (z − z1 ) · · · (z − zk−1 )
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 7 401/1461
H
Para R → ∞ as integrais acima são aproximadas pelas integrais C
z n−k+1 dz, as quais são nulas, exceto
P (k−1)
quando n = k − 1, quando vale 2πi. Assim, k−1
l=1 qzl = γ1 .
− (k−1) −
Agora, por (7.104), λ+∞ + λ∞ = 1 − q∞ e por (7.103) e (7.106), q∞ = 2 − γ1 . Assim, λ+
∞ + λ∞ =
(k−1)
−1 + γ1 e, portanto,
Xk−1
− − (k−1) (k−1)
λ+
∞ + λ ∞ + λ +
zl + λ zl = k − 1 − γ 1 + − 1 + γ 1 = k−2 .
l=1
Retomando à discussão do parágrafo que antecede ao enunciado do lema acima, vimos que a equação
Fuchsiana (7.84) possui 3k − 4 parâmetros livres e 2k − 1 ı́ndices independentes. Concluı́mos que se
3k − 4 ≤ 2k − 1, ou seja, se k ≤ 3, é possı́vel escrever todos os parâmetros livres em termos dos ı́ndices.
As situação interessante, portanto, é aquela em que se tem no máximo três pontos singulares simples
(incluindo, eventualmente, um no infinito). Nela, a equação Fuchsiana (7.84) é totalmente determinada
pelos ı́ndices de suas singularidades simples e, portanto, assim são suas soluções. Essa conclusão foi
primeiramente obtida por Riemann por volta de 185718 . Como os ı́ndices de uma singularidade estão
relacionados à monodromia em torno da mesma, Riemann colocou a questão de sob quais condições
existe uma equação Fuchsiana com pontos singulares e monodromias pré-determinados. Essa questão
despertou o interesse de Hilbert por volta de 1905, passando a ser conhecida como problema de Riemann-
Hilbert. Além de Hilbert, contribuiram para o estudo desse problema nomes como Birkhoff19 , Plemelj20
e outros.
Como discutimos acima, há um interesse especial na equação Fuchsiana (7.84) com três singulari-
dades pois a mesma possui cinco parâmetros livres e também cinco ı́ndices independentes associados
às três pontos singulares (lembremos que, pelo Lema 7.1, a soma dos seis ı́ndices deve ser igual a 1).
Portanto, deve ser, em princı́pio, possı́vel expressar univocamente esses cinco parâmetros em termos
dos ı́ndices. Vamos mostrar que isso de fato é verdade. Para k = 3 e singularidades simples apenas nos
pontos finitos z1 , z2 e z3 , (7.84) assume a forma.
! !
(0) (1) 2 (0) (1) (2) 2
γ 1 + γ 1 z + 2z γ 0 + γ 0 z + γ 0 z
y ′′ (z) + y ′(z) + y(z) = 0 (7.107)
(z − z1 )(z − z2 )(z − z3 ) (z − z1 )2 (z − z2 )2 (z − z3 )2
e para singularidades simples apenas no pontos finitos z1 , z2 e uma no infinito, (7.84) assume a forma
! !
(0) (1) (0) (1) (2) 2
γ1 + γ1 z γ0 + γ0 z + γ0 z
y ′′ (z) + y ′ (z) + y(z) = 0 (7.108)
(z − z1 )(z − z2 ) (z − z1 )2 (z − z2 )2
18
G. F. B. Riemann, “Beiträge zur Theorie der durch die Gauss’sche Reihe F (α, β, γ, x) darstellbaren Functio-
nen”. Abhandlungen der Königlichen Gesellschaft der Wissenschaften zu Göttingen, 7, 3-32 (1857). G. F. B. Riemann,
“Beiträge zur Theorie der durch die Gauss’sche Reihe F (α, β, γ, x) darstellbaren Functionen”. Göttinger Nachrichten,
6-8 (1857).
19
George David Birkhoff (1884-1944).
20
Josip Plemelj (1873-1967).
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 7 402/1461
(1)
com γ1 6= 2.
No caso (7.107) podemos escrever, de acordo com (7.99) e (7.105), para l = 1, . . . , 3,
2
! 3 1
! 3
X (n)
Y 1 X (n)
Y 1
pz l = γ0 (zl )n 2
, qzl = γ 1 (zl ) n
+ 2(zl ) 2
. (7.109)
n=0 a=1
(zl − za ) n=0 a=1
(zl − za )
a6=l a6=l
Como
− −
λ+
zl + λzl = 1 − qzl e λ+
z l λz l = pz l , (7.110)
vemos que as últimas equações podem ser escritas como
3
Y 2
X Y
3 1
X
− (n) − (n)
λ+
z l λz l
2
(zl − za ) = γ0 (zl )n , +
1 − λz l − λz l (zl − za ) = γ1 (zl )n + 2(zl )2 .
a=1 n=0 a=1 n=0
a6=l a6=l
Definindo
3
Y 3
Y
− −
αl := λ+
z l λz l (zl − za )2 e βl := 1 − λ+
z l − λz l (zl − za ) ,
a=1 a=1
a6=l a6=l
que é não-nulo (pois os pontos z1 , z2 e z3 são distintos). Portanto, Z possui uma inversa, o que permite
(n) (n)
expressar univocamente os γ0 ’s e γ1 ’s em termos dos αl ’s e βl ’s e, portanto, em termos dos λ± zl ’s. O
caso de (7.108) é análogo.
• Sı́mbolos de Riemann
Como vemos, é possı́vel expressar univocamente a equação Fuchsiana com três singularidades (7.84)
em termos de z1 , z2 , z3 e seus ı́ndices. Em seus trabalhos de 1857 (vide nota-de-rodapé 18, página 401)
Riemann introduziu uma notação para representar esquematicamente a dependência da equação (7.84)
com os pontos singulares z1 , z2 , z3 e seus respectivos ı́ndices λ± ± ±
z 1 , λz 2 e λz 3 .
21
Alexandre-Théophile Vandermonde (1735-1796).
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 7 403/1461
• Equação de Riemann-Papperitz
Com o exposto acima, vemos que é possı́vel expressar a equação Fuchsiana com três singularidades
(7.84) em termos de z1 , z2 , z3 e seus ı́ndices. O que se obtem, após algum esforço algébrico um tanto
tedioso, são as seguintes expressões:
′′ qz1 qz2 qz3
y (z) + + + y ′(z)
z − z1 z − z2 z − z3
1 pz1 (z1 − z2 )(z1 − z3 ) pz2 (z2 − z3 )(z2 − z1 ) pz3 (z3 − z1 )(z3 − z2 )
+ + + y(z)
(z − z1 )(z − z2 )(z − z3 ) z − z1 z − z2 z − z3
= 0 , (7.115)
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 7 404/1461
− − −
′′ 1 − λ+
z 1 − λz 1 1 − λ+
z 2 − λz 2 1 − λ+
z 3 − λz 3
y (z) + + + y ′ (z)
z − z1 z − z2 z − z3
− − −
λ+
z1 λz1 (z1 − z2 )(z1 − z3 ) λ+
z2 λz2 (z2 − z3 )(z2 − z1 ) λ+
z3 λz3 (z3 − z1 )(z3 − z2 )
+ +
z − z1 z − z2 z − z3 y(z)
+
(z − z1 )(z − z2 )(z − z3 )
= 0 . (7.116)
λ− − −
z 1 λz 2 λz 3
22
Erwin Johannes Papperitz (1857-1938).
23
Portanto, após os trabalhos seminais de Riemann de 1857. Se Riemann a conhecia, não a escreveu explicitamente.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 7 405/1461
r
X
exp(A) = eαk Ek .
k=1
a) Determine seu polinômio caracterı́stico e seus autovalores λ1 e λ2 . (Para fixar uma convenção adote
λ1 < λ2 ).
b) Determine autovetores correspondentes a esses autovalores.
c) Determine uma matriz P que diagonaliza A1 , ou seja, a matriz P tal que D = P −1A1 P =
diag (λ1 , λ2 ).
d) D pode ser obviamente escrita como
D = λ 1 K1 + λ 2 K2 ,
onde
1 0 0 0
K1 = , K2 = .
0 0 0 1
Logo,
A1 = λ1 E1 + λ2 E2 , (7.117)
onde Ea = P Ka P −1 , a = 1, 2.
e) Calcule explicitamente E1 e E2 e mostre que (7.117) é a representaçãoP espectral de A1 , ou seja,
mostre explicitamente que Ea são projetores e satisfazem Ea Eb = δa, b Ea e 1 = rk=1 Ek .
f) Os projetores E1 e E2 podem ser também calculados usando (3.39). Obtenha-os dessa forma e
compare os resultados.
g) Usando o Exercı́cio E. 7.33 calcule exp(tA1 ). 6
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 7 406/1461
b)
3 0 1
A = , X0 = .
3i 4 2
c)
2 −1 1
A = , X0 = .
1 2 −2
d)
2 −1 1
A = , X0 = .
0 2 1
e)
0 −i 1
A = , X0 = .
i 0 3
f)
0 1 3
A = , X0 = .
1 0 −1
b)
2 1 0 sen(t) 1
A = 0 2 0 , B(t) = t , X0 = 3 .
0 0 3 cos(t) 2
6
E. 7.38 Exercı́cio. Um sistema formado por duas populações p1 (t) e p2 (t) evolui de acordo com as
equações
p˙1 (t) = −αp1 (t) + βp2 (t) , p˙2 (t) = βp1 (t) − αp2 (t) ,
α, β ∈ R.
a) Sabendo que p1 (0) = n1 e p2 (0) = n2 , determine p1 (t) e p2 (t) para t ≥ 0.
b) Que relação α e β devem satisfazer para que tenhamos lim p1 (t) = lim p2 (t) = 0?
t→∞ t→∞
a) Mostre que as mesmas satisfazem as seguintes relações algébricas: para todos a, b = 1, 2, 3 valem
3
X
[σa , σb ] := σa σb − σb σa = 2i εabc σc , (7.119)
c=1
c) Mostre que as matrizes 1, σ1 , σ2 , σ3 são ortonormais em relação ao seguinte produto escalar definido
em Mat (C, 2): hA, Bi := 12 Tr (A∗ B).
d) Seja ~η := (η1 , η2 , η3 ) um vetor de comprimento 1 de R3 , ou seja, k~ηk = 1. Seja, ~η · ~σ :=
η1 σ1 + η2 σ2 + η3 σ3 , onde σk são as matrizes de Pauli, definidas acima. Mostre que
exp (iθ~η · ~σ ) = cos(θ) 1 + i sen(θ) ~η · ~σ .
E. 7.41 Exercı́cio. Exiba pelo menos um exemplo de um par de matrizes quadradas A e B tais que
exp(A) exp(B) 6= exp(A + B). 6
E. 7.42 Exercı́cio.
I. Mostre que se A(t) são matrizes complexas n × n que comutam para t’s diferentes, ou seja, tais que
A(t)A(t′ ) = A(t′ )A(t) para todos t e t′ , então a série de Dyson
X∞ Z t Z t1 Z tn−1
D(t) := 1 + ··· A(t1 )A(t2 ) · · · A(tn ) dtn dtn−1 · · · dt1
n=1 0 0 0
Z t
pode ser escrita como D(t) = exp A(τ ) dτ .
0
1 2
II. Sejam R = , e A(t) = tR. Compute D(t), t ∈ R. 6
0 1
6
Capı́tulo 8
Soluções de Equações Diferenciais Ordinárias
Lineares no Plano Complexo
Conteúdo
8.1 Soluções em Séries de Potências para Equações Regulares . . . . . . . . . 412
8.1.1 A Equação do Oscilador Harmônico Simples . . . . . . . . . . . . . . . . . . . 412
8.1.2 A Equação de Legendre . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 414
8.1.3 A Equação de Hermite . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 417
8.1.4 A Equação de Airy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 420
8.1.5 A Equação de Chebyshev . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 423
8.1.6 O Caso de Equações Regulares Gerais . . . . . . . . . . . . . . . . . . . . . . 426
8.2 Solução de Equações Singulares Regulares. O Método de Frobenius . . . 428
8.2.1 Equações Singulares Regulares. O Caso Geral . . . . . . . . . . . . . . . . . . 432
8.2.2 A Equação de Euler Revisitada . . . . . . . . . . . . . . . . . . . . . . . . . . 441
8.2.3 A Equação de Bessel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 444
8.2.4 Equações Relacionadas à de Bessel. A Equação de Bessel Esférica . . . . . . 456
8.2.5 Equações Relacionadas à de Bessel. A Equação de Bessel Modificada . . . . . 459
8.2.6 A Equação de Laguerre . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 460
8.2.7 A Equação Hipergeométrica . . . . . . . . . . . . . . . . . . . . . . . . . . . . 462
8.2.8 A Equação Hipergeométrica Confluente . . . . . . . . . . . . . . . . . . . . . 466
8.3 Algumas Equações Associadas . . . . . . . . . . . . . . . . . . . . . . . . . . 469
8.3.1 A Equação de Legendre Associada . . . . . . . . . . . . . . . . . . . . . . . . 470
8.3.2 A Equação de Laguerre Associada . . . . . . . . . . . . . . . . . . . . . . . . 472
8.4 A Função Gama. Definição e Propriedades . . . . . . . . . . . . . . . . . . 473
8.5 Exercı́cios Adicionais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 490
Apêndices . . . . . . . . . . . . . . . . . . . . 493
8.A Prova da Proposição 8.1. Justificando os Polinômios de Legendre . . . . 493
8.B Provando (8.14) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 495
8.C Justificando os Polinômios de Hermite . . . . . . . . . . . . . . . . . . . . . 497
8.D Provando (8.20) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 499
8.E Porque λ deve ser um Inteiro Positivo na Equação de Laguerre . . . . . 500
410
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 8 411/1461
for tal que os coeficientes a(z) e b(z) são funções analı́ticas de z em torno de um ponto z0 , então suas
soluções serão igualmente analı́ticas em torno desse ponto e poderemos procurar resolvê-la em termos
de séries de potência centradas em z0 :
∞
X
y(z) = cn (z − z0 )n . (8.2)
n=0
O chamado método de série de potências consiste precisamente em inserir o Ansatz (8.2) na equação
(8.1) e determinar recursivamente os coeficientes cn . Pelas conclusões obtidas anteriormente, resumidas
no Teorema 7.3 da página 374, a solução obtida deve ser convergente pelo menos no maior disco aberto
centrado em z0 no qual ambas as funções a(z) e b(z) sejam também analı́ticas.
Ilustraremos a aplicação desse método na resolução da equação do oscilador harmônico simples e
nas equações de Legendre, Hermite, Airy e Chebyshev, todas equações de interesse em Fı́sica. Ao final
discutiremos a solução do problema geral.
ou seja,
∞
X
′
y (z) = (n + 1)cn+1 z n (8.4)
n=0
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 8 413/1461
e que
∞
X ∞
X ∞
X
′′ n−1 n−1 n→n+1
y (z) = n(n + 1)cn+1 z = n(n + 1)cn+1 z = (n + 1)(n + 2)cn+2 z n ,
n=0 n=1 n=0
ou seja,
∞
X
′′
y (z) = (n + 1)(n + 2)cn+2z n . (8.5)
n=0
Inserindo-se (8.4) e (8.5) em (8.3), obtem-se
X∞ h i
(n + 1)(n + 2)cn+2 + ω0 cn z n = 0 .
2
n=0
Como essa última relação supostamente vale para todo z, tem-se forçosamente que os fatores entre
colchetes são todos nulos (por que?):
−ω02
(n + 1)(n + 2)cn+2 + ω02 cn = 0, ou seja, cn+2 = cn (8.6)
(n + 1)(n + 2)
para todo n ≥ 0. A solução dessa última equação recursiva é
(−1)k ω02k (−1)k ω02k
c2k = c0 , c2k+1 = c1 .
(2k)! (2k + 1)!
com k ≥ 0. Essas expressões relacionam todos os coeficientes cn com os dois primeiros coeficientes, c0
e c1 .
P
Inserindo isso na expressão y(z) = ∞ n
n=0 cn z , tem-se
∞
X ∞
X ∞
X ∞
X
(−1)k ω 2k 0 (−1)k ω 2k 0
y(z) = c2k z 2k + c2k+1 z 2k+1 = c0 z 2k + c1 z 2k+1
k=0 k=0 k=0
(2k)! k=0
(2k + 1)!
∞
X ∞
(−1)k 2k c1 X (−1)k
= c0 (ω0 z) + (ω0 z)2k+1
k=0
(2k)! ω0 k=0 (2k + 1)!
c1
= c0 cos(ω0 z) + sen(ω0 z) .
ω0
Na última passagem pudemos identificar as duas séries de potências com as séries de Taylor (em
torno de 0) das funções seno e co-seno. Notemos que em problemas menos simples, como os que
encontraremos adiante, nem sempre será possı́vel identificar as séries resultantes com as séries de Taylor
de funções previamente conhecidas, o que nos conduzirá à definição de novas funções, as chamadas
funções especiais.
É de se notar que a solução final, y(z) = c0 cos(ω0 z) + ωc10 sen(ω0 z), é analı́tica em toda a parte como
função de z, o que já era esperado do fato de as funções a(z) e b(z) serem funções analı́ticas em toda
parte (duas constantes).
Obtivemos, assim, a bem-conhecida solução do oscilador harmônico simples em termos de uma
combinação linear das funções seno e co-seno. Os coeficientes c0 e c1 podem ser determinados se mais
condições forem impostas à solução. Por exemplo, se impusermos “condições iniciais” y(0) = y0 e
y ′ (0) = v0 , obtemos c0 = y0 e c1 = v0 .
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 8 414/1461
−2z λ(λ + 1)
a(z) = e b(z) = .
1 − z2 1 − z2
Claramente, ambas as funções são analı́ticas emPum disco de raio 1 centrado em z0 = 0. É, portanto,
legı́timo procurarmos soluções na forma y(z) = ∞ n
n=0 cn z (com z0 = 0). Tais soluções serão analı́ticas
pelo menos no disco de raio 1 centrado em z0 = 0.
Inserindo-se (8.4)-(8.5) em (8.7), obtem-se
∞
X ∞
X ∞
X ∞
X
n n+2 n+1
(n + 1)(n + 2)cn+2 z − (n + 1)(n + 2)cn+2z −2 (n + 1)cn+1 z +λ(λ + 1) cn z n = 0 .
n=0
|n=0 {z } |n=0 {z } n=0
I II
(8.8)
É fácil ver que
∞
X ∞
X ∞
X
n+2 n→n−2 n
I ≡ (n + 1)(n + 2)cn+2 z = (n − 1)n cn z = (n − 1)n cn z n , (8.9)
n=0 n=2 n=0
1
Adrien-Marie Legendre (1752-1833).
2
Aqui a palavra “ordem” não deve ser confundida com a ordem da equação diferencial, que é dois.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 8 415/1461
ou seja, " #
∞
X
(n + 1)(n + 2)cn+2 − (n − 1)n + 2n − λ(λ + 1) cn z n = 0 .
n=0
De maneira análoga ao que ocorre no caso do oscilador harmônico simples (vide eq. (8.6)), podemos
expressar todos os coeficientes cn com n par em termos de c0 e todos os coeficientes cn com n ı́mpar
em termos de c1 . Mais precisamente, tem-se
k−1
" # k−1
1 Y λ(λ + 1) Y λ(λ + 1)
c2k = 2l(2l + 1) − λ(λ + 1) c0 = − 1− c0 ,
(2k)! 2k 2l(2l + 1)
l=0 l=1
k−1
" # k−1
1 Y 1 Y λ(λ + 1)
c2k+1 = (2l + 1)(2l + 2) − λ(λ + 1) c1 = 1− c1 .
(2k + 1)! l=0 2k + 1 l=0 (2l + 1)(2l + 2)
onde
∞ k−1
!
(0)
X z 2k Y
yλ (z) = 2l(2l + 1) − λ(λ + 1) (8.12)
k=0
(2k)! l=0
∞ k−1
!
(1)
X z 2k+1 Y
yλ (z) = (2l + 1)(2l + 2) − λ(λ + 1) (8.13)
k=0
(2k + 1)! l=0
Conforme comentamos, sabemos a priori que ambas as séries acima convergem para |z| < 1. O que
ocorre caso |z| = 1? Isso é respondido na seguinte proposição, cuja demonstração encontra-se no
Apêndice 8.A, página 493 (vide também [125] para uma outra prova semelhante):
Proposição 8.1 Caso λ ∈ R não seja um inteiro não-negativo par, a série em (8.12) diverge em
z = ±1. Caso λ ∈ R não seja um inteiro positivo ı́mpar, a série em (8.13) diverge em z = ±1.
Essa proposição ensina-nos que as soluções (8.12) e (8.13) da equação de Legendre serão divergentes
em z = ±1 caso λ não seja um inteiro não-negativo e isso para qualquer escolha de c0 e c1 não-nulos.
Em aplicações, porém, é muito importante ter-se soluções finitas no intervalo fechado real [−1, 1] de
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 8 416/1461
valores de z. A única esperança que resta reside na situação na qual λ é um inteiro não-negativo e, de
(0) (1)
fato, podemos verificar que em tal caso yλ é finita se λ for par e que yλ é finita se λ for ı́mpar.
• Os Polinômios de Legendre
Contemplando a expressão (8.12) facilmente constata-se que no caso em que λ = 2n, um inteiro
não-negativo par, tem-se
n k−1
!
(0)
X z 2k Y
y2n (z) := 2l(2l + 1) − 2n(2n + 1) ,
k=0
(2k)! l=0
É claro pela definição acima que Pm é um polinômio de grau m e o coeficiente do monômio de maior
grau, z m , vale !
m/2−1
1 Y
c0 2l(2l + 1) − m(m + 1) , para m par
m! l=0
e !
(m−3)/2
1 Y
c1 (2l + 1)(2l + 2) − m(m + 1) , para m ı́mpar.
m!
l=0
Por razões históricas, convenciona-se escolher c0 e c1 de modo que o coeficiente do monômio de maior
grau de Pm seja igual a 2m(2m)!
(m!)2
. Como facilmente se constata após alguns cálculos entediantes, isso
conduz à seguinte expressão para os polinômios Pm (z):
⌊m/2⌋
X (−1)a (2m − 2a)!
Pm (z) := m
z m−2a , (8.14)
a=0
2 (m − a)! (m − 2a)! a!
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 8 417/1461
A expressão (8.14) define os assim denominados polinômios de Legendre de grau m, cada qual é
solução da equação de Legendre de ordem m
(1 − z 2 )y ′′(z) − 2zy ′ (z) + m(m + 1)y(z) = 0 ,
com m inteiro não-negativo. Como comentamos, essa equação possui, para cada m inteiro não-negativo,
uma segunda solução que é, porém, divergente para z → ±1.
Os quatro primeiros polinômios de Legendre são
1 3 3 5
P0 (z) = 1 , P1 (z) = z , P2 (z) = − + z 2 , P3 (z) = − + z 3 ,
2 2 2 2
como facilmente se vê pela definição acima.
Os polinômios de Legendre possuem várias propriedades importantes, tais como relações de orto-
gonalidade, fórmulas de recorrência etc., as quais serão discutidas na Seção 9.2.1, página 521. Também
remetemos o estudante à literatura pertinente supracitada. A Figura 8.1, página 418, exibe o gráfico
dos primeiros polinômios de Legendre no intervalo [−1, 1].
P0
1.0
0.8
P1
0.6
0.4 P2
P3 P4
0.2
0.0
−1.0 −0.8 −0.6 −0.4 −0.2 0.0 0.2 0.4 0.6 0.8 1.0
−0.2
−0.4
−0.6
−0.8
−1.0
ou seja,
∞ h
X i
(n + 1)(n + 2)cn+2 + (λ − 2n) cn z n = 0 ,
n=0
para todo z ∈ C, o que implica (n + 1)(n + 2)cn+2 + (λ − 2n) cn = 0, ∀n ≥ 0. Disso concluı́mos que
2n − λ
cn+2 = cn , ∀n≥0. (8.17)
(n + 1)(n + 2)
Assim como no caso do oscilador harmônico simples e no caso da equação de Legendre, os coeficientes
cn com n par são proporcionais a c0 e os coeficientes cn com n ı́mpar são proporcionais a c1 . Mais
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 8 419/1461
precisamente, tem-se
k−1
λ λ Y
c2 = − c0 , c2k = −c0 (4l − λ) , k≥2,
2 (2k)! l=1
Y k
1
c2k+1 = c1 (4l − 2 − λ) , k≥1.
(2k + 1)!
l=1
onde
∞
X z 2k Y k−1 ∞
X k
(0) λ (1) z 2k+1 Y
yλ (z) := 1 − z 2 − λ (4l − λ) , yλ (z) := z + (4l − 2 − λ) .
2 (2k)! (2k + 1)!
k=2 l=1 k=1 l=1
Conforme comentamos, o Teorema 7.3 da página 374 garante-nos que ambas as séries acima convergem
(0) (1)
absolutamente para todo z ∈ C, fazendo de yλ e yλ funções inteiras de z.
• Os Polinômios de Hermite
Vamos agora passar à definição dos chamados polinômios de Hermite. Nestas notas usamos a
chamada “definição fı́sica” dos polinômios de Hermite. Há uma outra convenção, usada especialmente
na Teoria das Probabilidades, que difere da definição usada em Fı́sica por um reescalonamento. O
leitor deve, por isso, ter cuidado ao comparar nossas expressões com outras usadas em textos da Teoria
das Probabilidades.
No caso em que z é restrita a ser uma variável real, chamêmo-la x, é possı́vel demonstrar que se λ
for real e as séries acima forem infinitas, então ambas comportam-se, para |x| grande, como funções que
crescem mais rápido que exp(x2 /2). Isso é provado no Apêndice 8.C, página 497, e, por outros meios,
em [92] ou em [88]. No contexto da Mecânica Quântica esse fato é indesejado, pois conduz a funções de
onda que não são de quadrado integrável (vide Seção 10.4, página 608). Assim, interessa-nos investigar
sob quais circunstâncias as séries acima podem ser reduzidas a polinômios.
Como vemos facilmente por (8.17), isso se dá apenas quando λ for um número inteiro não-negativo
e par: λ = 2m, com m = 0, 1, 2, . . . etc. De fato, se λ = 2m, com m = 0, 1, 2, . . . etc., a expressão
(0)
(8.17) diz-nos que 0 = cm+2 = cm+4 = cm+6 = · · · etc. Assim, caso m for par, yλ será um polinômio
(1)
de ordem m e caso m for ı́mpar, yλ será um polinômio de ordem m.
Defina-se, assim,
m/2 (0)
(−2) (m − 1)!! y2m (z), para m par,
Hm (z) := (8.18)
(m+1)/2 (1)
−(−2) (m!!) y2m (z), para m ı́mpar,
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 8 420/1461
ou seja,
m
2m 2 X2
z 2k k−1
Y
(−2)m/2 (m − 1)!! 1 − z − 2m (4l − 2m) , para m par,
2 (2k)!
k=2 l=1
Hm (z) := (8.19)
m−1
X2 2k+1 Yk
z
−(−2)(m+1)/2 (m!!) z + (4l − 2(m + 1)) , para m ı́mpar.
(2k + 1)!
k=1 l=1
As funções Hm (z) são polinômios de grau m e são denominados polinômios de Hermite. Os fatores
(−2)m/2 (m − 1)!! e −(−2)(m+1)/2 (m!!) provêm de uma convenção histórica sobre a normalização dos
polinômios de Hermite. Os quatro primeiros são
com m inteiro positivo. Como mencionamos, essa equação possui ainda uma segunda solução que,
embora finita para todo z ∈ C, cresce muito rapidamente quando z é real e |z| → ∞, o que elimina seu
interesse no contexto da Mecânica Quântica (especificamente, no problema do oscilador harmônico).
Os polinômios de Hermite possuem várias propriedades importantes, tais como relações de orto-
gonalidade, fórmulas de recorrência etc., que serão discutidas na Seção 9.2.3, página 537. Também
remetemos o estudante à literatura pertinente supracitada.
ou seja,
∞ h
X i
2c2 + (n + 1)(n + 2)cn+2 − cn−1 z n = 0 .
n=1
ou seja,
cn
c2 = 0 , cn+3 = , ∀n≥0. (8.22)
(n + 2)(n + 3)
O conjunto de coeficientes {cn , n = 0, 1, 2, . . .} é a união dos seguintes três conjuntos disjuntos:
{c3k , k = 0, 1, 2, . . .} = {c0 , c3 , c6 , c9 , . . .}
As relações de recorrência de (8.22) implicam que os coeficientes do primeiro conjunto acima são
proporcionais a c0 , que os coeficientes do segundo conjunto acima são proporcionais a c1 e que os
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 8 422/1461
coeficientes do terceiro conjunto acima são proporcionais a c2 . Porém, como c2 = 0, concluı́mos que os
coeficientes do terceiro conjunto são todos nulos. Logo,
∞
X ∞
X
3k
y(z) = c3k z + c3k+1 z 3k+1 .
k=0 k=0
Há ainda uma outra maneira de reescrever (8.23), a saber, usando as identidades
3k Γ k + 32 3k Γ k + 43
(3k − 1)!!! = , (3k + 1)!!! = , (8.24)
Γ 32 Γ 43
sendo, para x ≥ 0, Z ∞
Γ(x) := e−t tx−1 dt (8.25)
0
a bem conhecida Função Gama de Euler, a qual satisfaz
A função Gama de Euler e suas propriedades são discutidas com mais detalhe na Seção 8.4, página
473.
Essa expressão pode ser escrita como combinação linear das seguintes funções:
∞
X X∞
z 3k z 3k+1
Ai(z) := − , (8.29)
k=0
32k+2/3 k! Γ k + 23 k=0
32k+4/3 k! Γ k + 43
(8.30)
"∞ ∞
#
X z 3k X z 3k+1
Bi(z) := 31/2 + , (8.31)
k=0
32k+2/3 k! Γ k + 23 k=0
32k+4/3 k! Γ k + 34
as quais são denominadas funções de Airy de primeiro tipo e de segundo tipo, respectivamente. As
funções Ai(z) e Bi(z) foram definidas como acima por convenção histórica. Ambas são analı́ticas
para todo z ∈ C e representam soluções da equação de Airy. Propriedades dessas funções podem ser
estudadas em [92].
Como veremos com um pouco mais de detalhe à página 457, a equação de Airy pode ser transformada
em uma equação de Bessel de ordem 1/3 e as funções de Airy Ai(z) e Bi(z) podem ser escritas em
termos das funções de Bessel J±1/3 . Vide expressões (8.124) e (8.125).
−z λ2
a(z) = e b(z) = .
1 − z2 1 − z2
Claramente, ambas as funções são analı́ticas emPum disco de raio 1 centrado em z0 = 0. É, portanto,
legı́timo procurarmos soluções na forma y(z) = ∞ n
n=0 cn z (com z0 = 0). Tais soluções serão analı́ticas
pelo menos no disco de raio 1 centrado em z0 = 0.
Inserindo-se (8.4)-(8.5) em (8.32), obtem-se
∞
X ∞
X ∞
X ∞
X
(n + 1)(n + 2)cn+2z n − (n + 1)(n + 2)cn+2 z n+2 − (n + 1)cn+1 z n+1 +λ2 cn z n = 0 . (8.33)
n=0
|n=0 {z } |n=0 {z } n=0
I II
5
Pafnuty Lvovich Chebyshev (1821-1894).
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 8 424/1461
Novamente, I e II são dadas como em (8.9) e (8.10), respectivamente, e, portanto, (8.33) fica
∞
X ∞
X ∞
X ∞
X
n n n 2
(n + 1)(n + 2)cn+2 z − (n − 1)n cn z − ncn z + λ cn z n = 0 ,
n=0 n=1 n=1 n=0
ou seja, " #
∞
X
2c2 + λ2 c0 + (n + 1)(n + 2)cn+2 − (n − 1)n + n − λ2 cn z n = 0 .
n=1
2c2 + λ2 c0 = 0 ,
(n + 1)(n + 2)cn+2 − n2 − λ2 cn = 0 , ∀n ≥ 1 .
n2 − λ2
cn+2 = cn , ∀n ≥ 0 . (8.34)
(n + 1)(n + 2)
De maneira análoga ao que fizemos em exemplos anteriores, podemos expressar todos os coeficientes cn
com n par em termos de c0 e todos os coeficientes cn com n ı́mpar em termos de c1 . Mais precisamente,
tem-se
k−1
" #
1 Y
c2k = (2l)2 − λ2 c0 ,
(2k)! l=0
k−1
" #
1 Y
c2k+1 = (2l + 1)2 − λ2 c1 .
(2k + 1)! l=0
onde
∞ k−1
" #
(0)
X z 2k Y
yλ (z) = 1+ (2l)2 − λ2 , (8.35)
(2k)!
k=1 l=0
∞ k−1
" #
(1)
X z 2k+1 Y
yλ (z) = z + (2l + 1)2 − λ2 . (8.36)
k=1
(2k + 1)! l=0
• Os Polinômios de Chebyshev
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 8 425/1461
(m−1)/2 k−1
" #
X z 2k+1 Y
(1)
ym (z) = z + (2l + 1)2 − m2 , m ı́mpar.
k=1
(2k + 1)! l=0
Por uma convenção histórica, costuma-se redefinir esses polinômios multiplicando-os por uma constante
dependente de m de modo a fazer o coeficiente do monômio de maior grau, z m , igual a 2m−1 . Após
alguns cálculos entediantes o estudante poderá convencer-se que, com essa convenção, os polinômios
acima podem ser escritos de uma forma compacta como
⌊m/2⌋
m X (−1)k (m − k − 1)!
Tm (z) := (2z)m−2k , (8.37)
2 k=0 k! (m − 2k)!
ou ainda como
⌊m/2⌋
X
p m p
Tm (z) = (−1) z m−2p 1 − z 2 , (8.38)
p=0
2p
Uma das mais curiosas e importantes propriedades dos polinômios de Chebyshev Tm é a seguinte
identidade:
Tm (z) = cos m arccos(z) , (8.39)
a qual pode ser facilmente demonstrada a partir da expressão (8.38). Vide exercı́cio abaixo.
Demonstrar diretamente a validade das expressões (8.37), (8.38) e (8.39) pode ser trabalhoso, por
envolver o uso de várias identidades combinatórias um tanto complicadas. O procedimento mais prático
é provar que todas essas expressões satisfazem a equação de Chebyshev e as mesmas condições iniciais,
por exemplo em z = 0.
De (8.39) segue a interessante propriedade de composição
E. 8.4 Exercı́cio resolvido. Prove (8.38) a partir de (8.39). Sugestão: defina y = arccos(z) e escreva
o lado direito como
cos m arccos(z) = cos(my)
1 imy
= e + e−imy
2
1
= [(cos y + i seny)m + (cos y − i seny)m ]
2
1 h √ m √ m i
= z + i 1 − z2 + z − i 1 − z2
2
" m m #
1 X m m−p √ p X m √ p
= z i 1 − z2 + z m−p −i 1 − z 2 .
2 p=0 p p=0
p
É muito fácil ver que nas duas somas acima os termos com p ı́mpar cancelam-se mutuamente. Assim,
ficamos com
⌊m/2⌋
X
p m p
cos m arccos(z) = (−1) z m−2p 1 − z 2 ,
p=0
2p
que é o que querı́amos. Para provar (8.39) a partir de (8.38), basta ler as linhas acima do fim para o começo.
6
Vamos agora mostrar como o método que descrevemos se aplica ao caso geral no qual as funções a(z)
e b(z) são também dadas em termos de séries de potências:
∞
X ∞
X
n
a(z) = an (z − z0 ) , b(z) = bn (z − z0 )n .
n=0 n=0
Usando novamente (8.4) e (8.5) a equação (8.41) fica (adotamos daqui para frente z0 = 0, sem perda
de generalidade)
∞ ∞
! ∞ ! ∞
! ∞ !
X X X X X
(n + 1)(n + 2)cn+2 z n + an z n (n + 1)cn+1 z n + bn z n cn z n . (8.43)
n=0 n=0 n=0 n=0 n=0
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 8 427/1461
P∞ P∞
Para o produto de duas séries de potência p=0 αp z p e q=0 βq z q vale
∞
! ∞
! ∞ X
∞ ∞ n
!
X X X X X
αp z p βq z q = αp βq z p+q = αn−m βm zn . (8.44)
p=0 q=0 p=0 q=0 n=0 m=0
ou seja,
∞ h
X n
X n
X i
(n + 1)(n + 2)cn+2 + (m + 1)an−m cm+1 + bn−m cm z n = 0,
n=0 m=0 m=0
o que implica
Xn
1
cn+2 = − (m + 1)an−m cm+1 + bn−m cm (8.45)
(n + 1)(n + 2) m=0
para todo n ≥ 0. Observe que essa expressão determina cn+2 em termos de c0 , c1 , . . . , cn+1 . Assim,
apenas fixando c0 e c1 podemos determinar todos os demais coeficientes cn através da expressão recursiva
acima.
Como dissemos,
P∞ os resultados que nos conduziram ao Teorema 7.3, página 374, garantem-nos que
n
a série y(z) = n=0 cn z assim obtida é convergente na mesma região em que convergem as séries
de a(z) e b(z), de modo que não precisamos provar isso. Alguns autores (por exemplo,P∞ [125]) usam
n
as expressões recursivas (8.45) para demonstrar a convergência da série y(z) = n=0 cn z . Como
dissemos, pelo nosso proceder isso não é mais necessário, mas o estudante interessado é convidado a
estudar essa outra (elegante) demonstração no texto supracitado.
Para futura referência, resumimos nossas conclusões sobre equações regulares no seguinte teorema.
Teorema 8.1 (Solução de equações regulares por expansão em série de potências) Considere-
se a equação diferencial
y ′′(z) + a(z)y ′ (z) + b(z)y(z) = 0 , (8.46)
z ∈ C, com a(z) e b(z) analı́ticas em torno de z0 e expressas em termos de suas séries de Taylor em
torno de z0 como
X∞ ∞
X
n
a(z) = an (z − z0 ) , b(z) = bn (z − z0 )n ,
n=0 n=0
séries estas supostas absolutamente convergentes em |z − z0 | < r, para algum r > 0. Então a solução
geral da equação (8.46) pode ser expressa em termos de uma expansão em série de potências em z − z0 :
∞
X
y(z) = cn (z − z0 )n ,
n=0
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 8 428/1461
a partir dos dois primeiros coeficientes c0 e c1 , arbitrários. A expansão em série de potências para y(z)
converge absolutamente pelo menos na região |z − z0 | < r, onde representa uma função analı́tica. 2
uma singularidade de tipo polo de ordem 2 em z0 . Assim, pelas nossas definições prévias, z0 é um ponto
singular regular da equação (8.47). Nesse caso, o Teorema 7.3, página 374, diz-nos que ou a equação
(8.47) tem duas soluções independentes da forma
∞
X
γ
y(z) = (z − z0 ) cn (z − z0 )n . (8.48)
n=0
P
onde γ ∈ C e a série ∞ n
n=0 cn (z −z0 ) é absolutamente convergente para |z −z0 | < r (e, portanto, repre-
senta uma função analı́tica em torno de z0 ) ou então a equação (8.47) tem duas soluções independentes,
uma da forma (8.48) e outra da forma
∞
X ∞
X
′
y(z) = (z − z0 )γ (ln(z − z0 )) cn (z − z0 )n + (z − z0 )γ vn (z − z0 )n . (8.49)
n=0 n=0
6
Ferdinand Georg Frobenius (1849-1917).
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 8 429/1461
P P∞
onde, novamente as séries ∞ n
n=0 cn (z − z0 ) e
n
n=0 vn (z − z0 ) são absolutamente convergentes para
|z − z0 | < r (e, portanto, representam funções analı́ticas em torno de z0 ). Em ambos os casos acima
r > 0 é o raio do maior disco aberto centrado em z0 dentro do qual a(z) e b(z) são analı́ticas.
O chamado método de Frobenius consiste precisamente em inserir-se o Ansatz (8.48) na equação
(8.47) e determinar recursivamente os coeficientes cn , assim como o expoente γ. Caso duas soluções
distintas sejam encontradas dessa forma, o problema está resolvido. Caso se encontre apenas uma
solução, então uma segunda solução da forma (8.49) deve ser procurada através da determinação
recursiva dos coeficientes cn e vn , assim como dos expoentes γ e γ ′ .
Ao contrário do que fizemos no caso de equações regulares, quando primeiro exploramos exemplos
particulares para depois tratarmos do caso geral, é mais conveniente no presente contexto que nos apo-
deremos primeiramente da análise geral para depois tratarmos de equações especı́ficas, pois uma visão
prévia das complicações envolvidas nos auxiliará a evitar certas armadilhas ocultas no tratamento
de equações singulares regulares particulares7 . Ilustraremos o método de Frobenius apresentando a
resolução da equação de Euler, da equação de Bessel, da equação de Laguerre e das equações hiper-
geométrica e hipergeométrica confluente, todas de interesse em Fı́sica.
O principal teorema que demonstraremos, o qual resume os resultados do método de Frobenius e
expressa a solução de uma equação singular regular homogênea de segunda ordem geral, é o seguinte:
Teorema 8.2 (Solução de equações singulares regulares pelo método de Frobenius) Seja a
equação diferencial
(z − z0 )2 y ′′ (z) + (z − z0 )a(z)y ′ (z) + b(z)y(z) = 0 , (8.50)
z ∈ C, com a(z) e b(z) analı́ticas em torno de z0 e expressas em termos de suas séries de Taylor em
torno de z0 como
X∞ ∞
X
n
a(z) = an (z − z0 ) , b(z) = bn (z − z0 )n ,
n=0 n=0
1. Caso γ− − γ+ 6∈ Z.
Nesse caso tem-se
∞
X ∞
X
γ− n γ+
y1 (z) = (z − z0 ) cn (γ− )(z − z0 ) e y2 (z) = (z − z0 ) cn (γ+ )(z − z0 )n , (8.52)
n=0 n=0
onde
n−1 h
X i
1
cn (γ± ) = − (m + γ± )an−m + bn−m cm (γ± ) , (8.53)
f (γ± + n) m=0
para todo n ≥ 1. Essas expressões recursivas permitem-nos obter todos os cn (γ− ) a partir de um
c0 (γ− ) não-nulo arbitrário e, respectivamente, todos os cn (γ+ ) a partir de um c0 (γ+ ) não-nulo
arbitrário.
2. Caso γ− − γ+ = 0.
p
Neste caso (a0 − 1)2 − 4b0 = 0 e γ− = γ+ = γ0 com
1 − a0
γ0 :=
2
e tem-se
∞
X ∞
X
γ0 n γ0
y1 (z) = (z−z0 ) cn (γ0 ) (z−z0 ) e y2 (z) = y1 (z) ln(z−z0 )+(z−z0 ) vn (γ0 ) (z−z0 )n ,
n=0 n=0
(8.54)
onde
n−1 h
X i
1
cn (γ0 ) = − (m + γ0 )an−m + bn−m cm (γ0 ) (8.55)
f (γ0 + n) m=0
para todo n ≥ 1, e
" n
1 X
vn (γ0) = − − 2(n + γ0 ) − 1 cn (γ0 ) − an−m cm (γ0 )
f (γ0 + n) m=0
n−1 h
#
X i
+ (m + γ0 )an−m + bn−m vm (γ0 ) , ∀ n ≥ 1 , (8.56)
m=0
onde os coeficientes cn (γ0 ) são obtidos recursivamente a partir de um c0 (γ0 ) não-nulo arbitrário
e os coeficientes vn (γ0 ) são obtidos recursivamente a partir dos coeficientes cm (γ0 ) e a partir de
um v0 (γ0 ) arbitrário (mas que pode ser escolhido igual a zero).
3. Caso γ− − γ+ ∈ Z \ {0}.
p
Neste caso γ− − γ+ = − (a0 − 1)2 − 4b0 é um inteiro não-nulo. Definamos então
p
n0 = (a0 − 1)2 − 4b0 .
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 8 431/1461
γ1 := γ− , γ2 := γ+ , caso γ− − γ+ ≥ 1, ou
(8.57)
γ1 := γ+ , γ2 := γ− , caso γ+ − γ− ≥ 1.
Para a demonstração desse teorema devotaremos toda a Seção 8.2.1. Em uma primeira leitura o
estudante poderá dispensar-se de um estudo detalhado da demonstração e passar mais rapidamente
aos exemplos discutidos na Seção 8.2.2, página 441, e seguintes.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 8 432/1461
com a(z) e b(z) analı́ticas em torno de z0 = 0 e expressas em termos de suas séries de Taylor em torno
de 0 como ∞ ∞
X X
n
a(z) = an z , b(z) = bn z n .
n=0 n=0
Sob a luz do Teorema 7.4, página 377, procuraremos primeiramente uma solução na forma
∞
X
y(z) = cn z n+γ . (8.64)
n=0
Antes de iniciarmos nossa análise, comentemos que, sem perda de generalidade, podemos sempre adotar
o primeiro coeficiente, c0 , como não-nulo: c0 6= 0. Isso se deve ao seguinte. Se cm fosse o primeiro
coeficiente não-nulo, terı́amos
X∞
y(z) = cn z n+γ .
n=m
A última expressão possui a mesma estrutura de (8.64) mas, como se vê, o primeiro coeficiente é
c′0 = cm , que é não-nulo, por hipótese.
Isto posto, passemos a analisar o que se passa inserindo a expressão (8.64) em (8.63). Para (8.64)
valem ∞
X
y ′(z) = (n + γ)cn z n+γ−1 (8.65)
n=0
e ∞
X
′′
y (z) = (n + γ)(n + γ − 1)cn z n+γ−2 , (8.66)
n=0
ou seja,
∞
" n
! n
!#
X X X
(n + γ)(n + γ − 1)cn + an−m (m + γ)cm + bn−m cm z n+γ = 0
n=0 m=0 m=0
que implica
h i
γ(γ − 1) + a0 γ + b0 c0 = 0 ,
h i n−1 h
X i
(n + γ)(n + γ − 1) + a0 (n + γ) + b0 cn = − an−m (m + γ) + bn−m cm , ∀n ≥ 1 .
m=0
γ(γ − 1) + a0 γ + b0 = 0 , (8.67)
h i n−1 h
X i
(n + γ)(n + γ − 1) + a0 (n + γ) + b0 cn = − an−m (m + γ) + bn−m cm , ∀ n ≥ 1 . (8.68)
m=0
A equação (8.67) é denominada na literatura equação indicial, por ser uma equação algébrica (de
segundo grau) para o ı́ndice γ. Antes de escrevermos a solução dessa equação, denotemos por f o
polinômio de segundo grau
f (γ) = 0 , (8.69)
n−1 h
X i
f (γ + n) cn = − an−m (m + γ) + bn−m cm , ∀n ≥ 1 . (8.70)
m=0
A equação f (γ) = 0 é uma equação algébrica de segundo grau, cujas soluções são
p p
1 − a0 − (a0 − 1)2 − 4b0 1 − a0 + (a0 − 1)2 − 4b0
γ− = e γ+ = .
2 2
Assim, a equação indicial f (γ) = 0 obriga o ı́ndice γ a ser γ− ou γ+ . Há dois casos a considerar: o
caso γ− − γ+ 6∈ Z e o caso γ− − γ+ ∈ Z. Trataremos primeiramente do caso γ− − γ+ 6∈ Z, que é o mais
simples.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 8 434/1461
• O caso γ− − γ+ 6∈ Z
Como a diferença γ− − γ+ não é um número inteiro, tem-se em particular que γ− 6= γ+ . Fora isso,
como γ− e γ+ são os dois únicos zeros (distintos) do polinômio f (x), tem-se que f (γ± + n) 6= 0 para
todos n ≥ 1 inteiros. Se assim não fosse e houvesse n0 ∈ Z com, digamos, f (γ+ + n0 ) = 0 valeria
γ− = γ+ + n0 , ou seja, γ− − γ+ = n0 , que é inteiro: uma contradição. Com isso, podemos de (8.70)
obter
n−1 h
X i
1
cn (γ± ) = − an−m (m + γ± ) + bn−m cm (γ± )
f (γ± + n) m=0
n−1 h
X i
1
= − an−m (m + γ ± ) + bn−m cm (γ± ) , (8.71)
(γ± + n)2 + (a0 − 1)(γ± + n) + b0 m=0
para todo n ≥ 1. Essas expressões recursivas permitem-nos obter todos os cn (γ− ) a partir de um c0 (γ− )
não-nulo arbitrário e, respectivamente, todos os cn (γ+ ) a partir de um c0 (γ+ ) não-nulo arbitrário.
Concluı́mos assim, que no caso γ− − γ+ 6∈ Z a equação diferencial (8.63) (com z0 = 0) possui duas
soluções linearmente independentes y1 (z) e y2 (z), dadas por
∞
X ∞
X
y1 (z) = cn (γ− )z n+γ− e y2 (z) = cn (γ+ )z n+γ+ ,
n=0 n=0
com cn (γ± ) dadas por (8.71), a solução geral sendo uma combinação linear de ambas. As constantes
c0 (γ− ) e c0 (γ+ ) são não-nulas e arbitrárias.
• O caso γ− − γ+ ∈ Z
O caso γ− −γ+ ∈ Z subdivide-se em dois: o caso γ− −γ+ = 0 e o caso γ− −γ+ ∈ Z\{0}. Comecemos
com o primeiro.
• O caso γ− = γ+
X
n−1 h i
1
= − 2
an−m (m + γ0 ) + bn−m cm (γ0 ) , (8.73)
(γ0 + n) + (a0 − 1)(γ0 + n) + b0 m=0
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 8 435/1461
para todo n ≥ 1. Como se constata, a última expressão relaciona cn com os coeficientes anteriores
cn−1 , . . . , c0 . Assim, fixando apenas c0 todos os demais estão determinados. Obtemos dessa forma,
para o caso (a0 − 1)2 − 4b0 = 0 a solução
∞
X
y1 (z) = cn (γ0 ) z n+γ0 , (8.74)
n=0
onde os coeficientes cn (γ0 ) são obtidos recursivamente de (8.73) a partir de um c0 arbitrário. Pelo
Teorema 7.4, página 377, a série acima será convergente (ao menos na região onde as séries de a(z) e
b(z) convergem).
Com esse proceder obtivemos apenas uma solução da equação diferencial (8.63). Como a mesma
é de segunda ordem, uma segunda solução deverá existir. Novamente, o Teorema 7.4, página 377,
indica-nos que essa segunda solução pode ter uma singularidade logarı́tmica. Podemos procurar essa
segunda solução seguindo um procedimento devido a D’Alembert8 , que consiste em procurar soluções
da forma
y2 (z) = Ay1 (z) ln(z) + v(z) , (8.75)
sendo y1 (z) a solução já conhecida em (8.74) e onde A é uma constante a ser determinada, assim como
a função v(z). Note-se que o Ansatz (8.75) está de acordo com o Teorema 7.4, página 377, que prevê a
ocorrência de soluções com uma singularidade logarı́tmica. A especialidade do Ansatz de D’Alembert
está em espertamente9 prever que o fator que multiplica ln(z) é a primeira solução y1 (z).
Substituindo (8.75) na equação (8.63), obtem-se a seguinte equação para v(z):
z 2 v ′′ (z) + za(z)v ′ (z) + b(z)v(z) = −A 2zy1′ (z) + (a(z) − 1)y1 (z) . (8.76)
onde n
X
fn = [2(n + γ0 ) − 1] cn (γ0 ) + an−m cm (γ0) . (8.78)
m=0
P
A equação (8.77) sugere que uma solução para v(z) deve ser procurada na forma v(z) = ∞ n=0 vn z
n+γ0
.
Inserindo isso em (8.76) tem-se
" n h
#
X∞ X i X∞
(n + γ0 )(n + γ0 − 1)vn + (m + γ0 )an−m + bn−m vm z n+γ0 = −A fn z n+γ0 ,
n=0 m=0 n=0
8
Jean Le Rond d’Alembert (1717-1783).
9
Na literatura matemática o truque é por vezes denominado método de redução de D’Alembert e pode ser usado em
várias equações diferenciais de segunda ordem para se obter uma segunda solução da equação a partir de uma primeira
solução conhecida.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 8 436/1461
que implica
n h
X i
(n + γ0 )(n + γ0 − 1)vn + (m + γ0 )an−m + bn−m vm = −Afn
m=0
que é uma identidade trivial, já que γ0 (γ0 − 1) + a0 γ0 + b0 = 0 e que f0 = γ0 [2γ0 − 1 + a0 ] c0 (γ0 ) = 0,
por (8.72). Para n ≥ 1 tem-se, porém,
" n−1 h
X i
#
1
vn = − −Afn + (m + γ0 )an−m + bn−m vm , ∀ n ≥ 1 ,
(γ0 + n)2 + (γ0 + n)(a0 − 1) + b0 m=0
(8.79)
o que permite obter recursivamente todos os vn a partir de v0 . Expressando-se os fn ’s como em (8.78),
tem-se
" n
X
1
vn (γ0 ) = − 2
−[2(n + γ0 ) − 1] cn (γ0 ) − an−m cm (γ0 )
(γ0 + n) + (γ0 + n)(a0 − 1) + b0 m=0
n−1 h
#
X i
+ (m + γ0 )an−m + bn−m vm , ∀ n ≥ 1 , (8.80)
m=0
que expressa os vn ’s em termos dos coeficientes cn (γ0 ) de y1 (z), os quais, por sua vez, são dados pelas
relações recursivas (8.73)10 , e de v0 (γ0 ) arbitrário.
Observemos, por fim, que A deve, nesse caso, ser forçosamente não-nulo, pois se tomássemos A = 0
verı́amos por (8.80) que os coeficientes vn satisfazem as mesmas relações de recorrência dos cn (γ0 ).
Assim, v(z) e y1 (z) não seriam linearmente independentes. Podemos, portanto, adotar sem perda de
generalidade A = 1.
Resumindo nossas conclusões, caso (a0 − 1)2 − 4b0 = 0, a solução da equação diferencial (8.63) (com
z0 = 0) possui duas soluções linearmente independentes y1 (z) e y2 (z), dadas por
∞
X ∞
X
y1 (z) = cn (γ0 )z n+γ0 e y2 (z) = y1 (z) ln(z) + vn (γ0 )z n+γ0 ,
n=0 n=0
com γ0 = (1 − a0 )/2, com os cn (γ0 )’s dados em (8.73) e com os vn (γ0 )’s dados em (8.80), tomando-se
A = 1. As constantes c0 (γ) e v0 (γ) são não-nulas e arbitrárias.
É de se notar que, como A é não-nulo, uma das soluções possui uma singularidade logarı́tmica.
• O caso γ− − γ+ ∈ Z \ {0}
10
Vide nota de rodapé da página 429.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 8 437/1461
Esse último caso, com a generalidade com que o abordamos aqui, é o mais complexo e o estu-
dante poderá dispensar seu estudo detalhado em uma primeira leitura, atendo-se preferencialmente aos
exemplos das equações de Bessel e Laguerre, das quais trataremos adiante.
O caso γ− − γ+ ∈ Z \ {0} é semelhante ao caso anterior onde γ− = γ+ , a principal diferença sendo
que aqui podem ocorrer situações onde A = 0, de modo que ambas as soluções podem ser livres de
singularidades logarı́tmicas. De fato, sabe-se de equações particulares onde tem-se A = 0 (um exemplo
sendo a equação de Bessel de ordem 1/2) e de equações particulares onde tem-se A 6= 0 (um exemplo
sendo a equação de Bessel de ordem 1).
p
Comecemos com algumas definições. O caso γ− − γ+ ∈ Z \ {0} só pode ocorrer se (a0 − 1)2 − 4b0
for um inteiro não nulo. Definamos então
p
n0 = (a0 − 1)2 − 4b0 .
Claro está que n0 ∈ {1, 2, 3, 4, . . .}. Como γ− − γ+ é um inteiro não-nulo, definamos também
γ1 := γ− , γ2 := γ+ , caso γ− − γ+ ≥ 1, ou
(8.81)
γ1 := γ+ , γ2 := γ− , caso γ+ − γ− ≥ 1.
Com essas definições, está sempre garantido que
γ1 = γ2 + n0 .
Isso diz-nos que para todo n ≥ 1 a expressão f (γ1 +n) não pode se anular, pois se assim o fosse terı́amos
forçosamente γ1 + n = γ2 , ou seja, n = −n0 , um absurdo, já que n0 ≥ 1. Por outro lado, existe um
único valor de n para o qual f (γ2 + n) se anula, a saber n = n0 .
Com isso em mente, vemos que para a solução γ = γ1 da equação indicial, a expressão (8.70)
permite-nos obter todos os coeficientes cn a partir de um c0 não nulo:
n−1 h
X i
1
cn (γ1 ) = − an−m (m + γ1 ) + bn−m cm (γ1 )
f (γ1 + n) m=0
n−1 h
X i
1
= − an−m (m + γ 1 ) + bn−m cm (γ1 ) , (8.82)
(γ1 + n)2 + (a0 − 1)(γ1 + n) + b0 m=0
para todo n ≥ 1. Isso fornece-nos a primeira solução da equação diferencial (8.63) (com z0 = 0):
∞
X
y1 (z) = cn (γ1 )z n+γ1 , (8.83)
n=0
Essa relação pode ou não ser satisfeita, dependendo da equação diferencial tratada. Por exemplo, no
caso da equação de Bessel de ordem semi-inteira (ou seja, de ordem 1/2, 3/2, 5/2 etc.) verifica-se que
a relação (8.84) é satisfeita. Já no caso da equação de Bessel de ordem inteira verifica-se que a relação
(8.84) não é satisfeita. Isso será discutido explicitamente na Seção 8.2.3, página 444.
Devemos, portanto, separar provisoriamente os dois casos: aquele no qual (8.84) é satisfeita e aquele
no qual não é. Posteriormente veremos que essa separação é supérflua, mas por ora ela é logicamente
necessária.
Na situação feliz em que (8.84) é satisfeita, o coeficiente cn0 (γ2 ) fica indeterminado e pode ser
escolhido livremente, já que as equações recursivas (8.70) não o fixam e nada mais há para fixá-los.
Com isso, as equações recursivas (8.70) determinam todos os demais coeficientes cn (γ2 ), n ≥ 1, n 6= n0 ,
a partir de um c0 (γ2 ) não-nulo mas arbitrário. Assim, obtemos a solução
∞
X
y2 (z) = cn (γ2 )z n+γ2 , (8.85)
n=0
com
n−1 h
X i
1
cn (γ2 ) = − an−m (m + γ2 ) + bn−m cm (γ2 )
f (γ2 + n) m=0
n−1 h
X i
1
= − an−m (m + γ2 ) + bn−m cm (γ2 ) , (8.86)
(γ2 + n)2 + (a0 − 1)(γ2 + n) + b0 m=0
A equação (8.87) sugere que uma solução para v(z) deve ser procurada na forma
∞
X
v(z) = vn z n+γ2 .
n=0
∞
" n
! n
!#
X X X
(n + γ2 )(n + γ2 − 1)vn + an−m (m + γ2 )vm + bn−m vm z n+γ2
n=0 m=0 m=0
∞
X
= −A gn−n0 (γ1 )z n+γ2 ,
n=n0
o que implica
n h
X i
(n + γ2 )(n + γ2 − 1)vn + (m + γ2 )an−m + bn−m vm = 0, n = 0, . . . , n0 − 1 , (8.89)
m=0
n h
X i
(n + γ2 )(n + γ2 − 1)vn + (m + γ2 )an−m + bn−m vm = −Agn−n0 (γ1 ), ∀n ≥ n0 . (8.90)
m=0
mas como o fator entre colchetes é f (γ2 ) = 0, concluı́mos que essa relação é trivialmente satisfeita e,
assim, v0 pode ser escolhido livremente. Para 1 ≤ n ≤ n0 − 1, (8.89) implica que
n−1 h
X i
1
vn = − (m + γ2 )an−m + bn−m vm
f (γ2 + n) m=0
n−1 h
X i
1
= − (m + γ )a
2 n−m + bn−m vm (8.91)
(γ2 + n)2 + (a0 − 1)(γ2 + n) + b0 m=0
h i 0 −1h
nX i
(n0 + γ2 )(n0 + γ2 − 1) + a0 (n0 + γ2 ) + b0 vn0 + (m + γ2 )an0 −m + bn0 −m vm
m=0
= −A[2γ1 − 1 + a0 ] c0 (γ1 ) .
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 8 440/1461
o sinal ∓ dependendo
p de se ter γ1 = γ+ ou γ1 = γ− , respectivamente. É fácil ver, porém, que em
qualquer caso ∓ (a1 − 1)2 − 4b0 = −n0 . A relação (8.92) fixa A:
nX
0 −1
1
A = − [(m + γ2 )an0 −m + bn0 −m ] vm , (8.93)
c0 (γ1 ) n0 m=0
com os vm fixados na expressão (8.91) em função de v0 6= 0 arbitrário.
O coeficiente vn0 não é fixado por nenhuma das relações anteriores e pode ser escolhido livremente.
Sua presença adiciona um termo do tipo vn0 z n0 +γ2 = vn0 z γ1 à solução geral e aplica-se novamente o
comentário de rodapé da página 438.
Para n > n0 , tem-se ainda por (8.90)
" n−1 h
#
1 X i
vn = − −Agn−n0 (γ1 ) + an−m (m + γ2 ) + bn−m vm
f (γ2 + n) m=0
" n−1 h
X i
#
1
= − 2
−Agn−n0 (γ1 ) + an−m (m + γ2 ) + bn−m vm .
(γ2 + n) + (γ2 + n)(a0 − 1) + b0 m=0
(8.94)
com os gn (γ1 ) fixados em (8.88) em termos dos coeficientes cm (γ1 ) da solução y1 (z).
As expressões (8.91), (8.93) e (8.94) permitem fixar todos os vn ’s e a constante A em termos de v0 6= 0
e de vn0 , arbitrários. Observemos, A não é forçosamente nulo, nem pode ser escolhido arbitrariamente.
Sobre a constante A vale ainda uma observação importante.
Observe o leitor que as relações de recorrência (8.91), que fixam os vm ’s com m = 0, . . . , n0 − 1, são
idênticas às de (8.86), que fixam todos os cm (γ2 )’s, em particular aqueles com m = 0, . . . , n0 − 1. Os
vm ’s são fixados por um v0 inicial não-nulo e os cm (γ2 )’s por um c0 (γ2 ) inicial não-nulo. Contemplando
aquelas relações de recorrência, um minuto de meditação nos leva a perceber que todos os vm são
proporcionais a v0 e que todos os cm (γ2 ) são proporcionais a c0 (γ2 ). Como as relações de recorrência
são idênticas, concluı́mos que
v0
vm = cm (γ2 ) para todo m = 0, . . . , n0 − 1 .
c0 (γ2 )
Agora, pela expressão (8.93), A é proporcional a
0 −1
nX n0 −1
v0 X
[(m + γ2 )an0 −m + bn0 −m ] vm = [(m + γ2 )an0 −m + bn0 −m ] cm (γ2 ) .
m=0
c0 (γ2 ) m=0
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 8 441/1461
A última soma, porém, é idêntica àquela de (8.84)! Assim, percebemos que, sob a hipótese que (8.84)
não é satisfeita, tem-se que A 6= 0.
Por outro lado, se (8.84) é satisfeita, então A = 0. Mas se A = 0, as relações de recorrência (8.94)
tornam-se também idênticas àquelas de (8.86), que fixam todos os cm (γ2 )’s. Concluı́mos então, que
nesse caso em que A = 0 (ou seja, sob (8.63)) vale também
v0
vm = cm (γ2 ) ,
c0 (γ2 )
mas agora para todo m ≥ 0. Assim, para A = 0 a solução y2 (z) = A ln(z)y1 (z)+v(z) reduz-se (a menos
de uma constante multiplicativa trivial) à solução para y2 (z) dada em (8.85), obtida sob a condição
(8.84).
Nesse sentido, a condição (8.84) é supérflua e podemos unificar as soluções que obtivemos nos casos
em que (8.84) é ou não é satisfeita e resumir nossas conclusões da seguinte forma:
Para γ− − γ+ 6∈ Z \ {0}, a equação diferencial (8.63) (com z0 = 0) tem duas soluções independentes
y1 (z) e y2 (z), onde:
∞
X ∞
X
n+γ1
y1 (z) = cn (γ1 )z e y2 (z) = Ay1 (z) ln(z) + vn z n+γ2 ,
n=0 n=0
onde os cn (γ1 ), n ≥ 1, também estão definidos em (8.82) a partir de um c0 (γ1 ) não-nulo arbitrário e
onde os vn ’s com n ≥ 1, n 6= n0 , e a constante A são fixados em (8.91), (8.93) e (8.94) em termos de
v0 6= 0 e de vn0 , arbitrários.
Como mencionamos, há casos em que A = 0, exemplos sendo as equação de Bessel de ordem
semi-inteira e a equação de Euler, para certos parâmetros.
Com tudo isso a demonstração do Teorema 8.2 está completa e podemos passar ao estudo de
exemplos particulares.
A equação de Euler já foi resolvida à página 377, onde encontramos as soluções (7.73) e (7.74).
Vamos tratá-la aqui sob a luz do Teorema 8.2, página 429. Se procurarmos uma solução na forma
∞
X
y(z) = cn z n+γ , (8.95)
n=0
com ∞
X
′
y (z) = (n + γ)cn z n+γ−1 (8.96)
n=0
e ∞
X
′′
y (z) = (n + γ)(n + γ − 1)cn z n+γ−2 , (8.97)
n=0
ou seja,
∞ h
X i
(n + γ)(n + γ − 1)cn + a(n + γ)cn + bcn z n+γ = 0,
n=0
o que implica
f (n + γ) cn = 0 ∀ n ≥ 0.
onde f é o polinômio de segundo grau.
Se γ− − γ+ não for um inteiro, a equação f (γ± + n) = 0 não é satisfeita para nenhum n ≥ 1 inteiro.
A razão é a seguinte: f é um polinômio de segundo grau e, portanto, possui apenas duas soluções.
Assim, se f (γ± + n) = 0 terı́amos γ± + n = γ∓ , o que implica que γ− − γ+ é inteiro, uma contradição.
Nesse caso, então, temos que adotar cn = 0 para todo n ≥ 1 e as soluções da equação de Euler ficam
com os cn dados em (8.55) e os vn dados em (8.56). Observando (8.55), constata-se que nesse caso
cn (γ0 ) = 0 para todo n, exceto n = 0, pois apenas a0 e b0 podem ser não-nulos. Igualmente, observando
(8.56) constata-se que vn (γ0 ) é proporcional a cn (γ0 ) para todo n ≥ 1 e, com isso, apenas v0 pode ser
não-nulo. Assim, temos nesse caso, tomando c0 = v0 = 1,
y1 (z) = z γ0 e y2 (z) = z γ0 ln(z) + z γ0 .
O termo z γ0 na expressão de y2 (z) é o próprio y1 (z), de modo que podemos tomar como soluções
linearmente independentes as seguintes:
y1 (z) = z γ0 e y2 (z) = z γ0 ln(z) . (8.99)
Contemplando (8.59) constata-se que cn (γ1 ) = 0 para todo n ≥ 1, pois apenas a0 e b0 podem
ser não-nulos, sendo que podemos escolher c0 = 1, livremente. Disso concluı́mos que y1 (z) = z γ1 . Por
(8.61) tem-se que A = 0 pois, no caso da equação de Euler, an0 −m = bn0 −m = 0 para m = 0, . . . , n0 −1.
Por (8.60), tem-se analogamente
0, para 1 ≤ n ≤ n0 − 1 ,
vn = arbitrário , para n = n0 ,
0, para n > n0 ,
Assim, apenas v0 e vn0 são arbitrários, sendo que v0 deve ser não-nulo. Escolhendo v0 = 1 e vn0 = 0,
segue que y2 (z) = z γ2 . Concluindo, vale aqui que
y1 (z) = z γ1 e y2 (z) = z γ2 . (8.100)
Todos esses resultados coincidem, como deveria ser, com aqueles obtidos em (7.73) e (7.74), página
377 e seguintes.
O estudo das soluções da equações de Euler é útil na resolução de equações com singularidades
regulares mais gerais como
z 2 y ′′(z) + za(z)y ′ (z) + b(z)y(z) = 0
pela seguinte razão. Próximo ao ponto singular z0 = 0, podemos aproximar a(z) ≈ a0 e b(z) ≈ b0 , já
que esses são os primeiros termos das expansões de Taylor de a(z) e b(z). Assim, para |z| pequeno o
suficiente, a equação aproxima-se de
z 2 y ′′ (z) + a0 z y ′(z) + b0 y(z) = 0
que é uma equação de Euler com a = a0 e b = b0 . Com isso, vemos que as soluções da equação
geral se aproximam para |z| pequeno daquelas encontradas em (8.98), (8.99) ou (8.100), dependendo
do caso. Esse proceder permite-nos, face a uma equação singular regular geral, estudar qual tipo de
singularidade deve ocorrer próximo ao ponto singular e, com isso, perceber qual das soluções descritas
no Teorema 8.2, página 429, se aplica. Em verdade, a resolução da equação indicial (8.51) fornece o
mesmo tipo de informação.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 8 444/1461
γ− = −ν e γ+ = ν .
Há, portanto, três casos a considerar: 1. o caso em que 2ν 6∈ Z, 2. o caso em que 2ν = 0 e 3. o caso
em que 2ν ∈ Z \ {0}. Observe o leitor que as condições 2 e 3 correspondem a ν semi-inteiro ou inteiro.
Os dois casos são os mais relevantes em Fı́sica. O caso de ν inteiro conduz às chamadas funções de
Bessel e o caso de ν semi-inteiro conduz às chamadas funções de Bessel esféricas as quais surgem, por
exemplo, em problemas de propagação de ondas em duas ou três dimensões, respectivamente. Vide
Seção 8.2.4, página 456. Para a origem das funções de Bessel, vide nota histórica à página 548.
Caso 1. 2ν 6∈ Z.
Nesse caso tem-se duas soluções
∞
X
y± = cn (±ν)z n±ν ,
n=0
Podemos nos concentrar apenas nos coeficientes cn (+ν), pois os coeficientes cn (−ν) podem ser obtidos
fazendo-se ν → −ν. Vale
n−1 h
X i
1
cn (ν) = − (m + ν)an−m + bn−m cm (ν) , (8.102)
n(n + 2ν) m=0
13
Friedrich Wilhelm Bessel (1784-1846).
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 8 445/1461
e tem-se
c1 (ν) = 0 ,
1
c2 (ν) = − c0 (ν) ,
2(2 + 2ν)
1
cn (ν) = − cn−2 (ν), n ≥ 3.
n(n + 2ν)
Com isso, fica claro que
(−1)k
c2k (ν) = c0 (ν) , k≥0.
(2k)!! (2 + 2ν)(4 + 2ν) · · · (2k + 2ν)
Concluı́mos, assim, com a constatação que a solução geral da equação de Bessel de ordem ν para o
caso 2ν 6∈ Z é
α1 Jν (z) + α2 J−ν (z) ,
onde α1 e α2 são constantes arbitrárias.
Por convenção histórica, é costume considerar-se também uma combinação linear particular de
J±ν (z), a saber a seguinte:
Jν (z) cos(νπ) − J−ν (z)
Nν (z) := . (8.104)
sen(νπ)
Essa função Nν (z) também representa uma das soluções da equação de Bessel de ordem ν (por ser uma
combinação linear de duas outras) e é denominada função de Bessel de segundo tipo e ordem ν, ou
ainda função de Neumann14 de ordem ν.
Concluı́mos, assim, que a solução geral da equação de Bessel de ordem ν para o caso 2ν 6∈ Z também
pode ser escrita em termos das funções Jν e Nν na forma
β1 Jν (z) + β2 Nν (z) ,
1 Xh i
n−1
cn (0) = − man−m + bn−m cm (0) .
n2 m=0
Essas relações são idênticas àquelas de (8.102) (tomando-se aqui ν = 0) e, assim, tem por solução
onde usamos que Γ(1) = 1 e Γ(k + 1) = k!. Por convenção histórica adota-se
c0 (0) = 1
com os vn dados em (8.56). Como o estudante pode facilmente verificar, adotando-se v0 = 0, obtem-se
para esses coeficientes as seguintes expressões:
(−1)k+1
v2k = hk , k≥0,
(k!)2 22k
v2k+1 = 0 , k≥0
onde
h0 := 0 , (8.106)
Xn
1 1 1 1
hn := 1 + + + · · · + = , ∀n≥1. (8.107)
2 3 n l=1
l
Note-se que v0 = 0.
Por convenção histórica, costuma-se considerar também uma particular combinação das soluções
J0 (z) e y2 (z):
!
2 2 z (−1)k+1 hn z 2k
X∞
N0 (z) := y2 (z) + (γ − ln(2))J0 (z) = γ + ln J0 (z) + ,
π π 2 k=1
(k!)2 2
(8.109)
15 16
onde γ é a chamada constante de Euler-Mascheroni , definida por :
1 1 1
γ := lim (hn − ln(n)) = lim 1 + + + · · · + − ln(n) ≈ 0, 5772156649 . . . .
n→∞ n→∞ 2 3 n
Essa função N0 (z) também representa uma das soluções da equação de Bessel de ordem 0 (por ser
uma combinação linear de duas outras) e é denominada função de Bessel de segundo tipo e ordem 0,
ou ainda função de Neumann de ordem 0.
15
Leonhard Euler (1707-1783). Lorenzo Mascheroni (1750-1800).
16
Essa constante foi introduzida por Euler em 1735, o qual calculou seus 16 primeiros dı́gitos decimais. Em 1790,
Mascheroni calculou seus 32 primeiros dı́gitos decimais, dos quais apenas os primeiros 19 estavam corretos.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 8 448/1461
Concluı́mos, assim, com a constatação que a solução geral da equação de Bessel de ordem 0 é
α1 J0 (z) + α2 N0 (z) ,
para n ≥ 1. Novamente, essas relações são idênticas àquelas de (8.102) e, assim, suas soluções são
onde usamos que Γ(1 + p) = p! e Γ(k + 1 + p) = (k + p)!. Por convenção histórica adota-se
1
c0 (p) =
2p p!
e chega-se com isso à expressão
∞
X (−1)k z 2k+p
Jp (z) = .
k! (k + p)! 2
k=0
Essa função representa uma das soluções da equação de Bessel de ordem p (com p = 1, 2, 3, 4, . . .) e
é denominada função de Bessel de primeiro tipo e ordem p.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 8 449/1461
1.0
J0
J1
0.5
J2
J3
0.0
0 2 4 6 8 10 12 14 16 18 20 x
−0.5
Figura 8.2: Gráficos das funções de Bessel Jm (x), m = 0, . . . , 3, para x ∈ [0, 20].
O leitor é convidado a constatar que a expressão (8.105) para J0 (z) é idêntica a essa se tomarmos
p = 0. Na Figura 8.2, página 449, exibimos o gráfico de algumas das primeiras funções de Bessel de
ordem inteira.
Procuremos agora a segunda solução y2 (z):
∞
X
−p
y2 (z) = AJp (z) ln(z) + z vn (p)z n .
n=0
Por (8.60),
n−1
1 X
− (m − p)an−m + bn−m vm (p) , para 1 ≤ n ≤ 2p − 1 ,
f (n − p) m=0
vn (p) = arbitrário , para n = 2p ,
" #
n−1
1 X
− f (n − p) −Agn−2p +
(m − p)an−m + bn−m vm (p) , para n > 2p,
m=0
(8.110)
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 8 450/1461
com
n−1
1 X
− (m − p)an−m + bn−m vm (p) , para 1 ≤ n ≤ 2p − 1 ,
f (n − p) m=0
vn (p) = arbitrário , para n = 2p ,
" #
n−1
1 X
− f (n − p) −gn−2p +
(m − p)an−m + bn−m vm (p) , para n > 2p,
m=0
(8.111)
com os gn dados em (8.62) em termos de cn (p).
Um cálculo um pouco trabalhoso, que nos poupamos de apresentar em detalhe, conduz ao seguinte
resultado:
com p = 1, 2, 3, 4, . . ..
O leitor é convidado
P−1 a constatar que a expressão (8.108) é idêntica a essa se tomarmos p = 0 (com
a convenção que n=0 (· · · ) = 0).
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 8 451/1461
Por convenção histórica, costuma-se considerar também uma particular combinação das soluções
Jp (z) e y2 (z):
2
Np (z) := y2 (z) + (γ − ln(2))Jp (z) =
π
!
2 z 1 X (p − n − 1)! z 2n−p 1 X (−1)n (hn + hn+p ) z 2n+p
p−1 ∞
γ + ln Jp (z) − − , (8.112)
π 2 2 n=0 n! 2 2 n=0 n! (n + p)! 2
onde γ é a constante de Euler-Mascheroni mencionada acima. Essa função Np (z) também representa
uma das soluções da equação de Bessel de ordem p (por ser uma combinação linear de duas outras) e
é denominada função de Bessel de segundo tipo e ordem p, ou ainda função de Neumann de ordem p.
Na Figura 8.3, página 451, são exibidos gráficos de algumas das primeiras funções de Neumann.
1
N0
0
0 5 10 15
−1 N1
−2
N2
−3
−4
−5
−6
−7
−8
−9
Figura 8.3: Gráficos das funções de Neumann Nm (x), m = 0, . . . , 2, para x ∈ [1/2, 15]. Todas
divergem em x = 0, a divergência sendo tanto mais forte quanto maior m.
Concluı́mos, assim, com a constatação que a solução geral da equação de Bessel de ordem p, p =
1, 2, 3, 4, . . ., é
α1 Jp (z) + α2 Np (z) ,
onde α1 e α2 são constantes arbitrárias.
O estudante deve notar que a primeira solução Jp (z) é uma função analı́tica para todo z ∈ C (pois
a série em (8.105) converge absolutamente para todo z (mostre isso!)). Já a solução Np (z) é também
analı́tica em toda parte, exceto em z = 0, onde possui uma singularidade logarı́tmica assim como um
polo de ordem p.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 8 452/1461
Por (8.60),
n−1
−1 X 1
m−q− an−m + bn−m vm (q) , 1 ≤ n ≤ 2q ,
f n − q − 21 m=0 2
vn (q) = arbitrário , n = 2q + 1 ,
( )
n−1
−1 X 1
f n − q − 1 −Agn−2q−1 +
m−q−
2
an−m + bn−m vm (q) , n > 2q + 1,
2 m=0
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 8 453/1461
onde,
2q
1 X 1
A = − m−q− a2q+1−m + b2q+1−m vm (q) (8.114)
c0 (q) (2q + 1) m=0 2
Para 1 ≤ n ≤ 2q tem-se
−1
vn (q) = vn−2 (q) . (8.115)
f (n − q − 21 )
Porém,
−1 1
v1 (q) = 1 0−q− a1 + b1 v0 (q) = 0 ,
f ( 2 − q) 2
pois a1 = b1 = 0. Conjuntamente com (8.115), isso diz-nos que vn (q) = 0 para todo n ı́mpar com
1 ≤ n ≤ 2q. A importância dessa observação reside no seguinte. Por (8.114) vê-se facilmente que
1
A = − v2q−1 (q) .
c0 (q) (2q + 1)
Portanto, tem-se no caso presente que A = 0 e, assim, a segunda solução é livre de singularidades
logarı́tmicas. Além disso, com A = 0 as expressões recursivas para vn (q) simplificam-se para
n−1
−1 X 1
m−q− an−m + bn−m vm (q) , 1 ≤ n ≤ 2q ,
f n − q − 21 m=0 2
vn (q) = arbitrário , n = 2q + 1 , (8.116)
( n−1 )
−1 X 1
f n − q − 1
m−q−
2
an−m + bn−m vm (q) , n > 2q + 1.
2 m=0
Como já vimos, para 1 ≤ n ≤ 2q os vn (q) com n ı́mpar são nulos. Como v2q+1 é arbitrário, é
conveniente escolhê-lo igual a zero também. Com isso, as relações (8.116) ficam idênticas àquelas de
(8.102) com ν substituı́do por −(q + 1/2) e, assim, suas soluções são
(−1)k Γ 1 − q − 21
v2k (q) = v0 (q) , k ≥ 0 .
k! 22k Γ k + 1 − q − 21
Adotando
1
v0 (q) = ,
2−q−1/2 Γ 1 − q − 21
chagamos à seguinte expressão:
∞
X (−1)k z 2k−q−1/2
J−q−1/2 (z) = .
k=0
k! Γ k + 1 − q − 21 2
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 8 454/1461
Essa função representa uma segunda solução da equação de Bessel de ordem q+1/2 com q = 0, 1, 2, . . .
e é denominada função de Bessel de primeiro tipo e ordem −(q + 1/2).
Concluı́mos, assim, que a solução geral da equação de Bessel de ordem q+1/2 com q = 0, 1, 2, 3, . . .,
é
α1 Jq+1/2 (z) + α2 J−q−1/2 (z) ,
onde α1 e α2 são constantes arbitrárias.
Podemos definir também as funções de Neumann de ordem q + 1/2 em analogia com (8.104), mas
aqui, tem-se
Jq+1/2 (z) cos((q + 1/2)π) − J−q−1/2 (z)
Nq+1/2 (z) := = (−1)q+1 J−q−1/2 (z) . (8.117)
sen((q + 1/2)π)
De qualquer forma, a solução geral da equação de Bessel de ordem q + 1/2 com q = 0, 1, 2, 3, . . ., é
β1 Jq+1/2 (z) + β2 Nq+1/2 (z) ,
onde β1 e β2 são constantes arbitrárias.
O estudante é convidado a constatar que Jq+1/2 (z) é uma função analı́tica para todo z ∈ C, z 6= 0,
mas em z = 0 possui uma singularidade como z q+1/2 , que é uma singularidade do tipo ponto ramificação
(de grau 2). Paralelamente, J−q−1/2 (z) (e, portanto, Nq+1/2 (z)) é analı́tica para todo z 6= 0, mas possui
em z = 0 uma singularidade como z −q−1/2 , que é uma singularidade do tipo ponto ramificação (de grau
−2). Essas afirmações são ilustradas no próximo exercı́cio.
E. 8.11 Exercı́cio. Verifique por cálculo explı́cito que as funções sen(z)/z 1/2 e cos(z)/z 1/2 são, de fato,
soluções da equação de Bessel de ordem ν = 1/2. 6
Para futura referência, reunimos nossos resultados sobre as soluções da equação de Bessel no seguinte
teorema:
Teorema 8.3 (Soluções da equação de Bessel) Seja a equação de Bessel de ordem ν ∈ C
com z ∈ C.
Definindo
Jν (z) cos(νπ) − J−ν (z)
Nν (z) := ,
sen(νπ)
as funções Jν (z) e Nν (z) são também duas soluções independentes.
Nν (z) :=
!
2 z 1 X (ν − n − 1)! z 2n−ν 1 X (−1)n (hn + hn+ν ) z 2n+ν
ν−1 ∞
γ + ln Jν (z) − − ,
π 2 2 n=0 n! 2 2 n=0 n! (n + ν)! 2
sendo que
n
X
1 1 1 1
h0 := 0 , hn := 1 + + + · · · + = , ∀n≥1.
2 3 n l
l=1
Até o momento definimos as funções de Bessel Jν através das expressões (8.119) e (8.120), mas
apenas para ν’s que não sejam inteiros negativos. A expressão (8.119) contém uma função Γ(x) no
denominador e Γ(x) diverge se x for inteiro negativo. Por isso, em princı́pio (8.119) não está definida
para ν’s inteiros negativos.
A experiência mostrou, porém, que é conveniente definir Jν para ν’s que sejam inteiros negativos
através da seguinte expressão:
J−m (z) := (−1)m Jm (z) , (8.121)
para todo m ∈ N e todo z ∈ C. Note que, como a equação de Bessel é invariante pela troca ν → −ν,
J−m definida acima é solução da equação de Bessel de ordem ±m. A conveniência dessa convenção não
pode ser apreciada no momento, mas irá manifestar-se quando discutirmos algumas propriedades das
funções de Bessel na Seção 9.2.6, que inicia-se na página 548, tais como as relações de recorrência e a
função geratriz.
Sugestão: Jm (z) é uma soma de monômios da forma z 2k+m e vale (−z)2k+m = (−1)m z 2k+m . 6
E. 8.13 Exercı́cio. Prove as afirmações acima, ou seja, prove que (8.123) é asolução geral de (8.122).
Sugestão: defina a função v por y(z) =: z α v(βz γ ) e, substituindo em (8.122), mostre que v satisfaz a
equação de Bessel de ordem ν. 6
Dois casos particulares de interesse, dentro da classe definida em (8.122), são a equação de Airy (que
corresponde a α = 1/2, β = 2/3, γ = 3/2 e ν = 1/3) e a equação de Bessel esférica (que corresponde a
α = −1/2, β = 1, γ = 1 e ν = σ + 1/2). Trataremos desses casos logo abaixo.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 8 457/1461
O estudante deve observar que, caso 2γ não seja um inteiro positivo ou zero, a equação (8.122) não
é singular regular em z0 = 0 (compare à (8.47)) e, portanto, a ela não se aplica o método de Frobenius.
A solução dada em (8.123), de fato, não é como aquelas obtidas pelo método de Frobenius, que seriam
da forma z η φ(z) ou da forma z η ln(z)φ(z), para alguma constante η e com φ analı́tica em torno de
z0 = 0. Por exemplo, tem-se
z νγ+α X∞
(−1)k β 2k+ν z 2kγ
α γ
z Jν (βz ) = ,
2 k=0
k! Γ(k + 1 + ν) 2
que não é da forma z η φ(z) com φ analı́tica em torno de z0 = 0, pois a série do lado direito não é uma
série de potências em z.
Como dissemos acima, várias equações diferenciais podem ser transformadas em equações de Bessel.
Um exemplo é o da equação de Airy: y ′′(z) − zy(z) = 0, cujas soluções foram apresentadas na Seção
17
8.1.4, página 420. A maneira mais simples de ver isso
√ é a seguinte
. Se y é uma solução da equação de
2 3/2
Airy, então a função v(z) definida por por y(z) =: zv 3 z satisfaz a equação de Bessel de ordem
ν = 1/3, como facilmente se constata.
Na Seção 10.2.3, página 599, veremos uma aplicação dessas considerações sobre as soluções da
equação de Airy.
A equação diferencial
A equação de Bessel esférica surge, por exemplo, quando da resolução da equação de Helmholtz em
três dimensões em coordenadas esféricas (vide Capı́tulo 10, página 583) e, portanto, é importante para
o estudo da propagação de ondas ou de fenômenos de difusão em três dimensões.
Se definirmos v(z) = z 1/2 y(z), obtemos para v a equação diferencial
2 !
1
z 2 v ′′ (z) + zv ′ (z) + z 2 − σ + v(z) = 0 ,
2
que nada mais é que a equação de Bessel usual de ordem σ + 12 . Conseqüentemente as soluções da
equação de Bessel esférica são da forma
Jσ+ 1 (z) Nσ+ 1 (z)
y(z) = A √2 + B √2 ,
z z
onde A e B são constantes arbitrárias.
Em função disso, definem-se as chamadas funções de Bessel esféricas de ordem ν por
r
π
jν (z) := J 1 (z) , (8.126)
2z ν+ 2
e as chamadas funções de Neumann esféricas de ordem ν por
r
π
nν (z) := N 1 (z) . (8.127)
2z ν+ 2
É bastante claro que as funções nν (z) são singulares em z = 0, enquanto que as funções jν (z) não
divergem em z = 0, sendo até mesmo funções inteiras (analı́ticas em toda parte) para ν inteiro não-
negativo.
Um caso de particular interesse é aquele no qual σ = l ∈ N. Nesse caso, podemos escrever a solução
geral da equação de Bessel esférica na forma
Algumas propriedades das funções de Bessel esféricas serão estudadas na Seção 9.2.7, página 566.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 8 459/1461
As funções de Bessel modificadas de segunda espécie e de ordem ν, denotadas por Kν (z), são definidas
por
iν+1 π
Kν (z) := Jν (iz) + iNν (iz) .
2
As funções Kν são denominadas por alguns autores funções de Macdonald18 .
Advertência. O estudante deve ser advertido do fato de não haver, infelizmente, uniformidade na
literatura quanto à definição das funções Kν apresentadas acima, pois alguns textos adotam para Kν
uma combinação linear das funções Jν (iz) e Nν (iz) com constantes ligeiramente diferentes daquelas de
acima. [153], por exemplo, multiplica a expressão por cos(νπ) de modo a fazer com que as funções
Kν satisfaçam as mesmas relações de recorrência que as funções Iν . Desastradamente, porém, isso
faz com que a expressão se anule se ν = 1/2 + k, com k ∈ Z. A definição que adotamos é a mais
comum atualmente e, curiosamente, coincide com a original de Basset19 de 1886. Vide [153] para outros
comentários sobre esse ponto.
Note-se que Iν (z) e Kν (z) são linearmente independentes, de modo que a solução geral da equação
de Bessel modificada de ordem ν é uma combinação linear aIν (z) + bKν (z), onde a e b são constantes.
É de se notar que se ν > 0 e se e z > 0 então todos os termos da série acima são positivos e, portanto,
Iν (z) > 0. Assim, ao contrário das funçõs de Bessel, as funções de Bessel modificadas Iν não se anulam
no eixo real positivo. O mesmo pode ser facilmente provado sobre as funções Kν , as quais divergem
em z = 0.
onde
1 Xh i
n−1
λ−n+1
cn = − man−m + bn−m c m = − cn−1 , n≥2,
n2 m=0 n2
e
" n−1 h
#
1 n
X X i
vn = − 2 − 2n − 1 cn − an−m cm + man−m + bn−m vm
n m=0 m=0
" #
1 λ−n+1
= − 2 −2n cn + cn−1 − vn−1 , ∀n ≥ 1 , (8.134)
n n2
20
Edmond Nicolas Laguerre (1834-1886).
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 8 461/1461
e y1 (z) fica
∞ n−1
! ∞
X (−1)n Y X (−1)n Γ(λ + 1)
n
y1 (z) = 1 + (λ − l) z = 1+ zn . (8.135)
n=1
(n!)2 l=0 n=1
2
(n!) Γ(λ − n + 1)
Xm
(−1)n m
= zn
n=0
n! n
Os chamados polinômios de Laguerre, denotados por Lm (z), são definidos como m! vezes o polinômio
acima21 : m
X
n m! m
Lm (z) := (−1) zn . (8.136)
n=0
n! n
Os quatro primeiros são
É fácil provar, também, que a seguinte expressão é válida (vide página 541):
dm m −z
Lm (z) = ez z e . (8.137)
dz m
Os polinômios de Laguerre Lm (z) são, portanto, uma das soluções da equação de Laguerre (com
λ = m)
zy ′′ (z) + (1 − z)y ′ (z) + my(z) = 0, (8.138)
21
O fator de normalização m! tem origem histórica. O leitor deve ser advertido do fato, já lamentado páginas acima,
que em alguns textos outra normalização é empregada.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 8 462/1461
com z ∈ C, onde m ∈ N. De acordo com (8.133), uma segunda solução é dada na forma
∞
X
y2 (z) = Lm (z) ln(z) + vn z n ,
n=0
onde os coeficientes vn são dados em (8.134) em termos dos coeficientes cn dos polinômios de Laguerre.
Após cálculos um tanto maçantes, chega-se à seguinte expressão:
m
X
m! k m
y2 (z) = Lm (z) ln(z) + (−1) (hm−k − hm − 2hk ) z k
k=1
k! k
∞
X
m (k − 1)!
+ (−1) z m+k ,
k=1
(m + 1)2 (m+ 2)2 · · · (m + k)2
E. 8.18 Exercı́cio. Caso o leitor não deseje fazer o exercı́cio anterior, poderá contentar-se com a tarefa
mais simples de verificar que a expressão acima é, de fato, uma solução de (8.138). 6
das equações diferenciais ordinárias mais estudadas, sendo suas soluções riquı́ssimas em propriedades.
Sua abordagem completa está muito além das pretensões destas Notas e, para um tratamento deta-
lhado, recomendamos as referências [70], [137], [153], [92], [68] e outras. Propriedades combinatórias
envolvendo as séries hipergeométricas e suas generalizações podem ser encontradas em [53].
Vamos aqui apresentar as soluções da equação hipergeométrica (8.139) em termos de expansões em
torno de seu ponto singular regular z0 = 0. O leitor poderá encontrar em [137] soluções de (8.139)
expressas como expansões em torno dos outros pontos singulares regulares z0 = 1 e z0 = ∞. O interesse
nessas últimas expansões é um tanto menor, especialmente pois as mesmas podem ser expressas em
termos das soluções obtidas em torno de z0 = 0. Reescrevemos (8.139) na forma
a(z) ′ b(z)
y ′′ (z) +
y (z) + 2 y(z) = 0, (8.140)
z z
sendo a(z) e b(z) analı́ticas em |z| < 1, a saber,
X∞ X∞
γ − (1 + α + β)z n
a(z) = = an z = γ + (γ − 1 − α − β)z n ,
1−z n=0 n=1
X∞ X∞
αβz n
b(z) = − = bn z = (−αβ)z n .
1−z n=0 n=1
onde
n−1 h i 1 Xh i
X n−1
1
cn = − (m + 1 − γ)an−m + bn−m cm , dn = − man−m + bn−m dm ,
f (1 − γ + n) m=0 f (n) m=0
para todo n ≥ 1. Nesse caso, porém, não é tão simples resolver recursivamente essas equações, pelo
menos na maneira como estão expressas acima. É muito mais fácil obter as relações recursivas de
outra forma: inserindo (8.141) na equação diferencial ainda na forma (8.139). Com esse procedimento,
começando pela solução y2 (z), obtem-se alegremente para os coeficientes dn a seguinte relação recursiva:
(α + n)(β + n)
dn+1 = dn , (8.142)
(n + 1)(γ + n)
para todo n ≥ 0.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 8 464/1461
são os denominados sı́mbolos de Pochhammer23. Quando x não é um inteiro negativo ou zero, podemos
escrever
Γ(x + n)
(x)n = .
Γ(x)
Com isso, obtemos para a solução y2 a expressão
∞
X ∞
(α)n (β)n Γ(γ) X Γ(α + n)Γ(β + n) z n
F (α, β, γ, z) := 1 + zn = . (8.144)
n=1
n!(γ)n Γ(α)Γ(β) n=0 Γ(γ + n) n!
Essa função, introduzida por Gauß em cerca de 1812, é denominada função hipergeométrica, deno-
minação aparentemente criada por Kummer24 em 1836. Contribuı́ram à teoria das funções hiper-
geométricas nomes como Euler, Gauß, Kummer e Riemann. Na literatura F (α, β, γ, z) é muitas
vezes denotada por 2 F1 (α, β, γ, z)25 .
Repetindo considerações anteriores, F (α, β, γ, z) é analı́tica como função de z pelo menos na
região |z| < 1. No caso em que α ou β são inteiros não-positivos, é fácil ver que F (α, β, γ, z)
reduz-se a um polinômio e é, portanto, analı́tica em toda parte. Exceto nesses casos, a série que define
F (α, β, γ, z) é divergente para |z| > 1, como se vê pelo teste da razão, pois
(α)n+1 (β)n+1 n+1
(n+1)!(γ)n+1 z |α + n| |β + n|
(α)n (β)n = |z| ,
zn (n + 1) |γ + n|
n!(γ)n
que para n grande aproxima-se de |z| > 1. Casualmente, o mesmo argumento prova convergência da
série hipergeométrica (8.144) para |z| < 1.
Fazemos ainda notar que a expressão acima para F (α, β, γ, z) está definida mesmo para o caso em
que γ é um inteiro positivo e, portanto, representa uma solução da equação hipergeométrica naquele
23
Leo August Pochhammer (1841-1920).
24
Ernst Eduard Kummer (1810-1893).
25
A explicação da notação 2 F1 é a seguinte: o “2” à esquerda indica a presença de dois sı́mbolos de Pochhammer no
numerador dos termos da série hipergeométrica (8.144). O “1” à direita indica a presença de um sı́mbolo de Pochhammer
no denominador. Há generalizações da série (8.144) que definem as chamadas funções hipergeométricas generalizadas,
denotadas por k Fl , e que contêm k sı́mbolos de Pochhammer no numerador e l no denominador (vide e.g. [53]). Mais
abaixo encontraremos as funções hipergeométricas confluentes, que são do tipo 1 F1 .
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 8 465/1461
caso. Para γ nulo ou um inteiro negativo, digamos γ = −m, o denominador (γ)n anula-se para n > m
e a expressão para F (α, β, γ, z) deixa de fazer sentido.
Para obtermos a outra solução inserimos y1 de (8.141) na equação diferencial ainda na forma (8.139)
e obtemos alegremente para os coeficientes cn a relação
(n + α + 1 − γ)(n + β + 1 − γ)
cn+1 = cn ,
(n + 1)(n + 2 − γ)
para todo n ≥ 0.
Alguns segundos de contemplação nos levam a concluir que essas relações são idênticas àquelas de
(8.142), desde que lá façamos as seguintes modificações: α → α + 1 − γ, β → β + 1 − γ e γ → 2 − γ.
Por trás dessa aparente coincidência residem propriedades de simetria da equação hipergeométrica. O
leitor poderá encontrar essa discussão nos textos supra-citados.
Assim, tomando-se também c0 = 1, concluı́mos que a outra solução é
z 1−γ F (α + 1 − γ, β + 1 − γ, 2 − γ, z) .
Fazemos ainda notar que F (α + 1 − γ, β + 1 − γ, 2 − γ, z) está definida mesmo para o caso em que
γ é um inteiro não-positivo e, portanto, z 1−γ F (α + 1 − γ, β + 1 − γ, 2 − γ, z) representa uma solução
da equação hipergeométrica naquele caso.
Resumindo nossas conclusões, para o caso γ 6∈ Z a solução geral da equação hipergeométrica (8.139)
expressa em termos de uma expansão em torno do ponto singular regular z0 = 0 é
A1 z 1−γ F (α + 1 − γ, β + 1 − γ, 2 − γ, z) + A2 F (α, β, γ, z) .
Pelo mesmo argumento de acima, a expansão em série do lado direito converge para |z| < 1 e diverge
para |z| > 1.
Pelo Teorema 8.2, página 429, a segunda solução tem a forma
∞
X
F (α, β, 1, z) ln(z) + vn z n ,
n=0
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 8 466/1461
com os vn dados em (8.56) em termos dos cn de acima. A expressão que se obtem é um tanto complexa
e evitamos colocá-la aqui. O leitor poderá encontrá-la, por exemplo, em [137].
Caso 3. γ − 1 ∈ Z \ {0}, ou seja, γ ∈ Z mas γ 6= 1.
Há dois casos a distinguir: a. γ > 1 e b. γ ≤ 0.
No caso a, γ = m, com m > 1 inteiro. Aqui tem-se n0 = m − 1, γ1 = γ+ = 0 e γ2 = γ− = 1 − m.
Como já observamos acima, uma solução é dada por F (α, β, m, z). Uma segunda solução será da
forma ∞
X
1−m
AF (α, β, m, z) ln(z) + z vn z n ,
n=0
com os vn e A dados como em (8.60) e (8.61) a partir dos coeficientes cn de F (α, β, m, z). Novamente,
a expressão que se obtem é complexa e remetemos o estudante a, e.g., [137].
No caso b, γ = −m, com m ≥ 0 inteiro. Aqui tem-se n0 = m + 1, γ1 = γ− = 1 + m e γ2 = γ+ = 0.
Como já observamos acima, uma solução é dada por z 1+m F (α + 1 + m, β + 1 + m, 2 + m, z). Uma
segunda solução será da forma
∞
X
1+m
Az F (α + 1 + m, β + 1 + m, 2 + m, z) ln(z) + vn z n ,
n=0
Assim como no caso da equação hipergeométrica, há várias equações diferenciais de interesse que
podem ser transformadas em equações hipergeométricas confluentes. Os exemplos mais evidentes são
a equação de Laguerre, Seção 8.2.6, página 460, que corresponde a γ = 1 e α = −λ, e a equação de
Laguerre associada, Seção 8.3.2, página 472, que corresponde a γ = m + 1 e α = −(n − m). Com
isso, pode-se estudar certas propriedades de várias funções especiais, tais como seu comportamento
assintótico, a partir das propriedades correspondentes de funções hipergeométricas confluentes.
Para a equação hipergeométrica confluente tem-se
[γ − z] ′ αz
y ′′ (z) + y (z) − 2 y(z) = 0
z z
e assim, comparando com a forma padrão (8.47), temos
Logo,
γ, para n = 0
−α, para n = 1
an = −1, para n = 1 , bn = .
0, para n = 0 ou n ≥ 2
0, para n ≥ 2
A equação indicial é, portanto,
f (x) = x(x + γ − 1) ,
cujas raı́zes são
γ− = 1 − γ e γ+ = 0 ,
tal como para a equação hipergeométrica. Há, assim, três casos a considerar: 1. γ − 1 6∈ Z, ou seja,
γ 6∈ Z. 2. γ = 1. 3. γ − 1 ∈ Z \ {0}, ou seja, γ ∈ Z mas γ 6= 1.
Caso 1. γ − 1 6∈ Z, ou seja, γ 6∈ Z.
Aqui, de acordo com (8.52) e (8.53), as soluções são
∞
X ∞
X
1−γ n
y1 (z) = z cn z e y2 (z) = dn z n , (8.147)
n=0 n=0
onde
n−1 h i 1 Xh i
X n−1
1
cn = − (m + 1 − γ)an−m + bn−m cm , dn = − man−m + bn−m dm ,
f (1 − γ + n) m=0 f (n) m=0
o que conduz a
(α + 1 − γ)n (α)n
cn = c0 , dn = d0 , (8.148)
n!(2 − γ)n n!(γ)n
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 8 468/1461
Esta função é denominada função hipergeométrica confluente ou, por vezes, função de Kummer.
E. 8.21 Exercı́cio. Prove, usando diretamente as definições, a seguinte relação entre as funções hiper-
geométricas confluentes e as funções hipergeométricas:
z
1 F1 (α, γ, z) = lim F α, β, γ, .
|β|→∞ β
6
vemos que a mesma converge para todo z, pois para cada z fixo o lado direito torna-se menor que 1
para n grande o suficiente. Assim, 1 F1 (α, γ, z) é analı́tica para todo z ∈ C.
Fazemos ainda notar que a expressão acima para 1 F1 (α, γ, z) está definida mesmo para o caso em
que γ é um inteiro positivo e, portanto, representa uma solução da equação hipergeométrica confluente
naquele caso. Para γ nulo ou um inteiro negativo, digamos γ = −m, o denominador (γ)n anula-se para
n > m e a expressão para F (α, γ, z) deixa de fazer sentido.
Passemos agora à solução y1 . Alguns segundos de contemplação das expressões de (8.148) conduzem-
nos à percepção que a relação entre cn e c0 equivale à relação entre dn e d0 com a troca α → α + 1 − γ
e γ → 2 − γ (tal como se fez no caso da equação hipergeométrica, acima). Assim, convencionando-se
também c0 = 1 tem-se que a solução y1 (z) é dada por
z 1−γ 1 F1 (α + 1 − γ, 2 − γ, z) .
Fazemos ainda notar que 1 F1 (α + 1 − γ, 2 − γ, z) está definida mesmo para o caso em que γ é
um inteiro não-positivo e, portanto, z 1−γ 1 F1 (α + 1 − γ, 2 − γ, z) representa uma solução da equação
hipergeométrica confluente naquele caso.
Resumindo, para o caso γ 6∈ Z a solução geral da equação hipergeométrica confluente (8.146) é
A1 z 1−γ 1 F1 (α + 1 − γ, 2 − γ, z) + A2 1 F1 (α, γ, z) ,
onde A1 e A2 são constantes arbitrárias.
Caso 2. γ = 1.
Esse é o caso da equação de Laguerre.
P∞
Aqui γ− = γ+ = γ0 = 0. Nesse caso a primeira solução é da forma y1 (z) = n=0 cn z n e, de modo
análogo, obtemos
(α + n)
cn+1 = cn , (8.150)
(n + 1)2
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 8 469/1461
com os vn dados em (8.56) em termos dos cn de acima. A expressão que se obtem é um tanto complexa
e evitamos colocá-la aqui.
Caso 3. γ − 1 ∈ Z \ {0}, ou seja, γ ∈ Z mas γ 6= 1.
Esse é o caso da equação de Laguerre associada.
Há dois casos a distinguir: a. γ > 1 e b. γ ≤ 0.
No caso a, γ = m, com m > 1 inteiro. Aqui tem-se n0 = m − 1, γ1 = γ+ = 0 e γ2 = γ− = 1 − m.
Como já observamos acima, uma solução é dada por 1 F1 (α, m, z). Uma segunda solução será da forma
∞
X
1−m
A 1 F1 (α, m, z) ln(z) + z vn z n ,
n=0
com os vn e A dados como em (8.60) e (8.61) a partir dos coeficientes cn de 1 F1 (α, m, z). Novamente,
a expressão que se obtem é complexa e a omitimos aqui.
No caso b, γ = −m, com m ≥ 0 inteiro. Aqui tem-se n0 = m + 1, γ1 = γ− = 1 + m e γ2 = γ+ = 0.
Como já observamos acima, uma solução é dada por z 1+m 1 F1 (α + 1 + m, 2 + m, z). Uma segunda
solução será da forma
∞
X
1+m
Az 1 F1 (α + 1 + m, 2 + m, z) ln(z) + vn z n ,
n=0
com os vn e A dados como em (8.60) e (8.61) a partir dos coeficientes cn de z 1+m 1 F1 (α+1+m, 2+m, z).
Novamente, a expressão que se obtem é complexa e é omitida aqui.
Com isso encerramos nossa breve excursão às funções hipergeométricas confluentes. Para um tra-
tamento extensivo da equação hipergeométrica confluente e propriedades de suas soluções, vide [134],
[70] ou [153].
µ2
(1 − z 2 )y ′′ (z) − 2zy ′ (z) + λ(λ + 1)y(z) − y(z) = 0 . (8.151)
1 − z2
Como é fácil de se constatar, os pontos ±1 são pontos singulares regulares da equação de Legendre
associada. Repare também que para µ = 0 recupera-se a equação de Legendre usual
Se, por outro lado, tomarmos a equação (8.152) e a derivarmos m vezes, obtemos
2 (m) ′′ (m) ′
(1 − z ) y (z) − 2(m + 1)z y (z) + λ(λ + 1) − m(m + 1) y (m) (z) = 0 . (8.154)
E. 8.23 Exercı́cio importante. Mostre isso. Sugestão: use a regra de Leibniz para calcular as derivadas
dm 2 ′′ dm ′
dz m (1 − z )y (z) e dz m zy (z) . 6
Comparando (8.153) com (8.154), constatamos que ambas são a mesma equação. Com isso, vemos
que se yL é a solução geral da equação de Legendre e yLa é a solução geral da equação de Legendre
(m)
associada, então (1 − z 2 )−m/2 yLa (z) e yL (z) devem ser proporcionais, já que obedecem à mesma
equação (8.153). Com isso, obtemos que a solução geral da equação de Legendre associada pode ser
obtida da solução geral da equação de Legendre por
(m)
yLa (z) = km (1 − z 2 )m/2 yL (z) ,
polinômios de Legendre Pl (z), os quais ocorrem como solução apenas no caso λ = l, um inteiro não-
negativo. Obtemos assim que as soluções de interesse da ação de Legendre associada que são limitadas
em todo o intervalo fechado [−1, 1] ocorrem para λ = l, um inteiro não-negativo, e são dadas por
dm
Plm (z) := (1 − z 2 )m/2 Pl (z) , (8.155)
dz m
onde Pl é o polinômio de Legendre de grau l. É claro que Plm (z) é nulo se m > l (pois Pl é um polinômio
de grau l).
As funções Plm definidas acima são denominadas polinômios de Legendre associados, ainda que não
sejam realmente polinômios em z no caso em que m é ı́mpar (devido ao fator (1 − z 2 )m/2 )26 e de-
sempenham um papel importante na resolução de equações diferenciais parciais em 3 dimensões em
coordenadas esféricas, tais como a equação de Laplace e de Helmholtz. A eles estão intimamente re-
lacionados as chamadas funções harmônicas esféricas, das quais falaremos na Seção 9.2.2, página 527,
e que desempenham um papel na Mecânica Quântica (orbitais atômicos), na Teoria de Grupos (re-
presentações do grupo SO(3)), no Eletromagnetismo (emissão de ondas eletromagnéticas por antenas)
etc.
As funções Plm estão definidas acima para l inteiro não-negativo, ou seja l = 0, 1, 2, 3, . . ., e m
inteiro com 0 ≤ m ≤ l (pois para m > l o lado direito de (8.155) anula-se). Cada Plm é solução da
equação de Legendre associada
m2
(1 − z 2 )y ′′(z) − 2zy ′ (z) + l(l + 1)y(z) − y(z) = 0 . (8.156)
1 − z2
Na Seção 9.2.1, que se inicia à página 521, mostraremos que os polinômios de Legendre podem ser
escritos como
1 dl 2 l
Pl (z) = l (z − 1) ,
2 l! dz l
expressão essa conhecida como fórmula de Rodrigues para os polinômios de Legendre. Assim, obtemos
l+m
m 1 2 m/2 d 2 l
Pl (z) = l (1 − z ) (z − 1) , (8.157)
2 l! dz l+m
expressão válida para 0 ≤ m ≤ l, com l um inteiro não-negativo: l = 0, 1, 2, 3, . . .. Caso m > l, o
lado direito se anula.
Um ponto interessante, porém, é que a expressão do lado direito de (8.157) está bem definida para
quaisquer l e m com l + m ≥ 0, ou seja, também para m’s negativos tais que m ≥ −l. Assim, (8.157)
está definida para todo m inteiro com −l ≤ m ≤ l27 .
Da expressão (8.157), entendida para todo l inteiro não-negativo e −l ≤ m ≤ l, é possı́vel mostrar
que
(l − m)! m
Pl−m (z) = (−1)m P (z) .
(l + m)! l
26
Se, no entanto, substituirmos z por cos θ, com 0 ≤ θ ≤ π, o que costumeiramente se faz em aplicações, Plm (cos θ)
torna-se um polinômio trigonométrico, ou seja, um polinômio em cos θ e senθ, já que (1 − z 2 )m/2 torna-se ( sen(θ))m .
Essa é a razão dessa nomenclatura. Vide expressão (9.66), página 530.
27
De passagem, comentamos que a relação −l ≤ m ≤ l desempenha um papel na teoria do momento angular na
Mecânica Quântica, mas isso não é nosso assunto aqui.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 8 472/1461
Essa relação, que é relevante para as chamadas funções harmônicas esféricas, mostra que Pl−m (z) é
também solução da equação de Legendre associada (8.156), por ser proporcional a Plm (z). Trataremos
disso na Seção 9.2.2, página 527, onde outras propriedades dos polinômios de Legendre associados serão
apresentadas e sua relação com as harmônicas esféricas será discutida.
O principal interesse nessa equação reside no caso onde m e n são inteiros satisfazendo 0 ≤ m ≤ n.
Como o leitor facilmente constata, trata-se de um caso particular da equação hipergeométrica confluente
(8.146). A equação de Laguerre associada surge da equação de Schrödinger para o átomo de hidrogênio
quando a mesma é resolvida pelo método de separação de variáveis em coordenadas esféricas.
A solução dessa equação pode ser obtida diretamente da solução da equação de Laguerre usual
xy ′′ + (1 − x)y ′ + ny = 0 (8.159)
pois esta, quando diferenciada m vezes em relação à x, transforma-se exatamente na equação (8.158).
Assim, se y é solução de (8.159) segue que y (m) é solução de (8.158). Concluı́mos que as únicas
soluções de (8.158) que são regulares em x = 0 são da forma
(m) dm dm x d
n
n −x
Ln (x) = Ln (x) = e (x e ) . (8.160)
dxm dxm dxn
Mais propriedades dos polinômios de Laguerre associados serão estudadas na Seção 9.2.5, página
544.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 8 473/1461
A função Γ, pode ser definida em todo plano complexo (exceto, como veremos, para inteiros não-
positivos, onde possui pólos simples). No semiplano Re (z) > 0, Γ(z) é definida por
Z ∞
Γ(z) := e−t tz−1 dt . (8.161)
0
A seguinte proposição contém informações relevantes sobre (8.161) e sobre a estrutura analı́tica de Γ:
Proposição 8.2 A integral em (8.161) converge absolutamente para todo z ∈ C com Re (z) > 0. A
função Γ definida por (8.161) é analı́tica no semiplano Re (z) > 0 e pode ser analiticamente estendida
a todo C, exceto para os pontos z = 0, −1, −2 . . . que são pólos simples de Γ. É válida a chamada
representação de Mittag-Leffler da função Γ, ou representação em soma de frações parciais da função
Γ: ∞ Z ∞
X (−1)n 1
Γ(z) = + e−t tz−1 dt , (8.162)
n=0
n! z + n 1
sendo que a integral no lado direito é analı́tica para todo z ∈ C e soma no lado direito converge
uniformemente em regiões finitas de C que excluam os inteiros não-positivos e, portanto, representa
uma função analı́tica para todo z ∈ C, exceto nos inteiros não-positivos, onde possui pólos simples. O
(−1)n
resı́duo de Γ em z = −n é dado por n! para todo n = 0, 1, 2, . . .. 2
Prova. Para ver que a integral em (8.161) converge absolutamente para Re (z) > 0, escrevemos z = x+iy
com x = Re (z), y = Im (z) e escolhemos α e β tais que 0 < α < x < β < ∞. Como |tz−1 | = tx−1
tem-se
Z ∞ Z ∞
−t z−1
e t dt = e−t tx−1 dt
0 0
Z 1 Z ∞ Z 1 Z ∞
−t x−1 −t x−1 −t α−1
= e t dt + e t dt ≤ e t dt + e−t tβ−1 dt .
0 1 0 1
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 8 474/1461
R1
Agora, a integral 0
e−t tα−1 dt é finita, pois, para α > 0
Z 1 Z 1
−t α−1 1
e t dt ≤ tα−1 dt = < ∞,
0 0 α
R∞
enquanto que 1 e−t tβ−1 dt é finita para qualquer β ∈ R pois, devido ao rápido decaimento da expo-
nencial, tem-se
lim e−γt tβ−1 = 0 ,
t→∞
para todo γ > 0, o que implica que existe constante Cγ, β > 0 tal que
é analı́tica na região Re (z) > 0. Isso se deve ao fato de ser possı́vel verificar a validade das relações
de Cauchy-Riemann para Γa, A (z), diferenciando-a sob o sı́mbolo de integração e usando o fato de que
tz−1 = e(z−1) ln(t) é analı́tica em z para t > 0. Que é possı́vel diferenciar sob o sı́mbolo de integração
segue do fato de o integrando ser contı́nuo em t e a região de integração ser o intervalo compacto [a, A].
Uma vez estabelecido que Γa, A (z) é analı́tica em Re (z) > 0, podemos provar que ΓA (z), definida
por Z A
ΓA (z) := lim Γa, A (z) = e−t tz−1 dt , (8.164)
a→0 0
é também analı́tica em Re (z) > 0. Para tal, tomemos z ∈ Fα, β , onde Fα, β ⊂ C é a faixa definida por
com 0 < α < β < ∞, ou seja, tomemos 0 < α < Re (z) < β. Então, para A > 0 fixo e 0 < a′ < a < 1,
Z a Z a
−t x−1 (a′ )α − aα
|Γa, A (z) − Γa′ , A (z)| ≤ e t dt ≤ tα−1 dt = ,
a′ a′ α
que pode ser feito menor que qualquer ǫ > 0 dado, para todos a e a′ pequenos o suficiente. Dessa
forma, o limite que define ΓA (z) em (8.164) é uniforme em Fα, β , Assim, por ser o limite uniforme de
funções analı́ticas, ΓA (z) é igualmente analı́tica em Fα, β (esse é um teorema bem-conhecido da teoria
das funções de variável complexa). Como α e β são arbitrários (0 < α < β), ΓA (z) é analı́tica para
todo o semiplano Re (z) > 0.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 8 475/1461
é analı́tica para todo o semiplano Re (z) > 0 temos que provar que esse limite é uniforme nas faixas
z ∈ Fα, β e evocar o mesmo teorema da teoria das funções de variável complexa mencionado acima.
Para provar uniformidade do limite, notemos que para 1 < A < B, tem-se, com 0 < γ < 1,
Z B Z A Z B
−t
e t z−1
dt − −t
e t z−1
dt ≤ e−t tx−1 dt
0 0 A
Z B
≤ e−t tβ−1 dt
A
(8.163)
Z B
≤ Cγ, β e−(1−γ)t dt
A
Cγ, β −(1−γ)A
= e − e−(1−γ)B ,
1−γ
que pode ser feito menor que qualquer ǫ > 0 prescrito para todos A e B grandes o suficiente. Isso
provou que o limite em (8.165) é uniforme em cada faixa Fα, β com 0 < α < β, mostrando que Γ(z) é
analı́tica em cada uma dessas faixas Fα, β e, portanto, em todo o semiplano Re (z) > 0.
Para provar que Γ possui uma extensão analı́tica para a região Re (z) ≤ 0 (exceto, como mencio-
namos, os inteiros não-positivos), notamos que para Re (z) > 0 podemos escrever (8.161) trivialmente
como Z Z
1 ∞
−t z−1
Γ(z) := e t dt + e−t tz−1 dt .
0 1
R∞
Agora, a integral imprópria I(z) := 1 e−t tz−1 dt é analı́tica para todo z ∈ C, o que pode ser visto
repetindo os argumentos de convergência uniforme de acima: para 1 < A < A′ < ∞, escrevendo
x = Re (z) e restringindo-nos provisoriamente à região x < β, para algum β ∈ R, temos
Z Z A′ Z ′
A A
e−t tz−1 dt − e−t tz−1 dt = e−t tz−1 dt (8.166)
1 1 A
Z A′
≤ e−t tx−1 dt (8.167)
A
Z A′
t≥1
≤ e−t tβ−1 dt (8.168)
A
(8.163)
Z A′
≤ Cγ, β e−(1−γ)t dt (8.169)
A
′
e−(1−γ)A − e−(1−γ)A
= Cγ, β , (8.170)
1−γ
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 8 476/1461
que, escolhendo-se 0 < γ < 1, pode ser feita menor Rque qualquer ǫ > 0 prescrito para todos A, A′
A
grandes o suficiente. Isso prova que o limite limA→∞ 1 e−t tz−1 dt é uniforme na região Re (z) < β, o
que prova que a integral imprópria I(z), sendo o limite uniforme de funções analı́ticas em Re (z) < β,
é também analı́tica nessa região. Como β ∈ R é arbitrário, concluı́mos que a integral imprópria I(z) é
analı́tica em todo o plano complexo C.
R1
Já para a integral Γ1 (z) = 0 e−t tz−1 dt tem-se
Z 1 Z 1 X∞
!
n
(−1)
e−t tz−1 dt = tn tz−1 dt
0 0 n=0
n!
∞
X Z 1
(−1)n
= tn+z−1 , dt
n=0
n! 0
∞
X (−1)n 1
= ,
n=0
n! z+n
(a inversão da série pela integral na segunda linha acima é justificada pois, como é bem sabido, a série
de Taylor da função exponencial converge uniformemente em intervalos compactos, como o intervalo
de integração [0, 1]).
Dessa forma, obtemos a representação de Mittag-Leffler28 da função Γ, ou representação em soma
de frações parciais da função Γ:
X∞ Z ∞
(−1)n 1
Γ(z) = + e−t tz−1 dt . (8.171)
n=0
n! z + n 1
Como dissemos, a integral no lado direito de (8.171) é analı́tica para todo z ∈ C. Já a soma no lado
direito de (8.171) converge uniformemente (devido ao n! no denominador) em regiões finitas de C que
excluam os pontos 0, −1, −2, −3, . . . e, portanto, representa uma função analı́tica para todo z ∈ C,
exceto nos inteiros não-positivos, como mencionado, onde possuin pólos simples. Como se constata
inspecionando (8.171), o resı́duo de Γ em z = −n é dado por (−1) n!
para todo n = 0, 1, 2, 3, . . .. Isso
completa a demonstração.
O gráfico de Γ(x) para x real no intervalo (0, 5] pode ser visto na Figura 8.4, página 477. A Figura
8.5, página 478, exibe o gráfico de Γ(x) para valores negativos de x, a saber, no intervalo (−4, 0) .
A demonstração acima da existência da mencionada extensão de Γ para argumentos com parte
real negativa mostra que essa extensão pode ser calculada por meio da representação de Mittag-Leffler
(8.171). Como veremos mais abaixo, porém, há uma outra forma, talvez mais conveniente, de expressar
essa extensão, a saber, com uso da chamada fórmula dos complementos:
π
Γ(z)Γ(1 − z) = ,
sen(πz)
28
Magnus Gösta Mittag-Leffler (1846-1927). Para a definição geral da noção de série de Mittag-Leffler, vide [120] ou
[82]. Um outro exemplo da série de Mittag-Leffler é a representação de Euler da função cotangente, expressão (9.201),
página 577.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 8 477/1461
Γ
25
20
15
10
0
0.0 0.5 1.0 1.5 2.0 2.5 3.0 3.5 4.0 4.5 5.0
x
Figura 8.4: Gráfico de Γ(x) para x ∈ (0, 5]. Observe que Γ diverge em 0.
com a qual, caso Re (z) > 0, a extensão de Γ para argumentos com parte real negativa (lado esquerdo)
pode ser calculada em termos de Γ(z) com Re (z) > 0 (no lado direito), dada concretamente pela
integral (8.161).
Mais abaixo apresentaremos outro argumento, talvez mais elementar, para provar que Γ possui uma
extensão analı́tica para o semiplano Re (z) ≤ 0 (exceto os inteiros não-positivos).
Antes disso, façamos alguns comentários importantes.
• Convexidade de Γ e de ln Γ
A segunda expressão acima diz-nos que se z for real e positivo (z ≡ x > 0) então Γ′′ (x) > 0 e, portanto,
Γ é uma função convexa em R+ . Em verdade, vale que também ln Γ é convexa em R+ , fato de certa
relevância como veremos abaixo quando mencionarmos o Teorema de Bohr-Mollerup, Teorema 8.4.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 8 478/1461
20 Γ
15
10
0
−4.0 −3.5 −3.0 −2.5 −2.0 −1.5 −1.0 −0.5 −0.0
−5
−10
−15
−20
−25
Figura 8.5: Gráfico de Γ(x) para x ∈ (−4, 0). Observe que Γ diverge em 0 e para inteiros negativos.
Z ∞ 2
−t/2 (x−1)/2 −t/2 (x−1)/2
= e t e t ln(t) dt
0
Z ∞ Z ∞
Cauchy-Schwarz
−t x−1 −t x−1
≤ e t dt e t ln(t) dt = Γ(x)Γ′′ (x) ,
0 0
• A função Γ e o fatorial
provando que
Γ(z + 1) = zΓ(z) . (8.174)
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 8 479/1461
A relação (8.174) é de grande importância e representa a razão de ser da função gama de Euler.
R∞
Por indução finita, e pelo fato de que, por (8.161), Γ(1) = 0 e−t dt = 1, segue facilmente de (8.174)
que
Γ(n + 1) = n! ,
para todo n ∈ N. Assim, a função Γ é uma espécie de extensão complexa do fatorial de números
inteiros positivos.
Essa última observação merece um comentário. Há certamente muitas funções f em R+ satisfazendo
f (n + 1) = n! para todo n ∈ N. Se f é uma função satisfazendo f (x + 1) = xf (x) para todo x ∈ R+ ,
então f (x)/Γ(x) é periódica de perı́odo 1, pois f (x + 1)/Γ(x + 1) = (xf (x))/(xΓ(x)) = f (x)/Γ(x) para
todo x ∈ R+ . Assim, f (x) = P (x)Γ(x) com P periódica de perı́odo 1 é a solução mais geral da equação
f (x + 1) = xf (x). Se P (1) = 1 então f (n + 1) = n! para todo n ∈ N. Um célebre teorema, devido a
Bohr29 e Mollerup30 , garante que a função gama de Euler é única em um certo sentido:
Z ∞
Teorema 8.4 (Teorema de Bohr-Mollerup) A função Γ(x) := e−t tx−1 dt, x > 0, é a única
0
função real em R+ satisfazendo
1. f (1) = 1,
3. ln f é convexa. 2
Uma demonstração desse interessante teorema pode ser encontrada em [8], assim como em [29].
A expressão (8.161) permite definir Γ(z), mas somente se Re (z) > 0 pois, de outra forma, a integral
no lado direito de (8.161) não está definida. É possı́vel, no entanto, estender analiticamente a função
Γ a todo C, exceto aos inteiros não-positivos. Já demonstramos esse fato acima, mas o mesmo pode
também ser diretamente derivado da relação (8.174). Trataremos disso agora.
Para n = 0, 1, 3, . . ., (8.174) diz-nos que
Agora, Γ(z + n) está definida por (8.161) para Re (z + n) > 0, Assim, (8.175) permite definir Γ(z) para
Re (z) > −n. Como n é arbitrário, a fórmula (8.174) prolonga analiticamente Γ(z), exceto nos pontos
z = −n (n = 0, 1, 2 . . .). Note-se que, por (8.175) tem-se na região Re (z) > −n que
Γ(z + n) (8.175)
= = zΓ(z) ,
(z + n − 1) · · · (z + 1)
provando que (8.174) permanece válida para a extensão.
Por (8.175) pode-se ver que z = 0, −1, −2 . . . são pólos simples de Γ. De fato, pode-se calcular o
resı́duo de Γ em cada ponto z = −n e constatar que é não-nulo. Por (8.175), esses resı́duos são dados
por
Γ(z + n + 1) Γ(1) (−1)n
lim (z + n)Γ(z) = lim (z + n) = =
z→−n z→−n (z + n)(z + n − 1) · · · z (−1)(−2) · · · (−n) n!
como já havı́amos observado.
Concluı́mos que Γ possui uma extensão analı́tica ao plano complexo C, exceto aos pontos z =
0, −1, −2, . . ., onde possui pólos simples.
A função Γ pode ser expressa de diversas outras formas, muitas delas úteis para a obtenção de
resultados mais profundos e exibiremos algumas aqui. Uma delas é uma representação produto de
Gauss para a função Γ:
n! nz
Γ(z) = lim , (8.179)
n→∞ z(z + 1) · · · (z + n)
Prova. (De [70] com modificações). Tomemos z ∈ Fα, β , ou seja, α < Re (z) < β, com α e β fixos,
0 < α < β < ∞.
Rn
Como Γ(z) = limn→∞ 0 e−t tz−1 dt, precisamos apenas provar que
Z n n
−t t
lim e − 1− tz−1 dt = 0 . (8.181)
n→∞ 0 n
Defina-se para 0 ≤ t ≤ n, n
t t
hn (t) := 1 − e 1 − .
n
Como facilmente se constata,
n−1
t t
h′n (t)
= e 1− t
≥ 0 para 0 ≤ t ≤ n .
n n
Z t
′
Como hn (0) = 0, segue que hn (t) = h′n (s) ds. Como h′n (s) ≥ 0 para 0 ≤ s ≤ n, segue disso que
0 n−1
hn (t) ≥ 0 para 0 ≤ t ≤ n. Adicionalmente, como 1 − ns ≤ 1 para 0 ≤ s ≤ n, tem-se também
Z Z
s t
s n−1 s
hn (t) = h′n (s) ds = es 1 − ds
0 0 n n
Z t Z t
s s
≤ s
e ds ≤ et ds
0 n 0 n
et t2
= .
2n
et t2
Com isso, estabeleceu-se que 0 ≤ hn (t) ≤ ,
o que implica
2n
n
−t t t2
0 ≤ e − 1− ≤ . (8.182)
n 2n
(8.184)
Z n
≤ 2 e−t tx−1 dt
a
Z n
a>1
≤ 2 e−t tβ−1 dt
a
(8.163)
Z n
≤ 2Cγ, β e−(1−γ)t dt
a
2Cγ, β −(1−γ)a
= e − e−(1−γ)n ,
1−γ
onde x = Re (z) > 0, α < x < β, e usamos que |tz | = tx . A constante positiva γ de (8.163) é arbitrária,
mas vamos escolhê-la de sorte que 0 < γ < 1, o que garante o decaimento da última expressão em n e
a. Paralelamente,
Z a n Z a x+1
−t t x−1 (8.182) t ax+1
|Fa | ≤ e − 1 − t dt ≤ dt =
n 2n 2n(x + 2)
0 0
Portanto, Z n
n
t 2Cγ, β −(1−γ)a
lim −t
e − 1− tz−1
dt ≤ e .
n→∞ 0 n 1−γ
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 8 483/1461
Mas o lado esquerdo não depende de a e o lado direito pode ser feito arbitrariamente pequeno tomando
a → ∞. Isso prova (8.181), completando a demonstração de (8.180) para z ∈ Fα, β . Como α e β são
arbitrários (com 0 < α < β), (8.180) fica provado para todo Re (z) > 0.
..
.
Z n
n iterações n!
= n
tz+n−1 dt
n z(z + 1) · · · (z + n − 1) 0
n! nz+n n! nz
= = . (8.185)
nn z(z + 1) · · · (z + n) z(z + 1) · · · (z + n)
provamos no Lema 8.1 que Γ(z) = limn→∞ Γ(n) (z) para Re (z) > 0. Temos
1 n−z z z
−z ln(n)
= z(z + 1) · · · (z + n) = ze (1 + z) 1 + ··· 1+
Γ(n) (z) n! 2 n
n
z (1+ 12 +···+ n
1
−ln(n))
Y z z
= ze 1+ es
s=1
s
e, portanto,
∞
1 1 γz
Y z −z
= lim (n) = ze 1+ e s ,
Γ(z) n→∞ Γ (z) s=1
s
provando (8.186).
1
Por (8.186) vê-se que Γ(z)
é uma função inteira (i.e., analı́tica em toda parte), o que implica que
Γ(z) não tem zeros. Segue também de (8.186) que Γ(z) = Γ(z).
1 Y z −1
n
n! nz
Γ(n) (z) = = nz 1+
z(z + 1) · · · (z + n) z m=1 m
"n−1 z # Y n
(8.188) Y 1 1 z −1
= 1+ 1+
l=1
l z m=1 m
n z
1 Y 1 z −1
= 1+ 1+ , (8.189)
z(1 + n1 )z m=1 m m
válida para todo z ∈ C, exceto z = 0, −1, −2, −3, . . .. Esta é a representação produto de Euler para
a função Γ. A expressão (8.190), obtida por Euler em 1729, foi a definição historicamente original da
função Γ, a representação integral (8.161) tendo sido obtida posteriormente pelo mesmo autor a partir
de (8.190). Euler chegou a (8.190) propondo-a como solução da equação funcional f (z + 1) = zf (z)
com f (1) = 1, tentando dessa forma obter uma generalização contı́nua do fatorial de números inteiros
positivos.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 8 485/1461
E. 8.25 Exercı́cio. Verifique diretamente de (8.190) que Γ satisfaz Γ(z + 1) = zΓ(z) com Γ(1) = 1.
Sugestão: usando a última expressão em (8.189) considere a razão Γ(n) (z + 1)/Γ(n) (z) e tome o limite
n → ∞. 6
Γ(p) Γ(q)
B(p, q) := (8.191)
Γ(p + q)
Z Z !
∞ π/2
−r 2 2(p+q)−1 2p−1 2q−1
= 2 e r dr 2 (cos θ) (cos θ) dθ
0 0
Z !
π/2
(8.176)
= Γ(p + q) 2 (cos θ)2p−1 (cos θ)2q−1 dθ ,
0
provando (8.192).
Por mudanças de variável, obtém-se outras representações integrais equivalentes a (8.192) para
B(p, q). Tomando t = (cos θ)2 obtemos trivialmente de (8.192) que
Z 1
B(p, q) = tp−1 (1 − t)q−1 dt . (8.193)
0
t
Tomando em (8.193) u = t−1
obtem-se, por outro lado,
Z ∞
up−1
B(p, q) = du . (8.194)
0 (1 + u)p+q
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 8 486/1461
As representações (8.192), (8.193) e (8.194) valem para Re (p) > 0 e Re (q) > 0. Alguns textos
adotam (8.193) como definição de B(p, q) para Re (p) > 0 e Re (q) > 0.
Talvez a principal aplicação de (8.191) e das representações integrais (8.192), (8.193) e (8.194) seja
o estabelecimento da importante fórmula dos complementos:
1 sen(πz)
= , (8.195)
Γ(z)Γ(1 − z) π
válida para todo z ∈ C, relação esta que pode ser escrita em forma mais simétrica como
1 cos(πz)
1
1
= , (8.196)
Γ 2
−z Γ 2
+z π
onde C é a curva fechada no plano complexo, orientada no sentido anti-horário, indicada na figura 8.6.
A curva C é composta dos segmentos orientados (1) e (2), localizados, respectivamente, imediatamente
acima e imediatamente abaixo do semi-eixo real positivo (sendo que faremos a distância desses segmen-
tos a esse semi-eixo ir a zero) e dos arcos orientados γ e Γ, de raios ǫ e R, respectivamente. Escolhemos
z−1
R > 1, de modo que o pólo simples que a função f (w) = w1+w possui em w = −1 fique no interior da
região delimitada por C.
Vamos representar a variável complexa w na forma w = ρeiφ , com 0 ≤ ρ < ∞, 0 ≤ φ < 2π. Devido
a essa escolha do intervalo de valores de φ, vemos que no segmento (1) tem-se que φ ≈ 0, enquanto que
32
Seguimos os argumentos de [16]. Para uma outra demonstração igualmente elementar que faz uso da fórmula de
produto de Weierstrass (8.186), vide [70].
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 8 487/1461
γ (1)
−1 R
(2)
R R z−1
no segmento (2) φ ≈ 2π. Assim, a integral no segmento orientado (1) é aproximada por ǫ ρ1+ρ dρ,
R R z−1
enquanto que a integral no segmento orientado (2) é aproximada por −e2πiz ǫ ρ1+ρ dρ, as aproximações
sendo tanto melhores quanto mais próximos os segmentos (1) e (2) encontrarem-se do semi-eixo real
positivo (lembrar que o integrando é contı́nuo nas regiões acima a abaixo do semi-eixo real positivo
e cada integração é feita em segmentos finitos). Assim, a contribuição das integrações de (1) e (2) à
integral I é Z
2πiz
R ρz−1
1−e dρ ,
ǫ 1+ρ
que nos limites ǫ → 0, R → ∞ converge a (1 − e2πiz ) Γ(z)Γ(1 − z) devido a (8.197). Vamos agora
estimar as integrais sobre os segmentos γ e Γ.
Em γ temos ρ = ǫ, de modo que podemos escrever w = ǫeiφ , com α ≤ φ ≤ 2π − α, para um certo
α pequeno, e dw = iǫeiφ dφ, de forma que, escrevendo z = x + iy com x = Re (z), y = Im (z),
Z Z 2π−α iφ(z−1)
w z−1 z e
dw = −iǫ iφ
eiφ dφ
γ 1 + w α 1 + ǫe
e, portanto, Z Z 2π−α φ|y|
w z−1 e x 2πe
2π|y|
dw ≤ ǫx
dφ ≤ ǫ ,
1+w 1−ǫ 1−ǫ
γ α
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 8 488/1461
que converge a zero quando ǫ → 0 (lembrar que assumimos 0 < Re (z) < 1, ou seja, 0 < x < 1).
Em Γ temos, analogamente, ρ = R, de modo que podemos escrever w = Reiφ , com β ≤ φ ≤ 2π − β,
para um certo β pequeno, e dw = iReiφ dφ, de forma que, escrevendo z = x + iy com x = Re (z),
y = Im (z),
Z Z 2π−β iφ(z−1)
w z−1 z e
dw = iR iφ
eiφ dφ
Γ 1+w β 1 + Re
e, portanto,
Z Z 2π−β φ|y|
w z−1 e 2π|y| R
x
Rx−1
x 2π|y|
1 + w dw ≤ R R−1
dφ ≤ 2πe
R−1
= 2πe
1 − 1/R
,
Γ β
As propriedades da função beta permitem provar mais uma identidade sobre as funções gama, a
chamada fórmula de duplicação da função Gama, devida a Legendre:
22z−1 1
Γ(2z) = √ Γ(z)Γ z + , (8.198)
π 2
válida para todo z ∈ C que não seja um inteiro não-positivo ou um semi-inteiro não-positivo, isto é,
que não seja da forma −n ou da forma −n − 1/2, com n = 0, 1, 2, 3, . . .. A demonstração é bastante
simples.
Assumindo provisoriamente Re (z) > 0, temos
Z 1
Γ(z)Γ(z) (8.193) z−1
= B(z, z) = t(1 − t) dt .
Γ(2z) 0
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 8 489/1461
provando (8.198) para Re (z) > 0. A generalização para todo z ∈ C segue do fato de que ambos os
lados de (8.198) possuem uma extensão analı́tica para todo C, exceto para os pontos em que z é um
inteiro não-positivo ou um semi-inteiro não-positivo.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 8 490/1461
válida para x ∈ C com |x| < 1 e para todo α ∈ C, onde, para x ∈ C e n ∈ N, (x)n são os sı́mbolos de
Pochhammer definidos em (8.143), página 464. Demonstre (8.199) resolvendo a equação diferencial
(1 + x)y ′ − αy = 0
com a condição y(0) = 1. Sugestão. Verifique que (1+x)α é solução da equação diferencial acima e satisfaz
y(0) = 1. Depois resolva a mesma equação, procurando soluções na forma de uma série de potências na
região |x| < 1.
Mostre que quando α = n ∈ N, um inteiro não negativo, a solução reduz-se a um polinômio, a saber,
aquele definido pelo binômio de Newton:
n
X
n n
(1 + x) = xk .
k=0
k
E. 8.28 Exercı́cio. Usando o método de expansão em série de potências mostre que a solução da
′
equação diferencial y (z) + zy(z) = 0 é y(z) = c exp(−z 2 /2), onde c é uma constante. 6
E. 8.29 Exercı́cio. Encontre, utilizando o método de expansão em série, a solução geral da seguinte
equação diferencial
2
u′′ (x) − e−x u′ (x) + sin(x)u(x) = 0 .
Em que região a série de potências obtida para u(x) deve ser convergente? Justifique. 6
E. 8.30 Exercı́cio. Mostre que a função u(x) = ( arcsenx)2 é a solução da equação diferencial
com as condições iniciais u(0) = u′ (0) = 0. Usando o método de expansão em série para resolver a equação,
X∞
2
obtenha a expansão de ( arcsenx) em uma série de potências ck xk . Essa série coincide com a série de
k=0
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 8 491/1461
Taylor de ( arcsenx)2 em x = 0. Esse método de determinar a expansão em série de Taylor dessa função
é muito mais simples que o método direto, envolvendo o cômputo das derivadas da função ( arcsenx)2 em
x = 0, e foi descoberto por Euler. A série obtida já era conhecida do matemático Kowa Seki (1642-1708),
contemporâneo de Newton).
6
E. 8.31 Exercı́cio. a) Pelo método de Frobenius determine a solução geral da seguinte equação diferencial:
k ∈ N. 6
E. 8.34 Exercı́cio. Usando (8.172) e o fato que Γ(z) = Γ(z), prove que para todo y ∈ R vale
π
|Γ(iy)|2 =
y senh(πy)
e usando (8.196), prove que para todo y ∈ R vale
2
1 π
Γ + iy = .
2 cosh(πy)
Mostre também que
πy
|Γ(1 + iy)|2 =
senh(πy)
para todo y ∈ R. 6
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 8 492/1461
Apêndices
8.A Prova da Proposição 8.1. Justificando os Polinômios de
Legendre
∞
X
Provaremos a Proposição 8.1 apenas para o caso da série c2k z 2k , pois a demonstração para a série
k=0
∞
X
c2k+1 z 2k+1 é, mutatis mutantis, idêntica.
k=0
Caso λ ∈ R seja um inteiro não-negativo par, a série em (8.12) torna-se um polinômio e é, con-
seqüentemente, finita para todo z ∈ C.
Consideremos, então, que λ ∈ R não é um inteiro não-negativo par. Tomemos a série em (8.12)
somada, para simplificar, a partir de k = 2 e calculada em z = ±1 (tomamos c0 = 1, sem perda de
generalidade):
X∞ X∞ k−1
1 Y λ(λ + 1)
c2k = −λ(λ + 1) 1− .
k=2 k=2
2k l=1
2l(2l + 1)
Consideremos, para N > 2,
N
X XN k−1
1 Y λ(λ + 1)
c2k = 1− .
k=2 k=2
2k l=1
2l(2l + 1)
XN XN
1
Portanto, como lim diverge, isso prova que lim c2k diverge, completando a prova.
N →∞
k=2
2k N →∞
k=2
Se λ(λ + 1) > 0 devemos proceder de outra forma. É claro que existe k0 ∈ N, k0 > 2, tal que
λ(λ + 1)
0 < < 1, (8.A.1)
2k0 (2k0 + 1)
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 8 494/1461
λ(λ+1)
o que implica 1 − 2l(2l+1)
> 0 para todo l > k0 . Escolhendo N > k0 , podemos escrever
N
X k0
X N
X
c2k = c2k + c2k
k=2 k=2 k=k0 +1
k0
X 0 −1
kY X
N k−1
λ(λ + 1) 1 Y λ(λ + 1)
= c2k + 1− 1− . (8.A.2)
k=2 l=1
2l(2l + 1) k=k0 +1
2k l=k
2l(2l + 1)
0
Podemos escrever
k−1
Y k−1
X !
λ(λ + 1) λ(λ + 1)
1− = exp ln 1 − ,
l=k0
2l(2l + 1) l=k
2l(2l + 1)
0
λ(λ+1)
pois 1 − 2l(2l+1)
> 0 para todo l ≥ k0 .
Agora, se 0 ≤ x ≤ M para algum 0 < M < 1, então vale
ln(1 − M)
ln(1 − x) ≥ x . (8.A.3)
M
Isso pode ser provado de diversas formas, por exemplo usando a concavidade da função logaritmo, que
garante que
ln αa + (1 − α)b ≥ α ln(a) + (1 − α) ln(b) ,
k−1
X ! k−1
!
λ(λ + 1) ln(1 − M) X λ(λ + 1)
exp ln 1 − ≥ exp ,
l=k0
2l(2l + 1) M l=k
2l(2l + 1)
0
Agora,
k−1
X X∞
λ(λ + 1) λ(λ + 1)
≤ < ∞,
l=k
2l(2l + 1) l=k
2l(2l + 1)
0 0
X∞
λ(λ + 1)
pois a série acima é convergente. Assim, definindo K := , teremos que
l=k
2l(2l + 1)
0
k−1
X ! k−1
!
λ(λ + 1) ln(1 − M) X λ(λ + 1) ln(1 − M)
exp ln 1 − ≥ exp ≥ exp K
l=k0
2l(2l + 1) M l=k
2l(2l + 1) M
0
k −1 !
X N Xk0 Y 0
λ(λ + 1)
N
X 1
k−1
X λ(λ + 1)
c2k − c2k = 1− exp ln 1 −
2l(2l + 1) 2k 2l(2l + 1)
k=2 k=2 l=1 k=k0 +1 l=k0
k −1
Y0
λ(λ + 1) ln(1 − M)
N
X 1
≥ 1− exp K .
2l(2l + 1) M 2k
l=1 k=k0 +1
N
X XN
1
Como o limite lim diverge, concluı́mos que lim c2k também diverge, completando a
N →∞
k=k0 +1
2k N →∞
k=2
prova.
Como dissemos, a convenção é escolher c0 de modo que o coeficiente do monômio de maior grau do
polinômio acima seja 2m(2m)!
(m!)2
. Assim, devemos ter
m
−1 !
1 Y2
(2m)!
c0 2l(2l + 1) − m(m + 1) = m ,
m! l=0 2 (m!)2
ou seja,
m
−1 !−1
(2m)! Y
2
c0 = m 2l(2l + 1) − m(m + 1) .
2 m! l=0
Com isso m !−1
m/2 −1
X 2k
z (2m)! Y
2
m
Façamos ainda a mudança de variável l → 2
− l. Obtemos,
m/2 k
!−1
X z m−2k (2m)! Y
Pm (z) = (m − 2l)(m − 2l + 1) − m(m + 1) .
k=0
(m − 2k)! 2m m! l=1
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 8 496/1461
Entretanto,
(m − 2l)(m − 2l + 1) − m(m + 1) = −2l(2m − 2l + 1) ,
como facilmente se vê. Agora, com isso,
k
!−1 k
!−1
Y Y
(m − 2l)(m − 2l + 1) − m(m + 1) = −2l(2m − 2l + 1)
l=1 l=1
k
! k
!
Y 1 Y 1
= (−1)k
l=1
2l l=1
2m − 2l + 1
m
Y
(2m − 2l + 1)
(−1)k l=k+1
= m
(2k)!! Y
(2m − 2l + 1)
l=1
Ym
(−1)k
= (2m − 2l + 1)
(2k)!! (2m − 1)!! l=k+1
m−k
Y
l→l+k (−1)k
= (2(m − k) − 2l + 1)
(2k)!! (2m − 1)!! l=1
(−1)k
= (2(m − k) − 1)!! .
(2k)!! (2m − 1)!!
Assim, !
m/2
X (−1)k z m−2k (2m)! (2(m − k) − 1)!!
Pm (z) = .
k=0
2m (m − 2k)! m! (2k)!! (2m − 1)!!
Vale, porém,
!
(2m)! (2(m − k) − 1)!! (2m)! (2(m − k) − 1)!! (2(m − k))!!
=
m! (2k)!! (2m − 1)!! m! (2k)!! (2m − 1)!! (2(m − k))!!
2m m! (2m − 2k)!
=
m! 2k k! 2m−k (m − k)!
(2m − 2k)!
= ,
k! (m − k)!
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 8 497/1461
onde, na penúltima passagem, usamos que (2p)!! = 2p p! para todo p ∈ N. Com isso,
m/2
X (−1)k z m−2k (2m − 2k)!
Pm (z) = ,
k=0
2m (m − 2k)! k! (m − k)!
X∞ k−1
(0) λ 2 x2k Y
yλ (x) := 1 − x − λ (4l − λ) ,
2 k=2
(2k)! l=1
com λ ∈ R mas λ 6= 2m para m um inteiro positivo par (o que faz da série acima uma série infinita),
(1)
pois o tratamento da série yλ é idêntico.
Seja s > 1, arbitrário mas fixo, e escolhamos k0 > 2 tal que 1 − 4kλ0 > 1s . Note que se λ ≤ 0, isso
é válido para todo k0 > 2 enquanto que, se λ > 0, devemos tomar
λs
k0 > max , 2 . (8.C.4)
4(s − 1)
Escrevemos
Xk0 k−1 ∞ k−1
(0) λ 2 x2k Y X x2k Y
yλ (x) := 1 − x − λ (4l − λ) − λ (4l − λ) .
2 k=2
(2k)! l=1 k=k +1
(2k)! l=1
0
k0 −1 ! X∞ Y
k−1
1 Y λ k 2k (k − 1)! λ
= 1− 4 x 1− .
4 l=1 4l k=k +1
(2k)! l=k 4l
0 0
∞
X k−1
k 2k (k − 1)! Y λ
Vamos agora nos concentrar na série 4 x 1− . Pela escolha de k0 , sabemos
k=k0 +1
(2k)! l=k 4l
0
que para l ≥ k0 , vale
λ λ 1
1− ≥ 1− >
4l 4k0 s
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 8 498/1461
e, portanto,
k−1
Y
λ 1
1− > .
4l sk−k0
l=k0
Além disso,
(2k)! = (2k)!! (2k − 1)!! = 2k k! (2k − 1)!! < 22k (k!)2 ,
pois
1 3 5k 1
(2k−1)!! = (2k−1)(2k−3)(2k−5) · · · 1 = 2 k − k− k− · · · < 2k k(k−1)(k−2) · · · 1 .
2 2 2 2
Logo,
∞
X k−1 ∞ 2 k
k 2k (k− 1)! Y λ k0
X 1 x
4 x 1− > s
k=k0 +1
(2k)! l=k 4l k=k +1
k(k!) s
0 0
∞
X k
k0 1 x2
> s
k=k0 +1
(k + 1)! s
∞ 2 k+1
s X k0 1 x
= s 2
x k=k +1 (k + 1)! s
0
k=k
X 0 +1
k !
sk0 +1 x2 /s 1 x2
= e − .
x2 k=0
k! s
2
Kex /s − p(x)
(0)
Tudo isso mostra que yλ (x) é maior que , onde K é uma constante (que depende
x2
de λ, s e k0 ) e p(x) é um polinômio de grau 2k0 + 2 em x. Como s é arbitrário, vemos que o produto
(0) 2
yλ e−x /2 diverge para |x| → ∞, já que podemos escolher 1/s > 1/2, tomando33 1 < s < 2.
No contexto do problema do oscilador harmônico na Mecânica Quântica (vide Seção 10.4, página
(0) 2
608) esse comportamento é inaceitável, pois o produto yλ e−x /2 representa uma função de onda, que
deve ser de quadrado integrável em R. Isso força-nos a tomar λ = 2m com m um inteiro positivo e
(0)
par, de modo a reduzir yλ (x) a um polinômio.
(1)
Para yλ (x) as considerações são análogas e não iremos repeti-las aqui.
33 (0) 2
/2
Por (8.C.4), tomar s próximo de 1 aumenta o grau do polinômio p(x), mas não altera o fato que yλ (x)e−x diverge
para |x| → ∞
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 8 499/1461
m
Fazendo a mudança de variáveis k → 2
− k, teremos
m m
−2 −k−1
X
2
z m−2k 2Y
Hm (z) = (−2)m/2 (m − 1)!! 1 − m z 2 − 2m (4l − 2m) .
(m − 2k)!
k=0 l=1
Tem-se que
m m
−k−1 −k−1
2 Y m
2 Y
−k−1
(4l − 2m) = (−2) 2 (m − 2l)
l=1 l=1
m
−1
Y
2
(m − 2l)
m l=1
−k−1
= (−2) 2
m
−1
Y
2
(m − 2l′ )
l′ = m
2
−k
m
−1
Y
2
(m − 2l)
l′ → m −l′ m
−k−1 l=1 m (m − 2)!!
= 2
(−2) 2 = (−2) 2 −k−1 .
k
Y (2k)!!
2l′
l′ =1
Logo,
m
−2
X
2
zm−2k
m (m − 2)!!
Hm (z) = (−2)m/2 (m − 1)!! 1 − m z 2 − 2m (−2) 2 −k−1
k=0
(m − 2k)! (2k)!!
m
−2
m X
2
(−1)k m!
2
= (−2) (m − 1)!! 1 − m z
2 + (2z)m−2k
k=0
(m − 2k)! k!
m
X2
(−1)k m!
= (2z)m−2k , (8.D.5)
k=0
(m − 2k)! k!
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 8 500/1461
já que
A expressão (8.D.5) coincide com (8.20) para m par. O caso em que m é ı́mpar é análogo e é deixado
como exercı́cio.
∞
X 1 |λ| r
y1 (r) > 1 + |λ| rn = 1 + (e − 1 − r) .
n=1
(n + 1)! r
Disso concluı́mos que y1 (r) cresce da ordem de er quando r → ∞. O problema com isso é que em
várias aplicações tal comportamento é indesejado. No problema do átomo de hidrogênio da Mecânica
Quântica, por exemplo, o produto e−r/2 y1 (r) representa a função de onda radial de um elétron de
momento angular nulo sob um potencial coulombiano34 . Pelo visto acima, se λ < 0 a função de onda
cresceria para r → ∞ pelo menos como e+r/2 , não podendo, assim, ser uma função de quadrado in-
tegrável em R3 , uma condição fundamental ligada à interpretação probabilı́stica da Mecânica Quântica.
Assim, soluções com λ < 0 devem ser descartadas nesse contexto.
34
Vide Seção 10.5, página 610, ou qualquer bom livro de Mecânica Quântica.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 8 501/1461
Tratemos agora do caso em que λ é positivo, mas não é um número inteiro. Por (8.E.6), podemos
escrever, para n − 1 ≥ 2⌈λ⌉,
2⌈λ⌉−1 n−1
n−1
Y Y λ Y λ
n
(−1) (λ − l) = −λ(n − 1)! 1− 1− ,
l=0 l=1
l l
l=2⌈λ⌉
com
2⌈λ⌉−1
Y λ
L := −λ 1− .
l=1
l
n−1
Y
λ
A razão de escrevermos essa expressão dessa forma reside no fato que, agora, 1− é um
l
l=2⌈λ⌉
produto de termos positivos, sendo que, para l ≥ 2⌈λ⌉ tem-se
λ
1− ≥ α
l
onde
λ 2⌈λ⌉ − λ ⌈λ⌉ + (⌈λ⌉ − λ) ⌈λ⌉ 1
α := 1 − = = > = .
2⌈λ⌉ 2⌈λ⌉ 2⌈λ⌉ 2⌈λ⌉ 2
Com isso, para a última soma do lado direito vale
X∞ n−1
Y ∞
X
1 λ n 1
1− r ≥ (α)n−2⌈λ⌉ r n
n (n!) l n (n!)
n=2⌈λ⌉+1 l=2⌈λ⌉ n=2⌈λ⌉+1
∞
X 1
= K (αr)n
n (n!)
n=2⌈λ⌉+1
∞
X 1
> K (αr)n
(n + 1)!
n=2⌈λ⌉+1
K αr
= e − P (αr)
αr
2⌈λ⌉+1
X 1
onde K := α −2⌈λ⌉
, P (αr) := (αr)n é um polinômio de grau 2⌈λ⌉ + 1 e α > 1/2.
n=0
n!
Disso concluı́mos que para r → ∞, |y1 (r)| cresce mais rápido que eαr com α > 1/2. Assim, um
produto como e−r/2 y1 (r), que como dissemos representa a função de onda radial de um elétron de
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 8 502/1461
momento angular nulo sob um potencial coulombiano, não é de quadrado integrável no espaço R3 , uma
condição fundamental ligada à interpretação probabilı́stica da Mecânica Quântica. Assim, soluções
com λ > 0, mas λ não-inteiro, devem também ser descartadas nesse contexto.
Capı́tulo 9
Propriedades de Algumas Funções Especiais
Conteúdo
9.1 Discussão Preliminar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 504
9.1.1 Definições e Considerações Preliminares . . . . . . . . . . . . . . . . . . . . . 504
9.1.2 Relações de Ortogonalidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . 507
9.1.3 Fórmulas de Rodrigues . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 509
9.1.4 Funções Geratrizes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 511
9.2 Propriedades de Algumas Funções Especiais . . . . . . . . . . . . . . . . . 521
9.2.1 Propriedades dos Polinômios de Legendre . . . . . . . . . . . . . . . . . . . . 521
9.2.2 Propriedades dos Polinômios de Legendre Associados. Harmônicas Esféricas . 527
9.2.3 Propriedades dos Polinômios de Hermite . . . . . . . . . . . . . . . . . . . . . 537
9.2.4 Propriedades dos Polinômios de Laguerre . . . . . . . . . . . . . . . . . . . . 540
9.2.5 Propriedades dos Polinômios de Laguerre Associados . . . . . . . . . . . . . . 544
9.2.6 Propriedades das Funções de Bessel . . . . . . . . . . . . . . . . . . . . . . . 548
9.2.7 Propriedades das Funções de Bessel Esféricas . . . . . . . . . . . . . . . . . . 566
9.3 Completeza de Algumas Famı́lias de Funções . . . . . . . . . . . . . . . . . 569
9.3.1 Completeza de Polinômios Ortogonais em Intervalos Compactos . . . . . . . 570
9.3.2 Completeza de Polinômios de Hermite . . . . . . . . . . . . . . . . . . . . . . 572
9.3.3 Completeza dos Polinômios Trigonométricos . . . . . . . . . . . . . . . . . . . 574
9.4 Exercı́cios Adicionais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 577
Apêndices . . . . . . . . . . . . . . . . . . . . 581
9.A Provando (9.57) à Força Bruta . . . . . . . . . . . . . . . . . . . . . . . . . 581
503
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 9 504/1461
(agora já adotando como variável x ∈ J). Em muitos problemas de interesse essa equação pode ser
escrita de outra forma, denominada por alguns autores de forma canônica de Liouville, e que será
importante para o que segue:
onde,
2. q é real e contı́nua em J.
(9.2)
3. r(x) é real e contı́nua em J 0 e r(x) > 0 para todo x ∈ J 0 .
4. µ é uma constante.
As condições de positividade de p e r em J 0 são as mais importantes. Note-se que não excluiremos que
p e r possam se anular (ou mesmo divergir) nos extremos do intervalo J 1 .
Como o leitor pode facilmente constatar, a relação entre essas funções é a seguinte:
p′ (x) 1
a(x) = , b(x) = (q(x) + µr(x)) .
p(x) p(x)
Dadas a(x) e b(x), a primeira relação acima fixa p(x) (a menos de uma constante), a saber,
Z x
′ ′
p(x) = exp a(x )dx + const. .
0
Já a segunda nem sempre fixa q(x) e r(x) univocamente, tudo dependendo da condição de positividade
sobre r(x), que foi mencionada acima, ou de qual parâmetro se deseja tomar por µ. Na maioria dos
casos, porém, q e r podem ser fixados univocamente, o que ficará claro nos exemplos que seguem.
Várias das equações diferenciais de segunda ordem das quais tratamos no Capı́tulo 8 podem ser
escritas na forma canônica em algum intervalo J conveniente2 . Vamos a alguns exemplos que nos
interessarão:
2 2
Aqui p(x) = e−x , q(x) = 0, r(x) = e−x e µ = λ.
Note que p(x) > 0 e r(x) > 0 em todo J = (−∞, ∞).
A equação de Bessel e a equação de Bessel esférica também podem ser escritas desta forma canônica.
Porém, o tratamento das relações de ortogonalidade que se segue exige para elas algumas adaptações
e postergaremos sua discussão paras as Seções 9.2.6 e 9.2.7, adiante.
Daqui para frente vamos escrever o intervalo J, finito ou não, na forma J := (A, B) ⊂ R.
Para uma função u definida em J que seja pelo menos duas vezes diferenciável, vamos definir o
operador diferencial L por
(Lu)(x) := (p(x)u′ )′ + q(x)u . (9.3)
A equação (9.1) fica simplificada na forma
Se λ for um número tal que a equação (9.4) for satisfeita para alguma função uλ (que em geral
dependerá de λ), então diz-se que λ é um autovalor e uλ é dito ser a auto-função associada ao autovalor
λ. Essa nomenclatura surge por analogia com os conceitos de autovalor e auto-vetor de matrizes na
álgebra linear3 .
3 1
Estritamente falando λ e uλ são auto-valores, respectivamente, auto-funções, do operador M = − r(x) L.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 9 507/1461
existam e satisfaçam
′ ′ ′ ′
lim p(b) uλ1 (b)uλ2 (b) − uλ1 (b)uλ2 (b) = lim p(a) uλ1 (a)uλ2 (a) − uλ1 (a)uλ2 (a) . (9.6)
b→B− a→A+
Então, Z B
uλ1 (x) uλ2 (x) r(x) dx = 0 . (9.7)
A
2
Prova. Seja (a, b), com A < a < b < B, qualquer intervalo finito contido em J 0 . Consideremos a
expressão Z b
(λ1 − λ2 ) uλ1 (x) uλ2 (x) r(x) dx .
a
Como λ1 e λ2 são reais, isso pode ser escrito por (9.5) como
Z b Z b
(λ1 r(x)uλ1 (x)) uλ2 (x) dx − uλ1 (x) (λ2 r(x)uλ2 (x)) dx
a a
Z b Z b
= uλ1 (x) (Luλ2 )(x) dx − (Luλ1 )(x) uλ2 (x) dx .
a a
4
Os limites lim e lim significam os limites à esquerda e à direita, respectivamente.
x→Y− x→Y+
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 9 508/1461
Agora, para quaisquer u e v duas vezes diferenciáveis definidas em (a, b) vale, usando-se integração
por partes,
Z b Z b Z b
′ ′
v(x) (Lu)(x) dx = v(x)(p(x)u ) dx + v(x)q(x)u(x) dx
a a a
Z b b Z b
′
= − v ′ (x)(p(x)u′ ) dx + vpu + v(x)q(x)u(x) dx
a a a
Z b b b Z b
′
= u(pv ′)′ dx + vpu − ′
v pu + v(x)q(x)u(x) dx
a a a a
Z b b b
′ ′
= (Lv)(x) u(x) dx + vpu − v pu , (9.8)
a a a
ou seja, Z Z
b b b b
′ ′
v(x) (Lu)(x) dx − (Lv)(x) u(x) dx = vpu − v pu . (9.9)
a a a a
Z b b b
(λ1 − λ2 ) uλ1 (x) uλ2 (x) r(x) dx = uλ1 pu′λ2 − u′λ1 puλ2
a a a
= p(b) uλ1 (b)u′λ2 (b) − u′λ1 (b)uλ2 (b) − p(a) uλ1 (a)u′λ2 (a) − u′λ1 (a)uλ2 (a) .
Z B
(λ1 − λ2 ) uλ1 (x) uλ2 (x) r(x) dx
A
= lim p(b) uλ1 (b)u′λ2 (b) − u′λ1 (b)uλ2 (b) − lim p(a) uλ1 (a)u′λ2 (a) − u′λ1 (a)uλ2 (a) = 0 .
b→B− a→A+
Z B
Como λ1 6= λ2 , isso implica uλ1 (x) uλ2 (x) r(x) dx = 0, como querı́amos provar.
A
A relação (9.7) diz-nos que uλ1 e uλ2 são ortogonais em relação ao produto escalar
Z B
hf, gir := f (x)g(x) r(x) dx , (9.10)
A
RB
definido no conjunto de todas as funções f : J → C tais que A |f (x)|2 r(x) dx < ∞. Essas relações
de ortogonalidade são de suma importância em aplicações, especialmente na resolução de equações
diferenciais parciais sob certas condições de contorno. O leitor interessado em exemplos pode passar
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 9 509/1461
diretamente à Seção 9.2, página 521. Aplicações à solução de equações diferenciais parciais de interesse
em Fı́sica serão vistas no Capı́tulo 10, página 583.
Há várias condições sob as quais (9.6) é satisfeita. Por exemplo, ela será satisfeita se p(A) = p(B) =
0 e se uλ1 , uλ2 e suas derivadas não divergirem em A e B. Outra condição sob a qual (9.6) é satisfeita
se dá, no caso em que (A, B) é um intervalo finito, sob a hipótese que p(A) e p(B) sejam finitos e que
uλ1 e uλ2 satisfaçam condições de contorno em A e B do tipo
onde α1 , α2 , β1 , β2 são constantes fixadas, sendo (α1 , α2 ) 6= (0, 0) e (β1 , β2 ) 6= (0, 0). Esse último
tipo de situação é discutido com detalhe no Capı́tulo 12, página 688, especialmente no Lema 12.1 da
página 703.
ou seja, cada pn é ortogonal, segundo o produto escalar h·, ·ir definido em (9.10), a todos os polinômios
de grau menor que n. Para provar (9.14), basta escrever
Z 1 Z 1 !
n
d
xm pn (x) r(x) dx = xm n r(x)(1 − x2 )n dx
−1 −1 dx
dk
e fazer n vezes integração por partes, lembrando que a expressão dxk
r(x)(1 − x2 )n , com k < n,
sempre contém um fator (1 − x2 ) que se anula em ±1.
Se as funções pn forem elas mesmas polinômios de grau n, o que ocorre em vários casos, concluı́mos
que Z 1
pm (x) pn (x) r(x) dx = 0 ,
−1
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 9 510/1461
sempre que m 6= n. Isso significa que os polinômios pn (x) são ortogonais dois-a-dois segundo o produto
escalar h·, ·ir no intervalo J = [−1, 1].
Várias equações diferenciais do tipo mencionado acima, definidas em um intervalo finito [−1, 1], têm
soluções polinomiais, como por exemplo, a equação de Legendre e de Chebyshev. Como as mesmas,
pelo Teorema 9.1, são ortogonais em relação ao produto escalar h·, ·ir no intervalo J = [−1, 1]5 ,
as considerações acima sugerem que as soluções polinomiais possam ser escritas, a menos de uma
constante multiplicativa, na forma (9.13). Isso é, de fato, verdade para várias equações importantes
(como as de Legendre e Chebyshev) e da expressão (9.13) será possı́vel obter várias propriedades
daqueles polinômios. Isso será melhor discutido nos exemplos que trataremos na Seção 9.2.
A expressão (9.13) é denominada fórmula de Rodrigues6 .
E. 9.2 Exercı́cio. Generalize a fórmula de Rodrigues (9.13) para um intervalo J = [a, b] finito arbitrário.
Sugestão: procure uma transformação linear que mapeie bijetivamente [−1, 1] em [a, b]. 6
As fórmulas de Rodrigues podem ser generalizadas para equações diferenciais definidas em intervalos
não-finitos, como J = (0, ∞) ou J = (−∞, ∞). Tratemos disso.
Para o caso J = (0, ∞) devemos supor novamente que r(x) seja infinitamente diferenciável, mas
devemos ainda supor que r(x) seja limitada em x = 0 e que r(x) e todas as suas derivadas r (m) (x)
caiam no infinito mais rápido que qualquer potência, ou seja limx→∞ xk r (m) (x) = 0 para todo k ≥ 0 e
m ≥ 0. Definimos, nesse caso,
1 dn n
pn (x) := r(x) x . (9.15)
r(x) dxn
É fácil ver que se m < n, então Z ∞
xm pn (x) r(x) dx = 0 , (9.16)
0
Para ver isso, escrevemos novamente
Z Z !
∞ ∞
dn
xm pn (x) r(x) dx = xm r(x) xn dx
0 0 dxn
e fazemos integração
por partes, usando que limx→∞ xk r (m) (x) = 0 para todos k ≥ 0 e m ≥ 0 e que a
dk n
expressão dx k r(x)x , com k < n, sempre contém um fator x que se anula em 0.
sempre que m 6= n. Isso significa que os polinômios pn (x) são ortogonais dois-a-dois segundo o produto
escalar h·, ·ir no intervalo J = (0, ∞). Como antes, isso sugere que as soluções polinomiais de certas
equações diferenciais definidas no intervalo J = (0, ∞) possam ser escritas, a menos de uma constante
multiplicativa, na forma sugerida pela fórmula de Rodrigues (9.15). Veremos que tal é o caso para os
polinômios de Laguerre e isso nos permitirá obter algumas relações úteis sobre aqueles polinômios.
Para o caso J = (−∞, ∞) devemos supor novamente que r(x) seja infinitamente diferenciável,
mas devemos ainda supor que r(x) e todas as suas derivadas r (m) (x) caiam no infinito mais rápido que
qualquer potência, ou seja lim|x|→∞ |x|k |r (m) (x)| = 0 para todo k ≥ 0 e m ≥ 0. Definimos, nesse caso,
1 dn
pn (x) := r(x) . (9.17)
r(x) dxn
e fazemos integração por partes, usando que lim|x|→∞ |x|k |r (m) (x)| = 0 para todos k ≥ 0 e m ≥ 0.
sempre que m 6= n. Isso significa que os polinômios pn (x) são ortogonais dois-a-dois segundo o produto
escalar h·, ·ir no intervalo J = (−∞, ∞). Como antes, isso sugere que as soluções polinomiais de
certas equações diferenciais definidas no intervalo J = (−∞, ∞) possam ser escritas, a menos de uma
constante multiplicativa, na forma sugerida pela fórmula de Rodrigues (9.17). Veremos que tal é o caso
para os polinômios de Hermite e isso nos permitirá obter algumas relações úteis sobre os mesmos.
• Funções geratrizes
Seja {an , n ∈ N} uma seqüência de números reais ou complexos. Define-se a função geratriz da
seqüência {an , n ∈ N} como sendo a função dada por
∞
X
G{an } (t) := an tn .
n=0
Essa definição pressupõe que a série de potências em t do lado direito seja convergente em alguma
região do plano complexo, digamos |t| < T , para algum T > 0. Isso nem sempre é o caso. Por exemplo,
se an = n! a série acima tem raio de convergência nulo.
Essa definição pressupõe que a série de potências em t do lado direito seja convergente em alguma
região do plano complexo, digamos |t| < T .
desde que a série do lado direito convirja com a variável t em alguma região do plano complexo.
A mais famosa das funções geratrizes de Dirichlet é a função zeta de Riemann8, que é a função
geratriz de Dirichlet da seqüência constante an = 1, n ≥ 1:
X∞
1
ζ(s) := s
. (9.19)
n=1
n
Como facilmente se vê, a série do lado direito converge na região do plano complexo definida por
Re(s) > 1. A função zeta de Riemann desempenha um papel de grande importância na teoria das
funções de variável complexa e na teoria de números, pois várias de suas propriedades estão relacionadas
a propriedades do conjunto de números primos. Vide, e.g., [58], [142], [143] ou [37].
7
Johann Peter Gustav Lejeune Dirichlet (1805-1859).
8
Georg Friedrich Bernhard Riemann (1826-1866).
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 9 513/1461
desde que a série do lado direito convirja com a variável t em alguma região do plano complexo. As
funções geratrizes de Lambert são também denominadas séries de Lambert.
As funções geratrizes definidas acima têm várias propriedades algébricas interessantes, como mos-
trado nos exercı́cios que seguem.
E. 9.5 Exercı́cio. Se {an } e {bn } são duas seqüências cujas funções geratrizes G{an } (t) e G{bn } (t) têm
uma região de convergência comum, mostre que
onde n
X
cn = an−p bp .
p=0
E. 9.6 Exercı́cio. Se {an } e {bn } são duas seqüências cujas funções geratrizes exponenciais E{an } (t) e
E{bn } (t) têm uma região de convergência comum, mostre que
onde n
X n
cn = an−p bp .
p=0
p
6
E. 9.7 Exercı́cio. Se {an } e {bn } são duas seqüências cujas funções geratrizes de Dirichlet D{an } (t) e
D{bn } (t) têm uma região de convergência comum, mostre que
onde n
X
cn = an/p bp .
p=1
n/p inteiro
9
Johan Heinrich Lambert (1728-1777).
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 9 514/1461
E. 9.8 Exercı́cio. Se {an } é uma seqüência cuja função geratriz de Lambert é L{an } (t), mostre que
X
L{an } (t) = bm tm = G{bn } (t) ,
m=1
• Números de Fibonacci
válida para todo n ≥ 0. Essa expressão permite obter cada an diretamente em termos de n.
A função geratriz da seqüência de Fibonacci é
∞
X
F (t) = an tn . (9.21)
n=0
Mostremos primeiramente que a série de potências do lado direito tem um raio de convergência não-
nulo. Pelo teste da razão vale, para n > 0,
an+1 tn+1
= an+1 |t| = an + an−1 |t| = 1 + an−1 |t| ≤ 2|t| ,
an tn an an an
pois an−1
an
≤ 1, já que a seqüência de Fibonacci é crescente. Logo, a série converge absolutamente pelo
menos na região |t| < 1/2. A verdadeira região de convergência é um pouco maior (como veremos
adiante), mas não precisaremos desse fato por ora, pois tudo o que necessitamos é da existência de um
raio de convergência não-nulo, o que justifica as manipulações que faremos.
Façamos uso da definição da seqüência de Fibonacci para obter uma fórmula explı́cita para F (t).
Temos que
∞
X
F (t) = 1 + t + an tn
n=2
∞
X ∞
X ∞
X
n n
= 1+t+ (an−1 + an−2 ) t = 1+t+ an−1 t + an−2 tn
n=2 n=2 n=2
∞
X ∞
X
n 2
= 1+t+t an t + t an tn
n=1 n=0
∞
1 X 1 1
= √ − tn
5 n=0 γ1n+1 γ2n+1
∞
1 X
= √ (−γ2 )n+1 − (−γ1 )n+1 tn
5 n=0
∞ √ !n+1 √ !n+1
X 1 1+ 5 1− 5
= √ − tn ,
n=0
5 2 2
onde usamos que 1/γ1 = −γ2 . Comparando com (9.21) obtemos (9.20), como querı́amos.√ Da última
expressão, vê-se também que o raio de convergência da série de potências que define F é ( 5 − 1)/2 ≈
0, 618 . . ..
A seqüência de exercı́cios dirigidos que segue apresenta-nos uma série de identidades combinatórias
de interesse (usaremos algumas no Capı́tulo 11, página 632). A primeira obtem-se através de uma
função geratriz.
(aqui, N = {0, 1, 2, . . .}). Seja |Nnm | o número de elementos de Nnm . |Nnm | representa o número de
maneiras de colocar exatamente m objetos indistinguı́veis em n posições distintas. Mostre que
n n+m−1 (n + m − 1)!
|Nm | = = .
m (n − 1)! m!
Sugestão. Mostre primeiramente que a função geratriz da seqüência |Nm
m |, m = 0, 1, 2, . . ., é
X∞ n
n m 1
|Nm | t = . (9.22)
m=0
1−t
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 9 517/1461
De (9.22), obtenha
n
1 dm 1 n · · · (m + m − 1) (n + m − 1)! n+m−1
|Nnm | = = = = .
m! dtm 1−t m! (n − 1)! m! m
t=0
6
Seja |Mnm | o número de elementos de Mnm . |Mnm | representa o número de maneiras de colocar de zero a
no máximo m objetos indistinguı́veis em n posições distintas. Mostre que
n n+m (n + m)!
|Mm | = = . (9.23)
m n! m!
Sugestão. Convença-se que
m
X m
X
n+k−1
|Mnm | = |Nnk | = . (9.24)
k=0 k=0
k
12
Usando a bem conhecida identidade de Pascal
a a−1 a−1
= + (9.25)
b b b−1
conclua que
m
X m
X m
X m
X
n+k n+k (9.25) n+k−1 n+k−1
= 1+ = 1+ +
k k k k−1
k=0 k=1 k=1 k=1
m
X m
X
n+k−1 n+l−1
= 1+ +
k=1
k l=1
l−1
m
X X
m−1
l′ =l−1 n+k−1 n + l′
= 1+ +
k l′
k=1 l′ =0
m
X
n+k−1 n+m
A identidade = é conhecida como segunda identidade de Pascal ou
k=0
k m
identidade da soma paralela. Para outras identidades combinatórias úteis, vide [53].
E. 9.11 Exercı́cio. Seguindo passos análogos aos do último exercı́cio, demonstre a identidade da soma
vertical: n
n+1 X j
= .
m+1 j=0
m
6
E. 9.13 Exercı́cio dirigido. As identidades |Nnm| = n+m−1 m
e |Mnm | = n+m m
podem ser obtidas de
uma forma talvez mais direta e simples, dependendo do gosto do leitor. Suponha que se tenha m bolas
pretas e n bolas brancas. Convença-se que há n+m m
= n+m n
arranjos possı́veis dessas bolas (supondo
que as bolas pretas são indistinguı́veis entre si, e que o mesmo valha para as brancas). Uma maneira de
fazer esse raciocı́nio é imaginar as n + m bolas enfileiradas e contar de quantas maneiras distintas essas
fileiras podem ser formadas. Há (n + m)! permutações das n + m bolas, das quais devem ser fatoradas m!
permutações envolvendo apenas bolas pretas e n! permutações envolvendo apenas bolas brancas, fornecendo
assim n+m m
arranjos. Convença-se
também que, pela definição, esse número de arranjos é igual a |Mnm |.
Isso provou que |Mnm | = n+m . Convença-se que, pela definição, |Nnm | = |Mnm | − |Mnm−1 |. Tem-se, então
m
|Nnm | = n+mm
− n+m−1
m−1
= n+m−1
m
, onde a última igualdade segue da identidade de Pascal (9.25). 6
• Números de Bernoulli
n 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17
Bn 1 − 12 1
6
0 1
− 30 0 1
42
1
0 − 30 0 5
66
0 691
− 2730 0 7
6
0 − 3617
510
0
forma essa mais freqüentemente encontrada na literatura. Essa relação acima permite obter recursiva-
mente os coeficientes Bn a partir de B0 = 1. De fato, isolando o termo com q = p, temos
p−1
−1 X p+1
Bp = Bq para todo p ≥ 1 , (9.27)
p + 1 q=0 q
ou seja,
p−1
X Bq
Bp = −p! para todo p ≥ 1 . (9.28)
q=0
q!(p + 1 − q)!
Usando a fórmula (9.27) é possı́vel obter os primeiros números de Bernoulli, vide Tabela 9.1, página
519. A contemplação da Tabela 9.1 permite conjecturar que, exceto B1 , todos os Bn com n ı́mpar são
nulos. Veremos abaixo que essa conjectura é verdadeira. A impressão, porém, que os Bn ’s não-nulos
crescem lentamente, obtida da observação dos primeiros elementos da seqüência, é falsa. Devido ao
fato de a série de potências em não convergir para |z| = 2π concluı́mos que os |Bn | não-nulos devem
assintoticamente ser maiores que, ou da ordem de, n!/(2π)n para n grande. Isso de fato é correto e a
expressão precisa será apresentada em (9.34). Outra conjectura que se pode levantar da observação da
Tabela 9.1 é que os sinais dos números de Bernoulli com ı́ndice par (exceto B0 ) são alternados. Esse
fato é também correto e será provado mais adiante.
Separando o termo com B1 de (9.26), que é −z/2, e passando-o para o lado esquerdo, obtemos
X∞
z z Bn n
z
+ = 1+ z .
e −1 2 n=2
n!
z z
O lado esquerdo vale 2
coth 2
, como facilmente se constata. Concluı́mos assim que
∞
X 2n Bn
z coth(z) = 1 + zn , (9.29)
n=2
n!
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 9 520/1461
para |z| < 2π. Como z coth(z) é uma função par, vemos de (9.29) que, exceto B1 , todos os demais Bn ’s
com n ı́mpar são nulos. Com esse conhecimento podemos escrever
∞
X 4n B2n
z coth(z) = z 2n . (9.30)
n=0
(2n)!
Uma demonstração dessa importante relação pode ser encontrada no Exercı́cio-dirigido E. 9.30, página
577 destas notas (para outras referências vide Exercı́cio-dirigido E. 9.30). Agora, para |z| < π, podemos
escrever, já que k ≥ 1,
!
1 X z 2n
∞
1 1 1
= = ,
(kπ)2 − z 2 (kπ)2 1 − z 2 (kπ)2 n=0 kπ
kπ
válida para todo inteiro n > 0. Note que o lado esquerdo é igual a ζ(2n), onde ζ é a função zeta de
Riemann, definida em (9.19), página 512. A expressão (9.33) foi obtida por Euler pela primeira vez
em 1735, resolvendo assim parcialmente um problema, denominado problema de Basel, levantado por
X ∞
14 1
Mengoli em 1644, de encontrar uma fórmula fechada para as somas , m ∈ N, m > 1, as quais
k=1
km
envolvem potências de inversas de números inteiros. Os primeiros resultados obtidos de (9.33) são
X∞ X∞ X∞ X∞ X∞
1 π2 1 π4 1 π6 1 π8 1 π 10
2
= , 4
= , 6
= , 8
= , 10
= .
k=1
k 6 k=1
k 90 k=1
k 945 k=1
k 9450 k=1
k 93555
14
Pietro Mengoli (1626-1686).
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 9 521/1461
Como o lado esquerdo de (9.33) é sempre positivo e não-nulo concluı́mos daquela identidade que os
sinais da seqüência B2n , n ≥ 1, são alternados e que os B2n ’s nunca se anulam. Como o lado esquerdo
de (9.33) converge a 1 quando n → ∞ (por que?), obtemos a expressão assintótica
Diversos textos tratam de outras propriedades elementares dos números de Bernoulli. Recomenda-
mos, em particular, [53]. Vide também [138]. Para uma prova de (9.33) usando séries de Fourier, vide
[36]. Para uma discussão aparentada, vide Seção 17.C, página 987, destas notas.
O estudante deve interessar-se em saber que é até hoje um problema aberto determinar fórmulas
X∞
1
exatas para as séries = ζ(m) quando m é um número ı́mpar maior que 1. Além de não haver tais
k=1
km
fórmulas exatas, sabe-se muito pouco sobre ζ(m) com m ı́mpar. Apenas em 1979 foi demonstrado por
R. Apéry15 que ζ(3) é um número irracional16 . Em 2000, Tanguy Rivoal demonstrou que há infinitos
ζ(m) com m ı́mpar que são irracionais17 .
onde ⌊m/2⌋ é o maior inteiro menor ou igual a m/2, e são soluções da equação de Legendre com
µ = m(m + 1), sendo (as únicas) soluções da equação de Legendre que permanecem limitadas nos
pontos ±1.
Como p(x) anula-se nos extremos ±1 e os Pm (x) são limitados nesses pontos, vale para os polinômios
de Legendre a relação (9.6) e concluı́mos pelo Teorema 9.1 que
Z 1
Pn (x)Pm (x) dx = 0 (9.36)
−1
para todo k < m, pois os monômios xk podem ser escritos como combinações lineares dos polinômios
Pn ’s com n < m. Para calcular as integrais de (9.36) no caso n = m, podemos elegantemente usar as
relações
′ ′
Pn+1 (x) = (2n + 1)Pn (x) + Pn−1 (x) , n≥0, (9.38)
e
Pn (1) = 1 , Pn (−1) = (−1)n , n≥0, (9.39)
as quais serão demonstradas mais abaixo (relações (9.44) e (9.48), respectivamente) como conseqüência
da fórmula de Rodrigues para os polinômios de Legendre. De fato, por integração por partes, tem-se
Z 1 1 Z 1
′
Pn (x)Pn+1 (x) dx = Pn (x)Pn+1 (x) − Pn′ (x)Pn+1 (x) dx .
−1 −1 −1
1 R1
Por (9.39), Pn (x)Pn+1 (x) = 1 + (−1)2n = 2. Por (9.37), −1 Pn′ (x)Pn+1 (x) dx = 0, pois Pn′ (x) é
−1
seguramente um polinômio de grau n − 1. Assim,
Z 1 Z 1
′ (9.38) ′
2 = Pn (x)Pn+1 (x) dx = Pn (x) (2n + 1)Pn (x) + Pn−1 (x) dx
−1 −1
Z 1
= (2n + 1) Pn (x)2 dx ,
−1
R1 ′ ′
pois, novamente por (9.37), −1
Pn (x)Pn−1 (x) dx = 0, já que Pn−1 (x) é um polinômio de grau n − 2.
Isso provou que Z 1
2
Pn (x)Pm (x) dx = δn, m , (9.40)
−1 2n + 1
para todos m, n ≥ 0. Estas são as relações de ortogonalidade para os polinômios de Legendre. Para
uma outra demonstração, vide Exercı́cio E. 9.28, página 577.
Em muitas situações práticas é conveniente expressar (9.40) através da mudança de variável x =
cos θ, com 0 ≤ θ ≤ π. Ficamos com
Z π
2
Pn (cos θ)Pm (cos θ) sen(θ) dθ = δn, m , (9.41)
0 2n + 1
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 9 523/1461
para todos m, n ≥ 0.
Pelas nossas considerações gerais sobre as fórmulas de Rodrigues, podemos presumir que os po-
linômios Pm , por serem ortogonais entre si (vide (9.36)), possam ser expressos na forma (9.13) com
r(x) = 1, ou seja,
dm
Pm (x) = Km m (1 − x2 )m ,
dx
onde Km são constantes que dependem
Pm m da normalização adotada. De fato, essa pressuposição é correta
2 m m−a 2m−2a
pois, escrevendo (1 − x ) = a=0 a (−1) x (binômio de Newton) e notando que
(2m − 2a)! m−2a
x , para 0 ≤ a ≤ ⌊m/2⌋
(m − 2a)!
dm 2m−2a
x = (9.42)
dxm
0, para ⌊m/2⌋ + 1 ≤ a ≤ m
⌊m/2⌋
dm X m
= (−1)m−a x2m−2a
dxm a=0 a
⌊m/2⌋
X
m−a m (2m − 2a)! m−2a
= (−1) x
a=0
a (m − 2a)!
⌊m/2⌋
X (−1)a (2m − 2a)!
m m
= (−1) 2 m! xm−2a
a=0
2m (m − a)!(m − 2a)!a!
= (−1)m 2m m! Pm (x) .
Todas as relações acima têm aplicações (vimos isso quando provamos as relações de ortogonali-
dade para os Pn ’s). A relação (9.47) é particularmente interessante por permitir determinar os Pn ’s
recursivamente a partir dos dois primeiros: P0 (x) = 1 e P1 (x) = x.
d
Comecemos por provar (9.44). Como dx
(x2 − 1)n+1 = 2(n + 1)x(x2 − 1)n , segue da fórmula de
Rodrigues para Pn+1 que
′ 1 dn+1 h 2 n
i
Pn+1 (x) = n+1 2(n + 1)x(x − 1)
2 (n + 1)! dxn+1
1 dn h 2 n 2 2 n−1
i
= (x − 1) + 2nx (x − 1)
2n n! dxn
1 dn h 2 n 2 n−1
i
= n (2n + 1)(x − 1) + 2n(x − 1)
2 n! dxn
′
= (2n + 1)Pn (x) + Pn−1 (x) ,
provando (9.44). Por outro lado, começando pela primeira linha obtida acima, e usando-se a regra de
Leibniz, tem-se
′ 1 dn+1 h 2 n
i
Pn+1 (x) = x(x − 1)
2n n! dxn+1
n+1 p n+1−p
1 X n+1 d d 2 n
= n x (x − 1)
2 n! p=0 p dxp dxn+1−p
1 dn+1 2 n (n + 1) dn 2
= x (x − 1) + (x − 1)n
2n n! dxn+1 2n n! dxn
= xPn′ (x) + (n + 1)Pn (x) ,
provando (9.45). A relação (9.46) é obtida subtraindo-se (9.45) de (9.44). Por fim, para obter (9.47),
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 9 525/1461
(9.46)
= (n + 1)Pn+1 (x) + Pn′ (x) − xPn−1
′
(x)
(9.45)
= (n + 1)Pn+1 (x) + nPn−1 (x) .
válida para |t| < 1 e |x| ≤ 1. Essa relação tem diversas demonstrações, a mais elegante sendo a seguinte
∂
(de [70]). Calculando-se ∂t L(x, t) e usando-se (9.47), tem-se
X∞ ∞
X
∂
L(x, t) = nPn (x) tn−1 = (n + 1)Pn+1 (x) tn
∂t n=1 n=0
∞ h
X i
(9.47)
= (2n + 1)xPn (x) − nPn−1 (x) tn
n=0
∞
X ∞
X ∞
X
n n
= 2x nPn (x) t + x Pn (x) t − nPn−1 (x) tn
n=0 n=0 n=0
∞
X ∞
X ∞
X
n n
= 2x nPn (x) t + x Pn (x) t − (n + 1)Pn (x) tn+1
n=0 n=0 n=0
∞ ∞ ∞
∂ X n
X
n 2 ∂
X
= 2xt Pn (x) t + (x − t) Pn (x) t − t Pn (x) tn
∂t n=0 n=0
∂t n=0
∂
= (2xt − t2 ) L(x, t) + (x − t)L(x, t) .
∂t
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 9 526/1461
A bem-conhecida Fórmula Integral de Cauchy, afirma que, para uma função f analı́tica em um
domı́nio aberto simplesmente conexo D, vale
Z
(n) n! f (w)
f (z) = dw , (9.50)
2πi C (w − z)n+1
para todo z ∈ D, onde a curva C é uma curva diferenciável fechada inteiramente contida em D e dá
precisamente uma volta no sentido anti-horário em torno de z. Combinando a fórmula de Rodrigues e
a Fórmula Integral de Cauchy, obtem-se imediatamente
Z
1 (w 2 − 1)l
Pl (z) = l+1 dw , (9.51)
2 πi C (w − z)l+1
onde C é uma curva fechada e diferenciável no plano complexo dando uma volta em torno de z no sentido
anti-horário. Essa expressão é conhecida como representação integral de Schläfli18 dos polinômios de
Legendre.
Uma conseqüência dessa representação é a seguinte expressão:
Z π l
1
Pl (z) = z + i(1 − z 2 )1/2 cos(φ) dφ , (9.52)
2π −π
válida para |z| < 1. A demonstração dessa expressão será apresentada mais adiante como caso parti-
cular de uma identidade mais geral (expressão (9.62), abaixo), válida para os polinômios de Legendre
associados. Como a equação de Legendre é invariante pela mudança l → −(l + 1) (verifique que l(l + 1)
é levado em si mesmo por essa transformação!), vale também a identidade19
Z π
1 1
Pl (z) = l+1 dφ . (9.53)
2π −π
z + i(1 − z 2 )1/2 cos(φ)
18
Ludwig Schläfli (1814-1895).
19
Esse argumento envolvendo a transformação l → −(l + 1) é ainda incompleto, mas pode-se provar que o lado direito
de (9.53) é de fato igual ao esquerdo, pois é regular e satisfaz a equação de Legendre. Deixamos os detalhes como
exercı́cio.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 9 527/1461
Para z real no intervalo [−1, 1], podemos escrever, como é comum em aplicações, z = cos(θ) com
0 ≤ θ ≤ π e com isso as duas identidades acima ficam
Z π l Z π
1 1 1
Pl (cos(θ)) = cos(θ) + i sen(θ) cos(φ) dφ = l+1 dφ .
2π −π 2π −π
cos(θ) + i sen(θ) cos(φ)
Usando o binômio de Newton podemos usar a primeira identidade para escrever Pl (cos(θ)) como
um polinômio em cos θ e senθ:
l p Z π
1 X l p l−p p
Pl (cos(θ)) = i cos(θ) sen(θ) cos(φ) dφ
2π p=0 p −π
X (−1)q l 2q
⌊l/2⌋ l−2q 2q
= cos(θ) sen(θ)
q=0
22q 2q q
⌊l/2⌋
X (−1)q l! l−2q 2q
= cos(θ) sen(θ) .
q=0
22q (l − 2q)! (q!)2
(l − m)! m
Pl−m (z) = (−1)m P (z) . (9.57)
(l + m)! l
Essa relação é importante por mostrar que Pl−m (z) é também uma solução da equação de Legendre
associada, por ser proporcional a Plm (z). Fora isso a expressão acima é relevante para as chamadas
harmônicas esféricas, das quais trataremos mais abaixo.
Apresentaremos duas demonstrações de (9.57), ambas instrutivas. Uma “à força bruta”, usando
diretamente as definições, é desenvolvida no Apêndice 9.A, página 581. Uma segunda, mais gentil, será
vista logo abaixo e usa uma representação integral dos polinômios de Legendre associados.
Nossa intenção agora é obter algumas representações integrais úteis para os polinômios de Legendre
associados mas, en passant, encontraremos uma outra demonstração mais gentil da identidade (9.57).
d k
2 l
As expressões (9.55) e (9.56) envolvem derivadas do tipo dz k (z − 1) para k = l + m e k = l − m,
dk
2 l
respectivamente. Procuremos primeiramente expressar genericamente dz k (z − 1) em termos de certas
integrais. Tomemos provisoriamente z real no intervalo aberto −1 < z < 1. Pela Fórmula Integral de
Cauchy (9.50), podemos escrever21
Z
dk 2 l k! (w 2 − 1)l
(z − 1) = dw , (9.58)
dz k 2πi C (w − z)k+1
onde C é uma curva fechada e diferenciável no plano complexo, dando uma volta em torno de z no
sentido anti-horário. Escolhemos a curva C dada por C := {w ∈ C| |w − z| = (1 − z 2 )1/2 }, de modo
que podemos escrever todo ponto w de C na forma
com −π ≤ φ ≤ π. Com isso, a integral em w sobre C pode ser escrita como uma integral em φ e para
isso, usa-se
Assim,
Z
dk 2 k! (w 2 − 1)l
k
(z − 1)l = dw
dz 2πi C (w − z)k+1
l
Z π 2i(1 − z 2 )1/2 eiφ z + i(1 − z 2 )1/2 cos(φ)
k!
= −(1 − z 2 )1/2 k+1
eiφ dφ
2πi −π (i(1 − z 2 )1/2 eiφ )
Z π l
2 (l−k)/2 2l il−k k!
= (1 − z ) z + i(1 − z 2 )1/2 cos(φ) ei(l−k)φ dφ
2π −π
e assim,
Z
dk 2 l
l l−k
2 (l−k)/2 2 i k! π 2 1/2
l
(z − 1) = (1 − z ) z + i(1 − z ) cos(φ) cos (l − k)φ dφ , (9.59)
dz k 2π −π
Z π
l
pois z + i(1 − z 2 )1/2 cos(φ) sen ((l − k)φ) dφ = 0, pelo fato de o integrando ser uma função
−π
ı́mpar.
Aplicando (9.59) às expressões (9.55) e (9.56) de Plm e Pl−m (adotando k = l + m e k = l − m,
respectivamente), chegamos a
Z
m i−m (l + m)! π l
Pl (z) = z + i(1 − z 2 )1/2 cos(φ) cos − mφ dφ ,
2πl! −π
Z π l
i+m (l − m)!
Pl−m (z) = 2 1/2
z + i(1 − z ) cos(φ) cos + mφ dφ ,
2πl! −π
onde C é uma curva fechada e diferenciável no plano complexo dando uma volta em torno de z no
sentido anti-horário. Essa expressão generaliza a representação de Schläfli (9.51) para os polinômios
de Legendre. Como conseqüência, estabelecemos também logo acima a representação integral
Z
m i−m (l + m)! π l
Pl (z) = z + i(1 − z 2 )1/2 cos(φ) cos mφ dφ , (9.62)
2πl! −π
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 9 530/1461
Através do binômio de Newton, a primeira identidade pode ser usada para expressar Plm (cos(θ)) como
um polinômio em cos θ e senθ:
l l−p p Z π p
i−m (l + m)! X p l
Plm (cos(θ)) = i cos(θ) sen(θ) cos(φ) cos mφ dφ ,
2πl! p=0
p −π
⌊ l−|m|
X 2 ⌋
−m+|m| (l + m)! (−1)q l 2q + |m| l−2q−|m| 2q+|m|
= i cos(θ) sen(θ)
2|m| l! q=0
22q 2q + |m| q
⌊ l−|m|
X 2 ⌋
(l + m)! (−1)q l−2q−|m| 2q+|m|
= i−m+|m| cos(θ) sen(θ) .
2|m| q=0
22q (l − 2q − |m|)! (q + |m|)! q!
(9.66)
Note que i−m+|m| = 1 se m ≥ 0 e i−m+|m| = (−1)m se m < 0, de modo que Plm (cos(θ)) é real se
0 ≤ θ ≤ π. A expressão (9.66) é por vezes utilizada na prática para expressar as harmônicas esféricas
(que definiremos abaixo) como polinômios em cos θ e senθ. Logo adiante faremos uso da mesma no
estudo das relações de ortogonalidade das funções Plm .
m
(1 − 2tx + t2 )− 2 = m t (1 − 2tx + t2 )−m− 2
dx 2 m!
(prove-a!) é fácil mostrar que
∞
X m
m (2m)! (1 − x2 ) 2
Pl+m (x) tl = m , (9.67)
l=0
2 m! (1 − 2tx + t2 )m+ 21
A expressão (9.67) é também denominada função geratriz dos polinômios de Legendre associados.
A expressão (9.67) tem poucas aplicações diretas, mas pode ser usada para demonstrar outras relações
sobre os polinômios de Legendre associados.
m+1
√
Pl+1 (x) = (2l + 1) 1 − x2 Plm (x) + Pl−1
m+1
(x) ,
√
(2l + 1) 1 − x2 Plm (x) = (l + m)(l + m − 1)Pl−1
m−1 m−1
(x) − (l − m + 1)(l − m + 2)Pl+1 (x) ,
E. 9.16 Exercı́cio. Prove todas as relações acima. Sugestão: tente por conta própria seguir as sugestões
do último parágrafo. Senão, consulte a literatura supracitada, mas com as seguintes precauções: a. dife-
rentes textos apresentam definições diferentes dos Plm , o que conduz a relações de recorrência distintas das
de acima; b. nem todos os livros-texto23 provam todas as relações e c. alguns contêm erros. 6
m2
1) q(x) = − , r(x) = 1, µ = l(l + 1) ,
1 − x2
1
2) q(x) = l(l + 1), r(x) = , µ = −m2 .
1 − x2
Analisaremos essas duas opções em separado. O caso 1 é o mais interessante, especialmente devido a
sua aplicação para as harmônicas esféricas. O caso 2 não é de grande interesse e o leitor pode dispensar
sua leitura, se o desejar24 .
Caso 1) A primeira questão que aqui se coloca é se a condição (9.6) é satisfeita para funções Plm (x) e
′
Plm
′ (x) com l ≤ l , ou seja, se
1
′ ′
p(x) Plm (x) (Plm
′ (x)) − P m
l′ (x) (P l
m
(x)) = 0, (9.69)
−1
d m 1 d m
Pl′ (x) = − P ′ (cos θ),
dx sen(θ) dθ l
d
Agora, por (9.66), Plm (cos θ) é um polinômio trigonométrico, e assim o é também dθ Plm (cos θ). Logo,
ambos são finitos em θ = 0 e θ = π. Como, porém, senθ anula-se nesses extremos, concluı́mos que
(9.70) é nula, confirmando a validade de (9.6) no caso em questão. Concluı́mos assim, pelo Teorema
9.1, página 507, que deve valer Z 1
Plm (x) Plm
′ (x) dx = 0 (9.71)
−1
sempre que l 6= l′ .
24
O caso 2 é um tanto patológico (pois a função r(x) diverge em ±1 e não é integrável) e é evitado por quase todos os
livros-texto.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 9 533/1461
R1
Interessamo-nos agora pelo caso l′ = l. Caso l = l′ = 0 vale P00 (x) = 1 e −1 (P00)2 dx = 2. Para
R1
calcular −1 (Plm (x))2 dx com l > 0 podemos proceder de diferentes maneiras, a mais direta sendo a
seguinte. Usando (9.57) e as expressões (9.55) e (9.56) para Plm e Pl−m, respectivamente, escrevemos
Z 1 Z 1
(l + m)!
Plm (x) Plm (x) dx = (−1) m
Plm (x)Pl−m (x) dx
−1 (l − m)! −1
Z 1
(−1)m (l + m)! dl+m 2 dl−m 2
= (x − 1)l l
(x − 1) dx
22l (l!)2 (l − m)! −1 dxl+m dxl−m
Z 1
int. por partes l−m vezes (−1)l (l + m)! d2l 2
= (x − 1) (x2 − 1)l dx
l
22l (l!)2 (l − m)! −1 dx2l
Z 1
(2l)! (l + m)!
= (1 − x2 )l dx
2 (l!)2 (l − m)!
2l
−1
(2l)! (l + m)! 2 (2l)!!
=
22l (l!)2 (l − m)! (2l + 1)!!
2 (l + m)!
= .
2l + 1 (l − m)!
Na terceira linha aplicamos integração por partes l − m vezes. Isso é justificado pois, como facilmente
dp 2 l 2 l−p
se vê por indução, derivadas como dx p (x − 1) , com 0 ≤ p < l são proporcionais a (x − 1) e, por
(2l)! (2l)!!
isso, os termos de fronteira se anulam. Na última passagem usamos o fato que (2l+1)!! = 2l+1 e o fato
que (2l)!! = 2l l!. Na penúltima passagem usamos a identidade
Z 1
(2l)!!
(1 − x2 )l dx = 2 , (9.72)
−1 (2l + 1)!!
R1
a qual pode ser provada da seguinte forma. Seja Al := −1
(1 − x2 )l dx. Então, para l > 0,
Z 1 Z 1
2 l dx
Al := (1 − x ) dx = (1 − x2 )l dx
−1 −1 dx
1 Z 1
int. por partes 2 l
= x(1 − x ) +2l x2 (1 − x2 )l−1 dx = −2lAl + 2lAl−1 .
−1
| {z } −1
=0
2l
Assim, Al = A
2l+1 l−1
e como A0 = 2, segue (9.72).
Demonstramos, assim, as relações de ortogonalidade
Z 1
2 (l + m)!
Plm (x) Plm′ (x) dx = δl, l′ , (9.73)
−1 2l + 1 (l − m)!
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 9 534/1461
Essa forma das relações de ortogonalidade dos polinômios de Legendre associados será particularmente
relevante para as harmônicas esféricas, como veremos adiante.
Caso 2) A primeira questão que aqui se coloca é se a condição (9.6) é satisfeita para funções Plm (x) e
′
6 |m′ | (lembre-se o leitor que µ = −m2 e, portanto µ 6= µ′ equivale a |m| =
Plm (x), com |m| = 6 |m′ |), ou
seja, se ′ ′ 1
m m m′ m ′
p(x) Pl (x) Pl (x) − Pl (x) (Pl (x)) = 0. (9.75)
−1
′
sempre que |m| = 6 |m |. A mesma análise feita para o caso 1 mostra que isso é verdadeiro, confirmando
a validade de (9.6) no caso em questão. Concluı́mos assim, pelo Teorema 9.1, página 507, que deve
valer
Z 1 Z π
m m′ 1 ′ 1
Pl (x) Pl (x) 2
dx = 0, ou seja, Plm (cos θ) Plm (cos θ) dθ = 0, (9.76)
−1 1−x 0 sen(θ)
sempre que |m| = 6 |m′ |. A expressão (9.66) ensina-nos que Plm (cos θ) é proporcional a ( senθ)|m| . Logo,
′
como |m| = 6 |m′ |, sempre haverá no produto Plm (cos θ)Plm (cos θ) pelo menos um fator senθ para
1
compensar o senθ , o que mostra que o integrando em (9.76) é limitado. O caso |m′ | = |m| é um tanto
patológico (a integral diverge se m = m′ = 0), difı́cil de demonstrar e sem conseqüências práticas
relevantes, de modo que nos limitamos a apresentar o resultado final25 :
0, se |m′ | =
6 |m|,
∞, se m′ = m = 0,
Z 1
1
m m′
Pl (x) Pl (x) dx = (9.77)
−1 1 − x2
(−1)m
, se − m′ = m > 0,
m
1 (l + m)!
, se m′ = m > 0.
m (l − m)!
• As Harmônicas Esféricas
No espaço Rn , n ≥ 2, o conjunto de pontos que distam de uma unidade da origem formam a assim
chamada esfera unitária26 , denotada por S n−1 :
n o
S n−1 := (x1 , . . . , xn ) ∈ Rn (x1 )2 + · · · + (xn )2 = 1 .
O conjunto S 1 é o cı́rculo unitário e seus pontos podem ser descritos por um único ângulo ϕ com
−π ≤ ϕ ≤ π: n o
S 1 := cos ϕ, senϕ ∈ R2 , −π ≤ ϕ ≤ π .
onde, para m ∈ Z,
1
em (ϕ) := √ eimϕ , −π ≤ ϕ ≤ π,
2π
dl = dϕ sendo a medida de comprimento do cı́rculo unitário S 1 . Usando as relações de ortogonalidade
(9.80) e as relações de ortogonalidade (9.74), é fácil constatar que
Z Z πZ π
′ m ′ m
Ylm
′ Yl dΩ = Ylm
′ (θ, ϕ) Yl (θ, ϕ) sen(θ) dθ dϕ = δm, m′ δl, l′ (9.81)
S2 −π 0
as harmônicas esféricas também formam um conjunto ortonormal completo para as funções definidas
em S 2 . Assim, em um sentido a ser precisado, todas as funções f (θ, ϕ) definidas em S 2 , e que sejam
contı́nuas por partes ou apenas de quadrado integrável, podem ser escritas em termos de uma série
envolvendo harmônicas esféricas. Essa série é dada por
∞ X
X l Z π Z π
f (θ, ϕ) = cl, m Ylm (θ, ϕ), com cl, m := Ylm (θ, ϕ) f (θ, ϕ) sen(θ) dθ dϕ ,
l=0 m=−l −π 0
e é uma espécie de generalização para a esfera S 2 da série de Fourier. Essas considerações justificam a
denominação de “harmônicas esféricas” para as funções Ylm .
As harmônicas esféricas também desempenham um papel na teoria de representações do grupo
SO(3). Há também generalizações das harmônicas esféricas para as esferas S n com n ≥ 3. Essas
generalizações são estudadas, por exemplo, em [70].
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 9 537/1461
onde ⌊m/2⌋ é o maior inteiro menor ou igual a m/2, e são soluções da equação de Hermite com µ = 2m.
Como p(x) decai a zero para x → ±∞ e os Hm (x) são polinômios, vale para os polinômios de
Hermite a relação (9.6) e concluı́mos pelo Teorema 9.1 que
Z ∞
2
Hn (x)Hm (x) e−x dx = 0 (9.83)
−∞
Z ∞
2
= Hn (x) (2xHn−1 (x)) e−x dx
−∞
Z ∞ Z ∞
(9.84) −x2 2
= Hn (x) Hn (x) e dx + (2n − 2) Hn (x) Hn−2(x) e−x dx
−∞
| −∞ {z }
= 0 por (9.83)
= An .
27
Advertência. Nestas notas usamos a chamada “definição fı́sica” dos polinômios de Hermite. Há uma outra convenção,
usada especialmente na Teoria das Probabilidades, que difere da definição usada em Fı́sica por um reescalonamento. O
leitor deve, por isso, ter cuidado ao comparar nossas expressões com outras usadas em textos da Teoria das Probabilidades.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 9 538/1461
R∞ 2 √
Logo, An = (2n)An−1 , ou seja, An = (2n)!! A0 = 2n n! A0 . Como A0 = −∞ e−x dx = π, concluı́mos
que Z ∞
2 √
Hn (x)Hm (x) e−x dx = 2n n! π δn, m , (9.85)
−∞
para todo m, n ≥ 0. Estas são as relações de ortogonalidade dos polinômios de Hermite.
Vamos aqui considerar a função geratriz exponencial dos polinômios de Hermite e provar que
∞
X Hn (x) 2
tn = e2xt−t . (9.86)
n=0
n!
Usando-se diretamente (9.82) e separando-se na soma n’s pares de n’s ı́mpares, segue que
∞
X X∞ ∞
Hn (x) n H2m (x) 2m X H2m+1 (x) 2m+1
t = t + t
n=0
n! m=0
(2m)! m=0
(2m + 1)!
∞ X
X m ∞ X
X m
(−1)k (2x)2m−2k t2m (−1)k (2x)2m+1−2k t2m+1
= +
m=0 k=0
k! (2m − 2k)! m=0 k=0
k! (2m + 1 − 2k)!
X∞ X ∞ ∞ ∞
(−1)k (2x)2m−2k t2m X X (−1)k (2x)2m+1−2k t2m+1
= +
k=0 m=k
k! (2m − 2k)! k=0 m=k
k! (2m + 1 − 2k)!
X∞ X ∞ ∞ ∞
m→m+k (−1)k (2x)2m t2m+2k X X (−1)k (2x)2m+1 t2m+1+2k
= +
k=0 m=0
k! (2m)! k=0 m=0
k! (2m + 1)!
∞
! ∞
! ∞
! ∞
!
X (−1)k t2k X (2xt)2m X (−1)k t2k X (2xt)2m+1
= +
k=0
k! m=0
(2m)! k=0
k! m=0
(2m + 1)!
∞
!
X (2xt)n
−t2
= e
n=0
n!
2
= e2xt−t ,
Pelas nossas considerações gerais sobre as fórmulas de Rodrigues, podemos presumir que os po-
linômios Hm , por serem ortogonais entre si (vide (9.83)), possam ser expressos na forma (9.17) com
2
r(x) = e−x , ou seja,
n
2 d 2
Hn (x) = Kn ex n
e−x ,
dx
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 9 539/1461
onde Km são constantes que dependem da normalização adotada. De fato, essa pressuposição é correta
2
pois, multiplicando (9.86) por e−x , obtem-se
X∞ 2
−(x−t)2 Hm (x)e−x m
e = t . (9.87)
m=0
m!
Encarando o lado direito como a expansão em série de Taylor em t, em torno de t = 0, da função do
lado esquerdo, concluı́mos que
2 d n
2
−(x−t)
Hn (x)e−x = e ,
dtn t=0
d
para todo n ≥ 0. Com a mudança de variável u = x − t, dtd = − du , ficamos com
−x2 n d
n
−u2 n d
n
−x2
Hn (x)e = (−1) e = (−1) e .
dun u=x dxn
Assim,
dn −x2 2
Hn (x) = (−1)n ex e , (9.88)
dxn
para todo n ≥ 0. Essa é a fórmula de Rodrigues dos polinômios de Hermite.
Ao mesmo tempo,
dn+1 −x2
2
Hn+1 (x) = (−1)n+1 ex e
dxn+1
n
x2 d d −x2
= (−1)n+1 e e
dxn dx
dn −x2
2
= 2(−1)n ex xe
dxn
X n p n−p
Leibniz n x2 n d d −x2
= 2(−1) e p
x n−p
e
p=0
p dx dx
n
n dx2−x2 dn−1 −x2
= 2(−1) e x n e + n n−1 e
dx dx
Assim, Hn+1 (x) = 2xHn (x)−2nHn−1 (x). Note que, como H0 (x) = 1 e H1 (x) = 2x, essa identidade vale
também para n = 0, convencionando que H−1 (0) ≡ 0. Reunindo isso com (9.89), somos conduzidos a
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 9 540/1461
válidas para todo n ≥ 0 com a convenção H−1 (0) ≡ 0. Estas expressões são bastante úteis. A relação
(9.91), por exemplo, permite obter recursivamente todos os Hn ’s a partir de H0 (x) = 1 e H1 (x) = 2x.
Em livros de Mecânica Quântica o estudante poderá aprender que algumas das propriedades dos
polinômios de Hermite que obtivemos acima podem ser provadas com o uso dos chamados operadores
de criação e aniquilação.
e representam soluções da equação de Laguerre em J = [0, ∞) para µ = m. É bastante claro que para
os polinômios de Laguerre vale a condição (9.6) e, portanto, pelo Teorema 9.1, segue que
Z ∞
Ln (x)Lm (x) e−x dx = 0 (9.94)
0
para todo k < m, pois os monômios xk podem ser escritos como combinações lineares dos polinômios
Ln ’s com n < m. Para calcular as integrais de (9.94) no caso m = n podemos fazer uso da identidade
que será demonstrada mais abaixo (expressão (9.100)). Com ela, vê-se que
Z ∞ Z ∞
2 −x
(n + 1) Ln (x) e dx = Ln (x) (n + 1)Ln (x) e−x dx
0 0
Z ∞ Z ∞
(9.96)
= (n + 1) Ln (x)L′n (x) −x
e dx − Ln (x)L′n+1 (x) e−x dx
|0 {z 0
}
= 0 por (9.95)
∞ Z ∞
int. por partes −x
= −Ln (x)Ln+1 (x)e + L′n (x)Ln+1 (x) e−x dx
0
|0 {z }
= 0 por (9.95)
Z ∞
− Ln (x)Ln+1 (x) e−x dx
|0 {z }
= 0 por (9.94)
(9.93)
= Ln (0)Ln+1 (0) = (n + 1)(n!)2 .
Pela ortogonalidade dos polinômios de Laguerre (9.94), podemos presumir, sob a luz das consi-
derações da Seção 9.1.3, página 509, que os polinômios de Laguerre satisfazem, por (9.15), uma relação
como
1 dm m
x d
m
m −x
Lm (x) := Km r(x) x = K m e x e , (9.98)
r(x) dxm dxm
onde Km é uma constante dependente da normalização adotada. De fato, pela regra de Leibniz,
m m−p p
x dm m −x x
X m d m d −x
e x e = e x e
dxm p=0
p dx m−p dxp
Xm
p m m! p (9.93)
= (−1) x = Lm (x) .
p=0
p p!
dm m−1 −x
x d
m−1
= ex x m
x e + me m−1
xm−1 e−x
dx dx
d −x
= ex x e Lm−1 (x) + mLm−1 (x)
dx
= −xLm−1 (x) + xL′m−1 (x) + mLm−1 (x) .
Estabelecemos que
Lm (x) = −xLm−1 (x) + xL′m−1 (x) + mLm−1 (x) (9.101)
o que também implica (fazendo m → m + 1)
Lm+1 (x) − mLm (x) = −xLm (x) + xL′m (x) + (m + 1)Lm (x) + mxLm−1 (x) − mxL′m−1 (x) − m2 Lm−1 (x) .
(9.103)
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 9 543/1461
(9.100)
Por (9.100), os termos xL′m (x) − mxL′m−1 (x) valem x(L′m (x) − mL′m−1 (x)) = −mxLm−1 (x). Intro-
duzindo isso de volta a (9.103), inferimos que
Essas relações são denominadas fórmulas de recorrência para os polinômios de Laguerre. A relação
(9.105), em particular, permite obter recursivamente todos os Lm (x)’s a partir de L0 (x) = 1 e L1 (x) =
1 − x.
Partindo de (9.93) obtemos para a função geratriz exponencial dos polinômios de Laguerre
X∞
Lm (x) m
L(x, t) := t
m=0
m!
o seguinte desenvolvimento28 :
∞ X
X m
1 n m
L(x, t) = (−1) xn tm
m=0 n=0
n! n
∞ X
X ∞
1 n m
= (−1) xn tm
n=0 m=n
n! n
∞ ∞
!
X xn X m
= (−1)n tm . (9.106)
n=0
n! m=n
n
28
Assumimos |t| e |x| pequenos o suficiente para justificar as diversas manipulações que faremos.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 9 544/1461
Agora,
∞
X ∞
m m m→m+n tn X (m + n)! m
t = t
m=n
n n! m=0 m!
∞ ∞
!
tn X dn m+n tn dn X
= t = tn tm
n! m=0 dtn n! dtn m=0
tn dn tn
=
n! dtn 1−t
n p n−p
Leibniz tn X n d n d −1
= t (1 − t)
n! p=0 p dtp dtn−p
n
tn X n n! n−p (n − p)!
= t
n! p=0 p (n − p)! (1 − t)n−p+1
n n−p n
tn X n t tn t tn
= = 1+ = .
1 − t p=0 p 1−t 1−t 1−t (1 − t)n+1
(m)
com 0 ≤ m ≤ n. O polinômio Ln é a única solução de (9.108) que é regular em x = 0. É de se notar
que, por essa definição, tem-se
L(0)
n (x) = Ln (x) (9.110)
para todo n ≥ 0 e, portanto, os polinômios de Laguerre são polinômios de Laguerre associados.
(−1)m n! x −m dn−m n −x
Ln(m) (x) = e x x e .
(n − m)! dxn−m
6
(m)
É bastante elementar constatar que, com m fixo, as funções Ln com n ≥ m satisfazem (9.6) para
o intervalo J = [0, ∞). Assim, vale que
Z ∞
(m)
Ln(m) (x) Ln′ (x) xm e−x dx = 0 (9.111)
0
sempre que n 6= n′ . Para calcular a integral acima no caso n′ = n fazemos uso da relação (9.118),
que será demonstrada logo adiante. Tomando (9.118), substituindo n → n − 1 e multiplicando-a por
(m)
n−1 Ln (x), obtemos
(n + 1 − m) (m) 2
(m) (m) (m)
Ln+1 (x)Ln−1 (x) = (2n − m − x + 1)Ln(m) (x)Ln−1 (x) − n2 Ln−1 (x) .
n+1
Subtraindo uma expressão da outra, obtemos
Multiplicando agora esta expressão por xm e−x , integrando entre 0 e ∞ e usando (9.111), ficamos com
Z ∞ 2 Z ∞ 2
m −x n3 (m)
(m)
Ln (x) x e dx = Ln−1 (x) xm e−x dx .
0 (n − m) 0
A indução pode ser feita diminuindo n até atingir o valor m, de onde extraı́mos que
Z ∞ 2 Z ∞ 2
m −x (n!)3
(m)
Ln (x) x e dx = 3
Lm (x) xm e−x dx .
(m)
0 (m!) (n − m)! 0
(m) R∞
Pela última igualdade em (9.109), tem-se Lm (x) = (−1)m m!. Ao mesmo tempo, 0 xm e−x dx = m!.
Assim, Z ∞ 2 (n!)3
(m) m −x
Ln (x) x e dx = .
0 (n − m)!
Essa expressão pressupõe, naturalmente, 0 ≤ m ≤ n.
Concluı́mos assim que com nossas definições
Z ∞
(m) (n!)3
Ln(m) (x) Ln′ (x) xm e−x dx = δn, n′ . (9.112)
0 (n − m)!
Essas são as relações de ortogonalidade dos polinômios de Laguerre associados.
Comentário para o leitor mais avançado. Ao contrário da lenda, as relações de ortogonalidade (9.112)
não são as relações de ortogonalidade da parte radial das auto-funções de energia do átomo de hi-
drogênio. Os polinômios de Laguerre associados possuem um outro tipo de relação de ortogonalidade,
a saber,
Z ∞
ρ ρ ′”
2 p2l+4 ((p + l)!)3
“
(2l+1) (2l+1) − ρ2 p+p ′ 2l+2
Lp′ +l Lp+l e pp ρ dρ = δp, p ′ . (9.113)
0 p′ p (p − l − 1)!
válida para todo p, p′ inteiros positivos (não-nulos), as quais discutiremos na Seção 10.5, página 610.
Lamentavelmente, poucos livros-texto de Mecânica Quântica discutem esse ponto quando tratam do
átomo de hidrogênio. Uma exceção, um tanto surpreendentemente, é [5].
As relações (9.112) implicam um resultado que é usado no contexto do átomo de hidrogênio. Trata-
se do seguinte: no caso n = n′ (9.112) diz-nos que
Z ∞
2 m −x (n!)3
Ln(m) (x) x e dx = .
0 (n − m)!
No problema do átomo de hidrogênio surge a necessidade de se determinar a integral
Z ∞
2 m+1 −x
Ln(m) (x) x e dx (9.114)
0
que difere da anterior pois o fator xm é substituı́do por xm+1 . Essa última integral pode ser calculada
empregando-se a relação
(n + 1 − m) (m) (m)
xLn(m) (x) = − Ln+1 (x) + (2n − m + 1)Ln(m) (x) − n2 Ln−1 (x) ,
n+1
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 9 547/1461
que será provada logo abaixo (expressão (9.118)). Inserindo-a em (9.114) e usando as relações de
ortogonalidade (9.112), obtem-se facilmente
Z ∞
2 m+1 −x (n!)3
Ln(m) (x) x e dx = (2n − m + 1) . (9.115)
0 (n − m)!
Essa expressão será usada quando da normalização das auto-funções de energia do átomo de hidrogênio.
(m) ′ (m+1)
onde, em (9.116), usamos o fato evidente que Ll (x) = Ll (x).
(m−1) 1 (m) (m)
Tomando (9.116) e trocando m → m − 1, obtem-se Ln (x) = − (n+1) Ln+1 (x) + Ln (x). Inserindo
isso em (9.117), obtem-se
(m) (m)
(n + 1 − m)Ln+1 (x) = (n + 1)(2n − m − x + 1)Ln(m) (x) − n2 (n + 1)Ln−1 (x) . (9.118)
Essas relações são denominadas fórmulas de recorrência para os polinômios de Laguerre associados.
A partir da definição (9.109) e de (9.107) é elementar constatar que a função geratriz exponencial
dos polinômios de Laguerre associados é dada por
∞
X (m)
L (x)l l (−1)m tm xt
Las. (x, t) := t = exp − . (9.119)
l=m
l! (1 − t)m+1 1−t
dm
A soma acima começa com l = m pois L (x)
dxm l
= 0 caso m > l.
com n ∈ N e α > −1, real. Trata-se de uma variante da equação de Laguerre associada, pois α aqui
não é necessariamente um inteiro.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 9 548/1461
E. 9.18 Exercı́cio. Mostre que essa equação tem uma solução da forma de um polinômio
X n
α k n Γ(n + α + 1) k
Ln (z) := (−1) z .
k=0
k Γ(k + α + 1)
• Origens
aquele que estuda as vibrações de uma membrana circular (um tambor), problema encontrado em vários
livros-texto e que estudamos na Seção 10.3, página 605. Esse problema foi tratado pela primeira vez
por Euler30 em 1764, antecedendo a Bessel. Em verdade, certas funções de Bessel surgiram antes ainda,
em 1703, na resolução da chamada equação de Riccati31 por Jacob Bernoulli32 (vide nota histórica à
página 305) e em 1732, em trabalhos de Daniel Bernoulli33 sobre o problema da corda vibrante e suas
variantes (vide problema da corda pendurada na Seção 10.2.2, página 596). O trabalho do astrônomo
Bessel34 no qual as funções que levam seu nome foram (re)encontradas é bem posterior e data de 1817,
tendo sido publicado em 182435 .
O problema que conduziu Bessel não foi o de resolver uma equação diferencial, mas o de determinar
coeficientes de Fourier que descrevem a trajetória de um planeta em movimento periódico em uma órbita
elı́ptica em torno do Sol e obedecendo a segunda lei de Kepler36 , segundo a qual o raio-vetor que conecta
o Sol ao planeta em questão varre áreas iguais em tempos iguais37 . Bessel obteve para esses coeficientes
uma expressão integral que é a representação integral das funções de Bessel que apresentamos em
(9.145), mais abaixo. Posteriormente, identificou-se que esses coeficientes representavam as funções
previamente tratadas por Daniel Bernoulli e Euler, mas as mesmas acabaram sendo nomeadas em
honra a Bessel (segundo [68], o nome de Bessel foi atribuı́do à equação diferencial por Schlömilch38 em
1857 e Lipschitz39 em 1859). Em seu trabalho, na verdade, Bessel estendeu resultados anteriores de
Lagrange40 , de 1769, o qual também dedicou-se à questão de determinar os coeficientes de Fourier que
expressam como função do tempo a distância ao Sol de um planeta em órbita elı́ptica, calculando os
três primeiros41 .
A determinação desses coeficientes de Fourier não é um mero exercı́cio acadêmico, pois é importante
para cálculos, via teoria de perturbações, da influência gravitacional que os planetas exercem entre si
e da conseqüente previsão de desvios das suas órbitas elı́pticas. O estudo matemático de perturbações
periódicas ou quase-periódicas em sistemas mecânicos (ou em equações diferenciais, em geral) é um
vasto assunto de pesquisa que tem desafiado inúmeros pesquisadores até a atualidade.
Bessel é também autor de dois outros importantes feitos cientı́ficos, a proposição da existência de
estrelas binárias e a medição da distância ao Sol de uma outra estrela.
Bessel foi um dos primeiros a propor a existência de estrelas binárias, prevendo em 1834 a existência
de uma companheira da estrela Sirius. Tal previsão foi possı́vel em função de medidas de alta precisão,
que Bessel produziu durante anos, da posição de várias estrelas. Tais medidas indicavam um movimento
elı́ptico periódico de Sirius cuja origem não poderia ser explicada em termos de movimentos da Terra
30
Leonhard Euler (1707-1783).
31
Iacopo Francesco Riccati (1676-1754).
32
Jacob Bernoulli (1654-1705).
33
Daniel Bernoulli (1700-1782).
34
Friedrich Wilhelm Bessel (1784-1846).
35
F. W. Bessel, “Untersuchungen des Theils der planetarischen Störungen, welcher aus der Bewegung der Sonne
entsteht”. Berliner Abhandlungen, 1-52 (1824).
36
Johannes Kepler (1571-1630).
37
Como todo estudante de Fı́sica bem sabe, isso é conseqüência da conservação do momento angular sob uma força
central.
38
Oscar Xavier Schlömilch (1823-1901).
39
Rudolf Otto Sigismund Lipschitz (1832-1903).
40
Joseph-Louis Lagrange (1736-1813).
41
Outras informações históricas sobre o desenvolvimento das funções de Bessel podem ser encontradas em [147].
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 9 550/1461
ou do sistema solar. Bessel propôs que esse movimento era devido à presença de uma outra estrela
menos brilhante nas proximidades de Sirius e que ambas orbitavam em torno do centro de massa
comum, explicando assim as observações. Em 1840, Bessel anunciou a observação de tais movimentos
periódicos em outra estrela, a estrela Procyon.
A existência da companheira de Sirius foi confirmada por observações feitas em 1862 por A. G.
Clark42 e a de Procyon em 1896, por J. M. Schaeberle43 , ambas após a morte de Bessel. As estatı́sticas
atuais indicam que cerca de metade das estrelas da nossa galáxia é composta por estrelas binárias.
Há também sistemas triplos de estrelas (α Centauri sendo o exemplo mais popularmente conhecido),
quádruplos (ǫ Lyrae) etc.
Um problema matemático, levantado pela primeira vez por Laplace44 em 1785 e ainda hoje em
aberto, ao qual nomes como o de Poincaré45 deram importantes contribuições, é o de saber se sistemas
múltiplos como esses, ou como o nosso próprio sistema solar, são estáveis. Esse problema deu origem a
uma importante área de pesquisa atual, a teoria dos sistemas dinâmicos46 . Métodos como os que Bessel
e outros empregaram para a detecção de sistemas binários são empregados hoje em dia na detecção de
planetas orbitando estrelas, outro tema atual de pesquisa.
Bessel foi também o primeiro, em 1838, a determinar a distância ao Sol de uma outra estrela, usando
para tal o método de paralaxe. A estrela em questão foi 61 Cygni e Bessel calculou sua distância ao
Sol como sendo cerca de 10 anos-luz. O valor atualmente aceito é de cerca de 10,7 anos-luz, ou 3,3
parsecs47 . Com esse trabalho, Bessel contribuiu para o estudo das escalas de distância cosmológicas,
tarefa em implementação até os nossos dias.
X∞ 2k+ν−1
(−1)k (k + ν) 1
= (x)2k+2ν−1
k=0
k! Γ(k + 1 + ν) 2
∞
X (−1)k x 2k+ν−1
ν
= x
k=0
k! Γ(k + ν) 2
= xν Jν−1 (x) .
Multiplicando Jν por x−ν e diferenciando em relação a x, obtem-se analogamente
∞ 2k+ν
d d X (−1)k 1
−ν
x Jν (x) = (x)2k
dx dx k=0 k! Γ(k + 1 + ν) 2
∞
X 2k+ν−1
(−1)k 1
= (x)2k−1
k=1
(k − 1)! Γ(k + 1 + ν) 2
∞
X (−1)k x 2k+ν−1
−ν
= x
k=1
(k − 1)! Γ(k + 1 + ν) 2
∞
X (−1)k x 2k+ν+1
k→k+1 −ν
= −x
k! Γ(k + 2 + ν) 2
k=0
ou seja,
xJν′ (x) = xJν−1 (x) − νJν (x) e xJν′ (x) = νJν (x) − xJν+1 (x) . (9.123)
Somando e subtraindo essas duas expressões uma da outra obtemos as seguintes relações importantes:
1
Jν′ (x) = Jν−1 (x) − Jν+1 (x) , (9.124)
2
1
Jν+1 (x) = 2νJν (x) − xJν−1 (x) . (9.125)
x
Essas relações, válidas para todo ν ∈ C, são denominadas relações de recorrência das funções de Bessel.
A segunda delas permite, por exemplo, obter todas as funções Jm com m inteiro positivo a partir de
J0 e J1 . Na verdade, por (9.122), basta conhecer J0 e sua derivada.
Resumindo, obtivemos as seguintes relações
d ν
(x Jν (x)) = xν Jν−1 (x) , (9.126)
dx
d
x−ν Jν (x) = −x−ν Jν+1 (x) , (9.127)
dx
xJν′ (x) = xJν−1 (x) − νJν (x) , (9.128)
1
Jν′ (x)
= Jν−1 (x) − Jν+1 (x) , (9.130)
2
1
Jν+1 (x) = 2νJν (x) − xJν−1 (x) , (9.131)
x
válidas para todo ν ∈ C e todo x ∈ C, x 6= 0.
Expressões análogas às de acima são também válidas para as funções Nν (x).
• A relação entre Jn e J0 , n ∈ N
válida para todo x ∈ C e n ∈ N. A expressão (9.133) generaliza (9.122) e guarda certa semelhança
com as fórmulas de Rodrigues.
A determinação da função geratriz das funções de Bessel é importante, entre outras razões, por nos
permitir obter representações integrais para as funções de Bessel, representações essas que assumem
uma grande relevância em várias aplicações.
Tomemos as funções de Bessel de ordem inteira definidas por
∞
X (−1)k x 2k+m
Jm (x) := , (9.134)
k=0
k! (k + m)! 2
para m ≥ 0, convencionando-se que J−m (x) = (−1)m Jm (x) (vide (8.121) e a discussão que lhe acom-
panha). Vamos aqui considerar a função geratriz definida por
∞
X
J(x, t) := tm Jm (x)
m=−∞
Dessa importante relação serão extraı́dos vários fatos úteis sobre as funções de Bessel de ordem inteira.
Antes de provarmos isso, mostremos que J(x, t) está bem definida. Por (9.134), vale
∞
X 1 x 2k+m 1 x m X 1
∞ x 2k 1 x m |x/2|2
|Jm (x)| ≤ ≤ = e ,
k=0
k! (k + m)! 2 m! 2 k=0 k! 2 m! 2
de modo que
∞
X ∞ m
X 1
|J(x, t)| ≤ |J0 (x)| + m
|t| |Jm (x)| + |Jm (x)|
t
m=1 m=1
m
1 x m
X∞ X∞
|x/2|2 1 xt |x/2|2
≤ |J0 (x)| + e +e ,
m=1
m! 2 m=1
m! 2t
sendo que as últimas somas são convergentes para todo x ∈ C e todo t ∈ C com t 6= 0, o que prova que
J(x, t) é analı́tica para todo x ∈ C e todo t ∈ C com t 6= 0.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 9 554/1461
Podemos com isso demonstrar (9.135) de modo bem simples, tomando a derivada parcial em relação
a x de J(x, t), derivando termo a termo na soma (o que é permitido, devido à analiticidade) e usando
(9.124):
∞
X
∂ ′
J(x, t) = tm Jm (x) (9.136)
∂x m=−∞
∞ ∞
(9.124) 1 X m 1 X m
= t Jm−1 (x) − t Jm+1 (x) (9.137)
2 m=−∞ 2 m=−∞
∞ ∞
k=m−1,
l=m+1 t X k t−1 X l
= t Jk (x) − t Jl (x) (9.138)
2 k=−∞ 2 l=−∞
1 1
= t− J(x, t) . (9.139)
2 t
∂
Assim, J(x, t) satisfaz a equação diferencial ∂x
t) = 21 t − 1t J(x, t), cuja solução geral é
J(x,
x 1
J(x, t) = f (t) exp t− ,
2 t
para alguma função f (t). Agora, como Jm (0) = 0 para m 6= 0 e J0 (0) = 1, segue que J(0, t) = 1, o
que implica f (t) = 1, provando (9.135).
Estudando a demonstração acima o leitor poderá reconhecer a importância de definir-se J−m (x) =
(−1)m Jm (x), para m inteiro positivo ou zero.
válida para todo m ∈ Z e todos x, y ∈ C. Essa expressão é denominada por alguns autores fórmula
de adição das funções de Bessel (a “adição”, aqui, refere-se à adição dos argumentos da função no
lado esquerdo). As funções de Bessel satisfazem várias outras relações de adição do tipo de acima e
remetemos o leitor à literatura supracitada (por exemplo, à referência [70]) para generalizações.
A demonstração de (9.140) é obtida de (9.135) calculando-se o produto J(x, t)J(y, t) de duas
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 9 555/1461
∞
X ∞
X
= tk+l Jk (x)Jl (y)
k=−∞ l=−∞
∞ ∞
!
X X
= tm Jn (x)Jm−n (y) . (9.142)
m=−∞ n=−∞
É possı́vel estabelecer limites superiores mais precisos para |Jn (x)|, mas não trataremos disso aqui.
A relação (9.135) tem vários usos, um deles é o de fornecer uma representação integral para as
funções de Bessel, com a qual outras propriedades podem ser obtidas. A relação (9.135) foi provada
para todo x ∈ C e t ∈ C com t 6= 0. Tomemos t com |t| = 1, ou seja, tomemos t da forma t = eiϕ , com
−π ≤ ϕ ≤ π. Obtemos,
X∞
eix sen(ϕ) = Jm (x)eimϕ . (9.144)
m=−∞
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 9 556/1461
O ponto interessante é que podemos interpretar o lado direito como sendo a série de Fourier na variável
ϕ da função periódica de perı́odo 2π do lado esquerdo, de onde tiramos que
Z π Z π
1 ix sen(ϕ) −imϕ 1
Jm (x) = e e dϕ = eix sen(ϕ)−imϕ dϕ ,
2π −π 2π −π
para todo m ∈ Z. Usando eia = cos(a) + i sen(a), tem-se
Z π Z π
1 i
Jm (x) = cos (x sen(ϕ) − mϕ) dϕ + sen (x sen(ϕ) − mϕ) dϕ .
2π −π 2π −π
A segunda integral do lado direito é nula, pois o integrando é uma função ı́mpar em ϕ. Como o
integrando da primeira integral do lado direito é uma função par em ϕ, segue que
Z π Z
1 1 π
Jm (x) = cos (x sen(ϕ) − mϕ) dϕ = cos (x sen(ϕ) − mϕ) dϕ , (9.145)
2π −π π 0
válida para todo m ∈ Z. Essa expressão é a importante representação integral da função de Bessel
Jm (x), m ∈ Z.
Tomando-se t = ieiϕ em (9.135), obtem-se
∞
X
ix cos(ϕ)
e = im Jm (x)eimϕ . (9.146)
m=−∞
de onde se extrai Z π
(−i)m
Jm (x) = eix cos(ϕ)−imϕ dϕ . (9.147)
2π −π
onde p = |~p|. 6
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 9 557/1461
f0 , 0 ≤ r ≤ R
E. 9.26 Exercı́cio. Seja f : R2 → C definida por f (~x) = f (r) = , sendo f0 e R
0, r>R
constantes com R > 0. Mostre que
f0 R
F[f ](~p) = J1 (pR) .
p
Sugestão: De (9.121) segue que xJ0 (x) = (xJ1 (x))′ . 6
• Propriedades adicionais
De (9.144) podemos extrair mais algumas relações de interesse. Mostremos algumas aqui. Separando
a parte real e a parte imaginária de ambos os lados de (9.144), teremos
∞
X
cos x sen(ϕ) = Jm (x) cos(mϕ) ,
m=−∞
∞
X
sen x sen(ϕ) = Jm (x) sen(mϕ) .
m=−∞
Usando que J−m (x) = (−1)m Jm (x), obtemos alguns cancelamentos que conduzem a
∞
X
cos x sen(ϕ) = J0 (x) + 2 J2k (x) cos(2kϕ) , (9.149)
k=1
∞
X
sen x sen(ϕ) = 2 J2k−1 (x) sen((2k − 1)ϕ) . (9.150)
k=1
∞
X
sen(x) = 2 (−1)k+1 J2k−1 (x) . (9.152)
k=1
Outras identidades podem ser obtidas a partir das várias apresentadas de acima, ou com os mesmos
métodos, mas encerramos aqui nossa apresentação das mesmas, convidando o leitor a um passeio
à literatura pertinente às funções de Bessel. Nossa intenção agora é a de discutir as relações de
ortogonalidade para as funções de Bessel.
Teorema 9.3 Seja ν real e suponha que | arg z| < π. Então Jν (z) possui uma coleção infinita enu-
merável de zeros reais e positivos e um número 2N(ν) de zeros conjugados complexos, sendo que
Os zeros reais positivos de Jν (z), com ν real, não possuem pontos de acumulação em R+ . 2
Teorema 9.4 Para ν ≥ 0 a função Jν′ (z) possui apenas zeros simples, exceto em z = 0 e entre dois
zeros sucessivos de Jν′ (z) há exatamente um zero de Jν (z). 2
para | arg z| < π possui uma coleção enumerável de zeros reais positivos e no caso em que ν + A/B ≥
0, também não possui raı́zes complexas. Caso ν + A/B < 0, AJν (z) + BzJν′ (z) possui duas raı́zes
imaginárias puras. 2
Os enunciados acima foram extraı́dos de [92], [70] e [66] e suas demonstrações podem ser encontradas
em [147] ou (parcialmente) em [70]. Não as apresentaremos aqui, mas o leitor não deve ser desestimulado
a estudá-las pois as mesmas são elementares e utilizam-se essencialmente apenas do material que já
apresentamos aqui.
Em muitos problemas, por exemplo, naquele em que estudamos os modos de vibração de uma
membrana circular, estamos interessados nas soluções da equação de Bessel em um intervalo finito
fechado. Consideraremos, para fixar idéias, o caso em que o intervalo é J = [0, 1]. Em uma tal
situação encontraremos relações de ortogonalidade, as quais são muito importantes na resolução de
certos problemas envolvendo equações diferenciais parciais submetidas a condições iniciais e de contorno.
Devido aos comentários que fizemos acima sobre os zeros das funções de Bessel consideraremos no
que segue apenas o caso em que ν é real.
Seja para um dado α ∈ R a função fα (x) := Jν (αx). É fácil verificar que fα (x) é solução da equação
ν2
(xy ′ (x))′ − y(x) + α2 xy(x) = 0 . (9.153)
x
Como α aparece elevada ao quadrado na expressão acima podemos sem perda de generalidade
considerar α > 0 (o caso α = 0 é trivial, pois corresponde a uma função constante: f0 (x) = Jν (0)).
Nosso principal resultado será o seguinte teorema, o qual estabelece uma classe bastante geral de
relações de ortogonalidade para as funções de Bessel. Essas relações de ortogonalidade são de suma
importância nas aplicações dessas funções à solução de certas equações diferenciais submetidas a certas
condições iniciais e de contorno.
Teorema 9.6 Seja ν ≥ 0 e sejam fixados certos números reais A, B com (A, B) 6= (0, 0) satisfazendo
ν + A/B ≥ 0, caso B 6= 0 (vide Teoremas 9.2-9.5). Seja também ZνA, B o conjunto de todos os números
α > 0 tais que
AJν (α) + BαJν′ (α) = 0 , (9.154)
ou seja,
ZνA, B := {α > 0| AJν (α) + BαJν′ (α) = 0} . (9.155)
Pelo Teorema 9.5, esse conjunto é não-vazio e enumerável. Então a condição (9.6) do Teorema 9.1,
página 507, com J = [0, 1], é satisfeita para todas as funções fα (x) = Jν (αx) com α ∈ ZνA, B e,
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 9 560/1461
ou seja, Z 1
Jν (αx)Jν (βx) x dx = 0 . (9.156)
0
para todos α, β ∈ ZνA, B com α 6= β. Para todos α, β ∈ ZνA, B , tem-se
Z 1
δα, β ′ 2 ν2 2
Jν (αx)Jν (βx) x dx = (Jν (α)) + 1 − 2 (Jν (α))
0 2 α
(9.129) δα, β 2 2ν 2
= (Jν (α)) − Jν (α)Jν+1(α) + (Jν+1 (α)) . (9.157)
2 α
Essa expressão é denominada relação de ortogonalidade das funções de Bessel. Note que há uma relação
de ortogonalidade para cada tripla (ν, A, B) com ν ≥ 0 e (A, B) 6= (0, 0) e ν + A/B ≥ 0, B 6= 0, pois
cada tripla (ν, A, B) fixa o conjunto WνA, B .
A relação (9.154) corresponde a condições de contorno freqüentemente encontradas na resolução de
equações diferenciais parciais da Fı́sica, como por exemplo no problema de propagação de ondas em
uma membrana circular (um tambor). No caso A = 1, B = 0 o conjunto Zν1, 0 coincide com o dos zeros
da função de Bessel Jν (x). No caso A = 0, B = 1 o conjunto Zν0, 1 coincide com o dos zeros da função
Jν′ (x).
Em particular, se ν ≥ 0 e αkν é o k-ésimo zero da função Jν (x) no intervalo (0, ∞), então
Z 1 (Jν′ (αkν ))2 (Jν+1 (αkν ))2
Jν αkν x Jν αlν x x dx = δk, l = δk, l . (9.158)
0 2 2
Analogamente, se ν ≥ 0 e βkν é o k-ésimo zero da função Jν′ (x) no intervalo (0, ∞), então
Z 1 2 !
ν (Jν (βkν ))2
Jν βkν x Jν βlν x x dx = δk, l 1 − . (9.159)
0 βkν 2
Dessa relação percebemos incidentalmente que βkν > ν para todo k, pois o lado esquerdo é certamente
positivo quando k = l. 2
Prova do Teorema 9.6. Podemos encarar a equação (9.153) como sendo da forma canônica (9.1) para o
2
intervalo J = (0, 1] com p(x) = x, q(x) = − νx , r(x) = x e µ = α2 . Perguntemo-nos agora se para duas
funções fα (x) := Jν (αx) e fβ (x) := Jν (βx) a condição (9.6) do Teorema 9.1, página 507 é satisfeita nos
extremos do intervalo J = (0, 1], ou seja, se
p(1) fα (1)fβ′ (1) − fα′ (1)fβ (1) − lim p(x) fα (x)fβ′ (x) − fα′ (x)fβ (x) = 0 ,
x→0
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 9 561/1461
isto é, se
(Jν (α)βJν′ (β) − αJν′ (α)Jν (β)) − lim x (Jν (αx)βJν′ (βx) − αJν′ (αx)Jν (βx)) = 0 .
x→0
lim x (Jν (αx)βJν′ (βx) − αJν′ (αx)Jν (βx)) ∝ lim xxν xν−1 = 0
x→0 x→0
sempre que ν > 0. Para ν = 0 a relação acima também é válida, pois o primeiro termo da expansão de
J0 (x) é constante, mas o primeiro termo da expansão de J0′ (x) é proporcional a x. Para ν < 0 o limite
x → 0 da expressão acima é singular. Concluı́mos que para ν ≥ 0 vale
p(1) fα (1)fβ′ (1) − fα′ (1)fβ (1) − lim p(x) fα (x)fβ′ (x) − fα′ (x)fβ (x)
x→0
Procuramos agora identificar condições sob as quais o lado direito se anula, o que nos garantirá a
aplicabilidade do teorema de ortogonalidade, Teorema 9.1.
Um caso óbvio é aquele no qual α e β são zeros da função de Bessel Jν . Outro caso óbvio é aquele
no qual α e β são zeros de Jν′ , a derivada da função de Bessel Jν . O caso mais geral está na seguinte
proposição.
Proposição 9.1 Suponhamos que para certos números A e B com (A, B) 6= (0, 0) existam constantes
reais α e β tais que
Então,
Jν (α)βJν′ (β) − αJν′ (α)Jν (β) = 0 .
2
Como por hipótese (A, B) 6= (0, 0), a relação acima só é possı́vel se a matriz 2 × 2 do lado esquerdo
for não-invertı́vel, ou seja, se tiver determinante nulo. Assim, devemos ter
Jν (α) αJν′ (α)
0 = det
= Jν (α)βJ ′ (β) − αJ ′ (α)Jν (β) ,
ν ν
Jν (β) βJν′ (β)
Com essa proposição, fica estabelecido que a condição (9.6) do Teorema 9.1, página 507, com
com J = [0, 1], é satisfeita para todas as funções fα (x) = Jν (αx) com α ∈ ZνA, B e, portanto, para
α, β ∈ ZνA, B com α 6= β valem as relações de ortogonalidade (com r(x) = x)
Z 1 Z 1
fα (x)fβ (x) x dx = 0 ou seja, Jν (αx)Jν (βx) x dx = 0 ,
0 0
d ′ 2 d
= x2 (y (x)) + 2x(y ′(x))2 + α2 x2 − ν 2 (y(x))2
dx dx
d 2 ′ 2
d
= x (y (x)) + α2 x2 − ν 2 (y(x))2
dx dx
e, portanto,
d 2 ′ 2
d 2 2
0 = x (y (x)) + α x − ν 2 (y(x))2 − 2α2 x (y(x))2 . (9.163)
dx dx
Integrando-se ambos os lados da igualdade entre 0 e 1, obtem-se
1 h i1 Z 1
2 2
2 ′ 2 2 2
0 = x (y (x)) + α x − ν (y(x)) − 2α 2
x (y(x))2 dx . (9.164)
0 0 0
Como fα (x) = Jν (αx) é solução de (9.162), podemos adotar y(x) = Jν (αx), acima. Assim,
1 1
2 2 2
x (y (x)) = α x (Jν (αx)) = α2 (Jν′ (α)) .
2 ′ 2 2 ′
0 0
h i 1
α2 x2 − ν 2 (y(x))2 = α2 − ν 2 (Jν (α))2 + ν 2 (Jν (0))2 = α2 − ν 2 (Jν (α))2 ,
0
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 9 563/1461
pois ν 2 (Jν (0))2 = 0 para todo ν ≥ 0 (por que?). Portanto, (9.164) fica
Z 1
2
2α 2
x (Jν (αx))2 dx = α2 (Jν′ (α)) + α2 − ν 2 (Jν (α))2 ,
0
Algumas vezes lidamos com problemas envolvendo a equações de Bessel em intervalos como [R1 , R2 ]
com 0 < R1 < R2 < ∞ e procuramos soluções que anulam-se nos extremos desse intervalo. Exemplos
de tais situações encontram-se no problema descrito no Exercı́cio E. 10.12, página 628 e no problema
descrito no Exercı́cio E. 10.13, página 628. Como o ponto 0 não é um ponto da fronteira do intervalo
considerado, as relações de ortogonalidade acima encontradas não se aplicam diretamente. O teorema
a seguir fornece as relações de ortogonalidade desejadas nessa situação.
Teorema 9.7 Sejam 0 < R1 < R2 < ∞ e Sνn (x) definida no intervalo [R1 , R2 ] por
µ νn R1 µ νn ρ µ νn R1 µ νn ρ
J−ν Jν − Jν J−ν , para ν ∈
6 Z,
R2 R2 R2 R2
Sνn (x) :=
µ mn R 1 µ mn ρ µ mn R1 µ mn ρ
Nm Jm − Jm Nm , para ν = m ∈ Z ,
R2 R2 R2 R2
Pelas definições, Sνn (R1 ) = Sνn (R2 ) = 0 para todo ν ∈ R e todo n ∈ N. Além disso, Sνn (x) é
solução da equação de Bessel
x2 y ′′(x) + xy ′ (x) + α2 x2 − ν 2 y(x) = 0 (9.165)
µνn
no intervalo [R1 , R2 ], com α = R2
, também para todo ν ∈ R e todo n ∈ N.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 9 564/1461
2 )
R1 R1 R1 R1
−(R1 )2 J−ν µνn Jν′ µνn − Jν µνn ′
J−ν µνn
R2 R2 R2 R2
para ν 6∈ Z e
( 2
1 2 R1 ′ R1 ′
Kmn = (R2 ) Nm µmn Jm (µmn ) − Jm µmn Nm (µmn )
2 R2 R2
2 )
R1 ′ R1 R1 ′ R1
−(R1 )2 Nm µmn Jm µmn − Jm µmn Nm µmn
R2 R2 R2 R2
para ν = m ∈ Z. 2
Prova. As relações (9.166) seguem diretamente do Teorema 9.1, página 507 pelo fato que Sνn (R1 ) =
Sνn (R2 ) = 0 para todo ν ∈ R e todo n ∈ N.
Para demonstrar (9.167) consideraremos apenas o caso ν 6∈ Z, pois o caso ν = m ∈ Z é tratado
identicamente. Nosso ponto de partida é a equação (9.163), página 562:
d 2 ′ 2
d 2 2
0 = x (y (x)) + α x − ν 2 (y(x))2 − 2α2 x (y(x))2 , (9.168)
dx dx
válida para qualquer solução de (9.165) (vide página 562). Integrando-se ambos os lados da igualdade
entre R1 e R2 , obtem-se
R h iR Z R2
2 2 2 2
2 ′ 2 2
0 = x (y (x)) + α x − ν (y(x)) − 2α2 2
x (y(x))2 dx . (9.169)
R1 R1 R1
Como
µmn R1 µmn µmn R1 µmn
y(x) = Sνn (x) := J−νm Jν m x − Jν m J−νm x ,
R2 R2 R2 R2
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 9 565/1461
µmn
é solução de (9.165) com α = R2
temos, para essa y,
R R h i
2 2 2 2 2 2
x2 (y ′(x)) ′
= x2 (Sνn ′
(x)) = (R2 )2 (Sνn ′
(R2 )) − (R1 )2 (Sνn (R1 )) ,
R1 R1
h i R2 h i R2
α2 x2 − ν 2 (y(x))2 = α2 x2 − ν 2 (Sνn (x))2 = 0 ,
R1 R1
o que conduz à
Z R2
2 (R2 )2 h 2 ′ 2 2 ′ 2
i
x (Sνn (x)) dx = (R2 ) (Sνn (R2 )) − (R1 ) (Sνn (R1 ))
R1 2(µmn )2
( 2
1 2 R1 ′ R1 ′
= (R2 ) J−νm µmn Jνm (µmn ) − Jνm µmn J−νm (µmn )
2 R2 R2
2 )
R1 R1 R1 R1
− (R1 )2 J−νm µmn Jν′ m µmn − Jνm µmn ′
J−ν µmn ,
R2 R2 R2 m
R2
Seja a equação de Bessel x2 y ′′ (x) + xy ′ (x) + (x2 − ν 2 )y(x) = 0 e consideremo-la agora no intervalo
semi-infinito J = [0, ∞). A mesma pode ser escrita como
ν2
(xy ′ (x))′ − y(x) + xy(x) = 0, (9.170)
x
e aqui temos p(x) = x e poderı́amos adotar q(x) = x, r(x) = x1 e µ = −ν 2 . Há, porém, uma diferença
marcante em relação aos casos anteriormente tratados. Para as funções Jν (x), mesmo com ν inteiro,
não vale a relação (9.6), pois limx→∞ p(x)Jν (x)Jν ′ (x) não se anula e, portanto, o Teorema 9.1 não se
aplica nesse caso. De fato, Jν (x) comporta-se para x → ∞ como
r
2 cos x − νπ − π
Jν (x) ≈ √2 4
.
π x
Infelizmente, não apresentaremos a demonstração dessa expressão assintótica nestas Notas. O leitor
poderá encontrá-la em vários textos, por exemplo, em [147], [153], [70] e mesmo em [88]. Em [70], por
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 9 566/1461
r ∞ 2r
2 cos x − νπ − π X (−1)r Γ ν + 2r + 12 1
Jν (x) ≈ √2 4
1
π x r=0
(2r)! Γ ν − 2r + 2 2x
r ∞ 2r+1
2 sen x − νπ − π X (−1)r Γ ν + 2r + 32 1
− √ 2 4
1
,
π x r=0
(2r + 1)! Γ ν − 2r − 2 2x
válida para x → ∞. Com isso, percebemos que não devem valer para as funções de Bessel com ν’s
diferentes relações de ortogonalidade envolvendo integrais em J = [0, ∞).
Fórmulas de recorrência para as funções de Bessel esféricas também podem ser obtidas daquelas
para as funções de Bessel listadas em (9.126)-(9.131). Analisando-as, é imediato ver que de (9.126) e
(9.127) segue facilmente que
d d
xν+1 jν (x) = xν+1 jν−1 (x) e x−ν jν (x) = −x−ν jν+1 (x) . (9.172)
dx dx
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 9 567/1461
xjν′ (x) = xjν−1 (x) − (ν + 1)jν (x) e xjν′ (x) = νjν (x) − xjν+1 (x) . (9.173)
1
jν+1 (x) = (2ν + 1)jν (x) − xjν−1 (x) , (9.175)
x
para todo ν. Usando (9.175), é fácil ver que (9.174) pode ser reescrita como
(2ν + 1) jν′ (x) = (ν + 1) jν−1 (x) − jν+1 (x) (9.176)
para todo ν.
Resumindo nossas conclusões, obtivemos que
d
xν+1 jν (x) = xν+1 jν−1 (x) , (9.177)
dx
d
x−ν jν (x) = −x−ν jν+1 (x) , (9.178)
dx
xjν′ (x) = xjν−1 (x) − (ν + 1)jν (x) , (9.179)
1
jν+1 (x) = (2ν + 1)jν (x) − xjν−1 (x) . (9.182)
x
• A relação entre jn e j0 , n ∈ N
As relações de ortogonalidade para as funções de Bessel esféricas podem ser provadas diretamente
daquelas expressas no Teorema 9.6.
ν+1/2
Observemos em primeiro lugar que o conjunto ZA, B que, pela definição (9.155), é
ν+1/2 ′
ZA, B := α > 0| AJν+1/2 (α) + BαJν+1/2 (α) = 0
pode ser caracterizado em termos de jν como
ν+1/2
B
ZA, B := α > 0 A + ′
jν (α) + Bαjν (α) = 0 .
2
Assim, ao lidarmos com problemas que possuem condições de contorno do tipo
Ajν (α) + Bαjν′ (α) = 0
ν+1/2
o conjunto de α’s que satisfazem isso é ZA−B/2, B .
Isso mostra que podemos aplicar diretamente
q as conclusões do Teorema 9.6, tomando o cuidado de
2α √ p
substituir: 1. ν por ν + 1/2, 2. Jν (α) por j (α), 3. (na integral) Jν (αx) por α πx jν (αx) e 3. e
π ν
√ √ ′
Jν′ (α) por π j2ν√(α)
α
+ αjν (α) . Após algumas contas elementares, obtem-se o seguinte:
Teorema 9.8 Seja ν ≥ 0, sejam fixados certos números reais A, B com (A, B) 6= (0, 0) satisfazendo
ν + 1/2 + A/B ≥ 0, caso B 6= 0 (vide Teoremas 9.2-9.5) e seja definido
ν+1/2
WνA, B := {α > 0| Ajν (α) + Bαjν′ (α) = 0} = ZA−B/2, B .
Pelo Teorema 9.5, esse conjunto é não-vazio e enumerável. Para todos α, β ∈ WνA, B , tem-se
" 2 #
Z 1 1 2
δα, β 1 j ν (α) √ (ν + )
jν (αx)jν (βx) x2 dx = √ + αjν′ (α) + 1 − 2
2
(jν (α))2
0 2 α 2 α α
δα, β ν(ν + 1) 2 jν (α)jν′ (α) ′ 2
= 1− (jν (α)) + + (jν (α))
2 α2 α
(9.180) δα, β 2 (2ν + 1) 2
= (jν (α)) − jν (α)jν+1 (α) + (jν+1 (α)) . (9.186)
2 α
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 9 569/1461
Essa expressão é denominada relação de ortogonalidade das funções de Bessel esféricas. Note que há
uma relação de ortogonalidade para cada tripla (ν, A, B) com ν ≥ 0 e (A, B) 6= (0, 0), pois cada
tripla (ν, A, B) fixa o conjunto ZνA, B .
No caso A = 1, B = 0 o conjunto Wν1, 0 coincide com o dos zeros da função de Bessel esférica jν (x).
No caso A = 0, B = 1 o conjunto Wν0, 1 coincide com o dos zeros da função jν′ (x).
Em particular, se ν ≥ 0 e αkν é o k-ésimo zero da função jν (x) no intervalo (0, ∞), então
Z 1 (j ′ (αν ))2 (jν+1 (αkν ))2
jν αkν x jν αlν x x2 dx = δk, l ν k = δk, l . (9.187)
0 2 2
Analogamente, se ν ≥ 0 e βkν é o k-ésimo zero da função jν′ (x) no intervalo (0, ∞), então
Z
1 ν(ν + 1) (jν (βkν ))2
jν βkν x jν βlν x
x dx = δk, l 1 − 2
. (9.188)
0 (βkν )2 2
p
Dessa relação percebemos incidentalmente que βkν > ν(ν + 1) para todo k, pois o lado esquerdo é
certamente positivo quando k = l. 2
sen(x)
É instrutivo considerar a relação (9.187) no caso ν = 0, quando j0 (x) = x
e, portanto, αk0 = kπ,
com k > 0 inteiro. Como j0′ (x) = cos(x)
x
− sen(x)
x2
, (9.187) está dizendo que
Z 1 2
sen(kπx) sen(lπx) δk, l cos(kπ) 1
2
dx = = δk, l ,
0 klπ 2 kπ 2(kπ)2
ou seja, Z 1
1
sen(kπx) sen(lπx) dx = δk, l .
0 2
Essa é uma relação bem conhecida que, evidentemente, pode também ser provada por meios mais
elementares.
Rb
Prova. Precisamos provar que se a f (x)xn r(x) dx = 0 para todo n e f é contı́nua, então f é identica-
mente nula. Como |f | é contı́nua em um intervalo compacto, |f | assume um máximo M nesse intervalo,
com M = maxx∈[a, b] |f (x)| (Teorema 24.11, página 1217). Pelo Teorema de Weierstrass, Teorema 27.1,
página 1395, existe para todo ǫ > 0 um polinômio p tal que |f (x) − p(x)| ≤ ǫ para todo x ∈ [a, b].
Com esse polinômio p, podemos escrever
Z b Z b Z b
2
|f (x)| r(x) dx = f (x)p(x) r(x) dx + f (x) f (x) − p(x) r(x) dx .
a a a
Z b
Agora, pela hipótese (9.189), f (x)p(x) r(x) dx = 0, pois p, como todo polinômio, pode ser escrito
a
como uma combinação linear finita dos monômios xn . Fora isso,
Z b Z b
f (x) f (x) − p(x) r(x) dx ≤ |f (x)| |f (x) − p(x)| r(x) dx ≤ MǫR ,
a a
Rb
onde R := a
r(x)dx. Concluı́mos que
Z b
|f (x)|2 r(x) dx ≤ MǫR
a
Rb
e como ǫ é arbitrário, isso implica a |f (x)|2 r(x) dx = 0. Como f é contı́nua isso implica que f é
identicamente nula, como querı́amos provar.
A Proposição 9.2 afirma que a única função contı́nua que é ortogonal a todos os polinômios
Rb é a função
nula. Ortogonalidade aqui é entendida em relação ao produto escalar hf, gir := a f (x)g(x) r(x)dx
definido no espaço de Hilbert das funções de quadrado integrável em relação à medida r(x)dx, ou seja,
que satisfazem Z b
|f (x)|2 r(x)dx < ∞ .
a
Denotaremos esse espaço de Hilbert por L2 ([a, b], r(x)dx), como de praxe. É claro que as funções
contı́nuas definidas no intervalo [a, b] são todas de quadrado integrável e, portanto, são elementos do
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 9 571/1461
espaço de Hilbert L2 ([a, b], r(x)dx). Mas nem todas as funções de quadrado integrável são contı́nuas.
A afirmação da Proposição 9.2 pode, porém, ser estendida ao espaço L2 ([a, b], r(x)dx). Esse é o
conteúdo da proposição que segue.
Proposição 9.3 Seja [a, b] ⊂ R um intervalo fechado, com b > a, e seja r uma função positiva
Rb
e de quadrado integrável no intervalo [a, b], ou seja, tal que a r(x)2 dx seja finita. Seja hk, lir :=
Rb
a
k(x)l(x)r(x)dx o produto escalar definido por r e L2 ([a, b], r(x)dx) o correspondente espaço de
Hilbert de funções de quadrado integrável. Então, para g ∈ L2 ([a, b], r(x)dx) a relação
Z b
g(x) xn r(x) dx = 0 (9.190)
a
Z x
Prova. Defina-se G(x) := g(y)r(y)dy. G é contı́nua e diferenciável com G′ (x) = g(x)r(x) quase em
a Rb
toda parte. É claro que G(a) = 0 e que G(b) = a g(y)r(y)dy = 0 por (9.190) (para o caso particular
n = 0). Assim, integração por partes diz-nos que
Z b Z b Z b
(9.190) n ′ n n n
0 = g(x) x r(x) dx = G (x) x dx = G(b)b − G(a)a −n G(x) xn−1 dx .
a a | {z } a
=0
Rb
Portanto, concluı́mos que a G(x) xn−1 dx = 0 para todo n ≥ 1. Como G é contı́nua, podemos aplicar
a Proposição 9.2, agora para o caso r ≡ 1, para concluir que G é identicamente nula. Como G′ (x) =
g(x)r(x) quase em toda parte, isso implica que g é nula quase em toda parte.
Seja agora uma famı́lia de polinômios pn (x) em [a, b] para todo n ∈ N, n ≥ 0, sendo que cada
polinômio pn tem grau n e sendo que os polinômios pn (x) sejam ortonormais em relação ao produto
escalar definido por r, ou seja, satisfazem hpm , pn ir = δm, n para todos m, n (uma tal famı́lia sempre
pode ser obtida a partir de p0 (x) := R−1/2 pelo procedimento de ortogonalização de Gram-Schimidt).
Como cada polinômios pm (x) tem grau m, cada monômio xn pode ser escrito como uma combinação
linear finita de polinômios pm (x) com m ≤ n. É daı́ evidente que a Proposição 9.3 equivale à
Proposição 9.4 Seja [a, b] ⊂ R um intervalo fechado, com b > a, e seja r uma função positiva
Rb
e de quadrado integrável no intervalo [a, b], ou seja, tal que a r(x)2 dx seja finita. Seja hk, lir :=
Rb
a
k(x)l(x)r(x)dx o produto escalar definido por r e L2 ([a, b], r(x)dx) o correspondente espaço de
Hilbert de funções de quadrado integrável. Seja pn (x),com n ∈ N, n ≥ 0, uma famı́lia de polinômios
ortonormais em relação ao produto escalar h·, ·ir , ou seja, os polinômios pn satisfazem hpm , pn ir = δm, n
para todos m, n. Então, para g ∈ L2 ([a, b], r(x)dx) a relação
Z b
g(x) pn (x) r(x) dx = 0 (9.191)
a
De acordo com as definições do Capı́tulo 25, página 1223, a Proposição 9.4 está dizendo-nos que
L2 ([a, b], r(x)dx) é um espaço de Hilbert separável e que a famı́lia de polinômios ortonormais pn forma
uma base ortonormal completa em L2 ([a, b], r(x)dx) (vide página 1237). Pelos Teoremas 25.5 e 25.6,
páginas 1239 e 1241, respectivamente, vale para todo g ∈ L2 ([a, b], r(x)dx)
∞
X ∞
X
g(x) = hpn , gir pn (x) e kgk2r = |hpn , gir |2 , (9.192)
n=0 n=0
p
sendo kgkr := hg, gir a norma de g em L2 ([a, b], r(x)dx). A convergência da primeira série em
(9.192) se dá em relação à norma k · kr de L2 ([a, b], r(x)dx), ou seja, tem-se
XN
lim
g − hpn , gir pn
= 0 .
N →∞
n=0 r
série essa que converge na norma de L2 ([−1, 1], dx). Para uma aplicação não-trivial dessa expressão,
faça o Exercı́cio E. 9.29, página 577.
Prova. Para todo z ∈ RC e todo n inteiro, n ≥ 0, tem-se que a função h(x) := xn eizx pertence
2 ∞ 2
a L2 (R, e−x dx), pois −∞ x2n e2izx−x dx < ∞, como é fácil de se mostrar. Dessa forma, se f ∈
2 2
L2 (R, e−x dx) então o produto h(x)f (x) pertence a L1 (R, e−x dx), ou seja, é integrável em R em
2
relação à medida dµ(x) := e−x dx para todo z ∈ C eRtodo n inteiro,R n ≥ 0. Isso Rpode ser visto pela
desigualdade de Cauchy-Schwartz, que garante que R |hf | dµ ≤ ( R |h|2 dµ)1/2 ( R |f |2 dµ)1/2 < ∞.
Assim, para todo n inteiro, n ≥ 0, a função de variável complexa
Z ∞
2
Fn (z) := xn eizx f (x)e−x dx
−∞
As propriedades elementares dos chamados polinômios de Hermite foram estudadas na Seção 9.2.3,
página 537, sendo as relações de ortogonalidade apresentadas em (9.85), página 538. Os polinômios
2
de Hermite são ortogonais no espaço de Hilbert L2 (R, e−x dx) e mostraremos aqui que, devidamente
normalizados, os mesmos formam uma base ortonormal completa nesse espaço de Hilbert.
Como cada polinômio de Hermite Hn é de grau n, concluı́mos que podemos escrever cada monômio
m
x como combinação linear finita de polinômios Hn com n ≤ m. Segue diretamente disso que a
Proposição 9.5 é equivalente à
48
A transformada de Fourier é invertı́vel em L2 (R, dx).
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 9 574/1461
2
Proposição 9.6 Seja f ∈ L2 (R, e−x dx). Então as integrais
Z ∞
2
Hn (x)f (x)e−x dx
−∞
2
Essa proposição afirma que L2 (R, e−x dx) é um espaço de Hilbert separável e que as funções
normalizadas √ n1 √ Hn (x) (vide (9.85)) para n inteiro, n ≥ 0, formam uma base ortonormal completa
2 n! π
2 −x2
em L (R, e dx).
2
Como no caso dos polinômios de Legendre, concluı́mos que se f ∈ L2 (R, e−x dx), então podemos
escrever ∞
X 1
f (x) = n
√ hHn , f i Hn (x) . (9.193)
n=0
2 n! π
onde Z ∞
2
hHn , f i = Hn (y)f (y)e−y dy
−∞
2
é o produto escalar de Hn e f em em L (R, e−x dx). A convergência da série em (9.193) se dá no
2
2
sentido da norma de L2 (R, e−x dx).
Z π
Agora, pela hipótese (9.194), f (x)p(x) r(x) dx = 0, pois p, como todo polinômio trigonométrico,
−π
pode ser escrito como uma combinação linear finita dos monômios einx . Fora isso,
Z π Z π
f (x) f (x) − p(x) r(x) dx ≤ |f (x)| |f (x) − p(x)| r(x) dx ≤ MǫR ,
−π −π
Rπ
onde R := −π
r(x)dx. Concluı́mos que
Z π
|f (x)|2 r(x) dx ≤ MǫR
−π
Rπ
e como ǫ é arbitrário, isso implica −π |f (x)|2 r(x) dx = 0. Como f é contı́nua isso implica que f é
identicamente nula, como querı́amos provar.
A Proposição 9.7 afirma que a única função contı́nua e periódica de perı́odo 2π que é ortogonal a
todos os polinômios trigonométricos
Rπ é a função nula. Ortogonalidade aqui é entendida em relação ao
produto escalar hf, gir := −π f (x)g(x) r(x)dx definido no espaço de Hilbert L2 ([−π, π], r(x)dx) das
funções de quadrado integrável em relação à medida r(x)dx, ou seja, que satisfazem
Z π
|f (x)|2 r(x)dx < ∞ .
−π
Denotaremos esse espaço de Hilbert por Hr . É claro que as funções contı́nuas e periódicas de perı́odo
2π definidas no intervalo [−π, π] são todas de quadrado integrável e, portanto, são elementos de Hr .
Nem todas as funções de quadrado integrável, porém, são contı́nuas. A afirmação da Proposição 9.7
pode, porém, ser estendida ao espaço Hr . Esse é o conteúdo da proposição que segue.
Proposição
R π 9.82 Seja r uma função positiva e deR πquadrado integrável no intervalo [−π, π], ou seja,
tal que −π r(x) dx seja finita. Seja hk, lir := −π k(x)l(x)r(x)dx o produto escalar definido por r
e Hr ≡ L2 ([−π, π], r(x)dx) o correspondente espaço de Hilbert de funções de quadrado integrável.
Então, para g ∈ Hr , a relação Z π
g(x) einx r(x) dx = 0 (9.195)
−π
Z x
Prova. Defina-se G(x) := g(y)r(y)dy. G é contı́nua e diferenciável com G′ (x) = g(x)r(x) quase
−π Rπ
em toda parte. É claro que G(−π) = 0 e que G(π) = −π g(y)r(y)dy = 0 por (9.195) (para o caso
particular n = 0). Assim, integração por partes diz-nos que
Z π Z π Z π
(9.195) inx ′ inx n
0 = g(x) e r(x) dx = G (x) e dx = (−1) (G(π) − G(−π)) −in G(x) einx dx .
−π −π | {z } −π
=0
Rπ
Assim, concluı́mos que −π
G(x) einx dx = 0 para todo n 6= 0.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 9 576/1461
1
Rπ
Denotando G0 := 2π −π
G(x) dx, e definindo H(x) := G(x) − G0 , concluı́mos que
Z π
H(x) einx dx = 0 ,
−π
Rπ Rπ
agora para todo n ∈ Z (lembrar que para n 6= 0, G einx dx = G0
−π 0 −π
einx dx = 0).
Como H é contı́nua e periódica de perı́odo 2π (lembrar que G(−π) = G(π) = 0), podemos aplicar
a Proposição 9.7, agora para o caso r ≡ 1, para concluir que H é identicamente nula. Como H ′ (x) =
G′ (x) = g(x)r(x) quase em toda parte, isso implica que g é nula quase em toda parte.
Uma famı́lia de polinômios trigonométricos perı́odo 2π, pn (x), n ∈ Z, é dita ser normal se todo
monômio eimx puder ser escrito como uma combinação linear finita de polinômios pn . Suponhamos que
os polinômios trigonométricos de um conjunto de polinômios normais pn (x) seja também ortonormais
em relação ao produto escalar definido por r, ou seja, satisfazem hpm , pn ir = δm, n para todos m, n (uma
tal famı́lia sempre pode ser obtida a partir de p0 (x) := R−1/2 pelo procedimento de ortogonalização
de Gram-Schimidt). Como cada monômio einx pode ser escrito como uma combinação linear finita de
polinômios pm (x), é evidente que a Proposição 9.8 equivale à
Proposição 9.9 Seja r uma função positiva e de quadrado integrável no intervalo [−π, π], ou seja,
Rb Rπ
tal que a r(x)2 dx seja finita. Seja hk, lir := −π k(x)l(x)r(x)dx o produto escalar definido por r e
Hr ≡ L2 ([−π, π], r(x)dx) o correspondente espaço de Hilbert de funções de quadrado integrável. Seja
pn (x), com n ∈ Z, uma famı́lia normal de polinômios ortonormais em relação ao produto escalar h·, ·ir ,
ou seja, todo monômio eimx pode ser escrito como uma combinação linear finita de polinômios pn os
polinômios pn satisfazem hpm , pn ir = δm, n para todos m, n ∈ Z. Então, para g ∈ Hr , a relação
Z π
g(x) pn (x) r(x) dx = 0 (9.196)
−π
De acordo com as definições do Capı́tulo 25, página 1223, a Proposição 9.9 está dizendo-nos que
Hr ≡ L2 ([−π, π], r(x)dx) é um espaço de Hilbert separável e que a famı́lia normal de polinômios
trigonométricos ortonormais pn forma uma base ortonormal completa em Hr (vide página 1237). Pelos
Teoremas 25.5 e 25.6, páginas 1239 e 1241, respectivamente, vale para todo g ∈ Hr
X∞ X∞
g(x) = hpn , gir pn (x) e 2
kgkr = |hpn , gir |2 , (9.197)
n=−∞ n=−∞
p
sendo kgkr := hg, gir a norma de g em Hr . A convergência da primeira série em (9.197) se dá em
relação à norma k · kr de Hr , ou seja, tem-se
X N
lim
g − hpn , gir pn
= 0 .
N →∞
n=−N r
einx
Naturalmente o caso mais importante se dá com r ≡ 1, onde a famı́lia en (x) = √ , n ∈ Z, compõe,
2π
de acordo com nossos resultados de acima, uma base ortonormal completa em L2 ([−π, π], dx). Tal
resultado é de fundamental importância para a teoria das séries de Fourier.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 9 577/1461
para x ∈ R \ Z. A expressão (9.202) foi obtida pela primeira vez por Euler em 1749. Seguiremos uma
demonstração elementar e elegante devida a Herglotz49 tal como apresentada em [2], texto esse que, por
sua vez, segue Elstrodt50 . Essa demonstração é elegante por fazer uso de poucos ingredientes. Basicamente
usa-se apenas o fato de que ambos os lados de (9.202) são funções contı́nuas (em R \ Z), são periódicas
de perı́odo 1, têm as mesmas divergências nos inteiros e, last but not least, satisfazem uma mesma relação
algébrica, a relação (9.203), abaixo. Passemos à prova.
Defina-se, para x ∈ R \ Z,
onde
N
X N
1 1 X 2x
gN (x) := = − .
n=−N
x+n x n=1 n2 − x2
Desejamos provar que f (x) = g(x) para todo x ∈ R \ Z. Isso é feito nos passos indicados no que segue.
1. Prove que gN (x) converge uniformemente para N → ∞ e em qualquer intervalo fechado contido em
R \ Z. Sugestões: para n ≥ 2 e 2n − 1 > x2 tem-se n2 − x2 > (n − 1)2 > 0 e
1 1
0 < < .
n2 −x2 (n − 1)2
Use
P∞ o teste M de Weierstraß51 e use o teste da comparação por uma integral para mostrar que
1
n=1 n2 é finita.
Isso estabeleceu que g existe em R \ Z.
2. Convença-se que f e g são contı́nuas em R \ Z. Para g isso segue da convergência uniforme provada
em 1.
3. Mostre que f e g são periódicas de perı́odo 1. Para f isso é evidente. Para g isso segue de
1 1
gN (x + 1) = gN (x) + + ,
x+N x+1+N
para x ∈ R \ Z. Prove isso e tome N → ∞ para obter g(x + 1) = g(x) para todo x ∈ R \ Z.
4. Mostre que f e g são funções ı́mpares: f (−x) = −f (x) e g(−x) = −g(x) para todo x ∈ R \ Z.
Novamente isso é evidente para f e para g isso segue do fato que gN (−x) = −gN (x) para todo N.
49
Gustav Herglotz (1881-1953).
50
J. Elstrodt, “Partialbruchzerlegung des Kotangens, Herglotz-Trick und die Weierstraßsche stetige, nirgendsdifferen-
zierbare Funktion”. Math. Semesterberichte 45 (1998), 207–220.
51
Karl Theodor Wilhelm Weierstraß (1815-1897).
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 9 579/1461
5. Até aqui só lidamos com propriedades elementares de f e g mas agora vem uma passagem crucial.
Mostre que f e g satisfazem
x x
x+1 x+1
f +f = 2f (x) e g +g = 2g(x) , (9.203)
2 2 2 2
para todo x ∈ R \ Z. Note que se trata da mesma relação algébrica para f e g. Para f isso segue
das bem-conhecidas fórmulas de adição das funções seno e co-seno. Mostre isso. Para g isso segue
da identidade x
x+1 2
gN + gN = 2g2N (x) + .
2 2 x + 2N + 1
Prove-a usando a relação trivial
1 1 2 2
x + x+1 = +
2
+n 2
+n x + 2n x + 1 + 2n
e tome o limite N → ∞.
6. Defina a função h(x) = f (x) − g(x) (que desejamos provar ser nula). Note em primeiro lugar que h
é uma função ı́mpar, contı́nua e periódica de perı́odo 1 em R \ Z, pois f e g o são.
8. Mostre que fato provado em 7 implica lim h(x) = 0. Como h é periódica de perı́odo 1, isso significa
x→0
que lim h(x) = 0 para todo n ∈ Z. Definindo h(n) = 0 para todo n ∈ Z, essa propriedade, por sua
x→n
vez, implica que a função h torna-se contı́nua e periódica de perı́odo 1 em todo R, não apenas em
R \ Z.
9. Como h é contı́nua e periódica em todo R, h possui um máximo, que denotaremos por H. Seja x0
um ponto de R tal que h(x0 ) = H (que um tal ponto existe segue da continuidade e periodicidade
de h). Agora, tem-se por (9.203) que
x x x
0 x0 + 1 0 x0 + 1 0 x0 + 1
h +h = f +f −g −g
2 2 2 2 2 2
(9.203)
= 2f (x0 ) − 2g(x0 ) = 2h(x0 ) = 2H .
Isso está dizendo que a soma de h x20 e h x02+1 é duas vezes o máximo valor alcançado por h em
toda R. Ora, isso só é possı́vel se ambos os termos forem iguais a H, pois se um fosse menor que H
o outroteria que ser maior que H, o que não é possı́vel. Assim concluı́mos que h x20 = H (e que
h x02+1 = H, mas não usaremos esse segundo fato).
52
Guillaume François Antoine, Marquês de l’Hôpital (ou l’Hospital) (1661–1704).
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 9 580/1461
Vimos então que h(x0 ) = H implica h x20 = H. Prosseguindo indutivamente, segue que h 2xm0 = H
para todo inteiro m com m ≥ 0. Como h é contı́nua, podemos tomar o limite m → ∞ e obter
x x0
0 continuidade
H = lim h m = h lim m = h(0) = 0 ,
m→∞ 2 m→∞ 2
concluindo que H = 0.
10. Vimos que o máximo de h em R é nulo. Isso significa que h(x) ≤ 0 para todo x ∈ R. Porém, como
h é uma função ı́mpar (observado em 6), isso implica que h(x) = 0 para todo x ∈ R. Isso provou
que f (x) = g(x) para todo x ∈ R \ Z, ou seja, provou (9.202) em R \ Z, como querı́amos.
Que a relação (9.201) vale para todo z ∈ C \ Z segue agora do fato que ambos os lados de (9.202) têm
extensões analı́ticas em todo C \ Z (prove isso!) e são iguais em R \ Z, por (9.202) (justifique!).
Para uma outra demonstração de (9.201) usando o Teorema de Mittag-Leffler, vide [82] ou outro bom
livro de funções de variável complexa. A relação (9.202) pode também ser provada usando séries de Fourier.
Para tal, vide e.g. [36]. 6
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 9 581/1461
Apêndices
9.A Provando (9.57) à Força Bruta
A idéia é tomar (9.55), escrever (z 2 − 1)l = (z − 1)l (z + 1)l e aplicar a regra de Leibniz. Tudo está
resumido nas seguintes linhas auto-explicativas, acompanhadas de uns poucos comentários ao final:
(1 − z 2 )m/2 dl+m 2
Plm (z) := (z − 1) l
2l l! dz l+m
(1 − z 2 )m/2 dl+m l l
= (z − 1) (z + 1)
2l l! dz l+m
l+m
Leibniz (1 − z 2 )m/2 X l + m dp l+m−p
l d l
= (z − 1) (z + 1)
2l l! p=0
p dz p dz l+m−p
l
(∗) (1 − z 2 )m/2 X l + m dp l
dl+m−p
l
= (z − 1) (z + 1)
2l l! p=m
p dz p dz l+m−p
l
(1 − z 2 )m/2 X l + m l! l−p l! p−m
= (z − 1) (z + 1)
2l l! p=m
p (l − p)! (p − m)!
l
(1 − z 2 )m/2 X l + m (l!)2
= (z − 1)l−p (z + 1)p−m
2l l! p=m
p (l − p)! (p − m)!
l
(∗∗) m (z− 1)m (1 − z 2 )m/2 X l + m
2
(l!)2
= (−1) (z − 1)l−p (z + 1)p−m
(1 − z 2 )m 2l l! p=m
p (l − p)! (p − m)!
l
(−1)m (1 − z 2 )−m/2 X l + m (l!)2
= (z − 1)l−p+m(z + 1)p
2l l! p=m
p (l − p)! (p − m)!
l−m
p→p+m (−1)m (1 − z 2 )−m/2 X l + m (l!)2
= (z − 1)l−p (z + 1)p+m
2l l! p=0
p + m (l − p − m)! p!
l−m
(−1)m (1 − z 2 )−m/2 X (l + m)! (l!)2
= (z − 1)l−p (z + 1)p+m
2l l! p=0
(l − p)! (p + m)! (l − p − m)! p!
l−m
m (l+ m)! (1 − z 2 )−m/2 X (l − m)! (l!)2
= (−1) (z − 1)l−p (z + 1)p+m
(l − m)! 2l l! p=0
(l − p)! (p + m)! (l − p − m)! p!
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 9 582/1461
l−m
+ m)! (1 − z 2 )−m/2 X l − m
m (l l! l−p l! p+m
= (−1) (z − 1) (z + 1)
(l − m)! 2l l! p=0
p (l − p)! (p + m)!
l−m p l−m−p
+ m)! (1 − z 2 )−m/2 X l − m
m (l d l d l
= (−1) (z − 1) (z + 1)
(l − m)! 2l l! p=0
p dz p dz l−m−p
se l + m − p > l. Ambas as condições juntas implicam m ≤ p ≤ l, daı́ a mudança nos limites da soma.
(z 2 −1)m
No ponto indicado por (∗∗) multiplicamos toda a expressão por 1 = (−1)m (1−z 2 )m . Na linha seguinte
2 m m m
o fator (z − 1) é escrito como (z − 1) (z + 1) e distribuı́do dentro da soma. Fora isso, usamos
também que (1−z12 )m (1 − z 2 )m/2 = (1 − z 2 )−m/2 .
Capı́tulo 10
Alguns Problemas Selecionados de Interesse Fı́sico
Conteúdo
10.1 As Equações de Helmholtz e de Laplace . . . . . . . . . . . . . . . . . . . . 583
10.1.1 Problemas em Duas Dimensões em Coordenadas Polares . . . . . . . . . . . . 585
10.1.2 Problemas em Três Dimensões em Coordenadas Esféricas . . . . . . . . . . . 588
10.2 O Problema da Corda Vibrante . . . . . . . . . . . . . . . . . . . . . . . . . 593
10.2.1 Corda Vibrante Homogênea . . . . . . . . . . . . . . . . . . . . . . . . . . . . 593
10.2.2 O Problema da Corda Homogênea Pendurada . . . . . . . . . . . . . . . . . . 596
10.2.3 Corda Vibrante Não-Homogênea . . . . . . . . . . . . . . . . . . . . . . . . . 599
10.2.4 O Problema da Membrana Retangular Homogênea . . . . . . . . . . . . . . . 603
10.3 O Problema da Membrana Circular Homogênea . . . . . . . . . . . . . . . 605
10.4 O Oscilador Harmônico na Mecânica Quântica e a Equação de Hermite 608
10.5 O Átomo de Hidrogênio e a Equação de Laguerre Associada . . . . . . . 610
10.6 Propagação de Ondas em Tanques Cilı́ndricos . . . . . . . . . . . . . . . . 613
10.7 Exercı́cios Adicionais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 623
N este capı́tulo ilustramos alguns problemas fı́sicos dos quais emergem algumas das equações
diferenciais ordinárias que temos estudado, tais como as equações de Euler, de Bessel, de Le-
gendre, de Legendre associada, de Bessel esférica, de Hermite, de Laguerre e de Laguerre as-
sociada. O estudante que estiver procurando a motivação e a origem fı́sica daquelas equações
poderá ler parcialmente a presente seção sem precisar dominar totalmente o material anteriormente
apresentado, pelo menos até o ponto em que apresentarmos as soluções das equações. Também evo-
caremos no que segue o chamado método de separação de variáveis e alguns teoremas de unicidade
de solução de equações diferenciais parciais. Tais assuntos são discutidos no Capı́tulo 11 ao qual o
estudante poderá passar sem perdas, se julgar necessário.
A seção 10.7, página 623, contém diversos outros problemas de interesse na forma de exercı́cios.
583
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 10 584/1461
• A equação de onda
A equação de onda
∂2u
(~x, t) − c2 ∆u(~x, t) = 0
∂t2
com c > 0, pode ser tratada pelo procedimento de separação de variáveis, através do qual procuramos
soluções independentes que sejam da forma de um produto u(~x, t) = T (t)E(~x). Por substituição na
equação de onda, somos rapidamente levados à seguinte equação:
1 T ′′ (t) ∆E(~x)
2
= .
c T (t) E(~x)
Como o lado esquerdo é uma função somente de t e o lado direito uma função somente das coordenadas
espaciais ~x, a igualdade acima só é possı́vel se ambos os lados forem iguais a uma constante, a qual
denotaremos por −λ2 . Assim, concluı́mos que
Obtemos por esse procedimento duas equações, uma envolvendo apenas a função T , outra a função
E e uma incógnita extra, a constante λ, a qual deverá ser determinada pela fixação de certas condições
adicionais sobre o problema, por exemplo, através de condições de contorno. Tais constantes que
aparecem quando do método de separação de variáveis são denominadas constantes de separação.
A solução da equação temporal é bem simples:
T (t) = β1 + β2 t , caso λ = 0 ,
(10.3)
onde α1 , α2 , β1 e β2 são constantes arbitrárias a serem tipicamente fixadas por condições iniciais.
• A equação de difusão
A equação de difusão
∂u
(~x, t) − K∆u(~x, t) = 0
∂t
com K > 0, pode ser tratada pelo procedimento de separação de variáveis, através do qual procuramos
soluções independentes que sejam da forma de um produto u(~x, t) = T (t)E(~x). Por substituição na
equação de onda, somos rapidamente levados à seguinte equação:
1 T ′ (t) ∆E(~x)
= .
K T (t) E(~x)
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 10 585/1461
Como o lado esquerdo é uma função somente de t e o lado direito uma função somente das coordenadas
espaciais ~x, a igualdade acima só é possı́vel se ambos os lados forem iguais a uma constante, a qual
denotaremos por −λ2 . Assim, concluı́mos que
T ′ (t) + λ2 K T (t) = 0 ,
∆E(~x) + λ2 E(~x) = 0 .
Obtemos por esse procedimento duas equações, uma envolvendo apenas a função T , outra a função
E e uma incógnita extra, a constante λ, a qual deverá ser determinada pela fixação de certas condições
adicionais sobre o problema, por exemplo, através de condições de contorno.
A solução da equação temporal é bem simples:
T (t) = β1 , caso λ = 0 ,
(10.4)
2 Kt
T (t) = α1 e−λ , caso λ 6= 0 ,
onde α1 e β1 são constantes arbitrárias a serem tipicamente fixadas por condições iniciais.
Como se observa, tanto no caso da equação de onda quanto no caso da equação de difusão, a função
E(~x), que contém a dependência espacial da função u(~x, t), satisfaz a equação diferencial parcial
∆E(~x) + λ2 E(~x) = 0 ,
com λ constante. No caso em que λ 6= 0 essa equação diferencial parcial é denominada equação de
Helmholtz1 . No caso λ = 0 temos a chamada equação de Laplace2
∆E(~x) = 0 .
Essa última equação aparece em vários outros contextos, por exemplo na Eletrostática.
Trataremos dessas duas equações em duas e três dimensões em coordenadas polares e esféricas,
respectivamente.
Reconhecemos que a equação para Ξ é uma equação de Euler, cuja solução geral é αν ρν + βν ρ−ν ,
caso ν 6= 0, ou α0 ln(ρ) + β0 , caso ν = 0. Aqui, α’s e β’s são constantes arbitrárias.
Concluı́mos que a equação de Laplace em duas dimensões em coordenadas polares possui soluções
independentes da forma
E(ρ, ϕ) = α0 ln(ρ) + β0 δ0 ϕ + γ0 , caso ν = 0 ,
(10.6)
E(ρ, ϕ) = αν ρν + βν ρ−ν δν cos(νϕ) + γν sen(νϕ) , caso ν 6= 0 .
Acima α’s, β’s, γ’s e δ’s são constantes arbitrárias a serem fixadas por condições adicionais a serem
impostas à solução. Por exemplo, se desejarmos que as soluções sejam funções periódicas em ϕ de
perı́odo 2π, então devemos impor que δ0 = 0 e que ν seja um inteiro.
A solução geral da equação de Laplace em duas dimensões que representa funções periódicas de
perı́odo 2π em ϕ é, portanto,
∞
X
u(ρ, ϕ) = γ0 ln(ρ) + αm ρm + βm ρ−m δm cos(mϕ) + γm sen(mϕ) ,
m=−∞
onde γ0 , am e bm são constantes a serem determinadas por condições adicionais a serem impostas à
solução.
Devido à forma do operador Laplaciano em duas dimensões em coordenadas polares dada em (10.5),
a equação de Helmholtz assume a forma
1 ∂ ∂E 1 ∂2E
ρ + 2 2
+ λ2 E = 0 .
ρ ∂ρ ∂ρ ρ ∂ϕ
E agora é tomada como uma função de ρ e ϕ.
O método de separação de variáveis propõe procurarmos soluções independentes dessa equação que
sejam da forma de um produto: E(ρ, ϕ) = Ξ(ρ)Φ(ϕ). Inserindo isso na equação de Helmholtz, somos
levados a
ρ (ρΞ′ (ρ))′ Φ′′ (ϕ)
+ λ2 ρ2 = − .
Ξ(ρ) Φ(ϕ)
Como o lado esquerdo é uma função somente de ρ e o lado direito uma função somente de ϕ, a igualdade
acima só é possı́vel se ambos os lados forem iguais a uma constante de separação, a qual denotaremos
por ν 2 . Assim, concluı́mos que
ρ2 Ξ′′ (ρ) + ρΞ′ (ρ) + (λ2 ρ2 − ν 2 )Ξ(ρ) = 0 ,
Pela mudança de variável3 z = λρ e definindo y(z) = y(λρ) = Ξ(ρ), a primeira equação acima
transforma-se em
z 2 y ′′(z) + zy ′ (z) + (z 2 − ν 2 )y(z) = 0 ,
que podemos reconhecer como sendo a equação de Bessel de ordem ν.
Vemos assim que o método de separação de variáveis para a equação de Helmholtz em duas di-
mensões em coordenadas polares conduz a soluções independentes da forma E(ρ, ϕ) = y(λρ)Φ(ϕ)
onde as funções y e Φ satisfazem as equações ordinárias
z 2 y ′′(z) + zy ′ (z) + (z 2 − ν 2 )y(z) = 0 ,
(10.7)
E(ρ, ϕ) = αν Jν (λρ) + βν Nν (λρ) δν cos(νϕ) + γν sen(νϕ) , caso ν 6= 0 .
3
Aqui supomos λ 6= 0.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 10 588/1461
Acima, Jν são as funções de Bessel de ordem ν e Nν são as funções de Neumann de ordem ν. Fora isso,
α’s, β’s, γ’s e δ’s são constantes arbitrárias a serem fixadas por condições adicionais a serem impostas
à solução.
Por exemplo, se desejarmos que as soluções sejam funções periódicas em ϕ de perı́odo 2π, então
devemos impor que δ0 = 0 e que ν seja um inteiro.
A solução geral da equação de Helmholtz em duas dimensões que representa funções periódicas de
perı́odo 2π em ϕ é, portanto,
∞
X
u(ρ, ϕ) = αm Jm (λρ) + βm Nm (λρ) δm cos(mϕ) + γm sen(mϕ) ,
m=−∞
onde am e bm são constantes a serem determinadas por condições adicionais a serem impostas à solução.
Recomendamos ao leitor o exercı́cio instrutivo de comparar as equações radiais obtidas acima no
caso de Laplace e de Helmholtz em duas dimensões, assim como suas soluções.
número complexo c pode ser escrito dessa forma, pois a equação σ 2 + σ − c = 0 sempre tem pelo menos
uma solução). Concluı́mos que
Reconhecemos que a equação para R é uma equação de Euler, cujas soluções são
. (10.11)
1
R(r) = r − 2 (α1 ln(r) + α2 ), caso σ = − 21
Passemos agora à equação para Y (θ, ϕ), a qual propomos novamente tratar pelo método de se-
paração de variáveis. Tomemos, então, Y na forma de um produto Y (θ, ϕ) = Θ(θ)Φ(ϕ). Somos
conduzidos a
senθ d dΘ Φ′′ (ϕ)
( senθ) (θ) + σ(σ + 1)( senθ)2 = − .
Θ(θ) dθ dθ Φ(ϕ)
Mais uma vez, a igualdade acima só é possı́vel se ambos os lados forem iguais a uma constante, que
escrevemos na forma µ2 . Ficamos com
1 d dΘ µ2
sen(θ) (θ) + σ(σ + 1)Θ(θ) − Θ(θ) = 0 , (10.12)
sen(θ) dθ dθ ( sen(θ))2
Claramente, se desejarmos que Φ(ϕ) seja contı́nua e periódica de perı́odo 2π devemos impor que δ0 = 0 e
que µ seja um inteiro, ou seja, µ = m ∈ Z em cujo caso a solução fica Φ(ϕ) = δm cos(mϕ) + γm sen(mϕ)
para todo µ = m ∈ Z (inclusive m = 0). Essa solução pode também ser escrita de forma complexa
como Φ(ϕ) = am eimϕ + bm e−imϕ para outras constantes am e bm .
A experiência ensina que para melhor tratarmos a equação (10.12) convem proceder a mudança de
variável
d 1 d
ζ = cos θ, com = − .
dζ sen(θ) dθ
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 10 590/1461
Definindo também y(ζ) = Θ(θ), ou seja, Θ(θ) = y(cos θ), a equação diferencial para Θ transforma-se
em
d 2 dy µ2
(1 − ζ ) (ζ) + σ(σ + 1) y(ζ) − y(ζ) = 0 ,
dζ dζ 1 − ζ2
ou, equivalentemente,
µ2
(1 − ζ 2)y ′′ (ζ) − 2ζy ′(ζ) + σ(σ + 1) y(ζ) − y(ζ) = 0 .
1 − ζ2
Reconhecemos que se trata da equação de Legendre associada. Por (10.14) vemos que para o
caso em que Φ é contı́nua e periódica de perı́odo 2π devemos necessariamente ter µ = m ∈ Z. Como
discutimos quando tratamos da equação de Legendre associada, se desejarmos também que y(ζ) seja
finita nos extremos ±1 (ou seja, que Θ(θ) seja finita nos extremos θ = 0 e θ = π), devemos ter também
que σ = l ∈ N, sendo que l e m relacionam-se por −l ≤ m ≤ l. As soluções para y(ζ) nesse caso são
os polinômios de Legendre associados y(ζ) = Plm (ζ) ou, em termos de θ, Θ(θ) = Plm (cos(θ)).
Concluı́mos, assim, que se desejarmos soluções que sejam periódicas de perı́odo 2π em ϕ e finitas
nos extremos θ = 0 e θ = π, temos
Y (θ, ϕ) = Plm (cos(θ)) δm cos(mϕ) + γm sen(mϕ)
Constatamos que o lado direito é uma combinação linear das harmônicas esféricas Ylm (θ, ϕ) e Yl−m (θ, ϕ),
definidos em (9.78).
Assim, retornando à E(r, θ, ϕ), concluı́mos que sob as condições mencionadas a equação de Laplace
tem soluções independentes da forma
β
E(r, θ, ϕ) = α r + l+1 Ylm (θ, ϕ) ,
l
r
X∞ X l
βl, m
u(r, θ, ϕ) = l
αl, m r + l+1 Ylm (θ, ϕ) .
l=0 m=−l
r
Aqui, αl, m e βl, m são constantes a serem determinadas por condições adicionais a serem impostas à
solução.
• Expansão de multipólos
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 10 591/1461
Se soubermos a priori que a solução u(r, θ, ϕ) converge a 0 para r → ∞, podemos supor que as
constantes αl, m , acima, se anulam. Nesse caso a solução reduz-se a
X∞ X l
βl, m m
u(r, θ, ϕ) = Y (θ, ϕ) .
l=0 m=−l
r l+1 l
Essa situação ocorre, por exemplo, na Eletrostática quando lidamos com o problema de determinar o
potencial elétrico produzido por uma distribuição de cargas elétricas estáticas limitadas a uma região
finita. Nesse caso a expansão acima é denominada expansão de multipólos. O mesmo tipo de situação
ocorre se desejarmos determinar o potencial gravitacional produzido por uma distribuição de matéria
limitada a uma região finita (por exemplo, um planeta).
Se soubermos a priori, por exemplo, por considerações de simetria, que a função u(r, θ, ϕ) não
depende
q da variável ϕ, então os termos da soma com m 6= 0 devem ser todos nulos. Como Yl0 (θ, ϕ) =
2l+1
4π
Pl (cos(θ)), onde Pl são os polinômios de Legendre, obtemos apenas
X∞
l βl
u(r, θ) = αl r + l+1 Pl (cos(θ)) (10.15)
l=0
r
para certas constantes αl e βl . Novamente, se também soubermos que a solução u(r, θ) converge a 0
para r → ∞, podemos supor que as constantes αl , acima, anulam-se, e obtemos para a expansão de
multipólos
X∞
βl
u(r, θ) = P (cos(θ)) .
l+1 l
(10.16)
l=0
r
Historicamente, o problema que conduziu Legendre aos polinômios de Legendre foi o de determinar
o potencial gravitacional de uma distribuição de matéria limitada a uma região finita e simétrica em
relação ao eixo z. Isso conduziu-o à função geratriz dos polinômios de Legendre (expressão (9.49),
página 525), da qual ele derivou a expressão para os Pl (cos(θ)) como polinômios em cos(θ) e, daı́, à
última expressão.
Devido à forma assumida pelo operador Laplaciano, expressa em (10.8), a equação de Helmholtz
em três dimensões em coordenadas esféricas assume a forma
1 ∂ 2 ∂E 1 ∂ ∂E 1 ∂2E
2
r + ( senθ) + 2 2
+ λ2 E = 0 ,
r ∂r ∂r senθ ∂θ ∂θ ( senθ) ∂ϕ
Mais uma vez constatamos que, pelo fato de o lado esquerdo ser função apenas de r enquanto que
o lado direito é função de θ e ϕ, a igualdade acima implica que ambos os lados devem ser iguais a
uma constante. Por conveniência futura, escrevemos essa constante na forma σ(σ + 1) (note que todo
número complexo c pode ser escrito dessa forma, pois a equação σ 2 + σ − c = 0 sempre tem pelo menos
uma solução). Concluı́mos que
r 2 R′′ (r) + 2rR′ (r) + λ2 r 2 − σ(σ + 1) R(r) = 0 , (10.17)
1 ∂ ∂Y 1 ∂2Y
( senθ) (θ, ϕ) + (θ, ϕ) + σ(σ + 1)Y (θ, ϕ) = 0 . (10.18)
senθ ∂θ ∂θ ( senθ)2 ∂ϕ2
Reconhecemos que a equação para Y (θ, ϕ) é precisamente a mesma que obtivemos no caso da
equação de Laplace em três dimensões em coordenadas esféricas. Assim, se desejarmos soluções para
Y (θ, ϕ) que sejam periódicas de perı́odo 2π em ϕ e finitas nos extremos θ = 0 e θ = π, teremos que
fixar σ = l ∈ N e Y (θ, ϕ) será uma combinação linear de Ylm (θ, ϕ) e Yl−m (θ, ϕ), onde m ∈ Z com
−l ≤ m ≤ l.
Concentremo-nos agora na equação radial. Pela mudança de variável4 z = λr e definindo y(z) =
y(λr) = R(r), a equação (10.17) acima transforma-se em
que podemos reconhecer como sendo a equação de Bessel esférica de ordem σ. Como mencionamos,
estamos interessados primordialmente no caso em que σ = l ∈ N. Obtemos, nesse caso
onde a e b são constantes e jl e nl são as funções de Bessel esféricas de ordem l e de Neumann esféricas
de ordem l, respectivamente.
Retornando a E(r, θ, ϕ), concluı́mos que, sob as hipóteses delineadas acima, a equação de
Helmholtz em três dimensões possui soluções independentes da forma
E(r, θ, ϕ) = α jl (λr) + β nl (λr) Ylm (θ, ϕ) ,
Aqui, αl, m e βl, m são constantes a serem determinadas por condições adicionais a serem impostas à
solução.
Recomendamos ao leitor o exercı́cio instrutivo de comparar as equações radiais obtidas acima no
caso de Laplace e de Helmholtz em três dimensões, assim como suas soluções.
4
Aqui supomos λ 6= 0.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 10 593/1461
∂u X∞ nπx
(x, t) = [−an ωn sen (ωn t) + bn ωn cos (ωn t)] sen . (10.26)
∂t n=1
L
∂u
A imposição das condições iniciais u(x, 0) = u0 (x) e ∂t
(x, 0) = v0 (x), que fixam posição e
velocidade da corda em t = 0, conduz a
∞
X nπx
u0 (x) = an sen , (10.27)
n=1
L
∞
X nπx
v0 (x) = bn ωn sen . (10.28)
n=1
L
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 10 595/1461
Z L mπx ∞
X Z L mπx nπx
sen u0 (x) dx = an sen sen dx
0 L n=1 0 L L
∞ Z
y=πx/L LX π
L
= An sen(my) sen(ny) dy = Am ,
π n=1 0 2
ou seja, Z
2 L nπx′
an = sen u0 (x′ ) dx′ (10.30)
L 0 L
para todo n = 1, 2, 3, . . .. De forma totalmente análoga, obtem-se de (10.28)
Z L Z L
2 nπx′ ′ ′ 2 nπx′
bn = sen v0 (x ) dx = sen v0 (x′ ) dx′ (10.31)
ωn L 0 L nπc 0 L
para todo n = 1, 2, 3, . . ..
onde, formalmente,
∞
! ! !
X 2 nπx nπx′ nπct
′
G(x, t, x ) = sen sen cos
n=1
L L L L
e ! ! !
X∞
′ 2 nπx nπx′ nπct
H(x, t, x ) = sen sen sen .
n=1
nπc L L L
são denominadas funções de Green7 para as condições iniciais do problema em questão. Note-se que,
também em um sentido formal,
∂H
G(x, t, x′ ) = (x, t, x′ ) .
∂t
A importância de (10.32) está em expressar a solução diretamente em termos das condições iniciais u0
e v0 . As funções G e H contêm em si a informação de como os valores das condições iniciais no ponto
x′ influenciam a solução no ponto x no instante de tempo t.
7
George Green (1793-1841).
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 10 596/1461
para 0 ≤ z ≤ L, submetida à condição de contorno u(L, t) = 0 para todo t e a certas condições iniciais
u(z, 0) = u0 (z) e ∂u
∂t
(z, 0) = v0 (z) que fixam posição e velocidade transversal de cada ponto da corda
em t = 0.
Comecemos seguindo o método de separação de variáveis e procuremos soluções particulares na
forma de um produto u(z, t) = T (t)U(z). Inserindo isso em (10.33), obtemos facilmente
Essa igualdade só é possı́vel se ambos os lados forem iguais a uma constante de separação, que deno-
tamos por −λ2 . Chegamos com isso a
T (t) = a0 t + b0 , caso λ = 0 ,
√ √
T (t) = a1 cos(λ gt) + b1 sen(λ gt) , caso λ 6= 0 .
Para λ = 0 a equação (10.35) reduz-se a zU ′′ (z) + U ′ (z) = 0, cuja solução é U(z) = c1 ln(z) + c2 .
Como desejamos que U(0) seja finita (o deslocamento da corda não pode divergir em nenhum ponto),
devemos impor c1 = 0 e, portanto, U(z) = c2 . Porém, como u(L, t) = 0 para todo t, devemos impor
8
Movimentos no plano yz podem ser tratados também mas, por simplicidade, consideramos apenas esse caso mais
simples.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 10 597/1461
U(L) = 0. Assim, c2 = 0 também e obtemos apenas a solução trivial U(z) = 0, o que corresponde a
uma corda eternamente parada. O caso interessante, portanto, está em λ 6= 0.
A equação (10.35) para λ 6= 0 pode ser transformada em uma equação conhecida através da mudança
de variáveis √ √
ζ = 4λ2 z , U(z) = y(ζ) = y ( 4λ2 z) ,
com a qual obtemos
ζ 2 y ′′(ζ) + ζy ′(ζ) + ζ 2 y(ζ) = 0 .
Essa equação, como se constata, é a equação de Bessel de ordem zero: ν = 0. Assim, suas soluções
são
y(ζ) = β1 J0 (ζ) + β2 N0 (ζ) ,
J0 sendo a função de Bessel de ordem 0 e N0 sendo a função de Neumann de ordem 0. Isso significa,
então, que √ √
U(z) = β1 J0 (2λ z) + β2 N0 (2λ z) .
√
A solução acima tem por particularidade que se β2 6= 0 o termo N0 (2λ z) diverge em z = 0. Esse
comportamento não é aceitável, obviamente, de modo que devemos impor9 β2 = 0.
√
Chegamos dessa forma à solução U(z) = J0 (2λ z) (adotando aqui β1 = 1), para
√ a qual devemos
impor a condição de contorno u(L, t) = 0, ou seja, U(L) = 0. Isso implica que 2λ L deve ser um dos
zeros αk0 , k ∈ N, k ≥ 1, da função de Bessel J0 em R+ . Assim, concluı́mos que
αk0
λ = √ ,
2 L
e dessa forma, para 0 ≤ z ≤ L,
r
z
Uk (z) = J0 αk0 , k = 1, 2, 3, 4, . . . ,
L
representam soluções de (10.35) que satisfazem as condições de contorno requeridas. Tem-se, então,
que r
z
uk (z, t) = [ak cos (ωk t) + bk sen (ωk t)] J0 αk0 , k = 1, 2, 3, 4, . . . ,
L
com r
αk0 g
ωk := ,
2 L
são soluções particulares da equação de onda (10.33) que satisfazem as condições de contorno p
requeridas.
Acima, ak e bk são constantes a serem determinadas. Cada função cos (ωk t + δ0 ) J0 αk Lz , k =0
A solução geral da equação de onda (10.33) que satisfaz as condições de contorno requeridas é dada
por
∞
X r
z
u(z, t) = [ak cos (ωk t) + bk sen (ωk t)] J0 αk0 , (10.36)
k=1
L
∞ r
∂u X z
(z, t) = [−ak ωk sen (ωk t) + bk ωk cos (ωk t)] J0 αk0 .
∂t k=1
L
∞ r
X z
v0 (z) = bk ωk J0 αk0 . (10.38)
k=1
L
Z r r ∞ Z L r r
L
0 z 1 gX 0 z z
J0 αl v0 (z) dz = bk αk J0 αl0 J0 αk0 dz .
0 L 2 L 0 L L
k=1
Agora,
Z L r r √z Z 1
z z x= L
(10.39) 2
J0 αl0 J0 αk0 dz = 2L J0 αk0 x J0 αl0 x x dx = L J1 (αk0 ) δk, l .
0 L L 0
para todos l ∈ N, l ≥ 1.
A solução obtida acima satisfaz as condições de contorno e as condições iniciais propostas. A
Proposição 11.7, página 683, garante que a solução assim obtida é a única solução do problema, o que
a posteriori, justifica todo o nosso proceder. Note o leitor que as condições de contorno do problema
tratado acima correspondem às condições de contorno do tipo IV da Proposição 11.7, pois a corda está
fixa em z = L e a tensão anula-se em z = 0. Com isso, o problema de determinar o movimento da corda
pendurada a partir de condições iniciais como acima está completamente resolvido. Esse problema foi
um dos primeiros nos quais surgiram funções de Bessel como solução. Ele foi tratado pela primeira vez
em 1732 por D. Bernoulli1011 .
onde
r r !
z z′
∞
J0 αk0 J0 αk0 0r
X L L αk g
′
G(z, t, z ) := 0 2
cos t ,
k=1 L J1 (αk ) 2 L
r r !
0 z 0 z′
∞
2J 0 α k J 0 α k 0r
X L L αk g
′
H(z, t, z ) := p 2 sen t ,
αk
0
gL J 1 (αk
0
) 2 L
k=1
são as funções de Green para as condições iniciais do problema em questão. Note-se também que,
formalmente,
∂H
G(z, t, z ′ ) = (z, t, z ′ ) .
∂t
A importância de (10.42) está em expressar a solução diretamente em termos das condições iniciais u0
e v0 . As funções G e H contêm em si a informação de como os valores das condições iniciais no ponto
z ′ influenciam a solução no ponto z no instante de tempo t.
assumindo também que a tensão τ seja constante (τ (x) ≡ τ0 ). Sob essas hipóteses (10.19) assume a
forma
∂2u ∂2u
ρ(x) 2 − τ0 2 = 0 . (10.43)
∂t ∂x
Para encontrar as soluções de (10.43) satisfazendo as condições iniciais e de contorno, procederemos
novamente pelo método de separação de variáveis, procurando primeiramente soluções particulares que
sejam da forma u(x, t) = T (t)U(x). Inserindo em (10.20), obtem-se
1 T ′′ (t) 1 U ′′ (x)
= .
τ0 T (t) ρ(x) U(x)
Essa igualdade só é possı́vel se ambos os lados forem iguais a uma constante de separação, que deno-
tamos por −λ2 . Chegamos com isso a
Para λ = 0 a equação (10.45) reduz-se a U ′′ (x) = 0, cuja solução é U(x) = c1 x + c2 . Como desejamos
que U(0) = U(L) = 0, de modo que u(x, t) = T (t)U(x) satisfaça as condições de contorno, obtem-se
c1 = c2 = 0, ou seja, obtem-se a solução trivial U(x) ≡ 0, o que corresponde a uma corda eternamente
parada. Novamente, o caso interessante, portanto, está em λ 6= 0.
A resolução de (10.45) depende, obviamente, da função ρ(x). No que segue assumiremos que essa
função é da forma ρ(x) = ρ0 + ηx, onde ρ0 e η são constantes. Essa é uma primeira correção (linear)
ao caso de ρ constante, que tratamos acima.
A eq. (10.45) torna-se, portanto,
Com a mudança de variáveis ξ = ρ0 + ηx, U(x) = V (ξ) = V (ρ0 + ηx), essa equação assume a forma
V ′′ (ξ) + µ2 ξV (ξ) = 0 ,
onde µ = λ/η. Trata-se de uma equação de Airy, cujas soluções podem ser escritas em termos de
funções de Bessel J±1/3 (vide página 457):
p 2p 2 3 p 2p 2 3
V (ξ) = A ξJ1/3 µ ξ + B ξJ−1/3 µξ ,
3 3
A e B sendo constantes. Assim,
p 2p 2 2 p
U(x) = (ρ0 + ηx) AJ1/3 µ (ρ0 + ηx)3 + BJ−1/3 µ2 (ρ0 + ηx)3 . (10.49)
3 3
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 10 601/1461
A
√ e B sendo constantes.
Pela expressão (8.119), página 455,
√ que define as funções de Bessel, a função
2 3/2 2 3/2
xJ1/3 3 x anula-se em x = 0, enquanto que a função xJ−1/3 3 x assume em x = 0 um valor
não-nulo. Assim, a imposição da condição de contorno U(x) = 0 implica B = 0 e, portanto,
p
√ 2
U(x) = A xJ1/3 λ ηx3 .
3
p (1/3) (1/3)
A imposição da condição de contorno U(L) = 0 implica 32 λ ηL3 = αk , onde αk é o k-ésimo zero
de J1/3 em R+ . Assim,
(1/3)
3α
λ ≡ λk := pk
2 ηL3
e r r r !
x 2 p 3 x (1/3) x 3
U(x) ≡ Uk (x) = Ak J1/3 λk ηx = Ak J1/3 αk ,
L 3 L L
ambas válidas para todo k = 1, 2, 3, . . ., Ak sendo constantes.
Obtemos para u(x, t) a solução geral expressa em termos de uma série de modos normais:
∞ r x r !
X √ √ (1/3) x 3
u(x, t) = ak cos(λk τ0 t) + bk sen(λk τ0 t) J1/3 αk
L L
k=1
∞ r r !
X x (1/3) x 3
= ak cos (ωk t) + bk sen (ωk t) J1/3 αk ,
k=1
L L
sendo r
3 (1/3) τ0
ωk := αk .
2 ηL3
Naturalmente, segue disso que
∞ r x r !
∂u X (1/3) x 3
(x, t) = − ωk ak sen (ωk t) + ωk bk cos (ωk t) J1/3 αk . (10.50)
∂t k=1
L L
∂u
Dessa forma, impondo condições iniciais u(x, 0) = u0(x), ∂t
(x,
0) = v0 (x), tem-se
∞ r r !
X x (1/3) x 3
u0 (x) = ak J1/3 αk ,
k=1
L L
∞ r r !
X x (1/3) x 3
v0 (x) = ωk bk J1/3 αk .
k=1
L L
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 10 602/1461
q
x 3/2 (1/3)
x 3
Multiplicando a primeira das expressões acima por L
J1/3 αl L
e integrando de 0 a
L, obtemos
Z L x 3/2 r !
(1/3) x 3
u0 (x) J1/3 αl dx
0 L L
∞ Z x 2 r ! r !
X L
(1/3) x 3 (1/3) x 3
= ak J1/3 αk J1/3 αl dx
k=1 0 L L L
∞
X Z 1 p p
y=x/L (1/3) (1/3)
= ak L y 2 J1/3 αk y 3 J1/3 αl y 3 dy
k=1 0
∞
X Z 1
u=y 3/2 2ak L (1/3) (1/3)
= u J1/3 αk u J1/3 αl u du
3 0
k=1
(9.158) al L
(1/3)
2 al L ′ (1/3) 2
= J2/3 αl = J1/3 αl .
3 3
Disso, obtemos
s
Z L ′ 3/2 3
3 ′ x (1/3) x′
al = 2 u0 (x ) J1/3 αl dx′
(1/3) 0 L L
L J2/3 αl
e, analogamente,
s
Z L ′ 3/2 3
3 ′ x (1/3) x′
bl = 2 v0 (x ) J1/3 αl dx′
(1/3) 0 L L
ωl L J2/3 αl
para todo l = 1, 2, 3, . . ..
com
r ! r s
r 3
x x 3 x ′ x′
(1/3) (1/3)
J1/3 αk J1/3 αk
∞
X L L L L r
′ 3 (1/3) τ0
G(x, t, x ) = 3 2 cos α t ,
(1/3) 2 k ηL3
k=1 L2 J2/3 αk
r ! r s
r 3
x x 3 x′ x′
(1/3) (1/3)
J1/3 αk J1/3 αk
∞
X L L L L r
′ 3 (1/3) τ0
H(x, t, x ) = 3 2 sen α t ,
(1/3) 2 k ηL3
k=1 ωk L2 J2/3 αk
sendo as funções de Green para as condições iniciais do problema em questão. Mais uma vez, vale
formalmente
∂H
G(x, t, x′ ) = (x, t, x′ ) .
∂t
Nota. Há duas razões para usarmos a medida de integração x′ dx′ em (10.51) e não apenas a medida dx′ .
Primeiro, obtem-se dessa forma funções G e H simétricas pela troca x ↔ x′ (como se vê explicitamente
nas expressões acima). Segundo, como temos ρ0 = 0, (10.45) é da forma U ′′ (x) + ηλ2 xU(x) = 0
e estamos, portanto, lidando com um problema de Sturm-Liouville com r(x) = x (para a teoria de
Sturm-Liouville, vide Capı́tulo 12, página 688). Ora, em problemas de Sturm-Liouville a medida
natural de integração é r(x′ )dx′ , para a qual valem as relações de ortogonalidade das autofunções, daı́
ser natural a escolha que fizemos.
A importância de (10.51) está em expressar a solução diretamente em termos das condições iniciais
u0 e v0 . As funções G e H contêm em si a informação de como os valores das condições iniciais no
ponto x′ influenciam a solução no ponto x no instante de tempo t.
com c > 0, sendo (x, y) restrito ao retângulo {(x, y), 0 ≤ x ≤ L1 , 0 ≤ y ≤ L2 }. As condições iniciais
são u(x, y, 0) = u0 (x, y) e ∂u
∂t
(x, y, 0) = v0 (x, y) para certas funções u0 (x, y) e v0 (x, y) convenientes
e fixam a posição e velocidade, respectivamente, de cada ponto da membrana no instante t = 0. Como
a membrana deve estar fixa nas bordas, devemos também impor as condições de contorno de Dirichlet:
u(x, 0) = u(x, L2 ) = 0 para todo 0 ≤ x ≤ L1 e u(0, y) = u(L1 , y) = 0 para todo 0 ≤ y ≤ L2 .
∂2 ∂2
Escrevendo o operador o Laplaciano em coordenadas Cartesianas como ∆ = ∂x 2 + ∂y 2 a equação de
∞ X
X ∞
nπx mπy
v0 (x, y) = ωmn Bmn sen sen . (10.58)
m=1 n=1
L1 L2
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 10 605/1461
Z L2 Z L1
n′ πx m′ πy
u0 (x, y) sen sen dxdy
0 0 L1 L2
∞ X
X ∞ Z L1 Z L2
nπx n′ πx mπy m′ πy
= Amn sen sen dx sen sen dy
m=1 n=1 0 L1 L1 0 L2 L2
x→L1 x/π ∞ X
X ∞ Z π Z π
y→L2 y/π L1 L2 Amn ′ ′
= sen (nx) sen (n x) dx sen (my) sen (m y) dy
m=1 n=1
π2 0 0
∞ ∞
(10.29) L1 L2 X X L1 L2
= Amn δm,m′ δn,n′ = Am′ n′ .
4 m=1 n=1 4
Essas expressões determinam completamente os coeficientes Amn e Bmn em temos das condições
iniciais. A solução assim obtida satisfaz, então, as condições de contorno e iniciais. A Proposição 11.7,
página 683, garante que a solução assim obtida é a única solução do problema proposto (as condições
de contorno que tratamos são do tipo de Dirichlet) o que, a posteriori, justifica todo o nosso proceder.
onde am e bm são constantes12 . Como esperamos que a solução não apresente divergências em ρ = 0,
devemos ter bm = 0. A condição de contorno que impõe que a solução deve anular-se em ρ = R conduz
a Jm (λR) = 0, ou seja, λ = αkm /R, onde αkm é o k-ésimo zero da função de Bessel Jm (x) para x > 0.
Isso fixa os valores da constante de separação λ. Para cada k a solução da equação temporal (10.1) fica
m m
αk c αk c
T (t) = α1 cos t + α2 sen t .
R R
ak, m e bk, m sendo constantes. Cada uma dessas funções, para k ∈ N e m ∈ Z, representa um modo de
vibração da membrana circular de raio R.
Pelo princı́pio de sobreposição (ou seja, pela linearidade e homogeneidade da equação (10.59) e das
condições de contorno consideradas), a solução geral u da equação de onda satisfazendo as condições
de contorno e sua derivada temporal ∂u ∂t
são dadas por
X∞ ∞
X m m m
αk ct αk ct αk ρ
u(ρ, ϕ, t) = ak, m cos + bk, m sen Jm eimϕ , (10.60)
k=1 m=−∞
R R R
X∞ ∞
X m m m
∂u ak, m αkm c αk ct bk, m αkm c αk ct αk ρ
(ρ, ϕ, t) = − sen + cos Jm eimϕ .
∂t k=1 m=−∞
R R R R R
As constantes ak, m e bk, m devem ser determinadas pelas condições iniciais. É aqui que entram as
relações de ortogonalidade das funções de Bessel e das funções eimϕ .
As condições iniciais impoem (tomando t = 0 nas duas equações acima) que
∞
X ∞
X ′
αkm′ ρ ′
u0 (ρ, ϕ) = ak′ , m′ Jm′ eim ϕ ,
R
k ′ =1 m′ =−∞
∞
X X ∞ ′ m′
bk′ , m′ αkm′ c αk′ ρ ′
v0 (ρ, ϕ) = Jm′ eim ϕ .
′ ′
R R
k =1 m =−∞
12
Caso λ = 0, a única solução da equação de Laplace que é não-singular em ρ = 0 e anula-se em ρ = R é a solução
identicamente nula. Vide solução da equação de Laplace em duas dimensões dada acima.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 10 607/1461
Z π X∞ m
bk′ , m αkm′ c
−imϕ αk′ ρ
v0 (ρ, ϕ)e dϕ = 2π Jm .
−π ′
R R
k =1
m
αk ρ ρ
Multiplicando ambos os lados de ambas as expressões por Jm e integrando-se as expressões
R R
resultantes para ρ entre 0 e R, obtemos
Z RZ π m X∞ Z R m m
−imϕ αk ρ ρ αk ρ αk′ ρ ρ
u0 (ρ, ϕ)e Jm dρdϕ = 2π ak′ , m Jm Jm dρ ,
0 −π R R ′ 0 R R R
k =1
Z R Z π X bk′ , m αm′ c ∞ Z R
−imϕ αkm ρ ρ k αkm ρ αkm′ ρ ρ
v0 (ρ, ϕ)e Jm dρdϕ = 2π Jm Jm dρ .
0 −π R R ′
R 0 R R R
k =1
Assim como no problema da corda pendurada, podemos expressar a solução diretamente em termos
das condições iniciais com o uso das chamadas funções de Green. Usando (10.61)-(10.62), podemos
reescrever (10.60) como
Z RZ π Z RZ π
′ ′ ′ ′ ′ ′ ′
u(ρ, ϕ, t) = G(ρ, ϕ, t, ρ , ϕ ) u0(ρ , ϕ ) ρ dρ dϕ + H(ρ, ϕ, t, ρ′ , ϕ′ ) v0 (ρ′ , ϕ′ ) ρ′ dρ′ dϕ′ ,
0 −π 0 −π
(10.63)
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 10 608/1461
onde
m ′
αkm ρ αk ρ ′
∞
X ∞
X Jm Jm eim(ϕ−ϕ ) m
′ ′ R R αk ct
G(ρ, ϕ, t, ρ , ϕ ) := 2 cos ,
k=1 m=−∞
π (Jm+1 (αkm )) R2 R
m ′
αkm ρ αk ρ ′
∞
X ∞
X Jm Jm eim(ϕ−ϕ ) m
′ ′ R R αk ct
H(ρ, ϕ, t, ρ , ϕ ) := m m 2
sen .
k=1 m=−∞
παk c (Jm+1 (αk )) R R
Essas são as funções de Green para as condições iniciais do problema em questão. Note-se uma vez
mais que
∂H
G(ρ, ϕ, t, ρ′ , ϕ′ ) = (ρ, ϕ, t, ρ′ , ϕ′ ) .
∂t
Tal como no problema da corda pendurada, a importância de (10.63) está em expressar a solução
diretamente em termos das condições iniciais u0 e v0 . As funções G e H contêm em si a informação
de como os valores das condições iniciais no ponto (ρ′ , ϕ′ ) influenciam a solução no ponto (ρ, ϕ) no
instante de tempo t.
~2 d 2 k
− 2
ψ(x) + x2 ψ(x) = Eψ(x) , (10.64)
2m dx 2
onde E é um autovalor do operador de Hamilton14 , ~ é a constante de Planck15 , m a massa da partı́cula
e k a constante de Hooke16 . Definindo
2 1/4 r
~ k 2E x
α := , ω0 := , λ := − 1, z := , v(z) := ψ(x) = v(x/α) , (10.65)
mk m ~ω0 α
a qual reconhecemos ser a equação de Hermite. Como discutimos, essa equação só possui soluções
2
que crescem mais lentamente que e+z /2 para |z| → ∞ se λ = 2n, sendo n um inteiro não-negativo. A
2
condição que u cresce mais lentamente que e+z /2 para |z| → ∞ é necessária para que v(z) e, portanto,
ψ(x), seja de quadrado integrável, uma condição fundamental para a Mecânica Quântica.
No caso em que λ = 2n, sendo n um inteiro não-negativo, a solução para (10.66) é u(z) = Hn (z),
sendo Hn o n-ésimo polinômio de Hermite. Se λ = 2n, então, por (10.65), o valor de E é dado por
1
En := ~ω0 n + ,
2
Rcn∞sendo uma 2
constante de normalização a ser fixada. Na Mecânica Quântica adota-se a normalização
−∞
|ψn (x)| dx = 1. Isso implica,
Z x 2
∞ 2 Z ∞
x (9.85) √
1 = |cn |2
Hn exp − 2 dx = α|cn | 2
(Hn (z))2 exp −z 2 dz = α|cn |2 2n n! π ,
−∞ α α −∞
q
1√
de onde se extrai, escolhendo-se cn real e positivo, que cn = α2n n! π
e, portanto,
s
1 x x2
ψn (x) = √ Hn exp − 2
α2n n! π α 2α
para todo n ∈ N, α sendo uma constante positiva. Na Mecânica Quântica a expressão do lado esquerdo,
acima, representa o valor médio do quadrado do operador de posição, ou seja, de x2 , no auto-estado
normalizado ψn do operador Hamiltoniano do oscilador harmônico.
Sugestão. Use as relações de recorrência (9.91), página 540, e as relações de ortogonalidade (9.85),
página 538, das funções Hn . 6
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 10 610/1461
17
Charles Augustin de Coulomb (1736-1806).
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 10 611/1461
Definindo uma nova variável z = 2γr e y(z) = S(r) = y(2γr), obtemos para y(z) a equação
diferencial
′′ ′ β
zy (z) + 2(l + 1) − z y (z) − − (l + 1) y(z) = 0 ,
2γ
a qual, para fins de comparação, escrevemos como
′′ ′ β
zy (z) + (2l + 1) + 1 − z y (z) − + l − (2l + 1) y(z) = 0 .
2γ
β
Comparando a (8.158), reconhecemos que se trata da equação de Laguerre associada com n = 2γ +l.
Pela nossa discussão de quando tratamos da equação de Laguerre, devemos ter n um inteiro positivo
com 0 ≤ 2l + 1 ≤ n, de outra forma a solução da equação de Laguerre crescerá mais rápido que
exponencial, destruindo a propriedade de ψ ser de quadrado integrável. Assim, n deve ser tomado um
β
inteiro positivo e, portanto, p := 2γ deve ser também inteiro. Como 0 ≤ 2l + 1 ≤ n e n = p + l, segue
que p ≥ l + 1 e, portanto, p é igualmente um inteiro positivo.
Na situação descrita no último parágrafo, vimos na Seção 8.3.2, página 472, que as soluções da
(2l+1)
equação de Laguerre associada acima são dadas pelos polinômios de Laguerre associados Ln (z).
Retornando a R(r), obtivemos a solução
l βr (2l+1) βr
Rp, l (r) = r exp − Lp+l ,
2p p
β β
onde usamos p := 2γ ∈ N, p > 0, e escrevemos γ = 2p
. Voltando às constantes originais, a relação
β
γ = 2p expressa-se como
r
2m0 αm0 α2 m0 1
− E = , ou seja, E ≡ Ep = − , com p = 1, 2, 3, 4, . . . .
~ 2 p~2 2~2 p2
Essa é a bem-conhecida regra de quantização de energia do átomo de hidrogênio, obtida pela primeira
vez, por outros meios, por Bohr18 em 1912-1913 e reobtida posteriormente por Schrödinger em 1926
através do estudo das soluções da equação de Schrödinger para o potencial de Coulomb, como fizemos
acima. O número inteiro não-negativo p é denominado número quântico principal no contexto da
Mecânica Quântica.
Os auto-estados de energia são
l βr (2l+1) βr
ψp, l, m (r, θ, ϕ) = cp, l, m r exp − Lp+l Ylm (θ, ϕ) ,
2p p
R
onde dΩ = sen(θ)dθdϕ. Como por (9.81) tem-se S 2 |Ylm (θ, ϕ)|2 dΩ = 1, segue que
Z ∞ 2
2 βr (2l+1) βr
1 = |cp, l, m | exp − Lp+l r 2l+2 dr
0 p p
2l+3 Z ∞ 2
p (2l+1)
= 2
|cp, l, m | e−ρ Lp+l (ρ) ρ2l+2 dρ
β 0
2l+3
(9.115) 2 p ((p + l)!)3
= |cp, l, m | (2p) .
β (p − l − 1)!
Comentamos que toda a teoria do átomo de hidrogênio, incluindo as várias expressões complexas
que derivamos acima envolvendo polinômios de Laguerre, e muito mais, já se encontrava nos primeiros
trabalhos de Schrödinger sobre a Mecânica Quântica, de 1926.
∂~v 1
+ (~v · ∇) ~v + ∇p − ~g = 0 , (10.68)
∂t ρ
onde ~v é o campo de velocidades, ρ a densidade do fluido, p a pressão e ~g a aceleração da gravidade.
Esta equação, apesar de não-linear, pode, para certos limites, ser aproximada por equações lineares.
Quando isto se dá, a dificuldade em encontrar soluções explı́citas diminui consideravelmente. Será este
o caso tratado neste trabalho: o estudo de soluções explı́citas do problema de propagação de ondas na
superfı́cie de um lı́quido contido num tanque cilı́ndrico.
Consideraremos três casos limites com a caracterı́stica comum de que o comprimento de onda é
muito maior que sua amplitude. O primeiro caso tratado é o da propagação de tais ondas em um
tanque cuja profundidade é muito grande, não havendo, desta forma, influência do fundo na solução
das equações. O segundo caso tratado é um limite do anterior, fazendo com que o raio do tanque seja
infinito. O terceiro, e último caso estudado é aquele no qual a profundidade do tanque é muito menor
que o comprimento de onda, para o qual obtém-se uma solução bastante parecida com a do problema
da membrana circular da Seção 10.3, página 605 (mas com condições de contorno do tipo de Neumann).
A velocidade v varia de maneira notável para perı́odos de tempo da ordem de τ e para comprimentos
de onda, λ, dependendo da direção de propagação da onda. Desta forma, a derivada da velociade em
relação ao tempo é aproximadamente τv , e λv é a diferença de velocidades entre dois pontos distintos
do espaço percorridos pela partı́cula em um certo intervalo de tempo. Assim, se λ ≫ a, que é nossa
aproximação inicial, tem-se
1a a2 1 1 v ∂~v
≫ , v ≫ v, ≫ (~v · ∇) v .
ττ τ λ τ λ ∂t
Seja (por separação de variáveis) ϕ (r, θ, z, t) = Λ (r) A (θ) V (z) T (t). Obtem-se de (10.81) as
seguintes equações para os fatores Λ, A e V :
r 2 Λ′′ + rΛ′ + σ 2 r 2 − ν 2 Λ = 0 , (10.83)
A′′ + ν 2 A = 0 , (10.84)
V ′′ − σ 2 V = 0. (10.85)
Para que a solução seja periódica em θ, de perı́odo 2π, devemos ter que ν = m, onde m ∈ Z. Para
V , obtemos de (10.85) V (z) = Aeσz + Be−σz caso σ 6= 0 e V (z) = Az + B caso σ = 0, A e B sendo
constantes. Como desejamos uma solução finita para z → −∞ (onde localiza-se o fundo do tanque),
devemos ter Re (σ) ≥ 0 e V (z) = Aeσz . Disso obtem-se V ′ (0)/V (0) = σ e, por (10.82), obtemos para
o fator T a equação
T ′′ + gσT = 0 . (10.86)
Para que essa equação tenha um carater oscilatório e não divirja para t → ±∞ devemos ter Im (σ) = 0
e σ > 0.
Aplicando as condições de contorno (velocidade radial igual a zero em r = R) e admitindo que o
tanque seja profundo o bastante para que o fundo não interfira, obtém-se:
∞ ∞ m " r ! r !#
X X βk r imθ+ βkm z gβkm gβkm
ϕ (r, θ, z, t) = Jm e R ak, m cos t + bk, m sen t ,
k=1 m=−∞
R R R
(10.87)
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 10 616/1461
′
onde Jm (x) são as funções de Bessel e βkm é o k-ésimo zero da função Jm (x) em R+ \ {0}. Para a
parte radial, não consideramos as funções de Neumann como possı́veis soluções da equação de Bessel
(10.83), pois estas soluções não são compatı́veis com a finitude da energia, devido à presença de uma
singularidade na origem.
Seja v0 a velocidade aplicada na superfı́cie do fluido no instante t = 0 na direção de z, ou seja,
v0 ≡ v0 (r, θ, z = 0, t = 0) ẑ. Então,
∞
X ∞
X
βkm r
v0 (r, θ) = ak,m Jm eimθ . (10.88)
k=1 m=−∞
R
√ Z RZ
(βkm )3/2 g π
−imθ βkm r
bk, m = 2 ζ0 (r, θ) e Jm r dθ dr . (10.91)
R
πR3/2 (βkm )2 − m2 Jm (βkm ) 0 −π
∞ ∞ m " r ! r !#
X X βkm βk r imθ+ βkm z gβkm gβkm
vz = Jm e R ak, m cos t + bk, m sen t .
k=1 m=−∞
R R R R
Vemos dessas expressões que as velocidades decrescem exponencialmente com a profundidade. A forma
final da superfı́cie é dada pela equação (10.78) (no caso em que ζ ≈ 0) e fica
s m " r ! r !#
X∞ X∞
βkm βk r imθ gβkm gβkm
ζ = Jm e ak, m sen t − bk, m cos t . (10.92)
k=1 m=−∞
gR R R R
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 10 617/1461
As ondas cuja propagação é descrita pelas expressões acima são denominadas ondas de gravitação na
literatura da Mecânica dos Fluidos. Vide e.g. [89].
Abordaremos agora o limite em que o raio e a profundidade do tanque são muito grandes (infinitos).
Tal é o caso se considerarmos ondas de pequeno comprimento de onda se propagando no meio de um
oceano. Nesse caso teremos novamente as equações (10.81)-(10.82)
∂2ϕ ∂ϕ ∂ 2 ϕ 2
2∂ ϕ
∇2 ϕ = 0 ⇒ r 2 + r + + r = 0 (10.93)
∂r 2 ∂r ∂θ2 ∂z 2
e
∂2ϕ ∂ϕ
+g = 0. (10.94)
∂t2 ∂z z=0
Para fazermos a separação de variáveis suporemos que ϕ pode ser escrita como
e
ABC(0)D ′′ + gABC ′ (0)D = 0 . (10.97)
Para resolver a equação (10.96) iremos dividi-la por ABCD = ϕ. Sempre poderemos fazer isso desde
que a solução para ϕ não seja a solução trivial. Também iremos supor que as seguintes condições são
obedecidas:
B ′′
= cte. = −ν 2 . (10.98)
B
e
C ′′
= cte. = k 2 . (10.99)
C
Discutiremos se ν e k são ou não reais mais tarde. Levando em conta (10.98) e (10.99), (10.96) fica:
A′′ A′
r2 +r = ν 2 − k2 r2 =⇒ r 2 A′′ + rA′ + (r 2 k 2 − ν 2 )A = 0 . (10.100)
A A
Se fizermos uma mudança de variável chegaremos na equação de Bessel para a função Jν (x), de
forma que a solução é
A(r) = KJν (kr) . (10.101)
Se resolvermos (10.98) e (10.99) obteremos:
Note que para que ϕ seja contı́nua e diferenciável (precisaremos dessas condições se quisermos
descrever a superfı́cie de forma satisfatória), então devemos ter que ν é inteiro. Além disso, como
vamos somar as soluções com ν variando de −∞ até +∞, podemos sem perda de generalidade considerar
ζθ = 0.
Na equação (10.103), devemos manter em mente que como o tanque é sem fundo devemos ter a
relação z → −∞ ⇒ ϕ → 0 satisfeita, de forma que k deve ser real (e sem perda de generalidade
positivo) e ζz = 0. Então a equação (10.97) fica
D ′′ p p
= −gk =⇒ D(t) = ξtkν cos gk t + ζtkν sen gk t . (10.104)
D
Então o resultado para o potencial é
h p p i
ϕkν (r, z, θ, t) = Jν (rk)eiνθ+kz Ekν cos gk t + Fkν sen gk t , (10.105)
Ekν = ξθ ξtkν ,
Fkν = ξθ ζtkν .
Z π Z ∞ ∞
X
iνθ −iλθ
Skν (r, θ) = kJν (rk)e Ekν =⇒ Se dθ = 2πkJν (rk)Ekν δνλ dk
−π 0 ν=−∞
Z r ! Z √
∞
k √ π
rS(r, θ)e−iλθ
= 2πkJλ (rk)Ekλ dk = Hλ−1 2π Ekλ =⇒ kEkλ = Hλ dθ ,
0 r −π 2π
21
Hermann Haenkel (1839-1873).
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 10 619/1461
p Z π Z ∞ ∞
X p
−iλθ
Rkν (r, θ) = gkJν (rk)Fkν =⇒ Re dθ = 2π gkJν (rk)Fkν δνλ dk =
−π 0 ν=−∞
Z r r Z
∞ p g r 1 π
= 2π gkJλ (rk)Fkλ dk = Hλ−1 2π Fkλ =⇒ Fkλ = Hλ −iλθ
Re dθ
0 r g 2π −π
e, portanto, s Z Z
k ∞ π rT (r, θ, 0) −iνθ
Fkν = e Jν (rk) dθ dr . (10.110)
g 0 −π 2π
p0 1 ∂ϕ
ζ(r, θ, t) = − − (r, θ, 0, t) . (10.113)
ρg g ∂t
∂vθ 1 ∂p
= − , (10.116)
∂t ρr ∂θ
∂vz ∂p
= − . (10.117)
∂t ∂z
Lembrando que a pressão num ponto interior a um fluido aproximadamente estático é dada por
p ∼
= p0 + ρg (h − z)
onde h é altura da superfı́cie do fluido medida a partir do fundo, obteremos, substituindo esta em
(10.115) e em (10.116), a aproximação
∂vr ∼ ∂h
= −g , (10.118)
∂t ∂r
∂vθ ∼ g ∂h
= − , (10.119)
∂t r ∂θ
∂vz ∼
= 0. (10.120)
∂t
A equação de continuidade ∂ρ
∂t
+ ∇ · (ρ~v ) = 0 reduz-se, para fluidos incompressı́veis (ou seja, com
ρ = const.) a ∇ · ~v = 0. Em coordenadas cilı́ndricas isso significa
onde usamos a hipótese que vz (z = 0) = 0 (ou seja, o fluido não se move verticalmente no fundo do
tanque). Supondo agora que o tanque seja razo, e que vr e vθ não dependam da altura z, a última
expressão pode ser aproximada por
1 ∂ (rvr ) 1 ∂vθ
vz (r, θ, h(r, θ, t), t) + h(r, θ, t) + h(r, θ, t) = 0,
r ∂r r ∂θ
∂h
Lembrando que vz (r, θ, h, t) = ∂t
, obtemos
∂h h ∂ (rvr ) h ∂vθ
+ + = 0.
∂t r ∂r r ∂θ
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 10 621/1461
Podemos notar que a expressão entre parênteses é o Laplaciano bidimensional escrito em coorde-
nadas polares. Com isso podemos escrever (10.121) mais sucintamente como:
∂2ζ
2
− gh0∇2 ζ = 0 . (10.122)
∂t
Vemos que esta√é uma equação de onda em duas dimensões, que corresponde a ondas com velocidade
de propagação gh0 (Comentário en pasant: o fato de a velocidade de propagação diminuir com a
profundidade do tanque explica o por quê de uma onda “quebrar” ao se aproximar de uma praia).
As ondas cuja propagação é descrita por (10.122) são denominadas grandes ondas de gravitação na
literatura da Mecânica dos Fluidos. Vide e.g. [89]. Como desejamos conhecer a forma de ondas na
superfı́cie de um tanque cilı́ndrico devemos aplicar o método de separação de variáveis à equação
(10.122).
Supondo ζ da forma Λ (r) A (θ) T (t) na equação (10.122), teremos:
σ2
T ′′ + T = 0, (10.123)
gh0
r 2 Λ′′ + rΛ′ + σ 2 r 2 − ν 2 Λ = 0 , (10.124)
A′′ + ν 2 A = 0 . (10.125)
entendida como condição de contorno (do tipo de Neumann) a ser satisfeita pela função ζ(r, θ).
Resolvendo sistema de equações diferenciais (10.123)-(10.125) sujeito à condição de contorno de
que a derivada de ζ em relação ao raio deve anular-se em r = R a solução para o perfil das ondas na
superfı́cie do lı́quido será:
X∞ X∞ m√ m√ m
βk gh0 t βk gh0t βk r imθ
ζ (r, θ, t) = ak,m cos + bk,m sen Jm e , (10.126)
k=1 m=−∞
R R R
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 10 622/1461
onde ν = m ∈ N para que a solução seja periódica de perı́odo 2π em θ e onde, como anterioremente,
′
βkm designa o k-ésimo zero de Jm em R+ \ {0}. Para a parte radial, não consideramos as funções de
Neumann como possı́veis soluções da equação de Bessel, pois estas não são compatı́veis com a finitude
da energia, devido à presença de uma singularidade na origem.
Supondo, como condições iniciais, que a superfı́cie do lı́quido tenha uma forma descrita por uma
função ζ0 (r, θ) e uma distribuição de velocidades verticais dada por v0 (r, θ) em t = 0, teremos:
∞
X ∞
X
βkm r
ζ0 (r, θ) = ak, m Jm eimθ , (10.127)
k=1 m=−∞
R
∞
X ∞
X √ m
βkm gh0 βk r imθ
v0 (r, θ) = bk, m Jm e . (10.128)
k=1 m=−∞
R R
Utilizando em (10.127) e (10.128) asR relações de ortogonalidade (9.159), página 560, das funções de
π
Bessel e as relações de ortogonalidade −π ei(m−n)θ dθ = 2πδmn das funções eimθ , teremos:
Z RZ π
1 −imθ βkm r
ak, m = 2 ζ0 (r, θ) e Jm r drdθ , (10.129)
R
πR2 1 − βmm (Jm (βkm ))2 0 −π
k
Z RZ π
1 −imθ βkm r
bk, m = 2 v0 (r, θ) e Jm r drdθ (. 10.130)
√ R
πR gh0βkm 1− m
βkm
(Jm (βkm ))2 0 −π
Essas expressões determinam completamente os coeficientes ak, m e bk, m para todos k e m em termos
das condições iniciais.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 10 623/1461
a) r > R.
b) r < R.
c) r = R, mas θ 6= π/2.
As variáveis r e θ referem-se ao sistema de coordenadas esféricas cuja origem é o centro do anel e cujo eixo
z, a partir de onde o ângulo θ é medido, coincide com o eixo de simetria do anel.
Sugestão 1. Calcule primeiramente o potencial ao longo do eixo de simetria. Para os demais pontos use
a solução da equação de Laplace:
∞
X
n Bn
φ(r, θ) = An r + n+1 Pn (cos(θ)) .
n=0
r
Os coeficientes An e Bn são fixados pela solução ao longo do eixo de simetria (que correspondem a θ = 0
e θ = π).
Sugestão 2. Para x ∈ C com |x| < 1 e para todo α ∈ C, vale a expansão binomial (vide (8.199), página
490):
X ∞
(α + 1 − k)k k
(1 + x)α = x ,
k=0
k!
onde, para x ∈ C e n ∈ N, (x)n são os sı́mbolos de Pochhammer definidos em (8.143), página 464. Em
particular, para |t| < 1, tem-se
∞
X
−1/2 (2k − 1)!!
(1 + t) = 1+ αk tk , com αk = (−1)k .
k=1
(2k)!!
As variáveis r e θ referem-se ao sistema de coordenadas esféricas cuja origem é o centro do disco e cujo
eixo z, a partir de onde o ângulo θ é medido, coincide com o eixo de simetria do disco.
Sugestões. Calcule primeiramente o potencial ao longo do eixo de simetria. Para os demais pontos use
a solução (10.15) da equação de Laplace :
X∞
n Bn
φ(r, θ) = An r + n+1 Pn (cos(θ)) .
n=0
r
Use também a expansão binomial (8.199), citada no Exercı́cio E. 10.5, página 623.
Lembre-se também que sobre o semi-eixo z > 0, onde θ = 0, tem-se z 2n = r 2n P2n (cos(0)) para todo
n ≥ 0 e |z| = +rP1 (cos(0)). Porém, sobre o semi-eixo z < 0, onde θ = π, tem-se z 2n = r 2n P2n (cos(π))
para todo n ≥ 0 mas |z| = −rP1 (cos(π)). Esse último sinal “-” é importante para distinguir as soluções
dos itens b e c.
Obtenha o potencial de um plano infinito uniformemente carregado tomando o limite R → ∞ da solução
acima. 6
E. 10.7 Exercı́cio. [Potencial de uma barra finita uniformemente carregada] Considere uma
barra unidimensional de comprimento L, uniformemente carregada e com carga elétrica total Q. Determine,
em termos de uma expansão em série envolvendo polinômios de Legendre, o potencial elétrico φ(r, θ)
produzido por essa barra no vácuo na região r > L/2. As variáveis r e θ referem-se ao sistema de
coordenadas esféricas cuja origem é ponto médio da barra e cujo eixo z, a partir do qual o ângulo θ é
medido, coincide com o eixo da barra.
Para averiguar se o resultado obtido está correto, verifique a validade aproximada da lei de Coulomb para
r grande.
Sugestão. Como no exercı́cio anterior, determine primeiro o potencial ao longo do eixo z. 6
∂u
u(ρ, ϕ, 0) = 0 e (ρ, ϕ, 0) = v0 (ρ),
∂t
onde
V, 0 ≤ ρ ≤ R0 < R ,
v0 (ρ) =
0, R0 < ρ ≤ R .
Acima, as coordenadas ρ e ϕ referem-se ao sistema de cordenadas polares cuja origem coincide com o centro
do disco de raio R.
Sugestão. Ao resolver a equação para a parte temporal (método de separação de variáveis), lembre-se
que alguns modos de vibração podem ter amortecimento sub-crı́tico e outros super-crı́tico. Para simplificar,
ignore o caso de amortecimento crı́tico.
6
L
D
TL
x
L
Figura 10.1: A membrana triangular TL . A aresta D corresponde ao segmento de reta x + y = L com
0 ≤ x ≤ L (e, portanto, 0 ≤ y ≤ L).
Mostre que a solução da equação de ondas que satisfaz as condições de contorno (10.131)-(10.133) é
∞
X mπx nπy mπy nπx
u(x, y, t) = sen sen − (−1)m+n sen sen
m>n≥1
L L L L
× Amn cos (ωmn t) + Bmn sen (ωmn t) ,
√
onde ωmn = cπ L
n2 + m2 . Determine as constantes Amn e Bmn a partir das condições iniciais u(x, y, 0) =
∂u
u0 (x, y) e ∂t (x, y, 0) = v0 (x, y), sendo u0 e v0 funções dadas em TL e que representam a posição e
velocidade, respectivamente, de cada ponto da membrana em t = 0.
Sugestões. As condições de contorno (10.131)-(10.133) não são separáveis nas coordenadas Cartesianas
x e y, mas a equação de Helmholtz ∆u + λu = 0 ainda o é. O método de separação de variáveis fornece
soluções do tipo sen(αx) sen(βy) as quais satisfazem as condições de contorno (10.131) e (10.132), mas
não a condição (10.133). A idéia é considerar as funções
Jα, β (x, y) := sen(αx) sen(βy) + c sen(βx) sen(αy) ,
as quais satisfazem (10.131) e (10.132) e a equação de Helmholtz ∆u + λu = 0 com λ = α2 + β 2 , e
tentar determinar α, β e c de sorte que Jα, β (x, L − x) = 0 seja satisfeita para todo 0 ≤ x ≤ L (condição
(10.133)).
Notemos primeiramente que para β = ±α tem-se Jα, ±α (x, y) = c0 sen(αx) sen(αy) (com c0 =
±(1 + c)) e a condição Jα, α (x, L − x) = 0 fica c0 sen(αx) sen(αL) cos(αx) − cos(αL) sen(αx) = 0, que
só pode ser satisfeita para todo x se c0 = 0 ou se α = 0, levando, em ambos os casos, à solução trivial
identicamente nula. Para α = 0 ou β = 0 temos também a solução trivial identicamente nula.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 10 627/1461
Para |α| =
6 |β|, ambos não-nulos, procedemos da seguinte forma. Verifique que
são linearmente independentes. Para tal, observemos que se existirem a1 , a2 e a3 tais que
sen(βL) = 0 , (10.136)
c sen(αL) = 0 , (10.137)
De (10.136) temos β = nπ/L com n ∈ N, mas n > 0 para excluir a solução nula. Com isso, teremos por
(10.138) que
c cos(αL) = (−1)n+1 . (10.139)
Isso, em particular, implica que c 6= 0 e, por (10.137), concluı́mos que sen(αL) = 0, o que implica
α = mπ/L com m, n ∈ N, sendo m > 0. Dessa forma, (10.139) significa que c = (−1)m+n+1 .
Concluı́mos disso que as funções
mπx nπy mπy nπx
Mmn (x, y) = sen sen − (−1)m+n sen sen
L L L L
2
com m, n ∈ N, sendo m, n > 0, satisfazem a equação de Helmholtz com λ = Lπ 2 (n2 + m2 ) e satisfazem
todas as condições de contorno (10.131)-(10.133) sendo, portanto, o modos de vibração do problema.
A função Mmn (x, y) é identicamente nula caso m = n e tem-se Mmn (x, y) = −(−1)m+n Mnm (x, y).
Assim, apenas as funções Mmn (x, y) com m > n ≥ 1 são independentes.
Obtenha as relações de ortogonalidade na região TL para as funções Mmn (x, y), m > n ≥ 1. 6
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 10 628/1461
onde νm = mπ β
e onde αnνm é o n-ésimo zero de Jνm na semireta (0, ∞). Determine as constantes Amn e
Bmn a partir das condições iniciais u(ρ, ϕ, 0) = u0 (ρ, ϕ) e ∂u
∂t
(ρ, ϕ, 0) = v0 (ρ, ϕ), sendo u0 e v0 funções
dadas em 0 ≤ ρ ≤ R e 0 ≤ ϕ ≤ β e que representam a posição e velocidade, respectivamente, de cada
ponto da membrana em t = 0. Será necessário usar as relações de ortogonalidade (9.158), página
560, para
mπ
as funções de Bessel Jνm assim como as relações de ortogonalidade para as funções sen β ϕ . 6
E. 10.12 Exercı́cio. [Membrana anelar] Determine a solução da equação de ondas em duas dimensões
para o movimento transversal de uma membrana anelar, de raio interno R1 e raio externo R2 com 0 < R1 <
R2 , ou seja, contido na região (em coordenadas polares) R1 ≤ ρ ≤ R2 e 0 ≤ ϕ ≤ 2π. Assuma que
a membrana está fixa nas bordas (condições de contorno de Dirichlet), ou seja, as assuma condições de
contorno u(R1 , ϕ) = u(R2 , ϕ) = 0 para todo 0 ≤ ϕ ≤ 2π. Mostre que a solução da equação de ondas
que satisfaz as condições de contorno é
X∞ X∞
imϕ µmn ct µmn ct
u(ρ, ϕ, t) = Rmn (ρ) e Amn cos + Bmn sen ,
m=−∞ n=1
R2 R2
com
µmn R1 µmn ρ µmn R1 µmn ρ
Rmn (ρ) := Nm Jm − Jm Nm ,
R2 R2 R2 R2
sendo que µmn é o n-ésimo zero no intervalo (0, ∞) da função
R1 R1
Lm (x) := Nm x Jm (x) − Jm x Nm (x) .
R2 R2
A determinação das constantes Amn e Bmn a partir das condições iniciais usuais pode ser feita com uso
das relações de ortogonalidade descritas no Teorema 9.7, página 563. 6
R1
β
β
R R
2
Figura 10.2: À esquerda: um setor triangular de um disco, com raio R > 0 e ângulo de abertura β,
sendo 0 < β ≤ 2π. À direita: um setor triangular anelar de um disco, com raio interno R1 , raio externo
R2 e ângulo de abertura β, sendo 0 < R1 < R2 e 0 < β ≤ 2π.
contorno de Dirichlet). Mostre que a solução da equação de ondas que satisfaz as condições de contorno é
X∞ X ∞
mπ µmn ct µmn ct
u(ρ, ϕ, t) = Rmn (ρ) sen ϕ Amn cos + Bmn sen ,
m=1 n=1
β R 2 R 2
com
µmn R1 µmn ρ µmn R1 µmn ρ
Rmn (ρ) := J−νm Jν m − Jν m J−νm ,
R2 R2 R2 R2
mπ
onde νm = β
, sendo que µmn é o n-ésimo zero no intervalo (0, ∞) da função
R1 R1
Lm (x) := J−νm x Jνm (x) − Jνm x J−νm (x) .
R2 R2
A determinação das constantes Amn e Bmn a partir das condições iniciais usuais pode ser feita com uso
das relações de ortogonalidade descritas no Teorema 9.7, página 563. 6
E. 10.14 Exercı́cio. [Ondas amortecidas em uma esfera] Determine (tão detalhada e explicita-
mente quanto possı́vel) a solução da equação de ondas com amortecimento
1 ∂2u ∂u
2 2
+γ − ∆u = 0,
c ∂t ∂t
γ > 0, em três dimensões, no interior da esfera de raio R, com |u(r, θ, ϕ, t)| < ∞, com condições de
contorno de Dirichlet u(R, θ, ϕ, t) = 0 e com as condições iniciais
∂u
u(r, θ, ϕ, 0) = 0 e (r, θ, ϕ, 0) = v0 (r),
∂t
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 10 630/1461
onde
V, 0 ≤ r ≤ R0 < R ,
v0 (r) =
0, R0 < r ≤ R .
E. 10.15 Exercı́cio. [Resfriamento de uma esfera] Uma esfera homogênea de raio R, boa condutora
de calor, com constante de difusão K > 0, encontra-se em contacto térmico com um banho térmico à
temperatura T = 0. No instante de tempo t = 0 a temperatura inicial da esfera é descrita (em um sistema
de coordenadas esféricas, cuja origem coincide com o centro da esfera) por uma função u0 (r, θ, ϕ), com
0 ≤ r ≤ R, 0 ≤ θ ≤ π e 0 ≤ ϕ ≤ 2π.
E. 10.16 Exercı́cio. [Resfriamento de um cano] Um cano cilı́ndrico infinito, cujo raio interno é R1
e cujo raio externo é R2 , é formado por um material Mc cuja constante de difusão térmica é K. O cano
está em contacto por dentro com um material M1 à temperatura T1 e por fora com um material M2 à
temperatura T2 . As temperaturas dos materiais M1 e M2 são mantidas constantes e não mudam nem com
o tempo nem com a posição.
Adotemos coordenadas cilı́ndricas (r, ϕ, z), cujo eixo z coincide com o eixo do cilindro. Deseja-se
determinar a temperatura u(r, ϕ, z, t) no interior do cano, ou seja, para R1 ≤ r ≤ R2 . Como o cano é
infinito e as temperaturas dos meios M1 e M2 não variam, a temperatura u deve ser apenas uma função de
r, ϕ e t.
Seguindo a Lei de Fourier, as condições de contorno a serem satisfeitas em r = R1 e em r = R2 devem
impor que o fluxo de calor na superfı́cie de contacto entre o cano um meio externo deve ser proporcional
à diferença de temperatura entre ambos os meios na superfı́cie de contacto, sendo que a constante de
proporcionalidade σ depende de ambos os materiais em contacto térmico. Ou seja, devemos impor
∂u
(R1 , ϕ, t) = +σ1 [u(R1 , ϕ, t) − T1 ]
∂r
e
∂u
(R2 , ϕ, t) = −σ2 [u(R2 , ϕ, t) − T2 ] ,
∂r
para todo t e todo ϕ.
Sabendo que a temperatura no interior do cano (ou seja, para R1 ≤ r ≤ R2 ) era u0 (r, ϕ) no instante
t = 0, determine a temperatura u(r, ϕ, z, t) para todo t > 0. A temperatura u deve satisfazer a equação
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 10 631/1461
de difusão do calor
∂u
= K∆u .
∂t
Sugestão. As condições de contorno acima são não-homogêneas. Para passar para condições ho-
megêneas, proceda da seguinte forma. Escreva
e
g ′ (R2 ) + σ2 g(R2) = +σ2 T2 .
∂f
(R1 , ϕ, t) − σ1 f (R1 , ϕ, t) = 0
∂r
e
∂f
(R2 , ϕ, t) + σ2 f (R2 , ϕ, t) = 0 ,
∂r
para todo t e todo ϕ.
Comentários: 1o A determinação dos auto-valores não precisa ser feita completamente, caso envolva
a solução de uma equação transcendente. É suficiente deixar indicado como proceder. 2o A solução
para f requer o uso de funções de Bessel e de Neumann, semelhantemente ao Exercı́cio E. 10.12, página
628, mas as condições de contorno daquele exercı́cio eram de Dirichlet, enquanto que, no caso presente,
são mistas. Tal como naquele exercı́cio, é importante determinar as relações de ortogonalidade a serem
usadas e para isso recomenda-se dar uma olhada no Teorema 9.7, página 563, e adaptar a demonstração
para o presente contexto. Isso pode ser trabalhoso. 3o Não esquecer que a condição inicial para f é
f (r, ϕ, 0) = u0 (r, ϕ) − g(r). 6
* *** *
Capı́tulo 11
Rudimentos da Teoria das Equações Diferenciais
Parciais
Conteúdo
11.1 Definições, Notações e Alguns Exemplos . . . . . . . . . . . . . . . . . . . 633
11.1.1 Alguma Classificação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 640
11.2 O Método de Separação de Variáveis . . . . . . . . . . . . . . . . . . . . . 641
11.2.1 O Método de Separação de Variáveis. Caso de Equações Lineares . . . . . . . 642
11.2.2 O Método de Separação de Variáveis. Caso de Equações Não-Lineares . . . . 646
11.3 O Método das Caracterı́sticas . . . . . . . . . . . . . . . . . . . . . . . . . . 648
11.3.1 Exemplos de Aplicação do Método das Caracterı́sticas . . . . . . . . . . . . . 654
11.3.2 Caracterı́sticas. Comentários Adicionais . . . . . . . . . . . . . . . . . . . . . 669
11.4 Unicidade de Soluções de Equações Diferenciais Parciais . . . . . . . . . . 671
11.4.1 Casos Simples. Discussão Preliminar . . . . . . . . . . . . . . . . . . . . . . . 671
11.4.2 Unicidade de Soluções. Generalizações . . . . . . . . . . . . . . . . . . . . . . 678
11.5 Exercı́cios Adicionais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 686
N este capı́tulo apresentaremos uma breve introdução à teoria das equações diferenciais parciais.
Serão apresentados alguns métodos de resolução mais comummente empregados e alguns
teoremas de unicidade de solução de importância na justificativa daqueles métodos. Assim
como as equações diferenciais ordinárias, introduzidas no Capı́tulo 5, página 276, equações
diferenciais parciais são de grande importância nas Ciências Naturais por expressarem leis fı́sicas.
Ainda que tenham se desenvolvido em paralelo, a teoria das equações diferenciais ordinárias distingue-
se um tanto da teoria das equações diferenciais parciais, pois na segunda menos resultados gerais
são conhecidos e os métodos de resolução e de análise qualitativa são mais intrincados e limitados em
escopo. Por exemplo, não existem na teoria das equações diferenciais parciais resultados sobre existência
e unicidade de solução que sejam tão gerais quanto os Teoremas de Peano e de Picard-Lindelöf, válidos
para equações diferenciais ordinárias (vide Teorema 5.1, página 296 e Teorema 5.2, página 297). Uma
outra observação geral que deve ser feita sobre a teoria das equações diferenciais parciais é que nem
sempre encontram-se resultados válidos para equações de ordem arbitrária com um número arbitrário
de variáveis. Há mais resultados, e mais fortes, sobre equações envolvendo duas variáveis que mais de
duas variáveis e, igualmente, há mais e mais fortes resultados sobre equações de ordem um ou dois que
para equações de ordem três ou mais.
Alguns métodos de resolução de equações diferenciais parciais, como o método de separação de
variáveis e o método das caracterı́sticas, envolvem a resolução de equações diferenciais ordinárias e
vamos nos dedicar a eles aqui. Exemplos de aplicações poderão ser encontrados no Capı́tulo 10, página
583.
632
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 11 633/1461
A Seção 11.4, página 671, dedica-se a alguns teoremas de unicidade de solução, os quais são evocados
nos exemplos do Capı́tulo 10. A leitura da Seção 11.4 dispensa a leitura das seções precedentes.
Há uma vasta literatura sobre equações diferenciais parciais e nossas pretensões no presente capı́tulo
são infimamente modestas. Para um estudo mais completo recomendamos [30, 31], [74], [113], [48],
[39], [136], [36], [76].
Devido à freqüente ocorrência de derivadas parciais mistas na teoria das equações diferenciais par-
ciais é conveniente introduzir algumas notações simplificadoras. Um n-multi-ı́ndice, ou simplesmente
multi-ı́ndice, é uma n-upla α = (α1 , . . . , αn ) onde cada αk é um número inteiro maior ou igual a zero.
A ordem de um multi-ı́ndice α, denotada por |α|, é definida por |α| := α1 + · · · + αn .
Seja u um a função de n variáveis x1 , . . . , xn . Dado um multi-ı́ndice α, denotamos por D α u ou
por ∂ α u a derivada parcial mista de u univocamente definida por
∂ |α| u
D α u ≡ ∂ α u := ,
∂xα1 1 · · · ∂xαnn
sendo que, se 0 = (0, . . . , 0) for o multi-ı́ndice nulo, define-se D 0 u := u.
Neste texto denotaremos por Mnm o conjunto de todos os n-multi-ı́ndices de ordem menor ou igual
a m:
n o n o
Mnm := (α1 , . . . , αn ) ∈ Nn , 0 ≤ |α| ≤ m = (α1 , . . . , αn ) ∈ Nn , 0 ≤ α1 + · · · + αn ≤ m
(11.1)
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 11 634/1461
(n+m−1)!
O número de elementos do conjunto Nnm é denotado por |Nnm | e tem-se |Nnm| = n+m−1m
= (n−1)! m!
(vide Exercı́cio E. 9.9, página 516). Pelo Exercı́cio E. 9.10, página 517, tem-se também que |Mnm |, o
(n+m)!
número de elementos do conjunto Mnm , é dado por |Mnm | = n+m m
= n!m! .
É de se notar a validade da relação
D α D β = D α+β = D β D α ,
onde aα , α ∈ Mnm , são funções em princı́pio arbitrárias das variáveis x1 , . . . , xn , é dita ser um operador
diferencial linear de ordem m nas variáveis x1 , . . . , xn . Naturalmente só faz sentido, classicamente
falando, aplicar operadores diferenciais lineares de ordem m em funções m vezes diferenciáveis.
Como ilustração e para futura referência apresentemos uma breve lista de equações diferenciais
parciais de interesse. Abaixo, u é uma função de n variáveis reais x1 , . . . , xn , n ≥ 1, ou de n + 1
variáveis reais t, x1 , . . . , xn . Em muitas aplicações t representa o tempo e x1 , . . . , xn representa
coordenadas espaciais. Os sı́mbolos ∆ e ∇2 denotam o operador Laplaciano para as coordenadas
espaciais x1 , . . . , xn , que no caso de coordenadas Cartesianas se escreve:
∂2 ∂2
∆ ≡ ∇2 := + · · · + .
∂x21 ∂x2n
Equação de Laplace1
∆u = 0 .
1
Pierre-Simon Laplace (1749-1827).
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 11 635/1461
Equação de Poisson2 :
∆u = ρ ,
ρ sendo uma função não-nula (doutra forma recaı́mos na equação de Laplace).
Equação de Helmholtz3 :
∆u + k 2 u = 0 ,
onde k 2 é um parâmetro fixo ou um autovalor a ser fixado pela imposição de condições de contorno.
Equação de difusão ou Equação do calor (provavelmente proposta pela primeira vez por Fourier4 ):
∂u
− D∆u = φ ,
∂t
onde D é uma constante positiva e φ uma função, a qual pode ser identicamente nula.
∂2u ∂u
2
+γ − c2 ∆u = 0 ,
∂t ∂t
onde c > 0 e γ > 0 são constantes.
Equação do telégrafo:
∂2u ∂2u ∂u ∂u
α − β + γ + δ + ηu = 0 ,
∂t2 ∂x2 ∂t ∂x
onde α, β, γ, δ e η são constantes positivas.
Equação de Tricomi5:
∂2u ∂2u
− y = 0.
∂y 2 ∂x2
∂u ~2
i~ = − ∆u + V u ,
∂t 2m
onde u ≡ u(~x, t) é uma função de ~x e t, ~ (a constante de Planck) e m são constantes positivas,
e V ≡ V (~x, t) é uma função de ~x e t.
2
Siméon Denis Poisson (1781-1840).
3
Hermann Ludwig Ferdinand von Helmholtz (1821-1894).
4
Jean Baptiste Joseph Fourier (1768-1830).
5
Francesco Giacomo Tricomi (1897-1978).
6
Erwin Rudolf Josef Alexander Schrödinger (1887-1961).
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 11 636/1461
Assim como no caso de equações diferenciais ordinárias, algumas palavras devem ser ditas sobre a
noção de solução de uma equação diferencial parcial. Uma solução clássica de uma equação diferencial
parcial de ordem m em n variáveis em um domı́nio Ω ⊂ Rn (suposto conexo e de interior não-vazio) é
uma função m-vezes diferenciável que satisfaz a equação em todos os pontos do interior de Ω. Existem
também outras noções de solução, como a de solução fraca, de solução distribucional, de solução
estocástica etc. Discutiremos aqui apenas as soluções clássicas e, por isso, abusando um pouco da
linguagem, nos referiremos a elas simplesmente como “soluções”, sem pender o qualificativo “clássicas”.
Vide Figura 11.1, página 639. A corda está inicialmente em sua posição de repouso e é imprimida (por
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 11 639/1461
exemplo, por uma martelada) uma velocidade V0 > 0 aos pontos situados no intervalo [a, b], onde
0 < a < b < L.
u0(x) v (x)
0
U0
V0
x x
h L a b L
Além de condições de contorno e iniciais, há problemas que envolvem condições ditas condições
subsidiárias, que impõe outros tipos de restrições às soluções, por vezes de caráter global. Um caso
muito importante é o da equação de Schrödinger da Mecânica Quântica, R onde impõe-se a condição que
2 n
a solução deve ser de quadrado integrável, ou seja, deve satisfazer |u(~x, t)| d ~x < ∞ para todo t,
onde a integração é feita na região espacial onde o sistema está definido.
O fato importante é que as soluções de equações diferenciais parciais dependem crucialmente das
condições de contorno, iniciais ou subsidiárias impostas. Em verdade, a própria questão da existência
e/ou unicidade da solução dessas equações depende crucialmente daquelas condições. Vide Seção 11.4,
página 671.
• Problemas bem-postos
Um problema envolvendo a resolução de uma equação diferencial parcial é dito ser um problema
bem-posto caso se possa garantir: 1o existência de solução, 2o unicidade de solução, 3o continuidade
em relação a condições iniciais e de contorno (continuidade aqui entendida em relação a alguma to-
pologia conveniente). Esta noção foi introduzida por Hadamard12 ao listar propriedades que modelos
matemáticos de sistemas fı́sicos deveriam idealmente possuir, uma colocação, aliás, ingênua, pois em
Fı́sica pode haver também interesse por problemas mal-postos. É por vezes muito importante deter-
minar a priori se um problema de interesse é bom-posto mas, particularmente na Fı́sica, não apenas
problemas bem-postos atraem a atenção. A questão da boa-postura de certas equações diferencias par-
ciais é ainda assunto de pesquisa, especialmente no que concerne à questão de estabilidade de soluções
(continuidade em relação a condições inicias, de contorno e a parâmetros).
12
Jacques Salomon Hadamard (1865-1963). Vide J. Hadamard: “Sur les problèmes aux dérivées partielles et leur
signification physique”. Princeton University Bulletin, 49–52 (1902).
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 11 640/1461
Uma equação diferencial parcial para uma função u é dita ser linear se depender linearmente de u
e suas derivadas parciais. Por exemplo, a forma mais geral de uma equação linear de segunda ordem
nas variáveis x e t é
∂2u ∂2u ∂2u ∂u ∂u
a1 (x, t) 2
+ a2 (x, t) 2
+ a3 (x, t) + a4 (x, t) + a5 (x, t) + a6 (x, t)u = b(x, t) ,
∂x ∂t ∂x∂t ∂x ∂t
as funções ak , k = 1, . . . , 6, e b, acima, são em princı́pio arbitrárias, mas não contêm nenhuma
dependência em u, apenas nas variáveis x e t.
De modo geral, uma equação diferencial linear de ordem m em n variáveis x1 , . . . , xn é da forma
X
aα (x1 , . . . , xn ) D α u(x1 , . . . , xn ) = b(x1 , . . . , xn ) , (11.6)
α∈Mn
m
onde, usando a notação de multi-ı́ndices introduzida acima, aα , α ∈ Mnm , e b são funções em princı́pio
arbitrárias das variáveis x1 , . . . , xn (recordar a definição de Mnm em (11.1)).
Muito freqüentemente denotaremos uma equação diferencial linear por Lu = b, onde L é um ope-
rador diferencial linear, como definido acima.
Analogamente ao que ocorre para equações diferenciais ordinárias, uma equação linear Lu = b é dita
ser homogênea se a função b for identicamente nula e não-homogênea, caso contrário. Também como no
caso de equações ordinárias, vale para equações homogêneas o princı́pio de sobreposição: se u1 e u2 são
duas soluções de uma equação homogênea, então qualquer combinação linear γ1 u1 + γ2 u2 é igualmente
uma solução. Note-se que aqui não foram levadas em conta condições iniciais ou de contorno, que
podem limitar as combinações lineares possı́veis.
A parte de uma equação diferencial parcial que contém as derivadas de maior ordem é denominada
parte principal da equação. Por exemplo, a parte principal da equação linear de ordem m de (11.6) é
X
aα (x1 , . . . , xn ) D α u(x1 , . . . , xn )
α∈Nn
m
Uma equação diferencial é dita ser uma equação semi-linear se sua parte principal for um operador
linear. Assim, a forma geral de uma equação semi-linear de ordem m em n variáveis x = (x1 , . . . , xn )
é X
aα (x) D α u(x) = H(x, u, D β1 u, . . . , D βk u) ,
α∈Nn
m
onde x = (x1 , . . . , xn ) são as n variáveis das quais a função u depende e onde as funções b(u, x)
e ak (u, x), k = 1, . . . , n, são funções de x e de u, mas não de derivadas de u. A forma geral de
uma equação quase-linear de segunda ordem é (por simplicidade, mas sem perder em generalidade,
consideraremos apenas funções em duas variáveis: x e y):
sendo que ou A ou B não é identicamente nula (de modo que a equação seja de segunda ordem em
pelo menos uma das variáveis, mas não-necessariamente em ambas) a ser satisfeita por uma função
incógnita de duas variáveis u(x, y). Como claramente indicado acima, as funções A, C e E são funções
de uma única variável, a saber x, enquanto que B, D e F são funções de uma única variável, a saber
y. É preciso supor muito pouco sobre essas funções, por exemplo, que as mesmas são contı́nuas, mas
mesmo essa hipótese pode ser enfraquecida, o que ocorre em muitos exemplos de interesse (vide as
próximas seções). Por enquanto, deixemos de lado considerações sobre o domı́nio de validade D ⊂ R2
da equação acima e sobre condições de contorno e concentremo-nos em procurar soluções particulares
de (11.7).
O método de separação de variáveis consiste em procurar soluções particulares para a equação (11.7)
que sejam da forma u(x, y) = F(X(x), Y (y)) := X(x)Y (y). Antes de fazermos perguntas sobre a
aplicabilidade dessa idéia, vejamos a que a mesma conduz. Inserindo o Ansatz u(x, y) = X(x)Y (y) na
equação (11.7), obtem-se
A(x)X ′′ (x)Y (y) + B(y)X(x)Y ′′ (y) + C(x)X ′(x)Y (y) + D(y)X(x)Y ′ (y) + (E(x) + F (y))X(x)Y (y) = 0 .
Aqui, é de se observar que cada termo da expressão acima é função de uma única variável. Separando
os termos que dependem de cada variável em cada lado da igualdade, obtem-se da última expressão
X ′′ (x) X ′ (x) Y ′′ (y) Y ′ (y)
A(x) + C(x) + E(x) = − B(y) + D(y) + F (y) .
X(x) X(x) Y (y) Y (y)
Chegamos agora ao ponto crucial que justifica o que foi feito até aqui. Do lado esquerdo da igualdade
acima encontra-se uma função que depende apenas de x e do lado direito uma função apenas de y. Ora,
como ambas as variáveis são independentes, uma tal igualdade só é possı́vel se ambos os lados forem
iguais a uma mesma constante, que denotaremos por λ, a qual é denominada constante de separação.
Assim,
X ′′ (x) X ′ (x) Y ′′ (y) Y ′ (y)
A(x) + C(x) + E(x) = − B(y) + D(y) + F (y) = λ ,
X(x) X(x) Y (y) Y (y)
cada qual sendo uma equação diferencial ordinária. Ambas as equações podem agora, em princı́pio, ser
tratadas separadamente com os métodos de solução disponı́veis para equações diferenciais ordinárias
lineares como por exemplo, o método de expansão em série ou o método de Frobenius. É de se lembrar,
porém, que ambas as equações não são totalmente independentes, pois têm em comum a presença da
mesma constante de separação ainda indeterminada λ.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 11 644/1461
Uma pergunta que se coloca nesse momento é se a equação (11.7) é a forma mais geral de uma
equação linear de segunda ordem em duas variáveis para a qual o Ansatz u(x, y) = X(x)Y (y) conduz a
equações separadas para X e para Y . Não é do conhecimento do autor que sejam conhecidas condições
necessárias e suficientes para a separabilidade de equações diferenciais parciais lineares, de modo que a
forma da (11.7) é apenas uma condição suficiente para separabilidade. Um pouco de experimentação
(faça!) permite concluir que a separação dificilmente se dá caso haja na equação um termo com uma
∂2u
derivada mista ∂x∂y , ou se as funções A, B etc. não forem funções de uma única variável especificamente
como explicitado em (11.7), mas há exceções, como mostra o exemplo do Exercı́cio E. 11.3, abaixo.
Outrossim, não é do conhecimento do autor que tenham sido determinadas classes gerais de equações
diferenciais parciais não-lineares para as quais o método é de separação de variáveis seja eficaz. A
aplicabilidade desse método é, portanto, mais uma matéria de arte que de ciência, mas considerações
sobre simetrias são por vezes de grande utilidade (vide [12] e [112]). Alguns exemplos de aplicações
do método de separação de variáveis para equações diferenciais parciais não-lineares são discutidos na
Seção 11.2.2, adiante.
É de se notar, porém, que o método de separação de variáveis não se restringe a equações envolvendo
apenas duas variáveis, nem a equações de segunda ordem. Nosso interesse pelas equações de segunda
ordem provem do fato de que a grande maioria das equações diferenciais parciais encontrada na Fı́sica
é de segunda ordem.
E. 11.1 Exercı́cio. Encontre uma classe de equações diferencias parciais de primeira ordem lineares e
homogêneas em duas variáveis x e y para as quais o Ansatz u(x, y) = X(x)Y (y) conduz a equações
separadas para X e para Y . Obtenha essas equações. 6
E. 11.2 Exercı́cio. Encontre uma classe de equações diferencias parciais de terceira ordem lineares e
homogêneas em duas variáveis x e y para as quais o Ansatz u(x, y) = X(x)Y (y) conduz a equações
separadas para X e para Y . Obtenha essas equações. 6
∂2u ∂2u ∂u
A(x) 2
+ B(y) + (C(x) + D(y)) = 0 (11.10)
∂x ∂x∂y ∂x
permite separação de variáveis na forma u(x, y) = X(x)Y (y). Sugestão: substitua esse Ansatz na equação
e divida-a por X ′ (x)Y (y), obtendo, com uma constante de separação λ,
Outra sugestão é observar que a equação (11.10) pode ser reduzida a uma equação linear de primeira ordem
para ∂u
∂x
, a qual é separável. 6
O que determina a constante de separação λ? Em situações tı́picas ela é determinada pela imposição
de condições de contorno, ou de outras condições subsidiárias à solução, tais como que ela seja contı́nua,
ou que ela seja periódica, ou que ela seja limitada, ou que ela seja de quadrado integrável (o que
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 11 645/1461
tipicamente ocorre na Mecânica Quântica) etc. Os exemplos que se seguirão ilustrarão essas diversas
situações.
Um certo cuidado aqui é necessário. Para a imposição de condições de contorno ou subsidiárias às
soluções particulares da forma de um produto X(x)Y (y) é necessário que essas condições de contorno
possam ser expressas separadamente como condições sobre a dependência em x e sobre a dependência
em y. Geralmente14 , isso só é possı́vel se o domı́nio D de validade da equação (entenda-se, a região
onde o problema está definido) for um retângulo tal como {(x, y) ∈ R2 , 0 ≤ x ≤ L, 0 ≤ y ≤ M},
um disco {(x, y) ∈ R2 , 0 ≤ x ≤ L, 0 ≤ y ≤ 2π} com uma dependência periódica de perı́odo 2π
na variável y (que representaria um ângulo, em algum sistema de coordenadas) ou talvez um toro
{(x, y) ∈ R2 , 0 ≤ x ≤ 2π, 0 ≤ y ≤ 2π} com uma dependência periódica de perı́odo 2π em ambas
as variáveis. Os exemplos são os melhores mestres nessa discussão e vários deles são apresentados no
Capı́tulo 10, página 583.
Assim, mesmo que uma equação diferencial tenha a forma (11.7) o método de separação de variáveis
será ineficaz se as condições de contorno e subsidiárias não forem compatı́veis com soluções particulares
na forma de um produto.
Um fato importante observado na prática (vide os exemplos tratados no Capı́tulo 10, página 583)
é que já a imposição de algumas das condições de contorno ou subsidiárias fixa todos os valores
possı́veis para a constante de separação λ e, em muitos casos, esse conjunto de valores possı́veis é
um conjunto contável: {λn , n ∈ N}. Para cada uma dessas constantes λn haverá possivelmente duas
soluções independentes para a equação (11.8) e duas soluções independentes para a equação (11.9)
(pois são equações de segunda ordem15 ). Assim, para cada n ∈ N teremos associada uma cons-
(1) (2)
tante de separação λn , duas soluções linearmente independentes, Xn e Xn , para a equação (11.8)
(a solução geral sendo uma combinação linear de ambas) e duas soluções linearmente independen-
(1) (2)
tes, Yn e Yn , para a equação (11.9) (a solução geral sendo uma combinação linear de ambas). A
solução particular fornecida
pelo Ansatz u(x, y) = X(x)Y (y) assume assim, para cada n, a forma
(1) (2) (1) (2)
αn Xn (x) + βn Xn (x) γn Yn (y) + δn Yn (y) , onde αn , βn , γn e δn são constantes.
Como a equação (11.7) é linear e homogênea, e as condições de contorno são homogêneas, o princı́pio
de sobreposição se aplica e uma solução mais geral seria obtida somando-se as soluções obtidas para
cada n, ou seja, X
αn Xn(1) (x) + βn Xn(2) (x) γn Yn(1) (y) + δn Yn(2) (y) . (11.11)
n∈N
As constantes αn , βn , γn e δn devem ainda ser fixadas através das demais condições de contorno e
subsidiárias (que não aquelas que já foram usadas para fixar os λn ’s) e, após isso, é preciso também
demonstrar que a série (11.11) assim obtida converge.
Será, afinal, a expressão (11.11) a solução completa do problema, que resolve a equação diferencial
e satisfaz todas as condições de contorno e subsidiárias? Em muitos casos, a resposta é sim, o que
pode ser provado por teoremas que garantem a unicidade de soluções de certas equações diferenciais
que satisfaçam certas condições de contorno. Vide Seção 11.4, página, 671.
Como comentamos, e como ilustram os exemplos do Capı́tulo 10, página 583, o método de separação
14
Para um contra-exemplo, vide Exercı́cio E. 10.10, página 625.
15
Nada impede, porém, que se tenha A ≡ 0 ou B ≡ 0, em cujo caso uma das equações (11.8) ou (11.9) será de primeira
ordem. Tal ocorre, por exemplo, na equação de difusão. Vide página 584.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 11 646/1461
de variáveis delineado acima é feliz em resolver vários problemas envolvendo equações diferenciais
parciais lineares de interesse em Fı́sica. Todavia, o estudante não deve adquirir a falsa impressão
de que o método de separação de variáveis é o único método de solução disponı́vel para equações
diferenciais parciais. Muitos outros métodos são oferecidos na gigantesca literatura sobre o assunto
(vide para tal [30, 31] ou mesmo [160]), cada qual empregável em uma classe especı́fica de equações.
Para nos limitarmos a um único exemplo, citamos o chamado método das caracterı́sticas (vide Seção
11.3, página 648), que também permite a resolução de certas equações diferenciais parciais em termos
de equações diferenciais ordinárias. Boa parte do estudo de equações diferenciais parciais não é voltado
à procura de soluções para as equações, mas sim a análises qualitativas de propriedades das soluções.
Muitas vezes, advêm dessas análises informações úteis sobre o comportamento do sistema de interesse
que não são facilmente obtenı́veis diretamente das soluções, mesmo caso estas sejam conhecidas (vide
para tal [48], [39], [113], [30, 31]).
Na última igualdade, vemos que o lado esquerdo depende apenas de x e o direito apenas de y, sendo
ambos, portanto, iguais a uma mesma constante a2 . Obtemos, assim, o par de equações diferenciais
ordinárias desacopladas
(X ′ (x))2 = a2 e (Y ′ (y))2 = 1 − a2 ,
√
cujas soluções são X(x) = ax + b1 e Y (y) = ± 1 − a2 y + b2 , onde b1 e b2 são constantes arbitrárias.
Portanto, temos para (11.12) uma solução na forma
√
u(x, y) = ax ± 1 − a2 y + b ,
com b ≡ b1 + b2 .
O exemplo de acima é interessante pois exibe uma situação na qual o método de p separação de
variáveis não esgota a totalidade de soluções. Como é fácil constatar, u(x, y) = x2 + y 2 , para
(x, y) 6= (0, 0), é também uma solução da mesma equação. Além dessa há ainda muitas outras
soluções.
Os exercı́cios que seguem ilustram várias situações nas quais o método de separação de variáveis
pode ser aplicado.
E. 11.4 Exercı́cio. Aplique o método de separação de variáveis para encontrar uma solução para a equação
da Óptica Geométrica em três dimensões:
(∂x u)2 + (∂y u)2 + (∂z u)2 = 1 ,
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 11 647/1461
E. 11.5 Exercı́cio. De [31]. Aplique o método de separação de variáveis com a tentativa u(x, y) =
X(x) + Y (y) para a equação
f (x)(∂x u)2 + g(y)(∂y u)2 = a(x) + b(y) .
Obtem-se as soluções
Z s Z s
x y
a(ξ) + α b(η) − α
u(x, y) = dξ + dη + β ,
x0 f (ξ) y0 g(η)
onde α e β são constantes arbitrárias. 6
E. 11.6 Exercı́cio. Aplique o método de separação de variáveis para encontrar uma solução para equação
(∂x u)2 + (∂y u)2 = u .
Sugestão: tente u(x, y) = X(x) + Y (y). 6
E. 11.7 Exercı́cio. Aplique o método de separação de variáveis para encontrar uma solução para equação
(∂x u)2 + (∂y u)2 = u .
Sugestão: tente
(X(x) + Y (y) + γ)2
u(x, y) = F(X(x), Y (y)) = f (X(x) + Y (y)) = ,
4
onde f (z) = (z + γ)2 /4 é solução de (f ′ (z))2 = f (z). Acima, γ é uma constante arbitrária. 6
E. 11.8 Exercı́cio. Aplique o método de separação de variáveis para encontrar uma solução para a equação
(∂x u)2 + (∂y u)2 = u2 .
Sugestão: tente u(x, y) = X(x)Y (y). 6
E. 11.9 Exercı́cio. Aplique o método de separação de variáveis para encontrar uma solução para equação
(∂x u)2 + (∂y u)2 = u2 .
Sugestão: tente
u(x, y) = F(X(x), Y (y)) = f (X(x) + Y (y)) = exp ± X(x) + Y (y) + γ ,
E. 11.10 Exercı́cio. Aplique o método de separação de variáveis para encontrar uma solução para equação
Sugestão: tente
p
u(x, y) = F(X(x), Y (y)) = f (X(x) + Y (y)) = exp ±2 X(x) + Y (y) + γ ,
√
onde f (z) = exp(±2 z + γ) é solução de (f ′ (z))2 = z −1 (f (z))2 . Acima, γ é uma constante arbitrária. 6
E. 11.11 Exercı́cio. Aplique o método de separação de variáveis para encontrar uma solução para equação
Sugestão: tente
h p i 2−n
2
2
onde f (z) = ±(2 − n)z 1/2 + γ 2−n é solução de (f ′ (z))2 = z −1 (f (z))n . Acima, γ é uma constante
arbitrária. 6
E. 11.12 Exercı́cio. Generalizando as idéias de acima, aplique o método de separação de variáveis para
encontrar soluções para equação
(∂x u)m + (∂y u)m = un .
6
Seja com essas funções definida a equação diferencial parcial quase-linear de primeira ordem
n
X
ak x, u(x) uxk (x) = b x, u(x) , (11.13)
k=1
para uma função incógnita u(x) ≡ u(x1 , . . . , xn ) ∈ R. Note-se que as funções b(x, u(x)) e ak (x, u(x)),
k = 1, . . . , n, são funções de x e de u, mas não de derivadas de u.
Se u(x) é uma solução de (11.13) a aplicação E ∋ x 7→ (x, u(x)) ∈ T define uma superfı́cie
n-dimensional em T. Essa superfı́cie será denominada superfı́cie-solução (de (11.13)).
Como é bem conhecido, o vetor n + 1-dimensional dado por ux1 (x), . . . , uxn (x), −1 é um vetor
normal à superfı́cie-solução no ponto (x, u(x))16 . Com isso em mente, podemos interpretar (11.13)
como sendo a afirmação que o vetor n + 1-dimensional definido por
a1 x, u(x) , . . . , an x, u(x) , b x, u(x)
é tangente à superfı́cie-solução no ponto (x, u(x)). Essa interpretação geométrica terá significado no
que segue.
Vamos supor que a função u(x) satisfaça condições iniciais que fixam seu valor em alguma superfı́cie
n − 1 dimensional C de E. Assumiremos que na superfı́cie C tenha-se a condição inicial u(x) = u0 (x),
x ∈ C, onde u0 é uma função dada definida em C. A superfı́cie C é denominada superfı́cie de Cauchy.
O problema de resolver (11.13) com u fixada em C, como acima, é dito ser um problema de Cauchy.
Suporemos que C seja uma variedade, ou seja, que os pontos da superfı́cie C possam ser localmente
descritos por um conjunto de n − 1 parâmetros reais, que denotaremos por s2 , . . . , sn . Assim, os
pontos x = (x1 , . . . , xn ) de C são (localmente) descritos por n funções contı́nuas ψi , i = 1, . . . , n de
n − 1 variáveis:
x1 = ψ1 (s2 , . . . , sn ) , ..., xn = ψn (s2 , . . . , sn ) .
Denotando Ψ = (ψ1 , . . . , ψn ), escrevemos as relações acima como x = Ψ(s2 , . . . , sn ) para x ∈ C.
Em termos dos parâmetros s2 , . . . , sn que descrevem a superfı́cie de Cauchy C, a condição inicial
escreve-se u(Ψ(s2, . . . , sn )) = u0 (Ψ(s2 , . . . , sn )). Com um certo abuso de linguagem, escreveremos
u0 (Ψ(s2 , . . . , sn )) ≡ u0 (s2 , . . . , sn ).
Seja I um certo intervalo da retareal (compacto ou não). Uma curva L no espaço T definida por
I ∋ s1 7→ x1 (s1 ), . . . , xn (s1 ), U(s1 ) ∈ T é dita ser uma curva caracterı́stica da equação quase-linear
(11.13) se as funções x1 (s1 ), . . . , xn (s1 ) e U(s1 ) forem contı́nuas, diferenciáveis e satisfizerem o sistema
16
Recordando, para variações “infinitesimais” (dx1 , . . . , dxn ) tem-se du = ux1 (x)dx1 + · · · + uxn (x)dxn e, portanto, o
vetor ux1 (x), . . . , uxn (x), −1 é ortogonal aos vetores (dx1 , . . . , dxn , du), que são tangentes à superfı́cie-solução.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 11 650/1461
ẋ1 (s1 ) = a1 x(s1 ), U(s1 ) ,
..
.
ẋn (s1 ) = an x(s1 ), U(s1 ) , (11.14)
U̇ (s1 ) = b x(s1 ), U(s1 ) .
As curvas em E dadas por I ∋ s1 7→ (x1 (s1 ), . . . , xn (s1 )) ∈ E são denominadas curvas carac-
terı́sticas planas ou curvas caracterı́sticas base.
Como estudamos nos capı́tulos dedicados a equações diferenciais ordinárias, sob condições de con-
tinuidade para as funções b e ak pode-se garantir a existência ao menos local de soluções de (11.14).
Sob condições de diferenciabilidade, é possı́vel garantir também unicidade de soluções (11.14) para
problemas de valor inicial.
Seja u(x) uma solução dada de (11.13). Suponha que haja uma curva contı́nua e diferenciável,
definida no espaço E, parametrizada por s1 ∈ I e definida por n funções (x1 (s1 ), . . . , xn (s1 )) ≡ x(s1 )
com a propriedade que as que as funções xk (s1 ), k = 1, . . . , n, satisfaçam o sistema de n equações
diferenciais ordinárias
ẋ1 (s1 ) = a1 x(s1 ), u(x(s1 )) ,
.. (11.15)
.
ẋn (s1 ) = an x(s1 ), u(x(s1 )) .
Como estudamos nos capı́tulos dedicados a equações diferenciais ordinárias, sob condições de conti-
nuidade para as funções b e ak pode-se garantir a existência ao menos local de soluções de (11.15).
Sob condições de diferenciabilidade, é possı́vel garantir também inicidade de soluções de (11.15) para
problemas de valor inicial.
Pela regra da cadeia temos, naturalmente,
Xn Xn
d (11.13)
u(x(s1 )) = ẋk (s1 ) uxk (x(s1 )) = ak x(s1 ), u(x(s1 )) uxk (x(s1 )) = b x(s1 ), u(x(s1 )) ,
ds k=1 k=1
(11.16)
e concluı́mos que a curva em T definida por I ∋ s1 7→ x(s1 ), u(x(s1 )) ∈ T é uma curva caracterı́stica
da equação (11.13). De (11.15) e (11.16) vê-se que os vetores tangentes a essa curva caracterı́stica são
paralelos em cada ponto ao campo definido pelos vetores (a1 , . . . , an , b) e, portanto, essas curvas
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 11 651/1461
fazem cada curva caracterı́stica s1 7→ (x(s1 ), U(s1 )) ∈ T depender também dos n − 1 parâmetros
s2 , . . . , sn que fixam a condição inicial (11.18). Introduzindo a notação s ≡ (s1 , . . . , sn ) ∈ Rn ,
podemos escrever as funções xk (s1 ), k = 1, . . . , n, e U(s1 ) como funções de s1 e desses parâmetros:
e
U(s1 , . . . , sn ) = U(s) .
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 11 652/1461
T ∋ x(s1 = 0, s2 , . . . , sn ), U(s1 = 0, s2 , . . . , sn )
= x1 (s1 = 0, s2 , . . . , sn ), . . . , xn (s1 = 0, s2 , . . . , sn ), U(s1 = 0, s2 , . . . , sn )
= x(s1 = 0, s2 , . . . , sn ), u0 (s2 , . . . , sn ) . (11.20)
Se o Jacobiano ∂x ∂s
= ∂(x 1 , ..., xn )
∂(s1 , ..., sn )
não se anular, podemos inverter as n funções de (11.19) e escrever
os parâmetros s1 , . . . , sn em termos de x1 , . . . , xn :
Sob essa hipótese estamos supondo que as funções s → x(s) e x → s(x), definidas entre certos abertos
de Rn , são bijetoras, uma sendo a inversa da outra.
Com as escolhas descritas acima, cada curva caracterı́stica é fixada pelos parâmetros s2 , . . . , sn e
parametrizada pelo parâmetro s1 quando a curva é percorrida. Para s1 = 0 a curva inicia-se no ponto
de T dado em (11.20).
Com a introdução dos parâmetros s podemos reescrever as equações para as curvas caracterı́sticas
dadas em (11.14) trocando a derivada total em relação a s1 por uma derivada parcial (levando em
consideração, assim, a presença das outras variáveis s2 , . . . , sn ):
∂x1
(s) = a1 x(s), U(s) ,
∂s1
..
.
∂xn
(s) = an x(s), U(s) , (11.21)
∂s1
∂U
(s) = b x(s), U(s) .
∂s1
Vamos agora descrever de que forma o exposto acima pode ser empregado na resolução da equação
(11.13). Defina-se
u(x) := U(s(x)) ,
ou seja,
u(x1 , . . . , xn ) := U s1 (x1 , . . . , xn ), . . . , sn (x1 , . . . , xn ) .
Vamos provar que u assim definida é uma solução de (11.13) e satisfaz as condições iniciais desejadas.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 11 653/1461
n
X n
X
∂U ∂sj
= (s(x)) ak x, u(x) (x)
j=1
∂sj k=1
∂xk
n
X n
X
∂U ∂sj
= (s(x)) ak x, U(s(x)) (x)
j=1
∂sj k=1
∂xk
n
X n
X
(11.21) ∂U ∂xk ∂sj
= (s(x)) (s(x)) (x)
j=1
∂sj ∂s1 ∂xk
|k=1 {z }
∂sj
= ∂s1
= δj, 1
∂U
= (s(x))
∂s1
(11.21)
= b x(s(x)), U(s(x)) = b x, U(s(x))
= b x, u(x) ,
provando que u satisfaz (11.13), como querı́amos. É também claro que, na superfı́cie C,
u(Ψ(s2, . . . , sn )) = u x(s1 = 0, s2 , . . . , sn ) = U s x(s1 = 0, s2 , . . . , sn )
(11.20)
= U (s1 = 0, s2 , . . . , sn ) = u0 (s2 , . . . , sn ) , (11.22)
A aplicação do método das caracterı́sticas tem diversos pressupostos que vagamente delineamos na
discussão acima e algum comentário deve ser feito a respeito de certas patologias ou especialidades que
podem ocorrer quando de sua implementação.
Uma primeira observação é que a parametrização das curvas caracterı́sticas pelas coordenadas locais
da superfı́cie de Cauchy tem em muitos casos um significado apenas local. É bem conhecido que nem
sempre é possı́vel parametrizar globalmente uma superfı́cie com um único conjunto de coordenadas (tal
ocorre, por exemplo, no caso da esfera bidimensional S 2 ). Em tais casos, a parametrização deve ser
feita localmente, conduzindo a soluções definidas apenas localmente (as quais podem, eventualmente,
ter extensões globais, parametrizadas por outras coordenadas). Analogamente, a existência de uma
aplicação inversa de s 7→ x pode ser, muitas vezes, garantida apenas localmente.
Pode também ocorrer de a aplicação s 7→ x não possuir inversa, local ou globalmente. Nesse con-
texto, um fenômeno observado em certas equações não-lineares é o cruzamento de curvas caracterı́sticas,
conduzindo a uma ambigüidade de solução ou a soluções singulares (o fenômeno de ondas de choque,
observado em equações não-lineares como a equação de Burgers sem viscosidade, sendo um exemplo).
Outro fenômeno patológico se dá em situações nas quais existem regiões no espaço das variáveis x que
não são visitadas por curvas caracterı́sticas planas, levando a ambigüidades de solução nessas regiões
(ondas de rarefação). Tais situações são novamente observadas no caso de equações não-lineares, como
a equação de Burgers sem viscosidade.
Outras anomalias podem ocorrer no que concerne à relação entre as curvas caracterı́sticas planas e a
superfı́cie de Cauchy e a condição inicial. Pode, por exemplo, ocorrer de algumas curvas caracterı́sticas
planas não cruzarem a superfı́cie de Cauchy ou fazerem-no mais de uma vez. Ou pode ocorrer de
haver curvas caracterı́sticas planas contidas dentro de superfı́cies de Cauchy ou de serem tangentes
à mesma em alguns pontos. Ou ainda pode ocorrer de haver pontos da superfı́cie de Cauchy pelos
quais não passam curvas caracterı́sticas planas. Essas situações exigem cuidados especiais e, para seu
tratamento, pressupostos adicionais podem ter de ser feitos, mas a unicidade e mesmo a existência de
soluções podem ser perdidas.
Sob essas ressalvas, é pedagogicamente mais útil, no momento, estudar alguns exemplos de aplicação
do método das caracterı́sticas. Nos exemplos que apresentamos mais adiante, veremos situações em que
o método funciona sem máculas e situações em que diversas das patologias acima descritas manifestam-
se.
x2 = ψ2 (s2 ) = s2 com s2 ∈ R. A condição inicial para u nessa superfı́cie é u(x1 = 0, x2 ) = u0 (x2 ) para
alguma função u0 dada, que suporemos diferenciável.
Temos aqui n = 2, a1 (x, u(x)) = 1, a2 (x, u(x)) = (x1 )2 e b(x, u(x)) = −x2 u(x).
As equações (11.14) para as curvas caracterı́sticas são
x˙1 (s1 ) = 1 ,
(s1 )3
x2 (s1 , s2 ) = + s2 ,
3
(s1 )4
U(s1 , s2 ) = exp − − s1 s2 + γ .
12
A imposição U(0, s2 ) = u0 (x2 (0, s2 )) = u0 (s2 ) significa exp (γ) = u0 (s2 ). Portanto, temos
x1 (s1 , s2 ) = s1 , (11.24)
(s1 )3
x2 (s1 , s2 ) = + s2 , (11.25)
3
(s1 )4
U(s1 , s2 ) = exp − − s1 s2 u0 (s2 ) . (11.26)
12
Isso determina a expressão das curvas caracterı́sticas em termos dos parâmetros s1 e s2 . Fixar o
parâmetro s2 fixa uma curva caracterı́stica, a qual é percorrida fazendo-se variar o parâmetro s1 .
Como se vê, para cada curva caracterı́stica plana vale x2 = (x1 )3 /3 + s2 . As curvas caracterı́sticas
planas de (11.23) encontram-se desenhadas, para diversos valores de s2 , na Figura 11.2, página 656.
O próximo passo é inverter as relações (11.24)-(11.25), acima, e expressar s1 e s2 em termos de x1
e x2 . Para o Jacobiano dessa transformação temos
∂(x1 , x2 )
= 1,
∂(s1 , s2 )
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 11 656/1461
x2
0 x1
Figura 11.2: Curvas caracterı́sticas planas da equação (11.23) no plano x1 –x2 . A superfı́cie de Cauchy
C é eixo vertical x2 .
(verifique!) e a inversão é possı́vel para todos (x1 , x2 ) ∈ R2 . Como é fácil constatar, obtem-se
(x1 )3
s1 (x1 , x2 ) = x1 , s2 (x1 , x2 ) = x2 − .
3
A solução de (11.23) é, portanto, u(x1 , x2 ) = U s1 (x1 , x2 ), s2 (x1 , x2 ) , ou seja,
(x1 )4 (x1 )3
u(x1 , x2 ) = exp − x1 x2 u0 x2 − , (11.27)
4 3
como facilmente se calcula.
E. 11.13 Exercı́cio. Verifique explicitamente que (11.27) é de fato solução de (11.23) e satisfaz a condição
u(0, x2 ) = u0 (x2 ). 6
3
Como cada curva caracterı́stica é definida por x2 − (x31 ) = s2 , vemos de (11.27) (e também de
(11.26)) que o valor u0 (s2 )fixado para u na superfı́cie C propaga-se ao longo da caracterı́stica sendo
4
“corrigido” pelo fator exp (x41 ) − x1 x2 . Isso fornece uma certa intuição sobre o método, ao menos
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 11 657/1461
no caso de equações lineares, como (11.23): em equações como as de acima, as curvas caracterı́sticas
planas são as curvas ao longo das quais a “influência” da condição inicial se propaga a partir de cada
ponto da superfı́cie de Cauchy.
A solução (11.27) é uma solução clássica da equação diferencial (11.23) sob o pressuposto que u0
seja contı́nua e diferenciável. Se não o for, (11.27) representa uma solução fraca de (11.23). Se u0 for
descontı́nua em um ponto s2 , então vemos por (11.27) (e também de (11.26)) que essa descontinuidade
3
propaga-se no espaço ao longo da curva caracterı́stica fixada por s2 , ou seja ao longo da curva x2 − (x31 ) =
s2 . O mesmo se dá se a derivada u′0 for descontı́nua em s2 . Isso ilustra um fenômeno válido para
equações lineares como (11.23): a propagação de singularidades a partir de uma condição inicial se dá
ao longo de curvas caracterı́sticas. No caso de equações não-lineares, ensinam-nos inúmeros exemplos
e alguns teoremas gerais que a propagação de singularidades a partir de uma condição inicial pode ser
bem mais complexa. ◊
Vamos tratar agora de um exemplo bem mais simples, mas com o qual podemos identificar e discutir
alguns problemas do método das caracterı́sticas.
Exemplo 11.2 Consideremos u como uma função de duas variáveis (x1 , x2 ) ∈ R2 satisfazendo a
equação diferencial
ux1 (x1 , x2 ) = 0 . (11.28)
Naturalmente, a solução dessa equação é u(x1 , x2 ) = h(x2 ), para uma função h em princı́pio arbitrária,
a qual deve ser fixada por condições iniciais (vide abaixo). Como nesse caso a1 (x, u) = 1 e a2 (x, u) =
b(x, u) = 0, as equações (11.14) da curva caracterı́stica são
onde α, β e γ são constantes. Dessas expressões inferimos que as curvas caracterı́sticas planas é a
famı́lia de todas as retas paralelas ao eixo x1 .
De (11.30) observamos que, para a equação aqui discutida, U(s1 , s2 ) é constante ao longo das
curvas caracterı́sticas planas (pois U(s1 , s2 ) não depende de s1 ).
Vamos agora discutir a solução sob alguns tipos de condições iniciais.
Para a condição inicial em C fixamos, na parametrização acima, u(ψ1 (s2 ), ψ2 (s2 )) = u0 (s2 ), u0
sendo uma função dada.
Por (11.30) podemos adotar α = 0, β = s2 e γ = u0 (s2 ). Assim,
Para a condição inicial em C fixamos, na parametrização acima, u(ψ1 (s2 ), ψ2 (s2 )) = u0 (s2 ), u0
sendo uma função dada.
A especialidade desse problema é que a superfı́cie de Cauchy C é paralela ao eixo x1 e, portanto,
é uma das curvas caracterı́sticas planas do problema. O problema em questão é, portanto, um
problema de Cauchy caracterı́stico.
Por (11.30) podemos adotar α = s2 , β = 0 e γ = u0 (s2 ). Assim,
x1 (s1 , s2 ) = s1 + s2 , x2 (s1 , s2 ) = 0 , U(s1 , s2 ) = u0 (s2 ) , (11.32)
∂(x1 , x2 )
Claramente, para o Jacobiano da transformação (s1 , s2 ) 7→ (x1 , x2 ) tem-se ∂(s1 , s2 )
= 0 e não
existe a transformação inversa (x1 , x2 ) 7→ (s1 , s2 ) em nenhum ponto de R2 .
Já observamos que, para a equação aqui tratada, a função U(s1 , s2 ) é constante ao longo das
caracterı́sticas planas (pois independe de s1 , como se vê em (11.32)). Como nesse caso a própria
superfı́cie de Cauchy é uma curva caracterı́stica plana, concluı́mos que u0 deve ser constante.
Nesse caso, então, uma solução pode ser obtida para u, a saber, u(x1 , x2 ) = u0 , constante.
Percebe-se que nesse caso, no qual a superfı́cie de Cauchy é uma curva caracterı́stica plana, nem
sempre é possı́vel encontrar uma solução para o problema de valor inicial, somente em casos
especiais, a saber quando u0 for constante.
3. A superfı́cie de Cauchy C é a parábola (x2 )2 − x1 = 0, a qual podemos parametrizar como
n o
2 2
C = (x1 , x2 ) ∈ R , x1 = ψ1 (s2 ) = (s2 ) , x2 = ψ2 (s2 ) = s2 , s2 ∈ R .
Para a condição inicial em C fixamos, na parametrização acima, u(ψ1 (s2 ), ψ2 (s2 )) = u0 (s2 ), u0
sendo uma função dada.
Por (11.30) podemos adotar α = (s2 )2 , β = s2 e γ = u0 (s2 ). Assim,
x1 (s1 , s2 ) = s1 + (s2 )2 , x2 (s1 , s2 ) = s2 , U(s1 , s2 ) = u0 (s2 ) , (11.33)
Claramente, para o Jacobiano da transformação (s1 , s2 ) 7→ (x1 , x2 ) tem-se ∂(x 1 , x2 )
∂(s1 , s2 )
= 1 e a
2
transformação inversa existe em toda parte, sendo dada por s1 (x1 , x2 ) = x1 − (x2 ) , s2 (x1 , x2 ) =
x2 . Logo, a solução u é dada por
u(x1 , x2 ) = U(s1 (x1 , x2 ), s2 (x1 , x2 )) = u0 (x2 ) .
Para a condição inicial em C fixamos, na parametrização acima, u(ψ1 (s2 ), ψ2 (s2 )) = u0 (s2 ), u0
sendo uma função dada.
A especialidade desse problema é que as curvas caracterı́sticas planas cruzam a superfı́cie de
Cauchy duas vezes ou nenhuma vez, exceto curva caracterı́stica plana x2 ≡ 0, que é tangente à
√ (0, 0). De fato, a reta x2 ≡ β (usando a notação de (11.30)) cruza
superfı́cie de Cauchy no ponto
a parábola C nos pontos ± β caso β > 0 e em nenhum ponto se β < 0. Se β = 0 as duas curvas
se tangenciam no ponto (0, 0).
Por (11.30) podemos adotar α = s2 , β = (s2 )2 e γ = u0 (s2 ). Assim,
Note-se que ao parametrizarmos as curvas caracterı́sticas da forma feita acima, com o parâmetro
s2 da superfı́cie de Cauchy C, estamos excluindo as curvas caracterı́sticas com x2 < 0, pois, cla-
ramente x2 (s1 , s2 ) ≥ 0. Note-se também que, para cada s2 a curva caracterı́stica plana s1 7→
(x1 (s1 , s2 ), x2 (s1 , s2 )) coincide com a curva caracterı́stica plana s1 7→ (x1 (s1 , −s2 ), x2 (s1 , −s2 )),
pois ambas são linhas retas paralelas ao eixo x1 com x2 = (s2 )2 .
De acordo com as idéias gerais do método das caracterı́sticas, descritas acima, o valor de U
deve ser fixado pelo valor da função u0 no ponto em que cada curva caracterı́stica plana cruza a
superfı́cie de Cauchy. Para s2 6= 0 há dois desses pontos. Qual adotar? Como, para a equação
estudada, U é constante ao longo de cada curva caracterı́stica plana, concluı́mos que para s2 6= 0
a função U(s1 , s2 ) assume o mesmo valor nos dois pontos onde estas cruzam C. Ora, isso só é
possı́vel se u0 (s2 ) = u0 (−s2 ) para todo s2 ∈ R, ou seja, se u0 for uma função par. Caso contrário,
não existe solução para o problema.
Assumindo então que u0 é uma função par, podemos adotar U(s1 , s2 ) = u0 (s2 ), dando sentido à
última relação de (11.30). Podemos então passar à questão de determinar a solução u. Notemos
que a aplicação (s1 , s2 ) 7→ (x1 , x2 ) definida em (11.34) tem por imagem o semiplano x2 ≥ 0. Para
o Jacobiano dessa transformação tem-se ∂(x 1 , x2 )
∂(s1 , s2 )
= 2s2 e ao menos uma transformação inversa
existe, portanto, se s2 6= 0. De fato, tem-se
√ √
s1 (x1 , x2 ) = x1 − x2 , s2 (x1 , x2 ) = x2 , ∀ x1 ∈ R, x2 ≥ 0 , (11.35)
ou
√ √
s1 (x1 , x2 ) = x1 + x2 , s2 (x1 , x2 ) = − x2 , ∀ x1 ∈ R, x2 ≥ 0 . (11.36)
apenas de x2 . Naturalmente, se desejarmos soluções clássicas, essa função deve ser contı́nua e
diferenciável e, por exemplo, deve-se impor que a solução seja igual a u0 (0) em x2 = 0.
Resumindo, caso u0 não seja par não há solução para o problema e se o for a solução é
√
u0 ( x2 ) , x2 ≥ 0
u(x1 , x2 ) = ,
g(x2 ) , x2 < 0
◊
Exemplo 11.3 Considere-se a equação diferencial linear e homogênea
∂u ∂u
x1 (1 − x1 ) − (1 − 2x1 )x2 = 0, (11.37)
∂x1 ∂x2
para x ∈ [0, 1], t ≥ 0, com as condições de contorno u(x, 0) = 0 e u(0, t) = u(1, t) = 0. Nesse caso a
superfı́cie de Cauchy é C = V0 ∪ V2 ∪ H onde
n o
2
V0 = (x1 , x2 ) ∈ R , x1 = 0, x2 ≥ 0 ,
n o
2
V1 = (x1 , x2 ) ∈ R , x1 = 1, x2 ≥ 0 ,
n o
2
H = (x1 , x2 ) ∈ R , 0 ≤ x1 ≤ 1, x2 = 0 ,
ou seja, C é formada pela união as semi-retas que compõe a fronteira do retângulo semi-infinito R =
{(x1 , x2 ) ∈ R2 , x1 ∈ [0, 1] , x2 ≥ 0} onde a equação (11.37) está sendo considerada. Nesse caso a
função u0 é identicamente nula em C.
As equações que definem as curvas caracterı́sticas são
x˙1 (s1 ) = x1 (s1 ) 1 − x1 (s1 ) ,
U̇(s1 ) = 0 .
A primeira equação pode ser facilmente resolvida por integração (faça!), fornecendo
αes1
x1 (s1 ) = ,
1 + αes1
onde α é uma constante arbitrária. Inserindo isso na segunda equação, obtemos por integração (faça!)
a solução
(1 + αes1 )2
x2 (s1 ) = β ,
αes1
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 11 661/1461
onde β é uma constante arbitrária. Das expressões para x1 (s1 ) e x2 (s1 ) obtemos
x2 (s1 )x1 (s1 ) 1 − x1 (s1 ) = β .
Assim, as curvas caracterı́sticas planas são o lugar geométrico dos pontos (x1 , x2 ) ∈ R2 tais que
x2 x1 (1 − x1 ) = β para todo β ∈ R. A equação U̇ (s1 ) = 0 informa-nos que U é constante ao longo
das curvas caracterı́sticas planas e disso concluı́mos que u(x1 , x2 ) = f x2 x1 (1 − x1 ) é a solução
geral de (11.37) para qualquer função contı́nua e diferenciável f . Para fixar as condições de contorno
precisamos estudar como as curvas caracterı́sticas planas cruzam a superfı́cie de Cauchy C e aqui se
revela o interesse especial desse exemplo.
O fato interessante é que para β 6= 0 as curvas caracterı́sticas planas não cruzam C em nenhum
ponto. De fato, em C ou tem-se x1 = 0 ou x1 = 1 ou x2 = 0 e terı́amos x2 x1 (1 − x1 ) = 0, contradizendo
a condição β 6= 0. A Figura 11.3, página 662, mostra diversas curvas caracterı́sticas planas para
0 < x1 < 1 e para diversos valores de β > 0. Essas curvas são disjuntas duas a duas e sua união
coincide com o interior do retângulo R, tendo como envoltória a fronteira C. Porém, como dissemos,
essas curvas não cruzam a fronteira C e, portanto, nelas não é possı́vel fixar as condições de contorno.
Para β = 0 as curvas caracterı́sticas planas são três: uma sendo a linha reta x1 ≡ 0, a segunda sendo
a linha reta x1 ≡ 1 e a terceira sendo a linha reta x2 ≡ 0. Cada uma delas passa ao longo de uma dos
subconjuntos V0 , V1 ou H de C. Como U é constante ao longo das curvas caracterı́sticas planas, deve
anular-se ao longo dessas três linhas. Disso concluı́mos que para a solução u(x1 , x2 ) = f x2 x1 (1 − x1 )
a função f deve anular-se em zero, ou seja, f (0) = 0. Note-se que essa é a única restrição imposta à
função f pelas condições de contorno.
Concluı́mos que o problema considerado possui infinitas soluções, todas da forma u(x1 , x2 ) =
f x2 x1 (1 − x1 ) , onde f é uma função contı́nua e diferenciável em [0, ∞) satisfazendo f (0) = 0.
Se tivéssemos imposto condições de contorno não-homogêneas na superfı́cie de Cauchy C o problema
só possuirá soluções (infinitas delas) se essas condições forem constantes em C, de outra forma não é
possı́vel satisfazer a condição que U seja constante ao longo das três curvas caracterı́sticas planas que
passam por V0 , V1 ou H. Assim, para condições de contorno gerais, ou há infinitas soluções ou não há
nenhuma.
A Figura 11.4, página 663, mostra diversas curvas caracterı́sticas planas em todo o plano x1 -x2 para
diversos valores de α e β, positivos e negativos. ◊
Exemplo 11.4 [A equação de Burgers inviscı́vel e ondas de choque]. Vamos agora considerar
um exemplo de uma equação não-linear, a saber a equação de Burgers inviscı́vel17 (i.e., sem viscosidade)
(11.5): u ∂∂xu + ∂∂tu = 0, com uma condição inicial u(x, 0) = u0 (x).
Comummente a função u(x, t) é interpretada como representando a velocidade no ponto x e no
instante de tempo t de um fluido unidimensional. Vamos nos ater a essa interpretação no que segue.
Cada ponto do fluido se move com velocidade u e suporemos que nele não ajam quaisquer forças, quer
externas quer das outras partı́culas do fluido. A ausência de aceleração du
dt
= 0 implica, pela regra da
∂u dx ∂ u ∂u ∂u
cadeia, ∂t + dt ∂x = 0, ou seja, ∂t + u ∂x = 0. Essa é a forma mais simples de deduzir a equação
de Burgers inviscı́vel. Com essa interpretação em mente as curvas caracterı́sticas representam, como
veremos, a trajetória de cada partı́cula do fluido a partir de uma posição e velocidade inicial. Como
17
Essa equação coincide com a equação de Euler da Mecânica dos Fluidos, sem gradiente de pressão e forças externas.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 11 662/1461
x2
R
0 1 x1
Figura 11.3: As curvas caracterı́sticas no interior de R para diversos valores de β > 0. A superfı́cie de
Cauchy C é a fronteira de R, indicada por linhas grossas.
partı́culas situadas em pontos diferentes em t = 0 podem ter velocidades iniciais diferentes e movem-se
sem interagir umas com as outras, as mesmas podem se sobrepor em uma mesma posição em instantes
futuros. Essa é a origem das chamadas ondas de choque que veremos surgir formalmente no que segue.
A equação de Burgers inviscı́vel (11.5) é uma equação quase-linear (mas não-linear) com a1 (x, t, u) =
u, a2 (x, t, u) = 1 e b(x, t, u) = 0. A superfı́cie de Cauchy nesse caso é C := {(x, t) ∈ R2 : t ≡ 0} e
podemos parametrizá-la por
n o
C := (x, t) ∈ R2 : x = ψ1 (s2 ) = s2 , t = ψ2 (s2 ) ≡ 0 .
Como se vê, as curvas caracterı́sticas planas dependem da escolha da condição inicial u0.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 11 663/1461
x2
0 1 x1
Figura 11.4: As curvas caracterı́sticas em todo plano x1 -x2 para diversos valores de α e β, positivos e
negativos.
Essa função é contı́nua e tem derivada contı́nua em toda reta R. Seu gráfico é exibido na Figura 11.5,
página 664.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 11 664/1461
u0
1 x
Figura 11.5: A condição inicial u0 dada em (11.40) representa um perfil inicial de velocidades no
qual todo ponto do fluido situado em x < 0 move-se com velocidade 1. A velocidade decai a zero
continuamente (e diferenciavelmente) no intervalo 0 ≤ x ≤ 1 e é nula para x > 1. Dessa forma, todo
o ponto do fluido situado em x < 1 tem uma velocidade inicial positiva. Como vemos na solução da
equação de Burgers inviscı́vel, essa condição conduz ao aparecimento de uma onda de choque no fluido.
Para essa escolha de u0 as famı́lias de curvas caracterı́sticas planas são descritas por
s 1 + s 2 , s 1 , s1 ∈ R , s2 ≤ 0 ,
x(s1 , s2 ), t(s1 , s2 ) = (1 − (s 2 ) 2 2
) s 1 + s 2 , s 1 , s 1 ∈ R , 0 < s2 < 1 , .
s2 , s1 , s1 ∈ R , s2 ≥ 1 .
Essas relações implicam que, para cada s2 , vale x = u0 (s2 )t+s2 que, como dissemos descreve a trajetória
de uma partı́cula partindo da posição s2 movendo-se com velocidade constante u0 (s2 ). No plano x–t
essas curvas correspondem à famı́lia de linhas retas
t = x − s2 , x ∈ R , s2 ≤ 0 ,
x − s2
t = , x ∈ R , 0 < s2 < 1 ,
(1 − (s2 )2 )2
x = s2 , t∈R, s2 ≥ 1 ,
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 11 665/1461
tal como desenhadas na Figura 11.6, página 665. Nessa figura exibimos apenas o semi-plano t ≥ 0.
É importante recordar que, pela última equação de (11.38), U é constante ao longo de cada curva
caracterı́stica plana.
O fato mais notável observado na Figura 11.6 é a existência de regiões no plano x–t onde se
dá cruzamento das curvas caracterı́sticas planas18 . Nas regiões em que não ocorre cruzamento, u é
constante ao longo das caracterı́sticas planas e, portanto, é univocamente determinado pelo valor de
u0 no ponto em que cada caracterı́stica plana cruza o eixo x em t = 0. Nas regiões em que ocorre
cruzamento de curvas caracterı́sticas planas a aplicação (s1 , s2 ) 7→ (x, t) não é bijetora (pois a inversão
não é unı́voca) e, não havendo inversa, é de se esperar a existência de singularidades na solução. Na
Figura 11.7, página 666, é exibida a evolução temporal do perfil de velocidades u(x, t) para diversos
instantes de tempo após o instante inicial t = 0, quando foi fixada a condição inicial u0 (x) dada
em (11.40) e exibida na Figura 11.5. O surgimento de singularidades é notado na formação de uma
descontinuidade na função u como função de x. Esse fenômeno é denominado choque, em referência ao
18
É de se observar, também, que as curvas caracterı́sticas no espaço x–t–u não se cruzam.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 11 666/1461
fenômeno fisicamente conhecido das chamadas ondas de choque, e é sempre, matematicamente falando,
associado à ocorrência de cruzamento de curvas caracterı́sticas planas.
1
t0 t1 t2 t3 t4
1 x
Figura 11.7: Visão esquemática da evolução temporal do perfil de velocidades u(x, t) a partir da
condição inicial u0 (x). O perfil é mostrado acima em instantes de tempo 0 = t0 < t1 < t2 < t3 < t4 ,
movendo-se da esquerda para a direita. A presença de choque manifesta-se com a formação de uma
descontinuidade na função u como função de x. Acima, nas unidades consideradas, t3 = 1 (pois é 1 é o
tempo necessário para se percorrer uma distância de uma unidade com velocidade 1). Nesse instante
a descontinuidade assume o valor máximo.
E. 11.14 Exercı́cio. Estudando a Figura 11.6, convença-se da validade do quadro exibido na Figura 11.5,
que descreve a evolução temporal do sistema considerado. 6
x = s2 , t∈R, s2 ≤ 0 ,
t = x − s2 , x ∈ R , s2 > 0 ,
tal como desenhadas na Figura 11.8, página 667. Nessa figura exibimos apenas o semi-plano t ≥ 0.
É importante recordar que, pela última equação de (11.38), U é constante ao longo de cada curva
caracterı́stica plana.
t
u0= 0 0 u0= 1 x
Figura 11.8: Curvas caracterı́sticas planas para a equação de Burgers inviscı́vel com a condição inicial
u0 = 0 para x ≤ 0 e u0 = 1 para x > 0. Acima, exibimos apenas o semi-plano t ≥ 0. As retas do
lado esquerdo são verticais e as do lado direito têm inclinação 1. Observe que as curvas caracterı́sticas
planas não visitam a região t ≥ x com x > 0. Esse fenômeno é relacionado às chamadas ondas de
rarefação da Mecânica dos Fluidos.
O fato notável observado na Figura 11.8 é a ausência de curvas caracterı́sticas planas na região
t ≥ x com x > 0. Como U é constante ao longo de cada curva caracterı́stica plana concluı́mos que a
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 11 668/1461
sendo que a solução está indeterminada na região t ≥ x com x > 0 onde as curvas caracterı́sticas
planas estão ausentes e, portanto, não determinam a solução nessa região. Esse fenômeno da ausência
de curvas caracterı́sticas planas em uma região do espaço onde a solução é procurada é denominado
rarefação ou onda de rarefação. Nesse exemplo, a presença desse fenômeno é parcialmente devida à
descontinuidade da condição inicial (e ao fato de u0 ser não-decrescente).
Na região t ≥ x com x > 0 podemos adotar u(x, t) = 0, obtendo uma solução contı́nua exceto ao
longo da linha x = t. Podemos também adotar u(x, t) = 1, obtendo uma solução contı́nua exceto ao
longo da linha x = 0. Na mesma região é também possı́vel adotar a solução u(x, t) = x/t. É fácil
verificar que a função
0, x≤0, t≥0,
u(x, t) = x/t , x > 0 , t ≥ x ,
1, x>0, 0≤t<x,
assim obtida é solução fraca da equação de Burgers inviscı́vel e é contı́nua em todo semi-plano t > 0.
As diversas soluções mencionadas acima não são ditadas pelas condições iniciais e para justificá-las é
preciso acrescentar mais condições ao problema. Vide [135] ou [152] para uma discussão mais detalhada.
Para uma discussão fı́sica de fenômenos de rarefação, vide [89]. ◊
E. 11.17 Exercı́cio. Resolva a equação de Burgers inviscı́vel u ∂∂xu + ∂∂tu = 0, com uma condição inicial
u(x, 0) = u0 (x), sendo
0, x≤0,
2
u0 (x) = 1 − (1 − x)2 , 0 < x ≤ 1 , (11.41)
1, x>1.
Vide Figura 11.9, página 670. 6
u
0
0 1 x
Para a nova equação (11.42) as curvas caracterı́sticas seriam dadas pelo sistema (vide (11.21))
∂y1
(s) = A1 y(s), U(s) ,
∂s1
..
.
∂yn
(s) = An y(s), U(s) , (11.44)
∂s1
∂V
(s) = B y(s), U(s) .
∂s1
Expressando essas curvas em termos das coordenadas x teremos
Xn Xn
∂xl ∂xl ∂yj ∂xl
(s) = (s) = Aj y(s), U(s)
∂s1 j=1
∂yj ∂s1 j=1
∂yj
n
X n
X ∂xl ∂yj
= ak x(y(s)), v(y(s)) (s) = al x(y(s)), v(y(s))
j=1
∂yj ∂xk
k=1
| {z }
∂ xl
= ∂x
= δl, k
k
e
∂V
(s) = b x(y(s)), U(s) .
∂s1
Percebemos tratar-se do mesmo sistema de (11.21). A conclusão disso é que as curvas caracterı́sticas
de uma equação quase-linear de primeira ordem não dependem do particular sistema de coordenadas
usado para escrevê-la tendo, portanto, um carácter intrı́nseco.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 11 671/1461
Esse comentário justifica, aliás, o adjetivo “caracterı́sticas” para designar tais curvas. Em Ma-
temática esse qualificativo é utilizado para designar objetos que independem das coordenadas ou siste-
mas de referência usados para sua descrição (mais ou menos como, no jargão da Fı́sica, se emprega a
palavra “invariante”). Por exemplo, se M é uma matriz quadrada, o polinômio PM (x) := det(x1 − M)
é denominado polinômio caracterı́stico de M pois independe da base usada para descrever M. De fato,
PM (x) := det(x1 − M) = det(T −1 (x1 − M)T ) = det(x1 − (T −1 MT )) =: PT −1 M T (x) para qualquer
matriz invertı́vel T (lembrar que T −1 MT representa a transformação de M pela mudança de base
descrita por T ).
Retornando a (11.42), suponhamos que as novas coordenadas y coincidam com as coordenadas s
usadas para parametrizar as curvas caracterı́sticas de (11.13). Para (11.43) teremos, usando (11.21),
n
X n
X
∂yj ∂xk ∂sj ∂sj
Aj (s, v(s)) := ak x(s), v(s) (s) = (s) (s) = = δj, 1
∂xk ∂s1 ∂xk ∂s1
k=1 k=1
A proposição que segue apresenta condições que garantem unicidade para as soluções da equação
de difusão a coeficientes constantes definida em um intervalo finito da reta sob certas condições iniciais
e de contorno.
Proposição 11.1 Considere a equação diferencial
∂u ∂2u
− K 2 = F (x, t) , (11.46)
∂t ∂x
com K > 0 constante, e F é uma função dada (em princı́pio arbitrária). Acima, x ∈ [0, L] para algum
L > 0 e t ≥ 0. As condições iniciais são
onde u0 : [0, L] → R é uma função arbitrária. Considere os seguintes tipos de condições de contorno.
I. Condições de Dirichlet:
u(0, t) = f1 (t), u(L, t) = f2 (t) .
∂u ∂u
(0, t) = f3 (t), (L, t) = f4 (t) .
∂x ∂x
A proposição acima garante unicidade da solução para qualquer função F (x, t) e quaisquer funções
fi , mas não garante a existência de soluções. Para garantir existência e exibir uma solução (por exemplo
em termos de séries de Fourier) é preciso ser mais restritivo quanto à função F e às funções fi . A de-
monstração da Proposição 11.1 é apresentada na forma do exercı́cio dirigido que segue. Generalizações
encontram-se na Proposição 11.5, página 678, e a Proposição 11.6, página 682.
E. 11.18 Exercı́cio. Prova da Proposição 11.1. Para demonstrar a unicidade de solução da equação
diferencial (11.46) sob as condições acima procede-se da seguinte forma. Suponha que haja duas soluções u
e v da equação acima, ambas satisfazendo as mesmas condições de contorno e as mesmas condições iniciais.
Defina w(x, t) := u(x, t) − v(x, t). Desejamos mostrar que w = 0, implicando que as duas soluções u e
v são em verdade iguais.
∂w ∂2w
−K = 0. (11.48)
∂t ∂x2
∂w ∂w
(0, t) = 0, (L, t) = 0 , (11.50)
∂x ∂x
no caso de condições de Neumann.
d. Defina Z L
E(t) = (w(x, t))2 dx .
0
f. Mostre, diferenciando dentro da integral, usando integração por partes e usando a equação diferencial
(11.48), que
Z L 2
′ ∂w ∂w ∂w
E (t) = −2K dx + 2K w(L, t) (L, t) − w(0, t) (0, t) .
0 ∂x ∂x ∂x
g. Conclua que 2
Z L
′ ∂w
E (t) = −2K dx
0 ∂x
supondo as condições de contorno (11.49) ou (11.50) para w. Conclua que, sob essas condições,
E ′ (t) ≤ 0 para todo t.
Uma das razões de expormos os passos acima de forma tão detalhada é pedagógica: esses passos são
seguidos, nem sempre com a mesma trivialidade, em outras demonstrações de teoremas de unicidade
de soluções de equações diferenciais parciais. Para teoremas de unicidade válidos em generalizações da
equação de difusão vide, por exemplo, a Proposição 11.5, página 678, e a Proposição 11.6, página 682.
Podemos generalizar um pouco a proposição acima, mas apenas para condições de Dirichlet. Isso é
o conteúdo da proposição que segue.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 11 674/1461
Prova. A prova segue os mesmos passos descritos no Exercı́cio E. 11.18, mas agora
Z L 2
′ ∂w ∂w ∂w
E (t) = −2K dx + 2K w(L, t) (L, t) − w(0, t) (0, t) + α w(L, t)2 − w(0, t)2 .
0 ∂x ∂x ∂x
Porém, os dois últimos termos são nulos, em função das condições de Dirichlet, e obtemos a mesma
expressão para E ′ (t) que no caso do Exercı́cio E. 11.18.
Vamos agora considerar outra equação importante em Fı́sica, a equação de ondas. A proposição que
segue apresenta condições que garantem unicidade para as soluções da equação de ondas a coeficientes
constantes definida em um intervalo finito da reta sob certas condições iniciais e de contorno.
Proposição 11.3 Considere a equação diferencial
∂2u 2
2 ∂ u ∂u
− c + γ = F (x, t) (11.53)
∂t2 ∂x2 ∂t
com c > 0, γ ≥ 0, constantes, sendo F uma função dada (em princı́pio arbitrária). Acima, x ∈ [0, L]
para algum L > 0 e t ≥ 0. As condições iniciais são
∂u
u(x, 0) = u0 (x), (x, 0) = v0 (x) , (11.54)
∂t
onde u0 , v0 : [0, L] → R são igualmente funções arbitrárias. Para as condições de contorno, conside-
ramos
I. Condições de Dirichlet:
u(0, t) = f1 (t), u(L, t) = f2 (t) .
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 11 675/1461
∂u ∂u
(0, t) = f3 (t), (L, t) = f4 (t) .
∂x ∂x
A proposição acima garante unicidade da solução para qualquer função F (x, t) e quaisquer funções
fi , mas não garante a existência de soluções. Para garantir existência e exibir uma solução (por
exemplo em termos de séries de Fourier) é preciso ser mais restritivo quanto à função F e às funções
fi . A proposição acima pode ser bastante generalizada. Isso é apresentado na Proposição 11.7, página
683.
E. 11.19 Exercı́cio. Prova da Proposição 11.3. Para demonstrar a unicidade de solução da equação
diferencial sob as condições acima proceda da seguinte forma: suponha que haja duas soluções u e v da
equação acima, ambas satisfazendo as mesmas condições de contorno e as mesmas condições iniciais. Defina
w(x, t) = u(x, t) − v(x, t). Desejamos mostrar que w = 0, implicando que as duas soluções u e v são,
em verdade, iguais.
∂w ∂w (11.56)
(0, t) = 0, (L, t) = 0
∂x ∂x
no caso de condições de Neumann.
d. Defina Z " 2 2 #
L
∂w ∂w
E(t) = + c2 dx .
0 ∂t ∂x
Mostre que E(t) ≥ 0 para todo t. (Trivial).
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 11 676/1461
Para a integração por partes é preciso usar as condições de contorno (11.55) ou (11.56) para w.
i. Conclua daı́ que w(x, t) é uma constante, ou seja, não depende de x e t. Disso, conclua pela condição
inicial w(x, 0) = 0 que w é identicamente nula.
1. Condição de Dirichlet. Para todo ~x ∈ ∂R vale φ(~x) = f (~x), para uma função f dada.
∂φ
2. Condição de Neumann.
Para todo ~x ∈ ∂R vale ∂n (~x) = g(~x), para uma função g dada, onde
∂φ ~ x) · ~n(~x) é a chamada derivada normal de φ em ~x ∈ ∂R, ~n(~x) sendo um versor
(~x) := ∇φ(~
∂n
normal a ∂R em ~x ∈ ∂R, apontando para fora de R.
∂φ
3. Condição mista. Para todo ~x ∈ ∂R vale φ(~x) + a(~x) ∂n (~x) = h(~x), onde h é uma função dada
e a é contı́nua por partes, não-identicamente nula e não-negativa, ou seja, a(~x) ≥ 0 para todo
~x ∈ ∂R.
19
Siméon Denis Poisson (1781-1840).
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 11 677/1461
Então, no caso de uma condição de Dirichlet ou mista a solução é única, se existir, e no caso de
uma condição de Neumann a solução é única a menos de uma constante aditiva, se existir.
Mutatis mutantis, as afirmações acima são também válidas em duas dimensões, ou mesmo em
quatro ou mais dimensões. 2
Prova. Vamos supor que haja duas soluções u e v da equação ∆φ(~x) = ρ(~x) em R, ambas satisfazendo
a mesma condição de contorno, de Dirichlet, de Neumann ou mista, em ∂R. Então, a função w := u −v
obviamente satisfaz ∆w = 0 em R e uma das seguintes condições de contorno homogêneas:
Considere-se a quantidade Z 2
U := ~
∇w(~x) d3~x .
R
2 2
É evidente pela definição que U ≥ 0. Como ∇ · w ∇w ~ ~
= ∇w + w∆w = ∇w ~ (pois ∆w = 0),
temos, pelo Teorema de Gauss,
Z {
~ 3 Gauss ∂w
U = ∇ · w ∇w (~x) d ~x = w(~x) (~x) dσ(~x) , (11.57)
R ∂n
∂R
Sob a luz das Proposições 11.1, 11.2, 11.3, 11.4, 11.5 e 11.6 (páginas 672, 674, 674, 676, 678, e
682, respectivamente), o estudante não deve ser levado a pensar que a unicidade seja uma propriedade
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 11 678/1461
comum a todas as equações diferenciais parciais lineares com as condições iniciais e de contorno como
as que tratamos. Vejamos um contra-exemplo.
A proposição que segue estabelece unicidade de solução para uma forma bastante geral da equação
de difusão definida em um conjunto limitado e conexo D de Rn , para todo n ≥ 1, sob certas condições
iniciais e certas condições de contorno, que podem ser do tipo de Dirichlet20 , de Neumann21 ou mistas
(vide abaixo), generalizando assim a Proposição 11.1, da página 672.
Proposição 11.5 Consideremos para uma função real u a equação diferencial linear, denominada
equação de difusão, dada por
∂u
~ · κ(~x, t)∇u(~
γ(~x) (~x, t) − ∇ ~ x, t) + η(~x)u(~x, t) = ϕ(~x, t) , (11.58)
∂t
definida para ~x em um conjunto não-vazio, aberto, conexo e limitado D ⊂ Rn , n ≥ 1.
Suporemos que γ e η são contı́nuas por partes com γ(~x) ≥ 0 e η(~x) ≥ 0, ambas podendo se anular
apenas em um conjunto de medida nula. Suporemos também que κ é contı́nua e diferenciável e que
κ(~x, t) ≥ 0.
Denotaremos por D o fecho de D (que é compacto, pois D é limitado) e denotaremos por ∂D = D\D
a fronteira de D. Acima, ϕ(~x, t) é uma função real dada de ~x e t que, se não nula, faz de (11.58) uma
equação não-homogênea. Sobre a região D, suporemos ainda que ∂D seja diferenciável e orientável, de
20
Johann Peter Gustav Lejeune Dirichlet (1805-1859).
21
Carl Neumann (1832-1925).
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 11 679/1461
modo que em qualquer ponto ~x de ∂D possamos definir o versor (vetor de comprimento 1) ~n(~x) normal
à ∂D no ponto ~x e apontando para fora de D.
Iremos supor que a função u esteja submetida a condições iniciais que fixam seu valor em t = 0:
∀~x ∈ D, onde a função real u0 é um dado do problema (denominado dado de Cauchy). Além disso,
iremos supor que u(~x, t) esteja submetida a condições na fronteira ∂D, as chamadas condições de
contorno. Trataremos dos seguintes tipos de condições de contorno:
I. Condições de Dirichlet:
u(~x, t) = φ(~x, t)
para todo ~x ∈ ∂D e todo t ≥ 0, φ(~x, t) sendo uma função real dada.
III. Condições mistas: para uma função contı́nua α(~x, t) ≥ 0, definida em ∂D para todo t ≥ 0,
tem-se
∂u
u(~x, t) + α(~x, t) (~x, t) = χ(~x, t)
∂n
para todo ~x ∈ ∂D e todo t ≥ 0, χ(~x, t) sendo uma função real dada.
Então, para cada uma das condições de contorno descritas acima, a solução do problema de Cauchy
de determinar a solução (11.58) para as condições iniciais (11.59) é única, caso exista. 2
Vide também a Proposição 11.6 para uma generalização. Antes de passarmos à demonstração da
Proposição 11.5, façamos alguns comentários.
O leitor deve ter notado que no enunciado da Proposição 11.5 não são feitas restrições às funções
ϕ, φ, ψ e χ, acima, pois, de fato, restrições não são necessárias para garantir-se unicidade. Para uma
prova de existência de solução, porém, certamente são necessárias restrições a essas funções, tais como
continuidade por partes etc. Não trataremos de condições gerais de existência aqui.
Na Proposição 11.5, acima, a região D é limitada e conexa. O estudante pode perguntar-se o que
ocorre com a questão da unicidade se considerarmos a equação de difusão, equação (11.58), em regiões
abertas, conexas, mas não-limitadas, como Rn , por exemplo. Nesse caso, tem-se que considerar outras
condições de contorno no infinito e os métodos de demonstração abaixo não funcionam. Sob condições
convenientes, é possı́vel demonstrar unicidade de solução, mas algumas surpresas interessantı́ssimas
ocorrem. Vide para tal a fascinante discussão de [84], especialmente seus capı́tulos 67 e 68.
A equação (11.58) pode ser interpretada como a equação de difusão de calor sem convecção em um
meio homogêneo de constante de difusão κ(~x, t), a função u(~x, t) representando a temperatura do
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 11 680/1461
meio no ponto ~x no instante t. Nessa interpretação, para o caso em que para η e ϕ são identicamente
nulas, a equação (11.58) é uma representação matemática de uma lei fı́sica denominada Lei de Fourier22
do transporte de calor. Vide [36]. A Lei de Fourier foi originalmente obtida experimentalmente e é até
hoje um problema de pesquisa demonstrá-la teoricamente a partir de primeiros princı́pios usando os
métodos da Mecânica Estatı́stica, especialmente no caso quântico. O termo ϕ(~x, t) tem a interpretação
de uma fonte de calor externa e o termo η(~x, t)u(~x, t) com η ≥ 0 representa uma dissipação de calor,
por exemplo, por emissão de radiação.
As três condições de contorno listadas acima manifestam condições fı́sicas às quais o sistema definido
em D se submete em seu contorno ∂D. Consideremos a interpretação de (11.58) como a equação de
difusão de calor sem convecção em um meio homogêneo. Fisicamente mais precisas são as condições
∂u
mistas, que afirmam que para o fluxo de calor (para fora de D) por unidade de área, − ∂n (~x, t), vale
∂u 1
− ∂n (~x, t) = α(~x, t) (u(~x, t) − χ(~x, t)). De acordo com a Lei de Fourier do transporte de calor (vide
[36]), isso diz-nos que em cada ponto ~x ∈ ∂D o calor flui do sistema à temperatura u(~x, t) para um
banho térmico externo à temperatura χ(~x, t), através da superfı́cie de contacto cuja constante de
difusão é α(~x, t), a qual dependente do contacto entre o sistema e o meio, do material que os compõe
etc., e por isso pode depender de ~x e t. As condições de Dirichlet significam que cada ponto de ~x de
∂D está em contacto com um banho térmico à temperatura φ(~x, t) que difunde calor perfeitamente ao
sistema nos pontos de contacto, ou seja, vale a aproximar por zero a constante de difusão de contacto α
(o que é uma boa aproximação no caso de contactos metálicos). As condições de Neumann significam
∂u
que, cada ponto de ~x de ∂D, o fluxo de calor (para fora de D) por unidade de área, − ∂n , é fixado em
ψ(~x, t). Tal se dá, por exemplo, se u for desprezı́vel face à temperatura do meio externo, em cujo caso
terı́amos, comparando com o caso das condições mistas, −ψ = χ/α. Um caso comum é aquele em que
ψ é nula, o que corresponde a colocar o sistema em contacto com um isolante térmico perfeito, ou seja,
para o qual α é próximo ao infinito.
Prova da Proposição 11.5. Afirmamos que sob as condições descritas na proposição, a solução de
(11.58) é única, caso exista. Para tal, vamos supor que u e v sejam duas soluções reais de (11.58), ambas
satisfazendo as mesmas condições iniciais e as mesmas condições de contorno, quer sejam de Dirichlet, de
Neumann ou mistas, descritas acima. Consideremos a função w definida por w(~x, t) := u(~x, t)−v(~x, t).
Como (11.58) é linear, é fácil constatar que w satisfaz a equação homogênea
∂w
γ(~x) ~ · κ(~x, t)∇w(~
(~x, t) − ∇ ~ x, t) + η(~x)w(~x, t) = 0 , (11.60)
∂t
para todo ~x ∈ D e todo t ≥ 0, assim como a condição inicial w(~x, 0) = 0, ∀~x ∈ D. Quanto às condições
de contorno teremos, para o caso de condições de Dirichlet, w(~x, t) = 0 para todo ~x ∈ ∂D e todo t ≥ 0.
Para o caso de condições de Neumann, ∂w ∂n
(~x, t) = 0 para todo ~x ∈ ∂D e todo t ≥ 0. Para o caso de
∂w
condições mistas, w(~x, t) + α(~x, t) ∂n (~x, t) = 0 para todo ~x ∈ ∂D e todo t ≥ 0.
Desejamos mostrar que w é identicamente nula, o que prova que u e v são idênticas, estabelecendo
unicidade de solução sob as condições mencionadas. Para tal, consideremos a expressão
Z Z t Z
2 n
′ 2 n
A(t) = γ(~x) w(~x, t) d ~x + 2 η(~x) w(~x, t ) d ~x dt′ . (11.61)
D 0 D
22
Jean Baptiste Joseph Fourier (1768-1830). Os trabalhos de Fourier na resolução da equação de difusão de calor em
uma dimensão o conduziram às chamadas séries de Fourier.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 11 681/1461
É evidente que A(t) ≥ 0 para todo t ≥ 0. Tem-se, porém, A(0) = 0, pois em t = 0 a função w anula-se
(pela condição inicial para w). Como w é diferenciável em relação a t, podemos calcular a derivada
d
dt
A(t) por
Z Z
dA ∂ 2 n 2
(t) = γ(~x) w(~x, t) d ~x + 2 η(~x) w(~x, t) dn~x
dt D ∂t D
Z Z
∂w n
2
= 2 w(~x, t)γ(~x) (~x, t) d ~x + 2 η(~x) w(~x, t) dn~x
D ∂t D
Z h i Z
(11.60) 2
= 2 ~ ~ n
w(~x, t) ∇ · κ(~x, t)∇w(~x, t) − η(~x)w(~x, t) d ~x + 2 η(~x) w(~x, t) dn~x
D D
Z
= 2 ~ · κ(~x, t)∇w(~
w(~x, t) ∇ ~ x, t) dn~x
D
Z Z 2
= 2 ~ ~ n
∇ · κ(~x, t) w ∇w d ~x − ~ n
κ(~x, t) ∇w d ~x
D D
Z Z 2
Gauss ∂w ~ n
= 2 κ(~x, t)w ds(~x) − κ(~x, t) ∇w d ~x ,
∂D ∂n D
onde ds(~x)Zé a medida de integração n−1 dimensional em ∂D. Agora, no caso de condições de Dirichlet,
∂w
a integral κ(~x, t) w ds(~x) anula-se pois w anula-se em ∂D, o mesmo se sucedendo no caso de
∂D ∂n
condições de Neumann, quando ∂w ∂n
anula-se em ∂D. Concluı́mos que em ambos os casos
Z 2
dA ~
(t) = −2 κ(~x, t) ∇w dn~x . (11.62)
dt D
Ora, como κ(~x, t) ≥ 0 e α(~x, t) ≥ 0 , o lado direito de (11.62) e de (11.63) são ambos claramente
menores ou iguais a zero. Porém, como A(0) = 0, se a derivada dA dt
(t) fosse negativa para algum t ≥ 0,
a função A assumiria valores negativos, o que é impossı́vel pois, como observamos, A(t) ≥ 0 para todo
t ≥ 0. Logo, devemos ter dA dt
(t) = 0 para todo t, ou seja, A é constante. Mas como A(0) = 0, vale
A(t) = 0 para todo t ≥ 0. Sendo A(t) dada em (11.61) como a somaZ de duas integrais maiores ou
2
iguais a zero, isso implica que ambas se anulam, ou seja, em particular, γ(~x) w(~x, t) dn~x = 0 para
D
todo t ≥ 0. Como w é contı́nua e γ(~x) se anula apenas em um conjunto de medida nula, isso implica
que w é identicamente nula em todo D, para todo t ≥ 0, para a condição inicial e para cada uma das
condições de contorno consideradas, que é o que querı́amos mostrar.
Uma idéia semelhante à da demonstração acima será seguida quando tratarmos da equação que
descreve vibrações em meios elásticos na Proposição 11.7, página 683. A Proposição 11.5 pode ser
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 11 682/1461
estendida, sob certas condições, como mostra a seguinte proposição, que generaliza a Proposição 11.2
da página 674.
Proposição 11.6 Consideremos para uma função real u a equação diferencial linear dada por
∂u
~ ~ ~ x, t) · ∇u(~
γ(~x) (~x, t) − ∇ · κ(~x, t)∇u(~x, t) − θ(~ ~ x, t) + η(~x)u(~x, t) = ϕ(~x, t) , (11.64)
∂t
definida sob as mesmas hipóteses da Proposição 11.5, mas assumindo ainda que θ~ é continuamente
~ · ~θ(~x, t) ≥ 0 para todo ~x ∈ D e t ≥ 0. Seja u submetida a condições iniciais que
diferenciável e ∇
fixam seu valor em t = 0:
u(~x, 0) = u0 (~x) , (11.65)
∀~x ∈ D, onde a função real u0 é um dado do problema (denominado dado de Cauchy) e a condições de
contorno do tipo de Dirichlet na fronteira ∂D:
u(~x, t) = φ(~x, t)
O leitor deve notar que a equação diferencial (11.64) difere de (11.58) pela introdução do termo
contendo o campo ~θ, sendo que supomos que o divergente desse campo seja maior ou igual a zero em D.
É de se notar também o fato de a proposição limitar-se a condições de contorno do tipo de Dirichlet.
Prova. A prova segue os mesmos passos do caso da Proposição 11.5, mas obtem-se agora
Z 2 Z Z
dA ~
(t) = −2 ~ n
κ(~x, t) ∇w d ~x − ~ 2 n
∇ · θ w d ~x + w 2 ~θ · ~n(~x) ds(~x) , (11.66)
dt D D ∂D
em lugar de (11.62). A integral sobre ∂D é nula sob condições de Dirichlet, pois para elas w anula-se na
~ · ~θ ≥ 0, obtem-se novamente dA (t) ≤ 0 sob condições de Dirichlet23 , conduzindo
fronteira. Assim, se ∇ dt
às mesmas conclusões que no caso da Proposição 11.5.
A proposição que segue estende os resultados de unicidade que obtivemos para a equação de difusão
na Proposição 11.5, acima, para uma forma bastante geral da equação que descreve vibrações em meios
elásticos, definida em um conjunto limitado e conexo D de Rn , para todo n ≥ 1, sob certas condições
iniciais e certas condições de contorno, que podem ser do tipo de Dirichlet, de Neumann ou mistas. Um
caso particular importante é a equação de ondas, de grande relevância em Fı́sica, tratado na Proposição
11.3 da página 674 no caso unidimensional.
23
O leitor poderia pensar que poderı́amos incluir condições mistas de contorno e ainda obter dA
dt (t) ≤ 0 em (11.66) se
~ ~ ~
adicionalmente supuséssemos que θ · ~n(~x) ≤ 0 em todo ∂D, mas isso é incompatı́vel com ∇ · θ ≥ 0, pelo Teorema de
Gauss.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 11 683/1461
Proposição 11.7 Consideremos para uma função real u a equação diferencial linear, dada por
∂2u ∂u
ρ(~x) (~
x , t) + γ(~
x , t) (~
x , t) − ~ · τ (~x)∇u(~
∇ ~ x, t) + η(~x)u(~x, t) = ϕ(~x, t) , (11.67)
∂t2 ∂t
definida para ~x em um conjunto não-vazio, aberto, conexo e limitado D ⊂ Rn , n ≥ 1. D é, assim,
limitado e conexo. Assumiremos que τ é contı́nua e diferenciável e que ρ, γ e η sejam contı́nuas por
partes. Suporemos também que ρ(~x) > 0 e τ (~x) > 0, exceto em conjuntos de medida nula, onde podem
anular-se. Assumiremos também que η(~x) ≥ 0 e que γ(~x, t) ≥ 0 para todo ~x ∈ D e todo t ≥ 0.
Denotaremos por D o fecho de D (que é compacto, pois D é limitado) e denotaremos por ∂D = D\D
a fronteira de D. Sobre a região D, suporemos ainda que ∂D seja diferenciável e orientável, de modo
que em qualquer ponto ~x de ∂D possamos definir o versor (vetor de comprimento 1) ~n(~x) normal à ∂D
no ponto ~x e apontando para fora de D.
Iremos supor que a função u esteja submetida a condições iniciais que fixam seu valor em t = 0
assim como o de sua derivada temporal:
∂u
u(~x, 0) = u0(~x) , (~x, 0) = v0 (~x) . (11.68)
∂t
∀~x ∈ D, onde as funções reais u0 e v0 são dados do problema (denominados dados de Cauchy). Além
disso, iremos supor que u(~x, t) esteja submetida a condições na fronteira ∂D, as chamadas condições
de contorno. Trataremos dos seguintes tipos de condições de contorno:
I. Condições de Dirichlet:
u(~x, t) = φ(~x, t)
para todo ~x ∈ ∂D e todo t ≥ 0, φ(~x, t) sendo uma função real dada.
III. Condições mistas: para uma função contı́nua ζ(~x, t) ≥ 0, definida em ∂D para todo t ≥ 0, tem-se
∂u ∂u
(~x, t) + ζ(~x, t) (~x, t) = χ(~x, t)
∂t ∂n
para todo ~x ∈ ∂D e todo t ≥ 0, χ(~x, t) sendo uma função real dada.
Então, para cada uma das condições de contorno descritas acima, a solução do problema de Cauchy
de determinar a solução (11.67) para as condições iniciais (11.68) é única, caso exista. 2
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 11 684/1461
A equação (11.67) descreve vibrações elásticas em um meio material de densidade ρ(~x) localizado
em D. O termo γ(~x, t) ∂u ∂t
(~x, t) descreve uma dissipação (por exemplo, por atrito viscoso com um meio
externo) e τ (~x) deve ser interpretado como a tensão do meio no ponto ~x. O termo η(~x)u(~x, t) provem
de uma força harmônica restauradora (caso η positivo) agindo sobre cada ponto do meio. Por fim,
ϕ(~x, t) representa uma força externa (por unidade de volume) agindo sobre o sistema no ponto ~x no
instante t. Para uma dedução parcial dessa expressão no caso unidimensional vide, por exemplo, [36].
Um caso particular importante é aquele em que γ, η e ϕ são nulas e ρ e τ são constantes positivas,
caso esse em que (11.67) assume a forma da equação de ondas livres
r
∂2u 2 τ
2
(~x, t) − c ∆u(~x, t) = 0 , c = .
∂t ρ
Prova da Proposição 11.7. Afirmamos que sob as condições descritas na proposição, a solução de
(11.67) é única, caso exista. Para tal, vamos supor que u e v sejam duas soluções reais de (11.67), ambas
satisfazendo as mesmas condições iniciais e as mesmas condições de contorno, quer sejam de Dirichlet, de
Neumann ou mistas, descritas acima. Consideremos a função w definida por w(~x, t) := u(~x, t)−v(~x, t).
Como (11.67) é linear, é fácil constatar que w satisfaz a equação homogênea
∂2w ∂w
ρ(~x) (~
x , t) + γ(~
x , t) (~
x , t) − ~ · τ (~x)∇w(~
∇ ~ x, t) + η(~x)w(~x, t) = 0 , (11.69)
∂t2 ∂t
para todo ~x ∈ D e todo t ≥ 0, assim como as condições iniciais w(~x, 0) = 0, e ∂w ∂t
(~x, 0) = 0, ∀~x ∈ D.
Quanto às condições de contorno teremos, para o caso de condições de Dirichlet, w(~x, t) = 0 para todo
~x ∈ ∂D e todo t ≥ 0. Para o caso de condições de Neumann, ∂w ∂n
(~x, t) = 0 para todo ~x ∈ ∂D e todo
∂w ∂w
t ≥ 0. Para o caso de condições mistas, ∂t (~x, t) + ζ(~x, t) ∂n (~x, t) = 0 para todo ~x ∈ ∂D e todo t ≥ 0.
Desejamos mostrar que w é identicamente nula, o que prova que u e v são idênticas, estabelecendo
unicidade de solução sob as condições mencionadas. Para tal, consideramos a expressão
Z " 2 #
ρ(~x) ∂w τ (~x) ~ 2 η(~x) 2
E(t) = (~x, t) + ∇w(~x, t) + w(~x, t) dn~x . (11.70)
D 2 ∂t 2 2
É evidente pelas hipóteses de positividade sobre ρ, τ e η que E(t) ≥ 0 para todo t ≥ 0. Tem-se, porém,
E(0) = 0, pois em t = 0 a função w anula-se, assim como sua derivada temporal (pela condição inicial
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 11 685/1461
para w). Como w é diferenciável em relação a t, podemos calcular a derivada dtd E(t) por
Z
dE ∂w ∂2w ~ ·∇ ~ ∂w ∂w
(t) = ρ(~x) 2 + τ (~x) ∇w + η(~x)w dn ~x
dt D ∂t ∂t ∂t ∂t
Z
(11.69) ∂w ∂w ~ ~
~ ~ ∂w
= −γ(~x, t) + ∇ · τ (~x)∇w − η(~x) w + τ (~x) ∇w · ∇ dn~x
D ∂t ∂t ∂t
Z
∂w n
+ η(~x) w d ~x
D ∂t
Z 2 Z
∂w n ∂w ~ ~
~ ·∇
~ ∂w
= − γ(~x, t) d ~x + ∇ · τ (~x)∇w + τ (~x) ∇w dn ~x
D ∂t D ∂t ∂t
Z 2 Z
∂w n ~ ∂w ~
= − γ(~x, t) d ~x + ∇ · τ (~x) ∇w dn~x
D ∂t D ∂t
Z 2 Z
Gauss ∂w n ∂w ∂w
= − γ(~x, t) d ~x + τ (~x) ds(~x) , (11.71)
D ∂t ∂D ∂t ∂n
∂w
onde ∂n
é a derivada normal introduzida à página 683.
No caso de condições de Dirichlet, w anula-se na fronteira ∂D para todo t e, portanto, também sua
derivada temporal se anula. Com isso, a segunda integral em (11.71) vale zero, o que também ocorre
para condições de Neumann pois, aı́, ∂w
∂n
é nula, assim como para as condições de contorno do tipo IV,
descritas na página 683. Nesses casos tem-se, assim,
Z 2
dE ∂w
(t) = − γ(~x, t) dn~x ,
dt D ∂t
que é menor ou igual a zero, pois supomos γ(~x, t) ≥ 0. Para condições de contorno mistas, tem-se
Z 2 Z 2
dE ∂w n ∂w
(t) = − γ(~x, t) d ~x − τ (~x)ζ(~x, t) ds(~x) ,
dt D ∂t ∂D ∂n
que é igualmente menor ou igual a zero, pois supusemos que τ (~x) > 0, γ(~x, t) ≥ 0 e ζ(~x, t) ≥ 0.
Para os vários tipos de condições de contorno tratados, chegamos ao mesmo tipo de situação en-
contrada na prova da Proposição 11.5: temos que E(t) ≥ 0 e que dE dt
(t) ≤ 0 para todo t ≥ 0, mas
E(0) = 0. Isso só é possı́vel se E(t) = 0 para todo t ≥ 0. Lembrando a definição de E(t) em (11.70)
e da hipótese que ρ e τ são positivos (exceto, talvez, em conjuntos de medida nula), concluı́mos que
para todo ~x ∈ D e todo t ≥ 0 tem-se ∂w ~ x, t) = 0, o que implica que w(~x, t) é uma
(~x, t) = 0 e ∇w(~
∂t
constante para todo ~x ∈ D e todo t ≥ 0. Lembrando que w(~x, 0) = 0 pela condição inicial, concluı́mos
que w(~x, t) é nula para todo ~x ∈ D e todo t ≥ 0. Isso implica que as soluções u e v são idênticas, que
é o que querı́amos provar.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 11 686/1461
E. 11.21 Exercı́cio. Se u é uma solução da equação (11.67), que descreve vibrações elásticas em um
meio material, então a expressão que define E(t) em (11.70), ou seja,
Z " 2 #
ρ(~x) ∂u τ (~x) ~ 2 η(~x) 2
E(t) = (~x, t) + ∇u(~x, t) + u(~x, t) dn~x ,
D 2 ∂t 2 2
representa a energia mecânica dessas vibrações. Justifique essa afirmação. Determine, como fizemos acima,
mas para ϕ não-nula e para condições de contorno não-homogêneas, a expressão de dE dt
(t). Discuta sob
quais circunstâncias a energia é conservada. 6
E. 11.23 Exercı́cio. Determine a solução da equação (11.28) para o caso n em que a superfı́cie de Cauchy
C é a curva C = (x1 , x2 ) ∈ R2 , x1 = (x2 )3 . Parametrizando C = (x1 , x2 ) ∈ R2 , x1 = ψ1 (s2 ) =
o
(s2 )3 , x2 = ψ2 (s2 ) = s2 , s2 ∈ R a condição inicial é u(ψ1 (s2 ), ψ2 (s2 )) = u0 (s2 ), u0 sendo uma função
dada. 6
E. 11.24 Exercı́cio. Determine a solução da equação (11.28) para o cason em que a superfı́cie de Cauchy
C é a curva C = (x1 , x2 ) ∈ R , x1 = tanh(x2 ) . Parametrizando C = (x1 , x2 ) ∈ R2 , x1 = ψ1 (s2 ) =
2
o
tanh(s2 ) , x2 = ψ2 (s2 ) = s2 , s2 ∈ R a condição inicial é u(ψ1 (s2 ), ψ2 (s2 )) = u0 (s2 ), u0 sendo uma
função dada. 6
E. 11.25 Exercı́cio. Determine a solução da equação (11.28) para o cason em que a superfı́cie de Cauchy
C é a curva C = (x1 , x2 ) ∈ R , x2 = tanh(x1 ) . Parametrizando C = (x1 , x2 ) ∈ R2 , x1 = ψ1 (s2 ) =
2
o
s2 , x2 = ψ2 (s2 ) = tanh(s2 ) , s2 ∈ R a condição inicial é u(ψ1 (s2 ), ψ2 (s2 )) = u0 (s2 ), u0 sendo uma
função dada. Note que nas regiões x2 > 1 e x2 < −1 a solução não é determinada pelas condições iniciais
de acima. 6
E. 11.26 Exercı́cio. Determine a solução da equação (11.23), mas considere agora a superfı́cie de Cauchy
C definida por x2 ≡ 0, ou seja, tem-se x1 = ψ1 (s2 ) = s2 , x2 = ψ2 (s2 ) ≡ 0 com s2 ∈ R. A condição inicial
para u nessa superfı́cie é u(x1 , 0) = u0 (x1 ) para alguma função u0 dada.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 11 687/1461
Verifique também explicitamente que esta função é, de fato, solução de (11.23) e satisfaz a condição de
contorno desejada. 6
Capı́tulo 12
Introdução ao Problema de Sturm-Liouville
Conteúdo
12.1 Comentários Iniciais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 689
12.2 O Problema de Sturm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 694
12.2.1 Resolvendo o Problema de Sturm. A Função de Green . . . . . . . . . . . . . 695
12.2.2 O Teorema de Green . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 697
12.3 O Problema de Sturm-Liouville . . . . . . . . . . . . . . . . . . . . . . . . . 700
12.4 Propriedades Básicas dos Auto-Valores e Auto-funções de Problemas de
Sturm-Liouville . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 702
12.4.1 Realidade dos Auto-Valores. Ortogonalidade de Auto-funções . . . . . . . . . 702
12.4.2 A Simplicidade dos Auto-Valores . . . . . . . . . . . . . . . . . . . . . . . . . 705
12.4.3 Condições Suficientes para a Positividade dos Auto-Valores . . . . . . . . . . 707
12.5 A Equação Integral de Fredholm . . . . . . . . . . . . . . . . . . . . . . . . 710
12.6 Uma Aplicação do Problema de Sturm-Liouville . . . . . . . . . . . . . . . 714
12.7 Comentários Finais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 718
12.7.1 O Problema de Sturm-Liouville Singular . . . . . . . . . . . . . . . . . . . . . 718
12.8 Exercı́cios Adicionais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 720
Apêndices . . . . . . . . . . . . . . . . . . . . 725
12.A Prova do Teorema 12.1. Existência e Unicidade . . . . . . . . . . . . . . . 725
12.B Prova da Proposição 12.1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 726
12.C Comentário Sobre o Determinante Wronskiano . . . . . . . . . . . . . . . 730
12.D Ausência de Auto-Valores em um Problema Singular . . . . . . . . . . . . 731
12.E Demonstração do Teorema 12.3 . . . . . . . . . . . . . . . . . . . . . . . . . 732
12.F Prova da Desigualdade (12.E.22) . . . . . . . . . . . . . . . . . . . . . . . . 736
688
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 12 689/1461
dedicados à teoria das equações diferenciais ordinárias. Para uma referência geral sobre o problema
de Sturm-Liouville regular, centrada em aspectos analı́tico-funcionais, vide [73]. Para uma referência
recente, vide [157]. Trataremos aqui apenas de problemas de Sturm-Liouville de segunda ordem, i.e.
envolvendo equações diferenciais lineares de segunda ordem. Para problemas de Sturm-Liouville de
ordem superior, vide [75].
onde g, a0 e a1 são certas funções conhecidas de números reais em números reais das quais eventualmente
exige-se certas condições (como continuidade, diferenciabilidade etc.). A função u representa alguma
grandeza fı́sica e a equação (12.1) é a expressão matemática de uma lei fı́sica que essa grandeza deve
obedecer.
Em muitos casos a função u é definida em um intervalo fechado finito [a, b] da reta real, b > a, e
é obrigada a satisfazer certas condições nos extremos desse intervalo. Tais condições são chamadas de
condições de contorno.
Condições de contorno são ditadas ou por leis fı́sicas ou por restrições fı́sicas ou geométricas que
devem ser impostas nos pontos a e b à grandeza representada por u. O caso mais tı́pico é aquele no
qual impõe-se que a função u ou sua primeira derivada (ou combinações lineares de ambas) assumem
certos valores fixos nos pontos a e b.
Há também muitas situações nas quais a função u é definida em intervalos semi-infinitos, como
[0, ∞) ou infinitos, como (−∞, ∞), e as condições impostas podem exigir, por exemplo, que u se
anule no infinito, que seja limitada ou que seja de quadrado integrável.
Há muitos tipos distintos de condições de contorno. De particular importância são as condições de
contorno lineares que, no caso de equações de segunda ordem, têm a seguinte estrutura. A função u
está definida em um intervalo finito [a, b] e para certas constantes reais α1 , α2 , β1 , β2 , ϕ1 e ϕ2 tais que
(α1 , α2 ) 6= (0, 0), (β1 , β2 ) 6= (0, 0) a função u satisfaz o par de condições
Condições de contorno desse tipo são ditas lineares devido à dependência linear em u do lado direito
de (12.2) e (12.3).
Nestas notas, estaremos interessados particularmente em condições do seguinte tipo: suporemos
que u está definida em um intervalo finito [a, b] e que para certas constantes reais α1 , α2 , β1 e β2 tais
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 12 690/1461
que (α1 , α2 ) 6= (0, 0), (β1 , β2 ) 6= (0, 0) a função u satisfaça o par de condições
Condições de contorno lineares desse tipo são ditas homogêneas devido ao lado direito de (12.4) e
(12.5) ser zero.
Condições de contorno são restrições de crucial importância na resolução de equações diferenciais.
Para verificar essa importância, faça os seguintes exercı́cios simples:
E. 12.1 Exercı́cio. Verifique que o problema de determinar uma função u tal que u′′ = 0 tal que
′ ′
u (0) = 0 e u (1) = 1 não tem soluções. 6
E. 12.2 Exercı́cio. Verifique que o problema de determinar uma função u tal que u′′ = 0 tal que
u′ (0) = 0 e u′ (1) = 0 tem infinitas soluções. 6
E. 12.3 Exercı́cio. Verifique que o problema de determinar uma função u tal que u′′ + u = 0 com
u(0) = 1 e u(π) = 1 não tem soluções. 6
E. 12.4 Exercı́cio. Verifique que o problema de determinar uma função u tal que u′′ + u = 0 com
u(0) = 1 e u(π) = −1 tem infinitas soluções. 6
E. 12.5 Exercı́cio. Verifique que o problema de determinar uma função u tal que u′′ + u = 0 com
u(0) = ϕ1 e u(π) = ϕ2 tem infinitas soluções se ϕ1 = −ϕ2 e não tem solução se ϕ1 6= −ϕ2 . 6
Os exemplos dos exercı́cios acima mostram que a questão da existência e unicidade de soluções
em problemas que envolvem condições de contorno não é uma questão trivial. É importante nesse
contexto mencionar o seguinte teorema, o qual expressa condições necessárias e suficientes para garantir
a existência e a unicidade de soluções:
Teorema 12.1 Seja a equação diferencial linear de segunda ordem
onde g, a0 e a1 são definidas num intervalo finito e fechado [a, b] e são contı́nuas nesse intervalo. O
problema de encontrar soluções dessa equação que satisfaçam condições de contorno do tipo
para certas constantes reais α1 , α2 , β1 , β2 , ϕ1 e ϕ2 tais que (α1 , α2 ) 6= (0, 0), (β1 , β2 ) 6= (0, 0) tem
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 12 691/1461
for não nulo, onde u1 e u2 são duas soluções independentes quaisquer da equação homogênea
A demonstração é apresentada no Apêndice 12.A, página 725, cujo estudo pode ser dispensado em
uma primeira leitura.
Exemplo. No Exercı́cio E. 12.5, página 690, acima, verificamos que o problema de determinar uma
função u tal que u′′ + u = 0 com u(0) = ϕ1 e u(π) = ϕ2 ou tem infinitas soluções (caso ϕ1 = −ϕ2 )
ou não tem nenhuma solução (caso ϕ1 6= −ϕ2 ). Vamos analisar isso sob a luz do Teorema 12.1. Aqui
temos [a, b] = [0, π]. Com as condições u(0) = ϕ1 e u(π) = ϕ2 tem-se α1 = β1 = 1 e α2 = β2 = 0.
Duas soluções independentes da equação homogênea u′′ + u = 0 são u1 (x) = cos(x) e u2 (x) = sen(x).
Assim,
α1 u1 (a) + α2 u′1 (a) α1 u2 (a) + α2 u′2 (a) cos(0) sen(0) 1 0
= = ,
β1 u1 (b) + β2 u′1 (b) β1 u2 (b) + β2 u′2 (b) cos(π) sen(π) −1 0
que tem determinante nulo. Logo, a condição do Teorema 12.1 é violada e isso justifica por que não se
pode garantir nem existência nem unicidade à solução do problema em questão.
Adiante, consideraremos apenas problemas com condições de contorno lineares e homogêneas. Por
que não consideraremos também as condições de contorno não-homogêneas? A razão é que, como
veremos, podemos sempre obter soluções de problemas com condições de contorno não-homogêneas a
partir das soluções de problemas com condições de contorno homogêneas.
A argumentação é bem simples. Seja w uma função em princı́pio arbitrária (duas vezes diferenciável)
mas que satisfaça
Para uma tal função w, vamos definir uma função h(x) da seguinte forma:
Isso diz-nos, em resumo, que para resolver problemas com condições de contorno não-homogêneas
é suficiente saber determinar uma função como w acima e saber determinar a solução de uma equação
diferencial linear com condições de contorno homogêneas. Por essa razão, daqui por diante só conside-
raremos problemas com condições de contorno homogêneas.
Determinar uma função w pode ser feito, por exemplo, procurando uma w na forma de um polinômio
e procurando ajustar os coeficientes desse polinômio de modo que (12.11)-(12.12) sejam satisfeitas.
Uma observação importante que devemos fazer sobre equações como (12.1) é que, para muitos
casos, as mesmas sempre podem ser reescritas da seguinte forma equivalente, conhecida como forma
de Liouville:
(p(x)u′ )′ + q(x)u = f (x) , (12.18)
Rx
onde p(x) = exp a a1 (x′ ) dx′ , q(x) = p(x)a0 (x) e f (x) = p(x)g(x). Estaremos usando esta forma da
equação mais freqüentemente que a forma anterior.
E. 12.6 Exercı́cio. Verifique a equivalência das duas formas da equação multiplicando (12.1) por p(x)
e usando o fato que, pela definição, p′ (x) = a1 (x)p(x). 6
Um fato importante sobre problemas com condições de contorno homogêneas e que será implicita-
mente utilizado no que seguirá é o seguinte:
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 12 693/1461
Em outras palavras, o conjunto de todas as funções duas vezes diferenciáveis definidas no intervalo
[a, b] que satisfazem as condições de contorno homogêneas (12.4)-(12.5) é um espaço vetorial. Esse
espaço será denotado aqui por V(α1 , α2 , β1 , β2 ), ou simplesmente por V, quando não houver confusão.
Em outras palavras, o conjunto de todas as funções duas vezes diferenciáveis definidas no intervalo
[a, b] que satisfazem as condições de contorno não-homogêneas (12.2)-(12.3) é um espaço convexo.
• Uma notação
Como iremos daqui por diante tratar de equações diferenciais da forma (p(x)u′ )′ + q(x)u = f (x),
convem introduzir uma notação simplificadora:
Lu := (p(x)u′ )′ + q(x)u .
Após estas observações podemos passar a tratar nosso problema de forma mais sistemática.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 12 694/1461
• Definição do problema
para u definida no intervalo fechado finito [a, b] ⊂ R, b > a, com as condições de contorno lineares e
homogêneas
As constantes α1 , α2 , β1 e β2 são reais e tais que (α1 , α2 ) 6= (0, 0) e (β1 , β2 ) 6= (0, 0).
As condições acima são essenciais mas não delimitam ainda totalmente o Problema de Sturm,
pois é preciso impor restrições que garantam a existência e unicidade de soluções do mesmo. Como
aprendemos do Teorema 12.1, devemos impor ainda que
α1 u1 (a) + α2 u′1 (a) α1 u2 (a) + α2 u′2 (a)
det
6= 0 ,
(12.22)
β1 u1 (b) + β2 u′1 (b) β1 u2 (b) + β2 u′2 (b)
Essa última restrição tem uma conseqüência que usaremos abaixo quando tratarmos de desenvolver
um método de resolver problemas de Sturm baseado no conceito de função de Green. A conseqüência
da qual falamos é a seguinte:
Proposição 12.1 Com as definições acima, existem funções v1 e v2 , independentes, definidas no in-
tervalo [a, b], tais que
Lv1 = 0, Lv2 = 0
e tais que
α1 v1 (a) + α2 v1′ (a) = 0 (12.23)
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 12 695/1461
e
β1 v2 (b) + β2 v2′ (b) = 0 . (12.24)
2
A demonstração dessa proposição, da qual faremos uso adiante, encontra-se no Apêndice 12.B,
página 726.
Uma vez delineado o quadro onde iremos trabalhar, passemos ao importante conceito da função de
Green que nos leva diretamente à solução do problema de Sturm.
Pela Proposição 12.1, existem soluções independentes v1 e v2 da equação homogênea, tais que v1 e
v2 satisfazem as seguintes condições de contorno:
Note-se que a (12.27) é uma restrição à função v1 no ponto a enquanto que a (12.28) é uma restrição à
função v2 no ponto b. Com o uso dessas funções vamos construir uma solução do problema de Sturm.
Para tal, vamos introduzir a importante definição da função de Green3 . A função de Green é uma
função de duas variáveis G(x, y), onde x ∈ [a, b] e y ∈ [a, b], definida da seguinte forma:
v1 (x)v2 (y)
, para a ≤ x ≤ y ≤ b
p(a)W (a)
G(x, y) := , (12.29)
v1 (y)v2(x)
, para a ≤ y ≤ x ≤ b
p(a)W (a)
3
George Green (1793-1841).
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 12 696/1461
onde W (x) é o chamado determinante Wronskiano4 , ou função Wronskiana, definido5 , neste caso, por
v1 (x) v1′ (x)
W (x) := det
= v1 (x)v2′ (x) − v2 (x)v1′ (x) .
(12.30)
v2 (x) v2′ (x)
= v1 (pv2′ )′ − v2 (pv1′ )′
= 0, (12.31)
onde, na penúltima igualdade, usamos o fato que v1 e v2 satisfazem a equação homogênea. Assim,
provamos que, para todo x ∈ [a, b], tem-se p(x)W (x) = p(a)W (a) = p(b)W (b).
Dado que as funções v1 e v2 são contı́nuas, é fácil ver que G é igualmente contı́nua no quadrado
Q := [a, b] × [a, b] onde está definida. Entretanto, as derivadas parciais Gx e Gy de G não são
contı́nuas em Q, apresentando uma descontinuidade ao longo da diagonal de Q, que consiste nos
pontos (x, y) ∈ Q com x = y. Como esse fato terá conseqüências adiante, vamos nos dedicar a estudar
essa descontinuidade com mais detalhe.
Dado que v1 e v2 são diferenciáveis, é claro que
v1′ (x)v2 (y)
, para a ≤ x < y ≤ b
p(a)W (a)
Gx (x, y) := . (12.32)
v1 (y)v2′ (x)
, para a ≤ y < x ≤ b
p(a)W (a)
4
Conde Josef Hoëné de Wronski (1778-1853).
5
No Apêndice 12.C, página 730, mostramos a relação entre essa definição de determinante Wronskiano e aquela
introduzida no Capı́tulo 7, página 322 (vide página 334).
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 12 697/1461
Note que, nesta última expressão, excluı́mos os pontos para os quais x = y, onde Gx não está definida.
Entretanto, apesar de Gx não estar definida nesses pontos, os limites lim Gx (x + ǫ, x) e lim Gx (x − ǫ, x)
ǫ→0 ǫ→0
existem mas são, porém, distintos, o mesmo se dando com os limites lim Gx (x, x + ǫ) e lim Gx (x, x − ǫ)
ǫ→0 ǫ→0
(aqui ǫ > 0). Dado que, para qualquer ǫ > 0, tem-se x + ǫ > x e x − ǫ < x, segue que
v1 (x)v2′ (x)
lim Gx (x + ǫ, x) = (12.33)
ǫ→0 p(a)W (a)
e que
v1′ (x)v2 (x)
lim Gx (x − ǫ, x) = . (12.34)
ǫ→0 p(a)W (a)
Analogamente segue que
v1 (x)v2′ (x)
lim Gx (x, x − ǫ) = (12.35)
ǫ→0 p(a)W (a)
e que
v1′ (x)v2 (x)
lim Gx (x, x + ǫ) = . (12.36)
ǫ→0 p(a)W (a)
Portanto, segue que
pois, como vimos, para qualquer x ∈ [a, b] tem-se p(a)W (a) = p(x)W (x). De maneira idêntica, segue
que
1
lim Gx (x, x − ǫ) − lim Gx (x, x + ǫ) = . (12.38)
ǫ→0 ǫ→0 p(x)
é tal que u satisfaz a equação não-homogênea (12.19) e satisfaz as condições de contorno (12.20)-
(12.21), ou seja, é a solução do problema de Sturm. Esse fato é conhecido como Teorema de Green e
será provado na próxima sub-seção.
(pu′ )′ + qu = pu′′ + p′ u′ + qu
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 12 698/1461
para u(x) dada por (12.39) e demonstrar que isso é igual a f (x). Dado que G tem derivadas parciais
descontı́nuas, é conveniente escrever
Z x Z b
u(x) = G(x, y) f (y) dy + G(x, y) f (y) dy . (12.40)
a x
Em cada um dos pedaços em que quebramos a integral acima tem-se que Gx é contı́nua. Daı́, segue
que
Z x Z b
′
u (x) = G(x, x)f (x) + Gx (x, y) f (y) dy − G(x, x)f (x) + Gx (x, y) f (y) dy
a x
Z x Z b
= Gx (x, y) f (y) dy + Gx (x, y) f (y) dy . (12.41)
a x
Z b
− lim Gx (x, x + ǫ)f (x) + Gxx (x, y) f (y) dy
ǫ→0 x
Z x Z b
f (x)
= + Gxx (x, y) f (y) dy + Gxx (x, y) f (y) dy , (12.42)
p(x) a x
p(x)
p(x)u′′ + p′ (x)u′ + q(x)u = f (x)
p(x)
Z x
+ [p(x)Gxx (x, y) + p′ (x)Gx (x, y) + q(x)G(x, y)] f (y) dy
a
Z b
+ [p(x)Gxx (x, y) + p′ (x)Gx (x, y) + q(x)G(x, y)] f (y) dy(12.43)
.
x
e isto vale tanto para y = [a, x) quanto para y = (x, b]. Para ver isso basta notar, por exemplo, que
para y = [a, x) tem-se que
v1 (y)
[p(x)v2′′ (x) + p′ (x)v2′ (x) + q(x)v2 (x)] = 0 , (12.45)
p(a)W (a)
pois, por hipótese, v2 é solução da equação homogênea p(x)v2′′ (x) + p′ (x)v2′ (x) + q(x)v2 (x) = 0. O caso
y = (x, b] é análogo.
Está, portanto, demonstrado que a função u dada por (12.39) é solução da equação diferencial não-
homogênea. Resta provar que essa função u satisfaz as condições de contorno (12.4)-(12.5). Deixamos
a importante verificação desse último fato como exercı́cio.
Com as observações da página 691 podemos encontrar também soluções de problemas de Sturm
(Lu)(x) = f (x) com u satisfazendo condições de contorno não-homogêneas como (12.2)-(12.3).
Seja w uma função duas vezes diferenciável satisfazendo também (12.11)-(12.12). Defina-se
h(x) := (Lw)(x) .
onde G é montada como antes (vide (12.29)) a partir de soluções v1 e v2 da equação homogênea
Lv1, 2 = 0, com v1 e v2 satisfazendo (12.27) e (12.28), respectivamente.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 12 700/1461
Z b Z b
= G(x, y)f (y) dy + w(x) − G(x, y)h(y) dy .
a a
Z b Z b
= G(x, y)f (y) dy + w(x) − G(x, y)(Lw)(y) dy . (12.50)
a a
p é contı́nua, diferenciável e estritamente positiva em J, ou seja, p(x) > 0 para todo x ∈ [a, b].
q é contı́nua em J.
r é contı́nua e estritamente positiva em J, ou seja, r(x) > 0 para todo x ∈ [a, b].
Para uma função u definida em J que seja pelo menos duas vezes diferenciável, vamos como ante-
riormente definir o operador diferencial L por (Lu)(x) = (p(x)u′ )′ + q(x)u.
Entende-se por Problema de Sturm-Liouville regular67 , ou simplesmente Problema de Sturm-Liouville,
o problema de se determinar a função u definida em J e os números λ tais que a seguinte equação
diferencial seja satisfeita:
Lu + λ r(x)u = 0 , (12.51)
com o seguinte tipo de condição de contorno: vamos supor que existam constantes reais α1 , α2 , β1 e
β2 tais que (α1 , α2 ) 6= (0, 0), (β1 , β2 ) 6= (0, 0) e tais que o seguinte par de relações deve ser válido
Se λ for um número tal que a equação (12.51) seja satisfeita para alguma função uλ (que em geral
dependerá de λ) então diz-se que λ é um auto-valor do Problema de Sturm-Liouville e uλ é dito ser a
auto-função associada ao auto-valor λ do Problema de Sturm-Liouville. Essa nomenclatura surge por
analogia com os conceitos de auto-valor e autovetor de matrizes na álgebra linear.
Muitos problemas de Fı́sica envolvem a solução de problemas de Sturm-Liouville. Fora isso, a
solução de problemas de Sturm-Liouville é útil para a resolução de equações não-homogêneas como
Lu = f (x) (12.54)
6
Os trabalhos de Sturm e Liouville sobre o problema que é hoje conhecido como Problema de Sturm-Liouville foram
desenvolvidos entre 1829 e 1837.
7
O problema de Sturm-Liouville singular será tratado brevemente à página 718.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 12 701/1461
para uma função f dada, com condições de contorno como (12.52)-(12.53). A razão para isso reside no
fato que, como veremos, a função de Green associada ao problema de Sturm Lu = f com condições de
contorno como (12.52)-(12.53) pode ser escrita em termos das auto-funções e dos auto-valores de um
problema de Sturm-Liouville.
Exemplo 12.1 No bem-conhecido problema da corda vibrante, descrevendo o movimento transversal
de uma corda homogênea de densidade ρ > 0 e de comprimento L, estendida entre os pontos a e
b = a + L e submetida a uma tensão T > 0, temos que resolver a equação de ondas
s
∂2u ∂ 2
u T
2
− c2 2 = 0 , c := ,
∂t ∂x ρ
com x ∈ [a, b], t ∈ R. Pelo método de separação de variáveis (vide Seção 11.2, página 641), procuramos
soluções da forma u(x, t) = y(x)θ(t) e obtemos para θ a equação θ̈(t) + λc2 θ(t) = 0 e para y a equação
y ′′ (x) + λy(x) = 0 , (12.55)
λ sendo uma constante de separação. Se a corda estiver fixa em a e em b, devemos impor as condições
de contorno y(a) = 0 e y(b) = 0. Esse problema de determinar a função y satisfazendo a equação
(12.55) e as condições de contorno acima é um problema de Sturm-Liouville com p(x) = 1, q(x) = 1,
r(x) = 1, (α1 , α2 ) = (1, 0) e (β1 , β2 ) = (1, 0).
No caso a = 0 e b = 0, obtem-se como soluções desse problema de Sturm-Liouville as funções
yn (x) = sen(nπx/L) com λn = (nπ/L)2 para todo n = 1, 2, 3, . . .. ◊
Exemplo 12.2 Na Mecânica Quântica, considere o problema de determinar a função de onda de uma
partı́cula de massa m movendo-se em uma dimensão e constrita a um intervalo finito [a, b] ⊂ R por
barreiras infinitas de potencial em x ≤ a e x ≥ b e sujeita, no intervalo [a, b], a um potencial V (x). A
equação de Schrödinger independente do tempo é
~2 d 2 ψ
(x) − V (x)ψ(x) + Eψ(x) = 0 ,
2m dx2
com x ∈ [a, b], sendo que, devido às barreiras infinitas de potencial, devemos impor as condições
~2
de contorno ψ(a) = 0 e ψ(b) = 0. Trata-se de um problema de Sturm-Liouville com p(x) = 2m ,
q(x) = −V (x), r(x) = 1, λ = E, (α1 , α2 ) = (1, 0) e (β1 , β2 ) = (1, 0). ◊
Exemplo 12.3 No problema descrito no Exercı́cio E. 10.12, página 628, e no problema descrito no
Exercı́cio E. 10.13, página 628, devemos aplicar o método de separação de variáveis para as equações
de onda e de difusão em duas dimensões espaciais em coordenadas polares. Naqueles problemas, para
o tratamento da parte radial devemos resolver a equação de Bessel
x2 y ′′(x) + xy ′ (x) + α2 x2 − ν 2 y(x) = 0
no intervalo [R1 , R2 ], com 0 < R1 < R2 < ∞, equação essa que na forma de Liouville fica
ν2
(p(x)y ′ )′ + q(x)y + λr(x)y = 0 , com p(x) = x , , r(x) = x , λ = α2 .
q(x) = −
x
As condições de contorno são de Dirichlet: y(R1) = y(R2 ) = 0. Trata-se claramente de um problema
de Sturm-Liouville regular pois p e r são estritamente positivos no intervalo [R1 , R2 ] com R1 > 0.
No problema descrito no Exercı́cio E. 10.16, página 630, tem-se também um problema de Sturm-
Liouville regular como os de acima, mas com condições de contorno mistas. ◊
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 12 702/1461
Podemos dotar o espaço vetorial C([a, b]) de vários produtos escalares. Dois deles nos interessarão
aqui. Para f , g ∈ C([a, b]) definimos o produto escalar
Z b
hf, gi = f (x) g(x) dx , (12.58)
a
Esta última relação é chamada de relação de ortogonalidade (em relação ao produto escalar h·, ·ir ). 2
Z b Z b
b
= − v ′ (x)(p(x)u′ ) dx + vpu′ |a + v(x)q(x)u(x) dx
a a
Z b Z b
b b
= u(pv ′ )′ dx + vpu′|a − v ′ pua + v(x)q(x)u(x) dx
a a
Z b
b b
= u(x) (Lv)(x) dx + vpu′ |a − v ′ pua . (12.62)
a
Vamos agora provar que os fatores entre parênteses em (12.63) são nulos. Como u e v satisfazem
(12.52)-(12.53), tem-se
v(a) v ′ (a) α1 0 v(b) v ′ (b) β1 0
= e = .
u(a) u′ (a) α2 0 u(b) u′ (b) β2 0
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 12 704/1461
α1 0 β1 0
Como
6= e 6= devemos ter
α2 0 β2 0
v(a) v ′ (a) v(b) v ′ (b)
det
= 0
e det
= 0,
u(a) u′ (a) u(b) u′ (b)
ou seja,
v(a)u′ (a) − v ′ (a)u(a) = 0 e v(b)u′ (b) − v ′ (b)u(b) = 0 .
O lado esquerdo de ambas as expressões são os termos entre parênteses de (12.63). Logo,
b b
vpu′ |a − v ′ pua = 0.
Prova do Teorema 12.2. Para provar que os auto-valores de um problema de Sturm-Liouville são reais,
seja λ um auto-valor e u a sua correspondente auto-função. Vamos mostrar que
Z b
(λ − λ) u(x) u(x) r(x) dx = 0 . (12.64)
a
Rb
Como u 6= 0 e r > 0 (por hipótese), temos que a u u r(x) dx 6= 0. Portanto, (12.64) diz-nos que
λ − λ = 0, ou seja, que λ é um número real. Para provar (12.64), notemos que
Z b Z b Z b
(λ − λ) u u r(x) dx = u (λu r(x)) dx − λur(x) u dx
a a a
Z b Z b
= − u (Lu) dx + Lu u dx
a a
= 0, (12.65)
Como estamos supondo que λ1 6= λ2 , essa relação diz então que (12.60) deve ser verdadeira. Como λ1
e λ2 são reais, o lado esquerdo de (12.66) pode ser escrito como
Z b Z b
(λ1 r(x)uλ1 (x)) uλ2 (x) dx − uλ1 (x) (λ2 r(x)uλ2 (x)) dx
a a
Z b Z b
= − (Luλ1 (x)) uλ2 (x) dx + uλ1 (x) (Luλ2 (x)) dx = 0 , (12.67)
a a
O que vimos no Teorema 12.2 é que auto-funções associadas a auto-valores distintos de um problema
de Sturm-Liouville são ortogonais entre si em relação ao produto escalar definido em (12.59).
O Lema de Green afirma que L é um operador simétrico em relação ao produto escalar definido em
(12.58) quando age em vetores do sub-espaço V(α1 , α2 , β1 , β2 ).
Vamos em primeiro lugar mostrar que p(x)W12 (x) é constante no intervalo [a, b], ou seja, que (pW12 )′ =
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 12 706/1461
0. De fato,
= u1 (pu′2 )′ − u2 (pu′1 )′
= 0. (12.68)
Vamos agora mostrar que W12 (b) = 0. Como acabamos de ver que p(x)W12 (x) é constante, isso
implica p(x)W12 (x) = 0 para todo x ∈ [a, b].
Como as funções u1 e u2 são elementos de V(α1 , α2 , β1 , β2 ), temos em x = b8
u1 (b) u′1 (b) β1 0
= .
u2 (b) u′2 (b) β2 0
β1 0
Agora, como
6= , segue que
β2 0
u1 (b) u′1 (b)
det
= 0,
u2 (b) u′2 (b)
para todo x ∈ [a, b]. Isso diz que as duas linhas que formam a matriz acima são, para cada x ∈ [a, b],
proporcionais uma a outra, ou seja, existe γ(x) tal que, por exemplo,
para cada x ∈ [a, b]. Derivando a primeira e comparando à segunda, conclui-se que γ(x) é constante,
ou seja, não depende de x.
Assim, verificamos que as funções u1 e u2 são múltiplas entre si. Com isso, mostramos que se
tivermos duas auto-funções com o mesmo auto-valor as auto-funções são múltiplas uma da outra e
o sub-espaço que ambas geram tem dimensão 1. Em resumo, auto-valores de problemas de Sturm-
Liouville regular são sempre simples, ou não-degenerados.
2. α1 α2 ≤ 0,
3. β1 β2 ≥ 0,
Prova. A demonstração é um tanto indireta. Seja u uma auto-função com auto-valor λ, ou seja,
(pu′ )′ + qu + λru = 0 .
Vamos agora integrar por partes a primeira integral do lado direito. Temos,
Z b b Z b
′ ′ ′
u(x)(pu ) (x) dx = u(x)(pu )(x) − |u′ (x)|2 p(x) dx .
a a a
As três integrais acima são números reais. Portanto, vale, tomando-se a parte real da expressão,
Z b Z b h i
2 ′ 2 2
′ ′
λ |u(x)| r(x) dx = |u (x)| p(x) − |u(x)| q(x) dx+ p(a) Re u(a)u (a) − p(b) Re u(b)u (b) .
a a
(12.71)
No ponto a u satisfaz α1 u(a) + α2 u′ (a) = 0. Multiplicando-se essa expressão pelo seu complexo
conjugado, tem-se
2 2 2 ′ 2 ′
α1 |u(a)| + α2 |u (a)| + 2α1 α2 Re u(a)u (a) = 0 ,
ou seja,
′
2α1 α2 Re u(a)u (a) = − α12 |u(a)|2 + α22 |u′(a)|2 . (12.72)
Analogamente, para o ponto b,
2β1 β2 Re u(b)u (b) = − β12 |u(b)|2 + β22 |u′(b)|2 .
′
(12.73)
É importante dizer aqui que existem problemas de Sturm-Liouville regulares onde ocorrem auto-
valores negativos (vide exercı́cio-exemplo abaixo). No Teorema 12.3, página 710, mostraremos que
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 12 709/1461
apesar de ser possı́vel a existência de auto-valores negativos, os mesmos não podem ser arbitrariamente
negativos, ou seja, negativos mas com módulo |λ| arbitrariamente grande. Provaremos que existe uma
constante M tal que λ ≥ M. A constante M pode ser positiva, negativa ou nula. Em verdade, em
um problema de Sturm-Liouville regular pode ocorrer no máximo um número finito de auto-valores
negativos.
• Um Exemplo
E. 12.13 Exercı́cio-exemplo. Seja o problema de Sturm-Liouville u′′ + λu = 0, no intervalo [0, 1], com
as condições de contorno u(0) = 0 e β1 u(1) + β2 u′ (1) = 0.
Aqui p(x) = 1, q(x) = 0, r(x) = 1, α1 = 1 e α2 = 0. A identidade (12.71) fica
Z 1 Z 1
λ 2
|u(x)| dx = |u′(x)|2 dx − Re u(1)u′ (1) . (12.74)
0 0
Caso β1 = 0, teremos u′ (1) = 0. Caso β2 = 0, teremos u(1) = 0. Nesses dois casos, (12.74) fica
Z 1 Z 1
λ 2
|u(x)| dx = |u′ (x)|2 dx ,
0 0
e. Para o caso β1 = −β2 mostre que também ocorre o auto-valor λ = 0, cuja auto-função é u(x) = αx, α
sendo uma constante arbitrária não nula.
f. Mostre que se 0 < − ββ12 < 1, ou seja, se −β12 < β2 β1 < 0, ocorre também um (único!) auto-valor
negativo, o qual é solução de
√ β1 √
−λ = − tanh( −λ) .
β2
Mostre graficamente que essa equação não tem solução não-nula caso 0 > − ββ21 ou caso − ββ12 > 1.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 12 710/1461
g. Reunindo os resultados obtidos, indique no plano Cartesiano (β1 , β2 ) a região onde os auto-valores
são estritamente positivos, a região onde ocorre o auto-valor zero e a região onde ocorrem também
auto-valores negativos além dos auto-valores positivos.
Lu + λ r(x)u = 0,
onde p, q e r são funções reais definidas em [a, b], tais que p é contı́nua, diferenciável e estritamente
positiva em [a, b], ou seja, p(x) > 0 para todo x ∈ [a, b]; q é contı́nua em [a, b]; r é contı́nua e
estritamente positiva em [a, b], ou seja, r(x) > 0 para todo x ∈ [a, b]; com as condições de contorno
λ ≥ M.
A constante M pode ser positiva, negativa ou nula. O que esse teorema diz é que existe um
limitante inferior para os auto-valores de um problema de Sturm-Liouville, ou seja, os mesmos podem
até ser eventualmente negativos, mas não arbitrariamente negativos. A demonstração9 desse teorema
é apresentada no Apêndice 12.E, página 732.
Lu = −λ r(x) u, (12.76)
9
Essa demonstração pode ser omitida numa primeira leitura.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 12 711/1461
que satisfaçam as condições de contorno (12.52)-(12.53). Se λ = 0 não for um auto-valor desse problema,
ou seja, se Lu = 0 com as condições de contorno (12.52)-(12.53) possuir apenas a solução trivial u = 0,
então o problema de Sturm Lu = f com as condições de contorno (12.52)-(12.53) possui solução única.
Isso é elementar de se ver, pois se u1 e u2 são duas soluções, então L(u1 − u2 ) = 0, sendo que u1 − u2
obviamente satisfaz (12.52)-(12.53). Pelo pressuposto, u1 − u2 = 0.
Z b
Agora, pelo Teorema de Green, u(x) = G(x, y) f (y)dy é solução de Lu = f com as condições
a
de contorno (12.52)-(12.53) e, portanto, essa é a única solução. Assim sob a hipótese que λ = 0 não é
um auto-valor do problema de Sturm-Liouville, toda Z função u que satisfaz Lu = f com as condições de
b
contorno (12.52)-(12.53) satisfaz também u(x) = G(x, y) f (y)dy para qualquer que seja a função
a
contı́nua f .
Disso concluı́mos que a função u que satisfaz a equação diferencial (12.76) satisfaz também
Z b
u(x) = −λ G(x, y) r(y) u(y) dy , (12.77)
a
Uma equação como esta onde a função k(x, y) é contı́nua em um intervalo fechado é conhecida como
Equação Integral de Fredholm linear homogênea, ou simplesmente Equação Integral de Fredholm10 (vide
Capı́tulo 13, página 738).
O estudo da equação integral de Fredholm é um dos capı́tulos importantes da Análise Funcional e
da Teoria das Equações Integrais. Iremos agora tratar apenas de aspectos básicos da mesma que mais
diretamente nos interessam. O método dos determinantes de Fredholm para a solução de equações
integrais de Fredholm homogêneas e não-homogêneas é apresentado com certo detalhe na Seção 13.2,
página 741. O leitor poderá encontrar mais material sobre a equação integral de Fredholm não-linear
na Seção 18.3, página 1005, assim como na Seção 26.6, página 1339, para o caso linear. Alguns poucos
comentários históricos podem ser encontrados à página 747.
Seja o espaço vetorial C(J) introduzido acima, de todas as funções contı́nuas definidas no intervalo
J = [a, b]. Podemos então, com o auxı́lio da função k(x, y) dada em (12.78), definir em C(J) um
operador linear K dado por Z b
(Kf )(x) := k(x, y) f (y) dy . (12.80)
a
A respeito desse operador K podemos provar o seguinte resultado. Tomando-se em C(J) o produto
escalar h·, ·ir definido acima, temos
E. 12.14 Exercı́cio. Mostre esse fato. Para isso use que a função de Green satisfaz G(x, y) = G(y, x).
6
Um operador linear que satisfaz uma relação como (12.82) é dito ser um operador simétrico ou
Hermiteano, um conceito de grande importância em Fı́sica e Matemática. O operador K é então um
operador simétrico em relação ao produto escalar h·, ·ir .
Se A é um operador linear agindo em um espaço vetorial complexo V , dizemos que um vetor
não-nulo x é um autovetor de A se houver um número (real ou complexo) α tal que
Ax = α x. (12.83)
K un = αn un . (12.84)
11
O conceito geral de espectro de operadores definidos em espaços de Banach é detalhadamente discutido na Seção
26.5, página 1329.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 12 713/1461
Nesse espaço de Hilbert o produto escalar considerado é o produto escalar h·, ·ir definido acima. Vamos
supor que as auto-funções un são normalizadas, ou seja, satisfazem hun , un ir = 1. Então o conjunto
das auto-funções normalizadas un de K forma uma base ortonormal completa em Hr , ou seja, todo
vetor f ∈ Hr pode ser escrito como
N
X ∞
X
f = lim cn un =: cn u n , (12.86)
N →∞
n=1 n=1
onde Z b
cn := hun , f ir = un (x) f (x) r(x) dx . (12.87)
a
Mais precisamente, vale
* N
! N
!+
X X
lim f− cn u n , f− cn u n
N →∞
n=1 n=1 r
Z b N
X
2
= lim f (x) − cn un (x) r(x) dx = 0 . (12.88)
N →∞ a
n=1
A demonstração deste teorema é elaborada e será apresentada ao longo da Seção 26.6, página 1339,
do Capı́tulo 26. O que faremos é mostrar que o operador de Fredholm K é um operador compacto e
auto-adjunto e para tais operadores valem as propriedades espectrais mencionadas acima. A afirmação
(12.86)-(12.88), por exemplo, é parte do chamado Teorema Espectral, o qual vale para operadores
compactos e auto-adjuntos, como mostrado no Teorema 26.29 da página 1356.
Notemos algumas conseqüências do teorema acima. Como os auto-valores de um problema de
Sturm-Liouville regular λn são da forma λn = 1/αn , onde αn é um auto-valor de K, o teorema acima
diz-nos que podemos ordenar os λn ’s em ordem crescente:
com lim λn = +∞. Uma segunda conseqüência de importância relaciona o problema de Sturm-
n→∞
Liouville com a função de Green. Seja u um vetor arbitrário de Hr . Como dissemos, podemos escrever
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 12 714/1461
N
u = lim uN , onde uN = Σ cn un , onde os cn ’s são dados por (12.87). Como K é contı́nuo, temos que
N →∞ n=1
N
X
= lim cn (Kun )(x)
N →∞
n=1
N
X 1
= lim cn un (x)
N →∞
n=1
λn
XN Z b
1
= lim un (y)u(y)r(y) dy un (x)
N →∞
n=1
λ n a
Z N
!
b X un (x)un (y)
= r(y) lim u(y) dy . (12.90)
a N →∞
n=1
λn
Rb
Por outro lado sabemos que, pela definição, (Ku)(x) = − a
G(x, y)r(y) u(y). Como ambas relações
valem para qualquer u ∈ Hr , concluı́mos que
∞
X un (x)un (y)
G(x, y) = − . (12.91)
n=1
λn
É possı́vel demonstrar, o que não faremos aqui, que a soma do lado direito da última expressão é
absoluta e uniformemente convergente (vide e.g. [121]). A relação (12.91), que é por vezes chamada
fórmula de Mercer12 , mostra que a função de Green de um problema de Sturm pode ser escrita como
uma expansão envolvendo auto-valores e auto-funções de um problema de Sturm-Liouville. Esse fato
é relevante tanto na prática da resolução de equações diferenciais quanto na obtenção de resultados
qualitativos sobre a natureza das soluções. Estudaremos adiante algumas dessas aplicações.
onde a solução u está ainda sujeita às condições de contorno homogêneas (12.52)-(12.53). Acima, o
operador L é definido como anteriormente e assumimos para as funções p, q e r as mesmas condições
mencionadas no inı́cio do presente capı́tulo. A função f será assumida uma função real e contı́nua e γ
um número real dado.
12
James Mercer (1883-1932). O trabalho original é: J. Mercer. “Functions of positive type and their connection with
the theory of integral equations”. Transactions London Phil. Soc. (A) 209, 415-446 (1909).
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 12 715/1461
Como veremos, a solução pode ser obtida com uso das auto-funções e auto-valores do problema de
Sturm-Liouville
Lu + λr(x)u = 0
com condições de contorno homogêneas do tipo (12.4)-(12.5). Chamaremos esse problema de problema
de Sturm-Liouville associado (ao problema (12.92)). Novamente suporemos que o problema de Sturm-
Liouville associado não tem solução com auto-valor λ = 0.
Com o uso da representação da função de Green em termos dos auto-valores e auto-funções do
problema de Sturm-Liouville associado (fórmula de Mercer, (12.91)), vamos mostrar como podemos
encontrar uma expressão para a solução desse problema.
A equação diferencial (12.92) pode ser escrita como
Lu = −γr(x)u + f . (12.93)
Usando, como fizemos anteriormente, o Teorema de Green, podemos dizer que a função u(x) que satisfaz
esta equação diferencial satisfaz também a equação integral
Z b Z b
u(x) = −γ G(x, y)r(y)u(y) dy + G(x, y)f (y) dy . (12.94)
a a
Definamos Z b
g(x) := G(x, y)f (y) dy . (12.95)
a
Usando a fórmula de Mercer para a função de Green, podemos escrever (12.94) como
X∞
hun , uir
u(x) = γ un (x) + g(x) . (12.96)
n=1
λ n
Tomando-se o produto escalar de ambos os lados da igualdade com o vetor um , tiramos que
γ
1− hum , uir = hum , gir . (12.97)
λm
e, portanto, que Z b
1
hum , gir = − um (y) f (y) dy , (12.99)
λm a
ou seja,
1
hum , gir = − hum , f i . (12.100)
λm
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 12 716/1461
Até agora não fizemos quaisquer restrições a respeito da constante γ que aparece na equação diferen-
cial não-homogênea (12.92). Há dois casos a supor. Aquele em que γ não é igual a nenhum auto-valor
λm do problema de Sturm-Liouville associado e aquele caso em que γ = λs , para algum auto-valor λs
do problema de Sturm-Liouville associado.
Caso I. γ não é um auto-valor.
Nesse caso as relações (12.97) e (12.99) dizem-nos que
Z b
1
hum , uir = um (y) f (y) dy (12.101)
γ − λm a
Esta fórmula dá-nos a solução do problema em termos das auto-funções e auto-valores do problema
do Sturm-Liouville associado e mostra-nos uma das razões que tornam importante a solução do mesmo
problema de Sturm-Liouville. A série do lado direito converge absoluta e uniformemente em J.
Caso II. γ = λs para algum s.
Neste caso o problema tratado nem sempre tem soluções. Para ver isso, note que, supondo-se a
existência de uma solução, a relação (12.97) diz-nos neste caso que hus , gir = 0, ou seja, por (12.100)
Z b
hum , f i = us (y) f (y) dy = 0 . (12.103)
a
Caso a função f seja tal que (12.103) não é satisfeita, então nenhuma solução é possı́vel para o
problema tratado. Se f , porém, for tal que (12.103) seja válida, teremos que a função û dada por
∞
X Z b
1
û(x) = um (y) f (y) dy um (x) (12.104)
m=1
γ − λm a
m6=s
E. 12.17 Exercı́cio. Prove esta última afirmativa seguindo passos semelhantes aos do caso I. 6
onde c é uma constante arbitrária, a ser determinada por alguma imposição adicional qualquer a ser
feita ao problema.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 12 717/1461
E. 12.18 Exercı́cio. Mostre que esta função u é de fato uma solução (substitua na equação (12.92)
e verifique também se as condições de contorno são satisfeitas). Mostre que não pode haver solução mais
geral que esta. Para isso use o fato que o auto-valor λs é simples. 6
Vamos aqui discutir brevemente uma generalização do problema anterior. Procuramos uma solução
da equação diferencial não-homogênea
Lu + γr(x)u = f (x) , (12.106)
onde a solução u está ainda sujeita às condições de contorno não-homogêneas (12.2)-(12.3). Acima, o
operador L é definido como anteriormente e assumimos para as funções p, q e r as mesmas condições
mencionadas no inı́cio destas notas. A função f será assumida ser uma função real e contı́nua e γ será
assumido ser um número real dado.
Esse problema pode ser resolvido combinando métodos que já discutimos. Em primeiro lugar
constrói-se uma função w que seja duas vezes diferenciável e satisfaça as condições não-homogêneas
(12.2)-(12.3).
Procura-se então uma supostamente existente solução v da equação
Lv + γr(x)v = h(x) , (12.107)
com
h(x) = f (x) − (L + γr(x))w(x) ,
que satisfaça as condições de contorno homogêneas (12.4)-(12.5). Uma tal solução pode ser obtida
pelos métodos da Seção 12.6, página 714.
É claro, então, que u = v + w satisfará
Lu + γr(x)u = f (x) (12.108)
e as condições de contorno não-homogêneas (12.2)-(12.3).
Como vimos, para a solução v exista é necessário que γ não seja um auto-valor do problema de
Sturm-Liouville associado. Caso γ seja um auto-valor, só teremos solução se huγ , hi = 0, ou seja,
huγ , f i = huγ , (L + γr)wi . (12.109)
Vale observar que
huγ , (L + γr)wi = huγ , Lwi + hγruγ , wi = huγ , Lwi − hLuγ , wi .
Note que o lado direito não é forçosamente zero, pois aqui o Lema de Green não se aplica, já que w não
é elemento do espaço vetorial V(α1 , α2 , β1 , β2 ) das funções que satisfazem as condições de contorno
homogêneas (12.4)-(12.5). A condição (12.109) fica, então,
huγ , f i = huγ , Lwi − hLuγ , wi .
Nesse caso de γ ser um auto-valor podemos, como já observamos, acrescentar à solução û um
múltiplo da auto-função uγ , obtendo a solução mais geral na forma cuγ (x) + û(x).
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 12 718/1461
para u definida no intervalo fechado finito [a, b] ⊂ R, b > a, com as seguintes condições de contorno
A função p é diferenciável em [a, b] e positiva: p(x) > 0 para x ∈ (a, b] mas se anula em x = a:
p(a) = 0
r é contı́nua e estritamente positiva em J, ou seja, r(x) > 0 para todo x ∈ [a, b].
As constantes α1 , α2 , β1 e β2 são reais e tais que (α1 , α2 ) 6= (0, 0) e (β1 , β2 ) 6= (0, 0).
Como se percebe, a distinção básica entre este problema e o anteriormente tratado reside no fato
de que agora p(x) se anula no ponto a. O fato de p anular-se em a implica que a solução pode ser
singular nesse ponto. Daı́, nenhuma condição de contorno pode ser fixada para o ponto x = a, exceto
que a solução e sua derivada não sejam divergentes naquele ponto (se isso for desejado).
Um exemplo fı́sico que conduz a esse tipo de situação é o problema das oscilações de uma corda de
densidade constante ρ e comprimento L, suspensa verticalmente em um campo gravitacional constante
(a aceleração da gravidade sendo g) e presa em uma das suas extremidades, a outra ficando livre. Esse
problema é resolvido na Seção 10.2.2, página 596. Se x representa a altura e o ponto onde uma as
extremidades fica presa é x = L, então a equação que descreve o problema é
∂ ∂u ∂2u
gx =
∂x ∂x ∂t2
com as condições de contorno u(0, t) e u′ (0, t) finitas e u(L, t) = 0. Usando o método de separação
de variáveis e adotando-se u(x, t) = v(x)w(t), obtem-se para w a equação
ẅ(t) + λw(t) = 0
e para v
(gxv ′ )′ + λv = 0 ,
com v(L) = 0 e com v(0) e v ′ (0) finitos. Aqui λ é√uma constante arbitrária a ser determinada pelas
condições de contorno. A solução é vn (x) = cn J0 (2 λn x), onde J0 é a função de Bessel de ordem zero,
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 12 719/1461
0 2
cn é uma constante e λn é o n-ésimo auto-valor, dado por λn = (α4L
n)
, onde αn0 é o n-ésimo zero de J0
no semi-eixo real positivo. Para um tratamento detalhado desse problema, vide Seção 10.2.2, página
596. O problema para v é claramente um problema de Sturm-Liouville do tipo mencionado acima, já
que p(x) = gx se anula em x = 0.
Esse tipo de problema de Sturm-Liouville é, por vezes, denominado Problema de Sturm-Liouville
singular, e para ele nem sempre valem os mesmos resultados que no caso anteriormente tratado, o dos
problemas de Sturm-Liouville regulares. Por exemplo, nem sempre pode ser garantida a existência de
auto-valores e autovetores (ou seja, de soluções para o problema). Isso pode ser visto explicitamente
no exemplo tratado no Apêndice 12.D, página 731.
Mesmo assim, os problemas de Sturm-Liouville singulares, quando solúveis, compartilham algumas
propriedades com os problemas regulares, tais como a realidade dos auto-valores e a ortogonalidade
das auto-funções.
De fato, é fácil ver que o Lema de Green também vale nesse caso. Seja V(β1 , β2 ) o espaço vetorial
de todas as funções f duas vezes diferenciáveis definidas no intervalo [a, b] tais que β1 f (b) + β2 f ′ (b) = 0
e que sejam finitas em x = a. Então, se u e v são elementos de V(β1 , β2 ) tem-se
hv, Lui = hLv, ui ,
ou seja, Z Z
b b
v(x) (Lu)(x) dx = (Lv)(x) u(x) dx . (12.113)
a a
De fato, como em (12.62) e (12.63), página 703, tem-se
Z b Z b
v(x) (Lu)(x) dx = u(x) (Lv)(x) dx
a a
+ p(b) v(b)u′ (b) − v ′ (b)u(b) − p(a) v(a)u′ (a) − v ′ (a)u(a) . (12.114)
O último termo é zero, pois p(a) = 0 e v(a)u′(a) − v ′ (a)u(a) é finito. O termo v(b)u′ (b) − v ′ (b)u(b) é
nulo pelo mesmo argumento apresentado quando da primeira demonstração do Lema de Green, para o
caso regular (vide página 703 e seguintes).
Uma vez demonstrado o Lema de Green para o problema singular, segue de maneira totalmente
análoga ao que demonstramos no caso regular que os auto-valores são reais e que auto-funções de
auto-valores distintos são ortogonais entre si em relação ao produto escalar h·, ·ir :
Z b
huλ , uλ′ ir = uλ (x) uλ′ (x) r(x) dx = 0
a
se λ 6= λ′ . Não repetiremos a demonstração aqui e remetemos o leitor à página 704 onde isso foi feito
no caso regular.
E. 12.19 Exercı́cio. Mostre que, assim como no caso regular, os auto-valores, se existirem, são simples.
Para isso estude a demonstração para o caso regular da Seção 12.4.2, página 705, e verifique que a mesma
também se aplica ao caso singular. 6
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 12 720/1461
E. 12.21 Exercı́cio. a) Determine a função de Green do seguinte problema de Sturm u′′ = f (x), onde
u é definida no intervalo x ∈ [0, 1] e satisfaz as seguintes condições de contorno:
u′ (0) = 0 , u(1) = 0 . (12.115)
d) Determine a solução do problema de Sturm do caso a) para f (x) = (3 − x)ex . Use para tal a função
de Green.
e) Mostre explicitamente que a solução obtida no item d) satisfaz a equação diferencial e as condições
de contorno desejadas.
6
E. 12.22 Exercı́cio. Determine explicitamente a função de Green para os seguintes problemas de Sturm:
a) u′′ = f (x), com u(0) = 0, u(1) = 0.
b) u′′ = f (x), com u(0) = 0, u′(1) = 0.
c) u′′ = f (x), com u(0) = 0, u(1) + u′ (1) = 0.
d) u′′ + u = f (x), com u(0) = 0, u′ (1) = 0.
e) (xu′ )′ = f (x), com u(1) = 0, u(e) = 0. 6
E. 12.23 Exercı́cio. Determine explicitamente a solução dos cinco problemas de Sturm acima para o
caso em que f (x) = x. 6
E. 12.24 Exercı́cio. Determine explicitamente a função de Green para o seguinte problema de Sturm:
µ2
(xu′ )′ − u = f (x) ,
x
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 12 721/1461
onde µ > 0, com as condições de contorno com u(a) = 0 e u(b) = 0, onde 0 < a < b < ∞.
Verifique que funções do tipo
v(x) = c1 xµ + c2 x−µ ,
são soluções da equação homogênea e, com as mesmas, monte a função de Green.
A solução obtida vale também caso a = 0? Note que nesse caso p(x) = x não é estritamente positiva
no intervalo [a, b]. 6
E. 12.25 Exercı́cio. Uma partı́cula de massa m > 0 se move em uma dimensão sob um potencial
kx2
U(x) = com k > 0 (potencial do oscilador harmônico). Além disso, a partı́cula está submetida a uma
2
força externa f (t) que, como a notação indica, pode variar com o tempo.
Suponha que se saiba que no instante dertempo t0 = 0 a partı́cula encontra-se na posição x(t0 ) = 0 e que
π k
no instante de tempo t1 = , onde ω = , a partı́cula encontra-se novamente na posição x(t1 ) = 0.
2ω m
Determine a função de Green para o problema de Sturm associado ao problema mecânico acima e
determine a trajetória x(t) da partı́cula para t ∈ [t0 , t1 ] para os seguintes tipos de força:
a) f (t) = At, para A > 0, constante e
b) f (t) = B sin(ωt), para B > 0, constante. 6
E. 12.27 Exercı́cio. Para cada um dos casos do Exercı́cio E. 12.26, expresse a função de Green do
problema de Sturm correspondente usando a fórmula de Mercer, ou seja, em termos de uma série envolvendo
as auto-funções normalizadas e os auto-valores:
X∞
un (x)un (y)
G(x, y) = − .
n=1
λ n
E. 12.28 Exercı́cio. Seja o problema de Sturm-Liouville u′′ + λu = 0, no intervalo [0, 1], com as
condições de contorno u(0) = 0 e β1 u(1) + β2 u′ (1) = 0.
a. Determine os auto-valores positivos no caso β1 = 0, no caso β2 = 0 e indique como determiná-los
no caso em que ambos β1 e β2 são não-nulos. Determine as auto-funções em cada situação.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 12 722/1461
b. Que relação devem satisfazer as constantes β1 e β2 para que λ = 0 seja um auto-valor? Determine
a auto-função correspondente.
c. Que relação devem satisfazer as constantes β1 e β2 para que haja também auto-valores λ negativos?
Quantos são os auto-valores negativos, se os houver? Determine suas auto-funções, se as houver.
d. Reunindo os resultados obtidos, indique no plano Cartesiano (β1 , β2 ) a região onde os auto-valores
são estritamente positivos, a região onde ocorre o auto-valor zero e a região onde ocorrem auto-valores
negativos além dos auto-valores positivos.
Nota. Em a, b e c não é necessário normalizar as auto-funções. 6
são as soluções gerais de (xu′ )′ + λx u = 0. Mostre, daı́, que as auto-funções são da forma
un (x) = cn sen(nπ ln x) ,
(ex u′ )′ + λex u = 0 ,
c. Usando a fórmula de Mercer, expresse função de Green em termos de uma série envolvendo os
auto-valores e as auto-funções normalizadas.
d. Determine explicitamente a solução da equação diferencial
para uma função u definida no intervalo [a, b] ⊂ R, a < b, satisfazendo as condições de contorno
α1 u(a) + α2 u′(a) = 0 ,
β1 u(b) + β2 u′ (b) = 0 ,
onde p, q e f são funções reais; p é contı́nua, diferenciável e estritamente positiva em [a, b]; q e f são
contı́nuas em [a, b].
a. Mostre que o produto p(x)W (x) é constante, onde W (x) é o determinante Wronskiano das soluções
da equação homogênea (p(x)v ′ )′ + q(x)v = 0 satisfazendo α1 v1 (a) + α2 v1′ (a) = 0, β1 v2 (b) + β2 v2′ (b) = 0.
b. Mostre que a função de Green desse problema satisfaz
1
lim Gx (x + ǫ, x) − Gx (x − ǫ, x) = ,
ǫ→0 p(x)
e 1
lim Gx (x, x − ǫ) − Gx (x, x + ǫ) = .
ǫ→0 p(x)
Lx [G](x, y) = δ(x − y) ,
∂ ∂
sendo Lx [G](x, y) = ∂x
p(x) ∂x G(x, y) + q(x)G(x, y). 6
y ′′ (x) = f (x)
y ′′ (x) + λxy(x) = 0
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 12 724/1461
√ √
com x √ ∈ [0, 1] e y(0) = y(1) = 0 são dadas por yn (x) = xJ1/3 ( 23 λn x3 ), com λn positivos e satisfazendo
J1/3 ( 23 λn ) = 0.
c. Determine as relações de ortogonalidade entre essas auto-funções. Obtenha as auto-funções norma-
lizadas. Sugestão: use as relações de ortogonalidade das funções de Bessel.
d. Expresse a função de Green do problema de Sturm correspondente usando a fórmula de Mercer.
e. Determine aproximadamente os dois primeiros auto-valores. Sugestão: procure aproximantes da
forma y(2) (x) = c1 x(1 − x) + c2 x2 (1 − x).
f. Obtenha os zeros “exatos” de J1/3 em alguma tabela e compare os resultados, indicando os erros
percentuais.
g. Resolva explicitamente a equação diferencial
com y(0) = 0 e y(1) = 0, γ fixo, γ 6= λn , para todo n, primeiramente para f genérica e depois, explicita-
1
mente, para f (x) = √ . Sugestão: use a identidade
1 − x3
Z 1
1 π h a i2
Jν (au) √ du = Jν ,
0 1 − u2 2 2 2
Apêndices
12.A Prova do Teorema 12.1. Existência e Unicidade
Abaixo faremos uso da notação e de resultados do Capı́tulo 7, página 322.
A equação u′′ + a1 (x)u′ + a0 (x)u = g(x) é equivalente à equação de primeira ordem
Y ′ (x) = A(x)Y (x) + G(x)
onde
y1 (x) 0 1 0
Y (x) =
,
A(x) =
,
G(x) =
,
y2 (x) −a0 (x) −a1 (x) g(x)
com as identificações u(x) = y1 (x), u′ (x) = y2 (x).
A solução é da forma
Z x
Y (x) = D(x, x0 )Yx0 + D(x, y)G(y) dy ,
x0
β1 (A1 u1(b) + A2 u2 (b) + up (b)) + β2 (A1 u′1 (b) + A2 u′2 (b) + u′p (b)) = ϕ2 . (12.A.4)
Esse par de equações pode ser escrito em forma matricial como
α1 u1 (a) + α2 u′1 (a) α1 u2 (a) + α2 u′2 (a) A1 ϕ1 − α1 up (a) − α2 u′p (a)
= . (12.A.5)
β1 u1 (b) + β2 u′1 (b) β1 u2 (b) + β2 u′2 (b) A2 ϕ2 − β1 up (b) − β2 u′p (b)
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 12 726/1461
Essa última equação (cujas incógnitas são A1 e A2 ) tem solução única se e somente se
α1 u1 (a) + α2 u′1 (a) α1 u2 (a) + α2 u′2 (a)
β1 u1 (b) + β2 u′1 (b) β1 u2 (b) + β2 u′2 (b)
Note-se que
′
c11 c12 α1 u1 (a) + α2 u1 (a) α1 u2 (a) + α2 u′2 (a) 0 −1
det
= det
det
6= 0 (12.B.7)
c21 c22 β1 u1(b) + β2 u′1 (b) β1 u2 (b) + β2 u′2 (b) 1 0
por (12.22).
Sejam as funções v1 (x) e v2 (x) definidas por
v1 (x) c11 c12 u1 (x)
= .
v2 (x) c21 c22 u2 (x)
Pela definição,
Lv1 c11 c12 Lu1 0
= = ,
Lv2 c21 c22 Lu2 0
e como
u1 (x) u′1 (x)
det
6= 0 ,
u2 (x) u′2 (x)
Tem-se de (12.B.8)
α1 v1 (x) +α2 v1′ (x) v1 (x) v1′ (x) α1
=
α1 v2 (x) + α2 v2′ (x) v2 (x) v2′ (x) α2
c11 c12 u1 (x) u′1 (x) α1
=
c21 c22 u2 (x) u′2 (x) α2
c11 c12 α1 u1 (x) + α2 u′1 (x)
=
.
c21 c22 α1 u2 (x) + α2 u′2 (x)
Logo,
α1 v1 (a) + α2 v1′ (a) c11 c12 α1 u1 (a) + α2 u′1(a)
=
α1 v2 (a) + α2 v2′ (a) c21 c22 α1 u2 (a) + α2 u′2(a)
c11 c12 −c12
=
c21 c22 c11
0
=
,
(12.B.10)
c11 c22 − c12 c21
Analogamente,
′
β1 v1 (x) + β2 v1 (x) v1 (x) v1′ (x) β1
=
β1 v2 (x) + β2 v2′ (x) v2 (x) v2′ (x) β2
c11 c12 u1 (x) u′1(x) β1
=
c21 c22 u2 (x) u′2(x) β2
c11 c12 β1 u1 (x) + β2 u′1 (x)
=
.
c21 c22 β1 u2 (x) + β2 u′2 (x)
Logo,
β1 v1 (b) + β2 v1′ (b) c11 c12 β1 u1 (b) + β2 u′1 (b)
=
β1 v2 (b) + β2 v2′ (b) c21 c22 β1 u2 (b) + β2 u′2 (b)
c11 c12 −c22
=
c21 c22 c21
−c11 c22 + c12 c21
=
,
(12.B.12)
0
As relações (12.B.11) e (12.B.13) são precisamente o que afirmamos em (12.23) e (12.24). Isso
demonstra o que querı́amos provar sobre a existência e propriedades das funções v1 e v2 .
A última igualdade é apenas o fato de que o determinante de uma matriz não muda quando a trans-
pomos.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 12 731/1461
(x2 u′ )′ + λu = 0 ,
x2 u′′ + 2xu′ + λu = 0 ,
que é uma equação do tipo de Euler, de segunda ordem. A solução pode ser procurada na forma
u(x) = xγ e obtem-se √
−1 ± 1 − 4λ
γ = .
2
Assim, para λ 6= 1/4, tem-se √ √
−1+ 1−4λ −1− 1−4λ
u(x) = Ax 2 + Bx 2 .
Como deseja-se u(1) = 0 tem-se A = −B e, assim,
−1+√1−4λ √
−1− 1−4λ
u(x) = A x 2 −x 2 .
Ambas as condições não podem ser satisfeitas simultaneamente para nenhum λ (pois somando-se ambas
as desigualdades, terı́amos −2 ≥ 0, o que é obviamente falso). Para λ = 1/4 a solução é u(x) =
√1 (A ln x + B) e a condição u(1) = 0 implica B = 0 e, portanto, u(x) = A √1 ln x, que não é finita em
x x
x = 0, exceto no caso trivial em que A = 0. Logo, o problema tratado não tem solução para nenhum
auto-valor.
Z b Z b
λ 2
|u(x)| r(x) dx = |u′(x)|2 p(x) − |u(x)|2q(x) dx
a a
h i
′ ′
+ p(a) Re u(a)u (a) − p(b) Re u(b)u (b) . (12.E.15)
e
p(b) Re u(b)u′ (b) = −γ2 |u(b)|2 . (12.E.17)
A demonstração é a seguinte. A função u satisfaz no ponto a
α1 u(a) + α2 u′(a) = 0 .
para qualquer constante γ1 , pois ambos os lados são nulos. Isso provou (12.E.16). A demonstração de
(12.E.17) é análoga, escolhendo-se γ2 = +p(b) ββ21 , caso β2 6= 0.
Inserindo (12.E.16) e (12.E.17) em (12.E.15) tem-se
Z b Z b
λ 2
|u(x)| r(x) dx = |u′(x)|2 p(x) − |u(x)|2q(x) dx + γ1 |u(a)|2 + γ2 |u(b)|2 . (12.E.18)
a a
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 12 733/1461
Essa última expressão será nosso ponto de partida para mostrar que os auto-valores λ são limitados
inferiormente, ou seja, que existe uma constante M ∈ R tal que λ ≥ M.
Note-se que γ1 e γ2 são números reais que tanto podem ser positivos quanto negativos. Vamos
considerar os quatro casos possı́veis: 1. γ1 ≥ 0 e γ2 ≥ 0; 2. γ1 < 0 e γ2 ≥ 0; 3. γ1 ≥ 0 e γ2 < 0; 4.
γ1 < 0 e γ2 < 0.
Caso 1. γ1 ≥ 0 e γ2 ≥ 0.
Nesse caso tem-se de (12.E.18) que
Z b Z b
2
λ |u(x)| r(x) dx ≥ − |u(x)|2q(x) dx ,
a a
Rb
pois γ1 |u(a)|2 + γ2 |u(b)|2 ≥ 0 e|u′(x)|2 p(x)dx ≥ 0, pois p(x) > 0. Logo,
a
Z b Z b
2 2 q(x)
|u(x)| q(x) dx |u(x)| − r(x) dx
a a r(x)
λ ≥ −Z b = Z b . (12.E.19)
2 2
|u(x)| r(x) dx |u(x)| r(x) dx
a a
Sejam agora
Q = max q(x), R1 = max r(x), e R2 = min r(x) .
x∈[a, b] x∈[a, b] x∈[a, b]
Em resumo,
0, se Q = 0
q(x)
Q
− ≥ B := − , se Q < 0 . (12.E.20)
r(x)
R1
− Q , se Q > 0
R2
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 12 734/1461
Retornando a (12.E.19)
Z b
|u(x)|2 Br(x) dx
λ ≥ Za b
= B,
2
|u(x)| r(x) dx
a
onde B está definida em (12.E.20). Adotando M = B para esse caso, obtemos o que se queria provar.
Caso 2. γ1 < 0 e γ2 ≥ 0.
Nesse caso tem-se de (12.E.18) que
Z b Z b
λ 2
|u(x)| r(x) dx ≥ |u′ (x)|2 p(x) − |u(x)|2 q(x) dx + γ1 |u(a)|2 , (12.E.21)
a a
pois γ2 |u(b)|2 ≥ 0.
No Apêndice 12.F, página 736, demonstramos a seguinte desigualdade, válida para todo x ∈ [a, b]
e todo ǫ > 0: Z b Z b
2 ′ 2
|u(x)| ≤ ǫ |u (y)| dy + ξ(ǫ) |u(y)|2r(y) dy , (12.E.22)
a a
onde
1 1 1
ξ(ǫ) = + ,
R2 b−a ǫ
R2 sendo definido como acima: R2 = min r(x).
x∈[a, b]
Tomando x = a, temos
Z b Z b
2 ′ 2
γ1 |u(a)| ≥ γ1 ǫ |u (y)| dy + γ1 ξ(ǫ) |u(y)|2r(y) dy ,
a a
sendo que a desigualdade se inverteu pois γ1 < 0, por hipótese. Inserindo isso em (12.E.21), tem-se
Z b Z b Z b
2 ′ 2
λ |u(x)| r(x) dx ≥ (p(x) + γ1 ǫ) |u (x)| dx + (γ1 ξ(ǫ)r(x) − q(x)) |u(x)|2 dx .
a a a
Até agora não fixamos o valor de ǫ. Vamos agora escolhê-lo pequeno o suficiente de modo que
p(x) + γ1 ǫ ≥ 0 ,
para todo x ∈ [a, b]. Isso é sempre possı́vel, pois, por hipótese p(x) > 0 para todo x ∈ [a, b]. Com
Rb
essa escolha a integral a (p(x) + γ1 ǫ) |u′(x)|2 dx é positiva e podemos escrever
Z b Z b Z b
2 q(x)
2
λ |u(x)| r(x) dx ≥ (γ1 ξ(ǫ)r(x) − q(x)) |u(x)| dx = γ1 ξ(ǫ) − |u(x)|2 r(x) dx .
a a a r(x)
Com o uso de (12.E.20) isso fica
Z b Z b
2
λ |u(x)| r(x) dx ≥ (γ1 ξ(ǫ) + B) |u(x)|2 r(x) dx ,
a a
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 12 735/1461
o que implica
λ ≥ (γ1 ξ(ǫ) + B) .
Adotando-se M = (γ1 ξ(ǫ) + B) para esse caso, obtemos que querı́amos provar.
Caso 3. γ1 ≥ 0 e γ2 < 0.
Esse caso é totalmente análogo ao caso 2, e não precisa ser considerado em detalhe.
Caso 4. γ1 < 0 e γ2 < 0.
Esse caso é também análogo ao caso 2, mas trataremos dos detalhes. De (12.E.18) temos
Z b Z b
λ 2
|u(x)| r(x) dx ≥ |u′ (x)|2 p(x) − |u(x)|2 q(x) dx + γ1 |u(a)|2 + γ2 |u(b)|2 . (12.E.23)
a a
sendo que a desigualdade se inverteu pois γ1 < 0 e γ2 < 0, por hipótese. Inserindo isso em (12.E.21),
tem-se
Z b Z b Z b
2 ′ 2
λ |u(x)| r(x) dx ≥ (p(x) + (γ1 + γ2 )ǫ) |u (x)| dx + ((γ1 + γ2 )ξ(ǫ)r(x) − q(x)) |u(x)|2 dx.
a a a
Até agora não fixamos o valor de ǫ. Vamos agora escolhê-lo pequeno o suficiente de modo que
p(x) + (γ1 + γ2 )ǫ ≥ 0 ,
para todo x ∈ [a, b]. Isso é sempre possı́vel, pois, por hipótese p(x) > 0 para todo x ∈ [a, b]. Com
Rb
essa escolha a integral a (p(x) + (γ1 + γ2 )ǫ) |u′(x)|2 dx é positiva e podemos escrever
Z b Z b
2
λ |u(x)| r(x) dx ≥ ((γ1 + γ2 )ξ(ǫ)r(x) − q(x)) |u(x)|2 dx
a a
Z b
q(x)
= (γ1 + γ2 )ξ(ǫ) − |u(x)|2 r(x) dx.
a r(x)
Com o uso de (12.E.20) isso fica
Z b Z b
2
λ |u(x)| r(x) dx ≥ ((γ1 + γ2 )ξ(ǫ) + B) |u(x)|2 r(x) dx ,
a a
o que implica
λ ≥ ((γ1 + γ2 )ξ(ǫ) + B) .
Adotando-se M = ((γ1 + γ2 )ξ(ǫ) + B) para esse caso, isto é o que querı́amos provar.
Com isso a demonstração do Teorema 12.3 está completa.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 12 736/1461
Agora,
Z x Z x ′ Z x Z x
2 ′ ′
|u(y)| dy = u(y)u(y) dy = u′(y)u(y) + u(y)u (y) dy = 2 Re u′(y)u(y) dy .
x0 x0 x0 x0
Assim, Z
x
|u(x)| ≤ |u(x0 )| + 2 Re
2 2
u′ (y)u(y) dy .
x0
e que Z Z b
x
′ 2
|u (y)| dy ≤ |u′(y)|2 dy ,
x0 a
já que ao passarmos de uma integral em [x0 , x] a uma integral em [a, b] estamos em geral aumentando
o intervalo de integração e, em ambos os casos, o integrando é positivo.
Assim,
Z b 1/2 Z b 1/2
2 2 2 ′ 2
|u(x)| ≤ |u(x0 )| + 2 |u(y)| dy |u (y)| dy .
a a
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 12 737/1461
√ √ 2
Se A e B são dois números positivos, é fácil provar a partir de A− B ≥ 0, que
√ √
2 A B ≤ A+B .
Rb Rb
Usando isso em (12.F.24) com A = 1ǫ a |u(y)|2 dy e B = ǫ a |u′ (y)|2 dy, tem-se
Z b Z b
1
2
|u(x)| ≤ |u(x0 )| + 2
|u(y)| dy + ǫ 2
|u′ (y)|2 dy . (12.F.25)
ǫ a a
Até aqui x0 era um ponto arbitrário do intervalo [a, b]. Vamos escolhê-lo agora de modo que x0 seja
o ponto onde |u(x)| assume seu menor valor nesse intervalo: |u(x0 )| = min |u(x)|. Um tal ponto x0
x∈[a, b]
sempre existe, pois |u(x)| é contı́nua e [a, b] é um intervalo compacto. Com isso teremos, obviamente,
Z b
|u(y)|2 dy ≥ (b − a)|u(x0 )|2 ,
a
ou seja, Z b
1 2
|u(x0 )| ≤ |u(y)|2 dy .
b−a a
Seja agora r uma função contı́nua qualquer definida em [a, b] com r(y) > 0 para todo y ∈ [a, b].
r(y)
Definindo-se como antes R2 = min r(y) teremos ≥ 1 , para todo y ∈ [a, b]. Inserindo isso na
y∈[a, b] R2
segunda integral de (12.F.26), aquela expressão fica
Z b Z b
2 ′ 2 1 1 1
|u(x)| ≤ ǫ |u (y)| dy + + |u(y)|2r(y) dy . (12.F.27)
a R2 b − a ǫ a
A teoria das equações diferenciais ordinárias depende, sob diversos aspectos, de resultados
procedentes da teoria das equações integrais. Tal fato é notável na demonstração do Teorema
de Picard-Lindelöff, Teorema 5.2, página 297, que garante condições de existência e unicidade
para equações diferenciais ordinárias, e cuja demonstração, apresentada na Seção 18, página
994 (vide Teorema 18.4, página 1015), envolve um procedimento iterativo de resolução de uma equação
integral do tipo de Volterra. Além do seu interesse intrı́nseco, essa relação estreita com equações
diferenciais ordinárias é o principal motivo para o estudo de equações integrais.
Equações integrais diferem de equações diferenciais por envolverem integrais, e não derivadas, de
uma função incógnita. Certas equações integrais são diretamente relacionadas a problemas de valor
inicial o problemas de contorno de equações diferenciais ordinárias, notadamente as equações de in-
tegrais de Fredholm1 e de Volterra2 . Nesta breve introdução às equações integrais apresentaremos
as definições básicas e discutiremos com certo detalhe o tratamento de equações integrais lineares de
Fredholm usando o chamado método dos determinantes de Fredholm. Métodos iterativos para a re-
solução de equações integrais de Fredholm e de Volterra serão apresentados no Capı́tulo 18, página 994.
Vide para tal especialmente a Seção 18.3, página 1005.
A existência de métodos itarativos para a resolução de equações integrais (e, portanto, das equações
diferenciais a elas eventualmente associadas) reveste-se de interesse prático por ser um atrativo à re-
solução numérica de tais problemas. Históricamente o estudo de equações integrais foi de grande im-
portância, tendo engendrado diversos desenvolvimentos na Matemática, como o nascimento da Análise
Funcional no inı́cio do Século XX.
Alguns fatos essenciais sobre as equações integrais de Fredholm e de Volterra podem ser encontrados
em [153]. Para um estudo mais detalhado, vide [144] e, em especial para a equação integral de Volterra,
vide [102]. Passemos às principais definições.
1
Erik Ivar Fredholm (1866-1927).
2
Vito Volterra (1860-1940).
738
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 13 739/1461
13.1 Descrição
Dada uma função de três variáveis K : [a, b] × [a, b] × C → C e uma função de uma variável
f : [a, b] → C, a expressão
Z b
K x, y, u(y) dy = f (x) (13.1)
a
define uma equação denominada equação integral de Fredholm de primeiro tipo para a função incógnita
u. A expressão Z b
u(x) = f (x) + K x, y, u(y) dy (13.2)
a
define uma equação denominada equação integral de Fredholm de segundo tipo para a função incógnita
u. As equações de segundo tipo são freqüentente denominadas simplesmente equações integrais de
Fredholm, pois são mais comuns que a de primeiro tipo.
A expressão Z x
K x, y, u(y) dy = f (x) (13.3)
a
define uma equação denominada equação integral de Volterra de primeiro tipo para a função incógnita
u. A expressão Z x
u(x) = f (x) + K x, y, u(y) dy (13.4)
a
define uma equação denominada equação integral de Volterra de segundo tipo para a função incógnita
u. As equações de segundo tipo são freqüentente denominadas simplesmente equações integrais de
Volterra, pois são mais comuns que a de primeiro tipo.
Note-se que as equações de Volterra diferem das de Fredholm pois o limite de integração é variável.
Assim, as equações de Volterra são um caso particular das de Fredholm para funções K que satisfazem
K(x, y, u) = 0 sempre que y > x.
Nos vários casos de acima a equação é dita ser linear se K(x, y, u) for linear em u, ou seja, se for
da forma K(x, y, u) = k(x, y)u. A equação é dita ser homogênea se f for identicamente nula.
Em muitas situações o intervalo [a, b] pode ser substituido pelo intervalo infinito R ou por um
intervalo semi-infinito, como R+ . Hipóteses a respeito das funções K e f são por vezes necessárias para
que as equações façam sentido ou para garantir existência e/ou unicidade de solução. Por exemplo, as
diversas equações acima não farão sentido se K não for integrável em y no intervalo [a, b]. Analoga-
mente, é preciso definir precisamente em que sentido uma solução u é procurada, se em todo ponto x
do intervalo [a, b] ou de R – em cujo caso falamos de soluções clássicas da equação integral – ou se a
solução é procurada, por exemplo, entre as funções de quadrado integrável ou em um espaço de Banach
conveniente ao problema considerado.
Como dissemos, algumas equações integrais são fortemente relacionadas a problemas de equações
diferenciais ordinárias. Seja, por exemplo, a equação diferencial de primeira ordem ẏ(t) = F (t, y(t))
com a condição inicial y(0) = y0 . Integrando ambos os lados da equação de 0 e t, obtemos
Z t
y(t) = y0 + F (τ, y(τ ))dτ ,
0
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 13 740/1461
que é uma equação integral de Volterra de segundo tipo para a função y(t). No Capı́tulo 12, página 688,
vemos que o chamado problema de Sturm-Liouville, um problema de equações diferenciais ordinárias
de segunda ordem envolvendo condições de contorno nos extremos de um intervalo [a, b], pode ser
transformado em um problema envolvendo uma equação integral de Fredholm linear de segundo tipo.
Sob hipóteses adequadas as equações integrais de Fredholm lineares de segundo tipo podem ser
resolvidas por um método denominado método dos determinantes de Fredholm, o qual apresentamos
na Seção 13.2, página 741. As equações de Volterra de segundo tipo (assim como certas equações de
Fredholm de segundo tipo) podem ser resolvidas por métodos iterativos. Tais desenvolvimentos serão
estudados no Capı́tulo 18, página 994. Vide para tal especialmente a Seção 18.3, página 1005.
Façamos aqui brevemente a observação que, sob certas hipóteses, uma equação de Volterra linear
de primeiro tipo pode ser transformada em uma equação de Volterra linear de segundo tipo e tratada,
então, pelos métodos iterativos disponı́veis para a resolução daquelas equações. De fato, seja a equação
de Volterra linear de primeiro tipo
Z x
k(x, y)u(y) dy = f (x) . (13.5)
a
A validade dessa expressão pressupõe que f seja diferenciável, assim como pressupõe que k(x, y) seja
diferenciável em relação a x. Se k(x, x) não se anular em algum ponto da região de interesse, teremos
Z x
f ′ (x) kx (x, y)
u(x) = − u(x) dy ,
k(x, x) a k(x, x)
que é uma equação de Volterra linear de segundo tipo. Caso k(x, x) anule-se em algum ponto da região
de interesse temos uma equação singular que merece tratamento especial. Vide [144] para referências
sobre essa situação.
Um segundo procedimento para transformar a equação
R x de Volterra linear de primeiro tipo (13.5)
em uma de segundo tipo é o seguinte. Defina-se v(x) := a u(s)ds. Então, por integração por partes,
o lado esquerdo de (13.5), fica
Z x Z x Z x
dv
k(x, y) u(y) dy = k(x, y) (y) dy = k(x, x)v(x) − ky (x, y)v(y) dy ,
a a dy a
ou seja,
n
X
hbm , ui − λ hbm , al ihbl , ui = hbm , f i ,
l=1
que deve ser encarada como um sistema linear de equações para as quantidades hbj , ui. Isso talvez
fique mais transparente definindo-se xj ≡ hbj , ui, yj ≡ hbj , f i e kij ≡ hbi , aj i, i, j = 1, . . . , n, com o
que a equação acima fica
n
X
xm − λ kml xl = ym , ou seja, (1 − λk)x = y ,
l=1
3
Salvatore Pincherle (1853-1936). Edouard Jean-Baptiste Goursat (1858-1936).
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 13 742/1461
x1 y1
.
sendo x = .. , y = ... e k sendo a matriz formada pelos elementos kij . A solução dessa equação
xn yn
em forma matricial é x = (1 − λk)−1 y, caso a inversa de 1 − λk exista (o que será encarado como uma
restrição para λ).
Vamos agora cuidar de encontrar uma forma conveniente de expressar essa relação com uso da
regra de Laplace, expressão (3.11), página 157, para o cálculo de inversa de matrizes: para uma matriz
invertı́vel A vale
Men(A)ji
A−1 ij = (−1)i+j , (13.8)
det(A)
onde Men(A)ij é o determinante da matriz (n − 1) × (n − 1) obtida eliminando-se a i-ésima linha e a
j-ésima coluna da matriz A. (A matriz Men(A) é por vezes denominada matriz dos menores de A).
Temos que assim que
n
X X n
1
xi = (1 − λk)−1 yj = (−1)i+j yj Men(1 − λk)ji .
j=1
ij det(1 − λk) j=1
Pn
Por (13.7), a solução u(x) é dada por u(x) = f (x) + λ l=1 al (x)xl e, assim,
XX n n
λ
u(x) = f (x) + (−1)l+j yj Men(1 − λk)jl al (x) .
det(1 − λk) l=1 j=1
Portanto, Z b
u(x) = f (x) + λ Kn (x, y; λ)f (y) dy , (13.9)
a
onde n n
1 XX
Kn (x, y; λ) := (−1)l+j bj (y)Men(1 − λk)jl al (x) . (13.10)
det(1 − λk) l=1 j=1
É bastante claro pelas expressões acima que Kn (x, y; λ) é a razão de dois polinômios em λ. Mais
especificamente, vale para Kn (x, y; λ) a seguinte expressão
Kn (x, y; λ) =
k(x, y) k(x, y1 ) · · · k(x, ym )
Z Z
1 n−1
X (−λ) m b b k(y1 , y) k(y1 , y1 ) · · · k(y1 , ym )
k(x, y) + · · · det dy1 · · · dym
det(1 − λk)
m=1
m! a a
.. .. ..
. . .
k(ym , y) k(ym , y1 ) · · · k(ym , ym )
(13.11)
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 13 743/1461
onde
k(y1 , y1 ) · · · k(y1 , ym )
n
X Z Z
(−λ)m b b . .
det(1 − λk) = 1 + ···
det .. .. dy1 · · · dym .
(13.12)
m=1
m! a a
k(ym , y1 ) · · · k(ym , ym )
Os determinantes que aparecem nas duas expressões acima são denominados determinantes de
Fredholm e as expressões acima são denominadas fórmulas dos determinantes de Fredholm, em honra a
seu descobridor. Suas demonstrações que, infelizmente, são bastante complexas, podem ser encontradas
em toda sua glória no Apêndice 13.A, página 750.
Resumindo nossas conclusões até aqui, vimos que a solução da equação de Fredholm linear não-
X n
homogênea (13.6) para núcleos k na forma de uma soma finita k(x, y) = al (x)bl (y), as funções al
l=1
e bl sendo contı́nuas em [a, b], é dada por
Z b
u(x) = f (x) + λ Kn (x, y; λ)f (y) dy , (13.13)
a
com Kn definida em (13.11) e (13.12).
A questão importante que se coloca agora é saber se podemos tomar o limite n → ∞ nas expressões
∞
X
acima, obtendo soluções de (13.6) para núcleos da forma k(x, y) = al (x)bl (y), supondo que essa
l=1
série seja uniformemente convergente e que, como acima, as funções al e bl sejam todas contı́nuas.
A resposta a essa questão é obtida primeiramente mostrando que, sob as hipóteses acima, os limites
n → ∞ de (13.11) e de (13.12) existem e, em seguida, provando que a expressão obtida tomando-se
o limite n → ∞ no lado direito de (13.13) é, de fato, uma solução da equação (13.6). Para a prova
de convergência necessitamos de uma boa estimativa para o crescimento com n de determinantes de
matrizes n × n e a estimativa que se faz útil é a estimativa de Hadamard4 , equação (3.99), enunciada
no Teorema 3.28, página 232: para toda matriz A ∈ Mat (C, n) vale
n
n/2
| det(A)| ≤ n max |Aij | .
ij
Como k(x, y) é contı́nua em [a, b] × [a, b], por hipótese, então seu módulo possui um máximo k0 ≥ 0.
Com uso da estimativa de Hadamard, concluı́mos de (13.12) que
Xn
|(b − a)k0 λ|m m/2
| det(1 − λk)| ≤ m .
m=0
m!
Pelo critério da razão, o limite n → ∞ convergirá se |am+1 /am | < 1 para todo m grande o suficiente,
m
sendo am = |(b−a)km!
0 λ|
mm/2 . Agora,
1 m/2
am+1 1 +
m
am ≤ |(b − a)k0 λ| (m + 1)1/2 .
4
Jacques Salomon Hadamard (1865-1963).
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 13 744/1461
m √
1
Como lim 1 + = e, o lado direito aproxima-se de |(b − a)k0 λ| (m+1)e 1/2 para m grande. Segue,
m→∞ m
portanto, que lim |am+1 /am | = 0 para todo λ ∈ C.
m→∞
Concluı́mos que, para todo λ ∈ C, o limite lim det(1 − λk) existe e define uma função inteira (ou
n→∞
seja, analı́tica em toda parte) de λ ∈ C. Essa função é tradicionalmente denotada por D(λ):
k(y1 , y1 ) · · · k(y1 , ym )
∞ Z Z
X (−λ) m b b
D(λ) := 1 + ··· det .
. .
. dy1 · · · dym . (13.14)
m! . .
m=1 a a
k(ym , y1 ) · · · k(ym , ym )
De forma totalmente análoga prova-se a convergência absoluta para todo λ ∈ C da soma do lado
direito de (13.11). Assim,
k(x, y) k(x, y1 ) · · · k(x, ym )
∞ m Z b Z b
k(y , y) k(y , y ) · · · k(y , y )
X (−λ) 1 1 1 1 m
D(x, y; λ) := k(x, y)+ · · · det
dy1 · · · dym ,
m=1
m! a a .
. .
. .
.
. . .
k(ym , y) k(ym , y1 ) · · · k(ym , ym )
(13.15)
existe e é uma função inteira de λ ∈ C, Portanto, para K(x, y; λ) = lim Kn (x, y; λ), tem-se
n→∞
D(x, y; λ)
K(x, y; λ) = ,
D(λ)
que é uma função meromórfica de λ ∈ C (ou seja, é a razão de duas funções inteiras de λ), definida
para todo λ ∈ C com D(λ) 6= 0.
Com essa expressão, somos estimulados a crer que a solução da equação de Fredholm não-homogênea
X∞
(13.6) para k(x, y) = al (x)bl (y), supondo que essa série seja uniformemente convergente e que as
l=1
funções al e bl sejam todas contı́nuas, seja dada por (vide (13.13))
Z b
λ
u(x) = f (x) + D(x, y; λ)f (y) dy . (13.16)
D(λ) a
Note que a expressão acima não está definida nos pontos λ ∈ C em que D(λ) = 0. Como D é uma
função inteira, esses pontos formam um conjunto discreto. Que de fato essa é a solução procurada
será conseqüência do próximo lema, o qual também será empregado de forma importante mais adiante
quando tratarmos da equação de Fredholm linear e homogênea (Seção 13.2.2, página 746).
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 13 745/1461
Podemos agora provar que o lado direito de (13.16) é solução de (13.6). Escrevendo (13.16) como
λ
Rb
u(z) = f (z) + D(λ) a
D(z, y; λ)f (y) dy, multiplicando ambos os lados por λk(x, z), integrando em z
e somando f (x), temos
Z b Z b Z bZ b
λ2
f (x) + λ k(x, z)u(z)dz = f (x) + λ k(x, z)f (z)dz + k(x, z)D(z, y; λ)f (y)dydz
a a D(λ) a a
Z b
(13.17)
= f (x) + λ k(x, z)f (z) dz
a
Z b
λ
+ D(x, y; λ) − D(λ)k(x, y) f (y) dy
D(λ) a
Z b
λ
= f (x) + D(x, y; λ)f (y) dy
D(λ) a
= u(x) ,
provando que u satisfaz (13.6).
∞
X
Devemos notar ainda que a forma k(x, y) = al (x)bl (y) é bastante geral. Toda função de duas
l=1
variáveis reais, contı́nua em [a, b] × [a, b], pode ser escrita assim para uma escolha conveniente de
al ’s e bl ’s contı́nuas e de modo que a série convirja uniformemente. Por exemplo, al ’s e bl ’s podem ser
tomados como polinômios ortonormais em algum espaço de funções de quadrado integrável em [a, b].
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 13 746/1461
constatamos que os dois primeiros termos do lado direito são analı́ticos em λ = λn , enquanto que o
lado esquerdo e o último termo do lado direito têm um pólo de ordem 1 nesse ponto. Calculando os
resı́duos de ambos os lados, concluı́mos que a função
1
wn (x, y) := Res K(x, y; λ) = dq −1 (x, y)
λ=λn aqn n
satisfaz Z b
wn (x, y) = λn k(x, z)wn (z, y) dz .
a
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 13 747/1461
Portanto, para um y fixo, a função wn (x, y) é uma solução da equação de Fredholm linear homogênea
com auto-valor λn . Note que dqn−1 (x, y) não pode ser identicamente nula, devido a (13.21) e ao fato
que aqn 6= 0, por hipótese.
Em resumo, as soluções da equação de Fredholm linear homogênea com λ = λn , para cada λn que
satisfaça D(λn ) = 0, são obtidas do primeiro coeficiente não-nulo da expansão de Taylor de D(z, y; λ)
em torno de λn .
O tratamento que apresentamos acima, no qual se obtem a solução Pn (13.16) da equação não-
homogênea (13.6), primeiramente para núcleos da forma k(x, y) = l=1 al (x)bl (y) e depois tomando
o limite n → ∞, é originalmente devido a Goursat5 . Em seu trabalho original, Fredholm seguira uma
estratégia ligeiramente distinta6 , primeiro discretizando a equação (13.6), transformando a integral em
uma soma de Riemann, em seguida resolvendo o sistema linear correspondente (quando então surgem
os determinantes) e, por fim, recuperando o limite do contı́nuo. Os passos de Fredholm podem ser
acompanhados na exposição de [153]. Esses desenvolvimentos culminaram com os trabalhos de Hilbert
e Schmidt7 , entre 1904 e 1910, sobre a equação de Fredholm linear homogênea, levando ao nascimento
das noções de espaços de Hilbert e de operadores compactos.
Em teoria, método de Fredholm descrito acima fornece as soluções desejadas, tanto no caso linear
não-homogêneo quanto no linear homogêneo, mas na prática há grandes dificuldades, tanto numéricas
quanto analı́ticas, em lidar com a série de determinantes e suas expansões em série de Taylor, o que di-
ficulta tanto a solução numérica de equações por esse método quanto o estudo abstrato de propriedades
de suas soluções e dos auto-valores. Por isso, o método de Fredholm acabou substituı́do pelos métodos
analı́tico-funcionais provenientes dos trabalhos de Hilbert, Schmidt e outros. Mais sobre isso será estu-
dado no Capı́tulo 26, página 1249, quando desenvolvermos a teoria dos operadores compactos (Seção
26.6, página 1339). Independente disso, os trabalhos de Hilbert e colaboradores engendraram uma
série de desenvolvimentos que alcançaram de modo marcante a Fı́sica quando do advento da Mecânica
Quântica, levando também ao nascimento da Análise Funcional e das Álgebras de Operadores, áreas
de grande importância na Matemática. Para uma história da Análise Funcional, vide [35].
5
Edouard Jean-Baptiste Goursat (1858-1936). O mencionado trabalho de Goursat é “Sur um cas élémentaire de
l’equation de Fredholm”. Bull. Soc. math. France, vol. 35, 163-173 (1907).
6
Erik Ivar Fredholm (1866-1927). O mencionado trabalho de Fredholm é “Sur une class d’equations fonctionelles”,
Acta Math. 27, 365-390 (1903).
7
Erhard Schmidt (1876-1959).
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 13 748/1461
E. 13.2 Exercı́cio. Usando o método dos determinantes de Fredholm mostre que a solução da equação
integral de Fredholm Z b
u(x) = f (x) + λ y u(y) dy ,
a
2 2
com f não-identicamente nula e λ 6= 2/(b − a ), é dada por
Z b
λ
u(x) = f (x) + b2 −a2
y f (y) dy .
1−λ 2 a
E. 13.3 Exercı́cio. Usando o método dos determinantes de Fredholm mostre que a solução da equação
integral de Fredholm Z b
u(x) = f (x) + λ xy u(y) dy ,
a
E. 13.4 Exercı́cio. De [153]. Usando o método dos determinantes de Fredholm mostre que a solução da
equação integral de Fredholm
Z 1
u(x) = f (x) + λ (xy + y 2) u(y) dy ,
0
Determine os valores de λ para os quais a equação homogênea (ou seja, para f ≡ 0) tem soluções não
triviais e determine essas soluções. 6
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 13 750/1461
Apêndices
13.A Obtendo os Determinantes de Fredholm
As regras de cálculo de determinantes (relações (3.12)-(3.13), página 158) ensinam-nos que a soma
Xn
bj (y)(−1)l+j Men(1 − λk)jl al (x), que ocorre no lado direito de (13.10), é igual ao determinante
j=1
da matriz !obtida substituindo-se a l-ésima coluna da matriz 1 − λk pelo vetor-coluna b(y)al (x) =
b1 (y)al (x)
... . Assim, denotando por ki a i-ésima coluna da matriz k e empregando os vetores da base
bn (y)al (x) 1 0
0 0
canônica de e1 = 0. , . . . , en = ... para denotar as colunas da matriz 1, podemos escrever,
.. 0
0 1
usando a multilinearidade do determinante (linearidade em relação a cada coluna), que
1 X hh n ii
Kn (x, y; λ) = det e1 − λk1 , . . . , b(y)al (x), . . . , en − λkn
det(1 − λk) l=1
1 Xn Xn−1 X hh ii
= (−λ)m det e1 , . . . , kj1 . . . , b(y)al (x), . . . , kjm . . . , en ,
det(1 − λk) l=1 m=0 1≤j <···<jm ≤n
1
ja 6=l, ∀a=1, ..., m
(13.A.1)
hh ii
onde a matriz e1 , . . . , kj1 . . . , b(y)al (x), . . . , kjm , . . . , en possui os vetores kjq nas jq -ésimas
colunas, o vetor bl (y)a(x) na l-ésima, e os vetores ei em cada i-ésima coluna restante. Recordando
Rb Rb
agora a definição kpq = hbp , aq i = a bp (y)ap (y)dy, podemos escrever kq = a b(yq )aq (yq )dyq . Assim,
hh ii
det e1 , . . . , kj1 , . . . , b(y)al (x), . . . , kjm , . . . , en
Z b Z b hh ii
= ··· det e1 , . . . , b(yj1 )aj1 (yj1 ), . . . , b(y)al (x), . . . , b(yjm )ajm (yjm ), . . . , en dyj1 · · · dyjm .
a a
(13.A.2)
hh ii
det e1 , . . . , b(yj1 )aj1 (yj1 ), . . . , b(y)al (x), . . . , b(yjm )ajm (yjm ), . . . , en
hh ii
= aj1 (yj1 ) · · · al (x) · · · ajm (yjm ) det b(yj1 ), . . . , b(y), . . . , b(yjm ) ,
j1 , ..., l, ..., jm
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 13 751/1461
hh ii
onde b(yj1 ), . . . , b(y), . . . , b(yjm ) é a matriz (m + 1) × (m + 1) obtida preservando
j1 , ..., l, ..., jm
apenas as ja -ésimas, a = 1, . . . , m, e l-ésimas linhas e colunas da matriz n × n
hh ii
e1 , . . . , b(yj1 ), . . . , b(y), . . . , b(yjm ), . . . , en
hh ii
e eliminando as demais. Nessa nova matriz reduzida b(yj1 ), . . . , b(y), . . . , b(yjm ) , o
j1 , ..., l, ..., jm
vetor coluna b(y) aparece na c-ésima posição, onde c pode ser determinado em função de l e dos jk ’s,
não nos importando, porém, como.
Os fatores aj1 (yj1 ) · · · al (x) · · · ajm (yjm ) foram tirados de dentro do determinante pois cada um mul-
tiplica uma coluna da matriz.
Podemos agora reinserir os fatores aj1 (yj1 ) · · · al (x) · · · ajm (yjm ) no determinante, mas fazendo que
cada um agora multiplique uma linha da matriz. O resultado será
bj1 (yj1 )aj1 (yj1 ) · · · bj1 (y)aj1 (yj1 ) · · · bj1 (yjm )aj1 (yj1 )
. . .
.
. .
. .
.
det b (y
l j1 l )a (x) · · · b l (y)a l (x) · · · b (y
l jm l)a (x) .
.. .. ..
. . .
bjm (yj1 )ajm (yjm ) · · · bjm (y)ajm (yjm ) · · · bjm (yjm )ajm (yjm )
Nosso próximo passo é mover a c-ésima coluna da matriz acima (trata-se da coluna que contém
os fatores bj1 (y), . . . , bl (y), . . . , bjm (y)) para a posição da primeira coluna e a c-ésima linha (a que
contém os fatores al (x)) para a posição da primeira linha. Como esses movimentos são feitos com
(−1)c × (−1)c transposições, o valor do determinante não se altera. Ficamos assim com
bl (y)al (x) bl (yj1 )al (x) ··· bl (yjm )al (x)
b (y)a (y ) b (y )a (y ) · · · b (y )a (y )
j1 j1 j1 j1 j1 j1 j1 j1 jm j1 j1
det
.
.. .. ..
. . .
bjm (y)ajm (yjm ) bjm (yj1 )ajm (yjm ) · · · bjm (yjm )ajm (yjm )
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 13 752/1461
bl (y)al (x) bl (yj1 )al (x) ··· bl (yjm )al (x)
Z b Z b b (y)a (y ) b (y )a (y ) · · · b (y )a (y )
j1 j1 j1 j1 j1 j1 j1 j1 jm j1 j1
··· det
dyj1 · · · dyjm
a a .. .. ..
. . .
bjm (y)ajm (yjm ) bjm (yj1 )ajm (yjm ) · · · bjm (yjm )ajm (yjm )
bl (y)al (x) bl (y1 )al (x) ··· bl (ym )al (x)
Z b Z b bj1 (y1 )aj1 (y1) · · · bj1 (ym )aj1 (y1 )
bj1 (y)aj1 (y1 )
= ··· det
dy1 · · · dym , (13.A.3)
a a .. .. ..
. . .
bjm (y)ajm (ym ) bjm (y1 )ajm (ym ) · · · bjm (ym )ajm (ym )
onde fizemos as renomeações de variáveis yja → ya para todo a = 1, . . . , m. Note o leitor que na matriz
acima, os ı́ndices das funções a e b que ocorrem em cada elemento de matriz são iguais, um fato de
importância crucial, como se verá, e que é a razão de ser das nossas várias manipulações de acima.
Xn X
Retornando a (13.A.1), desejamos agora realizar as somas do determinante acima.
l=1 1≤j1 <···<jm ≤n
ja 6=l, ∀a=1, ..., m
Para facilitar esse cômputo, devemos fazer algumas observações sobre o lado direito de (13.A.3).
Em primeiro lugar, notemos que caso j1 seja igual a l, as duas primeiras linhas da matriz do lado
direito de (13.A.3) são proporcionais uma à outra (a primeira linha é igual à segunda vezes al (x)/al (y1 ))
e, portanto, o determinante se anula. Naturalmente, o mesmo vale caso ja seja igual a l paraX algum
a. O mesmo raciocı́nio se aplica caso dois dos ı́ndices ja sejam iguais. Assim, na soma
1≤j1 <···<jm ≤n
ja 6=l, ∀a=1, ..., m
podemos eliminar a restrição ja 6= l, ∀a = 1, . . X
. , m e podemos aceitar que os ja ’s sejam iguais entre
si. Assim, essa soma pode ser escrita como .
1≤j1 ≤···≤jm ≤n
bl (y)al (x) bl (y1 )al (x) ··· bl (ym )al (x)
m Z b Z b b (y)a (y ) b (y )a (y ) · · · b (y )a (y )
X X j1 j1 1 j1 1 j1 1 j1 m j1 1
··· det
dy1 · · · dym
l=1 1≤j1 ≤···≤jm ≤n a a .
. .
. .
.
. . .
bjm (y)ajm (ym ) bjm (y1 )ajm (ym ) · · · bjm (ym )ajm (ym )
bl (y)al (x) bl (y1 )al (x) ··· bl (ym )al (x)
m n Z b Z b b (y)a (y ) b (y )a (y ) · · · b (y )a (y )
1 X X j 1 j 1 1 j 1 1 j 1 1 j 1 m j 1 1
= ··· det
dy1 · · · dym ,
m! l=1 j , ..., j = 1 a a .
.. .
.. .
..
1 m
bjm (y)ajm (ym ) bjm (y1 )ajm (ym ) · · · bjm (ym )ajm (ym )
fazendo com que as somas sobre os ja ’s sejam independentes. Podemos agora inserir as somas em l e
sobre os ja ’s dentro do determinante (devido à multilinearidade), e o lado direito fica
m m m
X X X
bl (y)al (x) bl (y1 )al (x) ··· bl (ym )al (x)
l=1
n n
l=1
n
l=1
X X X
Z b Z b bj1 (y)aj1 (y1 ) bj1 (y1 )aj1 (y1 ) ··· bj1 (ym )aj1 (y1 )
1
j1 =1
··· det j1 =1 j1 =1 dy1 · · · dym
m! a a .. .. ..
. . .
n
X n
X Xn
b (y)a (y ) bjm (y1 )ajm (ym ) · · · b (y )a (y )
jm jm m jm m jm m
jm =1 jm =1 jm =1
k(x, y) k(x, y1 ) · · · k(x, ym )
Z b Z b k(y , y) k(y , y ) · · · k(y , y )
1 1 1 1 1 m
= ··· det
dy1 · · · dym .
m! a a .
.. .
.. .
..
k(ym , y) k(ym , y1 ) · · · k(ym , ym )
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 13 754/1461
Kn (x, y; λ) =
k(x, y) k(x, y1 ) · · · k(x, ym )
n−1 Z Z k(y , y) k(y , y ) · · · k(y , y )
1 X (−λ) m b b 1 1 1 1 m
k(x, y) + · · · det dy1 · · · dym .
det(1 − λk) m! .. .. ..
m=1 a a . . .
k(ym , y) k(ym , y1 ) · · · k(ym , ym )
hh ii
det(1 − λk) = det e1 − λk1 , . . . , en − λkn
n
X X hh ii
= (−λ)m det e1 , . . . , kj1 , . . . , kjm . . . , en , (13.A.4)
m=0 1≤j1 <···<jm ≤n
hh ii
onde a matriz e1 , . . . , kj1 , . . . , kjm , . . . , en possui os vetores kjq nas jq -ésimas colunas e os vetores
Rb
ei em cada i-ésima coluna restante. Recordando agora a definição kpq = hbp , aq i = a bp (y)ap (y)dy,
Rb
podemos escrever kq = a b(yq )aq (yq )dyq . Assim,
hh ii
det e1 , . . . , kj1 , . . . , kjm , . . . , en
Z b Z b hh ii
= ··· det e1 , . . . , b(yj1 )aj1 (yj1 ), . . . , b(yjm )ajm (yjm ), . . . , en dyj1 · · · dyjm . (13.A.5)
a a
hh ii
det e1 , . . . , b(yj1 )aj1 (yj1 ), . . . , b(yjm )ajm (yjm ), . . . , en
hh ii
= aj1 (yj1 ) · · · ajm (yjm ) det b(yj1 ), . . . , b(yjm ) ,
j1 , ..., jm
hh ii
onde b(yj1 ), . . . , b(yjm ) é a matriz m × m obtida preservando apenas as ja -ésimas, a =
j1 , ..., jm
hh ii
1, . . . , m, linhas e colunas da matriz n × n, e1 , . . . , b(yj1 ), . . . , b(yjm ), . . . , en e eliminando as
demais.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 13 755/1461
Os fatores aj1 (yj1 ) · · · ajm (yjm ) foram tirados de dentro do determinante pois cada um multiplica
uma coluna da matriz.
Podemos agora reinserir os fatores aj1 (yj1 ) · · · ajm (yjm ) no determinante, mas fazendo que cada um
agora multiplique uma linha da matriz. O resultado será
bj1 (yj1 )aj1 (yj1 ) · · · bj1 (yjm )aj1 (yj1 )
.. ..
det
. . .
bjm (yj1 )ajm (yjm ) · · · bjm (yjm )ajm (yjm )
bj1 (yj1 )aj1 (yj1 ) · · · bj1 (yjm )aj1 (yj1 )
Z Z
b b .. ..
··· det
. . dyj1 · · · dyjm
a a
bjm (yj1 )ajm (yjm ) · · · bjm (yjm )ajm (yjm )
bj1 (y1 )aj1 (y1 ) · · · bj1 (ym )aj1 (y1 )
Z b Z b
.. ..
= ··· det
. . dy1 · · · dym , (13.A.6)
a a
bjm (y1)ajm (ym ) · · · bjm (ym )ajm (ym )
onde fizemos as renomeações de variáveis yja → ya para todo a = 1, . . . , m. Note o leitor que na matriz
acima, os ı́ndices das funções a e b que ocorrem em cada elemento de matriz são iguais, um fato de
importância crucial, como se verá, e que é a razão de ser das nossas várias manipulações de acima.
X
Retornando a (13.A.4), desejamos agora realizar as somas do determinante acima. Para
1≤j1 <···<jm ≤n
facilitar esse cômputo, devemos fazer algumas observações sobre o lado direito de (13.A.6).
Em primeiro lugar, notemos que caso dois dos ı́ndices ja sejam iguais as linhas correspondentes
em (13.A.6)
X são proporcionais uma à outra
X e, portanto, o determinante se anula. Assim, na soma
pode ser escrita como .
1≤j1 <···<jm ≤n 1≤j1 ≤···≤jm ≤n
dos ı́ndices j acompanhadas de renomeações das variáveis de integração não alteram a integral do lado
direito de (13.A.6). Como há m! possı́veis permutações distintas, concluı́mos que
bj1 (y1 )aj1 (y1 ) · · · bj1 (ym )aj1 (y1 )
Z Z
X b b
··· det .. .. dy1 · · · dym
. .
1≤j1 ≤···≤jm ≤n a a
bjm (y1)ajm (ym ) · · · bjm (ym )ajm (ym )
bj1 (y1 )aj1 (y1 ) · · · bj1 (ym )aj1 (y1 )
n Z
Z
1 X b b
= ··· det .. .. dy1 · · · dym ,
m! j . .
1 , ..., jm =1 a a
bjm (y1 )ajm (ym ) · · · bjm (ym )ajm (ym )
fazendo com que as somas sobre os ja ’s sejam independentes. Podemos agora inserir as somas sobre os
ja ’s dentro do determinante (devido à multilinearidade), e o lado direito fica
n n
X X
bj1 (y1 )aj1 (y1 ) · · · bj1 (ym )aj1 (y1)
j1 =1
Z b Z b j1 =1
1 .. ..
··· det
. . dy1 · · · dym
m! a a n
X Xn
bjm (y1 )ajm (ym ) · · · b (y )a (y )
jm m jm m
jm =1 jm =1
k(y1 , y1 ) · · · k(y1 , ym )
Z Z
1 b b . .
= ···
det .. .. dy1 · · · dym .
m! a
a
k(ym , y1 ) · · · k(ym , ym )
Grupos
757
Capı́tulo 14
Grupos. Alguns Exemplos
Conteúdo
14.1 O Grupo de Permutações . . . . . . . . . . . . . . . . . . . . . . . . . . . . 759
14.1.1 Ciclos, Transposições e Transposições Elementares . . . . . . . . . . . . . . . 760
14.2 Alguns Grupos Matriciais . . . . . . . . . . . . . . . . . . . . . . . . . . . . 766
14.2.1 Os Grupos GL(n) e SL(n) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 766
14.2.2 O Grupo de Borel e o Grupo de Heisenberg . . . . . . . . . . . . . . . . . . . 769
14.2.3 Grupos Associados a Formas Bilineares e Sesquilineares . . . . . . . . . . . . 777
14.2.4 Os Grupos Ortogonais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 779
14.2.5 Os Grupos Unitários . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 780
14.3 Os Grupos SO(2), SO(3), SU(2) e SL(C, 2) . . . . . . . . . . . . . . . . . 782
14.3.1 Os Grupos SO(2), O(2), SO(1, 1) e O(1, 1) . . . . . . . . . . . . . . . . . . . 782
14.3.2 O Grupo SO(3) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 786
14.3.3 O Grupo SU(2) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 795
14.3.4 A Relação entre SO(3) e SU(2) . . . . . . . . . . . . . . . . . . . . . . . . . . 798
14.3.5 O Grupo SL(C, 2) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 801
14.4 Generalidades sobre os grupos SU(n) e SO(n) . . . . . . . . . . . . . . . . 803
14.4.1 Os Grupos SU(n) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 803
14.4.2 O Grupo SU(3) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 806
14.4.3 Os Grupos SO(n) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 807
14.5 O Grupo Afim e o Grupo Euclidiano . . . . . . . . . . . . . . . . . . . . . . 813
14.6 O Grupo de Lorentz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 819
14.6.1 O Espaço-Tempo, a Noção de Intervalo e a Estrutura Causal . . . . . . . . . 819
14.6.2 A Invariância do Intervalo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 826
14.6.3 O Grupo de Lorentz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 828
14.6.4 Alguns Sub-Grupos do Grupo de Lorentz . . . . . . . . . . . . . . . . . . . . 830
14.6.5 A Estrutura do Grupo de Lorentz . . . . . . . . . . . . . . . . . . . . . . . . 834
14.6.6 Os Geradores do Grupo de Lorentz . . . . . . . . . . . . . . . . . . . . . . . . 839
14.7 O Grupo de Poincaré . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 844
14.8 SL(C, 2) e o Grupo de Lorentz . . . . . . . . . . . . . . . . . . . . . . . . . 849
Apêndices . . . . . . . . . . . . . . . . . . . . 858
14.A Prova do Teorema 14.8 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 858
14.B Um Isomorfismo entre SL(C, 2)/{1, −1} e L↑+ . . . . . . . . . . . . . . . . . 871
758
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 14 759/1461
G rupos são objetos de suma importância na Fı́sica devido à sua relação com transformações de
simetria. A noção abstrata de grupo foi introduzida na Seção 1.2.1, página 49. No presente
capı́tulo introduziremos alguns grupos de particular interesse na Fı́sica e na Matemática
e estudaremos algumas de suas propriedades mais simples e importantes. Com particular
detalhe trataremos do grupo de Lorentz na Seção 14.6, grupo este de fundamental importância na
teoria da relatividade.
E. 14.1 Exercı́cio. Mostre que P erm(C) somente é um grupo Abeliano se C possuir um ou dois
elementos. 6
De particular importância é o caso em que C é um conjunto finito. Tais grupos de permutação e suas
representações também desempenham um papel de destaque na Fı́sica, particularmente na Mecânica
Quântica, e por isso vamos nos deter um pouco nos mesmos.
E. 14.2 Exercı́cio. Seja C um conjunto com n elementos. Mostre que P erm(C) é isomorfo a Sn . 6
Um elemento π ∈ Sn é dito ser uma permutação. Como toda a permutação, π é uma função bijetora
{1, . . . , n} → {1, . . . , n} e é costume representá-la na forma de um arranjo matricial:
1 2 ... n
π =
,
π(1) π(2) . . . π(n)
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 14 760/1461
onde na primeira linha ordenamos os elementos de {1, . . . , n} e na segunda suas imagens por π.
Exemplos. Os elementos de S2 são
1 2 1 2
π1 =
e π2 =
.
1 2 2 1
π1 é a identidade do grupo.
Os elementos de S3 são
1 2 3 1 2 3 1 2 3
π1 =
,
π2 =
,
π3 =
,
1 2 3 2 1 3 1 3 2
1 2 3 1 2 3 1 2 3
π4 =
,
π5 =
,
π6 =
.
3 2 1 3 1 2 2 3 1
π1 é a identidade do grupo.
• Ciclos
Definição. Uma permutação π é dita ser um ciclo, ou um r-ciclo se existirem r inteiros distintos
i1 , . . . , ir tais que
j, se j 6∈ {i1 , . . . , ir }
π(j) = ia+1 , se j = ia , mas a 6= r .
i1 , se j = ir
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 14 761/1461
Prova. Seja π ∈ Sn , π 6= id. Seja i1 o menor elemento de {1, . . . , n} para o qual π(i) 6= i. Vamos
considerar a seqüência (em princı́pio infinita)
i1 , π(i1 ), π 2 (i1 ), π 3 (i1 ), . . .
Os elementos dessa seqüência são obviamente elementos de {1, . . . , n} que é um conjunto finito.
Conseqüentemente essa seqüência tem, na verdade, elementos repetidos. Vamos supor que π p (i1 ) e
π q (i1 ), p < q, sejam os primeiros elementos que se repetem: π p (i1 ) = π q (i1 ). Essa igualdade implicaria
i1 = π r1 (i1 ), onde r1 = q − p. Assim, o primeiro par que se repete na seqüência acima é, em verdade,
o par i1 e π r1 (i1 ).
Isso nos diz que a seqüência acima é uma repetição infinita da seqüência finita
i1 , π(i1 ), π 2 (i1 ), ..., π r1 (i1 ),
seqüência esta formada por r1 elementos que, por construção, são distintos.
Vamos denominar
i1 , i2 := π(i1 ), i3 = π 2 (i1 ), ..., ir1 = π r1 (i1 )
e definir π1 ∈ Sn por
j, se j 6∈ {i1 , . . . , ir1 }
π1 (j) = ia+1 = π a (i1 ), se j = ia , mas a 6= r1 .
i1 , se j = ir1
É evidente que π1 é um ciclo e que π1 e π coincidem no conjunto {i1 , . . . , ir1 }. Podemos então escrever
π = π1 π ′ = π ′ π1 ,
onde π ′ ∈ Sn é a identidade em {i1 , . . . , ir1 } e coincide com π no complemento:
j, se j ∈ {i1 , . . . , ir1 }
π ′ (j) = .
π(j), de outra forma.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 14 762/1461
O que fazemos em seguida é repetir o procedimento, mas agora para a permutação π ′ . Obteremos
π = π2 π ′′ = π ′′ π2 , onde π2 é novamente um ciclo (disjunto de π1 , por construção). Como {1, . . . , n}
′
• Transposições
2-ciclos são denominados transposições. Sejam p e q dois elementos distintos de {1, . . . , n}. A
transposição de p e q, denotada por tp, q é a permutação definida por
j, se j 6= p e j 6= q
tp, q (j) = q, se j = p .
p, se j = q
E. 14.5 Exercı́cio. Complete os detalhes e/ou faça alguns casos particulares para convencer-se. 6
• Transposições Elementares
Prova. Seja tp, q uma transposição com p < q. A prova resume-se em constatar que
tp, q = tq−1, q · · · tp+1, p+2 tp, p+1 tp+1, p+2 · · · tq−1, q = tq−1 · · · tp+1 tp tp+1 · · · tq−1 .
E. 14.6 Exercı́cio. Complete os detalhes e/ou faça alguns casos particulares para convencer-se. 6
O seguinte teorema é um corolário imediato dos Teoremas 14.2, 14.3, 14.4 e 14.5:
Teorema 14.6 Toda permutação diferente da identidade é um produto de transposições elementares.
2
O Teorema 14.6 afirma que Sn é um grupo gerado por transposições elementares, ou seja, todo
π ∈ Sn (distinto da identidade) é da forma
π = ti1 · · · tik , (14.1)
E. 14.7 Exercı́cio. Determine quais dos elementos π1 , . . . , π6 do grupo S3 (página 760) são trans-
posições elementares e escreva os demais como produtos de tais transposições elementares. 6
Podemos nos perguntar, essa forma de escrever π é única? A resposta é não, pelas razões que agora
expomos.
ti tj = tj ti , se |i − j| ≥ 2, (14.3)
Prova. ←→ Exercı́cio.
Essa proposição explica por que a representação (14.1) não é geralmente única: o lado direito
de (14.1) pode eventualmente ser reescrito se aplicarmos quaisquer das relações (14.2)-(14.4). Estas,
porém, são as únicas relações que as transposições elementares ti satisfazem. Desses fatos extraı́mos a
seguinte conclusão:
Proposição 14.2 Todo grupo gerado por n − 1 elementos t1 , . . . , tn−1 e que satisfazem as relações
(14.2)-(14.4) (e somente elas) é isomorfo a Sn . 2
Prova. ←→ Exercı́cio.
E. 14.8 Exercı́cio. Determine o sinal das permutações π1 , . . . , π6 do grupo S3 dadas acima (página
760). 6
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 14 765/1461
sinal(ππ ′ ) = sinal(π)sinal(π ′ )
para todos π, π ′ ∈ Sn . Mostre daı́ que Sn+ = {π ∈ Sn | sinal(π) = +1} é um subgrupo de Sn , o subgrupo
das permutações pares. Mostre também que Sn+ é normal. 6
E. 14.10 Exercı́cio. Já mencionamos que Sn tem n! elementos. Quantos elementos tem Sn+ ? 6
• O Grupo de Tranças
Há um grupo importante aparentado ao grupo Sn que é o chamado grupo de n tranças, denotado por
Bn (do inglês braid = trança). Este é, por definição, o grupo gerado por n − 1 elementos b1 , . . . , bn−1
que satisfazem as relações
bi bj = bj bi , se |i − j| ≥ 2, (14.5)
de tal forma que para todo β ∈ Bn existem {bi1 , . . . , bik } ⊂ {b1 , . . . , bn−1 } e números inteiros
n1 , . . . , nk ∈ Z tais que
β = (bi1 )n1 · · · (bik )nk .
Note-se que a relação (14.2) não tem análogo em Bn , ou seja, ao contrário do que ocorre em Sn ,
os elementos bi não têm a si mesmos como inversa. Por essa razão elementos como (bi )n para n’s
diferentes são todos distintos entre si. Assim, ao contrário de Sn , Bn é um grupo infinito, apesar de ter
um número finito de geradores.
E. 14.11 Exercı́cio. Seja p : Z → {0, 1} definida por p(n) = 0 se n for par e p(n) = 1 se n for ı́mpar.
p(n ) p(n )
Mostre que φ : Bn → Sn definido por φ((bi1 )n1 · · · (bik )nk ) = ti1 1 · · · tik k é um homomorfismo. 6
O grupo de tranças foi inventado pelo matemático E. Artin1 em 1925 e desempenha um papel
importante na chamada teoria dos nós, um rico capı́tulo do estudo das propriedades topológicas do
espaço tridimensional. Nesse contexto os elementos bi têm uma interpretação interessante em termos
de transposições de tranças (barbantes) no espaço tridimensional. Por falta de espaço e habilidade em
apresentar as figuras correspondentes, não entraremos em mais detalhes aqui e remetemos o estudante
à leitura de [80], por exemplo. No final dos anos 80 e nos anos 90 do século XX encontrou-se aplicações
dos grupos de tranças na Fı́sica, no contexto das teorias quânticas de campos em dimensões 2 e 3,
assim como na fı́sica dos materiais (problema da supercondutividade a altas temperaturas).
1
Emil Artin (1889-1962).
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 14 766/1461
Devido à propriedade bem conhecida det(AB) = det(A) det(B), o produto de duas matrizes com
determinante igual a 1 é novamente uma matriz com determinante igual a 1. Assim,
E. 14.13 Exercı́cio. Para qualquer matriz n × n real ou complexa A vale que det(A) = det AT . Fora
isso, para qualquer matriz n × n complexa A vale que det(A) = det (A∗ ). Usando esses fatos, mostre que
se A ∈ SL(n, R) então AT ∈ SL(n, R). Analogamente, mostre que se A ∈ SL(n, C) então A∗ e AT ∈
SL(n, C). 6
Os grupos GL(n, R), GL(n, C), SL(n, R) e SL(n, C) possuem vários outros sub-grupos de interesse.
Discutiremos alguns adiante, como os grupos de Borel, os grupos ortogonais, unitários e simpléticos.
Vamos denotar por Mat(n, Z) ou Mat(Z, n) o conjunto de todas as matrizes n × n cujos elementos
de matriz são números inteiros e por Mat(n, Q) ou Mat(Q, n) o conjunto de todas as matrizes n × n
cujos elementos de matriz são números racionais. Analogamente, defina-se
3. GL(n, Z) não é um grupo em relação à operação de produto usual de matrizes, mas sim um
monóide.
Para provar 1, notemos que o produto de matrizes n × n com entradas racionais é também uma
matriz n × n com entradas racionais (por quê?). Assim, a operação de produto é uma operação binária
em GL(n, Q). O elemento neutro é a matriz identidade, que é elemento de GL(n, Q) (pois os números 0
e 1 são racionais). Por fim, resta mostrar que a inversa de uma matriz invertı́vel com entradas racionais
também tem entradas racionais.
Para mostrar isso, notemos primeiramente que o determinante de uma matriz com entradas racionais
é também um número racional, pois o cálculo do determinante de uma matriz M envolve apenas
operações de soma e produto dos elementos de matriz de M. Além disso, lembremos a chamada “regra
de Laplace4 ”), expressão (3.11), página 157, que para qualquer matriz A o elemento ij da sua matriz
inversa (se houver) é dado por
(−1)i+j
(A−1 )ij = Men(A)ji, (14.7)
det(A)
onde Men(A)ij é o determinante da matriz (n − 1) × (n − 1) obtida eliminando-se a i-ésima linha e a
j-ésima coluna da matriz A. (A matriz Men(A) é por vezes denominada matriz dos menores de A).
Vê-se claramente daı́ que se A é uma matriz com entradas racionais então os números Men(A)ji são
também racionais, assim como det(A). Logo (A−1 )ij é um número racional e, portanto, se A ∈ GL(n,
Q) então A−1 ∈ GL(n, Q).
O item 2 se prova da mesma maneira.
No caso do item 3, notemos que o produto de matrizes n × n com entradas inteiras é também uma
matriz n × n com entradas inteiras (por quê?). Assim, a operação de produto é uma operação binária
em GL(n, Z). O elemento neutro é a matriz identidade, que é elemento de GL(n, Z) (pois os números
0 e 1 são inteiros). Com isso, GL(n, Z) é um monóide. O problema que faz com que GL(n, Z) não
seja um grupo reside no fato de que a inversa de uma matriz com entradas inteiras nem sempre é uma
4
Pierre-Simon Laplace (1749-1827).
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 14 768/1461
matriz com entradas inteiras. Isso se vê claramente no exemplo da matriz ( 10 02 ) cuja inversa é 10 1/2
0
.
No entanto, se uma matriz A, invertı́vel com entradas inteiras, tiver determinante igual a 1, segue
imediatamente de (14.7) que A−1 tem também entradas inteiras. Daı́, prova-se facilmente a afirmativa
4.
1 b
E. 14.16 Exercı́cio. Verifique que todas as matrizes da forma
com b ∈ Z são elementos de
0 1
1 1
SL(n, Z). Verifique que todas as matrizes da forma
com c ∈ Z são elementos de SL(n, Z).
c c+1
6
Há vários outros subgrupos de GL(R, n) e GL(C, n) aos quais eventualmente faremos referência.
Deixamos ao estudante provar em cada caso que se trata realmente de grupos. Dois deles são os grupos
de matrizes com determinante positivo:
GL(R, n)+ := {A ∈ Mat (R, n), det(A) > 0} ,
GL(C, n)+ := {A ∈ Mat (C, n), det(A) > 0} .
Outro grupo relevante é o chamado grupo de Weyl5 de GL(C, n):
( n n
)
X X
Wn := A ∈ GL(C, n), Aij ∈ {0, 1} ∀i, j, com Aij = 1 = Aij .
i=1 j=1
5
Hermann Klaus Hugo Weyl (1885-1955).
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 14 769/1461
Em palavras, as matrizes de Wn são matrizes n × n cujas entradas valem 0 ou 1, sendo que exatamente
um elemento “1” ocorre em cada linha e em cada coluna.
1 0
E. 14.17 Exercı́cio. Mostre que W2 contém apenas dois elementos, a saber as matrizes
e
0 1
0 1
. 6
1 0
onde os elementos abaixo da diagonal principal são nulos. Aqueles que ficam acima da diagonal principal
podem ser nulos ou não.
De acordo com a Proposição 3.21, página 206, o conjunto das matrizes complexas n × n triangulares
superiores invertı́veis forma um grupo, denominado por alguns autores Grupo de Borel6 de ordem n e
denotado por GBn (C).
6
Armand Borel (1923-2003). A noção de grupo de Borel é mais geral. As matrizes n × n triangulares superiores
invertı́veis compoem o grupo de Borel associado ao grupo GL(C, n).
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 14 770/1461
verifique que
ad ae + bf
AB = ,
0 cf
O chamado grupo de Heisenberg7, denotado por GH3 (C) (os grupos GHn (C) com n ≥ 3 são definidos
adiante), é definido como o grupo formado por todas as matrizes 3 × 3 da forma
1 a c
H(a, b, c) =
0 1 b ,
0 0 1
onde a, b, c ∈ C, com o produto usual de matrizes (se a, b, c ∈ R temos o grupo GH3 (R)). A matriz
identidade é um elemento de GH3 (C) pois H(0, 0, 0) = 1 e tem-se
Essa relação, em particular, diz que o produto de duas matrizes de GH3 (C) é novamente uma matriz
7
Werner Karl Heisenberg (1901-1976).
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 14 771/1461
que mostra que toda matriz de GH3 (C) tem inversa e que essa inversa é também uma matriz de
GH3 (C). Assim, GH3 (C) é um grupo matricial.
E. 14.22 Exercı́cio. Mostre que o centro do grupo de Heisenberg é formado pelas matrizes do tipo
H(0, b, 0) com b ∈ C. O conceito de centro de um grupo foi introduzido à página 77. 6
Como é fácil de ver, o grupo de Heisenberg é um grupo de Lie (grupos de Lie serão tratados no
Capı́tulo 15) que, como variedade analı́tica, é difeomorfo a C3 . O exercı́cio seguinte discute três de seus
subgrupos uniparamétricos.
E. 14.23 Exercı́cio. Verifique que as matrizes H1 (t) := H(t, 0, 0), H2 (t) := H(0, t, 0), H3 (t) :=
H(0, 0, t) satisfazem Hj (t)Hj (t′ ) = Hj (t + t′ ) e Hj (0) = 1, j = 1, 2, 3. Assim, para cada j, as
matrizes Hj (t) representam sub-grupos uniparamétricos de GH3 (C). Os geradores desses subgrupos são
hj := dtd Hj (t)t=0 . Verifique que
0 1 0 0 0 0 0 0 1
h1 =
0 0 0 , h2 =
0 0 1 , h3 =
0 0 0 .
0 0 0 0 0 0 0 0 0
Mostraremos agora que esses geradores formam uma álgebra de Lie, a chamada álgebra de Heisen-
berg gh3 (C). Adiante explicaremos por que o nome de Heisenberg é associado ao grupo GH3 (C) e à
álgebra gh3 (C).
(verifique!) que é novamente da forma (14.10). Assim, o conjunto de matrizes da forma (14.10) forma
uma álgebra de Lie com o produto definido pelo comutador de matrizes. Essa álgebra de Lie, denotada
por gh3(C), é denominada álgebra de Heisenberg.
A razão dessa denominação é a seguinte. Podemos encontrar em gh3 (C) uma base especial formada
por três matrizes que, por razões “psicológicas”, denotaremos por p, q e ~:
0 1 0 0 0 0 0 0 i
p = 0 0 0
, q = 0 0 1
, ~ = 0 0 0
.
0 0 0 0 0 0 0 0 0
É um exercı́cio fácil (e fortemente recomendado) verificar que essas matrizes satisfazem as seguintes
regras de comutação:
[p, ~] = 0 , [q, ~] = 0 , [p, q] = −i~ .
Para aqueles familiarizados com a Mecânica Quântica as relações acima justificam a denominação
dessa álgebra em honra a Heisenberg: as relações de comutação acima são precisamente iguais às
relações canônicas de comutação satisfeitas pelos operadores associados ao momento (p) e posição (q)
∂
de uma partı́cula se movendo em uma dimensão. No caso da Mecânica Quântica, p é o operador −i~ ∂x ,
q = x e ~ representa um número (a constante de Planck ), que obviamente comuta com os operadores
8
p e q.
Nota. O estudante deve, porém, observar que as matrizes p, q e ~, acima, não são auto-adjuntas, ao
contrário dos operadores correspondentes da Mecânica Quântica. Essa observação é relevante, pois é
possivel provar que as relações canônicas de comutação não podem ser satisfeitas por operadores auto-
adjuntos agindo em espaços de Hilbert de dimensão finita ou por operadores auto-adjuntos limitados
agindo em espaços de Hilbert de dimensão infinita. De fato, no espaço de Hilbert L2 (R, dx) os
∂
operadores p = −i~ ∂x e q = x são auto-adjuntos (em um dominı́o conveniente), mas não são limitados.
O que faz gh3 (C) especial como álgebra de Lie é a propriedade expressa no seguinte exercı́cio:
8
Max Karl Ernst Ludwig Planck (1858-1947).
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 14 773/1461
E. 14.24 Exercı́cio importante. Verifique que para quaisquer três elementos h1 , h2 e h3 da álgebra de
Heisenberg tem-se
[h1 , [h2 , h3 ]] = 0 . (14.12)
Sugestão: use as relações de comutação de p, q e ~, dadas acima ou use diretamente (14.11). A relação
(14.12) mostra que gh3 (C) é o que se chama uma álgebra de Lie nilpotente (de grau 2). 6
Para entender a relação da álgebra de Heisenberg gh3 (C) com o grupo de Heisenberg GH3 (C),
façamos o seguinte. Notemos em primeiro lugar que as matrizes h(a, b, c) são matrizes nilpotentes de
grau 3, ou seja,
h(a, b, c)3 = 0.
(Mostre isso!). É fácil com isso verificar que se calcularmos a exponencial de h(a, b, c) teremos
ab
1 a c + 2
1 ab
exp (h(a, b, c)) = 1 + h(a, b, c) + h(a, b, c) = 0 1
2
b = H a, b, c + 2 , (14.13)
2
0 0 1
ou seja,
ab
H(a, b, c) = exp h a, b, c − . (14.14)
2
E. 14.25 Exercı́cio. Escreva h a, b, c − ab
2
como combinação linear de p, q e ~. 6
Pelo que vimos, todos os elementos do grupo de Heisenberg GH3 (C) são obtidos pela exponenciação
de elementos da álgebra de Lie gh3 (C), ou seja, a exponenciação é uma aplicação sobrejetora de gh3 (C)
em seu grupo de Lie GH3 (C). Em verdade, é fácil constatar que essa aplicação é também injetora (faça
isso!). A aplicação exponencial é, portanto, uma bijeção de gh3 (C) em GH3 (C).
Vamos agora generalizar o grupo GH3 (C). Para n ≥ 3, os chamados grupos de Heisenberg GHn (C)
são definidos como sendo os grupos formado por todas as matrizes n × n da forma
1 aT c
H(a, b, c) = 0m 1m b
0 0Tm 1
com o produto usual de matrizes, sendo m = n−2, onde a, b ∈ Cn−2 e c ∈ C. Acima, a e b representam
matrizes-coluna com m = n − 2 linhas equanto que aT e bT , as transpostas de a e b, respectivamente,
representam matrizes-linha com m = n − 2 colunas:
a1 b1
. .
a = ..
, a T
= a1 · · · an−2 , b = ..
, bT
= b1 · · · bn−2 ,
an−2 bn−2
0
sendo 0m = ... a matriz coluna identicamente nula com m = n − 2 linhas e sendo 1m a matriz
0
a1 b1
identidade m × m. Por exemplo, no caso n = 4, para a =
, b = ∈ C2 , a matriz H(a, b, c)
a2 b2
1 a1 a2 c
é H(a, b, c) = 00 01 10 bb21 . Para simplificar a notação, iremos doravante escrever H(a, b, c) na forma
0 0 0 1
1 aT c
H(a, b, c) = 0 1 b .
0 0 1
que mostra que toda matriz de GHn (C) tem inversa e que essa inversa é também um elemento de
GHn (C). Assim, GHn (C) é um grupo matricial.
a1 b1
como acima. Por exemplo, no caso n = 4, para a =
, b = ∈ C2 , a matriz h(a, b, c) é
a2 b2
0 a1 a2 c
h(a, b, c) = 00 00 00 bb21 .
0 0 0 0
Calculando-se o comutador de duas de tais matrizes tem-se
T
[h(a, b, c), h(a′ , b′ , c′ )] = h(0, 0, aT b′ − a′ b), (14.19)
(verifique!) que é novamente da forma (14.18). Assim, o conjunto de matrizes da forma (14.18) forma
uma álgebra de Lie com o produto definido pelo comutador de matrizes. Essa álgebra de Lie, denotada
por ghn (C), é igualmente denominada álgebra de Heisenberg.
E. 14.27 Exercı́cio importante. Verifique que para quaisquer três elementos h1 , h2 e h3 da álgebra de
Heisenberg ghn (C) tem-se
[h1 , [h2 , h3 ]] = 0 . (14.20)
A relação (14.20) mostra que ghn (C) é o que se chama uma álgebra de Lie nilpotente (de grau 2). 6
Podemos encontrar em ghn (C) uma base especial formada pelas matrizes ~ e pk , qk , k = 1, . . . , n−2
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 14 776/1461
definidas por
0 eTk 0 0 0 0 0 0 i
pk =
0 0 0 ,
qk =
0 0 e ,
k
~ =
0 0 0 ,
0 0 0 0 0 0 0 0 0
ou seja, todos as linhas de ej são nulas, exceto a j-ésima, que vale 1. No caso n = 4, por exemplo,
tem-se
0 1 0 0 0 0 1 0
0 0 0 0 0 0 0 0
p1 =
,
p2 =
,
0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0 0 0 i
0 0 0 1 0 0 0 0 0 0 0 0
q1 =
,
q2 =
,
~ =
.
0 0 0 0 0 0 0 1 0 0 0 0
0 0 0 0 0 0 0 0 0 0 0 0
Em analogia com o caso do grupo GH3 (C), é fácil constatar que as matrizes pk , qk e −i~ são
geradores de sub-grupos uniparamétricos de GHn (C).
Como eTk el = δk, l para todos k e l, é um exercı́cio fácil (e fortemente recomendado!) verificar que
essas matrizes satisfazem as seguintes regras de comutação:
[pk , ql ] = −i~ δk, l ,
para todos x, y ∈ E e, portanto, O1 O2 ∈ Ω(E, ω). Resta mostrar que se O ∈ Ω(E, ω) então
O −1 ∈ Ω(E, ω). De fato,
Se a matriz A for invertı́vel (ou seja, se ωA for não-degenerada), então podemos escrever também
Ω(Rn , ωA ) = M ∈ Mat(R, n), det(M) 6= 0 e M −1 = A−1 M T A .
Seja E = Cn e seja ωA uma forma sesquilinear em Cn , que pelas considerações da Seção 2.4 é da
forma ωA (x, y) = hx, AyiC para alguma matriz complexa A. Neste caso Ω(Cn , ωA ) é o conjunto de
todas as matrizes M invertı́veis complexas n × n tais que
Se a matriz A for invertı́vel (ou seja, se ωA for não-degenerada), então podemos escrever também
Ω(Cn , ωA ) = M ∈ Mat(C, n), det(M) 6= 0 e M −1 = A−1 M ∗ A .
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 14 779/1461
Um caso de particular interesse é aquele onde E = Rn e A = 1, ou seja, ωA (x, y) = hx, yiR . Neste
caso o grupo Ω(Rn , ωA ) é denotado por O(n) e tem-se
O(n) := M ∈ Mat(R, n), M −1 = M T .
Um outro caso de particular interesse é aquele onde E = Rn e ω(x, y) = hx, η(p, m)yiR onde
η(p, m) é a matriz diagonal
1
.
..
1
η(p, m) :=
,
(14.24)
−1
..
.
−1
Certos grupos O(p, m) e SO(p, m) desempenham um papel muito importante em Fı́sica, estando
ligados ao chamado Grupo de Lorentz, o qual tem importância na Teoria da Relatividade Especial. O
grupo de Lorentz é detalhadamente discutido na Seção 14.6.
1 = det(1) = det (MM ) = det(M) det(M ) = det(M) det M
∗ ∗ T =
Mais um caso é aquele onde E = Cn e ω(x, y) = hx, η(p, m)yiC onde η(p, m) foi definida em
(14.24). Neste caso o grupo Ω(Cn , ω) é denotado por U(p, m) e tem-se
U(p, m) := M ∈ Mat(C, n), M −1 = η(p, m)M ∗ η(p, m) .
1 = det(1) = det (Mη(p, m)M ∗ η(p, m)) = det(M) det(M ∗ ) (det(η(p, m)))2 =
det(M) det M T = det(M)det(M T ) = det(M)det(M) = |det(M)|2 .
E. 14.30 Exercı́cio. Mostre que os elementos do grupo SO(n) são caracterizados por n(n − 1)/2
parâmetros reais. Mostre que os elementos do grupo SU(n) são caracterizados por n2 − 1 parâmetros reais.
6
Desse exercı́cio conclui-se, por exemplo, que os grupos SO(3) e SU(2) são caracterizados pelo mesmo
número de parâmetros reais, a saber 3. Conseqüências desse fato serão investigadas abaixo, quando
olharemos com mais detalhe para esses dois grupos.
Seja o espaço vetorial complexo Cn e seja a seguinte forma bilinear em Cn : ω(x, y) = hx, yiR =
x1 y1 +· · ·+xn yn para vetores x = (x1 , · · · , xn ) e y = (y1 , · · · , yn ) ∈ Cn . O grupo ortogonal complexo,
denotado por O(n, C), é o grupo das matrizes complexas que mantêm essa forma bilinear invariante:
O(n, C) não pode ser confundido com o grupo U(n). É fácil ver também que se M ∈ O(n, C), então
det(M) = ±1. Daı́, define-se
SO(n, C) := M ∈ Mat (n, C)| M T = M −1 e det(M) = 1 .
Conforme já definimos, o grupo SO(2) é o grupo das matrizes ortogonais 2×2 reais com determinante
igual a 1: SO(2) = {R ∈ Mat (R, 2)| RT = R−1 e det(R) = 1}. Vamos começar estudando a forma
geral de tais matrizes.
Como toda matriz 2×2 real, uma matriz genérica R ∈ SO(2) é da forma R = ( ac db ), onde a, b, c, d ∈
R. Vamos estudar a condição R−1 = RT . Podemos calcular R−1 usando a regra de Laplace, expressão
(3.11), página 157: R−1 é dada pela transposta damatriz dos cofatores de R dividida pelo determinante
de R, que é 1, neste caso. Ou seja, R−1 = −c d −b
a . Assim, R
−1
= RT significa nesse caso
d −b a c
= ,
−c a b d
a b
2 2
ou seja, c = −b e d = a. Logo, R = −b a . A condição det(R) = 1 implica, portanto, a + b = 1.
Podemos então escrever a e b na forma a = cos θ, b = − sen(θ), com θ ∈ (−π, π]. Resumindo:
cos θ − senθ
SO(2) =
, onde θ ∈ (−π, π] .
senθ cos θ
Seja
cos θ − senθ
R(θ) :=
.
senθ cos θ
Como R(θ) = R(θ + 2π) vemos que SO(2) é homeomorfo ao cı́rculo unitário S 1 , que é uma variedade
diferenciável. Como o produto e a inversa são contı́nuos em SO(2), isso diz que SO(2) é um grupo de
Lie. É fácil constatar que R(0) = 1 e que vale a regra de produto R(θ)R(θ′ ) = R(θ+θ′ ) (faça!). SO(2) é,
portanto, um grupo uniparamétrico homomorfo ao grupo (R, +) e isomorfo ao grupo (R, + mod 2π).
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 14 783/1461
X∞ ∞
θ2k 2k X θ2k+1
= J + J 2k+1
k=0
(2k)! k=0
(2k + 1)!
∞
! ∞
!
X (−1)k θ2k X (−1)k θ2k+1
= 1+ J
k=0
(2k)! k=0
(2k + 1)!
= cos(θ)1 + sen(θ)J
= R(θ).
Assim,
SO(2) = {exp(θJ), onde θ ∈ (−π, π]} . (14.25)
Com isso, (14.25) está nos dizendo que todo elemento de SO(2) pode ser escrito como exponencial do
seu gerador. Veremos que algo semelhante também se dá nos grupos SO(3) e SU(2).
O grupo O(2) é o grupo das matrizes ortogonais 2 × 2 reais: O(2) = {R ∈ Mat (R, 2)| RT = R−1 }.
Se R ∈ O(2) então det(R) = ±1. O caso det(R) = 1 corresponde a SO(2), que tratamos acima. Vamos
considerar o caso det(R) = −1.
Como toda matriz 2×2 real, uma matriz genérica R ∈ O(2) com det(R) = −1 é da forma R = ( ac db ),
onde a, b, c, d ∈ R. Neste caso, como det(R) = −1, teremos R−1 = −d b
c −a . Assim, a condição
R−1 = RT significa nesse caso
−d b a c
= ,
c −a b d
ou seja, c = b e d = −a. Logo, R = ab −ab
. A condição det(R) = −1 implica novamente a2 + b2 = 1.
Podemos então escrever a e b na forma a = cos θ, b = − senθ, com θ ∈ (−π, π]. Assim, R é da forma
cos θ − senθ 1 0 cos θ − senθ
R =
=
.
− senθ − cos θ 0 −1 senθ cos θ
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 14 784/1461
Resumindo:
P
1 0 cos θ − senθ
O(2) =
, onde P ∈ {0, 1} e θ ∈ (−π, π] .
0 −1 senθ cos θ
• O grupo U(1)
E. 14.31 Exercı́cio. Mostre que o grupo U(1) := {z ∈ C, |z| = 1} é isomorfo ao grupo SO(2). 6
Aqui estudaremos em detalhe o grupo O(1, 1), também denominado Grupo de Lorentz em 1+1
dimensões. A leitura deste tópico pode servir de introdução à leitura da Seção 14.6 que tratará do
Grupo de Lorentz em 3+1 dimensões.
Seja M matriz invertı́vel real 2 × 2 na forma M = ( ac db ), onde a, b, c, d ∈ R. Tem-se que,
1 a −c
M −1 = ad−bc d −b 1 0 T
−c a , onde det(M) = ad − bc. Se η := ( 0 −1 ) então ηM η = −b d , como facilmente
se vê.
a −c
Se M ∈ SO(1, 1) então M −1 = ηM T η e det(M) = 1. Isso significa que −c d −b
a = −b d . Assim,
devemos ter a = d e b = c. A condição det(M) = 1 significa a2 − b2 = 1. Logo,
SO(1, 1) = M ∈ Mat (R, 2)| M = ( ab ab ) com a2 − b2 = 1, a, b ∈ R .
Como se vê, SO(1, 1) é homeomorfo ao conjunto H+ ∪ H− formado por duas hipérboles
p
H± := {(x, y) ∈ R2 | x = ± 1 + y 2}.
SO(1, 1) tem, portanto, duas componentes conexas, que denotaremos por L↑+ e L↓+ :
n √ o
L↑+ := M ∈ Mat (R, 2)| M = 1+b2 √ b
b 1+b2
, b ∈ R ,
n √ o
L↓+ := M ∈ Mat (R, 2)| M = − 1+b2 √ b
b − 1+b2
, b∈R .
Note-se que apenas L↑+ é conexa à identidade e, portanto, apenas a componente L↑+ é um subgrupo de
SO(1, 1).
Parametrizando b ∈ R na forma b = − senh(z), com z ∈ R, constatamos que
n o
− senh(z)
L↑+ = M ∈ Mat (R, 2)| M = −cosh(z)
senh(z) cosh(z) , z ∈ R ,
n o
− cosh(z) − senh(z)
L↓+ = M ∈ Mat (R, 2)| M = − senh(z) − cosh(z) , z∈R .
Os elementos de
O(1,a 1)−cque
não são de SO(1, 1) têm determinante
−1. Assim, são matrizes que
−d b
satisfazem c −a = −b d sendo, portanto, da forma −b −a com a2 − b2 = 1. O conjunto de
a b
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 14 785/1461
É claro que nem L↑− nem L↓− são subgrupos de O(1, 1). Parametrizando b ∈ R novamente na forma
b = − senh(z), com z ∈ R, constatamos que
n o
↑ − cosh(z) − senh(z)
L− = M ∈ Mat (R, 2)| M = senh(z) cosh(z) , z∈R ,
n o
cosh(z) − senh(z)
L↓− = M ∈ Mat (R, 2)| M = senh(z) − cosh(z) , z∈R .
o que exibe a relação entre as matrizes dessas três componentes conexas e as matrizes de L↑+ .
O grupo O(1, 1) é por vezes denominado Grupo de Lorentz em 1+1 dimensões. L↑+ é denominado
Grupo de Lorentz próprio ortócrono em 1+1 dimensões. O Grupo de Lorentz em 3+1 dimensões será
estudado em detalhe na Seção 14.6, página 819.
Para fazermos contacto com a teoria da relatividade restrita, façamos uma outra parametrização
de L↑+ , definindo v = c tanh(z). Com isso −c < v < c, cosh(z) = γ(v) e senh(z) = vc γ(v), onde
γ(v) = (1 − (v/c)2 )−1/2 . Assim,
n o
γ(v) − vc γ(v)
L↑+ = M ∈ Mat (R, 2)| M = − v γ(v) γ(v) , −c < v < c .
c
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 14 786/1461
′
Logo, M ∈ L↑+ age em um vetor x
ct
como M x
ct
= x
ct′
, onde
′ x − vc t ′ t − cv2 x
x = q , t = q ,
2 2
1 − vc2 1 − vc2
Note que o sub-espaço V pode não ser o mesmo para matrizes R distintas. Note também que
excluı́mos R = 1 por razões óbvias: todo vetor de R3 é invariante por 1 e não apenas um sub-espaço
unidimensional.
Prova. Seja R 6= 1 uma matriz qualquer de SO(3), fixa daqui por diante. Para x ∈ R, seja p(x) :=
det(x1 − R), o polinômio caracterı́stico de R. Se escrevermos explicitamente o determinante da matriz
x1 −R (faça!), veremos que p(x) = +x3 +α1 x2 +α2 x+α3 , onde as constantes αi dependem dos elementos
de matriz de R. Como o termo de maior grau em x de p(x) é +x3 , concluı́mos que limx→∞ p(x) = +∞.
Fora isso, é claro que p(0) = det(−R) = − det(R) = −1 (por que?). Esses dois fatos dizem que o
polinômio p(x) deve ter um zero para algum x0 > 0.
Vamos provar que x0 = 1. Como det(x0 1 − R) = 0, concluı́mos que a matriz R − x0 1 não possui
uma inversa. Portanto, deve existir pelo menos um vetor não-nulo ~v0 ∈ R3 tal que (R − x0 1)~v0 = 0,
ou seja, R~v0 = x0~v0 . Como R ∈ SO(3), segue que
|~v0 |2 = h~v0 , ~v0 iR = hR~v0 , R~v0 iR = hx0~v0 , x0~v0 iR = x20 h~v0 , ~v0 iR .
Logo x20 = 1 e, como x0 > 0, segue x0 = 1. Assim, R~v0 = ~v0 , ou seja, ~v0 é um autovetor de R com
autovalor 1.
Seja V o sub-espaço de R3 formado por todos os vetores ~v que são autovetores de R com autovalor
1: V = {~v ∈ R3 | R~v = ~v }. Como acabamos de mostrar, V é não-trivial, ou seja, V 6= {0} e sua
dimensão pode ser 1, 2 ou 3.
Notemos de passagem que se v ∈ V então vale também que RT v = v. De fato, se aplicarmos RT à
direita na igualdade v = Rv e lembrarmos que RT R = 1, segue que RT v = v. Notemos também que
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 14 787/1461
V ⊥ , o sub-espaço formado por todos os vetores ortogonais a todos os vetores de V , é também deixado
invariante por R, ou seja, se u ∈ V ⊥ então Ru ∈ V ⊥ . De fato, se v ∈ V e u ∈ V ⊥
e, portanto, λ = ±1. O caso λ = +1 já está excluı́do (pois aı́ u ∈ V ). Logo λ = −1 e Ru = −u.
Conseqüentemente, se escolhermos em R3 uma base ortonormal formada por três vetores v1 , v2 e u
com v1 , v2 ∈ V e u ∈ V ⊥ , a matriz R teria a forma
1 0 0
R =
0 1 0 .
0 0 −1
Mas com isso terı́amos det(R) = −1, uma contradição! Logo a dimensão de V dever ser igual a 1, e
isso completa a prova.
onde r é uma matriz real 2 × 2. Que propriedades tem r? Como veremos, r ∈ SO(2). De fato, pela
definição de R, teremos para qualquer vetor u, que hu, uiR = hRu, RuiR , mas se escolhermos u ∈ VR⊥ ,
teremos Ru = ru em VR⊥ e a relação acima significa hu, uiR = hru, ruiR . Logo r ∈ O(2). Fora isso,
(14.26) mostra que 1 = det(R) = det(r), provando que r ∈ SO(2). Como sabemos a forma geral de
uma matriz de SO(2) é
cos ϕ − senϕ
r =
,
senϕ cos ϕ
com ϕ ∈ (−π, π]. Isso está também dizendo que R representa uma rotação de ϕ em torno do eixo
representado por VR .
Concluı́mos então o seguinte:
Proposição 14.4 Para cada R ∈ SO(3) existe uma base ortonormal de R3 onde R é da forma
1 0 0
R =
0 cos ϕ − senϕ
(14.27)
0 senϕ cos ϕ
cos ϕ − senϕ 0
R3 (ϕ) =
senϕ cos ϕ 0 , (14.28)
0 0 1
É um exercı́cio elementar (faça) verificar que cada matriz Ri (θ) representa um sub-grupo unipa-
ramétrico de SO(3): Ri (0) = 1 e Ri (θ)Ri (θ′ ) = Ri (θ + θ′ ). Os geradores desses sub-grupos são dados
por
1 0 0 0 0 0
d d
J1 := R1 (ϕ) = 0 cos ϕ − senϕ = 0 0 −1 , (14.29)
dϕ ϕ=0 dϕ
0 senϕ cos ϕ 0 1 0
ϕ=0
cos ϕ 0 senϕ 0 0 1
d d
J2 := R2 (ϕ) = 0 1 0 = 0 0 0
, (14.30)
dϕ ϕ=0 dϕ
− senϕ 0 cos ϕ −1 0 0
ϕ=0
cos ϕ − senϕ 0 0 −1 0
d d
J3 := R3 (ϕ) = senϕ cos ϕ 0 = 1 0 0 . (14.31)
dϕ ϕ=0 dϕ
0 0 1 0 0 0
ϕ=0
onde εabc , com a, b, c = 1, 2, 3, é o chamado sı́mbolo (ou tensor) de Levi-Civita9, definido da seguinte
forma:
1, se abc for uma permutação par de 123
εabc := −1, se abc for uma permutação ı́mpar de 123 . (14.33)
0, se quaisquer dois ı́ndices forem iguais
Esse exercı́cio nos diz que as matrizes J1 , J2 e J3 formam uma álgebra de Lie, denominada álgebra
de Lie so(3) (com letras minúsculas), para lembrar sua associação com o grupo SO(3).
9
Tullio Levi-Civita (1873-1941).
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 14 790/1461
para a = 1, 2 e 3. 6
Com o uso de (14.35)-(14.37) podemos facilmente provar o seguinte fato: para a = 1, 2 ou 3 tem-se
Ra (ϕ) = exp(ϕJa ).
Vamos mostrar isso. Por (14.35)-(14.37) é evidente que Ja3 = Ea Ja = −Ja (verifique!). Logo, para todo
k ∈ N,
Ja2k = (−1)k+1 Ea , ∀k > 0 e Ja2k+1 = (−1)k Ja , ∀k ≥ 0. (14.39)
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 14 791/1461
X∞ ∞
ϕ2k 2k X ϕ2k+1 2k+1
= 1+ J + J
k=1
(2k)! a k=0
(2k + 1)! a
∞
! ∞
!
(14.39) X (−1)k+1 ϕ2k X (−1)k ϕ2k+1
= 1+ Ea + Ja
(2k)! (2k + 1)!
k=1 k=0
= 1 + (1 − cos(ϕ))Ea + sen(ϕ)Ja
(14.38)
= Ra (ϕ),
10
Benjamin Olinde Rodrigues (1794-1851). Rodrigues foi banqueiro e matemático amador, nascido na França, mas de
origem judaico-portuguesa. Seu nome é mais conhecido por uma identidade sobre polinômios de Legendre.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 14 792/1461
~ T = −~η · J~.
é uma matriz anti-simétrica, ou seja, (~η · J)
Assim,
h iT X∞ m
h iT m
θ
exp θ~η · J~ = ~η · J~
m=0
m!
X∞
(−θ)m ~m
= (~η · J)
m=0
m!
= exp −θ~η · J~
h i−1
~
= exp θ~η · J .
Vamos agora expressar de modo mais explı́cito a matriz exp θ~η · J~ . Para isso será importante
mostrar que 3
~η · J~ = − ~η · J~ . (14.42)
A maneira pedestre de mostrar isso é por verificação explı́cita. De fato, por (14.41),
η12 − 1 η1 η2 η1 η3
2
~
~η · J = η1 η2 η22 − 1 η3 η2
. (14.43)
η1 η3 η3 η2 η32 − 1
Logo,
X∞
θm ~m
~
exp θ~η · J = 1+ ~η · J
m=1
m!
2
= 1 + (1 − cos(θ)) ~η · J~ + sen(θ) ~η · J~ .
Resumindo, 2
exp θ~η · J = 1 + (1 − cos(θ)) ~η · J + sen(θ) ~η · J .
~ ~ ~ (14.44)
ou seja, tal como R, a matriz exp θ~η · J~ mantem ~η invariante para qualquer θ.
1
Para finalizar, vamos então escolher uma base em R3 na qual ~η = 0 . Nessa base teremos ~η · J~ = J1
0
2
e ~η · J~ = E1 . Logo, por (14.44), teremos nessa base que exp θ~η · J~ se expressa como
1 0 0
exp θ~η · J~ = 1 + (1 − cos(θ))E1 + sen(θ)J1 =
0 cos θ − senθ
0 senθ cos θ
que é a forma (14.27) da matriz R. Isso permite-nos identificar R = exp θ~η · J~ , completando a prova.
A Proposição 14.5 está nos dizendo que todo elemento de SO(3) pode ser escrito como a exponencial
de um elemento de sua álgebra de Lie. Isso constata um teorema geral (vide, por exemplo, [132]) que
diz que se um grupo de Lie é compacto11 e sua álgebra de Lie é semi-simples, a aplicação exponencial
da sua álgebra de Lie é sobrejetora no grupo. De fato, SO(3) é compacto e so(3) é semi-simples.
Para finalizar esta exposição sobre o grupo SO(3), vamos descrever sua estrutura enquanto variedade
diferenciável. Como vimos, os elementos de SO(3) são parametrizados por pontos θ~η de R3 , sendo que
θ ∈ [−π, π] e |~η | = 1. O conjunto de todos os pontos desse tipo compreende a esfera de raio π
centrada na origem. Para cada ~η fixo, os dois pontos antı́podas da superfı́cie dessa esfera que estão na
direção definida por ~η são ±π~η . É claro, porém, que tais pontos correspondem à mesma rotação: uma
rotação de π em torno de um eixo é o mesmo que uma rotação
de−π em torno do mesmo eixo. De
fato, é trivial verificar por (14.44) que exp π~η · J~ = exp −π~η · J~ . Assim, SO(3) corresponde nessa
imagem ao espaço obtido tomando-se uma esfera e identificando-se todos os pares de pontos antı́podas.
Na linguagem da geometria diferencial, o conjunto que assim se obtem é denominado espaço projetivo
real (em quatro dimensões) e denotado por RP 3 . O conjunto RP n é a variedade diferenciável n-
dimensional formada pelo conjunto de todas as linhas retas de Rn+1 que passam pela origem. SO(3)
é homeomorfo, enquanto variedade, ao espaço projetivo RP 3 . Como veremos na próxima seção, o
grupo SU(2), que é fortemente aparentado a SO(3), tem outra estrutura: SU(2) é homeomorfo a S 3 , a
superfı́cie da esfera de raio 1 em R4 . Para uma introdução à geometria diferencial, vide [109].
11
Para a definição da noção de compacidade e suas propriedades, vide Seção 24.2, página 1200.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 14 795/1461
• As Matrizes de Pauli
De grande importância no estudo do grupo SU(2) são as chamadas matrizes de Pauli12 , definidas
como
0 1 0 −i 1 0
σ1 :=
,
σ2 :=
e σ3 :=
.
(14.45)
1 0 i 0 0 −1
E. 14.39 Exercı́cio importantı́ssimo (todo estudante deve fazê-lo pelo menos uma vez na vida). Ve-
rifique as relações algébricas acima. Note que (14.48) segue diretamente de (14.47) e (14.46). 6
Note também que as matrizes de Pauli são auto-adjuntas: σi∗ = σi . Note ainda que as quatro
matrizes 1, σ1 , σ2 , σ3 formam uma base em Mat (C, 2): toda matriz complexa 2 × 2 pode ser escrita
como uma combinação linear das mesmas.
Conforme já definimos, o grupo SU(2) é o grupo das matrizes unitárias complexas 2 × 2 com
determinante igual a 1: SU(2) = {U ∈ Mat (C, 2)| U ∗ = U −1 e det(U) = 1}. Vamos começar
estudando a forma geral de tais matrizes, procurando uma parametrização conveniente para as mesmas
que permitirá estudar as propriedades de SU(2) como um grupo de Lie.
Como toda matriz 2 × 2 complexa, uma matriz genérica U ∈ SU(2) é da forma U = ( ac db ), onde
a, b, c, d ∈ C. Vamos estudar a condição U −1 = U ∗ . Podemos calcular U −1 usando a regra de Laplace,
12
Wolfgang Ernst Pauli (1900-1958).
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 14 796/1461
a b
ou seja, c = −b e d = a. Logo, U = −b a . A condição det(U) = 1 implica, portanto, |a|2 + |b|2 = 1.
Resumindo:
a b
SU(2) = , onde a, b ∈ C com |a| 2
+ |b| 2
= 1 .
−b a
Escrevendo os números complexos a e b como soma de suas partes real e imaginária: a = a1 + ia2
e b = b1 + ib2 , com a1 , a2 , b1 , b2 ∈ R, poderemos escrever U como uma combinação linear de matrizes
de Pauli (e da unidade):
a1 + ia2 b1 + ib2
U = = a1 1 + i(b2 σ1 + b1 σ2 + a2 σ3 ). (14.49)
−b1 + ib2 a1 − ia2
designa a superfı́cie da esfera unitária de Rn+1 . Assim, vemos que SU(2) é homeomorfo a S 3 , a
superfı́cie da esfera unitária do espaço quadridimensional R4 . Isso ilustra o fato que SU(2) é uma
variedade diferenciável. Como o produto e a inversa são contı́nuos em SU(2), o mesmo é um grupo de
Lie.
Vamos tentar agora parametrizar de outra forma o vetor (a1 , a2 , b1 , b2 ) ∈ S 3 que aparece do lado
direito de (14.50). Claramente, a condição a21 + a22 + b21 + b22 = 1 diz que a1 , a2 , b1 e b2 são números
reais contidos no intervalo [−1, 1]. Podemos assim definir um ângulo θ ∈ [−π, π] de forma que
a1 = cos θ.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 14 797/1461
b2 b1 a2
η1 := , η2 := , η3 := .
senθ senθ senθ
A condição a21 + a22 + b21 + b22 = 1 implica então (verifique!) que η12 + η22 + η32 = 1. Assim, o vetor
~η := (η1 , η2 , η3 ) de R3 é um vetor de comprimento 1. Com esses novos parâmetros θ e ~η podemos
reescrever (14.49) como
U = cos(θ)1 + i sen(θ)~η · ~σ ,
onde
η3 η1 − iη2
~η · ~σ := η1 σ1 + η2 σ2 + η3 σ3 =
.
η1 + iη2 −η3
Assim,
SU(2) = cos(θ)1 + i sen(θ)~η · ~σ , onde θ ∈ [−π, π] e ~η ∈ R3 com |~η| = 1 .
∞
X X∞
(iθ)2k 2k (iθ)2k+1
= (~η · ~σ ) + (~η · ~σ )2k+1 ,
k=0
(2k)! k=0
(2k + 1)!
onde, na última linha, apenas fizemos separar a soma em m da primeira linha nos casos m par e m
ı́mpar. É um exercı́cio muito fácil (faça!) verificar que
2
η3 η1 − iη2
(~η · ~σ )2 = = 1.
η1 + iη2 −η3
= cos(θ)1 + i sen(θ)~η · ~σ ,
Se tomarmos ~η1 = (1, 0, 0), ~η2 = (0, 1, 0) ou ~η3 = (0, 0, 1), obtemos três sub-grupos unipa-
ramétricos distintos de SU(2):
cos θ i senθ
U1 (θ) := exp(iθσ1 ) =
,
i senθ cos θ
cos θ senθ
U2 (θ) := exp(iθσ2 ) =
,
− senθ cos θ
eiθ 0
U3 (θ) := exp(iθσ3 ) =
,
0 e−iθ
respectivamente. Isso nos permite identificar as matrizes de Pauli σ1 , σ2 e σ3 como os geradores desses
subgrupos uniparamétricos. As relações (14.46) são as relações satisfeitas por essas matrizes, como
elementos de uma álgebra de Lie, que é denominada álgebra de Lie su(2).
Com isso, (14.51) está nos dizendo que todo elemento de SU(2) pode ser escrito como exponencial
de um elemento de sua álgebra de Lie. Isso constata um teorema geral (vide, por exemplo, [132]) que
diz que se um grupo de Lie é compacto e sua álgebra de Lie é semi-simples, a aplicação exponencial
da sua álgebra de Lie é sobrejetora no grupo. De fato, tal como SO(3), SU(2) é compacto e su(2) é
semi-simples.
Seja
so(3) := {L ∈ Mat (R, 3) : L = α1 J1 + α2 J2 + α3 J3 , αk ∈ R, k = 1, 2, 3}
a álgebra de Lie (real) associada aos geradores de SO(3) e seja
su(2) := {l ∈ Mat (C, 2) : l = α1 j1 + α2 j2 + α3 j3 , αk ∈ R, k = 1, 2, 3}
a álgebra de Lie (real) associada aos geradores de SU(2).
É muito fácil constatar que a aplicação linear ϕ : su(2) → so(3) dada por
ϕ(α1 j1 + α2 j2 + α3 j3 ) = α1 J1 + α2 J2 + α3 J3
é um isomorfismo de álgebras de Lie, ou seja, é bijetora e satisfaz ϕ([la , lb ]) = [ϕ(la ), ϕ(lb )] para todos
la , lb ∈ su(2).
E. 14.43 Exercı́cio. Mostre que so(3) coincide com a álgebra de Lie de todas as matrizes reais 3 × 3
anti-simétricas. (Vide exercı́cio à página 62). 6
E. 14.44 Exercı́cio. Mostre que su(2) coincide com a álgebra de Lie de todas as matrizes complexas
2 × 2 anti-autoadjuntas. (Vide exercı́cio à página 62). 6
Assim, as álgebras de Lie so(3) e su(2) são isomorfas. Discutiremos agora que implicações isso traz
sobre as relação entre os grupos SO(3) e SU(2).
O isomorfismo ϕ definido acima sugere considerar-se a seguinte aplicação φ : SU(2) → SO(3) dada
por
φ (exp(l)) := exp (ϕ(l)) , ∀l ∈ su(2),
ou seja,
φ exp θ~η · ~j := exp θ~η · J~ ,
para todos θ ∈ (−2π, 2π], e ~η ∈ R3 com |~η | = 1.
Que propriedades essa φ possui? Em primeiro lugar, é fácil ver que φ é sobrejetora (por que?),
mas não é injetora, pois para U1 := exp −i 2 ~η · ~σ = 1 e U2 := exp −i 2 ~η · ~σ = −1 tem-se φ(U1 ) =
0 2π
φ(U2 ) = 1. Verifique! A questão é: como se comporta φ em relação ao produto dos elementos do
grupo? A resposta encontra-se na afirmativa da proposição seguinte.
Proposição 14.6 A aplicação φ : SU(2) → SO(3) definida acima é um homomorfismo do grupo
SU(2) no grupo SO(3), ou seja, φ(1) = 1 e para todos Ua , Ub ∈ SU(2) vale φ(Ua )φ(Ub ) = φ(Ua Ub ). 2
Prova. Que φ(1) = 1 é trivial. Provemos que φ(Ua )φ(Ub ) = φ(Ua Ub ) para todos Ua , Ub ∈ SU(2). Sejam
Ua e Ub da forma ! !
X3 X 3
Ua = exp αk jk , Ub = exp βk jk ,
k=1 k=1
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 14 800/1461
Ua Ub = ea eb = exp (a ∗ b) ,
onde a ∗ b está definida em (4.46). Como a série que define a ∗ b é convergente e envolve comutadores
múltiplos de elementos da álgebra de Lie su(2), é evidente que a ∗ b é também um elemento de su(2) e,
mais que isso, tem-se
3
X 3
X
a∗b = γk jk = γk (α1 , α2 , α3 , β1 , β2 , β3 )jk , (14.52)
k=1 k=1
~ = (α1 , α2 , α3 ) e β~ = (β1 , β2 , β3 ).
onde α 6
P3 P3
e A = ϕ(a), B = ϕ(b), ou seja, A = k=1 αk Jk eB= k=1 βk Jk . Novamente, tem-se que
mas, como as relações de comutação entre os jk ’s são idênticas às dos Jk ’s, segue que
3
X 3
X
A∗B = γ k Jk , = γk (α1 , α2 , α3 , β1 , β2 , β3 )Jk ,
k=1 k=1
com as mesmas funções γk que em (14.52) (Justifique isso!). Ou seja, vale que
A ∗ B = ϕ(a ∗ b).
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 14 801/1461
Isso concluiu que, pelo menos quando α1 , α2 , α3 , β1 , β2 , β3 são suficientemente próximos de zero,
vale
φ(Ua )φ(Ub ) = exp(ϕ(a ∗ b)) = φ(exp(a ∗ b)) = φ(Ua Ub ).
Tudo que nos falta agora é um argumento que justifique que essa igualdade vale não apenas para
α1 , α2 , α3 , β1 , β2 , β3 suficientemente próximos de zero, mas para quaisquer valores desses parâmetros.
Esse argumento é a analiticidade.
P3
Cada elemento de matriz de exp k=1 αk Jk é uma função analı́tica (inteira) de α1 , α2 e α3 (pois a
série que define a exponencial
P3 converge absolutamente em toda parte). O mesmoPvale para os elementos
P3
3
de matriz de exp k=1 β k J k . Assim, cada elemento de matriz do produto exp k=1 αk J k exp k=1 βk J k
é uma P3 função analı́tica
(inteira) de α 1 , α2 , α3 , β 1 , β2 , β3 . Igualmente, cada elemento de matriz de
exp k=1 γk Jk é uma função analı́tica de α1 , α2 , α3 , β1 , β2 , β3 quando esses estão próximos a zero
(pois a composição de funçõesPanalı́ticasé também P3 uma função analı́tica).
P3 Portanto,
provamos acima
3
que as funções analı́ticas exp k=1 αk Jk exp k=1 βk Jk e exp k=1 γk Jk coincidem em um aberto
suficientemente pequeno. Por um teorema geral da teoria de funções de variáveis complexas, isso im-
plica que essas funções são iguais em toda parte. Assim, vale para todos α1 , α2 , α3 , β1 , β2 , β3 reais ou
complexos que φ(Ua )φ(Ub ) = φ(Ua Ub ), completando a prova.
Note que a aplicação φ não pode ser um isomorfismo de grupos pois, como vimos, não é bijetora.
E. 14.46 Exercı́cio. Mostre, porém, que SO(3) e SU(2)/{1, −1} são isomorfos. 6
Todas as considerações de acima sobre a relação entre os grupos SO(3) e SU(2) são de grande
importância em fı́sica, particularmente no que concerne à representação do grupo de rotações SO(3)
para partı́culas de spin 1/2. Ainda mais profunda é a relação entre o grupo SL(C, 2) e o grupo de
Lorentz, relação esta que discutiremos na Seção 14.8, página 849.
b4 = cosh z,
para algum z ∈ C. Fora isso, para z 6= 0, podemos definir três números complexos η1 , η2 , η3 por
b1 b2 b3
η1 := , η2 := , η3 := .
senhz senhz senhz
A condição b24 − b21 − b22 − b23 = 1 implica (verifique!) que os números complexos η1 , η2 , η3 satisfazem
η12 + η22 + η32 = 1.
Com isso vemos que
SL(C, 2) = cosh(z)1 + senh(z) (~η · ~σ ), onde z ∈ C e ~η ∈ C3 com η12 + η22 + η32 = 1 . (14.54)
Mesmo para vetores ~η complexos tem-se, como vimos anteriormente quando tratamos de SU(2),
que (~η · ~σ )2 = 1. Portanto,
X∞
zm
exp (z ~η · ~σ ) = (~η · ~σ )m
m=0
m!
X∞ X∞
z 2k 2k z 2k+1
= (~η · ~σ ) + (~η · ~σ )2k+1
k=0
(2k)! k=0
(2k + 1)!
∞
! ∞
!
X z 2k X z 2k+1
= 1+ (~η · ~σ )
k=0
(2k)! k=0
(2k + 1)!
Prova. Provemos primeiramente que SU(n) é um subconjunto (topologicamente) fechado de GL(C, n).
Seja Un , n ∈ N, uma seqüência de matrizes de SU(n) que converge em norma a uma matriz
U ∈ Mat (C, n), ou seja, limn→∞ kUn − UkC = 0, onde k · kC é a norma operatorial de matrizes.
Desejamos provar que U ∈ SU(n).
Em primeiro lugar, notemos que podemos escrever
U ∗ U = (U − Un + Un )∗ (U − Un + Un ) = (U − Un )∗ (U − Un ) + Un∗ (U − Un ) + (U − Un )∗ Un + Un∗ Un .
(Ao estudante deve ser claro que acima usamos os fatos que, para quaisquer matrizes A, B, complexas
n × n, valem kA + BkC ≤ kAkC + kBkC , kABkC ≤ kAkC kBkC , kAkC = kA∗ kC e que kAkC = 1 se A é
unitária. Se não for claro, justifique esses fatos como exercı́cio ou leia o Capı́tulo 26).
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 14 804/1461
Agora, como o extremo direito da seqüência de desigualdades (14.56) pode ser feito arbitrariamente
pequeno para n → ∞, concluı́mos que o extremo esquerdo é nulo, ou seja, U ∗ U = 1. Analogamente,
prova-se que UU ∗ = 1. Isso estabelece que U é unitário.
Para provar que o determinante de U vale 1, notemos que o fato de Un convergir a U na norma
operatorial implica que os elementos de matriz da seqüência de matrizes Un convergem aos elementos de
matriz de U (por que?). Como o determinante de uma matriz depende continuamente de seus elementos
de matriz (por que?), segue que det(U) = limn→∞ det(Un ) = 1. Isso estabelece que U ∈ SU(n) e isso
prova que SU(n) é um subconjunto topologicamente fechado de GL(C, n), como querı́amos.
Para provarmos que SU(n) é compacto, resta apenas provar que SU(n) é um conjunto limitado13 .
A condição U ∗ U = 1 implica Tr(U ∗ U) = n. Assim, vale
n
X
|Uab |2 = n,
a, b=1
para todo U ∈ SU(n). Isso mostra que SU(n) é limitado e, portanto, compacto.
Seja agora {U(t) ∈ SU(n), t ∈ R}, um subgrupo uniparamétrico de SU(n) (ou seja, U(0) = 1 e
U(t)U(t′ ) = U(t + t′ ), sendo t 7→ U(t) contı́nua). Pela Proposição 15.5, página 890, U(t) = exp(tA)
para alguma matriz A. Agora, sejam u, v dois vetores arbitrários de Cn . Temos que, para todo t vale
hu, viC = hU(t)u, U(t)viC . Diferenciando essa igualdade em relação a t, escrevendo-se U(t) = exp(tA)
e calculando a derivada em t = 0, tem-se 0 = hAu, viC + hu, AviC , ou seja, hu, (A + A∗ )viC = 0. Como
isso vale para todo u, v em Cn , segue que A∗ = −A. Fora isso14 , como 1 = det(exp(tA)) = exp(tTr(A)),
segue que A tem traço nulo.
Assim, vimos que os geradores dos subgrupos uniparamétricos de SU(n) são anti-autoadjuntos e
têm traço nulo. Podemos nos perguntar se a recı́proca é válida, ou seja, se todas as matrizes anti-
autoadjuntas e de traço nulo são geradoras de subgrupos uniparamétricos de SU(n). Para responder
isso, precisamos da seguinte proposição:
Proposição 14.8 Se A ∈ Mat (C, n) é anti-autoadjunta (ou seja, A∗ = −A) satisfazendo também
Tr(A) = 0, então a matriz exp(A) é um elemento de SU(n). 2
Prova. Precisamos provar que exp(A) é unitária e que seu determinante é igual a 1. Pela definição da
exponencial de matrizes em termos de uma série de potências (a série de Taylor da função exponencial),
sabe-se que exp(M)∗ = exp(M ∗ ) para qualquer matriz n×n complexa M. Assim, exp(A)∗ = exp(A∗ ) =
exp(−A) = exp(A)−1 , provando que exp(A) é unitária.
Assim, para nossa matriz A, tem-se det(exp(A)) = exp(Tr(A)) = exp(0) = 1, o que prova que
exp(A) ∈ SU(n), como querı́amos.
Essa proposição diz-nos que, se A ∈ Mat (C, n) é anti-autoadjunta e tem traço nulo, então U(t) =
exp(tA), t ∈ R é um subgrupo uniparamétrico de SU(n). Em resumo, concluı́mos que o conjunto de
13
Para a definição da noção de compacidade e suas propriedades, vide Seção 24.2, página 1200.
14
Aqui usamos a Proposição 4.7, página 250.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 14 805/1461
Prova. Seja U ∈ SU(n). Como toda matriz unitária, U é normal, pois vale UU ∗ = U ∗ U(= 1).
Uma das conseqüências do Teorema Espectral para matrizes diz-nos que toda matriz normal pode ser
diagonalizada por uma matriz unitária (vide Teorema 3.15 e as páginas que o antecedem).
Assim, existe V , matriz unitária, tal que U = V DV ∗ , onde D = diag (u1 , . . . , un ), e onde os uk são
números complexos (os autovalores de U). Da condição UU ∗ = 1 segue imediatamente que DD ∗ = 1,
o que implica que cada uk é um número complexo de módulo 1: |uk |2 = 1. Assim, podemos escrever
uk = eiλk , onde λk ∈ R, sendo que cada λk é determinado a menos de um termo 2πm, com m inteiro.
Note-se
Pn que, como UPtem determinante 1, segue que 1 = det(U) = det(V DV ∗ ) = det(D) =
exp i k=1 λk . Assim, nk=1 λk = 2πm0 , com m0 inteiro. Podemos redefinir, digamos, λn , subtraindo-
lhe 2πm0 . Com essa nova escolha teremos
n
X
λk = 0. (14.57)
k=1
Definamos agora a matriz L = diag (iλ1 , . . . , iλn ). Note-se que, como os λk são reais, vale L∗ = −L.
É claro que D = eL e também que U = exp(A), onde A = V LV ∗ . É agora P elementar constatar que
A∗ = −A. Fora isso, por (14.57) segue que Tr(A) = Tr(V LV ∗ ) = Tr(L) = i nk=1 λk = 0. Isso completa
a prova.
A Proposição 14.9 diz-nos que a exponenciação é uma aplicação sobrejetora de su(n) em SU(n).
Isso é um caso particular de um teorema mais geral que diz que isso é válido para qualquer grupo de
Lie compacto, conexo e cuja álgebra de Lie seja de dimensão finita.
E. 14.47 Exercı́cio. Pelo que vimos su(2) coincide com a álgebra de Lie real de todas as matrizes
complexas 2 × 2, anti-autoadjuntas e de traço zero. Mostre que as matrizes iσ1 , iσ2 e iσ3 formam uma base
nesse espaço de matrizes. Conclua que todo elemento de SU(2) é da forma exp(iα1 σ1 + iα2 σ2 + iα3 σ3 )
com αk ∈ R. 6
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 14 806/1461
Prova. Pelo que vimos, se U ∈ SU(n), U é da forma U = eA , para alguma A ∈ su(n). Logo U
pertence ao subgrupo uniparamétrico de SU(n) gerado por A: {exp(tA), t ∈ R}. Esse subgrupo
conecta continuamente U à identidade 1 (que corresponde a t = 0).
Note que todas as matrizes λi são autoadjuntas e de traço zero, formando uma base no espaço das
matrizes complexas autoadjuntas e de traço nulo (mostre isso!). As mesmas são normalizadas de modo
que Tr(λa λb ) = 2δab .
A álgebra de Lie de su(3) pode ser expressa para as matrizes de Gell-Mann da seguinte forma:
8
X
[λa , λb ] = 2i fabc λc ,
c=1
onde fabc , as camadas constantes de estrutura de su(3), são totalmente anti-simétricas, ou seja
sendo
f123 = 1,
1
f147 = −f156 = f246 = f257 = f345 = −f367 = ,
2
√
3
f458 = f678 = ,
2
e as demais constantes independentes são nulas.
Pelo que aprendemos da nossa discussão geral sobre grupos SU(n), todo elemento U de SU(3) pode
ser escrito na forma !
X8
U = exp i αk λk ,
k=1
Sob vários aspectos os grupos SO(n) podem ser tratados de modo semelhante aos grupos SU(n),
exceto por um ponto importante: por agirem em um espaço vetorial real (Rn ), não podemos aplicar o
teorema espectral às matrizes ortogonais, tal como fizemos na prova da Proposição 14.9. Por isso, um
desvio mais longo deverá ser seguido, ainda que as conclusões sejam as mesmas, em essência.
Analogamente ao que fizemos no caso SU(n), comecemos com a seguinte observação.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 14 808/1461
Prova. A prova é uma mera imitação da demonstração correspondente no caso SU(n) e poupamo-nos
de reproduzı́-la.
Seja agora {R(t) ∈ SO(n), t ∈ R}, um subgrupo uniparamétrico de SO(n) (ou seja, R(0) = 1 e
R(t)R(t′ ) = R(t+t′ )). Pela Proposição 15.5, página 890, R(t) = exp(tA) para alguma matriz A. Agora,
sejam u, v dois vetores arbitrários de Rn . Temos que, para todo t vale hu, viR = hR(t)u, R(t)viR .
Diferenciando essa igualdade em relação a t, escrevendo-se R(t) = exp(tA) e calculando a derivada em
t = 0, tem-se 0 = hAu, viR + hu, AviR , ou seja, hu, (A + AT )viR = 0. Como isso vale para todo u, v
em Rn , segue que AT = −A. Assim, A é uma matriz anti-simétrica, o que implica que seus elementos
diagonais são nulos. Assim, é automático que Tr(A) = 0.
Assim, vimos que os geradores dos subgrupos uniparamétricos de SO(n) são anti-simétricos. Pode-
mos nos perguntar se a recı́proca é válida, ou seja, se todas as matrizes anti-simétricas são geradores
de subgrupos uniparamétricos de SU(n). Para responder isso, precisamos da seguinte proposição:
Proposição 14.11 Se A ∈ Mat (R, n) é anti-simétrica (ou seja, AT = −A), então a matriz exp(A)
é um elemento de SO(n). 2
Prova. Precisamos provar que exp(A) é ortogonal e que seu determinante é igual a 1. Pela definição da
exponencial de matrizes em termos de uma série de potências (a série de Taylor da função exponencial),
sabe-se que exp(M)T = exp(M T ) para qualquer matriz n × n real ou complexa M. Assim, exp(A)T =
exp(AT ) = exp(−A) = exp(A)−1 , provando que exp(A) é ortogonal.
Como observamos, Tr(A) = 0. Logo, para nossa matriz A, tem-se det(exp(A)) = exp(Tr(A)) =
exp(0) = 1, o que prova que exp(A) ∈ SO(n), como querı́amos.
Essa proposição diz-nos que, se A ∈ Mat (R, n) é anti-simétrica, então R(t) = exp(tA), t ∈ R é
um subgrupo uniparamétrico de SO(n). Em resumo, concluı́mos que o conjunto de todas as matrizes
n × n reais anti-simétricas é idêntico ao conjunto de todos os geradores de subgrupos uniparamétricos
de SO(n).
Como SO(n) é um subgrupo fechado de GL(R, n), segue do Teorema 15.1 que o conjunto de seus
geradores é uma álgebra de Lie. Essa álgebra de Lie é dita ser a a álgebra de Lie de SO(n), e é denotada
por so(n). Como vimos, so(n) coincide com o conjunto de todas as matrizes n × n reais anti-simétricas.
De passagem, notemos que o fato de que o conjunto de todas as matrizes n × n reais anti-simétricas
forma uma álgebra de Lie real já fora visto independentemente nos exercı́cios da página 63.
Provemos agora uma outra proposição, a qual essencialmente diz-nos que todo elemento de SO(n)
pode ser obtido como exponencial de um elemento de so(n). Nos casos de SO(2) e SO(3) isso foi
provado explicitamente nas páginas acima.
Proposição 14.12 Todo elemento R de SO(n) pode ser escrito na forma R = eA , onde A ∈ Mat (R, n)
é anti-simétrica (ou seja, AT = −A). 2
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 14 809/1461
Prova. Como dissemos não podemos aqui seguir exatamente os passos da prova da Proposição 14.9,
pois o teorema espectral não se aplica de modo direto a matrizes reais.
Seja R ∈ SO(n), com elementos de matriz reais Rij . Normalmente R age no espaço real Rn , mas
podemosP fazê-la agir em Cn da maneira usual: para um vetor u ∈ Cn com componentes ui ∈ C, tem-se
(Ru)i = nj=1 Rij uj . Como tal, R é uma matriz unitária de determinante 1, ou seja, um elemento de
SU(n), pois (R∗ )ij = (R)ji = (R)ji = (RT )ij = (R−1 )ij . Aqui usamos que os Rij são reais e o fato óbvio
(por que?) que a inversa de R em Cn é a mesma que em Rn .
Dado que R é unitária, seus autovalores são números eventualmente complexos mas de módulo 1.
Notemos, porém, que os autovalores são raı́zes do polinômio caracterı́stico p(x) = det(x1 − R), x ∈ C.
Como os Rij são reais, esse polinômio tem coeficientes reais. É um fato elementar e bem conhecido que
se x é raiz de um polinômio com coeficientes reais, então seu complexo conjugado x também o é.
Se n é par, os autovalores são, portanto, pares de números complexos de módulo 1 complexo-
conjugados: eiθ e e−iθ . Como o determinante de R é o produto de seus autovalores, isso automati-
camente garante que det(R) = 1 desde que −1, se for autovalor, o seja com multiplicidade algébrica
par.
Se n é ı́mpar, os autovalores são pares de números complexos de módulo 1 complexo-conjugados:
±iθ
e , mas um deles pode ser real, podendo, portanto, ser ±1. Como o determinante de R é o produto
de seus autovalores, a condição det(R) = 1 implica que um dos autovalores deve ser +1 e que −1, se
for autovalor, o é com multiplicidade algébrica par.
Em resumo:
Em ambos os casos −1 pode ser autovalor e, se o for, o é com multiplicidade algébrica par.
Seja o autovalor eiθk . Há dois casos a considerar.
Caso I. eiθk 6= ±1, de modo que eiθk é não-real e, portanto, distinto de e−iθk .
Seja vk ∈ Cn um autovetor de R com autovalor eiθk : Rvk = eiθk vk , normalizado de modo que
= hvk , vk iC = 1. Segue que Rvk = e−iθk vk , ou seja, vk é um autovetor de R com autovalor
kvk k2C
−iθk
e . Como R é unitária, segue que autovetores que correspondem a autovalores distintos são ortogonais
(em Cn ). Logo,
Note-se que, como senθk 6= 0, essas duas relações implicam que não se pode ter ak = 0, pois isso
implicaria bk = 0 e vice-versa. Porém, ak e bk são vetores ortogonais em Rn . De fato,
1 k
hak , bk iR = h(v + vk ), (vk − vk )iR
4
1 k k
= hv , v iR − hvk , vk iR + hvk , vk iR − hvk , vk iR
4
1 k k k k k k k k
= hv , v iC − hv , v iC + hv , v iC − hv , v iC
4
por (14.58) 1
= (0 − 1 + 1 − 0)
4
= 0.
k k
Assim, concluı́mos que no
sub-espaço realgerado pelos vetores ortogonais não-nulos a e b , a
cos θk senθk
matriz R age como a matriz
, elemento de SO(2).
− senθk cos θk
É importante notar também que os vetores ak e bk são também ortogonais entre si para k’s dife-
rentes. Isso é mostrado na proposição seguinte.
Proposição 14.13 Se vj = aj + ibj e vk = ak + ibk são vetores de Cn com aj , ak , bj , bk ∈ Rn e se
valerem hvj , vk iC = 0 e hvj , vk iC = 0, então tem-se
j j
O fato demonstrado nessa proposição mostra que os sub-espaços gerados por pares
a , b são ortogo-
cos θj senθj
nais em Rn . Na base formada por esses vetores, R tem a forma de blocos diagonais
.
− senθj cos θj
Resta-nos ainda discutir o que se passa com os autovalores reais.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 14 811/1461
que é formada por m = n/2 blocos 2 × 2, como indicado acima, sendo os demais elementos de matriz
16
A matriz é ortogonal pois faz a mudança de base para a base dos vetores aj , bj e dos autovetores de autovalor ±1,
os quais são todos ortogonais entre si, como provamos acima. Um fato crucial, como se vê.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 14 812/1461
nulos. Quando n é ı́mpar, ou seja, n = 2m + 1, para algum m > 0 inteiro, B é a matriz bloco-diagonal
dada por
cos θ1 senθ1
0 ··· 0 0
− senθ1 cos θ1
cos θ2 senθ2
0 0 0
− senθ2 cos θ2
B = , (14.60)
.. .. ..
. . .
cos θm senθm
0 0 0
− senθm cos θm
0 0 ··· 0 1
que é formada por m = (n − 1)/2 blocos 2 × 2, como indicado acima, sendo o elemento Bnn igual a 1,
e os demais elementos de são matriz nulos.
Definamos agora (tanto para o caso em que n é par ou ı́mpar)
∂
Jk := R .
∂θk θ1 =···=θm =0
0 1
É claro que cada Jk é a matriz anti-simétrica composta pelo bloco colocado na k-ésima posição,
−1 0
os demais elementos de matriz sendo iguais a zero. Deve ser também claro que Jk Jl = Jl Jk para todos
k, l = 1, . . . , m e que
B = exp (θ1 J1 + · · · + θm Jm ) .
A := V (θ1 J1 + · · · + θm Jm ) V −1 .
Agora, como V é ortogonal e as Jk são anti-simétricas, é elementar verificar que AT = −A. Isso
completa a prova da Proposição 14.12.
A Proposição 14.12 diz-nos que a exponenciação é uma aplicação sobrejetora de so(n) em SO(n).
Isso é um caso particular de um teorema mais geral que diz que isso é válido para qualquer grupo de
Lie compacto, conexo e cuja álgebra de Lie seja de dimensão finita.
A Proposição 14.12 tem os dois seguintes corolários simples:
Corolário 14.2 Para n ı́mpar existe para cada R ∈ SO(n) um vetor ~η ∈ Rn tal que R~η = ~η . 2
O vetor ~η é o autovetor com autovalor 1. Se n é par pode não haver um tal vetor invariante. Esse
corolário, junto com a Proposição 14.12, generaliza a Proposição 14.5, que era restrita ao caso SO(3).
Corolário 14.3 O grupo SO(n) é conexo por caminhos e, portanto, é conexo. 2
Prova. Pelo que vimos, se R ∈ SO(n), R é da forma R = eA , para alguma A ∈ so(n). Logo R
pertence ao subgrupo uniparamétrico de SO(n) gerado por A: {exp(tA), t ∈ R}. Esse subgrupo
conecta continuamente U à identidade 1 (que corresponde a t = 0).
de GL(V )sV .
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 14 814/1461
E. 14.51 Exercı́cio. Mostre que o conjunto de translações puras formado pelos pares (1, v), v ∈ V é
um subgrupo normal de GL(V )sV . Sugestão: basta mostrar que trata-se de um subgrupo Abeliano. 6
E. 14.52 Exercı́cio. Se G é um subgrupo normal de GL(V ), mostre que GsV é um subgrupo normal
de GL(V )sV . 6
E. 14.53 Exercı́cio. Se G é um subgrupo de GL(V ), mostre que V ∋ u 7→ Ru+v, para (R, v) ∈ GsV ,
define uma ação à esquerda de GsV em V . 6
• O Grupo Euclidiano
E. 14.54 Exercı́cio. Mostre que Rn ∋ y 7→ Ry + x, para (R, x) ∈ En , define uma ação à esquerda de
En em Rn . 6
Então, tem-se
E(R, x) E(R′ , x′ ) := E(RR′ , Rx′ + x) .
Assim, o conjunto de matrizes {E(R, x) ∈ GL(n + 1, R), com R ∈ O(n) e x ∈ Rn } forma um sub-
grupo de GL(n + 1, R) que é isomorfo a En . Também denotaremos esse grupo por En .
17
Euclides de Alexandria (≈ 325 A.C, ≈ 265 A.C.).
18
Jules Henri Poincaré (1854-1912).
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 14 815/1461
E. 14.57 Exercı́cio importante. Mostre que esses seis subgrupos são subgrupos uniparamétricos. 6
sendo que J1 , J2 e J3 são os geradores de SO(3), definidos em (14.29)-(14.31), página 789. Usando a
forma das matrizes Jk dada em (14.29)-(14.31), é fácil constatar as seguintes relações de comutação
entre os geradores acima:
3
X 3
X
[ja , jb ] = εabc jc , [pa , pb ] = 0 , [ja , pb ] = εabc pc . (14.61)
c=1 c=1
De maneira análoga podemos tratar o caso (mais simples) do grupo E2 . Os elementos de SO(2)sR2
podem ser parametrizados na forma
cos θ − senθ x1
senθ cos θ x , θ ∈ (−π, π], x1 , x2 ∈ R.
2
0 0 1
onde
0 −θ t1
J = θj1 =
e t = t1 p1 + t2 p2 =
θ 0 t2
com −π < θ ≤ π e t1 , t2 ∈ R.
É um exercı́cio fácil (faça-o) constatar que para todo k ∈ N, k ≥ 1, tem-se
I(J, t)k = I Jk , Jk−1 t .
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 14 817/1461
onde
cos θ − senθ
R := eJ =
e t′ = f (J)t ,
senθ cos θ
de onde se extrai
X∞
1 k−1
f (J) := 1 + J
k=2
k!
∞
X X∞
1 1
= 1+ J2m−1
+ J2m
m=1
(2m)! m=1
(2m + 1)!
X∞ 0 −1 X ∞
(−1)m θ2m−1 (−1)m θ2m
=
+
1
m=1
(2m)! m=0
(2m + 1)!
1 0
cos θ − 1 0 −1 senθ
=
+
1
θ θ
1 0
senθ cos θ − 1
−
θ θ
=
.
cos θ − 1 senθ
θ θ
Notemos que
1 − cos θ
det f (J) = 2 6= 0
θ2
x1
para −π < θ ≤ π. Assim, f (J) é invertı́vel e se escolhermos t = f (J)−1 x, para qualquer x =
∈R
2
x2
teremos
cos θ − senθ x1
R x
exp I(J, f (J) x) =
−1
= senθ cos θ x .
2
0 0 1
0 0 1
Isso prova que todo elemento do grupo SO(2)sR2 pode ser escrito como exponencial de um elemento
da sua própria álgebra de Lie. Essa afirmação é igualmente válida para todo os grupos SO(n)sRn . A
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 14 819/1461
demonstração segue passos análogos aos de acima pois, como observamos na Seção 14.4.3, página 807,
os elementos de SO(n) podem ser escritos em uma base conveniente na forma de blocos de matrizes de
SO(2). Isso implicará que também no caso geral a matriz f (J) é invertı́vel. Deixamos os detalhes da
demonstração como exercı́cio ao leitor.
origem nos trabalhos de Galilei22 sobre a dinâmica, mas foi com a Teoria da Relatividade de Einstein23
que suas reais conseqüências foram exploradas em sua máxima extensão.
Ao realizarmos transformações entre sistemas de coordenadas inerciais, as coordenadas dos even-
tos transformam-se linearmente. Esse postulado é familiar se nos lembramos da ação do grupo de
translações, da ação do grupo de rotações no espaço tridimensional ou das transformações de Galilei da
mecânica clássica (não-relativista). Assim, cada transformação entre sistemas de coordenadas inerciais
deve ser representada na forma Lx + t, onde L é uma matriz real 4 × 4 e x e t são vetores de R4 . Aqui,
x1
x2
x e t são representados na forma de um vetor coluna, como x = x3 .
x4
O vetor t representa uma translação (tanto no espaço quanto no tempo) entre os sistemas de
coordenadas. Cada matriz L ∈ Mat (R, 4) deve depender das velocidades relativas entre os sistemas
inerciais cuja transformação descreve, da direção dessas velocidades e dos ângulos relativos entre os
eixos Cartesianos espaciais dos dois sistemas. L deve também conter informação sobre se os eixos
Cartesianos espaciais dos dois sistemas têm a mesma orientação (positiva ou negativa) e sobre se os
relógios dos dois sistemas correm na mesma direção.
Dados dois eventos quaisquer x, y no espaço-tempo (que doravante identificaremos com R4 ) e cujas
coordenadas sejam x = (x1 , x2 , x3 , x4 ) e y = (y1 , y2 , y3 , y4 ) em um determinado sistema de referência
inercial, define-se o intervalo entre ambos como sendo a quantidade24
I(x, y) = I(x − y) := (x1 − y1 )2 + (x2 − y2 )2 + (x3 − y3 )2 − c2 (x4 − y4 )2 ,
onde c é a velocidade da luz no sistema de referência inercial em questão.
A noção de intervalo entre eventos é de grande importância. Para começar a explicar isso considere-
mos a situação na qual dois eventos distintos x e y representam a produção e a absorção de um mesmo
raio luminoso, respectivamente. Se em um determinado sistema de referência inercial as coordenadas
desses eventos são x = (x1 , x2 , x3 , x4 ) e y = (y1 , y2 , y3 , y4 ), então a velocidade de propagação da luz
entre x e y satisfaz
(y1 − x1 )2 + (y2 − x2 )2 + (y3 − x3 )2
c2 =
(y4 − x4 )2
e, portanto, I(y, x) = I(y − x) = 0. Um dos postulados fundamentais da teoria da relatividade restrita
é a afirmação que a velocidade de propagação da luz no vácuo é a mesma para qualquer sistema de
referência inercial. Portanto, se em um outro sistema de referência inercial as coordenadas de x e y
fossem x′ = (x′1 , x′2 , x′3 , x′4 ) e y ′ = (y1′ , y2′ , y3′ , y4′ ) terı́amos igualmente
(y1′ − x′1 )2 + (y2′ − x′2 )2 + (y3′ − x′3 )2
c2 =
(y4′ − x′4 )2
e, portanto, tem-se igualmente I(y ′, x′ ) = I(y ′ − x′ ) = 0 com o mesmo valor c para a velocidade de
propagação da luz.
Compreendemos então que o postulado da constância da velocidade da luz pode ser traduzido ma-
tematicamente da seguinte forma: se o intervalo entre dois eventos é nulo em um sistema de referência
22
Galileu Galilei (1564-1642).
23
Albert Einstein (1879-1955).
24
Novamente supomos a ausência de campos gravitacionais, em cuja presença a definição de intervalo tem que ser
modificada.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 14 821/1461
inercial então é também nulo em todos os demais sistemas de referência inerciais. Mais adiante pro-
varemos que, sob certas hipóteses fı́sicas adicionais, esse fato implica uma condição ainda mais geral
de invariância: o intervalo entre dois eventos quaisquer é o mesmo em qualquer sistema de referência
inercial, mesmo quando não é nulo.
Nota. Independente de ser um postulado teórico, a constância da velocidade da luz é um fato experimental que tem sofrido sucessivas
confirmações ao longo de várias décadas. Para uma lista possivelmente parcial de referências recentes (das últimas quatro décadas) contendo
testes experimentais da constância da velocidade da luz e testes da velocidade da luz como velocidade limite, vide:
1. T. S. Jaseja, A. Javan, J. Murray and C. H. Townes. “Test of Special Relativity or of the Isotropy of Space by Use of Infrared Masers”.
Phys. Rev. A133, A1221-A1125 (1964).
2. T. Alväger, F. J. M. Farley, J. Kjellman and I. Wallin. “Test of the Second Postulate of Special Relativity in the GeV Region”. Phys.
Lett. 12, 260-263 (1964).
3. D. I. Blotkhintsev. “Basis for Special Relativity Theory Provided by Experiments in High Energy Physics”. Sov. Phys. Uspekhi, 9,
405 (1966).
4. Z. G. T. Guiragossián, G. B. Rothbart, M. R. Yearian, R. A. Gearhart and J. J. Murray. “Relative Velocity Measurements of Electrons
and Gamma Rays at 15 GeV”. Phys. Rev. Lett. 34, 335-338 (1975).
5. K. Brecher. “Is the Speed of Light Independent of the Velocity of the Source?”. Phys. Rev. Lett. 39, 1051-1054, 1236(E) (1977).
6. D. Newman, G. W. Ford, A. Rich and E. Sweetman. “Precision Experimental Verification of Special Relativity”. Phys. Rev. Lett.
40, 1355-1358 (1978).
7. K. M. Baird, D. S. Smith and B. G. Whitford. “Confirmation of the Currently Accepted Value 299 792 458 Metres per Second for
the Speed of Light”. Opt. Comm. 31, 367-368 (1979).
8. G. L. Greene, M. Scott Dewey, E. G. Kessler, Jr. and E. Fischbach. “Test of Special Relativity by a Determination of the Lorentz
Limiting Velocity: Does E = mc2 ?”. Phys. Rev. D 44, R2216-R2219 (1991).
9. Bradley E. Schaefer. “Severe Limits on Variations of the Speed of Light with Frequency”. Phys. Rev. Lett. 82, 4964 (1999).
Notemos que o intervalo depende da diferença x − y. Assim, translações entre sistemas de re-
ferência automaticamente mantêm invariantes os intervalos entre eventos. Por essa razão vamos por
ora interessar-nos apenas por transformações entre sistemas de referência que sejam do tipo Lx, com
L ∈ Mat (R, 4).
Para prosseguirmos precisamos introduzir uma importante classificação de intervalos.
1. Se dois eventos são separados por um intervalo do tipo luz pode haver um sinal conectando ambos
e que se propagaria com a velocidade da luz.
2. Se dois eventos são separados por um intervalo do tipo tempo pode haver um sinal conectando
ambos e que se propagaria com velocidade menor que a da luz.
3. Se dois eventos são separados por um intervalo do tipo espaço não pode haver um sinal conectando
ambos, pois o mesmo se propagaria com velocidade maior que a da luz.
A importância dessas considerações é a seguinte. É uma crença da fı́sica atual que as partı́culas
elementares (que compoem toda a matéria do universo) não podem mover-se com velocidade maior
que a da luz. Conseqüentemente, se dois eventos são separados por um intervalo do tipo espaço não
pode haver nenhum processo fı́sico que, iniciando-se em um evento, influencie o outro. Diz-se então que
esses eventos são causalmente desconectados, ou seja, não pode haver nenhuma relação causal (isto é,
de causa e efeito) entre ambos. Por outro lado, se dois eventos são separados por um intervalo do tipo
tempo então pode haver alguma influência causal entre ambos, por exemplo, através de uma partı́cula
ou corpo material que, movendo-se no espaço-tempo com velocidades inferiores à da luz, parta de um
evento e influencie o outro. No caso de intervalos do tipo luz a situação é a mesma mas, então, a
eventual influência de um no outro deve propagar-se com a velocidade da luz.
Como se percebe, se aceitarmos a idéia que processos fı́sicos não podem propagar-se com velocidades
superiores à da luz, a noção de intervalo estabelece as possı́veis relações de causalidade entre todos os
eventos do espaço-tempo, ao dizer quais eventos podem eventualmente influenciar-se (aqueles que são
do tipo tempo ou do tipo luz um em relação ao outro) e quais não podem de forma alguma influenciar-se
(aqueles que são do tipo espaço um em relação ao outro).
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 14 823/1461
É uma crença da Fı́sica atual que essas relações de causalidade devem ser as mesmas para todos os
sistemas de referência inerciais, pois os mesmos descrevem as mesmas leis fı́sicas e devem perceber as
mesmas relações de causa e efeito entre os eventos que compoem o universo.
Com isso, podemos introduzir a seguinte definição: dizemos que uma transformação linear L, que
representa uma transformação entre dois sistemas de referência, preserva a estrutura causal do espaço-
tempo se a mesma satisfizer todas as três condições seguintes:
Em palavras, L preserva o tipo de intervalo que separa todos os eventos do espaço-tempo, levando
todos os intervalos do tipo luz em intervalos do tipo luz, levando todos os intervalos do tipo tempo em
intervalos do tipo tempo e levando todos os intervalos do tipo espaço em intervalos do tipo espaço.
Notemos que a condição que impõe que I(Lx, Ly) = 0 sempre que I(x, y) = 0 é a condição da
invariância da velocidade da luz (já mencionada acima), mas as demais representam algo diferente: a
invariância das relações de causalidade por mudança de sistemas de referência inerciais.
Um pouco mais abaixo exploraremos as conseqüências matemáticas que essas imposições têm sobre
as transformações L e concluiremos que, sob as hipóteses acima (e sob uma hipótese adicional de
ausência de dilatações), vale uma conseqüência mais forte, a saber, que I(Lx, Ly) = I(x, y) para
todos os eventos x e y. Assim, transformações que preservam a estrutura causal e não envolvem
dilatações preservam o valor do intervalo entre dois eventos quaisquer do espaço-tempo.
Por fim, apenas a tı́tulo de ilustração, exemplifiquemos como seria uma transformação que preserva
os intervalos de tipo luz mas não os demais, preservando, portanto, a velocidade da luz mas violando
a estrutura causal. Consideremos um espaço-tempo bidimensional, onde 0 cada
evento é descrito por
c
uma coordenada espacial x1 e uma temporal t. Seja a matriz L = . O intervalo entre os
x c−1 0
1 0
eventos x = t
e 0 = seria I(x, 0) = x21 − c2 t2 . Porém, pela transformação L terı́amos
′ x ct 0
x1 1
′
= L t
= −1 . Assim,
t c x1
Logo, como os intervalos I(Lx, L0) e I(x, 0) diferem por um sinal, terı́amos para quaisquer eventos x
ey
Portanto, intervalos tipo luz seriam levados em intervalos tipo luz, mas intervalos tipo espaço seriam
levados em intervalos tipo tempo e vice-versa. Como se vê por esse exemplo, em transformações
que violam a estrutura causal deve haver algo como uma permutação entre coordenadas espaciais e
temporais.
• Dilatações
Vamos agora discutir uma classe de transformações que preservam a estrutura causal: as dilatações.
Para λ ∈ R, λ 6= 0, a matriz D(λ) := λ1 simplesmente transforma cada x ∈ R4 em λx, ou seja,
D(λ) representa uma dilatação ou mudança de escala das coordenadas espaço-temporais de eventos. É
evidente que I(D(λ)x, D(λ)y) = λ2 I(x, y), de modo que dilatações são transformações lineares que
preservam a estrutura causal.
São as dilatações aceitáveis enquanto mudanças de sistemas de referência inerciais? Essa é uma
questão muito interessante e sutil e demanda uma certa discussão.
Claramente, mudanças de escala podem ocorrer naturalmente no caso de tratarmos de dois sistemas
de referência que adotam sistemas métricos diferentes, como no caso em que um sistema mede distâncias
em metros e um outro em jardas (mas de modo que as medidas de tempo em um e outro sejam
tais que ambos atribuem o mesmo valor numérico para c). Essas situações são triviais e poderiam
ser contornadas se ambos os sistemas de referência concordassem no uso de uma mesma escala de
distâncias. Mas para que isso seja possı́vel é preciso que haja objetos fı́sicos, em repouso em ambos
os sistemas de referência, que possuam as mesmas dimensões. Poderı́amos, por exemplo, adotar como
unidade de distância o “tamanho médio” do átomo de hidrogênio27 , ou o comprimento de onda de uma
linha de emissão de um certo átomo ou molécula, fixos em cada sistema de referência.
Mas o que garante que o tamanho médio de um átomo de hidrogênio parado na Terra é o mesmo
que o de um átomo de hidrogênio parado em uma galáxia distante que se move em relação a nós com
uma certa velocidade? A princı́pio, nada garante, mas a crença que sistemas de referência inerciais
descrevem a mesma fı́sica envolve também a crença que certas escalas básicas de distância e de tempo,
como o tamanho médio de um átomo em repouso, são as mesmas em todos os sistemas de referência
inerciais. Por exemplo, o tamanho médio do átomo de hidrogênio em repouso depende de propriedades
fı́sicas que regem a interação entre o próton e o elétron que o constituem (a lei de Coulomb28 ), das leis
da mecânica que regem seus movimentos (as leis da mecânica quântica), assim como dos valores das
cargas elétricas e das massas de repouso dessas partı́culas. Essas grandezas e leis devem ser as mesmas
em quaisquer sistemas de referência inerciais.
Intimamente associada a isso está a questão dos valores das massas de repouso das partı́culas
elementares. Isso se deve ao fato seguinte. A fı́sica quântica nos ensina que se m0 é a massa de
repouso de uma partı́cula elementar, digamos um elétron, então a quantidade ~/(m0 c) tem dimensão
de comprimento (verifique!). Esse é o chamado comprimento de onda Compton29 da partı́cula de massa
27
A noção de “tamanho médio” de um átomo pode ser definida na mecânica quântica, mas não entraremos em detalhes
aqui.
28
Charles Augustin de Coulomb (1736-1806).
29
Arthur Holly Compton (1892-1962). Compton recebeu o prêmio Nobel de Fı́sica de 1927 “for his discovery of the
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 14 825/1461
de repouso m0 . Assim, para qualquer partı́cula de massa de repouso m0 há uma escala de distância a
ela associada.
É parte da crença associada ao princı́pio da relatividade que as massas em repouso das partı́culas
elementares, como elétrons, quarks etc., são as mesmas quer na Terra quer em uma galáxia distante que
se move em relação a nós com velocidade constante. Até onde se sabe, essa hipótese tem corroboração
experimental, pois sua violação levaria a conseqüências observacionais em relação ao comportamento
da matéria que nunca foram verificadas quer em observações astronômicas quer em experimentos com
aceleradores de partı́culas feitos na Terra. Como ~ e c são constantes fı́sicas, devem também ser as
mesmas em quaisquer sistemas de referência inerciais e, portanto, o comprimento de onda Compton
de, digamos, um elétron em repouso deve ser o mesmo em qualquer sistema de referência inercial e com
ele poderı́amos estabelecer uma escala de distâncias universal.
Em um universo em que não houvessem escalas de distância ou de massa naturais, como por exemplo
no caso de universos em que todas as partı́culas elementares têm massa nula e não formam estados
ligados (como átomos) que possuam alguma escala de distância tı́pica, não haveria maneira de sistemas
de referência inerciais concordarem com escalas espaciais e temporais e, aı́, a inclusão de dilatações
seria inevitável nas transformações entre sistemas de referência. Esse não é o caso do universo em que
vivemos, pois nele sabidamente habitam partı́culas massivas.
Assim, apesar de as dilatações satisfazerem a condição de não violarem a estrutura causal do
espaço-tempo, as mesmas não devem ser consideradas como transformações legı́timas de coordenadas
espaço-temporais entre sistemas de referência inerciais no nosso universo, pois partimos da crença que
esses sistemas podem sempre concordar quanto a certas escalas básicas de certos objetos fı́sicos em
repouso, tais como as massas de repouso de certas partı́culas elementares e seus comprimentos de onda
Compton.
• A Convenção que c = 1
Daqui por diante adotaremos a convenção simplificadora que c = 1. Isso pode ser obtido pela
escolha de um sistema de unidades métricas conveniente. Essa convenção, muito empregada atual-
mente em textos de fı́sica teórica30 , tem a vantagem de “limpar” as expressões matemáticas de fatores
que dependam de c. Admitidamente, há uma certa “preguiça” na adoção dessa convenção, mas a
mesma traz vantagens. De qualquer forma, os fatores c omitidos podem ser facilmente recuperados por
considerações de análise dimensional.
É muito conveniente escrever o intervalo entre dois eventos x e y com uso da seguinte notação
matricial:
onde
0
1 0 0 0
0 1 0 0 1 0
η := η(3, 1) =
=
.
(14.63)
0 0 1 0 0
0 0 0 −1
0 0 0 −1
Vamos aqui provar um teorema de importância central no entendimento da relação entre trans-
formações L ∈ Mat (R, 4) e sua relação com a estrutura causal do espaço-tempo.
Teorema 14.7 Seja L um elemento de Mat (R, 4) que representa uma mudança entre sistemas de
referência inerciais que preserva os intervalos de tipo luz. Então,
ηLT ηL = − LT ηL 44 1 = ±| det(L)|1/2 1 . (14.66)
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 14 827/1461
ηLT ηL = 1 . (14.68)
Uma conseqüência imediata dessa relação é que I(Lx, Ly) = I(x, y) para todos x, y ∈ R4 . 2
onde31
3
X 3
X
a(~x) := 2 LT ηL 4a xa , e b(~x) := LT ηL ab xa xb ,
a=1 a, b=1
sendo que
− LT ηL 44 (y1 (~x) + y2 (~x)) = a(~x) e LT ηL 44 y1 (~x)y2 (~x) = b(~x).
Sabemos por (14.64)-(14.65) (tomando y = 0) que se L preserva intervalos tipo luz, então se tivermos
I(x) = 0 para algum x ∈ R4 , valerá também J(x) = 0. Para ~x fixo qualquer, vemos por (14.69) e
(14.70) que tanto I(x) quanto J(x) são polinômios de segundo grau em x4 e, pelo que acabamos de
comentar, têm os mesmos zeros. Dessa forma, também por (14.69) e (14.70), podemos sem perda de
generalidade escolher y1 (~x) = k~xk e y2 (~x) = −k~xk.
Com isso teremos que
J(x) = LT ηL 44 (x4 − k~xk)(x4 + k~xk) = − LT ηL 44 I(x)
para todo x ∈ R4 . Como LT ηL + LT ηL 44 η é uma matriz simétrica (verifique!), a Proposição 2.5,
página 134, implica LT ηL + LT ηL 44 η = 0. Como η 2 = 1, segue que
ηLT ηL = − LT ηL 44 1. (14.72)
Como vemos, um papel especial é desempenhado pelas matrizes de L. Por toda nossa discussão
tais matrizes representam as transformações entre sistemas de referência que respeitam a imposição
fı́sica de preservar a estrutura causal e ignoram dilatações. Daqui por diante vamos nos concentrar
exclusivamente em tais transformações. Como veremos, o conjunto L introduzido acima tem a estrutura
de um grupo, um fato de grande importância. Trata-se do chamado grupo de Lorentz, um objeto de
importância central na teoria da relatividade.
para todos x, y ∈ R4 . Esse fato e a particular forma da matriz η mostram que o conjunto de tais
matrizes L coincide com o grupo O(3, 1), que previamente definimos (vide página 779).
Devido à sua grande importância na fı́sica relativı́stica, o grupo O(3, 1) recebe denominação especial,
a saber, é denominado grupo de Lorentz32 , em honra ao grande fı́sico holandês, pioneiro nos estudos da
32
Hendrik Antoon Lorentz (1853-1928).
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 14 829/1461
teoria da relatividade. O(3, 1) é também denotado pelo sı́mbolo L. Os elementos de L são denominados
transformações de Lorentz.
Equivalentemente, o grupo de Lorentz L = O(3, 1) é o grupo de todas as matrizes 4 × 4 que
satisfazem
L−1 = ηLT η.
Prova. Sabemos que para qualquer matriz M vale (M T )T = M e que para qualquer matriz invertı́vel
M vale (M T )−1 = (M −1 )T (por que?). Se L ∈ L, tem-se por definição que L−1 = ηLT η. Assim, como
η T = η, segue que
T
L−1 = ηLη,
ou seja,
−1 T
LT = η LT η,
que é o que se queria provar.
• O Grupo de Poincaré
Retornemos brevemente às transformações afins gerais que preservam intervalos e que, como vimos,
são da forma Lx + t, com t ∈ R4 sendo uma translação e L ∈ L. A composição de duas de tais
transformações L′ x + t′ e Lx + t, é a transformação L′ (Lx + t) + t′ = L′ Lx + L′ t + t′ .
Essa última expressão naturalmente conduz ao seguinte. Seja P := L × R4 o conjunto de todos os
pares ordenados (L, t) com L ∈ L e t ∈ R4 . Então P é um grupo com o produto definido por
Como se vê, esse produto faz de P o produto semi-direto LsR4 . O produto semi-direto de grupos foi
definido à página 79.
E. 14.64 Exercı́cio. Verifique que o produto acima é de fato associativo. Identifique o elemento neutro
e determine a inversa de cada par (L, t) ∈ P. 6
Esse grupo, que combina transformações de Lorentz e translações, é denominado grupo de Poin-
caré33 em homenagem ao eminente matemático francês que também foi um dos pioneiros da teoria da
33
Jules Henri Poincaré (1854-1912).
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 14 830/1461
relatividade34 . O grupo de Poincaré é o grupo mais geral de transformações afins do espaço-tempo que
mantêm os intervalos invariantes.
Mais adiante (página 844) vamos retornar ao grupo de Poincaré para analisar sua estrutura enquanto
grupo de Lie. Antes, porém, precisamos nos concentrar plenamente no grupo de Lorentz.
E. 14.65 Exercı́cio importante. Verifique que as cinco matrizes acima são membros do grupo de Lorentz,
ou seja, satisfazem LηLT η = 1. 6
onde r0 é uma matriz 3 × 3 pertencente a O(3), então é fácil verificar que R é um elemento do grupo
de Lorentz, ou seja, satisfaz RηRT η = 1.
É fácil constatar que o conjunto das matrizes da forma de R acima forma um sub-grupo do grupo
de Lorentz. Esse sub-grupo será designado aqui35 por Rot.
E. 14.67 Exercı́cio. Mostre que Rot é isomorfo ao grupo O(3): Rot ≃ O(3). 6
Se R é da forma acima, é evidente também que det(R) = det(r0 ). Logo, Rot tem um sub-grupo
35
Essa notação não é uniforme na literatura.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 14 832/1461
E. 14.68 Exercı́cio. Mostre que SRot é isomorfo ao grupo SO(3): SRot ≃ SO(3). 6
E. 14.69 Exercı́cio. Mostre que se R ∈ Rot mas R 6∈ SRot então existe matriz R′ ∈ SRot com
R = P R′ . 6
E. 14.70 Exercı́cio. Mostre que se R ∈ Rot mas R 6∈ SRot então existe matriz R′′ ∈ SRot com
R = P1 R′′ . 6
As matrizes de SRot implementam rotações puras (sem troca de paridade) nas coordenadas espaciais
de R4 .
• Os “Boosts” de Lorentz
onde
1
γ(v) := √
1 − v2
e v ∈ (−1, 1).
36
Do inglês to boost: impulsionar, propelir, impelir, empurrar.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 14 833/1461
E. 14.71 Exercı́cio muito importante. Verifique que as matrizes B1 (v) acima são membros do grupo
de Lorentz, ou seja, satisfazem B1 (v)ηB1 (v)T η = 1 para todo v ∈ (−1, 1). 6
Outro fato de grande importância é o seguinte: o conjunto de todas as matrizes B1 (v) com v ∈
(−1, 1) forma um sub-grupo do grupo de Lorentz, denominado sub-grupo dos boosts de Lorentz (na
direção 1) e que designaremos aqui por B1 . Isso decorre do seguinte:
1. Para v = 0
B1 (0) = 1.
Observe-se que o item 3, acima, está intimamente associado à regra relativista de composição de
velocidades.
Segue também de (14.77) que B1 é um sub-grupo Abeliano: B1 (v ′ )B1 (v) = B1 (v)B1 (v ′ ) para todos
v ′ , v ∈ (−1, 1).
E. 14.73 Exercı́cio. Mostre que det(B1 (v)) = 1 para todo v ∈ (−1, 1) e, portanto, B1 ⊂ SO(3, 1).
6
Analogamente aos boosts de Lorentz na direção 1, há os boosts de Lorentz nas direções 2 e 3,
representados por matrizes como
1 0 0 0 1 0 0 0
0 γ(v) 0 −vγ(v) 0 1 0 0
B2 (v) :=
e B3 (v) :=
. (14.78)
0 0 1 0 0 0 γ(v) −vγ(v)
0 −vγ(v) 0 γ(v) 0 0 −vγ(v) γ(v)
Todas as afirmações feitas sobre as matrizes B1 têm seu correspondente análogo para as matrizes B2 e
B3 . Os respectivos sub-grupos são aqui denotados por B2 e B3 .
Geometricamente as matrizes B2 (v) e B1 (v) estão relacionadas por uma matriz de rotação de SRot
que implementa uma rotação de π/2 em torno do eixo 3:
onde
0 −1 0 0
1 0 0 0
R =
∈ SRot.
0 0 1 0
0 0 0 1
Analogamente, é possı́vel obter a matriz B3 (v) a partir de B1 (v) ou de B2 (v) através de rotações.
E. 14.75 Exercı́cio. Boosts de Lorentz em direções distintas não comutam. Mostre, por exemplo, que
B1 (v)B2 (v ′ ) 6= B2 (v ′ )B1 (v), exceto se v = 0 ou v ′ = 0. 6
Adiante, em nosso estudo da estrutura geral do grupo de Lorentz, mostraremos o quão importantes
os boosts de Lorentz são. A saber, mostraremos que toda matriz de Lorentz é obtida por uma sucessão
de uma rotação, um boost (na direção 1, por exemplo) e eventualmente uma outra rotação. Eventual-
mente trocas de paridade e inversões temporais podem ocorrer também. A afirmação precisa está no
Teorema 14.8.
Teorema 14.8 Seja L um elemento do grupo de Lorentz O(3, 1). Como matriz 4 × 4, L é da forma
L11 L12 L13 L14
L L22 L23 L24
21
L =
.
(14.79)
L L32 L33 L34
31
L41 L42 L43 L44
L = Ra B1 (v) Rb ,
L = T P Ra B1 (v) Rb ,
L = T Ra B1 (v) Rb ,
L = P Ra B1 (v) Rb ,
Proposição 14.15 Se L é um elemento do grupo de Lorentz O(3, 1) e L−1 é sua inversa, então tem-se
que (L−1 )44 = L44 . 2
Prova. A prova é simples, pois sabemos que L−1 = ηLT η. Então, usando-se a representação (14.A.1) e
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 14 836/1461
lT −b
= ,
−aT L44
Proposição 14.16 Se L e L′ são dois elementos quaisquer do grupo de Lorentz O(3, 1) então tem-se
que
sinal((LL′ )44 ) = sinal(L44 )sinal(L′44 ).
2
Prova. Sejam L e L′ duas transformações de Lorentz que, como em (14.A.1), representamos na forma
de blocos
l a l′ a′
L = , L′ = , (14.80)
bT L44 b′ T L′44
Vamos formar o produto L′′ = LL′ e estudar o sinal do elemento L′′44 da matriz resultante. Pela regra
de produto de matrizes teremos
L′′44 = L44 L′44 + bT a′ .
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 14 837/1461
Há dois casos a considerar: o caso em que sinal(L44 ) = sinal(L′44 ) e o caso em que sinal(L44 ) 6=
sinal(L′44 ).
1. Caso em que sinal(L44 ) = sinal(L′44 ).
Por (14.81) tem-se
L′′44 ≥ L44 L′44 − |b · a′ |.
Sabemos que b · a′ = kbk ka′ k cos θ, onde kbk é o comprimento de b, ka′ k é o comprimento de a′ e θ é o
ângulo que esses dois vetores formam entre si. É óbvio, portanto, que |b · a′ | ≤ kbk ka′ k (desigualdade
de Cauchy). Assim,
L′′44 ≥ L44 L′44 − kbk ka′ k. (14.82)
√ √
Pela Proposição 14.21, kbk = |α| e ka′ k = |α′|. Além disso, L44 = ± 1 + α2 e L′44 = ± 1 + α′ 2 .
Assim, por (14.82), p
√
L′′44 ≥ 1 + α2 1 + α′ 2 − |α| |α′| > 0.
Portanto,
sinal(L′′44 ) = +1 = sinal(L44 ) sinal(L′44 ),
como querı́amos provar.
2. Caso em que sinal(L44 ) 6= sinal(L′44 ).
Por (14.81) tem-se
L′′44 ≤ L44 L′44 + |b · a′ |.
Sabemos que b · a′ = kbk ka′ k cos θ, onde kbk é o comprimento de b, ka′ k é o comprimento de a′ e θ é o
ângulo que esses dois vetores formam entre si. É óbvio, portanto, que |b · a′ | ≤ kbk ka′ k (desigualdade
de Cauchy). Assim,
L′′44 ≤ L44 L′44 + kbk ka′ k. (14.83)
√ √
Pela Proposição 14.21, kbk = |α| e ka′ k = |α′ |. Além disso, L44 = ± 1 + α2 e L′44 = ∓ 1 + α′ 2 (pois
sinal(L44 ) 6= sinal(L′44 )). Assim, por (14.83),
√ p
L′′44 ≤ − 1 + α2 1 + α′ 2 + |α| |α′| < 0.
Portanto,
sinal(L′′44 ) = −1 = sinal(L44 ) sinal(L′44 ),
como querı́amos provar.
Os conjuntos de transformações de Lorentz que satisfazem as condições Ia, Ib, IIa ou IIb acima
são obviamente conjuntos disjuntos. Não é difı́cil mostrar (mas não o faremos aqui) que cada um é
um conjunto conexo. Portanto, o grupo de Lorentz L = O(3, 1) possui quatro componentes conexas.
Seguindo a convenção, detonaremos essas quatro componentes da seguinte forma:
Note-se também que apenas L↑+ contém a identidade 1. L↑− contém a operação de troca de paridade
P . L↓+ contém a operação de troca de paridade e inversão temporal P T . L↓− contém a operação de
inversão temporal T .
Os conjuntos L↑− , L↓+ e L↓− não são subgrupos de L. Porém, pelas Proposições 14.15 e 14.16, é
muito fácil constatar as seguintes afirmações:
Note-se que os elementos de ambos os conjuntos L↑+ e L↓+ satisfazem det(L) = 1. Portanto, o grupo
de Lorentz próprio L+ := L↑+ ∪ L↓+ coincide com SO(3, 1). Em L↑ não ocorrem reversões temporais37 .
Note também que SRot é um sub-grupo de L↑+ .
É uma crença da Fı́sica atual que L↑+ representa uma simetria da natureza (na ausência de campos
gravitacionais). Essa crença não se estende aos grupos L+ e L↑ . O problema com esses últimos grupos
é que os mesmos envolvem operações de troca de paridade (representada pela matriz P ) ou de reversão
temporal (representada pela matriz T ).
É um fato bem estabelecido experimentalmente que nas chamadas interações fracas da fı́sica das
partı́culas elementares a troca de paridade (representada por matrizes como P ou P1 ) não é uma
transformação de simetria da natureza.
37
Essa a razão da uso da flecha apontando para cima no sı́mbolo L↑ , indicando que o tempo corre na mesma direção
nos sistemas de referência inerciais transformados por L↑ .
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 14 839/1461
No contexto da teoria quântica de campos é um fato teórico bem estabelecido que a chamada trans-
formação CPT38 é uma transformação de simetria. Violações dessa simetria não foram empiricamente
observadas na fı́sica as partı́culas elementares. Por isso, a constatação que a simetria CP é violada,
fenômeno observado em certos processos da fı́sica das partı́culas elementares, indica fortemente que
a reversão temporal também não seria uma simetria da natureza. Entretanto, evidências experimen-
tais diretas de que a simetria de reversão temporal é violada não foram ainda encontradas, por serem
de difı́cil constatação. Para mais informações a respeito de simetrias e suas violações na fı́sica das
partı́culas elementares, vide por exemplo [93] ou outros livros introdutórios sobre a fı́sica das partı́culas
elementares.
Prova. Tudo o que temos que fazer é provar que se L ∈ L↑+ e G ∈ L, então G−1 LG ∈ L↑+ . Isso equivale
a provar que det(G−1 LG) = 1 e que sinal((G−1 LG)44 ) = 1.
Como det(L) = 1, tem-se obviamente que
E. 14.77 Exercı́cio. Mostre que o grupo quociente L/L↑+ é isomorfo ao grupo gerado por P1 e T . 6
tanh(x)+tanh(y)
E. 14.78 Exercı́cio. Mostre isso usando (14.77) e a identidade bem conhecida tanh(x+y) = 1+tanh(x) tanh(y)
.
Alternativamente, use a forma explı́cita das matrizes Ba (z) dada acima. 6
Como Ba (0) = 1, constatamos que {Ba (z), −∞ < z < ∞}, a = 1, 2, 3, são três subgrupos
uniparamétricos do grupo de Lorentz. Seus geradores são
d
Ma := Ba (z) , a = 1, 2, 3,
dz z=0
E. 14.79 Exercı́cio. Verifique isso usando as formas explı́citas dos geradores Ma dadas acima. 6
• Os geradores de SRot
Além dos boosts de Lorentz, consideremos também os três sub-grupos uniparamétricos de SRot
dados por
1 0 0 0 cos φ2 0 senφ2 0
0 cos φ − senφ 0 0 1 0 0
1 1
R1 (φ1 ) =
,
R2 (φ2 ) =
,
0 senφ cos φ1 0 − senφ 0 cos φ2 0
1 2
0 0 0 1 0 0 0 1
cos φ3 − senφ3 0 0
senφ cos φ3 0 0
3
R3 (φ3 ) =
,
0 0 1 0
0 0 0 1
que representam rotações por ângulos φ1 , φ2 e φ3 ∈ (−π, π] no sentido horário em torno dos eixos
espaciais 1, 2 e 3, respectivamente. Em completa analogia com o grupo SO(3), seus geradores são
d
Ja := Ra (φ) , a = 1, 2, 3.
dφ φ=0
É óbvio que
0
Ja 0
Ja =
,
0
0 0 0 0
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 14 842/1461
onde Ja são os geradores de SO(3) dados em (14.29)-(14.31), página 789. Explicitamente, tem-se
0 0 00 0 0 1 0 0 −1 0 0
0 0 −1 0 0 0 0 0 1 0 0 0
J1 =
J2 =
,
J3 =
.
(14.85)
0 1 0 0 −1 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0 0 0 0
E. 14.80 Exercı́cio muito importante. Todo estudante tem que fazê-lo ao menos uma vez na vida. Mos-
tre que os geradores, Ma e Jb , com a, b = 1, 2, 3, satisfazem as seguintes relações de comutação:
3
X
[Ja , Jb ] = εabc Jc , (14.86)
k=1
3
X
[Ma , Mb ] = − εabc Jc , (14.87)
k=1
3
X
[Ja , Mb ] = εabc Mc . (14.88)
k=1
É claro de (14.86)-(14.88) que os seis geradores Ma e Jb formam uma álgebra de Lie, a álgebra de
Lie do grupo de Lorentz L↑+ . Sabemos que não há mais geradores independentes pois, como provamos,
todo elemento do grupo de Lorentz L↑+ é produto de boosts e rotações.
De (14.87) percebemos o fato notável que os três geradores dos sub-grupos de boost por si só não for-
mam uma álgebra de Lie! Para tal, é preciso incluir os geradores dos sub-grupos de rotação! Isso releva
uma relação insuspeita, mas profunda, entre os boosts (que fisicamente representam transformações
entre sistemas de referência inerciais com velocidades relativas não-nulas) e as rotações espaciais, pois
indica que as rotações espaciais podem ser geradas a partir de boosts. Isso é uma caracterı́stica especial
da fı́sica relativista (vide a comparação com o grupo de Galilei, abaixo) e está relacionada a alguns
fenômenos fı́sicos, como a chamada precessão de Thomas, importante na discussão do chamado fator
giromagnético do elétron. Vide qualquer bom livro sobre Mecânica Quântica Relativista (por ex. [127]).
Como vimos no Teorema 14.8, página 835, toda L ∈ L↑+ é da forma L = Ra B1 (v)Rb , com
Ra , Rb ∈ SRot. Escrevendo v = tanh θ, ficamos com L = Ra B1 (θ)Rb ou, usando o gerador M1 , L =
Ra exp(θM1 )Rb . Isso, por sua vez pode ser reescrito como L = Ra exp(θM1 )RaT R = exp(θRa M1 RaT )R,
onde R := Ra Rb ∈ SRot.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 14 843/1461
P
Vamos agora escrever Ra na forma Ra = exp(J), onde J = 3k=1 αk Jk para certos αk ’s reais. Pela
expressão (4.39), página 259 (vide também a série completa em (4.38)), teremos
1 1
Ra M1 RaT = exp(J)A exp(−J) = M1 + [J, M1 ] + [J, [J, M1 ]] + [J, [J, [J, M1 ]]] + · · · ,
2! 3!
sendo a série do lado direito convergente. O fato importante a notar é que, por (14.88), os comutadores
múltiplos [J, · · · [J, M1 ]] são combinações lineares de M1 , M2 e M3 . A conclusão disso está expressa
no seguinte teorema.
P P
Teorema 14.9 Toda L ∈ L↑+ é da forma L = exp(M) exp(J), onde J = 3k=1 βk Jk e M = 3k=1 γk Mk ,
sendo que os βk ’s e γk ’s são números reais. 2
A interpretação desse teorema é que toda transformação de Lorentz (de L↑+ ) pode ser obtida como
uma rotação (definida por exp(J) ∈ SRot) seguida de um boost em uma certa direção (que é definida
pelas componentes de M).
Invertendo ordens na prova acima, o leitor se convence
P todo L ∈ L↑+ também pode
facilmente que P
ser escrito como L = exp(J′ ) exp(M′ ), para outros J′ = k=1 βk′ Jk e M′ = 3k=1 γk′ Mk .
3
Por
P3fim, ′ advertimos
o estudante do fato que, por (14.87), o conjunto das matrizes da forma
exp a
k=1 k M k , ak ∈ R, não formam um subgrupo de L↑+ .
• O Grupo de Galilei
E. 14.81 Exercı́cio. Mostre que as transformações de Galilei39 da mecânica clássica podem ser repre-
sentadas como um grupo de matrizes 4 × 4, da forma
−v1
r0 −v2
G(r0 , ~v ) :=
,
−v3
0 0 0 1
onde r0 é uma matriz 3 × 3 pertencente a O(3) e vj ∈ (−∞, ∞). Mostre que tais matrizes formam um
grupo de Lie, determinando também G(r0 , ~v )−1 e a regra de produto G(r0 , ~v)G(r0′ , ~v ′ ). 6
Determine seus três sub-grupos de boost, seus três sub-grupos de rotação e os seis geradores desses
sub-grupos. Em seguida calcule as relações de comutação desses seis geradores. Compare com o que
ocorre com o grupo de Lorentz.
39
Galileu Galilei (1564-1642).
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 14 844/1461
Então, tem-se
P (L, x) P (L′ , x′ ) := P (LL′ , Lx′ + x) .
Assim, o conjunto de matrizes {P (L, x) ∈ GL(R, 5), com L ∈ O(3, 1) e x ∈ R4 } forma um sub-
grupo de GL(R, 5) que é isomorfo a P. Também denotaremos esse grupo por P.
O chamado grupo de Poincaré próprio ortócrono, denotado por P↑+ é o grupo P↑+ := L↑+ sR4 .
De maneira totalmente análoga ao que fizemos no grupo Euclidiano, podemos determinar os gera-
dores do grupo P↑+ . Este possui 10 geradores. Seis da forma
Mk 0 Jk 0
mk := ou jk := com k = 1, 2, 3,
0 0 0 0
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 14 845/1461
onde
1 0 0 0
0 1 0 0
x1 :=
, x2 :=
, x3 :=
, x4 :=
.
0 0 1 0
0 0 0 1
3
X
[ma , mb ] = − εabc jc , (14.90)
k=1
3
X
[ja , mb ] = εabc mc , (14.91)
k=1
[pa , pb ] = 0, (14.92)
3
X
[ja , pb ] = (1 − δb4 ) εabc pc , (14.93)
k=1
E. 14.85 Exercı́cio importante. Todo estudante deve fazê-lo uma vez na vida. Verifique isso. 6
As três primeiras relações acima seguem de (14.86)-(14.88), página 842. A relação (14.93) diz que
os j’s comutam com p4 e, nos demais casos, tem-se a última relação de (14.61).
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 14 846/1461
Novamente constatamos que a sub-álgebra gerada pelos p’s é um ideal de álgebra de Lie do grupo
de Poincaré.
Com base no nosso estudo do grupo O(1, 1) (vide Seção 14.3.1, em especial, página 784), sabemos
que o grupo P↑+ em 1+1-dimensões é isomorfo ao grupo de matrizes da forma
cosh z − senhz x1
− senhz cosh z x
2
0 0 1
onde
0 −z t1
M = zm1 =
e t = t1 p1 + t2 p2 =
−z 0 t2
onde
cosh z − senhz
L := eM =
e t′ = f (M)t ,
− senhz cosh z
sendo f a função analı́tica inteira definida em (14.62). A matriz f (M) pode ser calculada facilmente
usando-se o fato que
2k 2k+1
0 −1 0 −1 0 −1
= 1 e
=
,
k ∈ N,
−1 0 −1 0 −1 0
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 14 848/1461
de onde se extrai
X∞
1 k−1
f (M) := 1 + M
k=2
k!
∞
X X∞
1 1
= 1+ M2m−1 + M2m
m=1
(2m)! m=1
(2m + 1)!
X∞ 0 −1 X ∞
z 2m−1 z 2m
= + 1
m=1
(2m)!
m=0
(2m + 1)!
−1 0
cosh z − 1 0 −1 senhz
=
+
1
z z
−1 0
senhz cosh z − 1
−
z z
=
.
cosh z − 1 senhz
−
z z
Notemos que
cosh z − 1
det f (M) = 2 6= 0
z2
x1
para z ∈ R. Assim, f (M) é invertı́vel e se escolhermos t = f (M)−1x, para qualquer x =
∈R
2
x2
teremos
cosh z − senhz x1
L x
exp I(M, f (M) x) =
−1
= − senhz cosh z x .
2
0 0 1
0 0 1
Isso prova que todo elemento do grupo P↑+ em 1+1 dimensões pode ser escrito como exponencial de
um elemento da sua própria álgebra de Lie.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 14 849/1461
• Automorfismos de SL(C, 2)
Com o propósito de preparar a discussão sobre a relação entre SL(C, 2) e o Grupo de Lorentz,
vamos em primeiro lugar discutir alguns automorfismos do grupo SL(C, 2).
0 −1
Seja τ := −iσ2 =
∈ SL(C, 2). Definimos ϕτ : SL(C, 2) → SL(C, 2) por
1 0
ϕτ (A) := τ Aτ −1 .
Então, ϕτ é um automorfismo de SL(C, 2). De fato, vê-se trivialmente que ϕτ é bijetora e que
ϕτ (AB) = ϕτ (A)ϕτ (B) para todos A, B ∈ SL(C, 2) (prove isso!).
Para uma matriz M ∈ Mat (C, 2) denotamos
por M a matriz obtida tomando-se o complexo
conjugado dos elementos de matriz de M: M ij = Mij . Sabe-se que det(M ) = det(M), portanto, se
A ∈ SL(C, 2) então A ∈ SL(C, 2).
Assim, seja ϕ1 : SL(C, 2) → SL(C, 2) definida por
ϕ1 (A) := A.
Então, ϕ1 é também um automorfismo de SL(C, 2). De fato, vê-se trivialmente que ϕ1 é bijetora e que
ϕ1 (AB) = ϕ1 (A)ϕ1 (B) para todos A, B ∈ SL(C, 2) (prove isso!).
Note que ϕ1 (ϕ1 (A)) = A, ou seja, ϕ1 ◦ ϕ1 é a identidade.
O grupo SL(C, 2) possui um outro automorfismo de interesse. Se det(A) = 1 é fácil ver que
igualmente tem-se det ((A∗ )−1 ) = 1. Definimos então ϕ2 : SL(C, 2) → SL(C, 2) por
ϕ2 (A) := (A∗ )−1 = (A−1 )∗ .
Novamente, é fácil ver que ϕ2 é bijetora e que e que ϕ2 (AB) = ϕ2 (A)ϕ2 (B) para todos A, B ∈ SL(C,
2) (prove isso!).
a b
Há uma relação entre os automorfismos ϕτ , ϕ1 e ϕ2 . Se A ∈ SL(C, 2) é da forma A =
, uma
c d
d −c
conta simples (faça!) mostra que (A∗ )−1 =
. Daı́, é fácil constatar que (A∗ )−1 = τ Aτ −1
−b a
40
Paul Adrien Maurice Dirac (1902-1984).
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 14 850/1461
(faça essa constatação!). Concluı́mos assim que ϕ2 = ϕτ ◦ ϕ1 . Portanto, vale também que
ϕ2 ◦ ϕ1 = ϕτ . (14.95)
Todos esses fatos serão usados na Seção 14.8, onde discutiremos em detalhe a importante e surpre-
endente relação entre SL(C, 2) e o Grupo de Lorentz.
Por Herm (C, 2) designamos o sub-espaço (real) de Mat (C, 2), formado por todas as matrizes
complexas 2 × 2 e Hermitianas: Herm (C, 2) := {M ∈ Mat (C, 2)| M ∗ = M}. É fácil ver que
existe uma correspondência biunı́voca entre Herm (C, 2) e R4 (e, portanto, entre Herm (C, 2) e o
espaço-tempo de Minkowski41 quadridimesional). De fato, como 1, σ1 , σ2 , σ3 formam uma base em
Mat (C, 2), podemos escrever toda matriz M ∈ Herm (C, 2) na forma
m4 + m3 m1 − im2
M = m4 1 + m1 σ1 + m2 σ2 + m3 σ3 , =
,
m1 + im2 m4 − m3
Prova. Como AMA∗ = M para toda M ∈ Herm (C, 2) e 1 ∈ Herm (C, 2), segue que A∗ = A−1 . Logo,
AMA−1 = M para toda M ∈ Herm (C, 2), ou seja, AM = MA para toda M ∈ Herm (C, 2). Ocorre,
porém, que toda matriz Q ∈ Mat (C, 2) pode ser escrita como Q = Q1 + iQ2 com
1 1
Q1 := (Q + Q∗ ), Q2 := (Q − Q∗ )
2 2i
41
Hermann Minkowski (1864-1909).
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 14 851/1461
onde Q1 e Q2 são ambas Hermitianas (verifique!). Logo, como A comuta com todas as matrizes
Hermitianas, A comuta com todas as matrizes de Mat (C, 2). Isso só é possı́vel se A for um múltiplo
da matriz identidade: A = λ1 (vide Proposição 1.13, página 78). Como det(A) = 1, segue que λ2 = 1,
ou seja, A = ±1, que é o que querı́amos mostrar.
Prova. A relação AMA∗ = BMB ∗ implica CMC ∗ = M, onde C = B −1 A ∈ SL(C, 2). Pela proposição
anterior, C = ±1, terminando a prova.
x
1
Seja x ∈ R , x = xx23 , e seja
4
x4
M(x) := x4 1 + x1 σ1 + x2 σ2 + x3 σ3 (14.97)
o elemento correspondente de Herm (C, 2). É fácil ver que M : R4 → Herm (C, 2) é bijetora e linear:
M(αx + βy) = αM(x) + βM(y) para todos α, β ∈ R e todos x, y ∈ R4 .
E. 14.86 Exercı́cio. Mostre que as quatro componentes do vetor x ∈ R4 podem ser recuperadas de
M(x) pelas seguintes expressões:
1 1 1
x4 = Tr (1M(x)) = Tr (M(x)) e xi = Tr (σi M(x)), i = 1, 2, 3.
2 2 2
6
Seja agora A um elemento de SL(C, 2). Se M ∈ Herm (C, 2), como já observamos, AMA∗ também
é um elemento de Herm (C, 2). Como A(BMB ∗ )A∗ = (AB)M(AB)∗ é fácil ver (faça!) que
definida por
α(A, M) := AMA∗
é uma ação à esquerda de SL(C, 2) sobre Herm (C, 2).
Para quaisquer x ∈ R4 e A ∈ SL(C, 2) teremos que α(A, M(x)) = AM(x)A∗ é Hermitiana. Como
o lado direito depende linearmente de x, existe uma matriz real 4 × 4 que denotaremos por L[A] tal
que
α(A, M(x)) = AM(x)A∗ = M(L[A]x). (14.100)
Formalmente podemos definir L[A] da seguinte forma. Como M : R4 → Herm (C, 2) é bijetora,
definimos
L[A]x := M −1 ( α(A, M(x)) ) = M −1 ( AM(x)A∗ ), (14.101)
para todo x ∈ R4 . Em componentes tem-se, usando (14.98),
X4
1 ∗ 1
(L[A]x)µ = Tr (σµ AM(x)A ) = Tr (σµ Aσν A∗ )xν ,
2 ν=1
2
E. 14.88 Exercı́cio importante. Usando a Proposição 14.19, mostre que L[A] = L[B] se e somente se
A = ±B. 6
E. 14.89 Exercı́cio importante. Mostre que L[A]L[B] = L[AB] para todos A, B ∈ SL(C, 2). Su-
gestão: use a definição (14.101), não (14.102). 6
E. 14.90 Exercı́cio. Mostre que l : SL(C, 2)×R4 → R4 definida por l(A, x) = L[A]x é uma ação de
SL(C, 2) sobre R4 . 6
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 14 853/1461
O ponto importante de tudo isso, e que iremos mostrar agora, é que L[A] é uma matriz de Lorentz,
ou seja, é um elemento de O(3, 1)! Para isso, faremos uso de (14.99). De fato, temos por (14.99) que
1
hL[A]x, ηL[A]yiR = − [det(M(L[A](x + y))) − det(M(L[A](x − y)))]
4
1
= − det(M(M −1 ( AM(x + y)A∗ ))) − det(M(M −1 ( AM(x − y)A∗ )))
4
1
= − [det( AM(x + y)A∗ ) − det( AM(x − y)A∗ )]
4
det(A) det(A∗ )
= − [det(M(x + y)) − det(M(x − y))]
4
1
= − [det(M(x + y)) − det(M(x − y))]
4
= hx, ηyiR .
Um fato muito importante é que a aplicação Φ1 : SL(C, 2)/{−1, 1} → L↑+ definida por
é um isomorfismo entre os grupos SL(C, 2)/{−1, 1} e L↑+ . A prova dessa afirmação, muito importante
na teoria dos spinores, é apresentada na Seção 14.B, página 871. Notemos que pelos exercı́cios da
página 852, acima, resta apenas provar que Φ1 é sobrejetora, o que é feito na Seção 14.B.
Φ1 não é o único isomorfismo relevante entre esses dois grupos e apresentaremos mais três logo
abaixo para em seguida discutir o significado de todos eles.
O fato de haver isomorfismos de SL(C, 2)/{−1, 1} no grupo de Lorentz próprio ortócrono L↑+ é de
grande importância na fı́sica relativista, em particular na Teoria Quântica de Campos, por mostrar que
as transformações de Lorentz (próprias e ortócronas) podem ser implementadas para partı́culas de spin
43
Vide, por exemplo, [109] ou [49].
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 14 854/1461
1/2 (cujas funções de onda vivem em C2 ) através de elementos de SL(C, 2). As rotações SRot ⊂ L↑+ ,
por exemplo, são implementadas pela imagem por Φ−1 1 dos elementos do sub-grupo SU(2)/{−1, 1}
de SL(C, 2)/{−1, 1} (lembre-se que SU(2)/{−1, 1} é isomorfo a SO(3), que é isomorfo a SRot).
O boost de velocidade v na direção ~η ∈ R3 é implementado pela imagem por Φ−1 1 dos elementos
± exp((tanh v) ~η · ~σ ) ∈ SL(C, 2).
E. 14.91 Exercı́cio. Prove os fatos mencionados no parágrafo precedente. Sugestão: vide [109] ou [49].
6
Usando os automorfismos ϕ1 e ϕ2 de SL(C, 2) definidos à página 849 podemos construir mais três
ações de SL(C, 2) sobre Herm (C, 2) com o uso da ação α definida em (14.100). Essas ações são
denotadas aqui por α̇, αc e α̇c e são definidas da seguinte forma:
∗
α̇(A, M) := α(ϕ1 (A), M) = AMA , (14.104)
são isomorfismos de SL(C, 2)/{−1, 1} em L↑+ . Isso claramente significa que as inversas Φ−1
i : L↑+ →
SL(C, 2)/{−1, 1}, i = 1, . . . , 4, são representações de L↑+ em C2 .
A representação Φ−1 −1
2 é por vezes denominada complexo conjugada e a representação Φ4 é por vezes
denominada contra-gradiente.
• Spinores
Spinores com ponto e sem (em inglês: “dotted spinors” e “undotted spinors”, respectivamente)
podem ser relacionados por conjugação complexa.
Para U ∈ SU(2), vale U = τ Uτ −1 (verifique), de modo que, no que concerne ao grupo de rotações,
a diferença entre “undotted spinors” e “dotted spinors” é uma rotação de π em torno do eixo 2. Para
um boost B(v, ~η ) = exp((tanh v) ~η · ~σ ) ∈ SL(C, 2) com ~η = (η1 , η2 , η3 ) teremos B(v, ~η ) = B(v, ~η r ),
onde ~η r = (η1 , −η2 , η3 ). Isso pois σ1 = σ1 , σ3 = σ3 mas σ2 = −σ2 . Logo,
B(v, ~η ) = τ B(−v, ~η )τ −1 .
Assim, no que concerne aos boosts de Lorentz, a diferença entre “undotted spinors” e “dotted spinors”
é uma reversão temporal (representada aqui pela troca v → −v) seguida de rotação de π em torno do
eixo 2.
Todas as considerações acima sobre “undotted spinors” e “dotted spinors” são de relevância na
mecânica quântica relativista, particularmente para a célebre equação de Dirac para o elétron44 .
44
Para um artigo clássico sobre o assunto, vide: O. Laporte and G. E. Uhlenbeck. “Application of spinor analysis
for the Maxwell and Dirac equations”. Phys. Rev. 37, 1380 (1931). Outra referência clássica é [149]. Vide também
qualquer bom livro moderno sobre Teoria Quântica de Campos.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 14 856/1461
Prova. Seja A = exp(α1 σ1 +α2 σ2 +α3 σ3 ) ∈ SL(C, 2), com αk ∈ C, k = 1, 2, 3. Então, AT = exp(α1 σ1 −
α2 σ2 + α3 σ3 ), pois σ1T = σ1 , σ3T = σ3 mas σ2T = −σ2 . Assim, AT τ = −iAT σ2 = −iσ2 σ2 AT σ2 =
τ exp (σ2 [α1 σ1 − α2 σ2 + α3 σ3 ] σ2 ) = τ exp(−α1 σ1 −α2 σ2 −α3 σ3 ) = τ A−1 onde, na penúltima igualdade,
usamos as propriedades de anti-comutação das matrizes de Pauli. Isso completa a prova.
Uma conseqüência dessa proposição é que se definirmos, para ψ, φ ∈ C2 , a forma bilinear (simplética)
ωτ (ψ, φ) := hψ, τ φiR , teremos ωτ (Aψ, Aφ) = ωτ (ψ, φ) para todo A ∈ SL(C, 2).
Apesar de invariante por SL(C, 2), a forma bilinear ωτ acima não é interessante para a fı́sica
quântica, pois não é um produto escalar (tem-se, por exemplo, ωτ (ψ, ψ) = 0 ∀ψ ∈ C2 ) e, portanto,
não existe uma interpretação probabilı́stica associada à mesma. Para que a simetria L↑+ implementada
por SL(C, 2) represente uma simetria de um sistema quântico cujo espaço de Hilbert é C2 , devemos
procurar um produto escalar em C2 que seja invariante por SL(C, 2). Veremos, porém, que um tal
produto escalar não existe.
Vamos estudar a forma mais geral de um produto escalar em C2 . Como já observamos à página
139 e anteriores, a forma mais geral de um produto escalar em C2 é hψ, MφiC , onde M é autoadjunta
e positiva. Toda matriz 2 × 2 autoadjunta é da forma M(p) para algum p ∈ R4 (M(p) foi definida
em (14.97), página 851)). Vamos descobrir para quais p ∈ R4 tem-se M(p) > 0. Para que essa
condição seja satisfeita os dois autovalores λ1 e λ2 de M(p) devem ser positivos. Calculando por
(14.97) o traço e o determinante de M(p) , tem-se det(M(p)) = λ1 λ2 = (p4 )2 − (p1 )2 − (p2 )2 − (p3 )2 e
Tr(M(p)) = λ1 + λ2 = 2p4 . É fácil ver daı́ que λ1 = p4 + k~pk e λ2 = p4 − k~pk onde ~p = (p1 , p2 , p3 ).
Logo, M(p) > 0 se e somente se p4 > k~pk.
Seja V+ := {p ∈ R4 | p4 > k~pk}. É fácil verificar (faça-o) que V+ é mantido invariante por L↑+ .
Para ψ, φ ∈ C2 e p ∈ V+ , definamos o produto escalar
hAψ, Aφip := hψ, A∗ M(p)AφiC = hψ, M (L[A∗ ]p) φiC = hψ, φiL[A∗ ]p ,
produto escalar invariante para todo o grupo SL(C, 2) em C2 , já que não há vetor em V+ que seja
invariante para todo L ∈ L↑+ . Fisicamante falando, a simetria de Lorentz L↑+ não pode, portanto, ser
implementada em espaços de Hilbert bidimensionais, apenas a simetria de rotação.
Adiante discutiremos como implementar a simetria de Lorentz (e a de Poincaré) em campos de
spinores, aumentando a dimensão do espaço de Hilbert dos estados.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 14 858/1461
Apêndices
14.A Prova do Teorema 14.8
Aqui a demonstração do Teorema 14.8 será apresentada.
Seja L um elemento do grupo de Lorentz O(3, 1), representada como matriz da forma (14.79).
Vamos definir vetores coluna (ou seja, matrizes 3 × 1) a e b por
L14 L41
a :=
L24
,
b :=
L42
.
L34 L43
T T
onde b , a transposta de b, é o vetor linha (matriz 1 × 3) dado por b = L41 , L42 , L43 e l é a
matriz 3 × 3 dada por
L11 L12 L13
l :=
L21 L22 L23
.
L31 L32 L33
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 14 859/1461
e que, conseqüentemente,
ra lrbT ra a
Ra LRbT = . (14.A.3)
(rb b)T L44
E. 14.93 Exercı́cio importante. Verifique essas afirmações. Se você não conseguir procure ajuda, pois
não será possı́vel entender o que segue. A maneira pedestre de provar (14.A.2) é escrever explicitamente Ra
e L como matrizes 4 × 4, fazer o produto de ambas e então constatar a validade de (14.A.2). Para (14.A.3)
proceda de modo análogo. 6
As expressões acima são válidas de modo bastante geral, para quaisquer que sejam as matrizes de
rotação ra e rb . Vamos agora, porém, considerar matrizes de rotação ra e rb particulares. Escolhemos
ra da forma ra = sa ta , onde ta ∈ SO(3) é a matriz de rotação que roda o vetor a de modo que apenas
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 14 860/1461
a
s ∈ SO(3), por sua vez, é uma matriz de rotação em torno do eixo 1, e que, portanto, deixa
A matriz
o vetor 10 invariante. sa é da forma
0
1 0 0 1 0 0
sa = =:
0
, (14.A.5)
0 sa22 sa23
sa′
0 sa32 sa33 0
com
sa22 sa23
sa′ :=
∈ SO(2).
sa32 sa33
A matriz sb ∈ SO(3), por sua vez, é uma matriz de rotação em torno do eixo 1, e que, portanto, deixa
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 14 861/1461
1
o vetor 0 invariante. sb é da forma
0
1 0 0 1 0 0
sb = =:
0
, (14.A.7)
0 sb22 sb23
b′
s
0 sb32 sb33 0
com
b′
sb22 sb23
s :=
∈ SO(2).
sb32 sb33
Daqui por diante as matrizes ta e tb estarão fixas. As matrizes sa e sb são ainda arbitrárias, mas serão
fixadas mais adiante.
Com essas escolhas temos agora
α
sa lt (sb )T 0
Ra LRbT =
,
(14.A.8)
0
β 0 0 L44
onde lt := ta l(tb )T .
A matriz L′ = Ra LRbT é certamente um elemento do grupo de Lorentz O(3, 1), pois Ra , L e RbT o
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 14 862/1461
α 0 −β
sa lt (sb )T 0 1 0 sb ltT (sa )T 0
=
0 0 0
β 0 0 L44 0 0 0 −1 α 0 0 −L44
α −β
sa lt (sb )T 0 sb ltT (sa )T 0
=
0 0
β 0 0 L44 −α 0 0 L44
f g
= ,
−g T L244 − β 2
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 14 863/1461
onde
2
−α 0 0
f = s lt (lt ) (s ) +
a T a T
0 0 0
0 0 0
e
1 1
g = −βs lt (s ) 0 + L44 α
a b T
0 .
0 0
E. 14.94 Exercı́cio importante. Verifique as expressões acima. Sugestão: exerça a virtude da Paciência.
6
g = 0 e (14.A.10)
L244 − β 2 = 1 (14.A.11)
(por que?). Logo,
1 + α2 0 0
s lt (lt ) (s ) =
a T a T
0 1 0
, (14.A.12)
0 0 1
1 1
βs lt (s ) 0 = L44 α
a b T
0 . (14.A.13)
0 0
Devido à forma de sa e sb em (14.A.5) e (14.A.7) essas relações implicam
2
1+α 0 0
lt (lt )T =
0 1 0
, (14.A.14)
0 0 1
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 14 864/1461
1 1
βlt
0 = L44 α 0 . (14.A.15)
0 0
Das relações acima extrairemos várias conclusões sobre a estrutura do grupo de Lorentz. A primeira
é a seguinte proposição:
Proposição 14.21 Para qualquer transformação de Lorentz L vale
L244 − β 2 = 1, (14.A.16)
L244 − α2 = 1 (14.A.17)
e, conseqüentemente,
α2 = β 2 . (14.A.18)
Fora isso,
a2 = α2 = β 2 = b2 ,
onde a2 e b2 são os módulos ao quadrado dos vetores a e b, respectivamente, ou seja,
Portanto,
L244 = 1 + (L14 )2 + (L24 )2 + (L34 )2 = 1 + (L41 )2 + (L42 )2 + (L43 )2 .
2
Prova. (14.A.16) é o mesmo que (14.A.11). Para provar (14.A.17), notemos que, pela Proposição 14.14,
LT é também uma transformação de Lorentz. Logo, para LT a relação (14.A.16) significa L244 − α2 = 1,
pois ao passarmos de L para LT o elemento L44 não muda, mas ocorre a troca α ↔ β. (14.A.18)
segue
de (14.A.16) e (14.A.17). Para provar que a2 = α2 , notemos que, por (14.A.4), o vetor α0 é obtido
0
de a por uma rotação ta ∈ SO(3), que não altera o comprimento de vetores. De modo análogo prova-se
que b2 = β 2 .
Segue dessa proposição que, para prosseguirmos, teremos que considerar dois casos: o caso α = β =
0 e o caso em que α 6= 0 e β 6= 0.
Caso α = β = 0
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 14 865/1461
Ocorre que também vale que φ = 0. Para ver isso, notemos que (14.A.14) diz-nos que
T
ω φ 1 + α2 0 0
ω 0 0
lt (lt )T = = 0 1 0 ,
0
′T
lt φ lt′
0 0 0 1
ou seja,
2 T
(lt′ φ)T 1 + α2 0 0
ω +φ φ
= 1 0
0 .
lt′ φ lt′ (lt′ )T
0 0 1
Logo,
lt′ (lt′ )T = 1, (14.A.20)
lt′ φ = 0 (14.A.21)
e
ω 2 + φT φ = 1 + α 2 . (14.A.22)
Agora, (14.A.20) afirma que lt′ é uma matriz ortogonal e (lt′ )−1 = (lt′ )T . Aplicando, portanto, (lt′ )−1 à
esquerda em (14.A.21) segue que φ = 0. Chegamos assim à conclusão que
ω 0 0 ω 0 0
lt = 0 (lt )22 (lt )23
= 0 ,
l ′
t
0 (lt )32 (lt )33 0
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 14 867/1461
Retornando a (14.A.8)
ω 0 0 α
0 1 0 0
Ra LRbT =
(14.A.23)
0 0 1 0
β 0 0 L44
onde, recordando,
L44 α
ω = e ω 2 = 1 + α2 . (14.A.24)
β
Resta-nos mostrar que a matriz do lado direito de (14.A.23) tem a forma de um boost de Lorentz,
acompanhado eventualmente de uma operação de troca de paridade e/ou reversão temporal. É o que
faremos agora.
Como Ra LRbT é um elemento do grupo de Lorentz O(3, 1), tem-se que det(Ra LRbT ) = ±1. Calcu-
lando o determinante da matriz do lado direito (14.A.23) tem-se então
ωL44 − αβ = ±1.
Multiplicando-se por α/β teremos
L44 α α
ω − α2 = ± ,
β β
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 14 868/1461
ou seja,
α
ω 2 − α2 = ± .
β
Pela segunda equação em (14.A.24) isso implica
β = ±α e L44 = ±ω,
√
os dois sinais ± acima sendo iguais ao sinal de det(Ra LRbT ). ω, porém, é dado por ± 1 + α2 ( por
(14.A.24)), mas a escolha do sinal dessa raiz quadrada é independente do sinal de det(Ra LRbT ). Há,
portanto, quatro situações possı́veis que deveremos considerar separadamente:
√
Ia. Escolhendo det(Ra LRbT ) = +1 e ω = + 1 + α2 , (14.A.23) fica
√
1 + α2 0 0 α
0 1 0 0
T
L = (Ra ) Rb . (14.A.25)
0 0 1 0
√
α 0 0 1 + α2
Ra e Rb são elementos de SRot ≃ SO(3), temos det(Ra ) = det(Rb ) = 1. Logo, neste caso temos
det(L) = 1. Fora isso L44 ≥ 1.
É conveniente escrever (14.A.25) de outra forma. Como α é um número real arbitrário, vamos
definir v ∈ (−1, 1) por
α v
v := − √ , de modo que α = −√ . (14.A.26)
1 + α2 1 − v2
Teremos
√
1 + α2 0 0 α γ(v)0 0 −vγ(v)
0 1 0 0 0 1 0 0
= =: B1 (v),
0 0 1 0 0 0 1 0
√
α 0 0 1 + α2 −vγ(v) 0 0 γ(v)
onde
1
γ(v) := √
.
1 − v2
Como se vê, chegamos dessa forma aos boosts de Lorentz B1 (v) utilizando apenas as propriedades
definidoras do grupo de Lorentz. Compare com o estudo do grupo O(1, 1), página 784.
Com essa parametrização, (14.A.25) fica
para Ra , Rb ∈ SRot.
√
Ib. Escolhendo det(Ra LRbT ) = +1 e ω = − 1 + α2 , (14.A.23) fica
√
− 1 + α2 0 0 α
0 1 0 0
Ra LRb =
T
.
(14.A.28)
0 0 1 0
√
α 0 0 − 1 + α2
Logo, usando-se as matrizes P1 e T definidas em (14.74) e (14.75), segue
√
1 + α2 0 0 α
0 1 0 0
P1 Ra LRb T =
T
,
(14.A.29)
0 0 1 0
√
α 0 0 1 + α2
como facilmente se verifica. Daı́, lembrando que T e Rb comutam (por que?), conclui-se que nesse caso
temos
√
1 + α2 0 0 α
0 1 0 0
T
L = (P1 Ra ) Rb T. (14.A.30)
0 0 1 0
√
α 0 0 1 + α2
Assim, com a parametrização (14.A.26),
L = (P1 Ra )T B1 (v)Rb T, (14.A.31)
para Ra , Rb ∈ SRot.
Por fim, note-se que neste caso temos det(L) = 1 com L44 ≤ −1 (por que?).
√
IIa. Escolhendo det(Ra LRbT ) = −1 e ω = + 1 + α2 , (14.A.23) fica
√
1 + α2 0 0 α
0 1 0 0
Ra LRb =
T
.
(14.A.32)
0 0 1 0
√
−α 0 0 − 1 + α2
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 14 870/1461
Assim,
√
1 + α2 0 0 α
0 1 0 0
T Ra LRbT =
,
(14.A.33)
0 0 1 0
√
α 0 0 1 + α2
para Ra , Rb ∈ SRot.
Por fim, note-se que neste caso temos det(L) = −1 com L44 ≤ −1 (por que?).
√
IIb. Escolhendo det(Ra LRbT ) = −1 e ω = − 1 + α2 , (14.A.23) fica
√
− 1 + α2 0 0 α
0 1 0 0
T
Ra LRb = . (14.A.36)
0 0 1 0
√
−α 0 0 1 + α2
Assim,
√
1 + α2 0 0 α
0 1 0 0
Ra LRb P1 =
T
,
(14.A.37)
0 0 1 0
√
α 0 0 1 + α2
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 14 871/1461
para Ra , Rb ∈ SRot.
Por fim, note-se que neste caso temos det(L) = −1 e L44 ≥ 1 (por que?).
A demonstração do Teorema 14.8 está assim completa.
Vamos provar que a aplicação Φ1 : SL(C, 2)/{1, −1} → L↑+ definida por
é um isomorfismo entre os grupos SL(C, 2)/{1, −1} e L↑+ . Para isso, começaremos resolvendo dois
dos exercı́cios propostos à página 852. O primeiro deles afirma que L[A] = L[B] se e somente se
A = ±B. Isso pode ser visto facilmente a partir da Proposição 14.19. De fato, se L[A] = L[B],
então para qualquer x ∈ R4 , vale que L[A]x = L[B]x. Usando (14.101), resulta M −1 (AM(x)A∗ ) =
M −1 (BM(x)B ∗ ). Portanto, AM(x)A∗ = BM(x)B ∗ e, como M(x) ∈ Herm(C, 2) para qualquer x ∈ R4 ,
segue da Proposição 14.19 que A = ±B. Por outro lado, é claro que se A = ±B, então L[A] = L[B],
como se pode constatar, por exemplo, a partir de (14.102). Note que o resultado desse exercı́cio implica
o fato da aplicação Φ1 definida em (14.B.40) ser injetora. Realmente, se Φ1 (A) = Φ1 (B), segue que
L[A] = L[B] e, portanto, A = ±B, que correspondem ao mesmo elemento em SL(C, 2)/{1, −1}. Dessa
forma, acabamos de estabelecer o seguinte resultado:
Proposição 14.22 A aplicação Φ1 : SL(C, 2)/{1, −1} → L↑+ definida em (14.B.40) é injetora. 2
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 14 872/1461
Passemos agora a mostrar que vale a seguinte regra de composição: L[A]L[B] = L[AB] para
quaisquer matrizes A, B, ∈ SL(C, 2). De fato, para qualquer x ∈ R4 , usando (14.101), temos
L[A]L[B]x = L[A]M −1 (BM(x)B ∗ )
= M −1 AM M −1 (BM(x)B ∗ )) A∗
= M −1 ( ABM(x)B ∗ A∗ )
= M −1 ( ABM(x)(AB)∗ )
= L[AB]x . (14.B.41)
Como x é arbitrário, concluı́mos que L[A]L[B] = L[AB]. Desse resultado, segue que Φ1 (±A)Φ1 (±B) =
Φ1 (±AB), ou seja, que Φ1 é um homomorfismo de SL(C, 2)/{1, −1} em L↑+ . Como Φ1 é uma aplicação
injetora, vale, em verdade, o seguinte:
Proposição 14.23 A aplicação Φ1 : SL(C, 2)/{1, −1} → L↑+ definida em (14.B.40) é um monomor-
fismo, ou seja, um homomorfismo injetor. 2
Note agora que para provarmos que Φ1 é um isomorfismo entre SL(C, 2)/{1, −1} e L↑+ , só precisamos
verificar que Φ1 é sobrejetor, isto é, que qualquer transformação de Lorentz do grupo L↑+ é imagem por
Φ1 de alguma matriz em SL(C, 2)/{1, −1}. Como qualquer Λ ∈ L↑+ pode ser escrita em termos de uma
composição de rotações e de um boost ao longo da direção 1, só precisamos encontrar as matrizes em
SL(C, 2)/{1, −1} que correspondem a essas operações em L↑+ . De fato, seja Λ ∈ L↑+ , então, de acordo
com o Teorema 14.8, Λ é da forma RaT B1 Rb , onde Ra , Rb ∈ SRot e B1 é um boost apropriado ao longo
da direção 1. Se ±b1 ∈ SL(C, 2)/{1, −1} for tal que Φ1 [±b1 ] = B1 e ±r ∈ SL(C, 2)/{1, −1} for tal
que Φ1 [±r] = R, para qualquer R ∈ SRot, então terı́amos
Φ1 [±raT b1 rb ] = Φ1 [±raT ]Φ1 [±b1 ]Φ1 [±rb ] = RaT B1 R = Λ , (14.B.42)
uma vez que Φ1 é um homomorfismo. A relação (14.B.42) mostra que Φ1 é uma aplicação sobrejetora, já
que toda transformação de Lorentz Λ ∈ L↑+ pode ser obtida como imagem de alguma matriz apropriada
de SL(C, 2)/{1, −1}. Para que o nosso raciocı́nio seja válido, precisamos apenas encontrar as matrizes
±b1 e ±r em SL(C, 2)/{1, −1} com as propriedades mencionadas acima, ou seja, tais que Φ1 [±b1 ] =
L[b1 ] = B1 e que Φ1 [±r] = L[r] = R, para qualquer R ∈ SRot. Vamos fazer isso nos parágrafos
seguintes.
Em primeiro lugar, escrevemos v = tanh z em B1 (v), de maneira que
cosh z 0 0 − senhz
0 1 0 0
B1 (z) = B1 (tanh z) =
.
(14.B.43)
0 0 1 0
− senhz 0 0 cosh z
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 14 873/1461
com θ ∈ [−π, π] e ~η ∈ R3 tal que k~ηk = 1. Acima, J~ = (J1 , J2 , J3 ) são os geradores do grupo de
rotações SO(3). Com as observações acima, provaremos o seguinte resultado:
Proposição 14.24 Sejam z ∈ R, θ ∈ [−π, π], ~η ∈ R3 tal que |~η | = 1 e ~σ = (σ1 , σ2 , σ3 ) as três matrizes
de Pauli. Então,
z
(a) L e− 2 σ1 = B1 (z);
h θ i
(b) L e−i 2 η~·~σ = Rη~ (θ). 2
z
Prova. Demonstraremos primeiramente (a). Observe que e− 2 σ1 pertence à SL(C, 2) uma vez que
45
Leopold Krönecker (1823-1891).
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 14 874/1461
Prova do lema. A demonstração consiste em usar repetidamente os fatos de que o traço de qualquer
matriz de Pauli é nulo (isto é, Trσj = 0, j = 1, 2, 3) e que
σk σℓ = δkℓ 1 + iǫkℓj σj ,
onde a convenção de soma implı́cita em ı́ndices repetidos foi usada. Assim, para provar (a), temos
= δkℓ Tr1
= 2δkℓ .
Para provar (b), usamos o resultado acima e os fatos já mencionados. Conseqüentemente,
= iǫkℓm Tr(σj σm )
= 2iǫkℓm δjm
= 2iǫkℓj = 2iǫjkℓ .
obtemos
Tr(σi σk σj σℓ ) = 2δik δjℓ − 2δij δkℓ + 2δiℓ δkj ,
completando a prova do lema.
Retornemos agora à prova do item (a) da Proposição 14.24. Como é bem sabido, podemos escrever
z z z
e− 2 σ1 = cosh 1 − σ1 senh . (14.B.46)
2 2
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 14 875/1461
z
Para calcular os elementos de matriz L e− 2 σ1 µν , com µ, ν = 1, 2, 3, 4, usamos a relação (14.102),
lembrando que σ4 ≡ 1. Assim, com o auxı́lio de (14.B.46), temos
z 1 h z z z z ∗ i
L e− 2 σ1 44 = Tr cosh 1 − σ1 senh cosh 1 − σ1 senh
2 2 2 2 2
1 z z z z
= Tr cosh2 1 − 2 cosh senh σ1 + senh2 σ12
2 2 2 2 2
1 2 z 2z
= cosh + senh Tr1
2 2 2
z z
= cosh2 + senh2 = cosh z , (14.B.47)
2 2
z
onde usamos que σ12 = 1, Trσ1 = 0 e cosh2 x + senh2 x = cosh 2x. Calculemos agora L e− 2 σ1 4j com
j = 1, 2, 3. Usando (14.102) e (14.B.46), obtemos
− z2 σ1
1 h z z z z ∗ i
L e 4j
= Tr cosh 1 − σ1 senh σj cosh 1 − σ1 senh
2 2 2 2 2
1 z z z z z
= Tr − cosh senh σj σ1 − senh cosh σ1 σj + senh2 σ1 σj σ1 .
2 2 2 2 2 2
Aplicando o Lema 14.1, resulta imediatamente que
z z z
L e− 2 σ1 4j = −2δj1 cosh senh = −δj1 senhz , (14.B.48)
2 2
z
onde a identidade 2 senh(x) cosh(x) = senh(2x) foi usada. O cálculo de L e− 2 σ1 j4 , j = 1, 2, 3 é feito
de forma semelhante. Explicitamente,
z 1 h z z z z ∗ i
L e− 2 σ1 j4 = Tr σj cosh 1 − σ1 senh cosh 1 − σ1 senh
2 2 2 2 2
1 h z z z z i
= Tr σj cosh2 + senh2 − 2 cosh senh σj σ1
2 2 2 2 2
z z
= −2δj1 cosh senh = −δj1 senhz . (14.B.49)
2 2
Observe
que novamente utilizamos o Lema 14.1 para o cálculo do traço. Resta, finalmente, o cômputo
z
de L e− 2 σ1 ij , com i, j = 1, 2, 3. Esse também pode ser feito de forma simples com o auxı́lio do
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 14 876/1461
1 z 1 z
= cosh2 Tr(σi σj ) + senh2 Tr(σi σ1 σj σ1 )
2 2 2 2| {z }
4δ1i δ1j −2δij
z z
= δij cosh2 + senh2 (2δ1i δ1j − δij )
2 2
z
= δij + 2δ1i δ1j senh2 , (14.B.50)
2
onde a identidade fundamental cosh2 x − senh2 x = 1 foi utilizada na última igualdade. Observe da
relação acima que quando i = j = 1, obtém-se
z z
L e− 2 σ1 11 = 1 + 2 senh2
2
2 z 2z z
= cosh − senh + 2 senh2
2 2 2
z z
= cosh2 + senh2 = cosh z , (14.B.51)
2 2
z
caso contrário, L e− 2 σ1 ij = δij .
Usando asz expressões
(14.B.47)-(14.B.51), podemos escrever explicitamente a forma completa da
matriz L e− 2 σ1 µν para µ, ν = 1, 2, 3, 4. Não é difı́cil constar (faça!) que
cosh z 0 0 − senhz
0 1 0 0
z
L e− 2 σ1 µν =
.
0 0 1 0
− senhz 0 0 cosh z
z
Comparando com (14.B.43), vemos que L e− 2 σ1 = B1 (z), provando o item (a) da proposição.
A prova da segunda parte da proposição segue, essencialmente, a mesma idéia da primeira, embora
θ
seja um pouco mais htrabalhosa.i Em primeiro lugar, observamos que e−i 2 η~·~σ ∈ SL(C, 2) em virtude de
θ
(14.B.45). Assim, L e−i 2 η~·~σ está bem definida e podemos calcular seus elementos de matriz usando a
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 14 877/1461
θ
fórmula (14.102). Antes disso, porém, é conveniente expressarmos e−i 2 η~·~σ usando a identidade
θ θ θ
e−i 2 η~·~σ = cos 1 − i~η · ~σ sen .
2 2
Assim, de acordo com (14.102), lembrando sempre que σ4 ≡ 1, temos
h θ i ∗
1 θ θ θ θ
L e ~·~
−i 2 η σ
= Tr cos 1 − i~η · ~σ sen cos 1 − i~η · ~σ sen
44 2 2 2 2 2
1 2 θ 2θ
= Tr cos 1 + (~η · ~σ ) sen
2
.
2 2 2
Escrevendo ~η · ~σ = ηj σj e usando o Lema 14.1, resulta
h θ i 1 θ 1 θ
L e−i 2 η~·~σ = cos2 Tr1 + sen2 ηk ηj Trσk σj
44 2 2 2 2
θ θ
= cos2 + sen2 ηk ηj δkj
2 2
θ θ
= cos2 + sen2 ηk ηk = 1 , (14.B.52)
2 2
h θ i
uma vez que ηk ηk = ~η = 1. Prosseguindo, devemos agora calcular os elementos de matriz L e−i 2 η~·~σ ,
2
4j
com j = 1, 2, 3. Como sempre, o cálculo é feito com base na expressão (14.102) e com o auxı́lio do
Lema 14.1. Assim,
h θ i ∗
1 θ θ θ θ
L e ~ ·~
−i 2 η σ
= Tr cos 1 − iηk σk sen σj cos 1 − iηℓ σℓ sen
4j 2 2 2 2 2
1 θ θ 1 θ θ
= i cos sen ηℓ Tr(σj σℓ ) − i cos sen ηk Tr(σk σj )
2 2 2 | {z } 2 2 2 | {z }
2δjℓ 2δkj
1 θ
+ sen2 ηk ηℓ Tr(σk σj σℓ )
2 2 | {z }
2iǫkjℓ
θ θ θ θ θ
= i cos sen ηj − i cos sen ηj + i sen2 ηk ηℓ ǫkjℓ = 0 , (14.B.53)
2 2 2 2 2
h θ i
uma vez que ηk ηℓ é simétrico pela troca de k com ℓ e ǫkjℓ é anti-simétrico. O cálculo de L e−i 2 η~·~σ
j4
é bastante análogo ao realizado acima e é deixado como exercı́cio para o leitor. O resultado obtido
deverá ser h θ i
L e−i 2 η~·~σ = 0, (14.B.54)
j4
h θ i
assim como em (14.B.53). Resta, finalmente, calcularmos os elementos de matriz L e−i 2 η~·~σ para
ij
i, j = 1, 2, 3. Isso é feito de forma usual, a partir da expressão (14.102) e dos resultados do Lema 14.1.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 14 878/1461
Temos,
h θ i ∗
1 θ θ θ θ
L e−i 2 η~·~σ = Tr σi cos 1 − iηk σk sen σj cos 1 − iηℓ σℓ sen
ij 2 2 2 2 2
1 θ i θ θ i θ θ
= cos2 Tr(σi σj ) + cos sen ηℓ Tr(σi σj σℓ ) − cos sen ηk Tr(σi σk σj )
2 2 | {z } 2 2 2 | {z } 2 2 2 | {z }
2δij 2iǫijℓ 2iǫikj
1 θ
+ sen2 ηk ηℓ Tr(σi σk σj σℓ )
2 2 | {z }
2(δiℓ δkj −δij δkℓ +δik δjℓ )
θ θ θ θ
= cos2 δij − 2 cos sen ηℓ ǫijℓ + sen2 ηk ηℓ (δiℓ δkj − δij δkℓ + δik δjℓ ) .
2 2 2 2
Usando no último termo que ηk ηℓ δkℓ = ηk ηk = ~η 2 = 1 e que 2 senx cos x = sen2x; cos2 x − sen2 x =
cos 2x, resulta
h θ i θ
L e−i 2 η~·~σ = δij cos θ − ηℓ ǫijℓ senθ + 2ηi ηj sen2 .
ij 2
2
Observando ainda que 2 sen x = 1 − cos 2x, ficamos com
h θ i
L e−i 2 η~·~σ = δij cos θ − ηℓ ǫijℓ senθ + ηi ηj (1 − cos θ) . (14.B.55)
ij
As expressões (14.B.52)-(14.B.55) devem ser diretamente comparadas com (14.B.44). Notamos que
todos os elementos da quarta linha e da quarta coluna são coincidentes. Resta saber se a expressão
(14.B.55) obtida acima é equivalente à (14.B.44) para as demais linhas e colunas. Isso pode ser verificado
calculando os elementos ij da matriz Rη~ (θ). Para tanto, usamos a identidade dada na Proposição 14.5
à página 791. Assim,
2
η ·J~
Rη~ (θ)ij = e θ~
= 1 + (1 − cos θ) ~η · J~ + senθ ~η · J~
ij ij
2
~
= δij + (1 − cos θ) ~η · J + senθ ~η · J~ . (14.B.56)
ij ij
Portanto,
2
~
~η · J = ~η · J~ ~η · J~
ij ik kj
Conforme discutido nos parágrafos que precedem a Proposição 14.24, a existência de matrizes
±b1 e ±r em SL(C, 2)/{1, −1} tais que Φ1 [±b1 ] = B1 e Φ1 [±r] = R, para qualquer R ∈ SRot, é
suficiente para garantir que a aplicação Φ1 seja sobrejetora em L↑+ . Ocorre que a Proposição 14.24 nos
diz justamente que as matrizes procuradas em SL(C, 2)/{1, −1} são b1 = e− 2 σ1 e r = e−i 2 η~·σ , com
z θ
θ ∈ [−π, π] e ~η ∈ R3 tal que k~η k = 1. Dessa forma, para qualquer transformação de Lorentz Λ ∈ L↑+ , a
relação (14.B.42) pode ser sempre satisfeita, evidenciando o fato de que Φ1 é sobrejetora. Juntando à
essa conclusão o resultado da Proposição 14.23, temos demonstrado o seguinte teorema fundamental:
Teorema 14.10 A aplicação Φ1 : SL(C, 2)/{1, −1} → L↑+ definida em (14.B.40) é um isomorfismo,
ou seja, SL(C, 2)/{1, −1} ∼ ↑
=Φ1 L+ . 2
Capı́tulo 15
Grupos de Lie e Álgebras de Lie. Uma Breve
Introdução
Conteúdo
15.1 Variedades e Grupos de Lie . . . . . . . . . . . . . . . . . . . . . . . . . . . 881
15.2 Breves Considerações sobre Grupos Topológicos . . . . . . . . . . . . . . . 883
15.3 Grupos de Lie Matriciais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 886
15.3.1 Uma Topologia Métrica em GL(C, n) . . . . . . . . . . . . . . . . . . . . . . 886
15.3.2 O Grupo de Lie GL(C, n) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 887
15.3.3 Sub-Grupos Uniparamétricos e seus Geradores . . . . . . . . . . . . . . . . . 890
15.3.4 Sub-Grupos Uniparamétricos e Álgebras de Lie . . . . . . . . . . . . . . . . . 894
15.3.5 Subgrupos Fechados de GL(C, n) . . . . . . . . . . . . . . . . . . . . . . . . . 899
15.4 A Relação entre Grupos de Lie Matriciais e suas Álgebras de Lie . . . . 903
15.4.1 Álgebras de Lie Nilpotentes, Solúveis, Simples e Semi-Simples . . . . . . . . . 904
15.4.2 Questões sobre a Exponenciação de Álgebras de Lie . . . . . . . . . . . . . . 907
15.4.3 Alguns Exemplos Especiais . . . . . . . . . . . . . . . . . . . . . . . . . . . . 910
E ste capı́tulo tenciona ser uma modesta introdução ao estudo de grupos de Lie. Com particular
destaque discutiremos grupos de Lie matriciais. Algumas observações prévias são necessárias.
Para a discussão do conceito geral de grupo de Lie são indispensáveis algumas noções básicas
sobre espaços topológicos mas, de importância especial é a noção de variedade diferenciável.
Esse importante conceito, proveniente da geometria, desempenha um papel importante em várias áreas
de Fı́sica, tais como a Teoria da Relatividade Geral e as Teorias de Calibre. O conceito de variedade
diferenciável nasceu inspirado na noção mais familiar de superfı́cie em espaços Rn e não se desvincula
totalmente daquela. Não pressuporemos da parte do leitor conhecimento prévio do conceito de vari-
edade diferenciável e, por isso, vamos introduzı́-lo adiante. Não iremos, no entanto, desenvolver esse
assunto em detalhe e, para tal, remetemos o estudante aos (inúmeros) bons livros sobre Geometria
Diferencial, por exemplo [109].
Iremos nos concentrar em exemplificar o conceito de grupo de Lie tratando primordialmente de
grupos de Lie matriciais. Isso simplifica um pouco o tratamento e reduz um tanto o escopo destas notas
introdutórias. No entanto, a grande maioria dos grupos de Lie de interesse (especialmente em Fı́sica)
é formada por grupos de Lie matriciais. Para o tratamento de grupos de Lie matriciais discutiremos
com certo detalhe aspectos algébricos e topológicos de grupos de matrizes.
Mais de 100 anos de pesquisa intensa nos separam dos primórdios do estudo dos grupos e álgebras
de Lie e nossas pretensões aqui são a de uma modesta introdução a esse vastı́ssimo assunto. Para
880
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 15 881/1461
tratamentos gerais e abrangentes de grupos de Lie recomendamos as referências [114], [108], [23], [81],
[146], [67] ou [132], . Para álgebras de Lie, recomendamos [77] e [128].
Vários grupos de Lie são importantes na Fı́sica e seu tratamento é particularmente importante na
Mecânica Quântica e nas Teorias Quânticas de Campos. Exemplos de grupos de Lie importantes para
a Fı́sica são discutidos com certo detalhe no Capı́tulo 14, tais como os grupos SO(3), SU(2) e o grupo
de Lorentz.
• Variedades Diferenciáveis
Uma variedade diferenciável real de dimensão n é um espaço topológico Hausdorff V dotado de uma
famı́lia de abertos F = {Uα , α ∈ Λ} com as seguintes propriedades:
S
1. V = α∈Λ Uα .
2. Para cada Uα ∈ F existe um conjunto aberto Cα de Rn e uma bijeção contı́nua com inversa
contı́nua φα : Uα → Cα .
φα ◦ φ−1
β : φβ (Uα ∩ Uβ ) → φα (Uα ∩ Uβ )
Vamos à interpretação das condições acima. A condição 1 diz apenas que a famı́lia {Uα , α ∈ Λ}
é um recobrimento de V , ou seja, todo elemento de V pertence a pelo menos um aberto Uα , podendo
naturalmente ocorrer que alguns pontos de V pertençam a vários elementos da famı́lia F, ou seja, os
elementos de F podem ter intersecções não-vazias. A condição 2 é importante e diz que os elementos
de cada Uα podem ser rotulados (univocamente) por uma n-upla de números reais (ou complexos).
Ou seja, podemos dotar cada Uα de um sistema de coordenadas. Note que esses sistemas podem ser
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 15 882/1461
diferentes para Uα ’s diferentes. Como dissemos, pontos de V podem pertencer a vários Uα ’s e, portanto,
podem ter a si atribuı́das coordenadas diferentes, uma para cada Uα ao qual pertence. Assim, os pontos
de Uα ∩ Uβ têm a si atribuı́dos pelo menos dois sistemas de coordenadas: as coordenadas Cα de Uα e as
coordenadas Cβ de Uβ . A condição 3 diz-nos como esses sistemas de coordenadas devem relacionar-se,
a saber, o que se deseja é que a passagem das coordenadas Cβ para as coordenadas Cα , a qual é definida
pela função φα ◦ φ−1
β , seja infinitamente diferenciável (ou analı́tica).
Como mencionamos, a conceito de variedade foi inspirado na noção de superfı́cie em conjuntos como
Rn e Cn . Sem entrarmos em detalhes técnicos, toda superfı́cie em Rn convenientemente definida (tais
como a superfı́cie da esfera e o toro, em R3 ) é uma variedade, ou seja, tem um sistema de coordenadas
local. Isso pode ser garantido, por exemplo, pelo conhecido teorema da função implı́cita da análise
real. Note-se porém que variedades não são apenas conjuntos de pontos, como as superfı́cies de Rn o
são, podendo ser também conjuntos de outros tipos de objetos, como funções, curvas, vetores, matrizes
etc. A idéia intuitiva básica em torno da noção de variedade é que a mesma representa uma coleção
contı́nua de objetos que podem ser rotulados por sistemas de coordenadas e de tal forma que possamos,
ao menos localmente, manipular essas coordenadas de modo (infinitamente) diferenciável, como se faz
em Rn .
a b
E. 15.1 Exercı́cio. Mostre que o conjunto de matrizes R = −b a , a, b ∈ R com det(R) = 1 é
uma variedade diferenciável de dimensão 1. 6
• Grupos Topológicos
Vamos agora apresentar a definição de grupo topológico, da qual precisaremos para discutir grupos
de Lie.
Seja G um grupo. Para cada g ∈ G podemos definir uma função λg : G → G por λg (h) = gh. Fora
isso tem-se também em G a função inv : G → G definida por inv(h) = h−1 .
Definição. Um grupo G é dito ser um grupo topológico em relação a uma topologia τ definida em G
se nessa topologia a função inv e todas as funções λg forem contı́nuas.
Comentário. Podemos definir também para cada g ∈ G a função µg : G → G por µg (h) = hg, que
representa a multiplicação à direita por g. É fácil de se ver, porém, que µg = inv ◦ λg−1 ◦ inv. Assim,
em um grupo topológico as funções µg são também contı́nuas.
Comentário. Um grupo pode ser topológico em relação a uma topologia mas não em relação a outra.
Veremos exemplos.
Informalmente, um grupo G é topológico se as operações de produto por elementos do grupo e
inversão forem contı́nuas.
Em termos mais precisos um grupo topológico é formado por um grupo G e uma coleção G de
subconjuntos de G, G ⊂ P(G), satisfazendo as condições definidoras de um Espaço Topológico (vide
Capı́tulo 19):
1. ∅ ∈ G e G ∈ G,
2. Se A ∈ G e B ∈ G então A ∩ B ∈ G,
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 15 883/1461
[
3. Se I é um conjunto arbitrário de ı́ndices e Aλ ∈ G para todo λ ∈ I então Aλ também é um
λ∈I
elemento de G,
• Grupos de Lie
Um grupo topológico que, enquanto espaço topológico, seja uma variedade real diferenciável (com-
plexa analı́tica) é dito ser um Grupo de Lie1 real (complexo) se as operações de multiplicação à direita
e inversão forem infinitamente diferenciáveis (analı́ticas).
E. 15.2 Exercı́cio. Verifique que (R, +) (o grupo aditivo dos reais) e (R+ \ {0}, ·) (o grupo multipli-
cativo dos reais não-negativos) são grupos de Lie reais. 6
a b
E. 15.3 Exercı́cio. Verifique que R = −b a , a, b ∈ R com det(R) = 1 é um grupo de Lie real.
6
Na Seção 15.3.2, página 887, mostraremos com detalhe que GL(C, n) é um grupo de Lie. Para
mais exemplos, vide a discussão sobre os grupos SO(3), SU(2) etc. do Capı́tulo 14.
Um grupo topológico H é dito ser desconexo se for a união disjunta de dois conjuntos A e B, ambos
não-vazios e ambos simultaneamente abertos e fechados. Ou seja, H = A ∪ B, A ∩ B = ∅ com A 6= ∅,
B 6= ∅, onde A e B são abertos e fechados.
Um grupo topológico H é dito ser conexo se não for desconexo.
Vamos aqui provar alguns fatos básicos sobre grupos topológicos gerais. Faremos uso da Proposição
15.3 abaixo quando falarmos da relação entre álgebras de Lie matriciais e álgebras de Lie.
Seja H um grupo topológico e G ⊂ H um subgrupo de H. Dizemos que G é um subgrupo aberto
de H se G for um subconjunto aberto de H. Analogamente, dizemos que G é um subgrupo fechado de
H se G for um subconjunto fechado de H. A seguinte proposição é relevante nesse contexto.
Proposição 15.1 Seja H um grupo topológico e G um subgrupo aberto de H. Então G é igualmente
um subgrupo fechado de H. 2
Prova. Seja g ′ ∈ G, onde G é o fecho de G. Então, se Ug′ é qualquer aberto de H que contém g ′ , tem-se
Ug′ ∩ G 6= ∅ (Proposição 19.6, página 1051). Vamos escolher cuidadosamente um tal aberto Ug′ . Seja
Ue um aberto de H que contém a identidade. Como G é aberto, V = Ue ∩ G é igualmente aberto.
Escolhemos Ug′ = g ′V := {x ∈ H, x = g ′ v para algum v ∈ V }. Então, como Ug′ ∩ G 6= ∅ existe algum
elemento g ∈ G que é também elemento de Ug′ , ou seja, g = g ′ v para algum elemento v ∈ V . Mas isso
implica que g ′ = gv −1. Agora, v ∈ V = Ue ∩ G ⊂ G e, portanto, g ′ ∈ G por ser o produto de dois
elementos de G, que é um grupo.
Prova. Vamos supor que G 6= H, ou seja, H \ G 6= ∅. Como G é um conjunto aberto e fechado (pela
proposição anterior) H \ G = H ∩ Gc é um conjunto aberto e fechado. Assim, H é a união disjunta
de dois conjuntos abertos e fechados, a saber G e H \ G. Isso é uma contradição com o fato de H ser
conexo. Logo G = H.
Proposição 15.3 Seja H um grupo topológico conexo e U um aberto de H que contém a identidade e
que seja tal que para todo u ∈ U tem-se u−1 ∈ U. Então,
∞
[
H = U n,
n=1
onde U 1 := U e
2
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 15 885/1461
Prova. Todos os conjuntos U n são conjuntos abertos. Isso é fácil de se ver. De fato,
[
U2 = u2 U
u2 ∈U
e, assim, U 2 é aberto, pois é uma união de abertos (vide exercı́cio à página 883). Analogamente,
[
Un = un U n−1 , n > 2. (15.1)
un ∈U
Informalmente, essa proposição diz que se H é um grupo topológico conexo, então qualquer aberto
U que contém a identidade gera o grupo H, ou seja, todo elemento de H pode ser escrito como o
produto finito de elementos de U.
Observação. Como a identidade e é um elemento de U, segue facilmente de (15.1) que U n−1 ⊂ U n
para todo n ≥ 1.
Seja H um grupo topológico. Dizemos que uma coleção de conjuntos abertos Aλ ∈ H, λ ∈ Λ, é um
recobrimento de H se [
H = Aλ .
λ∈Λ
Um grupo topológico é dito ser compacto2se possuir a seguinte propriedade: para todo recobrimento
Aλ ∈ H, λ ∈ Λ, de H existir um subconjunto finito Aλ1 , . . . , Aλn de conjuntos abertos que também é
um recobrimento de H:
H = Aλ1 ∪ · · · ∪ Aλn .
H = U n.
S
Prova. Como H é conexo, pela Proposição 15.3 tem-se H = ∞ n
n=1 U . O lado direito é, portanto,
um recobrimento de H por abertos. Assim, como H é compacto, H tem um recobrimento finito pelos
2
Para a definição da noção de compacidade e suas propriedades, vide Seção 24.2, página 1200.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 15 886/1461
Comentário. Na proposição acima, a igualdade H = U n afirma que todo elemento de H é obtido por
um produto de no máximo n elementos de U. O número n é dependente de U e é intuitivo dizer que
quanto “menor” for o aberto U que contém a identidade, maior será n.
convergente5
∞
X
−1 m
1 + A (B − A)
−1
= 1+ (−1)m A−1 (B − A) .
m=1
Isso prova que B tem inversa e completa a prova que GL(C, n) é um conjunto aberto.
E. 15.5 Exercı́cio. Há uma maneira alternativa “rápida” de provar que GL(C, n) é um conjunto aberto.
Mostre que det(A) é contı́nua como função dos elementos de matriz de A. Mostre que isso implica que
det(A) é contı́nua na topologia induzida em Mat (C, n) pela norma operatorial (em, verdade, por qualquer
norma, pois são todas equivalentes). Conclua que GL(C, n) é um conjunto aberto, observando para tal que
trata-se do conjunto de todas as matrizes complexas com determinante não-nulo e notando que C \ {0} é
um conjunto aberto em C. 6
Provemos que todo elemento de Mat (C, n) pode ser aproximado em norma por uma matriz in-
vertı́vel. Isso equivale a dizer que GL(C, n) é denso em Mat (C, n). Seja A ∈ Mat (C, n) e seja
σ(A) = {λ1 , . . . , λr } o conjunto de seus autovalores distintos (r ≤ n). É claro que se α 6∈ σ(A) então
det(α1 − A) 6= 0 e A − α1 tem inversa (recorde que os autovalores de A são os zeros do polinômio
caracterı́stico de A). Seja agora, αn , n ∈ N, uma seqüência de números complexos tais que αn 6∈ σ(A)
para todo n, e tais que αn → 0 para n → ∞. Teremos que as matrizes An := A − αn 1 são todas
invertı́veis e d(A, An ) = kA − An k = |αn | k1k = |αn | → 0 para n → ∞. Isso prova nossa afirmação.
Para provarmos que GL(C, n) é um grupo topológico precisamos mostrar que o produto em
GL(C, n) e a inversão de matrizes em GL(C, n) são operações contı́nuas.
Sejam G, G′ , H ∈ GL(C, n). Temos que
mostrando que kG′ H − GHkC → 0 se kG′ − GkC → 0. Assim, o produto à esquerda é contı́nuo.
Sejam agora G, H ∈ GL(C, n). Fixemos H e tomemos kG − HkC < ǫ com ǫ > 0 escolhido pequeno
o suficiente de modo que ǫkH −1 kC < 1. É claro que G = H + (G − H) = H(1 + H −1 (G − H)), de
5 1
A justificativa dessa expressão foi apresentada na Seção 4.2. Note que a expansão de Taylor da função analı́tica 1+z
P∞
para |z| < 1 em torno de z = 0 é precisamente 1 + m=1 (−1)m z m .
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 15 888/1461
−1
maneira que G−1 = [1 + H −1 (G − H)] H −1 . Logo,
n −1 o
G−1 − H −1 = 1 + H (G − H) − 1 H −1 .
−1
Assim, como pela escolha de ǫ temos kH −1(G − H)kC ≤ ǫkH −1 kC < 1, podemos escrever
" ∞ #
X −1 m
−1 −1
G −H = m
(−1) H (G − H) H −1 .
m=1
E. 15.6 Exercı́cio. Há uma maneira alternativa “rápida” de provar que a operação de inversão é contı́nua:
use a regra de Laplace, expressão (3.11), página 157, para calcular a inversa de uma matriz e evoque o fato
que o determinante é contı́nuo. 6
2
Cǫ := {(x11 , . . . , x1n , x21 , . . . , x2n , . . . , xn1 , . . . , xnn ) ∈ Cn
Para x = (x11 , . . . , x1n , x21 , . . . , x2n , . . . , xn1 , . . . , xnn ) ∈ Cǫ , denotemos por X a matriz cujo
elemento ij é Xij = xij e denotemos 1 + X por A(x). Obviamente A(x)ij = δij + xij , i, j = 1, . . . , n.
2
É bem claro que cada Cǫ é um sub-conjunto aberto de Cn . Seja também Uǫ := {A(x) ∈ Mat (C, n)| x ∈
Cǫ }.
E. 15.7 Exercı́cio. Mostre que cada Uǫ é um sub-conjunto aberto de Mat (C, n). 6
É bem claro que para toda matriz A(x) como acima tem-se det(A(x)) = 1 + p(x), onde p(x) é
um polinômio nas variáveis xij que se anula quanto todas as xij são nulas. Assim, se x ∈ Cǫ vê-se
que det(A(x)) 6= 0 caso ǫ seja pequeno o suficiente, pois isso garante que |p(x)| < 1. Portanto, se
escolhermos ǫ pequeno o suficiente, teremos que Uǫ é um sub-conjunto aberto de GL(C, n), o que
suporemos daqui por diante.
6 1
Note que a expansão de Taylor da função analı́tica 1+z − 1 para |z| < 1 em torno de z = 0 é precisamente
P∞ m m
m=1 (−1) z .
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 15 889/1461
o que mostra que as coordenadas x′ são expressas em termos de polinômios nas variáveis x. Portanto, a
mudança nas coordenadas de Ug para as de Ug′ é expressa em termos de funções analı́ticas (em verdade,
polinômios). Isso provou que GL(C, n) é uma variedade analı́tica.
Para finalmente provarmos que GL(C, n) é um grupo de Lie, resta-nos provar que a multiplicação
à direita e a inversão são analı́ticas. A primeira parte é elementar. Tomemos g, h ∈ GL(C, n). Os
elementos de Uh são da forma hA(x) e os de gUh são da forma ghA(x) ∈ Ugh . Agora, as funções de Cǫ
em C dadas por
n
X
Cǫ ∋ x 7→ φgh
ij (ghA(x)) = (gh)ik xkj i, j = 1, . . . , n,
k=1
são polinômios nas variáveis xij e, portanto, analı́ticas. Assim, o produto é analı́tico.
Para provar que a inversão é analı́tica tomemos g ∈ GL(C, n). Um elemento genérico de Ug é da
forma gA(x) = g(1 + X). Agora,
∞
X
(gA(x)) −1
= (1 + X) g −1 −1
= g (1 + gY (x)g ),
−1 −1
com Y (x) := (−1)m X m .
m=1
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 15 890/1461
Cada elemento de matriz de Y (x) é uma função analı́tica dos xij , pois a série de Neumann7 acima
converge absolutamente (claramente, temos que escolher ǫ pequeno o suficiente). Agora, as funções
−1 −1
g
Cǫ ∋ x 7→ φij (gA(x))−1 g
= φij g −1 (1 + gY (x)g −1 ) = gY (x)g −1 ij
são funções analı́ticas dos xij , provando que a aplicação de inversão é analı́tica. Isso estabelece final-
mente que GL(C, n) é um grupo de Lie de dimensão n2 .
E. 15.8 Exercı́cio. Há uma maneira alternativa “rápida” de provar que a operação de inversão é analı́tica:
use a regra de Laplace, expressão (3.11), página 157, para calcular a inversa de uma matriz e evoque o fato
que o determinante é analı́tico. 6
Prova.9 Se supuséssemos que γ é uma matriz diferenciável próximo a t = 0, terı́amos que para qualquer
t
1 1
γ (t) = lim (γ(t + s) − γ(t)) = γ(t) lim (γ(s) − γ(0)) = γ(t)γ ′ (0).
′
s→0 s s→0 s
Definindo M := γ ′ (0), concluirı́amos que γ satisfaz a equação diferencial γ ′ (t) = γ(t)M, cuja solução é
única (vide Capı́tulo 7) e dada por γ(t) = exp(tM), como querı́amos provar.
A demonstração estaria completa, não fosse o fato de que no enunciado supomos apenas que γ é
contı́nua, o que em geral não implica que γ seja também diferenciável em t = 0. É, no entanto, possı́vel
provar que se γ é contı́nua, então pelo fato de ser um homomorfismo de (R, +) segue que γ é também
7
Karl Neumann (1832-1925).
8
Vide nota à página 893.
9
Extraı́da de [67]. A observação de que no enunciado da Proposição 15.5 é suficiente supor-se que o sub-grupo
uniparamétrico γ é apenas contı́nuo (dispensando uma condição de diferenciabilidade) é devida a von Neumann.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 15 891/1461
É fácil (Exercı́cio!) ver que γ̃ assim definida é infinitamente diferenciável. Fora isso,
Z ∞ Z ∞ Z ∞
γ̃(t) = θ(t − s)γ(s)ds = θ(u)γ(t − u)du = θ(u)γ(t)γ(−u)du
−∞ −∞ −∞
Z ∞
= γ(t) θ(u)γ(−u)du = γ(t)Y,
−∞
R∞
com Y := −∞
θ(u)γ(−u)du. Temos que
Z ∞
Y −1 = θ(u)(γ(−u) − 1)du,
−∞
R∞
pois −∞
θ(u)du = 1, por hipótese. Logo
Z ∞ Z a
kY − 1kC ≤ θ(u) kγ(−u) − 1kC du = θ(u) kγ(−u) − 1kC du
−∞ −a
Z a Z ∞
≤ c θ(u) du = c θ(u) du = c ,
−a −∞
onde c := supu∈[−a, a] kγ(−u) − 1kC . Como γ é contı́nua e γ(0) = 1, podemos fazer c arbitrariamente
pequena, escolhendoP∞a pequeno. Mas isso diz que Y = 1 − (1 − Y ) é invertı́vel, com Y −1 dado pela
série convergente m=0 (1 − Y )m . Assim, com a pequeno teremos γ(t) = γ̃(t)Y −1 , o que prova que γ(t)
é infinitamente diferenciável.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 15 892/1461
Definição. O que essa proposição provou é que todo sub-grupo uniparamétrico de GL(C, n) é da
forma exp(tM) para alguma matriz M ∈ Mat (C, n). Essa matriz M é dita ser o gerador do sub-grupo
uniparamétrico em questão.
Comentemos brevemente que a Proposição 15.5, que acabamos de provar, tem generalizações im-
portantes na teoria dos espaços de Hilbert e de Banach, onde é conhecida como Teorema de Stone10 .
Vide, por exemplo, [116].
uniparamétrico composto pelas matrizes da forma exp(tB), t ∈ R. Assim, GL(C, n) possui subgrupos
uniparamétricos não-triviais. Reciprocamente, para todo B ∈ Mat (C, n) o conjunto de matrizes
da forma exp(tB), t ∈ R, forma um subgrupo uniparamétrico de GL(C, n). Concluı́mos disso que
L(GL(C, n)) = Mat (C, n).
Já discutimos por diversas vezes (vide página 61 e seguintes) que o conjunto Mat (C, n) é uma
álgebra de Lie com relação ao produto definido pelo comutador de matrizes. Um pouco mais adiante,
veremos que esse fato é geral: o conjunto de todos os geradores de um subgrupo fechado (não-discreto)
de um grupo de Lie é também uma álgebra de Lie. Esse fato é de importância central na teoria dos
grupos de Lie.
E. 15.9 Exercı́cio. Para a, b = 1, . . . , n e α ∈ C, sejam γαab (t), matrizes definidas da seguinte forma:
1 + αtE ab ,
6 b
para a =
γαab (t) := , com t ∈ R .
1 + (eαt − 1)E aa , para a = b
Aqui E ab é a matriz cujos elementos ij são dados por E ab ij = δi a δj b , ou seja, E ab é a matriz cujos
elementos de matriz são todos nulos, exceto o elemento ab, que vale 1. Mostre que as matrizes γαab são
subgrupos uniparamétricos de GL(C, n), ou seja, que γαab (t) são contı́nuas e que γαab (t)γαab (t′ ) = γαab (t + t′ )
2
para todo a, b e todo α. (Sugestão: mostre que E ab = δab E ab e use esse fato). Mostre que seus
ab ab ab
geradores são as matrizes αE . Constate também explicitamente que γα (t) = exp αtE . 6
Note que a coleção formada por todas combinações lineares reais dos geradores dos subgrupos
uniparamétricos γαab de GL(C, n) coincide com Mat (C, n) (por que?).
Definição. Seja H um subgrupo fechado mas não discreto de GL(C, n). Definimos
L(H) := X ∈ Mat (C, n) tais que etX ∈ H para todo t ∈ R .
Como se vê, trata-se do conjunto dos geradores de todos os subgrupos uniparamétricos de H. É claro,
pela definição acima, que L(H) possui pelo menos um elemento, a saber a matriz nula, pois, obviamente
et0 = 1 ∈ H para todo t ∈ R. Não é nem um pouco óbvio, porém, que haja outros elementos em L(H)
que não o elemento nulo. Não é sequer óbvio que existam subgrupos uniparamétricos não-triviais11 em
H. Na Proposição 15.6 adiante, provaremos que L(H), de fato, é não-trivial e que há, de fato, subgrupos
uniparamétricos não-triviais em H. Para demonstrarmos a Proposição 15.6 precisamos de algumas
definições e de alguns resultados preparatórios. Seguiremos muito proximamente a exposição de [108]
(vide todo o §2 do Capı́tulo XI daquela referência), mas com ligeiras correções e aperfeiçoamentos.
Para simplificar a notação denotaremos aqui o grupo GL(C, n) por G e sua álgebra de Lie
Mat (C, n) por g.
Fixemos doravante um número r > 0, arbitrário mas conveniente, e seja wr a bola fechada de raio
r centrada na origem em g:
wr := {X ∈ g| kXk ≤ r} . (15.3)
Notemos que wr é simétrica, ou seja, se X ∈ wr então −X ∈ wr . Denotaremos por wO
r a bola aberta
de raio r centrada na origem em g:
wO
r := {X ∈ g| kXk < r} . (15.4)
É bastante claro que fr é também simétrico. Como exp é contı́nua, fr é também fechado (vide Seção
22.5.1, página 1114). Fora isso, fr ⊂ wr , por definição. Logo, fr é limitado. Por ser fechado e limitado,
fr é compacto.
11
Um subgrupo uniparamétrico γ(t) é trivial se γ(t) for igual ao elemento neutro para todo t ∈ R.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 15 895/1461
Mr := {X ∈ g tais que, para algum ǫ > 0, tem-se exp(tX) ∈ H ∩ Wr sempre que |t| < ǫ} . (15.8)
Mr = {X ∈ g tais que, para algum ǫ > 0, tem-se tX ∈ fr sempre que |t| < ǫ} .
Note-se que Mr contém sempre ao menos um elemento, a saber, 0. Não é nada óbvio, porém, se
esse é o único elemento de Mr . No Corolário 15.1, adiante, provaremos que tal não é o caso, ou seja,
Mr não é trivial. Antes disso precisamos de dois lemas preparatórios.
Lema 15.1 Com as definições acima, valem as seguintes afirmações. I. Se X ∈ Mr então λX ∈ Mr
para todo λ ∈ R. II. wr ∩ Mr ⊂ fr . 2
Prova do Lema 15.1. Se X ∈ Mr então, para algum ǫ > 0 tem-se tX ∈ fr sempre que |t| < ǫ. Mas,
então, se λ 6= 0, vale t(λX) ∈ fr sempre que |t| < ǫ/|λ|. Isso prova a afirmativa I.
Seja agora X ∈ wr ∩ Mr . Queremos provar que X ∈ fr . Como X ∈ Mr então, para algum ǫ > 0
tem-se exp(tX) ∈ H ∩ Wr sempre que |t| < ǫ. Assim, para n ∈ N grande o suficiente (n > ǫ−1 ) teremos
exp(n−1 X) ∈ H ∩ Wr o que, em particular, diz que exp(n−1 X) ∈ H. Como H é um grupo, tem-se que
(exp(n−1 X))n ∈ H. Mas o lado esquerdo é exp(X) e, portanto, concluı́mos que exp(X) ∈ H. Agora,
por hipótese, X ∈ wr , o que implica, pela definição de Wr , que exp(X) ∈ Wr . Logo, mostramos que
exp(X) ∈ H ∩ Wr , o que significa que X ∈ fr . Provamos, assim, que wr ∩ Mr ⊂ fr . Isso completa a
prova do Lema 15.1.
Podemos agora demonstrar o seguinte lema, de importância central no presente contexto e, talvez,
o resultado preparatório tecnicamente mais difı́cil.
Lema 15.2 Seja Xn , n ∈ N, uma seqüência de elementos de fr tais que Xn 6= 0. Suponhamos que
Xn → 0 para n → ∞ e que Xn /kXn k → Y para algum Y ∈ Mat (C, n). Então12 Y ∈ Mr . 2
Prova do Lema 15.2. Notemos antes de mais nada que se Yn := Xn /kXn k → Y ∈ Mat (C, n) então
Y 6= 0. Em verdade, kY k = 1 pois, fazendo uso da desigualdade (2.27), página 131, temos | kYn k −
kY k | ≤ kYn − Y k. Como o lado direito vai a zero quando n → ∞, segue que kY k = 1, pois kYn k = 1.
Fixemos também um número m ∈ N não nulo. Podemos escrever wr como a união
m
[
wr = sk
k=1
onde
k−1 k
sk ≡ srk := X ∈ wr r ≤ kXk ≤ r ,
m m
12
Após a demonstração do Lema 15.2, discutiremos à página 897 que de fato existem seqüências satisfazendo essas
hipóteses.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 15 896/1461
ou seja, podemos escrever wr como uma união de “fatias”, ou cascas esféricas, de vetores com normas
entre k−1
m
k
re m r. Note-se que s1 é a bola fechada de raio r/m centrada em 0:
n r o
s1 = X ∈ wr kXk ≤ .
m
Como Xn converge a 0, existe um número Nm (que pode depender de m) tal que Xn ∈ s1 para todo
n > Nm . Seja agora um k0 ∈ N fixo, escolhido de modo que 1 < k0 ≤ m. Vamos mostrar que para
cada n > Nm podemos encontrar um número inteiro jn (eventualmente dependente de n) de modo que
jn Xn ∈ sk0 , ou seja, tal que
(k0 − 1)r k0 r
≤ kjn Xn k ≤ .
m m
Para isso, é suficiente escolhermos um jn inteiro satisfazendo
(k0 − 1)r k0 r
≤ |jn | ≤ .
mkXn k mkXn k
(k0 −1)r k0 r
Haverá inteiros no intervalo entre mkXn k
e mkXn k
? Para ver isso, notemos que o comprimento desse
intervalo é
k0 r (k0 − 1)r r
− = ≥ 1,
mkXn k mkXn k mkXn k
pois kXn k ≤ mr , dado que Xn ∈ s1 . Então, uma tal escolha de jn é sempre possı́vel para cada n (pois
todo intervalo fechado de comprimento igual ou maior que 1 contém ao menos um inteiro).
(k ) (k )
Vamos
denominar
jn Xn por Yn 0 (com k0 fixo). É evidente que Yn 0 ∈ sk0 ⊂ wr . Isso implica
(k ) (k )
que exp Yn 0 ∈ Wr . Fora isso, exp Yn 0 = exp(jn Xn ) = (exp(Xn ))jn . Como exp(Xn ) pertence ao
(k )
grupo H (pois Xn ∈ fr ), segue pela propriedade de grupo que também tem-se exp Yn 0 ∈ H (é por
(k0 )
essa razão que escolhemos jn inteiro). Com isso, provamos que exp Yn ∈ H ∩ Wr , o que significa
(k0 )
que13 Yn ∈ fr .
O conjunto fr é fechado e limitado e, portanto, compacto. Isso significa que existe uma sub-
(k )
seqüência Ynl 0 , l ∈ N, que é convergente em fr . Agora, como Yn = Xn /kXn k converge a Y , isso
(k ) (k )
significa que Ynl 0 converge a um múltiplo de Y , digamos λ(k0 ) Y , pois Ynl 0 é um múltiplo de Ynl , a
(k )
saber, Ynl 0 = jnl kXnl kYnl . Portanto, para um tal λ(k0 ) temos λ(k0 ) Y ∈ fr . Note que também tem-se
−λ(k0 ) Y ∈ fr , bastando para tal trocar Xn por −Xn na argumentação acima, o que é permitido pois fr
é simétrico.
Assim, λ(k0 ) = lim jnl kXnl k e, conseqüentemente,
l→∞
(k0 − 1)r k0 r
≤ λ(k0 ) ≤ .
m m
O que provamos acima vale para cada k0 ∈ N com 1 < k0 ≤ m.h Resumindoi nossas conclusões,
provamos que para todo m ∈ N não-nulo, cada intervalo Ik0 , m := (k0m−1) r, km0 r com 1 < k0 ≤ m
contém pelo menos um λ(k0 ) tal que ±λ(k0 ) Y ∈ fr .
13 (k0 )
Em [108] o argumento que prova que Yn ∈ fr não está correto, lamentavelmente.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 15 897/1461
m
[ 1
A união Ik0 , m é o conjunto
m
r, r . Esses intervalos Ik0 , m podem ser feitos mais finos e em
k0 =2
[ 1
maior número, fazendo m → ∞, sendo que r, r = (0, r].
m∈N
m
Concluı́mos disso que existe um conjunto contável denso de números λ no intervalo (0, r] tais que
±λY ∈ fr . Como fr é fechado, isso implica que λY ∈ fr para todo λ ∈ [−r, r]. Agora, isso significa
precisamente que Y ∈ Mr , que é o que querı́amos provar.
A prova do Lema 15.2 está completa.
Podemos nos perguntar agora, será que existem seqüências Xn satisfazendo as hipóteses do Lema
15.2, ou seja, tais que Xn /kXn k convirja para algum Y ? É fácil ver que sim. Notemos para isso que
para qualquer seqüência Xn ∈ fr com Xn → 0 a seqüência Yn = Xn /kXn k está contida no conjunto
compacto formado pelos vetores de norma 1. Assim, Yn sempre tem uma sub-seqüência convergente
a algum Y , que também tem norma 1. A essa sub-seqüência aplica-se então o Lema 15.2 e tem-se
Y ∈ Mr . Isso, em particular, mostra-nos que Mr é não-trivial, ou seja, contém elementos não-nulos.
Provamos então:
Corolário 15.1 O conjunto Mr definido acima contém elementos diferentes de 0. 2
Esse simples corolário é crucial para o que segue14 , pois tem a seguinte conseqüência.
Proposição 15.6 Seja H um subgrupo fechado e não-discreto de GL(C, n)). Então valem as seguintes
afirmativas. I. Mr = L(H) para qualquer r > 0. II. L(H) é não-trivial, ou seja, não consiste apenas
da matriz nula. Há, portanto, subgrupos uniparamétricos não-triviais em H. 2
Prova. Seja o conjunto Mr ≡ M(H, Wr ) definido em (15.8), com Wr definido em (15.3)-(15.5) para
algum r > 0. Provaremos que M(H, Wr ) = L(H).
Em primeiro lugar, é claro (por definição!) que se X ∈ L(H) teremos exp(tX) ∈ H, ∀t ∈ R. Se
X = 0 então X ∈ M(H, Wr ) trivialmente. Se X 6= 0 então, se escolhermos |t| < r/kXk, teremos que
tX ∈ wr . Logo, X ∈ M(H, Wr ). Isso mostra que L(H) ⊂ M(H, Wr ).
Seja X ∈ M(H, Wr ) com X 6= 0. Pelo Corolário 15.1, um tal X existe. Assim, existe um ǫ > 0
tal que exp(t′ X) ∈ H para todo t′ ∈ (−ǫ, ǫ). Seja agora t ∈ R qualquer. Se escolhermos n ∈ Z
com |n| grande o suficiente, teremos |t/n| < ǫ. Daı́, exp((t/n)X) ∈ H e, como H é um grupo,
exp(tX) = (exp((t/n)X))n ∈ H. Como isso vale para qualquer t ∈ R provamos que X ∈ L(H).
Com isso provamos que M(H, Wr ) ⊂ L(H) e, portanto, M(H, Wr ) = L(H). Assim, pelo Corolário
15.1, L(H) é não-trivial. Conseqüentemente existem em H subgrupos uniparamétricos não-triviais, a
saber aqueles que têm como geradores os elementos não-nulos de M(H, Wr ).
14
Infelizmente, alguns textos como [132], [146] e mesmo (surpreendentemente) [114], não provam que Mr é não-trivial, o
que torna suas demonstrações do Teorema 15.2 incompletas. Mesmo [108], que prova os Lemas 15.1 e 15.2, não menciona
o Corolário 15.1, embora o mesmo fique implı́cito pela sua análise. A referência [67], que segue outra e muito interessante
linha de raciocı́nio, é explı́cita quanto ao Corolário 15.1.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 15 898/1461
Chegamos agora ao ponto em que boa parte do que fizemos será unificado e revelaremos a im-
portância de sub-grupos uniparamétricos para os grupos de Lie matriciais.
Seja H um sub-grupo fechado e não-discreto de GL(C, n). O seguinte teorema, o qual é uma con-
seqüência das fórmulas de Lie-Trotter e do comutador (vide Capı́tulo 4), é de importância fundamental:
Teorema 15.1 Se H é um sub-grupo fechado e não-discreto de GL(C, n) então L(H), definida acima,
é uma álgebra de Lie real15 . 2
Prova. Vamos primeiramente mostrar que L(H) é um espaço vetorial real. Para tal, precisamos mostrar
que se X e Y são geradores de dois sub-grupos uniparamétricos de H, então αX + βY também o é,
para quaisquer α, β ∈ R. Comecemos observando que γ(t) := exp(t(αX + βY )) é um sub-grupo
uniparamétrico contı́nuo de GL(C, n) cujo gerador é obviamente αX + βY . Tudo o que precisamos
fazer é mostrar que γ(t) ∈ H para todo t ∈ R. Pela fórmula de Lie-Trotter (vide Capı́tulo 4),
m
tα tβ
exp(t(αX + βY )) = lim exp X exp Y . (15.9)
m→∞ m m
Observemos então o seguinte. Pela hipótese, as matrizes exp tα m
X e exp tβm
Y pertencem ao grupo
H, pois supomos
que
X e Y são geradores de subgrupos uniparamétricos de H. Portanto os produtos
tβ
exp tαm
X exp m
Y são também elementos de H, pois H é um grupo. Ora, o lado direito de (15.9) é,
portanto, o limite de uma seqüência de elementos de H. Como supomos que H é fechado, segue que o
limite é igualmente um elemento de H, como querı́amos mostrar. Isso provou então que αX + βY ∈
L(H) para quaisquer α, β ∈ R e, portanto, L(H) é um espaço vetorial real.
Vamos mostrar agora que L(H) é uma álgebra de Lie. Se X, Y ∈ L(H) temos, pela fórmula do
comutador (vide Capı́tulo 4), e usando [tX, Y ] = t[X, Y ], que
m2
t 1 t 1
exp(t[X, Y ]) = lim exp X exp Y exp − X exp − Y . (15.10)
m→∞ m m m m
Raciocı́nio idêntico ao que empregamos acima conclui que exp(t[X, Y ]) ∈ H para todo t ∈ R, mos-
trando que [X, Y ] é o gerador de um sub-grupo uniparamétrico contı́nuo de H, ou seja, [X, Y ] ∈ L(H).
Isso provou que L(H) é uma álgebra de Lie.
Comentário. Se para todo X ∈ L(H) tivermos também αX ∈ L(H) para todo α ∈ C, conclui-se pela
demonstração acima que L(H) é uma álgebra de Lie complexa.
15
Álgebras de Lie foram definidas à página 61.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 15 899/1461
O Teorema 15.2 é particularmente importante pois muitos grupos encontrados em aplicações são
sub-grupos fechados (não discretos) de GL(C, n) ou de GL(R, n). Tal é o caso, por exemplo, dos
grupos U(n), U(p, q), SU(n), SU(p, q), O(n), SO(n) e outros. Assim, o Teorema 15.2 nos informa que
tais grupos são grupos de Lie.
A prova desse teorema será oferecida à página 901. Antes de chegarmos lá precisaremos apresentar
vários teoremas preparatórios. Chamamos a atenção do leitor para o fato que as demonstrações de
alguns desses resultados preparatórios são bastante técnicas e talvez devam ser omitidas em uma
primeira leitura.
Seja H um subgrupo fechado não-discreto de G = GL(C, n). Sabemos pelo Teorema 15.1 que L(H)
é um sub-espaço de L(G) = Mat (C, n). Seja L(H)⊥ seu complemento ortogonal (em relação a algum
produto escalar em Mat (C, n), por exemplo hA, Bi = Tr(A∗ B)). Todo elemento A ∈ Mat (C, n)
pode ser escrito de modo único na forma A = Ak + A⊥ , com Ak ∈ L(H) e A⊥ ∈ L(H)⊥ .
Seja assim a função ΦH : L(G) → G definida por
ΦH (A) := exp Ak exp A⊥ .
Lema 15.3 Para H, subgrupo fechado e conexo de GL(C, n), existe r0 > 0 tal que a aplicação ΦH
′
definida acima é um homeomorfismo do aberto wO O
r0 em um aberto ΦH (wr0 ) ⊃ Wr0′ para um certo r0 > 0.
2
Acima, wO
r0 é a bola aberta de raio r0 em torno da matriz nula. Vide (15.4).
16
Vide Capı́tulo 4, página 238. A fórmula de Baker-Campbell-Hausdorff é dada em (4.46) à página 265.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 15 900/1461
Seja H um subgrupo fechado de GL(C, n). Vimos acima que L(H) ⊂ Mat (C, n) é uma álgebra
de Lie real e, como tal, um sub-espaço de Mat (C, n). É evidente que se A ∈ L(H) então exp(A) ∈
H. Vamos denotar por H e o subgrupo de H cujos elementos são produtos finitos de exponenciais de
elementos de L(H):
1. 1 ∈ H,
e
\ fácil ver pela definição dos conjuntos fr em (15.6) que fr1 ⊂ fr2 sempre que r1 ≤ r2 . Além
É muito
disso, fr = {0}.
r>0
Para um r ′ arbitrário, fixo, vamos então supor que não haja nenhum fr com fr ⊂ L(H) ∩ wr′ . Isso
implica que fr \ (L(H) ∩ wr′ ) 6= ∅ para todo r. Fixando r, poderı́amos escolher uma seqüência rn < r,
rn → 0 com frn \ (L(H) ∩ wr′ ) 6= ∅. Escolhendo para cada n um elemento Xn ∈ frn \ (L(H) ∩ wr′ ),
teremos que Xn ∈ fr \ (L(H) ∩ wr′ ) para todo n e Xn → 0 quando n → ∞.
Como Xn → 0, teremos exp(Xn ) ∈ Wr0′ para para todo n grande o suficiente, onde r0′ é referido
no enunciado do Lema 15.3. Assim, pelo mesmo lema, existirá para
cada um de tais n’s um elemento
k ⊥ k ⊥
Zn ∈ wr0 , Zn = Zn + Zn , tal que exp (Xn ) = ΦH (Zn ) = exp Zn exp Zn .
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 15 901/1461
k
Antes de prosseguirmos, façamos algumas observações sobre Zn e Zn⊥ . Como Xn → 0, deve valer
também Zn → 0 já que, pelo Lema 15.3, ΦH e sua inversa são contı́nuas. Assim, tem-se igualmente
k
Zn → 0 e Zn⊥ → 0. Pela parte II do Lema 15.1 e pela parte I da Proposição 15.6, segue que wr ∩L(H) ⊂
k
fr . Daı́, para n grande o suficiente, ter-se-á Zn ∈ fr . Note-se também que, como X n 6∈ L(H) para
⊥ k
n grande, teremos Zn 6= 0, pois, se assim não fosse, valeria exp (Xn ) = exp Zn e, tomando-se
k
o logaritmo (o que é permitido para n grande, já que kXn k e kZn k estão ambos próximos a zero),
k
obterı́amos Xn = Zn ∈ L(H), o que é impossı́vel.
⊥ k
Como conseqüência das observações acima, teremos que exp Zn = exp −Zn exp (Xn ). Sucede
k k
que exp (Xn ) ∈ H ∩ Wr e exp −Zn ∈ H ∩ Wr . Assim exp Zn ∈ H e, kZn⊥ k ≤ kZn k < r0 . Logo,
exp Zn⊥ ∈ H ∩ Wr0 . Portanto, Zn⊥ ∈ fr0 .
Como conseqüência do Lema 15.2, da parte I da Proposição 15.6 e da compacidade de fr0 , a seqüência
de vetores de norma 1 dada por Zn⊥ /kZn⊥ k tem uma sub-seqüência que converge a um elemento de
Mr0 = L(H). Porém, como Zn⊥ ∈ L(H)⊥ , isso é impossı́vel e tem-se aı́ uma contradição. Logo, deve
valer fr ⊂ L(H) ∩ wr′ para certos r, r ′ > 0. Isso completa a prova do Teorema 15.3.
Comentário. Segundo [108], o Teorema 15.2 é devido a Cartan17 . Demonstrações desse importante
teorema podem ser encontradas em vários livros-texto, como por exemplo [108] ou [114]. Devemos,
porém, notar ao leitor e advertir o estudante que alguns textos (inclusive alguns clássicos) apresentam
certas falhas tanto no enunciado do teorema quanto na sua demonstração, falhas essas que procuramos
corrigir e evitar nas demonstrações acima. Por exemplo, muitos autores esquecem-se de excluir do
enunciado o caso (trivial) em que H é fechado mas discreto (grupos discretos obviamente não podem ser
grupos de Lie), por vezes ressalvando isso apenas no correr da demonstração. Vários textos apresentam
demonstrações incompletas (por exemplo, [132], [146] e mesmo parcialmente [114]), pois deixam por
exemplo, de provar que o conjunto Mr , definido acima, não é apenas formado pelo elemento nulo, um
ponto crucial. A demonstração que apresentamos é essencialmente (mas não exatamente) a de [108]
(vide todo §2 do Capı́tulo XI daquela referência). Um outro tratamento excelente (mas talvez não
acessı́vel a todo estudante) é o de [67].
Um ponto importante do Teorema 15.2 é que o subgrupo fechado H é um grupo de Lie com a
topologia induzida em H por G. Em verdade, vale para grupos de Lie um teorema mais ainda forte
que o Teorema 15.2:
Teorema 15.4 Todo subgrupo não-discreto H de um grupo de Lie G é também um grupo de Lie, mas
não necessariamente em relação à topologia induzida por G em H. 2
Como se vê, esse teorema generaliza o Teorema 15.2 pois não é necessário requerer que H seja um
subgrupo fechado de G. Porém, a topologia na qual H é um grupo de Lie pode não ser a topologia
induzida em H por G. Um exemplo ilustrativo será discutido na Seção 15.4.3. A demonstração do
Teorema 15.4 teorema está além dos limites dessas notas e pode ser encontrada em textos como [114]
ou [67].
O Teorema 15.1, página 898, revela um sentido da relação fundamental entre grupos de Lie e
álgebras de Lie. Ele mostra que é possı́vel construir uma álgebra de Lie a partir de um grupo de Lie
fechado. A teoria geral dos grupos de Lie revela que muitas propriedades importantes de grupos de Lie
podem ser estudadas a partir das álgebras de Lie associadas a seus sub-grupos uniparamétricos. Essa
relação se mostra particularmente relevante no estudo de representações de grupos de Lie. É possı́vel
provar (e faremos isso no exemplo do grupo SO(3) no Capı́tulo 16) que existe uma correspondência
um-a-um entre as representações de um grupo de Lie e as representações de sua álgebra de Lie. Sucede
que (devido à estrutura linear) é muito mais simples estudar as representações de uma álgebra de Lie
do que de um grupo de Lie. Infelizmente ainda está fora do modesto alcance destas notas explorar
completamente esse vasto terreno e remetemos o estudante aos bons livros supra-citados sobre grupos
e álgebras de Lie.
Iremos no que segue deste capı́tulo limitar-nos a discutir algumas questões as quais são importantes
para um estudo mais abrangente. Particularmente nos deteremos na questão de identificar algumas
situações nas quais podemos prosseguir no caminho inverso ao que apontamos acima, ou seja, na
questão de quando um grupo de Lie pode ser recuperado a partir da álgebra de Lie dos seus geradores
por aplicação da exponenciação.
17
Elie Joseph Cartan (1869-1951). E. J. Cartan foi um dos mais importantes contribuidores à teoria de grupos de Lie.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 15 903/1461
it 0
2 × 2 dadas por
com t ∈ R. Exponenciando os elementos dessa álgebra de Lie obtemos
0 iat
eit 0
as matrizes
com t ∈ R. Esse conjunto de matrizes forma certamente um grupo. Sucede,
iat
0 e
porém, que não se trata de um sub-grupo topologicamente fechado de GL(C, 2), como veremos com
um pouco mais de detalhe na Seção 15.4.3 (a qual o leitor poderá passar sem perdas). Felizmente é
possı́vel dizer um pouco mais se enfraquecermos a condição de H ser um subgrupo fechado. Tem-se,
por exemplo, o seguinte:
Proposição 15.7 Seja G um subgrupo fechado não-discreto de GL(C, n) cuja álgebra de Lie é L(G)
e seja H um subgrupo (não discreto) de G. Seja L(H) := {M ∈ Mat (C, n)| exp(tM) ∈ H, ∀t ∈ R}
e suponha que se saiba que L(H) é um sub-espaço de L(G). Então L(H) é também uma sub-álgebra
de L(G). 2
Prova. Sejam A, B ∈ L(H). Então é claro que para todos t e s ∈ R teremos esAetB e−sA ∈ H pois
H é um grupo e esA , etA ∈ H. Podemos escrever esA etB e−sA = exp tesA Be−sA e isso prova que
esA Be−sA ∈ L(H) para todo s ∈ R. Como por hipótese L(H) é um sub-espaço de L(G), L(H) é
fechado (pois estamos em dimensão finita). Logo
1 sA −sA d sA −sA
L(H) ∋ lim e Be −B = e Be = [A, B],
s→0 s ds s=0
completando a prova.
Comparando a demonstração acima com a do Teorema 15.1, vemos que a diferença é que não
supomos que H seja fechado. Podemos ir mais um pouco além e estabelecer o seguinte:
Teorema 15.5 Seja G um subgrupo fechado de GL(C, n) cuja álgebra de Lie é L(G) e seja h uma
sub-álgebra de Lie real de L(G). Então existe um único sub-grupo conexo H de G cuja álgebra de Lie
é h. H é um grupo de Lie (em uma certa topologia). 2
Não apresentaremos a demonstração dessa afirmação aqui no caso geral, a qual é uma conseqüência
da fórmula de Baker-Campbell-Hausdorff. Mais adiante (página 908) discutiremos como H pode ser
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 15 904/1461
construı́da a partir de h no caso dessa última ser uma álgebra de Lie nilpotente, o caso mais fácil de
tratar.
Seja uma álgebra de Lie L. Com a notação acima, denotaremos por L[n] , n = 0, 1, 2, . . ., a seqüência
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 15 905/1461
L[0] := L,
..
.
etc.
Definição. Uma álgebra de Lie é dita ser nilpotente se L[m] = {0} para algum m.
O menor m para o qual L[m] = {0} é dito ser o grau ou ı́ndice da álgebra de Lie nilpotente. Note-se
′
que se L[m] = {0} então L[m ] = {0} para todo m′ > m.
Um exemplo de álgebra de Lie nilpotente é a álgebra de Heisenberg tri-dimensional gh3 , com
geradores p, q e ~, satisfazendo [p, ~] = 0, [q, ~] = 0 e [p, q] = −i~. Para ela vale (gh3 )[2] = {0}. Essa
álgebra foi apresentada e discutida na Seção 14.2.2 à página 769.
Há várias razões por que as álgebras de Lie nilpotentes são relevantes. Uma delas está no fato
de as álgebras de Lie nilpotentes serem igualmente álgebras de Lie solúveis (vide o que segue) e a
importância destas será discutida. O leitor pode reconhecer uma outra razão da importância das
álgebras de Lie nilpotentes na seguinte observação: para uma álgebra de Lie nilpotente a série de
Baker-Campbell-Hausdorff em (4.46) e (4.47) é uma série finita! Voltaremos a isso quando retomarmos
adiante a discussão da fórmula Baker-Campbell-Hausdorff.
Em paralelo à noção de álgebra de Lie nilpotente que apresentamos acima, existe a noção de álgebra
de Lie solúvel.
Para uma álgebra de Lie L, denotaremos por L(n) , n = 0, 1, . . ., a seqüência de conjuntos obtida
da seguinte forma: L(0) := L e L(n) := [L(n−1) , L(n−1) ], n = 1, 2, . . .. Ou seja,
L(0) := L,
..
.
etc.
Definição. Uma álgebra de Lie é dita ser solúvel se L(m) = {0} para algum m.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 15 906/1461
Para qualquer álgebra de Lie L é bastante evidente, pelas definições, acima que L(n) ⊂ L[n] . De
fato, L(0) = L[0] e L(1) = L[1] e, se L(n) ⊂ L[n] para algum n, segue que L(n+1) = [L(n) , L(n) ] ⊂
[L, L(n) ] ⊂ [L, L[n] ] = L[n+1] , provando a afirmativa por indução.
Segue dessa observação que toda álgebra de Lie nilpotente é também solúvel.
A recı́proca dessa última afirmação é falsa: nem toda álgebra de Lie solúvel é nilpotente. Considere-
se com exemplo a álgebra de Lie bidimensional com geradores λ1 e λ2 satisfazendo [λ1 , λ2 ] = λ2 . Essa
álgebra não é nilpotente, pois [λ1 , [λ1 , [· · · , [λ1 , λ2 ]]]] = λ2 . Porém, essa álgebra é solúvel, pois
[[λ1 , λ2 ], [λ1 , λ2 ]] = [λ2 , λ2 ] = 0. Essa álgebra aparecerá concretamente no exemplo discutido à
página 911.
Há várias razões por que as álgebras de Lie solúveis são relevantes. Uma delas será discutida após
apresentarmos o Teorema de Levi, abaixo.
Se L é uma álgebra de Lie, dizemos que é um sub-espaço vetorial J de L é uma sub-álgebra (de Lie)
se
[J, J] ⊂ J.
Definição. Uma álgebra de Lie L é dita ser simples se seus únicos ideais forem {0} e a própria L.
Definição. Uma álgebra de Lie L é dita ser semi-simples se não possuir ideais solúveis (que não {0}).
É bem claro que toda álgebra de Lie simples é semi-simples.
Há várias razões por que as álgebras de Lie semi-simples são relevantes. Uma delas será discutida
após apresentarmos o Teorema de Levi, abaixo.
Definição. Uma álgebra de Lie L é dita ser a soma direta de duas de suas sub-álgebras L1 e L2 se
[L1 , L2 ] = 0
e se todo elemento x ∈ L puder ser escrito de modo único da forma x = x1 + x2 com x1 ∈ L1 e x2 ∈ L2 .
Se L for a soma direta de L1 e L2 denotamos isso por L = L1 ⊕ L2 .
Definição. Uma álgebra de Lie L é dita ser a soma semi-direta de duas de suas sub-álgebras L1 e L2
se
[L1 , L2 ] ⊂ L2
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 15 907/1461
onde ǫijk é o sı́mbolo anti-simétrico de Levi-Civita definido em (14.33), página 789. Se denominarmos
por P a sub-álgebra gerada por P1 , P2 , P3 e por J a sub-álgebra gerada por J1 , J2 , J3 , veremos que
P é solúvel (pois é Abeliana) e que J é simples (e, portanto, semi-simples). É também imediato que
L = P ⊞ J.
O teorema de Levi nos diz que o estudo geral de álgebras de Lie, e conseqüentemente, de grupos de
Lie, reduz-se ao estudo das álgebras de Lie solúveis (dentre as quais estão as nilpotentes) e das álgebras
de Lie semi-simples. Um dos resultados mais importantes da teoria das álgebras de Lie é uma célebre
classificação completa de todas as álgebras de Lie semi-simples, feito devido a Killing19 e a Cartan20 .
Para o caso das álgebras solúveis uma classificação completa está ainda longe de ser alcançada.
pelo menos para αji pequenos o suficiente. Como os elementos Lk da base são linearmente independentes,
concluı́mos que pk (α) = qk (α) para todo k = 1, . . . , m, pelo menos quando os αji são pequenos o
suficiente. Como pk e qk são polinômios, isso vale para todos αji ∈ C. Isso provou a associatividade.
Para provar que LG é um grupo, devemos mostrar que há um elemento neutro em LG para o produto
∗ e que para cada elemento de LG existe uma inversa. Pela fórmula de Baker-Campbell-Hausdorff é
fácil constatar que
A∗0 = 0∗A = A
para todo A ∈ LG . Assim o zero é o elemento neutro procurado. Fora isso, também pela fórmula de
Baker-Campbell-Hausdorff é fácil constatar que
A ∗ (−A) = A + (−A) + comutadores de A com − A = 0.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 15 909/1461
Esses fatos têm ainda uma conseqüência importante. Seja L ⊂ Mat (C, n) uma álgebra de Lie
nilpotente de matrizes. Definamos por exp(L) o conjunto de todas as matrizes que são exponenciais
de elementos de L:
Afirmamos que exp(L) é um grupo (em relação ao produto usual de matrizes), em verdade um subgrupo
de GL(C n). De fato, 1 ∈ exp(L), pois, 0 ∈ L. Se G = exp(A) com A ∈ L, então sua inversa
é G−1 = exp(−A), que também pertence a exp(L) pois −A ∈ L. Por fim, se G1 = exp(A1 ) e
G2 = exp(A2 ) com A1 e A2 dois elementos quaisquer de ∈ L, então, pela fórmula de Baker-Campbell-
Hausdorff, G1 G2 = exp(A1 ∗ A2 ) ∈ exp(L), pois A1 ∗ A2 ∈ L.
A conclusão é que a partir de uma álgebra de Lie nilpotente L podemos construir um grupo,
denominado grupo de Lie associado à álgebra L pelo procedimento de exponenciação. É importante
notar que L é um conjunto conexo. Portanto, como a exponencial é contı́nua, o grupo exp(L) é
igualmente conexo.
Interessantemente vale também a recı́proca. Seja G um grupo de Lie conexo fechado (de matri-
zes) e LG sua álgebra de Lie e vamos supor que LG seja nilpotente. Considere, para algum ǫ > 0
suficientemente pequeno, o subconjunto Vǫ de LG definido por
( m )
X
Vǫ := λk Lk , com |λi| < ǫ para todo i = 1, . . . , m ,
k=1
Observação 1. O número n mencionado no último parágrafo pode não ser o mesmo para todo g ∈ G
(vide o enunciado da Proposição 15.3), podendo eventualmente crescer arbitrariamente quando g varia
no grupo. Porém, como a álgebra LG é nilpotente, o produto l1 ∗ · · · ∗ ln está sempre definido para
qualquer n.
Observação 2. Nas circunstâncias descritas acima, é fácil constatar que a função exponencial exp :
LG → G é um isomorfismo do grupo (LG , ∗) em G.
Grupos de Lie com álgebras de Lie nilpotentes não são os únicos grupos de Lie para os quais vale que
todo seu elemento pode ser escrito como exponencial de um elemento da sua álgebra de Lie. É possı́vel
mostrar que grupos de Lie compactos com álgebras de Lie semi-simples também têm essa propriedade.
Para uma demonstração vide, por exemplo, [132]. Vimos isso de modo explı́cito quando tratarmos dos
grupos SO(3), SU(2), SL(C, 2), SU(n) e SO(n) no Capı́tulo 14.
Para grupos de Lie não-conexos tipicamente ocorre que não se pode escrever todos os seus elementos
como exponenciais de elementos de sua álgebra de Lie. Tal é, por exemplo, o caso do grupo de Lie
GL(R, 2), cuja álgebra de Lie é Mat (R, 2). A exponencial de matrizes reais 2 × 2 é sempre formada
por matrizes com determinante positivo (pela Proposição 4.7, página 250), enquanto que GL(R, 2)
possui também matrizes com determinante negativo. Vide Proposição 4.10, página 252.
Porém, como veremos no exemplo discutido em detalhe à página 911, não basta que um grupo de
Lie seja conexo para que todos os seus elementos possam ser escritos como exponenciais de elementos
de sua álgebra de Lie. Em vários casos, todavia, os elementos do grupo podem ser escritos como um
produto finito de exponenciais. Tal também ocorre no exemplo da página 911.
Para um grupo de Lie conexo G é possı́vel, sob hipóteses adequadas que não discutiremos aqui,
construir um grupo de Lie simplesmente conexo a partir de sua álgebra de Lie, usando um procedi-
mento semelhante ao que empregamos quando discutimos acima o caso de álgebras de Lie nilpotentes.
Constrói-se primeiramente uma vizinhança U da identidade que seja simétrica (ou seja, se g ∈ U então
g −1 ∈ U) –por exemplo a vizinhança na qual a fórmula de Baker-Campbell-Hausdorff converge, no caso
de matrizes– e em seguida considera-se o conjunto formado por produtos finitos de elementos de U, o
chamado grupo gerado por U. Esse conjunto é em geral um grupo de Lie simplesmente conexo que é
um recobrimento do grupo original G.
onde a é um número real irracional fixo arbitrário. Para mostrar que esse grupo não é fechado,
vamos exibir uma seqüência convergente de matrizes de Ha que não converge a um elemento de Ha .
Considere
+ 1)π com n ∈ N. As matrizes de Ha correspondentes a esses valores de t são
tn = (2n
−1 0
. Sucede que, como a é irracional, os números complexos da forma ei2πa(2n+1) , com
0 ei2πa(2n+1)
n ∈ N, formam um conjunto denso em todo o cı́rculo unitário do plano complexo21 . Assim, existe uma
sub-seqüência nk tal que ei2πa(2nk +1) converge a −1 quando k → ∞. Isso mostra que a matriz −1 está
no fecho de Ha . Sucede, porém, que −1 6∈ Ha pois, para a irracional, não existe nenhum t real tal que
valham simultaneamente eit = −1 e eiat = −1 (prove isso). Isso mostra que Ha não é fechado.
eit 0
Por outro lado, é claro que há uma aplicação bijetora de R em Ha dada por R ∋ t 7→
, a
0 eiat
qual induz a topologia usual de R em Ha , topologia essa na qual Ha é um grupo de Lie, como facilmente
se vê. Essa topologia não coincide com a topologia induzida em Ha pela norma de matrizes em Ha .
Há uma maneira geométrica de entender o que está acontecendo nesse grupo. Considere o seguinte
grupo de Lie de matrizes 2 × 2:
e it
0
T :=
, t, s ∈ R .
0 eis
Esse grupo de Lie (a dois parâmetros reais) pode ser visualizado como um toro bidimensional (pois é
o produto Cartesiano de dois cı́rculos: o cı́rculo eit com t ∈ R e o cı́rculo eis com s ∈ R). Cada grupo
Ha é um subgrupo de T e, nessa imagem, corresponde a uma curva (pois cada Ha é unidimensional)
que preenche densamente o toro sem auto-cruzamentos. Dessa forma entende-se que o fecho de Ha na
topologia da norma das matrizes é o grupo T .
Se imaginarmos um aberto no toro, veremos que este intercepta a curva que corresponde a Ha em
infinitos segmentos. Assim, Ha não é uma sub-variedade de T e, portanto, apesar de ser um subgrupo
de T , Ha não pode ser um subgrupo de Lie de T na topologia de T .
21
O leitor para o qual esse fato não é familiar poderá encontrar demonstrações em bons livros sobre teoria de números,
por exemplo [58].
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 15 912/1461
Vamos agora apresentar um exemplo de um grupo de Lie conexo no qual não podemos escrever
todos os seus elementos como exponenciais de elementos de sua álgebra de Lie, ou seja, a exponencial
de sua álgebra de Lie não é sobrejetora no grupo.
Seja α um número real irracional22 fixo. Vamos considerar o seguinte conjunto de matrizes comple-
xas 2 × 2:
Hα := {h(t, z), t ∈ R, z ∈ C} ,
onde
it
e z
h(t, z) :=
.
(15.12)
0 eiαt
1 = h(0, 0) ∈ Hα ,
′
h(t, z)h(t′ , z ′ ) = h(t + t′ , zeiαt + z ′ eit ) ∈ Hα e
Claramente, h é contı́nua (certo?). Vamos mostrar que h é bijetora. Suponha que existam (t, z) e
(t′ , z ′ ) ∈ R × C tais que h(t, z) = h(t′ , z ′ ), ou seja,
′
eit z eit z′
= .
′
0 eiαt 0 eiαt
z = z′ . (15.15)
22
Como veremos abaixo, é crucial para a construção desejada que α não seja racional.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 15 913/1461
com τ ∈ R e w ∈ C.
E. 15.13 Exercı́cio. Constate que [λ1 , λ2 ] = i(1 − α)λ2. Conclua daı́ que a álgebra de Lie L(Hα )
associada a Hα não é nilpotente, não é simples e não é semi-simples, mas é solúvel. 6
Vamos nos dedicar agora a calcular exp(h(τ, w)). É muito fácil provar que
2
(iτ ) w(iτ )(1 + α)
h(τ, w)2 =
0 (iατ )2
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 15 914/1461
e que
(iτ )3 w(iτ )2 (1 + α + α2 )
h(τ, w) =
3
.
0 (iατ )3
para todo n ≥ 1. Na última igualdade usamos a bem conhecida fórmula da progressão geométrica.
onde ∞
X 1 1 − αn
n−1
f (τ ) := (iτ ) .
n=1
n! 1−α
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 15 915/1461
Vamos agora expressar melhor a função f (τ ). Note-se que f (0) = 1 e que, para τ = 6 0,
∞ ∞ ∞
!
X 1 1 − α n
1 X 1 X 1
(iτ )n−1 = (iτ )n−1 − α (iατ )n−1
n=1
n! 1 − α 1 − α n=1
n! n=1
n!
1 eiτ − 1 eiατ − 1
= −
1−α iτ iτ
1 eiτ − eiατ
=
1−α iτ
eiατ ei(1−α)τ − 1
= .
1−α iτ
Assim,
1, para τ = 0,
f (τ ) =
i(1−α)τ
eiατ e −1
, para τ 6= 0
1−α iτ
e, finalmente,
iτ
e wf (τ )
exp(h(τ, w)) =
.
(15.16)
0 eiατ
A questão que agora se põe é: será o conjunto de matrizes exp(L(Hα )) := {exp(h(τ, w)), τ ∈ R, w ∈ C}
2π
igual a Hα ? A resposta é não! Para provar isso mostraremos que as matrizes h 1−α , z com z 6= 0
não são elementos do conjunto exp(L(Hα )). Se tal não fosse o caso, existiriam τ ∈ R e w ∈ C tais que
2π
h , z = exp(h(τ, w)),
1−α
ou seja,
2π
i 1−α iτ
e z e wf (τ )
= .
2πα
i 1−α iατ
0 e 0 e
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 15 916/1461
z = wf (τ ). (15.19)
Ocorre agora, porém, que inserindo-se esse valor de τ no lado direito de (15.19) obtemos
2πα 2π
! 2πi
2π ei 1−α ei(1−α) 1−α − 1 2πα
i 1−α e −1
wf = w 2π = we = 0
1−α 1−α i 1−α 2πi
E. 15.15 Exercı́cio. Seja um grupo de Lie simplesmente conexo G, cuja álgebra de Lie é L. Um
teorema devido a Dixmier [67] afirma, entre outras coisas, que exp(L) = G se exp for injetora. Mostre que
(τ, w) 7→ exp(h(τ, w)) definida em (15.16) não é injetora. 6
No exemplo acima vale, porém, a seguinte afirmação: todo elemento de Hα pode ser escrito como
produto de duas exponenciais de elementos da álgebra de Lie L(Hα ), a saber, da forma
exp(h(τ, 0)) exp(h(0, w)) .
De fato, é bem fácil ver que
eit z eit 0 1 e−it z
h(t, z) = = exp(h(t, 0)) exp(h(0, e−it z)).
=
0 eiαt 0 eiαt 0 1
Capı́tulo 16
Uma Breve Introdução à Teoria das
Representações de Grupos
Conteúdo
16.1 Representações de Grupos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 917
16.2 Representações Irredutı́veis de SO(3) . . . . . . . . . . . . . . . . . . . . . 924
16.3 A Medida de Haar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 928
16.4 Representações de Grupos Compactos . . . . . . . . . . . . . . . . . . . . . 930
16.5 O Teorema de Peter-Weyl . . . . . . . . . . . . . . . . . . . . . . . . . . . . 931
G rupos desempenham um papel importante na Fı́sica em geral devido a sua relação com trans-
formações de simetria. Na Fı́sica Quântica (na Mecânica Quântica ou na Teoria Quântica de
Campos), onde o conjunto de estados puros de um sistema fı́sico é descrito por um espaço
linear, torna-se particulamente relevante estudar a ação de grupos de simetria em espaços
vetoriais. Essa é a motivação básica do estudo de representações de grupos.
1. Π(e) = 1.
3. Π(g −1 ) = Π(g)−1 , ∀g ∈ G.
• A Representação Trivial
A representação que associa todo g ∈ G ao operador identidade em V , ou seja, tal que π(g) = 1,
∀g ∈ G, é denominada representação trivial.
917
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 16 918/1461
• Intertwiners
Seja G um grupo e V1 , V2 dois espaços vetoriais (sobre o mesmo corpo) onde atuem duas repre-
sentações de G: Π1 e Π2 , respectivamente em V1 e V2 . Um operador U : V1 → V2 tal que
• Representações Equivalentes
As duas representações são ditas equivalentes se existir um operador invertı́vel U : V1 → V2 tal que
x ∈ R, são três representações de G. Mostre que T1 e T2 são equivalentes (sugestão: tome U = ( 01 10 )).
Mostre que R e T1 (ou T2 ) não são equivalentes (sugestão: se o fossem, veja o que ocorreria para x = 2π).
6
• Sub-Espaços Invariantes
E. 16.2 Exercı́cio. 1. Mostre que a representação T1 , definida acima, tem um sub-espaço invariante de
dimensão 1, a saber, o sub-espaço formado pelos vetores da forma ( a0 ), a ∈ R. Mostre que nenhum outro
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 16 919/1461
• Representações Irredutı́veis
E. 16.4 Exercı́cio. Mostre que as representações T1 e T2 , definidas à página 918, são redutı́veis. Mostre
que a representação R é irredutı́vel. 6
Vamos supor que V seja um espaço de dimensão finita, digamos n, e que Π seja uma representação
de um grupo G em V que possua um sub-espaço invariante não-trivial V ′ (ou seja, Π é redutı́vel).
Seja m ≤ n a dimensão de V ′ . Então é possı́vel encontrar uma base em V tal que Π(g) possui a
representação matricial em blocos
π1 (g) α(g)
Π(g) =
0 π2 (g)
para todo g ∈ G, onde π1 (g) é uma matriz m × m, π2 (g) é uma matriz (n − m) × (n − m), e α(g) é
uma matriz m × (n − m).
Mostrar isso é bem simples, basta representar cada v ∈ V em uma base e1 , . . . , en , onde e1 . . . , em
formam uma base de V ′ .
O seguinte exercı́cio revela uma propriedade importante dos blocos π1 e π2 :
para todo g ∈ G, onde cada πi (g) é uma representação de G agindo no espaço invariante Vi de Π. Em
um tal caso denotamos Π da forma Π = π1 ⊕ · · · ⊕ πk .
Particularmente importante é a situação em que Π é totalmente redutı́vel e cada πi é irredutı́vel.
Em tal caso dizemos que Π é maximalmente redutı́vel ou completamente redutı́vel.
E. 16.6 Exercı́cio. Sejam as representações T1 e T2 definidas à página 918. Mostre que T1 e T2 não são
totalmente redutı́veis. 6
Para provar essa proposição, vamos antes demonstrar o seguinte lema, o qual tem importância por
si só, como veremos mais adiante.
Lema 16.1 Seja V um espaço vetorial complexo, dotado de um produto interno h·, · · · i, e seja Π uma
representação de um grupo G por operadores unitários (em relação ao produto interno). Se W é um
sub-espaço invariante por Π então seu complemento ortogonal W ⊥ (em relação ao produto interno)
também o é. 2
Prova. Como Π é unitário, vale Π(g)∗ = Π(g)−1 = Π(g −1) para todo g ∈ G. Seja w ′ ∈ W ⊥ e w ∈ W .
Então, para qualquer g ∈ G
E. 16.8 Exercı́cio. Mostre que as mesmas conclusões valem para representações ortogonais em espaços
vetoriais reais. 6
Prova. Vamos supor W seja um sub-espaço invariante por Π. Seja P o projetor sobre W . Então, 1 − P
é o projetor sobre W ⊥ , que é também invariante, pois Π é unitária. É evidente que
Π(g)P x = P Π(g)P x,
pois P Π(g)(1 − P )x = 0, já que W ⊥ é invariante. Comparando-se, concluı́mos que Π(g)P x = P Π(g)x
para todo x e todo g ∈ G, ou seja,
Π(g)P = P Π(g)
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 16 922/1461
para todo g ∈ G. Porém, como Π é irredutı́vel para operadores, isso só é possı́vel se P = λ1. Como
P 2 = P , tem-se λ = 0 ou λ = 1. No primeiro caso P = 0, no segundo, P = 1, ou seja, no primeiro
caso W = {0} e no segundo W é o espaço todo. Ora, isso diz precisamente que Π é irredutı́vel.
Vamos agora passar a demonstração da afirmação 1), acima. A mesma é corolário de um lema
algébrico de grande importância. O chamado lema de Schur1 .
• Lema de Schur
Prova. Sejam
M1 := Ker(A) ⊂ V1
M2 := Ran(A) ⊂ V2
1. M1 = V1 e M2 = V2 .
2. M1 = {0} e M2 = V2 .
3. M1 = V1 e M2 = {0}.
4. M1 = {0} e M2 = {0}.
Os casos 1 e 4 são impossı́veis: se Ker(A) = V1 não se pode ter Ran(A) = V2 ; se Ker(A) = {0} não se
pode ter Ran(A) = {0}. Assim, valem apenas os casos 2 e 3. No caso 2 tem-se que A é invertı́vel. No
caso 3, tem-se que A = 0.
Resta-nos provar que, caso A seja invertı́vel e V1 e V2 sejam espaços vetoriais complexos de dimensão
finita, então A é único, a menos de multiplicação por escalar. Se A é invertı́vel, então a dimensão de
1
Issai Schur (1875-1941).
2
Para os esquecidos, Ker(A) := {x ∈ V1 | Ax = 0}. Ran(A) := {y ∈ V2 | y = Ax para algum x ∈ V1 }.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 16 923/1461
V1 é igual à de V2 e A pode ser visto como uma matriz quadrada. Seja B um outro intertwiner de Π1 e
Π2 . Então, para qualquer λ ∈ C tem-se (A − λB)Π1 (g) = Π2 (g)(A − λB). Portanto, ou (A − λB) = 0
ou é invertı́vel. Podemos, porém, escolher λ de modo que det(A − λB) = 0. Isso é sempre possı́vel, pois
det(A − λB) é um polinômio em λ e polinômios sempre têm raı́zes complexas. Para uma tal escolha
de λ, a matriz A − λB não é invertı́vel e, portanto, é nula e A = λB.
Prova. Seja A tal que AΠ(g) = Π(g)A para todo g ∈ G. Sabemos também que 1Π(g) = Π(g)1,
trivialmente. Pela unicidade afirmada no Lema de Schur, A = λ1.
• Exemplos
E. 16.9 Exercı́cio. Mostre que as representações irredutı́veis complexas de dimensão finita do grupo
ZN , N ≥ 2, são
2πik
Πk (a) = exp a ,
N
a ∈ ZN , k = 0, , . . . N − 1. 6
E. 16.10 Exercı́cio. Mostre que as representações irredutı́veis complexas de dimensão finita do grupo
SO(2) são
Πp (φ) = exp (ipφ) ,
φ ∈ [0, 2π), p ∈ Z. 6
Note que o grupo SO(2) tem representações irredutı́veisreais que não sãounidimensionais. Por
cos(φ) − sen(φ)
exemplo, aquela que define o próprio grupo SO(2): R(φ) =
, φ ∈ [0, 2π).
sen(φ) cos(φ)
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 16 924/1461
E. 16.11 Exercı́cio. Mostre que as representações irredutı́veis complexas de dimensão finita do grupo
(R, +) são
Πz (x) = exp (zx) ,
x ∈ R, z ∈ C. 6
E. 16.12 Exercı́cio. Mostre que as representações irredutı́veis unitárias de dimensão finita do grupo
(R, +) são
Πk (x) = exp (ikx) ,
x ∈ R, k ∈ R. 6
E. 16.13 Exercı́cio. Mostre que as representações irredutı́veis complexas de dimensão finita do grupo
(R+ , ·) são
Πz (x) = exp (z ln(x)) =: xz ,
x ∈ R+ , z ∈ C. 6
E. 16.14 Exercı́cio. Mostre que as representações irredutı́veis unitárias de dimensão finita do grupo
(R+ , ·) são
Πk (x) = exp (ik ln(x)) = xik ,
x ∈ R+ , k ∈ R. 6
• Operador de Casimir
Um fato muito importante, válido para qualquer representação de SO(3) como acima, é que a matriz
denotada por L2 e definida por
L2 = L21 + L22 + L23
comuta com todos os três geradores La : [L2 , La ] = 0, para todo a = 1, 2, 3.
E. 16.16 Exercı́cio muito importante. Verifique essa afirmação. Sugestão: prove (e use) a identidade
[A2 , B] = A[A, B] + [A, B]A, válida para quaisquer matrizes n × n A e B. 6
Um operador com essa propriedade, a de comutar com todos os geradores de uma álgebra de Lie, é
dito ser um operador de Casimir. Por um teorema devido a Racah, L2 é o único operador de Casimir
de SO(3) (os demais são combinações lineares de potências de L2 ). A importância dos operadores de
Casimir é a seguinte. Como L2 comuta com cada La , segue facilmente de (16.1) que L2 Π(g) = Π(g)L2
para todo g ∈ SO(3). Assim, pelo Lema de Schur, se Π é uma representação irredutı́vel, L2 deve ser um
múltiplo da identidade. Isso abre o caminho para classificar as representações irredutı́veis de SO(3):
estudando os possı́veis autovalores de L2 . Em cada sub-espaço formado por autovetores com um dado
autovalor fixo, teremos uma representação irredutı́vel.
• Autovalores de L2
Fora isso,
L2 = L+ L− + L3 (L3 − 1) , (16.4)
L2 = L− L+ + L3 (L3 + 1) . (16.5)
Vamos usar essas relações para provar vários fatos sobre os autovalores de L2 e L3 . De (16.5) tem-se
De (16.4) tem-se
Assim,
hψl,m , L− L+ ψl,m i = (l − m)(l + m + 1)kψl,m k2 (16.8)
e
hψl,m , L+ L− ψl,m i = (l + m)(l − m + 1)kψl,m k2 . (16.9)
Porém, como L∗± = L∓ , segue que
hψl,m , L− L+ ψl,m i = hL+ ψl,m , L+ ψl,m i ≥ 0 e hψl,m , L+ L− ψl,m i = hL− ψl,m , L− ψl,m i ≥ 0.
(l − m)(l + m + 1) ≥ 0, (16.10)
(l + m)(l − m + 1) ≥ 0. (16.11)
Prova. Se L+ ψl,m = 0 segue, evidentemente, que L− L+ ψl,m = 0. Por (16.6) isso implica (l − m)(l + m +
1) = 0. Assim, ou m = l ou m = −(l + 1). Esse último caso é proibido por (16.12) e, portanto, m = l.
Se L− ψl,m = 0 segue, evidentemente, que L+ L− ψl,m = 0. Por (16.7) isso implica (l + m)(l − m + 1) = 0.
Assim, ou m = −l ou m = l + 1. Esse último caso é proibido por (16.12) e, portanto, m = −l.
Vamos agora prosseguir tentando estabelecer mais alguns fatos sobre os possı́veis valores de l e m.
Usando as relações de comutação entre L3 e L+ , é fácil ver que
Essas duas relações dizem-nos que L± ψl,m é um autovetor de L3 com autovalor m ± 1. Note-se que,
como L2 comuta com L± , tem-se também L2 L± ψl,m = l(l + 1)L± ψl,m . Assim, aplicar o operador L± a
ψl,m aumenta (diminui) de uma unidade o autovalor de L3 sem alterar o de L2 .
Percebemos disso que caso m = l teremos L3 L+ ψl, l = (l + 1)L+ ψl, l o que, em função de (16.12), só
é possı́vel se L+ ψl, l = 0. Analogamente, caso m = −l teremos L3 L− ψl, −l = −(l + 1)L− ψl, −l o que, em
função de (16.12), só é possı́vel se L− ψl, −l = 0. Junto com a Proposição 16.3 isso conduz ao
Corolário 16.3 Seja ψl,m um autovetor não-nulo de L2 e de L3 com autovalores l(l + 1) e m, respec-
tivamente. Então tem-se L+ ψl,m = 0 se e somente se m = l. Analogamente, L− ψl,m = 0 se e somente
se m = −l. 2
Precisamos mostrar que existem autovetores não-nulos de L3 com autovalores ±l. Certamente
existe um autovetor não-nulo ψl,m para algum m satisfazendo (16.12). Pelo que vimos acima, Lp+ ψl,m
é um autovetor de L3 com autovalor m + p. Suponhamos que m < l e seja p0 ≥ 0 o maior inteiro
não-negativo tal que m + p0 ≤ l. Então m + p0 + 1 > l, o que implica que 0 = Lp+0 +1 ψl,m = L+ Lp+0 ψl,m .
Pelo corolário 16.3 isso implica que ou Lp+0 ψl,m é nulo ou é autovetor de L3 com autovalor l. Se p0 = 0
então ψl,m 6= 0, por hipótese. Se p0 > 0, então, caso Lp+0 ψl,m = 0, concluirı́amos também pelo corolário
p0 −1
16.3 que L+ ψl,m é autovetor não-nulo de L3 com autovalor l. A repetição desse argumento conduz à
conclusão que há um autovetor não-nulo de L3 com autovalor l. Analogamente, conclui-se que existe
autovetor não-nulo de L3 com autovalor −l.
Estamos agora preparados para chegar a uma importante conclusão sobre os possı́veis valores de l,
a saber, que l só pode assumir valores inteiros ou semi-inteiros.
Ao aplicarmos repetidamente o operador L+ , ao vetor não-nulo ψl,−l obtemos sucessivos vetores
Lp+ ψl,−l
com autovalores −l + p de L3 . Chegará um momento em que a desigualdade −l ≤ m ≤ l será
violada, ou seja, existe p tal que Lp+1
+ ψl,−l seria o primeiro autovetor de L3 com autovalor maior que
l. Como isso é impossı́vel, segue que Lp+1 p
+ ψl,−l = 0 e L+ ψl,−l deve ser autovetor de L3 com autovalor
p
máximo l. Mas o autovalor de L3 em L+ ψl,−l é −l + p. Logo −l + p = l, ou seja, 2l = p. Como p é um
número inteiro, segue que l é ou um inteiro (caso p seja par) ou um semi-inteiro (caso p seja ı́mpar).
Como os autovalores m são da forma −l + p, para p inteiro, segue que m será inteiro se l o for ou
semi-inteiro, caso l o seja.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 16 928/1461
A conclusão importante é que os autovalores de L2 são números da forma l(l + 1) com l ≥ 0 inteiro
ou semi-inteiro. Cada representação irredutı́vel de SO(3) é caracterizada por um autovalor de L2 e
podemos, portanto, classificar as representações irredutı́veis de SO(3) pelo ı́ndice l: Πl . Esse fato é de
grande importância na Fı́sica Quântica pois os números l(l + 1) e m são associados aos autovalores dos
operadores de momento angular L2 e L3 .
É possı́vel fixar a forma dos geradores La em cada representação irredutı́vel Πl . Para isso, escolhemos
como base os 2l +1 vetores ψl,m com −l ≤ m ≤ l. Nessa base L3 é diagonal tendo elemento de matriz m
na m-ésima posição da diagonal. Para obter os elementos de matriz de L1 e L2 , obtemos primeiramente
os elementos de matriz de L± . Os mesmos podem ser fixados a partir de (16.8)-(16.9), que nos dizem
que,
kL+ ψl,m k2 = (l − m)(l + m + 1) = [l(l + 1) − m(m + 1)] (16.13)
e
kL− ψl,m k2 = (l + m)(l − m + 1) = [l(l + 1) − m(m − 1)] (16.14)
para kψl,m k = 1. Sabemos que L± ψl,m deve ser múltiplo de ψl,m±1 . Com as relações acima, podemos
convencionar (fixando os fatores de fase como sendo iguais a 1)
p
L+ ψl,m = l(l + 1) − m(m + 1) ψl, m+1 ,
p
L− ψl,m = l(l + 1) − m(m − 1) ψl, m−1 .
Isso fornece os elementos de matriz de L± na base ψl,m e com os mesmos podemos obter os elementos
de matriz de L1 e L2 .
Com as expressões acima,é até mesmo possı́vel escrever de modo mais explı́cito a forma das repre-
~
sentações Πl (R(θ, ~η)) = exp −iθ~η · L .
ou seja, a média é invariante por multiplicação à direita ou à esquerda por elementos de G ou pela
inversão do argumento de f .
Note-se também que a média acima foi normalizada de modo que se f (g) = 1 para todo g ∈ G,
então µ(f ) = 1. Por fim, note-se também que a média acima é positiva: se f ≥ 0 então µ(f ) ≥ 0. Fora
isso, se f ≥ 0 e µ(f ) = 0, então f (g) = 0 para todo g ∈ G.
Grupos finitos não são os únicos a possuir médias invariantes positivas. Vamos a alguns exemplos.
Para o grupo SO(2) podemos definir
Z 2π
1
µ(f ) = f (θ)dθ,
2π 0
caso a integral seja finita. É fácil ver que as propriedades de invariância observadas no caso de grupos
finitos são válidas aqui também, inclusive a normalização e a positividade. Para o grupo (R, +)
podemos definir Z ∞
µ(f ) = f (x)dx,
−∞
caso a integral seja finita. Como se vê essa média é positiva, invariante por translações f (x) → f (x + y)
e pela troca do argumento da f por seu inverso: f (x) → f (−x), em analogia ao caso de grupos finitos.
Note-se, porém, que essa média não pode ser normalizada, pois o grupo não é compacto. Outro exemplo
é o grupo (R+ , ·). Aqui a média invariante é
Z ∞
1
µ(f ) = f (x) dx,
0 x
caso a integral seja finita.
E. 16.20 Exercı́cio. Mostre que essa média é invariante por f (x) → f (xy), y ∈ R+ , e por f (x) →
f (1/x). 6
Novamente, note-se que essa média não é normalizada, pois R+ não é compacto.
Podemos nos perguntar, quais grupos possuem médias invariantes positivas como nos exemplos
acima? Uma resposta parcial foi dada por Haar3 . O teorema de Haar afirma que se G é um grupo
compacto então existe uma medida de integração dµ(g) em G, denominada medida de Haar, tal que se
a média Z
µ(f ) = f (g)dµ(g)
G
é bem definida, então tem-se
Z Z Z Z
f (g)dµ(g) = f (hg)dµ(g) = f (gh)dµ(g) = f (g −1)dµ(g)
G G G G
R R
para todo h ∈ G. ForaR isso, a média é normalizada: G dµ(g) = 1 e positiva: se f ≥ 0 então G
f dµ ≥ 0
sendo que se f ≥ 0 e G f dµ = 0, então f (g) = 0 para quase todo g ∈ G.
3
Alfréd Haar (1885-1933).
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 16 930/1461
O teorema de Haar pode ser parcialmente extendido para grupos localmente compactos (como
(R, +) e (R+ , ·)): Se G é localmente compacto existem medidas positivas de integração dµe (g) e
dµd (g) em G tais que
Z Z Z
e
f (g)dµ (g) = e
f (hg)dµ (g) = f (g −1 )dµe (g)
G G G
e Z Z Z
d
f (g)dµ (g) = d
f (gh)dµ (g) = f (g −1)dµd (g),
G G G
para quaisquer h ∈ G. Ou seja, existem uma medida invariante à esquerda e uma outra invariante
à direita. Em alguns casos essas medidas coincidem (por exemplo, para grupos Abelianos), mas tal
nem sempre é o caso para grupos não-Abelianos. Note que no caso de grupos compactos a medida
invariante à esquerda e a medida invariante à direita também coincidem. No caso de grupos localmente
compactos nem sempre se pode normalizar as medidas invariantes.
Na presente versão destas notas não iremos nos estender mais no estudo da medida de Haar. O
estudante é convidado aqui a procurar os clássicos do assunto (p.e. “The Haar Measure”, de Leopoldo
Nachbin4 ). Como veremos, a medida de Haar de grupos compactos desempenha um papel muito
importante no estudo das representações desses grupos.
x, y ∈ V .
O fato importante sobre esse produto escalar é o seguinte: para todo h ∈ G e todo x, y ∈ V
No caso de V ser um espaço vetorial complexo de dimensão finita, essa última igualdade afirma que
cada Π(h) é um operador unitário em relação ao produto escalar h·, ·iG .
Como conseqüência, temos a seguinte
Proposição 16.4 Toda representação de um grupo compacto em um espaço vetorial complexo de di-
mensão finita é equivalente a uma representação unitária e, conseqüentemente, é ou irredutı́vel ou
maximalmente redutı́vel. 2
4
Leopoldo Nachbin (1922-1993). Vide http://www.dmm.im.ufrj.br/doc/nachbin.htm
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 16 931/1461
Esse teorema nos diz que no caso de grupos compactos as representações irredutı́veis de dimensão
finita são os tijolos com os quais se constroem todas as representações.
Note-se que o teorema acima afirma que toda representação de um grupo compacto Abeliano é
equivalente a uma soma direta de representações de dimensão 1.
Por fim, as funções Πα (g)ij , i, j = 1, . . . , dα formam uma base ortogonal completa no espaço de Hilbert
5
Jean Baptiste Joseph Fourier (1768-1830).
6
F. Peter (?).
7
Hermann Klaus Hugo Weyl (1885-1955).
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 16 932/1461
L2 (G, dµ). Com isso, toda função f ∈ L2 (G, dµ) pode ser escrita na forma
dα
X X
f (g) = aαij Πα (g)ij ,
α∈Λ i, j=1
onde Z
aαij = dα Πα (g)ij f (g) dµ(g).
G
Z X 1 X dα
α 2
|f (g)|2 dµ(g) = a .
ij
G α∈Λ
d α i, j=1
1 X α 1
Π (g)ij Πβ (g)kl = δαβ δik δjl .
#G g∈G dα
Prova. Demonstraremos aqui as relações de ortogonalidade. Como veremos a prova das mesmas faz
belo uso do Lema de Schur.
Seja E [i, j] a matriz dα × dβ tal que seu elemento de matriz ab seja E [i, j] ab = δia δjb. Aqui i ∈
{1, . . . , dα } e j ∈ {1, . . . , dβ }. Considere-se a matriz
Z
A[i, j]
:= Πα (g −1) E [i, j] Πβ (g) dµ(g)
G
Z
= Πα (g)∗ E [i, j] Πβ (g) dµ(g).
G
para todo h ∈ G. (Exercı́cio!). Pelo Lema de Schur, ou A[i, j] = 0 ou A[i, j] é invertı́vel. No caso de
termos α 6= β, sabemos, por construção, que Πα e Πβ são inequivalentes. Portanto, nesse caso temos
forçosamente A[i, j] = 0. Isso obviamente implica que todos os elementos de matriz de A[i, j] são nulos,
8
Marc-Antoine Parseval des Chênes (1755-1836). Parseval deduziu esta identidade no contexto das séries de Fourier,
que correspondem aqui ao caso do grupo SO(2).
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 16 933/1461
ou seja,
XZ
0 = [i, j]
A ab
= Πα (g)∗ak E [i, j] kl
Πβ (g)lb dµ(g)
k, l G
XZ
= Πα (g)∗ak δik δjl Πβ (g)lb dµ(g)
k, l G
Z
= Πα (g)∗aiΠβ (g)jb dµ(g)
G
Z
= Πα (g)iaΠβ (g)jb dµ(g).
G
Note que essa relação vale para α 6= β mas i, j, a, b arbitrários. Isso provou (16.15) para α 6= β.
Vamos agora tratar o caso em que α = β. Nesse caso, como vimos Πα (h) A[i, j] = A[i, j] Πα (h) para
todo h ∈ G. Aqui A[i, j] são matrizes dα × dα . Pelo Corolário 16.1, A[i, j] = λ[i, j] 1. Vamos determinar
as constantes λ[i, j] . Por um lado, tomando-se o traço de A[i, j] tem-se Tr(A[i, j] ) = dα λ[i, j] . Por outro
lado, pela definição de A[i, j] tem-se
Z
Tr A [i, j]
= Tr Πα (g −1 ) E [i, j] Πα (g) dµ(g)
G
Z
= Tr Πα (g)Πα (g −1) E [i, j] dµ(g)
G
Z
= Tr E [i, j] dµ(g)
G
Z
= δij dµ(g)
G
= δij ,
pois Tr E [i, j] = δij . Logo,
1
λ[i, j] = δij .
dα
Assim, Z
1
δij 1 = A[i, j] = Πα (g)∗ E [i, j] Πα (g) dµ(g).
dα G
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 16 934/1461
XZ
= Πα (g)∗ak δik δjl Πα (g)lb dµ(g)
k, l G
Z
= Πα (g)∗ai Πα (g)jb dµ(g)
G
Z
= Πα (g)ia Πα (g)jb dµ(g).
G
Dada uma representação Π de dimensão finita de um grupo G, define-se o caráter de Π como sendo
a função
χΠ (g) := Tr (Π(g)) , g∈G
Um fato relevante sobre caráteres é a seguinte identidade:
χΠ (hgh−1 ) = Tr Π(hgh−1 ) = Tr Π(h)Π(g)Π(h−1 ) = Tr Π(h−1 )Π(h)Π(g) = Tr (Π(g)) = χΠ (g)
para quaisquer g, h ∈ G. Isso sugere a seguinte definição: uma função f : G → C é dita ser central
se f (g) = f (hgh−1) para todos g, h ∈ G. Equivalentemente, podemos definir funções centrais como
sendo as funções tais que f (gh) = f (hg) para todos g, h ∈ G.
Caráteres são funções centrais. Das relações (16.15), tomando-se i = j, k = l e somando-se nesses
ı́ndices, obtêm-se facilmente que os caráteres χα das representações irredutı́veis unitárias de dimensão
finita Πα satisfazem as seguintes relações de ortogonalidade:
Z
χα (g)χβ (g) dµ(g) = δαβ .
G
Como conseqüência do Teorema de Peter-Weyl podemos igualmente provar que os caráteres das
representações irredutı́veis unitárias de dimensão finita formam uma base ortogonal no espaço de Hilbert
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 16 935/1461
das funções centrais de quadrado integrável de um grupo finito ou compacto. Não apresentaremos a
demonstração aqui. Notemos apenas que no caso do grupo SO(2) os caráteres das representações
irredutı́veis unitárias de dimensão finita são χp (θ) = eipθ , p ∈ Z. Assim, a afirmação de acima, que os
caráteres formam uma base no espaço das funções centrais de quadrado integrável, é nesse contexto
um bem conhecido resultado da teoria das séries de Fourier.
• Classe de Conjugação
E. 16.24 Exercı́cio. Verifique que isso, de fato, define uma relação de equivalência. 6
As classes de equivalência de G por essa relação são denominadas classe de conjugação, ou classes
de elementos conjugados.
E. 16.25 Exercı́cio. Verifique que a identidade é o único elemento de sua classe de equivalência. 6
O fato importante sobre funções centrais e classes conjugadas é a seguinte afirmação: toda função
central de um grupo G é constante nas classes conjugadas de G. A prova é elementar: se x, y pertencem
à mesma classe então existe h tal que x = hyh−1 . Logo, f (x) = f (hyh−1 ) = f (y).
Assim, para determinar uma função central, como um caráter de uma representação, por exemplo,
basta determinar seus valores nas classes de conjugação. Essa observação desempenhará um papel
abaixo.
No caso e grupos finitos os caráteres possuem uma propriedade de ortogonalidade adicional que é muito
útil no estudo de propriedades desses grupos. Vamos apresentá-la.
Se f é uma função central de um grupo finito, então f é automaticamente de quadrado integrável
(pois o grupo é finito) e, pelo teorema de Peter-Weyl, podemos escrevê-la como
X
f (h) = cα χα (h),
α∈Λ
onde
1 X α
cα = χ (g)f (g).
#G g∈G
onde #Ck é o número de elementos do grupo que pertencem à classe Ck e f (Ck ) é o valor de f em Ck .
Assim,
X 1 X K
f (h) = (#Ck )χα (Ck )f (Ck )χα (h)
α∈Λ
#G k=1
K
" #
X #Ck X α
= f (Ck ) χ (Ck )χα (h)
k=1
#G α∈Λ
Tomando h ∈ Cj , teremos
K
" #
X #Ck X α
f (Cj ) = f (Ck ) χ (Ck )χα (Cj ) .
k=1
#G α∈Λ
Essa relação de ortogonalidade especial tem várias conseqüências relevantes para o estudo de repre-
sentações irredutı́veis unitárias de grupos finitos. Uma delas é a seguinte:
Proposição 16.5 Se G é um grupo finito, o número de representações irredutı́veis unitárias de G é
igual ao número de de classes de conjugação de G. 2
Prova. Seja G um grupo finito e Ck , k = 1, . . . , K suas classes de conjugação. Sabemos que as funções
centrais são constantes nas classes de conjugação e, portanto, vale para toda função central f a seguinte
identidade
XK
f (g) = fk δCk (g),
k=1
Isso significa que o espaço vetorial C(G) das funções centrais de G tem uma base formada pelas funções
δCk , k = 1, . . . , K, e, portanto, tem dimensão K.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 16 937/1461
Por (16.16) as funções χα , α ∈ Λ, formam uma base ortogonal no espaço C(G). Portanto, o número
#Λ de representações irredutı́veis de G é menor ou igual à dimensão de C(G), que é K, como acabamos
de ver: #Λ ≤ K.
Por outro lado, (16.17) diz-nos que o espaço vetorial de todas as funções Λ → C, o qual tem dimensão
#Λ (por que?), possui um conjunto de K funções ortogonais, a saber, as funções hk (α) = χα (Ck ), α ∈ Λ.
Logo, K ≤ #Λ. Isso completa a prova que K = #Λ
j, k = 1, . . . , K.
Outra conseqüência de (16.18) é a seguinte. Tomando-se Cj = Ck = C1 , onde C1 é a classe de
conjugação da identidade, a qual só possui um elemento, concluı́mos que
K
X
d2a = #G, (16.19)
a=1
938
Capı́tulo 17
Espaços Métricos
Conteúdo
17.1 Métricas e Espaços Métricos . . . . . . . . . . . . . . . . . . . . . . . . . . . 941
17.2 Topologia de Espaços Métricos . . . . . . . . . . . . . . . . . . . . . . . . . 956
17.3 Pseudo-Métricas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 960
17.4 Espaços de Banach e de Hilbert . . . . . . . . . . . . . . . . . . . . . . . . . 962
17.4.1 Espaços de Seqüências . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 964
Apêndices . . . . . . . . . . . . . . . . . . . . 978
17.A Algumas Desigualdades Básicas . . . . . . . . . . . . . . . . . . . . . . . . . 978
17.B Números reais e p-ádicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 980
17.C Aproximações para π . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 987
T odos estamos familiarizados com a noção usual e intuitiva de distância entre pontos da reta
real R, do plano bidimensional R2 ou do espaço tridimensional R3 . O estudante há de
reconhecer que boa parte do material tratado em cursos de cálculo de funções de uma ou
várias variáveis, reais ou complexas, como as noções de derivação e integração, assenta-se
sobre noções como as de convergência e limite, as quais, por sua vez, assentam-se sobre a noção
intuitiva de distância entre pontos. Assim, por exemplo, dizemos que uma seqüência xn de pontos na
reta real converge a um ponto x se a distância |xn − x| entre xn e x torna-se menor e menor à medida
que n cresce. Mais adiante faremos essas idéias mais precisas e gerais.
Ao longo do seu desenvolvimento, especialmente após o século XIX, a Matemática reconheceu
a importância de abstrair e generalizar a noção intuitiva de distância de modo a aplicá-la a outros
tipos de conjuntos que não os familiares espaços de dimensão finita R, R2 ou R3 . Esse desenvolvimento
conduziu às noções de métrica, de espaços métricos e de espaços métricos completos, as quais definiremos
mais adiante, e permitiu aplicar muitas das noções geométricas e instrumentos analı́ticos, originalmente
desenvolvidos em espaços mais familiares, para conjuntos menos acessı́veis à intuição, como por exemplo
espaços vetoriais de dimensão infinita, tais como espaços de funções ou de seqüências. Uma importante
aplicação dessas idéias à teoria das equações diferenciais e integrais será vista no Capı́tulo 18, quando
trataremos do Teorema do Ponto Fixo de Banach.
Lembramos ao estudante que o estudo de espaços de dimensão infinita não é uma mera abstração
desprovida de uso ou interesse prático. Ao se decompor uma função f , contı́nua, diferenciável e
periódica de perı́odo 2π, em sua série de Fourier1 ,
∞
X eint
f (t) = an √
n=−∞
2π
1
Jean Baptiste Joseph Fourier (1768-1830).
939
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 17 940/1461
tal como ocorre, por exemplo, no problema da corda vibrante, o que estamos fazendo é precisamente
expressar uma tal função em termos de componentes em uma base de um espaço de dimensão infinita,
eint
no caso a base formada pelas infinitas funções √ 2π
com n ∈ Z.
Para o estudo de espaços de dimensão infinita, como o desse exemplo, seria muito importante
se pudéssemos reter algumas das noções geométricas familiares em espaços de dimensão finita. O
emprego de idéias geométricas análogas àquelas encontradas nos espaços R, R2 ou R3 é de grande
importância na tarefa de explorar espaços de dimensão infinita, como o espaço das funções contı́nuas
periódicas de perı́odo 2π, justamente por trazerem tais espaços para mais perto da nossa intuição.
Por razões evolutivas, o cérebro humano só é capaz de produzir e desenvolver imagens em uma, duas
ou três dimensões e, portanto, para o estudo de espaços com mais dimensões faz-se necessário dispor
de instrumentos abstratos que permitam desenvolver raciocı́nios o mais próximo possı́vel daqueles
empregados em espaços de dimensão 1, 2 ou 3.
Devido às bem-conhecidas “relações de ortogonalidade”
Z 2π
1
ei(n−m)t dt = δn, m
2π 0
sabemos que, as constantes an da decomposição de Fourier acima são dadas por
Z 2π −int
e
an = √ f (t) dt ,
0 2π
e podem ser interpretadas geometricamente como as projeções, ou componentes, da função f na
−int
“direção” das funções e√2π . (A noção de projeção, ou componente, de um vetor é familiar em R2
ou em R3 ). Como é bem sabido (para a teoria das séries de Fourier, vide [36]), vale também a relação,
conhecida como Identidade de Parseval2 ,
s v
Z 2π u ∞
uX
|f (t)| dt = t
2 |an |2 .
0 n=−∞
Sendo o lado direito a raiz quadrada da soma do quadrado das componentes ortogonais de f , podemos
interpretar o lado esquerdo como o “módulo” ou “comprimento” da função f (entendida como vetor no
espaço de dimensão infinita das funções periódicas de perı́odo 2π), tal como no Teorema de Pitágoras3
em R2 ou R3 .
Se levada adiante, essa analogia geométrica nos permite definir uma possı́vel noção de distância
entre duas funções contı́nuas periódicas f e g, que denotaremos por4 d2 (f, g), como o módulo (ou
“comprimento”) da diferença entre duas funções, tal como se faz em espaços de dimensão finita:
s
Z 2π
d2 (f, g) := |f (t) − g(t)|2 dt .
0
2
Marc-Antoine Parseval des Chênes (1755-1836).
3
Pitágoras de Samos (ci. 569 A.C. - ci. 475 A.C.).
4
A razão de empregarmos o sub-ı́ndice “2” na definição de d2 (f, g) será esclarecida mais adiante.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 17 941/1461
Com esse instrumento em mãos podemos agora empregar conceitos como o de convergência e limite de
seqüências no espaço de dimensão infinita das funções contı́nuas periódicas e, eventualmente, prosseguir
desenvolvendo em tais espaços outros ingredientes do Cálculo e da Análise.
Para implementar tais desenvolvimentos, vamos no presente capı́tulo introduzir algumas importan-
tes noções gerais, como as de métrica, de espaço métrico, de seqüências de Cauchy em espaços métricos,
de completamento de espaços métricos e de topologia de espaços métricos, noções essas que provaram
ser de grande importância na tarefa de levar os instrumentos familiares de abordagem matemática de
espaços de dimensão finita a espaços de dimensão infinita e outros.
• Métricas
Uma questão importante que se coloca é a de identificar quais propriedades básicas a noção intuitiva
de distância possui para permitir seu emprego em várias instâncias. O desenvolvimento da Matemática
conduziu a uma identificação desses ingredientes em um conjunto de quatro propriedades, as quais
resumem tudo o que é essencialmente necessário na demonstração de resultados nos quais a noção de
distância é empregada. Surgiu da identificação dessas propriedades a noção matemática de métrica, a
qual abstrai e generaliza a noção intuitiva de distância. Vamos a essa definição.
Seja X um conjunto (entendido doravante como não-vazio). Uma função d : X × X → R é dita
ser uma métrica em X se possuir as seguintes propriedades:
o que, em particular, garante que d(x, y) ≥ 0. Para provar isso, note-se que pela desigualdade triangular
d(x, z) ≤ d(x, y) + d(y, z). Logo,
d(x, y) ≥ d(x, z) − d(y, z) . (17.2)
Trocando-se x por y e usando-se a condição de simetria, obtemos também
d(x, y) = d(y, x) ≥ d(y, z) − d(x, z) . (17.3)
Ambas as relações (17.2) e (17.3) dizem que d(x, y) ≥ |d(x, z) − d(y, z)|, como querı́amos mostrar.
O exemplo mais básico de uma métrica é oferecido, no caso X = R, pela função d(x, y) = |y − x|,
x, y ∈ R. Outro exemplo essencialmente idêntico em X = C, é oferecido pela função d(z, w) = |z − w|,
z, w ∈ C. Essas são as chamadas métricas usuais em R e C, respectivamente. Deixamos ao leitor a
tarefa simples de verificar que essas funções satisfazem a definição de métrica.
Nota. A noção de Espaço Métrico foi introduzida por Fréchet5 em sua dissertação de 1906. A expressão
“espaço métrico”, no entanto, não foi sua invenção, tendo sido cunhada por Hausdorff6 em 1914.
Como mencionamos, as quatro propriedades requeridas na definição de métrica, acima, foram enun-
ciadas sob inspiração do exemplo familiar do próximo exercı́cio.
p
E. 17.1 Exercı́cio. Verifique que a função d2 (x, y) := (y1 − x1 )2 + · · · + (yn − xn )2 , onde x =
(x1 , . . . , xn ) e y = (y1 , . . . , yn ), é uma métrica em Rn (chamada de métrica Euclidiana). 6
É importante que o estudante familiarize-se desde cedo com o fato que um conjunto X pode ter
várias métricas. O exemplo anterior e os dois abaixo ilustram isso.
E. 17.2 Exercı́cio. Verifique que a função d∞ (x, y) := max{|y1 − x1 |, . . . , |yn − xn |}, onde x =
(x1 , . . . , xn ) e y = (y1 , . . . , yn ), é uma métrica em Rn . 6
E. 17.3 Exercı́cio. Verifique que a função d1 (x, y) := |y1 − x1 | + · · · + |yn − xn |, onde x = (x1 , . . . , xn )
e y = (y1 , . . . , yn ), é uma métrica em Rn . 6
E. 17.4 Exercı́cio. Seja X = C0 ([0, 1]) o conjunto de todas as funções reais contı́nuas definidas em
[0, 1]. Considere a seguinte função d∞ : X × X → R:
E. 17.5 Exercı́cio. Seja X = C0 ([0, 1]) o conjunto de todas as funções reais contı́nuas definidas em
[0, 1]. Considere a seguinte função d1 : X × X → R:
Z 1
d1 (f, g) = |f (x) − g(x)| dx .
0
E. 17.6 Exercı́cio. Seja X = C0 ([0, 1]) o conjunto de todas as funções reais contı́nuas definidas em
[0, 1]. Considere a seguinte função d2 : X × X → R:
s
Z 1
d2 (f, g) = |f (x) − g(x)|2 dx .
0
• Seqüências
uma seqüência a : N → X é freqüentemente denotada por {an }n∈N , por {an , n ∈ N}, ou ainda, com um
certo abuso de linguagem, simplesmente por an . Essa última notação é, talvez, a mais freqüente, mas
pode, em certas ocasiões, causar alguma confusão pois, como mencionamos, an designa, estritamente
falando, o valor de a em n, não a seqüência toda.
Vamos agora introduzir várias noções fundamentais, as quais provêm de definições bem conhecidas
no contexto da reta real.
• Sub-seqüências
Seja (X, d) um espaço métrico. Dizemos que uma seqüência a em X converge para um elemento
x ∈ X em relação à métrica d se para todo ǫ > 0 existir um número natural N(ǫ) (eventualmente
dependente de ǫ) tal que d(x, an ) < ǫ para todo n > N(ǫ).
A seguinte proposição é fundamental, pois nos diz que, em um espaço métrico, uma seqüência, se
for convergente, só pode convergir a um ponto:
Proposição 17.1 Seja (X, d) um espaço métrico e seja b uma seqüência em X. Suponha que b
converge a um elemento x ∈ X e a um elemento y ∈ X. Então x = y. 2
para qualquer n. Agora, como b converge a x sabemos que, para qualquer ǫ > 0 teremos d(x, bn ) < ǫ
para todo n grande o suficiente, ou seja, para todo n maior que um certo inteiro Nx (ǫ). Analogamente,
como bn converge a y sabemos que, para qualquer ǫ > 0 teremos d(y, bn ) < ǫ para todo n grande
o suficiente, ou seja, para todo n maior que um certo inteiro Ny (ǫ). Assim, para todo n maior que
max{Nx (ǫ), Ny (ǫ)} teremos d(x, y) < 2ǫ. Ora, como ǫ é um número positivo arbitrário, uma tal
desigualdade só pode ser válida se d(x, y) = 0. Como d é uma métrica, isso implica x = y.
O estudante pode constatar que a demonstração acima faz uso de todas as propriedades definidoras
da noção de métrica, o que ilustra a importância de noções abstratas como aquela.
Um pouco de notação. Se uma seqüência a em X converge a x ∈ X em relação à métrica d então x é
dito ser o d-limite de a, ou simplesmente o limite de a, se a métrica d estiver subentendida. Denotamos
esse fato escrevendo x = d−lim
n→∞
an , ou simplesmente x = lim an (se a métrica d estiver subentendida).
n→∞
d
Outra notação freqüentemente empregada para dizer que x é o d-limite de a é an −→ x.
• Seqüências de Cauchy
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 17 945/1461
Seja um espaço métrico X com uma métrica d. Uma seqüência a de elementos de X é dita ser
uma seqüência de Cauchy7 em relação à métrica d se para todo ǫ > 0 existir um número natural N(ǫ)
(eventualmente dependente de ǫ) tal que d(ai , aj ) < ǫ para todo i e j tais que i > N(ǫ) e j > N(ǫ).
A seguinte proposição é fundamental:
Proposição 17.2 Seja um espaço métrico X com uma métrica d e seja b uma seqüência convergente
em relação à métrica d a um elemento x ∈ X. Então b é uma seqüência de Cauchy em relação à
métrica d.
Agora, como b converge a x sabemos que para todo ǫ > 0 teremos d(bn , x) < ǫ/2 e d(bm , x) < ǫ/2
desde que ambos m e n sejam maiores que algum N(ǫ/2). Nesse caso, então, d(bn , bm ) ≤ ǫ/2 + ǫ/2 = ǫ.
Isso completa a prova.
Uma questão de fundamental importância que agora se coloca é a seguinte: será válida a recı́proca
da proposição acima, ou seja, será toda seqüência de Cauchy em um espaço métrico uma seqüência
convergente? A importância dessa questão é a seguinte. Dada uma seqüência concreta xn em um
espaço métrico X, não sabemos a priori se xn convergirá ou não a menos que encontremos um elemento
x em X com a propriedade desejada (para todo ǫ > 0, existe N(ǫ) tal que d(xn , x) < ǫ sempre que
n > N(ǫ)). Nem sempre pode ser fácil ou possı́vel encontrar explicitamente tal x, e gostarı́amos de
possuir um critério baseado apenas em propriedades verificáveis da seqüência xn que nos permita dizer
se ela converge ou não. A propriedade de uma seqüência ser de Cauchy é uma propriedade cuja validade
ou não depende apenas da seqüência e, portanto, em face à Proposição 17.2, é um ótimo candidato a
ser um tal critério de convergência.
Sucede, porém, que, em geral, a resposta à pergunta acima é negativa: existem espaços métricos nos
quais há seqüências de Cauchy que não convergem. Isso é ilustrado pelos seguintes exemplos. Considere-
se o conjunto X = Q dos números racionais e adotemos em Q a métrica usual: d(r, s) = |r − s|, com
r, s ∈ Q. Há, sabidamente, exemplos de seqüências de Q que são de Cauchy em relação à métrica d
que convergem em Q. Um exemplo é encontrado no exercı́cio seguinte.
E. 17.8 Exercı́cio. Seja r um número racional com r > 1. Prove que a seqüência de números racionais
Xn
1 r
sn = a
, n ∈ N, é uma seqüência de Cauchy e que a mesma converge ao número racional 6
a=0
r r−1
O ponto, porém, é que há também exemplos de seqüências de Q que são de Cauchy em relação à
métrica d mas que não convergem em Q. Um exemplo famoso, e que pode ser tratado com detalhe, é
o da seqüência
1 1 1
sn = 1 + + + · · · + ,
1! 2! n!
7
Augustin Louis Cauchy (1789-1857).
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 17 946/1461
que é uma seqüência de Cauchy de racionais, mas que não converge a um número racional8 . Tratamos
esse exemplo com detalhe no próximo tópico. A leitura do mesmo pode ser dispensada pelo estudante
já familiarizado com esses fatos, mas pode ser instrutiva para os demais. Por um teorema de Lambert9
(vide [58]), sabe-se que se r é um número racional não-nulo então er não é racional. Assim, as seqüências
2 n
de racionais sn = 1 + 1!r + r2! + · · ·+ rn! convergem a irracionais. Analogamente, esse teorema de Lambert
P (−1)n r n+1
implica que ln(r) não pode ser racional se r o for, Assim, para −1 < r < 1, a série ∞ n=0 n+1
converge ao irracional ln(1 + r).
P k
Outro exemplo é a seqüência pn = 4 nk=0 (−1) 2k+1
, que converge ao irracional π. Uma prova que π é
irracional pode ser encontrada em [138] ou em [58]. Vide página 43 para mais comentários. Para uma
breve discussão sobre aproximações para π recheada de digressões históricas, vide Seção 17.C, página
987.
Esses exemplos, que estão longe de ser únicos, ilustram um fato muito importante: existem espaços
métricos nos quais não vale a recı́proca da Proposição 17.2, ou seja, existem espaços métricos nos quais
seqüências de Cauchy não são necessariamente convergentes.
De grande importância são os espaços métricos onde vale a recı́proca da Proposição 17.2. Tais
espaços métricos são denominados completos e deles falaremos no pós-próximo tópico, à página 948.
X∞
1 1
<
(i + 1)! a=0 (i + 2)a
1 i+2 2
= < para i > 0 . (17.5)
(i + 1)! i + 1 (i + 1)!
8
O estudante bem sabe que essa seqüência converge no conjunto dos reais ao número e. Abaixo provaremos que esse
número não é racional.
9
Johann Heinrich Lambert (1728-1777).
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 17 947/1461
2
Como o número pode ser feito arbitrariamente pequeno tomando-se i grande, fica provado que
(i + 1)!
a seqüência sn é de Cauchy.
Vamos agora provar que essa seqüência não converge a um número racional. Para isso vamos supor
o contrário e constatar que isso leva a um absurdo. Vamos então supor que a seqüência converge a um
racional e. Como e é suposto ser racional, e seria da forma e = p/q onde p e q são números inteiros
primos entre si. Da desigualdade triangular segue que
2
d(e, si ) ≤ d(si , sj ) + d(e, sj ) < +ǫ,
(i + 1)!
para qualquer ǫ > 0, desde que j seja escolhido grande o suficiente (pois sj converge a e). Assim, como
a desigualdade vale para qualquer ǫ > 0, concluı́-se que
2
d(e, si ) ≤ .
(i + 1)!
p 2
0 < e − si = − si ≤
q (i + 1)!
e, portanto,
p 2
si < ≤ si + (17.6)
q (i + 1)!
para todo i ∈ N. Para i = 2 a relação (17.6) fica (verifique!)
5 p 17
< ≤ . (17.7)
2 q 6
Como 17/6 < 3, concluı́mos que 5/2 < p/q < 3. Esse fato mostra que p/q não é inteiro. Disso, segue
que q ≥ 2, fato que usaremos logo abaixo10 .
Como (17.6) vale para todo i, tomemos em particular i = q. A relação (17.6) diz, então, que
1 1 p 1 1 2
1+ +···+ < ≤ 1+ +···+ + .
1! q! q 1! q! (q + 1)!
onde
1 1 q! q! q!
A := q! 1 + + · · · + = q! + q! + + + · · · +
1! q! 2! 3! q!
é um número inteiro positivo, pois é, claramente, uma soma de inteiros positivos. Assim, o que provamos
é que A < p(q − 1)! < A + 1. Agora, como A é um inteiro, essas últimas desigualdades dizem que o
número inteiro p(q − 1)! está contido no intervalo aberto entre dois inteiros (A e A + 1) e, portanto,
não pode ser um é inteiro: uma contradição. Isso prova, então, que e não pode ser da forma p/q e,
portanto, não pode ser racional.
A constante γ surge em várias situações, por exemplo na definição das funções de Bessel de segundo tipo
(vide Seção 8.2.3, página 444) e em propriedades da função Gama de Euler (vide Seção 8.4, página 473).
A prova que o limite acima existe pode ser encontrada em qualquer bom livro de Cálculo, por exemplo em
[138]. Até hoje não é conhecido se γ é um número racional ou irracional. Resolva essa questão. 6
• Completeza
Dizemos que o espaço métrico X é completo em relação à métrica d se toda seqüência de Cauchy
em X convergir a um elemento de X.
Assim, em um espaço métrico completo, para garantirmos que uma seqüência converge basta veri-
ficarmos que a mesma é de Cauchy. Como comentamos à página 945, a propriedade de uma seqüência
ser de Cauchy pode ser verificada analisando apenas propriedades da mesma, daı́ sua vantagem. Dessa
forma, dada uma seqüência concreta {xn } em um espaço métrico completo X, para sabermos se {xn }
converge não é necessário adivinhar o elemento ao qual converge, mas bastar constatar a propriedade
de Cauchy, o que pode ser feito apenas estudando a distância entre elementos de {xn }.
Nota. O estudante mais adiantado deve ser advertido que a noção de completeza de um espaço métrico
não é uma noção topológica. Vide discussão à página 959.
Pelo que vimos nas últimas páginas, o espaço métrico formado pelos números racionais com a
métrica usual não é um espaço métrico completo. Vale, porém a seguinte afirmação:
Proposição 17.3 O conjunto dos números reais R é um espaço métrico completo em relação à métrica
usual: d(x, y) = |x − y|, x, y ∈ R. 2
A demonstração dessa proposição pode ser encontrada em todos os bons livros de Cálculo ou Análise
Real. Discutiremos com detalhe esse fato ao apresentarmos uma “construção” dos números reais, devida
11
Leonhard Euler (1707-1783).
12
Lorenzo Mascheroni (1750-1800).
13
Essa constante foi introduzida por Euler em 1735, o qual calculou seus 16 primeiros dı́gitos decimais. Em 1790,
Mascheroni calculou seus 32 primeiros dı́gitos decimais, dos quais apenas os primeiros 19 estavam corretos.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 17 949/1461
a Cantor14 (seguindo idéias de Weierstrass15 ), na Seção 17.B, da qual a proposição acima é um corolário
imediato.
O mesmo vale para o conjunto dos números complexos:
Proposição 17.4 O conjunto dos números complexos C é um espaço métrico completo em relação à
métrica d(z, w) = |z − w|, z, w ∈ C. 2
Vale também a seguinte afirmação, cuja demonstração será apresentada como caso particular de
uma outra afirmação mais geral na Seção 17.4.1:
Proposição 17.5 Para todo n ≥ 1, o conjunto Rn é um espaço métrico completo em relação às
métricas d∞ , d1 , d2 e dp com p ≥ 1, definidas à página 942. 2
E. 17.11 Exercı́cio. Vamos mostrar que C0 ([0, 1]), o conjunto das funções contı́nuas (reais ou comple-
xas) definidas no intervalo [a, b], não é completo em relação à métrica d1 :
Z 1
d1 (f, g) = |f (x) − g(x)| dx .
0
a) Convença-se essas funções são todas contı́nuas e, portanto, elementos de C0 ([0, 1]).
b) Calcule d1 (fn , fm ) e mostre que a seqüência fn é uma seqüência de Cauchy em relação à métrica d1 .
c) As funções fn valem 1 no intervalo [1/2, 1]. Fora isso, para cada x ∈ [0, 1/2) vale fn (x) = 0 para
todo n suficientemente
Z grande. Convença-se que esses fatos implicam que se existir uma função f tal
1
que lim |fn (x) − f (x)|dx = 0 então f deve ser da forma
n→∞ 0
0, se x ∈ 0, 1 ,
2
f (x) = (17.9)
1, se x ∈ 1
, 1 ,
2
14
Georg Ferdinand Ludwig Philipp Cantor (1845-1918).
15
Karl Theodor Wilhelm Weierstrass (1815-1897).
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 17 950/1461
(a menos, eventualmente, de conjuntos de medida nula, como o ponto x = 1/2, onde pode estar
Z 1 Z 1
indefinida) pois de outro modo ter-se-ia lim |fn (x) − f (x)|dx 6= 0. Calcule |fn (x) − f (x)| dx
n→∞ 0 0
e mostre explicitamente que o limite dessa integral é zero quando n → ∞. Como f não é contı́nua,
isso mostra que a seqüência de Cauchy {fn }n∈N não converge a uma função contı́nua e, portanto,
C0 ([0, 1]) não é um espaço métrico completo em relação à métrica d1 .
Prova. Seja fn uma seqüência de Cauchy em C0 ([a, b]). Então para todo ǫ > 0 existe um inteiro
positivo N(ǫ) tal que supx∈[a, b] |fn (x) − fm (x)| < ǫ, sempre que m e n sejam maiores que N(ǫ). Isso
significa que para cada x ∈ [a, b] tem-se |fn (x) − fm (x)| < ǫ sempre que m e n sejam maiores que N(ǫ).
Assim, para cada x ∈ [a, b] fixo, a seqüência numérica fn (x) é uma seqüência de Cauchy. Como R (ou
C, conforme o caso) é completo, segue que cada seqüência fn (x) é convergente. Vamos denominar por
f (x) seu limite.
Claramente [a, b] ∋ x 7→ f (x) é uma função (certo?). Essa função f é um forte candidato a ser
o limite da seqüência {fn }n∈N na métrica d∞ . Colocamo-nos, então, as seguintes questões: 1. Será a
função f também um elemento de C0 ([a, b]), ou seja, contı́nua? 2. Se a resposta à pergunta anterior for
positiva, será que a seqüência fm converge à função f na métrica d∞ ? Se a resposta a essas perguntas
for positiva, estará provado que C0 ([a, b]) é completo na métrica d∞ .
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 17 951/1461
Precisamos agora mostrar que a seqüência {fm }m∈N aproxima essa função f na métrica d∞ .
Seja ǫ > 0 arbitrário. Vamos definir uma seqüência crescente de números inteiros e positivos Nk (ǫ),
k = 1, 2, 3, . . . com Nk+1 (ǫ) > Nk (ǫ), da seguinte forma: Nk (ǫ) é tal que d∞ (fm , fn ) < ǫ/2k para
todos m, n > Nk (ǫ). Note que uma tal seqüência Nk (ǫ) sempre pode ser encontrada pois, por hipótese,
fm é uma seqüência de Cauchy em d∞ . Vamos agora escolher uma seqüência crescente de ı́ndices
n1 < n2 < · · · < nk−1 < nk < · · · tais que nk > Nk (ǫ). A essa seqüência está associada a sub-seqüência
{fnk }k∈N . Note que, pela definição, tem-se
ǫ
d∞ (fnl+1 , fnl ) < ,
2l
pois nl e nl+1 são maiores que Nl (ǫ).
Com essas definições, teremos que, para todo k > 1,
k−1
X
fnk (x) − fn1 (x) = fnl+1 (x) − fnl (x) .
l=1
(Justifique!). Logo,
k−1
X
|fnk (x) − fn1 (x)| ≤ |fnl+1 (x) − fnl (x)|
l=1
k−1
X k−1
X
≤ sup |fnl+1 (x) − fnl (x)| = d∞ (fnl+1 , fnl )
l=1 x∈[a, b] l=1
k−1
X
1 1
< ǫ l
= ǫ 1 − k−1 .
l=1
2 2
|f (x) − fn1 (x)| = |f (x) − fnk (x) + fnk (x) − fn1 (x)|
ou seja,
1
|f (x) − fn1 (x)| < |f (x) − fnk (x)| + ǫ 1 − k−1 .
2
O lado esquerdo desta expressão independe de k. Tomando-se o limite k → ∞ e lembrando que a
seqüência numérica fnk (x) converge a f (x), concluı́mos que
≤ |f (x) − fn1 (x)| + |fn1 (x) − fn1 (y)| + |fn1 (y) − f (y)|
≤ sup |f (x) − fn1 (x)| + |fn1 (x) − fn1 (y)| + sup |fn1 (y) − f (y)|
x∈[a, b] y∈[a, b]
E. 17.12 Exercı́cio. Mostre que a seqüência de funções fn definida em (17.8) não é uma seqüência de
Cauchy em relação à métrica d∞ . Observe que isso é coerente com a Proposição 17.6, pois a função f dada
em (17.9), obtida pelo limite pontual f (x) = limn→∞ fn (x) para cada x ∈ [a, b], não é contı́nua. 6
Dado um conjunto X dotado de uma métrica d e que não seja completo em relação a esta métrica,
é muito importante, por vezes, identificar um conjunto X ′ , dotado de uma métrica d′ que possua as
seguintes propriedades:
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 17 953/1461
d. X ′ é completo em relação a d′ .
Em um tal caso, dizemos que o espaço métrico (X ′ , d′ ) é um completamento do espaço métrico (X, d).
Como exemplo, mencionamos que o conjunto dos números reais R é um completamento do conjunto
dos números racionais, caso adotemos neste a métrica d(r, s) = |r − s|, r, s ∈ Q. A métrica d′ em R
seria também d′ (x, y) = |x − y|, x, y ∈ R.
Dado um espaço métrico (X, d), que eventualmente não é completo em relação a uma métrica
d dada, podemos completá-lo usando um procedimento padrão devido a Cantor16 , conhecido como
completamento canônico de espaços métricos. Isso é o conteúdo do seguinte teorema:
Teorema 17.1 (Completamento canônico) Dado um conjunto X, dotado de uma métrica d, existe
um outro conjunto X, e e uma aplicação injetora E : X → X
e dotado de uma métrica d, e tais que:
e
1. d(E(x), E(y)) = d(x, y) para todo x, y ∈ X.
e
2. O conjunto E(X), a imagem de X por E, é um conjunto d-denso e
em X.
3. X e
e é completo em relação à métrica d. 2
Nota. Comentemos que E é uma bijeção entre X e E(X) (por ser injetora). Nesse sentido, podemos
e é um completamento de X.
também, com um pequeno abuso de linguagem, dizer que X
Na Seção 17.B ilustramos uma aplicação importante do Teorema 17.1 (mais precisamente, da de-
monstração do Teorema 17.1) ao delinearmos como podemos “construir” os números reais a partir dos
racionais. Em seguida, adotando métricas especiais no conjunto Q, mostraremos como construir um
conjunto especial de números, os chamados números p-ádicos.
Prova do Teorema 17.1. Consideremos o conjunto Cd (X) formado por todas as seqüências em X que
sejam de Cauchy em relação à métrica d. Vamos introduzir em Cd (X) a seguinte relação de equivalência:
para duas seqüências de Cauchy a = {an }n∈N e b = {bn }n∈N dizemos que a é equivalente a b, a ∼ b, se
e somente se lim d(an , bn ) = 0.
n→∞
E. 17.13 Exercı́cio. Prove que esta é, de fato, uma relação de equivalência. Sugestão: use a desigualdade
triangular. 6
A conjunto Cd (X) é, então, a união disjunta de suas classes de equivalência pela relação acima17 .
e o conjunto de todas essas classes de equivalência. Como usualmente se faz,
Vamos denotar por X
16
Georg Ferdinand Ludwig Philipp Cantor (1845-1918).
17
Para as noções de relação de equivalência e classes de equivalência, vide página 30.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 17 954/1461
denotaremos por [x] a classe de equivalência de um elemento x ∈ Cd (X), ou seja, [x] é o conjunto de
todas as seqüências de Cauchy em X que são equivalentes à seqüência de Cauchy x.
Podemos fazer de X e um espaço métrico definindo uma métrica de : X
e ×Xe → R da seguinte forma:
e
d([x], [y]) = lim d(xn , yn ) , (17.11)
n→∞
e
para duas seqüências de Cauchy x = {xi }i∈N e y = {yi }i∈N ∈ X.
A respeito da definição (17.11) há alguns pontos a comentar, o que faremos com os três exercı́cios
que seguem. O primeiro exercı́cio mostra que o limite no lado direito de (17.11) de fato existe e esclarece
por que é importante o uso de seqüências de Cauchy na construção, e não seqüências quaisquer. O
segundo exercı́cio esclarece que de é de fato uma função de classes de equivalência (independente dos
representantes x e y tomados em [x] e [y], respectivamente). O terceiro exercı́cio estabelece que de é, de
fato, uma métrica.
E. 17.14 Exercı́cio. Mostre que o limite em (17.11) existe. Para tal, note que, pela desigualdade
triangular,
d(xi , yi ) ≤ d(xi , xj ) + d(xj , yj ) + d(yj , yi)
e, portanto,
|d(xi , yi) − d(xj , yj )| ≤ d(xi , xj ) + d(yj , yi) .
Como x e y são seqüências de Cauchy o lado direito pode ser feito ≤ ǫ para qualquer ǫ > 0, desde que i e
j sejam feitos grandes o suficiente. Complete os detalhes faltantes. 6
E. 17.15 Exercı́cio. Mostre que se x′ ∈ Cd (X) e x′ ∈ [x] (ou seja x′ é uma seqüência de Cauchy
equivalente a x ∈ Cd (X)) então
lim d(x′n , yn ) = lim d(xn , yn ) (17.12)
n→∞ n→∞
Esse exercı́cio estabelece que a definição (17.11) independe do particular elemento x de [x] adotado.
Analogamente, (17.11) independe do particular elemento y de [y] adotado e, portanto, de é legitimamente
uma função de classes de equivalência.
E. 17.16 Exercı́cio. Mostre que de é uma métrica em X. e Sugestão: positividade e simetria são evidentes.
e
É também fácil ver que d([x], [y]) = 0 se e somente se x ∼ y, o que implica [x] = [y]. Por fim, a desigualdade
triangular para de segue facilmente da desigualdade triangular para d. Complete os detalhes faltantes. 6
Como [xa ], a ∈ N, é uma seqüência de Cauchy em X e vale que, para todo ǫ > 0, existe A(ǫ) ∈ N
e a ], [xb ]) < ǫ desde que a e b ≥ A(ǫ). Daı́ segue que, pela definição
suficientemente grande tal que d([x
de limite, existe I(ǫ) ∈ N tal que
d(xai , xbi ) < ǫ ,
desde que a e b ≥ A(ǫ) e que i ≥ I(ǫ). Fora isso, como {xai }i∈N é uma seqüência de Cauchy para cada
a, existe para todo ǫ > 0 um Ja (ǫ) tal que
α(n)
Defina-se também a seqüência x em X dada por xn = xβ(n) , n ∈ N. Como
α(n) α(m) α(n) α(m) α(m) α(m)
d(xn , xm ) = d xβ(n) , xβ(m) ≤ d xβ(n) , xβ(n) + d xβ(n) , xβ(m) < 2/n < 2ǫ′ ,
desde que m > n > 1/ǫ′ , segue que x é uma seqüência de Cauchy.
A classe de equivalência [x] é um candidato a ser o limite em X e da seqüência [xa ].
e (na métrica d)
Provemos que isso é de fato verdade. Temos que
e a a α(n)
d([x ], [x]) = lim d xn , xβ(n) .
n→∞
Porém,
a α(n) a a
a α(n)
d xn , xβ(n) ≤ d xn , xβ(n) + d xβ(n) , xβ(n) .
α(n)
Para ǫ > 0, escolhendo a ≥ A(ǫ) e n > 1/ǫ, tem-se que d xβ(n) , xβ(n) < ǫ. Assim, como lim d xan , xaβ(n) =
a
n→∞
0 (pois xa é uma seqüência de Cauchy), segue que
e a ], [x]) < ǫ ,
d([x
e na métrica de e,
válido, como dissemos, tomando a ≥ A(ǫ). Isso diz-nos que [xa ] converge a [x] ∈ X
portanto, Xe é completo.
Para cada x ∈ X, podemos associar uma seqüência de Cauchy constante x
ei = x, ∀i ∈ N. Seja
e
E : X → X definida por
X ∋ x 7→ E(x) := [e e.
x] ∈ X
É fácil provar que E é injetora. De fato, se x, y ∈ X são tais que E(x) = E(y), então [e x] = [e
y] e
isso implica x e ∼ ye. Isso, por sua vez, significa que d(e
xi , yei ) = 0, Porém, x
ei = x e yei = y e, portanto,
provou-se que d(x, y) = 0, o que implica x = y, como querı́amos.
Há então uma bijeção E de X sobre o subconjunto E(X) := {E(x) ∈ X, e x ∈ X} ⊂ X. e Temos
também que
e
d(E(x), e x], [e
E(y)) = d([e y ]) = lim d(e
xn , yen ) = lim d(x, y) = d(x, y) .
n→∞ n→∞
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 17 956/1461
Assim, aprendemos que a bijeção E preserva distâncias (é, portanto, o que se chama de uma isometria
entre X e E(X)).
Resta-nos mostrar que o conjunto E(X) é denso em X, e ou seja, qualquer elemento de Xe pode ser
e por elementos de E(X). Seja então [x] um elemento de X.
aproximado (no sentido da distância d) e
Como x é uma seqüência de Cauchy, vale que para cada ǫ > 0 tem-se
desde que i e j sejam maiores que um certo N(ǫ). Seja a seqüência de Cauchy constante igual ao
elemento xN (ǫ)+1 , ou seja, x^
N (ǫ)+1 . Teremos
e
d([x], x^ e
N (ǫ)+1 ) = d([x], E(xN (ǫ)+1 )) = lim d(xn , x^
N (ǫ)+1 n ) = lim d(xn , xN (ǫ)+1 )
n→∞ n→∞
e
Logo, d([x], e pode
E(xN (ǫ)+1 )) < ǫ para todo ǫ > 0, o que precisamente afirma que qualquer [x] ∈ X
ser arbitrariamente aproximado no sentido da métrica de por elementos de E(X). Isso completa a
demonstração do Teorema 17.1.
Um espaço métrico possui, naturalmente, muitos subconjuntos. Há, porém, uma classe de subcon-
juntos que tem uma importância destacada, os chamados conjuntos abertos.
Seja X um espaço métrico com uma métrica d. Um subconjunto A de X é dito ser aberto (em
relação à métrica d) se tiver a seguinte propriedade: Para todo x ∈ A podemos achar um número
real δ(x) > 0 (eventualmente dependente de x) tal que para todo x′ ∈ X com a propriedade que
d(x, x′ ) < δ(x) (ou seja, que dista de x menos que δ(x)) vale que x′ também é um elemento de A.
Por essa definição o conjunto X é, ele mesmo, um conjunto aberto em relação à métrica d. O
conjunto vazio ∅ é honorificamente declarado um conjunto aberto em relação à métrica d.
A coleção de todos os conjuntos abertos em X em relação à métrica d é dito ser uma topologia
métrica em X, ou simplesmente uma topologia em X.
E. 17.17 Exercı́cio. Mostre explicitamente que, para a, b ∈ R com a < b, o conjunto (a, b) = {x ∈
R| a < x < b} é um conjunto aberto em relação à métrica d(x, y) = |x − y|. 6
E. 17.18 Exercı́cio. Mostre explicitamente que, para a, b ∈ R com a < b, o conjunto [a, b) = {x ∈
R| a ≤ x < b} não é um conjunto aberto em relação à métrica d(x, y) = |x − y|. 6
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 17 957/1461
E. 17.19 Exercı́cio. Mostre explicitamente que, para r > 0 a bola de raio r em R3 centrada na origem
em relação à métrica Euclidiana, Br = {x ∈ R3 | dE (x, 0) < r}, é um conjunto aberto na topologia definida
por essa métrica. 6
As afirmativas contidas nesses dois últimos exercı́cios são importantes pois inspiram a definição de
um outro conceito muito importante: o de espaço topológico. Espaços topológicos serão estudados com
mais detalhe e generalidade no Capı́tulo 19, página 1031.
E. 17.22 Exercı́cio. Seja X é um conjunto não-vazio. Mostre que todo subconjunto não-vazio de X é
aberto em relação à métrica trivial, definida em (17.4), página 943. 6
Seja X um espaço métrico com uma métrica d e seja x ∈ X. Define-se a bola aberta de raio r > 0
centrada em x como sendo o conjunto
E. 17.23 Exercı́cio. Prove que toda bola aberta em um espaço métrico é um conjunto aberto na
topologia métrica desse espaço. 6
Ao contrário do que o nome sugere, bolas abertas em espaços métricos não têm necessariamente
um formato “redondo”. Para ver isso, faça os exercı́cios abaixo.
onde x = (x1 , x2 ) e y = (y1 , y2 ). Desenhe a bola de raio 1 centrada em torno do ponto (0, 0). 6
onde x = (x1 , x2 ) e y = (y1 , y2 ). Desenhe a bola de raio 1 centrada em torno do ponto (0, 0). 6
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 17 958/1461
E. 17.26 Exercı́cio. Seja o conjunto R2 com a métrica dp definida acima com p > 1:
E. 17.27 Exercı́cio. Mostre que a relação d1 ∼ d2 define uma relação de equivalência no conjunto de
todas as métricas em M. 6
E. 17.28 Exercı́cio. Sejam d1 e d2 duas métricas equivalentes em M. Mostre, que todo conjunto
d1 -aberto de M é d2 -aberto e vice-versa. Isso significa que se d1 e d2 são equivalentes, ambas geram a
mesma topologia. 6
Os exercı́cios que seguem mostram que a recı́proca não é geralmente verdadeira: métricas que geram
a mesma topologia não são necessariamente equivalentes (no sentido da definição acima).
E. 17.29 Exercı́cio. Seja M um espaço métrico com uma métrica d(x, y), x, y ∈ M. Prove que
d(x, y)
d0 (x, y) :=
1 + d(x, y)
também define uma métrica em M. Sugestão: para demonstrar a desigualdade triangular será útil provar
antes que a função
x
l(x) =
1+x
é crescente na região x ≥ 0. Outra sugestão: dê uma olhada na página 960. 6
E. 17.30 Exercı́cio. Mostre que as métricas d e d0 do exercı́cio E. 17.29 só são equivalentes (no sentido
da definição acima) se d for limitada, ou seja, se existir D > 0 tal que d(x, y) ≤ D para todos x, y ∈ M.
Sugestão: tem-se que l(x) ≤ x para todo x ≥ 0, mas mostre que não existe nenhuma constante c > 0 tal
que cx ≤ l(x) para todo x ≥ 0. Todavia, uma tal constante pode ser achada se nos limitarmos a x ∈ [0, D].
6
E. 17.31 Exercı́cio. Mostre que, mesmo não sendo equivalentes, as métricas d e d0 do exercı́cio E.
17.29 definem a mesma topologia, ou seja, que todo conjunto d-aberto de M é d0 -aberto e vice-versa. 6
• Conjuntos fechados
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 17 959/1461
Paralelamente à noção de conjunto aberto em um espaço métrico existe a noção de conjunto fechado
em um espaço métrico: se M é dotado de uma métrica d, um conjunto F ⊂ M é dito ser fechado em
relação à métrica d se seu conjunto complementar F c = X \ F for aberto em relação à métrica d.
A noção de conjunto fechado é tão relevante quanto a de conjunto aberto e muitas propriedades de
espaços métricos podem ser expressas em termos de propriedades de conjuntos fechados. A seguinte
proposição, que será demonstrada à página 1054, será usada na discussão do Capı́tulo 18, página 994.
Proposição 17.7 Se X é um espaço métrico completo em relação a uma métrica d, então F ⊂ X é
fechado na topologia induzida por essa métrica se e somente se F for igualmente completo em relação
à métrica d. 2
Topologias, e não apenas topologias relacionadas a espaços métricos, serão estudadas com mais
profundidade no Capı́tulo 19, página 1031.
Vamos neste ponto retornar à nossa discussão sobre a topologia de espaços métricos e discutir sua
relação com a noção de completeza. A verdade é que os dois conceitos não são totalmente relacionados.
O fato de um espaço métrico ser completo não é diretamente relacionado à topologia adotada mas sim
à métrica usada. Em outras palavras, completeza não é uma propriedade topológica!
Para ver isso trataremos de exibir um exemplo de um espaço M dotado de duas métricas que
geram as mesmas topologias, sendo M completo em relação à primeira métrica mas não em relação à
segunda métrica. No exemplo19 em questão
M = {x ∈ R, x ≥ 1}. Em M adotaremos duas métricas:
1 1
d1 (x, y) = |y − x| e d2 (x, y) = − .
y x
E. 17.32 Exercı́cio. Mostre que d2 é de fato uma métrica em M. 6
O fato é que d1 e d2 geram a mesma topologia em M. Para ver isso notemos que d2 (x, y) =
d1 (x, y)/(xy) ≤ d1 (x, y) e, portanto, para todo x ∈ M e todo r > 0 vale Bd1 (x, r) ⊂ Bd2 (x, r). Se A
é aberto em τd2 (a topologia associada à métrica d2 ), então para todo x ∈ A há uma bola Bd2 (x, r(x, A))
inteiramente contida em A e, pelo que acabamos de ver, há também uma bola Bd1 (x, r(x, A)) inteira-
mente contida em A. Daqui se conclui que todo aberto de τd2 é também aberto de τd1 . Logo τd2 ⊂ τd1 .
Igualmente é claro que para todo y da bola aberta Bd1 (x, r) de τd1 podemos achar um r ′ suficiente-
mente pequeno tal que Bd2 (y, r ′ ) ⊂ Bd1 (x, r) (como?). Como as bolas abertas Bd1 geram τd1 isso
implica τd1 ⊂ τd2 , provando a igualdade das duas topologias.
O fato que queremos ressaltar é que M é completo em relação a d1 mas não em relação a d2 . Que M
é completo em relação a d1 pode ser provado diretamente ou pelo seguinte argumento topológico: M é
completo em relação a d1 pois M é um subconjunto fechado de R na topologia usual τR , induzida por
d1 (vide Proposição 17.7, página 959, e a discussão à página 1054, em particular a Proposição 19.9).
Para ver que M não é completo em relação a d2 observe que a seqüência an = n, n ∈ N, é de Cauchy
em relação a d2 mas não há nenhum elemento em M ao qual ela converge. Assim, M é completo em
relação a d1 mas não em relação a d2 , embora ambas as métricas gerem a mesma topologia.
19
Extraı́do de [22].
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 17 960/1461
As considerações acima dizem-nos que completeza não é uma noção de natureza topológica.
Nota. Não se pode argumentar, como fizemos com a métrica d1 , que M é completo em d2 por ser
um subconjunto fechado de R na topologia induzida em R por d2 , pois tal topologia não existe! d2 é
uma métrica em M, mas não em R, ao contrário do que ocorre com d1 . Poder-se-ia, então, argumentar
que d2 é uma métrica em X = (0, ∞) (de fato é, verifique!) e que M é um subconjunto fechado de
X = (0, ∞) nessa topologia (de fato é, verifique!). Sucede, porém, que X = (0, ∞) não é completo
em relação a d2 , pelo mesmo exemplo de acima, e isso viola uma das condições da Proposição 17.7 da
página 959 (ou equivalentemente, da Proposição 19.9, página 1054).
17.3 Pseudo-Métricas
Seja M um conjunto não-vazio. Uma função d : M × M → R que satisfaz
Assim, como pela desigualdade triangular para d vale que d(a, b) ≤ d(a, c) + d(c, b), teremos
d(a, b)
f (a, b) =
1 + d(a, b)
d(a, c) + d(c, b)
≤
1 + d(a, c) + d(c, b)
d(a, c) d(c, b)
= +
1 + d(a, c) + d(c, b) 1 + d(a, c) + d(c, b)
d(a, c) d(c, b)
≤ +
1 + d(a, c) 1 + d(c, b)
• Famı́lias de Pseudo-Métricas
Em muitas situações são definidas em um conjunto M não uma mas toda uma famı́lia de pseudo-
métricas: D = {dα , α ∈ Λ}, Λ sendo um conjunto arbitrário não-vazio de ı́ndices, onde todas as dα
são pseudo-métricas.
Diz-se que uma famı́lia de pseudo-métricas: D = {dα , α ∈ Λ} separa pontos se para quaisquer dois
pontos distintos x, y ∈ M existir um α0 ∈ Λ tal que dα0 (x, y) 6= 0.
Tem-se a seguinte proposição, que mostra que a toda famı́lia contável de pseudo-métricas que separa
pontos vem naturalmente associada uma métrica:
Proposição 17.8 Seja M um conjunto e seja D = {dn , n ∈ N} uma famı́lia contável de pseudo-
métricas em M que separa pontos. Então D : M × M → R definida por
X∞
1 dn (x, y)
D(x, y) =
n=1
2n 1 + dn (x, y)
é uma métrica em M. 2
Prova. Em primeiro lugar notemos que a soma infinita do lado direito é bem definida pois
dn (x, y)
0 ≤ ≤ 1
1 + dn (x, y)
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 17 962/1461
e o fator 2−n garante a convergência. Que D é uma pseudo-métrica é evidente pelo fato que cada termo
dn (x, y)/(1 + dn (x, y)) o é, como vimos acima. Resta mostrar que D(x, y) = 0 implica x = y. Como
a soma contém apenas termos positivos, D(x, y) = 0 só é possı́vel se dn (x, y) = 0 para todo n ∈ N.
Como D separa pontos, se tivéssemos x 6= y haveria pelo menos um m para o qual dm (x, y) 6= 0. Como
tal não é o caso, tem-se forçosamente x = y.
• Espaços de Banach
Se E é um espaço vetorial dotado de uma norma k · kE, podemos definir uma métrica em E através
da seguinte expressão: para u, v ∈ E,
dE(u, v) = ku − vkE .
E. 17.34 Exercı́cio. Prove que essa expressão de fato satisfaz as propriedades definidoras de métrica.
Sugestão: para demonstrar a desigualdade triangular, use a propriedade de norma ka + bk ≤ kak + kbk para
provar que ku − vkE = ku − w + w − vkE ≤ ku − wkE + kw − vkE para todos u, v, w ∈ E. 6
Como vimos, se E é um espaço vetorial normado, então é também um espaço métrico com a métrica
induzida pela norma, definida acima. Com isso em mente, introduzimos então a seguinte importante
definição:
Definição. Espaços de Banach. Um espaço vetorial B é dito ser um espaço de Banach20 em relação
a uma norma nele definida se for um espaço métrico completo em relação à métrica induzida por essa
norma.
• Espaços de Hilbert
Seja E é um espaço vetorial dotado de um produto escalar h·, ·iE. Como discutimos à página
p 131 e
seguintes, podemos com o uso desse produto escalar definir uma norma em E por kukE := hu, uiE.
Essa norma é dita ser a norma induzida pelo produto escalar h·, ·iE. Caı́mos, assim, no caso de acima,
pois, sendo E um espaço vetorial normado, podemos definir uma métrica em E através da seguinte
expressão: para u, v ∈ E,
q
dE(u, v) = ku − vkE = h(u − v), (u − v)iE .
20
Stefan Banach (1892-1945).
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 17 963/1461
Essa métrica é dita ser a métrica induzida pelo produto escalar h·, ·iE.
Assim, se E é um espaço vetorial dotado de um produto escalar, então é também um espaço métrico
com a métrica induzida pelo produto escalar definida acima. Com isso em mente, introduzimos então
a seguinte importante definição:
Definição. Espaços de Hilbert. Um espaço vetorial H é dito ser um espaço de Hilbert21 em relação
a um produto escalar nele definido se for um espaço métrico completo em relação à métrica induzida
por esse produto escalar.
Nota histórica. A noção abstrata de Espaço de Hilbert foi introduzida por Schmidt22 , por volta
de 1905, inspirado em idéias de Hilbert sobre equações integrais, notadamente sobre a equação de
Fredholm23 , discutida no Capı́tulo 12. A noção abstrata de Espaço de Banach é posterior, tendo sido
introduzida por Banach em 1920. O termo “espaço de Banach” foi cunhado por Fréchet24 .
O estudante deve notar que todo espaço de Hilbert é naturalmente um espaço de Banach. A
recı́proca não é necessariamente verdadeira, pois um espaço de Banach não é necessariamente dotado
de um produto escalar. Para tal é necessário (e suficiente) que a norma satisfaça a identidade do
paralelogramo. Vide página 132 e seguintes.
Também ressaltamos ao estudante que não apenas a existência de um produto escalar é importante
na definição de um espaço de Hilbert, mas também a propriedade de completeza, a qual é fundamental
para a demonstração de várias propriedades importantes dos espaços de Hilbert.
Exemplos 17.17.1 Os espaços vetoriais de dimensão finita Cn são espaços de Banach em relação
à norma kxkp := [|x1 |p + · · · + |xn |p ]1/p para todo p ≥ 1. O caso p = 2 é importante. Cn é um
espaço de Hilbert em relação ao produto escalar hx, yiC := x1 y1 + · · · xn yn O mesmo vale para os
espaços vetoriais reais Rn . Esses fatos serão provados logo adiante quando considerarmos os espaços
de seqüências tipo ℓp , p ≥ 1, os quais, como veremos, são exemplos de espaços de Banach (de dimensão
infinita). O espaço ℓ2 é um espaço de Hilbert. Outro exemplo importante de espaço de Banach é o
espaço vetorial C0 ([0, 1]). Provamos na Proposição 17.6, página 950, que C0 ([0, 1]) é completo na
norma kf k∞ := supx∈[0, 1] |f (x)|. Portanto, C0 ([0, 1]) é um espaço de Banach em relação a essa norma.
Espaços de Hilbert têm uma importância fundamental na Mecânica Quântica e na Teoria Quântica
de Campos. Na Matemática, espaços de Banach e de Hilbert são também fundamentais em áreas como
a teorias das equações diferenciais parciais (e outras). O estudo de espaços de Hilbert e de Banach, e
de operadores lineares agindo nos mesmos, é uma área da Matemática denominada Análise Funcional.
Nestas Notas, estudaremos com mais detalhe as propriedades gerais de espaços de Hilbert no
Capı́tulo 25. No restante desta seção apresentaremos exemplos de espaços de Hilbert e de Banach
estudando espaços de seqüências.
21
David Hilbert (1862-1943).
22
Erhard Schmidt (1876-1959). Schmidt é conhecido por várias contribuições, como o Teorema de Hilbert-Schmidt
sobre operadores compactos e, mais popularmente, pelo método de ortogonalização de Gram-Schmidt (Jørgen Pedersen
Gram (1850-1916)).
23
Erik Ivar Fredholm (1866-1927).
24
Maurice Renés Fréchet (1878-1973).
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 17 964/1461
( )
c := {an }n∈N ∈ S(C) lim an existe na métrica usual . (17.16)
n→∞
( )
c0 := {an }n∈N ∈ S(C) lim an = 0 . (17.17)
n→∞
( )
∞
X
ℓp := {an }n∈N ∈ S(C) |an |p < ∞ . (17.18)
n=1
( )
s := {an }n∈N ∈ S(C) lim nk |an | = 0 para todo k > 0 . (17.19)
n→∞
( )
j := {an }n∈N ∈ S(C) lim exp(rn)|an | = 0 para todo r > 0 . (17.20)
n→∞
( )
d := {an }n∈N ∈ S(C) an = 0, exceto para um conjunto finito de n’s . (17.21)
25
A ordenação dessa lista de exemplos é inspirada em [116].
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 17 965/1461
Acima, c coincide com a coleção de todas as seqüências de Cauchy de complexos com relação à métrica
usual d(z, w) = |w − z|, ∀z, w ∈ C pois C é completo nessa métrica. Note que c0 ⊂ c. (Por quê?).
Em um exercı́cio à página 966, discutiremos as relações de pertinência entre os conjuntos de seqüências
acima e provaremos que d ⊂ j ⊂ s ⊂ ℓp ⊂ c0 ⊂ c ⊂ ℓ∞ .
Mais adiante (Proposição 17.9, página 966) provaremos que os conjuntos ℓp com p > 0 também são
espaços vetoriais. As provas para 0 < p < 1 e p ≥ 1 são diferentes.
• Seqüências ℓ∞ e ℓp
Na expressão (17.15) definimos o conjunto ℓ∞ , subconjunto de S(C), formado por todas as seqüências
limitadas, ou seja, uma seqüência {an }n∈N é do tipo ℓ∞ se existir algum M ≥ 0 tal que, para todo
n, tem-se |an | < M. Note que as seqüências limitadas não são de Cauchy, mas toda a seqüência de
Cauchy é limitada (por que?). Assim, c(C) ⊂ ℓ∞ .
Exemplo 17.2 As seqüências an = α, an = α/n2 , an = β + α/n an = β + αe−n , an = α(−1)n ,
an = α sen(nβ), ∀n ∈ N, n ≥ 1 são, para todo α, β ∈ C, elementos de ℓ∞ . As seqüências an = α(−1)n
e an = α sen(nβ) não são de Cauchy. ◊
E. 17.38 Exercı́cio importante. Mostre que se {an }n∈N e {bn }n∈N são duas seqüências do tipo ℓ∞
então, para quaisquer α, β ∈ C a seqüência {αan + βbn }n∈N é também do tipo ℓ∞ . 6
Esse exercı́cio diz-nos que ℓ∞ não é apenas um subconjunto, mas também um sub-espaço vetorial de
S(C). Mais adiante, mostraremos que ℓ∞ é um espaço de Banach em relação a uma norma conveniente,
a saber, a norma definida no próximo exercı́cio.
Outra famı́lia importante de sub-conjuntos de S(C) é formada pelas chamadas seqüências ℓp , com
p ∈ R, p > 0: ( )
X ∞
ℓp := {an }n∈N ∈ S(C) |an |p < ∞ .
n=1
1
E. 17.40 Exercı́cio. Seja p > 0. Mostre que para δ > 0 a seqüência an = , n = 1, 2, 3, . . ., é do
1
+δ
n p
1
tipo ℓp . O que acontece se δ = 0? Mostre que an = , n = 1, 2, 3, . . ., é do tipo ℓp para todo p > 1 mas
n
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 17 966/1461
ℓp ⊂ ℓp ′
d ⊂ j ⊂ s ⊂ ℓ p ⊂ ℓp ′ ⊂ c 0 ⊂ c ⊂ ℓ∞ ,
E. 17.43 Exercı́cio. Dê exemplos de elementos de ℓ∞ que não pertencem a nenhum dos demais conjuntos
acima. 6
E. 17.44 Exercı́cio. Dê exemplos de elementos de c0 que não pertencem a nenhum ℓp com p > 0.
X∞
1 1
Sugestão: considere a seqüência an = com n = 2, 3, 4, . . .. Mostre que p
= ∞ para
ln(n) (ln(n))
Z ∞ Z ∞ u n=2
1 e
todo p > 0. Para isso, use o fato (e prove-o!) que dx = du = ∞ para todo b > 1 e
b (ln(x))p ln(b) u
p
p ∈ R. 6
Vamos agora estabelecer um fato importante sobre os conjuntos de seqüências: combinações lineares
de seqüências ℓp são também seqüências ℓp .
para quaisquer α, β ∈ C. Isso provou que a seqüência αan + βbn também é uma seqüência do tipo ℓp
com 0 < p < 1. Assim, ℓp com 0 < p < 1 é um espaço vetorial complexo.
Caso p ≥ 1. Sejam a, b ∈ C. Como |a + b| ≤ |a| + |b|, a segunda desigualdade em (17.A.2) implica
para quaisquer α, β ∈ C. Isso provou que a seqüência αan + βbn também é uma seqüência do tipo ℓp
com p ≥ 1. Isso é o que querı́amos provar.
Mais adiante demonstraremos o seguinte fato muito importante: para todo p ≥ 1 os conjuntos ℓp
não são meramente espaços vetoriais, mas também espaços vetoriais normados, com a norma
"∞ # p1
X
kakp := |an |p , (17.23)
n=1
para a ≡ {an }n∈N ∈ ℓp , p ≥ 1. Que essa expressão de fato define uma norma em ℓp , p ≥ 1, não é nada
óbvio e será provado mais adiante. Mais que isso, cada espaço ℓp , p ≥ 1, é um espaço de Banach em
relação à norma acima.
Veremos também que ℓ2 é um espaço de Hilbert com produto escalar
∞
X
ha, bi := an bn ,
n=1
a, b ∈ ℓp . 2
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 17 968/1461
É possı́vel provar também, por uma modificação do Teorema de Riesz-Fischer, que veremos adiante,
que para cada 0 < p < 1 os espaços ℓp são completos na métrica Dp definida acima.
Vamos aqui enunciar e demonstrar em um caso particular duas desigualdades importantes que
tornaremos a encontrar quando tratarmos da teoria da integração e de espaços de Banach, as quais são
conhecidas como desigualdades de Hölder26 e de Minkowski27 .
Teorema 17.2 Desigualdades de Hölder e de Minkowski para seqüências
I. Desigualdade de Hölder.
Sejam x = {xi }i∈N ∈ ℓp e y = {yi }i∈N ∈ ℓq com 0 < p < ∞ e 0 < q < ∞ e seja r > 0 definido
1 1 1
por + = . Então, vale
p q r
∞
!1/r ∞
!1/p ∞ !1/q
X X X
|xi |r |yi|r ≤ |xi |p |yi|q . (17.24)
i=1 i=1 i=1
Para todo p > 0 (incluindo p = 1) e para todos x = {xi }i∈N ∈ ℓp e y = {yi}i∈N ∈ ℓ∞ vale
"∞ #1/p ∞
!1/p
X X
p p p
|xi | |yi | ≤ |xi | sup |yi| . (17.25)
i∈N
i=1 i=1
As desigualdades de Hölder e Minkowski serão demonstradas nas páginas seguintes. Vamos antes a
alguns comentários.
O caso particular mais relevante da desigualdade de Hölder acima se da para 1 < p < ∞ e 1 < q < ∞
1 1
com + = 1. Nesse caso, a desigualdade de Hölder afirma que
p q
∞ ∞
!1/p ∞ !1/q
X X X
|xi | |yi| ≤ |xi |p |yi|q . (17.27)
i=1 i=1 i=1
26
Otto Ludwig Hölder (1859-1937).
27
Hermann Minkowski (1864-1909). O nome de Minkowski surge também na Teoria da Relatividade.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 17 969/1461
Vamos agora então provar a desigualdade de Hölder (17.24). Para começar, notemos que a desigual-
dade de Hölder (17.24) para r > 0 é conseqüência do caso particular r = 1. De fato, sejam {xi }i∈N ∈ ℓp
e {yi }i∈N ∈ ℓq com
1 1 1
+ = ,
p q r
sendo 0 < p < ∞ e 0 < q < ∞. Definindo novas seqüências {ai }i∈N e {bi }i∈N tais que |ai | = |xi |r e
|bi | = |yi|r e definindo p′ = p/r e q ′ = q/r, teremos
∞
X ∞
X ∞
X ∞
X
p′ p q′
|ai | = |xi | < ∞ e |bi | = |yi|q < ∞
i=1 i=1 i=1 i=1
o que prova que {ai }i∈N ∈ ℓp′ e {bi }i∈N ∈ ℓq′ . Como
1 1
′
+ ′ = 1,
p q
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 17 970/1461
∞
!1/r "∞ #1/r
X X
|xi |r |yi|r = |ai ||bi |
i=1 i=1
∞
!1/p ∞
!1/q
X X
= |xi |p |yi|q ,
i=1 i=1
que é a desigualdade de Hölder (17.24) no caso geral r > 0. Por causa disso, basta demonstrarmos
(17.24) para o caso r = 1, que é o que faremos.
Nossa estratégia será provar primeiro a desigualdade de Hölder (17.24), com r = 1, para seqüências
finitas e depois generalizar para seqüências infinitas.
Sejam x1 , . . . , xn e y1 , . . . , yn duas seqüências finitas arbitrárias de números complexos (n ∈ N). A
desigualdade de Hölder afirma que
n n
!1/p n
!1/q
X X X
|xi ||yi| ≤ |xi |p |yi|q ,
i=1 i=1 i=1
1 1
para quaisquer p, q com 1 < p < ∞ e 1 < q < ∞ e tais que + = 1. Vamos a isso. Em primeiro
p q
lugar, note que a desigualdade é trivialmente verdadeira caso todos os xi ou todos os yi sejam nulos,
pois nesse caso tanto o lado direito quanto o lado esquerdo da desigualdade são iguais a zero.
Vamos então considerar o caso em que os xi e os yi não são todos identicamente nulos. Seja, para
um j fixo
|xj |p |yj |q
a = n e b = n .
X X
p q
|xi | |yi|
i=1 i=1
Usando a desigualdade de Young (17.A.1), tratada no Apêndice 17.A, página 978, temos que
∞ ∞
!1/p ∞
!1/q
X X X
|xi ||yi| ≤ |xi |p |yi|q < ∞.
i=1 i=1 i=1
Essa última relação é a de Hölder (17.24), com r = 1. Isso provou (17.24) para todo r > 0.
A desigualdade de Hölder (17.27) envolve seqüências dos tipos ℓp e ℓq com 1/p + 1/q = 1, sendo que
1 < p < ∞ e 1 < q < ∞. É de se notar que os casos p = 1 ou q = 1 foram excluı́dos. Há também uma
desigualdade como a de Hölder envolvendo a seqüências do tipo ℓp e ℓ∞ , incluindo o caso p = 1. Sejam
{xi }i∈N uma seqüência do tipo ℓp com p > 0 e {yi }i∈N uma seqüência do tipo ℓ∞ . Então, é bem fácil
de se verificar que
"∞ #1/p ∞
!1/p
X X
p p p
|xi | |yi| ≤ |xi | sup |yi| .
i∈N
i=1 i=1
Novamente, nossa estratégia será considerar primeiro seqüências finitas e depois estender o obtido
para seqüências infinitas.
Sejam x1 , . . . , xn e y1 , . . . , yn duas seqüências finitas arbitrárias de números complexos (n ∈ N). A
desigualdade de Minkowski afirma que
n
!1/p n
!1/p n
!1/p
X X X
p p p
|xi + yi| ≤ |xi | + |yi|
i=1 i=1 i=1
para qualquer p ≥ 1. Vamos demonstrá-la. O caso p = 1 é trivial (por que?). Consideremos então
p > 1. Teremos que
n
X n
X
|xi + yi|p = |xi + yi ||xi + yi |p−1
i=1 i=1
n
X n
X
≤ |xi ||xi + yi |p−1 + |yi ||xi + yi|p−1 . (17.30)
i=1 i=1
n n
!1/p n
!1/q
X X X
|xi ||xi + yi |p−1 ≤ |xi |p |xi + yi |q(p−1) ,
i=1 i=1 i=1
onde 1/p + 1/q = 1, ou seja, p = q(p − 1). A última desigualdade diz então que
n n
!1/p n
!1/q
X X X
p−1 p p
|xi ||xi + yi| ≤ |xi | |xi + yi |
i=1 i=1 i=1
e, analogamente,
n n
!1/p n
!1/q
X X X
|yi ||xi + yi |p−1 ≤ |yi |p |xi + yi|p .
i=1 i=1 i=1
Assim como a desigualdade de Hölder, a desigualdade de Minkowski pode ser generalizada para
seqüências infinitas. Sejam {xi }i∈N e {yi}i∈N seqüências infinitas de de números complexos, ambas do
tipo ℓp . Temos que, para qualquer n ∈ N,
n
!1/p n
!1/p n
!1/p ∞
!1/p ∞
!1/p
X X X X X
|xi + yi |p ≤ |xi |p + |yi|p ≤ |xi |p + |yi |p < ∞
i=1 i=1 i=1 i=1 i=1
n
!1/p
X
Como a desigualdade vale para qualquer n, segue que a seqüência sn = |xi + yi |p , n ∈ N, é
i=1
monótona crescente e limitada e, portanto, converge. Fora isso, vale
∞
!1/p ∞
!1/p ∞
!1/p
X X X
|xi + yi |p ≤ |xi |p + |yi |p < ∞.
i=1 i=1 i=1
Essa é a desigualdade de Minkowski para seqüências infinitas de números complexos {xi }i∈N e
{yi }i∈N , ambas do tipo ℓp com p ≥ 1. Isso completa a prova do Teorema 17.2.
• Dualidade em espaços ℓp
Na Proposição 26.4, página 1262, demonstraremos com o uso da desigualdade de Hölder que ℓq
pode ser identificado como o dual topológico de ℓp (e vice-versa) para todos 1 < p < ∞ e 1P< q < ∞
relacionados por 1p + 1q = 1, ou seja, todo funcional linear contı́nuo em ℓp é da forma lb (a) = ∞
k=1 bk ak ,
para todo a ∈ ℓp , onde a seqüência bk , k ∈ N, pertence a ℓq .
A desigualdade de Hölder tem um caso particular bastante especial. Sejam {xi }i∈N e {yi }i∈N duas
seqüências de números complexos complexos do tipo ℓ2 . Então a desigualdade de Hölder nos diz que
∞ ∞
!1/2 ∞ !1/2
X X X
|xi ||yi | ≤ |xi |2 |yi|2 . (17.32)
i=1 i=1 i=1
Essa desigualdade é conhecida como desigualdade de Cauchy (para seqüências) e é, sem exagero, uma
das desigualdades mais importantes. Muitos resultados importantes são extraı́dos dela, alguns dos
quais iremos tratar adiante.
A expressão (17.32) mostra-nos que para quaisquer {xi }i∈N , {yi}i∈N ∈ ℓ2 a série
∞
X
xi yi =: hx, yiℓ2 (17.33)
i=1
é absolutamente convergente e, portanto, finita. Com isso, o lado esquerdo define um produto escalar
em ℓ2 , que denotamos por hx, yiℓ2 .
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 17 974/1461
E. 17.45 Exercı́cio. Prove essas últimas afirmações, ou seja, prove que hx, yiℓ2 é um produto escalar
em ℓ2 . 6
Como veremos adiante, ℓ2 é completo na norma relacionada a esse produto escalar, que é a norma
k · k2 . Isso prova que ℓ2 é um espaço de Hilbert.
Veremos agora uma aplicação da desigualdade de Minkowski.
• As Métricas dp em Cn
• Semi-normas em ℓp , p ≥ 1
Note que kxkp, n é de fato uma semi-norma em ℓp , p ≥ 1, pois satisfaz kλxkp, n = |λ|kxkp, n para todo
λ∈Ce
kx + ykp, n ≤ kxkp, n + kykp, n (17.35)
para todos x, y ∈ ℓp , p ≥ 1, devido à desigualdade de Minkowski para seqüências finitas (17.31).
Note também que
kxkp, n ≤ kxkp < ∞ (17.36)
para todo x ∈ ℓp , p ≥ 1 e todo n ∈ N. Por fim, para qualquer x ∈ ℓp , vale
Vamos agora mostrar que os espaços ℓp , p ≥ 1, e ℓ∞ são completos em relação às suas respectivas
normas. Essa afirmação, especialmente na sua forma mais geral, em espaços de funções mensuráveis
(tratada na Seção 23.4.2, página 1171), é conhecida como Teorema de Riesz28 -Fischer29 e data de 1907.
Seja p ≥ 1, fixo, e seja {am }m∈N , uma seqüência de elementos de ℓp . Como cada am é uma seqüência
de números complexos, indicaremos seus elementos por am i , i ∈ N. Assim, convencionamos que o ı́ndice
superior indexa a seqüência e o inferior é o ı́ndice de cada elemento da seqüência.
Suponhamos que {am }m∈N seja uma seqüência de Cauchy em ℓp na métrica induzida pela norma
k · kp . Isso significa que para todo ǫ > 0 existe um inteiro N(ǫ) > 0 tal que kan − am kp < ǫ sempre que
m, n > N(ǫ). Assim, se m, n > N(ǫ), é fácil ver que, para os elementos am n
i e ai isso significa que
"∞ #1/p
X
|am n
i − ai | ≤ |am n p
j − aj | = kan − am kp < ǫ .
j=1
Isso diz-nos que, para cada i fixo, a seqüência de números {ani }n∈N é uma seqüência de Cauchy em C
e, portanto, converge (pois C é completo). Seja αi ∈ C o limite dessa seqüência.
A seqüência α = {αi }i∈N é um forte candidato a ser o limite da seqüência {an }n∈N na métrica
definida pela norma k · kp . Colocamo-nos, então, as seguintes questões: 1. Será a seqüência α também
um elemento de ℓp ? 2. Se a resposta à pergunta anterior for positiva, será que a seqüência am converge
à seqüência α = {αi }i∈N na norma de ℓp ? Se a resposta a essas perguntas for positiva, estará provado
que ℓp é completo.
Seja ǫ > 0 arbitrário. Vamos definir uma seqüência crescente de números inteiros e positivos Nk (ǫ),
k = 1, 2, 3, . . . com Nk+1(ǫ) > Nk (ǫ), da seguinte forma: Nk (ǫ) é tal que kam − an kp < ǫ/2k para
todos m, n > Nk (ǫ). Note que uma tal seqüência Nk (ǫ) sempre pode ser encontrada pois, por hipótese,
{am }m∈N é uma seqüência de Cauchy em k · kp . Vamos agora escolher uma seqüência crescente de
ı́ndices n1 < n2 < · · · < nk−1 < nk < · · · tais que nk > Nk (ǫ). A essa seqüência está associada a
sub-seqüência {ank }k∈N . Para simplificar a notação, denotaremos bk ≡ ank , k = 1, 2, 3, . . .. Tem-se
ǫ
kbl+1 − bl kp < . (17.37)
2l
pois nl e nl+1 são maiores que Nl (ǫ). Note que para cada i, bki converge a αi quando k → ∞.
Com essas definições, teremos para todo k > 1 que (verifique!)
k−1
X
k 1
b −b = bl+1 − bl .
l=1
28
Frigyes Riesz (1880-1956).
29
Ernst Sigismund Fischer (1875-1954).
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 17 976/1461
Utilizando as semi-normas k · kp, n , definidas em (17.34), e usando (17.35) e (17.36) e (17.37), teremos
Xk−1
k
1 l+1 l
kb kp, n =
b + b −b
l=1 p, n
k−1
X
(17.35)
l+1
≤ 1
kb kp, n +
b − bl
p, n
l=1
k−1
X
(17.36)
l+1
≤ 1
kb kp +
b − bl
p
l=1
k−1
X ∞
X
(17.37) ǫ ǫ
< kb1 kp + l
≤ kb1
k p + l
= kb1 kp + ǫ .
2 2
l=1 l=1
Assim,
kbk kp, n < kb1 kp + ǫ . (17.38)
Pn
k p 1/p
Note que o lado esquerdo é i=1 |bi | e envolve uma soma finita de |bki |′ s. Assim, como cada bki
converge a αi quando k → ∞ temos, tomando o limite k → ∞,
" n #1/p " n #1/p
X X
lim |bki |p = |αi |p = kαkp, n .
k→∞
i=1 i=1
Como o lado direito de (17.38) não depende de k, concluı́mos que kαkp, n ≤ kb1 kp + ǫ para todo n ∈ N.
Agora, isso diz que
Xn
p
|αi |p ≤ kb1 kp + ǫ
i=1
para todo n ∈ N. O lado direito não depende de n. Como o lado esquerdo é uma seqüência crescente e
limitada
P∞ (pelo lado direito), segue que o lado esquerdo converge quando n → ∞. Isso prova então que
p
i=1 |αi | < ∞, ou seja, α ∈ ℓp .
Resta-nos agora responder à segunda pergunta colocada à página 975 e mostrar que a seqüência am
converge a α em relação à norma k · kp .
Repetindo o mesmo raciocı́nio que conduziu a (17.38), apenas mantendo b1 do lado esquerdo,
concluı́mos que kbk − b1 kp, n < ǫ. Novamente, usando o mesmo argumento de acima, podemos tomar
o limite k → ∞ e obter kα − b1 kp, n ≤ ǫ Como o lado direito independe de n, segue novamente pelo
mesmo raciocı́nio de acima que kα − b1 kp ≤ ǫ Isso significa30 que para todo ǫ > 0 existe b1 ∈ ℓp tal
que kα − b1 kp ≤ ǫ. Como b1 é escolhido na seqüência am , isso prova que α = limm→∞ am na topologia
definida por k · kp .
Com isso, provamos que todo ℓp com p ≥ 1 é completo na norma definida por k · kp e é, portanto,
um espaço de Banach nessa norma. Como comentamos, isso também implica que ℓ2 é um espaço de
Hilbert com relação ao produto escalar definido em (17.33).
30
O estudante aqui talvez tenha que recordar a maneira como b1 = an1 foi definido no parágrafo que antecede (17.37).
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 17 977/1461
E. 17.47 Exercı́cio. Complete os detalhes da prova que ℓ∞ é um espaço de Banach em relação à norma
k · k∞ . 6
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 17 978/1461
Apêndices
17.A Algumas Desigualdades Básicas
Demonstraremos aqui algumas desigualdades numéricas básicas que foram usadas no presente capı́tulo
e serão também empregadas em outros.
• A desigualdade de Young
A demonstração da desigualdade de Hölder faz uso de uma desigualdade numérica conhecida como
desigualdade de Young31 . Como essa desigualdade tem interesse por si só e outras aplicações, vamos
apresentar sua demonstração.
Sejam a e b dois números reais, ambos maiores ou iguais a zero e sejam p e q ambos tais que
1 1
1 < p < ∞ e 1 < q < ∞, mas tais que + = 1. Vamos então mostrar que para todo a, b ≥ 0
p q
a b
a1/p b1/q ≤ + , (17.A.1)
p q
sendo que a igualdade só é válida caso a = b. A desigualdade (17.A.1) é denominada desigualdade de
Young.
Para prová-la, notemos em primeiro lugar note que se a = 0 ou b = 0 a (17.A.1) acima é trivialmente
satisfeita pois o lado esquerdo é sempre zero, enquanto que o lado direito é sempre maior ou igual a zero.
a b
Vamos estão supor que a e b são ambos não-nulos. Tudo o que queremos é provar que −a1/p b1/q + +
p q
α 1
é sempre maior ou igual a zero. Podemos escrever a última expressão como b −t + αt + q , onde
α = 1/p e t = a/b. Como 1 < p < ∞, temos que 0 < α < 1 enquanto que t ≥ 0. Note-se que a função
1
f (x) = −xα + αx + ,
q
é contı́nua para x ∈ [0, ∞) e que, para x > 0, tem-se
f ′ (x) = α 1 − xα−1 e f ′′ (x) = α(1 − α)xα−2 > 0 .
Assim, f (x) tem um único mı́nimo local em x = 1, onde f (1) = 0 (verifique). Fora isso, f (0) = 1q > 0
e lim f (x) = +∞. Desses fatos concluı́mos facilmente que f (x) ≥ 0 para todo x ≥ 0, a igualdade só
x→∞
se dando caso x = 1. Isso fecha o que querı́amos provar.
E. 17.48 Exercı́cio. Mostre que no caso 0 < p < 1 a desigualdade (17.A.1) se reverte (≤ deve ser
substituı́do por ≥). Nesse caso 1/q < 0. 6
Prova.
Caso I. Tomemos 0 < p < 1 fixo. Vamos primeiramente provar a seguinte desigualdade: para
quaisquer a, b ≥ 0 vale
(a + b)p ≤ ap + bp . (17.A.4)
Para a = 0 isso é óbvio. Seja, então, a > 0. Nesse caso, podemos fatorar ap e a desigualdade acima
ficaria, p p
b b
1+ ≤ 1+ .
a a
Para provar isso, tudo o que desejamos é provar que f (x) := (1 + x)p − 1 − xp satisfaz f (x) ≤ 0 para
todo x ≥ 0. De fato, tem-se,
" #
1
f ′ (x) = −pxp−1 1 − 1−p . (17.A.5)
1 + x1
Como 1 + x1 ≥ 1 e 1 − p > 0, segue que f ′ (x) ≤ 0 para todo x ≥ 0. Com isso, provamos que f é
não-crescente. Como f (0) = 0, segue que f (x) ≤ 0 para todo x ≥ 0. Isso provou (17.A.4).
Vamos agora provar que
ap + bp
≤ (a + b)p .
21−p
Para x ≥ 0 e 0 < p < 1 a função ϕ(x) = xp é côncava. Portanto, para qualquer λ com 0 ≤ λ ≤ 1,
tem-se
λϕ(a) + (1 − λ)ϕ(b) ≤ ϕ (λa + (1 − λ)b) .
Para λ = 1/2, isso fica p
ap + bp a+b
≤
2 2
e a prova de (17.A.2) está completa.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 17 980/1461
Caso II. Para o caso p = 1 a desigualdade (17.A.3) é evidente. Tomemos, então, p > 1 fixo. Vamos
primeiramente provar a seguinte desigualdade: para quaisquer a, b ≥ 0 vale
ap + bp ≤ (a + b)p . (17.A.6)
Para a = 0 isso é óbvio. Seja, então, a > 0. Nesse caso, podemos fatorar ap e a desigualdade acima
ficaria, p p
b b
1+ ≥ 1+ .
a a
Para provar isso, tudo o que desejamos é provar que f (x) := (1 + x)p − 1 − xp satisfaz f (x) ≥ 0 para
todo x ≥ 0. Agora, por (17.A.5),
" p−1 #
1
f ′ (x) = −pxp−1 1 − 1 + .
x
Como 1 + x1 ≥ 1 e p − 1 > 0, segue que f ′ (x) ≥ 0 para todo x ≥ 0. Com isso provamos que f é
crescente. Como f (0) = 0, segue que f (x) ≥ 0 para todo x ≥ 0, provando o que querı́amos.
Vamos agora provar que
(a + b)p ≤ 2p−1 (ap + bp ) .
Para x ≥ 0 e p > 1 a função ϕ(x) = xp é convexa. Portanto, para qualquer λ com 0 ≤ λ ≤ 1, tem-se
2. d(r, s) = 0 se e somente se r = s.
A função d define o que se chama de uma métrica em Q. A desigualdade d(a, b) ≤ d(a, c) + d(c, b) é
chamada desigualdade triangular.
Nota. Como a princı́pio desejamos “construir” o conjunto dos números reais R, devemos tomar o
cuidado de definir a métrica d assumindo valores em Q+ , o conjunto dos racionais ≥ 0, não em R+ ,
como fizemos até agora. Por essa razão, algumas adaptações ao que fizemos ate agora serão necessárias.
Uma seqüência de números racionais é uma função N → Q. Para uma seqüência a denota-se
freqüentemente seu valor a(i) por ai para i ∈ N.
Uma seqüência a de números racionais é dita ser uma seqüência de Cauchy32 em relação à métrica
d se para todo ǫ ∈ Q+ existir um número natural N(ǫ) (eventualmente dependente de ǫ) tal que
d(ai , aj ) = |ai − aj | < ǫ para todo i e j tais que i > N(ǫ) e j > N(ǫ).
Uma seqüência de números racionais a converge para um número racional r no sentido da métrica
d se para todo ǫ ∈ Q+ existir um número natural N(ǫ) (eventualmente dependente de ǫ) tal que
d(r, ai ) < ǫ para todo i > N(ǫ).
E. 17.49 Exercı́cio. Prove que se uma seqüência a converge a um número racional r então a é uma
seqüência de Cauchy. Sugestão: use a desigualdade triangular. 6
Como já discutimos em páginas anteriores, há seqüências de Cauchy de números racionais que não
convergem a números racionais. Esse fato é a motivação de uma construção muito importante: a dos
números reais.
Para mostrar como essa construção é feita (o que faremos aqui com o objetivo de ilustrar ou-
tras construções análogas futuras) vamos primeiramente considerar o conjunto C ≡ C(Q) de todas as
seqüências de Cauchy de números racionais e construir em C uma relação de equivalência da seguinte
forma. Dizemos que duas seqüências de Cauchy a e b são equivalentes se a seqüência ci = ai − bi ,
i ∈ N converge a zero. Ou seja, a ∼ b se para todo racional ǫ > 0 existir inteiro N > 0 tal que
d(ai , bi ) = |ai − bi | < ǫ para todo i > N.
32
Augustin Louis Cauchy (1789-1857).
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 17 982/1461
E. 17.51 Exercı́cio. Prove que a relação acima é de fato uma relação de equivalência. 6
Isto posto, sabemos que o conjunto C pode ser escrito como uma união disjunta de suas classes de
equivalência pela relação acima. O conjunto dos números reais R é então definido como sendo o conjunto
formado por essas classes de equivalência ou, se quiserem, como o conjunto formado escolhendo-se um
elemento de cada classe de equivalência, ou seja, por uma seqüência de Cauchy de números racionais
em relação à métrica d.
Assim, uma seqüência de Cauchy como a seqüência ai = 1 + 1/1! + 1/2! + · · · + 1/i! acima define
um número real (no caso o número e).
Se x é uma seqüência de Cauchy de racionais em relação à métrica d denotaremos sua classe de
equivalência por [x]. Pela definição, [x] é um número real.
É possı́vel definir em R uma relação de ordem total da seguinte forma: dizemos que [x] < [y] se
existirem seqüências de racionais x0 ∈ [x] e y 0 ∈ [y] e um inteiro I tais que x0i < yj0 para todo i, j > I e
se [x0 − y 0] 6= [0], onde [0] é a classe que contém a seqüência identicamente nula. (Essa última condição
é para evitar seqüências com x0i < yi0 mas que se aproximem no limite i → ∞).
E. 17.52 Exercı́cio. Mostre que isso define uma relação de ordem total em R. 6
Poderı́amos tentar fazer de R um espaço métrico, definindo, por analogia com o que fizemos ante-
riormente na construção do completamento canônico, uma métrica em R por
e
d([x], [y]) = lim d(xn , yn ) .
n→∞
Isso não pode ser feito dessa forma, porém, pois o a seqüência de racionais d(xn , yn ) = |xn − yn | pode
não ter limite nos racionais, mas sim nos reais. É fácil provar, porém, que a seqüência de racionais
d(xn , yn ), n ∈ N, é uma seqüência de Cauchy na métrica d. Para tal, note que, pela desigualdade
triangular,
d(xi , yi ) ≤ d(xi , xj ) + d(xj , yj ) + d(yj , yi)
e, portanto,
|d(xi , yi) − d(xj , yj )| ≤ d(xi , xj ) + d(yj , yi) .
Como o x e y são seqüências de Cauchy o lado direito pode ser feito ≤ ǫ ∈ Q+ para qualquer ǫ > 0,
desde que i e j sejam feitos grandes o suficiente.
Com isso, sabemos que a seqüência d(xn , yn ), n ∈ N, pertence a alguma classe de equivalência que
denotaremos por [d(x, y)]. Com isso, podemos agora definir uma métrica em R por
e
d([x], [y]) = [d(x, y)] .
E. 17.53 Exercı́cio. Mostre que essa definição não depende dos particulares representantes x e y que
tomarmos nas classes [x] e [y]. 6
sempre que m > N(ǫ) e n > N(ǫ). Vamos tomar [ǫ] um racional ou seja, suporemos que exista em [ǫ]
uma seqüência constante ǫi = ǫ ∈ Q+ .
A condição (17.B.7) significa que existem seqüências de racionais |xm n
i − xi | e um inteiro I(ǫ) tais
que |xm n
i − xi | < ǫ para todos m > N(ǫ) e n > N(ǫ) e i > I(ǫ).
Como cada xm é uma seqüência de Cauchy de racionais, existe para todo ǫ ∈ Q+ um inteiro Jm (ǫ)
tal que |xm m
i − xj | < ǫ sempre que i, j > Jm (ǫ).
Isso prova que {xk }k∈N é uma seqüência de Cauchy de racionais. Portanto a ela está associado o número
real [x]. Resta-nos provar que [xm ] converge a [x] em de quando m → ∞.
e
De fato d([x], [xm ]) = [d(x, xm )] e
a(k) a(k) a(k) a(k)
d(xk , xm m m
k ) = |xk − xk | = |xb(k) − xk | ≤ |xb(k) − xk | + |xk − xm
k | < 2/l
para qualquer l ∈ N, desde que m > a(l) e k > b(l). Isso prova que para m > a(l) tem-se
e Isso demonstrou que R é completo.
[{d(x, xm )}m∈N ] = [0], demonstrando que [xm ] converge a [x] em d.
É possı́vel provar que podemos operar com esse novo conjunto de números da mesma forma como
operamos com os racionais, ou seja, podemos definir sua soma, seu produto, sua razão etc. Por exemplo,
a soma de duas seqüências de Cauchy a e b é a seqüência de Cauchy c dada por ci = ai + bi , i ∈ N e é
fácil provar que essa seqüência é de Cauchy, assim como é possı́vel provar que , se trocarmos a ou b por
um outro elemento da mesma classe de equivalência, obteremos uma outra seqüência de Cauchy d da
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 17 984/1461
mesma classe de equivalência da seqüência c. Fora isso o conjunto dos reais assim definido é provido
de uma relação de ordem total x ≤ y.
Como essas propriedades são conhecidas não entraremos nos detalhes de sua demonstração (mas não
é difı́cil para o estudante entender como se faz). Gostarı́amos apenas de enfatizar, recordando, como
a construção dos reais foi feita: partimos do conjunto dos racionais, definimos uma métrica sobre os
mesmos e definimos os conceitos de seqüências e de seqüências de Cauchy (em relação à métrica dada).
Definimos também o conceito de convergência e constatamos que seqüências de Cauchy de racionais
não convergem sempre a racionais. Definimos então no espaço de todas as seqüências de Cauchy (em
relação à métrica dada) uma relação de equivalência e assim o conjunto de classes de equivalência define
uma nova classe de objetos com os quais, como afirmamos, podemos operar como números. Esses são
os números reais.
O procedimento de completar os racionais através da criação das classes de equivalência de suas
seqüências de Cauchy é chamado de completamento canônico doa racionais e foi inventado por Can-
tor33 (seguindo idéias de Weierstrass34 ). A construção de números reais acima é devida a Cantor (há
uma outra construção “equivalente” devida a Dedekind35 , a dos chamados “cortes de Dedekind”). O
completamento de Cantor é importante, pois seu método pode ser estendido a qualquer espaço métrico
não completo para a obtenção de uma classe de objetos ainda maior.
2. φp (s) = 0 se e somente se s = 0.
Demonstraremos apenas o item 4, deixando os demais como exercı́cio (fácil). O item 4 é uma
conseqüência imediata da seguinte propriedade, que provaremos abaixo: para qualquer primo p e
quaisquer racionais r e s vale
wp (r + s) ≥ min{wp (r), wp (s)}.
Para provar essa desigualdade escrevemos r e s em sua decomposição em fatores primos:
Y wp (r) Y wp (s)
r = (±1) pi i , s = (±1) pi i .
i i
Assim,
Y wpi (r)
Y wpi (s)
r + s = (±1) pi + (±1) pi
i i
(17.B.8)
ficamos com
" #
Y min{wpi (r), wpi (s)}
Y wp (r)−min{wpi (r), wpi (s)}
Y wp (s)−min{wpi (r), wpi (s)}
r+s = pi (±1) pi i + (±1) pi i .
i i i
Como obviamente (por que?) wpi (r) − min{wpi (r), wpi (s)} ≥ 0 e wpi (s) − min{wpi (r), wpi (s)} ≥ 0,
segue que o número entre colchetes é um inteiro, tendo uma decomposição em fatores primos da forma
Y γ
(±) pj j ,
j
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 17 986/1461
provando que
wpi (r + s) = min{wpi (r), wpi (s)} + γi ≥ min{wpi (r), wpi (s)}u ,
para todo primo pi , o que completa a prova que querı́amos.
Em função das propriedades demonstradas no último exercı́cio, podemos, com o uso dessa função
φp , construir uma métrica em Q, que denotaremos por dp , dada por
dp (a, b) = φp (a − b)
para racionais a e b.
E. 17.55 Exercı́cio. Demonstre, usando as propriedades 1-4 de φp mencionadas acima, que esta função
é de fato uma métrica, ou seja, que satisfaz
2. dp (r, s) = 0 se e somente se r = s.
Também aqui podemos definir a noção de seqüência de Cauchy em relação à métrica dp . Uma
seqüência a de elementos de Q é dita ser uma seqüência de Cauchy (em relação à métrica dp ) se
para todo ǫ ∈ Q+ , ǫ > 0, existir um número natural N(ǫ) (eventualmente dependente de ǫ) tal que
dp (ai , aj ) < ǫ para todo i e j tais que i > N(ǫ) e j > N(ǫ).
Uma seqüência a em Q converge para um elemento b ∈ Q no sentido da métrica dp se para todo
ǫ ∈ Q+ existir um número natural N(ǫ) (eventualmente dependente de ǫ) tal que dp (b, ai ) < ǫ para
todo i > N(ǫ).
Também neste caso podem ser exibidas seqüências de Cauchy de racionais que não convergem no
sentido da métrica dp a um outro racional. O conjunto Q, assim, não é completo em relação à métrica
dp . Podemos então completá-lo usando o procedimento de completamento de Cantor: tomamos o
conjunto Cp de todas as seqüências de Cauchy de números racionais em relação à dp e construı́mos em
Cp uma relação de equivalência da seguinte forma. Dizemos que duas seqüências de Cauchy a e b são
equivalentes se a seqüência dp (ai , bi ), converge a zero quando i → ∞.
Sabemos que o conjunto Cp pode então ser escrito como uma união disjunta de suas classes de
equivalência pela relação acima. Define-se então uma nova classe de números, denominados números
p-ádicos, como sendo o conjunto dessas classes de equivalência ou, se quiserem, como sendo o conjunto
formado escolhendo-se um elemento de cada classe de equivalência, ou seja, por uma seqüência de
Cauchy de números racionais em relação à métrica dp .
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 17 987/1461
É possı́vel provar que podemos operar com esse novo conjunto de números da mesma forma como
operamos com os racionais, ou seja, podemos definir sua soma, seu produto, sua razão etc. (os mesmos
formam um corpo). Para a definição de corpo vide Seção 1.2.2, página 55.
Para cada primo p, o conjunto dos números p-ádicos, denominado Qp , é distinto do conjunto dos
reais. Possui, porém, em comum com os reais o fato de ambos terem os racionais como sub-conjunto
denso.
Note, por exemplo, que a seqüência de números racionais an = pn , n ∈ N, diverge na reta real mas,
no conjunto Qp a mesma seqüência converge a zero (no sentido de dp ), sendo que precisamente o oposto
ocorre em relação à seqüência bn = p−n , n ∈ N.
n
X
E. 17.57 Exercı́cio. Verifique que, em relação a d3 , a seqüência de números positivos sn = 2 · 3a
a=0
converge ao número −1 (!). Sugestão: mostre que sn = 3n+1 − 1. Após isso mostre que d3 (sn , −1) =
φ3 (sn + 1) = 3−(n+1) , e conclua que sn → −1. 6
De um certo ponto de vista, os números p-ádicos formam uma classe “razoável” de números que
poderiam, em princı́pio, “substituir” os reais em aplicações, dado que ambos podem ser aproximados
por racionais (no sentido da métrica d no caso dos reais e da métrica dp no caso dos p-ádicos). Os
conjuntos Qp possuem propriedades extremamente curiosas, tanto do ponto de vista algébrico quando
do ponto de vista topológico, algumas das quais vimos nos exercı́cios acima. Aplicações significativas
dos números p-ádicos em Fı́sica são, no momento, desconhecidas. Sugestões de seu uso, porém, já
foram apresentadas.
sua obra indicam que Arquimedes teria chegado a determinar a aproximação 3, 1416 para o valor de π,
usando polı́gonos regulares ainda maiores.
O método de Arquimedes foi empregado na Europa até meados do século XVII para aproximar
o valor de π. Ludolph van Ceulen38 empreendeu boa parte da sua vida aperfeiçoando o método de
Arquimedes, chegando, pouco antes de sua morte, a estimar o valor de π com o uso de polı́gonos
regulares de 262 lados, o que fornece π com 32 casas decimais de precisão.
Várias outras aproximações foram empregadas para aproximar π. Listemos algumas.
Para uma demonstração simples dessa fórmula usando integrais, vide [138].
Essa série provem do fato que π = 4 arctan(1). O arco-tangente pode ser calculado pela série de
Taylor42
X∞
(−1)n x2k+1
arctan(x) = .
k=0
2k + 1
fornecendo, assim, a aproximação dada acima para π.
38
Ludolph van Ceulen (1539-1610).
39
John Wallis (1616-1703). Wallis foi um dos pioneiros do Cálculo Diferencial e Integral e, uma curiosidade, foi o
inventor do sı́mbolo ∞.
40
James Gregory (1638-1675).
41
Gottfried Wilhelm von Leibniz (1646-1716).
42
Brook Taylor (1685-1731). A série de Taylor da função arco-tangente foi, em verdade, descoberta por Gregory em
1671.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 17 989/1461
Um comentário histórico é que a identidade π = 4 1 − 31 + 51 − 17 + 91 · · · é por vezes atribuı́da
a Leibniz, que a divulgou em 1674, três anos após a descoberta por Gregory da série de Taylor
da função arco-tangente. Historiadores comentam que Gregory provavelmente já a conhecia.
Todavia, essa identidade já seria conhecida por matemáticos hindus séculos antes.
3. Aproximação de Newton43 . Usando uma identidade como por exemplo π = 6 arcsen(1/2), Newton
empregou a série de Taylor da função arco-seno
∞
X [(2n − 1)!!]2
arcsen(x) = x + x2n+1
n=1
(2n + 1)!
Newton calculou as primeiras 15 casas decimais de π (em data incerta), para o que é necessário
somar cerca de 40 termos da série (17.C.9). Newton o fez, segundo confessou, “por não ter muito
o que fazer à época”.
Como, para n grande, (2n − 1)! ≈ 22n n2n e [(n − 1)!]2 ≈ n2n , os termos da série (17.C.9) decaem
como 2−2n . Machin encontrou uma outra identidade que permite uma convergência mais rápida.
4. Aproximação de Machin44 para π, de 1706:
Xn
(−1)n 16 4
π = lim − .
n→∞
k=0
2k + 1 52k+1 2392k+1
π = 16 arctan(1/5) − 4 arctan(1/239) .
Usando-se a série de Taylor da função arco-tangente dada acima, obtem-se a série de Machin para
π.
5. Aproximação de Euler45 para π por frações contı́nuas. Euler demonstrou que
4
π = .
12
1+
32
2+
52
2+
72
2+
92
2+
112
2+
..
.
43
Isaac Newton (1643-1727).
44
John Machin (1680-1751).
45
Leonhard Euler (1707-1783).
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 17 990/1461
Mencionamos en passant que Euler também obteve a seguinte expressão para e em termos de
frações contı́nuas:
1
e = 2+ ,
1
1+
2
2+
3
3+
4
4+
5
5+
6
6+
..
.
que é também uma aproximação para e por racionais.
Usando a expansão de Euler para a função cotangente dada em (9.202), página 578, é fácil obter
também (tome x = 1/4)
X∞
8
π = 4− 2
,
n=1
16n − 1
série esta que converge lentamente. Note que as aproximações de Wallis, Gregory, Newton,
Machin e Euler acima são aproximações a π por números racionais.
6. Euler também obteve (no ano de 1735) uma série de identidades envolvendo séries infinitas do
X ∞
1
tipo , com m = 1, 2, 3 etc., as quais podem ser usadas para calcular π. As primeiras
k 2m
k=1
identidades são
X ∞ X∞ X∞ X∞ X ∞
π2 1 π4 1 π6 1 π8 1 π 10 1
= 2
, = 4
, = 6
, = 8
, =
6 k=1
k 90 k=1
k 945 k=1
k 9450 k=1
k 93555 k=1
k 10
etc. Tais relações são bem conhecidas da teoria das séries de Fourier (vide [36]). Como o lado
esquerdo das igualdades acima envolve potências de π, essas séries não fornecem aproximações
a π por racionais. As últimas séries à direita convergem de modo relativamente rápido. Apenas
com os cinco primeiros termos da última série à direita obtem-se a aproximação 3, 141592647 para
π, cujos primeiros sete dı́gitos após a vı́rgula estão corretos. Para obter-se uma precisão análoga
com a primeira série à esquerda, é preciso somar cerca de cem milhões de termos, como é fácil de
verificar usando um programa de computador (faça!).
A fórmula geral para as somas acima46 é a seguinte (para a demonstração, vide página 518):
X∞
1 (−1)m+1 22m−1 B2m 2m
2m
= π , m = 1, 2, 3, . . . , (17.C.10)
k=1
k (2m)!
h √ “ √ ”i
Xn (−1)k (6k)! 212.175.710.912 61 + 1.657.145.277.365 + k 13.773.980.892.672 61 + 107.578.229.802.750
pn := 12 h “ √ ”i3k+3/2 .
k=0 (k!)3 (3k)! 5.280 236.674 + 30.303 61
√
Aqui aplica-se o mesmo comentário de acima: devido à presença do número 61 e do número
√ 3/2
5.280 236.674 + 30.303 61 , a aproximação acima não é uma aproximação a π por racionais.
Esses foi o último “record” obtido com cálculos manuais. Ferguson prosseguiu ainda, agora com o uso
de uma calculadora de mesa, até atingir a marca de 808 dı́gitos, todos corretos.
Com o advento dos computadores eletrônicos tais cálculos deixaram de ser feitos por meios românti-
cos. O primeiro cálculo computacional de π foi feito em 1949 por von Neumann53 e colaboradores usando
a fórmula de Machin no lendário computador ENIAC (considerado por muitos o primeiro computador.
Vide [99]), com suas 18 mil válvulas elétricas. Esse cálculo forneceu 2.037 dı́gitos decimais de π e
consumiu 70 horas.
Em 1987, usando a aproximação de Borwein e Borwein, π foi calculado por um super-computador
com uma precisão de cem milhões de casas decimais. Essa precisão foi aumentada desde então. Em
1999, π era conhecido com 3 × 236 = 206.158.430.208 (cerca de duzentos bilhões) de dı́gitos decimais. O
feito é de Y. Kanada e D. Takahashi e foi alcançado com dois algoritmos distintos (para comparação), o
dos irmãos Borwein e outro denominado Gauss-Legendre. O primeiro consumiu 46 horas de computação
em um super-computador e o segundo 37 horas. O récorde atual, obtido em 2003, é dos mesmos autores:
1,2411 trilhão de dı́gitos decimais, consumindo 600 horas de um supercomputador.
Em 1996 Bailey, Borwein e Plouffe publicaram um algoritmo que permite determinar o n-ésimo
dı́gito hexadecimal de π sem o conhecimento dos dı́gitos precedentes. Em 1997 Plouffe descobriu um
algoritmo para determinar o n-ésimo dı́gito de π em qualquer base, também sem o conhecimento dos
dı́gitos precedentes.
Outras informações históricas, especialmente sobre esses desenvolvimentos mais recentes, podem
ser encontradas em “The quest for Pi”, de D. H. Bailey, J. M. Borwein, P. B. Borwein e S. Plouffle.
The Mathematical Intelligencer 19, 50-57 (1997).
51
Zacharias Dase (1824-1861).
52
Willian Shanks (1812-1882).
53
John von Neumann (1903-1957).
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 17 993/1461
x = f (x) .
Os pontos que satisfazem essa equação são chamados de pontos fixos da transformação f e a equação
acima é denominada equação de ponto fixo. Veremos vários exemplos abaixo de equações desse tipo,
tanto no contexto de equações numéricas quanto no de equações integrais e diferenciais.
Na prática, dada uma função f , pode afigurar-se difı́cil saber se sequer existe um ponto fixo para ela.
Muitas vezes estamos interessados em saber quantos pontos fixos há e, freqüentemente, gostarı́amos de
garantir que há um e apenas um ponto fixo de uma dada função (a chamada “unicidade da solução”).
Teoremas que nos garantem existência e, por vezes, unicidade de soluções de equações de ponto fixo
são chamados de teoremas de ponto fixo. Há vários teoremas de tal tipo na literatura matemática, como
por exemplo, o Teorema de Ponto Fixo de Banach1 , o Teorema de Ponto Fixo Brouwer2 , o teorema do
1
Stefan Banach (1892-1945).
2
Luitzen Egbertus Jan Brouwer (1881-1966).
994
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 18 995/1461
ponto fixo de Schauder3 e vários outros, todos com pressupostos distintos sobre o conjunto X e sobre
a função f .
Seja por exemplo o disco fechado Dn de Rn :
q
n 2
Dn := (x1 , . . . , xn ) ∈ R x1 + · · · + x2n ≤ 1 .
O chamado Teorema do Ponto Fixo de Brouwer afirma que toda função contı́nua (na topologia usual)
de Dn em Dn tem pelo menos um ponto fixo. Aqui a unicidade nem sempre pode ser garantida: pense
no exemplo das rotações em R3 em torno de um eixo que passa pela origem. Todo ponto ao longo do
eixo de rotação é levado em si mesmo pela rotação e é, portanto, um ponto fixo da mesma.
O Teorema do Ponto Fixo de Schauder afirma que se X é um subconjunto convexo e compacto4 de
um espaço de Banach então toda função contı́nua (na topologia da norma) de X em X tem um ponto
fixo (não-necessáriamente único).
Aqui trataremos de um teorema de ponto fixo extremamente útil conhecido como Teorema de Ponto
Fixo de Banach, que é válido em espaços métricos completos. De fato, este é de longe o teorema de
ponto fixo com mais aplicações, sendo que sua influência se estende aos domı́nios das equações integrais,
das equações diferenciais, das equações numéricas em C, da Análise Numérica e de muitas outras áreas
da Matemática pura e aplicada.
O Teorema de Ponto Fixo de Banach foi estabelecido por Banach em 19225 . Uma das razões de sua
importância reside no fato de fornecer, junto com seu enunciado, um método iterativo aproximativo
para a determinação do ponto fixo, método este que é muito eficiente. Outra razão é o fato de o teorema
reunir condições que garantem unicidade do ponto fixo. Vamos ao seu enunciado.
Uma função T : A → A tal que existe um número q com 0 ≤ q < 1 e tal que para todos os
pontos x e y de A valha a desigualdade (18.1) é dita ser uma contração em relação à métrica d. O
teorema acima afirma então que toda contração em um espaço métrico completo tem um e somente um
ponto fixo. Esse teorema fornece um método iterativo de determinar aproximadamente o ponto fixo,
sendo que, por (18.3), a aproximação é tanto melhor quanto mais iterações forem feitas. Mais adiante
aperesentaremos um teorema análogo ao Teorema 18.1 na qual a condição de contração é enfraquecida.
Vide Teorema 18.2, página 998.
Vamos primeiro provar o teorema e depois veremos vários exemplos de seu uso.
Prova do Teorema 18.1. Como A é um subconjunto fechado de um espaço métrico completo, então A é
também completo em relação à mesma métrica (vide Proposição 17.7, página 959, ou equivalentemente,
a Proposição 19.9, página 1054).
Para simplificar a notação denotaremos por T n a n-ésima composição de T consigo mesma: T
| ◦ ·{z
· · ◦ T}.
n
Definimos então para um x0 ∈ A arbitrário xn = T n (x0 ), n ∈ N, n > 0.
Vamos agora provar que {xn } é uma seqüência de Cauchy em A. Para isso sejam m e n dois
números naturais quaisquer tais que m < n. Então, usando a desigualdade triangular n − m vezes
temos o seguinte:
Daı́
d(xm , xn ) ≤ q m + q m+1 + . . . + q n−1 d(x0 , x1 )
e, portanto,
∞
!
X qm
d(xm , xn ) ≤ q m 1 + q + . . . + q n−1−m
d(x0 , x1 ) ≤ q m q a d(x0 , x1 ) = d(x0 , x1 ) .
a=0
1−q
Isso prova que {xn } é uma seqüência de Cauchy, pois q m pode ser feito arbitrariamente pequeno
tomando m grande, para qualquer n > m.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 18 997/1461
Como {xn } é uma seqüência de Cauchy em A e A é completo, deve haver x em A único ao qual a
seqüência converge. Temos sempre, usando a desigualdade triangular, que
Como m é arbitrário podemos fazer m → ∞ e obtemos d(x, T (x)) = 0, o que implica que x = T (x).
Por fim, resta-nos provar que x é o único ponto fixo de T . Para tal, vamos supor que haja um
outro: x′ = T (x′ ). Terı́amos, usando a contratividade, que
ou seja, (1 − q)d(x, x′ ) ≤ 0. Como q < 1 isso implica d(x, x′ ) = 0, que implica x = x′ . Isso completa
a prova do Teorema de Ponto Fixo de Banach.
pois 1 − t−2 < 1 para t > 1, sendo essa a melhor estimativa possı́vel. Assim,
como querı́amos provar. Note agora, porém, que T não tem nenhum ponto fixo. De fato, T (x) = x
significa x + x−1 = x, ou seja, x−1 = 0, o que não é possı́vel se x ∈ [1, ∞).
Em espaços métricos compactos, porém, a condição de contração q < 1 pode ser enfraquecida
preservando essencialmente os mesmos resultados do Teorema 18.1.
Seja M um conjunto dotado de uma métrica d. Recordemos6 que A ⊂ M é dito ser compacto
se e somente se possuir a propriedade de Bolzano7 -Weierstrass8 : toda seqüência em A possui uma
sub-seqüência convergente em A em relação à métrica d. Por um teorema geral (Teorema 24.6, página
1209), o fato de A ser compacto em um espaço métrico implica que A é fechado, completo e limitado.
O seguinte teorema é devido a Edelstein9 .
Teorema 18.2 Seja M um conjunto dotado de uma métrica d. Seja A ⊂ M compacto e seja T : A →
A uma função de A em A. Vamos supor que valha a condição
para todos x, y ∈ A com x 6= y. Então, a equação de ponto fixo x = T (x) tem solução em A e essa
solução é única. 2
Comentário. O fato de A ser suposto compacto faz com que seja dispensável supor que M seja completo,
pois A o é. Vide Teorema 24.6, página 1209.
Prova. Observemos em primeiro lugar que se T possuir um ponto fixo, este é único. De fato, sejam
x, y ∈ A tais que T (x) = x e T (y) = y. Se x =
6 y, valeria d(x, y) = d(T (x), T (y)) < d(x, y), o que é
uma desigualdade impossı́vel. Logo x = y.
Pelas hipóteses, para x0 ∈ A a seqüência xn = T n (x0 ) de elementos de A tem ao menos uma
subseqüência convegente a um elemento x∗ ∈ A. Vamos provar que esse x∗ é um ponto fixo de T , ou
seja, x∗ = T (x∗ ). Vamos supor que T (x∗ ) 6= x∗ e mostrar que isso leva a uma contradição.
Seja xnk , k ∈ N, uma sub-seqüência que converge a x∗ da seqüência xn = T n (x0 ), ou seja, que
satisfaz a propriedade: para todo ǫ > 0 existe K(ǫ) tal que d(xnk , x∗ ) ≤ ǫ para todo k ≥ K(ǫ).
6
Para a definição da noção de compacidade e suas propriedades, vide Seção 24.2, página 1200.
7
Bernard Placidus Johann Nepomuk Bolzano (1781–1848).
8
Karl Theodor Wilhelm Weierstrass (1815–1897).
9
M. Edelstein, “An extension of Banach’s contraction principle”. Proc. Am. Math. Soc. 12 (1) (1961), 7–10. M.
Edelstein, “On fixed and periodic points under contractive mappings”. J. London Math. Soc. 37 (1) (1962), 74–79.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 18 999/1461
Por (18.5), d(T (x∗ ), T (xnk )) ≤ d(x∗ , xnk ) (a igualdade se dando apenas se x∗ = xnk ), o que implica
que (xnk , T (xnk )) converge a (x∗ , T (x∗ )) em A2 ≡ A × A se xnk converge a x∗ .
Seja r0 := d(T (x∗ ), (x∗ ))/3. Para todo k ≥ K(r0 ) vale d(x∗ , xnk ) ≤ r0 e pela desigualdade
triangular,
3r0 = d(T (x∗ ), x∗ ) ≤ d(T (x∗ ), T (xnk )) + d(T (xnk ), xnk ) + d(xnk , x∗ )
(18.5)
≤ 2d(x∗ , xnk ) + d(T (xnk ), xnk ) ≤ 2r0 + d(T (xnk ), xnk ) .
Logo, para todo k ≥ K(r0 ), r0 ≤ d(T (xnk ), xnk ), ou seja,
d(T (x∗ ), x∗ ) ≤ 3d(T (xnk ), xnk ) . (18.6)
Por ser contı́nua, F assume um valor máximo f em Br . Escolhendo r pequeno o suficiente, podemos
garantir que f < 1 (para r pequeno f vale aproximadamente F (x∗ , T (x∗ )) < 1). Assim, para todo
(x, y) ∈ Br tem-se
d(T (x), T (y)) ≤ f d(x, y) . (18.7)
Como (xnk , T (xnk )) converge a (x∗ , T (x∗ )), concluı́mos que para todo l grande o suficiente, digamos
l ≥ L, vale (xnl , T (xnl )) ∈ Br . Assim, por (18.7) devemos ter
d T (xnl ), T T (xnl ) ≤ f d(xnl , T (xnl )) ,
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 18 1000/1461
ou seja,
d(xnl +1 , xnl +2 ) ≤ f d(xnl , xnl +1 ) . (18.8)
Temos, assim, que
(18.5)
≤ d(T nl+1 (x0 ), T nl +2 (x0 )) = d(xnl +1 , xnl +2 )
(18.8)
≤ f d(xnl , xnl +1 ) = f d(xnl , T (xnl )) .
Acima, na passagem da primeira para a segunda linha, usamos n(l+1) − nl − 1 vezes a condição (18.5).
Provamos, portanto, que d(xn(l+1) , T (xn(l+1) )) ≤ f d(xnl , T (xnl )) para todo l ≥ L. Por indução, isso
implica que para todo k ≥ l ≥ L vale
d(xnk , T (xnk )) ≤ f k−l d(xnl , T (xnl )) .
Fixando l, isso implica que lim d(xnk , T (xnk )) = 0, pois f < 1. Por (18.6), isso implica que
k→∞
d(T (x∗ ), x∗ ) = 0, completando a prova.
Antes de tratarmos das importantes aplicações do Teorema de Ponto Fixo de Banach a equações
integrais vamos a uma outra pequena generalização do mesmo. Esta nos será útil, por exemplo, quando
tratarmos da equação integral de Volterra. Ocorre por vezes que uma aplicação T , como discutida
acima, não é uma contração, mas alguma de suas potências o é. Nesse caso, podemos também garantir
os mesmos resultados do Teorema de Ponto Fixo de Banach. Temos o seguinte:
Proposição 18.1 Seja M um conjunto dotado de uma métrica d e suponha M completo em relação
a d. Seja A um subconjunto fechado em M e seja T uma função de A em A, T : A → A. Vamos
supor que exista um número m ∈ N tal que a aplicação T m seja uma contração, cujo ponto fixo único
é x ∈ A (a existência e a unicidade de tal ponto fixo são garantidas pelo Teorema de Ponto Fixo de
Banach, Teorema 18.1). Então, T também tem um ponto fixo único, a saber, o mesmo x. 2
Prova. Para provar que x é também ponto fixo de T , notemos que, como x = T m (x), temos também
que
T (x) = T m+1 (x) = T m (T (x)) .
Isso diz que T (x) é ponto fixo de T m . Pelo Teorema de Ponto Fixo de Banach este último é x e é único.
Daı́ T (x) = x. Ora, isso diz precisamente que x é ponto fixo de T .
Provemos agora que x é também o único ponto fixo de T . Para tal, suponha que haja um outro:
y. Então y = T (y). Daqui tiramos que T (y) = T 2 (y). Juntando as duas vemos que y = T (y) = T 2 (y).
Repetindo esse procedimento, chegamos a y = T (y) = T 2 (y) = · · · = T m (y). Isso diz que y é ponto
fixo de T m . Agora, pelas hipóteses, o único ponto fixo de T m é x. Logo y = x.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 18 1001/1461
• Equações numéricas
Vamos a alguns exemplos simples de aplicações do Teorema de Ponto Fixo de Banach. Seja a reta
real e a seguinte equação de ponto fixo em R:
x = λ cos(x) ,
onde 0 < λ < 1 é uma constante dada. Terá essa equação uma solução? Será ela única? Como
T (x) := λ cos(x) é uma função de R em R, podemos adotar em R a métrica usual em relação à qual
R é completo. Em face do Teorema de Ponto Fixo de Banach a questão natural é saber se T é uma
contração. Vamos provar que isso é verdade.
Z y
d(T (x), T (y)) = λ | cos(x) − cos(y)| = λ sen(t) dt ≤ λ |x − y| = λ d(x, y) ,
x
No caso λ = 1/2, o estudante que tenha uma simples calculadora é estimulado a determinar que o
ponto fixo é x ≃ 0, 45018311 . . ..
E. 18.1 Exercı́cio. Nesse caso, tomando por exemplo x0 = 0, estime o erro da aproximação se pararmos
após 30 iterações. 6
E. 18.2 Exercı́cio. O que acontece na equação de ponto fixo acima se λ > 1? A solução permanece
única? Faça gráficos das funções a(x) = x e b(x) = λ cos(x) para esclarecer essa questão. 6
E. 18.3 Exercı́cio. Use o Teorema de Ponto Fixo de Banach para mostrar que, em R, a equação x = e−x
tem uma e somente uma solução. Qual é ela, aproximadamente? Estime o erro após 40 iterações. 6
• O mapa logı́stico
Seja M = R com a métrica usual d(x, y) = |x − y| e seja A = [0, 1]. Considere a função
T (x) = ax(1 − x).
É fácil ver que para a ∈ [0, 4] a função T leva pontos de A em pontos de A, pois, para x ∈ [0, 1]
vale 0 ≤ T (x) ≤ a/4. A equação de ponto fixo T (x) = x é ax(1 − x) = x, que tem como soluções
xa = 0 e xb = (a − 1)/a. A primeira solução pertence a A, mas a segunda só pertence a A se a > 1.
Concluı́mos que a função T tem um único ponto fixo em A se a ∈ [0, 1] e dois pontos fixos se a ∈ (1, 4].
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 18 1002/1461
Para a ∈ [0, 4] analizemos essa aplicação sob o ponto de vista de Teorema de Ponto Fixo de Banach.
É fácil ver que |T ′ (x)| = a|1 − 2x| ≤ a para x ∈ A. Logo, com 0 ≤ x ≤ y ≤ 1,
Z y Z y
d(T (x), T (y)) = |T (x) − T (y)| = ′
T (t) dt ≤ |T ′(t)| dt < a|x − y| = ad(x, y) .
x x
Logo, para a ∈ [0, 1) a função T é uma contração e, pelo Teorema de Ponto Fixo de Banach, tem um
e somente um ponto fixo, que vimos ser xa = 0. O fato de T possuir também apenas um ponto fixo
quando a = 1 (o mesmo xa = 0), quanto temos d(T (x), T (y)) < d(x, y) para x 6= y, não é explicado
pelo Teorema de Ponto Fixo de Banach, mas sim pelo Teorema 18.2. Para a > 1 não podemos mais
garantir contratividade e, de fato, constatamos que T tem dois pontos fixos em A para a ∈ (1, 4].
Consideremos a ∈ [0, 4]. Partindo de um ponto x0 ∈ A podemos definir uma seqüência de pontos
xn+1 = T (xn ) ∈ A. A evolução xn 7→ T (xn ) = xn+1 , n ∈ N, é freqüentemente denominada mapa
logı́stico. O mapa logı́stico foi originalmente introduzido como um modelo para evolução de populações
sob certos fatores limitantes de crescimento.
Na região contrativa 0 ≤ a < 1 a seqüência xn converge ao ponto fixo xa = 0. Na região 1 ≤ a < 2,
já fora da contratividade e da validade do Teorema do Ponto Fixo de Banach,
√ a seqüência converge ao
b a
ponto fixo x (x torna-se um ponto fixo repulsivo). Para 3 < a < 1 + 6 ≈ 3, 45 a seqüência torna-se
oscilante, oscilando entre dois valores fixos. Dai para frente, a oscilação se dá sucessivamente entre 4,
8, 16 etc. pontos, à medida que a cresce. A partir de a ≈ 3, 57 estabelece-se um regime caótico, com a
seqüência xn preenchendo densamente subconjuntos de Cantor do intervalo [0, 1]. O mapa logı́stico é
protótipo de um sistema dinâmico discreto exibindo comportamento caótico.
Para mais detalhes sobre o mapa logı́stico, vide e.g. [69] ou [3].
O bem conhecido método de Newton de determinação de zeros de funções reais10 pode ser estudado
sob a luz do Teorema de Ponto Fixo de Banach. Seja f : R → R uma função da qual desejamos
determinar um zero, ou seja, uma solução da equação f (χ) = 0. Notemos que essa equação equivale
(trivialmente) à equação χ = χ − ff′(χ)
(χ)
, pelo menos se f ′ (χ) 6= 0. Colocado dessa forma o problema
torna-se um problema de ponto fixo para a aplicação T : R → R definida por
f (x)
T (x) := x − .
f ′ (x)
Isso motiva a seguinte proposição.
Proposição 18.2 Se f for pelo menos duas vezes diferenciável, então f possuirá um zero χ, único,
num dado intervalo [a, b] se existir λ com 0 ≤ λ < 1 tal que
f (x)f ′′ (x)
(f ′ (x))2 ≤ λ , para todo x ∈ [a, b] , (18.9)
e se
f (x)
f ′ (x) ≤ (1 − λ)α , (18.10)
10
Para a motivação geométrica do método de Newton, vide discussão à página 1004 sobre a Figura 18.1.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 18 1003/1461
onde x := a+b
2
e α := b−a
2
. Nesse caso, tem-se χ = limn→∞ xn , onde a seqüência xn ∈ [a, b] é
determinada iterativamente por
f (xn )
xn+1 = xn − , n≥0,
f ′ (xn )
sendo x0 ∈ [a, b], arbitrário. Ter-se-á,
λn λn
|χ − xn | ≤ |T (x0 ) − x0 | ≤ (b − a) , n≥0. (18.11)
1−λ 1−λ
Se adotarmos x0 = x teremos ainda |χ − xn | ≤ αλn , n ≥ 0, por (18.10). 2
Nota. A condição (18.9) pressupõe f ′ (x) 6= 0 em [a, b]. Como veremos abaixo, a condição (18.9) é
importante por garantir a contratividade de T , enquanto que (18.10) é suficiente para garantir que T
leve pontos de [a, b] em [a, b], podendo ser eventualmente substituı́da por outra condição que garanta
o mesmo. Notemos, por fim, que o método de Newton funciona mesmo sob condições mais fracas sobre
a função f , nesse caso fora do contexto do Teorema de Ponto Fixo de Banach. A convergência das
iterações pode, então, ser mais lenta que aquela garantida em (18.11). Vide para tal qualquer bom
livro de Cálculo Numérico.
= α.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 18 1004/1461
Com isso, provamos que T é uma contração que mapeia o espaço métrico completo [a, b] em si mesmo.
O Teorema de Ponto Fixo de Banach garante o resto.
√
E. 18.4 Exercı́cio-Exemplo. Usando o método de Newton determine um valor aproximado para 2
2
calculando o zero positivo de f (x) = x2 − 2. As iterações serão xn+1 = T (xn ) com T (x) = x 2x+2 . Que
intervalo [a, b] é conveniente adotar? O que ocorre próximo a x = 0 e por que?
Partindo-se,√por exemplo, de x0 = 2 obtem-se os valores sucessivos 3/2, 17/12, 577/408. Esse√último
valor aproxima 2 com um erro de 2 × 10−6 . Note que esse procedimento fornece aproximações de 2 por
números racionais. 6
√
E. 18.5 Exercı́cio-Exemplo. Faça o mesmo para 3. 6
O método de Newton pode ser motivado geometricamente pela Figura 18.1. A linha reta que passa
pelo ponto (xn , f (xn )) tangencia o gráfico da função f . Sua inclinação é, portanto, f ′ (xn ). Assim,
o ponto xn+1 indicado na figura vale xn+1 = xn − ff′(x n)
(xn )
(verifique!). Repetindo-se o procedimento a
partir do ponto xn+1 aproximamo-nos mais ainda do zero χ de f .
f(x)
f(x n)
χ x n+1 xn
Figura 18.1: Iteração no método de Newton. O ponto χ é um zero de f . A linha reta tangencia o
gráfico de f no ponto (xn , f (xn )) e sua inclinação é f ′ (xn ). O ponto em que essa reta corta o eixo
horizontal determina xn+1 .
No método de Newton usual, a reta tangente tem uma inclinação diferente a cada passo: f ′ (xn ).
Um método alternativo, por vezes denominado método de Newton simplificado, consiste em usar retas
de inclinação fixa, tal como na Figura 18.2. Nessa situação, o problema de determinar o zero χ de f
equivale ao problema de ponto fixo x = T (x) com
1
T (x) = x − f (x) .
γ
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 18 1005/1461
f(x)
f(x n)
f(xn+1 )
f(xn+2 )
arctan γ
χ xn+2 xn+1
xn
Figura 18.2: Alternativa ao método de Newton. As linhas retas não são tangentes ao gráfico de f , são
todas paralelas, todas com inclinação fixa γ. Os pontos em que essas retas cortam o eixo horizontal
são os pontos da iteração.
E. 18.6 Exercı́cio. Usando o Teorema de Ponto Fixo de Banach estude esse problema de ponto fixo e
determine condições suficientes sobre a função f e sobre a inclinação γ para garantir a existência de um
zero único de f em um intervalo [a, b]. 6
O método de Newton simplificado, descrito acima, pode ser empregado mesmo em situações nas
quais f não é diferenciável na região de interesse.
O método de Newton descrito acima pode ser generalizado para funções de Rn em Rn , mas não
trataremos disso aqui.
possibilidade de utilizarmos o Teorema de Ponto Fixo de Banach para estudar a existência de soluções.
O mesmo teorema fornece, também neste caso, um poderoso método iterativo de solução, de grande
importância prática. Para uma introdução à teoria das equações integrais, vide também [115] e [144].
Para um tratamento extensivo da equação integral de Volterra, vide [102].
Antes de tratarmos dessas equações integrais, vamos discutir uma condição que usaremos adiante.
• A condição de Lipschitz
Seja f : R → R uma função. f é dita satisfazer a condição de Lipschitz13 em toda a reta real se
existir uma constante M ≥ 0 tal que, para todos x e x′ em R tenhamos
|f (x′ ) − f (x)| ≤ M|x′ − x| .
Note que toda função que satisfaz a condição de Lipschitz para algum M é necessariamente uma
função contı́nua (por que?).
Para que uma função satisfaça a condição de Lipschitz há uma condição suficiente que é útil. Seja
f : R → R uma função diferenciável e tal que |f ′(y)| ≤ M, para algum M ≥ 0 e para todo y ∈ R.
Então f satisfaz a condição de Lipschitz. Para provar isso, notemos que, pelo teorema fundamental do
cálculo, vale
Z x′
′
f (x ) − f (x) = f ′ (y)dy .
x
Daı́, Z ′
x Z x′ Z x′
′ ′ ′
|f (x ) − f (x)| = f (y)dy ≤ |f (y)|dy ≤ Mdy = M|x′ − x| .
x x x
E. 18.8 Exercı́cio. Mostre que as funções sen e cos satisfazem a condição de Lipschitz. Qual M pode
ser adotado para ambas? 6
E. 18.9 Exercı́cio. Mostre que a função f (y) = y 2 não pode satisfazer a condição de Lipschitz em toda
a reta real. Sugestão: |x2 − y 2 | ≤ M|x − y| implica |x + y| ≤ M para x 6= y. 6
E. 18.10 Exercı́cio. Mostre que a função f (y) = y 1/3 não pode satisfazer a condição de Lipschitz em
toda a reta real. Sugestão: tome x′ = 0 e mostre que a relação |x1/3 | ≤ M|x| não pode ser válida para
todo x ∈ R com M ≥ 0 fixo qualquer. 6
Uma função que satisfaz a condição de Lipschitz é dita ser Lipschitz-contı́nua. Para a demonstração
de resultados é muito útil, por vezes, (veremos exemplos adiante) mostrar-se que uma função dada é
Lipschitz-contı́nua.
A condição discutida acima tem, aliás, uma generalização da qual não faremos uso aqui. Uma
função f : R → R é dita ser Hölder14 -contı́nua se existirem M ≥ 0 e γ > 0 tais que para todos x e x′
13
Rudolf Otto Sigismund Lipschitz (1832-1903).
14
Otto Ludwig Hölder (1859-1937).
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 18 1007/1461
em R valha
|f (x′ ) − f (x)| ≤ M|x′ − x|γ .
A condição de ser Lipschitz-contı́nua é o caso particular deste quando γ = 1.
Seja I o intervalo [a, b] da reta real (com a e b dados e a < b) e sejam duas funções f : I → R e
K : I ×I ×R → R que consideraremos contı́nuas em seus domı́nios de definição. Seja λ ∈ R, constante.
A chamada equação integral de Fredholm de segundo tipo, ou simplesmente equação integral de
Fredholm, é a seguinte equação integral:
Z b
u(x) = f (x) + λ K(x, y, u(y)) dy .
a
Acima u : I → R é a função incógnita. Note que K, que é chamada de núcleo da equação integral,
é uma função de três variáveis e que a incógnita u(y) aparece na posição de seu terceiro argumento,
dentro da integral.
Seja C0 (I) a coleção de todas as funções contı́nuas de I em R. Já vimos anteriormente (Proposição
17.6, página 950) que C0 (I) é um espaço métrico completo em relação à métrica
Note que se h é uma função contı́nua em I então T (h) também é uma função contı́nua em I. A equação
integral de Fredholm pode ser então entendida como a equação de ponto fixo em C0 (I) dada por
u = T (u) .
É natural, portanto, procurar condições que façam de T uma contração no espaço métrico completo
C0 (I), pois assim poderemos evocar o Teorema de Ponto Fixo de Banach. É neste momento que a
condição de Lipschitz se faz útil. Vamos supor que a função K satisfaça a condição de Lipschitz para
a terceira variável: vamos supor que existe M ≥ 0 tal que para todo x, y ∈ I e todos z e z ′ ∈ R valha
K(x, y, z ) − K(x, y, z) ≤ M|z ′ − z| .
′
(18.12)
Então, pelo menos no caso em que M(b − a) < 1, a aplicação T é uma contração em C0 (I) com relação
à métrica d∞ dada. Para provar isso, usamos que, para duas funções h, l ∈ C0 (I) temos
Z bh i
T (h)(x) − T (l)(x) = λ K(x, y, h(y)) − K(x, y, l(y)) dy ,
a
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 18 1008/1461
Z b
≤ |λ| M |h(y) − l(y)| dy
a
Logo,
d∞ (T (h), T (l)) = sup |T (h)(x) − T (l)(x)| ≤ |λ| M (b − a) d∞ (h, l) .
x∈I
Assim, vimos que, sob as hipóteses acima, T é uma contração se |λ| < 1/M(b − a). Essa condição,
se satisfeita, garante, pelo Teorema de Ponto Fixo de Banach, que há uma e somente uma função u
em C0 (I) que é solução da equação integral de Fredholm. Com isso, a solução pode ser aproximada
(exponencialmente, na métrica d∞ ) partindo-se de qualquer u0 ∈ C0 (I) através da seqüência iterada
un = T (un−1 ), n ∈ N, n ≥ 1.
A condição suficiente para termos contratividade M(b − a) < 1 é, em suma, uma condição sobre a
função K e sobre o intervalo I. Note-se que não há qualquer restrição à função f , além da que seja
contı́nua.
Acima u : I → R, I := [a, b] com b > a é a função incógnita e f e K são definidas tal como no caso
das equações integrais de Fredholm. Note que K, que é chamada de núcleo da equação integral, é uma
função de três variáveis e que a incógnita u(y) aparece na posição de seu terceiro argumento, dentro da
integral. Note também que a equação integral de Volterra difere da equação integral de Fredholm pelo
aparecimento de mais uma dependência em x, a saber, no limite superior do intervalo de integração.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 18 1009/1461
Note que se h é uma função contı́nua em I então T (h) também é uma função contı́nua em I. A equação
integral de Volterra pode ser então entendida como a equação de ponto fixo em C0 (I) dada por
u = T (u) .
Como no caso da equação integral de Fredholm, poderı́amos procurar condições que façam de T uma
contração no espaço métrico completo C0 (I) pois, assim, poderı́amos novamente evocar o Teorema de
Ponto Fixo de Banach. Todavia, como veremos, podemos aqui proceder de um modo diferente do caso
da equação de Fredholm e obter condições mais fracas para garantir a existência de solução. O que
faremos não é procurar condições que garantam que T seja uma contração, mas provaremos que T m o
é, para algum m > 0. Assim, poderemos evocar a generalização do Teorema de Ponto Fixo de Banach
fornecida na Proposição 18.1, página 1000.
Para tal, procedemos como antes e assumimos ser a função K Lipschitz-contı́nua em relação à
terceira variável, ou seja, que valha a condição descrita em (18.12). Daqui tiramos, para x ∈ I,
Z xh i
T (h)(x) − T (l)(x) = K(x, y, h(y)) − K(x, y, l(y)) dy ,
a
A diferença entre essa última expressão e a expressão correspondente (18.13) para a equação de
Fredholm é que aqui surge o fator (x − a), que ainda depende de x, ao invés do fator constante
(b − a). Como se verá no que segue, essa diferença é importante. Vamos agora provar por indução que
para todo n ∈ N tem-se
n
n n n (x − a)
T (h)(x) − T (l)(x) ≤ M d∞ (h, l) , ∀x ∈ I . (18.14)
n!
Como já vimos que isso é verdade para n = 1, assumamos que essa relação é válida para um certo n
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 18 1010/1461
genérico. Então,
Z x
n+1 n+1 n n
T (h)(x) − T (l)(x) ≤ K(x, y, T (h)(y)) − K(x, y, T (l)(y)) dy
a
Z x
n
≤ M T (h)(y) − T n (l)(y) dy
a
Z x
n (y − a)n
≤ M M dy d∞ (h, l)
a n!
(x − a)n+1
= M n+1 d∞ (h, l) ,
(n + 1)!
o que prova (18.14) para todo n ∈ N, por indução. Assim, temos também que
(b − a)n
d∞ (T n (h), T n (l)) ≤ M n d∞ (h, l), ∀n ∈ N .
n!
Note-se agora que, para quaisquer M, a e b fixos, existe n grande o suficiente tal que
[M(b − a)]n
< 1
n!
(por que?). Assim, para um tal n, T n será uma contração. Pela generalização do Teorema de Ponto
Fixo de Banach fornecida pela Proposição 18.1, página 1000, vemos que T tem também um ponto fixo
único. Isso garante existência e unicidade das soluções da equação de Volterra em C0 (I). Note-se que,
aqui, foi suficiente assumir que K satisfaça a relação descrita em (18.12), não havendo restrições ao
valor do produto M(b − a), ao contrário do que ocorreu no caso da equação de Fredholm.
Vamos aqui tratar de mostrar algumas aplicações das equações integrais de Volterra à resolução de
problemas, muito freqüentemente encontrados em Fı́sica, envolvendo equações diferenciais de segunda
ordem com certas condições iniciais dadas.
Para tal, faremos uso da seguinte identidade, válida para qualquer função φ que seja pelo menos
duas vezes diferenciável em R:
Z t
φ(t) = φ(t0 ) + φ̇(t0 )(t − t0 ) + (t − t′ )φ̈(t′ ) dt′ . (18.15)
t0
Para ilustrar o uso que podemos fazer da identidade (18.15), vamos considerar a bem conhecida
equação do pêndulo simples
g
θ̈(t) = − sen(θ(t))
l
(para g > 0 e l > 0) com condições iniciais θ(0) = θ0 e θ̇(0) = ω0 . Substituindo o lado direito em
(18.15) temos Z
g t
θ(t) = θ0 + ω0 t − (t − t′ ) sen(θ(t′ )) dt′ , (18.16)
l 0
que é uma equação integral de Volterra não-linear para θ.
Deste último exercı́cio concluı́mos que a equação do pêndulo simples, com as condições iniciais
dadas, tem solução única em qualquer intervalo finito [−T, T ], 0 < T < ∞.
E. 18.14 Exercı́cio. Calcule as duas primeiras aproximações para a solução da equação integral (18.16)
seguindo o procedimento iterativo. Tome como ponto de partida a função identicamente nula: θ0 (t) ≡ 0.
Você consegue, olhando o resultado do cômputo das duas primeiras aproximações, interpretar fisicamente o
que elas representam? 6
E. 18.15 Exercı́cio. Seja a conhecida equação do pêndulo simples no limite de pequenas oscilações:
g
θ̈(t) = − θ(t) ,
l
com condições iniciais θ(0) = φ0 e θ̇(0) = ω0 . Usando (18.15) transforme-a em uma equação integral de
Volterra e resolva-a pelo método iterativo, tomando como ponto de partida a função identicamente nula:
θ0 (t) ≡ 0. Para tal, determine a n-ésima iterada θn exatamente
r e mostre que a mesma converge a uma
g
certa combinação linear de cos(ωt) e sen(ωt), onde ω = . Para tal você precisará lembrar-se da série
l
de Taylor das funções sen e cos. 6
Uma outra ilustração do uso das equações integrais de Volterra, e sua resolução via Teorema de
Ponto Fixo de Banach, pode ser encontrada no estudo das equações diferenciais lineares de segunda
ordem não-homogêneas com coeficientes não necessariamente constantes
com condições iniciais dadas do tipo u(0) = u0 e u̇(0) = v0 . Tais equações são muito freqüentemente
encontradas em problemas de Fı́sica-Matemática e o estudante certamente já as viu surgir, por exemplo,
em Mecânica Clássica.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 18 1012/1461
onde
f (t) := c(t) − (b(t)t + a(t))v0 − b(t)u0 (18.21)
e
K(t, t′ ) := −a(t) − b(t)(t − t′ ) . (18.22)
A equação (18.20) é claramente uma equação de Volterra linear para ü que, pelas hipóteses de
continuidade sobre as funções a, b e c, possui solução única no intervalo I, dado que nesse intervalo
K é limitado (por que?). A função u pode ser então obtida integrando-se duas vezes a solução ü da
equação (18.20) ou usando-se novamente a identidade (18.15).
O que vimos acima pode ser então resumido no seguinte teorema:
Teorema 18.3 Sejam as funções a, b e c contı́nuas no intervalo I = [−T, T ], T > 0. Então, nesse
intervalo, a solução da equação diferencial linear de segunda ordem não-homogênea
É notável que seja suficiente exigir tão pouco (só continuidade dos coeficientes) para garantir-se
existência e unicidade da equação acima. Há funções contı́nuas que não são diferenciáveis em parte
alguma (você conhece um exemplo?) ou mesmo algumas que são crescentes mas têm derivada nula
quase em toda parte (a função de Cantor tratada no capı́tulo de teoria da medida é um exemplo) e
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 18 1013/1461
mesmo com tais funções nos coeficientes de (18.17) tem-se garantida existência e unicidade da solução.
Para um outro tratamento da equação (18.17) usando a chamada série de Dyson, vide Capı́tulo 7.
A equação integral (18.20) é uma equação para ü. O leitor pode estar se perguntando se não
podemos ter uma equação integral diretamente para u. A resposta é positiva. Fazendo mais uma vez
uso da identidade (18.15), temos
Z t h i
u(t) = u0 + v0 t + (t − t′ ) − a(t′ )u̇(t′ ) − b(t′ )u(t′ ) + c(t′ ) dt′ . (18.24)
0
onde agora Z t
f (t) := u0 + t(v0 + a(0)u0 ) + (t − t′ )c(t′ )dt′ (18.26)
0
e
K(t, t′ ) := −a(t′ ) + (t − t′ ) a′ (t′ ) − b(t′ ) . (18.27)
E. 18.18 Exercı́cio. Seja a equação do pêndulo simples forçado no limite de pequenas oscilações
θ̈(t) + ω02 θ(t) = f (t)
onde f representa (a menos de uma constante) uma força externa dependente do tempo. Considere o caso
em que f é periódica de perı́odo T > 0, f (t) = f (t + nT ), ∀n ∈ Z, com f dada no intervalo [0, T ) por
f0 , se 0 ≤ t ≤ T /2 ,
f (t) =
0, se T /2 < t < T .
Transforme essa equação em uma equação integral de Volterra equivalente e mostre como a mesma pode
ser resolvida iterativamente. 6
Uma das principais aplicações do Teorema de Ponto Fixo de Banach dá-se, talvez, no contexto de
espaços de funções, mais precisamente, quando o mesmo é empregado na teoria das equações dife-
renciais ordinárias (EDOs). Como veremos, o Teorema de Ponto Fixo de Banach é crucial para a
demonstração de um famoso teorema sobre existência e unicidade de soluções para EDOs devido a
Picard15 e Lindelöf16 .
Antes de entrarmos nos detalhes técnicos, gostarı́amos de fazer uma pequena nota histórica: original-
mente, a demonstração de existência e unicidade de soluções para EDOs se deve a Lindelöf. Entretanto,
o método que aplicaremos aqui para a sua demonstração, fazendo uso explı́cito do Teorema de Ponto
Fixo de Banach, deve-se a Picard17 . Esses trabalhos datam da década de 90 do Século XIX.
No que segue procuraremos apresentar uma versão bastante geral do teorema sobre existência e uni-
cidade de soluções para EDOs válido para equações definidas em espaços de Banach B. Consideremos,
a saber, o seguinte tipo de equação diferencial de primeira ordem
ẋ(t) = f (t, x(t)) , (18.28)
onde t ∈ R e x : R → B representa uma função de uma variável real assumindo valores em um espaço
de Banach B. Acima, f : R × B → B é uma função de t ∈ R e x ∈ B sobre a qual suporemos certas
hipóteses convenientes de continuidade etc.
O leitor deve ter em mente o caso em que B = R (ou B = C), quando a equação acima representa
uma equação de primeira ordem de uma função real (complexa) desconhecida x(t), ou o caso em que
B = Rn (ou B = Cn ), quando a equação acima representa um sistema de equações de primeira ordem
de um vetor real (complexo) desconhecido de n componentes: x(t) = (x1 (t), . . . , xn (t)). Tais sistemas
foram discutidos no Capı́tulo 5, página 276.
Um problema de valor inicial consiste de uma equação diferencial ordinária, como a dada acima,
mais uma condição inicial
x(t0 ) = x0 , (18.29)
15
Charles Émile Picard (1856-1941).
16
Ernst Leonard Lindelöf (1870-1946).
17
Chamado de Método das aproximações sucessivas.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 18 1015/1461
onde t0 ∈ R e x0 ∈ B são dados. Com essa pequena definição, estamos prontos para enunciar o teorema
de existência e unicidade de Picard-Lindelöf:
Teorema 18.4 (Teorema de Picard-Lindelöf. Existência e unicidade de soluções de EDO’s)
Seja f : R × B → B não-identicamente nula e contı́nua na região fechada
para certos valores a > 0 e b > 0, onde k · k representa a norma do espaço de Banach B. Claro é que
f é limitada em R. Seja c > 0 definida por
Suponha ainda que f seja Lipschitz-contı́nua em R com relação ao seu segundo argumento, ou seja,
existe uma constante k ≥ 0 tal que para todos (t, x) e (t, y) ∈ R valha
o problema de valor inicial descrito pelas relações ẋ(t) = f (t, x(t)) com x(t0 ) = x0 apresenta uma
solução, a qual é única.
Uma condição suficiente para que a condição de Lipschitz acima se cumpra é que ∂y f (t, y) exista em
todo R e lá seja limitada, em cujo caso a constante de Lipschitz seria dada por k := sup k∂y f (t, y)k.
(t, y)∈R
2
Lema 18.1 Seja C([a, b], B) o espaço das funções contı́nuas definidas no compacto [a, b] ⊂ R
assumindo valores no espaço e Banach B. Então, C([a, b], B) é um espaço de Banach em relação à
métrica do supremo, definida por
A demonstração é idêntica à da Proposição 17.6, página 950, e não precisa se repetida aqui. O
segundo lema que utilizaremos é o seguinte.
e ⊂ C([a, b], B) o sub-espaço de C([a, b], B)
Lema 18.2 Sejam [a, b] ⊂ R e para κ > 0 fixo, seja C
formado pelas funções x : [a, b] → B tais que
Prova. Tudo o que precisamos fazer é mostrar que qualquer seqüência convergente (xn ) de elementos
de Ce converge para um x∗ que também está em C e (se você não entendeu a razão dessa afirmação,
confira a Proposição 17.7 da página 959, ou, equivalentemente, a Proposição 19.9, página 1054). De
fato, como xn ∈ Ce para todo n ∈ N, temos
Por outro lado, como por hipótese a seqüência (xn ) converge para x∗ , então, dado ε > 0, existe Nε > 0
tal que para todo n > Nε vale:
d∞ (xn , x∗ ) ≤ ε . (18.36)
Vamos agora utilizar a desigualdade triangular:
onde, na última desigualdade, fizemos uso das relações (18.35) e (18.36). Uma vez que (18.37) é
verdadeira para qualquer ε > 0, concluı́mos então que
e
mostrando que x∗ também pertence a C.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 18 1017/1461
Prova do Teorema 18.4. Seja J o intervalo [t0 − β, t0 + β] ⊂ R e considere o espaço C(J, B) das
funções contı́nuas em J assumindo valores em B, dotado com a métrica do supremo. Considere ainda
o sub-espaço C e ⊂ C(J, B) formado pelo conjunto das funções x(t) tais que
kx(t) − x0 k ≤ cβ , ∀t ∈ J . (18.38)
Pelo Lema 18.1, sabemos que C(J, B) é um espaço de Banach. Por outro lado, do Lema 18.2 vemos que
o subespaço Ce é fechado em C(J, B). Logo, da Proposição 17.7 da página 959 (ou equivalentemente,
da Proposição 19.9, página 1054), concluı́mos imediatamente que C e também é um espaço métrico
completo. Essa é uma conclusão importante da qual faremos uso adiante.
Definamos agora uma transformação T pela seguinte relação:
Z t
(T x)(t) := x0 + f (τ, x(τ )) dτ . (18.39)
t0
provando que T x dista de x0 menos que cβ, uma das condições definidores do conjunto C. e Resta-nos
e Para tal, já vimos que para x ∈ C
provar que T x é contı́nua caso x ∈ C. e fixo, J ∋ τ 7→ f (τ, x(τ )) ∈ B
é igualmente contı́nua e, portanto, limitada, ou seja, existe Nx > 0 tal que kf (τ, x(τ ))k ≤ Nx para
todo τ ∈ J. Logo, para t, t′ ∈ J, com t′ ≥ t
Z ′
Z t′
t
′
k(T x)(t ) − (T x)(t)k =
f (τ, x(τ )) dτ
≤ kf (τ, x(τ ))k dτ ≤ Nx |t′ − t| .
t
t
Como o lado direito vai a zero para t → t′ provou-se que (T x)(t) é contı́nua como função de t ∈ J.
e se x ∈ C.
Assim, T x ∈ C e
Chegamos agora ao ponto crucial de nossa demonstração. Observe que se x(t) ∈ C e satisfaz o nosso
problema de valor inicial (relações (18.28) e (18.29)), então certamente x(t) pode ser escrita como
Z t
x(t) = (T x)(t) = x0 + f (τ, x(τ )) dτ . (18.40)
t0
Para tal, procedemos como no tratamento da equação integral de Volterra, página 1009, assumindo
que a função f seja Lipschitz-contı́nua em relação à segunda variável, ou seja, que valha a condição
descrita em (18.32). Para t ∈ J, e h, l ∈ C, e
Z t
(T h)(t) − (T l)(t) = f (τ, h(τ )) − f (τ, l(τ )) dτ ,
t0
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 18 1018/1461
(18.32)
Z t
≤ k kh(τ ) − l(τ )k dτ
t0
n n n |t − t0 |n
k(T h)(x) − (T l)(x)k ≤ k d∞ (h, l) , ∀t ∈ J . (18.41)
n!
Como já vimos que isso é verdade para n = 1, assumamos que essa relação é válida para um certo n
genérico. Então,
Z t
n+1
(T h)(t) − (T n+1
l)(t)
≤ kf (τ, (T n h)(τ )) − f (τ, (T n l)(τ ))k dτ
t0
Z t
≤ kk(T n h)(τ ) − (T n l)(τ )k dτ
t0
Z t
n |τ − t0 |n
≤ k k dτ d∞ (h, l)
t0 n!
|t − t0 |n+1
= k n+1 d∞ (h, l) ,
(n + 1)!
o que prova (18.41) para todo n ∈ N e todo t ∈ J, por indução. Assim, temos também que
(kβ)n
d∞ (T n h, T n l) ≤ d∞ (h, l), ∀n ∈ N . (18.42)
n!
n
Note-se agora que, para quaisquer k e β fixos, existe n grande o suficiente tal que [kβ]
n!
< 1. Assim,
n
para um tal n, T será uma contração do espaço completo C e e si mesmo. Nessas condições, podemos
certamente evocar a versão generalizada do Teorema de Ponto Fixo de Banach fornecida pela Proposição
18.1, página 1000, garantindo a existência e a unicidade de x(t) ∈ C, e satisfazendo (18.40). Mas
isso implica justamente a existência e unicidade de solução em C(J, B) do problema de valor inicial
considerado, demonstrando o Teorema 18.4.
No Capı́tulo 5, especialmente na Seção 5.3.1, página 293 e seguintes, são discutidos exemplos de
equações diferenciais ordinárias que violam as condições do Teorema de Picard-Lindelöf.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 18 1019/1461
O leitor deve notar que esse teorema difere do Teorema de Picard-Lindelöf primeiro na hipótese de
que f seja Lipschitz-contı́nua em uma faixa infinita Fa, t0 de largura 2a centrada no instante inicial t0 ,
e não apenas em uma região compacta como o R do Teorema 18.4; segundo na conclusão, que afirma
que a solução existe em todo intervalo [t0 − a, t0 + a] e não em um intervalo eventualmente menor.
Prova. A demonstração segue passos semelhantes aos da prova do Teorema de Picard-Lindelöf. Seja J
o intervalo fechado [t0 − a, t0 + a]. Considere o espaço C(J, B) das funções contı́nuas em J assumindo
valores em B, dotado com a métrica do supremo. Pelo Lema 18.1, sabemos que C(J, B) é um espaço
de Banach. Como na prova do Teorema de Picard-Lindelöf, definimos a transformação
Z t
(T x)(t) := x0 + f (τ, x(τ )) dτ . (18.43)
t0
Vamos mostrar que T é uma aplicação que leva C(J, B) em C(J, B). De fato, para τ ∈ J e x ∈ C(J, B)
tem-se obviamente que (τ, x(τ )) ∈ Fa, t0 . Logo, a curva J ∋ τ 7→ (τ, x(τ )) ∈ R × B é contı́nua e está
inteiramente contida na região Fa, t0 , onde f é contı́nua por hipótese. Assim, J ∋ τ 7→ f (τ, x(τ )) ∈ B
é contı́nua e a sua integral estará bem definida. Concluı́mos daı́ que T pode ser aplicada a funções de
C(J, B). Agora vamos mostrar que T x é novamente um elemento em C(J, B) e para tal é preciso
provar que T x é contı́nua caso x ∈ C(J, B). Para x ∈ C(J, B) fixo, vimos que J ∋ τ 7→ f (τ, x(τ )) ∈ B
é igualmente contı́nua e, portanto, limitada, ou seja, existe Nx > 0 tal que kf (τ, x(τ ))k ≤ Nx para
todo τ ∈ J. Logo, para t, t′ ∈ J, com t′ ≥ t
Z ′
Z t′
t
′
k(T x)(t ) − (T x)(t)k =
f (τ, x(τ )) dτ
≤ kf (τ, x(τ ))k dτ ≤ Nx |t′ − t| .
t
t
Como o lado direito vai a zero para t → t′ provou-se que (T x)(t) é contı́nua como função de t ∈ J.
Assim, T x ∈ C(J, B) se x ∈ C(J, B).
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 18 1020/1461
Para provar que T possui um ponto fixo único em C(J, B) segue-se os mesmos passos da de-
monstração do Teorema de Picard-Lindelöf que conduziram à (18.42), que no presente caso assume a
forma
n n (aκa )n
d∞ (T h, T l) ≤ d∞ (h, l), ∀n ∈ N . (18.44)
n!
n
Note-se agora que, para quaisquer a e κa fixos, existe n grande o suficiente tal que [aκn!a ] < 1. Assim,
para um tal n, T n será uma contração do espaço completo C(J, B) e si mesmo. Nessas condições,
podemos certamente evocar a versão generalizada do Teorema de Ponto Fixo de Banach fornecida pela
Proposição 18.1, página 1000, garantindo a existência e a unicidade de x(t) ∈ C(J, B), satisfazendo
(18.40). Mas isso implica justamente a existência e unicidade de solução em C(J, B) do problema de
valor inicial considerado, demonstrando o Teorema 18.5.
Chegamos finalmente ao
Teorema 18.6 (Existência e unicidade de soluções globais) Seja f : R × B → B contı́nua em
todo R × B. Suponhamos também que para todo a > 0, f seja Lipschitz-contı́nua em relação à segunda
variável na faixa Fa, t0 , ou seja, para cada a > 0 existe uma constante ka (eventualmente dependente de a
e denominada constante de Lipschitz) tal que para todos (t, y), (t, v) ∈ Fa, t0 vale kf (t, y)−f (t, v)k ≤
ka ky − vk. Então, para qualquer x0 ∈ B, o problema de valor inicial ẋ(t) = f (t, x(t)) com x(t0 ) = x0
apresenta uma solução única válida para todo t ∈ R.
Uma condição suficiente para que a condição de Lipschitz acima se cumpra é que ∂y f (t, y) exista
em todo R × B e seja limitada em cada faixa Fa, t0 , a > 0, em cujo caso as constantes de Lipschitz
podem ser escolhidas como ka := sup k∂y f (t, y)k. 2
(t, y)∈Fa, t0
R = { (t, x) ∈ R × B : |t − t0 | ≤ a, kx − x0 k ≤ b } , (18.45)
para certos a > 0, b > 0 e x0 ∈ B, onde k · k representa a norma do espaço de Banach B. Vamos supor
que R que satisfaça as seguintes condições:
1. I ⊂ [t0 − a, t0 + a].
2. (t0 , x1 ) ∈ R e (t0 , x2 ) ∈ R.
3. f1 e f2 são contı́nuas em R.
4. f1 é Lipschitz-contı́nua em R com constante κ1 > 0, ou seja, para todos (t, u) e (t, v) ∈ R vale
Z th i Z th i
= x1 − x2 + f1 (τ, y1 (τ )) − f1 (τ, y2 (τ )) dτ + f1 (τ, y2 (τ )) − f2 (τ, y2 (τ )) dτ .
t0 t0
(18.48)
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 18 1022/1461
Na última igualdade acima fizemos uso da hipótese 5 do Teorema 18.7, de modo que f1 (τ, y2 (τ )) está
bem definido para τ ∈ I. Supondo, sem perda de generalidade, que t ≥ t0 , temos pela condição de
Lipschitz para f1 ,
Z t h i
Z t
Z t
f1 (τ, y1 (τ )) − f1 (τ, y2 (τ )) dτ
≤
f1 (τ, y1 (τ ))−f1 (τ, y2 (τ ))
dτ ≤ κ1 ky1(τ )−y2 (τ )kdτ .
t0 t0 t0
Definindo-se
C := sup kf1 (t, x) − f2 (t, x)k ,
(t, x)∈R
tem-se
Z t h i
f (τ, y (τ )) − f (τ, y (τ )) dτ
≤ C (t − t0 ) .
1 2 2 2
t0
Nessa forma, vemos pelo Lema 18.3, página 1030, que podemos aplicar a desigualdade de Grönwall,
expressão (18.A.2), obtendo
C C
ky1 (t) − y2 (t)k + ≤ D+ eκ1 (t−t0 ) ,
κ1 κ1
ou seja
C κ1 (t−t0 )
ky1 (t) − y2 (t)k ≤ Deκ1 (t−t0 ) + e −1 .
κ1
O caso t < t0 é análogo. Isso completa a prova.
Essa desigualdade informa-nos que em intervalos finitos de tempo, sob as condições do Teorema 18.7,
as soluções do problema de valor inicial ẋ(t) = f1 (t, x(t)), x(t0 ) = x1 dependem continuamente da
condição inicial x1 . A desigualdade acima informa-nos também que variando-se as condições iniciais as
soluções da equação diferencial acima pode no máximo divergir exponencialmente para curtos intervalos
de tempo.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 18 1023/1461
• O expoente de Lyapunov
para |t − t0 | pequeno e kx1 − x2 k pequeno. Alguns autores caracterizam a presença de caos no sistema
definido pela equação diferencial que tratamos através da presença de um expoente de Lyapunov
positivo (não-nulo). Essa caracterização, ainda que popular em certos cı́rculos, não é geral o suficiente
e é substituı́da por outras caracterizações melhores, notadamente em textos matemáticos (vide, por
exemplo, [69]).
Essa desigualdade informa-nos que em intervalos finitos de tempo, as soluções do problema de valor
inicial ẋ(t) = f1 (t, x(t)), x(t0 ) = x1 dependem continuamente de deformações da função f1 (por exem-
plo, deformações por mudanças dos parâmetros que definem a função f1 ) que respeitem as condições
do Teorema 18.7. Essas deformações podem, inclusive, ser tais que f1 seja levada a uma função não-
Lipschitz-contı́nua f2 (note que no enunciado do Teorema 18.7 assumimos a continuidade de Lipschitz
apenas para a função f1 ).
A continuidade em relação a parâmetros também pode ser inferida do seguinte argumento elegante.
Seja o problema de valor inicial ẋ(t) = f1 (t, x(t), p0 ), x(t0 ) = x1 , onde f1 depende de um parâmetro
p0 , como indicado. Como p0 é constante, esse problema equivale ao sistema de equações diferenciais
ṗ(t) = 0 ,
18
Aleksandr Mikhailovich Lyapunov (1857-1918). O nome de Lyapunov é grafado de diversas outras formas: Liapunov,
Liapounov, Liapounoff etc.
19
O leitor deve ser advertido do fato de haver outras definições de expoente de Lyapunov na literatura, nem todas
totalmente equivalentes a essa.
20
Pode ser necessário substituir os limites por lim sup’s e lim inf’s.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 18 1024/1461
com condições iniciais x(t0 ) = x1 , p(t0 ) = p0 . A esse sistema aplicam-se também os teoremas anteriores
sobre existência, unicidade e continuidade em relação a condições iniciais, o que nos permite inferir
a continuidade desejada caso, adicionalmente, f1 (t, x, p) seja Lipschitz-contı́nua na sua dependência
com o parâmetro p em uma vizinhança de p0 .
21
Andrey Nikolaevich Kolmogorov (1903-1987); Vladimir Igorevich Arnol’d (1937-); Jürgen Moser (1928-1999).
22
Agradecemos a D. A. Cortez por essa referência.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 18 1025/1461
Prova. Para simplificar a notação denotemos o operador linear D2 F (x0 , y0 ) : Y → Y por L. A idéia
da prova é usar o Teorema do Ponto Fixo de Banach para mostrar que para cada x suficientemente
próximo de x0 a aplicação Tx : B → Y dada por Tx (y) ≡ T (x, y) := y − L−1 F (x, y) tem um ponto
fixo único (que denotaremos por f (x)) em uma vizinhança suficientemente pequena de y0 . Assim
f (x) = Tx (f (x)), ou seja, L−1 F (x, f (x)) = 0, o que implica F (x, f (x)) = 0. Para provar os fatos
delineados acima, provaremos que existe um aberto B1 ⊂ B que contém y0 e que é levado em si mesmo
por Tx , desde que x esteja próximo o suficiente de x0 . Em seguida provaremos que Tx é uma contração
quando restrito ao fecho de B1 . O Teorema do Ponto Fixo de Banach garante, então, a existência e
unicidade do ponto fixo. As demais afirmações do enunciado (continuidade e diferenciabilidade de f )
seguem de certas estimativas que encontraremos no caminho.
Para x fixo em A, a derivada de Tx (y) em relação a y é a derivada parcial
D2 T (x, y) = 1Y − L−1 D2 F (x, y) . (18.53)
Trata-se de um operador linear e limitado de Y em Y. Analogamente,
D1 T (x, y) = L−1 D1 F (x, y) . (18.54)
Trata-se de um operador linear e limitado de X em Y.
Tomemos 0 < q < 1 fixo. O fato que D2 F (x0 , y0 ) = L implica que 1Y − L−1 D2 F (x, y) anula-se no
ponto (x0 , y0 ). Assim, a continuidade de D2 F (x, y) como função de x e y garante que existe ǫ1 > 0
tal que se kx − x0 kX ≤ ǫ1 e ky − y0 kY ≤ ǫ1 então
k1Y − L−1 D2 F (x, y)k < q . (18.55)
Como veremos logo abaixo, é importante sabermos estimar a norma de diferenças como T (x, y) −
T (x′ , y ′ ). Com uso do Teorema 23.1, página 1137, podemos escrever23
Z 1
′ ′ ′ ′ ′
x − x′
T (x, y) − T (x , y ) = T τ (x, y) + (1 − τ )(x , y ) dτ . (18.56)
0 y − y′
Usando a representação (23.14) e escrevendo
T ′ (x, y) = D1 T (x, y) ΠX + D2 T (x, y) ΠY ,
ficamos com
Z 1
′ ′ ′ ′
x − x′
T (x, y) − T (x , y ) = D1 T τ (x, y) + (1 − τ )(x , y ) ΠX dτ
0 y − y′
Z 1
′ ′
x − x′
+ D2 T τ (x, y) + (1 − τ )(x , y ) ΠY dτ
0 y − y′
Z 1
′ ′
= D1 T τ (x, y) + (1 − τ )(x , y ) dτ (x − x′ )
0
Z 1
′ ′
+ D2 T τ (x, y) + (1 − τ )(x , y ) dτ (y − y ′) .
0
23
Para sermos estritos quanto à notação, deverı́amos escrever a combinação linear convexa que surge no argumento de
′
T em (18.56) na forma de vetores-coluna: τ xy + (1 − τ ) xy′ . Renunciamos a esse preciosismo, porém.
′
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 18 1026/1461
Assim,
kT (x, y) − T (x′ , y ′)k ≤ γ1 kx − x′ kX + γ2 ky − y ′ kY , (18.57)
onde
γj := sup
Dj T τ (x, y) + (1 − τ )(x′ , y ′ )
, j = 1, 2 .
τ ∈[0, 1]
poderemos estimar
γ1 = sup
D1 T τ (x, y) + (1 − τ )(x′ , y ′)
τ ∈[0, 1]
= sup
L−1 D1 F τ (x, y) + (1 − τ )(x′ , y ′ )
τ ∈[0, 1]
−1
≤ sup
L D1 F (x′′ , y ′′ )
=: β ,
x′′ ∈A1 , y ′′ ∈B1
e
γ2 = sup
D2 T τ (x, y) + (1 − τ )(x′ , y ′ )
τ ∈[0, 1]
≤ sup
1Y − L−1 D2 F (x′′ , y ′′)
x′′ ∈A1 , y ′′ ∈B1
(18.55)
< q. (18.58)
Podemos escolher um número ǫ2 > 0 satisfazendo simultaneamente ǫ2 < ǫ1 e βǫ2 < (1 − q)ǫ1 (se
β ≥ 1 a segunda condição implica a primeira) e definir
a última desigualdade devendo-se a βǫ2 < (1 − q)ǫ1 . A expressão (18.59) ensina-nos que se x ∈ A2
então Tx é uma aplicação de B1 em si mesmo.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 18 1027/1461
provando que Tx é uma contração. Como B1 é um espaço métrico completo, podemos agora evocar o
Teorema de Ponto Fixo de Banach e assim estabelecer que para cada x ∈ A2 a aplicação Tx : B1 → B1
tem um único ponto fixo em B1 , que denotaremos por f (x). A equação de ponto fixo f (x) = Tx (f (x))
significa F (x, f (x)) = 0, como comentamos no inı́cio da demonstração.
Para x, x′ ∈ A2 e pela equação de ponto fixo tem-se f (x) − f (x′ ) = Tx (f (x)) − Tx′ (f (x′ )) =
T (x, f (x)) − T (x′ , f (x′ )) e, novamente por (18.57) com γ1 ≤ β, γ2 < q, segue que
ou seja, kf (x) − f (x′ )kY < β(1 − q)−1 kx − x′ kX, o que implica que f é contı́nua em A2 .
Pela unicidade, tem-se também que f (x0 ) = y0 .
A diferenciabilidade de f pode ser estabelecida, sob as hipóteses dadas, escrevendo-se
f (x + h) − f (x) = S(x, h) + T(x, h) + D1 T (x, f (x)) h + D2 T (x, f (x)) f (x + h) − f (x) , (18.60)
onde,
h i
S(x, h) := T (x + h, f (x + h)) − T (x, f (x + h)) − D1 T (x, f (x + h)) h
h i
+ T (x, f (x + h)) − T (x, f (x)) − D2 T (x, f (x)) f (x + h) − f (x)
E. 18.20 Exercı́cio. Verifique a validade da expressão (18.60) observando que os termos do lado direito
simplesmente se cancelam para dar o lado esquerdo. 6
h i−1
Observe-se, de passagem, que da continuidade de D2 F (x, y), da hipótese que D2 F (x, y) existe
no ponto (x0 , y0 ) e do fato de f ser contı́nuo com f (x0 ) = y0 , segue que D2 F (x, f (x)) é igualmente
invertı́vel em uma vizinhança suficientemente pequena de x0 , pois o conjunto de elementos invertı́veis
em uma álgebra de Banach com unidade (como a álgebra dos operadores lineares limitados de Y em
Y, da qual D2 F (x, f (x)) faz parte) é aberto (Corolário 26.4, página 1297). Isso justifica a expressão
acima.
Do hipótese que F (e, portanto, T ) é diferenciável em relação a seus dois argumentos segue que
1 h i
lim T (x + h, f (x + h)) − T (x, f (x + h)) − D1 T (x, f (x + h)) h = 0
h→0 khkX
e que
1 h i
lim T (x, f (x + h)) − T (x, f (x)) − D2 T (x, f (x)) f (x + h) − f (x) = 0 .
h→0 khkX
Portanto,
1
lim S(x, h) = 0 .
h→0 khkX
1 h
lim T(x, h) = lim D1 T (x, f (x + h)) − D1 T (x, f (x)) = 0.
h→0 khkX h→0 khkX
• Exemplos e contra-exemplos
E. 18.23 Exercı́cio-exemplo. Esse exercı́cio mostra uma situação na qual não existe nenhuma função f
satisfazendo f (x0 ) = y0 e F (x, f (x)) = 0. Seja a função F (x, y) = x2 + y 2 com x, y ∈ R. No ponto
(x0 , y0 ) = (0, 0) a função F se anula, mas não existe nenhuma f tal que f (x0 ) = y0 e F (x, f (x)) = 0 em
uma vizinhança de x0 , pois (0, 0) é o único zero de F . Quais hipóteses do Teorema da Função Implı́cita
falham nesse caso? 6
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 18 1029/1461
E. 18.24 Exercı́cio-exemplo. Esse exercı́cio mostra uma situação na qual existe mais de uma função f
satisfazendo f (x0 ) = y0 e F (x, f (x)) = 0. Seja F definida por F (x, y) = x2 − y 2 com x, y ∈ R. No
ponto (x0 , y0 ) = (0, 0) a função F se anula e f± (x) = ±x satisfazem f± (x0 ) = y0 e F (x, f± (x)) = 0.
Quais hipóteses do Teorema da Função Implı́cita falham nesse caso? A relação (18.52) vale para ambas as
funções f± ? 6
Apêndices
18.A O Lema de Grönwall
O Lema de Grönwall24 , que apresentamos abaixo, é de demonstração muito simples mas possui várias
aplicações na teoria das equações diferenciais ordinárias ou parciais. Usamo-lo, por exemplo, na de-
monstração do Teorema 18.7, página 1020, teorema esse que, sob hipóteses, estabelece a continuidade
de soluções de equações diferenciais ordinárias em relação a mudanças nas condições iniciais e a de-
formações de parâmetros.
Lema 18.3 (Lema de Grönwall, ou Desigualdade de Grönwall) Seja u : [t0 , T ] → [0, ∞),
uma função contı́nua e não-negativa definida em algum intervalo [t0 , T ], T > t0 , e suponha que
existam duas constantes α ≥ 0 e β ≥ 0 tais que valha
Z t
u(t) ≤ α + β u(τ ) dτ (18.A.1)
t0
A desigualdade (18.A.2) é denominada desigualdade de Grönwall. Note que (18.A.2) implica que u
é identicamente nula, caso α = 0. Para generalizações do Lema de Grönwall, vide [104].
Prova. No caso β = 0 as desigualdades (18.A.1) Rt e (18.A.2) equivalem e não há o que se demonstrar,
Assumamos então β > 0. A função v(t) := t0 u(τ ) dτ é contı́nua e diferenciável e dtd v(t) = u(t). Assim,
a relação (18.A.1) afirma-nos
que dtd v(t)−βv(t) ≤ α. Multiplicando essa expressão por e−β(t−t0 ) ficamos
d −β(t−t0 ) −β(t−t0 )
com dt e v(t) ≤ αe . Integrando ambos os lados dessa desigualdade entre t0 e t (sendo
−β(t−t0 ) α −β(t−t0 )
t0 ≤ t ≤ T ) e usando que v(t0 ) = 0, obtem-se e v(t) ≤ β 1 − e Multiplicando ambos os
+β(t−t0 )
lados por e , obtem-se
α β(t−t0 )
v(t) ≤ e −1 . (18.A.3)
β
A expressão (18.A.1) afirma que u(t) ≤ α + β v(t). Com a desigualdade (18.A.3), segue disso que
u(t) ≤ αeβ(t−t0 ) , como querı́amos provar.
24
Thomas Hakon Grönwall (1877-1932).
Capı́tulo 19
Espaços Topológicos e Espaços Mensuráveis.
Definições e Propriedades Básicas
Conteúdo
19.1 Definições, Propriedades Elementares e Exemplos . . . . . . . . . . . . . . 1032
19.2 Algumas Construções Especiais e Exemplos . . . . . . . . . . . . . . . . . 1038
19.2.1 Topologias e σ-álgebras Geradas . . . . . . . . . . . . . . . . . . . . . . . . . 1038
19.2.2 Bases de Espaços Topológicos . . . . . . . . . . . . . . . . . . . . . . . . . . . 1042
19.2.3 Topologias e σ-álgebras Induzidas . . . . . . . . . . . . . . . . . . . . . . . . 1044
19.2.4 Topologias e σ-álgebras Produto . . . . . . . . . . . . . . . . . . . . . . . . . 1047
19.3 Interior e Fecho de Conjuntos em Espaços Topológicos . . . . . . . . . . . 1047
19.3.1 Fecho de Conjuntos em Espaços Métricos . . . . . . . . . . . . . . . . . . . . 1053
19.4 Espaços Topológicos Separáveis e Segundo-Contáveis . . . . . . . . . . . . 1054
1031
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 19 1032/1461
• Topologia
1. ∅ ∈ τ e X ∈ τ .
2. Se A ∈ τ e B ∈ τ então A ∩ B ∈ τ .
[
3. Se I é um conjunto arbitrário de ı́ndices e Aλ ∈ τ para todo λ ∈ I então Aλ também é um
λ∈I
elemento de τ .
• σ-álgebra
1. ∅ ∈ M e X ∈ M.
2. Se A ∈ M então Ac = X \ A ∈ M.
[
3. Se {An , n ∈ N} é uma coleção enumerável arbitrária de elementos de M, então An também
n∈N
é um elemento de M.
• Comentários e nomenclatura
idéias topológicas sob influência de Gauss6 . A noção de conjuntos abertos e fechados (na topologia
usual da reta real) foi introduzida por Cantor. Fréchet percebeu sua conexão com a noção de
métrica (a qual introduziu). A noção moderna de Espaço Topológico foi introduzida pela primeira
vez por Hausdorff em 1914. Hausdorff também cunhou a expressão “espaço métrico”, noção criada
por Fréchet em 1906, e foi o primeiro a introduzir a noção de medida, entre outras coisas.
A palavra “álgebra” na designação “σ-álgebra” tem origem histórica em uma analogia observada
por Felix Hausdorff entre certas operações envolvendo conjuntos, tais como união e intersecção
e operações algébricas de soma e multiplicação. Apesar disso o conceito de σ-álgebra não deve
ser confundido de forma alguma com o conceito usual de álgebra (um espaço vetorial com um
produto entre seus elementos). A analogia a que nos referimos é a de que a operação de união de
conjuntos disjuntos pode ser entendida como uma “soma” de conjuntos com um elemento neutro,
a saber, o conjunto vazio (pois A ∪ ∅ = A para qualquer conjunto A). O papel de “multiplicação”
entre conjuntos seria exercido pela intersecção, onde novamente o conjunto vazio seria o elemento
neutro (pois sempre A ∩ ∅ = ∅).
Ainda sobre a nomenclatura, o “σ” do nome “σ-álgebra” é usado em função da propriedade 3 da
definição, que se refere ao fato de σ-álgebras serem fechadas em relação a operações envolvendo
uniões (“σomas”) enumeráveis de conjuntos. Aqui o ponto importante é a enumerabilidade e, por
isso, é freqüente encontrar-se o sı́mbolo σ em outras áreas da matemática onde a enumerabilidade
desempenha algum papel (como na topologia chamada de σ-fraca, por exemplo).
Os subconjuntos A ⊂ X que são membros de uma topologia τ são chamados de conjuntos abertos
(em relação à topologia τ ). Se um subconjunto F ⊂ X é tal que F c ∈ τ , então F é dito ser um
conjunto fechado. Note que há conjuntos que podem ser simultaneamente abertos e fechados em
relação à mesma topologia. Por exemplo, ∅ e X são ao mesmo tempo abertos e fechados (por
que?). Além destes conjuntos pode haver outros também. Veremos exemplos.
O estudante deve ser advertido que um conjunto pode ser aberto em relação a uma topologia,
mas não em relação a outra. O mesmo comentário vale para conjuntos fechados.
O estudante deve ser advertido que um conjunto pode ser mensurável em relação a uma σ-álgebra,
mas não em relação a outra.
Note que, pela definição, se A1 , . . . , An é uma coleção de n conjuntos abertos de uma topologia τ
então A1 ∩ · · · ∩ An é também um conjunto aberto (por que?).
Note que, no item 3 da definição de topologia, nenhuma restrição é feita em relação ao conjunto
de ı́ndices I, podendo o mesmo ser até um conjunto não-contável.
[
m > n terı́amos claramente A1 ∪ · · · ∪ An = Aa que é um elemento de M pelo item 3 da
a∈N
definição de σ-álgebra.
Considere τ o conjunto, formado por apenas dois elementos, dado por τ = {∅, X}. Então, τ
é uma topologia em X (verifique!). É chamada de topologia indiscreta ou topologia trivial e é a
menor topologia que se pode formar em X.
Seja X um espaço métrico com uma métrica d e seja τd a coleção de todos os seus subconjuntos
abertos em relação a d. Um subconjunto A de X é dito ser aberto (em relação à métrica d) se tiver
a seguinte propriedade: para todo x ∈ A podemos achar um número real δ(x) > 0 (eventualmente
dependente de x) tal que para todo x′ ∈ X com a propriedade que d(x, x′ ) < δ(x) (ou seja, que
dista de x menos que δ(x)) vale que x′ também é um elemento de A. Então, conforme já vimos na
Seção 17.2, página 956, τd é, de fato, uma topologia, chamada de topologia induzida pela métrica
d.
Uma topologia τ em X é dita ser uma topologia métrica se existir uma métrica d em X tal que
τ = τd .
Nem todas as topologias são métricas. Condições que garantam que uma topologia seja métrica
são denominadas condições de metrizabilidade.
No caso do conjunto dos reais, podemos introduzir a topologia métrica definida pela métrica
d(x, y) = |x − y|. Essa topologia é denominada de topologia usual da reta e para designá-la usa-
remos aqui o sı́mbolo τR . Esse nome é auto-explicativo: quase toda a Análise Real é feita com o uso
dessa topologia. Conforme o costume de toda a literatura, sempre que falarmos de uma topologia
nos reais pensaremos nessa topologia usual, salvo menção explı́cita em contrário. Fique claro porém
que sobre os números reais podem ser definidas outras topologias além τR (e da topologia trivial e da
topologia discreta). Exemplos serão vistos adiante.
E. 19.1 Exercı́cio. Mostre, seguindo as definições de conjuntos abertos e fechados em espaços métricos,
que todo intervalo (a, b) com a < b ∈ R é um elemento de τR e que todo intervalo [a, b] com a ≤ b é um
conjunto fechado em relação a τR . 6
Considere M o conjunto, formado por apenas dois elementos, dado por M = {∅, X}. Então, M
é uma σ-álgebra (verifique!) e é a menor σ-álgebra que se pode formar em X. Essa σ-álgebra é
chamada de σ-álgebra indiscreta ou σ-álgebra trivial.
Outros exemplos menos triviais de σ-álgebras serão vistos adiante. Exemplos realmente interessantes
de σ-álgebras requerem construções elaboradas, como a da σ-álgebra de Lebesgue7 , a qual trataremos
com certo detalhe no Capı́tulo 21.
E. 19.3 Exercı́cio. Sejam α, β e γ três objetos distintos (por exemplo, três letras distintas do alfabeto
grego). Mostre que
M = ∅, {α, β}, {γ}, {α, β, γ}
7
Henri Léon Lebesgue (1875-1941).
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 19 1036/1461
E. 19.4 Exercı́cio. Sejam α, β e γ três objetos distintos (por exemplo, três letras distintas do alfabeto
grego). Mostre que
M = ∅, {α}, {β}, {γ}, {α, β}, {α, γ}, {β, γ}, {α, β, γ}
• Abertos e fechados
Sejam X um conjunto e τ uma topologia em X. Denotemos por F(τ ) a coleção de todos os conjuntos
fechados de X em relação à τ , ou seja, a coleção de todos os conjuntos F de X tais que F c é um aberto,
ou seja, um elemento de τ .
É muito importante o estudante notar que F(τ ) pode conter elementos que não são elementos de τ .
Porém F(τ ) e τ nunca são conjuntos disjuntos, pois ambos sempre têm elementos em comum. Sempre
se tem, por exemplo, que {∅, X} ⊂ F(τ ) ∩ τ .
Exemplos de topologias onde τ = F(τ ) são a topologia trivial e a topologia discreta (por que?). Há,
porém, muitos outros exemplos, como mostra o próximo exercı́cio.
E. 19.7 Exercı́cio. Seja a reta real e X o seguinte subconjunto de R: X = (0, 1) ∪ (1, 2). Mostre
que a coleção τ de subconjuntos de X dada por τ = {∅, (0, 1), (1, 2), X} é uma topologia em X e que
F(τ ) = τ . Note que τ não é nem a topologia trivial nem a discreta de X. 6
A coleção F(τ ) de todos os conjuntos fechados em relação a uma topologia τ em X possui uma
série de propriedades especiais:
1. ∅ ∈ F(τ ) e X ∈ F(τ ).
2. Se F ∈ F(τ ) e G ∈ F(τ ) então F ∪ G ∈ F(τ ).
\
3. Se I é um conjunto arbitrário de ı́ndices e Fλ ∈ F(τ ) para todo λ ∈ I então Fλ também é um
λ∈I
elemento de F(τ ).
E. 19.9 Exercı́cio. Sejam as seguintes coleções de conjuntos fechados na reta real (na topologia usual):
{Fn = \
[−1/n, 1 + 1/n], n ∈ N, n > 0} e {Gn = [1/n, [ 1 − 1/n], n ∈ N, n > 1}. Mostre explicitamente
[
que Fn é um conjunto fechado mas que Gn é um conjunto aberto. Note que Gn
n∈N, n>0 n∈N, n>1 n∈N, n>1
não é uma união finita! 6
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 19 1037/1461
Seja agora (reciprocamente) uma coleção F de subconjuntos de um conjunto X tal que as seguintes
condições (que chamaremos de “axiomas de conjuntos fechados”) são verdadeiras:
1. ∅ ∈ F e X ∈ F.
2. Se F ∈ F e G ∈ F então F ∪ G ∈ F.
\
3. Se I é um conjunto arbitrário de ı́ndices e Fλ ∈ F para todo λ ∈ I então Fλ também é um
λ∈I
elemento de F.
Vamos ilustrar o que acabamos de ver com dois exemplos (importantes, pois deles se extraem alguns
exemplos e contra-exemplos de propriedades de topologias, como veremos adiante).
Seja X um conjunto e Cc a coleção de todos os conjuntos contáveis de X. Então, vamos mostrar
que a coleção C = {∅, X} ∪ Cc satisfaz os axiomas de conjuntos fechados.
As propriedades que ∅ ∈ C e X ∈ C são óbvias por definição. Se F e G são elementos de C então
F ∪ G também é um elemento de C, basicamente pois a união de dois conjuntos contáveis é também um
conjunto contável. Finalmente a intersecção arbitrária de conjuntos contáveis é também um conjunto
contável (pois, como vimos acima, qualquer subconjunto de um conjunto contável também é contável)
e, com isso, fica também verificado o axioma 3.
Com isso, e com o que dissemos anteriormente, vemos que a coleção τ (C) é uma topologia em X.
Todo elemento de τ (C) é então ∅, X ou da forma X \ C, onde C é um conjunto contável. Chamaremos
a topologia τcc ≡ τ (C) de topologia co-contável de X.
Mostre que τcf é uma topologia em X (chamada de topologia co-finita de X). Como são os conjuntos
fechados em relação a τcf ? 6
E. 19.12 Exercı́cio. Verifique que τcf ⊂ τcc . Para que tipo de conjunto X podemos ter τcf = τcc ? 6
A topologia co-contável tem a seguinte propriedade incomum. Sejam A e B dois abertos não-
vazios quaisquer da topologia co-contável de um conjunto X e suponha que X não seja um conjunto
contável. Então, A∩B sempre é um conjunto não-vazio. Para provar isso, notemos que, pelas hipóteses,
A = X \ C1 e B = X \ C2 , para dois subconjuntos contáveis C1 e C2 de X. Daı́, A ∩ B = (X \ C1 ) ∩ (X \
C2 ) = C1c ∩ C2c = (C1 ∪ C2 )c . Agora, como C1 ∪ C2 é também um conjunto contável, seu complemento
é não-vazio pois X não é contável.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 19 1038/1461
Assim, provamos que dois abertos não-vazios quaisquer da topologia co-contável de um conjunto
não-contável (como, por exemplo, o conjunto dos reais) sempre se interceptam. Como veremos, isso
significa que tais espaços topológicos não são do tipo Hausdorff (a definição de espaço Hausdorff virá
à página 1100).
Este resultado tem um uso de grande importância: fornecer um método de gerar topologias. Seja A
uma coleção qualquer de subconjuntos de X. Considere a coleção de todas as topologias que contém A
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 19 1039/1461
como um subconjunto. Como vimos, a intersecção de todas essas topologias é também uma topologia
que denotaremos por τ [A]. A topologia τ [A] é chamada de topologia gerada por A.
Assim, cada coleção A de subconjuntos de um conjunto X tem automaticamente uma topologia
associada a si: a topologia gerada pela coleção. Muitas topologias podem ser produzidas dessa forma,
como sendo geradas por uma coleção conveniente de subconjuntos de X.
E. 19.14 Exercı́cio. Mostre que A ⊂ τ [A] e que τ [A] é a menor topologia que contém A como
subconjunto, ou seja, se houver uma topologia τ ′ ⊂ τ [A] que contém A, então τ ′ = τ [A]. 6
O método de gerar topologias descrito acima é muito usado e será reencontrado adiante em outros
exemplos.
Já definimos a topologia usual da reta como sendo a topologia induzida pela métrica d(x, y) =
|y − x|. Vamos mostrar aqui que há uma outra caracterização da mesma topologia.
Seja A a coleção de todos os intervalos abertos (a, b) de R com a < b. Vamos provar que τR = τ [A],
ou seja, que a topologia usual é idêntica à topologia gerada pela coleção de todos os intervalos abertos
de R.
Já sabemos que A ⊂ τR , pois todo intervalo do tipo (a, b), a < b, é aberto de τR . Como por
definição τ [A] é a menor topologia que contém A, tem-se que τ [A] ⊂ τR . Tudo o que precisamos fazer,
então, é provar que τR ⊂ τ [A].
Seja τ ′ uma topologia qualquer que contenha A. Isso significa que uniões arbitrárias de elementos
de A são também elementos de τ ′ (pois τ ′ é uma topologia e pelo item 3 da definição de topologia).
Se B é um elemento de τR isso significa que para cada x ∈ B existe δ(x) > 0 tal que y ∈ B desde que
|y − x| < δ(x). Não é difı́cil ver então que isso significa que podemos escrever
[
B = (x − δ(x), x + δ(x)).
x∈B
Como todo intervalo do tipo (x − δ(x), x + δ(x)) é um elemento de A, segue que B ∈ τ ′ . Como isso
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 19 1040/1461
vale para todo B ∈ τR isso significa que τR ⊂ τ ′ . Esse último fato vale, porém, para qualquer que seja
a topologia τ ′ , desde que contenha a coleção A. Portanto, concluı́-se que τR ⊂ τ [A], como querı́amos
mostrar.
• A topologia de Sorgenfrey de R
E. 19.19 Exercı́cio. Mostre que τR é um subconjunto próprio de τ [S]. Sugestão: mostre que todo
intervalo aberto (a, b), a < b, é um elemento de τ [S] e conclua a partir daı́ que τR ⊂ τ [S]. Para ver que
τ [S] \ τR não é vazio, note apenas que um um intervalo semi-aberto [a, b), a < b é um elemento de τ [S],
mas não de τR . 6
Note ainda que τ [S] é menor que a topologia discreta P(R) pois intervalos fechados [a, b], a ≤ b
não são elementos de τ [S].
Assim, vimos nos dois últimos exercı́cios que τR ⊂ τ [S] ⊂ P(R), onde todas essas inclusões são
próprias.
A topologia τ [S] é rica em conjuntos que são simultaneamente abertos e fechados.
E. 19.21 Exercı́cio. Mostre que na topologia de Sorgenfrey de R todo intervalo do tipo [a, b) com
a < b é simultaneamente aberto e fechado. 6
E. 19.22 Exercı́cio. O último exercı́cio inspira a seguinte questão: será que em τ [S] todo conjunto aberto
é também fechado? Verifique que isso não é verdade mostrando que o conjunto A = (−∞, a) ∪ (b, ∞),
com a ≤ b, é aberto segundo τ [S] mas que seu complemento Ac = [a, b] não é aberto segundo τ [S]. 6
O método de construção de topologias descrito acima tem um análogo quase literal entre as σ-
álgebras.
Seja X um conjunto e {Mλ, λ ∈ I} uma coleção de σ-álgebras em X (cada uma indexada por um
elemento λ de um conjunto de ı́ndices I arbitrário). Como cada σ-álgebra é por si um subconjunto de
P(X) podemos considerar uniões e intersecções de σ-álgebras.
Em particular, para uma coleção genérica de σ-álgebras como {Mλ , λ ∈ I}, temos o seguinte
resultado importante:
\
Proposição 19.2 O subconjunto MI de P(X) dado por MI = Mλ é também uma σ-álgebra em X.
λ∈I
2
8
Robert Sorgenfrey (1915 - 1996).
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 19 1041/1461
Este resultado tem um uso de grande importância: fornecer um método de gerar σ-álgebras. Seja A
uma coleção qualquer de subconjuntos de X. Considere a coleção de todas as σ-álgebras que contêm A
como um subconjunto. Como vimos, a intersecção de todas essas σ-álgebras é também uma σ-álgebra
que denotaremos por M[A]. A σ-álgebra M[A] é chamada de σ-álgebra gerada por A.
Assim, cada coleção A de subconjuntos de um conjunto X tem automaticamente uma σ-álgebra
associada a si: a σ-álgebra gerada pela coleção. Muitas σ-álgebras podem ser produzidas dessa forma,
como sendo geradas por uma coleção conveniente de subconjuntos de X.
E. 19.23 Exercı́cio. Mostre que A ⊂ M[A] e que M[A] é a menor σ-álgebra que contém A como
subconjunto, ou seja, se houver uma σ-álgebra M′ ⊂ M[A] que contém A, então M′ = M[A]. 6
• A σ-álgebra de Borel
Dentre os muitos tipos de σ-álgebras existentes particular destaque têm as σ-álgebras geradas por
topologias.
Seja X um conjunto e τ uma topologia em X. Como τ é uma coleção de subconjuntos de X
podemos considerar a σ-álgebra M[τ ] gerada pela topologia τ . Essa σ-álgebra é chamada de σ-álgebra
de Borel9 associada à topologia τ em X e seus elementos são chamados de conjuntos de Borel ou
conjuntos Borelianos.
E. 19.25 Exercı́cio. Considere a reta real R. Mostre que intervalos como (a, b), [a, b), (a, b] com
a < b e [a, b] com a ≤ b são elementos da σ-álgebra de Borel M[τR ]. Que outros elementos de M[τR ] você
poderia identificar? 6
Seja X um espaço com uma topologia τ . Uma coleção de abertos B ⊂ τ é dita ser uma base da
[ τ se todo aberto de τ puder ser escrito como união de elementos de B: se A ∈ τ então
topologia
A= Bλ , onde todos os Bλ são elementos de B. Note que a união não necessita ser finita ou mesmo
λ
contável.
Um fato básico é o seguinte: se B é uma base de uma topologia τ então τ = τ [B].
Provar isso é bem simples. Primeiramente note-se que, como τ é uma topologia que contém B e
τ [B] é, por definição, a menor topologia com essa propriedade, então segue que τ [B] ⊂ τ . Por outro
lado, como vimos, se A ∈ τ então A é a união de elementos de B e, portanto, A é um elemento de τ [B].
Logo τ ⊂ τ [B], completando a prova.
Para evitar confusões e ao mesmo tempo clarificar idéias, o estudante deve notar, porém, o seguinte
fato. Se A é uma coleção de subconjuntos de um conjunto X então não é em geral verdade que A ou
mesmo A ∪ X sejam uma base de τ [A]. Tome-se o seguinte exemplo: X = R e A = {(i/2, i/2 + 1), i ∈
Z}. Então, o intervalo (1/2, 1) é um elemento de τ [A] pois é intersecção dos intervalos (0, 1) e
(1/2, 3/2) mas não pode ser escrito como união de elementos de A.
A discussão do último parágrafo pode ser usada para introduzir e motivar mais um modo importante
de se produzir bases de topologias, o qual será usado quando discutirmos o conceito de topologia gerada
por famı́lias de funções, um tópico importante, por exemplo, em estudos mais avançados de propriedades
de espaços de Banach e de Hilbert.
Como já vimos, se X é um conjunto e A é uma coleção arbitrária de subconjuntos de X não podemos
em geral garantir que A é uma base de τ [A]. Há, porém, uma maneira de se produzir uma base a partir
de A que discutiremos a seguir.
Proposição 19.3 Seja X não-vazio e A ⊂ P(X) uma coleção de subconjuntos de X. Então, todo ele-
mento de τ [A] que não seja X ou ∅ pode ser obtido como união de conjuntos formados por intersecções
finitas de elementos de A. Em outras palavras, a coleção formada por X, ∅ e por todos os conjuntos
que sejam intersecções finitas de elementos de A é uma base para τ [A]. 2
Prova. Considere a coleção AI formada por todos os conjuntos que podem ser escritos como um
intersecção finita de elementos de A ∪ {X} ∪ {∅}. Ou seja, A ⊂ X pertence a AI se puder ser escrito da
forma A = B1 ∩ B2 · · · ∩ Bn , para algum n finito, onde cada Bi ou é igual a X ou ∅ ou é um elemento
de A.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 19 1043/1461
É claro pela definição que A ⊂ AI (por que?) e também que AI ⊂ τ [A] (por que?). Assim, temos
que A ⊂ AI ⊂ τ [A]. Notemos agora que se B e C são duas coleções de subconjuntos de X com B ⊂ C,
então τ [B] ⊂ τ [C] (por que?). Daı́ segue, pelo que vimos, que τ [A] ⊂ τ [AI ] ⊂ τ [τ [A]]. Como τ [A] é
uma topologia temos, por um exercı́cio anterior que τ [τ [A]] = τ [A]. Assim, provamos que τ [A] = τ [AI ]
e vamos agora explorar conseqüências desse fato.
Vamos mostrar que AI é uma base de τ [AI ] e, portanto, de τ [A]. Para isso consideremos a coleção
U formada por todas as possı́veis uniões de elementos de AI : se A ∈ U então
[
A = Aλ ,
λ∈Λ
onde todo Aλ e todo Bλ são elementos de AI . Note que podemos acima, sem perda de generalidade,
usar o mesmo conjunto de ı́ndices Λ tanto para A quanto para B, pois podemos fazer alguns Aλ e/ou
alguns Bλ iguais ao conjunto vazio se necessário, de modo a igualar ambos os conjuntos de ı́ndices.
Com isso temos, então, que
! !
[ \ [ [
A∩B = Aλ Bλ′ = (Aλ ∩ Bλ′ ) ,
λ∈Λ λ′ ∈Λ λ, λ′ ∈Λ
Com o uso da noção de topologia gerada podemos produzir novas topologias associadas a relações
de ordem totais definidas em conjuntos.
Seja X um conjunto não-vazio no qual está definida uma relação de ordem total “” (para a
definição de relação de ordem total, vide página 32). Se a, b ∈ X dizemos que a ≺ b se a b mas
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 19 1044/1461
(a, b) := {x ∈ X| a ≺ x e x ≺ b} ,
(a, →) := {x ∈ X| a ≺ x} ,
(←, b) := {x ∈ X| x ≺ b} .
Seja A a coleção
A := Alim ∪ A→ ∪ A← ,
com
E. 19.27 Exercı́cio. Mostre que a topologia gerada pelo ordenamento usual da reta real coincide com a
topologia usual da reta. 6
E. 19.28 Exercı́cio. Mostre que a topologia gerada pelo ordenamento lexicográfico de R2 (vide página
33) é uma topologia Hausdorff. 6
Vamos agora estudar mais uma maneira de produzir topologias que também tem seu análogo para
as σ-álgebras.
Seja X um conjunto e τ uma topologia em X. Seja também Y um subconjunto arbitrário de X
(Y não precisa ser um elemento de τ ). Podemos construir uma topologia no conjunto Y usando a
topologia de X da seguinte forma. Definimos a seguinte coleção τY de subconjuntos de Y :
n o
τY := A ⊂ Y, tal que A = Y ∩ T para algum T ∈ τ .
Em palavras, τY é formado por todos os subconjuntos de Y que podem ser escritos como intersecção
de Y com algum aberto de τ .
Então, afirmamos que τY é uma topologia em Y . Vamos provar isso. Primeiro é claro que ∅ ∈ τY
pois ∅ = Y ∩ ∅ e ∅ ∈ τ . Em segundo lugar é também claro que Y ∈ τY pois Y = Y ∩ X (dado que
Y ⊂ X) e X ∈ τ .
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 19 1045/1461
Vamos então agora mostrar que se A e B ∈ τY então A ∩ B ∈ τY . Para isso note que, como
A e B ∈ τY então existem A′ e B ′ ∈ τ de forma que A ∈ Y ∩ A′ e B ∈ Y ∩ B ′ . Logo A ∩ B =
(Y ∩ A′ ) ∩ (Y ∩ B ′ ) = Y ∩ (A′ ∩ B ′ ) (por que?) e, como A′ ∩ B ′ ∈ τ , segue que A ∩ B ∈ τY .
Para finalizar, falta-nos mostrar que se {Aλ , λ[
∈ I} é uma coleção de elementos de τY (indexados
por um conjunto arbitrário de ı́ndices I), então Aλ ∈ τY . Pelas hipóteses, cada Aλ é da forma
λ∈I
Aλ = Y ∩ Tλ com Tλ ∈ τ e portanto
!
[ [ [
Aλ = (Y ∩ Tλ ) = Y ∩ Tλ (por que?) .
λ∈I λ∈I λ∈I
[ [
Assim, como Tλ ∈ τ fica provado que Aλ ∈ τY como querı́amos demonstrar.
λ∈I λ∈I
Vimos então que τY é uma topologia em Y . Essa topologia é chamada de topologia induzida (pela
topologia τ ).
Fazemos notar que se Y ⊂ X e Y possui uma topologia τ ′ ⊂SP(Y ), então existe uma topologia τ
em X que induz a topologia τ ′ . Essa topologia é dada por τ = τ ′ {X, X \ Y }. Observe que se A ∈ τ ′ ,
então obviamente A ∈ τ e A = A ∩ Y . Isso prova que τ ′ é induzida por τ .
E. 19.30 Exercı́cio. Prove que τ , definida acima, é uma topologia em X. Sugestão: recorde que Y ∈ τ ′ .
6
• Exercı́cios e exemplos
E. 19.31 Exercı́cio. Seja Y = [0, 1] ⊂ R e seja τR a topologia usual de R. Mostre que conjuntos da
forma [0, x) com 0 < x ≤ 1 são abertos na topologia τY induzida em Y por τR . Mostre que conjuntos da
forma (x, 1] com 0 ≤ x < 1 são abertos na topologia τY induzida em Y por τR . 6
Para o estudante é importante ver que, no exercı́cio acima, nem [0, x) nem (x, 1] são abertos em
τR ! Isso mostra que topologias induzidas podem trazer elementos novos ao jogo.
E. 19.32 Exercı́cio. Mostre que a topologia τY do exercı́cio anterior é igual à topologia induzida em Y
pela métrica d(x, y) = |y − x|. 6
E. 19.33 Exercı́cio. Seja Y = Q ⊂ R e seja τQ a topologia induzida em Q por τR . Mostre que todo
conjunto de um elemento {r} com r ∈ Q é um conjunto fechado segundo τQ . 6
Essa topologia τQ do último exercı́cio tem propriedades curiosas. Seja x um número irracional e
seja o conjunto χ = (−∞, x) ∩ Q ⊂ Q. Então, χ é ao mesmo tempo aberto e fechado em τQ . O fato
que χ é aberto é evidente pois (−∞, x) é aberto em τR . O fato que χ é fechado segue da constatação
que o complemento de χ em Q é o conjunto χc = [x, ∞) ∩ Q e que [x, ∞) ∩ Q = (x, ∞) ∩ Q pois x é
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 19 1046/1461
E. 19.36 Exercı́cio. Seja Y = (0, 1) ∪ (1, 2) munido da topologia τY induzida pela topologia τR .
Mostre que os subconjuntos (0, 1) e (1, 2) são ambos simultaneamente abertos e fechados nessa topologia
τY . 6
• A σ-álgebra induzida
Vamos mostrar que MY é uma σ-álgebra em Y . Os fatos que ∅ ∈ MY e que Y ∈ MY podem ser
provados tal como no caso da topologia induzida. Queremos agora provar que se A ∈ MY então seu
complemento em Y , Ac = Y \ A, também é um elemento de MY . Por hipótese A é da forma A = Y ∩M
com M ∈ M e, portanto,
Ac = Y \ (Y ∩ M) = Y ∩ (X \ M) .
Uma construção muito importante é a da chamada topologia produto de espaços topológicos. Muito
pode ser dito sobre essa topologia (para mais detalhes vide, por exemplo, [20]), mas vamos nos restringir
por ora somente à sua definição para o caso de produtos Cartesianos finitos.
Seja {X1 , . . . , Xn } umaQcoleção finita de conjuntos e seja, para cada a ∈ In = {1, . . . , n}, τa uma
topologia em Xa . Seja X = na=1 Xa o produto Cartesiano
Q de todos os Xa , a ∈ In e seja B a coleção de
todos os subconjuntos de X que sejam da forma a∈In Aa onde Aa ∈ τa , ou seja, cada Aa é um aberto
em Xa segundo a topologia τa . Então, a topologia gerada por B, τ [B] é chamada de topologia produto
dos espaços topológicos Xa , τa .
E. 19.37 Exercı́cio. Seja o espaço R2 = R × R e considere que cada fator R é munido da topologia
usual τR . Mostre que a topologia produto obtida em R2 é idêntica à topologia métrica usual de R2 definida
pela métrica usual p
d(x, y) = (y1 − x1 )2 + (y2 − x2 )2 ,
onde x = (x1 , x2 ) e y = (y1 , y2 ). 6
• A σ-álgebra produto
• Fecho
E. 19.38 Exercı́cio. Pode-se dizer que o fecho de um conjunto B é o menor conjunto fechado que
contém B. Justifique isso em face da definição dada acima para B. 6
1. A ⊂ A para todo A ⊂ X.
2. A = A para todo A ⊂ X.
3. Se M, N ⊂ X com M ⊂ N, então M ⊂ N.
4. Se A, B ⊂ X então A ∪ B = A ∪ B. 2
Demonstração. Prova de 1: Elementar, pois, pela definição, A é uma intersecção de conjuntos que
contém A. Prova de 2: Elementar, pois A é fechado e, portanto, está contido em FA (vide Exercı́cio
E. 19.39). Prova de 3: M ⊂ N ⊂ N (pelo item 1). Assim, N é um fechado que contém M. Logo, pela
definição de fecho, M ⊂ N. Prova de 4: Como A e B são fechados e valem A ⊂ A, B ⊂ B, o conjunto
A ∪ B é fechado e contém A ∪ B. Logo, A ∪ B ⊂ A ∪ B. Por outro lado, pelo item 3 tem-se A ⊂ A ∪ B
e B ⊂ A ∪ B. Logo, A ∪ B ⊂ A ∪ B, completando a prova.
E. 19.40 Exercı́cio. Seja X = R. A Tabela 19.1, página 1049, mostra o fecho dos conjuntos (a, b),
[a, b), [a, b] e {a}, com −∞ < a < b < ∞, em várias topologias. Estude cada um dos casos. 6
Note na Tabela 19.1 as topologias escolhidas estão postas em ordem crescente de inclusão:
O caso do conjunto (a, b) (e os outros) ilustra claramente um fato importante, a saber, que quanto
maior a topologia menor é o fecho de um dado conjunto.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 19 1049/1461
(a, b) [a, b) [a, b] {a} (a, b)0 [a, b)0 [a, b]0 {a}0 ∂(a, b) ∂[a, b) ∂[a, b] ∂{a}
τI R R R R τI ∅ ∅ ∅ ∅ τI R R R R
τR [a, b] [a, b] [a, b] {a} τR (a, b) (a, b) (a, b) ∅ τR {a, b} {a, b} {a, b} {a}
τ [S] [a, b) [a, b) [a, b] {a} τ [S] (a, b) [a, b) [a, b) ∅ τ [S] {a} ∅ {b} {a}
P(R) (a, b) [a, b) [a, b] {a} P(R) (a, b) [a, b) [a, b] {a} P(R) ∅ ∅ ∅ ∅
Tabela 19.1: As três tabelas acima apresentam, da esquerda para a direita, o fecho, o interior e o bordo,
respectivamente, dos sub-conjuntos (a, b), [a, b), [a, b] e {a} da reta real, com −∞ < a < b < ∞, em
diferentes topologias. Acima, τI = {∅, R} é a topologia indiscreta de R, τcf (R) é a topologia co-finita
de R, τcc (R) é a topologia co-contável de R, τR é a topologia usual de R, τ [S] é a topologia de Sorgenfrey
de R (página 1040) e P(R) é a topologia discreta de R.
τ
E. 19.41 Exercı́cio muito importante. Seja B o fecho de um conjunto qualquer B, segundo uma to-
τ′ τ
pologia τ . Seja τ ′ uma outra topologia tal que τ ⊂ τ ′ . Mostre que B ⊂ B . 6
• Interior
E. 19.42 Exercı́cio. Pode-se dizer que o interior de um conjunto B é o maior conjunto aberto contido
em B. Justifique isso em face da definição dada acima para B 0 . 6
E. 19.44 Exercı́cio. Seja X = R. A Tabela 19.1, página 1049, mostra o interior dos conjuntos (a, b),
[a, b), [a, b] e {a}, com −∞ < a < b < ∞, em várias topologias. Estude cada um dos casos.
Na Tabela 19.1, o caso do conjunto [a, b] ilustra claramente um fato importante, a saber, que quanto
maior a topologia maior é o interior de um dado conjunto. 6
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 19 1050/1461
E. 19.45 Exercı́cio. Seja (B 0 )τ o interior de um conjunto qualquer B, segundo uma topologia τ . Seja
′
τ ′ uma outra topologia tal que τ ⊂ τ ′ . Mostre que (B 0 )τ ⊂ (B 0 )τ . 6
Por fim, note que para qualquer conjunto B ⊂ X vale sempre, em qualquer topologia τ , que
B0 ⊂ B ⊂ B .
para todo A ∈ X. 2
Prova. As duas igualdades em (19.1) são equivalentes, portanto, é suficiente provar a primeira. Como
A0 ⊂ A, vale Ac ⊂ (A0 )c . Lembrando que (A0 )c é fechado (pois A0 é aberto), segue
pela definição de c
fecho que (Ac ) ⊂ (A0 )c . Tomando-se o complementar disso concluı́mos que A0 ⊂ (Ac ) .
c c
Por outro lado, se x ∈ (Ac ) =⇒ x 6∈ (Ac ) =⇒ x 6∈ Ac =⇒ x ∈ A, ou seja, (Ac ) ⊂ A.
c c
Logo, como (Ac ) é aberto (pois (Ac ) é fechado), segue pela definição de interior que (Ac ) ⊂ A0 ,
completando a prova.
• Fronteira ou bordo
Para A ⊂ X genérico, definamos a sua fronteira ou bordo (na topologia τ ) como sendo o conjunto
(19.1)
∂A := A \ A0 = A ∩ (A0 )c = A ∩ (Ac ) .
E. 19.46 Exercı́cio. Seja X = R. A Tabela 19.1, página 1049, mostra o bordo dos conjuntos (a, b),
[a, b), [a, b] e {a}, com −∞ < a < b < ∞, em várias topologias. Estude cada um dos casos. 6
E. 19.48 Exercı́cio. Seja ∂ τ B o fecho de um conjunto qualquer B, segundo uma topologia τ . Seja τ ′
′
uma outra topologia tal que τ ⊂ τ ′ . Mostre que ∂ τ B ⊂ ∂ τ B. 6
A afirmativa do último exercı́cio pode ser confirmada contemplando-se a Tabela 19.1, página 1049.
O conceito de fecho de um conjunto é de grande importância. Uma das razões, como veremos, é
que no caso de espaços métricos o fecho de um conjunto B caracteriza o conjunto de todos os limites
de seqüências de elementos de B. Em particular um conjunto só é fechado em um espaço métrico se
contiver todos os limites de seqüências de seus elementos (vide Seção 19.3.1, página 1053). Muitos
resultados importantes em Matemática decorrem dessa observação.
Vamos nos preparar para apresentar esse fato, assim como outros válidos em espaços topológicos
gerais. A seguinte proposição apresenta uma caracterização equivalente da noção de fecho de um
conjunto, sendo essencial a outros desenvolvimentos relacionados à noção de fecho de um conjunto.
Proposição 19.6 Seja X um conjunto não-vazio e τ uma topologia em X. Seja B ⊂ X. Um ponto
x ∈ X é um elemento de B se e somente se a seguinte propriedade for válida: todo aberto Ax ∈ τ que
contém o ponto x tem uma intersecção não-vazia com B, ou seja,
n o
B = x ∈ X| Ax ∩ B 6= ∅, ∀Ax ∈ τ com x ∈ Ax .
2
Prova. Suponha que x ∈ B e que haja aberto Ax que contém x e tal que Ax ∩ B = ∅. Isso implica que
B ∩ Acx ⊃ B, pois
B ∩ Acx ⊃ B ∩ Acx = B.
Assim, B ∩ Acx é um conjunto fechado que contém B e, portanto, B ⊂ B ∩ Acx , dado que o fecho de B
é o menor fechado que contém B. Isso, por sua vez, diz que B ⊂ Acx , o que significa que B ∩ Ax = ∅.
Mas isso contradiz as hipóteses de partida que diziam que x ∈ B e x ∈ Ax . Portanto, se x ∈ B então
Ax ∩ B 6= ∅ para todo aberto Ax que contém x.
Suponhamos agora que para um ponto x ∈ X valha que Ax ∩B 6= ∅ para todo aberto Ax que contém
c
x. Se supormos que x 6∈ B então x ∈ B , que é um aberto. Assim, deverı́amos ter, pelas hipóteses que
c
B ∩ B 6= ∅. Como B ⊃ B isso é impossı́vel. Assim, supor que Ax ∩ B 6= ∅ para todo aberto Ax que
contém x implica que x ∈ B. Isso completa a demonstração da proposição.
1. κ(∅) = ∅.
2. A ⊂ κ(A) para todo A ⊂ X.
3. κ(κ(A)) = κ(A) para todo A ⊂ X.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 19 1052/1461
Nota. Uma aplicação κ : P(X) → P(X) satisfazendo as condições dos itens 1–4 da Proposição 19.7
é por vezes dita ser um operador de Kuratowski10 . A possibilidade de definir-se a noção de espaço
topológico a partir de um operador de Kuratowski, tal como enunciado na Proposição 19.7, é de
relevância por aproximar o estudo de espaços topológicos do estudo de álgebras Booleanas11 . Os itens
1–4 da Proposição 19.7 são por vezes denominados axiomas de fecho de Kuratowski ou apenas axiomas
de Kuratowski.
Prova da Proposição 19.7. Comecemos observando que se M ⊂ N, então N = M ∪ (N \ M). Logo, pelo
item 4, κ(N) = κ(M) ∪ κ(N \ M), o que provou que κ(M) ⊂ κ(N). Assim,
Pelo item 2, vale X ⊂ κ(X), o que implica κ(X) = X. Junto com o item 1 isso prova que ∅ e X
são abertos e fechados segundo κ.
Se F e G ⊂ X são fechados segundo k, então F = κ(F ) e G = κ(G). Logo, F ∪ G = κ(F ) ∪ κ(G) =
κ(F ∪ G), sendo que na última igualdade usamos a hipótese do item 4. Isso provou que F ∪ G é fechado
segundo κ.
Precisamos ainda provar que intersecções arbitrárias de conjuntos fechados segundo κ permanecem
conjuntos fechados segundo κ. Seja {Fλ , λ ∈ Λ} uma famı́lia de fechados segundo κ, indexada por um
conjunto de ı́ndices Λ.
!
\ \ \
Pela hipótese do item 2 tem-se Fλ ⊂ κ Fλ . Por outro lado, Fλ ⊂ Fλ′ para todo
λ∈Λ
! λ∈Λ λ∈Λ
\
λ′ ∈ Λ. Logo, por (19.2), κ Fλ ⊂ κ(Fλ′ ) = Fλ′ . Como isso vale para todo λ′ ∈ Λ, segue que
! λ∈Λ !
\ \ \ \
κ Fλ ⊂ Fλ′ . Isso completa a prova que Fλ = κ Fλ .
λ∈Λ λ′ ∈Λ λ∈Λ λ∈Λ
Com isso, provamos que a coleção de todos os conjuntos fechados segundo κ satisfaz todos os
axiomas de conjuntos fechados em um espaço topológico. A topologia assim definida pela operação κ
será denotada aqui por τκ .
τκ
Seja A o fecho de A ⊂ X na topologia τκ . Como A ⊂ κ(A) (item 2) e κ(A) é fechado em τκ , segue
τκ τκ
da definição de fecho que A ⊂ κ(A). Por outro lado, de A ⊂ A (item 1 da Proposição 19.4, página
10
Kazimierz Kuratowski (1896-1980).
11
George Boole (1815-1864).
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 19 1053/1461
τκ τκ τκ
1048), segue de (19.2) que κ(A) ⊂ κ A = A , a última igualdade sendo devida ao fato de A ser
τκ
fechado em τκ . Isso demonstrou que A = κ(A), completando a prova da Proposição 19.7.
Seja M um espaço métrico com métrica d e τd a topologia induzida em M por essa métrica. Seja
B ⊂ M. Vamos apresentar agora uma caracterização importante do fecho de B, que anunciamos acima.
Uma seqüência {xn , n ∈ N} de elementos de M é dita convergir na métrica d a um elemento x ∈ M
se para todo ǫ > 0 existir N(ǫ) ∈ N tal que xn ∈ Bd (x, ǫ) para todo n > N(ǫ).
Se uma seqüência converge a um ponto x, este é dito ser um limite da seqüência. (Mais sobre o
conceito de convergência de seqüências em espaços métricos será visto no Capı́tulo 22, página 1098).
Temos então a seguinte proposição:
Proposição 19.8 Um ponto x ∈ M pertence ao fecho B na topologia τd de um subconjunto B de M
se e somente se existir uma seqüência de elementos de B que converge a x na métrica d. 2
Prova. Suponha que x seja um limite de uma seqüência xn de elementos de B. Seja Ax um aberto que
contém x. Como Ax é um aberto de um espaço métrico, existe uma bola aberta centrada em x com
um raio positivo suficientemente pequeno, que chamaremos de ǫ, tal que Bd (x, ǫ) ⊂ Ax . Daı́, como a
seqüência converge a x, vale que B ∋ xn ∈ Bd (x, ǫ), desde que n seja grande o suficiente. Mas isso diz
que, para tais xn ’s tem-se xn ∈ Ax também. Logo Ax ∩ B 6= ∅, pois pelo menos esses xn ’s pertencem
aos dois conjuntos. Note que isso vale para qualquer aberto Ax que contém x. Daı́, pelo que vimos na
Proposição 19.6, concluı́mos que x ∈ B.
Assim, vimos que se uma seqüência de elementos de B converge a um ponto x em um espaço
métrico, então esse ponto x é um elemento do fecho de B. Vamos agora provar a recı́proca.
Vamos agora supor que x ∈ B e vamos provar que existe uma seqüência de elementos de B que
converge a x. Como x ∈ B vale que Bd (x, 1/n) ∩ B 6= ∅ para todo n ∈ N, n > 0. Daı́, podemos
escolher, para cada n ∈ N, n > 0, um elemento xn do conjunto Bd (x, 1/n) ∩ B. Com isso formamos
uma seqüência {xn } de elementos de B que converge a x, completando a prova.
Prova. Seja X um conjunto não-vazio dotado de uma topologia τX e suponhamos que esse espaço
topológico seja segundo-contável. Seja Bn , n ∈ N, uma base contável em τX . Vamos formar conjuntos
An , n ∈ N, cada um contendo um único elemento, da seguinte forma: A0 é formado por um elemento
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 19 1055/1461
Suponha que haja um conjunto fechado F que contém A e que seja um subconjunto próprio de X.
Então, C = X \ F é aberto, não-vazio e A ∩ C = ∅. Isso implica AS n ∩ C = ∅ para todo n. Como C é
aberto, existe, por hipótese, SBnk , k ∈ N, tal que C = k∈N Bnk . Logo, para todo n ∈ N
S uma famı́lia
vale ∅ = An ∩ C = An ∩ B
k∈N nk = k∈N (An ∩ Bnk ). Logo, An ∩ Bnk = ∅ para todo n e todo k.
Isso é absurdo, pois, por construção, Ank ⊂ Bnk para todo k. Logo A é denso em X.
É interessante notar que a recı́proca do proposição acima não é verdadeira: há espaços separáveis
que não são segundo-contáveis. Como exemplo, mostraremos que a topologia de Sorgenfrey é separável
mas não é segundo-contável (página 1057). Tal, porém, não é verdade para espaços métricos em geral.
Proposição 19.11 Um espaço métrico é separável se e somente se for segundo-contável. 2
Prova. Pela proposição anterior resta-nos apenas mostrar que se X é um espaço métrico separável então
tem uma base enumerável. Seja A um conjunto contável denso em X e seja o conjunto de todas as
bolas centradas em elementos de A com raio racional positivo: B(a, r), a ∈ A e r ∈ Q+ . O coleção de
todas essas bolas é contável (por que?). Vamos provar que é uma base em X. Seja C um aberto contido
em X. Para cada ponto a em A ∩ C podemos achar um raio ra tal que B(a, ra ) está inteiramente
contido em C (pela definição de conjunto aberto em um espaço métrico). Vamos mostrar que
[
C = B(a, ra ) .
a∈C∩A
S
Suponha que haja z ∈ C que não esteja em a∈C∩A B(a, ra ). Como A é denso em X, toda bola
aberta B(z, ǫ) contém elementos de A (doutra forma seu complemento seria fechado e conteria A, o
que não é possı́vel se A é denso). Em particular se ǫ for suficientemente pequeno B(z, ǫ) e B(z, ǫ/4)
estarão inteiramente contidas em C. Logo, para um racional r com ǫ/4 < r < ǫ/2 teremos z ∈ B(a′ , r)
para algum a′ ∈ B(z, ǫ/4) ∩ A sendo que B(a′ , r) ⊂ B(z, ǫ) ⊂ C. Lembrando que ′
S a ∈ C ∩ A e que
′ ′ ′
podemos escolher ǫ/2 < ra′ , teremos B(a , r) ⊂ B(a , ra′ ). Assim, z ∈ B(a , r) ⊂ a∈C∩A B(a, ra ).
• A topologia τR é segundo-contável
Como comentamos logo acima, τR é separável pois Q é contável e denso em R. Pela Proposição
19.11, τR é segundo-contável. A tı́tulo de ilustrar futuros desenvolvimentos, vamos no que segue provar
esse fato de modo mais explı́cito, exibindo uma base contável para τR .
Para isso, vamos mostrar que τR pode ser gerada por uma coleção contável de subconjuntos de R.
Esse fato é importante por várias razões, uma delas conectada à σ-álgebra de Borel e sua relação com
a σ-álgebra de Lebesgue, que introduziremos quando falarmos da Teoria da Medida (vide Capı́tulo 21).
Para a ∈ R e b > 0 vamos denotar por B(a, b) a bola aberta de raio b centrada em a que, neste
caso, é o intervalo aberto (a − b, a + b) centrado em a com largura 2b.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 19 1056/1461
Vamos primeiramente ver que qualquer intervalo B(a, b), a ∈ R, b > 0, pode ser escrito como
uma união contável de intervalos abertos. Para isso, considere uma seqüência si de números racionais
positivos tais que si < b mas tais que a seqüência si converge a b quando i → ∞. Então, é claro que
[
B(a, b) = B(a, si ) ,
i∈N
suponha que A \ A′ 6= ∅ e seja w ∈ A \ A′ . Considere então o conjunto aberto B(w, δA (w)). Tomemos
s ∈ B(w, δA (w)) ∩ Q de tal forma que |s − w| < δA (w)/2 (isso é sempre possı́vel. Por quê?). Então,
teremos que δA (w)/2 < δA (s) < δA (w) e, portanto w ∈ B(s, δA (s)), mostrando que w ∈ A′ : um
contradição. Portanto A = A′ .
S
Caso A = R podemos sempre escrever R = r∈Q B(r, p), para qualquer p > 0.
O que acabamos de provar é que todo aberto não-vazio A de τR pode ser escrito como uma união
contável de intervalos abertos. Por outro lado, vimos também que cada intervalo aberto B(r, δA (r))
pode ser escrito ele mesmo como uma união contável de intervalos abertos do tipo B(r, s) onde r e
s > 0 são números racionais.
Seja R a coleção de todos os intervalos abertos do tipo B(r, s) com r, s ∈ Q e s > 0. A coleção R
é claramente uma coleção contável e R ⊂ τR (pois todos esses intervalos são abertos). Logo τ [R] ⊂ τR ,
pois τ [R] é, por definição, a menor topologia que contém R. Por outro lado, qualquer topologia que
contenha R contém também qualquer elemento que possa ser escrito como união de elementos de R
e, como vimos, todo aberto de τR pode ser escrito como uma união (contável) de elementos de R e é,
conseqüentemente, um elemento de qualquer topologia que contenha R. Logo τR ⊂ τ [R].
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 19 1057/1461
Vemos, portanto, que τR = τ [R] e, assim, τR é o que se chama de uma topologia segundo-contável,
pois tem uma base contável obtida tomando-se intersecções finitas de elementos de R, como vimos
acima.
Para finalizar, vamos mostrar a seguinte identidade:
ou seja, vamos mostrar que a σ-álgebra de Borel da reta real e a σ-álgebra gerada por R coincidem.
Como R ⊂ τR , é claro que R ⊂ M[τR ]. Daı́ segue que M[R] ⊂ M[τR ], dado que M[R] é, por
definição, a menor σ-álgebra que contém R. Por outro lado, M[R] contém (pela definição de σ-álgebra)
qualquer conjunto que seja uma união contável de elementos de R. Vimos acima que qualquer elemento
de τR tem essa propriedade. Logo τR ⊂ M[R] e, assim, M[τR ] ⊂ M[R], provando que M[τR ] = M[R].
Os fatos aqui discutidos serão importantes quando apresentarmos a chamada σ-álgebra de Lebesgue
no Capı́tulo 21, página 1074.
Mostraremos agora que a Topologia de Sorgenfrey é separável mas não é segundo-contável e, por-
tanto, não é métrica.
Para mostrar que a topologia de Sorgenfrey τ [S] é separável, provemos que Q é denso em R segundo
τ [S]. Suponha que não seja. Então, existiria z ∈ R e aberto em τ [S] contendo z que não contém nenhum
número racional. Como um tal aberto é união de intersecções finitas de intervalos semi-abertos de S,
isso é impossı́vel.
Vamos agora mostrar que τ [S] não é segundo-contável. Suponhamos que B seja uma base para τ [S]
e seja x ∈ R. Pela hipótese existe para cada x ∈ R um subconjunto Bx = {Bλ , λ ∈ Λx } de B tal que
[
τ [S] ∋ [x, ∞) = Bλ ,
λ∈Λx
com Bλ ∈ Bx . Mas isso só é possı́vel se existir pelo menos um conjunto de Bx que contém x. Denotemo-
lo Bλ(x) . É claro que Bλ(x) não pode conter nenhum y ∈ R com y < x (por que?). Logo, a aplicação
R ∋ x 7→ Bλ(x) ∈ B é injetora12 , o que nos diz que a cardinalidade de B é pelo menos a cardinalidade
de R. Isso mostra que B não pode ser contável.
Como vimos acima (página 1055), um espaço métrico é separável se e somente se for segundo-
contável. Isso mostra que a topologia de Sorgenfrey não é uma topologia métrica!
12
Como x ∈ Bλ(x) e y 6∈ Bλ(x) se y < x, segue que inf(Bλ(x) ) = x para todo x ∈ R, o que implica injetividade.
Capı́tulo 20
Medidas
Conteúdo
20.1 O Problema da Teoria da Medida . . . . . . . . . . . . . . . . . . . . . . . 1058
20.2 Medidas de Conjuntos. Definição, Exemplos e Propriedades Básicas . . 1061
20.3 Construindo Medidas. A Medida Exterior e o Teorema de Caratheodory 1065
1058
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 20 1059/1461
material poderoso para um tratamento mais profundo do conceito de integral e de suas extensões.
Nestas notas, o tratamento da Teoria da Integração será iniciado no Capı́tulo 23, página 1119.
Todos esses conceitos serão tratados de modo cuidadoso adiante, mas achamos por bem começar
mostrando ao estudante a origem de toda a problemática: a existência de conjuntos não mensuráveis.
• O exemplo de Vitali
Considere-se o conjunto R dos números reais e seus subconjuntos. Temos uma noção intuitiva clara
do que seja o comprimento de intervalos da reta real como (a, b) ou [a, b] ou [a, b) ou (a, b]. Em
todos esses casos o comprimento é o número positivo (ou nulo) b − a. Para um intervalo I como os de
acima, denotemos por m(I) o seu comprimento. Assim, por exemplo, m([a, b]) = b − a, para todo a e
b com b ≥ a.
Se um conjunto A ⊂ R for formado pela união disjunta de dois intervalos I e J como os de acima,
é também intuitivo que o comprimento de A seja dado por m(A) = m(I) + m(J), ou seja, pela soma
dos comprimentos dos intervalos disjuntos que formam A. Se A for formado por uma união disjunta
contável de intervalos Ia , a ∈ N, então, igualmente, é natural dizer que o comprimento total de A é
dado por
X∞
m(A) = m(Ia ) .
a=1
Note-se que não excluı́mos a possibilidade de A ser um conjunto com comprimento infinito, como é
o caso da semi-reta [0, ∞), que, aliás pode ser escrita como a união contável disjunta de intervalos de
comprimento 1 do tipo [n, n + 1) com n ∈ N. Conjuntos com comprimento zero, como conjuntos com
um só elemento {x} também existem.
Dessas noções extraı́mos o seguinte princı́pio: se um conjunto A puder ser escrito como uma união
disjunta contável de outros conjuntos Ba , a ∈ N, que possuem um comprimento bem definido (finito
ou não), então o comprimento de A deve ser dado pela soma dos comprimentos de cada Ba , seja essa
soma finita ou não: !
[ X
m Ba = m(Ba ) .
a∈N a∈N
Outra propriedade razoável que devemos supor do conceito de comprimento de um conjunto é que
se A e B são conjuntos e A ⊂ B então m(A) ≤ m(B). Note que podemos ter a igualdade mesmo que A
seja um subconjunto próprio de B. Esse é, por exemplo, o caso dos conjuntos A = (1, 3) e B = [1, 3]
onde tanto A quanto B têm o mesmo comprimento, a saber 2.
Por fim, uma última condição razoável que o a noção usual de comprimento de subconjuntos da
reta deve satisfazer é o de invariância por translações. Seja E ⊂ R. Denotemos por Ex , ou por E + x,
o conjunto E transladado por um número x ∈ R, ou seja:
n o
Ex = y ∈ R, com y = a + x para algum a ∈ E .
E. 20.1 Exercı́cio. Prove que isso define de fato uma relação de equivalência. 6
O fato de termos assim criado uma relação de equivalência em I significa que I pode ser escrito
como uma união disjunta das classes de equivalência por essa relação. Usando o Axioma da Escolha
podemos construir um conjunto, que chamaremos de V , tomando um e somente um elemento arbitrário
de cada classe de equivalência de I. Obviamente, temos V ⊂ I.
Seja agora Vr o conjunto obtido transladando-se o conjunto V por um número r ∈ Q. Vamos
mostrar que Vr ∩ Vs = ∅ se r 6= s com r, s ∈ Q, ou seja, que Vr e Vs são disjuntos se r e s forem
elementos distintos de Q. Para ver isso suponhamos o contrário, ou seja, que exista um elemento
u ∈ Vr ∩ Vs . Como u ∈ Vr então u = v + r, para algum elemento v ∈ V . Por outro lado, como u ∈ Vs
então u = v ′ + s, para algum elemento v ′ ∈ V . Portanto v + r = v ′ + s e v − v ′ = s − r. Como s − r
é um racional então v ∼ v ′ . Mas isso só é possı́vel se v = v ′ pois, ao construirmos V , tomamos um e
somente um elemento de cada classe de equivalência de I, o que significa dizer que elementos distintos
de V não podem ser equivalentes. Por outro lado, se v = v ′ a relação v − v ′ = s − r diz que s = r, o
que contraria as hipóteses. Logo Vr ∩ Vs = ∅ se r, s ∈ Q com r 6= s.
Vamos denotar por Q1 o conjunto de todos os números racionais contidos no intervalo [−1, 1]:
Q1 = Q ∩ [−1, 1]. Afirmamos que as seguintes relações de inclusão são válidas:
[
[0, 1] ⊂ Vr ⊂ [−1, 2] . (20.1)
r∈Q1
[
Vamos provar isso. A relação Vr ⊂ [−1, 2] é óbvia pois V é um subconjunto do intervalo
r∈Q1
[0, 1] e, ao transladarmos V por um número r do conjunto Q1 podemos no máximo cair dentro de
[−1, 2].
[
A relação [0, 1] ⊂ Vr pode ser vista da seguinte forma. Se x ∈ [0, 1] então x pertence a
r∈Q1
uma classe de equivalência V. Seja v o elemento de V que foi escolhido para comparecer em V como
o representante de V. Como x e v são membros da mesma classe de equivalência, então x − v é um
racional s. Como x e v são elementos de [0, 1], então sua diferença deve ser um elemento de [−1, 1].
[ que s ∈ Q1 . Logo, x ∈ Vs com s ∈ Q1 . Como isso vale para todo x ∈ [0, 1], segue que
Assim, vemos
[0, 1] ⊂ Vr como querı́amos mostrar.
r∈Q1
Que conseqüências isso tudo tem? Pela hipótese que se A ⊂ B então m(A) ≤ m(B), segue de (20.1)
3
Giuseppe Vitali (1875-1932).
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 20 1061/1461
que !
[
m([0, 1]) ≤ m Vr ≤ m([−1, 2]) ,
r∈Q1
ou seja, !
[
1 ≤ m Vr ≤ 3,
r∈Q1
[
Pelo que vimos acima a união Vr é uma união disjunta e contável (pois os racionais são contáveis).
r∈Q1
Logo, pelas nossas hipóteses sobre m, temos que
!
[ X
m Vr = m(Vr ) .
r∈Q1 r∈Q1
Por fim, pela hipótese que m é invariante por translações, segue que m(Vr ) = m(V ) e, portanto,
X
1 ≤ m(V ) ≤ 3 .
r∈Q1
Agora, essa relação é absurda pois não pode ser nunca satisfeita para m(V ) ≥ 0. Se m(V ) = 0 a
primeira desigualdade é violada e se m(V ) > 0 (ou infinito) a segunda o é pois a soma é infinita.
O que está errado? O erro está em supor que se possa atribuir ao conjunto V um comprimento
m(V ). O conjunto V , que é chamado conjunto de Vitali, é um exemplo de um conjunto não-mensurável.
A ele não é possı́vel atribuir um comprimento, nem nulo, nem finito, nem infinito.
Para finalizar essa discussão fazemos notar que fizemos uso de modo crucial do Axioma da Escolha
na construção do conjunto V acima. Em outros esquemas axiomáticos sobre a teoria dos conjuntos
subjacente à Matemática o Axioma da Escolha pode ser substituı́do por um outro axioma que impeça
a construção de conjuntos como V . Tais esquemas conduzem, entretanto, a Matemáticas em um certo
sentido empobrecidas, nas quais vários resultados de interesse não podem mais ser estabelecidos.
* *** *
Para a leitura do que segue neste Capı́tulo é conveniente que o estudante esteja familiarizado com
a noção de σ-álgebra e suas propridades básicas. Vide Capı́tulo 19, página 1031.
• A definição de medida
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 20 1062/1461
Uma vez visto que problemas com a mensurabilidade de conjuntos podem existir, vemo-nos forçados
a tratar o problema de cenceitualizar a noção intuitiva de medida reunindo instrumentos mais sólidos
para sua abordagem.
Seja X um conjunto não-vazio e M uma σ-álgebra em X (para a definição, vide Capı́tulo 19, página
1031). Vamos apresentar o conceito formal de medida. Uma medida em M é uma função µ que associa
a cada elemento da σ-álgebra M um número real ≥ 0 ou infinito, ou seja, µ : M → R+ ∪ {∞} e de tal
forma que as seguintes condições sejam satisfeitas:
1. µ(∅) = 0.
2. Se Ai , i ∈ N, é uma coleção contável e disjunta de elementos de M então
!
[ X
µ An = µ(An ) . (20.2)
n∈N n∈N
• Exemplos
Então, µc define uma medida em M (verifique!), a qual “conta” o número de elementos de cada
conjunto E, daı́ sua designação.
2. A medida de Dirac4 . em x0 . Seja X um conjunto não-vazio, seja M = P(X) e seja x0 um elemento
de X. Para E ∈ M definimos
1, caso x0 ∈ E ,
δx0 (E) := (20.3)
0, caso x0 6∈ E .
4
Paul Adrien Maurice Dirac (1902-1984)
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 20 1063/1461
Então, δx0 é uma medida (verifique!) que diz se o ponto x0 fixado é um elemento de E ou não.
3. A medida de Dirac sobre um conjunto contável C. Seja X um conjunto não-vazio, seja M = P(X)
e seja C um subconjunto contável de X. Para E ∈ M definimos
o número de elementos de E ∩ C, caso E ∩ C seja um conjunto finito,
δC (E) :=
∞, caso E ∩ C não seja um conjunto finito.
Por estes exemplos vemos que a noção de medida extrapola a noção geométrica de comprimento,
área, volume etc. de um conjunto, conceitos esses que, ademais, só se aplicam a certos sub-conjuntos de
Rn . Outros exemplos mais elaborados de medidas serão vistos adiante, em especial aqueles referentes
justamente às noções geométricas de comprimento, área etc. de subconjuntos de Rn . Tais medidas são
conhecidas como medidas de Lebesgue e serão discutidas adiante.
E. 20.2 Exercı́cio. Sejam α, β e γ três objetos distintos (por exemplo, três letras distintas do alfabeto
grego). Mostre que
M = ∅, {γ}, {α, β}, {α, β, γ}
E. 20.3 Exercı́cio. Sejam α, β e γ três objetos distintos (por exemplo, três letras distintas do alfabeto
grego). Mostre que
M = ∅, {γ}, {α, β}, {α, β, γ}
E. 20.4 Exercı́cio. Sejam α, β e γ três objetos distintos (por exemplo, três letras distintas do alfabeto
grego). Mostre que
M = ∅, {α}, {β}, {γ}, {α, β}, {α, γ}, {β, γ}, {α, β, γ}
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 20 1064/1461
é uma medida em M. 6
Vamos agora extrair algumas conseqüências básicas da definição de medida [123]. Abaixo, seja X
um conjunto não-vazio, M uma σ-álgebra em X e µ uma medida em M.
!
[ X
µ(A1 ∪ · · · ∪ An ) = µ Aj = µ(Aj ) = µ(A1 ) + · · · + µ(An ) ,
j∈N j∈N
pois µ(∅) = 0.
Prova. Como A ⊂ B, segue que B = A ∪ (Ac ∩ B), uma união disjunta de elementos de M (por
que?). Logo, pelo item anterior segue que µ(B) = µ(A) + µ(Ac ∩ B). Como µ(Ac ∩ B) ≥ 0, segue
que µ(B) ≥ µ(A).
3. Se Aj , j ∈ N, são elementos de M com Aj ⊂ Aj+1 para todo j ∈ N, então lim µ(An ) = µ(A),
[ n→∞
onde A = An .
n∈N
4. Se Aj , j ∈ N, são elementos de\M com Aj+1 ⊂ Aj para todo j ∈ N, e se µ(A1 ) for finito, então
lim µ(An ) = µ(A), onde A = An .
n→∞
n∈N
Prova. Seja Ca = A1 \ Aa . Então, pelas hipóteses, Cj ⊂ Cj+1. Como vimos no item anterior, isso
diz que
lim µ(Cn ) = µ(C) ,
n→∞
[
onde C = Ca = A1 \ A. Temos agora que A1 = An ∪ Cn e A1 = A ∪ C, duas uniões disjuntas.
a∈N
Portanto µ(An ) + µ(Cn ) = µ(A) + µ(C). Assim, lim µ(An ) + lim µ(Cn ) = µ(A) + µ(C) e,
n→∞ n→∞
então,
lim µ(An ) + µ(C) = µ(A) + µ(C) .
n→∞
Como µ(A1 ) é finito, então µ(C) e µ(A) também são finitos (pois são subconjuntos de A1 ). Logo,
podemos cancelar µ(C) da última igualdade e obtemos o desejado.
Os dois primeiros itens acima são resultados desejados pela noção intuitiva de medida. O penúltimo
diz que a medida de um conjunto mensurável A pode ser aproximada “por dentro” pelas medidas de
conjuntos mensuráveis que convergem a A e o último item diz que se um conjunto mensurável A tem
medida finita e se há conjuntos An também com medida finita que contêm A e convergem a A então
também podemos aproximar a medida de A pela dos aproximantes externos An .
1. µ(∅) = 0.
5
Constantin Caratheodory (1873-1950).
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 20 1066/1461
Notas.
Enfatizamos que medidas exteriores são definidas sobre a totalidade dos subconjuntos de X ao
contrário de medidas, que são definidas apenas sobre σ-álgebras em X (e que podem ser menores
que P(X)).
Uma outra distinção relevante entre medidas exteriores e medidas é a seguinte. Seja A um
conjunto e sejam A1 e A2 dois subconjuntos disjuntos próprios do conjunto A tais que A = A1 ∪A2 .
Então, há casos em que µ(A) 6= µ(A1 ) + µ(A2 ). Esse fato é contrário à intuição por trás da noção
de medida de um conjunto. Para uma medida µ isso nunca pode ocorrer se A, A1 e A2 forem
elementos da σ-álgebra dos conjuntos mensuráveis por µ, pela própria definição de medida dada
acima.
Se A1 e A2 são dois subconjuntos de X sempre temos que µ(A1 ∪ A2 ) ≤ µ(A1 ) + µ(A2 ). Isso é
[ pela definição de medida exterior pois, tomando-se Aj = ∅ para j > 2 temos que
fácil de se ver
A1 ∪ A2 = Aj .
j∈N
Vamos agora mostrar o seguinte resultado fundamental e que é a verdadeira razão de ser do conceito
de medida exterior.
Teorema 20.1 (Teorema de Caratheodory) 6 Seja Mµ a coleção de todos os subconjuntos A de
X que tenham a seguinte propriedade: Para todo E ⊂ X vale que
Antes de provarmos esse teorema, façamos algumas observações sobre o mesmo. Apesar de o
teorema acima não ser, admitidamente, muito intuitivo, o mesmo fornece um método importante de
construção de medidas. A razão é que, como veremos no caso da construção da medida de Lebesgue,
é em muitos casos mais fácil construir-se primeiro uma medida exterior sobre um conjunto X que
uma medida, o que exigiria a identificação prévia de uma σ-álgebra conveniente. O teorema acima já
permite exibir uma tal σ-álgebra, no caso Mµ , para a qual µ é uma medida. Historicamente o teorema
acima representou também uma simplificação importante, especialmente na construção da medida de
Lebesgue, dado que a mesma era originalmente alcançada por vias mais trabalhosas (identificando-se
a medida exterior com o que se chama de medida interior, da qual não trataremos aqui).
Um exemplo elementar que ilustra o Teorema de Caratheodory é encontrado no Exercı́cio E. 20.6
da página 1070. O estudante poderá estudá-lo antes de mergulhar na demonstração do teorema.
A prova do do Teorema de Caratheodory é um pouco longa e precisamos de um resultado prepa-
ratório.
6
Em sua forma original esse teorema é devido ao matemático Constantin Caratheodory (1873-1950) e por isso vamos
denominá-lo dessa forma, ainda que tal nomenclatura não seja comum.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 20 1067/1461
ou seja,
µ((A ∪ B) ∩ E) = µ((A ∪ B) ∩ E ∩ A) + µ((A ∪ B) ∩ E ∩ Ac ) .
É fácil de se ver agora (faça!) que
(A ∪ B) ∩ E ∩ A = A ∩ E
e que
(A ∪ B) ∩ E ∩ Ac = Ac ∩ E ∩ B .
Assim,
µ((A ∪ B) ∩ E) = µ(A ∩ E) + µ(Ac ∩ E ∩ B) .
Vamos fazer uso dessa última igualdade logo abaixo.
Notemos agora que, como A e B são elementos de Mµ , temos que
Acabamos de ver que a soma dos dois primeiros termos da última igualdade vale µ((A ∪ B) ∩ E) e
para o último termo vale µ(Ac ∩ B c ∩ E) = µ((A ∪ B)c ∩ E), pois Ac ∩ B c = (A ∪ B)c . Assim, provamos
que
µ(E) = µ(E ∩ (A ∪ B)) + µ(E ∩ (A ∪ B)c ) ,
que é o que querı́amos demonstrar.
Note que o resultado acima também diz que se A1 , . . . , An são elementos de Mµ então o conjunto
A1 ∪ · · · ∪ An também é elemento de Mµ para qualquer n finito.
Passemos agora à prova do Teorema de Caratheodory.
Parte I. Vamos nesta parte I provar que o conjunto Mµ é, de fato, uma σ-álgebra.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 20 1068/1461
por hipótese. Assim, podemos também ver que tanto ∅ quanto X são elementos de Mµ pois, claramente,
para qualquer E ⊂ X
µ(E) = µ(E ∩ ∅) + µ(E ∩ (∅)c )
dado que ∅c = X, que E ∩ X = E, que E ∩ ∅ = ∅ e que µ(∅) = 0.
Vimos no Lema 20.1 que se A e B são elementos de Mµ então A ∪ B também o é. Como A ∩ B =
(Ac ∪ B c )c então concluı́mos que A ∩ B também é elemento de Mµ , o mesmo valendo para A \ B pois
A \ B = A ∩ Bc.
[
Resta-nos provar que se {Aj , j ∈ N} é uma coleção contável de elementos de Mµ então A = Aj
j∈N
também o é.
Seja E um subconjunto genérico de X. Claramente temos que E = (E ∩ A) ∪ (E ∩ Ac ), o que,
pelo que observamos acima, significa que µ(E) ≤ µ(E ∩ A) + µ(E ∩ Ac ). Tudo o que precisamos
fazer, então, é provar que µ(E) ≥ µ(E ∩ A) + µ(E ∩ Ac ) o que significaria então que A ∈ Mµ , como
queremos provar.
Para provar esta desigualdade, observemos primeiro que, para qualquer conjunto E ′ e qualquer
elemento A de Mµ vale, por definição, µ(E ′ ) = µ(E ′ ∩ A) + µ(E ′ ∩ Ac ). Daı́, tomando-se E ′ da forma
E ′ = (A ∪ B) ∩ E, com E ⊂ X e A, B ∈ Mµ com A ∩ B = ∅, temos
Vamos definir B1 = A1 , Bn = An \ (A1 ∪ · · · ∪ An−1 ) para n ≥ 2. Então, pelo que já observamos,
cada Bj é elemento de Mµ e Bi ∩ Bj = ∅ se i 6= j. Fora isso,
[ [
Bi = Ai .
i∈N i∈N
n
[
Como cada Bi é elemento de Mµ , então já vimos que para cada n finito Bi ∈ Mµ , ou seja,
i=1
n
!! n
!c !
[ [
µ(E) = µ E ∩ Bi +µ E∩ Bi
i=1 i=1
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 20 1069/1461
dado que !c !c
[ n
[
Bi ⊂ Bi (justifique!) .
i∈N i=1
e, portanto,
!! !c !
[ [
µ(E) ≥ µ E ∩ Bi +µ E∩ Bi
i∈N i∈N
!! !c !
[ [
= µ E∩ Ai +µ E∩ Ai .
i∈N i∈N
Isso é exatamente o que querı́amos provar. Assim, mostramos que Mµ é de fato uma σ-álgebra e a
prova da parte I do teorema está completa.
Parte II. Vamos nesta parte II provar que a medida exterior é de fato uma medida quando restrita
aos elementos da σ-álgebra Mµ .
Tudo o que queremos provar é a propriedade seguinte: se Bi , i ∈ N, são elementos disjuntos de Mµ ,
então !
[ X
µ Bi = µ(Bi ) .
i∈N i∈N
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 20 1070/1461
!! !c !
[ [
≥ µ E∩ Bi +µ E ∩ Bi
i∈N i∈N
= µ(E) ,
onde a última igualdade é precisamente a afirmativa que foi provada na parte I. Assim, como µ(E)
aparece no começo e no fim da cadeia de desigualdades, todos os sı́mbolos de “≥” podem ser substituı́dos
por sı́mbolos de igualdade “=” (justifique!). Ou seja, temos que
∞
!c !
X [
µ(E) = µ(Bi ∩ E) + µ E ∩ Bi .
i=1 i∈N
[
Como isso vale para todo E ⊂ X, tomemos, em particular, E = Bi . A última fórmula fica
i∈N
! ∞
[ X
µ Bi = µ(Bi ) ,
i∈N i=1
que é exatamente o que querı́amos provar. Isso completa a prova do Teorema de Caratheodory.
*
No Capı́tulo 21 vamos ilustrar o uso do Teorema de Caratheodory na construção de uma medida
muito importante: a medida de Lebesgue da reta real. O Teorema de Caratheodory pode ser utilizado
em várias outras construções de medidas, as mais notáveis talvez sejam medidas em conjuntos fractais,
conjuntos que não possuem dimensão inteira, tais como o conjunto de Cantor7 , a curva de Koch8 (Fig.
20.1) e outras.
E. 20.6 Exercı́cio-exemplo. Sejam α, β e γ três objetos distintos (por exemplo, três letras distintas do
alfabeto grego). Seja X = {α, β, γ} e seja
P(X) = ∅, {α}, {β}, {γ}, {α, β}, {α, γ}, {β, γ}, {α, β, γ} .
7
Georg Ferdinand Ludwig Philipp Cantor (1845-1918).
8
Niels Fabian Helge von Koch (1870-1924).
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 20 1071/1461
é uma medida exterior em P(X). Podemos, então, nos perguntar: quais conjuntos A ⊂ X têm a propriedade
de Caratheodory
µ(E) = µ(E ∩ A) + µ(E ∩ Ac ) (20.4)
para todo E ∈ P(X)? Mostre explicitamente (ou seja, analisando caso-a-caso) que os elementos de
M = ∅, {γ}, {α, β}, {α, β, γ}
1. Para A = {α} a propriedade (20.4) falha com E = {α, β, γ} e com E = {α, β}.
2. Para A = {β} a propriedade (20.4) falha com E = {α, β, γ} e com E = {α, β}.
3. Para A = {α, γ} a propriedade (20.4) falha com E = {α, β, γ} e com E = {α, β}.
4. Para A = {β, γ} a propriedade (20.4) falha com E = {α, β, γ} e com E = {α, β}.
• Medidas completas
Uma medida µ em uma σ-álgebra M é dita ser uma medida completa se para todo A ∈ M com a
propriedade que µ(A) = 0 valer que todo B ⊂ A é também elemento de M. Em palavras mais simples,
µ é completa se qualquer subconjunto de um conjunto de medida nula for também mensurável.
Um exemplo de uma medida não-completa é o aquele encontrado no Exercı́cio E. 20.2 da página
1063. Aquela medida não é completa pois {α, β} é um conjunto de medida nula, mas possui sub-
conjuntos, {α} e {β}, que não são elementos de M.
Esse exemplo, ainda que um tanto elementar, ilustra que para uma medida ser completa deve estar
definida em uma σ-álgebra rica o suficiente para poder conter todos os sub-conjuntos dos conjuntos de
medida nula. O Exercı́cio seguinte ilustra isso.
E. 20.7 Exercı́cio. Mostre que a medida definida no Exercı́cio E. 20.4, página 1063, é completa.
Compare com a medida do Exercı́cio E. 20.2, página 1063, em particular, compare as σ-álgebras desses dois
exercı́cios. 6
A medida do Exercı́cio E. 20.3, página 1063, é completa pois lá ∅ é o único conjunto de medida
nula. A razão profunda daquela medida ser completa, porém, está relacionada ao fato, estudado no
Exercı́cio E. 20.6, página 1070, que aquela medida provem de uma medida exterior. Esse é o nosso
próximo assunto.
Mostraremos que qualquer medida construı́da pelo procedimento de Caratheodory, ou seja, a partir
de uma medida exterior, é completa. Isso é o conteúdo do seguinte teorema:
Teorema 20.2 Seja µ uma medida exterior em um conjunto não-vazio X e sejam Mµ e µ a σ-álgebra
e a medida associadas a µ pela construção de Caratheodory. Então, µ é completa, ou seja, se A é
um conjunto µ-mensurável e µ(A) = 0 segue que todo B ⊂ A é também µ-mensurável (um fato não
trivial!) e µ(B) = 0. 2
Prova. Para provar a afirmativa note que, se E ⊂ X e B ⊂ A com A sendo µ-mensurável, então
(20.6)
= µ(E ∩ Ac )
(20.7)
= µ(E ∩ Ac ) + µ(E ∩ A)
A é µ-mensurável
= µ(E) .
Assim, estabeleceu-se que para todo E ⊂ X vale µ(E) = µ(E ∩ B) + µ(E ∩ B c ) e, portanto, B é
µ-mensurável. O fato que µ(B) = 0 é agora trivial pois B ⊂ A e, portanto, µ(B) ≤ µ(A) = 0.
Nota. Não poderı́amos logo de partida ter concluı́do que µ(B) = 0 do fato que B ⊂ A e, portanto,
µ(B) ≤ µ(A) = 0, pois não estava ainda estabelecido que B era µ-mensurável e que µ(B) estivesse
definido.
A medida de Lebesgue, que construiremos no Capı́tulo 21, é completa, pois é também construı́da
por uma medida exterior, seguindo Caratheodory. Já a medida de Borel-Lebesgue, também tratada
naquele capı́tulo, não é completa.
Capı́tulo 21
A Medida de Lebesgue
Conteúdo
21.1 A Construção da Medida de Lebesgue . . . . . . . . . . . . . . . . . . . . . 1074
21.1.1 A σ-álgebra de Borel em R e a Medida de Borel-Lebesgue . . . . . . . . . . . 1077
21.1.2 A Medida Produto e a Medida de Lebesgue em Rn . . . . . . . . . . . . . . . 1080
21.2 Conjuntos de Cantor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1081
21.3 Bases de Hamel e a Medida de Lebesgue . . . . . . . . . . . . . . . . . . . 1093
que é uma coleção contável formada por intervalos abertos finitos ou pelo conjunto vazio. O conjunto
de todas as coleções I{ai }, {bi } será denotado por I.
Doravante, para não sobrecarregar a notação, denotaremos as coleções I{ai },{bi } apenas por I, quando
não houver perigo de confusão.
1
Henri Léon Lebesgue (1875-1941).
1074
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 21 1075/1461
Seja I uma coleção contável de intervalos abertos finitos Iai , bi , i ∈ N, como acima. Definamos o
comprimento total L(I) de I por X
L(I) := l(Iai , bi ) .
i∈N
Note que os intervalos Iai , bi podem sobrepor-se. Assim, L(I) é apenas a soma do comprimento dos
intervalos de I, não a medida de comprimento da união de todos os Iai , bi em I.
Seja agora E um sub-conjunto arbitrário de R. Denotemos por IE a coleção
( )
[
IE = I ∈ I, tal que E ⊂ Iai , bi com Iai , bi ∈ I .
i∈N
Em palavras, IE é a coleção de todas as coleções de intervalos abertos (ou conjunto vazio) cuja união
contém E. Se I ∈ IE , dizemos que a coleção de intervalos I “cobre” E.
Definamos então
µL (E) := inf L(I) . (21.1)
I∈IE
Isto posto, seja para cada b ∈ N a coleção de intervalos Ib ∈ IAb tal que
ǫ
L(Ib ) = µL (Ab ) +
2b
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 21 1076/1461
[
para ǫ > 0. A coleção J = Ib é também uma coleção contável de intervalos que cobrem o conjunto
[ b∈N
Ai . Fora isso,
i∈N
∞
X ǫ X
L(J) = µL (Ab ) + b = µL (Ab ) + ǫ . (21.2)
b=1
2 b∈N
[
Como J cobre Ai , segue que
i∈N
!
[ X
µL Ai ≤ L(J) = µL (Ab ) + ǫ .
i∈N b∈N
A medida e Lebesgue da reta real satisfaz um requerimento básico associado à noção usual de
comprimento de conjuntos da reta real: invariância por translações. Mais precisamente, tem-se que
para todo A ∈ MµL e todo x ∈ R o conjunto transladado Ax é também elemento de MµL e tem-se
µL (Ax ) = µL (A). A demonstração desses fatos é simples e é deixada como exercı́cio ao estudante.
E. 21.1 Exercı́cio. Prove que para todo A ∈ MµL e todo x ∈ R tem-se Ax ∈ MµL e que µL(Ax ) =
µL (A). Sugestão: Prove primeiro que para todo E ⊂ R e todo x ∈ R tem-se µL (Ex ) = µL (E). Para isso,
use a definição (21.1) e o fato evidente que l(Ia+x, b+x ) = l(Ia, b ). Em seguida, use esse fato para mostrar
que se A é mensurável por Lebesgue então Ax também o é (para qualquer x ∈ R), ou seja, mostre que se
µL (E) = µL (E ∩ A) + µL (E ∩ Ac ) para todo E ⊂ R então µL (E) = µL (E ∩ Ax ) + µL (E ∩ Acx ) para todo
E ⊂ R. Conclua dos fatos acima que µL (Ax ) = µL (A) para todo A ∈ MµL e todo x ∈ R. 6
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 21 1077/1461
• Regularidade de µL
Uma questão muito importante agora é saber se MµL não é uma σ-álgebra trivial e se certos conjun-
tos “razoáveis”, tais como intervalos abertos, fechados e semi-abertos, são mensuráveis por Lebesgue.
A resposta a esta questão é dada na próxima seção, onde discutiremos a relação entre a σ-álgebra de
Lebesgue em R e a σ-álgebra de Borel.
E. 21.2 Exercı́cio. Prove isso. Sugestão: verifique primeiro que, se A′ e C são uniões finitas de intervalos
disjuntos, vale que sempre que l(A′ ∪ C) = l(A′ ) + l(C) − l(A′ ∩ C) e então adote A′ = A ∪ B para dois
conjuntos A e B, também formados por uniões finitas de intervalos disjuntos. 6
2
Félix Édouard Justin Émile Borel (1871-1956).
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 21 1078/1461
pois Kj ∩ Kj′ = ∅. Como Jj ∩ Kj = Ij ∩ (0, ǫ/2j ) e Jj ∩ Kj′ = Ij ∩ (1 − ǫ/2j , 1) temos l(Jj ∩ Kj ) ≤ ǫ/2j
e l(Jj ∩ Kj′ ) ≤ ǫ/2j .
Assim,
ǫ
l(Ij ) ≥ l(Jj ) + l(Kj ) + l(Kj′ ) − .
2j−1
Defina agora
Por outro lado, temos que a coleção de intervalos J cobre E ∩ I e K cobre E ∩ I c (por que?). Daı́
L(J) ≥ µL (E ∩ I) e L(K) ≥ µL (E ∩ I c ). Logo, (21.6) diz que
L(I) ≥ µL (E ∩ I) + µL (E ∩ I c ) − 2ǫ . (21.7)
Pela definição da medida exterior µL , sempre podemos escolher I de forma que L(I) ≤ µL (E) + ǫ (está
claro para você o porquê disso?). Assim,
Como essa desigualdade vale para todo ǫ com 0 < ǫ < 1, segue que
µL (E) ≥ µL (E ∩ I) + µL(E ∩ I c ) .
µL (E) = µL (E ∩ I) + µL (E ∩ I c ) ,
que afirma que I é um conjunto mensurável por Lebesgue, de acordo com a definição de Caratheodory.
A demonstração acima não vale somente para o intervalo I = (0, 1), mas pode ser repetida para
todo intervalo aberto finito (a, b) com −∞ < a < b < ∞. Em verdade, uma simples inspeção mostra
que a mesma demonstração pode ser repetida para intervalos finitos como [a, b], [a, b) ou (a, b]. Sem
surpresa, verifica-se que µL ((a, b)) = b − a etc.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 21 1079/1461
Isso tem a seguinte conseqüência: como MµL é uma σ-álgebra, MµL deverá conter todo conjunto
que puder ser escrito como uma união contável de intervalos abertos finitos. Vimos, quando mostramos
que τR é separável, que qualquer aberto da topologia usual pode ser escrito como uma união contável
de intervalos abertos finitos B(r, s) com r, s ∈ Q e s > 0. Portanto temos que τR ⊂ MµL , de onde
segue que
M[τR ] ⊂ MµL . (21.9)
Um fato importante, mas que não provaremos com todos os detalhes aqui, é que a σ-álgebra de
Borel M[τR ] é um subconjunto próprio3 de MµL , ou seja, que há conjuntos que são mensuráveis de
Lebesgue mas que não são elementos da σ-álgebra de Borel. Exemplos não são fáceis de exibir, mas
uma classe deles será discutido na Seção 21.3, página 1093. Para discutirmos o fato de que a σ-álgebra
de Borel M[τR ] é um subconjunto próprio de MµL façamos primeiro notar o seguinte resultado (que,
ademais, tem importância por si só):
Proposição 21.1 A medida de Lebesgue µL é completa. Ou seja, se A é um conjunto mensurável por
Lebesgue e µL (A) = 0 então todo B ⊂ A é também mensurável de Lebesgue (um fato não trivial!) e
µL (B) = 0 4 . 2
É bastante fácil de ser ver pela definição que se a ∈ R então µL ({a}) = 0, ou seja, a medida de
Lebesgue de um conjunto constituı́do por apenas um ponto é nula. Pela aditividade da medida, é
evidente daı́ também que a medida de Lebesgue de qualquer sub-conjunto finito de R é igualmente
nula, pois se {a1 , . . . , an } ⊂ R é um conjunto com n elementos distintos, tem-se
µL ({a1 , . . . , an }) = µL ({a1 } ∪ · · · ∪ {an }) = µL ({a1 }) + · · · + µL ({an }) = 0 ,
pois µL ({ak }) = 0, ∀k ∈ {1, . . . , n}.
Da mesma forma, pela aditividade contável (relação (20.2), página 1062), verifica-se que a medida
de Lebesgue de qualquer sub-conjunto contável da reta é nula. De fato, se {an ∈ R| n ∈ N} ⊂ R é
3
Aos estudantes: um conjunto A é dito ser um sub-conjunto próprio de um conjunto B se A ⊂ B mas A 6= B.
4
Isso vale também para conjuntos mensuráveis de Lebesgue em Rn .
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 21 1080/1461
Se X é um conjunto no qual está definida uma medida µ, uma afirmação a respeito dos elementos
de X que for falsa apenas em um conjunto de medida µ nula é dita valer quase em toda a parte em
relação a µ, ou µ-quase em toda parte. Abreviadamente, escreve-se também q.t.p. ou µ-q.t.p.5 Nesse
espı́rito, dizemos que, em relação à medida de Lebesgue, quase todo número real é irracional, pois só
não são irracionais os números racionais, que formam um conjunto de medida nula. Analogamente, em
relação à medida de Lebesgue, quase todo número é transcendente.
Seja então
ω(E) = inf m(C) .
C∈E
Com o resultado do último exercı́cio e com o teorema de Caratheodory podemos construir uma
σ-álgebra Mω em Z com uma medida µ que é denominada medida produto de µ com ν.
Com esta construção podemos definir a medida produto da medida de Lebesgue em espaços Rn .
5
Em lı́ngua inglesa usa-se a.e.: “almost everywhere”.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 21 1081/1461
Dentre os subconjuntos mais interessantes e curiosos da reta real encontram-se os chamados con-
juntos de Cantor6 . Há vários tipos de conjuntos ditos de Cantor (para uma definição técnica geral,
vide página 1199). Iremos aqui apresentar alguns deles, começando pelo mais simples e tradicional, o
chamado conjunto de Cantor ternário, C1/3 , o qual será primeiramente definido de maneira informal.
Em seguida trataremos de modo mais preciso do mesmo, junto com suas generalizações.
O conjunto de Cantor ternário C1/3 é informalmente definido da seguinte forma. Começamos com o
conjunto fechado T0 = [0, 1] do qual subtraı́mos o conjunto aberto (1/3, 2/3) que consiste do conjunto
aberto de largura 1/3 da largura de T0 situado bem no meio de T0 . O que se obtemos é o conjunto
fechado T1 = [0, 1/3] ∪ [2/3, 1], formado pela união de dois intervalos fechados disjuntos. Em seguida,
subtraı́mos de cada um desses intervalos fechados os conjuntos abertos situados no meio de ambos e
cuja largura é 1/3 da largura de cada um desses intervalos. Esses abertos serão (1/9, 2/9) para o
intervalo [0, 1/3] e (7/9, 8/9) para o intervalo [2/3, 1]. O que resulta disso é o conjunto fechado
T2 = [0, 1/9] ∪ [2/9, 1/3] ∪ [2/3, 7/9] ∪ [8/9, 1]. O passo seguinte repete os anteriores: subtraı́mos de
cada um desses intervalos fechados os conjuntos abertos situados no meio de ambos e cuja largura é
1/3 da largura de cada um desses intervalos.
O processo é ilustrado na Figura 21.1. A linha de cima ilustra os intervalos abertos que vão sendo
sucessivamente subtraı́dos do intervalo fechado T0 = [0, 1] e a linha de baixo os vários intervalos
fechados que resultam dessa subtração. O primeiro conjunto aberto subtraı́do é (1/3, 2/3), indicado
por 1 na figura. O segundo conjunto aberto subtraı́do é (1/9, 2/9) ∪ (7/9, 8/9), indicado por 2 na
figura, e assim por diante.
O conjunto de Cantor C1/3 é o conjunto que resulta desse processo após infinitos passos. C1/3 não é
vazio, pois os pontos situados nas bordas dos intervalos fechados que vão sendo sucessivamente produzi-
dos sobrevivem ao processo de subtração. Isso se vê na Figura 21.1, pois os conjunto {0, 1}, que forma
a borda de T0 , surge novamente em T1 , T2 , T3 etc., assim como o conjunto {0, 1/3, 2/3, 1}, que forma a
borda de T1 , surge novamente em T2 , T3 etc., e como o conjunto {0, 1/9, 2/9, 1/3, 2/3, 7/9, 8/9, 1},
que forma a borda de T2 , surge novamente em T3 etc. C1/3 é um conjunto fechado por ser o comple-
mento em [0, 1] de uma união de abertos (aqueles que vão sendo sucessivamente subtraı́dos). Outra
forma de ver isso é notar que T1 ⊃ T2 ⊃ T3 ⊃ T4 ⊃ · · · , ou seja, Tm ⊂ Tn para todos m > n, o que nos
leva a concluir que
∞
\
C1/3 = Tn . (21.10)
n=0
3 2 3 1 3 2 3
1/27 2/27 7/27 8/27 19/27 20/27 25/27 26/27
( ) ( ) ( ) ( ) ( ) ( ) ( )
1/9 2/9 1/3 2/3 7/9 8/9
0 1
0 1/3 2/3 1
T1 [ ] [ ]
T2 [ ] [ ] [ ] [ ]
0 1/27 2/27 1/9 2/9 7/27 8/27 1/3 2/3 19/27 20/27 7/9 8/9 25/27 26/27 1
T3 [ ] [ ] [ ] [ ] [ ] [ ] [ ] [ ]
Figura 21.1: As três primeiras etapas da construção do conjunto de Cantor ternário C1/3 .
Agora, para todo n grande o suficiente tal que (1/3)n < b−a, os conjuntos (a, b)∩Tn são sub-conjuntos
próprios7 de (a, b), pois cada intervalo fechado que compõe Tn tem largura (1/3)n . Portanto, o lado
direito de (21.11) é um sub-conjunto próprio de (a, b) e a igualdade em (21.11) passa a ser absurda.
Um conjunto com a propriedade de não conter nenhum aberto é dito ser um conjunto denso em
parte alguma (para tais definições, vide Seção 24.1).
Por ser fechado, C1/3 é um conjunto mensurável por Lebesgue, ou seja, possui um comprimento.
Um ponto importante é determinar a medida de Lebesgue de C1/3 . É fácil perceber que µL (Tn+1 ) =
(2/3)µL (Tn ), pois a cada etapa é eliminado um terço dos intervalos fechados de Tn . Assim, como
µL (T0 ) = 1, segue que µL (Tn ) = (2/3)n . Daı́8 µL (C1/3 ) = limn→∞ µL (Tn ) = limn→∞ (2/3)n = 0, ou seja,
o conjunto ternário de Cantor C1/3 é um conjunto de medida de Lebesgue nula.
• A cardinalidade de C1/3
Um outro fato importante sobre C1/3 é que o mesmo tem a cardinalidade de R, sendo, portanto,
um exemplo de um conjunto não-contável de medida de Lebesgue nula. Vamos mostrar isso e, para
tal, começaremos provando que C1/3 não é contável.
7
Aos estudantes: um conjunto A é dito ser um sub-conjunto próprio de um conjunto B se A ⊂ B mas A 6= B.
8
O por quê de valer µL (C1/3 ) = limn→∞ µL (Tn ) é intuitivo, mas será justificado com base em uma propriedade geral
de medidas ao discutirmos sua generalização, a equação (21.19), página 1088.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 21 1083/1461
Para provar que C1/3 não é contável, demonstremos a seguinte afirmação, que apresentamos para
futura referência na forma de uma proposição. Essa proposição equivale a uma outra caracterização de
C1/3 (de fato, alguns autores definem C1/3 dessa forma):
Proposição 21.2 C1/3 é o subconjunto de [0, 1] composto por todos os números c que podem ser
X∞
tn
escritos na forma c = , sendo que cada tn pode apenas assumir os valores 0 ou 2. Isso equivale
n=1
3n
a dizer que c ∈ C1/3 se e somente se for representado na base ternária na forma c = 0, t1 t2 t3 t4 . . . onde
cada “dı́gito” tn vale ou 0 ou 2. 2
E. 21.4 Exercı́cio. Sabemos que 1/3 pertence a C1/3 . Esse número pode ser representado na base
ternária por 0, 1, o que parece contradizer o que afirmamos acima sobre os elementos de C1/3 . Porém, essa
não é a única forma de representar 1/3. Mostre que na base ternária 1/3 também pode ser escrito como
0, 0222222 . . .. 6
Prova da Proposição 21.2. Tentemos localizar onde, no intervalo [0, 1], encontram-se os números cujo
n-ésimo “dı́gito” na base ternária é 1, sendo que entre os seguintes pelo menos um é não-nulo. Tais
números são da forma 0, t1 · · · tn−1 1tn+1 . . ., sendo que pelo menos um dos tm com m ≥ n+1 é não-nulo.
Alguns segundos de meditação nos levam a concluir que esses números encontram-se no intervalo aberto
situado entre 0, t1 · · · tn−1 1 e 0, t1 · · · tn−1 2, ou seja, em ( 0, t1 · · · tn−1 1, 0, t1 · · · tn−1 2 ). Agora,
1 2
0, t1 · · · tn−1 1 = 0, t1 · · · tn−1 + e 0, t1 · · · tn−1 2 = 0, t1 · · · tn−1 + .
3n 3n
1 2
Assim, o intervalo ( 0, t1 , · · · tn−1 1, 0, t1 · · · tn−1 2 ) é o intervalo n
, n transladado de 0, t1 · · · tn−1 .
3 3
1 2
Observe-se, então, que esse intervalo , é um dos intervalo abertos subtraı́do de Tn−1
3n 3n
quando do processo de construção do conjunto C1/3 , a saber, o mais próximo de 0 (vide Figura 21.1).
1 2
Devemos então nos perguntar: quais são os outros intervalos obtidos transladando n
, n por
3 3
todos números da forma 0, t1 · · · tn−1 ? Como todos os números da forma 0, t1 · · · tn−1 podem ser obti-
1
dos somando repetidamente o número n−1 (certo?) concluı́mos que os intervalos podem ser obtidos
3
1 2 1
transladando-se , sucessivamente por à direita. Mais uma curta meditação nos leva
3n 3n 3n−1
a concluir que os intervalos assim obtidos ou são precisamente aqueles subtraı́dos de Tn−1 quando do
processo de construção do conjunto C1/3 ou estão contidos nos intervalos subtraı́dos anteriormente dos
conjuntos Tm com m < n − 1.
Concluı́mos, assim, que os números da forma 0, t1 · · · tn−1 1tn+1 . . ., sendo que pelo menos um dos
tm com m ≥ n + 1 é não-nulo, não pertencem a C1/3 .
O que fizemos não exclui ainda de C1/3 números que sejam da forma 0, t1 · · · tn−1 1, com tj ∈ {0, 2},
j = 1, . . . , n − 1. Tais números também pertencem a C1/3 , pois formam uma das bordas de alguns
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 21 1084/1461
conjuntos abertos ( 0, t1 , · · · tn−1 1, 0, t1 · · · tn−1 2 ) que tratamos acima. Porém, o Exercı́cio E. 21.4,
acima, nos ensina que tais números podem ser também representados como 0, t1 · · · tn−1 022222 . . ., com
o n-ésimo dı́gito igual a 0 seguido de infinitos 2’s.
A afirmação da Proposição 21.2 conduz diretamente à conclusão que C1/3 não é enumerável. Por
aquela proposição, todo c ∈ C1/3 é (fatorando o número 2) da forma c = 2×0, d1d2 d3 . . . com dn ∈ {0, 1}
para todo n. Assim, a demonstração que C1/3 não é enumerável é, mutatis mutantis, idêntica à
demonstração que R não é contável fornecida no Capı́tulo 1 na prova do Teorema 1.3, página 40.
Deixamos os detalhes como exercı́cio.
E. 21.7 Exercı́cio. Mostre que 1/4 e 1/13 pertencem a C1/3 pois, na base ternária, 1/4 pode ser
representado como 0, 02020202 . . . e 1/13 como 0, 002002002002 . . .. Note que 1/4 e 1/13 não pertencem
à borda de nenhum Tn ! 6
X∞
tn
Prova. Todo elemento x ∈ [0, 1] pode ser representado na forma x = n
, onde tn ∈ {0, 1, 2}
n=1
3
(representação na base ternária). A soma acima pode ser quebrada em duas, uma contendo apenas
X tn 1 X 2
termos onde cada tn vale 0 ou 2 e outra onde tn = 1: x = + , onde Nx := {n| tn ∈
3n 2 3n
n∈Nx n6∈Nx
{0, 2}}. Agora, os elementos de C1/3 são precisamente aqueles cujos dı́gitos na representação na base
ternária são 0 ou 2 (Proposição 21.2). Logo, vimos que todo x ∈ [0, 1] pode ser escrito na forma
x = c1 + c2 /2, com c1 , c2 ∈ C1/3 .
Chegamos agora à
Proposição 21.3 C1/3 tem a cardinalidade de R. 2
Prova. Pelo Lema 21.1 todo elemento x ∈ [0, 1] pode ser escrito como x = c1 + c2 /2 com c1 , c2 ∈ C1/3 .
Isso mostra que [0, 1] (e, portanto, R) tem a cardinalidade de um subconjunto de C1/3 × C1/3 , cuja
cardinalidade é menor ou igual a de R2 que, por sua vez, tem a cardinalidade de R (Proposição 1.8,
página 42). Logo C1/3 × C1/3 tem a cardinalidade de R. Paralelamente, o mesmo argumento usado na
prova da Proposição 1.8 conduz à conclusão que C1/3 e C1/3 × C1/3 têm a mesma cardinalidade. Isso
completa a prova.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 21 1085/1461
Vamos provar agora que o conjunto de Cantor ternário é denso em si mesmo e totalmente desconexo.
Para as definições e fatos básicos que usaremos, recomenda-se a leitura prévia da Seção 24.1, página
1194.
Para mostrar que C1/3 é um conjunto denso em si mesmo, sejam c, c′ ∈ C1/3 e que, portanto,
tenham representações em base ternária 0, c1c2 c3 . . . e 0, c′1 c′2 c′3 . . ., respectivamente, com cn , c′n ∈ {0, 2}
para todo n (Proposição 21.2). Então, se os primeiros m dı́gitos de c e c′ forem idênticos, teremos
|c − c′ | ≤ 2/3m . Escolhendo m grande o suficiente isso pode ser feito menor que qualquer ǫ > 0 dado.
Isso mostra que qualquer aberto contendo c ∈ C1/3 contém outros elementos de C1/3 diferentes de c,
provando que C1/3 é um conjunto denso em si mesmo.
O mesmo tipo de argumento também mostra que arbitrariamente próximo a qualquer elemento
c ∈ C1/3 há elementos que não pertencem a C1/3 . Se c tem a representação ternária 0, c1 c2 c3 . . .,
escolhamos x ∈ [0, 1] da seguinte forma: seus m primeiros dı́gitos são iguais ao de c, o m-ésimo dı́gito
de x é 1 e dentre os seguintes pelo menos um é não-nulo. Um tal x não pertence a C1/3 , mas a distância
do mesmo a c é menor que 2/3m . Essa distância, porém, pode ser feita menor que qualquer ǫ > 0 dado,
se escolhermos m grande o suficiente.
É fácil de se ver que C1/3 é um sub-conjunto desconexo de R na topologia τR , pois um par de
abertos como A1 = (−1, 1/2) e A2 = (1/2, 2) desconecta C1/3 (verifique!). Pelo que acabamos de ver,
dados c, c′ ∈ C1/3 com c < c′ , existe x 6∈ C1/3 tal que c < x < c′ . Assim, os abertos A1, x = (−1, x)
e A2, x = (x, 2) também desconectam C1/3 . Dessa forma, não existe nenhum sub-conjunto conexo de
C1/3 que contenha c e c′ (um tal conjunto seria desconectado pelos abertos A1, x e A2, x ). Logo, c e
c′ pertencem a componentes conexas distintas. Como isso vale para todos c e c′ em C1/3 com c < c′ ,
concluı́mos que as componentes conexas de C1/3 possuem exatamente um elemento. Isso significa que
C1/3 é totalmente desconexo, como querı́amos mostrar.
F = F1 ∪ · · · ∪ Fk
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 21 1086/1461
para algum k ∈ N, k ≥ 1, onde cada Fj é um intervalo fechado finito Fj = [aj , bj ] com −∞ < aj <
bj < ∞ e onde os Fj ’s são disjuntos dois-a-dois, ou seja, Fi ∩ Fj = ∅ caso i 6= j.
Por ser uma união finita de fechados, cada elemento de F0 é também um conjunto fechado.
Seja f ∈ R tal que 0 < f < 1. Denominaremos um tal f uma fração9 . Para cada fração f
definiremos uma aplicação Tf : F0 → F0 da seguinte forma: Para um intervalo finito F = [a, b]
definimos
a(1 + f ) + b(1 − f ) [ a(1 − f ) + b(1 + f )
Tf (F ) = Tf ([a, b]) := a, , b . (21.12)
2 2
Tf (F ) ⊂ F .
Tf (F) ⊂ F .
Qual a interpretação geométrica de Tf ? Para isso, vamos descrever o que é Tf ([a, b]). Esse conjunto
é obtido subtraindo-se do intervalo fechado finito [a, b] o conjunto aberto de largura f (b − a) centrado
no ponto a+b 2
, que fica bem no centro de [a, b]. Como é fácil ver, esse intervalo aberto é
a + b f (b − a) a + b f (b − a) a(1 + f ) + b(1 − f ) a(1 − f ) + b(1 + f )
− , + = , .
2 2 2 2 2 2
Assim,
a(1 + f ) + b(1 − f ) a(1 − f ) + b(1 + f )
Tf ([a, b]) = [a, b] \ , .
2 2
Operando em F = F1 ∪ · · · ∪ Fk , a operação Tf subtrai de cada Fj o intervalo aberto de largura f
centrado no ponto intermediário de Fj .
É importante notar que se F ∈ F0 é composto por k intervalos fechados finitos disjuntos então,
Tf (F) é composto por 2k intervalos fechados finitos disjuntos.
9
Excluı́mos os casos f = 0 e f = 1 pois, como poder-se-á constatar, eles levam a situações triviais
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 21 1087/1461
Com isso, se F é um intervalo fechado finito, Tfn (F ) é um elemento de F0 composto por 2n intervalos
fechados finitos disjuntos, todos eles contidos em F .
Para o que segue é muito importante determinarmos a medida de Lebesgue dos conjuntos Tfn (F ),
que vem a ser a soma dos comprimentos dos 2n intervalos fechados finitos disjuntos que o compõe. Para
isso, é importante ver que se F = [a, b], então
a(1 + f ) + b(1 − f ) [ a(1 − f ) + b(1 + f )
µL (Tf (F )) = µL (Tf ([a, b])) = µL a, , b
2 2
a(1 + f ) + b(1 − f ) a(1 − f ) + b(1 + f )
= µL a, + µL , b
2 2
a(1 + f ) + b(1 − f ) a(1 − f ) + b(1 + f )
= −a + b−
2 2
= (1 − f )(b − a)
= (1 − f )µL(F ) . (21.14)
É também claro que para todo F ∈ F0 da forma F = F1 ∪ · · · ∪ Fk , onde os Fj são intervalos fechados
finitos e disjuntos, tem-se
µL (F) = µL (F1 ) + · · · + µL (Fk ) .
Segue também de (21.13) que se F = F1 ∪ · · · ∪ Fk então
k
X
= (1 − f ) µL (Fj ) = (1 − f )µL (F) ,
j=1
ou seja,
µL (Tf (F)) = (1 − f )µL(F) . (21.15)
µL (Tfn (F )) = (1 − f )n µL (F ) . (21.16)
É bastante evidente por (21.12) que os bordos a e b de um intervalo fechado finito F = [a, b]
satisfazem a ∈ Tf (F ) e b ∈ Tf (F ). Daı́, concluı́-se também que a e b são elementos de todos os
conjuntos Tfn (F ). Assim,
Aqui F 0 := (a, b), o interior de F . Como os conjuntos Tfn (F ) são fechados, os conjuntos Un, f (F ) são
sub-conjuntos abertos de F , por serem a intersecção de dois abertos: F 0 e (Tfn (F ))c . Note-se que
µL (Un, f (F )) = µL (F ) − µL (Tfn (F )) = [1 − (1 − f )n ] µL (F ) .
Para um intervalo fechado finito para F = [a, b] e uma fração f , definimos o Cf (F ) por
\
Cf (F ) := Tfn (F ) .
n∈N
O conjunto de Cantor ternário C1/3 , que definimos informalmente páginas acima, corresponde a C1/3 ([0, 1]).
Note que Cf (F ) não é vazio, pois contém pelo menos os pontos a e b, assim como os pontos
a(1+f )+b(1−f )
2
e a(1−f )+b(1+f
2
)
e, em verdade, todos os pontos que formam as bordas de cada intervalo
fechado finito que compõe os conjuntos Tfn (F ), pois, como observamos acima, cada aplicação Tf mantem
esses pontos no conjunto resultante.
A primeira observação que fazemos sobre Cf (F ) é que se trata de um sub-conjunto fechado de F ,
pois é uma intersecção de fechados. Definimos também
que é naturalmente um sub-conjunto aberto de F , por ser a intersecção de dois abertos: F 0 e (Cf (F ))c .
Vemos que
!c !
\ [ c
[ c [
Uf (F ) = F 0 ∩ Tfn (F ) = F0 ∩ Tfn (F ) = F 0 ∩ Tfn (F ) = Un, f (F ) .
n∈N n∈N n∈N n∈N
É possı́vel também provar (mas não o faremos aqui) que Cf (F ) tem a mesma cardinalidade de R.
Fora isso, Cf (F ) compacto (por ser fechado e limitado) totalmente desconexo, denso em parte alguma
e denso em si mesmo e, portanto, é perfeito. (Essas definições são apresentadas na Seção 24.1, página
1194). Assim, pela definição geral da página 1199, Cf (F ) é um conjunto de Cantor.
Vamos agora determinar a medida de Lebesgue de Cf (F ) e de Uf (F ), começando pela segunda.
Por (21.17), podemos aplicar a propriedade geral de medidas 3 da página 1064 e concluir que
já que 0 < (1 − f ) < 1. Por (21.18) tem-se também que µL (Uf (F )) = µL (F ) − µL (Cf (F )) e concluı́mos
que
µL (Cf (F )) = 0 .
As idéias a a construção dos conjuntos de Cantor Cf (F ), acima, podem ser generalizadas ainda
mais. Seja {f } := {fj , j ∈ N} uma seqüência de frações. Cada fj satisfaz 0 < fj < 1, mas não
precisam ser todos iguais. Para n ∈ N, defina-se
n
T{f } ≡ Tfn ◦ · · · ◦ Tfn . (21.20)
n
Pelas mesmas razões que acima (confira!), cada T{f } é também uma aplicação de F0 em F0 .
n
Nota. O estudante deve atentar para o fato que o n que aparece no expoente de T{f } representa o
número de aplicações que aparecem compostas no lado direito de (21.20), não uma potência de uma
única aplicação.
Para um intervalo fechado e finito F = [a, b], tem-se também que
n
T{f } (F ) = Tfn ◦ · · · ◦ Tfn (F ) ⊂ F .
n n
Como antes, os conjuntos T{f } (F ) são compostos por 2 intervalos fechados e as bordas desses intervalos
m
estarão contidas em todos os conjuntos T{f } (F ) com m > n. Fora isso,
m n
T{f } (F ) ⊂ T{f } (F ), para todos m > n . (21.21)
m n
Em verdade os T{f } (F ) são sub-conjuntos próprios de T{f } (F ) para todos m > n. Temos também que
n n c 0 n c
Un, {f } (F ) := F \ T{f } (F ) := F ∩ (T{f } (F )) = F ∩ (T{f } (F )) .
n
Como os conjuntos T{f } (F ) são fechados, os conjuntos Un, {f } (F ) são sub-conjuntos abertos de F , por
serem a intersecção de dois abertos: F 0 e (T{f n c
} (F )) . Note-se novamente que
por (21.21).
Definimos então, em completa analogia com o apresentado acima, os conjuntos
\
n
C{f } (F ) := T{f } (F ) .
n∈N
e
U{f } (F ) := F \ C{f } (F ) = F ∩ (C{f } (F ))c = F 0 ∩ (C{f } (F ))c .
C{f } (F ) é também um sub-conjunto fechado de F , pois é uma intersecção de fechados. U{f } (F ) é um
sub-conjunto aberto de F , por ser a intersecção de dois abertos: F 0 e (C{f } (F ))c . Vemos novamente
que
!c !
\ [ c
[ c [
U{f } (F ) = F 0 ∩ n
T{f } (F ) = F 0
∩ T n
{f } (F ) = F 0
∩ T n
{f } (F ) = Un, {f } (F ) .
n∈N n∈N n∈N n∈N
É possı́vel também provar (mas não o faremos aqui) que C{f } (F ) tem a mesma cardinalidade de
R. Fora isso, C{f } (F ) compacto (por ser fechado e limitado) totalmente desconexo, denso em parte
alguma e denso em si mesmo e, portanto, é perfeito. (Essas definições são apresentadas na Seção 24.1,
página 1194). Assim, pela definição geral da página 1199, Cf (F ) é um conjunto de Cantor.
Quanto à medida de Lebesgue de C{f } (F ), ocorre aqui uma surpresa. Como antes, temos que
µL (U{f } (F )) = µL (F ) − µL (C{f } (F )) e que
µL (U{f } (F )) = lim µL (Un, {f } (F )) .
n→∞
Agora,
n n−1 n−1
µL (T{f } (F )) = µL (Tfn ◦ T{f } (F )) = (1 − fn )µL (T{f } (F )) = (1 − fn ) · · · (1 − f1 )µL (F ) ,
O ponto, porém, é que, aoQcontrário do caso anterior quando todos os fj ’s eram iguais, não se pode
sempre concluir que limn→∞ nj=1 (1 − fj ) = 0 mesmo que 0 < (1 − fj ) < 1 para todo j. Tomemos, por
2
exemplo, a seqüência fj = 1 − e−1/j . Teremos
n n
! ∞
!
Y X 1 X 1 2
lim (1 − fj ) = lim exp − 2
= exp − 2
= e−π /6 > 0
n→∞
j=1
n→∞
j=1
j j=1
j
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 21 1091/1461
e, com isso, h i
2
µL (U{f } (F )) = 1 − e−π /6 µL (F ) < µL (F )
e
2 /6
µL (C{f } (F )) = e−π µL (F ) > 0 .
O conjunto de Cantor C{f } (F ) com a seqüência {f } dada acima tem medida de Lebesgue não-nula.
Voltando a seqüências {fj , j ∈ N} gerais, concluı́mos do Lema 21.2, a seguir, que uma condição
necessária e suficiente para que C{f } (F ) tenha medida de P Lebesgue não-nula é que a seqüência de
frações {f } = {fj , 0 < fj < 1, j ∈ N} seja somável, ou seja ∞j=1 fj < ∞.
P
No caso do conjunto de Cantor ternário C1/3 , essa condição é violada, pois obviamente ∞j=1 1/3 =
∞, o mesmo se dando para os conjuntos Cf (com 0 < f ).
Lema 21.2 Se {fj , j ∈ N} é uma seqüência de números tais que 0 < fj < 1 para todo j, então a
n
Y ∞
X
condição para que lim (1 − fj ) > 0 é equivalente à condição ln(1 − fj ) < ∞. Essa por sua vez
n→∞
j=1 j=1
∞
X
é equivalente à condição fj < ∞. 2
j=1
com a garantia que na, última soma, todo fj satisfaz 0 < fj < M para um certo 0 < M < 1 fixado.
Agora, observemos que no intervalo [0, M] a função g(x) := − ln(1 − x) é contı́nua, limitada,
diferenciável e satisfaz g ′′(x) = 1/(1 − x)2 > 0. Assim, g é convexa10 naquele intervalo e, portanto,
tem-se
(g(M) − g(0))
g(x) ≤ g(0) + x,
M
ou seja,
ln(1 − M)
− ln(1 − x) ≤ − x, (21.23)
M
desigualdade essa que pode ser constatada graficamente11 . Logo,
∞
X J
X ∞
X J
X ∞
ln(1 − M) X
− ln(1 − fj ) = − ln(1 − fj ) − ln(1 − fj ) ≤ − ln(1 − fj ) − fj .
j=1 j=1 j=J+1 j=1
M j=J+1
P∞ P∞
Todavia, a soma j=J+1 fj é finita, por hipótese, provando que − j=1 ln(1 − fj ) também o é.
Vimos assim que existem inúmeros conjuntos de Cantor C{f } (F ) com medida de Lebesgue não-
nula. A existência de conjuntos com tais propriedades é um dos fatos mais surpreendentes da Teoria
da Medida. Nenhuma intuição a justifica ou esclarece.
Conjuntos de Cantor e outros conjuntos fractais (como a curva de Koch da Figura 20.1, página 1071)
podem ser contruı́dos em várias dimensões e não são apenas uma curiosidade matemática, pois podem
ser observados na Natureza. A Figura 21.2, página 1095, mostra imagens dos anéis de Saturno, os
quais exibem uma complexa estrutura de lacunas em várias escalas, muito à semelhança dos conjuntos
C{f } (F ). As lacunas são causadas por ressonâncias dos perı́odos das órbitas das partı́culas que compõe
os anéis com perı́odos das órbitas de alguns satélites de Saturno12 . Lacunas desse tipo ocorrem também
no cinturão de asteróides e são conhecidos como gaps de Kirkwood13 . No caso do cinturão de asteróides,
as lacunas são causadas por ressonâncias com o perı́odo da órbita de Júpiter14 . Vide Figura 21.3, página
1096.
Conjuntos como os de Cantor e outros conjuntos fractais ocorrem também em diversos sistemas
dinâmicos e no espectro de certos operadores Hamiltonianos na Mecânica Quântica. A Figura 21.4,
10
O estudante poderá encontrar um estudo detalhado das propriedades de funções convexas em vários textos, por
exemplo em [138].
11
O estudante poderá convencer-se da validade da desigualdade (21.23) se fizer um gráfico das funções − ln(1 − x) e
ln(1−M)
− M x no intervalo [0, M ].
12
Algumas lacunas são causadas pela presença de satélites dentro da região de anéis, que absorvem as partı́culas que
os compõe.
13
Daniel Kirkwood (1814-1895). Os gaps, ou lacunas, de Kirkwood foram descobertos no cinturão de asteróides em
1866.
14
Mais comentários e referências sobre o assunto podem ser encontrados em “Regular and Irregular Motion”. M. V.
Berry. Topics in Nonlinear Dynamics (ed. S. Jorna) Am. Inst. Phys. Conf. Proc. 46 16-120 (1978). Vide também
“Nature of the Kirkwood Gaps in the asteroid belt”, S. F. Dermott and C. D. Murray. Nature 301, 201-205 (1983).
Ambos os trabalhos encontram-se republicados em [98].
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 21 1093/1461
página 1097, exibe a chamada “borboleta de Hofstadter”15 , que representa o espectro quântico de um
elétron se movendo em um plano bidimensional sob a ação de um potencial periódico e de um campo
magnético constante perpendicular a esse plano. O eixo horizontal representa o espectro de energias
e o vertical o fluxo φ do campo magnético em cada célula do potencial periódico bidimensional (em
unidades de hc/e). Quando φ é um racional da forma φ = p/q (com p e q irredutı́veis) o espectro possui
q bandas e q + 1 lacunas. Quando φ é irracional, o espectro é um conjunto de Cantor.
Todos esses assuntos são objeto de pesquisa atual.
Notemos que B0 é mensurável por Lebesgue, por ser subconjunto de um conjunto de medida de
Lebesgue nula, a saber, C1/3 (vide Proposição 21.1, página 1079). Portanto, µL (B) = µL (B0 ) = 0.
Naturalmente, B é uma base de Hamel mensurável por Lebesgue, por ser união contável de conjuntos
mensuráveis pode Lebesgue.
Prova. Pelo Lema 21.1, página 1084, todo x ∈ [0, 1] pode ser escrito como uma combinação linear
por racionais de dois elementos do conjunto de Cantor ternário C1/3 . Por uma simples aplicação
do Lema de Zorn (faça!), pode-se facilmente provar que C1/3 possui pelo menos um subconjunto de
elementos linearmente independentes por racionais. Denotemos um tal sub-conjunto por B0 . Assim,
todo elemento de C1/3 pode ser escrito como uma combinação linear finita por racionais de elementos
de B0 . Juntando isso à observação anterior, concluı́mos que todo elemento de [0, 1] pode ser escrito
como combinação linear finita por racionais de elementos de B0 . Repetindo-se isso em cada intervalo
[m, m + 1] com m ∈ Z a proposição está demonstrada.
Isso demonstrou que há bases de Hamel mensuráveis por Lebesgue. Tem-se porém, o seguinte fato,
devido a Sierpiński17 , cuja demonstração omitiremos:
Teorema 21.1 Nenhuma base de Hamel em R é Boreliana. 2
15
Douglas R. Hofstadter. “Energy levels and wave functions of Bloch electrons in rational and irrational magnetic
fields”. Phys. Rev. B 14, 2239 (1976).
16
Georg Hamel (1877-1954).
17
Waclaw Sierpiński (1882-1969). O Teorema 21.1 encontra-se em “Sur la question de la mesurabilité de la base de M.
Hamel”. Fund. Math. 1, 105-111 (1920).
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 21 1094/1461
Com isso, a base de Hamel construı́da acima a partir de um sub-conjunto linearmente independentes
por racionais do conjunto de Cantor é um exemplo de um conjunto mensurável por Lebesgue mas não-
Boreliano.
Em verdade nem toda base de Hamel é mensurável por Lebesgue. Vale, todavia, o seguinte fato,
que provaremos abaixo: uma base de Hamel é mensurável por Lebesgue se e somente se sua medida de
Lebesgue for nula. Precisaremos da seguinte proposição:
Proposição 21.5 Se A ⊂ R é um conjunto com medida de Lebesgue positiva, ou seja, µL (A) > 0,
então existe um intervalo aberto Iα = (−α, α), α > 0, tal que todo elemento x de Iα pode ser escrito
na forma x = a1 − a2 , com a1 , a2 ∈ Iα . 2
A proposição acima tem uma generalização no contexto da medida de Haar em grupos topológicos
localmente compactos (como é o caso da medida de Lebesgue na reta real).
Proposição 21.6 Uma base de Hamel B da reta real é mensurável por Lebesgue se e somente se
µL (B) = 0. 2
Prova. Se B não for mensurável por Lebesgue não há o que se provar. Suponhamos então que B é
mensurável por Lebesgue. Então, ou µL (B) = 0 ou µL (B) > 0. Vamos supor que µL (B) > 0. Pela
Proposição 21.5 existem números racionais não-nulos r e s (ambos contidos em algum intervalo (−α, α)
conveniente) tais que r = b1 − b2 e s = b3 − b4 , com b1 , b2 , b3 , b4 ∈ B. Seja t = r/s, que obviamente
é racional. Concluı́mos de r = ts que b1 − b2 = t(b3 − b4 ). Mas isso é impossı́vel, pois essa expressão
contraria o fato de que os elementos de B são linearmente independentes por racionais. Logo, se B é
mensurável por Lebesgue só podemos ter µL (B) = 0.
A Proposição 21.4 mostrou que a proposição anterior não é vazia no seguinte sentido: existem bases
de Hamel mensuráveis por Lebesgue.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 21 1095/1461
Figura 21.2: As três imagens acima mostram trechos em diferentes escalas dos anéis de Saturno. As
imagens foram obtidas pelas sondas Voyager 1 e 2. A Voyager 1 fez sua melhor aproximação a Saturno
em 12 de novembro de 1980 e a Voyager 2 em 26 de agosto de 1981, a distâncias de 124.000 km e
101.000 km, respectivamente.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 21 1096/1461
Figura 21.3: Histograma exibindo os ‘Gaps’ de Kirkwood do cinturão de asteróides. O eixo horizontal
representa o perı́odo da órbita, em unidades do perı́odo de Júpiter em torno do Sol, e o eixo vertical
representa o número de arteróides encontrado em cada perı́odo. Observe que há certas regiões do eixo
horizontal onde praticamente não se observam arteróides. Essas regiões são as denominadas Lacunas
de Kirkwood. Quase todas essas lacunas ocorrem próximas a pontos onde o perı́odo da órbita é igual
a certas frações racionais (indicadas na figura) do perı́odo de Júpiter. Há excessões a essa regra, o que
indica que efeitos não-peturbativos (e não-ressonantes) desempenham um papel na estabilidade (ou
instabilidade) das órbitas. Esses efeitos são ainda hoje objeto de pesquisa da Dinâmica Planetária.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 21 1097/1461
Figura 21.4: A “borboleta de Hofstadter”. O eixo horizontal representa o espectro quântico de energias
de um elétron movendo-se em um plano bidimensional sob a ação de um potencial periódico e de um
campo magnético constante perpendicular a esse plano. O eixo vertical representa o fluxo φ do campo
magnético em cada célula do potencial periódico bidimensional (em unidades de hc/e). Na figura, φ
varia entre 0 e 1.
Capı́tulo 22
Continuidade e Convergência em Espaços
Topológicos
Conteúdo
22.1 Primeiras Definições . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1098
22.2 Espaços Hausdorff . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1100
22.3 Reticulados e o Caso de Espaços Topológicos Gerais . . . . . . . . . . . . 1102
22.3.1 Reticulados em Espaços Métricos . . . . . . . . . . . . . . . . . . . . . . . . . 1105
22.4 O Limite do Ínfimo e o Limite do Supremo . . . . . . . . . . . . . . . . . . 1106
22.5 Continuidade de Funções em Espaços Topológicos . . . . . . . . . . . . . . 1111
22.5.1 Outras Caracterizações do Conceito de Continuidade em Espaços Topológicos 1114
22.5.2 Continuidade e Convergência . . . . . . . . . . . . . . . . . . . . . . . . . . . 1116
V amos neste capı́tulo estudar dois assuntos de grande importância no contexto de espaços
topológicos, a saber, o conceito geral de convervência (de seqüências ou de reticulados, vide
definições adiante) e o conceito geral de continuidade de funções. O conceito de convergência
foi introduzido anteriormente para o caso especial de seqüências em espaços métricos (vide
Capı́tulo 17). Aqui será dada particular atenção aos espaços topológicos do tipo Hausdorff.
Todo estudante possui uma noção mais ou menos clara do conceito usual de continuidade de funções
reais da reta real. Aqui, vamos estender este conceito a funções entre espaços topológicos gerais. A
possibilidade de se estender o conceito de continuidade das situações mais comuns e familiares, encon-
tradas na topologia usual da reta real, para situações mais gerais é, em verdade, uma das principais
razões pelas quais topologias mais gerais que aquelas produzidas por métricas são definidas e estuda-
das. Percebeu-se que, tomados os devidos cuidados, muitos dos resultados passı́veis de demonstração
no caso métrico estendem-se também para topologias não deriváveis de uma métrica. Fora isso, apren-
deremos, ao elevar o nı́vel de abstração com que o conceito de continuidade é apresentado, que muitas
caracterizações distintas, gerais e úteis do mesmo podem ser apresentadas. Uma conseqüência desse
alargamento de horizontes é uma maior facilidade na demonstração de resultados importantes.
O leitor interessado na noção de continuidade pode passar diretamente à Seção 22.5, página 1111.
Sua leitura dispensa a leitura das seções que lhe precedem exceto, em parte, pela noção de reticulado,
a qual pode ser colhida na Seção 22.3, página 1102.
1098
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 22 1099/1461
X, n ∈ N}. Os elementos da seqüência são os valores x(n), que freqüentemente são denotados apenas
por xn . Com um certo abuso de linguagem é costume referir-nos à seqüência x como sendo {x(n) ∈
X, n ∈ N}, ou denotamo-la por {xn , n ∈ N} ou mesmo por {xn } ou até apenas por xn . Em geral,
essas notações são mais práticas e não causam confusão. A noção tradicional de convergência de uma
seqüência em um espaço métrico é a seguinte:
Seja M um espaço métrico com métrica d e seja {an } uma seqüência em M. Dizemos que {an }
converge a um elemento a ∈ M se para todo ǫ > 0 existir N ≡ N(ǫ) ∈ N tal que d(an , a) < ǫ sempre
que n > N.
Abaixo vamos apresentar uma nova noção de convergência de seqüências em espaços topológicos
gerais que é equivalente àquela apresentada acima no caso de espaços métricos. Comecemos com duas
noções úteis. Seja x uma seqüência em X e A ⊂ X.
1. Dizemos que a seqüência x está eventualmente em A se existir um natural N ≡ N(A) (que pode
eventualmente depender de A) tal que xn ∈ A para todo n > N.
Se uma seqüência x está eventualmente em A, então ela está freqüentemente em A, mas a recı́proca
não é necessariamente verdadeira. Por exemplo, a seqüência de números reais an = (−1)n está freqüen-
temente no intervalo (0, 2), mas não eventualmente.
Nota. Nas definições aqui apresentadas estamos fazendo uso do ordenamento usual de N. Para o caso
geral vide a Seção 22.3 sobre reticulados em espaços topológicos.
Definamos agora as noções de ponto de acumulação e ponto limite de uma seqüência x em X, um
conjunto dotado de uma topologia τ .
Note que todo limite é um ponto de acumulação, mas a recı́proca não é verdadeira.
E. 22.1 Exercı́cio. Mostre que {−1, +1} são os pontos de acumulação da seqüência xn := (−1)n +1/n,
n ∈ N, n > 0 na topologia usual de R. Essa seqüência tem limites nessa topologia? E a seqüência
xn := 1/n2 , n ∈ N, n > 0? 6
E. 22.2 Exercı́cio. Seja uma seqüência r : N → R tal que Im r = Q (tais seqüências existem pois Q
é contável). Mostre que R é o conjunto de todos os pontos de acumulação de r na topologia usual de R.
Mostre que r não tem limites na topologia usual de R. 6
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 22 1100/1461
E. 22.3 Exercı́cio. Seja a seqüência do exercı́cio anterior, mas agora tome a topologia discreta P(R).
Mostre que r não tem pontos de acumulação nessa topologia se a função r for injetora. 6
E. 22.4 Exercı́cio. Mostre que as duas noções de convergência que apresentamos acima são equivalentes
no caso de seqüências em espaços métricos. 6
O último exercı́cio nos afirma a equivalência, no caso de espaços métricos, dos dois conceitos de con-
vergência que apresentamos, mas é importante frisar que a convergência de uma seqüência é fortemente
dependente da topologia adotada. Isso pode ser claramente visto no exemplo discutido a seguir.
Uma seqüência {xn } em X é dita ser eventualmente constante se existir x ∈ X e N ∈ N tais que
xn = x para todo n > N.
Seja, então, X um conjunto não-enumerável (R, por exemplo) e seja a topologia co-contável1 em
X: τcc (X). Então, nenhuma seqüência que não seja eventualmente constante tem limites em X em
relação a τcc (X). Isso segue do seguinte. Seja x uma seqüência em X e seja x ∈ X um ponto qualquer
e seja ainda A := (Im x)c ∪ {x} = (Im x ∩ {x}c )c . Como Im x ∩ {x}c é contável, então A é aberto em
τcc (X) e contém x. Porém, x não está eventualmente em A se não for eventualmente constante, pois
Im x ∩ A = Im x ∩ {x}. Assim, para qualquer x ∈ X podemos achar um aberto que contém x onde x
não está eventualmente. Logo, nenhuma seqüência x tem limites na topologia considerada.
Um exemplo ilustrativo é o da seqüência xn = 1/n, n ∈ N, n > 0, em R. Na topologia co-contável
τcc (R) essa seqüência não converge a zero, ao contrário do que ocorre na topologia usual, pois o conjunto
A := R \ {1/n, n ∈ N, n > 0} é aberto, contém x = 0, mas não contém nenhum elemento da seqüência
xn .
Em função de exemplos como esses, há pouca utilidade no conceito de convergência de seqüências
em certos espaços topológicos não-métricos. O que então normalmente se faz nesses casos é considerar
uma generalização do conceito de seqüência, conhecido como reticulado (“net” em inglês). Para esse
novo conceito há uma definição análoga de convergência que funciona de modo mais efetivo em espaços
topológicos gerais. Disso trataremos na Seção 22.3.
X não finito com a topologia co-finita. Esse espaço não tem a propriedade de Hausdorff. Seja X
não-contável com a topologia co-contável. Esse espaço não tem a propriedade de Hausdorff. Para esses
dois últimos exemplos, vide página 1037.
Demonstração. Seja M espaço métrico com métrica d, sejam x, y ∈ M distintos e seja r = d(x, y) > 0.
Sejam então os abertos Ax = Bd (x, r/3) e Ay = Bd (y, r/3). Suponha que exista um ponto z ∈ Ax ∩Ay .
Então, como z pertence ao mesmo tempo a Bd (x, r/3) e Bd (y, r/3), vale que d(x, z) < r/3 e
d(z, y) < r/3. Agora, pela desigualdade triangular tem-se r = d(x, y) ≤ d(x, z) + d(z, y) < 2r/3.
Porém, a desigualdade r < 2r/3 é absurda. Daı́, não pode existir qualquer ponto z em Ax ∩ Ay .
Nem todo espaço Hausdorff é métrico. A topologia de Sorgenfrey3 τ [S] de R (página 1040) é
Hausdorff (prove isso!) mas não é métrica (vimos isso à página 1057).
Chegamos agora a uma propriedade importante de espaços Hausdorff, sejam eles espaços métricos
ou não.
Proposição 22.2 Uma seqüência em um espaço Hausdorff pode ter no máximo um ponto limite. 2
Prova. Suponha que uma seqüência a em um espaço Hausdorff H com topologia τ tenha dois limites
distintos x e y. Sejam Vx ∋ x e Vy ∋ y dois abertos disjuntos de τ contendo x e y, respectivamente. Que
tais abertos sempre existem é garantido pela propriedade de Hausdorff, que está sendo suposta. Então,
como a converge a x e a y, temos que an ∈ Vx para todo n > N(Vx ) e an ∈ Vy para todo n > N(Vy ).
Logo, an ∈ Vx ∩ Vy para todo n > max{N(Vx ), N(Vx )}. Isso contraria a hipótese que Vx ∩ Vy = ∅.
Corolário 22.1 Uma seqüência em um espaço métrico pode ter no máximo um limite. 2
Note que seqüências em espaços Hausdorff podem ter muitos pontos de acumulação.
E. 22.6 Exercı́cio. Seja A a coleção de todos os subconjuntos de R2 do tipo {(x, y) ∈ R2 , com a <
y < b para − ∞ < a < b < ∞} (faça um desenho de um tal conjunto). Seja τ [A] a topologia gerada por
tais conjuntos.
1. Mostre que τ [A] não é Hausdorff. Para tal, tente ver se é possı́vel encontrar dois abertos nessa
topologia que contenham os pontos x = (0, 0) e y = (1, 0), respectivamente, mas que não se
interceptem.
2. Mostre que a seqüência xn = (0, 1/n), n ∈ N, n > 0 tem por limite todos os pontos da forma (x, 0)
para todo x ∈ R. (Na topologia usual de R2 o único limite dessa seqüência é o ponto (0, 0)).
3
Robert Sorgenfrey (1915 - 1996).
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 22 1102/1461
1. Dizemos que {xλ }λ∈I está freqüentemente em A ⊂ X se para todo λ ∈ I existir um λ′ ∈ I com
λ λ′ tal que xλ′ ∈ A.
2. Dizemos que {xλ }λ∈I está eventualmente em A ⊂ X se existe λ0 ∈ I tal que xλ ∈ A para todo
λ λ0 .
3. Se (X, τ ) for um espaço topológico, dizemos que x ∈ X é um ponto de acumulação de {xλ }λ∈I
com respeito a τ se {xλ }λ∈I estiver freqüentemente em qualquer τ -aberto que contém x. Nesse
caso, dizemos que {xλ }λ∈I acumula-se em x com respeito a τ .
4. Se (X, τ ) for um espaço topológico, dizemos que x ∈ X é um ponto limite de {xλ }λ∈I com
respeito a τ se {xλ }λ∈I estiver eventualmente em qualquer τ -aberto que contém x. Nesse caso,
dizemos que {xλ }λ∈I converge a x com respeito a τ .
O estudante deve notar que essas definições correspondem perfeitamente àquelas introduzidas para
seqüências à página 1099 e seguinte.
• Sub-reticulados
Seja {xα }α∈I um reticulado em X. Um outro reticulado {yβ }β∈J em X é dito ser um sub-reticulado
de {xα }α∈I se existir uma função h : J → I tal que
2. para todo α ∈ I existe β1 ∈ J tal que h(β) I α para todo β ∈ J que satisfaça β J β1 .
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 22 1103/1461
1. yβ = xβ para todo β ∈ J,
• Reticulados e convergência
Se (X, τ ) for um espaço topológico e x ∈ X, seja Ix a coleção de todos os τ -abertos que contém x.
Então, Ix é um conjunto dirigido pelo ordenamento parcial definido pela inclusão de conjuntos ⊆.
Prova. Precisamos primeiro provar que se x ∈ B então existe um reticulado {xλ }λ∈I que converge a x
com a propriedade que xλ ∈ B para todo λ ∈ I. Sabemos que todo elemento de Ix tem intersecção
não-vazia com B, pela definição de fecho de um conjunto. Assim o conjunto Ix, B definido em exercı́cio
acima é não vazio, é um subconjunto de B e é um conjunto dirigido pelo ordenamento parcial definido
pela inclusão de conjuntos ⊆. Por uma ligeira variação da proposição anterior, é fácil ver que qualquer
reticulado baseada em Ix, B e que a cada A ∈ Ix, B associe xA ∈ A converge a x e está, claramente,
contida em B.
Vamos agora provar que se um reticulado {xλ }λ∈I com xλ ∈ B para todo λ ∈ I converge a x, então
x ∈ B. Se {xλ }λ∈I converge a x, então {xλ }λ∈I está eventualmente em cada aberto A que contém x.
Isso implica que cada aberto A que contém x contém elementos de {xλ }λ∈I , que estão em B. Logo,
A ∩ B 6= ∅, provando que x ∈ B.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 22 1104/1461
Prova. Para cada x ∈ X denotemos por τx o conjunto de todos abertos de τ que contem x. Se D é um
conjunto dirigido denotamos por D a relação de ordem em D.
Parte I: se x é um ponto de acumulação de {xα }α∈I então x é ponto limite de um sub-reticulado de
{xα }α∈I .
Se x é um ponto de acumulação de {xα }α∈I , então para todo aberto A ∈ τx que contém x vale que
{xα }α∈I está freqüentemente em A. Pela definição, isso significa dizer que para todo α ∈ I existe um
βA (α) ∈ I com α βA (α) e xβA (α) ∈ A.
Seja J ⊂ I definido por n o
J := βA (α) A ∈ τx , α ∈ I .
Estabelecemos em J uma relação de ordem dizendo que βA (γ) J βA′ (γ ′ ) se βA (γ) I βA′ (γ ′ ) e A ⊂ A′
(deixamos como exercı́cio ao estudante mostrar que J é realmente uma relação de ordem).
Dados βA (γ) e βB (γ ′ ) ∈ J, seja γ ′′ tal que γ ′′ I γ e γ ′′ I γ ′ (a existência de um tal γ ′′ é
garantida pelo fato de I formar um conjunto dirigido por I ). Tem-se que4 βA∩B (γ ′′ ) J βA (γ) e
βA∩B (γ ′′ ) J βB (γ ′ ). Isso prova que J forma um conjunto dirigido por J . Portanto, {xβ }β∈J é um
reticulado em X.
Como J ⊂ I, tem-se {xβ }β∈J ⊂ {xα }α∈I . Além disso, se βB (γ) ∈ J satisfaz βB (γ) J βA (α), então
βB (γ) I βA (α) e, como pela definição das funções βA vale βA (α) I α, segue que βB (γ) I α. Isso
provou que {xβ }β∈J é um sub-reticulado de {xα }α∈I .
Notemos agora que se A ∈ τx , então se λ0 := βA (γ0 ) para algum γ0 fixo, tem-se que se βB (γ) J γ0 ,
então B ⊂ A e βB (γ) I γ0 . Como, por construção xβB (γ) ∈ B ⊂ A, concluı́mos que o sub-reticulado
{xβ }β∈J está eventualmente em A. Como essa afirmação vale para todo A ∈ τx , isso provou que esse
sub-reticulado converge a x.
Parte II: se x é ponto limite de um sub-reticulado de {xα }α∈I então x é um ponto de acumulação de
{xα }α∈I .
Vamos agora supor que x é ponto limite de algum sub-reticulado {yβ }β∈J de {xα }α∈I . Então, para
A ∈ τx existe λ0 ∈ J tal que yβ ∈ A para todo β J λ0 .
Como {yβ }β∈J é um sub-reticulado de {xα }α∈I , existe para cada α ∈ I um β1 ∈ J tal que h(β) I α
para todo β ∈ J com β J β1 (para a definição de h, vide a definição de sub-reticulado à página 1102).
Fixemos α ∈ I. Como J é um conjunto dirigido por J , existe β ′ ∈ J tal que (a): β ′ J β1 e (b):
4
Lembrar que se A ∈ τx e B ∈ τx então A ∩ B ∈ τx e é não-vazio, pois x pertence a A e a B e ambos são abertos.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 22 1105/1461
Prova. Seja (X, τ ) é do tipo Hausdorff e seja {xλ }λ∈I um reticulado em X que converge a a e a b
com a 6= b. Podemos encontrar A ∈ τ contendo a e B ∈ τ contendo b tais que A ∩ B = ∅. Mas isso
é impossı́vel, pois se {xλ }λ∈I converge a a e a b, então {xλ }λ∈I está eventualmente em A e B, o que
contradiz A ∩ B = ∅.
Vamos agora supor que o espaço topológico (X, τ ) tem a propriedade que todo reticulado em X
que for convergente tem apenas um ponto limite. Se (X, τ ) não é do tipo Hausdorff então existem a e
b, elementos distintos de X, tais que cada elemento de Ia tem intersecção não-vazia com cada elemento
de Ib .
Então, para cada par (A, B) com A ∈ Ia e B ∈ Ib podemos escolher um elemento em x(A, B) ∈ A∩B
a com isso, construir uma aplicação Ia × Ib → X. Gostarı́amos agora de identificar uma relação de
ordem parcial que faça de Ia × Ib um conjunto dirigido. Essa relação é a seguinte: (A, B) (A′ , B ′ )
se A′ ∩ B ′ ⊆ A ∩ B.
E. 22.9 Exercı́cio. Verifique que isso faz de Ia × Ib um conjunto dirigido. Para tal, constate que se
a = (A, B) e b = (C, D) ∈ Ia × Ib , então c = (A ∩ C, B ∩ D) ∈ Ia × Ib e valem a c e b c. 6
A noção de reticulado é também importante por permitir uma caracterização do conceito de conti-
nuidade de funções em espaços topológicos. Trataremos disso na Seção 22.5.2 e à página 1117.
d se para todo ǫ > 0 existir um n(ǫ) ∈ I (possivelmente dependente de ǫ) tal que d(f (i), f (j)) < ǫ
para todos i e j tais que i n(ǫ) e j n(ǫ).
É bastante claro que essa definição generaliza a noção de seqüência de Cauchy encontrada à página
944. Naquele caso o conjunto dirigido é o conjunto dos naturais N com a relação de ordem usual.
Lembremos que um conjunto M dotado de uma métrica d é dito ser completo (ou seqüencialmente
completo) em relação a essa métrica se vale a afirmação que uma seqüência converge em M se e somente
ser for uma seqüência de Cauchy.
Para entendermos a relação entre as noções de seqüências de Cauchy e reticulados de Cauchy em
espaços métricos completos a seguinte proposição é essencial.
Proposição 22.6 Seja M completo em relação à métrica d, ou seja, tal que uma seqüência converge
em M se e somente ser for uma seqüência de Cauchy. Então vale a afirmação que um reticulado
converge em M se e somente ser for um reticulado de Cauchy. 2
Prova. Se um reticulado f : I → M é convergente, então existe m ∈ M tal que para todo ǫ > 0 existe
n(ǫ) ∈ I tal que d(f (i), m) < ǫ para todo i ∈ I com a propridade i n(ǫ). Assim, se i e j ∈ I são tais
que i n(ǫ) e j n(ǫ), vale pela desigualdade triangular d(f (i), f (j)) ≤ d(f (i), m) + d(m, f (j)) ≤
ǫ + ǫ, o que prova que f é um reticulado de Cauchy.
Provemos agora a recı́proca. Seja f : I → M um reticulado de Cauchy. Então para todo k ∈ N,
k > 0, existe n(1/k) ∈ I tal que d(f (i), f (j)) ≤ 1/k para todos i e j tais que i n(1/k) e j n(1/k).
Seja definido z1 := n(1) e escolhamos indutivamente para cada k ∈ N, k ≥ 2, um elemento zk ∈ I tal
que zk zk−1 e zk n(1/k). É claro que
Logo,
n(1/k) zk zk+1 zk+2 · · · .
Assim, para todos n > m > k vale d(f (zm ), f (zn )) < 1/k. Portanto, {f (zl ), l ∈ N} é uma seqüência de
Cauchy em M e como M é (seqüencialmente) completo, segue que {f (zl ), l ∈ N} converge a um certo
elemento m ∈ M, o que equivale a dizer que para todo ǫ > 0 existe N(ǫ) ∈ N tal que d(f (zn ), m) < ǫ
sempre que n > N(ǫ).
Seja agora ǫ > 0 fixo e escolhamos k ∈ N de forma que 1/k < ǫ. Se i ∈ I satisfaz i n(1/k), vale
d(f (i), m) ≤ d(f (i), f (zn )) + d(f (zn ), m). Tomando n > max{N(ǫ), k} teremos d(f (i), f (zn )) < ǫ
pois i n(1/k) e zn n(1/k) e também teremos d(f (zn ), m) < ǫ pois n > N(ǫ). Logo, d(f (i), m) ≤
2ǫ, provando que f converge (a m ∈ M). Isso completa a prova.
ou, n o
lim sup α := inf sup αk , k n, k ∈ I , n ∈ I . (22.4)
I
As definições acima indicam que tanto o limite do supremo quanto o do ı́nfimo dependem da ordem
adotada . Omitiremos essa dependência para não carregar a notação.
É fácil provar que sempre se tem
Que interesses há nas definições acima? Há vários. Um deles reside na seguinte propriedade.
Suponha que I possa ser escrito como uma união I = I0 ∪ J onde I0 e J têm as seguintes propriedades
ou seja, os limites do ı́nfimo e do supremo de uma função em um conjunto dirigido não mudam se
subtrairmos de I um conjunto do “começo” de I (no caso, I0 ). Essa propriedade, que é uma das
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 22 1108/1461
principais razões de ser das definições de limite acima e que tem uma importância fundamental, será
denominada aqui invariância por redução inicial do domı́nio.
Vamos prová-la para o limite do ı́nfimo. O caso do limite do supremo é análogo. Como
segue que
!
α := sup inf αk , k n, k ∈ I , n ∈ I0 ,
!
β := sup inf αk , k n, k ∈ I , n ∈ J .
Pelas hipóteses, existe para todo i0 ∈ I0 pelo menos um elemento j(i0 ) ∈ J com a propriedade que
j(i0 ) i0 . Logo, para cada i0 ∈ I0 tem-se
ak , k j(i0 ), k ∈ I ⊂ ak , k i0 , k ∈ I
e, assim,
inf ak , k j(i0 ), k ∈ I ≥ inf ak , k i0 , k ∈ I .
Dado que
!
sup inf αk , k j, k ∈ I , j ∈ J ≥ inf αk , k j(i0 ), k ∈ I
Assim,
! !
sup inf αk , k j, k ∈ I , j∈J ≥ sup inf αk , k n, k ∈ I , n ∈ I0 .
Como lim inf I α é o máximo entre os elementos de cada lado da última desigualdade (veja (22.7)),
provou-se que
!
lim inf α = sup inf αk , k n, k ∈ I , n ∈ J .
I
Recordemos a seguinte definição. Seja X um conjunto com uma topologia τ . Seja A um subconjunto
de X. Um ponto x ∈ X é dito ser um ponto limite de A se todo aberto T ∈ τ que contiver x contiver
pelo menos um ponto de A distinto x. Ou seja, se x ∈ T então (T ∩ A) \ {x} =6 ∅.
Denotaremos por pt(A) o conjunto de pontos limite de de A. Vamos supor que X seja parcialmente
ordenado. Definimos então
lim sup A = sup(pt(A))
τ
e
lim inf A = inf(pt(A)).
τ
desde, é claro, que os supremos e ı́nfimos existam em X. Como antes essa definição depende do
ordenamento adotado em X.
• Advertência
Seja I como antes um conjunto dirigido e seja uma função α : I → R. Denotemos por Im(α) a
imagem de α. Adotemos em R a topologia usual τR e o ordenamento usual.
É então tentador fazermos a seguinte pergunta: será verdade que lim inf I α = lim inf τR Im(α) e que
lim supI α = lim supτR Im(α)?
A resposta pode ser sim ou não dependendo do tipo de ordenamento adotado em I. Vejamos os
seguintes exemplos.
Exemplo 1. Adotemos I = N e em N adotemos o ordenamento usual. Tomemos como função a
seqüência α definida da seguinte forma
−1 − 1/n, para n par
αn := .
1 + 1/n, para n ı́mpar
Verificamos acima que não é verdadeira em geral a afirmativa que o limite do supremo de uma
seqüência coincide com o supremo dos pontos limite de sua imagem. Há porém uma relação entre o
limite do supremo e os pontos de acumulação da seqüência.
Tomemos I como sendo o conjunto dos naturais com o ordenamento usual e seja α : I → R uma
seqüência. Adotamos em R a topologia usual e o ordenamento usual.
Seja Ac(α) o conjunto de todos os pontos de acumulação da seqüência α.
Tem-se então que
lim inf α = inf(Ac(α))
I
e que
lim sup α = sup(Ac(α)) .
I
Não apresentaremos a prova aqui. Observamos, porém, que esse fato é verdadeiro qualquer que seja
o ordenamento adotado em N. Para provar isso precisamos ainda introduzir o conceito de ponto de
acumulação para funções definidas em conjuntos dirigidos gerais, o que faremos na Seção 22.3 sobre
reticulados.
E. 22.13 Exercı́cio. Sejam cn e dn duas seqüências limitadas de números reais. Mostre as seguintes
desigualdades.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 22 1111/1461
O estudante pode estar se perguntando por que não temos sempre simplesmente a igualdade
lim sup(cn + dn ) = lim sup cn + lim sup dn . Veja o que ocorre no exemplo simples onde cn = (−1)n
e dn = −(−1)n . Aqui temos lim sup(cn + dn ) = lim sup 0 = 0, mas lim sup cn = +1 e lim sup dn = +1.
Logo, lim sup(cn + dn )0 < 2 = lim sup cn + lim sup dn e a igualdade, portanto, não é válida nesse caso.
E. 22.15 Exercı́cio. Sejam cn e dn duas seqüências de números reais tais que cn ≤ dn para todo n ∈ N.
Mostre que
lim sup cn ≤ lim sup dn e lim inf cn ≤ lim inf dn .
n→∞ n→∞ n→∞ n→∞
Proposição 22.7 Sejam M1 , M2 e M3 espaços topológicos com topologias τM1 , τM2 e τM3 , respectiva-
mente. Seja f : M1 → M2 , contı́nua em relação às topologias τM1 e τM2 , e g : M2 → M3 , contı́nua em
relação às topologias τM2 e τM3 . Então g ◦ f : M1 → M3 é contı́nua em relação às topologias τM1 e τM3 .
2
Prova. ←→ Exercı́cio.
Uma série de questões vêm à mente de qualquer estudante que se depara com a definição acima
pela primeira vez. Por exemplo, as seguintes: 1) No caso de funções reais definidas na reta real o que a
definição acima tem a ver com a noção de continuidade tão bem conhecida e ensinada? 2) Na definição
acima, o conceito de continuidade parece ser fortemente dependente das topologias τM e τN escolhidas
no domı́nio e na imagem da função. Pode acontecer de uma função dada ser contı́nua em relação a
algumas topologias mas não em relação a outras? 3) É estranho que na definição acima a noção de
continuidade seja apresentada em termos de uma propriedade da imagem inversa f −1 da função f . Isso
tem mesmo que ser assim? 4) Será possı́vel caracterizar a propriedade de continuidade diretamente em
termos de propriedades da f ?
Essas questões são muito pertinentes e serão respondidas uma a uma no que segue.
Fazemos notar que, na definição nova de continuidade que apresentamos acima, as topologias τM e
τN são genéricas, não necessitando ser, por exemplo, topologias métricas em M ou N, respectivamente.
Vamos, porém, discutir agora o caso tradicional em que M e N são iguais à reta real dotada da topologia
métrica usual τR .
Seja f : R → R uma função. A noção usual de continuidade diz que f é contı́nua em R se e somente
se para todo x ∈ R e para todo número ǫ > 0 existir um número δ = δ(x, ǫ) > 0 (eventualmente
dependente de x e ǫ) tal que, sempre que para algum y tivermos |y−x| < δ(x, ǫ) então |f (y)−f (x)| < ǫ.
Essa definição pode ser facilmente generalizada para o caso de espaços métricos gerais.
DCEM 1. Sejam M e N dois conjuntos não-vazios dotados de métricas dM e dN , respectivamente.
Uma função f : M → N é dita ser contı́nua (no sentido usual) em relação às métricas dM e dN se para
todo x ∈ M e para todo número ǫ > 0 existir um número δ(x, ǫ) > 0 tal que se y ∈ BdM (x, δ(x, ǫ))
então f (y) ∈ BdN (f (x), ǫ).
Acima, Bd (a, r) é a bola aberta de raio r centrada em torno de a segundo a métrica d.
Vejamos um exemplo de uma função real que não é contı́nua segundo a definição acima. Seja a
função
1, se t ≥ 0 ,
H(t) := (22.8)
0, se t < 0 .
Então, para x = 0 e para ǫ = 1/10 (por exemplo) não é possı́vel achar um número δ tal que se
|y − x| = |y| < δ tenhamos |H(y) − H(x)| = |H(y) − 1| < 1/10. A razão é que para qualquer y ≥ 0
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 22 1113/1461
temos |H(y) − 1| = 0 que é menor que 1/10, mas para qualquer y < 0 temos |H(y) − 1| = 1 que,
obviamente, é sempre maior que 1/10.
E. 22.16 Exercı́cio. Seja a função g(t) = t2 . Mostre explicitamente que g é contı́nua pela definição
acima. Como pode ser δ(x, ǫ) como função de x e ǫ nesse caso? 6
Já nos encontramos anteriormente, por exemplo, no Capı́tulo 18, página 994, com a noção de função
Lipschitz5 -contı́nua, ao menos no caso de funções reais. Essa noção pode ser facilmente generalizada
para funções entre espaços métricos gerais.
2. Para todo k existe uma extensão de f ↾ Ak sobre o fechado Ak a qual é contı́nua em relação à
topologia induzida por τM sobre Ak e em relação à τN .
Alguns autores permitem enfraquecer a condição de que a coleção de abertos Ak seja finita, permi-
tindo que seja contável.
Desejamos provar a equivalência das definições DC 1 e DC 2. Para tal, notemos que, para qualquer
conjunto C ⊂ N, vale f −1 (C) = f −1 (C c )c , ou seja,
f −1 (C) = M \ f −1 (N \ C) .
Com essa relação em mãos fica fácil provar que se f for contı́nua segundo DC 1 então a imagem
inversa de qualquer conjunto C fechado em N é fechado em M. Mutatis mutantis, se f e contı́nua
segundo DC 2 então a imagem inversa de qualquer aberto C em N é aberto em M. Isso estabelece
que as duas definições são equivalentes.
Vamos agora a uma terceira definição de continuidade que será útil quando tratarmos do conceito
de continuidade em espaços métricos.
DC 3. Sejam M e N dois conjuntos não-vazios, o primeiro dotado de uma topologia τM e o segundo
de uma topologiaτN . Uma função f : M → N é dita ser uma função contı́nua em relação às topologias
τM e τN se f D ⊂ f (D) para todo conjunto D ⊂ M. Aqui, D é o fecho de D na topologia τM e f (D)
é o fecho de f (D) na topologia τN .
Note-se aqui dois fatos: 1) nesta nova definição a continuidade é caracterizada em termos de propri-
edades das imagens da função f e não em termos das suas imagens inversas; 2) acima D é um conjunto
qualquer de M, não apenas um aberto ou um fechado.
Vamos provar agora que a definição DC 3 é equivalente à definição DC 2 (e, portanto, à definição
DC 1). Para tal, notemos que as seguintes afirmativas são verdadeiras: sejam X ⊂ M e Y ⊂ N dois
conjuntos quaisquer. Então
f (f −1(Y )) ⊂ Y e f −1 (f (X)) ⊃ X .
Fora isso, é também claro que se X ⊂ M e Y ⊂ N são tais que f (X) ⊂ Y , então f −1 (Y ) ⊃ X.
Seja então f contı́nua segundo DC 3 e seja F ⊂ N, fechado. Teremos que
f f −1 (F ) ⊂ f (f −1 (F )) ⊂ F = F ,
ou seja,
f f −1 (F ) ⊂ F .
Logo,
f −1 (F ) ⊃ f −1 (F ) .
Como um conjunto qualquer é sempre subconjunto e seu fecho, essa última relação diz que f −1 (F ) =
f −1 (F ), que é o mesmo que dizer que f −1 (F ) é fechado. Assim, se f é contı́nua segundo DC 3 é
também segundo DC 2.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 22 1116/1461
Seja agora f contı́nua segundo DC 2. E seja D ⊂ M, qualquer. Tomando Y = f (D), vimos acima
que
−1
f f f (D) ⊂ f (D). (22.10)
Agora,
D ⊂ f −1 (f (D)) ⊂ f −1 f (D) .
Mas f −1 f (D) é fechado, pois f é contı́nua segundo DC 2 e f (D) é fechado. Assim, D ⊂ f −1 f (D) ,
−1
pois D é o menor fechado que contém D. Disso segue que f D ⊂ f f f (D) . Juntando-se isso
à (22.10), concluı́mos que f D ⊂ f (D), provando a equivalência desejada.
Vamos agora tratar de mais uma caracterização do conceito de continuidade de funções, carac-
terização esta especializada ao caso de funções entre espaços métricos. Uma primeira definição do
conceito de continuidade de funções entre espaços métricos é a definição DCEM 1, que encontra-se
à página 1112. O ponto importante da caracterização que aqui descreveremos é que a mesma trata a
noção de continuidade em termos de convergência de seqüências, sendo por isso de especial importância
prática.
Temos a seguinte definição:
DCEM 2. Sejam M e N dois conjuntos não-vazios dotados de métricas dM e dN , respectivamente.
Sejam τdM e τdN as topologias induzidas por essas métricas em M e N, respectivamente. Uma função
f : M → N é contı́nua em relação às métricas dM e dN se para todo x ∈ M e para toda seqüência
{xn , n ∈ N} que converge a x em relação à métrica dM tivermos
ou seja,
f lim xn = lim f (xn ) ,
n→∞ n→∞
f (x) = lim f (xn ). Como x pode ser qualquer elemento de D e como os pontos f (xn ) são elementos
n→∞
do conjunto f (D), isso significa que f D ⊂ f (D), o que prova que f é contı́nua segundo DC 3.
Vamos agora supor f contı́nua segundo DC 1 e vamos mostrar que ela então o é segundo DCEM
2. Suponha que para x ∈ M haja uma seqüência xn em M convergindo a x segundo dM e suponha
que f (xn ) não converge a f (x). Então existe um aberto A de N contendo f (x) e tal que f (xn ) não
está eventualmente em A. Isso significa que xn não está eventualmente em f −1 (A) (por que?). Como
pelas hipóteses f −1 (A) é um aberto e x ∈ f −1 (A) (por que?), isso diz que xn não converge a x, uma
contradição. Logo lim f (xn ) = f (x) e a equivalência está provada.
n→∞
E. 22.20 Exercı́cio. Seja a função H definida em (22.8). Adotando a topologia usual de R tanto na
imagem quanto no domı́nio de H, exiba seqüências xn em R convergindo a x = 0 tais que lim H(xn ) 6=
n→∞
H(0). 6
Como observamos acima, a definição de continuidade DCEM 2 não pode ser diretamente trans-
posta a espaços topológicos gerais, pois nesses casos ocorrem dificuldades especiais concernentes à
convergência de seqüências. Como aprendemos e discutimos na Seção 22.3, página 1102, essas difi-
culdades podem ser superadas com o emprego da noção mais geral de reticulado, como alternativa às
seqüências. De fato, é possı́vel apresentar mais uma definição do conceito de continuidade, equiva-
lente às anteriores, nas mesmas linhas de DCEM 2, mas com a noção de reticulado substituindo a de
seqüência.
Para uma melhor compreensão do que segue, recomendamos uma re-leitura da Seção 22.3, página
1102. Temos a seguinte definição:
DC 4. Sejam M e N dois conjuntos não-vazios, o primeiro dotado de uma topologia τM e o segundo
de uma topologia τN . Uma função f : M → N é dita ser uma função contı́nua em relação às topologias
τM e τN se para todo x ∈ M e para todo reticulado {xλ , λ ∈ I} em M que tem x como ponto limite
na topologia τM , o reticulado {f (xλ ), λ ∈ I} em N tiver f (x) como ponto limite na topologia τN .
Note que, acima, os reticulados {xλ , λ ∈ I} e {f (xλ ), λ ∈ I} podem tem outros pontos limite
além de x e f (x), respectivamente, pois M e N não são necessariamente do tipo Hausdorff nas suas
respectivas topologias.
Vamos mostrar que esta última definição de continuidade equivale às definições DC 1, 2 e 3.
Prova da equivalência. Vamos supor que f seja contı́nua segundo DC 4 e provar que f é então
contı́nua segundo DC 3. Seja D ⊂ M genérico e não-vazio e seja x ∈ D (o caso D = ∅ é trivial).
Então, pela Proposição 22.4, página 1103, existe um reticulado {xλ , λ ∈ I} em D tem x como ponto
limite em τM . Pelas hipóteses então, f (x) é ponto limite de {f (xλ ), λ ∈ I} em τN . Como x pode
ser qualquer elemento de D e como os pontos f (xλ )são elementos do conjunto f (D), isso significa,
também pela Proposição 22.4, página 1103, que f D ⊂ f (D), o que prova que f é contı́nua segundo
DC 3.
Vamos agora supor f contı́nua segundo DC 1 e vamos mostrar que ela, então, o é segundo DC 4.
Suponha que para x ∈ M haja um reticulado {xλ , λ ∈ I} em M que tem x como ponto limite em
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 22 1118/1461
τM e suponha que f (x) não é ponto limite de {f (xλ ), λ ∈ I} em τN . Então existe um aberto A de N
contendo f (x) e tal que {f (xλ ), λ ∈ I} não está eventualmente em A. Isso significa que {xλ , λ ∈ I}
não está eventualmente em f −1 (A) (por que?). Como pelas hipóteses f −1 (A) é um aberto e x ∈ f −1 (A)
(por que?), isso diz que x não é ponto limite de {xλ , λ ∈ I} em τM , uma contradição. Logo f (x) é
ponto limite de {f (xλ ), λ ∈ I} em τN e a equivalência está provada.
Capı́tulo 23
Elementos da Teoria da Integração
Conteúdo
23.1 Comentários Preliminares . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1120
23.2 A Integração no Sentido de Riemann . . . . . . . . . . . . . . . . . . . . . 1122
23.2.1 A Integral de Riemann Imprópria . . . . . . . . . . . . . . . . . . . . . . . . . 1131
23.2.2 Diferenciação e Integração em Espaços de Banach . . . . . . . . . . . . . . . 1133
23.3 A Integração no Sentido de Lebesgue . . . . . . . . . . . . . . . . . . . . . 1139
23.3.1 Funções Mensuráveis e Funções Simples . . . . . . . . . . . . . . . . . . . . . 1139
23.3.2 A Integral de Lebesgue. Integração em Espaços Mensuráveis . . . . . . . . . 1145
23.3.3 A Integral de Lebesgue e sua Relação com a de Riemann . . . . . . . . . . . 1155
23.3.4 Teoremas Básicos sobre Integração e Convergência . . . . . . . . . . . . . . . 1158
23.3.5 Alguns Resultados de Interesse . . . . . . . . . . . . . . . . . . . . . . . . . . 1162
23.4 Os Espaços Lp e Lp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1164
23.4.1 As Desigualdades de Hölder e de Minkowski . . . . . . . . . . . . . . . . . . . 1167
23.4.2 O Teorema de Riesz-Fischer. Completeza . . . . . . . . . . . . . . . . . . . . 1171
Apêndices . . . . . . . . . . . . . . . . . . . . 1172
23.A Demonstração da Proposição 23.3 . . . . . . . . . . . . . . . . . . . . . . . 1172
23.B Caracterizações e Propriedades de Funções Mensuráveis . . . . . . . . . . 1173
23.C Prova do Lema 23.3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1179
23.D Demonstração de (23.22) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1180
23.E A Equivalência das Definições (23.23) e (23.24) . . . . . . . . . . . . . . . 1181
23.F Prova do Teorema da Convergência Monótona . . . . . . . . . . . . . . . . 1183
23.G Prova do Lema de Fatou . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1184
23.H Prova do Teorema da Convergência Dominada . . . . . . . . . . . . . . . . 1185
23.I Prova dos Teoremas 23.2 e 23.3 . . . . . . . . . . . . . . . . . . . . . . . . . 1186
23.J Prova das Desigualdades de Hölder e Minkowski . . . . . . . . . . . . . . 1189
23.K Prova do Teorema de Riesz-Fischer . . . . . . . . . . . . . . . . . . . . . . 1191
1119
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 23 1120/1461
leitor que os assuntos tratados neste capı́tulo envolvem por vezes noções e problemas matematicamente
muito sutis, sendo difı́cil apresentá-los de modo resumido ou simplificado. Por essa razão, optamos por
apresentar certas demonstrações mais técnicas não no texto principal, mas nos apêndices que se iniciam
à página 1172. Nossa intenção é, antes de tudo, guiar o leitor, apontando-lhe os ingredientes de maior
importância e de modo a eventualmente motivar seu interesse em um estudo mais aprofundado.
Como referências gerais para a teoria da medida e da integração, recomendamos [123] (fortemente),
e também [105], [83], [122], [44] ou ainda [96, 97]. Um texto clássico é [56]. Para estas Notas também
coletamos material de [63, 64], [62] e de [10].
Terão essas funções uma integral em um dado intervalo compacto [a, b]? Como essas funções são
descontı́nuas em todos os pontos, é fácil reconhecer que a noção de integral como “área sob o gráfico”
de uma função é aqui muito problemática (o leitor não convencido deve tentar desenhar os gráficos
dessas funções e se perguntar qual a “área” sob os mesmos).
1
Isaac Newton (1643-1727).
2
Gottfried Wilhelm von Leibniz (1646-1716).
3
Arquimedes de Siracusa (ci. 287 A.C. - ci. 212 A.C.).
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 23 1121/1461
Na grande maioria das aplicações com as quais nos acostumamos, funções como essas não ocorrem,
mas sim funções contı́nuas e suficientemente diferenciáveis, para as quais a noção intuitiva de integral
dificilmente é problemática. No entanto, uma série de desenvolvimentos teóricos na Matemática con-
duziram à necessidade de estender a noção de integral a classes mais abrangentes de funções, como as
do exemplo acima. Seria precipitado enumerar neste ponto quais foram precisamente esses desenvol-
vimentos que pressionaram por um aprofundamento da noção de integral, pois para tal uma série de
comentários e definições teria que ser antecipada. Discutiremos isso no devido momento. Menciona-
mos, porém, que esse avanço foi possibilitado pelo desenvolvimento concomitante da Teoria da Medida,
que, como já discutimos alhures, fundamentou e estendeu noções como comprimento, área, volume etc.,
de conjuntos. A área da Matemática que surgiu desse desenvolvimento é usualmente conhecida como
Teoria da Integração.
Um outro avanço importante obtido através da Teoria da Integração foi o seguinte. As noções
de integração que aprendemos nos cursos de Cálculo aplicam-se a integrais de funções definidas em
conjuntos como R, Rn , C etc. Uma das conseqüências mais importantes do desenvolvimento da teoria da
integração foi a possibilidade de definir a noção de integral mesmo para funções definidas em conjuntos
mais “exóticos” que os supra-citados, tais como conjuntos fractais, conjuntos de curvas, de funções e
outros.
Esse desenvolvimento relevou-se de grande importância para a Fı́sica também. Na Mecânica
Quântica, por exemplo, ocorrem as chamadas integrais funcionais, que são integrais de funções de-
finidas em conjuntos de curvas contı́nuas. Dados dois pontos x e y no espaço, um método importante
desenvolvido por Feynman4 permite expressar certas funções de Green G(x, y) de sistemas quânticos
em termos de integrais sobre o conjunto Cx, y de todas as curvas contı́nuas no espaço que conectam
x a y. Na Teoria Quântica de Campos, o análogo das integrais de Feynman é ainda mais abstrato e
envolve integrais sobre conjuntos de distribuições5 . Como se percebe, tais aplicações requerem muito
mais que definir a noção de integral como “área” ou “volume sob um gráfico”.
Tentativas informais de caracterizar a noção de integral são tão antigas quanto o Cálculo. Leibniz
tentou definir integrais e derivadas a partir da noção de infinitésimos. A noção de infinitésimos carece
de respaldo matemático mas, como outras idéias filosófico-especulativas infelizes do passado, estende
sua perversa influência até o presente, causando em alguns, especialmente em cursos de fı́sica e en-
genharia, uma falsa percepção de compreensão da noção de integral que impede o entendimento de
outros desenvolvimentos. A noção de limite, que acabou por expurgar os infinitésimos da linguagem
matemática, era praticamente desconhecida dos fundadores do Cálculo, tendo sido usada pela primeira
vez em 1754 por d’Alembert6 para definir a noção moderna de derivada.
Um dos primeiros passos importantes no sentido de dotar a noção de integral definida de fundamen-
tos mais sólidos foi dado por Riemann7 em 1854, em sua famosa tese de livre-docência8 . A motivação de
Riemann foi o estudo das séries de Fourier. Ao estudar condições que garantam um rápido decaimento
4
Richard Phillips Feynman (1918-1988). A formulação da Mecânica Quântica em termos das integrais funcionais de
Feynman surgiu em cerca de 1942.
5
Para uma exposição introdutória sobre a integração funcional de Feynman na Mecânica Quântica, vide, por exemplo,
[111], ou bons livros de Mecânica Quântica. Para a integração funcional de Feynman-Kac, definida no espaço-tempo
Euclidiano, vide e.g. [51] ou [116, 117, 118, 119].
6
Jean Le Rond d’Alembert (1717-1783).
7
Georg Friedrich Bernhard Riemann (1826-1866).
8
“Über die Darstellbarkeit einer Function durch eine trigonometrische Reihe”. Publidada em 1867.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 23 1122/1461
dos coeficientes de Fourier de funções periódicas, Riemann deparou-se com a necessidade de carac-
terizar mais precisamente a noção de integrabilidade de funções ou, melhor dizendo, de caracterizar
quais funções podem ser dotadas de uma integral. Um dos problemas com que Riemann se debateu foi
demonstrar
Z o que hoje em dia é conhecido como Lema de Riemann-Lebesgue: a afirmação que o limite
b
lim f (x) sen(λx)dx vale zero se f for contı́nua por partes. Esse fato é importante para a teoria
λ→∞ a
das séries de Fourier e sua demonstração (que pode ser acompanhada, por exemplo, em [36]), requer
compreender a integral como limite de somas de Riemann (a serem definidas abaixo).
A noção de integrabilidade de Riemann, que será recordada abaixo, é a primeira a ser ensinada em
(bons) cursos de Cálculo mas, como discutiremos mais adiante, também não é plenamente satisfatória.
Para a grande maioria dos propósitos modernos, a noção mais satisfatória de integrabilidade é a de
Lebesgue, que também apresentaremos adiante. É dessa noção de integral que emergem os desenvol-
vimentos mais importantes, na teoria das séries de Fourier, dos espaços de Banach e de Hilbert etc.
Adiantamos que no caso de funções limitadas reais definidas em conjuntos compactos da reta real, as
integrais de Riemann e de Lebesgue coincidem. Nesse sentido, a integração de Lebesgue estende a de
Riemann. Trataremos disso de modo mais preciso nos Teoremas 23.2 e 23.3, da Seção 23.3.3, página
1155.
Nesse momento é conveniente que encerremos esse palavreado preliminar e elevemos a discussão a
um nı́vel mais sólido.
• Partições
compacto [a, b] será denotado por P([a, b]), ou simplesmente P, se [a, b] estiver sub-entendido. Uma
partição particular será denotada por P ∈ P([a, b]).
A cada partição P = {x1 , . . . , xn } ∈ P([a, b]), com n pontos, estão associados n − 1 intervalos
fechados I1 , . . . , In−1 , sendo Ik = [xk , xk+1 ]. Denotaremos por |Ik | o comprimento do k-ésimo
intervalo: |Ik | := xk+1 − xk .
Outra noção útil é a de fineza de uma partição P, denotada por |P|. Se P = {x1 , . . . , xn } ∈ P([a, b])
definimos |P| := max{|I1 |, . . . , |In−1 |}. Assim, |P| é o máximo comprimento dos intervalos definidos
por P em [a, b].
Podemos fazer de P([a, b]) um conjunto dirigido9 , definindo a seguinte relação de ordem parcial:
P P′ se P ⊂ P′ . Assim, dizemos que uma partição P′ é mais fina que uma partição P se P for um
sub-conjunto de P′ . Note-se que se P P′ então |P| ≥ |P′|.
E. 23.1 Exercı́cio. Mostre que isso define uma relação de ordem parcial em P([a, b]) e que isso faz de
P([a, b]) um conjunto dirigido. 6
Tal como P([a, b]), o conjunto X([a, b]) é também um conjunto dirigido se definirmos a relação de
ordem (P, χ) (P′ , χ′ ) se P P′ , ou seja, se P ⊂ P′ (independentemente de χ e χ′ !).
Dada uma função real limitada f , definida em [a, b], e dado um par (P, χ) ∈ X([a, b]), com
P = {x1 , . . . , xn } e χ = {χ1 , . . . , χn−1 }, χk ∈ Ik , k = 1, . . . , n − 1, distintos, definimos a soma de
Riemann de f associada ao par (P, χ), denotada por S[(P, χ), f ], como
n−1
X
S[(P, χ), f ] := f (χk )|Ik | .
k=1
f(x)
f(χ 6)
f(χ5 )
f(χ 1)
a=x 1 x2 x3 x4 x5 x6 b=x
7
χ1 χ2 χ3 χ4 χ5 χ6
Figura 23.1: Representação da soma de Riemann de uma função f no intervalo [a, b] com a partição
P = {a = x1 , x2 , x3 , x4 , x5 , x6 , x7 = b}, com os pontos intermediários χ = {χ1 , χ2 , χ3 , χ4 , χ5 , χ6 }.
O k-ésimo retângulo tem altura f (χk ) e largura |Ik | = xk+1 − xk . A soma das áreas desses retângulos
fornece S[(P, χ), f ].
do tipo Hausdorff, se esse reticulado possuir um ponto limite, o mesmo é único (pela Proposição 22.5,
página 1105). Essa questão nos conduz à seguinte definição:
Definição. Integrabilidade de Riemann I. Uma função limitada f : [a, b] → R é dita ser integrável
por Riemann no intervalo compacto [a, b] se o reticulado X([a, b]) ∋ (P, χ) 7→ S[(P, χ), f ] ∈ R possuir
um ponto limite S(f ) ∈ R.
Se f : [a, b] → R for integrável por Riemann no intervalo compacto [a, b] o limite S(f ) é denominado
integral de Riemann de f em [a, b]. Como é bem conhecido, a integral de Riemann de f em [a, b] é
Rb
mais freqüentemente denotada11 por a f (x) dx, ou seja,
Z b
S(f ) ≡ f (x) dx .
a
Para tornar essa definição um pouco mais palpável, vamos reformulá-la um pouco lembrando a
definição de ponto limite de um reticulado da Seção 22.3, página 1102. Dizemos que S(f ) ∈ R é um
ponto limite do reticulado X([a, b]) ∋ (P, χ) 7→ S[(P, χ), f ] ∈ R, se para todo ǫ > 0 existir um par
(P0 , χ0 ) ∈ X([a, b]) tal que S[(P, χ), f ] pertence ao intervalo aberto (S(f ) − ǫ, S(f ) + ǫ) para todo
par (P, χ) ∈ X([a, b]) tal que (P, χ) (P0 , χ0 ).
11
R
O sı́mbolo foi introduzido por Leibniz, sendo uma estilização da letra S, de “soma”.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 23 1125/1461
Assim, f : [a, b] → R é dita ter uma integrável por Riemann S(f ) ∈ R se para todo ǫ > 0 existir
um par (P0 , χ0 ) ∈ X([a, b]) tal que
S[(P, χ), f ] − S(f ) < ǫ
Rb
para todo par (P, χ) tal que (P, χ) (P0 , χ0 ). O número S(f ) é denotado por a
f (x) dx.
Em palavras, uma função f é integrável no sentido de Riemann se o processo de “refinamento” de
partições, fazendo-as incluir mais e mais pontos com espaçamentos cada vez menores, conduzir a um
limite único das somas de Riemann. A integral de Riemann de f é então esse limite das somas das
áreas dos retângulos descritos na Figura 23.1, para quando as partições são feitas cada vez mais finas.
Pela Proposição 22.6, página 1106, o reticulado X([a, b]) ∋ (P, χ) 7→ S[(P, χ), f ] ∈ R possui um
ponto limite se e somente se for um reticulado de Cauchy12 . Assim, o critério de Integrabilidade de
Riemann I pode ser equivalentemente reformulado da seguinte forma:
Definição. Integrabilidade de Riemann I’. Uma função limitada f : [a, b] → R é dita ser integrável
por Riemann no intervalo compacto [a, b] se o reticulado X([a, b]) ∋ (P, χ) 7→ S[(P, χ), f ] ∈ R for um
reticulado de Cauchy, ou seja, se para todo ǫ > 0 existir (Pǫ , χǫ ) tal que S[(P, χ), f ]−S[(P′, χ′ ), f ] <
ǫ para todos P, P′ com P Pǫ e P′ Pǫ e todos χ, χ′ .
Até o momento não apresentamos exemplos de funções integráveis por Riemann. Vamos agora
fechar parcialmente essa lacuna, exibindo uma classe importante de funções que satisfazem o critério
de integrabilidade de Riemann I’. Uma visão completa de quais funções são integráveis por Riemann é
fornecida pelo critério de Lebesgue, discutido brevemente à página 1129.
Proposição 23.1 Toda função real contı́nua definida em um intervalo compacto [a, b] é integrável por
Riemann. 2
12
Isso é sempre verdade se f assume valores em um espaço métrico completo.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 23 1126/1461
Prova. À partição P′ = {x′1 , . . . , x′m } ∈ P([a, b]), com m pontos, estão associados m − 1 intervalos
fechados I1′ , . . . , Im−1
′
, sendo Ik′ = [x′k , x′k+1 ]. Como P ⊂ P′ , o intervalo I1 é a união de, digamos, l
Xl
′ ′ ′
intervalos de P : I1 = I1 ∪ · · · ∪ Il . Assim, |I1 | = |Ia′ | e
a=1
l
X l
X
f (χ1 )|I1 | − f (χ′a )|Ia′ | = f (χ1 ) − f (χ′a ) |Ia′ | ,
a=1 a=1
X
Xl Xl
l
′ ′ ′ ′
f (χ1 )|I1 | − f (χa )|Ia | ≤ f (χ1 ) − f (χa ) |Ia | ≤ sup |f (x) − f (y)| |Ia′ |
a=1
a=1 x, y∈I 1 a=1
= sup |f (x) − f (y)| |I1 | ≤ W(f, P) |I1| .
x, y∈I1
Na segunda desigualdade usamos simplesmente o fato que cada χa pertence a I1 . Como o mesmo
raciocı́nio aplica-se aos demais sub-intervalos de P, segue imediatamente a validade de (23.2).
Prova da Proposição 23.1. Por um teorema bem conhecido (Teorema 24.7, página 1213), toda função
contı́nua f definida em um intervalo compacto [a, b] é uniformemente contı́nua, ou seja, para todo ǫ > 0
existe δ > 0 tal que |f (y) − f (x)| < ǫ sempre que x e y encontrem-se ambos em algum sub-intervalo
de [a, b] que tenha largura menor que δ.
Fixado um ǫ > 0, escolhamos uma partição Pǫ tal que |Pǫ | < δ. Seja P um refinamento de Pǫ Todos
os intervalos de Pǫ têm largura menor ou igual a δ e isso implica W(f, Pǫ ) < ǫ. Assim, o Lema 23.1
diz-nos que
S[(Pǫ , χǫ ), f ] − S[(P, χ), f ] ≤ W(f, Pǫ ) |b − a| ≤ ǫ |b − a| .
Com isso vemos que o critério I’ de integrabilidade de Riemann é satisfeito, que é o que querı́amos
demonstrar.
Esse fato é importante, pois a grande parte, se não a totalidade, das funções encontradas na prática
das ciências naturais e da engenharia é formada por funções contı́nuas ou contı́nuas por partes. No
13
Para a definição geral de continuidade por partes, vide página 1114.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 23 1127/1461
Exercı́cio E. 23.5, página 1129, adiante, exibimos um exemplo de uma função que não é contı́nua por
partes mas é integrável por Riemann.
Até o momento tratamos apenas de caracterizar a noção de integral de Riemann para funções
definidas em conjuntos compactos [a, b] assumindo valores reais. O estudante é convidado a constatar,
no entanto, que as construções acima (incluindo a Proposição 23.1) permanecem inalteradas se as
funções consideradas assumirem valores em espaços de Banach.
Se B é um espaço de Banach e f : [a, b] → B é uma função assumindo valores em B, a soma de
Riemann de f associada ao par (P, χ) é analogamente definida por
n−1
X
S[(P, χ), f ] := f (χk )|Ik | ∈ B. (23.3)
k=1
Temos, assim:
• Somas de Darboux
Dada uma função real limitada f , definida em [a, b] e dada uma partição P ∈ P([a, b]), com
P = {x1 , . . . , xn }, definimos as somas de Darboux (inferior e superior) de f no intervalo [a, b],
associadas à P por
n−1
X n−1
X
Di [P, f ] := inf f (y) |Ik | e Ds [P, f ] := sup f (y) |Ik | , (23.4)
y∈Ik y∈Ik
k=1 k=1
f(x) f(x)
sup f(y)
yε Ι
6
inf f(y)
y ε Ι6
sup f(y)
inf f(y) y ε Ι1
yε Ι
1
Figura 23.2: Representação das somas de Darboux da mesma função e da mesma partição da Fig.
23.1. A soma das áreas dos retângulos à esquerda fornece Di [P, f ] e a soma das áreas dos retângulos
à direita fornece Ds [P, f ].
É evidente pela definição que Di [P, f ] ≤ Ds [P, f ] para qualquer partição P. Fora isso, tem-se
também os fatos compreendidos nos seguintes exercı́cios:
E. 23.2 Exercı́cio. Mostre que para quaisquer partições P e P′ ∈ P([a, b]) com P P′ tem-se
Di [P, f ] ≤ Di [P′ , f ] e Ds [P, f ] ≥ Ds [P′ , f ]. Sugere-se provar isso por indução no número de pon-
tos da partição. 6
E. 23.3 Exercı́cio. Mostre que para quaisquer partições P e P′ ∈ P([a, b]) tem-se Di [P, f ] ≤ Ds [P′ , f ].
6
E. 23.4 Exercı́cio. Mostre que para quaisquer partições P e P′ ∈ P([a, b]) com P P′ tem-se
Ds [P′ , f ] − Di [P′ , f ] ≤ Ds [P, f ] − Di [P, f ]. Sugestão: isso segue dos dois exercı́cios anteriores.
6
O exercı́cio E. 23.2 sugere a seguinte definição. Definimos as integrais de Darboux (inferior e supe-
rior) de f no intervalo [a, b] por
Z b Z b
f (x) dx := sup Di [P, f ] e f (x) dx := inf Ds [P, f ] ,
a P∈P([a, b]) a P∈P([a, b])
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 23 1129/1461
respectivamente. O fato estabelecido no exercı́cio E. 23.3 acima que Di [P, f ] ≤ Ds [P′ , f ] para
quaisquer partições P e P′ ∈ P([a, b]) implica (por que?)
Z b Z b
f (x) dx ≤ f (x) dx .
a a
Definição. Integrabilidade de Riemann II. Uma função limitada f é dita ser integrável por Rie-
Rb Rb
mann no intervalo compacto [a, b] se a f (x) dx = a f (x) dx. Nesse caso a integral de Riemann de f
no intervalo [a, b] é definida por
Z b Z b Z b
f (x) dx = f (x) dx = f (x) dx .
a a a
Por ser bastante técnica e sem relevância especial para o que segue, apresentamos a demonstração
dessa proposição não aqui, mas no Apêndice 23.A, página 1172.
Há uma caracterização da integrabilidade de Riemann, devida a Lebesgue, que permite precisar
quais funções são integráveis no sentido de Riemann:
Critério de Lebesgue para integrabilidade de Riemann. Uma função limitada f : [a, b] → R é integrável
no sentido de Riemann se e somente se for contı́nua quase em toda parte (em relação à medida de
Lebesgue), ou seja, se a coleção de pontos onde f é descontı́nua tiver medida de Lebesgue nula.
Não apresentaremos a demonstração desse fato aqui (vide [63]). Uma conseqüência desse critério
(que também pode ser obtida por meios mais diretos, como vimos acima) é que toda função limitada
e contı́nua por partes15 é integrável no sentido de Riemann.
É curioso e relevante observar também que não são apenas as funções contı́nuas por partes que são
integráveis no sentido de Riemann. O seguinte exercı́cio ilustra isso.
E. 23.5 Exercı́cio-desafio. Aqui vamos designar números racionais r na forma r = p/q, supondo p e q
primos entre si. Seja a seguinte função:
1 p
1 + , se x = for racional
q q
f (x) = .
1, se x for irracional
15
Lembremos: uma função é dita ser contı́nua por partes se for descontı́nua apenas em um número finito de pontos.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 23 1130/1461
Mostre que f é contı́nua em x se x for irracional mas que f é descontı́nua em x se x for racional. Sugestão:
lembre que se x é irracional, então para toda seqüência pn /qn de racionais que aproxima x tem-se que
qn → ∞ para n → ∞.
Como os racionais têm medida de Lebesgue zero, segue pelo critério de Lebesgue que f é integrável de
Rb Rb
Riemann. Prove diretamente da definição que a f (x) dx = a f (x) dx = b − a para todos a < b. Note que
Rb Rb
o fato que a f (x) dx = b − a é evidente, a dificuldade está em provar que a f (x) dx = b − a. 6
Será essa função integrável em [a, b] sentido de Riemann? A resposta é não, pois como facilmente se
constata,
Z b Z b
D(x) dx = 0 mas D(x) dx = b − a,
a a
já que, para qualquer sub-intervalo Ik = [xk , xk+1 ] de qualquer partição de [a, b] teremos
pois Ik sempre conterá números racionais e irracionais. Assim, aprendemos que há funções limitadas
que não são integráveis no sentido de Riemann. Esse exemplo, porém, ilustra um outro problema de
conseqüências piores.
Seja o conjunto Q = Q ∩ [a, b] de todos os racionais do intervalo [a, b]. Como esse conjunto é
contável, podemos representá-lo como Q = {r1 , r2 , r3 , r4 , . . .} = {rk , k ∈ N}, onde N ∋ k → rk ∈ Q
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 23 1131/1461
É fácil ver que para todo x ∈ [a, b] tem-se D(x) = lim Dn (x), onde D está definida em (23.5).
n→∞
Cada função Dn é integrável no sentido de Riemann, pois é contı́nua por R b partes, sendo descontı́nua
apenas nos pontos do conjunto finito {r1 , . . . , rn }. É muito fácil ver que a Dn (x) dx = b − a e assim,
Z b Z b
lim Dn (x) dx = b−a. Entretanto, trocar a integral pelo limite lim Dn (x) dx não faz sentido,
n→∞ a a n→∞
pois a função D(x) = lim Dn (x) não é integrável no sentido de Riemann.
n→∞
A lição que se aprende disso é que a integração de Riemann não pode ser sempre cambiada com o
limite pontual de funções16 . Esse é um fato desagradável, que impede manipulações onde gostarı́amos
de poder trocar de ordem integrais e limites. O problema reside no fato de o critério de integração
de Riemann não ser suficientemente flexı́vel de modo a permitir integrar um conjunto suficientemente
grande de funções ou, melhor dizendo, o conjunto das funções integráveis no sentido de Riemann não
é grande o suficiente. Como vimos no critério de Lebesgue, só são integráveis no sentido de Riemann
as funções que são contı́nuas quase em toda parte. Esse conjunto, que exclui funções como D, acaba
sendo pequeno demais para dar liberdade a certas manipulações de interesse.
E. 23.6 Exercı́cio. Por que D não é contı́nua quase em toda parte? Para responder isso, mostre que D
não é contı́nua em nenhum ponto. Sugestão: recorde que todo x irracional pode ser aproximado por uma
seqüência de racionais e que todo x racional pode ser aproximado por uma seqüência de irracionais. Mostre
então que para qualquer x existem seqüências xn com lim xn = x, mas com lim D(xn ) = D(x). 6
n→∞ n→∞
Um outro problema, de outra natureza, diz respeito à propriedade de completeza da coleção das
funções integráveis por Riemann.
Rb Tais conjuntos não formam espaços métricos completos em relação à
métricas como d1 (f, g) = a |f (x) − g(x)|dx. Como a propriedade de completeza é muito importante,
faz-se necessário aumentar o conjunto de funções integráveis para obter essa propriedade. De fato, como
veremos, o conjunto de funções integráveis no sentido de Lebesgue é completo e esse fato é importante
na teoria dos espaços de Hilbert e de Banach.
Uma possibilidade provisória seria a seguinte definição. Se f : R → R é uma função integrável por
Riemann em cada intervalo [a, b], poderı́amos definir a integral de Riemann imprópria de f por
Z ∞ Z A
f (x) dx := lim f (x) dx , (23.6)
−∞ A→∞ −A
caso o limite exista. A definição provisória (23.6) apresenta, porém, um problema que requer alguns
Z A
comentários. Em certos casos, pode ocorrer que o limite lim f (x) dx exista, mas não, por exemplo,
A→∞ −A
Z A2 Z A
o limite lim f (x) dx, ou outros. Tal é o caso da função f (x) = x. Tem-se aqui que lim x dx =
A→∞ −A A→∞ −A
Z A2
0 mas lim x dx diverge.
A→∞ −A
Por causa disso é insatisfatório tomar (23.6) como definição das integrais de Riemann impróprias.
É prudente elaborar uma definição mais conservadora e que leve em conta o que pode acontecer em
todos as integrais em intervalos [a, b] quando a → −∞ e b → ∞, independentemente. Isso é feito da
seguinte forma.
Denotemos por C a coleção de todos os intervalos finitos [a, b] ⊂ R. Notando que os intervalos
[a, b] podem ser ordenados por inclusão, percebemos facilmente que C é um conjunto dirigido (vide
definição à página 34).
Seja f : R → R uma função fixa, integrável por Riemann em cada intervalo [a, b]. A aplicação
C → R dada por Z b
F[a, b] := f (x) dx (23.7)
a
existir, o limite acima sendo o do reticulado, com os intervalos ordenados por inclusão. Se f tiver essa
propriedade, definimos a integral de Riemann imprópria de f por
Z ∞ Z b
f (x) dx := lim F[a, b] = lim f (x) dx .
−∞ [a, b]∈C [a, b]∈C a
Para tornar essa definição um pouco mais palpável, vamos reformulá-la um pouco lembrando a
definição de ponto limite de um reticulado da Seção 22.3, página 1102. Dizemos que F ∈ R é um
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 23 1133/1461
ponto limite do reticulado F[a, b] , [a, b] ∈ C, se para todo ǫ > 0 existir um intervalo [A, B] tal que
F[a, b] ∈ (F − ǫ, F + ǫ) para todo [a, b] ⊃ [A, B].
Assim, f : R → R, integrável por Riemann em cada intervalo finito, é dita ter uma integral de
Riemann imprópria F ∈ R se para todo ǫ > 0 existir um intervalo [A, B] ∈ C tal que
Z b
f (x) dx − F < ǫ
a
R∞
para todo [a, b] ⊃ [A, B], [a, b] ∈ C. O número F é denotado por f (x)dx. −∞
Z ∞ Z a
De maneira análoga definem-se as integrais de Riemann impróprias f (x) dx e f (x) dx, para
a −∞
Z A Z a
a ∈ R, finito, como os limites lim f (x) dx e lim f (x) dx, respectivamente, caso existam.
A→∞ a A→∞ −A
Notemos en passant, que na definição da integral de Riemann em intervalos finitos [a, b], que
apresentamos na Seção 23.2, página 1122, faz-seR necessário supor que a função f seja limitada. Para
∞
a definição da integral de Riemann imprópria −∞ f (x) dx isso não é necessário, e f pode divergir
3
em ±∞, desde que o limite da integral exista! Um exemplo é a função f (x) = x2 sen ex , que não é
3
limitada para x → +∞. Como facilmente se vê com a mudança de variáveis u = ex ,
Z ∞ 3 Z
2 x 1 ∞ sen(u) π
x sen e dx = du = .
−∞ 3 0 u 6
A última igualdade pode ser obtida pelo método
R∞ dos resı́duos. Um outro exemplo do mesmo tipo é a
4
função x cos(x ), que não é limitada mas a x cos(x4 )dx < ∞ para qualquer a finito.
No sentido da definição acima, a função f (x) = x não possui uma integral de Riemann imprópria
Z A2
bem definida pois, como observamos, limites como lim x dx divergem. Para funções que possuem
A→∞ −A
uma integral de Riemann imprópria bem definida vale, obviamente, a expressão (23.6) e para elas vale
também Z ∞ Z A Z A2
f (x) dx = lim f (x) dx = lim f (x) dx etc.
−∞ A→∞ −A A→∞ −A
Rb
ou seja, o limite de a f (x) dx pode ser tomado com a indo a −∞ e b indo a ∞ de diversas formas,
sem afetar o resultado.
Para iniciarmos a discussão precisamos de definições adequadas das noções de derivação e integração
(de Riemann) de funções entre espaços de Banach.
em espaços de Banach no sentido de reproduzir, nesse contexto geral, alguns dos resultados básicos do
Cálculo Diferencial e Integral17 .
A noção de integral de Riemann para funções de uma variável real com valores em um espaço de
Banach foi apresentada na Seção 23.2, em especial à página 1127. Nosso principal propósito agora é
demonstrar o Teorema do Valor Médio e obter outros resultados preparatórios para a demonstração
do Teorema da Função Implı́cita, tratado na Seção 18.5, página 1024. O primeiro passo é apresentar a
noção geral de diferenciação de funções entre espaços de Banach.
k(H − Gx )ykN
k(H − Gx )vkN = lim
y→0 kykM
[g(x + y) − g(x) − Gx y − [g(x + y) − g(x) − Hy
N
= lim
y→0 kykM
[g(x + y) − g(x) − Gx y
[g(x + y) − g(x) − Hy
N N
≤ lim + lim
y→0 kykM y→0 kykM
= 0.
Para manter uma familiaridade notacional, denotaremos os operadores lineares limitados Gx defi-
nidos acima por (Dg)(x) ou mesmo por g ′(x). O operador linear limitado (Dg)(x) representa, assim,
a derivada de g no ponto x, também denominada derivada de Fréchet18 de g em x.
E. 23.7 Exercı́cio. Mostre que se g é diferenciável no ponto x de acordo com a definição acima então
é também contı́nua em x. 6
n−1
X
pois para as somas de Riemann (23.3) tem-se kS[(P, χ), g]kN ≤ kg(χk )kN |Ik | , o que implica
k=1
(23.10), tomando-se os limites. De (23.10) obtem-se trivialmente a estimativa
Z b
g(t) dt
≤ |b − a| max kg(t)k (23.11)
t∈[a, b]
N
a N
que usaremos logo abaixo. Seja G definida em (23.8). Tem-se por (23.9) que G(x + y) − G(x) =
Z x+y
g(t)dt para todo x, y ∈ (a, b) com x + y ∈ (a, b). Logo,
x
Z x+y
G(x + y) − G(x) − g(x)y = g(t) − g(x) dt .
x
18
Maurice René Fréchet (1878-1973).
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 23 1136/1461
Isso provou que G é diferenciável em todo x ∈ (a, b) com (DG)(x) ≡ G′ (x) = g(x).
Na demonstração do Teorema do Valor Médio faremos uso do lema a seguir (cujo enunciado e
demonstração foram extraı́dos de [64]). O estudante deve cuidadosamente observar que, ao contrário
do que uma primeira impressão pode sugerir, esse lema não é conseqüência da Proposição 23.4.
Lema 23.2 Seja N um espaço de Banach e f : [a, b] → N contı́nua e diferenciável em todo (a, b) mas
de modo que f ′ (x) = 0 para todo x ∈ (a, b). Então f é constante. 2
Prova.19 Sejam s e t ∈ (a, b), arbitrários, com s < t. Desejamos mostrar que f (s) = f (t). Como s e t
são arbitrários e f é contı́nua, isso implica que f é constante em todo intervalo fechado [a, b]. Vamos
definir uma seqüência de intervalos (sn , tn ) ∈ (s, t), n ∈ N, satisfazendo
Em palavras, quebramos a cada passo o intervalo (sn−1 , tn−1 ) ao meio e escolhemos (sn , tn ) como
sendo a metade na qual a variação de f em norma foi maior. É claro por essa escolha que
s n−1 + tn−1
s n−1 + tn−1
kf (sn−1 ) − f (tn−1 )k ≤
f (s n−1 ) − f
+
f
− f (tn−1 )
2 2
≤ 2 kf (sn ) − f (tn )k
Pela construção, sn é uma seqüência não-decrescente e limitada superiormente por t, enquanto que tn
é uma seqüência não-crescente e limitada inferiormente por s. Assim, ambas convergem a pontos no
19
De [64].
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 23 1137/1461
intervalo [s, t]. Como, porém, |tn − sn | = 2−n |t − s|, segue que ambas as seqüências sn e tn convergem
e a um mesmo ponto ξ ∈ [s, t]. Fora isso, é também claro que ξ ∈ [sn , tn ] para todo n.
Pela hipótese, vale f ′ (ξ) = 0. Pela definição de f ′ , isso significa que para todo ǫ > 0 existe δ > 0 tal
que kf (x) − f (ξ)k/|x − ξ| < ǫ sempre que |x − ξ| ≤ δ. Como sn e tn convergem a ξ, podemos escolher
n grande o suficiente de modo que |sn − ξ| ≤ δ e |tn − ξ| ≤ δ. Teremos, assim, para tais n’s,
kf (sn ) − f (tn )k ≤ kf (sn ) − f (ξ)k + kf (ξ) − f (tn )k ≤ ǫ |sn − ξ| + |ξ − tn | .
Como ξ ∈ [sn , tn ] para todo n, segue que |sn − ξ| + |ξ − tn | = |tn − sn | = 2−n |t − s|. Logo, obtivemos
Voltando a (23.12) isso implica kf (s) − f (t)k ≤ 2n kf (sn ) − f (tn )k ≤ ǫ|t − s|. Como ǫ > 0 é arbitrário,
segue disso que kf (s) − f (t)k = 0, completando a prova.
Com esse lema e com a Proposição 23.4 a prova do Teorema do Valor Médio torna-se elementar.
Prova. Para x, y ∈ M fixos, seja h : [0, 1] → N definida por h(t) := g(tx + (1 − t)y). Pela regra da
cadeia, h′ (t) = g ′ (tx + (1 − t)y)(x − y). Defina-se também
Z t
H(t) := g ′ (τ x + (1 − τ )y)(x − y) dτ , t ∈ [0, 1] .
0
Pela Proposição 23.4, H é diferenciável e H ′(t) = g ′(tx + (1 − t)y)(x − y). Assim, H ′ (t) = h′ (t), o
que implica, pelo Lema 23.2, que a diferença H(t) − h(t) é constante para todo t ∈ [0, 1]. Como
H(0) = 0, segue que H(t) − h(t) = −h(0) = −g(y) para todo t ∈ [0, 1]. Para t = 1 essa igualdade fica
H(1) − h(1) = −g(y) e como h(1) = g(x) concluı́mos que
Z 1
g(x) − g(y) = g ′ (τ x + (1 − τ )y)(x − y) dτ .
0
• Derivadas parciais
Sejam X e Y dois espaços normados com normas k · kX e k · kY, respectivamente. Podemos fazer
do produto Cartesiano X × Y = {(x, y), x ∈ X, y ∈ Y} um espaço vetorial normado declarando as
operações de soma e produto por escalares por α1 (x1 , y1 ) + α2 (x2 , y2 ) := (α1 x1 + α2 x2 , α1 y1 + α2 y2 )
e definindo a norma k(x, y)kX×Y := kxkX + kykY. Mais que isso, se X e Y forem espaços de Banach
em relação às suas respectivas normas, é fácil constatar que X × Y também o é em relação a norma
k(x, y)kX×Y.
E. 23.8 Exercı́cio. Prove que k · kX×Y é de fato uma norma e que X × Y é um espaço de Banach em
relação à mesma se X e Y o forem em relação às suas respectivas normas. 6
respectivamente. É um exercı́cio elementar (mas importante) mostrar que ΠX, ΠY, ΛX e ΛY são lineares
e contı́nuas se dotarmos X, Y e X × Y das topologias das normas k · kX, k · kY e k · kX×Y, respectivamente.
É igualmente elementar constatar que
Seja Z um terceiro espaço de Banach com norma k · kZ. Para A ⊂ X e B ⊂ B dois abertos convexos,
seja F : A × B → Z uma função contı́nua e diferenciável, sendo F ′ : A × B → Z sua derivada. Para
cada (x, y) ∈ A × B a expressão F ′ (x, y) define um operador linear e contı́nuo X × Y → Z.
Para y fixo em B podemos considerar também a função A ∋ x 7→ F (x, y), assim como para
x fixo em A podemos considerar a função B ∋ y 7→ F (x, y). Se essas funções forem diferenciáveis
denotaremos suas derivadas por D1 F e D2 F , respectivamente. Note-se que D1 F é uma aplicação linear
X → Z e D2 F é uma aplicação linear Y → Z.
Vamos mostrar que se F ′ existe então essas duas funções são também diferenciáveis e vamos esta-
belecer relações entre D1 F , D2 F e F ′ . De fato, da existência de F ′ sabemos que
′ a kR(a, b)kZ
F (x + a, y + b) − F (x, y) = F (x, y) + R(a, b) , com lim = 0.
b (a, b)→0 k(a, b)kX×Y
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 23 1139/1461
ou seja, escrevendo R(a, 0) ≡ R(a) e lembrando que k(a, 0)kX×Y = kakX, tem-se
kR(a)kZ
F (x + a, y) − F (x, y) = F ′ (x, y) ΛX a + R(a) , com lim = 0,
a→0 kakX
o que nos permite concluir que
D1 F (x, y) = F ′ (x, y)ΛX.
Analogamente, podemos concluir que
Apresentemos uma importante definição, a de função mensurável. Sejam (M, M) e (N, N) dois
espaços mensuráveis, sendo M e N dois conjuntos não-vazios e M ⊂ P(M) e N ⊂ P(N) σ-álgebras em
M e N, respectivamente.
Uma função f : M → N dita ser uma função mensurável em relação às σ-álgebras M e N, ou
[M, N]-mensurável, se f −1 (A) ∈ M para todo A ∈ N, ou seja, se a pré-imagem de todo conjunto
mensurável segundo N for um conjunto mensurável segundo M.
O estudante deve comparar essa definição com a definição de função contı́nua DC 1, página 1111.
Devido ao seu seu papel preponderante na teoria da integração (de Lebesgue), vamos primeiro estudar
algumas das propriedades básicas das funções mensuráveis, especialmente das funções numéricas, ou
seja, aquelas cuja imagem está em R ou em C.
A primeira propriedade elementar é bastante geral: se (M1 , M1 ), (M2 , M2 ) e (M3 , M3 ) são três
espaços mensuráveis e se f : M1 → M2 e g : M2 → M3 são duas funções mensuráveis (f sendo
[M1 , M2 ]-mensurável e g sendo [M2 , M3 ]-mensurável) então g ◦ f : M1 → M3 é mensurável em relação
a M1 e M3 (ou seja, [M1 , M3 ]-mensurável). A prova é imediata pela definição.
Dado um espaço mensurável (M, M) estaremos, como dissemos, primordialmente interessados em
funções f : M → R. Qual σ-álgebra adotar em R? As duas possibilidades mais importantes são a
σ-álgebra de Lebesgue22 MµL , dos conjuntos mensuráveis pela medida de Lebesgue µL , e a σ-álgebra
de Borel23 M[τR ] que, por definição, é a menor σ-álgebra que contém a topologia usual da reta τR . A
σ-álgebra de Borel foi estudada no Capı́tulo 19 (vide especialmente a página 1041). Vimos na Seção
21.1.1, página 1077, que M[τR ] ⊂ MµL .
Para a grande maioria dos propósitos da teoria da integração é suficiente considerar em R a σ-
álgebra de Borel M[τR ]. Assim, dado um espaço mensurável (M, M) estaremos interessados em
funções f : M → R, dotando R da σ-álgebra de Borel M[τR ].
22
Henri Léon Lebesgue (1875-1941).
23
Félix Édouard Justin Émile Borel (1871-1956).
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 23 1141/1461
Os conjuntos que compõe M[τR ] são denominados conjuntos Borelianos. Que conjuntos são estes?
Recordando o que aprendemos nos capı́tulos supra-citados, todos os conjuntos abertos ou fechados de
R (na topologia usual τR ) são Borelianos. São também Borelianos intervalos semi-abertos como [a, b)
ou (a, b], assim como uniões contáveis dos mesmos e seus complementos.
Há em R, além dos intervalos semi-abertos, outros conjuntos S
Borelianos que não são nem abertos
nem fechados. O conjunto dos racionais, Q, é Boreliano, pois Q = r∈Q {r}, uma união contável de con-
juntos Borelianos {r} (que contêm apenas um ponto e são Borelianos por serem fechados). O conjunto
dos irracionais é Boreliano por ser o complemento de Q, que é Boreliano. Analogamente o conjunto
dos números reais algébricos é Boreliano, assim como o conjunto dos números reais transcendentes.
Generalizando o raciocı́nio, todo conjunto finito ou contável de R é Boreliano e seu complemento
também.
Se f : M → R é mensurável em relação às σ-álgebras M e M[τR ], f dita ser uma função Boreliana.
Se f : M → R é mensurável em relação às σ-álgebras M e MµL , f dita ser mensurável de Lebesgue.
Como M[τR ] ⊂ MµL , toda função mensurável de Lebesgue é Boreliana. Que funções são Borelianas?
É difı́cil dar uma descrição geral, mas no caso importante de funções f : R → R onde adotamos M[τR ]
como a σ-álgebra tanto do domı́nio quando da imagem, é relativamente fácil provar que toda função
contı́nua é Boreliana. A prova é apresentada no Apêndice 23.B, página 1173, quando tratarmos de
funções mensuráveis entre espaços topológicos.
São também Borelianas as funções contı́nuas por partes, ou seja, aquelas que possuem um número
finito de descontinuidades. Há ainda outras funções que são Borelianas mas que não são nem contı́nuas
nem contı́nuas por parte. Exemplos são as funções de (23.1).
Uma função f : M → C é [M, M[τC ]]-mensurável se e somente se suas partes real e imaginária
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 23 1142/1461
forem [M, M[τR ]]-mensuráveis. Isso é demonstrado nas Proposições 23.14 e 23.15, das páginas 1178 e
seguintes.
Usando a Proposição 23.5 é fácil ver que o conjunto de todas as funções complexas mensuráveis é
também uma álgebra complexa. Vide Proposição 23.16, página 1179.
sup fn (x) := sup (fn (x)) ,
n n
inf fn (x) := inf (fn (x)) ,
n n
lim sup fn (x) := lim sup (fn (x)) ,
n n
lim inf fn (x) := lim inf (fn (x)) .
n n
Se (M, M) for um espaço de medida e as funções fn forem todas [M, M[τR ]]-mensuráveis, então
todas as funções definidas acima são também [M, M[τR ]]-mensuráveis.
Por exemplo, para provar que a função f := sup fn é mensurável, notamos que para qualquer a ∈ R
n
∞
[
−1
f ((a, ∞)) = fn−1 ((a, ∞)).
n=1
Pela Proposição 23.10, página 1175, cada conjunto fn−1 ((a, ∞)) pertence a M, portanto, a união
acima também, pois é uma união contável. Logo, f −1 ((a, ∞)) ∈ M para todo a ∈ R e, novamente
pela Proposição 23.10, isso implica que f é [M, M[τR ]]-mensurável.
Analogamente, prova-se que f := inf fn é [M, M[τR ]]-mensurável, pois nesse caso
n
∞
[
−1
f ((−∞, a)) = fn−1 ((−∞, a)).
n=1
Para o caso de f = lim sup fn , notamos que lim sup fn = inf sup fn . Pelo argumentado acima, cada
n n m≥1 n≥m
sup fn é [M, M[τR ]]-mensurável e assim o é seu ı́nfimo para todo m. Finalmente, o caso da função
n≥m
lim inf fn é análogo.
n
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 23 1143/1461
Para f : M → R, definimos
f (x), se f (x) ≥ 0,
−f (x), se f (x) ≤ 0,
f + (x) := e f − (x) := .
0, se f (x) < 0, 0, se f (x) > 0,
sendo que
F + = {x ∈ M| f (x) ≥ 0} e F − = {x ∈ M| f (x) ≤ 0} .
Se f é mensurável, F + e F − são conjuntos mensuráveis, por serem as pré-imagens por f dos Borelianos
[0, ∞) e (−∞, 0], respectivamente. Assim, as funções caracterı́sticas χF ± são mensuráveis. Como o
produto de duas funções mensuráveis é mensurável (Proposição 23.5), concluı́mos de (23.16) que f + e
f − são funções mensuráveis. Daı́, como |f | = f + + f − , segue também que |f | é mensurável, pois é a
soma de duas funções mensuráveis (novamente, Proposição 23.5).
• A representação normal
A soma do lado direito de (23.17) é dita ser uma representação normal de f . Note que nem toda
função f possui uma representação normal. Além disso, se f possui uma representação normal esta
não é necessariamente única: podemos dividir alguns dos conjuntos Bk em sub-conjuntos disjuntos
menores e obter uma nova representação normal. Ou podemos tomar a união de conjuntos Bk com
valores iguais de αk e obter uma nova representação normal.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 23 1144/1461
É importante notar que se f admite uma representação normal, então f assume um número finito
de valores (certo?). Veremos que essa é uma condição necessária e suficiente para que uma função f
possua uma representação normal.
• Funções simples
Ak = {x ∈ M| s(x) = sk }.
Vemos com isso que toda função simples possui pelo menos uma representação normal.
Uma representação normal como a de (23.18), na qual as constantes sk são todas distintas, é dita
ser uma representação normal curta da função simples s. O leitor poderá facilmente convencer-se que
a representação normal curta de uma função simples é única.
Um ponto importante é a seguinte observação: uma função simples é mensurável (em relação a
uma σ-álgebra M definida em M) se e somente se cada Ak acima for um conjunto mensurável (ou seja
Ak ⊂ M). A prova é evidente e dispensável.
As funções simples formam uma álgebra. As funções simples e mensuráveis também formam uma
álgebra. A prova dessas afirmações é bem simples e deixada ao leitor. O próximo exercı́cio é mais
detalhado quanto às propriedades algébricas das funções simples.
E. 23.12 Exercı́cio (fácil). Se s e r são funções simples definidas em M com representações normais
n
X m
X
s(x) = sk χAk (x) e r(x) = rl χBl (x)
k=1 l=1
mostre que
n X
X m
r(x)s(x) = sk rl χAk ∩Bl (x) .
k=1 l=1
Isso segue facilmente da identidade χA χB = χA∩B . Para qualquer número α tem-se, obviamente,
n
X
αs(x) = αsk χAk (x) .
k=1
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 23 1145/1461
Para provar isso, você deverá usar os fatos que A1 ∪ · · · ∪ An = M e que B1 ∪ · · · ∪ Bm = M, sendo ambas
uniões de conjuntos disjuntos, para mostrar que
n
X m
X
1 = χAk (x) e 1 = χBl (x) .
k=1 l=1
Toda função real não-negativa, mensurável por Lebesgue ou Boreliana, pode ser aproximada por
funções simples. Mais precisamente temos o seguinte lema (de [62]) que, embora um tanto técnico,
revela uma relação subjacente entre funções mensuráveis em geral e funções simples mensuráveis.
Lema 23.3 Se M é um espaço de medida com uma σ-álgebra M, toda função f : M → R não-negativa
e Boreliana (ou mensurável por Lebesgue) é o limite de uma seqüência monótona não-decrescente de
funções simples mensuráveis e não-negativas. Se f for também limitada, a convergência é até mesmo
uniforme. 2
A prova encontra-se no Apêndice 23.C, página 1179. O Lema 23.3 tem o seguinte
Corolário 23.2 Se M é um espaço de medida com uma σ-álgebra M, toda função f : M → R que
seja Boreliana é o limite de uma seqüência de funções simples mensuráveis. 2
Prova. A diferença com relação ao Lema 23.3 é que f não é necessariamente não-negativa. Pelo que
observamos, porém, f = f + − f − , sendo ambas f ± não-negativas e Borelianas. A elas, portanto,
aplica-se o Lema 23.3, o que encerra a prova.
Seja agora M um espaço mensurável com uma σ-álgebra M, na qual está definida uma medida µ.
Se s é uma função simples e não-negativa
Pn (ou seja, se s(x) ≥ 0 para todo x), M-mensurável e com
representação normal curta s(x) = k=1 sk χAk (x), a integral de s em M com respeito à medida µ é
definida por
Z Z Xn
s dµ ≡ s(x) dµ(x) := sk µ(Ak ) . (23.20)
M M k=1
sk 6=0
Observações.
1. Note-se que na soma à direita na expressão (23.20) exclui-se os valores de k para os quais sk = 0.
Para tais valores de k pode eventualmente valer µ(Ak ) = ∞. Se convencionarmos que 0 × ∞ = 0,
podemos reescrever a definição acima de forma mais simplificada como
Z Z X n
s dµ ≡ s(x) dµ(x) := sk µ(Ak ) .
M M k=1
Para simplificar a notação, essa convenção 0 × ∞ = 0 é adotada por muitos autores e nos
juntaremos a eles nestas Notas. Observemos também que a soma do lado esquerdo pode valer
∞, caso µ(Ak ) = ∞ para algum k com sk > 0.
2. Na definição (23.20) usamos a representação normal curta da função s, mas isso não é necessário
pois qualquer representação normal de s pode ser usada com idêntico resultado. De fato, sejam
p q
X X
s(x) = βk χBk (x) e s(x) = γl χCl (x) (23.21)
k=1 l=1
A prova de (23.22) é apresentada no Apêndice 23.D, página 1180. A validade de (23.22) mostra
que a definição de integral de uma função simples dada acima é intrı́nseca e não depende da
particular representação normal adotada.
R
Na última igualdade usamos a convenção 0 × ∞ = 0. Note que para s integrável, M
s dµ < ∞.
A definição de integral de funções simples que empreendemos acima é o primeiro passo da definição
mais geral de integral de funções em espaços mensuráveis. Antes de prosseguirmos, façamos alguns
comentários de esclarecimento sobre as definições acima.
• Alguns esclarecimentos
O estudante deve reparar nos cuidados tomados nas definições acima: só definimos a noção de
integral para funções simples e mensuráveis que sejam ou não-negativas ou integráveis. Ao definirmos
a integral de funções simples não-negativas permitimos ter µ(Ak ) = ∞ para algum k com sk > 0. Aqui,
a condição de s ser não-negativa é importante para evitar o aparecimento de somas to tipo ∞ − ∞,
que não estão definidas. Isso seria o caso de uma função simples como
+2, se x ∈ (1, ∞)
s(x) = .
−1, se x ∈ (−∞, 1]
Essa função
R é mensurável de Lebesgue. Porém, para a medida de Lebesgue µL , a integral dessa
função R s dµL = +2µL ((1, ∞)) + (−1)µL ((−∞, 1]) não está definida, pois µL ((1, ∞)) = ∞ e
µL ((−∞, 1]) = ∞ e não temos como definir a diferença +2µL((1, ∞)) + (−1)µL ((−∞, 1]). Já para a
função simples e mensurável
+2, se x ∈ (1, ∞)
s(x) =
0, se x ∈ (−∞, 1]
R
teremos R s dµL = +2µL ((1, ∞)) + (0)µL((−∞, 1]) = +2µL ((1, ∞)) = ∞. Para as funções simples
integráveis tais problemas não ocorrem já que os termos sk µ(Ak ) são finitos (positivos ou negativos).
De fato, para funções simples integráveis só se terá µ(Ak ) = ∞ se sk = 0 e nesse caso convenciona-se
sk µ(Ak ) = 0. O seguinte exemplo ilustra isso: com relação à medida de Lebesgue a função simples
+2, se x ∈ (1, 4)
s(x) =
0, se x 6∈ (1, 4)
R
é mensurável e integrável e M
s dµL = +2µL ((1, 4)) + (0)µL (R \ (1, 4)) = 2 × 3 + 0 × ∞ = 2 × 3 = 6.
n
X n
X
(23.15)
A última igualdade segue de s(x)χE (x) = sk χAk (x)χE (x) = sk χAk ∩E (x), de onde extrai-se
k=1 k=1
Z n
X Z
que sχE dµ = sk µ(Ak ∩ E) , como desejamos. As integrais s dµ são por vezes denominadas
M k=1 E
integrais definidas da função simples s.
As seguintes propriedades das integrais de funções simples são válidas e podem ser facilmente
verificadas:
Z Z
(αs) dµ = α s dµ ,
E E
Z Z Z
(sa + sb ) dµ = sa dµ + sb dµ ,
E E E
Z Z
s1 dµ ≤ s2 dµ se s1 (x) ≤ s2 (x), ∀x ∈ E .
E E
O seguinte resultado (de [123]), que tem interesse por si só, será usado mais adiante, por exemplo
quando demonstrarmos o Teorema da Convergência Monótona, Teorema 23.4, página 1158.
Lema 23.4 Seja M não-vazio, M uma σ-álgebra de M na qual definimos uma medida µ. Seja s uma
função simples, não-negativa e [M, M[τR ]]-mensurável e integrável. Para E ∈ M defina-se
Z Z
ϕs (E) := s dµ = s χE dµ .
E M
Prova. Em primeiro lugar, note-se que ϕs (φ) = 0, pois χ∅ é identicamente nula. Como s é não-negativa,
ϕs (E) ≥ 0 para todo E ∈ M.
P
= nk=1 sk χAk (com Ak ∈ M S
Seja uma representação normal de sP para todo k, pois s é mensurável).
n ∞
Teremos para cada E ∈ M, ϕs (E) = k=1 sk µ(Ak ∩ E). S∞Se E = m=1 Em é uma união disjunta e
contável com Em ∈ M para todo m, vale que Ak ∩ E = m=1 (Ak ∩ Em ), também uma união disjunta
e contável de elementos de M. Logo, como µ é uma medida, vale que
∞
! ∞
! ∞
[ [ X
µ(Ak ∩ E) = µ Ak ∩ Em = µ (Ak ∩ Em ) = µ(Ak ∩ Em ).
m=1 m=1 m=1
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 23 1149/1461
Assim,
∞
! n ∞
! ∞
n X ∞ X
n
[ X [ X X
ϕs Em = sk µ Ak ∩ Em = sk µ (Ak ∩ Em ) = sk µ (Ak ∩ Em )
m=1 k=1 m=1 k=1 m=1 m=1 k=1
∞
X
= ϕs (Em ) .
m=1
E. 23.13 Exercı́cio. O que justifica a troca de ordem das somas feita na demonstração acima? 6
Como acima, seja M não-vazio, M uma σ-álgebra de M na qual definimos uma medida µ.
Seja f : M → R+ uma função não-negativa e mensurável. Denotaremos por S(f ) a coleção de
todas as funções simples, mensuráveis, não-negativas e menores ou iguais a f :
S(f ) := {s : M → R| s é simples, mensurável e 0 ≤ s(x) ≤ f (x) para todo x ∈ M} .
O Lema 23.3 nos ensinou que S(f ) é não-vazio e que há até mesmo seqüências em S(f ) que convergem
a f . Definimos então para E ⊂ M com E ∈ M,
Z Z
f dµ := sup s dµ . (23.23)
E s∈S(f ) E
Essa expressão define a integral de Lebesgue da função f sobre o conjunto E em respeito à medida µ.
A definição acima foi introduzida por Lebesgue como substituto à definição de integral devida a
Riemann. Discutiremos suas virtudes mais adiante. Note que a definição acima é bastante geral, no
sentido de não ser especificado o que é o conjunto M nem a medida µ. Por ora, a definição acima
limita-se a funções não-negativas f . Logo mostraremos como essa definição pode ser estendida para
funções que podem ser negativas ou complexas.
Se fn é uma seqüência monótona não-decrescente de funções simples mensuráveis de S(f ) que
converge a f (que tal existe, garante-nos o Lema 23.3) é possı́vel mostrar que
Z Z
f dµ = lim fn dµ . (23.24)
E n→∞ E
R
A expressão (23.24) pode ser tomada como definição alternativa equivalente de E f dµ e, de fato,
alguns autores assim o fazem. A equivalência das duas definições é demonstrada no Apêndice 23.E,
página 1181. Seu estudo é dispensável em uma primeira leitura.
Dentre as propriedades da integral definida acima, a seguinte observação terá um papel importante
a desempenhar.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 23 1150/1461
Prova. Seja En = {x ∈ M| f (x) > 1/n} ∩ E = {x ∈ E| f (x) > 1/n}. Pela Proposição 23.10 da página
1175, tem-se En ∈ M. É claro pela definição de En que f ≥ n1 χEn . Portanto, a função simples n1 χEn é
um elemento de S(f ) e, pela definição (23.23) da integral de Lebesgue, segue que
Z Z
1 1
0 = f dµ ≥ χEn dµ = µ(En ) ,
E E n n
S
ou seja, µ(En ) = 0 paraPtodo n ∈ N. Note-se agora que {x ∈ E| f (x) > 0} = ∞ n=1 En . Logo,
µ({x ∈ E| f (x) > 0}) ≤ ∞ n=1 µ(E n ) = 0, provando que f = 0 µ-q.t.p em E.
• Funções integráveis
Como acima, seja M não-vazio, M uma σ-álgebra de M na qual definimos uma medida µ. Seja
f : M → R uma função mensurável. f é dita ser integrável em M se
Z
|f | dµ < ∞ .
M
+ − ±
R
Como
R |f | = f + f , sendo ambas f não-negativas e mensuráveis, segue que M
f + dµ < ∞ e
M
f − dµ < ∞. Com isso, e como f = f + − f − , sendo ambas f ± não-negativas, é natural definir
Z Z Z
f dµ := +
f dµ − f − dµ .
M M M
As integrais do lado direito são finitas e, portanto, sua diferença está bem definida.
As seguintes propriedades das integrais de funções integráveis são válidas e podem ser facilmente
verificadas:
Z Z
(αf ) dµ = α f dµ , (23.25)
E E
Z Z Z
(fa + fb ) dµ = fa dµ + fb dµ , (23.26)
E E E
Z Z
f1 dµ ≤ f2 dµ se f1 (x) ≤ f2 (x), ∀x ∈ E . (23.27)
E E
E. 23.14 Exercı́cio (recomendado a quem deseja testar se está realmente acompanhando a exposição).
Demonstre as propriedades elementares acima. 6
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 23 1151/1461
Caso f seja uma função complexa, f : M → C, procede-se de forma semelhante. Como antes, f é
dita ser integrável em M se Z
|f | dµ < ∞ .
M
p
Denotemos por Re(f ) e Im(f ) as partes real e imaginária de f . Como |f | = |Re(f )|2 + |Im(f )|2 é
mensurável pela Proposição 23.14, página 1178, é claro que |Re(f )| ≤ |f |, |Im(f )| ≤ |f | e, de (23.27),
segue que
Z Z Z Z
|Re(f )| dµ ≤ |f | dµ < ∞ e |Im(f )| dµ ≤ |f | dµ < ∞ . (23.29)
M M M M
Com isso, tanto Re(f ) quanto Im(f ) são funções reais e integráveis e podemos aplicar a definição acima
e escrever
Z Z Z
Re(f ) dµ = +
(Re(f )) dµ − (Re(f ))− dµ ,
M M M
Z Z Z
Im(f ) dµ = (Im(f )) dµ − +
(Im(f ))− dµ .
M M M
Todos os quatro termos acima são finitos e a soma dos mesmos é, portanto, bem definida.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 23 1152/1461
Chegamos dessa forma ao propósito de definir a noção de integral para funções mensuráveis e
integráveis, reais ou complexas. Recapitulando, nossos passos foram 1) definir a integral de funções
simples não-negativas e integráveis; 2) definir a integral de funções reais, mensuráveis e não-negativas
a partir da integral de funções simples; 3) definir a integral de funções reais e integráveis a partir da
integral de funções reais, mensuráveis e não-negativas ; 4) definir a integral de funções complexas e
integráveis a partir da integral de suas partes real e imaginária.
As seguintes propriedades das integrais de funções integráveis são válidas e podem ser facilmente
verificadas:
Z Z
(αf ) dµ = α f dµ , (23.31)
E E
Z Z Z
(fa + fb ) dµ = fa dµ + fb dµ , (23.32)
E E E
E. 23.15 Exercı́cio (recomendado a quem deseja testar se está realmente acompanhando a exposição).
Demonstre as propriedades elementares acima. Sugestão: use a definição (23.24). 6
A desigualdade (23.28) se deixa generalizar para funções integráveis complexas, mas a prova é mas
engenhosa: se f : M → C for integrável, então
Z Z
f dµ ≤ |f | dµ . (23.33)
E E
p
Para provar isso, notemos que, pela Proposição 23.14, página 1178, |f | = (Re(f ))2 + (Im(f ))2 é
[M, M[τR ]]-mensurável se Re(f )Re Im(f ) o forem. Fora isso, já vimos acima que Re(f ) e Im(f ) são
integráveis se f o for. A integral E f dµ é um número complexo e, portanto, pode ser escrito na forma
polar Z Z
f dµ = e f dµ .
iϕ
E E
−iϕ
A função g := e f é mensurável e integrável, como facilmente se vê. Temos que
Z Z Z Z Z Z
(23.31)
Re(g) dµ + i Im(g) dµ = g dµ = −iϕ
e f dµ = e −iϕ
f dµ = f dµ ≥ 0 .
E E E E E E
R R R
Como E f dµ é um número real, segue que E Im(g) dµ = 0 e que E Re(g) dµ ≥ 0. Logo,
Z Z Z Z Z Z
(23.28) (23.29)
f dµ =
Re(g) dµ = Re(g) dµ ≤ |Re(g)| dµ ≤ |g| dµ = |f | dµ ,
E E E E E E
onde p, em princı́pio, é um número real positivo p > 0. Os espaços Lp (M, dµ) com p ≥ 1 serão
discutidos com mais detalhe adiante.
O estudante deve constatar que essa expressão corresponde precisamente à bem conhecida propriedade
Z ∞
f (x)δ(x − x0 )dx = f (x0 )
−∞
Nota para os estudantes mais avançados. Além da medida delta de Dirac existe também a distribuição
delta de Dirac. Ainda que muito semelhantes, esses objetos são distintos matematicamente: o primeiro
é uma medida, o segundo é uma distribuição, ou seja, um funcional linear contı́nuo em um certo espaço
de Fréchet de funções infinitamente diferenciáveis (e que decaem rápido o suficiente no infinito). Com
a medida delta de Dirac podemos integrar qualquer função, como em (23.35). Com a distribuição delta
de Dirac podemos integrar funções infinitamente diferenciáveis (e que decaem rápido o suficiente no
infinito). Essa aparente limitação é compensada pelo fato de se poder falar em derivadas da distribuição
delta de Dirac, mas não da medida delta de Dirac.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 23 1154/1461
e sua integral é
Z ∞
X
f dµc = f (k) .
M k=1
P P∞
Observe que o fato de ∞ k=1 |f (k)| < ∞ implica que a série k=1 f (k) é convergente (por ser uma série
absolutamente somável. Vide os bons livros de Cálculo).
O estudante pode convencer-se com o apresentado acima que o conjunto L1 (N, dµc ) das funções
f : N → C integráveis em relação à medida de contagem µc coincide com o conjunto de seqüências ℓ1
que introduzimos na Seção 17.4.1, página 964. Os conjuntos Lp (N, dµc ) coincidem com os conjuntos
de seqüências ℓp , também lá introduzidos.
p
Essa função, apesar de divergir para x → 0, é um elemento de L1 (R , µL ), pois a singularidade 1/ |x|
é integrável em 0.
Um tanto surpreendentemente, L1 (R , µL) também contém funções não-limitadas, mas que são
limitadas em qualquer região finita. Um exemplo interessante é o da função
1
n, para x em cada intervalo n, n + 3 , n ≥ 1 ,
n
f (x) =
0, de outra forma ,
ou seja,
∞
X
f (x) = n χ[n, n+ 1 ) (x) .
n3
n=1
É claro que f não é limitada em todo R, mas é limitada em qualquer região finita. Tem-se, porém,
Z X∞
1
|f | dµL = < ∞
R n=1
n2
e, portanto, f ∈ L1 (R , µL).
E. 23.19 Exercı́cio. Construa exemplos análogos de elementos de Lp (R , µL), p ≥ 1, que não são
funções limitadas. 6
Tratemos primeiramente de funções definidas em conjuntos compactos da reta real. Vale a seguinte
afirmação:
Teorema 23.2 Seja f : [a, b] → R uma função Boreliana e limitada. Então, se f for integrável no
sentido de Riemann, f é também integrável no sentido de Lebesgue (para a integral de Lebesgue em
[a, b]) e as duas integrais são idênticas. 2
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 23 1156/1461
Esse teorema afirma que em intervalos finitos como [a, b] a integral de Lebesgue coincide com a de
Riemann, pelo menos para funções integráveis por Riemann e limitadas. Esse resultado é satisfatório
pois diz-nos que a teoria da integração de Lebesgue estende a de Riemann, pelo menos nesse sentido.
A demonstração do Teorema 23.2 é apresentada no Apêndice 23.I, página 1186, e faz uso do Lema de
Fatou e do Teorema da Convergência Dominada, que introduziremos na Seção 23.3.4, logo adiante.
O Teorema 23.2 estabeleceu uma relação entre as integrais de Riemann e de Lebesgue no caso de
intervalos finitos da reta real. O que se pode dizer para intervalos não-finitos? Como a integral de
Riemann foi definida na Seção 23.2, página 1122, apenas para funções limitadas em intervalos finitos,
a primeira questão a resolver é definı́-la em intervalos não-finitos, como R. Isso foi discutido na Seção
23.2.1, página 1131, ao introduzirmos a noção de integral de Riemann imprópria.
No caso de f ser também positiva (o que não é necessário para a definição 23.6) também podemos
estabelecer uma relação entre as integral de Riemann imprópria e de Lebesgue. Isso é expresso no
seguinte
Teorema 23.3 Seja f : R → R+ uma função positiva e Boreliana e tal que f é integrável no sentido
de Riemann em todo intervalo finito [a, b]. Então, f é integrávelZno sentido de Lebesgue em R se e
∞
somente se a integral de Riemann imprópria existir e, nesse caso, f (x) dx coincide com a integral
Z −∞
de Lebesgue f dµL . 2
R
| senx| | senx|
≥ .
|x| nπ
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 23 1157/1461
É claro que a função | senx| é Boreliana (pois é contı́nua) e limitada. Aplicando o Teorema 23.2, tem-se
Z Z nπ
| senx| dµL = | senx| dx ,
[(n−1)π, nπ] (n−1)π
Teorema 23.4 (Teorema da Convergência Monótona) Seja (M, M) um espaço mensurável onde
encontra-se definida uma medida µ. Seja {fn } uma seqüência não-decrescente de funções não-negativas
fn : M → R, ou seja, 0 ≤ f1 (x) ≤ f2 (x) ≤ f3 (x) ≤ · · · ≤ ∞, sendo todas [M, M[τR ]]-mensuráveis.
Suponhamos também que f : M → R seja tal que para cada x ∈ M a seqüência fn (x) convirja a f (x).
Então, a função f é também [M, M[τR ]]-mensurável e
Z Z
lim fn dµ = f dµ . (23.37)
n→∞ M M
É fácil ver que cada função fn é [M[τR ], M[τR ]]-mensurável (faça-o!) e que fn ≤ fn+1 para todo n.
Essas
R funções Rfn são integráveis
√ por Riemann (pois são contı́nuas por partes). É também fácil ver
∞ 2
que R fn dµL = −∞ e−x dx = π.
precisa da integração funcional de Feynman da Mecânica Quântica e da Teoria Quântica de Campos (quando formuladas
no espaço-tempo de Minkowski). Já a chamada integral funcional de Feynman-Kac, definida no espaço-tempo Euclidiano,
pode ser bem definida, por não sofrer desses problemas (vide e.g. [51] ou [116, 117, 118, 119]). Para uma exposição
introdutória sobre a integração funcional de Feynman na Mecânica Quântica, vide, por exemplo, [111], ou bons livros de
Mecânica Quântica.
25
Beppo Levi (1875-1961).
26
Pierre Joseph Louis Fatou (1878-1929).
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 23 1159/1461
como se vê, e como garante o Teorema da Convergência Monótona. Essa igualdade, porém, não faria
sentido para a integral de Riemann, pois f , ao contrário das funções fn , não é integrável por Riemann.
Condições suficientes para se poder comutar uma integral de Riemann com um limite de uma
seqüência de funções são geralmente muito mais restringentes que o exigido no Teorema da Convergência
Monótona e requerem, por exemplo, convergência uniforme dessa seqüência.
• O Lema de Fatou
O seguinte lema, denominado Lema de Fatou, possui várias aplicações, sendo também importante
na demonstração do Teorema da Convergência Dominada, do qual trataremos logo adiante, assim como
na demonstração do Teorema 23.2, da página 1155, acima, que tratou da relação entre as integrais de
Riemann e Lebesgue em intervalos finitos da reta real.
O Teorema da Convergência Monótona, Teorema 23.4, tratava de seqüências monótonas não-
decrescentes de funções positivas e mensuráveis da reta real e estabelecia a possibilidade de troca
de limites com a integração expressa em (23.37). Podemos nos perguntar, e se tivermos uma seqüência
de funções positivas e mensuráveis mas que não seja monótona não-decrescente? Valerá a inversão de
limites com a integral em (23.37)? A resposta, em geral, é não, mas ainda assim, vale o seguinte:
Teorema 23.5 (Lema de Fatou) Seja (M, M) um espaço mensurável onde encontra-se definida
uma medida µ. Seja {fn } uma seqüência de funções não-negativas e [M, M[τR ]]-mensuráveis fn :
M → R. Então, Z Z
lim inf fn dµ ≤ lim inf fn dµ . (23.38)
M n→∞ n→∞ M
2
A demonstração encontra-se no Apêndice 23.G, página 1184. O Lema de Fatou será usado logo
abaixo para demonstrar um outro resultado ainda mais relevante, o Teorema da Convergência Domi-
nada.
Nem sempre vale a igualdade em (23.38). Isso é mostrado nos dois exercı́cios seguintes.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 23 1160/1461
Assim, Z Z
lim inf fn dµ < lim inf fn dµ .
R n→∞ n→∞ R
6
Assim, Z Z
lim inf fn dµ = lim inf fn dµ .
R n→∞ n→∞ R
6
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 23 1161/1461
Teorema 23.6 (Teorema da Convergência Dominada) Seja (M, M) um espaço mensurável onde
encontra-se definida uma medida µ. Seja {fn } uma seqüência de funções [M, M[τC ]]-mensuráveis
fn : M → C, n ∈ N, tais que o limite f (x) = lim fn (x) existe para todo x ∈ M. Suponha ainda que
n→∞
exista uma função não-negativa F ∈ L1 (M, dµ) tal que |fn (x)| ≤ F (x) para todo n ∈ N e todo x ∈ M.
Então:
1. f ∈ L1 (M, dµ),
2. Z
lim |f − fn | dµ = 0 ,
n→∞ M
3. Z Z Z
lim fn dµ = lim fn dµ = f dµ ,
n→∞ M M n→∞ M
onde n ∈ N, n > 0. Mostre que há uma função F ∈ L1 (R dµL) tal que |fn (x)| ≤ F (x) paraZtodo n ∈ N
e todo x ∈ R. Justifique então, com base nesse fato, se a inversão da integral pelo limite lim fn dµL =
n→∞ R
Z
( lim fn ) dµL é possı́vel. Verifique explicitamente que a igualdade é verdadeira. 6
R n→∞
para n ∈ N, n > 0. Mostre que não há nenhuma função F ∈ L1 (R, dµL ) tal que |fn (x)| ≤ F (x) para
todo n ∈ N e todo x ∈ R. Sugestão: construa
R a menor função F que satisfaz |fn (x)| ≤ F (x) para
todo Zn ∈ N e todo
Z x ∈ R e mostre que R |F | dµL = ∞. Verifique explicitamente que a igualdade
lim fn dµL = ( lim fn ) dµL não é verdadeira. 6
n→∞ R R n→∞
Então ϕf é uma medida em M. Além disso, para qualquer função não-negativa e [M, M[τR ]]-
mensurável g tem-se Z Z
g dϕf = g f dµ . (23.39)
M M
A relação, (23.39) diz-nos algo como dϕf = f dµ. Essa relação tem apenas sentido simbólico, pois
não atribuı́mos significado aos sı́mbolos dϕf e dµ. Ainda assim, podemos interpretar dϕf = f dµ como
estabelecendo uma relação entre as medidas ϕf e µ por uma espécie de mudança de variáveis.
Prova da Proposição 23.7. É claro que ϕf (∅) = 0, pois χ∅ éSidenticamente nula. Seja Ek , k ∈ N, uma
coleção contável e disjunta de elementos de M e seja E := ∞ k=1 Ek . Como para todo x ∈ M
n
X n
X
χE (x) = lim χEk (x) (por que?), segue que (f χE )(x) = lim fk (x), ∀x ∈ M,
n→∞ n→∞
k=1 k=1
Pn
onde fk := f χEk . A funções Fn := k=1 fk são não-negativas, [M, M[τR ]]-mensuráveis e Fn ≤ Fn+1
para todo n ∈ N. Aplica-se, então o Teorema da Convergência Monótona, Teorema 23.4, página 1158,
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 23 1163/1461
e tem-se
∞
! Z n
! Z n
!
[ X Teor. 23.4
X
ϕf Ek = lim fk dµ = lim fk dµ
M n→∞ n→∞ M
k=1 k=1 k=1
n Z
X
linearidade da integral
= lim fk dµ
n→∞ M
k=1
n Z
X
= lim f χEk dµ
n→∞ M
k=1
n
X
= lim ϕf (Ek ) ,
n→∞
k=1
Agora, gn f é uma seqüência não-decrescente (por que?) de funções positivas e mensuráveis e que
converge a g f (por que?). Aplicando mais uma vez o Teorema da Convergência Monótona, Teorema
23.4, página 1158, ao lado direito da última expressão, segue que
Z Z Z
g dϕf = lim gn f dµ = (g f ) dµ ,
E E n→∞ E
completando a demonstração.
Se f for tal que existe uma F : R → R com F ′ (x) = f (x), o Teorema Fundamental do Cálculo
diz-nos que
ϕf ([a, b]) = F (b) − F (a) .
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 23 1164/1461
Note que F ′ (x) = f (x) ≥ 0 e, portanto F é crescente. Isso fornece uma noção do que representa a
medida ϕf desses intervalos.
23.4 Os Espaços Lp e Lp
Daqui por diante M será um conjunto não-vazio com uma σ-álgebra M, para a qual encontra-se definida
uma medida µ.
Definimos à página 1153 os conjuntos Lp (M, dµ), p > 0, como sendo o conjunto de todas as funções
complexas definidas em M tais que sua p-ésima potência é integrável. O estudo das propriedades desses
conjuntos é de grande importância em várias áreas da Matemática e da Fı́sica. Na Fı́sica Quântica
um papel muito especial é reservado aos conjuntos L2 (R, dµL ) e L2 (Rn , dµL) (mais precisamente, aos
seus parentes próximos, os conjuntos L2 (R, dµL) e L2 (Rn , dµL), que serão definidos abaixo), pois os
mesmos descrevem os estados puros de sistemas quânticos com um número finito de graus de liberdade.
A razão de os conjuntos Lp (M, dµ) serem importantes reside no fato que, para p ≥ 1, todos eles são
– menos de uma tecnicalidade que discutiremos abaixo – espaços de Banach. Os espaços L2 (M, dµ),
em particular, são – a menos dessa tecnicalidade – espaços de Hilbert27 . Nosso objetivo na presente
seção é estudar esses fatos de forma precisa e geral.
Por razões pedagógicas começaremos estudando os espaços L1 (M, dµ) e depois passaremos ao caso
p > 1.
Como (f − g) ∈ L1 (M, dµ), é claro que 0 ≤ d1 (f, g) < ∞. É evidente que d1 (f, f ) = 0 e que
d1 (f, g) = d1 (g, f ). Como também, para qualquer h ∈ L1 (M, dµ), vale que f − g = (f − h) + (h − g),
tem-se |f − g| ≤ |f − h| + |h − g| e, portanto,
a chamada desigualdade triangular. Com isso, estabelecemos que d1 é uma pseudo-métrica em L1 (M, dµ).
Para a definição geral de pseudo-métrica, vide Seção 17.3, página 960.
R
Por que d1 não é uma métrica? Pois no conjunto L1 (M, dµ), o fato de ter-se M |f − g| dµ = 0
não implica que f (x) = g(x) para todo x ∈ M, mas implica apenas que f = g µ-q.t.p. (Proposição
23.6, página 1150). Esse fato em geral28 impede-nos de fazer de L1 (M, dµ) um espaço métrico, mas
há uma maneira simples de remediar isso: identificando entre si as funções que diferem apenas em um
conjunto de medida µ nula. Esse é o nosso próximo passo.
No conjunto das funções [M, M[τR ]]-mensuráveis estabelecemos uma relação de equivalência di-
zendo que funções f e g, são equivalentes, f ∼ g, se f = g µ-q.t.p., ou seja, se µ({x ∈ M| f (x) 6=
g(x)}) = 0. Constatemos que, de fato, isso define uma relação de equivalência. Que f ∼ f é evidente,
assim como que f ∼ g equivale a g ∼ f . Para provar a transitividade, consideremos três funções f , g
e h. Notemos que se x ∈ M é tal que f (x) 6= h(x), então ou f (x) 6= g(x) ou g(x) 6= h(x) ou ambas.
Logo,
{x ∈ M| f (x) 6= h(x)} = {x ∈ M| f (x) 6= g(x)} ∪ {x ∈ M| g(x) 6= h(x)} ,
sendo que a união acima não é necessariamente disjunta. Logo,
µ {x ∈ M| f (x) 6= h(x)} ≤ µ {x ∈ M| f (x) 6= g(x)} + µ {x ∈ M| g(x) 6= h(x)} .
Assim, se f ∼ g e g ∼ h, o lado direito vale zero e, portanto, segue que f ∼ h, provando a transitividade.
E. 23.24 Exercı́cio. Mostre que {x ∈ M| f (x) 6= g(x)} ∈ M. Sugestão: prove e use o fato que
{x ∈ M| f (x) 6= g(x)} = {x ∈ M| f (x) > g(x)} ∪ {x ∈ M| f (x) < g(x)} e use a Proposição 23.11, da
página 1176. 6
O conjunto L1 (M, dµ) quebra-se em classes de equivalência pela relação de equivalência acima.
Duas funções de uma mesma classe diferem apenas em um conjunto de medida µ igual a zero. Definimos
o conjunto L1 (M, dµ) como sendo o conjunto dessas classes de equivalência: em sı́mbolos
Uma outra forma mais concreta de encarar L1 (M, dµ) é considerá-lo como o conjunto obtido
tomando um e apenas um representante arbitrário de cada classe. Essa forma de ver L1 (M, dµ) tem
a vantagem de permitir constatar de modo imediato que L1 (M, dµ) também é um espaço vetorial
complexo. Além disso, nessa maneira de ver, L1 (M, dµ) é um sub-conjunto de L1 (M, dµ) e, portanto,
d1 está definido em L1 (M, dµ). Agora, porém, vale que se f, g ∈ L1 (M, dµ) e d1 (f, g) = 0,
28
Exceto nos casos especiais em que M e µ são tais que ∅ é o único conjunto de medida µ nula.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 23 1166/1461
então f = g µ-q.t.p. Ora, isso só é possı́vel se f = g, pois L1 (M, dµ) foi construı́do tomando-se
um e apenas um elemento de cada classe de equivalência de L1 (M, dµ). Constatamos, assim, que d1 é
agora uma métrica em L1 (M, dµ), não apenas uma pseudo-métrica.
Resumindo L1 (M, dµ), é um espaço vetorial complexo e também um espaço métrico em relação à
métrica d1 .
O leitor que deseja permanecer em um nı́vel mais abstrato e continuar encarando L1 (M, dµ) como
uma coleção de classes, poderá proceder da seguinte forma para constatar as afirmações do último
parágrafo. Seja [f ] a classe a qual pertence um elemento f ∈ L1 (M, dµ). Defina-se para α e β ∈ C e
para duas classes [f ] e [g] a operação linear α[f ] + β[g] := [αf + βg]. Com essa operação de combinação
linear, a coleção de classes L1 (M, dµ) adquire a estrutura de um espaço vetorial complexo, tendo
como vetor nulo a classe [0], que contém a função identicamente nula. Para introduzir uma métrica na
coleção de classes L1 (M, dµ), defina-se D1 ([f ], [g]) := d1 (f, g).
E. 23.25 Exercı́cio. Mostre que a combinação linear definida acima, assim como a métrica D1 , estão
bem definidas, no sentido de serem independentes dos representantes f e g tomados em cada classe. Mostre
que D1 é de fato uma métrica, e não apenas uma pseudo-métrica, ou seja, satisfaz todos os postulados da
definição de uma métrica. 6
Optaremos tacitamente daqui por diante pela visão mais concreta de L1 (M, dµ) como o conjunto
obtido tomando um e apenas um representante arbitrário de cada classe de equivalência de L1 (M, dµ).
Não há grandes diferenças técnicas entre as duas visões e raramente é necessário recorrer à definição
precisa em termos de classes de equivalência. Uma exceção se dará quando discutirmos o problema da
completeza dos espaços L1 (M, dµ). A visão concreta tem a vantagem de permitir prosseguir encarando
os elementos de L1 (M, dµ) como funções integráveis de M em C e não como classes abstratas de funções.
Informalmente, a diferença entre L1 (M, dµ) e L1 (M, dµ) é que em L1 (M, dµ) identificamos funções
que diferem apenas em um conjunto de medida µ nula como se fossem a mesma função.
Proposição 23.8 Os conjuntos Lp (M, dµ), com p > 0, são espaços vetoriais complexos. 2
A prova é essencialmente idêntica à da Proposição 17.9, página 966, sobre os conjuntos de seqüências
ℓp e faz uso da Proposição 17.11, página 979, do Apêndice 17.A.
Caso p ≥ 1. Sejam f, g ∈ Lp (M, dµ), arbitrários. Como |f (x) + g(x)| ≤ |f (x)| + |g(x)|, a segunda
desigualdade em (17.A.3), página 979, implica
|f + g|p ≤ (|f | + |g|)p ≤ 2p−1 (|f |p + |g|p) .
Assim, Z Z Z
p p−1 p p p−1 p
|αf + βg| dµ ≤ 2 |α| |f | dµ + 2 |β| |g|p dµ < ∞
M M M
para quaisquer α, β ∈ C. Isso provou que αf + βg ∈ Lp (M, dµ) e, portanto, para p ≥ 1 o conjunto
Lp (M, dµ) é um espaço vetorial complexo. Isso é o que querı́amos provar.
define uma pseudo-métrica. De forma análoga ao que fizemos acima, e usando a mesma relação de
equivalência ∼ definida acima, o conjunto de classes Lp (M, dµ), definido por
Lp (M, dµ) := Lp (M, dµ)/ ∼ ,
é um espaço vetorial complexo e também um espaço métrico com a métrica induzida por dp . Também
iremos encarar Lp (M, dµ) como o conjunto obtido tomando um e apenas um representante arbitrário
de cada classe de equivalência de Lp (M, dµ).
A desigualdade de Minkowski é a afirmação que se p é tal que 1 ≤ p < ∞, então para quaisquer
f, g ∈ Lp (M dµ) tem-se
Z 1/p Z 1/p Z 1/p
p p p
|f − g| dµ ≤ |f | dµ + |g| dµ . (23.41)
M M M
2
29
Otto Ludwig Hölder (1859-1937).
30
Hermann Minkowski (1864-1909).
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 23 1168/1461
A demonstração é apresentada no Apêndice 23.J, página 1189. Em [122] uma interessante demons-
tração alternativa da desigualdade de Minkowski, usando a convexidade da função xp , é apresentada.
Aquela demonstração fornece também a versão da da desigualdade de Minkowski para o caso 0 < p < 1:
Z 1/p Z 1/p Z 1/p
p p p
|f + g| dµ ≥ |f | dµ + |g| dµ . (23.42)
M M M
Já observamos acima (Proposição 23.8) que os conjuntos Lp (M dµ) são espaços vetoriais complexos.
No caso p ≥ 1 os mesmos possuem uma pseudo-norma definida por
Z 1/p
p
kf kp := |f | dµ . (23.44)
M
A propriedade básica de uma pseudo-norma, a saber kαf + βgkp ≤ |α| kf kp + |β| kgkp para todos
f, g ∈ Lp (M dµ) segue da desigualdade de Minkowski, pois a mesma nos garante que
Z 1/p Z 1/p Z 1/p
p p p
|αf + βg| dµ ≤ |α| |f | dµ + |β| |g| dµ .
M M M
o espaço Lp (M, dµ), definido acima, k · kp será uma norma! Concluı́mos disso que para p ≥ 1, os
conjuntos Lp (M, dµ) são espaços vetoriais complexos e normados. Por serem normados, são também
espaços métricos com as métricas induzidas pelas normas k · kp :
Z 1/p
p
dp (f, g) := kf − gkp = |f − g| dµ .
M
Como veremos logo adiante, os espaços Lp (M, dµ) com p ≥ 1 são espaços de Banach, por serem
completos em relação à métrica dp acima.
A desigualdade de Hölder (23.40) tem um caso particular muito importante, a saber, quando p =
q = 2: para f, g ∈ L2 (M, dµ) vale
Z Z 1/2 Z 1/2
2 2
|f | |g| dµ ≤ |f | dµ |g| dµ < ∞.
M M M
R R
Como também M f g dµ ≤ M |f | |g| dµ, segue que
Z Z 1/2 Z 1/2
f g dµ ≤ 2
|f | dµ 2
|g| dµ < ∞.
M M M
As duas desigualdades acima são denominadas desigualdades de Cauchy-Schwarz. A segunda está nos
dizendo que para f, g ∈ L2 (M, dµ) a expressão
Z
hf, gi := f g dµ
M
é um número complexo finito e, como facilmente se verifica, define um produto escalar em L2 (M, dµ).
É também elementar constatar que a norma associada a esse produto escalar é a norma k · k2 .
Como veremos logo abaixo, L2 (M, dµ) é completo em relação à métrica d2 que essa norma induz.
Conseqüentemente, L2 (M, dµ) é um espaço de Hilbert.
Se o conjunto M e a medida µ são tais que µ(M) < ∞, então a função g(x) = 1 (identicamente
R
igual a 1 para todo x ∈ M) pertence a todo Lq (M, dµ), 0 < q < ∞. Isso é evidente, pois M 1q dµ =
µ(M) < ∞. Disso e da desigualdades de Hölder (23.43), extraem-se algumas conseqüências sobre
relações de inclusão entre os vários espaços Lp (M, dµ).
Para 1 < p < ∞ e 1 < q < ∞ arbitrários, tomando-se f ∈ Lp (M, dµ) e g = 1, obtem-se de (23.43)
que
Z 1/r Z 1/p
r
|f | dµ ≤ p
|f | dµ [µ(M)]1/q < ∞ , (23.45)
M M
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 23 1170/1461
para 1/r = 1/p + 1/q. Como 1 < q < ∞, segue que r < p. Como q é arbitrário, a desigualdade (23.45)
diz que se f ∈ Lp (M, dµ) então f ∈ Lr (M, dµ) para todo r ≤ p, ou seja, Lp (M, dµ) ⊂ Lr (M, dµ)
sempre que r ≤ p com 1 < p < ∞. Note que o caso r = 1 não está excluido (basta escolher q tal que
1/p + 1/q = 1). Assim, tem-se, por exemplo,
Essas relações de inclusão não são geralmente válidas caso µ(M) = ∞. Vide próximo exercı́cio.
Se p e q são tais que 1 < p < ∞, 1 < q < ∞ e satisfazem 1/p + 1/q = 1, então para quaisquer
f ∈ Lp (M, dµ) e g ∈ Lq (M, dµ) a desigualdade de Hölder (23.40) implica que
Z Z 1/p Z 1/q
f g dµ ≤ p
|f | dµ q
|g| dµ < ∞. (23.46)
M M M
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 23 1171/1461
é um funcional linear em Lq (M, dµ). Mais que isso, (23.46) diz-nos que se trata de um funcional linear
contı́nuo31 (na topologia de Lq (M, dµ)).
Concluı́mos disso que se 1 < p < ∞, 1 < q < ∞ e satisfazem 1/p + 1/q = 1, então Lp (M, dµ) é um
sub-conjunto do dual topológico de Lq (M, dµ) e vice-versa.
Do Teorema de Riesz-Fischer e das considerações acima concluı́mos que os espaços Lp (M, dµ) com
p ≥ 1 são espaços de Banach e o espaço L2 (M, dµ) é um espaço de Hilbert.
A prova do Teorema de Riesz-Fischer encontra-se no Apêndice 23.K, página 1191.
31
As noções de funcional linear e funcional linear contı́nuo foram introduzidas na Seção 2.1.3 do Capı́tulo 2.
32
Frigyes Riesz (1880-1956).
33
Ernst Sigismund Fischer (1875-1954).
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 23 1172/1461
Apêndices
Nos vários apêndices que seguem apresentamos as demonstrações mais técnicas de alguns dos teoremas
e proposições da nossa exposição.
Prova da Proposição 23.3. Pelo exercı́cio E. 23.2 da página 1128, o reticulado P([a, b]) ∋ P 7→
Di [P, f ] ∈ R é crescente, enquanto que o reticulado P([a, b]) ∋ P 7→ Ds [P, f ] ∈ R é decrescente.
Assim, Z b
lim inf Di [P, f ] = sup Di [P, f ] = f (x) dx
P∈P([a, b]) P∈P([a, b]) a
e Z b
lim sup Ds [P, f ] = inf Ds [P, f ] = f (x) dx .
P∈P([a, b]) P∈P([a, b]) a
e, portanto,
lim inf Di [P, f ] = lim inf S[(P, χ), f ] e lim sup Ds [P, f ] = lim sup S[(P, χ), f ] .
P∈P([a, b]) (P, χ)∈X([a, b]) P∈P([a, b]) (P, χ)∈X([a, b])
Logo,
Z b
f (x) dx = lim inf Di [P, f ] = lim inf S[(P, χ), f ]
a P∈P([a, b]) (P, χ)∈X([a, b])
Z b
≤ lim sup S[(P, χ), f ] = lim sup Ds [P, f ] = f (x) dx ,
(P, χ)∈X([a, b]) P∈P([a, b]) a
onde a única desigualdade que ocorre acima segue da propriedade (22.5). Dessa expressão, vê-se que
Rb Rb
a
f (x) dx = a
f (x) dx se e somente se
e, portanto, por (22.6), se e somente se existe lim S[(P, χ), f ]. Isso prova a equivalência das
(P, χ)∈X([a, b])
definições I e II da noção de integrabilidade de Riemann.
O próximo teorema (de [62]) é de importância fundamental e será usado em vários lugares mais
abaixo. A noção de σ-álgebra gerada por uma coleção de conjuntos foi introduzida no Capı́tulo 19.
Teorema 23.9 Sejam (M, M) e (N, N) dois espaços mensuráveis e suponhamos que N seja a σ-
álgebra gerada por uma coleção A de subconjuntos de N: N = M[A]. Então, uma função f : M → N
é [M, N]-mensurável, ou seja, [M, M[A]]-mensurável, se e somente se
f −1 (A) ∈ M (23.B.1)
para todo A ∈ A. 2
A′ := {A′ ⊂ N| f −1 (A′ ) ∈ M} .
Por (23.B.1) é claro que A ⊂ A′ . Mostremos agora que A′ é uma σ-álgebra em N. Que ∅ e N
pertencem a A′ é claro, pois f −1 (N) = M (isso segue de f (M) ⊂ N). Se A′ ∈ A′ , então f −1 ((A′ )c ) =
f −1 (N \ A′ ) = f −1 (N) \ f −1 (A′ ) = M \ f −1 (A′ ) = (f −1 (A′ ))c . (Vide Proposições 1.2–1.4, página 27).
Por hipótese, f −1 (A′ ) ∈ M. Logo, como M é uma σ-álgebra, (f −1 (A′ ))c ∈ M.
Resta-nos provar que uma união contável de elementos de A′ é também elemento de A′ . Para isso,
sejam conjuntos A′k ∈ A′ , k ∈ N. Sabemos que (vide Proposições 1.2–1.4, página 27)
!
[ [
f −1 A′k = f −1 (A′k ) .
k∈N k∈N
Como, por definição, M[A] é a menor σ-álgebra contendo A e A′ também é uma σ-álgebra contendo
A, segue que M[A] ⊂ A′ . Ora, pela definição de A′ , isso diz que a pré-imagem por f de qualquer
elemento de N = M[A] é um elemento de M. Isso significa precisamente que f é mensurável em relação
a M e N, completando a prova.
Já observamos acima a semelhança entre as definições de funções contı́nuas e funções mensuráveis.
As duas noções combinam-se elegantemente nos resultados que seguem.
O Teorema 23.9 tem uma aplicação imediata para funções contı́nuas definidas em espaços to-
pológicos. Sejam M e N dois conjuntos não-vazios dotados de topologias τM e τN , respectivamente, e se-
jam M[τM ] e M[τM ] as σ-álgebras geradas por essas topologias. Afirmamos que se f : M → N é contı́nua
com respeito às topologias τM e τN , então f é mensurável em relação às σ-álgebras M[τM ] e M[τN ],
ou seja, é [M[τM ], M[τN ]]-mensurável. De fato, pelo Teorema 23.9 basta provar que f −1 (A) ∈ M[τM ]
para todo A ∈ τN . Agora, por f ser contı́nua, vale que f −1 (A) ∈ τM se A ∈ τN . Como obviamente
τM ⊂ M[τM ], a afirmação está provada.
Note que se em M adotarmos uma σ-álgebra M que contém a σ-álgebra M[τM ], a mesma afirmação
é verdadeira: uma função f : M → N contı́nua com respeito às topologias τM e τN é mensurável em
relação às σ-álgebras M[τM ] e M ⊃ M[τM ].
Disso segue que toda função f : R → R contı́nua em relação à topologia τR é [M[τR ], M[τR ]]-
mensurável e também [M[τR ], MµL ]-mensurável.
A proposição adiante é um mero corolário das observações acima.
Proposição 23.9 Sejam X, Y e Z três conjuntos não-vazios, sendo o conjunto X dotado de uma
σ-álgebra MX e os conjuntos Y e Z dotados de topologias τY e τZ , respectivamente. Sejam f : X → Y
e g : Y → Z duas funções tais que f é [MX , M[τY ]]-mensurável e g é contı́nua em relação às topologias
τY e τZ . Então, g ◦ f : X → Z é [MX , M[τZ ]]-mensurável. 2
Prova. Pelo que acabamos de comentar, g é [M[τY ], M[τZ ]]-mensurável. Assim, g ◦ f é uma função
[MX , M[τZ ]]-mensurável por ser a composição de uma função [MX , M[τY ]]-mensurável com uma
função [M[τY ], M[τZ ]]-mensurável.
Notemos que o Teorema 23.9 é aplicável ao caso de funções f : M → R, onde M dotada de uma
σ-álgebra M e R da σ-álgebra de Borel M[τR ]. Nesse caso A = τR . Em verdade, provamos no Capı́tulo
19, mais especificamente na expressão (19.3), página 1057, que M[τR ] = M[R], onde R é a coleção de
todos os intervalos abertos (a, b), com a e b racionais. Podemos, portanto, tomar A = R, nesse caso.
Conseqüentemente, para provar que uma função f : M → R é mensurável em relação a M e M[τR ], é
suficiente, pelo Teorema 23.9, provar que f −1 ((a, b)) ∈ M para todo intervalo aberto (a, b), com a e b
racionais.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 23 1175/1461
(Vide Proposições 1.2–1.4, página 27). Logo, pelos raciocı́nios usuais sobre uniões contáveis, inter-
secções finitas e complementos de elementos de uma σ-álgebras, segue que se f −1 ((−∞, c)) ∈ M para
todo c ∈ R, então f −1 ((a, b)) ∈ M para todos com a e b racionais, provando que f é mensurável em
relação a M e M[τR ].
Um raciocı́nio idêntico nos leva a concluir que se f −1 ((c, ∞)) ∈ M para todo c ∈ R, então f é
mensurável em relação a M e M[τR ].
Resumimos essas considerações na seguinte proposição, que usaremos logo abaixo:
Proposição 23.10 Consideremos uma função numérica f : M → R, sendo M dotada de uma σ-
álgebra M e R da σ-álgebra de Borel M[τR ]. Uma condição necessária e suficiente para que f seja
[M, M[τR ]]-mensurável é que para todo a ∈ R valha
Prova. Que as condições são necessárias é evidente, pois os quatro conjuntos (23.B.2)-(23.B.5) são a
pré-imagem por f dos conjuntos Borelianos (−∞, a), (−∞, a], (a, ∞) e [a, ∞).
Acima, já provamos a recı́proca para os conjuntos (23.B.2) e (23.B.4). Os dois casos restantes são
conseqüência desses dois se lembrarmos que f −1 ((−∞, a]) = (f −1 ((a, ∞)))c e que f −1 ([a, ∞)) =
(f −1 ((−∞, a)))c .
E. 23.30 Exercı́cio. Mostre isso! Sugestão: lembre-se que f (x) < g(x) se e somente se existir pelo
menos um racional r tal que f (x) < r < g(x), ou seja, f (x) < r e r < g(x). 6
Como observamos acima, tanto {x ∈ M| f (x) < r} quanto {x ∈ M| g(x) > r} são elementos de
M. Pelas propriedades de σ-álgebras, sua intersecção também o é. Por fim, a união acima também
o é, por ser uma união contável de elementos de M (essa é uma das propriedades definidoras de uma
σ-álgebras). A prova que {x ∈ M| f (x) > g(x)} ∈ M é análoga:
[
{x ∈ M| f (x) > g(x)} = {x ∈ M| f (x) > r} ∩ {x ∈ M| g(x) < r}
r∈Q
e não requer mais comentários. Por fim, notemos que {x ∈ M| f (x) ≤ g(x)} = {x ∈ M| f (x) > g(x)}c
e que {x ∈ M| f (x) ≥ g(x)} = {x ∈ M| f (x) < g(x)}c . Como uma σ-álgebra é fechada pelo
complemento, segue do que já foi provado que {x ∈ M| f (x) ≤ g(x)} ∈ M e {x ∈ M| f (x) ≥ g(x)} ∈
M.
Vamos aqui provar a seguinte afirmativa, a qual coroa os resultados obtidos até aqui sobre funções
numéricas mensuráveis: o conjunto das funções numéricas mensuráveis forma uma álgebra. Mais
precisamente, tem-se
Proposição 23.12 Se f : M → R e g : M → R são ambas [M, M[τR ]]-mensuráveis, então
Prova. Para simplificar a linguagem, usaremos nesta prova a expressão função mensurável no sentido
de [M, M[τR ]]-mensurável.
Seja α ∈ R. Afirmamos que αf é igualmente mensurável. Se α = 0 a afirmativa é trivial. Se α 6= 0,
notemos que para todo a ∈ R
por (23.B.2), já que, por hipótese, f é mensurável. Como isso vale para todo a ∈ R, segue pela mesma
Proposição 23.10 que αf é igualmente mensurável.
O mesmo tipo de argumento tem outra conseqüência semelhante. Se h : M → R é mensurável,
então que para todo b ∈ R vale
Como h é mensurável, {x ∈ M| h(x) < a − b} ∈ M. Como isso vale para todo a ∈ R, concluı́mos da
igualdade acima que b + h é mensurável.
Observe-se agora que
Definindo-se h(x) = a − g(x), constatamos pelas considerações de acima que se trata de uma função
mensurável. Assim, pela Proposição 23.11, segue que {x ∈ M| f (x) + g(x) < a} ∈ M para todo a, o
que implica que f + g e mensurável.
Concluı́mos disso tudo que para todos α, β ∈ R a função αf + βg é mensurável em relação a M
e M[τR ]. Resta-nos ainda mostrar que o produto f · g é mensurável. Provemos primeiro que se f é
mensurável então f 2 também o é. De fato, para a < 0
{x ∈ M| f (x)2 < a} = ∅ ∈ M
mas para a ≥ 0,
√ √
{x ∈ M| f (x)2 < a} = x ∈ M| f (x) < a ∪ x ∈ M| f (x) < − a .
√
Como f é mensurável, segue que {x ∈ M| f (x) < ± a} ∈ M. Logo {x ∈ M| f (x)2 < a} ∈ M e como
isso vale para todo a ∈ R, segue que f 2 é mensurável.
A prova que f · g é mensurável segue da relação
1
f ·g = (f + g)2 − (f − g)2
4
e reunindo tudo o que vimos.
p
Prova. Para f : M → R, basta observar que para a < 0 vale {x ∈ M| f (x) < a} = ∅ ∈ M e para
a ≥ 0, p
{x ∈ M| f (x) < a} = {x ∈ M| f (x) < a2 } ∈ M ,
√
pois f é mensurável. Isso provou que f é [M, M[τR ]]-mensurável.
O conjunto dos números complexos C é um espaço topológico métrico completo com a métrica
d(z, w) = |w − z|, z, w ∈ C. Denotaremos por τC a topologia que essa métrica induz, a topologia
usual de C. A essa topologia vem associada a σ-álgebra Boreliana M[τC ].
Vamos demonstrar a seguinte proposição:
Proposição 23.14 Seja (M, M) um espaço mensurável e f : M → C uma função complexa [M, M[τC ]]-
mensurável definida em M. Então Re(f ), Im(f ) e |f | são funções reais [M, M[τR ]]-mensuráveis. 2
Prova. Comecemos por observar que a função Re : C → R dada por Re(z) = (z + z)/2 é contı́nua,
assim como a função Im : C → R dada por Im(z) = (z − z)/(2i).
Prova. (De [123]). Seja I1 um intervalo aberto do eixo real e I2 um intervalo aberto do eixo imaginário.
Então R = I1 × I2 é um retângulo aberto em C. Agora, é fácil ver que f −1 (R) = u−1 (I1 ) ∩ v −1 (I2 ).
Pelas hipóteses, u−1 (I1 ) e v −1 (I2 ) pertencem à σ-álgebra M. Logo, f −1 (R) também.SLembremos que
todo aberto A de C pode ser ser escrito como união contável de tais retângulos: A = n∈N Rn . Agora,
por (1.14), página 27, !
[ [
f −1 (A) = f −1 Rn = f −1 (Rn ) .
n∈N n∈N
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 23 1179/1461
Mas como vimos f −1 (Rn ) ∈ M para todo n e, como a união acima é contável, segue que f −1 (A) ∈ M.
Pela Proposição 23.9, isso prova que f é [M, M[τC ]]-mensurável.
Para as funções complexas mensuráveis vale a mesma afirmação feita sobre as funções reais: elas
formam uma álgebra. Mais precisamente, tem-se
Proposição 23.16 Se f : M → C e g : M → C são ambas [M, M[τC ]-mensuráveis, então
Prova. A prova é elementar com o que acumulamos até aqui, pois é fácil provar (usando as Proposições
23.12 e 23.14) que as partes reais e imaginárias de αf + βg e de f · g são [M, M[τR ]]-mensuráveis. Daı́,
pela Proposição 23.15, αf + βg e f · g são [M, M[τC ]]-mensuráveis.
onde
k−1 k k−1 k
Fn, k := f −1
, n = x ∈ M ≤ f (x) < n ,
2n 2 2n 2
e
Gn := f −1 ([n, ∞]) = {x ∈ M| n ≤ f (x) ≤ ∞} .
Como por hipótese f é Boreliana,
k−1 k é imediato que Fn, k e Gn são mensuráveis (ou seja, elementos de
M), já que os intervalos 2n , 2n e [n, ∞] são Borelianos. Assim, cada fn é uma função simples e
mensurável.
Queremos provar que fn é não-decrescente e que converge a f . Para isso, é preciso entender melhor
n
como a seqüência fn está definida. Para cada n, divide-se o intervalo semi-aberto [0, n) em n2 sub-
1 k−1 k
intervalos semi-abertos menores de tamanho 2n , que são os intervalos 2n , 2n com k variando entre
1 e n2n . Os conjuntos Fn, k são as pré-imagens por f desses sub-intervalos semi-abertos. A divisão
de [0, n) em n2n sub-intervalos semi-abertos de tamanho 21n significa que cada intervalo semi-aberto
[l, l + 1), com l = 0, . . . , n − 1, é dividido em 2n intervalos semi-abertos de igual tamanho, a saber,
1
2n
.
Se x é tal que f (x) cai em k−1
2n
, 2kn , então fn (x) é definido como sendo k−1
2n
. Se x é tal que f (x) ≥ n,
então fn (x) é definido como sendo n. Assim, para todo x, fn (x) é sempre menor o igual a f (x).
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 23 1180/1461
1
Se passarmos de n para n + 1, cada intervalo
passa a ter tamanho 2n+1 , que é a metade do anterior.
k−1 k
Assim cada intervalo semi-aberto
k−1 k 2k−2 2k−1 2k−1 2n
, 2n
passa a ser dividido em dois intervalos semi-abertos disjun-
2k
tos: 2n , 2n = 2n+1 , 2n+1 ∪ 2n+1 , 2n+1 . Como as novas subdivisões estão contidas nas anteriores,
o valor de cada fn+1 (x) só pode aumentar em relação ao de fn . Mais precisamente, para x ∈ Fn, k a
função fn vale k−1
2n
. Após a primeira subdivisão (ao passarmos de n a n + 1) o conjunto Fn, k passa a ser
a união dos dois conjuntos disjuntos Fn+1, 2k−1 e Fn+1, 2k . No primeiro fn+1 (x) vale 2k−22n+1
= k−1
2n
= fn (x)
2k−1 k−1
e no segundo fn+1 (x) = 2n+1 > 2n = fn (x), o que prova o que afirmamos.
Para ver que fn converge a f , observe-se que se f (x) é finito,
k−1 então
para todo n > f (x) tem-se
k
obviamente que f (x) ∈ [0, n) e, portanto, vale que f (x) ∈ 2n , 2n para algum k entre 1 e n2n .
Teremos então, pela definição, que fn (x) = k−1
2n
e, portanto, |fn (x) − f (x)| ≤ 21n , o que prova que
fn (x) → f (x) quando n → ∞. Se f (x) não é finito, fn (x) = n para todo n, pela definição e, portanto,
fn (x) → ∞ quando n → ∞.
Resta apenas provar que se f é finito a convergência é uniforme. Se A > 0 é tal que 0 ≤ f (x) < A
para todo x ∈ M, k−1então é certo que se n > A teremos que para cada x haverá um k entre 1 e n2n
tal que f (x) ∈ 2n , 2kn . Nesse caso fn (x) = k−1 2n
e |fn (x) − f (x)| ≤ 21n , Ora, o lado direito dessa
desigualdade não depende de x, o que mostra que a mesma é uniforme em todo M, completando a
prova do Lema 23.3, página 1145.
o que prova (23.22). Na segunda igualdade, acima, trocamos βk por γl e a razão de podermos fazer
isso é a seguinte. Se Bk ∩ Cl = ∅ então µ(Bk ∩ Cl ) = 0, o que autoriza a substituição. Se Bk ∩ Cl 6= ∅,
então βk = γl , pois se x ∈ Bk ∩ Cl , vale pelas representações normais de (23.21) que s(x) = βk e que
s(x) = γk .
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 23 1181/1461
É fácil ver que Am ⊂ An para todos m ≤ n, pois fn é uma seqüência crescente. Fora isso,
[
An = M .
n∈N
Isso se deve ao seguinte. Se x ∈ M então, como fn (x) converge a f (x) ≤ s(x), segue que para algum
n grande o suficiente teremos fn (x) + ǫ > s(x). Assim, todo x ∈ M pertence a algum An .
Temos, com isso, que
[ [
Sk 0 = Sk 0 ∩ M = S k 0 ∩ An = (An ∩ Sk0 )
n∈N n∈N
Como Am ∩ Sk0 ⊂ An ∩ Sk0 para todos m ≤ n, podemos evocar a propriedade geral de medidas 3
da página 1064 e escrever µ(Sk0 ) = limn→∞ µ(An ∩ Sk0 ), o que nos diz que limn→∞ µ(An ∩ Sk0 ) = ∞.
Agora,
Z Z Z
fn dµ > fn χAn ∩Sk0 dµ > (s − ǫ) χAn ∩Sk0 dµ
M M M
Z
= (sk0 − ǫ) χAn ∩Sk0 dµ
M
Z
= (sk0 − ǫ) χAn ∩Sk0 dµ
M
A segunda desigualdade (primeira linha) se deve ai fato que em An tem-se fn (x) > s(x) − ǫ. A primeira
igualdade (segunda linha) se deve ao fato que em Sk0 a função s vale sk0 .
Z h i
Assim, lim fn dµ > (sk0 − ǫ) lim µ(An ∩ Sk0 ) = ∞, como querı́amos mostrar.
n→∞ M n→∞
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 23 1182/1461
R Pn
II. Consideremos
R agora o Pn M s dµ < ∞. Seja s(x) = k=1 sk χSk (x) a representação normal
caso
curta de s. Como M s dµ = k=1 sk µ(Sk ) < ∞, segue que µ(Sk ) < ∞ para todo k com sk > 0.
Seja T := {x ∈ M| s(x) > 0}. É fácil ver que
[
T = Sk .
k=1, ..., n
sk >0
X
Tem-se então µ(T ) = µ(Sk ) < ∞. Vamos escolher um ǫ fixo tal que 0 < ǫ < minsk >0 {sk }. Segue
k
sk >0
que
Z Z
fn dµ ≥ fn χAn ∩T dµ
M M
Z
> (s − ǫ) χAn ∩T dµ
M
Z Z
= s χAn ∩T dµ − ǫ χAn ∩T dµ
M M
Z
= s χAn ∩T dµ − ǫµ(An ∩ T )
M
Z
≥ s χAn ∩T dµ − ǫµ(T )
M
Z
= s χAn ∩T χT dµ − ǫµ(T )
M
Z Z
= s χT dµ − s (1 − χAn ∩T ) χT dµ − ǫµ(T )
M M
Z Z
= s dµ − s (χT − χAn ∩T ) dµ − ǫµ(T )
M M
R
Acima,
R usamos em vários lugares que χA n ∩T = χA n ∩T χT . Na última igualdade usamos que M
s χT dµ =
M
s dµ. Agora, se definirmos sm = supx∈M s(x) = max{s1 , . . . , sn } ≥ 0, teremos
Z Z
s (χT − χAn ∩T ) dµ ≤ sm (χT − χAn ∩T ) dµ = sm (µ(T ) − µ(An ∩ T )) .
M M
Pelo mesmo argumento usado na parte I, vale limn→∞ µ(An ∩ T ) = µ(T ). Com isso, teremos que
sm (µ(T ) − µ(An ∩ T )) ≤ ǫ para todos os n’s grandes o suficiente. Assim, para todos os n’s grandes o
suficiente, Z Z
fn dµ > s dµ − ǫ − ǫµ(T ) .
M M
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 23 1183/1461
Prova do Teorema 23.4.34 Pelas hipóteses f = supn∈N fn , assim, pela discussão da página 1142 sobre
funções definidas pelo supremo de seqüências, f é mensurável.
R
Pelas hipóteses, a seqüência
R f dµ ou converge a algum número finito não-negativo ou diverge.
M n
RAssim, seja RF := limn→∞ M fn dµ com F ∈ R+ ∪ {∞}. Como fn (x) < f (x) para todo x, segue que
M n
f dµ ≤ M f dµ. Logo, Z
F ≤ f dµ. (23.F.12)
M
Seja agora s ∈ S(f ), ou seja, s é simples, [M, M[τR ]]-mensurável e 0 ≤ s ≤ f . Tomando-se uma
constante c fixa no intervalo (0, 1), definamos para cada n ∈ N os conjuntos
En := {x ∈ M| fn (x) ≥ cs(x)}.
Pela Proposição 23.11, página 1176, os conjuntos En são todos mensuráveis (ou seja, pertencem a M).
Como {fn } é crescente, é também imediato que En ⊂ En+1 para todo n.
Se x ∈ M e f (x) = 0, então x ∈ E1 , pois nesse caso f1 (x) = s(x) = f (x) = 0. Se x ∈ M e f (x) > 0,
então cs(x) < f (x), pois c foi escolhido menor que 1. Como
S fn (x) → f (x), haverá algum n para o qual
fn (x) ≥ cs(x) e, portanto, x ∈ En . Isso provou que n∈N En = M. Pelo Lema 23.4, página 1148, e
pela propriedade geral de medidas do item 3, página 1064, isso implica que
Z Z
lim s dµ = s dµ .
n→∞ En M
34
A demonstração abaixo é encontrada de forma quase idêntica em vários textos, por exemplo, em [123]
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 23 1184/1461
Prova do Lema de Fatou. Sejam as funções gn : M → R definidas da seguinte forma: para cada x ∈ M
tem-se gn (x) = inf fk (x). É claro que cada gn é não-negativa e, pelos comentários da página 1142,
k≥n
[M, M[τR ]]-mensurável. É também claro que gn (x) ≤ gn+1 (x) para todo n e para todo x ∈ M e que
fn (x) ≥ gn (x), também para todo n e para todo x ∈ M. Agora, para cada x ∈ M
lim gn (x) = sup gn (x) = sup inf fk (x) = lim inf fn (x) . (23.G.13)
n→∞ n≥1 n≥1 k≥n n→∞
e, portanto, Z Z
inf fk dµ ≥ gn dµ .
k≥n M M
Conseqüentemente, Z Z
sup inf fk dµ ≥ sup gn dµ .
n≥1 k≥n M n≥1 M
e, além disso, Z Z
sup gn dµ = lim gn dµ ,
n≥1 M n→∞ M
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 23 1185/1461
Z
pois gn dµ é crescente. Portanto, provamos que
M
Z Z
lim inf fn dµ ≥ lim gn dµ .
n M n→∞ M
Como gn satisfaz os requisitos do Teorema da Convergência Monótona, Teorema 23.4, página 1158,
vale que Z Z
lim gn dµ = lim gn dµ
n→∞ M M n→∞
e, assim, Z Z
lim inf fn dµ ≥ lim gn dµ . (23.G.14)
n M M n→∞
Por fim, sabemos por (23.G.13) que lim gn = lim inf fn (x) e, assim, (23.G.14) estabeleceu que
n→∞ n→∞
Z Z
lim inf fn dµ ≥ lim inf fn dµ ,
n M M n→∞
Prova do Teorema da Convergência Dominada. É claro que se f (x) = lim f (x) e |fn (x)| ≤ F (x) para
n→∞
todo n ∈ N e todo x ∈ M, então |f (x)| ≤ F (x) para todo xR∈ M. ComoR f é também [M, M[τC ]]-
mensurável (por ser o limite de funções mensuráveis), então M |f | dµ < M F dµ < ∞ e, portanto,
f ∈ L1 (M, dµ). Isso provou o item 1 do Teorema 23.6.
Em segundo lugar, notemos que |f − fn | ≤ |f | + |fn | ≤ 2F . Assim, as funções gn = 2F − |f − fn |
são não-negativas e podemos aplicar o Lema de Fatou, Lema 23.5, que diz-nos que
Z Z
lim inf (2F − |f − fn |) dµ ≤ lim inf (2F − |f − fn |) dµ .
M n→∞ n→∞ M
pois lim inf −|f − fn | = − lim sup |f − fn | = 0. (Justifique!) Por outro lado,
n→∞ n→∞
Z Z Z
lim inf (2F − |f − fn |) dµ = 2F dµ + lim inf −|f − fn | dµ .
n→∞ M M n→∞ M
Isso provou o item 2 do Teorema 23.6. Como |f −fn | ≤ 2F , segue que (f −fn ) ∈ L1 (M, dµ) e podemos
aplicar (23.33) e concluir que Z
lim (f − fn ) dµ = 0 ,
n→∞ M
ou seja, Z Z
f dµ = lim fn dµ .
M n→∞ M
Isso provou o item 3 do Teorema 23.6.
Prova do Teorema 23.2. A prova que apresentamos requer o Lema de Fatou e o Teorema da Convergência
Dominada, tratados na Seção 23.3.4, página 1158.
Dada uma função real limitada e integrável por Riemann f , definida em [a, b], e dada uma partição
Pn = {x1 , . . . , xn } de [a, b] com a = x1 < . . . < xn = b, sejam as somas de Darboux
n−1
X n−1
X
Di [Pn , f ] := inf f (y) |Ik | e Ds [Pn , f ] := sup f (y) |Ik | ,
y∈Ik y∈Ik
k=1 k=1
É bastante claro que σn e Σn são funções mensuráveis Borelianas, pois os intervalos Ik = [xk , xk+1 )
são Borelianos. É também evidente que
Z Z
Di [Pn , f ] = σn dµL e Ds [Pn , f ] = Σn dµL .
[a, b] [a, b]
Se f é integrável por Riemann então existe uma seqüência de partições P1 , P2 , P3 , . . ., com Pn+1
mais fina que Pn para todo n e tais que Di [Pn , f ] → ρ e Ds [Pn , f ] → ρ para algum ρ ∈ R. Esse ρ é,
Z b
por definição, a integral de Riemann de f em [a, b], ou seja, ρ = f (x)dx. Assim,
a
Z Z
lim σn dµL = lim Σn dµL = ρ ,
n→∞ [a, b] n→∞ [a, b]
e Z
lim (Σn − σn ) dµL = 0.
n→∞ [a, b]
Z Z Z
q dµL = lim qn dµL = lim inf qn dµL
[a, b] [a, b] n→∞ [a, b] n→∞
Z Z
≤ lim inf qn dµL = lim (Σn − σn ) dµL = 0.
n→∞ [a, b] n→∞ [a, b]
Como qn = Σn − σn ≥ 0 (certo?), segue pela Proposição 23.6, página 1150, que q = 0 µL -q.t.p. em
[a, b].
Como σn ≤ f ≤ Σn para todo n, segue que f = lim σn µL -q.t.p. em [a, b]. Como f é limitada,
n→∞
existe M > 0 tal que |f | < M. Mas isso implica também que |σn | < M pois, por (23.I.15), vale
n−1
X
n−1
X
|σn | ≤ inf f (y) χI ≤ M χIk = M .
y∈Ik k
k=1 k=1
R
A função constante igual a M é integrável em [a, b] (pois [a, b] M dµL = M(b − a) < ∞). Logo,
podemos aplicar o Teorema da Convergência Dominada, Teorema 23.6, página 1161, e concluir do fato
que f = limn→∞ σn que f é integrável e que,
Z Z Z b
f dµL = lim σn dµL = lim Di [Pn , f ] = ρ = f (x) dx .
[a, b] n→∞ [a, b] n→∞ a
provando a igualdade da integral de Riemann e a de Lebesgue no caso tratado. Isso encerra a prova
do Teorema 23.2.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 23 1188/1461
Prova do Teorema 23.3. (De [62], com aperfeiçoamentos). A prova que apresentamos requer o Teorema
da Convergência Monótona, tratado na Seção 23.3.4, página 1158.
Z n
Seja a integral de Riemann f (x) dx, a qual existe para todo para n ∈ N, por hipótese. Pelo
−n
Teorema 23.2, Z Z
n
f (x) dx = f dµL ,
−n [−n, n]
Agora, as funções fn = f χ[−n, n] são Borelianas, são não-negativas e formam uma seqüência não-
decrescente, pois fn ≤ fn+1 para todo n ∈ N, já que [−n, n] ⊂ [−(n + 1), n + 1]. Assim, podemos
aplicar o Teorema da Convergência Monótona, Teorema 23.4, página 1158, e obter
Z n Z Z Z
lim f (x) dx = lim fn dµL = lim fn dµL = f dµL . (23.I.16)
n→∞ −n n→∞ R R n→∞ R
Acima, o fato que limn→∞ fn (x) = f (x) para cada x ∈ R é conseqüência de que [−n, n] → (−∞, ∞)
quanto n → ∞.
R ∞ Assim, concluı́mos da igualdade em (23.I.16) que se f possuir uma integral R n de Riemann imprópria
f (x) dx (definida na Seção 23.2.1, página 1131), então o limite limn→∞ −n f (x) dx, existe e é igual
R∞
−∞ R
a −∞ f (x) dx ∈ R e, com isso concluı́mos que R f dµL é finita e, portanto, f é integrável no sentido
de Lebesgue (como f é não-negativa, é óbvio que f = |f |).
R
Por outro lado, se f for integrável Rno sentido de Lebesgue, então F := R f dµL < ∞ e, pela
n
igualdade em (23.I.16), o limite limn→∞ −n f (x) dx existe e é igual a F . Portanto, para qualquer ǫ > 0
existe n0 ≡ n0 (ǫ) ∈ N tal que Z n0
f (x) dx − F < ǫ. (23.I.17)
−n0
que F é um ponto limite desse reticulado, o qual, se existe, é único, pois R é um espaço Hausdorff
(vide Proposição 22.5, página 1105). Assim, pela definição
R da Seção 23.2.1, página 1131, f possui uma
integral de Riemann imprópria e essa é igual a F := R f dµL .
Prova do Teorema 23.7. Provaremos primeiro a desigualdade de Hölder e dela extrairemos a de Min-
kowski.
A prova da desigualdade de Hölder (23.40) segue os mesmos passos daquela do Teorema 17.2, página
17.2. Lembremos, em primeiro lugar a desigualdade demonstrada à página 978, que estabelece que
a b
a1/p b1/q ≤ + , (23.J.19)
p q
1 1
para a ≥ 0, b ≥ 0 e p e q ambos tais que 1 < p < ∞ e 1 < q < ∞, e que + = 1. Em (23.J.19), a
p q
igualdade se dá se e apenas se a = b.
R
Notemos primeiramente que no caso de termos M |f |p dµ = 0, a desigualdade (23.40) é automati-
camente satisfeita, pois valerá |f | = 0 µ-q.t.p. e, Rportanto, |f g| = 0 µ-q.t.p., o que implica
R que o lado
q p
esquerdo de (23.40) é nulo. O mesmo se dá caso M |g| dµ = 0. No caso de termos M |f | dµ = ∞ a
desigualdade em (23.40) e também trivial. Com isso, podemos supor que
Z Z
p
0 < |f | dµ < ∞ e 0 < |g|q dµ < ∞ .
M M
Para x ∈ M, tomemos
|f (x)|p |g(x)|q
a = Z e b = Z .
p q
|f | dµ |g| dµ
M M
R
Tomando a integral M (· · · ) dµ da expressão acima, tem-se
Z Z Z
p
|f ||g| dµ |f | dµ |g|q dµ
M 1 1 1 1
Z 1/p Z 1/q ≤ ZM + ZM = + = 1,
p q p q
|f |p dµ |g|q dµ |f |p dµ |g|q dµ
M M M M
Provemos
R agora a desigualdade
R deRMinkowski (23.41). O caso p = 1, é evidente, pois |f −g| ≤ |f |+|g|
implica M |f − g| dµ ≤ M |f | dµ + M |g| dµ. Podemos então tomar p > 1.
Comecemos observando que para p > 1 a função xp é convexa para x > 0. Logo,
p
|f | + |g| 1
≤ (|f |p + |g|p) .
2 2
como |f − g| ≤ |f | + |g|, segue que
p
|f − g| 1
≤ (|f |p + |g|p) . (23.J.20)
2 2
Disso concluı́mos que se f e g pertencem a Lp (M, dµ), então
f − g ∈ Lp (M, dµ) . (23.J.21)
R R R
Também de (23.J.20), extraı́mos que se M |f − g|p dµ = ∞ então R M
|f |p dµ + M |g|p dµ = ∞ e a
desigualdade de Minkowski (23.41) é satisfeita. Também no caso M |f − g|p dµ = 0 (23.41) é satisfeita,
pois aı́ o lado esquerdo de (23.41) é nulo. Podemos então supor
Z
0 < |f − g|p dµ < ∞ . (23.J.22)
M
Escrevamos agora
|f − g|p = |f − g| |f − g|p−1 ≤ (|f | + |g|) |f − g|p−1 = |f | |f − g|p−1 + |g| |f − g|p−1.
Isso diz-nos que
Z Z Z
p p−1
|f − g| dµ ≤ |f | |f − g| dµ + |g| |f − g|p−1 dµ . (23.J.23)
M M M
onde q é tal que 1/q + 1/p = 1, ou seja, q = p/(p − 1). Por isso, |f − g|(p−1)q = |f − g|p e a expressão
acima faz sentido por (23.J.21). Assim,
Z Z 1/p Z 1/q
p−1 p p
|f | |f − g| dµ ≤ |f | dµ |f − g| dµ .
M M M
e, analogamente
Z Z 1/p Z 1/q
p−1 p p
|g| |f − g| dµ ≤ |g| dµ |f − g| dµ .
M M M
Inserindo essas duas relações em (23.J.23), segue que
Z Z 1/p Z 1/p ! Z 1/q
p p p p
|f − g| dµ ≤ |f | dµ + |g| dµ |f − g| dµ .
M M M M
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 23 1191/1461
R 1/q
Como estamos sob a suposição (23.J.22), podemos dividir ambos os lados acima por M
|f − g|p dµ
e, como 1 − 1/q = 1/p, obtemos a desigualdade de Minkowski (23.41).
Prova do Corolário 23.3. Mostraremos que a desigualdade de Hölder generalizada (23.43) é conseqüência
do seu caso particular para r = 1, a desigualdade de Hölder (23.40), que suporemos válida.
Definindo-se p′ = p/r e q ′ = q/r, tem-se
1 1 r r
′
+ ′ = + = 1.
p q p q
Definindo-se F = |f |r , G = |g|r , valerá
Z Z Z Z
p′ q′
F dµ = |f |p dµ < ∞ e G dµ = |g|q dµ < ∞
M M M M
Z 1/p Z 1/q
p q
= f dµ g dµ
M M
Note que uma tal seqüência Nk sempre pode ser encontrada pois, por hipótese, fm é uma seqüência
de Cauchy em k · kp (basta tomar Nk := N(1/2k )). Vamos agora escolher uma seqüência crescente de
ı́ndices n1 < n2 < · · · < nk−1 < nk < · · · tais que nk > Nk para todo k. A essa seqüência está associada
a sub-seqüência {fnk }k∈N . Para simplificar a notação, denotaremos gk ≡ fnk , k = 1, 2, 3, . . .. Disso é
imediato que (23.K.24) vale, como querı́amos mostrar, pois nl e nl+1 são maiores que Nl .
Defina-se
k
X ∞
X
hk = |gl+1 − gl | e h = |gl+1 − gl | .
l=1 l=1
Pela desigualdade de Minkowski e por (23.K.24), vale para cada k que
X k Xk Xk
1
kgk kp = |gl+1 − gl | ≤ |gl+1 − gl |p ≤ .
l=1
l=1 l=1
2l
p
Logo, !p
Z Xk
1
gkp dµ ≤ .
M l=1
2l
Pelo Lema de Fatou, segue que
Z Z k
!p
p
X 1
lim inf gk dµ ≤ lim inf gkp dµ ≤ lim inf = 1.
M k→∞ k→∞ M k→∞
l=1
2l
Agora, como {gk } é uma seqüência não-decrescente, {gkp } também o é converge a g p . Logo, lim inf gkp =
k→∞
g p e concluı́mos que Z
g p dµ ≤ 1,
M
o que implica que kgkp ≤ 1. Disso segue que g(x) < ∞ µ-q.t.p.
Assim, provamos que a série
n
X
g1 (x) + (gl+1(x) − gl (x))
l=1
converge absolutamente para µ-q.t. x (ou seja, só não converge absolutamente em um conjunto de
medida µ nula). Note-se agora que
n−1
X
g1 (x) + (gl+1 (x) − gl (x)) = gn (x) .
l=1
Vamos denotar por G o conjunto dos x’s em M onde esse limite existe (como vimos µ(M \ G) = 0)
e definamos uma função f : M → C da seguinte forma:
lim gn (x), para x ∈ G
n→∞
f (x) := .
0, para x ∈ M \ G
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 23 1193/1461
Queremos provar que kf − fn kp → 0 para n → ∞, ou seja, que a função f definida acima é o limite em
Lp (M, dµ) da seqüência {fn }. Fixando ǫ > 0, sabemos que se m e n forem maiores que N(ǫ) valerá
kfn − fm kp < ǫ. Logo, o Lema de Fatou diz-nos que se m > N(ǫ),
Z Z Z
p
|f − fm | dµ ≤ p
lim inf |gl − fm | dµ ≤ lim inf |gl − fm |p dµ = lim inf (kgl − fm kp )p ≤ ǫp .
M M l→∞ l→∞ M l→∞
(23.K.25)
Isso provou que f − fm ∈ Lp (M, dµ). Como f = fm + (f − fm ), isso implica que f ∈ Lp (M, dµ), pois
Lp (M, dµ) é um espaço vetorial. Sem perda de generalidade, podemos tomar f ∈ Lp (M, dµ) também
(certo?). Ao mesmo tempo, (23.K.25) afirma que kf − fm k → 0 para m → ∞.
Assim, mostramos que a seqüência de Cauchy {fn } de Lp (M, dµ) possui um limite na norma k · kp
que é também elemento de Lp (M, dµ). Isso provou que Lp (M, dµ) é um espaço métrico completo na
norma de Lp (M, dµ), completando a demonstração.
Capı́tulo 24
Alguns Tópicos Especiais em Topologia e Análise
Conteúdo
24.1 Uma Coletânea de Definições . . . . . . . . . . . . . . . . . . . . . . . . . . 1194
24.2 Compacidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1200
24.2.1 Compacidade. Definições e Propriedades em Espaços Topológicos Gerais . . . 1200
24.2.2 Compacidade em Espaços Hausdorff . . . . . . . . . . . . . . . . . . . . . . . 1205
24.2.3 Compacidade em Espaços Métricos . . . . . . . . . . . . . . . . . . . . . . . . 1206
24.2.4 Compacidade em Rn . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1215
24.3 A Noção de Topologia Fraca . . . . . . . . . . . . . . . . . . . . . . . . . . . 1217
24.4 A Topologia Produto de Espaços Topológicos . . . . . . . . . . . . . . . . 1219
24.5 O Teorema da Categoria de Baire . . . . . . . . . . . . . . . . . . . . . . . 1220
O presente capı́tulo, o qual está ainda bastante incompleto, contém uma miscelânea de assun-
tos relacionados a espaços topológicos e suas aplicações. São aqui coletadas várias definições
e resultados empregados alhures nestas Notas. Devida à natureza do capı́tulo as diferen-
tes seções não estão necessariamente ligadas entre si e sua leitura pode ser feita de modo
independente.
• Conjuntos densos
1194
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 24 1195/1461
Um conjunto S ⊂ X é dito ser denso em parte alguma (em relação à topologia τ ) se seu fecho não
contiver nenhum aberto de τ . Em outras palavras, S é denso em parte alguma se o interior de seu
0 0
fecho S for vazio2 . Em sı́mbolos, S é dito ser denso em parte alguma se S = ∅.
Na topologia usual de R o conjunto dos racionais Q não é denso em parte alguma pois Q = R, que
obviamente possui um interior não vazio ((R)0 = R). O mesmo vale para os irracionais. Os inteiros Z
formam um conjunto denso em parte alguma.
Um conjunto não-finito T é dito ser denso em si mesmo (em relação à topologia τ ) se tiver a seguinte
propriedade: para todo t ∈ T vale que todo τ -aberto A que contém t contém também pontos de T
distintos de t. Uma definição alternativa é dizer que T é denso em si mesmo se todo ponto de T for
um ponto de acumulação de T .
Pode surpreender o estudante saber que há em R conjuntos fechados, densos em parte alguma e
densos em si mesmo (na topologia usual de R). Os exemplos mas proeminentes são os conjuntos de
Cantor tratados na Seção 21.2, página 1081. Vide também adiante.
• Conjuntos perfeitos
• Abertos densos
A proposição acima diz-nos intuitivamente que conjuntos abertos e densos são conjuntos topologica-
mente “grandes” dentro de X. Essa idéia é a raiz da noção de propriedade genérica, que apresentaremos
logo adiante.
Igualmente fácil de demonstrar é a seguinte proposição:
Proposição 24.2 Sejam X um conjunto não-vazio e τ uma topologia em X. Então, a coleção formada
pelos abertos densos em X e pelo conjunto vazio forma uma topologia em X. 2
Prova. X é um aberto denso, trivialmente. Uniões arbitrárias de abertos densos são também abertos e
densos, trivialmente. Por fim, pela Proposição 24.1, intersecções finitas de abertos e densos são abertos
e densos. 2
• Propriedades genéricas
Sejam X um conjunto não-vazio e τ uma topologia em X. Uma propriedade P é dita ser uma
propriedade genérica, ou válida genericamente, na topologia τ se for válida em um aberto denso em X.
Como, intuitivamente falando, abertos densos são subconjuntos topologicamente “grandes” de X,
uma propriedade genérica é uma propriedade válida em todo X, exceto em um conjunto topologica-
mente “pequeno”. Em situações em que se dispõe de uma topologia mas não de uma medida, a noção
de propriedade genérica substitui a noção de propriedade válida “quase em toda parte” em relação a
uma medida (ou seja, válida exceto em um conjunto de medida nula. Vide página 1080).
E. 24.1 Exercı́cio-Exemplo. Seja Mat (C, n) a álgebra das matrizes complexas n × n com a topologia
métrica usual definida pela norma operatorial (vide Capı́tulo 4, página 238). Mostre que a propriedade de
uma matriz ter todos os seus autovalores distintos é válida genericamente. 6
• Conjuntos desconexos
1. D ∩ A1 6= ∅ e D ∩ A2 6= ∅,
2. (D ∩ A1 ) ∩ (D ∩ A2 ) = ∅,
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 24 1197/1461
3. D = (D ∩ A1 ) ∪ (D ∩ A2 ).
Se D é desconexo, dizemos que um par de abertos A1 , A2 que satisfazem as três condições acima
desconectam D.
• Conjuntos conexos
Prova. A prova é feita por contradição. Vamos assumir que Kc não seja conexo e sejam dois abertos
A1 , A2 satisfazendo
Assim3 ,
(c)
Kc = [(Ka ∪ Kb ) ∩ A1 ] ∪ [(Ka ∪ Kb ) ∩ A2 ]
Ao mesmo tempo,
(b)
h i h i
∅ = (Kc ∩ A1 ) ∩ (Kc ∩ A2 ) = (Ka ∪ Kb ) ∩ A1 ∩ (Ka ∪ Kb ) ∩ A2
h i h i
= (Ka ∩ A1 ) ∪ (Kb ∩ A1 ) ∩ (Ka ∩ A2 ) ∪ (Kb ∩ A2 )
h i [ h i
= (Ka ∩ A1 ) ∩ (Ka ∩ A2 ) ∪ (Kb ∩ A2 ) (Kb ∩ A1 ) ∩ (Ka ∩ A2 ) ∪ (Kb ∩ A2 )
h i h i
= (Ka ∩ A1 ) ∩ (Ka ∩ A2 ) ∪ (Ka ∩ A1 ) ∩ (Kb ∩ A2 )
[ h i h i
(Kb ∩ A1 ) ∩ (Ka ∩ A2 ) ∪ (Kb ∩ A1 ) ∩ (Kb ∩ A2 ) (24.2)
3
Advertência ao estudante: as próximas passagens e o restante da demonstração usam abundantemente as proprie-
dades distributivas de uniões e intersecções de conjuntos. Vide Proposição 1.1, página 26.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 24 1198/1461
Notemos que se uma união B1 ∪ B2 ∪ B3 ∪ B4 é vazia, então cada Bj é vazio. De (24.2) concluı́mos,
então, que
(24.1) \
Ka = K a ∩ K c = Ka Ka ∩ (A1 ∪ A2 ) ∪ Kb ∩ (A1 ∪ A2 )
[
= Ka ∩ (A1 ∪ A2 ) (Ka ∩ Kb ) ∩ (A1 ∪ A2 ) . (24.7)
Ka ∩ A2 = ∅ e Kb ∩ A1 = ∅ .
De (24.8) segue que Ka = Ka ∩ A1 , o que significa que Ka ⊂ A1 . Sabemos, por hipótese, que Ka ∩ Kb
é não-vazio. Seja x ∈ Ka ∩ Kb . Como x ∈ Ka segue que x ∈ A1 . Mas isso contradiz Kb ∩ A1 = ∅,
pois x ∈ Kb . Chegamos assim a uma contradição que nos leva a concluir que Ka ∪ Kb é conexo se
Ka ∩ Kb 6= ∅.
• Componentes conexas
Seja como antes X um conjunto não-vazio com uma topologia τ . É trivial constatar que cada
conjunto {x} com x ∈ X, composto por um único elemento, é conexo.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 24 1199/1461
Se K ⊂ X podemos estabelecer uma relação de equivalência entre seus elementos da seguinte forma:
k, k ′ são equivalentes, k ∼ k ′ , se existir um subconjunto conexo de K que contém ambos. K se quebra,
assim, em uma união disjunta de classes de equivalência pela relação acima. Cada classe é dita ser uma
componente conexa de K.
Mostremos que o definido acima é, de fato, uma relação de equivalência em K. Que k ∼ k é
evidente. Que k ∼ k ′ implica k ′ ∼ k também é. Se k1 ∼ k2 e k2 ∼ k3 , sejam Ka ⊂ K e Kb ⊂ K
conexos tais que k1 , k2 ∈ Ka e k2 , k3 ∈ Kb . Então Kc = Ka ∪ Kb ⊂ K contém k1 e k3 (e também k2 )
e é conexo, pelo Teorema 24.1, página 1197.
Um conjunto T ⊂ X é dito ser totalmente desconexo se todas as suas componentes conexas tiverem
apenas um ponto.
• Conjuntos de Cantor
Um conjunto que em uma topologia métrica seja 1) totalmente desconexo, 2) compacto4 e 3) perfeito
é dito ser um conjunto de Cantor.
Exemplos de conjuntos de Cantor encontram-se na Seção 21.2, página 1081.
Seja R com a topologia τR . O conjunto A = (a, b) ∩ (c, d) com a < b ≤ c < d é desconexo, mas
não totalmente desconexo. Suas componentes conexas são (a, b) e (c, d). Todo sub-conjunto finito de
R é totalmente desconexo.
E. 24.6 Exercı́cio. O conjunto A0 dos números algébricos é desconexo como subconjunto de R com a
topologia τR ? É totalmente desconexo? 6
E. 24.7 Exercı́cio. O conjunto dos números transcendentes é desconexo como subconjunto de R com a
topologia τR ? É totalmente desconexo? 6
24.2 Compacidade
A noção geral de compacidade de conjuntos em espaços topológicos foi introduzida por Fréchet5 em
1906, abstraindo e generalizando diversas observações anteriores a respeito de subconjuntos fechados
e limitados da reta real. Desde sua introdução essa noção tornou-se um importante instrumento de
análise e nesta seção apresentamos os resultados mais importantes que dela decorrem.
Começaremos apresentando definições gerais e propriedades válidas em espaços topológicos gerais
e, gradualmente, nos especializaremos em espaços topológicos especı́ficos, como os espaços métricos e,
dentre esses, os espaços Rn com a métrica Euclidiana usual.
No que segue, se X é um conjunto não-vazio e τ uma topologia em X, dizemos que o par (X, τ ) é
um espaço topológico. Por abuso de linguagem, o próprio conjunto X é dito ser um espaço topológico
em relação à topologia τ .
• Recobrimentos
Seja X um conjunto não-vazio seja A ⊂ X. Uma coleção R ⊂ P(X), formada por subconjuntos
de X,Sé dita ser um recobrimento de A se a união de todos os seus elementos contiver A, ou seja, se
A ⊂ R∈R R.
Se R é um recobrimento de A, dizemos que R cobre A, ou que R recobre A.
Se τ é uma topologia em X e R é um recobrimento de A ⊂ X tal que todo elemento de R é um
elemento de τ , dizemos que R é um recobrimento de A por τ -abertos , ou simplesmente um recobrimento
de A por abertos.
Se R é um recobrimento de A por τ -abertos, então a cada R ∈ R vem associado um conjunto
5
Maurice René Fréchet (1878-1973).
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 24 1201/1461
R ∩ A que é elemento da topologia relativa τA induzida por τ em A (vide Seção 19.2.3, página 1044).
Claramente, a coleção de todos esses conjuntos R ∩ A com R ∈ R também cobre A. Assim, a cada
recobrimento R de A por τ -abertos vem associado um recobrimento RI de A por τA -abertos, a saber,
RI := {R ∩ A, R ∈ R} ⊂ τA . O recobrimento RI é denominado de recobrimento induzido em A pelo
recobrimento R.
Se τ é uma topologia em X, então τ é um recobrimento de X por τ -abertos (pois X ∈ τ ). Logo, X
possui ao menos um recobrimento por τ -abertos para qualquer topologia τ definida em X, na pior das
hipóteses aquela formada pela própria topologia τ .
Se R é um recobrimento de A, dizemos que S ⊂ R é um sub-recobrimento de A por R se S também
for um recobrimento de A. É claro que um sub-recobrimento de um recobrimento por abertos é também
um recobrimento por abertos.
Um recobrimento é dito ser finito se possuir um número finito de elementos.
Vamos a alguns exemplos ilustrativos dessas definições.
Seja X um conjunto não-vazio e τ uma topologia em X. O espaço topológico (X, τ ) é dito ser
um espaço topológico compacto se todo recobrimento de X por τ -abertos possui um sub-recobrimento
finito.
Seja X um conjunto não-vazio e τ uma topologia em X. Um conjunto A ⊂ X é dito ser um conjunto
τ -compacto, ou conjunto compacto em relação à topologia τ , se todo recobrimento de A por τ -abertos
possui um sub-recobrimento finito.
Fica claro que dizer que (X, τ ) é um espaço topológico compacto equivale a dizer que X é um
conjunto τ -compacto. Note também que dizer que A ⊂ X é τ -compacto equivale a dizer que (A, τA ) é
um espaço topológico compacto, onde τA é a topologia relativa induzida por τ em A (vide Seção 19.2.3,
página 1044).
Comentário sobre a nomenclatura. A definição de compacidade que apresentamos acima é pratica-
mente universal hoje em dia, mas há algumas exceções dignas de nota. Na escola Bourbaki conjuntos
compactos segundo a definição acima são denominados “quase-compactos” e, na escola russa, “bi-
compactos”, sendo que em ambas a palavra compacto é reservada para espaços Hausdorff compactos
(segundo nossa definição). O estudante deve, portanto, ter um certo cuidado ao comparar resultados
de textos diferentes.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 24 1202/1461
• Exemplos
Seja R com a topologia usual τR . Então, todo intervalo fechado [a, b] com −∞ < a ≤ b < ∞
é compacto. Com mais generalidade, todo subconjunto fechado e limitado de R é compacto.
Essas afirmações provem do importante Teorema de Heine-Borel, Teorema 24.9, página 1216, que
veremos adiante.
O teorema que segue é de grande importância por esclarecer de que forma a noção de compacidade
se relaciona com a de continuidade de funções.
Teorema 24.2 Sejam (X, τX ) e (Y, τY ) dois espaços topológicos e f : X → Y uma função contı́nua
em relação às topologias τX e τY . Então, se C ⊂ X é τX -compacto, sua imagem f (C) ⊂ Y é τY -
compacta. 2
Prova. Começamos com um pouco de notação. Seja Y ⊂ P(Y ) uma coleção de subconjuntos de
−1por f (Y) ⊂ P(X) −1
−1
Y . Denotamos a coleção das pré-imagens por f em X dos elementos de B:
−1
f (B) := f (B), B ∈ B , onde f (B) é a pré-imagem de B em X por f .
Seja B um recobrimento de f (C) por τY -abertos. Então f −1 (B) é uma coleção de τX -abertos (pois
f é contı́nua) que cobre C. Como C é τX -compacto, existe um sub-recobrimento finito de f −1 (B) que
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 24 1203/1461
cobre C: f −1 (B1 ), . . . , f −1 (Bn ) , com Bk ∈ B, k = 1, . . . , n. Isso implica que B1 , . . . , Bn ⊂ B
cobre f (C), provando que f (C) é τY -compacto.
Prova. Seja A uma coleção de τ -abertos que cobre F . Então, A ∪ {F c } é uma coleção de τ -abertos que
cobre C 6 . Sendo C τ -compacto, A∪{F c } possui um sub-recobrimento finito A1 = {A1 , . . . , An }, sendo
que um desses conjuntos Ak pode ser F c e os demais são elementos de A. Como esse sub-recobrimento
finito cobre C, deve possuir um subconjunto A2 (também finito, obviamente) que cobre F . Podemos
excluir F c de A2 , pois F c é disjunto de F . Portanto, A2 é composto apenas por uma coleção finita de
elementos de A. Isso provou que F é compacto.
Prova. Vamos supor que toda coleção F de subconjuntos τ -fechados de X que possua a propriedade
de intersecção
S finita possua uma intersecção não-vazia.
T Seja A um recobrimento de X por τ -abertos.
c
Então, A∈A A = X e, tomando complementos, A∈A A = ∅. Isso diz-nos que a coleção de τ -fechados
F := {Ac , A ∈ A} não pode possuir a propriedade de intersecção finita. Logo, existe uma coleção finita
Ac1 , . . . , Acn de elementos de F tal que Ac1 ∩ · · · ∩ Acn = ∅ e, tomando complementos, A1 ∪ · · · ∪ An = X.
Logo, A tem um sub-recobrimento finito, provando que (X, τ ) é um espaço topológico compacto.
Vamos agora, supor que X seja compacto e seja F uma coleção T de subconjuntos τ -fechados de X que
possua a propriedade S de intersecção finita. Suponhamos que F ∈F F = ∅. Tomando complementos,
segue disso que X = F ∈F F c . Isso diz que a coleção {F c , F ∈ F} é um recobrimento de X por τ -
abertos. Logo, como X é compacto, existe uma sub-coleção finita {F1c , . . . , Fnc } com F1 , . . . , Fn ∈ F,
que cobre X, ou seja, F1c ∪ · · · ∪ Fnc = X. Tomando novamente complementos, T concluı́mos que
F1 ∩ · · · ∩ Fn = ∅, contrariando a propriedade de intersecção finita. Logo, F ∈F F 6= ∅.
6
Aqui F c = X \ F , de modo que, em verdade, A ∪ {F c } cobre todo X, fato esse, ademais, irrelevante para o que
segue.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 24 1204/1461
Prova. Suponhamos que (X, τ ) seja compacto e seja {xλ }λ∈I um reticulado em X. Vamos supor que
{xλ }λ∈I não tenha nenhum sub-reticulado convergente. Pelo Teorema 22.1, página 1104, {xλ }λ∈I não
tem pontos de acumulação. Assim, para todo x ∈ X existe um aberto Ax contendo x e um λx ∈ I tais
que xλ 6∈ Ax para todo λ λx . O conjunto desses abertos Ax é um recobrimento de X por abertos e,
pela hipótese de compacidade, existe um recobrimento finito {Ax1 , . . . , Axn } de X por tais abertos.
Como I é um conjunto dirigido, existe λ′ λxk para todo k = 1, . . . , n. Logo, xλ′ 6∈ Axk para todo
k = 1, . . . , n, ou seja, xλ′ 6∈ X, um absurdo. Assim, devemos forçosamente concluir que {xλ }λ∈I tem
pontos de acumulação e, pelo Teorema 22.1, página 1104, tem um sub-reticulado convergente.
Vamos agora supor que todo reticulado em X tem um sub-reticulado convergente. Pelo Teorema
22.1, página 1104, isso equivale a supor que que todo reticulado em X tem um ponto de acumulação.
Supondo por absurdo que X não seja compacto, deve existir um recobrimento por abertos A de
X que não possui nenhum sub-recobriento finito. Usando A, vamos construir um reticulado em X da
seguinte forma: definimos o conjunto I como sendo a coleção de todas os subconjuntos finitos de P(A),
ou seja, I = {A1 , . . . , An }, Ak ∈ A, k = 1, . . . , n, n ∈ N . O conjunto I pode ser ordenado
por inclusão: {A1 , . . . , Am } {A′1 , . . . , A′n } significa {A1 , . . . , Am } ⊂ {A′1 , . . . , A′n }. É fácil ver
que essa relação de ordem faz de I um conjunto dirigido. Definimos um reticulado sobre I em X da
seginte forma: a cada λ = {A1 , . . . , An } ∈ I associamos livremente um xλ no conjunto complementar
de A1 ∪ · · · ∪ An , ou seja, x{A1 , ..., An } ∈ Ac1 ∩ · · · ∩ Acn . Note que o complementar de A1 ∪ · · · ∪ An nunca
é vazio pois, por hipótese, nenhuma subcoleção finita de A cobre X.
Pela hipótese {xλ }λ∈I tem um ponto de acumulação x ∈ X. Assim, se A é um aberto que contém
x, existe para todo {A1 , . . . , Am } ∈ I um {A′1 , . . . , A′n } ∈ I tal que {A′1 , . . . , A′n } ⊃ {A1 , . . . , Am }
e que x{A′1 , ..., A′n } ∈ A. Pela definição, x{A′1 , ..., A′n } ∈ (A′1 )c ∩ · · · ∩ (A′n )c ⊂ Ac1 ∩ · · · ∩ Acm . Portanto,
A∩Ac1 ∩· · ·∩Acm 6= ∅ para qualquer {A1 , . . . , Am } ∈ I e qualquer aberto A que contém x. Ora, como A
cobre X, existe um A ∈ A que contem x. Quando esse A pertence a uma coleção finita {A1 , . . . , Am }
a relação A ∩ Ac1 ∩ · · · ∩ Acm 6= ∅ é absurda, pois A ∩ Ac = ∅. Concluı́mos dessa contradição que X deve
ser compacto.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 24 1205/1461
Em outras palavras, esse lema afirma que em um espaço Hausdorff um compacto e um ponto no
seu complemento podem ser separados por abertos disjuntos.
Prova. Como H é do tipo Hausdorff, existe para cada c ∈ C um par de abertos disjuntos Dc e Ec
tais que c ∈ Dc e x ∈ Ec . Logo, D = {Dc , c ∈ C} é um recobrimento de C por abertos e, por
C ser compacto, D possui um sub-recobrimento finito: {Dc1 , . . . , Dcn }. Correspondentes a esses n
abertos Dc1 , . . . , Dcn são os abertos Ec1 , . . . , Ecn , respectivamente, os quais contêm x e satisfazem
Dck ∩ Eck = ∅ para cada k = 1, . . . , n. Note-se agora que A2 := Ec1 ∩ · · · ∩ Ecn é um aberto que contém
x e, para cada k, vale
Dck ∩ A2 = Dck ∩ Ec1 ∩ · · · ∩ Ecn = ∅ , (24.10)
pois Dck ∩ Eck = ∅. Segue de (24.10) que o aberto A1 := Dc1 ∪ · · · ∪ Dcn satisfaz A1 ∩ A2 = ∅ e cobre
C. Isso completa a demonstração.
O Lema 24.1 tem o seguinte corolário, que mencionamos aqui para futura referência no contexto do
estudo de separabilidade de conjuntos em espaços Hausdorff
Corolário 24.1 Seja (H, τ ) um espaço topológico Hausdorff. Se C1 , C2 ⊂ H são dois conjuntos
τ -compactos e disjuntos, então existem τ -abertos B1 e B2 tais que C1 ⊂ B1 , C2 ⊂ B2 mas B1 ∩ B2 = ∅.
2
Em outras palavras, esse corolário afirma que em um espaço Hausdorff dois compactos disjuntos
podem ser separados por abertos disjuntos.
Prova. A prova segue passos semelhantes dos da demonstração do Lema 24.1. Dado c ∈ C1 , existem,
pelo Lema 24.1 τ -abertos disjuntos Dc e Ec tais que c ∈ Dc e C2 ⊂ Ec . A coleção de τ -abertos
D = {Dc , c ∈ C1 } cobre C1 e, por esse ser τ -compacto, existe uma sub-coleção finita Dc1 , . . . , Dcn que
também cobre C1 . Associada a essa está a coleção Ec1 , . . . , Ecn de abertos que contém C2 e satisfazem
Dck ∩ Eck = ∅ para cada k = 1, . . . , n. Definindo B2 = Ec1 ∩ · · · ∩ Ecn , temos que B2 é aberto e contém
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 24 1206/1461
pois Dck ∩ Eck = ∅. Definindo, B1 = Dc1 ∪ · · · ∪ Dcn , teremos que B1 é aberto, contém C1 e, devido a
(24.11), B1 ∩ B2 = ∅.
Prova. Se C = H não há o que provar, pois H é τ -fechado. Seja, portanto, C c não-vazio. O Lema
24.1, página
S 1205, diz-nos que C c possui um recobrimento
S A por τ -abertos que são disjuntos de C:
c
C ⊂ A∈A A e C ∩ A = ∅ para todo A ∈ A. Se B := A∈A A, vale, portanto, B ∩ C = ∅, pois B é uma
união de conjuntos disjuntos de C. Logo, como H = C ∪ C c , segue que B = B ∩ H = B ∩ (C ∪ C c ) =
(B ∩ C) ∪ (B ∩ C c ) = B ∩ C c = C c . Essa igualdade C c = B diz-nos que C c é τ -aberto, pois B é uma
união de τ -abertos. Portanto, C é τ -fechado.
Prova. A afirmação segue diretamente da Proposição 24.3, página 1203 e do Teorema 24.5, página
1206.
Seja (M, d) um espaço métrico. Um conjunto A ⊂ M é dito ser um conjunto limitado em relação à
métrica d, ou um conjunto d-limitado, se diam(A) := sup{d(x, y), x, y ∈ A} < ∞. Por razões óbvias,
diam(A) é dito ser o diâmetro de A.
Proposição 24.5 Seja (M, d) um espaço métrico. Um conjunto A ⊂ M é limitado se e somente se
seu fecho A o for e vale diam(A) = diam(A). 2
pois d(xn , ym ) ≤ diam(A), já que xn , ym ∈ A. Assim, d(x, y) < 2ǫ + diam(A). Como isso vale para
todo ǫ > 0 concluı́mos que d(x, y) ≤ diam(A) para todos x, y ∈ A, provando que A é limitado e que
diam(A) ≤ diam(A). Como A ⊂ A, vale trivialmente que diam(A) ≤ diam(A).
Seja (M, d) um espaço métrico. A ⊂ M é dito ser um conjunto relativamente compacto se A for
compacto.
Na Proposição 24.10, página 1216, demonstraremos que todo conjunto limitado em Rn é pré-
compacto. As proposições que seguem estabelecem alguns fatos sobre a noção de pré-compacidade
e serão usadas adiante.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 24 1208/1461
Prova. Vamos supor que A seja pré-compacto. Se A também não fosse pré-compacto existiria r0 > 0 tal
que para cada conjunto finito B = {bj }nj=1 ⊂ A podemos encontrar um a ∈ A tal que d(a, {bj }nj=1 ) ≥ r0 .
Por outro lado, como A é pré-compacto, existe um conjunto finito C = {cj }m
j=1 ⊂ A tal que
r0
d(x, {cj }m
j=1 ) < para todo x ∈ A , (24.12)
2
com o mesmo r0 de acima. Assim, tomando em particular B = C (lembrar que C ⊂ A ⊂ A), concluı́mos
da hipótese que A não é pré-compacto que podemos encontrar um a ∈ A tal que
d a, {cj }m
j=1 ≥ r0 . (24.13)
Agora, como a pertence ao fecho de A, existe uma seqüência {xj }j∈N ⊂ A que converge a a. Isso
significa que para todo ǫ > 0 existe N(ǫ) tal que d(xk , a) < ǫ para todo k > N(ǫ). Seja j > N(ǫ) fixo
e seja cp o elemento de C mais próximo de xj e, portanto, tal que d(cp , xj ) < r0 /2 (por (24.12), com
x = xj ). Então,
r0
d(a, cp ) ≤ d(a, xj ) + d(xj , cp ) < ǫ + .
2
Tomando ǫ < r0 /2, obtemos d(a, cp ) < r0 , contrariando (24.13) e provando que A tem de ser pré-
compacto.
Vamos agora supor que A seja pré-compacto. Se A também não fosse pré-compacto existiria
n
para cada conjunto finito B = {bj }j=1 ⊂ A podemos encontrar um a ∈ A tal que
r0 > 0 tal que
n
d a, {bj }j=1 ≥ r0 .
Como A é pré-compacto, existe um conjunto finito {aj }m m
j=1 ⊂ A tal que d(x, {aj }j=1 ) < r0 /2 para
todo x ∈ A, pois A ⊂ A.
Como {aj }mj=1 ⊂ A, existe para cada ǫ > 0 e para cada aj um ponto bj ∈ A tal que d(aj , bj ) < ǫ.
Portanto, para esse conjunto {bj }m
j=1 ⊂ A, existe a ∈ A tal que
d a, {bj }nj=1 ≥ r0 . (24.14)
r0
d(a, bk ) ≤ d(a, ak ) + d(ak , bk ) < +ǫ.
2
Escolhendo ǫ < r0 /2 obtemos d(a, bk ) < r0 , contrariando (24.14) e provando que A tem de ser pré-
compacto.
Prova. Se A é pré-compacto e r > 0, então existe um conjunto finito α = {a1 , . . . , am } ⊂ A tal que
as bolas Bd (ak , r), k = 1, . . . , m, cobrem A. Sejam x e y ∈ A. Vamos supor que x pertença à bola
Bd (ak1 , r) e y pertença à bola Bd (ak2 , r). Então
onde Dα := max{d(ai , aj ), i, j = 1, . . . , m}. Isso provou que diam(A) < 2r + Dα , mostrando que A
é limitado.
A recı́proca dessa proposição nem sempre é verdadeira em um espaço métrico geral. Uma exceção
importante são os espaços Rn na topologia usual, onde todo conjunto limitado é pré-compacto. Isso é
provado na Proposição 24.10, página 1216.
O teorema que segue reune as definições de acima, estabelecendo resultados fundamentais sobre
compacidade em espaços métricos.
Teorema 24.6 Seja (M, d) um espaço métrico e seja τd a topologia induzida em M pela métrica d.
Seja A ⊂ M.
1. A é d-compacto.
2. A é seqüencialmente compacto na métrica d.
3. A é pré-compacto e completo na métrica d.
III. Se (M, d) é um espaço métrico completo então, se A for pré-compacto seu fecho A em τd é
compacto, ou seja, A é relativamente compacto.
IV. Se (M, d) é um espaço métrico completo então A é compacto se e somente se A for pré-compacto
e fechado em τd .
V. Se (M, d) é um espaço métrico completo e valer a propriedade que todo conjunto d-limitado é
pré-compacto, então A é compacto se e somente se for fechado em τd e d-limitado. 2
Notas. Antes de apresentarmos a demonstração desse importante teorema, façamos alguns comentários
pertinentes.
a. Deve-se enfatizar o fato de os itens I e II valerem em espaços métricos gerais, mas os itens III,
IV e V valerem apenas em espaços métricos completos. Vale lembrar aqui que completeza não é
uma propriedade topológica, como comentado à página 959.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 24 1210/1461
b. A recı́proca da parte II, acima, nem sempre é verdadeira em espaços métricos, mesmo completos.
Vide Exemplo 24.4, página 1212. No entanto, na condição IV indica-se condições suficientes para
que uma recı́proca valha: M deve ser completo e todo conjunto limitado deve ser pré-compacto.
Incidentalmente, essa condição é satisfeita em Rn com a topologia usual. Logo, um conjunto é
compacto em Rn na topologia usual se e somente se for fechado e limitado. Esse é o conteúdo do
importante Teorema de Heine-Borel, Teorema 24.9, que apresentaremos na página 1216.
c. O Teorema 24.6 contém a afirmação que um conjunto é compacto em um espaço métrico se e
somente se for pré-compacto e completo (parte I). Essa propriedade é, por vezes, denominada
propriedade de Heine-Borel de espaços métricos, por generalizar o já mencionado Teorema de
Heine-Borel de Rn , Teorema 24.9, página 1216.
d. O Teorema 24.6 contém a afirmação que um conjunto é compacto em um espaço métrico completo
se e somente se for fechado e limitado (parte V). Essas propriedade é, por vezes, denominada pro-
priedade de Heine-Borel de espaços métricos completos, por generalizar o já mencionado Teorema
de Heine-Borel de Rn , Teorema 24.9, página 1216.
e. O Teorema 24.6 contém a afirmação que em um espaço métrico um conjunto é compacto se e
somente se for seqüencialmente compacto (parte I daquele teorema). Essa afirmação é por vezes
denominada propriedade de Bolzano-Weierstrass de espaços métricos. Associada a ela está o
Teorema de Bolzano-Weierstrass dos espaços Rn , Teorema 24.10, que veremos à página 1217.
A é compacto, Bx possui um subconjunto finito {Bd (x, r1 ), . . . , Bd (x, rn ))} que também cobre A.
Logo, A ⊂ Bd (x, r1 ) ∪ · · · ∪ Bd (x, rn ) = Bd (x, r∗ ), onde r∗ = max{r1 , . . . , rn }. Isso provou que o
diâmetro de A é finito e menor que 2r∗ .
Que A é também fechado segue do Teorema 24.5, página 1206, que se aplica aqui pois todo espaço
métrico é Hausdorff (Proposição 22.1, página 1101).
Prova da parte III. Se A é pré-compacto então, pela Proposição 24.6, página 1208, A também o é.
Pela Proposição 19.9, página 1054, A é também completo. Logo, pelo Teorema 24.6, página 1209, A é
compacto.
Prova da parte IV. Pela Proposição 19.9, página 1054, se A é fechado se e somente se for completo.
Assim, A será pré-compacto e completo o que, pela parte I, equivale a A ser compacto.
Prova da parte V. Se A é fechado e limitado então, pelas hipóteses, A é fechado e pré-compacto e, por
IV, isso equivale a A ser compacto.
Exemplo 24.4 Seja H um espaço de Hilbert separável de dimensão infinita e com a topologia induzida
pela norma. A bola fechada de raio 1 centrada na origem, B1 := {ψ ∈ H, kψk ≤ 1} é fechada e limitada
em H. Seja {ψ
√n }n∈N uma base ortonormal em H. Como kψn k = 1, tem-se {ψn }n∈N ⊂ B1 . Porém, como
kψa − ψb k = 2 para todos a 6= b, conclui-se que a seqüência {ψn }n∈N não tem nenhuma subseqüência
convergente em norma. Assim, B1 não é seqüencialmente compacta e, portanto, não é compacta. ◊
De grande importância é o fato que toda função contı́nua entre espaços métricos definida em um
espaço métrico compacto é uniformemente contı́nua (Teorema 24.7, abaixo). Esse fato é uma das
conseqüências mais importantes da noção de compacidade e é empregado em diversas demonstrações
importantes, por exemplo, nas demonstrações da Seção 27.1, página 1394, nas demonstrações da Seção
27.2, página 1400. Antes de demonstrá-lo tratemos de apresentar uma caracterização equivalente da
noção de continuidade uniforme.
Proposição 24.8 Sejam M1 e M2 dois espaços métricos dotados de métricas d1 e d2 , respectivamente.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 24 1213/1461
Prova. Vamos supor que para todas as seqüências xn e yn em M1 para as quais tenhamos lim d1 (xn , yn ) =
n→∞
0 valha lim d2 (f (xn ), f (yn )) = 0. Se f não é uniformemente contı́nua, então existe ǫ > 0 tal que para
n→∞
nenhum δ > 0 a condição d1 (x, y) < δ implica d2 (f (x), f (y)) < ǫ. Assim, em particular, para
cada n > 0 podemos encontrar dois pontos xn e yn em M1 tais que se d1 (xn , yn ) < 1/n então
d2 (f (xn ), f (yn )) ≥ ǫ. Assim, para esse par de seqüências xn e yn em M1 teremos lim d1 (xn , yn ) = 0,
n→∞
mas lim d2 (f (xn ), f (yn )) ≥ ǫ > 0. Essa contradição mostra que f deve ser uniformemente contı́nua.
n→∞
Vamos agora supor que f seja uniformemente contı́nua e sejam xn e yn duas seqüências em M1 tais
que lim d1 (xn , yn ) = 0. Como f é uniformemente contı́nua existe para todo ǫ > 0 um δ(ǫ) > 0 tal
n→∞
que se xn e yn satisfizerem d1 (xn , yn ) < δ(ǫ) então d2 (f (xn ), f (yn )) < ǫ. Como lim d1 (xn , yn ) =
n→∞
0, existe N(δ(ǫ)) tal que d1 (xn , yn ) < δ(ǫ) sempre que n > N(δ(ǫ)). Concluı́mos que para todo
ǫ > 0 existe N(δ(ǫ)) tal que para todo n > N(δ(ǫ)) vale d2 (f (xn ), f (yn )) < ǫ. Isso provou que
lim d2 (f (xn ), f (yn )) = 0.
n→∞
Prova. Vamos supor que f não seja uniformemente contı́nua. Então, pela Proposição 24.8, existe um
par de seqüências xn e yn em M1 para as quais temos lim d1 (xn , yn ) = 0 mas lim d2 (f (xn ), f (yn )) 6= 0.
n→∞ n→∞
Deve, portanto, existir um ǫ > 0 tal que d2 (f (xn ), f (yn )) ≥ ǫ para infinitos n’s. Assim, existem duas
sub-seqüências ak e bk de xn e yn , respectivamente, tais que d2 (f (ak ), f (bk )) ≥ ǫ para todo k. Como
M1 é compacto, cada uma dessas sub-seqüências possui uma sub-seqüência convergente (pela item 2
da parte I do Teorema 24.6, página 1209), que denotaremos por al e bl , respectivamente, cujos limites
são a e b, respectivamente. Naturamente, vale também
d2 f (al ), f (bl ) ≥ ǫ (24.15)
para todo l. Notemos, porém, que como lim d1 xn , yn = 0, vale também que lim d1 al , bl ) = 0,
n→∞ l→∞
pois al e bl são subseqüências de xn e yn , respectivamente. Assim, temos que
d1 a, b ≤ d1 a, al + d1 al , bl + d1 bl , b
e tomando o limite l → ∞ o lado direito vai a zero, pois a = lim al e b = lim bl . Isso provou que
l→∞ l→∞
d1 a, b = 0, ou seja, que a = b.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 24 1214/1461
d2 f (al ), f (bl ) ≤ d2 f (al ), f (a) + d2 f (a), f (b) + d2 f (b), f (bl )
f (a)=f (b)
= d2 f (al ), f (a) + d2 f (b), f (bl ) .
Como f é contı́nua, valem lim d2 (f (al ), f (a)) = 0 e lim d2 (f (bl ), f (b)) = 0. Logo, concluı́mos pela
l→∞ l→∞
desigualdade acima que lim d2 (f (al ), f (bl )) = 0, contrariando (24.15). Essa contradição estabelece
l→∞
que f é uniformemente contı́nua.
Prova. Pela continuidade uniforme de f , para cada ǫ > 0 existe δ(ǫ) > 0 tal que d2 (f (x), f (y)) < ǫ
sempre que d1 (x, y) < δ(ǫ). Como xn é uma seqüência de Cauchy, existe N(δ(ǫ)) tal que d1 (xn , xm ) <
δ(ǫ) para todos n, m > N(δ(ǫ)). Logo, para n, m > N(δ(ǫ)) vale d2 (f (xn ), f (xm )) < ǫ, provando que
f (xn ) é uma seqüência de Cauchy em M2 em relação à métrica d2 .
Prova. O primeiro passo é definir f. ˜ Depois provaremos que a mesma é uniformemente contı́nua.
Como D = M1 , existe para cada ponto x ∈ M1 uma seqüência xn de elementos de D que converge a
x (Proposição 19.8, página 1053). Como a seqüência xn é convergente, é também uma seqüência de
Cauchy. Logo, f (xn ) é, pela Proposição 24.9, uma seqüência de Cauchy em M2 na métrica d2 . Como
M2 é completo na métrica d2 , f (xn ) converge a um ponto z ∈ M2 . Se yn fosse uma outra seqüência em
D que converge a x valeria
d1 (xn , yn ) ≤ d1 (xn , x) + d1 (x, yn )
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 24 1215/1461
de onde segue que lim d1 (xn , yn ) = 0 pois, por hipótese, lim d1 (xn , x) = 0 e lim d1 (x, yn ) = 0.
n→∞ n→∞ n→∞
Logo, pela Proposição 24.9 segue que lim d2 (f (xn ), f (yn )) = 0. Como
n→∞
24.2.4 Compacidade em Rn
Nesta seção reunimos alguns dos teoremas mais relevantes concernentes à propriedade de compacidade
em espaços Rn , n ∈ N, n ≥ 1. Estaremos usando implicitamente o fato n
p de que cada R é um espaço
métrico completo em relação à métrica Euclidiana usual dE (x, y) := (y1 − x1 )2 + · · · + (yn − xn )2 .
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 24 1216/1461
• Pré-compacidade em Rn
Prova. Pela Proposição 24.7, página 1208, basta demonstrar que todo conjunto limitado de Rn é pré-
compacto. Defina-se, para t > 0 o conjunto R(t) ⊂ Rn cujas componentes sejam da forma k/t com
k ∈ Z:
1 n k1 kn
R(t) := k, k ∈ Z = , ..., , kj ∈ Z, j = 1, . . . , n .
t t t
√
É fácil ver geometricamente que cada ponto de Rn dista, na métrica dE , √ no máximo t n/2 de algum
ponto de R(t). Assim, a coleção de todas as bolas abertas de raio t(1 + n/2) centradas nos pontos
de R(t) cobrem Rn . Isso equivale a dizer que, para cada r √ > 0, a coleção de todas as bolas abertas de
raio r centradas nos pontos de R(t(r)), com t(r) = r/(1 + n/2), cobrem Rn .
Se A é limitado, há uma coleção finita de bolas de raio r/2 centradas em pontos de R(t(r/2)) que
cobrem A. Sejam B(x1 , r/2), . . . , B(xm , r/2), com xk ∈ R(t(r/2)) para cada k, a menor coleção de
bolas que cobrem A e tem intersecção não-vazia com A. Como cada bola B(xk , r/2) tem intersecção
não-vazia com A, podemos escolher, para cada k, um ponto ak ∈ A ∩ B(xk , r/2). Agora, a bola de
raio r centrada em ak contém a bola B(xk , r/2), logo, a coleção de bolas B(ak , r), k = 1, . . . , m,
cobre A, estabelecendo a pré-compacidade de A.
• O Teorema de Heine-Borel em Rn
Como já comentamos, a recı́proca da parte II do Teorema 24.6, página 1209, nem sempre é ver-
dadeira em espaços métricos. No entanto, no caso especı́fico de Rn essa recı́proca é válida devido à
Proposição 24.10, página 1216. Esse é o conteúdo do importante Teorema de Heine7 -Borel8 :
Teorema 24.9 (Teorema de Heine-Borel em Rn ) Um conjunto em Rn é compacto em relação à
topologia métrica usual de Rn se e somente se for fechado e limitado. 2
Prova. M = Rn é completo na métrica dE . Pela Proposição 24.10, página 1216, todo conjunto dE -
limitado é pré-compacto em Rn . Logo, o Teorema 24.9 é uma conseqüência imediata da parte V do
Teorema 24.6, página 1209.
• O Teorema de Bolzano-Weierstrass em Rn
Prova. Se uma seqüência é limitada em Rn , então está contida em uma bola fechada de raio suficien-
temente grande centrada, digamos, na origem. Essa bola, sendo fechada e limitada, é compacta, pela
parte V do Teorema 24.6, página 1209. Assim, pelo item 2 da parte I do mesmo teorema, a seqüência
tem uma subseqüência convergente.
O seguinte teorema de aparência elementar tem várias conseqüências não-triviais, sendo freqüente-
mente evocado.
Teorema 24.11 Seja (C, τ ) um espaço topológico compacto e f : C → R uma função contı́nua
(adotando em R a topologia usual τR ). Então f assume em C um valor máximo e um valor mı́nimo,
ou seja, existem xmax e xmin ∈ C (não necessáriamente únicos) tais que f (xmax ) = max{f (x), x ∈ C}
e f (xmin ) = min{f (x), x ∈ C}. 2
Prova. Pelo Teorema 24.2, página 1202, a imagem de f é um conjunto τR -compacto e, portanto, pela
Proposição 24.11, página 1216, a imagem de f tem um máximo e um mı́nimo.
Prova. Em primeiro lugar é claro que toda função de F é contı́nua na topologia τ [D] pois a imagem
inversa de qualquer aberto por uma função de F está (por definição) em D e, portanto, em τ [D]. Assim,
estabelecemos que τ (X, F) ⊂ τ [D], posto ser τ (X, F) a intersecção de todas as topologias onde todas
as funções de F são contı́nuas. Vamos mostrar que D ⊂ τ (X, F), o que implica que τ [D] ⊂ τ (X, F),
estabelecendo a igualdade τ (X, F) = τ [D]. A prova que D ⊂ τ (X, F) é feita por absurdo. Vamos
supor que exista um conjunto A na coleção D que não seja elemento da topologia fraca τ (X, F). Sejam
porém Ua aberto de Ya e fa função de F tais que A = fa−1 (Ua ). Como A 6∈ τ (X, F), a função fa não
é contı́nua na topologia fraca pois a imagem inversa do aberto Ua de Ya por fa não é um aberto nessa
topologia. Isso contradiz a definição da topologia fraca e, portanto, D ⊂ τ (X, F).
É útil também lembrar um resultado que provamos quando definimos o conceito de base de uma
topologia (página 1042): a coleção DI formada por intersecções finitas de elementos de D, X e ∅ é uma
base de τ [D] e, portanto, da topologia fraca.
Exemplo. Para o leitor familiarizado com o conceito de operador limitado em um espaço de Hilbert
considere-se o seguinte exemplo. Seja X = B(H) a coleção de todos os operadores limitados em um
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 24 1219/1461
espaço de Hilbert H. Como sabemos X é um espaço de Banach com a norma operatorial kAk =
kAψk
sup . Essa norma define em B(H) uma topologia que é chamada de topologia uniforme (ou
ψ∈H, ψ6=0 kψk
usual) de B(H).
Seja Y = C e seja a seguinte famı́lia de funções X → Y : E = {fx, y : X → Y, fx, y (A) =
(x, Ay), com x, y ∈ H}. Ou seja, E é a coleção de todas as funções que associam a cada operador
limitado A o número complexo (x, Ay) com vetores x, y ∈ H. Cada função é assim indexada por um
par de vetores x e y ∈ H.
Define-se a topologia operatorial fraca em B(H) como sendo a menor topologia para a qual toda
função de E é contı́nua. Esta topologia é mais fraca que a topologia uniforme.
Q
topologia τα . Seja B∞ ⊂ B coleção de todos os subconjuntos de X que sejam da forma α∈Λ Aα onde
Aα ∈ τα , e onde apenas para um número finito de fatores tenhamos Aα 6= Xα . Então a topologia
gerada por B, τ [B], é a chamada “box product topology” dos espaços topológicos Xa , τa , enquanto que a
topologia gerada por B∞ , τ [B∞ ], é idêntica à topologia produto de Tychonov. É claro pelas definições
que τ [B∞ ] ⊂ τ [B].
Notemos que no caso de produtos finitos B∞ = B e, portanto, a “box product topology” e a
topologia produto de Tychonov coincidem.
Mostremos que a topologia produto de Tychonov é de fato τ [B∞ ]. Se Aα ∈ τα ,
Y
πα−1 (Aα ) = Sγ
γ∈Λ
Conforme observamos na seção 24.3, página 1217, a topologia gerada por D é a menor topologia na qual
todas as funções πα são contı́nuas. Assim, a topologia produto de Tychonov é idêntica a τ [D]. Sabemos
também de considerações gerais (vide página 1042) que o conjunto DI formado por intersecções finitas
de elementos de D é uma base em τ [D] e Q que τ [D] = τ [DI ] (vide discussão à página 1042). Ora, os
elementos de DI são produtos de abertos γ∈Λ Aγ onde apenas uma coleção finita de Aγ ’s difere de
Xγ (por que?), ou seja, DI = B∞ , provando que τ [D] = τ [DI ] = τ [B∞ ].
Prova. Seja M um espaço métrico completo em relação a uma métrica d e seja Suma alguma famı́lia
contável de conjuntos Nn ⊂ M, todos densos em parte alguma e tais que M = n∈N Nn . A S prova é
feita por contradição, exibindo-se um elemento x que pertence a M mas que não pertence a n∈N Nn .
Façamos em primeiro lugar algumas observações básicas que serão usadas repetidamente no que
segue. Como os conjuntos Nn são densos em parte alguma, seus fechos Nn não podem ser iguais a
M, pois M é aberto. Logo os abertos (Nn )c = M \ Nn são todos não-vazios. Fora isso, para qualquer
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 24 1221/1461
bola aberta não-vazia B devemos ter também B ∩ (Nn )c 6= ∅, pois se tivéssemos B ∩ (Nn )c = ∅ isso
implicaria B ⊂ Nn , contrariando a hipótese que Nn interior vazio.
SComo dissemos, a estratégia da prova é exibir um elemento x que pertence a M mas que não pertence
a n∈N Nn . Esse elemento x será construı́do como limite de uma seqüência de Cauchy conveniente,
explorando o fato de M ser completo.
Passemos à construção da seqüência de Cauchy. Como (N1 )c 6= ∅, tomemos um elemento x1
arbitrário de (N1 )c . Como (N1 )c é aberto existe uma bola B1 (r1 , x1 ) centrada em x1 e de raio r1
suficientemente pequeno inteiramente contida em (N1 )c . É claro que B1 (r1 , x1 ) ∩ N1 = ∅ e que
x1 6∈ N1 .
Analogamente, como (N2 )c é aberto e não-vazio, tem-se que B1 (r1 , x1 ) ∩ (N2 )c 6= ∅. Escolhe-
mos então x2 ∈ B1 (r1 , x1 ) ∩ (N2 )c e tomemos uma bola B2 (r2 , x2 ) inteiramente contida no aberto
B1 (r1 , x1 ) ∩ (N2 )c . Sem perda, podemos escolher r2 satisfazendo r2 < r1 /2 e tal que B2 (r2 , x2 ) ⊂
B1 (r1 , x1 ). Note-se também que B2 (r2 , x2 ) ∩ N2 = ∅ e, como B2 (r2 , x2 ) ⊂ B1 (r1 , x1 ), vale também
que B2 (r2 , x2 ) ∩ N1 = ∅. Em resumo, B2 (r2 , x2 ) ∩ (N1 ∪ N2 ) = ∅. e x2 6∈ N1 ∪ N2 .
Podemos agora proceder indutivamente. Para n > 2, (Nn )c é aberto e não-vazio, tem-se que
Bn−1 (rn−1 , xn−1 ) ∩ (Nn )c 6= ∅. Escolhemos então xn ∈ Bn−1 (rn−1 , xn−1 ) ∩ (Nn )c e tomemos uma bola
Bn (rn , xn ) inteiramente contida no aberto Bn−1 (rn−1 , xn−1 ) ∩ (Nn )c . Sem perda, podemos escolher
rn satisfazendo rn < rn−1 /2 < 21−n r1 e tal que Bn (rn , xn ) ⊂ Bn−1 (rn−1 , xn−1 ). Note-se também que
Bn (rn , xn ) ∩ Nn = ∅ e, como Bn (rn , xn ) ⊂ Bn−1 (rn−1 , xn−1 ), vale também que Bn (rn , xn ) ∩ Nn−1 = ∅.
Em resumo, Bn (rn , xn ) ∩ (N1 ∪ · · · ∪ Nn ) = ∅. e xn 6∈ N1 ∪ · · · ∪ Nn .
A seqüência xn é uma seqüência de Cauchy pois (para m < n),
n−m−1
X
d(xm , xn ) ≤ d(xm+i , xm+i+1 )
i=0
pela desigualdade triangular (por que?) e como xn ∈ Bn−1 (rn−1 , xn−1 ), segue que d(xm+i , xm+i+1 ) ≤
rm+i < 21−m−i r1 . Logo,
n−m−1
X ∞
X
d(xm , xn ) ≤ 2 1−m−i
r1 < 2 1−m
r1 2−i = 22−m r1
i=0 i=0
Análise Funcional
1222
Capı́tulo 25
Noções Básicas Sobre Espaços de Hilbert
Conteúdo
25.1 Aspectos Topológicos Básicos de Espaços de Hilbert . . . . . . . . . . . . 1224
25.2 Aspectos Geométricos Básicos de Espaços de Hilbert . . . . . . . . . . . . 1225
25.2.1 Bases Ortonormais Completas em Espaços de Hilbert . . . . . . . . . . . . . 1230
25.3 Funcionais Lineares e o Dual Topológico de um Espaço de Hilbert . . . . 1244
25.3.1 O Teorema da Representação de Riesz . . . . . . . . . . . . . . . . . . . . . . 1245
d(u, v) = ku − vk =
p
hu − v, u − vi, u, v ∈ H . (25.1)
Advertimos o estudante que dentre as propriedades definidoras de espaços de Hilbert destaca-se não
apenas a existência de um produto escalar, mas também a propriedade de completeza, sem a qual
muitas propriedades geométricas desses espaços não seriam válidas. Vide adiante.
As noções de espaços de Banach e de Hilbert foram introduzidas na Seção 17.4, página 962. Sobre
a origem da noção abstrata de Espaço de Hilbert, vide nota histórica à página 963.
Espaços de Hilbert desempenham um papel fundamental em toda a Fı́sica Quântica2 e em várias
áreas da Matemática. Historicamente sua importância na Fı́sica Quântica foi apontada por diversos
autores, mas foi especialmente von Neumann3 quem mais claramente destacou sua relevência para a
própria interpretação probabilı́stica daquelas teorias fı́sicas4 . Exemplos de espaços de Hilbert são os
espaços de dimensão finita Cn , o espaço ℓ2 , das seqüências de quadrado somável, estudado na Seção
17.4.1, página 964, e os espaços L2 (M, dµ), das funções de quadrado integrável em relação a uma
medida µ definida em um espaço mensurável M. Esses espaços foram estudados na Seção 23.4, página
1164.
Para a leitura deste capı́tulo uma certa familiaridade com a noção de produto escalar e de norma é
necessária, assim como é necessário conhecer a desigualdade de Cauchy-Schwarz. O conceito de produto
escalar foi apresentado na Seção 2.2.3, página 123, a desigualdade de Cauchy-Schwarz foi demonstrada
no Teorema 2.6, página 121 e o conceito de norma foi introduzido na Seção 2.3, página 128.
1
David Hilbert (1862-1943).
2
Há um dito corrente (e anônimo) que a Mecânica Quântica é uma agradável introdução ao estudo dos espaços de
Hilbert...
3
John von Neumann (1903-1957).
4
Nota histórica. Dois dos trabalhos seminais de von Neumann a respeito são: J. von Neumann, “Über die Grundlagen
der Quantenmechanik”, Mathematische Annalen, 98, 1-30 (1927) e J. von Neumann, “Allgemeine Eigenwerttheorie
Hermiteschen Funktionaloperatoren”, Mathematische Annalen, 102, 49-131 (1929). Vide também [110].
1223
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 25 1224/1461
Nas primeiras seções deste capı́tulo estudamos aspéctos topológicos e geométricos gerais de espaços
de Hilbert, chegando à importante noção de base ortogonal completa. Na Seção 25.3, página 1244,
somos apresentados ao importante Teorema da Representação de Riesz, Teorema 25.8, página 1246,
que afirma que todo espaço de Hilbert pode ser identificado com seu dual topológico, ou seja, com o
conjunto de seus funcionais lineares e contı́nuos.
Vamos ilustrar os conceitos acima mostrando um simples resultado do qual faremos uso adiante.
Seja E um subespaço de um espaço de Hilbert H. Vamos mostrar que seu fecho E é também um
sub-espaço de H. Para isso devemos mostrar que se x, y ∈ E, então qualquer vetor de H que seja
da forma z = αx + βy, com α, β ∈ C, é também elemento de E. Se x e y ∈ E, então existem duas
seqüências xi e yi , i ∈ N, de vetores de E tais que xi → x e yi → y. Como E é um subespaço, todos
os vetores zi = αxi + βyi são também elementos de E. É fácil, porém, mostrar que zi → z. De fato
Agora, por hipótese, tanto kx − xi k quanto ky − yi k vão a zero quando i → ∞, mostrando que zi → z.
Isso mostra, então, que elementos como z são pontos limite de seqüências de elementos de E (no caso
{zi }i∈N ) e, portanto, pertencem também ao fecho de E que é, portanto, um subespaço de H.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 25 1225/1461
Se a e b são dois vetores de um espaço vetorial normado V (como um espaço de Hilbert, por
exemplo), então vale que
ka − bk − kbk ≤ kak . (25.2)
Para mostrar isso, notemos que a relação ka − bk ≤ kak + kbk implica kak ≥ ka − bk − kbk. Com
a substituição b → a − b, tiramos também que kak ≥ kbk − ka − bk. As duas desigualdades dizem que
kak ≥ | ka − bk − kbk |, como querı́amos provar.
De acordo com a definição de continuidade de funções entre espaços métricos (vide discussão à
página 1116) uma função f : H → C, de um espaço de Hilbert H nos números complexos é contı́nua
se para toda seqüência convergente de vetores {xi }i∈N a seqüência de números {f (xi )}i∈N for também
convergente e
lim f (xn ) = f lim xn .
n→∞ n→∞
Um exemplo banal de uma tal função contı́nua é a norma f (x) = kxk. De fato, se xn → x,
isso significa que kxi − xk → 0. Logo |f (x) − f (xi )| = |kxk − kxi k|. Mas, pela desigualdade (25.2),
tomando-se a = x − xi e b = −xi , concluı́mos
|f (x) − f (xi )| ≤ kx − xi k ,
• Conjuntos convexos
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 25 1226/1461
Seja V um espaço de vetorial (sobre os reais ou complexos). Uma combinação linear de dois vetores
x e y ∈ V que seja do tipo λx + (1 − λ)y com λ ∈ [0, 1] é dita ser uma combinação linear convexa de
x e y. Um conjunto A ⊂ V é dito ser um conjunto convexo se para todo x, y ∈ A e todo λ ∈ [0, 1] o
vetor λx + (1 − λ)y também for elemento de A.
Note-se que qualquer subespaço de V é também um conjunto convexo.
1
Usando agora o fato que kx − yn k2 < D2 + n
para todo n , ficamos com
2
1 1
y m + y n
2
kym − yn k ≤ 4D + 2 2
+ − 4
x −
.
n m 2
ou seja,
2
y + y′
′ 2 2
ky − y k = 4D − k2x − (y + y )k = 4D − 4
x − ′
.
2 2
2
y+y ′
Como 2
∈ A, por ser uma combinação linear convexa, segue que
′
2
y + y
x −
≥ D2
2
e, portanto,
ky − y ′ k2 ≤ 0 ,
o que só é possı́vel se y = y ′ .
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 25 1228/1461
• Complementos ortogonais
para todo z ∈ E, o que mostra que αx + βy ∈ E ⊥ . Que E ⊥ é um conjunto fechado segue do seguinte
argumento. Se xn é uma seqüência de elementos de E ⊥ que converge a um x ∈ H, então, para todo
z ∈ E vale D E
hx, zi = lim xn , z = lim hxn , zi = 0 , (25.4)
n→∞ n→∞
pois hxn , zi = 0 para todo n, já que xn ∈ E ⊥ . Isso prova que x ∈ E ⊥ , que é assim, fechado. Na
penúltima igualdade em (25.4) usamos a continuidade do produto escalar.
O teorema do melhor aproximante que apresentamos acima tem uma conseqüência importante.
Como todo sub-espaço linear de um espaço de Hilbert é convexo, segue que sub-espaços lineares fechados
satisfazem as hipóteses do teorema. Assim, se M é um sub-espaço linear fechado de um espaço de Hilbert
H vale para todo x ∈ H que existe um y ∈ M único tal que
kx − yk = inf
′
kx − y ′ k .
y ∈M
Usaremos esse fato para demonstrar o seguinte teorema, de importância central na teoria dos espaços
de Hilbert:
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 25 1229/1461
Prova. Vamos escolher y como o elemento de M tal que kx − yk = inf y′ ∈M kx − y ′ k, cuja existência foi
garantida pelo Teorema 25.1, página 1226. Se definirmos z = x − y tudo que nos restaria fazer é provar
que z ∈ M⊥ e que tais y e z são únicos. Vamos provar primeiro que z ∈ M⊥ , o que equivale a provar
que hz, y ′i = 0 para todo y ′ ∈ M. Isso é feito indiretamente, observando primeiro que, pela definição
de y, vale que
kx − yk2 ≤ kx − y − λy ′k2
para todo λ ∈ C e todo y ′ ∈ M, já que y + λy ′ ∈ M, pois M é um subespaço. Essa última relação diz,
pela definição de z, que
kzk2 ≤ kz − λy ′k2
para todo λ ∈ C. Escrevendo o lado direito como hz − λy ′, z − λy ′ i e expandindo, teremos
ou seja,
2Re(λhz, y ′ i) ≤ |λ|2ky ′k2 . (25.5)
Agora, como todo número complexo, hz, y ′i é da forma hz, y ′i = |hz, y ′ i|eiα , para algum α real. Como
(25.5) vale para todo λ ∈ C, vale em particular para λ da forma λ = te−iα , onde escolhemos t > 0.
Inserindo esse λ em (25.5), a mesma fica
ou seja,
t ′ 2
|hz, y ′ i| ≤
ky k ,
2
desigualdade esta que vale para todo t > 0. Ora, isso só é possı́vel se o lado esquerdo é nulo: |hz, y ′i| =
0. Como y ′ é um elemento arbitrário de M, isso demonstra que z ∈ M⊥ , como querı́amos.
Demonstrar a unicidade da escolha de y e z é bem fácil. Suponha que também possamos escrever
x = y ′ + z ′ com y ′ ∈ M e z ′ ∈ M⊥ . Terı́amos y + z = y ′ + z ′ , ou seja, y − y ′ = z ′ − z. Agora, o lado
esquerdo é um elemento de M, enquanto que o lado direito é um elemento de M⊥ (por que?). Porém,
o único elemento que M e M⊥ podem ter em comum é o vetor nulo (por que?), o que implica y = y ′ e
z = z′ .
Como hy, zi = 0 (pois y ∈ E e z ∈ (E)⊥ ), segue que kzk2 = hx, zi. Queremos agora provar que esse
produto escalar é nulo, o que implica z = 0.
⊥
Como E ⊂ E segue pelo Lema 25.1, página 1228, que E ⊂ E ⊥ . Logo z ∈ E ⊥ . Como x ∈ (E ⊥ )⊥ ,
segue imediatamente que x e z são perpendiculares, completando a prova.
• Conjuntos ortonormais
en = 0, . . . , 0, 1, 0, . . . , n≥1.
| {z }
n−1
No espaço de Hilbert L2 ([−1, 1], dx) um conjunto ortonormal é formado pelos polinômios de Legendre
(normalizados) ( )
r
2n + 1
en (x) = Pn (x), n ∈ N ,
2
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 25 1231/1461
pois, como é bem sabido, valem para os polinômios de Legendre5 Pn (x), definidos por
[n/2]
1 dn 2 X (−1)k (2n − 2k)!
n
Pn (x) = n (x − 1) = xn−2k
2 n! dxn 2n k!(n − k)!(n − 2k)!
k=0
as relações Z 1
2
δn, m .
Pn (x)Pm (x) dx =
−1 2n + 1
No espaço de Hilbert L2 (R, dx), de particular importância para a Mecânica Quântica, há vários
conjuntos ortonormais bem-conhecidos, como por exemplo
( )
1 2
−x /2
en (x) = p √ Hn (x) e , n∈N ,
m
2 m! π
onde Hn são os polinômios de Hermite6
2 dn −x2
Hn (x) = (−1)n ex e ,
dxn
os quais satisfazem Z ∞ √
2
Hm (x) Hn (x) e−x dx = 2m m! π δm n .
−∞
Para mais propriedades das funções mencionadas acima, vide Capı́tulo 9, página 503.
Há espaços de Hilbert onde, em contraste com os exemplos de acima, existem conjuntos ortonor-
mais não-contáveis de vetores. Um exemplo importante é o espaço AP (R), das funções ditas almost-
periódicas em R. Sem entrarmos em detalhes (para um tratamento completo, vide e.g. [79] e [27]), são
denominadas almost-periódicas as funções f : R → C que podem ser escritas como limites uniformes
de séries trigonométricas como X
f (t) = fn eiωn t , t ∈ R , (25.7)
n∈Z
são periódicas de perı́odo 2π/ω e a série do lado direito é a série de Fourier7 de f . Se a série do lado
direito converge uniformemente, f é contı́nua (justifique!). Assim, AP (R) contém as funções contı́nuas
e periódicas. O conjunto AP (R) contém também funções não-periódicas. Por exemplo, funções como
f (t) = 2 cos(ω1 t) + 2 cos(ω2 t) = eiω1 t + e−iω1 t + eiω2 t + e−iω2 t , ω1 > 0 e ω2 > 0 , (25.8)
5
Adrien-Marie Legendre (1752-1833).
6
Charles Hermite (1822-1901).
7
Jean Baptiste Joseph Fourier (1768-1830).
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 25 1232/1461
são elementos de AP (R), mas são periódicas se e somente se a razão ω2 /ω1 for um número racional.
Se ω2 /ω1 for racional da forma ω2 /ω1 = p/q com p e q inteiros e primos entre si, então a f dada acima
é periódica de perı́odo T = 2πp/ω2 = 2πq/ω1 .
E. 25.1 Exercı́cio. Justifique todas as afirmações acima. Em particular, prove que a função f de (25.8)
não é periódica se ω2 /ω1 for irracional. 6
E. 25.2 Exercı́cio. Mostre que heα , eα iAP = 1 para todo α ∈ R e que heα , eβ iAP = 0 para todos
α, β ∈ R com α 6= β. 6
Nota histórica. A teoria das funções “almost”-periódicas reais foi originalmente desenvolvida por
H. Bohr , irmão de N. Bohr10 , em vários trabalhos publicados entre 1924 e 1926. H. Bohr, porém,
9
menciona dois predecessores: Bohl11 , em tese publicada em 1893, e Esclangon12 , em tese de 1904, os
quais obtiveram resultados semelhantes sobre as funções ditas “quase-periódicas”, um caso especial das
funções almost-periódicas estudadas por H. Bohr. Os trabalhos de H. Bohr podem ser encontradas
na edição em três volumes [14] de suas obras completas. Bohr não conhecia previamente os trabalhos
8
Em Português seria mais adequado dizer “quase-periódicas”. Porém, essa nomenclatura é usada em várias lı́nguas
para designar um certo sub-conjunto de funções de AP (R). Por isso optamos pelo barbarismo “almost-periódicas”.
9
Harald August Bohr (1887-1951).
10
Niels Henrik David Bohr (1885-1962).
11
Piers Bohl (1865-1921).
12
Ernest B. Esclangon (1876-1954).
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 25 1233/1461
anteriores de Bohl e Esclangon sobre as funções quase-periódicas e menciona ter sido chamado à atenção
sobre existência dos mesmos por Hadamard13 . H. Bohr distinguiu-se também pelo desenvolvimento
da teoria das funções “almost”-periódicas de uma variável complexa. O conceito foi posteriormente
generalizado por von Neumann14 para funções definidas em grupos. Para definições e alguns resultados
nesse caso geral, vide [155].
• O Teorema de Pitágoras
Prova.
2 * n +
Xn
X n
X n X
X n n
X
λ e
a a
= λ e
a a , λ e
b b = λ λ he
a b a , eb i = |λa |2 ,
a=1 a=1 b=1 a=1 b=1 a=1
A proposição acima é denominada Teorema de Pitágoras15 por ser uma óbvia generalização do bem
conhecido teorema da geometria plana.
Exploraremos aqui uma conseqüência do Teorema de Pitágoras da qual faremos uso adiante. Trata-
se de uma condição necessária e suficiente para que certas seqüências formadas por combinações lineares
de elementos de um conjunto ortonormal contável de um espaço de Hilbert H sejam convergentes,
seqüências estas muito comummente encontradas na Mecânica Quântica e outras aplicações da teoria
dos espaços de Hilbert.
Proposição 25.4 Seja H um espaço de Hilbert e {en , n ∈ N} um conjunto ortonormal contável em
H. Então, uma seqüência de vetores
n
X
sn = λa ea , n∈N,
a=1
converge em H se e somente se
∞
X
|λa |2 < ∞ .
a=1
13
Jacques Salomon Hadamard (1865-1963).
14
John von Neumann (1903-1957).
15
Pitágoras de Samos (ci. 569 A.C. - ci. 475 A.C.).
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 25 1234/1461
Prova. Se sn converge é uma seqüência de Cauchy. Isso significa que para todo ǫ > 0 existe N(ǫ) tal
que para todo m e n maiores que N(ǫ) tem-se ksm − sn k ≤ ǫ. Vamos supor sem perda de generalidade
que m < n. Pelo Teorema de Pitágoras
n
2
X
Xn
2
ksm − sn k =
λa ea
= |λa |2 = |lm − ln | , (25.11)
a=m+1
a=m+1
onde n
X
ln = |λa |2 .
a=1
2
Concluı́mos que |lm −ln | ≤ ǫ para todo m e n maiores que N(ǫ), ou seja, ln é uma seqüência de Cauchy
de números reais e que, portanto, converge. Assim,
∞
X
|λa |2 < ∞ .
a=1
P
Vamos mostrar a recı́proca. Se ∞ 2
a=1 |λa | < ∞, então ln é limitada superiormente e, por ser uma
seqüência monotonamente crescente, converge (por que?). Assim, ln é uma seqüência de Cauchy. A
mesma identidade (25.11) nos diz, então, que sn é uma seqüência de Cauchy em H e, portanto, converge
a um vetor de H.
Prova. Seja {xi }i∈N uma seqüência de elementos de E que converge a x ∈ H. Cada xi é da forma
n
X
i
x = λia ea .
a=1
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 25 1235/1461
Vamos provar que para cada a a seqüência {λia }i∈N é uma seqüência de Cauchy de números complexos.
Se {xi }i∈N é convergente, então é uma seqüência de Cauchy. Logo, para todo ǫ > 0 existe N(ǫ) tal que
kxi − xj k ≤ ǫ para todos i, j ≥ N(ǫ). Assim, para i, j ≥ N(ǫ)
2
Xn
n
X
2 i j 2
i j
ǫ ≥ kx − x k =
(λa − λa )ea
= |λia − λja |2 .
a=1 a=1
Mas isso diz que para i, j ≥ N(ǫ) tem-se para cada a |λia −λja | ≤ ǫ, ou seja, {λia }i∈N é uma seqüência de
Cauchy de números complexos. Assim, cada uma dessas seqüências converge a um número complexo
λa . Seja
Xn
′
x = λa ea .
a=1
Claramente x é um elemento de E. Vamos mostrar que, na verdade, x′ = x. Para tal basta mostrar
′
que xi converge a x′ e lembrar a unicidade de pontos limite em espaços métricos, como um espaço de
Hilbert (vide Corolário 22.1, página 1101). Mostrar que xi converge a x′ é trivial, pois
2
X n
Xn
i ′ 2
i
kx − x k =
(λa − λa )ea
= |λia − λa |2
a=1 a=1
e como λia → λa o lado direito fica arbitrariamente pequeno quando i → ∞. Logo xi → x′ e, portanto,
x′ = x.
• A desigualdade de Bessel
Vamos estudar algumas propriedades de conjuntos ortonormais finitos ou contáveis, a mais impor-
tante sendo a desigualdade de Bessel16 , à qual chegaremos adiante.
Proposição 25.6 Seja E = {e1 , . . . , en } um conjunto ortonormal finito de um espaço de Hilbert H
e sejam λ1 , . . . , λn números complexos. Então, para todo x ∈ H vale que
2
X n
X n n
X
2 2
x − λa ea
= kxk + |λa − hea , xi| − |hea , xi|2 . (25.12)
a=1 a=1 a=1
16
Friedrich Wilhelm Bessel (1784-1846).
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 25 1236/1461
Prova.
2 * +
n
X
n
X n
X
x − λa ea
= x− λa ea , x − λb eb
a=1 a=1 b=1
2
n
X n
X
X n
= kxk2 − λb hx, eb i − λa hea , xi +
λa ea
a=1
a=1
b=1
n
X
2
= kxk + −λa hea , xi − λa hea , xi + |λa |2
a=1
n
X n
X
2 2 2
= kxk + |hea , xi| − λa hea , xi − λa hea , xi + |λa | − |hea , xi|2
a=1 a=1
n
X n
X
2
= kxk + (λa − hea , xi) (λa − hea , xi) − |hea , xi|2
a=1 a=1
n
X n
X
2 2
= kxk + |λa − hea , xi| − |hea , xi|2 . (25.13)
a=1 a=1
Já vimos acima (página 1234) que o subespaço E gerado por um conjunto ortonormal finito E =
{e1 , . . . , en } é fechado. Vale, portanto, o teorema do melhor aproximante: para todo x ∈ H existe
um y ∈ E tal que a distância kx − yk é a mı́nima possı́vel. Se y ′ ∈ E, y ′ é da forma
n
X
′
y = λa ea .
a=1
Logo,
n
X n
X
kx − y ′k2 = kxk2 + |λa − hea , xi|2 − |hea , xi|2 .
a=1 a=1
É evidente que o lado direito assume seu valor mı́nimo quando λa = hea , xi para todo a entre 1 e n,
ou seja,
Xn
y = hea , xiea , (25.14)
a=1
e n
X
D 2 = inf
′
kx − y ′k2 = kx − yk2 = kxk2 − |hea , xi|2 . (25.15)
y ∈E
a=1
ou seja, para todo x ∈ H e para todo conjunto ortonormal finito E = {e1 , . . . , en } vale
n
X
|hea , xi|2 ≤ kxk2 . (25.16)
a=1
Estas duas últimas desigualdades são conhecidas como desigualdades de Bessel. Como veremos em
breve, as mesmas desempenham um papel importante.
Prova. A demonstração faz uso do Lema de Kuratowski-Zorn (vide página 37). Seja E a coleção de
todos os conjuntos ortonormais de um espaço de Hilbert H. Podemos introduzir em E uma ordem
parcial, denotada por “”, dizendo que E1 E2 se E1 ⊂ E2 , para dois conjuntos ortonormais E1 e E2 .
Seja {Eα , α ∈ Λ} um conjunto linearmente ordenado em E pela relação de ordem acima. Isso
significa que ou Eα ⊂ Eβ ou Eβ ⊂ Eα para quaisquer α, β ∈ Λ.
Esse conjunto {Eα , α ∈ Λ} possui um majorante em E, a saber, o conjunto ortogonal obtido
tomando-se a união de todos os Eα : [
Eα .
α∈Λ
S
E. 25.4 Exercı́cio. Por que razão α∈Λ Eα é também um conjunto ortonormal? 6
Assim, concluı́mos que em E, com a relação de ordem dada acima, vale sempre que qualquer conjunto
linearmente ordenado possui um majorante em E. Ora, essas são precisamente as hipóteses do Lema de
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 25 1238/1461
A importância das bases ortonormais completas reside no fato que todo vetor de um espaço de
Hilbert pode ser escrito como limite de seqüências de vetores obtidos por combinações lineares finitas
de elementos de uma base ortonormal completa. Tornaremos isso preciso em breve. Façamos antes
porém a seguinte observação crucial:
Teorema 25.4 Seja B uma base ortonormal completa de um espaço de Hilbert H. Para cada y ∈ H,
o conjunto de todos os eα ∈ B tais que heα , yi =
6 0 é um conjunto contável. 2
Note-se que não está excluı́do que a a base B, no enunciado acima, possa ser não-contável.
Prova. Comecemos lembrando que se {eα1 , . . . , eαm } é um subconjunto finito da base B, então a
desigualdade de Bessel diz que
m
X
|heαa , yi|2 ≤ kyk2 . (25.18)
a=1
É claro que para cada y ∈ H a base B pode ser escrita como a seguinte união disjunta:
B = Z y ∪ By (25.19)
com
Z y := eα ∈ B| heα , yi = 0 e B y := eα ∈ B| heα , yi =
6 0 .
É igualmente claro que podemos escrever B y como
∞
[
By = Bny , (25.20)
n=1
onde, para n = 1, 2, . . .,
kyk 2
kyk 2
Bny = eα ∈ B |heα , yi| ∈
2
, .
n+1 n
E. 25.5 Exercı́cio. Convença-se que (25.19) é verdadeira e que aquela união é disjunta, assim como a
união em (25.20). 6
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 25 1239/1461
Desejamos mostrar que B y é um conjunto contável. A observação crucial é que cada Bny é um
conjunto finito. De fato, podemos facilmente mostrar que cada Bny tem no máximo n elementos.
Mostramos isso por contradição com a desigualdade de Bessel (25.18). Vamos supor que houvesse em
Bny mais que n elementos e tomemos em Bny um conjunto {eα1 , . . . , eαn+1 } com n + 1 elementos. Como
todos são elementos de Bny , tem-se que
kyk2
|heαa , yi|2 >
n+1
para todo a = 1, . . . , n + 1. Logo
n+1
X kyk2
|heαa , yi|2 > (n + 1) = kyk2 ,
a=1
n+1
contrariando a desigualdade de Bessel (25.18). Assim, cada Bny pode ter no máximo n elementos.
S
Isso nos diz que B y = ∞ y
n=1 Bn é um conjunto contável (eventualmente até finito), completando a
demonstração.
Chegamos agora ao resultado mais importante sobre bases ortogonais completas e que é a verdadeira
razão de ser de sua definição.
Teorema 25.5 Seja y um vetor de um espaço de Hilbert H e B uma base ortonormal completa em
H. Como vimos acima, o subconjunto de B definido por B y = {eα ∈ B| heα , yi =6 0} é um conjunto
y
contável. Vamos escrever os elementos de B como eαa com a ∈ N. Então, vale que
Xn
y = lim heαa , yi eαa (25.21)
n→∞
a=1
e que
∞
X
2
kyk = |heαa , yi|2 . (25.22)
a=1
2
A expressão (25.22) pode ser interpretada como uma generalização to Teorema de Pitágoras para
dimensão infinita.
= heαk , yi
= heα , yi . (25.23)
Logo,
heα , y − y ′i = heα , yi − heα , y ′i = heα , yi − heα , yi = 0 .
No caso 2) temos
* n
+
X
heα , y ′i = eα , lim heαa , yi eαa
n→∞
a=1
n
X
= lim heαa , yi heα , eαa i
n→∞
a=1
= 0, (25.24)
Em ambos os casos o resultado é zero, ou seja, heα , y − y ′ i = 0 para todo eα ∈ B. Pela definição de
B como base ortonormal completa, o único vetor ortogonal a todos os elementos de B é o vetor nulo.
Logo y = y ′.
n
X
Por (25.14), o vetor mais próximo de y no subespaço gerado por {eα1 , . . . , eαn } é heαa , yieαa .
a=1
Segue de (25.15) que
2
n
X
n
X
2
y − heαa , yieαa ,
= kyk − |heαa , yi|2 .
a=1 a=1
Tomando-se o limite n → ∞ o lado esquerdo vai a zero como vimos e, portanto, concluı́mos que
∞
X
2
kyk = |heαa , yi|2 .
a=1
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 25 1241/1461
a soma é realizada em elementos de B y que, para cada y, é um conjunto contável. Mas B y depende
de y e assim, para y’s diferentes comparecem conjuntos diferentes de vetores eα ∈ B na soma. Isso é
importante no caso de a base B ser não-contável. Se B for contável podemos fazer a soma sobre todos
os elementos de B pois os elementos de Z y não contribuem.
Apesar de termos demonstrado que todo espaço de Hilbert possui uma base ortonormal completa,
demonstrar que um conjunto ortonormal B dado concretamente é uma base ortonormal completa pode
ser um problema envolvente que requer um trabalho cuidadoso de análise. Tal é o caso, por exemplo,
do conjunto ortonormal (25.6) do espaço de Hilbert L2 ([0, 2π]). É bem sabido, e fácil de se verificar,
einx
que o conjunto (contável) de vetores {en (x) = √ 2π
, n ∈ Z} é um conjunto ortonormal. Demonstrar
que é completo, porém, envolve mais trabalho e requer uso do teorema do qual trataremos no próximo
tópico abaixo, que discute caracterizações alternativas do conceito de base ortonormal completa. Para
a demonstração de completeza de alguns conjuntos ortonormais de funções especiais de interesse, vide
Seção 9.3, página 569.
Prova. Que 1 implica 2 e que 1 implica 3 já foi demonstrado acima (Teorema 25.5, página 1239).
Vamos mostrar que 3 implica 1.
A demonstração é feita supondo que 3 vale e que 1 não vale e mostrando que isso leva a um absurdo.
Se B não é uma base ortonormal completa, então existe um vetor x ∈ H não-nulo que é ortogonal a
todo elemento de B, ou seja, heα , xi = 0 para todo eα ∈ B. Por 3, isso implica que
X
kxk2 = |heα , xi|2 = 0 ,
eα ∈B x
uma contradição.
Por fim, mostremos que 2 implica 1.
A demonstração é feita supondo que 2 vale e que 1 não vale e mostrando que isso leva a um absurdo.
Se B não é uma base ortonormal completa, então existe um vetor x ∈ H não-nulo que é ortogonal a
todo elemento de B, ou seja, heα , xi = 0 para todo eα ∈ B. Então, o conjunto {x}⊥ é um subespaço
linear fechado que contém B e span (B) (por que?). Como span (B) é, por definição, o menor fechado
que contém span (B), vale também que span (B) ⊂ {x}⊥ . Como {x}⊥ é um subconjunto próprio de H
(pois não contém x nem o subespaço gerado por x), concluı́mos que span (B) é um subconjunto próprio
de H, uma contradição com a hipótese que 2 é verdadeiro.
que converge a zero para m → ∞. Isso significa que para todo A ⊂ H vale spanQ (A) ⊃ span (A) e,
conseqüentemente, spanQ (A) ⊃ span (A). No entanto, como spanQ (A) ⊂ span (A), vale também que
spanQ (A) ⊂ span (A). Logo, spanQ (A) = span (A).
Assim, pelo Teorema 25.6, concluı́mos que B ⊂ H é uma base ortonormal completa se e somente
se spanQ (B) = H.
Se A ⊂ H for contável, é muito fácil ver que spanQ (A) é também contável (por ser uma união
contável de conjuntos contáveis). Logo, se B for uma base ortonormal completa contável, o conjunto
spanQ (B) é um conjunto contável denso em H. Concluı́mos disso que H será um espaço topológico
separável se possuir uma base ortonormal completa contável.
A recı́proca é também verdadeira: se um espaço de Hilbert H for um espaço topológico separável,
então toda base ortonormal completa de H é contável. Para ver isso, vamos supor que H seja separável
e seja D ⊂ H contável e denso em H: D = H. Seja também B uma base ortonormal completa em H.
Notemos que [
BD := Bx
x∈D
é contável, por ser uma união contável de conjuntos contáveis (pois D é contável, assim como cada
B x , pelo Teorema 25.4, página 1238.). Pelo Teorema 25.5, página 1239, cada x ∈ D é um elemento
de span (B x ). Concluı́mos disso que D ⊂ span (BD ). Logo, como D é denso em H, segue que H =
span (BD ). Agora, BD é um conjunto ortonormal (por ser subconjunto de B). Logo, concluı́mos pelo
Teorema 25.6 que BD é uma base ortonormal completa.
Disso concluı́mos também que B = BD , pois se BD fosse um sub-conjunto próprio de B haveria
v ∈ B, v 6= 0, que não pertence a BD . Como B é um conjunto ortonormal, segue que v é ortogonal
a todos os elementos de BD . Isso contraria o fato provado que BD é uma base ortonormal completa.
Vimos então que toda base ortonormal completa de um espaço de Hilbert separável deve ser contável.
Resumimos nossas conclusões no seguinte:
Proposição 25.7 Se um espaço de Hilbert H possui uma base ortonormal completa contável então
é um espaço topológico separável (ou seja, possui um sub-conjunto contável denso). Por outro lado,
se um um espaço de Hilbert H for separável, então todas as suas bases ortonormais completas são
contáveis. 2
Prova. Seja C um conjunto ortonormal não-contável de H. Se C for uma base ortonormal completa
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 25 1244/1461
não há o que provar. Se não o for, podemos acrescentar elementos a C pertencentes a C ⊥ de modo a
obter uma base ortonormal completa. Essa base não pode ser contável, pois contém C.
Os espaços de Hilbert L2 ([a, b], dx), L2 ([a, b], r(x)dx) com r positiva e integrável no intervalo
[a, b], assim como L2 (R, dx), são separáveis. Esses fatos decorrem dos resultados apresentados na
Seção 9.3, página 569. O espaço de Hilbert AP (R) das funções almost-periódicas é não-separável, pois
possui um conjunto ortonormal não-contável, a saber, aquele de (25.10).
Finalizamos mencionando que no caso de espaços de Hilbert separáveis podemos refrasear o Teorema
25.5, acima, da seguinte forma:
Teorema 25.7 Seja y um vetor de um espaço de Hilbert separável H e B uma base ortonormal com-
pleta (e, portanto, contável) em H. Vamos escrever os elementos de B como ea com a ∈ N. Então,
vale que
Xn
y = lim hea , yi ea (25.25)
n→∞
a=1
e que
∞
X
2
kyk = |hea , yi|2 . (25.26)
a=1
2
A única diferença em relação ao Teorema 25.5 é que agora as somas acima não precisam mais ser
restritas apenas aos elementos de B y , mas são feitas sobre todos os elementos de B, independente do
vetor y ∈ H considerado. Eventualmente alguns termos dessas somas serão nulos (tal é o caso se para
um dado a tivermos ea ∈ Z y , ou seja, hea , yi = 0), mas isso não alterará o resultado.
• Funcionais lineares
Um funcional linear l definido em um espaço de Hilbert H é uma função cujo domı́nio é um subespaço
vetorial E de H assumindo valores complexos, l : E → C, e de tal forma que para todo x, y ∈ E e todo
α, β ∈ C tem-se
l(αx + βy) = αl(x) + βl(y) .
De grande importância são os funcionais lineares contı́nuos definidos em H. Estes são funcionais
lineares com domı́nio igual a H e tais que se {xi }i∈N é uma seqüência de vetores que converge a x ∈ H,
então vale
lim l(xn ) = l lim xn = l(x) .
n→∞ n→∞
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 25 1245/1461
Se l e l′ são funcionais lineares sobre H definimos para α, β ∈ C um funcional linear αl + βl′ como
sendo o funcional linear que a cada x ∈ H associa o número αl(x) + βl′ (x). É elementar mostrar que
o funcional αl + βl′ é também contı́nuo. O conjunto de todos os funcionais lineares contı́nuos de um
espaço e Hilbert H é também, portanto, um espaço vetorial que denotaremos por H∗ . O espaço H∗ é
denominado o dual topológico de H.
Um funcional linear l sobre um espaço de Hilbert H é dito ser limitado se existir uma constante
M ≥ 0 tal que para todo x ∈ H vale
|l(x)| ≤ M kxk .
A seguinte proposição mostra que os conceitos de funcional linear contı́nuo e de funcional linear
limitado são idênticos.
Proposição 25.9 Em um espaço de Hilbert H um funcional linear é contı́nuo se e somente se for um
funcional linear limitado. 2
Prova. Se l é um funcional linear limitado e se {xj }j∈N é uma seqüência de vetores que converge a
x ∈ H, então
|l(x) − l(xj )| = |l(x − xj )| ≤ Mkx − xj k
e o lado direito vai a zero quando j → ∞, provando que l é contı́nuo.
Suponhamos reciprocamente que l é um funcional linear contı́nuo. Então, para um ǫ > 0 fixo existe
δ > 0 tal que |l(v)| ≤ ǫ para todo vetor v com kvk ≤ δ. Seja u um vetor não-nulo qualquer de H.
Então,
u
v = δ
kuk
é tal que kvk = δ. Logo, como l é linear, vale que
δ u
kuk l(u) = l δ kuk ≤ ǫ .
Assim,
ǫ
|l(u)| ≤ kuk ,
δ
provando que l é limitado (podemos adotar M = ǫ/δ).
Mencionamos que a Proposição 25.9 pode ser generalizada: uma aplicação linear entre dois espaços
normados é contı́nua se e somente se for limitada (Proposição 26.1, página 1251).
É evidente que esse l é um funcional linear. Esse l é também contı́nuo, pela continuidade do produto
escalar (vide página 1225).
Esse exemplo não foi colocado aqui apenas como ilustração, pois demonstraremos agora que o todo
funcional linear contı́nuo é da forma l(x) = hφ, xi para algum φ de H. Esse resultado, conhecido
como Teorema da Representação de Riesz17 , ou simplesmente como Lema de Riesz, é um dos resulta-
dos fundamentais da teoria dos espaços de Hilbert e do mesmo muitas conseqüências serão extraı́das,
especialmente na teoria de operadores lineares em espaços de Hilbert. Vamos a seu enunciado e de-
monstração.
Teorema 25.8 (Teorema da Representação de Riesz) Seja l um funcional linear contı́nuo em
um espaço de Hilbert H. Então, existe φ ∈ H, único, tal que
Vamos mostrar que N é um subespaço linear fechado de H. Que N é um subespaço é elementar pois,
se x, y ∈ N, então l(αx + βy) = αl(x) + βl(y) = α0 + β0 = 0. Que N é fechado pode ser visto pelo
fato que podemos caracterizar N como a imagem inversa do número 0 de C por l: N = l−1 ({0}). O
conjunto {0}, constituı́do por um único ponto, é fechado em C e funções contı́nuas são tais que sua
imagem inversa mapeia fechados em fechados (vide página 1114). Logo, N é fechado.
E. 25.6 Exercı́cio. Mostre também que N é fechado, demonstrando que se xi é uma seqüência de
elementos de N que converge a x ∈ H então, pela continuidade, vale l(x) = 0, provando que x ∈ N. 6
Caso N seja idêntico a H, isso significa que l(x) = 0 para todo x ∈ H e o teorema estaria provado,
adotando-se para tal φ = 0.
Vamos supor que N 6= H. Como N é fechado, pelo Teorema da Decomposição Ortogonal todo
x ∈ H é da forma x = y + z com y ∈ N e z ∈ N ⊥ . Como N 6= H, devem existir elementos não nulos
em N ⊥ , doutra forma terı́amos x = y ∈ N para todo x ∈ H.18
Seja, então, z0 um vetor não-nulo de N ⊥ . É obvio que l(z0 ) 6= 0. Para qualquer vetor u ∈ H vale
que l(z0 )u − l(u)z0 é um elemento de N, pois
l l(z0 )u − l(u)z0 = l(z0 )l(u) − l(u)l(z0 ) = 0 .
17
Frigyes Riesz (1880-1956).
18
Fazemos notar ao estudante que é somente neste parágrafo, interessantemente, que a condição de continuidade de l é
usada, a saber, através da afirmativa que N é fechado e que, portanto, N ⊥ é formado por algo além do vetor nulo (caso
l não seja identicamente zero). Note-se também o uso importante que foi feito do Teorema da Decomposição Ortogonal
na demonstração.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 25 1247/1461
Incidentalmente, o Lema de Riesz diz-nos que, fora o caso em que l é identicamente nulo, tem-se
sempre que N ⊥ é um subespaço unidimensional de H, a saber, o subespaço gerado pelo vetor φ.
Capı́tulo 26
Operadores Lineares Limitados em Espaços de
Banach e de Hilbert
Conteúdo
26.1 Operadores Lineares em Espaços Vetoriais Normados . . . . . . . . . . . 1250
26.1.1 Espaços de Banach de Operadores . . . . . . . . . . . . . . . . . . . . . . . . 1254
26.1.2 O Dual Topológico de um Espaço de Banach . . . . . . . . . . . . . . . . . . 1258
26.1.3 O Teorema de Hahn-Banach e Algumas Conseqüências do Mesmo . . . . . . 1263
26.1.4 O Teorema de Banach-Steinhaus ou Princı́pio de Limitação Uniforme . . . . 1270
26.1.5 O Teorema da Aplicação Aberta e o Teorema do Gráfico Fechado . . . . . . . 1271
26.2 Operadores Limitados em Espaços de Hilbert . . . . . . . . . . . . . . . . 1279
26.2.1 O Adjunto de um Operador em um Espaço de Hilbert . . . . . . . . . . . . . 1281
26.3 Álgebras de Banach e Álgebras C∗ . . . . . . . . . . . . . . . . . . . . . . . 1289
26.3.1 Álgebras de Banach . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1289
26.3.2 A Inversa de Operadores Limitados . . . . . . . . . . . . . . . . . . . . . . . . 1292
26.3.3 O Espectro de Operadores em Álgebras de Banach . . . . . . . . . . . . . . . 1298
26.3.4 O Homomorfismo de Gelfand em Álgebras C∗ . . . . . . . . . . . . . . . . . . 1308
26.3.5 Raı́zes Quadradas de Operadores em Álgebras de Banach . . . . . . . . . . . 1310
26.3.6 Elementos Positivos de Álgebras C∗ . . . . . . . . . . . . . . . . . . . . . . . 1312
26.3.7 O Lema da Raiz Quadrada em espaços de Hilbert. A Decomposição Polar . . 1315
26.4 Um Pouco sobre Estados e Representações de Álgebras C∗ . . . . . . . . 1320
26.5 O Espectro de Operadores em Espaços de Banach . . . . . . . . . . . . . 1329
26.6 Operadores Compactos em Espaços de Banach e de Hilbert . . . . . . . . 1339
26.6.1 O Teorema Espectral para Operadores Compactos Auto-adjuntos . . . . . . . 1352
26.7 O Teorema Espectral para Operadores Limitados Auto-adjuntos em Espaços
de Hilbert . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1360
26.7.1 O Cálculo Funcional Contı́nuo e o Homomorfismo de Gelfand . . . . . . . . . 1360
26.7.2 Generalizando o Cálculo Funcional Contı́nuo. As Medidas Espectrais . . . . . 1362
26.7.3 Medidas com Valores em Projeções Ortogonais . . . . . . . . . . . . . . . . . 1372
26.7.4 Os Projetores Espectrais e o Teorema Espectral . . . . . . . . . . . . . . . . . 1377
26.7.5 A Relevância do Teorema Espectral para a Fı́sica Quântica (um pouco de
Fı́sica, finalmente) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1381
26.A Prova do Teorema 26.18 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1390
1248
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 26 1249/1461
E ste capı́tulo tenciona ser uma pequena introdução à teoria dos operadores lineares limitados
(contı́nuos) em espaços de Banach e de Hilbert. O assunto é de central importância em várias
áreas da Fı́sica e da Matemática, desde a Mecânica Quântica e a Teoria Quântica de Campos
até a Teoria das Equações Diferenciais Parciais.
Na Seção 26.1 apresentamos noções básicas e demonstramos uma série de teoremas de importância
fundamental para toda a teoria de operadores em espaços de Banach e de Hilbert: o Teorema BLT, o
Teorema de Hahn-Banach, o Teorema de Banach-Steinhaus, o Teorema da Aplicação Aberta, o Teorema
da Aplicação Inversa e o Teorema do Gráfico Fechado. Na Seção 26.2 estudamos a teoria básica de
operadores em espaços de Hilbert. A Seção 26.3 é uma introdução às álgebras de Banach e às álgebras
C∗ , com uma certa ênfase na teoria espectral dessas álgebras. Na Seção 26.4 desenvolvemos um pouco
mais a teoria das álgebras C∗ e discutimos sua relação com álgebras de operadores em espaços de
Hilbert. Na Seção 26.5 especializa a teoria espectral para o contexto de operadores limitados agindo
em espaços de Banach e de Hilbert. Na Seção 26.6 desenvolvemos a teoria dos operadores compactos
em espaços de Banach e de Hilbert e obtemos o Teorema Espectral para operadores compactos auto-
adjuntos em espaços de Hilbert e generalizações. A Seção 26.7 é dedicada à demonstração do Teorema
Espectral para operadores limitados auto-adjuntos agindo em espaços de Hilbert. A Seção 26.7.5 discute
a relevância desse teorema para a Fı́sica Quântica.
• Operadores Lineares
• Operadores Contı́nuos
Se V e W são dois espaços vetoriais normados ambos são espaços métricos com a métrica definida por
suas normas e, portanto, são espaços topológicos métricos. Conseqüentemente, ao falarmos de funções
entre V e W coloca-se a questão da continuidade dessas funções como funções entre dois espaços
topológicos métricos. Essa questão é de grande relevância, pois em espaços vetoriais de dimensão
infinita é muito freqüente o aparecimento de operadores lineares não-contı́nuos. De fato, na mecânica
quântica, por exemplo, quase todos os operadores com os quais tipicamente lidamos, como os operadores
de posição e de momento, não são contı́nuos. O ponto é que, como veremos, operadores não-contı́nuos
podem ter propriedades drasticamente diferentes das de operadores contı́nuos.
Como V e W são dois espaços métricos, valem as definições usuais de continuidade em espaços
métricos. Assim, dizemos que um operador T : V → W é contı́nuo se
T lim xn = lim T xn
n→∞ n→∞
para qualquer seqüência convergente {xn }n∈N em V. Note que, na última igualdade, o limite do lado
esquerdo refere-se à topologia de V enquanto que o limite do lado direito refere-se à topologia de W.
Equivalentemente (vide discussão à página 1112) um operador T : V → W é contı́nuo se para todo
ǫ > 0 e todo u ∈ V existir δ ≥ 0 (eventualmente dependente de ǫ e de u) tal que kT u − T vkW ≤ ǫ
sempre que v for tal que ku − vkV ≤ δ.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 26 1251/1461
Adiante (vide por exemplo, página 1252) veremos exemplos de operadores não-contı́nuos. Passemos
primeiro a uma definição igualmente importante e que se mostrará equivalente à de continuidade.
• Operadores Limitados
kT ukW ≤ MkukV.
Prova. Seja T limitado, ou seja, tal que existe M > 0 satisfazendo kT ukW ≤ MkukV para todo u ∈ V.
Seja ǫ um número positivo arbitrário e sejam u e v dois vetores de V tais que ku − vkV ≤ ǫ/M. Então
ǫ
kT u − T vkW = kT (u − v)kW ≤ Mku − vkV ≤ M = ǫ.
M
Assim, adotando-se δ = ǫ/M vemos que T satisfaz a definição de continuidade.
Provemos a recı́proca. Seja T contı́nuo. Então, vale que para todo ǫ ≥ 0 e todo u ∈ V existe δ > 0
tal que kT u − T vkW ≤ ǫ sempre que v for tal que ku − vkV ≤ δ. Tomemos u = 0 e fixemos um ǫ.
Temos então que
kT vkW ≤ ǫ
sempre que kvkV ≤ δ. Lembremos que a constante δ independe de v e que sempre podemos escolher
δ > 0.
Seja então u um vetor não-nulo arbitrário de V e seja
δ
v = u
kukV
é claro que
δ
δ
kvkV =
kukV u
= kukV = δ.
V kukV
Portanto, para esse v vale kT vkW ≤ ǫ e, então
δ
δ
kT ukW =
T
u
= kT vkW ≤ ǫ,
kukV kukV
W
ou seja,
ǫ
kT ukW ≤ kukV.
δ
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 26 1252/1461
Definindo M = ǫ/δ mostramos estão que kT ukW ≤ MkukV para todo u 6= 0. Para u = 0 essa relação
é trivialmente satisfeita e, portanto, vale para todo u ∈ V, mostrando que T é limitado.
Vamos a um exemplo de um operador agindo entre dois espaços vetoriais normados e que não é
limitado e, portanto, não é contı́nuo.
Seja V = C([−1, 1], C), o conjunto de todas as funções contı́nuas do intervalo [−1, 1] ⊂ R com
valores complexos e adotemos como norma em V a norma L2 :
Z 1 1/2
2
kf kV = |f (x)| dx , f ∈ C([−1, 1], C).
−1
kzkW = |z|, z ∈ C.
T0 f = f (0),
que associa a cada função f ∈ C([−1, 1], C) o seu valor no ponto 0. T0 é denominado funcional delta
de Dirac. É elementar mostrar que T0 é linear. Mostremos que T0 , porém, não pode ser contı́nuo.
Para isso, seja g(x) uma função de C([−1, 1], C) com a propriedade que g(−1) = g(1) = 0 e que
g(0) 6= 0. Para n ∈ N defina
g(nx), para x ∈ [−1/n, 1/n],
un (x) =
0, de outra forma.
Como g foi escolhida de modo que g(−1) = g(1) = 0, é fácil verificar que un ∈ C([−1, 1], C) (por
que?).
Temos que
"Z #1/2 Z 1/2
1/n 1
2 1 2
kun kV = |g(nx)| dx = √ |g(x)| dx
−1/n n −1
mas
lim T0 un = g(0) 6= 0,
n→∞
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 26 1253/1461
o que mostra que T0 não pode ser contı́nuo nem, portanto, limitado.
É fácil verificar que T0 também não seria contı́nuo se adotássemos em V a norma Lp (com p ≥ 1):
Z 1 1/p
p
kf kV = |f (x)| dx , f ∈ C([−1, 1], C).
−1
kf kV = sup |f (x)|
x∈[−1, 1]
Esses exemplos mostram mais uma vez que a continuidade de uma aplicação depende das topologias
adotadas.
Sejam V e W dois espaços vetoriais normados, cujas normas serão denotadas por k · kV e k · kW,
respectivamente. Denotamos por B(V, W) o conjunto de todas os operadores lineares contı́nuos de V
em W.
O conjunto B(V, W) é um espaço vetorial sobre os complexos. De fato, dados dois operadores
quaisquer T e U ∈ B(V, W) podemos definir o operador αT + βU, com α, β ∈ C, como sendo o
operador que associa a cada v ∈ V o vetor de W dado por αT v + βUv. É trivial ver que αT + βU é
também um operador linear e que também é contı́nuo.
Mais que isso, B(V, W) é um espaço vetorial normado, onde para cada operador T definimos sua
norma operatorial kT k como
kT ukW
kT k = sup . (26.1)
u∈V, u6=0 kukV
E. 26.3 Exercı́cio. Verifique que as propriedades que caracterizam uma norma são de fato satisfeitas
pela definição acima. 6
kT ukW ≤ kT k kukV.
Mais adiante veremos que se W for um espaço de Banach então B(V, W) também é um espaço de
Banach em relação à norma definida acima. Esse fato é importante para toda a teoria dos operadores
limitados em espaços de Hilbert e abre caminho para a teoria das chamadas álgebras de Banach e das
chamadas álgebras C∗ .
• Extensões de Operadores
Convidamos neste momento o leitor a reler a definição do conceito de extensão de funções à página
28. Esse conceito se aplica diretamente à teoria dos operadores lineares agindo entre espaços vetoriais.
Sejam V e W dois espaços vetoriais e T : V → W um operador linear agindo entre eles. Suponha
que V seja sub-espaço de um espaço vetorial V ′ . Uma extensão do operador T ao espaço V ′ seria um
função T ′ : V ′ → W tal que T ′ (v) = T v para todo v ∈ V . Se uma extensão T ′ de T for também um
operador linear de V ′ em W , então T ′ é dita ser uma extensão linear de T .
Como veremos, extensões lineares desempenham um papel importante no estudo de operadores
não-limitados em espaços de Hilbert.
• O Teorema BLT
Vamos agora enunciar e demonstrar um resultado sobre extensões lineares que será freqüentemente
usado adiante, muitas vezes até sem menção explı́cita.
Seja V um espaço vetorial normado, cuja norma é denotada por k · kV. O espaço vetorial V é
assim um espaço métrico e na discussão iniciada à página 952 discutimos o conceito de completamento
canônico de um espaço métrico genérico. Chamemos de Ṽ o completamento canônico de V. Como
discutimos à página 952 e seguintes, existe uma bijeção natural isométrica de V em um subconjunto
denso de Ṽ, de modo que podemos, com um pequeno abuso, considerar V como um subconjunto (denso)
de Ṽ, no mesmo sentido que usamos quando dizemos que o conjunto dos racionais é um subconjunto
denso dos reais, embora em princı́pio os reais sejam classes de equivalências de racionas e, portanto,
objetos de natureza diferente dos racionais.
Na discussão deste tópico adotaremos essa convenção de entender V como um subconjunto denso
de Ṽ.
Muitas vezes nos é apresentado um operador limitado T agindo entre dois espaços vetoriais normados
V e W, sendo V um espaço métrico não-completo. Muitas vezes é útil, conveniente ou mesmo necessário
saber se é possı́vel estender o operador T para o completamento canônico Ṽ de V. Veremos abaixo
aplicações em que tal procedimento é útil. Será isso sempre possı́vel? Será a extensão também contı́nua?
E se o for, será a extensão obtida a única possı́vel?
O teorema seguinte nos dá condições suficientes para que uma tal extensão exista e seja única, a
saber, basta que W seja completo. Esse teorema é denominado por alguns autores de Teorema BLT
(“bounded linear transformation”). Em verdade, trata-se parcialmente de um caso particular do Teo-
rema 24.8, página 1214, pois operadores lineares e contı́nuos são uniformemente contı́nuos (verifique!).
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 26 1255/1461
Teorema 26.1 (BLT) Seja V um espaço vetorial normado, cuja norma é denotada por k · kV e seja
W um espaço vetorial normado, cuja norma é denotada por k · kW. Suponha que W seja completo
na métrica definida pela norma k · kW, ou seja, suponha que W seja um espaço de Banach. Então,
para todo operador linear limitado T : V → W, T ∈ B(V, W), existe uma extensão T̃ : Ṽ → W que
também é um operador linear limitado, T̃ ∈ B(Ṽ, W), e tal que kT̃ kB(Ṽ, W) = kT kB(V, W) . Fora isso,
tal extensão é a única com as propriedades mencionadas. 2
Prova. A demonstração consiste em construir a extensão T̃ e mostrar que a mesma satisfaz as propri-
edades mencionadas. A primeira etapa é a construção de T̃ .
Como entendemos V como um subconjunto denso de Ṽ, todo elemento de Ṽ é limite de uma seqüência
de elementos de V. Seja então x ∈ Ṽ e seja {xn }n∈N uma seqüência de elementos de V que converge a
x. Como {xn }n∈N converge, é uma seqüência de Cauchy.
Seja yn = T xn ∈ W. Mostremos que {yn }n∈N é um seqüência de Cauchy de elementos de W. De
fato,
Como {xn }n∈N é uma seqüência de Cauchy em Ṽ, o lado direito pode ser feito menor que qualquer ǫ > 0
dado, desde que m e n sejam grandes o suficiente, mostrando que {yn }n∈N é de fato um seqüência de
Cauchy de elementos de W. O ponto crucial é que estamos supondo que W seja completo e, portanto
{yn }n∈N converge a um elemento de W que chamaremos de y. Esse é o ingrediente que nos permite
definir T̃ como sendo a função que associa x a y:
T̃ (x) := y,
ou seja,
T̃ (x) := lim T xn .
n→∞
Um ponto lógico que ainda tem que ser exibido antes de passarmos adiante é mostrar que essa definição
não depende da particular seqüência {xn }n∈N adotada que converge a x ∈ Ṽ. Para isso basta mostrar
que se {x′n }n∈N é uma outra seqüência que converge a x então {T x′n }n∈N também converge ao mesmo
y. A demonstração disso está nas seguintes desigualdades. Seja y ′ o limite de {T x′n }n∈N (que existe
pelos mesmos argumentos de acima). Então
É fácil agora ver que, pelas hipóteses, cada um dos termos da última linha vai a zero quando n → ∞,
mostrando que ky − y ′kW = 0 e que, portanto, y = y ′.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 26 1256/1461
Assim, T̃ está bem definido como uma função de Ṽ em W. Temos agora que mostrar que 1o T̃ é
uma extensão de T ; 2o T̃ é linear; 3o kT̃ kB(Ṽ, W) = kT kB(V, W) .
Provemos 1 com a observação que cada x ∈ V é identificado em Ṽ com a seqüência constante xn = x.
T̃ (αu + βv) = lim T (αun + βvn ) = α lim T un + β lim T vn = αT̃ (u) + β T̃ (v).
n→∞ n→∞ n→∞
Passemos à demonstração do ponto 3. Pela continuidade da norma (vide página 1225) temos que
para todo x ∈ Ṽ e toda seqüência xn de elementos de V que converge a x
que demonstra que kT̃ kB(Ṽ, W) ≥ kT kB(V, W) , estabelecendo, assim, a igualdade kT̃ kB(Ṽ, W) = kT kB(V, W) .
Já vimos que se V e W são espaços normados, com normas k · kV e k · kW, respectivamente, então
B(V, W), o espaço vetorial dos operadores contı́nuos agindo entre V e W, é também um espaço
normado, com a chamada norma operatorial
kT ukW
kT k = sup , T ∈ B(V, W).
u∈V, u6=0 kukV
B(V, W) é um espaço métrico na métrica definida pela norma. Essa topologia métrica definida em
B(V, W) pela norma operatorial é denominada topologia uniforme.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 26 1257/1461
Vamos mostrar aqui o seguinte teorema, de grande importância na teoria dos operadores limitados
em espaços de Hilbert e que abre caminho para a teoria das chamadas álgebras de Banach e para as
chamadas álgebras C∗ .
Teorema 26.2 Se W é um espaço vetorial normado completo, ou seja, se é um espaço de Banach,
então B(V, W) é também um espaço vetorial normado completo. 2
Prova. O que temos que mostrar é que se An , n ∈ N, for uma seqüência de Cauchy em relação à
métrica definida pela norma operatorial, então An converge nessa métrica a um operador que também
é linear e limitado, ou seja, também um elemento de B(V, W). A estratégia que seguiremos, como
na demonstração do Teorema BLT, é exibir um candidato a ser o limite da seqüência An , mostrar que
esse candidato é um operador linear e contı́nuo e, por fim mostrar que ele é, de fato, limite dos An ’s
na topologia uniforme.
Seja então An , n ∈ N uma seqüência de Cauchy em relação à métrica definida pela norma opera-
torial. Portanto, para todo ǫ > 0 existe N(ǫ) tal que para todo m, n ≥ N(ǫ) tem-se kAm − An k ≤ ǫ.
Seja x ∈ V e seja a seqüência em W dada por
yn = An x.
A(x) = y,
ou seja,
A(x) = lim An x,
n→∞
provando a linearidade de A.
Prova de 2. Para provar que A é limitado (e, portanto, contı́nuo) precisamos antes mostrar que a
seqüência de números reais positivos kAn k, n ∈ N, converge.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 26 1258/1461
Assim, se o lado direito é menor que ǫ para m e n ≥ N(ǫ), o lado esquerdo também é, provando que
kAn k, n ∈ N, é uma seqüência de Cauchy de números reais. Como R é completo, essa seqüência
converge a um número que chamaremos A ≥ 0.
Assim, usando a continuidade da norma (vide página 1225),
kAxkW = k lim An xkW = lim kAn xkW ≤ lim kAn k kxkV = AkxkV,
n→∞ n→∞ n→∞
Assim,
k(A − An )xkW
kA − An k = sup ≤ lim k(Am − An )k
x∈V, x6=0 kxkV m→∞
Como An , n ∈ N, é um seqüência de Cauchy, vale para qualquer ǫ > 0 que k(Am − An )k ≤ ǫ sempre
que m e n ≥ N(ǫ). Assim, limm→∞ k(Am − An )k ≤ ǫ sempre que n ≥ N(ǫ). Logo, pelo que mostramos,
kA − An k ≤ ǫ sempre que n ≥ N(ǫ), o que diz que A é o limite dos An ’s na topologia uniforme, como
querı́amos provar.
Pela sua definição, podemos identificar X † com o conjunto B(X, C). Isso nos leva a concluir que
†
X é igualmente um espaço normado com a norma
|l(x)|
klkX † = sup . (26.3)
x∈X, x6=0 kxkX
Mais que isso, o Teorema 26.2, página 1257, diz-nos que X † é também um espaço de Banach em relação
a essa norma. Conseqüentemente o espaço (X † )† , o dual topológico de X † , é igualmente um espaço de
Banach, e assim por diante. (X † )† é por vezes denominado o dual (topológico) duplo de X ou bidual
(topológico) de X. Podemos nos perguntar qual a relação entre esses espaços.
De maneira geral podemos sempre identificar X com um subconjunto de (X † )† , no seguinte sentido:
existe uma aplicação injetora de X em (X † )† . Denominemos essa aplicação D : X → (X † )† . Podemos
defini-la da seguinte forma. Se x ∈ X definimos D(x) como sendo o elemento de (X † )† que a cada
l ∈ X † associa o número l(x):
D(x)(l) = l(x).
É fácil verificar que D é linear e injetora, não o faremos aqui. Que D(x) é contı́nuo segue do fato que
|D(x)(l)| = |l(x)| ≤ kxkX klkX † , que mostra que D(x) é limitado. É uma conseqüência do Teorema de
Hahn-Banach, mais precisamente, a Proposição 26.5, página 1269, que D é uma isometria, ou seja,
E. 26.6 Exercı́cio. Prove essa afirmação usando a Proposição 26.5. Essa afirmação é um caso particular
da Proposição 26.11, página 1287. 6
• Espaços Reflexivos
Essas observações dizem-nos que, em um certo sentido, podemos considerar X como um subcon-
junto de seu bidual topológico (X † )† pois D(X) ⊂ (X † )† . Quando estudamos o dual algébrico de
espaços vetoriais (seção 2.1.3, página 107 e seguintes) demonstramos um teorema (Teorema 2.5, página
112) que afirma que o bidual algébrico de um espaço vetorial V de dimensão algébrica infinita é sempre
estritamente maior que V . No caso do bidual topológico de espaços de Banach isso não é mais neces-
sariamente verdade, pois há espaços de Banach que possuem a propriedade que D(X) = (X † )† . Tais
espaços são ditos reflexivos.
Os espaços Lp (R, dx) com 1 < p < ∞ são reflexivos pois (Lp (R, dx))† = Lq (R, dx) com p−1 +q −1 =
1, de onde segue facilmente que ((Lp (R, dx))† )† = Lp (R, dx) (por que?). Para uma prova que
(Lp (R, dx))† = Lq (R, dx) vide, por exemplo, [122]. Os espaços L1 (R, dx) e L∞ (R, dx) não são
reflexivos. Na Proposição 26.4, página 1262, provaremos que os espaços ℓp de seqüências p-somáveis
com 1 < p < ∞ são reflexivos e que (ℓp )† , o dual topológico de ℓp , e o espaço ℓq com 1p + 1q = 1 podem
ser identificados.
Um fato importante é que todos os espaços de Hilbert são reflexivos. Isso segue o Teorema da
Representação de Riesz (página 1246) e de algumas considerações simples, como mostraremos agora.
(αl + βl′ )(x) = hR(αl + βl′), xi = hαR(l) + βR(l′ ), xi = αhR(l), xi + βhR(l′ ), xi = αl(x) + βl′ (x)
como desejado.
Com essas observações é fácil ver que o espaço H† é um espaço vetorial com produto escalar, dado
por
hl, miH† = hR(m), R(l)i = m(R(l)). (26.6)
Repare a ordem invertida!
E. 26.7 Exercı́cio. Mostre que todas as propriedades de produto escalar estão satisfeitas. 6
Com essa definição de produto escalar podemos introduzir em H† uma norma, que denotaremos
provisoriamente por klk1 , dada por
p
klk1 = hR(l), R(l)i = kR(l)k.
Para mostrar que H† é um espaço de Hilbert precisamos mostrar que o mesmo é completo em relação
a essa norma k · k1 . A chave para isso é mostrar que as normas k · k1 e k · kH† (definida em (26.3)) são
iguais e lembrar que pelo, Teorema 26.2, página 1257, H† é completo em relação à norma k · kH† .
Proposição 26.2 Sejam H um espaço de Hilbert e H† seu espaço dual topológico. Então a norma
norma k · k1 definida acima e a norma k · kH† são iguais. 2
Prova. Seja l ∈ H† . Queremos provar que klk1 = klkH† . Se l = 0 a identidade é trivial. Seja então
l 6= 0. Pela definição
|l(x)| |hR(l), xi| |hR(l), R(l)i|
klkH† = sup = sup ≥ = kR(l)k = klk1 .
x∈H, x6=0 kxk x∈H, x6=0 kxk kR(l)k
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 26 1261/1461
Isso diz-nos, então, que H† é não apenas um espaço com um produto interno, mas é completo em
relação a norma definida por esse produto interno pois essa norma coincide com a norma k · kH† em
relação à qual H† é completo pelo Teorema 26.2, página 1257. Em resumo: H† é também um espaço
de Hilbert!
Vamos com isso mostrar agora que H é reflexivo.
Proposição 26.3 Se H é um espaço de Hilbert então D(H) = (H† )† , ou seja, todo espaço de Hilbert
é reflexivo. 2
Prova. Acabamos de ver que se H é um espaço de Hilbert então H† e, conseqüentemente, (H† )† também
são espaços de Hilbert.
Já vimos acima que R : H† → H é uma aplicação anti-linear bijetora. Assim, possui uma inversa
R−1 : H → H† que também é anti-linear e bijetora. Como H† é também um espaço de Hilbert,
segue pelo Teorema da Representação de Riesz que também existe uma aplicação anti-linear bijetora
S : (H† )† → H† com uma inversa S−1 : H† → (H† )† igualmente anti-linear e bijetora.
Por analogia com (26.5), vale que para todo J ∈ (H† )† e todo l ∈ H† que
J(l) = hS(J), liH† .
Note que, por (26.6),
J(l) = hS(J), liH† = hR(l), R(S(J))i.
Como S−1 e R−1 são ambas anti-lineares e bijetoras, a composição S−1 ◦ R−1 : H → (H† )† é linear
(por que?) e bijetora. Podemos verificar que S−1 ◦ R−1 é, em verdade, igual a D pois, para todo l ∈ H†
e todo x ∈ H,
(S−1 ◦ R−1 (x))(l) = hS(S−1 ◦ R−1 (x)), liH†
= hR(l), xi
= l(x)
= D(x)(l), (26.7)
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 26 1262/1461
Os espaços de seqüências p-somáveis ℓp foram definidos na Seção 17.4.1, página 964, onde provamos
ser válida a desigualdade de Hölder:
∞ ∞
!1/p ∞
!1/q
X X X
p q
|ai ||bi | ≤ |ai | |bi | ≤ kakp kbkq , (26.8)
i=1 i=1 i=1
1 1
para todos a ∈ ℓp e b ∈ ℓq com p
+ q
= 1 e 1 < p < ∞, 1 < q < ∞. Vide (17.24) ou (17.28).
Aqui demonstraremos a seguinte afirmação:
Proposição 26.4 Para todo 1 < p < ∞ existe uma correspondência bi-unı́voca e isométrica entre
(ℓp )† , o dual topológico de ℓp , e o espaço ℓq com p1 + 1q = 1. Isso implica que os espaços de Banach ℓp
†
com 1 < p < ∞ são reflexivos, ou seja, vale ℓp = (ℓp )† para todo 1 < p < ∞. 2
1 1
Prova. Sejam daqui por diante 1 < p < ∞ e 1 < q < ∞ relacionados por p
+ q
= 1. Para a ∈ ℓp e
b ∈ ℓq , a expressão
∞
X
lb (a) = bk ak (26.9)
k=1
define um funcional linear contı́nuo em ℓp pois, pela desigualdade de Hölder (26.8) vale |lb (a)| ≤
kbkq kakp , provando que lb é limitado com klb k ≤ kbkq . Vamos agora provar que a todo elemento de
(ℓp )† corresponde um elemento de ℓq .
Seja ej , j ∈ N, a seqüência cujo j-ésimo elemento vale 1, os demais sendo nulos: (ej )i = δij . É claro
que para todo j vale ej ∈ ℓp para todo p e é claro também que para todo a ∈ ℓp vale
n
X
a = lim ak ek ,
n→∞
k=1
Pn
sendo que a convergência de k=1 ak ek para n → ∞ se dá na topologia de ℓp . Assim, se l é um
funcional linear contı́nuo para ℓp , vale
n
! n
X X
l(a) = l lim ak ek = lim lk ak ,
n→∞ n→∞
k=1 k=1
onde lk := l(ek ).
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 26 1263/1461
onde N ∈ N. É claro que essa seqüência pertence a ℓp , pois apenas um número finito de seus elementos
é não-nulo. Para tal a vale
n
X N
X N
X
l(a) = lim lk ak = lk ak = |lk |q .
n→∞
k=1 k=1 k=1
Como, por hipótese, l é um funcional linear limitado, vale |l(a)| ≤ klk kakp para todo a ∈ ℓp . Para o a
escolhido acima, tem-se
" N # 1p " N # p1 " N # p1
X X X
kakp = |ak |p = |lk |p(q−1) = |lk |q .
k=1 k=1 k=1
Isso implica
" N # 1q
X
|lk |q ≤ klk .
k=1
enunciarmos esse teorema (em suas várias formas), lembremos algumas noções referentes a funcionais
definidos em espaços vetoriais reais.
8. convexo se h(αx + (1 − α)y) ≤ αh(x) + (1 − α)h(y) para todos x, y ∈ V e todo α ∈ [0, 1],
9. côncavo se h(αx + (1 − α)y) ≥ αh(x) + (1 − α)h(y) para todos x, y ∈ V e todo α ∈ [0, 1].
sub-aditiv.
Se h : V → R é sub-linear, então é convexo, pois se α ∈ [0, 1], vale h(αx + (1 − α)y) ≤
homogen. pos.
h(αx) + h((1 − α)y) = αh(x) + (1 − α)h(y). Analogamente, se h é sup-linear, então é côncavo.
A recı́proca não é necessariamente verdadeira. Por exemplo, h : R → R dada por h(x) = x2 é convexo,
mas não é sub-aditivo, nem positivo-homogêneo.
O Teorema de Hahn-Banach, que apresentaremos a seguir, aplica-se a funcionais convexos e, por-
tanto, abrange também os funcionais sub-lineares. Desde seu surgimento entre 1927 e 1929 esse teorema
revelou-se rico em conseqüências fundamentais, algumas das quais discutiremos no contexto de espaços
normados e de Banach. Como veremos, o Teorema de Hahn-Banach garante condições suficientes
para a existência de extensões de funcionais lineares e tem uma versão para espaços vetoriais reais e
uma generalização para espaços vetoriais complexos. Essa segunda data de 1938 e é devida a H. F.
Bohnenblust e A. Sobczyk.
no sub-espaço V2 , gerado por V1 e por z, tal que f2 é uma extensão de f1 (ou seja, f2 (y) = f1 (y) para
todo y ∈ V1 ) e satisfaz f2 (w) ≤ p(w) para todo w ∈ V2 . 2
Prova do Lema 26.1. Vamos tomar um vetor não-nulo z 6∈ V1 , doravante fixo, e denotar por V2 o
sub-espaço gerado pelos vetores de V1 e z. Definamos f2 : V2 → R por
para todo α ∈ R e todo y ∈ V1 , onde F é uma constante arbitrária a ser especificada mais abaixo.
Notemos que devido à linearidade de f1
(26.10)
f2 ((αz + y) + (α′ z + y ′)) = f2 ((α + α′ )z + (y + y ′)) = (α + α′ )F + f1 (y + y ′)
o que mostra que f2 é linear. É também claro (tomando α = 0) que f2 (y) = f1 (y) para y ∈ V1 , o que
significa que f2 estende f1 a V2 . Sobre a constante F notemos, tomando y = 0, que F = f2 (z), ou seja,
fixar F fixa f2 em z.
Fixaremos F impondo a condição que f2 (w) ≤ p(w) para todo w ∈ V2 . Assim, para todo α ∈ R e
todo y ∈ V1 desejamos que
αF + f1 (y) ≤ p(αz + y) . (26.11)
Para α = 0 a relação f1 (y) ≤ p(y) seria satisfeita por hipótese. Para α > 0 e y ∈ V1 arbitrários, (26.11)
implicaria
1 1
F ≤ p(αz + y) − f1 (y)
α α
7
e para α < 0 e y ∈ V1 arbitrários ,
1 1
F ≥ p(αz + y) − f1 (y) .
α α
Reciprocamente, se ambas essas condições são satisfeitas, valerá também (26.11) para todo α ∈ R e
todo y ∈ V1 .
É claro que existirá um F satisfazendo ambas as condições se e somente se valer
1 1 1 1
p(−λz + y) − f1 (y) ≤ ′ p(λ′ z + y ′) − ′ f1 (y ′) (26.12)
−λ −λ λ λ
7
A desigualdade se inverte devido ao sinal de α.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 26 1266/1461
1 1
= p(y − λz) + ′ p(y ′ + λ′ z) ,
λ λ
o que implica (26.12). Assim, F pode ser escolhido de modo que
1 1 1 ′ ′ 1 ′
sup p(−λz + y) + f1 (y) ≤ F ≤ ′ inf′ p(λ z + y ) − ′ f1 (y ) , (26.13)
λ>0, y∈V1 −λ λ λ >0, y ∈V1 λ′ λ
Note o leitor que (26.13) não-necessariamente implica em uma escolha única para F , mas isso
não importa, pois o Lema 26.1 não fala em unicidade, nem a mesma é esperada sob as hipóteses
consideradas.
O Lema 26.1 tem a seguinte interpretação geométrica em R3 . Seja uma linha reta f1 em R3 .
Suponha que exista um volume convexo e não-compacto r em R3 , delimitado por uma superfı́cie
bidimensional p, e que não intercepte a reta f1 . Então existe um (não-necessariamente único) plano f2
que contém f1 e que também não intercepta a superfı́cie p em R3 .
E. 26.9 Exercı́cio. Justifique as afirmações do último parágrafo com base no Lema 26.1 e/ou procure
convencer-se de sua veracidade com um pouco de ginástica geométrica mental. Convença-se que o plano
f2 nem sempre é unicamente determinado. 6
O que fizemos com o Lema 26.1 foi estender f1 a um funcional linear f2 definido em um sub-espaço
V2 que adiciona a V1 uma dimensão extra gerada por um vetor z 6∈ V1 e de modo a preservar a majoração
pelo funcional convexo p. Vamos agora mostrar como esse fato implica a existência de um funcional
linear definido em todo V , estendendo f1 e também majorado por p. Esse é o conteúdo do célebre
Teorema de Hahn-Banach.
O Teorema de Hahn-Banach ensina uma condição suficiente para que um funcional linear definido
em um sub-espaço tenha uma extensão ao espaço todo. A condição é a existência de um funcional
convexo que o majore. Na prática da Análise Funcional é muito importante conhecer condições sob
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 26 1267/1461
as quais a existência de extensões globais de funcionais lineares possa ser garantida, daı́ a importância
de teoremas de extensão, como o de Hahn-Banach. Como veremos, o mesmo conduz a resultados
não-triviais, por exemplo na teoria de espaços de Banach.
Teorema 26.3 (Teorema de Hahn-Banach para espaços vetoriais reais) Seja V um espaço ve-
torial real e seja f1 : V1 → R um funcional linear definido em um sub-espaço V1 de V . Suponha que
exista um funcional convexo p : V → R tal que f1 (y) ≤ p(y) para todo y ∈ V1 . Então, existe um
funcional linear f : V → R que é uma extensão de f1 (ou seja, f (y) = f1 (y) para todo y ∈ V1 ) e
satisfaz f (x) ≤ p(x) para todo x ∈ V . 2
Prova do Teorema 26.3. Se V1 = V não há o que demonstrar, pois podemos tomar f = f1 . Consideremos,
então, que V1 é um sub-espaço próprio de V .
Seja F1 a coleção de todos os funcionais lineares ℓ definidos em sub-espaços de V e que sejam
extensões de f1 e satisfaçam ℓ(w) ≤ p(w) para todo w pertencente a seu sub-espaço de definição. É
claro que f1 ∈ F1 e, além disso, o Lema 26.1 ensina-nos que se V1 é um sub-espaço próprio de V , então
F1 contém elementos outros que não o próprio f1 .
Consideremos em F1 a relação de ordem ℓ2 ℓ1 se ℓ2 for uma extensão de ℓ1 . Seja {ℓα , α ∈ Λ}
um conjunto linearmente ordenado (pela relação de ordem acima) de elementos de F1 e denotemos Vα
[V onde cada ℓα está definido. É claro que Vα ⊃ Vβ se ℓα ℓβ , já que ℓα estende ℓβ .
o sub-espaço de
Assim, W := Vα será um sub-espaço de V e podemos definir em W um funcional ℓW da seguinte
α∈Λ
forma: ℓW (x) = ℓα (x) se x ∈ Vα . É elementar constatar que ℓW é linear e é evidente pela construção
que ℓW ℓα para todo α ∈ Λ. Resumindo, provamos que todo um conjunto linearmente ordenado de
elementos de F1 possui um majorante.
Pelo Lema de Zorn (página 37), isso implica que F1 possui um elemento maximal f , definido em
algum sub-espaço V ′ de V . Mas, em verdade, V ′ tem que ser igual a V , pois se assim não fosse
poderı́amos, como afirma o Lema 26.1, tomar um z 6∈ V ′ não-nulo e construir uma extensão linear de
f que seria também majorada por p, ou seja, seria um elemento de F1 , contrariando o fato de f ser
maximal.
Assim, f é um funcional linear definido em todo V que estende f1 e é majorado por p, pois f é um
elemento de F1 . Isso completa a demonstração.
Vamos agora apresentar a generalização do Teorema de Hahn-Banach para espaços vetoriais com-
plexos.
Teorema 26.4 (Teorema de Hahn-Banach para espaços vetoriais complexos) Seja V um es-
paço vetorial complexo e seja f1 : V1 → C um funcional linear definido em um sub-espaço V1 de V .
Suponha que exista um funcional real p : V → R satisfazendo p(αx + βy) ≤ |α|p(x) + |β|p(y) para todos
x, y ∈ V e todos α, β ∈ C tais que |α| + |β| = 1 e de forma que |f1 (y)| ≤ p(y) para todo y ∈ V1 . Então,
existe um funcional linear complexo f : V → C que é uma extensão de f1 (ou seja, f (y) = f1 (y) para
todo y ∈ V1 ) e satisfaz |f (x)| ≤ p(x) para todo x ∈ V . 2
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 26 1268/1461
Prova. A prova faz uso do Teorema 26.3, como esperado. Começamos separando f1 em suas partes
real e imaginária. Definamos g1 (y) := Re (f1 (y)), y ∈ V1 . Teremos g1 (iy) = Re (f1 (iy)) = Re (if1 (y)) =
−Im (f1 (y)), de modo que podemos escrever
Observemos que para λ, λ′ reais e y, y ′ ∈ V1 arbitrários, tem-se g1 (λy + λ′ y ′ ) = Re (f1 ((λy + λ′ y ′)) =
Re (λf1 (y)+λ′f1 (y ′)) = λRe (f1 (y))+λ′ Re (f1 (y ′ )), provando que g1 : V1 → R é um funcional real linear.
Fora isso, g1 (y) := Re (f1 (y)) ≤ |Re (f1 (y))| ≤ |f1 (y)| ≤ p(y). Estamos, portanto, sob as hipóteses do
Teorema 26.3 e podemos afirmar que existe um funcional linear real g : V → R que estende g1 e satisfaz
Vamos provar três fatos sobre f : 1) f é uma extensão de f1 ; 2) f é um funcional linear complexo;
3) |f (x)| ≤ p(x) para todo x ∈ V .
(26.14)
1) Para y ∈ V1 tem-se f (y) = g(y) − ig(iy) = g1 (y) − ig1 (iy) = f1 (y), provando que f estende f1 .
2) Para provar que f é linear, provemos os seguintes passos:
e todo x ∈ V . De fato, tomando β = 0, tem-se que da desigualdade acima que p(αx) ≤ p(x)
para todo x ∈ V e todo α ∈ C com |α| = 1. Definindo y = αx e notando que |α−1 | = 1, segue
igualmente que p(x) = p(α−1 y) ≤ p(y) = p(αx), provando que p(αx) = p(x).
Escrevendo f (x) ∈ C na forma polar f (x) = |f (x)|eiθ , com |eiθ | = 1, tem-se
linearidade
|f (x)| = Re |f (x)| = Re e−iθ f (x) = Re f (e−iθ x)
(26.16) (26.15)
= g(e−iθ x) ≤ p(e−iθ x) = p(x) .
A primeira conseqüência do Teorema 26.4 é que se V é um espaço vetorial normado, então todo
funcional linear definido em um sub-espaço de V e que seja contı́nuo em relação à norma de V pode
ser estendido isometricamente como funcional linear para todo V .
Teorema 26.5 (Teorema de Hahn-Banach para espaços vetoriais normados) Seja V um es-
paço vetorial complexo dotado de uma norma k · k. Seja f1 : V1 → C um funcional linear definido
em um sub-espaço V1 de V e suponhamos que f1 seja limitado em V1 , ou seja, |f1 (y)| ≤ kf1 k kyk para
|f1 (y)|
todo y ∈ V1 , onde kf1 k := sup . Então, existe um funcional linear complexo f : V → C que é
y∈V1 kyk
y6=0
uma extensão de f1 (ou seja, f (y) = f1 (y) para todo y ∈ V1 ) e que é igualmente limitado, satisfazendo
kf k = kf1 k. 2
Prova. Se V é um espaço vetorial complexo dotado de uma norma k · k, então para todos α, β ∈ C e
todos x, y ∈ V vale kαx + βyk ≤ |α| kxk + |β| kyk. Assim, p(x) = kf1 kkxk satisfaz as hipóteses do
Teorema 26.4 e, pela definição de p, vale |f1 (y)| ≤ p(y) para todo y ∈ V1 . Pelo Teorema 26.4, existe
|f (x)|
um funcional linear f que estende f1 e satisfaz |f (x)| ≤ kf1 kkxk. Assim, kf k = sup ≤ kf1 k.
x∈V kxk
x6=0
kf k = kf1 k.
Do Teorema 26.5 obtemos o seguinte resultado, que por sua vez possui um corolário de grande
importância.
Proposição 26.5 Seja V um espaço vetorial complexo dotado de uma norma k · k. Então para cada
x0 ∈ V existe um funcional linear limitado e não-nulo ℓx0 satisfazendo kℓx0 k = 1 e tal que ℓx0 (x0 ) =
kx0 k. 2
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 26 1270/1461
Prova. Se x0 = 0, tomamos ℓx0 igual a qualquer funcional limitado com norma 1 e as afirmações da
proposição seguem.
Seja x0 ∈ V não-nulo fixo e seja V1 = {αx0 , α ∈ C}, um sub-espaço linear de V . Defina-se em
V1 o funcional linear f1 (αx0 ) := αkx0 k. Pelo Teorema 26.5 existe um funcional linear ℓx0 definido
em todo V e que estende f1 , satisfazendo kℓx0 k = kf1 k. Como ℓx0 estende f1 e x0 ∈ V1 , tem-se
ℓx0 (x0 ) = f1 (x0 ) = kx0 k. Note-se, porém, que
Assim, kℓx0 k = 1.
Essa proposição será usada quando estudarmos o adjunto de operadores atuando entre espaços de
Banach, página 1286 e seguintes. Vide Proposição 26.11, página 1287. Uma das suas conseqüências
mais importantes, porém, é o seguinte corolário, o qual terá implicações em desenvolvimentos que se
seguirão no presente capı́tulo, especialmente quando estudarmos propriedades do operador resolvente
e do espectro de operadores.
Corolário 26.1 Seja V um espaço vetorial complexo dotado de uma norma k · k e denotemos por V †
o conjunto de todos os funcionais lineares limitados agindo em V . Se x ∈ V é tal que ℓ(x) = 0 para
todo ℓ ∈ V † , então x = 0. 2
Prova. Se ℓ(x) = 0 para todo ℓ ∈ V † , então, em particular, ℓx (x) = 0, onde ℓx é o funcional cuja
existência é garantida pela Proposição 26.5. Porém, ℓx (x) = kxk, o que prova que x = 0.
8
Stefan Banach (1892-1945).
9
Hugo Dyonizy Steinhaus (1887-1972).
10
S. Banach and H. Steinhaus. Sur le principe de la condensation des singularités. Fund. Math. 9, 50-61 (1927).
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 26 1271/1461
Prova. Pela hipótese, tem-se para cada x ∈ A que o conjunto de números reais não-negativos
{kSxkV, S ∈ S} é um subconjunto do intervalo [0, Mx ]. Como cada Mx é finito, cada um dos
intervalos [0, Mx ], está contido em algum intervalo [0, n] com n ∈ N, n ≥ 1. É evidente, portanto,
∞
[
que A = An , onde
n=1
n o
An := x ∈ A kSxkV ≤ n para todo S ∈ S ,
pois cada x ∈ A está contido em pelo menos um An . Assim, pelo Teorema da Categoria de Baire
0
(Teorema 24.12, página 1220), existe m ∈ N tal que Am tem interior não-vazio: Am 6= ∅.
Agora, é fácil ver que cada An é um conjunto fechado em A. De fato, pela definição, vale
\n o
An := x ∈ A kSxkV ≤ n . (26.17)
S∈S
Agora, para S ∈ S, n o
x ∈ A kSxkV ≤ n = FS−1 ([0, n]) ,
onde FS : A → R é dada por FS (x) = kSxkV. Todavia, FS é contı́nua por ser a composição das funções
contı́nuas S e k · kV. Logo, como [0, n] é fechado em R, o conjunto FS−1 ([0, n]) é fechado em A e, por
(26.17), An é fechado, por ser intersecção de fechados.
Concluı́mos disso que Am tem interior não-vazio: A0m 6= ∅.
Seja x0 ∈ A0m . Como A0m é aberto, existe ǫ > 0 tal que todo x ∈ A com kx − x0 kA < ǫ é um
elemento de A0m . Dessa forma, se x′ ∈ A for tal que kx′ kA < ǫ, tem-se k(x′ + x0 ) − x0 kA = kx′ kA < ǫ,
o que implica que x′ + x0 é um elemento de A0m e, portanto, de Am . Como x0 e x′ + x0 são elementos
de Am , valem
kSx0 kV ≤ m e kS(x′ + x0 )kV ≤ m (26.18)
para todo S ∈ S. Assim, para S ∈ S e para cada x′ ∈ A com kx′ kA < ǫ, tem-se
(26.18)
kSx′ kV = kS(x′ + x0 ) − Sx0 kV ≤ kS(x′ + x0 )kV + kSx0 kV ≤ 2m ,
ǫ
Portanto, para x ∈ A não-nulo, podemos tomar x′ = 2kxk x e teremos kx′ kA = 2ǫ < ǫ, de onde segue
A
ǫ
que
S 2kxk A
x
≤ 2m, ou seja
V
4m
kSxkV ≤ kxkA ,
ǫ
desigualdade essa que também vale para x = 0. Assim, provamos que kSk ≤ M com M := 4m ǫ
, que
não depende de S ∈ S. Isso demonstra o teorema.
Sejam V e W dois espaços vetoriais normados, cujas normas são denotadas por k · kV e k · kW,
respectivamente. O produto Cartesiano V × W pode ser feito um espaço vetorial com as operações de
soma e multiplicação por escalares (números complexos), expressa em
(x, y) ∈ V × W.
E. 26.10 Exercı́cio. Verifique que essa expressão define de fato uma norma em V × W. 6
E. 26.11 Exercı́cio. Uma outra possı́vel escolha de norma em V × W seria a seguinte. Sejam A > 0 e
B > 0 fixos. Defina para todo (x, y) ∈ V × W
k(x, y)kA, B
V×W = AkxkV + BkykW.
e, portanto, k · kA, B
V×W e k · kV×W são normas equivalentes no sentido da definição de equivalência de normas
da página 129. Note que duas normas equivalentes geram as mesmas topologias (por que?). 6
que por hipótese vai a zero quando n → ∞. Isso mostra que V × W é também um espaço de Banach.
Esse espaço de Banach obtido pelo produto Cartesiano de dois espaços de Banach V e W é deno-
minado soma direta (topológica) de V e W e é freqüentemente denotado por V ⊕ W.
Freqüentemente usaremos V ⊕ W para nos referirmos a V × W visto como espaço topológico com a
topologia gerada pela norma k · kV×W.
• O Gráfico de um Operador
Nota 1. Essa definição é, na verdade, redundante. Se lembrarmos a definição de função à página
24 (e estamos adotando a definição de operador como sendo uma função naquele sentido), vemos que
o conceito de gráfico de um operador coincide com o próprio conceito de operador, ou seja, como
sendo uma certa sub-coleção de V × W. Assim, pelas nossas definições, Γ(T ) = T !. No entanto é
muito comum entender-se num sentido intuitivo que um operador representa uma transformação entre
d
espaços. Informalmente entendemos, por exemplo, que o operador de derivação T = dx “transforma”
uma função em sua derivada. Ainda que essa conceituação não possa ser feita precisa, essa é a noção
que mais comummente se tem de operador, daı́ introduzirmos essa “nova” definição. Note-se também
que essa definição corresponde precisamente à noção de gráfico de uma função de R em R, tão familiar
dos cursos de cálculo.
Nota 2. Para evitar confusões futuras, notamos aos leitores que na nossa definição de gráfico acima
seguimos a convenção que V seja o domı́nio de definição de T , Dom (T ) = V, e não Dom (T ) ⊂ V.
Se T é um operador linear agindo entre dois espaços de Banach V e W, o conjunto Γ(T ) é um sub-
conjunto do espaço topológico V⊕W e, como tal, é legı́timo perguntarmos por propriedades topológicas
de Γ(T ), tais como, se Γ(T ) é um conjunto fechado (ou aberto), sobre propriedades dos fecho Γ(T ) de
Γ(T ) etc. Como veremos, tais perguntas são de grande importância e operadores podem mesmo ser
classificados de acordo com as respostas que se dá às mesmas. Um importante resultado nesse sentido
é o chamado Teorema do Gráfico Fechado, que demonstraremos nas próximas páginas.
também nos diz algo sobre a inversa desses operadores, a saber, na forma do Teorema da Aplicação
Inversa, tratado à página 1277.
A conseqüência talvez mais importante do Teorema da Aplicação Aberta é o Teorema do Gráfico
Fechado, que discutiremos à página 1277, que nos mostra (pela primeira vez) a existência de uma
relação ı́ntima entre propriedades de um operador e propriedades topológicas de seu gráfico.
Passemos ao enunciado e demonstração do Teorema da Aplicação Aberta.
Teorema 26.7 (Teorema da Aplicação Aberta) Sejam X e Y dois espaços de Banach e seja T :
X → Y um operador linear contı́nuo e sobrejetor. Então, se A ⊂ X é um aberto, T (A) é um aberto
em Y . 2
Prova. Comecemos fixando notações. Por B X (r, x) denotamos a bola aberta em X centrada em x ∈ X
de raio r > 0. Analogamente por B Y (r, y) denotamos a bola aberta em Y centrada em y ∈ Y de
raio r > 0. Adotaremos também as notações simplificadoras: B X (r) = B X (r, 0) e B Y (r) = B Y (r, 0).
Fora isso, se C é um subconjunto de X e λ > 0, denotamos por λC o conjunto λC = {x′ ∈ X| x′ =
λx para algum x ∈ C}. O mesmo se C for um subconjunto de Y .
Isto posto, vamos à demonstração.
Em primeiro lugar, é claro que X pode ser escrito como a união contável de todas as bolas de raio
1, 2, 3 . . .:
[∞
X = B X (n).
n=1
Pelo Teorema da Categoria de Baire (página 1220) isso implica a existência de pelo menos um m tal
0
que T (B X (m)) 6= ∅, ou seja, T (B X (m)) tem interior não-vazio.
Prova do Lema 26.2. Como já sabemos, T (B X (1)) possui um interior não-vazio. Afirmamos que
0 0
X X
0 ∈ T (B (1)) . Para mostrar isso, tomemos y ∈ T (B (1)) . Como y é um elemento do fecho de
0 0
T (B X (1)) (pois T (B X (1)) ⊂ T (B X (1))), e como T (B X (1)) é um aberto que contém y, segue
0
que T (B X (1)) ∩ T (B X (1)) 6= ∅, pela Proposição 19.6, página 1051.
0
Seja então z ∈ T (B X (1)) ∩ T (B X (1)). Então z = T x para algum x ∈ X com kxkX < 1 e, como
0
X
T (B (1)) é aberto, existe pela definição de conjunto aberto em espaços métricos um r > 0 tal que
0
Y X
B (r, z) ⊂ T (B (1)) , ou seja,
0
Y
B (r) + T x ⊂ T (B X (1)) . (26.19)
Se escolhermos R grande o suficiente (por exemplo R > 1 + kxkX ) teremos que B X (1) ⊂ B X (R, x)
(por que?). Isso implica T (B X (1)) ⊂ T (B X (R, x)). Logo, T (B X (1)) ⊂ T (B X (R, x)) e, portanto,
0 0
T (B X (1)) ⊂ T (B X (R, x)) .
Logo, retornando à (26.19), temos que
0 0
B Y (r) + T x ⊂ T (B X (R, x)) = T (B X (R)) + T x,
ou seja, 0
B Y (r) ⊂ T (B X (R)) .
Isso, porém, diz que 0
B Y (r/R) ⊂ T (B X (1)) ,
0
provando que 0 ∈ T (B X (1)) , completando a prova do lema.
Vamos mostrar na próxima proposição uma condição que, uma vez demonstrada, implica o Teorema
da Aplicação Aberta.
Proposição 26.6 Se provarmos que T (B X (1)) ⊂ T (B X (2)) então o Teorema da Aplicação Aberta
estará demonstrado. 2
0
Prova da Proposição 26.6. Pelo lema acima, o aberto T (B X (1)) contém o vetor nulo. Então (pela
definição de conjunto aberto em espaço métrico, vide página 956), existe uma bola aberta de raio s > 0
0
(suficientemente pequeno) e centrada em 0 que está inteiramente contida em T (B X (1)) e, portanto,
em T (B X (1)):
B Y (s) ⊂ T (B X (1)).
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 26 1276/1461
Se tivermos provado que T (B X (1)) ⊂ T (B X (2)), como a proposição sugere, então concluirı́amos que
B Y (s) ⊂ T (B X (2)),
ou seja, que T (B X (2)) tem interior não-vazio. Como T (B X (r)) = (r/2)T (B X (2)), segue também que
B Y (rs/2) ⊂ T (B X (r)),
mostrando que T (B X (r)) tem também interior não-vazio para qualquer r > 0.
Isso mostra que T (B X (r, x)) = T (B X (r)) + T x também tem interior não-nulo para todo r > 0 e
todo x ∈ X.
Seja então A ⊂ X um aberto em X e T (A) sua imagem por T em Y . Seja um ponto genérico
y ∈ T (A) e seja x ∈ A tal que y = T x. Como A é aberto, existe r suficientemente pequeno tal que
B X (r, x) ⊂ A. Logo T (B X (r, x)) ⊂ T (A) e T (B X (r, x)) ∋ y. Mas, pelo dito acima, T (B X (r, x)) =
T (B X (r)) + y e T (B X (r)) contêm a bola B Y (rs/2). Assim, y + B Y (rs/2) ⊂ T (A). Como y é um
elemento genérico de T (A) isso mostra que para cada y ∈ T (A) existe r ′ > 0 (a saber r ′ = rs/2) tal
que a bola B Y (r ′ , y) está inteiramente contida em T (A). Ora, isso é a afirmativa que T (A) é aberto,
completando assim a demonstração da proposição.
Essa proposição nos ensina que, para completarmos a demonstração do Teorema da Aplicação
Aberta resta-nos apenas mostrar que T (B X (1)) ⊂ T (B X (2)), que é o que faremos agora.
Mostrar que T (B X (1)) ⊂ T (B X (2)) significa mostrar que para cada y ∈ T (B X (1)) existe um x ∈ X
com kxkX < 2 tal que y = T x. O que faremos então é fixar um tal y e construir um x ∈ X com as
propriedades requeridas.
Pela caracterização de fecho de um conjunto dada na Proposição 19.6, página 1051, se
y ∈ T (B X (1)) (26.20)
então para todo número r > 0, B Y (r, y) ∩ T (B X (1)) 6= ∅. Isso diz que existe x1 com kx1 kX < 1 tal que
ky − T x1 kY < r. Essa última afirmativa significa que y − T x1 ∈ B Y (r). Como r é arbitrário, podemos
escolhe-lo suficientemente pequeno de modo a termos
Isso é sempre possı́vel pois vimos acima que todo conjunto T (B X (a)) tem interior não-vazio para todo
a > 0. Como, porém, T (B X (1/2)) ⊂ T (B X (1/2)), concluı́mos que, pela nossa escolha,
y − T x1 ∈ T (B X (1/2)). (26.22)
Comparando-se (26.22) a (26.20) vemos que podemos repetir o argumento e, para o mesmo r de
(26.21), B Y (r/2, y − T x1 ) ∩ T (B X (1/2)) 6= ∅. Isso diz que existe x2 com kx2 kX < 1/2 e tal que
k(y − T x1 ) − T x2 kY = ky − T (x1 + x2 )kY < r/2, ou seja, y − T (x1 + x2 ) ⊂ B Y (r/2). Por (26.21),
B Y (r/2) ⊂ T (B X (1/4)). Como, porém, T (B X (1/4)) ⊂ T (B X (1/4)), concluı́mos que, pela nossa
escolha,
y − T (x1 + x2 ) ∈ T (B X (1/4)). (26.23)
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 26 1277/1461
Prosseguindo indutivamente concluı́mos que existem x1 , . . . , xn ∈ X tais que kxi kX < 1/2i−1 e
r
ky − T (x1 + · · · + xn )kY < . (26.24)
2n+1
É um exercı́cio simples mostrar que, pela propriedade kxi kX < 1/2i−1 , a seqüência x1 + · · · + xn é
uma seqüência de Cauchy. Como supomos que X é completo, isso diz que existe x ∈ X tal que
x = lim (x1 + · · · + xn ).
n→∞
Fora isso, pela continuidade da norma, pela continuidade de T e pela propriedade (26.24), segue que
0 = lim ky − T (x1 + · · · + xn )kY =
y − lim T (x1 + · · · + xn )
n→∞ n→∞ Y
=
y − T ( lim (x1 + · · · + xn ))
= ky − T xkY ,
n→∞ Y
Se T : X → Y é uma função bijetora entre dois conjuntos, existe uma função inversa T −1 : Y → X.
Se X e Y são espaços vetoriais e T é linear, é fácil ver que T −1 é também linear (Exercı́cio.). O Teorema
da Aplicação Aberta tem um corolário que garante que também a propriedade de continuidade pode
ser estendida a T −1 , caso T seja contı́nua e X e Y dois espaços de Banach.
Teorema 26.8 (Teorema da Aplicação Inversa) Sejam X e Y dois espaços de Banach e T : X →
Y um operador linear que seja contı́nuo e bijetor. Então sua inversa T −1 : Y → X é também contı́nua.
2
Prova. Se T é bijetora é, em particular, sobrejetora e portanto vale o Teorema Aplicação Aberta. Pela
definição de função contı́nua, tudo que devemos fazer é mostrar que conjuntos abertos na imagem de
T −1 (que vem a ser X) são a imagem por T −1 de conjuntos abertos do domı́nio de T −1 (que vem a ser
Y ). Mas é precisamente isso que nos diz o Teorema Aplicação Aberta, pois (T −1 )−1 = T .
Chagamos agora a um teorema importante pois mostra que propriedades de um operador se mani-
festam em propriedades topológicas de seu gráfico.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 26 1278/1461
Prova. 1. Vamos supor que T seja contı́nuo e mostrar que seu gráfico é fechado.
Seja (xn , T xn ), n ∈ N, uma seqüência de elementos de Γ(T ) e que seja convergente em X ⊕ Y .
Queremos mostrar que essa seqüência converge a um elemento (x, y) ∈ X ⊕ Y que também é elemento
de Γ(T ). Para isso devemos provar que y = T x. Se (xn , T xn ) → (x, y) então x = lim xn em X e
n→∞
y = lim T xn . Porém, como T é, por hipótese, contı́nuo, vale y = lim T xn = T lim xn = T x, que
n→∞ n→∞ n→∞
é o que querı́amos provar.
2. Vamos agora, reciprocamente, supor que Γ(T ) é fechado e mostrar que T é contı́nuo.
Γ(T ) é sempre um sub-espaço de X ⊕ Y , pois
O fato de Γ(T ) ser fechado significa, porém, que Γ(T ) é um espaço de Banach pois, pela Proposição
19.9, página 1054, todo subconjunto fechado de um espaço métrico completo é também completo.
Sejam então as funções S1 : Γ(T ) → X e S2 : Γ(T ) → Y definidas por
S1 ((x, T x)) = x.
e
S2 ((x, T x)) = T x.
É um exercı́cio banal mostrar que S1 e S2 são lineares (faça). Fora isso, ambas são limitadas (e,
portanto, contı́nuas), pois
e
kS2 (x, T x)kX = kT xkY ≤ kxkX + kT xkY = k(x, T x)kX⊕Y ,
Mostrando que kS1 k ≤ 1 e kS2 k ≤ 1.
Fora isso vale também que S1 é bijetora. De fato é evidente que ImS1 = X (por quê?) e, fora isso,
S1 (x, T x) = S1 (y, T y) significa x = y e, portanto (x, T x) = (y, T y), o que mostra que S1 é um-a-um.
Se S1 é uma bijeção então tem uma inversa (S1 )−1 : X → Γ(T ) que é tal que
Mostramos acima que S1 é uma função linear, contı́nua e bijetora entre dois espaços de Banach.
Ora, essas são as hipóteses do Teorema da Aplicação Inversa que, assim, nos afirma que (S1 )−1 é
contı́nua. S2 é também contı́nua e, portanto, T = S2 ◦ (S1 )−1 é também contı́nua por ser a composição
de duas funções contı́nuas, completando a prova.
• O Teorema de Hellinger-Toeplitz
O Teorema do Gráfico Fechado tem por corolário um teorema do qual uma importante lição pode
ser extraı́da.
11
Teorema 26.10 (Teorema de Hellinger-Toeplitz) Seja H um espaço de Hilbert e seja A um
operador linear tal que Dom (A) = H e tal que
Prova. A prova é feita mostrando que Γ(A) é fechado e evocando o Teorema do Gráfico Fechado.
Suponha que (xn , Axn ) converge a (x, y) em H ⊕ H. Queremos mostrar que y = Ax. Seja z um
vetor qualquer de H. Evocando sucessivas vezes a continuidade do produto escalar e a hipótese (26.25),
temos
D E
hz, yi = z, lim Axn = lim hz, Axn i = lim hAz, xn i
n→∞ n→∞ n→∞
D E
= Az, lim xn = hAz, xi = hz, Axi .
n→∞
Assim, para todo z ∈ H vale hz, (y − Ax)i = 0, o que só é possı́vel se y = Ax.
A lição que extraı́mos desse teorema é que se A não é um operador contı́nuo, uma relação como
(26.25) não pode ser satisfeita para todos x, y ∈ H. Isso nos força a termos cautela quando definirmos
o conceitos como o de operador auto-adjunto para operadores não-limitados.
Vamos agora particularizar nossa discussão para o contexto de espaços de Hilbert. Seja H um
espaço de Hilbert. Um operador linear A agindo em H é uma função linear definida em um domı́nio
Dom (A) que é um sub-espaço de H. Freqüentemente denotaremos esse domı́nio por D(A) ou ainda
11
Ernst David Hellinger (1883-1950). Otto Toeplitz (1881-1940).
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 26 1280/1461
por DA . A imagem de A, Im(A), será freqüentemente denotada por R(A) ou por RA , a letra “R” sendo
proveniente da palavra inglesa “range”.
Na teoria de operadores em espaços de Hilbert é absolutamente fundamental lembrar que cada
operador é definido em um domı́nio especı́fico, pois propriedades do mesmo podem mudar se o domı́nio
for alterado.
d
Considere-se o exemplo do espaço de Hilbert L2 ([0, 1], dx), e os operadores A1 = i dx , definido no
d
domı́nio D(A1 ) das funções contı́nuas e continuamente diferenciáveis do intervalo [0, 1] e A2 = i dx ,
definido no domı́nio D(A2 ) das funções contı́nuas e continuamente diferenciáveis do intervalo [0, 1] que
se anulam em x = 0 e em x = 1. O operador A2 é simétrico no seu domı́nio, ou seja, para todos φ, ψ
no seu domı́nio vale hφ, A2 ψi = hA2 φ, ψi, mas o operador A1 não tem essa propriedade.
E. 26.12 Exercı́cio. Verifique as afirmativas feitas no último parágrafo usando para tal integração por
partes. 6
No caso de operadores limitados (contı́nuos), a situação se simplifica muito pois, como iremos
argumentar, um operador limitado sempre pode ser definido em todo o espaço de Hilbert.
De fato, seja A um operador linear limitado definido em um sub-espaço D(A) de um espaço de
Hilbert H. Se D(A) for fechado, podemos estender A ao complemento ortogonal D(A)⊥ , definindo-
o como zero em D(A)⊥ . Mais precisamente fazemos o seguinte: pelo Teorema da Decomposição
Ortogonal, Teorema 25.2, página 1229, todo x ∈ H pode ser escrito como x = y + z com y ∈ D(A) e
z ∈ D(A)⊥ . Definimos então A′′ , extensão de A, com domı́nio igual a todo H por
A′ y = lim Ayn .
n→∞
E. 26.13 Exercı́cio. Usando a continuidade mostre que o limite do lado direito sempre existe e que não
depende da particular seqüência yn em D(A) que converge a y. 6
o que mostra que ly é um funcional linear limitado. Aplica-se então o Teorema da Representação de
Riesz (página 1246) e podemos dizer que existe um vetor z ∈ H tal que
para todos x, y ∈ H. Note-se que, pela própria construção, o domı́nio de definição de A∗ é todo H,
pois y é arbitrário. Esse fato não é verdadeiro para o caso em que A não é limitado. Vamos no que
segue demonstrar uma série de propriedades de A∗ , a mais básica sendo a linearidade. As propriedades
que desejamos provar estão listadas na forma do seguinte teorema:
Teorema 26.11 O operador adjunto A∗ de um operador limitado A agindo em um espaço de Hilbert
H é também um operador linear, limitado e satisfaz
1. (A∗ )∗ = A
2. kA∗ k = kAk
ou seja, ∗ é anti-linear.
7. Se A tem uma inversa contı́nua, então A∗ também o tem e (A−1 )∗ = (A∗ )−1 .
2
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 26 1282/1461
ou seja,
h [A∗ (αy + βy ′) − (αA∗ (y) + βA∗ (y ′ ))] , xi = 0,
para todo x ∈ H. Isso só é possı́vel se A∗ (αy + βy ′ ) − (αA∗ (y) + βA∗ (y ′)) = 0, provando a linearidade.
Continuidade.
Para todo x ∈ H tem-se
kA∗ xk2 = hA∗ x, A∗ xi = hx, AA∗ xi ≤ kxk kAA∗ xk ≤ kxk kAk kA∗ xk.
Para x tal que A∗ x 6= 0, essa desigualdade diz (cancelando um fator kA∗ xk de cada lado) que
Esta última desigualdade é, porém trivialmente verdadeira caso A∗ x = 0. Portanto, a mesma vale para
todo x, mostrando que A∗ é limitada e, assim, contı́nua. A mesma desigualdade mostra que
kA∗ xk
kA∗ k = sup ≤ kAk,
x6=0 kxk
Prova de (A∗ )∗ = A.
Para todo x, y ∈ H tem-se
Assim,
h[A − (A∗ )∗ ]x, yi = 0
para todo x, y ∈ H, o que só é possı́vel se (A∗ )∗ = A, como querı́amos provar.
Prova de kA∗ k = kAk.
A relação (26.27) provou que para todo A limitado vale kA∗ k ≤ kAk. Como A∗ é também limitado,
vale também (substituindo A → A∗ ) que k(A∗ )∗ k ≤ kA∗ k, que significa que kAk ≤ kA∗ k. Isso, junto
com (26.27) implica kA∗ k = kAk, como querı́amos.
Prova de kA∗ Ak = kAk2 .
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 26 1283/1461
Assim,
kA∗ Axk
kA∗ Ak = sup ≤ kAk2 . (26.28)
x6=0 kxk
kAxk2 = hAx, Axi = hA∗ Ax, xi ≤ kA∗ Axk kxk ≤ kA∗ Ak kxk2 .
Assim, 2
kAxk kAxk2
2
kAk = sup = sup 2
≤ kA∗ Ak,
x6=0 kxk x6=0 kxk
provando que kAk2 ≤ kA∗ Ak. Com (26.28) isso mostra que kA∗ Ak = kAk2 , como querı́amos.
A prova que (αA + βB)∗ = αA∗ + βB ∗ , assim como a prova que (AB)∗ = B ∗ A∗ são deixadas como
exercı́cio.
Que 1∗ = 1 é elementar. Se A tem uma inversa contı́nua, então
e
1 = 1∗ = (AA−1 )∗ = (A−1 )∗ A∗ ,
mostrando que (A−1 )∗ = (A∗ )−1 .
A existência do operador adjunto A∗ de um operador limitado A foi obtida acima com uso do
Teorema da Representação de Riesz e nesse caso obtemos um operador igualmente limitado e definido
em todo H. No caso em que A não é contı́nuo o argumento a ser seguido é um pouco diferente e só
pode fornecer o adjunto em um domı́nio menor que H. Há mesmo casos em que o domı́nio de A∗ é
formado apenas pelo vetor nulo!
Outro advertência importante diz respeito à propriedade (A∗ )∗ = A, demonstrada acima para
operadores limitados. A mesma não é também, em geral, satisfeita para operadores não-limitados.
Esse fato é mais uma causa de transtorno técnico na teoria dos operadores não-limitados.
Por fim, mencionamos que a propriedade kAk2 = kA∗ Ak abre caminho para a importante teoria
das chamadas álgebras C∗ , sobre as quais falaremos adiante.
para todos x, y ∈ H. Se A não é limitado, vimos pelo Teorema de Hellinger-Toeplitz (página 1279)
que uma relação dessas não pode ser satisfeita para todos x, y ∈ H. Em função disso será necessário
criar uma distinção entre operadores simétricos e operadores auto-adjuntos no contexto de operadores
não-limitados. Essa distinção é importante e há vários fenômenos fı́sicos associados a ela.
Qualquer operador limitado pode ser escrito como soma de dois operadores auto-adjuntos, a saber
A = Re(A) + iIm(A),
onde
1 1
Re(A) = (A + A∗ ) e Im(A) = (A − A∗ ).
2 2i
É trivial verificar que Re(A) e Im(A) são auto-adjuntos.
Um operador limitado A que satisfaça AA∗ = A∗ A é dito ser normal. É trivial verificar que um
operador A é normal se e somente se Re(A) e Im(A) comutarem entre si.
Um operador limitado A que satisfaça AA∗ = A∗ A = 1 é dito ser unitário. Todo operador unitário
é normal.
É possı́vel mostrar que qualquer operador limitado pode ser escrito como soma de até quatro
operadores unitários.
Se Mλ , o sub-espaço gerado pelos autovetores de B com autovalor λ, tiver dimensão finita, dizemos
que λ tem degenerescência finita. Nesse caso, define-se a multiplicidade (geométrica) de λ como sendo
a dimensão de Mλ .
• Sub-espaços invariantes
Prova. Se φ e ψ são dois vetores arbitrários tais que φ ∈ M e ψ ∈ M⊥ então hA∗ ψ, φi = hψ, Aφi = 0,
pois Aφ ∈ M, por hipótese. Logo, A∗ ψ é ortogonal a todo vetor φ ∈ M, o que equivale a dizer que
A∗ ψ ∈ M⊥ . Como ψ é um vetor arbitrário de M⊥ , segue que M⊥ é invariante por A∗ .
Faremos aqui uma breve menção ao fato que o conceito de adjunto de operadores possui uma
generalização para operadores contı́nuos agindo em espaços de Banach, em geral.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 26 1287/1461
Seja X um espaço de Banach e X † = B(X, C) seu dual topológico que, como já observamos na
|l(x)|
seção 26.1.2, é um espaço de Banach com norma klkX † = sup , l ∈ X †.
x∈X, x6=0 kxk X
No caso em que X = Y = H, onde H é um Hilbert, há uma distinção sutil entre T ′ e T ∗ . O primeiro
é uma aplicação de H† em H† enquanto que o segundo é uma aplicação de H em H. A relação entre
ambos é estabelecida pela aplicação R : H† → H, definida em (26.5), página 1260. Tem-se, a saber,
T ′ = R−1 T ∗ R.
Há um fato especial sobre a norma de operadores auto-adjuntos limitados agindo em um espaço de
Hilbert do qual faremos uso repetido no que seguirá.
Teorema 26.12 Se T é um operador auto-adjunto limitado em um espaço de Hilbert H então
|hφ, T φi|
kT k = sup = sup |hφ, T φi|. (26.31)
φ∈H, φ6=0 kφk2 φ∈H, kφk=1
h(x + y), T (x + y)i = hx, T xi + hx, T yi + hy, T xi + hy, T yi = hx, T xi + 2Re(hx, T yi) + hy, T yi,
h(x − y), T (x − y)i = hx, T xi − hx, T yi − hy, T xi + hy, T yi = hx, T xi − 2Re(hx, T yi) + hy, T yi.
Definindo-se
|hφ, T φi|
T = sup
φ∈H, φ6=0 kφk2
é claro que
|hφ, T φi| ≤ Tkφk2
para todo φ ∈ H. Retornando à (26.32), tem-se
kyk
Vamos provisoriamente supor que kT yk =
6 0. Escolhendo x = T y, a última desigualdade fica
kT yk
1
kT yk kyk ≤ T(kyk2 + kyk2) = Tkyk2 ,
2
ou seja,
kT yk ≤ Tkyk.
Como essa desigualdade vale trivialmente caso kT yk = 0, a mesma deve valer para todo y ∈ H.
Claramente isso diz que
kT k ≤ T. (26.33)
Por outro lado, tem-se pela desigualdade de Cauchy-Schwarz que, para todo φ ∈ H,
Logo,
|hφ, T φi|
T = sup ≤ kT k.
φ∈H, φ6=0 kφk2
Comparando essa desigualdade a (26.33), concluı́mos que kT k = T, que é o que querı́amos provar.
• Álgebras Associativas
Uma álgebra sobre o corpo dos complexos é um espaço vetorial A sobre o corpo C dotado de uma
operação de produto binária “·” dita produto da álgebra, de modo que as seguintes propriedades são
satisfeitas
a · (b + c) = a · b + a · c e (a + b) · c = a · c + b · c.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 26 1290/1461
2. O produto por escalares comuta com o produto da álgebra e é distributivo em relação a ele: para
todos a, b ∈ V e α ∈ C vale
α(a · b) = (αa) · b = a · (αb).
Uma álgebra A é dita ser uma álgebra comutativa se para todos a, b ∈ A tivermos
a · b = b · a.
Uma álgebra é dita ser uma álgebra associativa se para todos a, b e c ∈ A tivermos
a · (b · c) = (a · b) · c.
Se A é uma álgebra associativa, podemos sem ambigüidade denotar o produto de dois de seus
elementos a, b ∈ A simplesmente por por ab.
Uma álgebra associativa sobre o corpo dos complexos A é dita ter uma involução se existir uma
operação unária ∗ : A → A, que para todo a ∈ A associa um elemento denotado por a∗ ∈ A, com as
seguintes propriedades:
Álgebras que possuem uma involução são ditas ser involutivas ou álgebras A∗ .
A operação de adjunção para operadores limitados em espaços de Hilbert é a inspiração da definição
de involução. Vamos a outros exemplos. Seja A = C(R, C) a álgebra das funções contı́nuas R → C
com o produto usual: (f g)(x) = f (x)g(x). É fácil ver que f 7→ f ∗ dada por f ∗ (x) = f (x) define uma
involução. A aplicação f 7→ f ∗ dada por f ∗ (x) = f (−x) também define uma involução.
Seja A = C(R, C) ⊕ C(R, C) com o produto (f (x), g(x)) · (l(x), m(x)) = (f (x)l(x), g(x)m(x)).
A aplicação (f, g) 7→ (f, g)∗ = (f , g) é uma involução. A aplicação (f, g) 7→ (f, g)∗ = (g, f )
é também uma involução. A aplicação (f (x), g(x)) 7→ (f (x), g(x))∗ = (g(−x), f (−x)) é igualmente
uma involução.
Seja A = B(H), a álgebra dos operadores limitados agindo em um espaço de Hilbert H e seja
d ∈ B(H) tal que d2 = 1 e d = d∗ , onde d∗ é a adjunta usual de d. Então A ∋ a 7→ a† := d∗ a∗ d define
uma involução em A.
• Álgebras de Banach
Uma álgebra de Banach B é um espaço de Banach, portanto um espaço vetorial normado e completo
em relação a essa norma, dotado de um produto associativo para o qual valha kxyk ≤ kxkkyk para
todos x, y ∈ B. Fora isso, se a álgebra possuir uma unidade 1, requeremos também que k1k = 1.
• Álgebras de Banach-∗
Uma álgebra de Banach B com involução é dita ser uma álgebra de Banach-∗, ou uma álgebra B ∗ ,
se a involução e a norma satisfizerem kak = ka∗ k para todo a ∈ B.
Note-se que se A é uma álgebra B ∗ vale ka∗ ak ≤ ka∗ k kak = kak2
• Álgebras C∗
Uma álgebra C é dita ser uma álgebra C∗ se for uma álgebra de Banach-∗ com a propriedade
adicional que ka∗ ak = kak2 para todo a ∈ C. Essa propriedade é denominada propriedade C∗ .
Exemplo. Em função do Teorema 26.11, página 1281, toda álgebra B(H) é uma álgebra C∗ com
unidade.
Exemplo. Mostraremos no Corolário 26.13, página 1344, que o conjunto dos operadores compactos
agindo em um espaço de Hilbert H é também uma álgebra C∗ , sem unidade caso H não tenha dimensão
finita.
O estudo de propriedades de álgebras C∗ é de grande importância para a compreensão da álgebra
de operadores limitados em espaços de Hilbert. Adiante teremos a oportunidade de explicitar isso.
Também na Fı́sica Quântica álgebras C∗ desempenham um papel fundamental. Vide [54] ou a discussão
que segue o Teorema Espectral.
Proposição 26.12 Se B é uma álgebra de Banach com norma k·k então as operações de soma, produto
por escalares e produto (à esquerda ou à direita) são contı́nuas na topologia induzida pela norma. Se
B é uma álgebra de Banach-∗ então também a involução é contı́nua na topologia induzida pela norma.
2
O leitor não deve aborrecer-se com a aparente trivialidade das asserções acima, pois há topologias
em álgebras de Banach nas quais o produto e a involução não são contı́nuas! Para tais topologias todo
o cuidado é necessário.
Prova. Se A é bijetora a aplicação inversa A−1 faz o serviço desejado. Suponhamos agora que exista
B como acima. Se A não é injetora, então existem x, y ∈ V distintos com Ax = Ay. Aplicando B à
esquerda e usando BA = 1, concluı́mos que x = y, uma contradição. Se A não é sobrejetora, existe
x ∈ V tal que Ay − x 6= 0 para todo y ∈ V. Se assim é, tomemos y = Bx. Concluirı́amos de AB = 1
que 0 6= ABx − x = x − x, um absurdo. A unicidade de B segue da observação que se B ′ : V → V
for também tal que AB ′ = 1 e B ′ A = 1, então aplicando B à esquerda na primeira relação e usando a
associatividade teremos B = B(AB ′ ) = (BA)B ′ = 1B ′ = B ′ .
de dimensão infinita, porém, isso não é sempre verdade e é preciso requerer tanto AB = 1 quanto
BA = 1 da inversa de A. Como exemplo, considere-se o espaço vetorial S(C) de todas as seqüências de
números complexos (vide Seção 17.4.1, página 964). Defina-se A : S(C) → S(C) e B : S(C) → S(C)
por
A(a1 , a2 , a3 , a4 , a5 , . . .) = (0, a1 , a2 , a3 , a4 , . . .) ,
B(a1 , a2 , a3 , a4 , a5 , . . .) = (a2 , a3 , a4 , a5 , a6 , . . .) .
Então,
BA(a1 , a2 , a3 , a4 , a5 , . . .) = (a1 , a2 , a3 , a4 , a5 , . . .) ,
AB(a1 , a2 , a3 , a4 , a5 , . . .) = (0, a2 , a3 , a4 , a5 , . . .) ,
Vamos analisar as várias situações que podem ocorrem com operadores limitados agindo em um
espaço de Banach X no que concerne a sua invertibilidade ou não-invertibilidade. Naturalmente, um
operador limitado V ∈ B(X) agindo em um espaço de Banach X pode ser bijetor ou não e, se não o
for, vários sub-casos são possı́veis. Temos o seguinte quadro:
1. V é bijetor.
Se V ∈ B(X) é um operador limitado e é bijetor então, pelo Teorema da Aplicação Inversa,
Teorema 26.8, página 1277, V −1 é igualmente um elemento de B(X).
2. V não é bijetor.
Se V ∈ B(X) não é bijetor, então ou V não é injetor ou não é sobrejetor (ou ambos).
porém, que pela definição de W dada pelo Teorema BLT, vale para todo x ∈ X que
W x = limy→x
V −1 y. Assim, como V é contı́nuo,
y∈Ran(V )
V Wx = V lim
y→x
V −1 y = lim
y→x
V V −1 y = lim
y→x
y = x.
y∈Ran(V ) y∈Ran(V ) y∈Ran(V )
(a) V não é injetor, Ker (V ) é não-trivial e V −1 não pode ser definida em Ran (V ).
(b) V é injetor e não é sobrejetor, Ran (V ) é denso em X e Ker (V ) = {0}, sendo que V −1 :
Ran (V ) → X existe mas não é limitada.
(c) V é injetor e não é sobrejetor, Ran (V ) não é denso em X e Ker (V ) = {0}, sendo que
V −1 : Ran (V ) → X existe, podendo ser limitada ou não. 2
A proposição seguinte é também relevante e será empregada quando da discussão sobre o espectro
de operadores auto-adjuntos em espaços de Hilbert.
Proposição 26.14 Se V ∈ B(X) é um operador limitado agindo em um espaço de Banach X tal que
V −1 : Ran (V ) → X existe e é limitada, então Ran (V ) é um sub-espaço fechado de X. 2
para todo n ∈ N e, portanto, ky −V xk ≤ ky −yn k+kV k kxn −xk. Agora, tomando n → ∞ e lembrando
que yn → y e xn → x, concluı́mos que ky − V xk = 0, ou seja, y = V x, o que prova que y ∈ Ran (V ).
Isso demonstra que Ran (V ) é fechado.
A Proposição 26.14 diz-nos que no item 2c do Teorema 26.13, Ran (V ) será um sub-espaço fechado
próprio de X caso V −1 seja limitada.
Vários resultados gerais sobre a inversa de operadores podem ser estabelecidos no contexto geral
de álgebras de Banach com unidade, para então particularizarem-se para álgebras como como B(X) ou
B(H), que são de álgebras Banach de operadores, com unidade, agindo em espaços de Banach ou de
Hilbert. Nas páginas que seguem trataremos dessa análise geral para depois estudarmos aqueles casos
particulares.
Seja doravante B uma álgebra de Banach com unidade. Um elemento w ∈ B é dito ser invertı́vel se
existir v ∈ B tal que vw = wv = 1. Se um tal v existe ele é único, como mostra o seguinte argumento
elementar: se v ′ também satisfaz 1 = v ′ w = wv ′ , então, multiplicando-se à direita por v e usando-se
a associatividade, teremos v = (v ′ w)v = v ′ (wv) = v ′ 1 = v ′ . Se v satisfaz vw = wv = 1, é dito ser a
inversa ou elemento inverso de w e é denotado por w −1 .
Se B uma álgebra de Banach com unidade e w ∈ B é invertı́vel então, w −1 w = ww −1 = 1 implica,
∗ ∗
tomando-se o adjunto, w ∗ (w −1) = (w −1 ) w ∗ = 1, o que significa que w ∗ é também invertı́vel e vale
∗
(w ∗ )−1 = w −1 . (26.34)
Pela Proposição 26.13, acima, no caso da álgebra de Banach-∗ B(X), dos operadores lineares
contı́nuos agindo em um espaço de Banach X, a noção de invertibilidade acima coincide coma usual.
Vamos designar por Inv (B) o conjunto dos elementos invertı́veis de uma álgebra de Banach com
unidade B. É bastante evidente que Inv (B) é um grupo com relação a operação de produto em B. Em
verdade, trata-se de um grupo contı́nuo como mostraremos mais adiante.
Na teoria de operadores é muito importante conhecer condições suficientes que garantam a inver-
tibilidade de operadores. No contexto de álgebras de Banach com unidade a seguinte proposição é
fundamental.
Proposição 26.15 Seja B uma álgebra de Banach com unidade. Então, para todo w ∈ B com kwk < 1
existe (1 − w)−1 , a saber, dado por
∞
X
(1 − w) −1
:= 1 + wk , (26.35)
k=1
sendo que a série ao lado direito converge na norma de B. A série em (26.35) é denominada série de
Neumann12 . 2
12
Carl Neumann (1832-1925).
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 26 1296/1461
n
Prova. Provemos primeiramente que a série de Neumann converge. Se sn := 1 + Σ w k , então, para
k=1
n
k
m < n vale sn − sm = Σ w . Logo,
k=m+1
n
X n
X n−m−1
X ∞
X
k k m+1 k m+1 kwkm+1
ksn − sm k ≤ kw k ≤ kwk = kwk kwk ≤ kwk kwkk = .
k=m+1 k=m+1 k=0 k=0
1 − kwk
∞
1
A série numérica Σ kwkk converge a 1−kwk
pois kwk < 1. Por essa mesma razão, é claro que kwkm+1
k=0
pode ser feito menor que qualquer ǫ > 0 prescrito, desde que m seja grande o suficiente. Isso provou
que sn , n ∈ N é uma seqüência de Cauchy na norma de B e, portanto, converge. Seja, v ∈ B o seu
limite. Teremos
n
! n n
!
X X X
wv = w + w lim wk = w + lim w k+1 = w + lim w k + w n+1 − w
n→∞ n→∞ n→∞
k=1 k=1 k=1
n
X
= lim w n+1
+ lim wk = v − 1 ,
n→∞ n→∞
k=1
onde acima usamos a continuidade do produto em B (Proposição 26.12, página 1292) e o fato que
lim w n+1 = 0, pois kw n+1 k ≤ kwkn+1 → 0 para n → ∞, pois kwk < 1. Logo, (1 −w)v = v−(v−1) = 1.
n→∞
Analogamente,
n
! n n
!
X X X
vw = w + lim wk w = w + lim w k+1 = w + lim w k + w n+1 − w
n→∞ n→∞ n→∞
k=1 k=1 k=1
n
X
= lim w n+1
+ lim wk = v − 1 ,
n→∞ n→∞
k=1
o que mostra que 1 − vu ∈ Inv (B) com (1 − vu)−1 = (1 + vwu). A recı́proca é evidente.
A Proposição 26.15 tem um corolário que usaremos oportunamente, o qual afirma que elementos de
uma álgebra de Banach que estejam suficientemente próximos de um elemento invertı́vel são também
invertı́veis.
Corolário 26.3 Seja B uma álgebra de Banach com unidade e seja w um elemento invertı́vel de B.
Suponhamos que v ∈ B seja tal que k1 − vw −1 k < 1, o que ocorre, por exemplo, se kv − wk < kw −1 k−1 .
Então v é invertı́vel e !
X∞
k
v −1 = w −1 1 + 1 − vw −1 ,
k=1
sendo a série do lado direito convergente na norma de B. 2
Prova. Tem-se v = v −w +w = (1 −(w −v)w −1 )w. Pela Proposição 26.15, 1 −(w −v)w −1 será invertı́vel
se k(w − v)w −1 k < 1. Como k(w − v)w −1 k ≤ kw − vk kw −1k, isso será satisfeito se kv − wk < kw −1 k−1 .
Teremos então, novamente pela Proposição 26.15,
∞
! ∞
!
X X k
v −1 = w −1(1 − (w − v)w −1 )−1 = w −1 1 + [(w − v)w −1 ]k = w −1 1 + 1 − vw −1 .
k=1 k=1
Para estabelecermos que Inv (B) é também um grupo contı́nuo usaremos o fato descrito na pro-
posição seguinte.
Proposição 26.17 Seja B uma álgebra de Banach com unidade. Então, a aplicação que a cada w ∈
Inv (B) associa sua inversa w −1 é contı́nua na topologia da norma de B. 2
Prova. Seja v ∈ Inv (B) fixado e tomemos u ∈ Inv (B) tal que ku − vk < ǫ com ǫ > 0 escolhido pequeno
o suficiente de modo que ǫkv −1 k < 1. Que tal é possı́vel garante-nos o Corolário 26.4. É claro que
−1
u = v + (u − v) = v(1 + v −1 (u − v)), de maneira que u−1 = [1 + v −1 (u − v)] v −1 . Logo,
n −1 o
u−1 − v −1 = 1 + v −1 (u − v) − 1 v −1 .
Assim, como pela escolha de ǫ temos kv −1 (u − v)k ≤ ǫkv −1 k < 1, podemos por (26.35) escrever
" ∞ #
X m
u−1 − v −1 = (−1)m v −1 (u − v) v −1 .
m=1
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 26 1298/1461
Tem-se, então,
" ∞
# " ∞
#
X X m ǫkv −1 k2
ku−1 − v −1 k ≤ kv −1 km ku − vkm kv −1 k ≤ ǫkv −1 k kv −1 k = .
m=1 m=1
1 − ǫkv −1 k
Se B é álgebra de Banach com unidade e u ∈ B, denotamos por ρ(u) o chamado conjunto resolvente
de u, definido por ρ(u) := {λ ∈ C| λ1 − u ∈ Inv (B)}. O chamado espectro de u, denotado por σ(u), é
definido por
σ(u) := {λ ∈ C| λ1 − u 6∈ Inv (B)} ,
ou seja, σ(u) = C \ ρ(u).
Prova. Se λ 6= 0, então (λ1 − uv) = λ(1 − λ−1 uv), que pela Proposição 26.16, página 1296, é invertı́vel
se e somente se λ(1 − λ−1 vu) o for.
Uma conseqüência imediata é o seguinte corolário, o qual revela uma propriedade de invariância do
espectro.
Corolário 26.5 Se B é uma álgebra de Banach com unidade e u, v ∈ B com u ∈ Inv (B), então
σ (uvu−1) = σ(v). 2
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 26 1299/1461
Prova. Pela Proposição 26.19, é imediato que σ (uvu−1) \ {0} = σ(v) \ {0}. Agora, 0 6∈ ρ(v) se e
somente se v 6∈ Inv (B). Assim, 0 ∈ σ(v) se e somente se v ∈ Inv (B). Mas, v ∈ Inv (B) se e somente se
uvu−1 ∈ Inv (B) o que, por sua vez ocorre se e somente se 0 ∈ σ(uvu−1). Logo, 0 ∈ σ(v) se e somente
se 0 ∈ σ(uvu−1).
Prova da Proposição 26.20. Se u é invertı́vel, então 0 ∈ ρ(u), ou seja, 0 6∈ σ(u). É também claro que
para λ 6= 0 (λ1 − u) = −λu (λ−1 1 − u−1), o que claramente mostra que λ ∈ σ(u) se e somente se
λ−1 ∈ σ (u−1 ).
Denotaremos σ(u)−1 := {λ ∈ C| λ−1 ∈ σ(u)}. O que a proposição acima afirma é que se u ∈ Inv (B),
então σ (u−1 ) = σ(u)−1 .
Proposição 26.21 Seja B uma álgebra de Banach-∗ com unidade e u ∈ Inv (B) um elemento invertı́vel
de B. Então,
σ (u∗ ) = {λ ∈ C| λ ∈ σ(u)} .
2
Prova da Proposição 26.21. (λ1 − u)∗ = λ1 − u∗ . Logo, por (26.34), λ ∈ σ(u) se e somente se
λ ∈ σ(u∗ ).
Denotaremos σ(u)cc := {λ ∈ C| λ ∈ σ(u)}. O que a proposição acima afirma é que σ (u∗ ) = σ(u)cc .
Seja B uma álgebra de Banach com unidade e seja um polinômio p(z) = a0 + a1 z + . . . + an z n
definido para z ∈ C. Para u ∈ B definimos p(u) := a0 1 + a1 u + . . . + an un ∈ B. Para polinômios de
operadores, vale a seguinte propriedade importante, conhecida como Teorema da Aplicação Espectral:
Teorema 26.14 (Teorema da Aplicação Espectral) Sejam B uma álgebra de Banach com uni-
dade e u ∈ B. Então para todo polinômio p vale
Prova. Vamos supor que p(z) = a0 + a1 z + . . . + an z n seja de grau n ≥ 1, pois no caso de um polinômio
constante a afirmativa é trivial. Tomemos µ ∈ σ(p(u)), que é não-vazio, como sabemos, e sejam
α1 , . . . , αn as n raı́zes do polinômio p(z) − µ em C. Então p(z) − µ = an (z − α1 ) · · · (z − αn ), o que
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 26 1300/1461
implica p(u)−µ1 = an (u−α1 1) · · · (u−αn 1). Se nenhum dos αi pertencesse a σ(u) então cada (u−αj 1)
seria invertı́vel, assim como o produto an (u − α1 1) · · · (u − αn 1), contrariando o fato de µ ∈ σ(p(u)).
Logo, algum dos αi pertence a σ(u). Como p(αi ) = µ, isso diz que σ(p(u)) ⊂ {p(λ), λ ∈ σ(u)}.
Provemos agora a recı́proca. Já sabemos que σ(u) é não-vazio. Para λ ∈ σ(u) tem-se evidentemente
que o polinômio p(z) − p(λ) tem λ como raiz. Logo, p(z) − p(λ) = (z − λ)q(z), onde q é um polinômio
de grau n − 1. Portanto, p(u) − p(λ)1 = (u − λ1)q(u) e como (u − λ1) não é invertı́vel, p(u) − p(λ)1
também não o pode ser, o que diz-nos que p(λ) ∈ σ(p(u)). Isso significa que {p(λ), λ ∈ σ(u)} ⊂ σ(p(u)),
estabelecendo σ(p(u)) = {p(λ), λ ∈ σ(u)}.
Iremos agora estabelecer uma série de resultados sobre propriedades do operador resolvente que
culminarão com a Proposição 26.25.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 26 1301/1461
Lema 26.3 Sejam B uma álgebra de Banach com unidade e u ∈ B. Se λ e µ pertencem ao conjunto
resolvente ρ(u) de u e |λ − µ| < kRµ (u)k−1 então
" ∞
# " ∞
#
X X
Rλ (u) = Rµ (u) 1 + (µ − λ)n (Rµ (u)) n
= 1+ n
(µ − λ)n (Rµ (u)) Rµ (u) . (26.37)
n=1 n=1
Prova. Que as séries acima são convergentes para |λ − µ| < kRµ (u)k−1 é elementar. Portanto, ambas
definem operadores de B. A segunda igualdade em (26.37) é também evidente. Resta-nos provar que
as expressões do lado direito são de fato iguais à inversa de λ1 − u. Agora,
(λ1 − u)Rµ (u) = (λ − µ)1 + (µ1 − u) Rµ (u) = −(µ − λ)Rµ (u) + 1 .
Assim,
" ∞
#
X
(λ1 − u)Rµ (u) 1 + (µ − λ)n (Rµ (u))n
n=1
" ∞
# " ∞
#
X X
= −(µ − λ)Rµ (u) 1 + (µ − λ)n (Rµ (u)) n
+ 1+ (µ − λ)n (Rµ (u)) n
n=1 n=1
∞
" ∞
#
X X
= − (µ − λ)n (Rµ (u))n + 1 + (µ − λ)n (Rµ (u))n = 1.
n=1 n=1
é análogo.
Prova. O Lema 26.3 afirma que se µ ∈ ρ(u), então todo λ ∈ C que dista de µ menos que kRµ (u)k−1 é
também um elemento de ρ(u). Ora, isso está precisamente dizendo que ρ(u) é um subconjunto aberto
de C e, portanto, σ(u) é um subconjunto fechado de C, por ser o complemento de ρ(u).
A proposição seguinte, que será usada logo adiante, ilustra a importância da teoria das funções
analı́ticas no estudo de propriedades de operadores em álgebras de Banach.
Proposição 26.24 Sejam B uma álgebra de Banach e u ∈ B. Então, para cada ℓ ∈ B† , funcional
linear contı́nuo em B, a função de variável complexa fℓ : ρ(u) → C dada por fℓ (λ) := ℓ(Rλ (u)) é
holomórfica (i.e. analı́tica) em cada componente conexa de ρ(u). 2
Prova. Sejam µ ∈ ρ(u) e λ tal que |λ − µ| < kRµ (u)k−1. Tem-se por (26.37) que λ ∈ ρ(u) e
∞
!
(26.37) X n+1
fℓ (λ) := ℓ(Rλ (u)) = ℓ Rµ (u) + (µ − λ)n (Rµ (u))
n=1
∞
X
(µ − λ)n ℓ (Rµ (u))n+1 . (26.38)
continuidade
= ℓ(Rµ (u)) +
n=1
Como
ℓ (Rµ (u))n+1 ≤ kℓk k (Rµ (u))n+1 k ≤ kℓk kRµ (u)kn+1 ,
segue de |λ − µ| < kRµ (u)k−1 que a última série em (26.38) é absolutamente convergente e, portanto,
define uma função holomórfica na bola aberta de raio kRµ (u)k−1 centrada em µ, a qual pode, pelos
procedimentos usuais, ser estendida analiticamente à componente conexa de ρ(u) que contém µ.
A proposição seguinte, devida a Gelfand13 , é importante pois finalmente estabelece que o espectro
de um operador contı́nuo em um espaço de Banach nunca é vazio.
Proposição 26.25 Sejam B uma álgebra de Banach com unidade e u ∈ B. Então, σ(u) é um conjunto
não-vazio e está contido na bola fechada de raio kuk centrada em 0: {z ∈ C| |z| ≤ kuk}. 2
Prova. Vamos supor que ρ(u) = C. Então, pela Proposição 26.24, para todo ℓ funcional linear contı́nuo
em B a função fℓ (λ) := ℓ(Rλ (u)) seria inteira, isto é, analı́tica em toda parte. Agora, para |λ| > kuk
" ∞
#
X
Rλ (u) = (λ1 − u)−1 = λ−1 (1 − λ−1 u)−1 = λ−1 1 + λ−n un (26.39)
n=1
de acordo com (26.35) da Proposição 26.15, página 1295, pois pela hipótese kλ−1 uk < 1. Assim,
" ∞ n #
1 X kuk 1
kRλ (u)k ≤ 1+ = .
|λ| n=1
|λ| |λ| − kuk
13
Israil Moiseevic Gelfand (1913-).
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 26 1303/1461
Isso mostra que lim kRλ (u)k = 0. Logo, como |fℓ (λ)| = |ℓ(Rλ (u))| ≤ kℓk kRλ(u)k, segue que
|λ|→∞
lim |fℓ (λ)| = 0. Com isso, concluı́mos que fℓ (λ) é uma função inteira, limitada e converge a zero
|λ|→∞
no infinito. Pelo bem-conhecido Teorema de Liouville14 da Análise Complexa, isso implica que fℓ (λ) é
identicamente nula para todo λ ∈ C. Se, porém, ℓ(Rλ (u)) for nulo para cada funcional linear contı́nuo
ℓ então, pelo Corolário 26.1, página 1270, terı́amos Rλ (u) = 0, um absurdo, pois Rλ (u) é a inversa de
um operador. Assim concluı́mos que ρ(u) não pode ser igual a todo C e, portanto, σ(u) 6= ∅.
Pela Proposição 26.15, página 1295, a expressão (26.39) mostra que Rλ (u) está definida para todo
|λ| > kuk. Assim, {z ∈ C| |z| > kuk} ⊂ ρ(u). Logo, σ(u) ⊂ {z ∈ C| |z| ≤ kuk}.
• O raio espectral
Pela Proposição 26.25, página 1302, sabemos que o espectro de um elemento u de uma uma álgebra
de Banach com unidade B está contido na bola fechada de raio kuk centrada em 0. Em muitas aplicações
é importante ter-se uma noção mais precisa sobre qual a maior distância à origem 0 em que se pode
encontrar um ponto do espectro de u. Os Teoremas 26.15 e 26.16, a seguir, fornecem-nos informações
mais precisas sobre essa distância.
Sejam B uma álgebra de Banach com unidade e u ∈ B. Definimos o raio espectral de u por
r(u) := sup |λ| ,
λ∈σ(u)
onde, como antes, σ(u) = {λ ∈ C| (λ1 − u) não é invertı́vel}. Pela Proposição 26.25, página 1302, está
claro que r(u) ≤ kuk. O seguinte teorema, devido a Beurling15 , é um dos resultados fundamentais da
análise espectral de operadores e será empregado várias vezes no que segue.
Teorema 26.15 (Teorema do Raio Espectral) Sejam B uma álgebra de Banach com unidade e
u ∈ B. Então,
r(u) = inf kun k1/n = lim kun k1/n . (26.40)
n≥1 n→∞
2
Prova do Teorema 26.15.16 É claro pela definição que {λ ∈ C| |λ| > r(u)} é uma componente conexa
do conjunto resolvente de u. Assim, pela Proposição 26.24, página 1302, as funções fℓ (λ) := ℓ(Rλ (u))
com ℓ ∈ B† , funcional linear contı́nuo em B, são analı́ticas na região {λ ∈ C| |λ| > r(u)}. De acordo
com fatos bem conhecidos da teoria das funções de variável complexa, isso implica que naquela região
fℓ (λ) possui uma representação em termos de uma série de Laurent17 :
∞
X
fℓ (λ) = an λ−n , |λ| > r(u) .
n=0
14
Joseph Liouville (1809-1882).
15
Arne Carl-August Beurling (1905-1986).
16
Seguiremos aqui a apresentação de [106], mas com alguns esclarecimentos extra. Basicamente, a vantagem dessa
demonstração é o uso do Princı́pio de Limitação Uniforme, o que a torna mais curta e elementar, em contraste com
outras exposições, como as de [17] ou de [116].
17
Pierre Alphonse Laurent (1813-1854).
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 26 1304/1461
Na região {λ ∈ C| |λ| > kuk} ⊂ {λ ∈ C| |λ| > r(u)}, vale kλ−1 uk < 1 e podemos escrever, usando
a série de Neumann (26.35),
−1
fℓ (λ) := ℓ(Rλ (u)) = ℓ (λ1 − u) −1
= λ ℓ 1−λ u
−1 −1
∞
! ∞
X continuidade de ℓ
X
= λ−1 ℓ λ−n un = ℓ (un ) λ−n−1
n=0 n=0
converge para todo λ com |λ| > r(u) e não apenas para |λ| > kuk. Como essa série é convergente,
concluı́mos que para todo λ com |λ| > r(u) devemos ter limn→∞ |ℓ (un ) λ−n−1 | = 0, o que implica que
a seqüência ℓ (un ) λ−n−1 é limitada. Assim, provamos que para cada ℓ ∈ B† existe uma constante
Mℓ > 0 tal que |ℓ (un ) λ−n−1 | ≤ Mℓ . Sob essas condições, o Princı́pio de Limitação Uniforme (ou
Teorema de Banach-Steinhaus, Teorema 26.6, página 1270) garante-nos que existe M ≥ 0, finito, tal que
kλ−n−1 un k ≤ M para todo n ≥ 1. Conseqüentemente, kun k1/n ≤ M 1/n |λ|1+1/n para todo n ≥ 1. Disso
extraı́mos que lim sup kun k1/n ≤ |λ|. Como essa desigualdade vale para todo λ ∈ {λ ∈ C| |λ| > r(u)},
n→∞
concluı́mos que
lim sup kun k1/n ≤ inf |λ| = r(u) .
n→∞ λ∈{λ∈C| |λ|>r(u)}
Pelo Teorema da Aplicação Espectral, Teorema 26.14, página 1299, sabemos que se λ ∈ σ(u) então
λ ∈ σ(un ) para todo n ∈ N. Logo, pela Proposição 26.25, página 1302, vale |λn | ≤ kun k. Isso
n
trivialmente diz que |λ| ≤ kun k1/n para todo λ ∈ σ(u) e todo n ≥ 1. Portanto,
r(u) := sup |λ| ≤ inf kun k1/n ≤ lim inf kun k1/n .
λ∈σ(u) n≥1 n→∞
Logo, estabelecemos lim sup kun k1/n ≤ r(u) ≤ inf kun k1/n ≤ lim inf kun k1/n , o que implica (26.40).
n→∞ n≥1 n→∞
O seguinte corolário importante será empregado adiante, por exemplo, quando discutirmos o ho-
momorfismo de Gelfand e o Teorema Espectral.
Teorema 26.16 Se A é uma álgebra C∗ com unidade e a ∈ A é um operador auto-adjunto (ou seja,
tal que a = a∗ ) ou normal (ou seja, tal que aa∗ = a∗ a), então
Note que se H é um espaço de Hilbert, B(H) é uma álgebra C∗ com unidade e, portanto, a afirmação
acima aplica-se a operadores limitados auto-adjuntos ou normais agindo em um espaço de Hilbert H.
2
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 26 1305/1461
Prova do Teorema 26.16. Em uma álgebra C∗ todo operador b satisfaz a propriedade C∗ : kb∗ bk = kbk2 .
Assim, para um operador auto-adjunto a, vale ka2 k = kak2 . Substituindo a nessa expressão pelo
n−1
operador auto-adjunto a2 e utilizando-a n vezes, teremos
n n−1 n−2 2 n
ka2 k = ka2 k2 = ka2 k2 = · · · = kak2 . (26.42)
Portanto,
(26.40) n n
r(a) = lim kam k1/m = lim ka2 k1/2 = lim kak = kak . (26.43)
m→∞ n→∞ n→∞
n
Tratemos agora do caso de operadores normais. Se b ∈ A, vale pela propriedade C∗ kb2 k2 =
n n n n n n n
k(b2 )∗ b2 k. Para um operador normal a, tem-se (a2 )∗ a2 = (a∗ a)2 . Logo, ka2 k2 = k(a∗ a)2 k. Como
n n
a∗ a é auto-adjunto, segue de (26.42) (substituindo lá a por a∗ a) que k(a∗ a)2 k = ka∗ ak2 . Novamente
n+1
pela propriedade C∗ , a última expressão vale kak2 . Provamos, então, que para a normal tem-se
n n
ka2 k = kak2 . Assim, aplica-se novamente (26.43), completando a prova.
O leitor deve, porém, ser advertido que há situações em que r(u) < kuk. Tal é o caso, por exemplo,
do operador de Volterra W , tratadoR x no Exemplo 26.6 à página 1351, o qual é definido no espaço de
Banach C([0, 1]) por (W f )(x) := 0 f (y)dy, e para o qual tem-se r(W ) = 0 mas kW k = 1.
Uma das conseqüências mais profundas do Teorema 26.16 são a proposição e o corolário seguintes.
Proposição 26.26 Se A é uma álgebra C∗ com unidade, então
p
kak = r(a∗ a)
para todo a ∈ A. 2
Prova. Pela propriedade C∗ vale kak2 = ka∗ ak para todo a ∈ A. Agora, a∗ a é auto-adjunto e, pelo
Teorema 26.16, r(a∗ a) = ka∗ ak.
Corolário 26.6 Se B é uma álgebra-∗ que é uma álgebra C∗ em relação a uma norma k · k1 e também
em relação a uma norma k · k2 então essas normas são iguais. 2
Um elemento u de uma álgebra-∗ com unidade é dito ser unitário se u−1 = u∗ , ou seja, se u∗ u =
uu∗ = 1.
As duas proposições que seguem são importantes por permitirem localizar com mais precisão o
espectro de operadores unitários ou auto-adjuntos.
Proposição 26.27 Seja A uma álgebra C∗ com unidade seja u ∈ A, unitário. Então σ(u) ⊂ S 1 :=
{λ ∈ C| |λ| = 1}. 2
Prova. Se u é unitário, pela propriedade C∗ , kuk2 = ku∗ uk = k1k = 1, ou seja, kuk = 1. Além disso,
por ser unitário, u é normal (pois u∗ u = uu∗ = 1). Assim, pelo Teorema 26.16, r(u) = kuk = 1. Isso
mostra que σ(u) é um subconjunto fechado do disco unitário centrado em 0: D1 := {λ ∈ C| |λ| ≤ 1}.
cc cc
Pelas Proposições 26.20 e 26.21, tem-se σ(u) = σ (u∗ )cc = σ (u−1 ) = (σ(u)−1) . Agora, os únicos
subconjuntos de D1 invariantes por inversão e conjugação complexa são subconjuntos de S 1 .
Proposição 26.28 Seja A uma álgebra C∗ com unidade seja a ∈ A, auto-adjunto. Então, σ(a) ⊂ R.
Mais precisamente, σ(a) é um subconjunto compacto de [−kak, kak]. 2
Há diversas demonstrações dessa importante proposição. A que apresentamos abaixo é inspirada na
da referência [17] (mas não idêntica à mesma) e faz uso de poucos recursos da teoria. A demonstração de
[106], por exemplo, merece ser comparada. Mais adiante, Teorema 26.25, página 1335, apresentaremos
uma outra demonstração para operadores limitados auto-adjuntos agindo em espaços de Hilbert.
Prova da Proposição 26.28. Se a = 0 não há o que demonstrar. Seja então a 6= 0 e sejam p > 0 e λ ∈ C,
sendo que a parte imaginária de λ é não-nula. Se |λ| > kak então já sabemos que λ 6∈ σ(a), de modo
que é suficiente considerarmos |λ| ≤ kak. Se escolhermos p < kak−1 , a norma dos operadores ±ipa será
pkak < 1 e pela Proposição 26.15, página 1295, os operadores 1 ± ipa são invertı́veis. Além disso, com
essas escolhas p < kak−1 < |λ|−1 , de modo que 1 ± ipλ 6= 0. Temos, assim,
2ipλ 2ip
λ1 − a = 1− a
2ip 2ip
! !
(1 + ipλ) − (1 − ipλ) ip (1 − ipλ) + (1 + ipλ)
= 1− a
2ip 2ip
1 h i
= (1 + ipλ)(1 − ipa) − (1 − ipλ) (1 + ipa)
2ip
1 − ipλ 1 + ipλ
= (1 − ipa) − (1 + ipa)
2ip 1 − ipλ
1 − ipλ 1 + ipλ
= 1 − (1 + ipa)(1 − ipa) −1
(1 − ipa) . (26.44)
2ip 1 − ipλ
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 26 1307/1461
for invertı́vel. Mostraremos que tal é o caso provando que u := (1 + ipa)(1 − ipa)−1 é unitário e que
1+ipλ
1−ipλ
é um número complexo de módulo diferente de 1. Para provar que u é unitário, fazemos o seguinte
desenvolvimento:
u := (1 + ipa)(1 − ipa)−1
= 21 − (1 − ipa) (1 − ipa)−1 = 2(1 − ipa)−1 − 1
= (1 − ipa) 21 − (1 − ipa) = (1 − ipa)−1 (1 + ipa)
−1
−1
= (1 + ipa)−1 (1 − ipa)
!−1
−1
a=a∗
= (1 − ipa)∗ (1 + ipa)∗
!−1 !−1
(26.34)
∗ h i∗
= (1 − ipa)−1 (1 + ipa)∗ = (1 + ipa)(1 − ipa)−1
= (u∗ )−1 ,
Como u é unitário e seu espectro é formado por números complexos de módulo 1 (Proposição 26.27),
concluı́mos que v é invertı́vel e, por (26.44), λ1 − a também o é com
2ip
(λ1 − a) −1
= (1 − ipa)−1 v −1 .
1 − ipλ
*
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 26 1308/1461
A noção de espectro será estudada mais detalhadamente adiante no contexto de operadores limitados
agindo em espaços de Banach e, especialmente, de Hilbert. Em tais casos uma classificação mais
detalhada dos tipos de espectro é possı́vel. Vide Seção 26.5, página 1329.
Prova. O fato que σ(p(a)) = {p(λ), λ ∈ σ(a)} foi estabelecido no Teorema 26.14, página 1299. Para
determinar kp(a)k lembremos que pela propriedade C∗ vale kp(a)k2 = kp(a)p(a)∗ k. Agora,
n
!∗ n
! n
! n ! n
X X a=a∗ X X X
p(a)p(a)∗ = bk ak bl al = bk ak bl al = bk bl ak+l = (pp)(a) ,
k=0 l=1 k=0 l=0 k, l=0
18
Israil Moiseevic Gelfand (1913-).
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 26 1309/1461
Como p(a)p(a)∗ = (pp)(a) é auto-adjunto, aplica-se o Teorema 26.16, página 1304, e tem-se
!2
= sup |(pp)(λ)| = sup p(λ)p(λ) = sup |p(λ)|2 = sup |p(λ)| ,
λ∈σ(a) λ∈σ(a) λ∈σ(a) λ∈σ(a)
Seja agora o espaço de Banach C(σ(a)) da funções complexas contı́nuas definidas no espectro
de a dotado da norma kf k∞ := supλ∈σ(a) |f (λ)| e seja P (σ(a)) o sub-espaço de C(σ(a)) formado por
polinômios. Sabemos pelo Teorema de Weierstrass que P (σ(a)) é denso em C(σ(a)). Vimos também na
Proposição 26.29 que a aplicação φa ≡ φ : P (σ(a)) → A dada por φ(p) = p(a) satisfaz kφ(p)k = kpk∞ .
Ora, isso diz-nos que φ é limitada e, pelo Teorema BLT, Teorema 26.1, página 1254, pode ser estendida
unicamente e isometricamente ao fecho de P (σ(a)) que é C(σ(a)). Essa extensão também será denotada
por φ. Assim, para toda f ∈ C(σ(a)) podemos definir φ(f ) como limite em norma de operadores φ(p),
com p sendo polinômios que convergem a f na norma k · k∞ .
Denotaremos também sugestivamente φ(f ), para f ∈ C(σ(a)), por f (a). Tem-se os seguintes fatos
sobre φ(f ).
Teorema 26.17 (O Homomorfismo de Gelfand em Álgebras C∗ ) Seja A uma álgebra C∗ com
unidade, seja a ∈ A auto-adjunto e seja φa ≡ φ : C(σ(a)) → A definida acima. Para todo polinômio p
vale φ(p) = p(a). Como vimos, pelo Teorema BLT, Teorema 26.1, página 1254, tem-se kφ(f )k = kf k∞
para toda f ∈ C(σ(a)). Fora isso, valem as seguintes afirmações:
kF − P k ≤ kφ(f − p)k + |f (λ0) − p(λ0 )| k1k = kf − pk∞ + |f (λ0) − p(λ0 )| ≤ 2kf − pk∞ < 2ǫ .
Agora, pelo Corolário 26.3, página 1297, se escolhermos esse ǫ pequeno o suficiente tal que kF − P k <
kF −1 k−1 , então P será invertı́vel em A, o que implica p(λ0 ) 6∈ σ(φ(p)) com λ0 ∈ σ(a). Isso contraria
(26.45). Logo, devemos ter µ 6∈ ρ(φ(f )), ou seja, µ ∈ σ(φ(f )), o que prova {f (λ), λ ∈ σ(a)} ⊂ σ(φ(f )),
estabelecendo a igualdade desses dois conjuntos. Isso completa a prova do Teorema 26.17
Comentamos que a identificação σ(φ(f )) = {f (λ), λ ∈ σ(a)} não contraria o fato de σ(φ(f )) ser
fechado, pois a imagem de um conjunto compacto (no caso, σ(a)) por uma função contı́nua (no caso,
f ) é sempre um conjunto compacto (ou seja, fechado e limitado).
Teorema 26.18 Seja B uma álgebra de Banach com unidade e w ∈ B tal que kwk ≤ 1. Então existe
y ∈ B tal que y 2 = 1 − w. Esse y é dado por
∞
X N
X
n
y := cn w := lim cn w n , (26.47)
N →∞
n=0 n=0
Destacamos o fato que o enunciado acima fala de kwk ≤ 1 e não apenas kwk < 1. Isso será
importante mais adiante. Por ser um tanto técnica, a demonstração do Teorema 26.18 é apresentada
no Apêndice 26.A, página 1390. Nossa demonstração é inspirada na (mas não idêntica à) de [116]. 19
Corolário 26.7 Seja B uma álgebra de Banach-∗ com unidade. Se x ∈ B é tal que kxk ≤ 1 então
existe y ∈ B auto-adjunto (y ∗ = y) tal que 1 − x∗ x = y ∗ y = y 2 . 2
Prova. Seja w = x∗ x. Tem-se kwk = kx∗ xk ≤ kx∗ k kxk = kxk2 ≤ 1. Podemos, portanto, aplicar o
N
X
Teorema 26.18, acima. Fora isso, nesse caso sn = cn (x∗ x)n são todos auto-adjuntos pois (x∗ x)∗ =
n=0
x∗ x e os cn ’s são reais. Assim, y = lim sN é também auto-adjunto (por que?). Logo, pelo que vimos
N →∞
y ∗ y = y 2 = 1 − x∗ x, o que querı́amos provar.
Corolário 26.8 Seja B uma álgebra de Banach com unidade. Seja w ∈ B tal que k1 − wk ≤ 1. Então
existe y ∈ B tal que y 2 = w. Se B for também uma álgebra de Banach-∗ e w for auto-adjunto, então
existe y auto-adjunto com a mencionada propriedade. 2
Prova. O operador 1 − w satisfaz as condições do Teorema 26.18, página 1310. Logo, existe y ∈ B tal
que y 2 = 1 − (1 − w) = w.
v
Corolário 26.9 Seja B uma álgebra de Banach com unidade. Seja v ∈ B, v 6= 0, tal que
1 −
≤
kvk
1. Então existe y ∈ B tal que y 2 = v. Se B for também uma álgebra de Banach-∗ e v for auto-adjunto,
então existe y auto-adjunto com a mencionada propriedade. 2
19
É instrutivo compará-la à de [17] (Teorema 2.2.10) para álgebras C∗ .
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 26 1312/1461
v
Prova. O operador satisfaz as condições do corolário anterior. Logo, existe y0 ∈ B tal que
kvk
v v
y02 = 1 − 1 − = . Portanto y = kvk1/2 y0 é tal que y 2 = v.
kvk kvk
O Corolário 26.9 tem uma conseqüência para álgebras C∗ : todo elemento de uma álgebra C∗ que
tenha espectro positivo tem uma raiz quadrada. Isso será demonstrado no que segue.
Prova. Se σ(a) ⊂ [0, ∞) então, pelo Teorema da Aplicação Espectral, Teorema 26.14, página 1299,
vale que σ(−a) ⊂ (−∞, 0]. Logo, se b = −a tem-se σ(b) ⊂ (−∞, 0]. Se b é positivo (ou seja, se
σ(b) ⊂ [0, ∞), isso implica que σ(b) = {0}. Logo r(b) = 0 e pelo Teorema 26.16, concluı́mos que
kbk = 0. Assim, a = −b = 0.
O leitor deve ser advertido que as afirmações da última proposição não são necessariamente válidas
em álgebras de Banach que não sejam álgebras C∗ . A seguinte proposição estabelece algumas condições
equivalentes à positividade.
Proposição 26.31 Se v é um elemento auto-adjunto não-nulo de uma álgebra C∗ com unidade A, são
equivalentes as seguintes afirmações:
O operador y do item 3 não é único pois −y, por exemplo, tem a mesma propriedade. Porém, existe
um único yp auto-adjunto com espectro positivo, tal que yp2 = v. 2
Mais adiante (Teorema 26.20) provaremos o importante fato que em álgebras C∗ , elementos da
forma x∗ x são positivos.
byp =yp b
0 = (v − v)(yp − b) = (yp2 − b2 )(yp − b) = (yp − b)(yp + b)(yp − b)
byp =yp b
= (yp − b)yp (yp − b) + (yp − b)b(yp − b) = (yp − b)2 yp + (yp − b)2 b .
Pelo Lema 26.4, ambos (yp − b)2 yp e (yp − b)2 b são positivos e, portanto, pela Proposição 26.30,
concluı́mos que (yp − b)2 yp = 0 e (yp − b)2 b = 0. Subtraindo um do outro, obtemos (yp − b)3 = 0, o que
trivialmente implica (yp − b)4 = 0. Agora, como yp − b é auto-adjunto obtemos, aplicando duas vezes
a propriedade C∗ da norma: kyp − bk4 = k(yp − b)2 k2 = k(yp − b)4 k = 0, provando que yp = b. Isso
estabeleceu a unicidade desejada e completou a prova da Proposição 26.31.
Vemos que um elemento auto-adjunto v de uma álgebra C∗ com unidade A é positivo se satisfizer
quaisquer das condições equivalentes da Proposição 26.31, acima. Mais adiante provaremos o impor-
tante fato que em álgebras C∗ , elementos da forma x∗ x são positivos. O primeiro passo nessa direção
é o seguinte teorema de decomposição.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 26 1314/1461
Proposição 26.32 Todo elemento auto-adjunto a de A, uma álgebra C∗ com unidade, pode ser escrito
na forma a = a+ − a− , onde a± são auto-adjuntos e positivos, comutam com a e satisfazem a+ a− =
a− a+ = 0. 2
Prova. Sejam as funções reais f+ (λ) := 21 (|λ| + λ) e f− (λ) := 21 (|λ| − λ). Ambas são contı́nuas,
positivas, satisfazem f+ f− = 0 e λ = f+ (λ) − f− (λ). Usando o homomorfismo de Gelfand φa , definimos
a+ := φa (f+ ) e a− := φa (f− ). Pelo Teorema 26.17, esses operadores têm as propriedades desejadas.
Vamos denotar por A+ o conjunto de todos os elementos auto-adjuntos positivos de uma álgebra C∗
com unidade A. O seguinte teorema resume as propriedades geométricas e topológicas mais importantes
de A+ .
Teorema 26.19 O conjunto A+ , formado por todos os elementos auto-adjuntos positivos de uma
álgebra C∗ com unidade A, é um cone convexo e fechado (na topologia da norma de A) e tem a
propriedade A+ ∩ (−A+ ) = {0}. 2
≤ λ + (1 − λ) = 1 ,
a última desigualdade sendo conseqüência do comentário do parágrafo acima pois, pela escolha, P > kak
e P > kbk. Isso implica que o espectro de 1 −P −1 (λa + (1 − λ)b) está em [−1, 1] e, portanto, o espectro
de P −1 (λa + (1 − λ)b) está em [0, 2]. Assim, σ(λa + (1 − λ)b) ⊂ [0, 2P ], provando que λa + (1 − λ)b
é positivo.
Resta-nos provar que A+ é fechado. Seja an ∈ A+ uma seqüência de elementos de A+ que converge
em norma a a ∈ A. Desejamos provar que a ∈ A+ . Tomemos a 6= 0, pois se a = 0 não há o que provar,
pois 0 ∈ A+ . Sem perda de generalidade, podemos
assumir que
todos os an
são não-nulos. Como cada
an
an é positivo, vale pelo item 2 da Proposição 26.31
1 − kan k
≤ 1, ou seja,
kan k1 − an
≤ kan k. Pela
continuidade da norma, an → a implica kan k → kak. Logo,
kak1 − a
= lim
kan k1 − an
≤ lim kan k = kak .
n→∞ n→∞
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 26 1315/1461
a
Isso provou que
1 − kak
≤ 1 e, portanto, a ∈ A+ .
Prova. a + b = 2( a+b
2
). Agora, a+b
2
∈ A+ pois é uma combinação linear convexa de elementos de A+ ,
a+b
que é convexo. Logo, 2( 2 ) ∈ A+ , pois A+ é um cone.
Corolário 26.11 Seja A uma álgebra C∗ com unidade. Se para algum z ∈ A valer −z ∗ z ∈ A+ , então
z = 0. 2
Prova. Pela Proposição 26.19, página 1298, σ(z ∗ z) \ {0} = σ(zz ∗ ) \ {0}. Assim, se −z ∗ z é auto-adjunto
e positivo, −zz ∗ também o é. Logo, pelo Corolário 26.10, −z ∗ z − zz ∗ é auto-adjunto e positivo.
Definamos x := (z + z ∗ )/2 e y := (z − z ∗ )/(2i). Tem-se que
−A+ ∋ −(−z ∗ z − zz ∗ ) = 2x2 + 2y 2 .
Como x e y são auto-adjuntos 2x2 e 2y 2 são positivos e, pelo Corolário 26.10, 2x2 + 2y 2 também o
é. Assim, provamos que 2x2 + 2y 2 ∈ A+ ∩ (−A+ ). Pelo Teorema 26.19, isso implica 2x2 + 2y 2 = 0
e, pela Proposição 26.30, segue que x2 = 0 e y 2 = 0. Pela propriedade C∗ da norma, segue que
kxk2 = kx2 k = 0, provando que x = 0. Analogamente prova-se que y = 0. Como z = x + iy, segue que
z = 0.
Prova. Seja a = x∗ x, que obviamente é auto-adjunto. Pela Proposição 26.32, podemos escrever a =
a+ − a− onde a± são auto-adjuntos e positivos, comutam com a e satisfazem a+ a− = a− a+ = 0.
Tudo o que queremos é provar que a− = 0. Seja w = xa− . Temos que −w ∗ w = −a− x∗ xa− =
−a− (a+ − a− )a− = (a− )3 . Como a− é positivo, (a− )3 também o é (pelo Teorema 26.14, página 1299).
Logo, −w ∗ w é positivo. Pelo Corolário 26.11, isso implica w = 0, ou seja, xa− = 0. Multiplicando à
esquerda por x∗ , teremos 0 = x∗ xa− = (a+ − a− )a− = −(a− )2 . Como a− é auto-adjunto, a propriedade
C∗ da norma implica ka− k2 = k(a− )2 k = 0. Assim, x∗ x = a+ , que é positivo por construção.
adjuntos agindo em espaços de Hilbert. O resultado que obtemos é o Lema da Raiz Quadrada, a
seguir. Devemos informar o leitor que esse Lema pode ser também demonstrado por outros meios, a
saber, através do Teorema Espectral para operadores auto-adjuntos agindo em espaços de Hilbert (vide
Seção 26.6.1, página 1352). A análise abaixo tem, porém, certas vantagens, por exemplo, por permitir
demonstrar de modo relativamente simples que a raiz quadrada de um operador compacto e positivo é
também um operador compacto.
Um operador limitado e auto-adjunto A agindo em um espaço de Hilbert H é dito ser positivo
se hφ, Aφi ≥ 0 para todo φ ∈ H. Anteriormente, havı́amos dito que um operador auto-adjunto era
positivo se seu espectro o fosse. O importante lema abaixo diz-nos, incidentalmente, que essas duas
noções de positividade são equivalentes.
Teorema 26.21 (Lema da Raiz Quadrada.) Seja H um espaço de Hilbert complexo e seja A ∈
B(H), auto-adjunto e positivo, ou seja, tal que hφ, Aφi ≥ 0 para todo φ ∈ H. Então existe um único
B ∈ B(H) igualmente auto-adjunto e positivo tal que B 2 = A. 2
A
Prova. Pelo Corolário 26.9 é suficiente mostrar que
1 −
≤ 1. Usando o Teorema 26.12, página
kAk
1288, tem-se que
hφ, Aφi
1 − A
= sup φ, 1 −
A
φ = sup 1 − ≤ 1
kAk
kAk kAk
φ∈H, kφk=1 φ∈H, kφk=1
pois
hφ, Aφi
0≤ ≤1 (26.49)
kAk
para kφk = 1. Pelo Corolário 26.9 e pela prova do Teorema 26.18, tem-se que existe B satisfazendo
B 2 = A, a saber, !
X∞
B = kAk1/2 1 + cn (1 − A′ )n , (26.50)
n=1
A
com A′ := . Essa expressão mostra que B é auto-adjunto (pois é o limite em norma de uma
kAk
seqüência de operadores auto-adjuntos). Como a soma é convergente em norma, tem-se pela continui-
dade do produto escalar que
∞
!
X
hφ, Bφi = kAk1/2 1 + cn hφ, (1 − A′ )n φi , (26.51)
n=1
onde B1 = (B − B ′ )B(B − B ′ ) e B2 = (B − B ′ )B ′ (B − B ′ ).
Sucede, porém, que para todo ψ ∈ H,
0 = B1 − B2 = (B − B ′ )B(B − B ′ ) − (B − B ′ )B ′ (B − B ′ )
= (B − B ′ )(B(B − B ′ ) − B ′ (B − B ′ )) = (B − B ′ )3 .
Vimos acima em (26.50) que se A é um operador limitado não-nulo, auto-adjunto e positivo agindo
em um espaço de Hilbert H então
" ∞ n #
√ X A
A := kAk1/2 1 + cn 1 − , (26.52)
n=1
kAk
√
é igualmente auto-adjunto e satisfaz ( A)2 = A. Claramente,
" N n #
√ X A
A := lim kAk1/2 1 + cn 1−
N →∞
n=1
kAk
" N
# " N n p #
X X X n A
:= lim kAk1/2 1 + cn 1 + lim kAk1/2 cn (−1)p .
N →∞
n=1
N →∞
n=1 p=1
p kAk
PN PN
Como c0 = 1, temos 1 + n=1 cn = n=0 cn . Tem-se para qualquer N ≥ 1 que
N
X N
X ∞
X ∞
X
n
√ n
cn = lim cn t = lim 1 − t − lim cn t = − lim cn tn .
t→1− t→1− t→1− t→1−
n=0 n=0 n=N +1 n=N +1
P∞
P∞por (26.A.1), a série n=0 cn converge absolutamente e, portanto, temos
Note-se agora que, P∞ para qual-
quer ǫ > 0 que |c n | ≤ ǫ para todo N grande o suficiente. Assim, para |t| < 1, c n tn
≤
P∞ n=N +1 n=N +1
n=N +1 |cn | ≤ ǫ, para todo N grande o suficiente. Logo,
N ∞
X ∞
X X
cn = lim cn tn = lim cn tn ≤ ǫ.
n=0 t→1− t→1−
n=N +1 n=N +1
N
X
Tomando ǫ → 0, concluı́mos que lim cn = 0 e daı́ segue que
N →∞
n=0
" N n p #
√ X X n A
A = lim kAk1/2 cn (−1)p . (26.53)
N →∞
n=1 p=1
p kAk
ou seja, √
A = lim PN (A) , (26.54)
N →∞
O interessante nas expressões (26.53)-(26.55) é que cada PN (A) não contém nenhum termo da forma
const. 1, ou seja, proporcional à unidade 1 (note o leitor que a soma em p em (26.55) começa em p = 1).
Esse fato será relevante quando discutirmos a raiz quadrada de operadores compactos e positivos.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 26 1319/1461
É um fato elementar
p que todo número complexo z pode ser representado na forma polar z = eiθ ρ
com ρ = |z| = x2 + y 2 , x e y sendo as partes real e imaginária de z, respectivamente. No caso de
operadores limitados agindo em espaços de Hilbert há uma relação semelhante que discutiremos agora.
Se A é um operador limitado agindo em um espaço de Hilbert H, é claro que A∗ A é um operador
auto-adjunto e positivo, pois hψ, A∗ AψiH = hAψ, AψiH = kAψk2 ≥ 0 para todo ψ ∈ H. Portanto,
pelo Teorema 26.21, página 1316, A∗ A possui uma raiz quadrada, a qual é igualmente um operador
√auto-
adjunto e positivo (e unicamente definida por essas propriedades). Vamos denotá-la por |A| := A∗ A,
a qual será denominada o módulo de A. Vale então o seguinte.
Teorema 26.22 (A Decomposição Polar de Operadores Limitados em Espaços de Hilbert)
Seja A ∈ B(H) um operador limitado agindo
√ em um espaço de Hilbert H. Então A pode ser es-
∗
crito na forma A = U|A|, onde |A| := A A e U ∈ B(H) é uma isometria parcial a qual satisfaz
Ran (U) = Ran (A) e é unicamente determinada pela condição Ker (U) = Ker (A). 2
pois
|A|ψ
2 = h|A|ψ, |A|ψi = hψ, |A|2 ψi = hψ, A∗ Aψi = hψ, A∗ Aψi = hAψ, Aψi =
Aψ
2 .
H H H H H
O fato que k|A|ψk = kAψk implica, obviamente, que |A|ψ = 0 se e somente se Aψ = 0, ou seja,
Ker (|A|) = Ker (A). Podemos então definir uma função bijetora U : Ran (|A|) → Ran (A) por
U (|A|ψ) := Aψ , ∀ψ ∈ H . (26.57)
o que prova a linearidade de U. Passamos assim a escrever (26.57) como U|A|ψ := Aψ, o que incidental-
mente mostra que A = U|A|, pois ψ ∈ H é arbitrário. A relação (26.56) diz-nos que kU|A|ψk = kAψk
e, portanto, a norma de U, restrito a Ran (|A|) é igual a 1.
Sabemos que o completamento de Ran (A) é o seu fecho Ran (A) e podemos considerar U como
uma aplicação de Ran (|A|) em Ran (A). Pelo Teorema BLT (Teorema 26.1, página 1254), U possui
uma extensão única ao completamento Ran (|A|), que é Ran (|A|), sendo que essa extensão também
tem norma 1. Para evitar sobrecarregar a notação denotamos essa extensão também por U, valendo
U : Ran (|A|) → Ran (A). Como kUk = 1, U é uma isometria.
⊥
Notemos agora que Ran (|A|) = Ran (|A|)⊥ (vide Proposição 25.2, página 1229). Agora, φ ∈
Ran (|A|)⊥ se e somente se hφ, |A|ψiH = 0 para todo ψ ∈ H. Como |A| é auto-adjunto, isso implica
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 26 1320/1461
que φ ∈ Ran (|A|)⊥ se e somente se h|A|φ, ψiH = 0 para todo ψ ∈ H. Logo, φ ∈ Ran (|A|)⊥ se e
somente se |A|φ = 0 e, por (26.56), se e somente se Aφ = 0. Assim, concluı́mos que
⊥ (26.56)
Ran (|A|) = Ran (|A|)⊥ = Ker (|A|) = Ker (A) . (26.58)
Vamos agora estender U para todo H. Uma possı́vel extensão é a seguinte. Lembremos pelo
Teorema da Decomposição Ortogonal (Teorema 25.2, página 1229) que todo ξ ∈ H pode ser escrito na
⊥
forma ξ = χ + φ com χ ∈ Ran (|A|) e φ ∈ Ran (|A|) . Assim, definimos Uξ := Uχ, o que equivale
⊥
a impor que U age como o operador nulo em Ran (|A|) . Novamente, denotamos essa extensão
⊥
também por U e, como Ran (|A|) = Ker (A) (vide (26.58)), continua valendo A = U|A|. Como U
⊥
é uma isometria quando restrito a Ran (|A|) , tem-se Ker (U) = Ker (A).
Provemos agora a unicidade. Seja V uma isometria parcial tal que A = V |A| e Ker (V ) = Ker (A).
É evidente que para todo ψ ∈ H vale 0 = Aψ − Aψ = V |A|ψ − U|A|ψ, o que prova que V = U em
Ran (|A|) e, conseqüentemente, em Ran (|A|), pois U e V são limitados. Como V e U são nulos em
⊥
Ran (|A|) = Ker (A), concluı́mos que V = U em toda parte.
Se C é uma álgebra C∗ , uma aplicação φ : C → C é dita ser um funcional linear se φ(αa + βb) =
αφ(a) + βφ(b) para todos α, β ∈ C e todos a, b ∈ C. Como toda álgebra C∗ é um espaço de Banach
vale também a afirmação que um funcional linear φ é contı́nuo se e somente se for limitado, ou seja, se
existir M ≥ 0 tal que kφ(a)k ≤ Mkak para todo a ∈ C. Se um funcional linear φ é limitado sua norma
é definida por kφk = supa∈C, a6=0 |φ(a)|
kak
. Claramente vale também aqui a afirmação que o conjunto dos
funcionais lineares limitados é um espaço de Banach em relação à essa norma.
Um funcional linear φ é dito ser positivo se φ(a∗ a) ≥ 0 para todo a ∈ C. Funcionais lineares
positivos desempenham um importante papel na teoria das álgebras C∗ .
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 26 1321/1461
E. 26.20 Exercı́cio. Verifique que isso é de fato uma forma sesquilinear positiva em C. 6
Pelo Teorema 2.6, página 121, valem para qualquer funcional linear positivo φ as seguintes propri-
edades:
φ(a∗ b) = φ(b∗ a) (26.59)
e
|φ(a∗ b)|2 ≤ φ(a∗ a)φ(b∗ b), (26.60)
denominada desigualdade de Cauchy-Schwarz. De (26.59) é possı́vel provar que para qualquer funcional
linear positivo φ vale φ(a∗ ) = φ(a) para todo a ∈ C. A prova é trivial no caso de a álgebra ter uma
identidade (tome-se b = 1 em (26.59)). Para a prova no caso geral, veja as referências [17], [33] ou [9].
Um importante resultado sobre funcionais lineares positivos é o seguinte.
Teorema 26.23 Todo funcional linear positivo em uma álgebra C∗ é limitado e, portanto, contı́nuo.
Fora isso, se a álgebra tiver unidade e φ é um funcional positivo vale kφk = φ(1). 2
Prova. Apresentaremos apenas a demonstração para álgebras que possuem uma unidade. A demons-
tração completa pode ser encontrada, por exemplo, nas referências [17], [33] ou [9].
Notemos primeiramente que se φ é um funcional linear positivo em uma álgebra com unidade então
φ(1) ≥ 0, pois φ(1) = φ(1∗ 1) ≥ 0, já que φ é positivo.
Seja x ∈ C com a propriedade que kxk ≤ 1. Então o Corolário 26.7, página 1311, diz-nos que existe
um elemento y ∈ C tal que 1 − x∗ x = y ∗y. Se φ é um funcional linear positivo, tem-se então que
φ(1 − x∗ x) = φ(y ∗y) ≥ 0, ou seja,
0 ≤ φ(x∗ x) ≤ φ(1). (26.61)
Por outro lado, vale que
o que implica |φ(a)| ≤ φ(1)kak, para todo a 6= 0. Como essa relação vale trivialmente para a = 0, vale
para todo a ∈ C, provando que φ é limitado.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 26 1322/1461
Mostremos agora que kφk = φ(1) para qualquer funcional linear positivo φ. Notemos primeiramente
que φ(1) ≤ kφk k1k, ou seja,
φ(1) ≤ kφk. (26.62)
Agora, pela desigualdade de Cauchy-Schwarz (26.60) temos
|φ(a)|2 = |φ(1∗ a)|2 ≤ φ(1) φ(a∗a) ≤ φ(1)kφk ka∗ak = φ(1) kφk kak2,
o que implica
|φ(a)|2
kφk2 = sup ≤ φ(1)kφk,
a6=0 kak2
que diz-nos que
kφk ≤ φ(1).
Junto com (26.62), isso implica kφk = φ(1), como querı́amos.
• Estados em Álgebras C∗
Um funcional linear positivo ω de uma álgebra C∗ é dito ser um estado se for normalizado de forma
que kωk = 1. Se a álgebra tiver uma unidade isso equivale a dizer que ω(1) = 1.
Estados desempenham um papel da maior importância na teoria das álgebras C∗ e suas aplicações
em Fı́sica pois, como teremos a oportunidade de discutir, estados de álgebras C∗ estão intimamente
ligados a estados fı́sicos de sistemas quânticos (daı́ a escolha do nome “estado”).
Por ora, e já no intuito de preparar essa discussão, mostremos uma construção importante que pode
ser feita com estados de uma álgebra C∗ , a chamada construção GNS, que consiste em um procedimento
canônico de obtenção de representações de álgebras C∗ em espaços de Hilbert, algo de suma relevância
para as aplicações de álgebras C∗ na fı́sica quântica.
• Vetores Cı́clicos
• A Construção GNS
Teorema 26.24 Seja ω um estado de uma álgebra C∗ que denotaremos por C. É possı́vel com esses
ingredientes construir um espaço de Hilbert Hω e uma representação πω da álgebra C por operadores
limitados agindo em Hω tal que πω (a∗ ) = πω (a)∗ para todo a ∈ C (uma representação com essa propri-
edade é dita ser uma representação-∗). Fora isso, se a álgebra C possuir uma unidade então existe em
Hω um vetor Ω com a propriedade que ω(a) = hΩ, πω (a)ΩiHω . Esse vetor Ω é um vetor cı́clico para a
representação πω , ou seja, {πω (a)Ω, a ∈ C} é um conjunto denso em Hω . 2
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 26 1323/1461
Prova. A idéia da demonstração é usar o fato que C é um espaço vetorial e tentar transformar C em
um espaço de Hilbert, definindo primeiramente em C um produto escalar.
Podemos, usando o estado ω, definir em C uma forma sesquilinear positiva por ha, bi := ω(a∗ b) com
a, b ∈ C. Sucede, porém, que pode haver elementos não-nulos n da álgebra para os quais ω(n∗ n) = 0.
Para esses elementos terı́amos hn, ni = 0 com n 6= 0. Isso diz-nos que a forma sesquilinear positiva
acima não é, em geral, um produto escalar e, portanto, essa tentativa ingênua de fazer de C um espaço
de Hilbert em geral falha. Há, no entanto, um procedimento que permite contornar esse problema,
o qual passaremos a descrever. Esse procedimento já foi, aliás, discutido no tópico sobre “Formas
Sesquilineares Positivas e Produtos Escalares”, página 125.
Vamos olhar mais de perto o conjunto dos elementos n da álgebra com a propriedade acima. De-
nominemos
N = {n ∈ C| ω(n∗ n) = 0}. (26.63)
1. Tem-se que
N = {n ∈ C| ω(b∗ n) = 0 para todo b ∈ C}.
Assim, para todo b ∈ C vimos que ω(b∗ (an)) = 0, o que prova que an ∈ N para todo a ∈ C e todo
n ∈ N, ou seja, N é um ideal à esquerda de C.
Uma vez provadas essas três propriedades de N, vamos retomar a construção do espaço de Hilbert
Hω . Como N é um sub-espaço de C, podemos construir o sub-espaço quociente C/N pela construção
delineada na seção 2.1.1, página 100. O espaço C/N é formado pelas classes de equivalência [a] =
{a + n, n ∈ N}, a ∈ C e tem por vetor nulo [0] = {n, n ∈ N} = N.
Seguindo a idéia anterior, definimos em C/N a forma sesquilinear positiva dada por
Notemos que essa expressão é bem-definida, no sentido que o lado direito não depende do representante
tomado nas classes. Assim, se substituı́ssemos a por a + n com n ∈ N, o lado direito ficaria
pois ω(n∗ b) = ω(b∗ n) = 0. Analogamente ω(a∗ (b + n)) = ω(a∗ b). Notemos também que h[a], [b]i é
agora um produto escalar, pois h[a], [a]i = ω(a∗ a) que é zero se e somente se a ∈ N, em cujo caso
terı́amos [a] = [0] (por que?).
O espaço C/N é assim um espaço vetorial dotado de um produto escalar. Normalmente C/N
não é completo em relação à norma induzida por esse produto escalar, mas podemos considerar seu
completamento canônico C/N g (vide página 952) que é completo e, portanto, é um espaço de Hilbert.
g
Esse é o espaço de Hilbert Hω do enunciado do teorema: Hω = C/N.
Passemos agora à construção da representação πω da álgebra C. Pela construção do completamento
canônico podemos considerar C/N como um subconjunto denso de Hω = C/N. g Para a ∈ C, definamos
πω (a) em C/N da seguinte forma:
πω (a)[z] = [az], (26.64)
z ∈ C.
Há uma série de coisas a se provar sobre essa definição. Primeiro notemos que a expressão (26.64)
é bem definida no sentido que independe do elemento z tomado na classe. Isso se deve ao fato de
N ser um ideal à esquerda da álgebra C. Assim, se trocássemos z por z + n com n ∈ N terı́amos
a(z + n) = az + an e como an ∈ N, segue que [a(z + n)] = [az].
É também evidente pela definição (26.64) que em C/N tem-se para todo [z] ∈ C/N que
e
πω (a)πω (b)[z] = πω (ab)[z], (26.66)
para todos α, β ∈ C e todos a, b ∈ C. Notemos que (26.65) e (26.66) dizem que πω é uma representação
de C em C/N. Mais abaixo vamos mostrar que essas relações são válidas não apenas no conjunto denso
C/N, mas em todo Hω .
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 26 1325/1461
Vamos agora mostrar que para cada a ∈ C, πω (a) é um operador limitado agindo em C/N.
Temos que para [z] ∈ C/N, [z] 6= [0]
kπω (a)[z]k2 = k[az]k2 = h[az], [az]i = ω((az)∗ (az)) = ω(z ∗ (a∗ a)z)
kπω (a)[z]k2 = φ(a∗ a) k[z]k2 ≤ kφk ka∗ ak k[z]k2 = ka∗ ak k[z]k2 = kak2 k[z]k2 ,
Isso provou que πω (a) é um operador limitado agindo no sub-espaço denso C/N. Podemos então
evocar o Teorema BLT (página 1254) e dizer que πω (a) tem uma extensão única para todo Hω , que
também denotaremos por πω (a), com a mesma norma operatorial. Portanto, vale também para essa
extensão que kπω (a)k ≤ kak.
Pela continuidade de πω (a) é fácil ver que as relações (26.65) e (26.66) valem para todo Hω , ou seja,
e
πω (a)πω (b) = πω (ab), (26.70)
provando que πω é uma representação da álgebra por operadores limitados em Hω .
Falta-nos mostrar ainda que πω (a∗ ) = πω (a)∗ para todo a ∈ C. Notemos que para [x], [y] ∈ C/N
vale
provando que em C/N vale πω (a∗ ) = πω (a)∗ . Por continuidade essa relação pode ser estendida para
todo Hω , mostrando que πω é uma representação-∗ de C.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 26 1326/1461
hΩ, πω (a)Ωi = h[1], πω (a)[1]i = h[1], [a1]i = h[1], [a]i = ω(1∗ a) = ω(a).
Assim, vemos que o vetor Ω, em um certo sentido “representa” o estado ω em Hω , pois ω(a) =
hΩ, πω (a)Ωi para todo a ∈ C.
Que Ω á um vetor cı́clico para a representação πω é elementar pois, {πω (a)Ω, a ∈ C} = {[a], a ∈
C} = C/N e C/N é obviamente denso em Hω = C/N. g
Isso completa a demonstração do teorema.
É bem sabido que para duas matrizes quaisquer M e N vale a chamada propriedade cı́clica do traço:
tr (MN) = tr (NM). Fora isso, tem-se que
n
X n X
X n X n
n X n X
X n
∗ ∗ ∗
tr (M M) = (M M)ii = (M )ik Mki = Mki Mki = |Mki|2 ,
i=1 i=1 k=1 i=1 k=1 i=1 k=1
tr (M ∗ M) = 0 ⇐⇒ M = 0. (26.73)
transformação unitária, ou seja, existe uma matriz V ∈ Mat(n, C) unitária (V ∗ V = V V ∗ = 1) tal que
V ∗ ρV é a matriz diagonal
r1
V ρV = Dρ =
∗ .. .
.
rn
Dada uma matriz ρ como acima, podemos definir uma matriz ρ1/2 da seguinte forma:
ρ1/2 := V Dρ1/2 V ∗ ,
onde
√
r1
Dρ1/2 = .. .
.
√
rn
Para futuros propósitos vamos definir também P , o projetor ortogonal sobre o sub-espaço fechado
Im(ρ1/2 ): se Cn ∋ u = v + w, com v ∈ Im(ρ1/2 ) e w ∈ (Im(ρ1/2 ))⊥ então
P u = v. (26.74)
É fácil mostrar que P é auto-adjunto e satisfaz (P )2 = P (mostre!). Fora isso, é óbvio pela definição
que P ρ1/2 = ρ1/2 . Como ρ1/2 é auto-adjunto, concluı́mos que
pela propriedade (26.72). Fora isso, é claro que ωρ (1) = tr (ρ1) = tr (ρ) = 1.
É possı́vel mostrar (não o faremos aqui) que todo estado de Mat(n, C) é da forma ωρ , para algum
ρ com as propriedades acima.
Uma primeira tentativa
Como Mat(n, C) é também um espaço vetorial. Vamos definir em Mat(n, C) um produto escalar
dado por
hA, Bi = tr (A∗ B). (26.77)
Por (26.72) e (26.73) segue que h·, ·i é de fato um produto escalar.
E. 26.21 Exercı́cio. Mostre que Mat(n, C) é um espaço de Hilbert com o produto escalar de (26.77).
6
O exercı́cio acima diz-nos que o espaço vetorial Mat(n, C) é um espaço de Hilbert com o produto
escalar h·, ·i de (26.77). Como tal, denominaremos o espaço vetorial Mat(n, C) por H.
Definimos uma representação π de Mat(n, C) em H da seguinte forma:
π(A)B = AB,
para matrizes A e B ∈ Mat(n, C). É trivial verificar que π assim definida é uma representação da
álgebra Mat(n, C) em H.
Definindo-se
Ωρ := ρ1/2 ∈ H,
tem-se
Se ρ1/2 não for invertı́vel, N pode ter outros elementos além da matriz nula. Note que N = {N ∈
Mat(n, C)| Ker (N) ⊃ Im(ρ1/2 ) = 0} e que se ρ1/2 não é invertı́vel, não é sobrejetora, ou seja, Im(ρ1/2 )
é um conjunto menor que Cn .
Sejam as classes de equivalência [A] = {A+N, N ∈ N}, A ∈ Mat(n, C). Afirmamos que AP ∈ [A],
onde P é o projetor sobre Im(ρ1/2 ), definido em (26.74). De fato, como P ρ1/2 = ρ1/2 (por que?), segue
facilmente que
(AP − A)ρ1/2 = Aρ1/2 − Aρ1/2 = 0,
provando que AP − A ∈ N. Podemos assim identificar Mat(n, C)/N com o subconjunto de Mat(n, C)
formado pelas matrizes da forma AP com A ∈ Mat(n, C):
Como no caso da construção geral, definimos em Mat(n, C)/N um produto escalar por
hAP, BP iρ = ωρ ((AP )∗ BP ) = ωρ (P ∗ A∗ BP ) = ωρ (P A∗ BP )
πρ (A)BP = (AB)P,
A, B ∈ Mat(n, C).
Note-se também que Mat(n, C)/N ∋ 1P = P . É evidente que
onde usamos novamente (26.75). Vemos assim que o vetor Ωρ “representa” o estado ωρ em Mat(n, C)/N.
um postulado básico que os valores obtidos em mensurações individuais de um observável são elementos
do espectro do operador auto-adjunto a ele associado. Nessa seção trataremos de definir o conceito de
espectro de modo preciso e geral. O estudo do espectro de operadores tem uma de suas culminações
no teorema espectral, do qual trataremos com detalhe mais adiante em diversos casos de interesse.
Comecemos com uma advertência. Muitos estudantes, especialmente de Fı́sica, têm a noção pre-
concebida (oriunda de maus cursos e/ou de imprecisões matemáticas de alguns (muitos) livros-texto
introdutórios de Mecânica Quântica) que o espectro de um operador coincide com o conjunto de seus
autovalores. Essa noção é incorreta. Como discutiremos, o espectro de um operador é, em geral, maior
que o conjunto de seus autovalores. Há, de fato, certos tipos de operadores cujo espectro coincide
com o conjunto de autovalores (tal é o caso de matrizes agindo em espaços de dimensão finita, ou de
operadores compactos auto-adjuntos), mas tais situações são especiais. Há mesmo operadores (vere-
mos exemplos) que não possuem autovalores, mas têm um espectro não-trivial. Lamentavelmente, tal
noção incorreta é a fonte de muitos mal-entendidos (nem sempre inconseqüentes!) entre a comunidade
de fı́sicos e a de matemáticos e isso é mais uma razão para sugerirmos um estudo cuidadoso da noção
de espectro.
Seja X um espaço de Banach e seja T ∈ B(X) um operador limitado agindo em X. Dizemos que um
número complexo λ ∈ C é um elemento do conjunto resolvente de T se o operador λ1 − T for bijetor
como aplicação de X em X. Estamos no caso 1 do Teorema 26.13 e, pelo Teorema da Aplicação Inversa,
Teorema 26.8, página 1277, isso implica que (λ1 − T )−1 um operador limitado de X em X, ou seja, um
elemento de B(X).
Assim, definimos o conjunto resolvente de T ∈ B(X), denotado por ρ(T ), por
n o
ρ(T ) := λ ∈ C| λ1 − T é bijetor .
Caso a. O operador λ1 − T não é injetor, e (λ1 − T )−1 não pode ser definida na imagem de λ1 − T ,
pois Ker (λ1 − T ) é não-trivial, ou seja, existe v 6= 0 com T v = λv. Isso nos diz λ é autovalor de
T . Isso conduz à seguinte definição:
Denotamos por σp (T ) o conjunto de todos os autovalores de T :
Caso b. O operador λ1 − T é injetor, Ker (λ1 − T ) é composto apenas pelo vetor nulo (e, portanto, λ
não é autovalor de T ). Fora isso Ran (λ1 −T ) é denso e (λ1 −T )−1 existe agindo em Ran (λ1 −T )
mas não é limitada. Isso conduz à seguinte definição:
Denotamos por σc (T ) o conjunto de todos os λ ∈ C tais λ não é um autovalor de T , Ran (λ1 − T )
é denso e (λ1 − T )−1 existe agindo em Ran (λ1 − T ) mas não é limitada. σc (T ) é denominado
espectro contı́nuo de T 24 .
Por fim, temos o
Caso c. O operador λ1 − T é injetor, Ker (λ1 − T ) é composto apenas pelo vetor nulo (e, portanto,
λ não é autovalor de T ). Porém, Ran (λ1 − T ) não é denso e (λ1 − T )−1 existe agindo em
Ran (λ1 − T ), podendo ser limitada ou não. Isso conduz à seguinte definição:
Denotamos por σr (T ) o conjunto de todos os λ ∈ C tais λ não é um autovalor de T , Ran (λ1 − T )
não é denso e (λ1 − T )−1 existe agindo em Ran (λ1 − T ), podendo ser limitada ou não. σr (T ) é
denominado espectro residual de T .
σ(T ) = σp (T ) ∪ σc (T ) ∪ σr (T ) (26.82)
sendo a união disjunta. Os vários tipos de espectro descritos acima serão ilustrados em exemplos
apresentados mais abaixo (página 1336), aos quais o leitor poderá passar agora, se o desejar, mas
24
Vale aqui advertir o estudante que alguns textos, como [116], [121] e [78], adotam uma definição diferente de espectro
contı́nuo. Nossa definição é encontrada em textos como [155], [86] e outros.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 26 1332/1461
para a uma melhor compreensão dos mesmos precisamos antes de alguns resultados gerais da teoria
espectral.
Rλ (T ) := (λ1 − T )−1 .
Pelas hipóteses Rλ (T ) é bijetor para todo λ ∈ ρ(T ) e é um elemento de B(X) (pelo Teorema da
Aplicação Inversa, Teorema 26.8, página 1277).
Muitas propriedades de ρ(T ) (e, portanto de σ(T )) podem ser derivadas de propriedades de seus
operadores resolventes. Por exemplo, mostraremos mais adiante que ρ(T ) é sempre um conjunto aberto
de C (e, portanto, σ(T ) é sempre um conjunto fechado de C) e mostraremos também que σ(T ) nunca
é igual a todo C (e, portanto, σ(T ) nunca é vazio).
Proposição 26.33 (Primeira identidade do resolvente) Seja X um espaço de Banach e T ∈
B(X). Se λ e µ pertencem ao conjunto resolvente ρ(T ) de T , então
A demonstração é idêntica àquela da Proposição 26.22, página 1300. Iremos agora estabelecer uma
série de resultados sobre propriedades do operador resolvente que culminarão com a Proposição 26.36.
Todos são essencialmente casos particulares de resultados demonstrados acima no caso geral de álgebras
de Banach com unidade.
Lema 26.5 Seja X um espaço de Banach e T ∈ B(X). Se λ e µ pertencem ao conjunto resolvente
ρ(T ) de T e |λ − µ| < kRµ (T )k−1 então
" ∞
# " ∞
#
X X
Rλ (T ) = Rµ (T ) 1 + (µ − λ)n (Rµ (T ))n
= 1+ n
(µ − λ)n (Rµ (T )) Rµ (T ) . (26.84)
n=1 n=1
O lema acima é um caso particular do Lema 26.3, página 1300, para álgebras de Banach com
unidade gerais, e por isso sua demonstração é dispensada.
Proposição 26.34 Seja X um espaço de Banach e T ∈ B(X). Então ρ(T ) é um subconjunto aberto
de C, o que implica que σ(T ) é um subconjunto fechado de C. 2
Novamente, a proposição acima é um caso particular da Proposição 26.23, página 1301, para álgebras
de Banach com unidade gerais, e por isso sua demonstração é dispensada. A Proposição que segue é o
análogo da Proposição 26.24, página 1302, mas sua demonstração difere por um ligeiro detalhe.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 26 1333/1461
Proposição 26.35 Seja X um espaço de Banach e T ∈ B(X). Então, para cada x ∈ X e para cada
ℓ ∈ X† , funcional linear contı́nuo em X, a função de variável complexa fx, ℓ : ρ(T ) → C dada por
fx, ℓ (λ) := ℓ(Rλ (T )x) é holomórfica (i.e. analı́tica) em cada componente conexa de ρ(T ). 2
Prova. Seja µ ∈ ρ(T ) e λ tal que |λ − µ| < kRµ (T )k−1. Tem-se por (26.84) que λ ∈ ρ(T ) e
∞
X !
(26.84) n n+1
fx, ℓ (λ) := ℓ(Rλ (T )x) = ℓ Rµ (T ) + (µ − λ) (Rµ (T )) x
n=1
∞
X
(µ − λ)n ℓ (Rµ (T ))n+1 x . (26.85)
continuidade
= ℓ(Rµ (T )x) +
n=1
Como
ℓ (Rµ (T ))n+1 x ≤ kℓk k (Rµ (T ))n+1 xk ≤ kℓk kRµ (T )kn+1 kxk
segue de |λ − µ| < kRµ (T )k−1 que a última série em (26.85) é absolutamente convergente e, portanto,
define uma função holomórfica na bola aberta de raio kRµ (T )k−1 centrada em µ, a qual pode, pelos
procedimentos usuais, ser estendida analiticamente à componente conexa de ρ(T ) que contém µ.
Prova. Vamos supor que ρ(T ) = C. Então, pela Proposição 26.35, para todo x ∈ X e para todo ℓ
funcional linear contı́nuo em X a função fx, ℓ (λ) := ℓ(Rλ (T )x) seria inteira, isto é, analı́tica em toda
parte. Agora, para |λ| > kT k
" ∞
#
X
Rλ (T ) = (λ1 − T )−1 = λ−1 (1 − λ−1 T )−1 = λ−1 1 + λ−n T n (26.86)
n=1
de acordo com (26.35) da Proposição 26.15, página 1295, pois pela hipótese kλ−1 T k < 1. Assim,
" ∞ n #
1 X kT k 1
kRλ (T )k ≤ 1+ = .
|λ| n=1
|λ| |λ| − kT k
Isso mostra que lim kRλ (T )k = 0. Logo, como |fx, ℓ (λ)| = |ℓ(Rλ (T )x)| ≤ kℓk kRλ(T )k kxk, segue
|λ|→∞
que lim |fx, ℓ (λ)| = 0. Com isso, concluı́mos que fx, ℓ (λ) é uma função inteira, limitada e converge
|λ|→∞
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 26 1334/1461
a zero no infinito. Pelo bem-conhecido Teorema de Liouville25 da Análise Complexa, isso implica que
fx, ℓ (λ) é identicamente nula para todo λ ∈ C. Se, porém, ℓ(Rλ (T )x) for nulo para cada funcional linear
contı́nuo ℓ então, pelo Corolário 26.1, página 1270, terı́amos Rλ (T )x = 0 para todo x ∈ X, um absurdo,
pois Rλ (T ) é a inversa de um operador. Assim concluı́mos que ρ(T ) não pode ser igual a todo C e,
portanto, σ(T ) 6= ∅.
Pela Proposição 26.15, página 1295, a expressão (26.86) mostra que Rλ (T ) está definida para todo
|λ| > kT k. Assim, {z ∈ C| |z| > kT k} ⊂ ρ(T ). Logo, σ(T ) ⊂ {z ∈ C| |z| ≤ kT k}.
Vamos a partir de agora especializar nossa discussão para operadores agindo em espaços de Hil-
bert. Para apresentarmos nossos próximos resultados, vamos introduzir a seguinte notação: se S ⊂ C
denotamos por S cc o conjunto dos elementos complexo-conjugados de S: S cc := {z ∈ C| z ∈ S}.
Se T é um operador limitado agindo em um espaço de Hilbert H, então pelo item 7 do Teorema
26.11, página 1281 temos que se λ ∈ ρ(T ), vale ((λ1 − T )∗ )−1 = ((λ1 − T )−1 )∗ , o que significa que
λ ∈ ρ(T ∗ ) e Rλ (T )∗ = Rλ (T ∗ ). Provamos então o seguinte:
Proposição 26.37 Se T é um operador limitado agindo em um espaço de Hilbert H, então Rλ (T )∗ =
Rλ (T ∗ ) para todo λ ∈ ρ(T ), o que implica ρ(T ∗ ) = ρ(T )cc e σ(T ∗ ) = σ(T )cc . 2
A próxima proposição detalha um pouco mais a relação estabelecida na Proposição 26.37 entre σ(T )
e σ(T ∗ ). Dela extrairemos a informação importante que operadores auto-adjuntos agindo em espaços
de Hilbert não têm espectro residual.
Proposição 26.38 Se T é um operador limitado agindo em um espaço de Hilbert H, então
1. σr (T ) ⊂ σp (T ∗ )cc .
2. σp (T ) ⊂ σp (T ∗ )cc ∪ σr (T ∗ )cc . 2
Prova. Se λ ∈ σr (T ) então Ran (λ1 − T ) não é denso em H. Então existe φ ∈ Ran (λ1 − T )⊥ não-nulo.
Portanto, hφ, (λ1 − T )ψi = 0 para todo ψ ∈ H. Isso diz que h(λ1 − T ∗ )φ, ψi = 0 para todo ψ ∈ H, o
que implica (λ1 − T ∗ )φ = 0 e, portanto, φ é um autovetor de T ∗ com autovalor λ. Assim, λ ∈ σp (T ∗ ).
Isso provou o item 1.
Se λ ∈ σp (T ), então existe um sub-espaço não-trivial L de H formado pelos autovetores de T com
autovalor λ tal que (λ1 − T )φ = 0 para todo φ ∈ L. Isso naturalmente implica que h(λ1 − T ∗ )ψ, φi =
hψ, (λ1 − T )φi = 0 para todo ψ ∈ H e todo φ ∈ L. Portanto, Ran (λ1 − T ∗ ) é um subconjunto de L⊥ .
Caso λ não for um auto-valor de T ∗ , então isso diz-nos que λ ∈ σr (T ∗ ) (vide a definição de espectro
25
Joseph Liouville (1809-1882).
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 26 1335/1461
A proposição acima pode ser generalizada para espaços de Banach, mas não trataremos disso aqui.
Ainda no contexto de espaços de Hilbert temos o seguinte corolário importante que afirma que o
espectro de um operador auto-adjunto é apenas a união do espectro pontual com o contı́nuo.
Corolário 26.12 Se A é um operador limitado e auto-adjunto agindo em um espaço de Hilbert H,
então seu espectro residual é vazio. 2
Prova. Pela Proposição 26.38, página 1334, temos σr (A) ⊂ σp (A), pois A = A∗ e pois σp (A)cc = σp (A),
já que na Proposição 26.8, página 1285, provamos que o espectro pontual de um operador auto-adjunto
agindo em um espaço de Hilbert é real. Agora, pela definição, os espectros residual e pontual são
disjuntos. Logo, σr (A) = ∅.
Devido a sua importância no contexto da Fı́sica Quântica, existe um particular interesse nas pro-
priedades espectrais de operadores auto-adjuntos (limitados ou não) agindo em espaços de Hilbert. Na
Proposição 26.8, página 1285, já provamos que o espectro pontual de tais operadores é um subconjunto
da reta real. O mesmo vale para o espectro completo, como vemos no próximo teorema.
Teorema 26.25 Se A é um operador limitado e auto-adjunto agindo em um espaço de Hilbert H,
então seu espectro é um sub-conjunto da reta real, mais precisamente, é um sub-conjunto fechado de
[−kAk, kAk]. 2
Prova. Esse teorema é um caso particular da Proposição 26.28, página 1306. Apresentamos uma
segunda demonstração que usa a estrutura do espaço de Hilbert.
Seja z ∈ C escrito na forma z = x + iy, com x, y ∈ R. Se considerarmos o operador Az := z 1 − A,
é fácil verificar que
kAz ψk2 = |y|2kψk2 + k(x1 − A)ψk2 . (26.87)
De fato,
Exemplo 26.1 No caso em que X é o espaço vetorial de dimensão finita Cn , temos B(X) = Mat (C, n),
o conjunto das matrizes complexas n × n. Nesse caso, se M é uma matriz complexa n × n, σ(M) é
o conjunto de todos os números complexos tais que a matriz λ1 − M não tem inversa. Ora, é bem
sabido que uma matriz é não-invertı́vel se e somente se seu determinante for nulo. Logo, σ(M) = {λ ∈
C| det(λ1 − M) = 0}, ou seja, σ(M) coincide com o conjunto das raı́zes do polinômio caracterı́stico
de M: pM (x) = det(x1 − M), o qual, pelo Teorema Fundamental da Álgebra, possui n raı́zes não
necessariamente distintas no plano complexo. Assim, σ(M) não é vazio (o que veremos ser verdade
também para qualquer operador em um espaço de Banach). Se uma matriz K ∈ Mat (C, n) não
possui inversa, sabe-se por um argumento geral que existe pelo menos um vetor não-nulo v ∈ Cn tal
que Kv = 0 (vide Corolário 3.1 à página 166). Disso concluı́mos que se λ ∈ σ(M) para uma matriz
M ∈ Mat (C, n) então existe v ∈ Cn não-nulo tal que (λ1 − M)v = 0, ou seja, Mv = λv. Isso significa
que λ é um autovalor de M (e v um autovetor de M com autovalor λ). Portanto, em Mat (C, n) o
espectro coincide com o conjunto de autovalores. ◊
No caso de espaços de Banach gerais, o fato de um operador K não ser bijetor não necessariamente
implica que exista um vetor não-nulo v tal que Kv = 0. Daı́, no caso de espaços de Banach gerais, o
espectro de um operador não necessariamente coincide com o conjunto de seus autovalores, ainda que
a recı́proca seja verdadeira: todo autovalor λ de um operador T é um elemento de seus espectro, já que
(λ1 − T ) não é bijetora, pois tanto o vetor nulo 0 quanto um autovetor v não-nulo de T com autovalor
λ são mapeados no vetor nulo 0. Veremos vários exemplos adiante mas, por ora, ilustremos isso com
o seguinte.
Exemplo 26.2 Seja X = C([a, b]) o conjunto de todas as funções complexas contı́nuas definidas no
intervalo [a, b] e seja T : C([a, b]) → C([a, b]) o operador (T f )(x) := xf (x), definido para toda função
contı́nua f . Se T possuı́sse um autovetor não-nulo g com autovalor λ, valeria (T g)(x) = xg(x) = λg(x)
e terı́amos (x − λ)g(x) = 0 para todo x ∈ [a, b]. Ora, isso é impossı́vel se g é não-nulo. Logo T não
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 26 1337/1461
tem autovalores. No entanto, (λ1 − T )f (x) = (x − λ)f (x) e disso vemos que λ1 − T é bijetora se e
1
somente se λ 6∈ [a, b], pois uma função da forma λ−x g(x) é um elemento de C([a, b]) para qualquer
g ∈ C([a, b]) se e somente se λ 6∈ [a, b]. Concluı́mos disso que ρ(T ) = C \ [a, b] e que σ(T ) = [a, b].
Esse operador T tem, portanto, um espectro não-trivial mas não tem autovalores. ◊
Exemplo 26.3 Seja H = ℓ2 , o espaço de Hilbert das seqüências de quadrado somável e considere-se o
seguinte operador definido em ℓ2 :
S(a1 , a2 , a3 , a4 , a5 , . . .) := (0, a1 , a2 , a3 , a4 , . . .) .
S ∗ (a1 , a2 , a3 , a4 , a5 , . . .) := (a2 , a3 , a4 , a5 , a6 , . . .) .
É também elementar provar que kSk = kS ∗ k = 1. Assim, pela Proposição 26.36, página 1333, σ(S) e
σ(S ∗ ) estão contidos na bola fechada de raio 1 centrada em 0.
S não tem autovalores. De fato, suponhamos que exista (a1 , a2 , a3 , a4 , a5 , . . .) ∈ ℓ2 e λ ∈ C tais
que S(a1 , a2 , a3 , a4 , a5 , . . .) = λ(a1 , a2 , a3 , a4 , a5 , . . .). Isso significa que
λ(a1 , a2 , a3 , a4 , a5 , . . .) = (0, a1 , a2 , a3 , a4 , . . .) .
Se λ = 0, isso implica que todos os aj ’s são nulos. Se λ 6= 0, temos λa1 = 0, λa2 = a1 , λa3 = a2 etc.,
Mas a primeira relação implica a1 = 0, o que faz com que a segunda relação implique a2 = 0 etc., e
novamente temos que os aj ’s são todos nulos. Assim, S só possui autovetores nulos, ou seja, não possui
autovalores: σp (S) = ∅. Pelo item 1 da Proposição 26.38, página 1334, isso implica σr (S ∗ ) = ∅.
Procuremos agora saber se S ∗ possui autovalores. Seja (a1 , a2 , a3 , a4 , a5 , . . .) ∈ ℓ2 e λ ∈ C tais
que S ∗ (a1 , a2 , a3 , a4 , a5 , . . .) = λ(a1 , a2 , a3 , a4 , a5 , . . .). Isso significa que
λ(a1 , a2 , a3 , a4 , a5 , . . .) = (a2 , a3 , a4 , a5 , a6 , . . .) ,
o que implica a2 = λa1 , a3 = λa2 , a4 = λa3 , ou seja, an = λn−1 a1 . Assim, os autovetores serão da
forma
a1 (1, λ, λ2 , λ3 , λ4 , . . .) .
Uma tal seqüência é um elemento de ℓ2 se e somente se |λ| < 1. Concluı́mos que o espectro pontual de
S ∗ é não-vazio e é igual ao disco aberto de raio 1 em C centrado em 0: σp (S ∗ ) = {λ ∈ C| |λ| < 1}.
Vamos agora mostrar que espectro residual de S é não-vazio. Para λ ∈ C com |λ| < 1, seja vλ o
autovetor de S ∗ com autovalor λ dado por vλ = (1, λ, λ2 , λ3 , λ4 , . . .). Temos S ∗ vλ = λvλ . Para todo
x ∈ ℓ2 teremos
hvλ , (λ1 − S)xiℓ2 = (λ1 − S ∗ )vλ , x ℓ2 = 0 .
Disso concluı́mos que para todo x ∈ ℓ2 o vetor (λ1 − S)x pertence ao sub-espaço ortogonal ao vetor
vλ . Assim, Ran (λ1 − S) não é denso em ℓ2 para nenhum |λ| < 1 e, conseqüentemente {λ ∈ C| |λ| <
1} ⊂ σr (S). Agora, pelo item 1 da Proposição 26.38, página 1334, tem-se também σr (S) ⊂ σp (S ∗ )cc =
{λ ∈ C| |λ| < 1}. Logo, σr (S) = {λ ∈ C| |λ| < 1}.
Concluı́mos até agora que σp (S) = ∅, σr (S) = {λ ∈ C| |λ| < 1}, σp (S ∗ ) = {λ ∈ C| |λ| < 1} e
σr (S ∗ ) = ∅. Como σ(S) é fechado, contido em {λ ∈ C| |λ| ≤ 1} e contém σr (S) = {λ ∈ C| |λ| < 1},
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 26 1338/1461
concluı́mos que σ(S) = {λ ∈ C| |λ| ≤ 1}. Analogamente, σ(S ∗ ) = {λ ∈ C| |λ| ≤ 1}. Como a união
(26.82) é disjunta, concluı́mos que σc (S) = σc (S ∗ ) = {λ ∈ C| |λ| = 1}. Temos finalmente o seguinte
quadro:
σ(S) = {λ ∈ C| |λ| ≤ 1}, σp (S) = ∅, σc (S) = {λ ∈ C| |λ| = 1}, σr (S) = {λ ∈ C| |λ| < 1},
◊
Exemplo 26.4 (Extraı́do de [116]). Seja X = ℓ∞ , o espaço de Banach das seqüências limitadas e
considere-se o seguinte operador definido em ℓ∞ :
T ′ (a1 , a2 , a3 , a4 , a5 , . . .) := (0, a1 , a2 , a3 , a4 , . . .) .
T ′ é denominado operador de shift (mas note-se que difere de S, definido acima, pois aquele era definido
apenas em ℓ2 ). De maneira análoga ao que fizemos acima para o operador S, mostra-se que T ′ não
possui autovalores: σp (T ′ ) = ∅.
Vamos mostrar agora que todo λ ∈ C com |λ| = 1 pertence ao espectro residual de T ′ . Sejam
a = {an } e b = {bn } duas seqüências de ℓ∞ tais que a = (λ1 − T ′ )b. Isso significa que
Assim, teremos a1 = λb1 , a2 = λb2 − b1 , a3 = λb3 − b2 , a4 = λb4 − b3 etc. Como |λ| = 1, tem-se λ−1 = λ
e essas relações implicam
n
n+1 X
bn = λ λm am , (26.90)
m=1
∞
como facilmente se constata. Se c ∈ ℓ , tem-se para qualquer n ∈ N que
onde, acima, usamos que |λn | = 1 pois |λ| = 1 e que |z| ≥ |Re(z)| ≥ Re(z) para qualquer z ∈ C.
Concluı́mos disso que
Re(λn an ) ≥ Re(λn cn ) − kc − ak∞ . (26.91)
n
Vamos agora tomar cn da forma cn = λ e seja a ∈ ℓ∞ contido na bola aberta de raio 1/2 centrada
em c, ou seja, kc − ak∞ < 1/2. Por (26.91), teremos que Re(λn an ) ≥ 1 − 1/2 =P
1/2. Dessa forma,
vemos que se b é tal que a = (λ1 − T )b então, por (26.90), teremos λ bn = nm=1 λm am , o que
′ n+1
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 26 1339/1461
implica
|bn | = λn+1 bn ≥ Re λn+1 bn ≥ Re λn+1 bn
n
! n n
(26.90) X X X 1 n
m m
= Re λ am = Re (λ am ) ≥ = .
m=1 m=1 m=1
2 2
Agora, a relação |bn | ≥ n/2 não pode ser satisfeita se b é uma seqüência limitada (ou seja, um elemento
n
de ℓ∞ ). Concluı́mos que a bola aberta de raio 1/2 centrada no elemento c ∈ ℓ∞ dado por cn = λ
não pode estar na imagem de λ1 − T ′ e, portanto, a imagem de ℓ∞ por esse operador não é densa em
ℓ∞ . Concluı́mos, assim, que σr (T ′ ) contém o cı́rculo unitário {λ ∈ C| |λ| = 1}. É possı́vel provar (vide
[116]) que σr (T ′ ) = {λ ∈ C| |λ| ≤ 1}. ◊
Exemplo 26.5 Um outro exemplo que estudamos explicitamente é o operador de integração de Vol-
terra W , discutido no Exemplo 26.6 à página 1351 e seguintes. Lá determinamos explicitamente o
operador resolvente de W e seu espectro. ◊
o que implica lim βk (x − y) = 0, ou seja, cada βk é um funcional linear contı́nuo (e, portanto,
kx−ykA →0
limitado) de A em C. Assim, existe B > 0 tal que |βk (x)| ≤ BkxkA para todo k = 1, . . . , N.
Dessa forma, vemos que se xn , n ∈ N, é uma seqüência limitada de vetores em A (ou seja, existe
X > 0 tal que kxn kA ≤ X para todo n ∈ N) então |βk (xn )| ≤ BX para todo n ∈ N e todo k. Assim,
XN
XN XN
kMxn kB =
βk (xn )bk
≤ |βk (xn )| kbk kB ≤ BX kbk kB .
k=1 B k=1 k=1
Isso diz-nos que todos os vetores da seqüência Mxn estão contidos na bola fechada centrada em 0 e
de raio BX(kb1 kB + · · · + kb1 kB) do sub-espaço de dimensão finita gerado por b1 , . . . , bN . Assim,
pelo bem conhecido Teorema de Bolzano27 -Weierstrass28 , a seqüência Mxn , possui pelo menos uma
sub-seqüência convergente.
Essa propriedade, válida para operadores de posto finito, inspira a definição de operadores compac-
tos.
• Operadores Compactos
Um operador linear limitado C agindo entre dois espaços de Banach A e B é dito ser um operador
compacto se para toda seqüência limitada xn ∈ A, n ∈ N, a seqüência Cxn em B possui pelo menos
uma seqüência convergente.
A denominação “operador compacto” provem da seguinte propriedade equivalente: um operador
C agindo entre dois espaços de Banach A e B é compacto (seguindo a definição acima) se e somente
se o fecho em B da imagem por C de qualquer conjunto limitado em A é compacto (na topologia de
B). Essa equivalência é uma conseqüência de propriedades bem-conhecidas de conjuntos compactos em
espaços métricos e a prova é deixada como exercı́cio. Essa propriedade pode ser tomada como definição
alternativa da noção de operador compacto e assim é feito em alguns textos.
Como vimos, operadores de posto finito são compactos, mas a recı́proca não é verdadeira em
dimensão infinita. Porém, a seguinte proposição é imediata das observações acima.
Proposição 26.39 Todo operador linear agindo entre dois espaços de Banach de dimensão finita A e
B é compacto. 2
Com o uso do Princı́pio de Limitação Uniforme, Teorema 26.6, página 1270, podemos estabelecer
o seguinte resultado fundamental sobre operadores compactos.
27
Bernard Placidus Johann Nepomuk Bolzano (1781-1848).
28
Karl Theodor Wilhelm Weierstrass (1815-1897).
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 26 1341/1461
Teorema 26.26 Seja C : A → B um operador compacto agindo entre dois espaços de Banach A e B.
Seja xn ∈ A, n ∈ N uma seqüência de vetores de A e suponha que exista x ∈ A tal que ℓ(xn ) ∈ C,
n ∈ N, seja uma seqüência convergente a ℓ(x) para todo funcional linear contı́nuo ℓ : A → C (i.e., xn
é fracamente convergente a x). Então Cxn ∈ A, n ∈ N converge em norma a Cx em B. 2
Prova. Denotemos por A† o dual topológico de A (i.e., A† é o conjunto de todos os funcionais lineares
contı́nuos de A). O Teorema 26.2, página 1257, diz-nos que A† é igualmente um espaço de Banach com
a norma definida em (26.3), página 1259.
Para z ∈ A definamos a aplicação ẑ : A† → C dada por ẑ(ℓ) = ℓ(z). Como |ẑ(ℓ)| = |ℓ(z)| ≤
kℓkA† kzkA (pois ℓ é um funcional linear contı́nuo), segue que ẑ é um funcional linear contı́nuo em A† .
Por (26.4), vale kẑk = kzkA.
Pelas hipóteses, para cada ℓ ∈ A† a seqüência numérica ℓ(xn ) converge a ℓ(x) ∈ C. Daı́, |ℓ(xn )| é
limitada, ou seja, existe Mℓ > 0 tal que |ℓ(xn )| ≤ Mℓ para todo n ∈ N.
Para a seqüência xn ∈ A, n ∈ N de vetores de A do enunciado, podemos considerar o conjunto
de operadores A† → C lineares e limitados por S : {c xn , n ∈ N}. Agora, para cada ℓ ∈ A† vale
que |c
xn (ℓ)| ≤ Mℓ para todo xcn ∈ S. Estamos, portanto, sob as condições do Princı́pio de Limitação
Uniforme, Teorema 26.6, página 1270, e podemos afirmar que existe M > 0 tal que kc xn k ≤ M para
todo n ∈ N, ou seja, kxn kA ≤ M para todo n ∈ N.
Sejam agora definidos em B a seqüência yn := Cxn , n ∈ N e o vetor y := Cx. Para cada ℓ ∈ A†
vale
ℓ(yn ) − ℓ(y) = ℓ(yn − y) = ℓ(C(xn − x)) = ℓ ◦ C(xn − x) .
Todavia, ℓ ◦ C é um elemento de A† pois é linear e contı́nuo (sendo a composição de duas aplicações
contı́nuas). Logo, pelas hipóteses, ℓ ◦ C(xn ) converge a ℓ ◦ C(x), o que implica que ℓ(yn ) converge a
ℓ(y).
Desejamos provar que yn converge a y na norma de B. Vamos supor, por absurdo, que isso não
ocorra. Então, existe algum ǫ > 0 tal que
kynj − ykB > ǫ (26.92)
para todos ynj de uma sub-seqüência de yn . Agora, ynj = Cxnj e como kxnj kA ≤ M para todo j e
C é compacto, {ynj }j∈N possui uma sub-seqüência convergente em norma em B. Vamos denotar essa
sub-seqüência por yk′ , k ∈ N e seja y ′ ∈ B o seu limite. É certo por (26.92) que y ′ 6= y. Agora, Como
kyk′ − y ′ kB converge a 0, segue que
|ℓ(yk′ ) − ℓ(y ′)| ≤ kℓkkyk′ − y ′kB → 0 .
Vimos acima, porém, ℓ(yn ) converge a ℓ(y). Como yk′ é uma sub-seqüência de yn , então ℓ(yk′ ) deve
também convergir a ℓ(y). Assim provamos que ℓ(y ′ − y) = 0 para todo ℓ ∈ A† , o que implica y ′ = y,
uma contradição.
Prova. Seja xn uma seqüência limitada de vetores em X. Então existe uma sub-seqüência xnj de xn tal
que a seqüência Axnj converge em norma em Y, pois A é compacto. É elementar constatar que isso
implica que αAxnj também converge em norma em Y. Como a seqüência xnj é (obviamente) limitada,
ela possui uma sub-seqüência xnjk tal que βBxnjk converge em norma em Y. Daı́, é elementar constatar
que (αA + βB)xnjk converge em norma em Y, completando a prova.
A proposição acima mostra que o conjunto de operadores compactos agindo entre dois espaços de
Banach X e Y é um espaço linear. Tem-se também o seguinte.
Proposição 26.41 Sejam X e Y e Z três espaços de Banach e sejam A : Y → Z e B : X → Y dois
operadores limitados. Então se A ou B for compacto (ou ambos o forem) o produto AB : X → Z é
compacto. 2
Prova. Seja xn uma seqüência limitada em X, ou seja, existe M > 0 tal que kxn kX ≤ M para todo
n ∈ N. Então Bxn é uma seqüência limitada em Y (pois B é limitado e kBxn kY ≤ kBk kxn kX ≤
kBkM). Logo, se A for compacto, ABxn possui uma sub-seqüência convergente na norma de Z e,
portanto, o produto AB é compacto. Se por outro lado B for compacto, então Bxn possui uma sub-
seqüência Bxnj convergente. Por ser convergente, Bxnj é uma seqüência de Cauchy em Y, ou seja,
para todo ǫ > 0 podemos encontrar k e l grandes o suficiente tais que kB(xnk − xnl )kY ≤ ǫ. Logo,
kAB(xnk − xnl )kZ ≤ kAkkB(xnk − xnl )kY ≤ kAkǫ, provando que ABxnj é uma seqüência de Cauchy
em Z e, portanto, converge, o que novamente estabelece que o produto AB é compacto.
Prova. Seja xm uma seqüência limitada de vetores em H, ou seja, existe M > 0 tal que kxn kH ≤ M
para todo n ∈ N. Tem-se que
kA∗ (xn − xm )k2H = hA∗ (xn − xm ), A∗ (xn − xm )iH = h(xn − xm ), AA∗ (xn − xm )iH
Cauchy-Schwarz
≤ kxn − xm kH kAA∗ (xn − xm )kH ≤ 2MkAA∗ (xn − xm )kH ,
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 26 1343/1461
pois k(xn − xm )kH ≤ kxn kH + kxm kH ≤ 2M. Como A é compacto, AA∗ também o é (Proposição
26.41, acima). Logo AA∗ xn possui uma sub-seqüência AA∗ xnj convergente em norma, que, portanto,
é de Cauchy. Assim, para qualquer ǫ > 0 podemos encontrar k e l grandes o suficiente tais que
kAA∗ (xnk − xnl )kH ≤ ǫ. Logo, kA∗ (xnk − xnl )k2H ≤ 2Mǫ, provando que A∗ xnj é uma seqüência de
Cauchy e, portanto, converge.
A seguinte proposição revela uma propriedade topológica importante dos operadores compactos.
Proposição 26.44 Sejam X e Y dois espaços de Banach e seja Cn : X → Y, n ∈ N uma seqüência de
operadores compactos. Vamos supor que Cn converge na norma de B(X, Y) a um operador limitado
C ∈ B(X, Y), ou seja, kC − Cn kB(X, Y) → 0 quando n → ∞. Então C é compacto. Isso revela que o
conjunto dos operadores compactos é fechado na topologia uniforme de B(X, Y). 2
Prova. Seja x0n ∈ X uma seqüência limitada de vetores qualquer. Que x0n ∈ X é limitada significa que
existe M > 0 tal que kx0n kX ≤ M para todo n ∈ N. Então,
Seja ǫn , n ∈ N, uma seqüência de números positivos que converge a zero e tal que ǫb < ǫa se b > a
(sem perda de generalidade, podemos tomar ǫn = 1/n, n ≥ 1). Como por hipótese kC − Cn kB(X, Y) → 0
quando n → ∞ podemos escolher k1 grande o suficiente de forma que kC − Ck1 k < ǫ1 . Fixemos um tal
k1 . Como kx0n kX ≤ M para todo n ∈ N, vale também que kx0n − x0m kX ≤ kx0n kX + kx0m kX ≤ 2M. Logo,
por (26.93),
kC(x0n − x0m )kY ≤ 2Mǫ1 + kCk1 (x0n − x0m )kY .
Como Ck é compacto, existe uma sub-seqüência x1j = x0nj , j ∈ N, da seqüência x0n tal que Ck1 x1j converge
em norma para j → ∞ e, portanto, é uma seqüência de Cauchy em Y, Assim, existe N1 ≡ N(ǫ1 ) ∈ N
tal que, se l ≥ N1 e m ≥ N1 , então kCk1 (x1l − x1m )kY ≤ ǫ1 . Disso concluı́mos que
para todos l ≥ N1 e m ≥ N1 .
Notemos que a seqüência x1n é fixada por ǫ1 . Podemos, porém, proceder indutivamente construindo
uma sub-seqüência x2n da seqüência x1n e assim sucessivamente da seguinte forma. Para o elemento ǫa
da seqüência dos ǫ’s, tomamos ka tal que Cka satisfaz kC − Cka k < ǫa . Por uma aplicação da mesma
desigualdade que conduziu a (26.93), concluı́mos que
kC(xna−1 − xm
a−1
)kY ≤ 2Mǫa + kCka (xna−1 − xm
a−1
)kY .
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 26 1344/1461
para todos l ≥ Na e m ≥ Na .
Daqui por diante escolheremos a seqüência de inteiros Na , a ∈ N como sendo uma seqüência
crescente, ou seja, tomamos Nb > Na caso b > a (ou seja ǫb < ǫa ). Uma tal escolha é sempre possı́vel
(por que?).
Para cada a ≥ 1 a sub-seqüência xan , n ∈ N, é uma sub-seqüência de xna−1 , n ∈ N, e todas são
sub-seqüências de x0n , n ∈ N. Definamos agora a seqüência ua := xaNa , a ∈ N, também sub-seqüência
de x0n , n ∈ N. Tomemos b > a. Como xbn , n ∈ N, é uma sub-seqüência de xan , n ∈ N, teremos que
ub = xbNb = xal para algum l ≥ Nb > Na (justifique por que l ≥ Nb lembrando que xbn , n ∈ N, é uma
sub-seqüência de xan , n ∈ N). Assim, com o uso de (26.94), obtemos
pois l > Na . Agora, como ǫa → 0 para a → ∞, existe para cada ǫ > 0 um a tal que (2M + 1)ǫa < ǫ.
Para tal a valerá kC(ub − ua )kY < ǫ para qualquer b > a. Isso está nos dizendo que a seqüência
Cun , n ∈ N, é é uma seqüência de Cauchy em Y e, portanto, converge em norma, pois Y é um espaço
de Banach. Como un , n ∈ N, é uma sub-seqüência de uma seqüência limitada arbitrária x0n , n ∈ N,
isso provou que C é compacto.
Prova. Que o conjunto de todos os operadores compactos agindo em um espaço de Hilbert H forma
uma álgebra com involução dada pela adjunção A → A∗ foi provado nas Proposições 26.40-26.43,
acima. A Proposição 26.44 estabeleceu que o conjunto de todos os operadores compactos agindo em
um espaço de Hilbert H é um sub-espaço linear fechado de B(H) e portanto, é completo. As demais
propriedades, como a propriedade C∗ , são conseqüência do Teorema 26.11, página 1281, já que os
operadores compactos agindo em H são elementos de B(H). O operador unidade não é compacto,
pois nem toda seqüência limitada tem uma sub-seqüência convergente em norma, exceto se H possuir
dimensão finita.
Vamos agora nos especializar em operadores compactos agindo em espaços de Hilbert separáveis.
Veremos que o Teorema 26.26, página 1341 tem uma importante conseqüência nesse caso que aponta
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 26 1345/1461
na direção de uma generalização do Teorema Espectral para operadores compactos (agindo em espaços
de Hilbert separáveis).
Teorema 26.27 Seja H um espaço de Hilbert separável e seja C : H → H compacto. Seja {ψn , n ∈
N} uma base ortonormal completa em H. Então,
C = lim CN ,
N →∞
para todo ψ ∈ H. 2
µn := sup kCφkH ,
φ∈Pn⊥ , kφkH =1
lim hy, ξn iH = 0
n→∞
para todo y ∈ H (justifique!). Pelo Teorema da Representação de Riesz, Teorema 25.8, página 1246, isso
está dizendo-nos que limn→∞ ℓ(ξn ) = 0 para todo funcional linear contı́nuo ℓ de H. Agora, pelo Teorema
26.26, página 1341, isso implica que Cξn converge a zero em norma. Assim, como µ/2 ≤ kCξn kH para
todo n, segue que µ = 0, como querı́amos mostrar.
A implicação importante desse fato é a seguinte. Para qualquer ψ ∈ H teremos
N
! M
!
X X
Cψ − CN ψ = C ψ − hψn , ψiH ψn = C lim hψn , ψiH ψn = CP⊥
nψ ,
M →∞
n=1 n=N +1
onde P⊥ ⊥
n é o projetor ortogonal sobre Pn . Logo,
⊥
kC − CN k = sup
CP ψ
= sup kCψkH = µn ,
n H
ψ∈H, kψkH =1 ψ∈Pn⊥ , kψkH =1
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 26 1346/1461
No teorema acima é interessante observar que os operadores CN são de posto finito e, portanto,
compactos. Concluı́mos, assim, que todo operador compacto agindo em um espaço de Hilbert separável
H pode ser aproximado na norma de B(H) por operadores de posto finito. Comentamos, porém, que
a restrição a espaços de Hilbert separáveis pode ser eliminada. Isso será provado no Teorema 26.31,
página 1358. Uma questão que permaneceu em aberto por muito tempo foi saber se essa propriedade
se estenderia a operadores compactos agindo em espaços de Banach. Essa questão foi respondida
negativamente por P. Enflo29 em 197330 , o qual exibiu um exemplo de um operador compacto em um
espaço de Banach que não se deixa aproximar em norma por operadores de posto finito.
Seja λn , n ∈ N, uma seqüência de números complexos que converge a zero, ou seja, limn→∞ |λn | = 0.
Sejam também φn , n ∈ N, e ψn , n ∈ N, dois conjuntos ortonormais de vetores em um espaço de
Hilbert H, que suporemos ser de dimensão infinita, mas não necessariamente separável. Temos, então,
hφn , φm iH = δn, m e hψn , ψm iH = δn, m para todos m e n ∈ N.
Pretendemos provar que a seqüência de operadores de posto finito definidos para cada N ∈ N por
N
X
QN ψ := λn hφn , ψiH ψn , ∀ψ∈H,
n=1
29
Per Enflo (1944-).
30
P. Enflo, “A counterexample to the approximation property in Banach spaces”, Acta Math. 130, 309-317 (1973).
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 26 1347/1461
* N N
+
X X
= λn hφn , ψiH ψn , λn hφn , ψiH ψn
n=M +1 n=M +1 H
N
X N
X
= λn′ λn hφn′ , ψiH hφn , ψiH hψn′ , ψn iH
| {z }
n′ =M +1 n=M +1 = δn, n′
N
X
= |λn |2 |hφn , ψiH|2
n=M +1
X
N
≤ max |λm | 2
|hφn , ψiH|2
m∈{M +1, ..., N }
n=M +1
Logo,
kQN − QM k2 ≤ max |λm |2 .
m∈{M +1, ..., N }
Agora, como por hipótese, |λn | → 0 para n → ∞, segue que max |λm |2 pode ser feito menor que
m∈{M +1, ..., N }
qualquer ǫ > 0 dado, desde que M (e, portanto, N, pois M < N) seja grande o suficiente. Isso provou
que QN , N ∈ N, é uma seqüência de Cauchy na norma operatorial de B(H). Como B(H) é um espaço
de Banach, concluı́mos que QN converge quando N → ∞ para um operador Q ∈ B(H). Como Q é
o limite em norma de uma seqüência de operadores compactos (os operadores QN são compactos por
serem de posto finito), concluı́mos pela Proposição 26.44, página 1343, que Q é igualmente compacto.
Escrevemos,
X∞
Q := λn hφn , · iH ψn . (26.95)
n=1
Antes de mudarmos de assunto, façamos um breve comentário sobre a expressão (26.95) que elu-
cidará um ponto que virá mais adiante. Como todo numero complexo, os λn têm a forma polar
λn = |λn |eiαn , onde αn ∈ R. Na expressão (26.95) as fases eiαn podem ser absorvidas nos vetores
ψn , sem que os mesmos deixem de formar um conjunto ortonormal. Assim, genericamente, operadores
compactos como (26.95) podem ser escritos como
∞
X
Q = µn hφn , · iH ψn . (26.96)
n=1
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 26 1348/1461
Seja o intervalo compacto [a, b] ⊂ R e seja k : [a, b] × [a, b] → R uma função fixada contı́nua de
duas variáveis. Para f ∈ C([a, b]), uma função contı́nua (real ou complexa) definida em [a, b], seja
Z b
(Kf )(x) := k(x, y)f (y) dy .
a
É bastante claro que K é um operador linear mapeando funções contı́nuas em [a, b] em funções
contı́nuas em [a, b], ou seja, K : C([a, b]) → C([a, b]). Isso pois k foi suposta ser contı́nua nas
duas variáveis. O espaço vetorial C([a, b]) é um é um espaço de Banach com a norma no supremo:
kf k := supx∈[a, b] |f (x)|. Não é difı́cil de se ver que K é limitado nessa norma, pois |(Kf )(x)| ≤
Z ∞b Z b
′
|k(x, y)|dy sup ||f (y )| = |k(x, y)|dy kf k∞ e, portanto kKf k∞ ≤ Mkf k∞ , onde M =
a y ′ ∈[a, b] a
(b − a) supx, y∈[a, b] |k(x, y)| < ∞, devido à continuidade de k.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 26 1349/1461
é claramente um operador de posto finito (os monômios xk são elementos de C([a, b])) e, portanto,
é compacto. Se k(x, y) é contı́nua no retângulo compacto [a, b] × [a, b] então, pelo Teorema de
Weierstrass, k pode ser uniformemente aproximada por polinômios em x e y. É fácil ver daı́ (exercı́cio!)
que isso implica que K é aproximada na norma de B(C([a, b])) por operadores de posto finito como Pn
acima. Assim, pela Proposição 26.44, página 1343, K é compacto como operador agindo em C([a, b]).
II. Para um certo N > 0, seja BN ⊂ C([a, b]) a bola de raio N centrada em 0: BN := {f ∈
C([a, b]), kf k∞ < N}. Se f é uma função qualquer de BN, teremos que (Kf )(x) − (Kf )(x′ ) =
Rb ′ ′
Rb
a
(k(x, y) − k(x , y))f (y)dy. Logo, |(Kf )(x) − (Kf )(x )| ≤ kf k ∞ a
|k(x, y) − k(x′ , y)|dy ≤ N(b −
a) supy∈[a, b] |k(x, y) − k(x , y)|. Como k é contı́nua, podemos para todo ǫ′ > 0 encontrar δ ′ > 0 tal
′
que |k(x, y) − k(x′ , y)| < ǫ′ sempre que |x − x′ | < δ ′ . Esse δ ′ (ǫ′ ) depende apenas de ǫ′ , pois pode ser
escolhido independente de x, x′ e y, já que k é contı́nua em um compacto.
Assim, concluı́mos que para
ǫ
todo ǫ > 0 podemos encontrar δ(ǫ) > 0, a saber, δ(ǫ) = δ ′ (b−a)N tal que |(Kf )(x) − (Kf )(x′ )| < ǫ
sempre que |x − x′ | < δ(ǫ). O fato de δ não depender de x nem de x′ nem de f significa que o
conjunto de funções {Kf, f ∈ BN} é o que se denomina ser um conjunto eqüicontı́nuo de funções.
Por um teorema clássico de Análise conhecido como Teorema de Ascoli (ou de Ascoli-Arzela), sabe-
se que toda seqüência de funções eqüicontı́nuas possui pelo menos uma sub-seqüência convergente na
norma do supremo. Assim, se fn é uma seqüência de funções em BN, a seqüência Kfn tem pelo menos
sub-seqüência convergente na norma do supremo. Ora, isso precisamente afirma que K é compacto.
definido para f contı́nua no intervalo [a, b] onde, como no caso do operador de Fredholm, k é uma
função fixa contı́nua no retângulo [a, b] × [a, b]. É fácil ver que V é um operador linear mapeando
31
Erik Ivar Fredholm (1866-1927).
32
Vito Volterra (1860-1940).
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 26 1350/1461
Como v é limitada no retângulo [a, b] × [a, b], é fácil mostrar, repetindo o que fizemos para o operador
de Fredholm, que V é um operador limitado agindo em C([a, b]). Porém, como v não é contı́nua (pois
χ[a, x] não o é), não podemos repetir os argumentos que conduziram-nos à conclusão que o operador de
Fredholm é compacto. No entanto, os operadores de Volterra são compactos, como mostra o seguinte
argumento.
Para n ∈ N, consideremos o operador de Fredholm definido por
Z b
(Vn f )(x) = vn (x, y)f (y) dy , onde vn (x, y) := k(x, y) e−n(|x−y|−(x−y)) .
a
Vemos que se a ≤ y ≤ x então vn (x, y) = k(x, y) = v(x, y). Se, porém, x < y ≤ b, teremos
limn→∞ vn (x, y) = 0, que é quanto vale v na mesma região. Assim, vemos ao menos intuitivamente
que Vn → V quando n → ∞. Vamos provar que essa convergência se dá na norma de B(C([a, b])).
Como os Vn são compactos (por serem de Fredholm), isso implica que V é compacto pela Proposição
26.44, página 1343. Observemos, então, que para f ∈ C([a, b]), vale
Z b
(V f )(x) − (Vn f )(x) = (v(x, y) − vn (x, y)) f (y) dy
a
Z b Z b
= (v(x, y) − vn (x, y)) f (y) dy = − k(x, y)e−n(|x−y|−(x−y)) f (y) dy .
x x
Logo, ! Z b
|((V − Vn )f )(x)| ≤ sup |k(x, y)| kf k∞ e−n(|x−y|−(x−y)) dy .
x, y∈[a, b] x
Agora,
Z b Z b−x Z b−x
−n(|x−y|−(x−y)) y ′ =y−x −n(|y ′ |+y ′ ) ′ −2ny ′ ′ 1 − e−2n(b−x)
e dy = e dy = e dy = .
x 0 0 2n
Dessa forma, !
1 − e−2n(b−a)
k(V − Vn )f k∞ ≤ sup |k(x, y)| kf k∞ ,
x, y∈[a, b] 2n
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 26 1351/1461
e, portanto, !
1 − e−2n(b−a)
kV − Vn k ≤ sup |k(x, y)| ,
x, y∈[a, b] 2n
provando que lim kV − Vn k = 0. Isso demonstrou que os operadores de Volterra são compactos.
n→∞
Exemplo 26.6 Um caso interessanteR é aquele em que k(x, y) ≡ 1. Denotemos por W o correspondente
x
operador de Volterra: (W f )(x) = a f (y) dy. Vamos provar que esse operador de Volterra não tem
autovalores.
Rx Suponhamos que exista λ ∈ C e uma função g ∈ C([a, b]) não-nula tais que W g = λg, ou
seja, a g(y) dy = λg(x). Essa igualdade indica que g é diferenciável e tem-se g(x) = λg ′(x) para todo
x ∈ [a, b]. Para λ = 0 sairia disso que g(x) = 0 para todo x ∈ [a, b], situação que já descartamos,
−1
Se λ 6= 0 aRequação diferencial g ′(x) = λ−1 g(x) tem como solução g(x) = g(a)eλ (x−a) . Porém, de
x
g(x) = λ−1 a g(y) dy vemos que g(a) = 0 e novamente terı́amos g(x) = 0 para todo x ∈ [a, b].
Rx
Assim, o operador (W f )(x) = a f (y) dy agindo em C([a, b]) é um exemplo de operador compacto
que não possui autovalores. Como todo operador agindo em um espaço de Banach, W tem um espectro
não-vazio mas, como vimos, seu espectro pontual é vazio. Vamos agora provar que σ(W ) = {0}. Para
R x f diferenciável e seja g ∈ Ran (λ1 − W )) tal que (λ1 − W )f = g, ou seja, g(x) =
λ 6= 0, seja
λf (x) − a f (y)dy, o que implica g(a) = λf (a). Como f é diferenciável, g também o é e tem-se
g ′ = λf − f . A solução dessa equação diferencial para f com a condição f (a) = g(a)/λ é
Z
1 1 x x −y
f (x) = g(x) + 2 e λ e λ g(y) dy , (26.98)
λ λ a
como facilmente se mostra. Definindo o operador de multiplicação Eλ : C([a, b]) → C([a, b]) por
(Eλ h)(x) := e− λ h(x) a expressão (26.98) está dizendo-nos que para λ 6= 0, o operador (λ1 − W )−1 ,
x
restrito ao espaço C 1 ([a, b]) das funções contı́nuas e diferenciáveis (como a função g acima), é dado
por
1 1
(λ1 − W )−1 ↾C 1 ([a, b]) = 1 + 2 Eλ−1 W Eλ .
λ λ
O operador à direita é limitado e C ([a, b]) é denso em C([a, b]). Logo, (λ1 − W )−1 existe em toda
1
Notemos, por fim que |(W f )(x)| ≤ kf k∞ (x − a) e, portanto kW k ≤ b − a. Para a função constante
igual a 1, vale (W 1)(x) = x − a. Logo kW 1k∞ = b − a e como k1k∞ = 1, segue que kW k ≥ b − a,
provando que kW k = b − a. Concluı́mos que W tem um raio espectral nulo (por (26.99)), mas uma
norma não-nula. ◊
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 26 1352/1461
Notemos, por fim, que tanto os operadores de Fredholm quando os de Volterra são limitados e
definidos em C([a, b]), que é um conjunto denso em espaços de Hilbert do tipo L2 ([a, b], r(x)dx) com
r positiva e contı́nua. Assim, pelo Teorema BLT, Teorema 26.1, página 1254, esses operadores podem
ser estendidos a operadores compactos agindo nesses espaços de Hilbert.
I. Então, σp (C) 6= ∅ pois ou kCk ∈ σp (C) ou −kCk ∈ σp (C) (ou ambos), ou seja, ou kCk ou −kCk
(ou ambos) são autovalores de C.
Prova do Teorema 26.28. Suporemos C 6= 0, de outra forma não há o que demonstrar. Provaremos
separadamente as partes I e II.
Prova da parte I. Como C é auto-adjunto, vale kCk = sup |hψ, Cψi| (Teorema 26.12, página 1288).
ψ∈H, kψk=1
Logo, existe uma seqüência ψn , n ∈ N, de vetores em H com kψn k = 1 tal que kCk = lim |hψn , Cψn i|
n→∞
(justifique!). Como C = C ∗ , hψn , Cψn i é um número real. Dessa forma, como o módulo de hψn , Cψn i
converge a kCk, hψn , Cψn i deve ter uma sub-seqüência que converge a kCk ou uma sub-seqüência
que converge a −kCk (ou ambas). Para evitar sobrecarregar a notação, também denotaremos essa
sub-seqüência por hψn , Cψn i, a qual convergirá para c = ±kCk, conforme o caso. Agora, usando o
fato que c é real, que c2 = kCk2 e que C = C ∗ , teremos
kCψn − cψn k2 = hCψn − cψn , Cψn − cψn i = kCψn k2 + c2 kψn k2 −2chψn , Cψn i
| {z }
=1
Como ψn é uma seqüência limitada e C é compacto, a seqüência Cψn possui uma sub-seqüência Cψnj
convergente, ou seja, existe ψ ∈ H tal que lim Cψnj = ψ. A expressão (26.100) está então dizendo-nos
n→∞
que
ψ = lim Cψnj = c lim ψnj . (26.101)
n→∞ n→∞
Assim,
(26.101)
(26.101)
C é linear C é contı́nuo
Cψ = C c lim ψnj = cC lim ψnj = c lim Cψnj = cψ .
n→∞ n→∞ n→∞
escolher em Mλ um conjunto ortonormal de vetores φn , n ∈ N. Como hφn , φm i = δn, m , segue que para
m 6= n, kφn − φm k2 = h(φn − φm ), (φn − φm )i = 2. Logo, também para m 6= n,
Assim, se λ 6= 0, vemos que Cφn , n ∈ N não é uma seqüência de Cauchy, assim como nenhuma de
suas sub-seqüências. Isso contraria a hipótese que C é compacto. Essa contradição leva-nos a excluir
a possibilidade de λ ser infinitamente degenerado, exceto se λ = 0.
II.3. Vamos supor que σp (C) seja um conjunto finito. Pelo item II.2 o sub-espaço gerado por todos os
autovetores de C com autovalor não-nulo é de dimensão finita e, portanto, é fechado. Vamos denotá-lo
por M. É bastante claro que M é um sub-espaço invariante por C (justifique!). Assim, pelo Corolário
26.2, página 1286, M⊥ é igualmente um sub-espaço fechado que é invariante por C.
Vamos denotar por P o projetor ortogonal sobre M e por P ⊥ = 1 − P o projetor ortogonal sobre
M⊥ . Tem-se para todo ξ ∈ H
CP ⊥ ξ = 1CP ⊥ ξ = (P + P ⊥ )CP ⊥ ξ = P CP ⊥ ξ + P ⊥ CP ⊥ ξ = P ⊥ CP ⊥ ξ ,
P ⊥ CP ⊥ = CP ⊥ . (26.102)
P ⊥ C = (CP ⊥ )∗ = (P ⊥ CP ⊥ )∗ = P ⊥ CP ⊥ = CP ⊥ ,
kCφn −Cφm k2 = kλn φn −λm φm k2 = h(λn φn −λm φm ), (λn φn −λm φm )i = |λn |2 +|λm |2 > 2(|x0 |−ǫ)2 .
Como 2(|x0 | − ǫ)2 não depende de m e n, isso está dizendo-nos que Cφn , n ∈ N, não é uma seqüência
de Cauchy, assim como nenhuma de suas sub-seqüências. Isso contraria o fato de C ser compacto.
Logo, x0 6= 0 não pode ser ponto de acumulação de autovalores de C. Como pelo menos um ponto de
acumulação deve existir, esse deve ser o ponto x0 = 0.
h i
II.5. Tomemos em − kCk, kCk um intervalo fechado [a, b] que não contém 0. Se [a, b] contivesse
infinitos autovalores de C, então haveria em [a, b] um ponto de acumulação de tais autovalores, o
que h Assimi[a, b] ∩ σp (C) é um conjunto finito. Portanto, conjuntos como
h já vimos iser impossı́vel.
−kCk, − kCk
n
∩ σp (C) e kCk
n
, kCk ∩ σp (C) são finitos para todo n ≥ 1, n ∈ N. Como
[∞
kCk kCk
σp (C) \ {0} = −kCk, − ∪ , kCk ∩ σp (C) ,
n=1
n n
concluı́mos que o lado direito é uma união contável de conjuntos contáveis (finitos). Logo, σp (C) \ {0}
é contável e, portanto, σp (C) é contável.
Isso completa a prova da parte II.
Estamos agora prontos para abordar o Teorema Espectral para operadores compactos e auto-
adjuntos.
Para o enunciar o Teorema Espectral para operadores compactos auto-adjuntos e para simplificar
sua demonstração precisamos acertar algumas convenções.
Se C é um operador compacto e auto-adjunto agindo em um espaço de Hilbert H, vimos no Teorema
26.28 que o conjunto de seus autovalores é contável (e até mesmo finito, caso C seja de posto finito)
e cada autovalor não-nulo é finitamente degenerado. Vamos denotar por λn , n ∈ N, o conjunto dos
autovalores não-nulos, convencionando que se um autovalor λ tem multiplicidade k então ele aparece
k, vezes seguidas na contagem, de forma que tenhamos, digamos, λm = · · · = λm+k−1 = λ. Com
isso, a seqüência λn , n ∈ N, contém cada autovalor repetido o número de vezes correspondente à
sua multiplicidade. Podemos convencionar também que os autovalores são ordenados de tal forma
que |λk | ≤ |λl | para todo k ≥ l, ou seja, de forma que a seqüência |λn |, n ∈ N seja não-crescente.
Sabemos que autovetores correspondentes a autovalores distintos são ortogonais entre si. O sub-espaço
Mλ gerado pelos autovetores de autovalor λ tem dimensão k, a multiplicidade de λ. Com isso, podemos
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 26 1356/1461
P
Caso kKM k = 0 para algum M ∈ N, então C = M n=1 λn Pn e a prova está completa. Caso kKN k =
6 0
para todo N ∈ N, procedemos da seguinte forma.
Como os vetores φn formam um conjunto ortonormal, vale Pi φj = hφi , φj iHφi = δi, j φi. Logo, se
1 ≤ l ≤ N, tem-se
N
X
KN φl = Cφl − λn Pn φ l = λl φ l − λl φ l = 0
n=1
Os Pj ’s são auto-adjuntos e compactos (por serem de posto finito) e, portanto, cada KN é também
compacto e auto-adjunto. O Teorema 26.28, página 1352, garante, então, que KN possui um autovalor
igual a kKN k ou a −kKN k. Seja ψ um autovetor não-nulo correspondente. Teremos KN ψ = cN ψ onde
cN = kKN k ou cN = −kKN k. Como KN aniquila o sub-espaço PN , essa igualdade e a hipótese que
cN 6= 0 implicam que ψ ∈ (PN )⊥ .
Para ver isso, lembremos que pelo Teorema da Decomposição Ortogonal, Teorema 25.2, página
1229, podemos escrever ψ = χ + ξ, onde χ ∈ PN e ξ ∈ (PN )⊥ . Como KN é auto-adjunto e aniquila
todo vetor de PN , vale hχ, KN ψiH = hKN χ, ψiH = 0. Como, KN ψ = cN ψ, isso diz-nos que
0 = cN hχ, ψiH = cN hχ, χiH = cN kχk2 , provando que χ = 0 e que ψ = ξ ∈ (PN )⊥ .
Agora, o fato que ψ ∈ (PN )⊥ implica Pn ψ = 0 para todo 1 ≤ n ≤ N. Logo, KN ψ = Cψ e a
igualdade KN ψ = cN ψ significa Cψ = cN ψ, ou seja, kKN k ou −kKN k é um autovalor de C.
Quando definimos a seqüência λn , n ∈ N, convencionamos colocar consecutivamente autovalores
de multiplicidade repetida e ordená-los de modo que |λn |, n ∈ N seja uma seqüência não-crescente.
Isso implica que se cN = ±kKN k é um autovalor de C cujo autovetor não pertence a Pn , então temos
|cN | ≤ |λN |, ou seja, kKN k ≤ |λN |. Agora, também pelo Teorema 26.28, limN →∞ |λN | = 0, o que
implica limN →∞ kKN k = 0. Isso é precisamente o que querı́amos provar.
Esse teorema pode também ser demonstrado sem evocar-se o Teorema espectral. Para tal, considere-
se o sub-espaço fechado A de H formado pela soma direta de T e Ker (C). Ou seja, A é o sub-espaço
fechado gerado por todos os autovetores de C (com autovalores nulos ou não). Como A é mantido
invariante por C, então A⊥ também o é (Corolário 26.2, página 1286). Se P ⊥ é o projetor ortogonal
sobre A⊥ , então o fato de A⊥ ser invariante por C significa CP ⊥ = P ⊥ CP ⊥ . Agora, P ⊥ CP ⊥ é
obviamente compacto e auto-adjunto (Proposição 26.41, página 1342). Vamos supor que kP ⊥ CP ⊥ k = 6
⊥ ⊥ ⊥ ⊥
0. Pelo Teorema 26.28, existirá φ ∈ H, φ 6= 0, tal que P CP φ = cφ, onde c = ±kP CP k. Essa
expressão implica φ ∈ A⊥ (devido ao fator P ⊥ do lado esquerdo). Assim, ela afirma que Cφ = cφ. Mas
isso diz-nos que φ é autovalor de C, o que só é possı́vel se φ ∈ A. Logo kP ⊥ CP ⊥ k = 0, mas isso, por
sua vez, implica CP ⊥ = 0, pois CP ⊥ = P ⊥ CP ⊥ . Logo, para todo ψ ∈ A⊥ teremos Cψ = CP ⊥ ψ = 0,
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 26 1358/1461
o que implica ψ ∈ Ker (C). Agora, Ker (C) ⊂ A e o único vetor que A e A⊥ têm em comum é o vetor
nulo. Provamos então que se ψ ∈ A⊥ então ψ = 0, ou seja A = H. Pela definição, isso diz precisamente
que o conjunto ortonormal B0 ∪ B1 , que gera A, é uma base ortonormal completa em H, encerrando
novamente a prova.
Os Teoremas 26.28 e 26.30 foram demonstrados por Hilbert34 , Schmidt35 , Riesz36 e Schauder37 . O
Teorema Espectral para operadores compactos auto-adjuntos foi provado por Hilbert em 1906, sendo o
restante da teoria (re)elaborado pelos demais autores por volta de 1908. Esses trabalhos são os marcos
iniciais da Análise Funcional. Para mais detalhes históricos desses importantes desenvolvimentos, vide
[35].
O Teorema Espectral demonstrado acima para operadores compactos e auto-adjuntos pode ser,
como veremos, estendido para operadores compactos não-auto-adjuntos. Já observamos, porém, que
nem todo operador compacto em espaços de dimensão infinita possui autovalores. Assim, esperamos
alguma diferença em relação ao caso auto-adjunto, pois na decomposição espectral √ (26.103) são os
autovalores λn de C que comparecem. A observação crucial vem do fato que |C| := C ∗ C é compacto
e auto-adjunto (Proposição 26.45, página 1348) e, pelo Teorema 26.28, página 1352, possui autovalores,
valendo inclusive o Teorema 26.29.
Seja C um operador compacto mas não necessariamente auto-adjunto e seja C = U|C| sua decom-
posição polar (Teorema 26.22, página 1319). Pela Proposição 26.45, página 1348, sabemos que |C| é
compacto, auto-adjunto e positivo. Podemos, pelo Teorema Espectral para operadores compactos e
auto-adjuntos, Teorema 26.29, página 1356, escrever
∞
X
|C| = µn hφn , · i φn ,
n=1
onde µn são os autovalores positivos de |C| (os quais são positivos pois |C| é um operador positivo) e
φn os correspondentes autovetores normalizados. Usando a decomposição polar C = U|C|, temos então
X∞
C = µn hφn , · i Uφn .
n=1
Lembremos que, pelo Teorema da Decomposição Polar (Teorema 26.22, página 1319), Ker (U) =
Ker (|C|) = Ker (C), de modo que Uφn 6= 0 se µn > 0.
Em resumo, o que concluı́mos desses comentários é o seguinte:
Teorema 26.31 (Decomposição Espectral para Operadores Compactos) Seja C um operador
compacto agindo em um espaço de Hilbert H. Então existem números positivos µn , n ∈ N e conjuntos
ortonormais φn , n ∈ N, e ψn , n ∈ N, em H tais que
X∞
C = µn hφn , · i ψn , (26.104)
n=1
34
David Hilbert (1862-1943).
35
Erhard Schmidt (1876-1959).
36
Frigyes Riesz (1880-1956).
37
Juliusz Pawel Schauder (1899-1943). Schauder foi tragicamente assassinado pela Gestapo.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 26 1359/1461
a convergência da série de operadores do lado esquerdo se dando na norma de B(H). Se C for de posto
finito, a soma acima será finita. Assim, para todo ψ ∈ H podemos escrever
∞
X
Cψ = µn hφn , ψi ψn , (26.105)
n=1
A expressão (26.104) está também dizendo-nos que todo operador compacto C pode ser aproximado
em norma por operadores de posto finito. Isso generaliza o Teorema 26.27, página 1345, pois aqui não
precisamos supor que H seja separável. 2
• Operadores Nucleares
Já comentamos à página 1346 que nem todo operador compacto agindo em espaços de Banach pode
ser aproximado por operadores de posto finito. Para espaços de Hilbert, no entanto, isso é verdade,
como atesta a expressão (26.105). No entanto, essa mesma expressão motiva uma importante definição
que apresentaremos e discutiremos brevemente aqui: a de operadores nucleares, noção introduzida por
Grothendieck38 .
Sejam X e Y dois espaços de Banach. Um operadorP limitado N : X → Y é dito ser um operador
nuclear se existirem constantes µn > 0, n ∈ N, com ∞ n=1 µn < ∞, funcionais lineares contı́nuos
†
ln :∈ X com kln kX† = 1 para todo n ∈ N e vetores yn ∈ Y com kyn kY = 1 para todo n ∈ N, tais que
∞
X
Nx = µn ln (x) yn , (26.106)
n=1
para todo x ∈ X.
P
A condição ∞ n=1 µn < ∞, é incluı́da por ser suficiente para garantir convergência do lado direito
da expressão (26.106). Pela expressão (26.105), vemos que um operador compacto em um espaço de
Hilbert é nuclear se e somente se a seqüência de seus valores singulares for somável.
é compacto (vide o exemplo da equação (26.95)) mas não é nuclear. Mostre isso. 6
38
Alexander Grothendieck (1928-).
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 26 1360/1461
Como exercı́cio, deixamos ao leitor demonstrar as seguintes afirmações, válidas no contexto geral de
espaços de Banach: 1. todo operador de posto finito é nuclear (isso é evidente, aliás); 2. todo operador
nuclear é compacto; 3. toda combinação linear de dois operadores nucleares é novamente um operador
nuclear; 4. o produto (à direita ou à esquerda) de um operador nuclear por um operador contı́nuo é
novamente um operador nuclear. Vide [155].
Seja agora o espaço de Banach C(σ(A)) da funções complexas contı́nuas definidas no espectro
de A dotado da norma kf k∞ := supλ∈σ(A) |f (λ)| e seja P (σ(A)) o sub-espaço de C(σ(A)) formado
por polinômios. Sabemos pelo Teorema de Weierstrass que P (σ(A)) é denso em C(σ(A)). Vimos
também no Lema 26.6 que a aplicação φA ≡ φ : P (σ(A)) → B(H) dada por φ(p) = p(A) satisfaz
kφ(p)kH = kpk∞ . Ora, isso diz-nos que φ é limitada e, pelo Teorema BLT, Teorema 26.1, página 1254,
pode ser estendida unicamente e isometricamente ao fecho de P (σ(A)) que é C(σ(A)). Essa extensão
também será denotada por φ. Assim, para toda f ∈ C(σ(A)) podemos definir φ(f ) como limite em
norma de operadores φ(p), com p sendo polinômios que convergem a f na norma k · k∞ .
Denotaremos também sugestivamente φ(f ), para f ∈ C(σ(A)), por f (A). Tem-se os seguintes fatos
sobre φ(f ) (vide [116]).
Teorema 26.32 (Cálculo Funcional Contı́nuo) Seja H um espaço de Hilbert, seja A ∈ B(H)
auto-adjunto e seja φA ≡ φ : C(σ(A)) → B(H) definida acima. Para todo polinômio p vale φ(p) =
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 26 1361/1461
p(A). Como vimos, pelo Teorema BLT, Teorema 26.1, página 1254, tem-se kφ(f )kH = kf k∞ para toda
f ∈ C(σ(A)). Fora isso, valem as seguintes afirmações:
Prova do Teorema 26.32. A demonstração desse teorema segue muito proximamente a demonstração do
Teorema 26.17, página 1309 e, de fato, quase todas as asserções acima são casos particulares daquele
teorema pois B(H) é uma álgebra C∗ com unidade. Para facilitar a leitor e destacar algumas poucas
especificidades, apresentamos a demonstração com detalhe.
Prova do item 1. A aplicação φ é limitada e, portanto, contı́nua. As propriedades (26.108), que carac-
terizam φ como um ∗-homomorfismo algébrico, são triviais de se verificar no subespaço denso P (σ(A))
e daı́ se estendem facilmente a todo C(σ(A)) por continuidade.
Prova do item 2. Se f ≥ 0 então f = g 2 para alguma g real e contı́nua. Logo, pela propriedade de
homomorfismo φ(f ) = φ(g 2 ) = φ(g)φ(g) = φ(g)∗φ(g), que é um operador positivo.
Prova do item 3. Tem-se kφ(fn ) − φ(f )k = kφ(f − fn )k = kf − fn k∞ . Logo, se kf − fn k∞ → 0, segue
kφ(fn ) − φ(f )k → 0. Reciprocamente, se φ(fn ) converge na norma de B(H), segue que φ(fn ) é uma
seqüência de Cauchy em B(H). Assim, como kφ(fn ) − φ(fm )k = kfn − fm k∞ , a seqüência fn é de
Cauchy em C(σ(A)) com a norma k · k∞ . Como C(σ(A)) é completo em relação a essa norma, existe
f ∈ C(σ(A)) à qual fn converge e, portanto, limn→∞ φ(fn ) = φ(f ).
Prova do item 4. Para provar que φ(f )ϕ = f (λ0 )ϕ caso Aϕ = λ0 ϕ, notemos em primeiro lugar que para
qualquer polinômio p vale, claramente, φ(p)ϕ = p(λ0 )ϕ. Se tomarmos uma seqüência de polinômios p
que converge a f na norma k · k∞ teremos o resultado desejado por continuidade.
1
Se λ não pertence à imagem de σ(A) por f então r := (f −λ) é contı́nua e, portanto, φ(r) está
bem definida e vale φ(r)φ(f − λ) = φ(f − λ)φ(r) = 1, pelas propriedades de homomorfismo, provando
39
Israil Moiseevic Gelfand (1913-).
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 26 1362/1461
que φ(f ) − λ1 é bijetora com inversa limitada e que, portanto, λ ∈ ρ(φ(f )), o conjunto resolvente de
φ(f ). Isso estabeleceu que o complemento da imagem de f , C \ {f (λ), λ ∈ σ(A)}, é um subconjunto
de ρ(φ(f )). Logo, σ(φ(f )) ⊂ {f (λ), λ ∈ σ(A)}. Vamos agora demonstrar a inclusão oposta. Seja
µ ∈ {f (λ), λ ∈ σ(A)}, ou seja, µ = f (λ0 ) para algum λ0 ∈ σ(A) e vamos supor que µ ∈ ρ(φ(f )), ou
seja, que F := φ(f ) − f (λ0)1 é bijetora. Seja agora P := φ(p) − p(λ0 )1 para algum polinômio p tal que
kf − pk∞ < ǫ. Teremos, F − P = φ(f − p) − (f (λ0 ) − p(λ0 ))1 e, assim,
kF − P k ≤ kφ(f − p)k + |f (λ0) − p(λ0 )| k1k = kf − pk∞ + |f (λ0) − p(λ0 )| ≤ 2kf − pk∞ < 2ǫ .
Agora, pelo Corolário 26.3, página 1297, se escolhermos esse ǫ pequeno o suficiente tal que kF − P k <
kF −1 k−1 , então P será invertı́vel em B(H), o que implica p(λ0 ) 6∈ σ(φ(p)) com λ0 ∈ σ(A). Isso
contraria (26.107). Logo, devemos ter µ 6∈ ρ(φ(f )), ou seja, µ ∈ σ(φ(f )), o que prova {f (λ), λ ∈
σ(A)} ⊂ σ(φ(f )), estabelecendo a igualdade desses dois conjuntos. Isso completa a prova do Teorema
26.32
Comentamos que a identificação σ(φ(f )) = {f (λ), λ ∈ σ(A)} não contraria o fato de σ(φ(f )) ser
fechado, pois a imagem de um conjunto compacto (no caso, σ(A)) por uma função contı́nua (no caso,
f ) é sempre um conjunto compacto (ou seja, fechado e limitado).
provando que a aplicação C(σ(A)) ∋ f 7→ hψ, φ(f )ψiH é limitada e, portanto, contı́nua. Além disso, se
f ≥ 0, vimos pelo Teorema 26.32 que φ(f ) é um operador positivo. Isso significa que hψ, φ(f )ψiH ≥ 0
para todo ψ ∈ H. Por fim, se f ≡ 1, segue que φ(f ) = 1 e hψ, φ(f )ψiH = kψk2 < ∞.
Em resumo, provamos que para ψ ∈ H com a aplicação C(σ(A)) ∋ f 7→ hψ, φ(f )ψiH é um funci-
onal linear contı́nuo, positivo. Esses fatos aparentemente inocentes têm uma conseqüência profunda e
altamente não-trivial. Um clássico teorema de Análise conhecido como Teorema da Representação de
Riesz40 afirma que
40
Frigyes Riesz (1880-1956).
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 26 1363/1461
para toda f ∈ Cc (X). A medida µ e a σ-álgebra M satisfaz µ(K) < ∞ para todo compacto K ⊂ X e é
regular, ou seja
µ(E) = inf{µ(V ), E ⊂ V, V aberto} (26.109)
para todo E ∈ M e
µ(E) = sup{µ(K), K ⊂ E, K compacto} (26.110)
para todo E ∈ M com µ(E) < ∞. Por fim, o espaço de medida produzido por M e µ é completo, ou
seja, se E ∈ M é tal que µ(E) = 0 então todo subconjunto de E pertence a M. 2
O enunciado do teorema acima foi extraı́do de [123], onde sua demonstração pode também ser encon-
trada41 . Alguns autores (por ex. [122]) referem-se a esse Teorema como Teorema de Riesz-Markov42 .
Em nosso caso, X = σ(A) não é apenas localmente compacto, mas compacto e, portanto, Cc (X) =
C(σ(A)). Podemos, então, escrever
Z
hψ , f (A)ψi = f dµψ, A (26.111)
σ(A)
para toda f ∈ C(σ(A)), onde denotamos a medida em σ(A), cuja existência é garantida pelo Teorema
26.33, por µψ, A para lembrar sua dependência em ψ e A.
A medida µψ, A é denominada medida espectral do operador A associada ao vetor ψ ∈ H.
No que se segue, estudaremos várias propriedades dessa medida. Por exemplo, provaremos no item
4 do Teorema 26.35, abaixo, que se ϕ ∈ H, com kϕk = 1, é um autovetor de A com autovalor λ0 , então
a medida µϕ, A é a medida de Dirac centrada em λ0 .
A importância da relação (26.111) para nossa tarefa de estender o cálculo funcional para funções
não-contı́nuas é a seguinte. Apesar de a função f em (26.111) ser contı́nua, o lado esquerdo está bem
definido
R para qualquer função Boreliana limitada, ou seja, se g : σ(A) → C é Boreliana e limitada então
g dµ ψ, A está bem definida. A questão é: existe um operador g(A) ∈ B(H) tal que hψ , g(A)ψi =
Rσ(A)
σ(A)
g dµψ, A ? Mostraremos que, de fato, um tal operador pode ser definido por essa relação. A idéia é
41
Teorema 2.14 da edição [123].
42
Andrei Andreyevich Markov (1903-1979). O pai desse Markov, que tinha o mesmo nome que o filho e viveu entre 1856
e 1922, foi também um matemático célebre e foi o inventor das cadeias de Markov da teoria dos processos estocásticos,
entre outras coisas. O trabalho do segundo Markov contendo o teorema que citamos sobre funcionais lineares é: A.
Markov, “On mean values and exterior densities”, Mat. Sbornik N.S. 4 (46) (1938) 165-191. Para mais referências
históricas, vide [122].
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 26 1364/1461
explorar identidade de polarização para definir o que seria o equivalente aos produtos escalares gerais
hψ , g(A)φi e mostrar que esse equivalente é uma forma sesquilinear e bicontı́nua (em ψ e φ ∈ H), o
que, como veremos, permite definir o operador limitado g(A).
Este é o momento oportuno para introduzirmos a noção geral de forma sesquilinear bicontı́nua em
espaços de Hilbert e estabelecermos um resultado geral sobre essa noção.
Uma forma sesquilinear43 S : H × H → C é dita ser bicontı́nua se existir M > 0 tal que |S(u, v)| ≤
M kuk kvk para todos u, v ∈ H. O seguinte resultado é fundamental para o que segue.
Proposição 26.46 Se S : H × H → C é uma forma sesquilinear bicontı́nua em um espaço de Hilbert
H então existe um operador limitado S, único, tal que
S(u, v) = hSu, vi
para todos u, v ∈ H. 2
Prova. Para cada u fixo, a aplicação v 7→ S(u, v) é um funcional linear contı́nuo. Assim, pelo Teorema
de Representação de Riesz para espaços de Hilbert, Teorema 25.8, página 1246, existe para cada u ∈ H
um vetor ηu tal que S(u, v) = hηu , vi. Seja S : H → H a função (que não pressupomos ser linear) que
associa u a ηu : S(u) = ηu . Escrevemos, portanto, S(u, v) = hS(u), vi para todos u, v ∈ H.
Como S é sesquilinear, tem-se S(α1 u1 +α2 u2 , v) = α1 S(u1 , v)+α2S(u2 , v), para todos u1 , u2 , v ∈ H
e α1 , α2 ∈ C. Assim,
No que segue, Bl (σ(A)) designará o conjunto de todas as funções complexas Borelianas e limitadas
definidas em σ(A).
Proposição 26.47 Para cada g ∈ Bl (σ(A)), Boreliana e limitada, a aplicação Sg : H × H → C
definida por
3 Z
1 X −n
Sg (u, v) := i g dµψn , A (26.112)
4 n=0 σ(A)
43
A definição de forma sesquilinear encontra-se à página 119.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 26 1365/1461
onde ψn := u + in v, é uma aplicação sesqui-linear e bicontı́nua em H, sendo que |Sg (u, v)| ≤
kgk∞ kuk kvk para todos u, v ∈ H. Assim, pela Proposição 26.46, existe um operador limitado, que
denotaremos por g(A), tal que
Sg (u, v) = hu, g(A)vi
para todos u, v ∈ H. É claro também que
Prova. Para cada função f contı́nua tem-se pela identidade de polarização (2.31), página 133, e por
(26.111), que
3 Z 3
1 X −n 1 X −n
Sf (u, v) = i f dµψn , A = i hψn , f (A)ψn i
4 n=0 σ(A) 4 n=0
3
1 X −n
= i h(u + in v), f (A)(u + in v)i = hu, f (A)vi ,
4 n=0
Isso mostra que Sf é sesquilinear e é bicontı́nua pois, por Cauchy-Schwarz, vale |hu, f (A)vi| ≤
kf (A)k kuk kvk. Queremos agora provar que essas propriedades estendem-se às formas Sg , com g ∈
Bl (σ(A)), e a idéia é explorar o fato que tais funções podem ser aproximadas por funções contı́nuas.
Mais especificamente, usaremos o seguinte resultado:
Teorema 26.34 (Teorema de Lusin) 44 Seja X um espaço localmente compacto e Hausdorff e seja
µ uma medida positiva sobre uma σ-álgebra M de X que contém a σ-álgebra de Borel de X tal que: 1)
µ(K) < ∞ para todo compacto K ⊂ X; 2) µ é regular, ou seja µ(E) = inf{µ(V ), E ⊂ V, V aberto}
para todo E ∈ M e µ(E) = sup{µ(K), K ⊂ E, K compacto} para todo E ∈ M com µ(E) < ∞; 3) o
espaço de medida produzido por M e µ é completo, ou seja, se E ∈ M é tal que µ(E) = 0 então todo
subconjunto de E pertence a M.
Suponha que g é uma função complexa e mensurável em X com a propriedade que g(x) = 0 se
x 6∈ B, sendo B ⊂ X tal que µ(B) < ∞. Então para todo ǫ > 0 existe f ∈ Cc (X) tal que
µ {x ∈ X| g(x) 6= f (x)} ≤ ǫ .
44
Nikolai Nikolaevich Lusin (ou Luzin) (1883-1950).
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 26 1366/1461
O enunciado do teorema acima foi extraı́do de [123], onde sua demonstração pode também ser encon-
trada45 . O Teorema 26.34 tem o seguinte corolário elementar, que usaremos adiante.
Corolário 26.14 Seja X é um espaço localmente compacto e Hausdorff e µj , j = 1, . . . , n, uma
coleção finita de medidas satisfazendo as condições do Teorema 26.34. Seja g é uma função complexa
e Boreliana em X com a propriedade que g(x) = 0 se x 6∈ B, sendo B ⊂ X tal que µj (B) < ∞,
j = 1, . . . , n. Então para todo ǫ > 0 existe f ∈ Cc (X) tal que
µj {x ∈ X| g(x) 6= f (x)} ≤ ǫ
Note-se que as condições 1, 2 e 3 do enunciado do Teorema 26.34 são aquelas garantidas pelo Teorema
26.33 e, portanto, valem para as medidas µψ, A definidas em X = σ(A). A nós nos interessa o seguinte.
Pelo Teorema de Lusin, Teorema 26.34, se g ∈ Bl (σ(A)) é Boreliana e limitada então para todo ǫ> 0
existe f ∈ C(σ(A)) tal que µ(E) ≤ ǫ, onde E ⊂ σ(A) é o conjunto E := {x ∈ σ(A)| g(x) 6= f (x)} . É
claro disso que
Z Z Z
(f − g) dµψ, A ≤ |f − g| dµψ, A = |f − g| dµψ, A ≤ kf − gk∞ µ(E) ≤ 2kgk∞ ǫ ,
σ(A) σ(A) E
(26.114)
onde usamos o fato que, novamente pelo Teorema de Lusin, kf k∞ ≤ kgk∞, o que implica kf − gk∞ ≤
kf k∞ + kgk∞ ≤ 2kgk∞ . Para u, v ∈ H fixos e ǫ > 0 podemos, pelo Corolário 26.14, escolher
f ∈ C(σ(A)) de forma que Z
|f − g| dµψn, A ≤ 2kgk∞ ǫ (26.115)
σ(A)
para todos os quatro vetores ψn = u + in v, n = 0, . . . , 3. Assim, com u, v ∈ H fixos e para uma tal f
teremos
Z
1 X3 X3 Z
−n
|Sg (u, v) − Sf (u, v)| = i (g − f )dµψn , A ≤ |g − f |dµψn, A ≤ 8kgk∞ ǫ .
4 σ(A)
n=0 n=0 σ(A)
(26.116)
45
Teorema 2.24 da edição [123].
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 26 1367/1461
Com isso podemos provar que Sg é sesquilinear explorando o fato que Sf o é para toda f contı́nua. De
fato, para todos u, v1 , v2 ∈ H e α1 , α2 ∈ C, temos Sf (u, α1 v1 + α2 v2 ) − α1 Sf (u, v1 ) − α2 Sf (u, v2 ) = 0
se f for contı́nua e daı́ segue que
Sg (u, α1 v1 + α2 v2 ) − α1 Sg (u, v1 ) − α2 Sg (u, v2 )
= Sg (u, α1 v1 +α2 v2 )−α1 Sg (u, v1 )−α2 Sg (u, v2 ) − Sf (u, α1 v1 +α2 v2 )−α1 Sf (u, v1 )−α2 Sf (u, v2 )
Por (26.116), os três últimos termos podem ser escolhidos tão pequenos quanto se queira pela escolha de
uma f ∈ C(σ(A)) apropriada (evocando o Corolário 26.14), o que nos leva a concluir que Sg (u, α1 v1 +
α2 v2 ) = α1 Sg (u, v1 ) + α2Sg (u, v2 ), estabelecendo a linearidade de Sg em relação ao segundo argumento.
A anti-linearidade em relação ao primeiro argumento é provada da mesma forma. Resta-nos mostrar
que Sg é bicontı́nua. Escolhendo novamente f ∈ C(σ(A)) de forma que |Sg (u, v) − Sf (u, v)| ≤ ǫ, para
algum ǫ > 0 qualquer (vide (26.116)), e usando que |Sf (u, v)| ≤ kf (A)k kuk kvk, teremos
|Sg (u, v)| = |Sg (u, v)−Sf (u, v)+Sf (u, v)| ≤ |Sg (u, v)−Sf (u, v)|+|Sf (u, v)| ≤ ǫ+kf (A)k kuk kvk .
(26.117)
Lembremos que kf (A)k = kf k∞ e que, pelo Teorema de Lusin, Teorema 26.34, podemos escolher f
de modo que kf k∞ ≤ kgk∞ . Assim, |Sg (u, v)| ≤ ǫ + kgk∞kuk kvk. Como isso vale para todo ǫ > 0,
concluı́mos que |Sg (u, v)| ≤ kgk∞ kuk kvk, provando que Sg é bicontı́nua. Isso completa a prova da
Proposição 26.47.
A Proposição 26.47 estabelece uma associação entre funções Borelianas limitadas g definidas em
σ(A) e operadores limitados g(A) agindo em H. Denotemos essa aplicação por φ̂ : Bl (σ(A)) → B(H),
ou seja, g(A) ≡ φ̂(g) A associação f 7→ f (A), para f contı́nua, é, como vimos no curso da demonstração
da Proposição 26.47, um caso particular, de modo que φ̂ : Bl (σ(A)) → B(H) é uma extensão da
aplicação φ : C(σ(A)) → B(H) do Cálculo Funcional Contı́nuo, Teorema 26.32. Sobre a aplicação φ̂
temos o seguinte teorema.
Teorema 26.35 (Cálculo Funcional Boreliano) Seja H um espaço de Hilbert, seja A ∈ B(H)
auto-adjunto e seja φˆA ≡ φ̂ : Bl (σ(A)) → B(H) definida acima. φ̂ é uma extensão de φ : C(σ(A)) →
B(H) do Teorema 26.32 e, portanto, para f ∈ C(σ(A)) vale φ̂(f ) = φ(f ) = f (A). Em particular, para
todo polinômio p vale φ̂(p) = p(A). Por (26.113), kφ̂(g)kH ≤ kgk∞ para toda g ∈ Bl (σ(A)). Fora isso,
valem as seguintes afirmações:
3. Sejam g ∈ Bl (σ(A)) e gn ∈ Bl (σ(A)), n ∈ N, tais que lim gn (x) = g(x) para todo x ∈ σ(A) mas
n→∞
tais que existe M > 0 para o qual kgn k∞ < M para todo n ∈ N. Então, gn (A) converge a g(A)
na topologia forte, ou seja, para todo ψ ∈ H a seqüência gn (A)ψ converge a g(A)ψ.
Comentamos que no Teorema 26.32, página 1360, estabelecemos que σ(φ(f )) = {f (λ), λ ∈ σ(A)}
para f contı́nua. Tal propriedade não pode valer, em geral, para funções Borelianas limitadas, já pelo
fato de que a imagem de um conjunto compacto por uma função Boreliana limitada não é necessaria-
mente um conjunto compacto.
Analogamente, Z
|f2 − h| dµψn , A ≤ 2khk∞ ǫ
σ(A)
Como
n o n o[n o
x ∈ σ(A) : g(x)h(x) 6= f1 (x)f2 (x) ⊂ x ∈ σ(A) : g(x) 6= f1 (x) x ∈ σ(A) : h(x) 6= f2 (x)
µψn , A x ∈ σ(A) : g(x)h(x) 6= f1 (x)f2 (x)
≤ µψn , A x ∈ σ(A) : g(x) 6= f1 (x) + µψn , A x ∈ σ(A) : h(x) 6= f2 (x) ≤ 2ǫ
= |Sgh (u, v) − Sf1 (u, h(A)v) − Sg (u, h(A)v) + Sf1 (u, h(A)v)|
≤ |Sgh (u, v) − Sf1 (u, h(A)v)| + |Sg (u, h(A)v) − Sf1 (u, h(A)v)|
(26.119)
≤ |Sgh (u, v) − Sf1 (u, h(A)v)| + 8kgk∞ ǫ
(26.120)
≤ |Sgh (u, v) − Sf2 (f1 (A)∗ u, v)| + 8(khk∞ + kgk∞ )ǫ
(26.121)
≤ 16kghk∞ ǫ + 8(khk∞ + kgk∞)ǫ
Como ǫ é arbitrário, concluı́mos que hu, (gh)(A)vi = hu, g(A)h(A)vi para todos u, v ∈ H, o que im-
plica (gh)(A) = g(A)h(A), ou seja, φ̂(gh) = φ̂(g)φ̂(h), estabelecendo a propriedade de homomorfismo.
Provar que φ̂(g)∗ = φ̂(g) segue das seguintes linhas auto-explicativas:
3 Z
∗ 1X n
hv, g(A) ui = hu, g(A)vi = Sg (u, v) = i gdµψn , A
4 n=0 σ(A)
3
1X n
= i h(u + in v), g(A)(u + in v)i = hv, g(A)ui ,
4 n=0
sendo que a última igualdade é demonstrada explicitamente, expandindo-se o produto escalar na soma.
Isso estabeleceu que g(A)∗ = g(A), ou seja, φ̂(g)∗ = φ̂(g).
√
Prova do item 2. Se g é Boreliana limitada e positiva então g também o é (vide Proposição 23.13,
√ √ √ √ √
página 1177). Com isso, φ̂(g) = φ̂( g g) = φ̂( g)φ̂( g), que é um operador positivo, pois φ̂( g) =
√ √ √
φ̂ g = φ̂( g)∗ , já que g é real.
Prova do item 3. Sejam g ∈ Bl (σ(A)) e gn ∈ Bl (σ(A)), n ∈ N tais que lim gn (x) = g(x) para todo
n→∞
x ∈ σ(A) mas tais que existe M > 0 para o qual kgn k∞ < M para todo n ∈ N. Fixemos ψ ∈ H.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 26 1371/1461
Tem-se que
k(gn (A) − g(A))ψk2 = hψ, (gn (A) − g(A))∗ (gn (A) − g(A))ψi
Z
= |gn − g|2 dµψ, A
σ(A)
Z
≤ kgn − gk∞ |gn − g| dµψ, A
σ(A)
Z
≤ (M + kgk∞ ) |gn − g| dµψ, A .
σ(A)
Evocando o Teorema de Lusin, Teorema 26.34, existe para todo ǫ > 0 uma função fǫ ∈ C(σ(A)) tal
R µϕ, A ({x ∈ σ(A) : g(x) 6= fǫ (x)}) ≤ǫR e kfǫ k∞ ≤ kgk∞ Como
que vimos (vide (26.114)), isso implica
σ(A) (g − fǫ ) dµϕ, A < 2kgk∞ ǫ, ou seja, σ(A) g dµϕ, A − fǫ (λ0 ) < 2kgk∞ ǫ e, portanto,
Z
g dµϕ, A = lim fǫ (λ0 ) .
σ(A) ǫ→0
46
Cada gn é dominada pela função constante M , a qual claramente pertence a L1 (σ(A), dµψ, A ).
47
Pavel Samuilovich Urysohn (1898-1924). Urysohn morreu tragicamente, afogado na costa da Bretanha. A demons-
tração do Lema de Urysohn pode ser encontrada em qualquer bom livro de topologia.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 26 1372/1461
Vamos mostrar que limǫ→0 fǫ (λ0 ) = g(λ0 ). Se assim não fosse, terı́amos fǫ (λ0 ) 6= g(λ0 ) para
todo ǫ pequeno o suficiente, ou seja, para tais ǫ’s valeria λ0 ∈ {x ∈ σ(A) : g(x) 6= fǫ (x)}. Logo,
µϕ, A ({λ0 }) ≤ µϕ, A ({x ∈ σ(A) : g(x) 6= fǫ (x)}) < ǫ, o que implica µϕ, A ({λ0 }) = 0, contrariando
(26.124)48 . Com isso, estabelecemos que
Z
g dµϕ, A = g(λ0 ) (26.125)
σ(A)
k(g(A) − g(λ0 )1)ϕk2 = hϕ, (g(A) − g(λ0 )1)∗ (g(A) − g(λ0 )1)ϕ i
Z
(26.125)
= |g − g(λ0)|2 dµϕ, A = |g(λ0) − g(λ0 )|2 = 0 ,
σ(A)
Uma das conseqüências mais importantes da extensão de φ a φ̂ reside no fato que agora podemos
definir operadores como φ̂(χB ) = χB (A), onde χB é a função caracterı́stica de um conjunto Boreliano
B de σ(A). Como veremos, podemos com o uso de tais operadores generalizar o Teorema Espectral
para operadores auto-adjuntos limitados, um fato de importância fundamental, inclusive para a Fı́sica
Quântica. Para tratar disso devemos primeiro discutir a noção geral de medidas com valores em
projeções ortogonais (mvpo’s).
Definição. Seja K um conjunto compacto (i.e., fechado e limitado) de R, doravante fixo. Vamos
denotar por B(K) a coleção de todos os conjuntos Borelianos de K. Uma associação EK ≡ E :
B(K) → B(H) que a cada conjunto Boreliano B ∈ B(K) associa um operador limitado EB é dita ser
uma medida com valores em projeções ortogonais (mvpo) se as seguintes condições forem satisfeitas.
2. E∅ = 0 e EK = 1.
3. EB1 EB2 = EB1 ∩B2 para todos B1 , B2 ∈ B(K).
4. Para toda coleção contável Bn , n ∈ N, de Borelianos em K satisfazendo Bk ∩ Bl = ∅ sempre que
k 6= l, tem-se
XN
E Bn = s−lim
S
EBn ,
n∈N N →∞
n=1
A relevância dessa definição ficará clara com o Teorema 26.37, adiante. Notemos por ora que para cada
ψ ∈ H com ψ 6= 0 podemos definir, para todo B ∈ B(K),
νψ, E(B) := hψ, EB ψi . (26.126)
O ı́ndice E servirá para lembrar a dependência de ν da medida com valores em projeções ortogonais
{EB ∈ B(H), B ⊂ K, B Boreliano}.
Teremos, νψ, E(∅) = hψ, E∅ ψi = 0 e νψ, E(B) ≥ 0 para todo B, pois hψ, EB ψi = hψ, EB∗ EB ψi =
kEB ψk2 . Além disso, O item 4 da definição acima tem a seguinte conseqüência: se Bn , n ∈ N, é uma
coleção contável de Borelianos em K satisfazendo Bk ∩ Bl = ∅ sempre que k 6= l, então
! * N
+
[ X
νψ, E Bn = ψ, E S
Bn ψ = ψ, s−lim EBn ψ
n∈N N →∞
n∈N n=1
N
X N
X
= lim hψ, EBn ψi = lim νψ, E(Bn ) .
N →∞ N →∞
n=1 n=1
Essas propriedades estão dizendo-nos que νψ, E é uma medida positiva sobre a σ-álgebra de Borel de
K. Se kψk = 1, tem-se que νψ, E(K) = hψ, EK ψi = kψk2 = 1, e vemos nesse caso νψ, E é uma medida
de probabilidade em K.
Se assim é, podemos construir uma integral (de Lebesgue) sobre a medida Boreliana νRψ, E, tal como
desenvolvido no Capı́tulo 23, página 1119, e com a mesma teremos definidas as integrais gdνψ, E para
toda g Boreliana e limitada. Como mostraremos, seguindo passos semelhantes, mas não idênticos, à
construção dos operadores φ̂(A) ≡ g(A) feita acima (passos esses iniciados com aR Proposição 26.47 e
que culminaram com o Teorema 26.35), podemos construir
R a partir das integrais gdνψ, E operadores
limitados, que denotaremos por φE(g) ≡ gE, tais que gdνψ, E = hψ, gEψi para todo ψ ∈ H.
contı́nua, pois os operadores fE não foram ainda definidos. Nossa estratégia será inicialmente definir
tais operadores para as funções Borelianas simples de K e, a partir delas, definir os operadores gE para
g Boreliana e limitada.
Seja X um conjunto e Y ⊂ X. Define-se a função caracterı́stica de Y , denotada χY : X → R por
1, se x ∈ Y
χY (x) = .
0, se x 6∈ Y
P
Seja, s = m k=1 αk χBk uma função simples Boreliana limitada definida em K, onde Bk ∈ B(K) e
αk , para todo k = 1, . . . , m. O conjunto de todas as funções
P simples Borelianas limitadas definida em
K será denotado por Sl (K). Definimos φE(s) ≡ sE := m k=1 k EBk . É elementar constatar que
α
para todas r, s ∈ Sl (K) e todos α, β ∈ C. Como rs = sr, segue de que φE(r)φE(s) = φE(r)φE(s) para
todas r, s ∈ Sl (K). Assim, P
φE : Sl (K) → B(H) é um ∗-homomorfismo. Observe-se que se s ∈ Sl (K) é
representado na forma s = m k=1 αk χBk (com os Bk ’s disjuntos) então o espectro de s é {α1 , . . . , αm }
e ksk coincide com max{|α1 |, . . . , |αm |} = supx∈K |s(x)| ≡ ksk∞ .
Temos o seguinte análogo à Proposição 26.47, da página 1364:
Proposição 26.48 Para cada g ∈ Bl (K), Boreliana e limitada, a aplicação Sg : H × H → C definida
por
3 Z
1 X −n
Sg (u, v) := i g dνψn , E (26.128)
4 n=0 K
onde ψn := u + in v, é uma aplicação sesqui-linear e bicontı́nua em H, sendo que |Sg (u, v)| ≤
kgk∞ kuk kvk para todos u, v ∈ H. Assim, pela Proposição 26.46, existe um operador limitado, que
denotaremos por φE(g) ≡ gE, tal que
Sg (u, v) = hu, gE vi
Pm
Prova. Para cada função s ∈ Sl (K) da forma s = k=1 αk χBk tem-se pela identidade de polarização
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 26 1375/1461
m
X 3
1 X −n
= αk i νψn , E(Bk )
k=1
4 n=0
m
X 3 3
(26.126) 1 X −n 1 X −n
= αk i hψn , EBk ψn i = i hψn , sE ψn i
k=1
4 n=0 4 n=0
3
1 X −n
= i h(u + in v), sE (u + in v)i
4 n=0
= hu, sE vi ,
Isso mostra que Ss , com s ∈ Sl (K), é sesquilinear e é bicontı́nua pois, por Cauchy-Schwarz, vale
|hu, sEvi| ≤ ksEk kuk kvk ≤ ksk∞ kuk kvk. Queremos agora provar que essas propriedades estendem-se
às formas Sg , com g ∈ Bl (K), e a idéia é explorar o fato que tais funções podem ser aproximadas por
funções simples. Mais especificamente, usaremos os seguintes fatos: pelo Lema 23.3, página 1145, e
pelo Corolário 23.2, se g ∈ Bl (K), existe uma seqüência sn ∈ Sl (K) tal que limn→∞ sn (x) = g(x) para
todo x ∈ K. Podemos escolhe-la de forma que supx∈K |sn (x)| ≤ supx∈K |g(x)| para todo n. Agora,
pelo Teorema da Convergência
R Dominada, Teorema 23.6, página 1161, segue do fato de a própria g ser
integrável que limn→∞ K |sn − g|dν = 0. Se ν é uma R soma finita de medidas, ν = ν1 + · · · + νl , segue
disso que para todo ǫ > 0 existe s ∈ Sl (K) tal que K |s − g|dνk < ǫ para todo k = 1, . . . , l e de modo
que supx∈K |s(x)| ≤ supx∈K |g(x)|.
Disso extraı́mos essencialmente a mesma conseqüência que em (26.116): para cada u, v ∈ H,
g ∈ Bl (K) e ǫ > 0 podemos encontrar s ∈ Sl (K) tal que |Sg (u, v) − Ss (u, v)| ≤ ǫ. Como em (26.117),
isso implica, |Sg (u, v)| = |Sg (u, v) − Ss (u, v) + Ss (u, v)| ≤ |Sg (u, v) − Ss (u, v)| + |Ss (u, v)| ≤
ǫ + ksEk kuk kvk e como ksEk ≤ ksk∞ ≤ kgk∞ temos também |Sg (u, v)| ≤ kgk∞kuk kvk para todo
u, v ∈ H.
Tendo provado que Sg é sesquilinear e bicontı́nua, concluı́mos novamente pela Proposição 26.46,
que existe um operador limitado φE(g) ≡ gE, tal que Sg (u, v) = hu, gE vi para todos u, v ∈ H com
kgEk ≤ kgk∞.
Prova. As demonstrações dos itens 1 e 2 repetem os mesmos passos das demonstrações respectivas
do Teorema 26.35, apenas com a diferença que as funções Borelianas não são aqui aproximadas por
funções contı́nuas, mas por funções simples.
Mostraremos que a cada operador A limitado auto-adjunto existe uma única medida E com valores
em projeções ortogonais com a propriedade que AE = A.
2. P∅ = 0 e Pσ(A) = 1.
5. Se ψ ∈ H, vale
µψ, A (B) = hψ, PB ψi , (26.135)
para todo B ∈ B(σ(A)).
ou seja,
N
X
P S
Bn = s−lim PBn .
n∈N N →∞
n=1
R
Prova do item 5. A prova é elementar, pois µψ, A (B) = σ(A)
χB dµψ, A = hψ, χB (A)ψi ≡ hψ, PB ψi.
É evidente agora que νφ, P = µψ, A , pelo menos quando essas medidas estão restritas à σ-álgebra de
Borel de σ(A). Com o uso da notação introduzida acima, teremos
Z
g(A) = g(λ) dPλ (26.136)
σ(A)
Z Z Z
(gh)(λ) dPλ = g(λ) dPλ h(λ) dPλ , (26.139)
σ(A) σ(A) σ(A)
Z ∗ Z
g(λ) dPλ = g(λ) dPλ , (26.140)
σ(A) σ(A)
Z Z Z
χσ(A) (λ) dPλ ≡ 1 dPλ ≡ dPλ = 1 , (26.141)
σ(A) σ(A) σ(A)
Se tivermos uma outra medida E com valores em projeções ortogonais tal que AE = A, será essa
medida
R idêntica
R à medida dos projetores espectrais P definida acima? A Rresposta é sim! De
R fato, se A =
σ(A)
λ dPλ = σ(A) λ dEλ vale para todo polinômio p a relação p(A) = σ(A) p(λ) dPλ = σ(A) p(λ) dEλ
(para isso, use (26.131)-(26.132) e (26.138)-(26.139)). Assim, para todo ψ ∈ H e todo polinômio p,
vale
Z Z Z Z
ψ, p(λ) dPλ ψ = ψ, p(λ) dEλ ψ , ou seja, p(λ) dµψ, A = p(λ) dνψ, E .
σ(A) σ(A) σ(A) σ(A)
R R
Pelo Teorema de Weierstrass, concluı́mos disso que σ(A) f dµψ, A = σ(A) f dνψ, E para toda função
contı́nua f ∈ C(σ(A)).
R Usando novamente
R o Teorema de Lusin, Teorema 26.34, e o Corolário 26.14,
obtem-se daı́ que σ(A) g dµψ, A = σ(A) g dνψ, E para toda função Boreliana limitada g ∈ Bl (σ(A)). Em
R R
particular, para um conjunto Boreliano B ⊂ σ(A), arbitrário, tem-se σ(A) χB dµψ, A = σ(A) χB dνψ, E,
ou seja, µψ, A (B) = νψ, E(B). Isso, por sua vez afirma, por (26.126) e por (26.135), que hψ, PB ψi =
hψ, EB ψi para todo ψ ∈ H, o que, pela identidade de polarização (expressão (2.31), página 133) implica
PB = EB . Como B é arbitrário, isso significa que as medidas com valores em projetores ortogonais P
e E coincidem, caso A = AE.
para toda g ∈ Bl (σ(A)) e de sorte que as relações (26.138)-(26.141) são válidas para todas g, h ∈
Bl (σ(A)) e todos α, β ∈ C. 2
• A notação de Dirac
ou seja, nela identificamos dPλ ≡ d|λihλ|. Assim, na notação de Dirac (26.138)-(26.141) ficam
Z Z Z
αg(λ) + βh(λ) d|λihλ| = α g(λ) d|λihλ| + β h(λ) d|λihλ| ,
σ(A) σ(A) σ(A)
Z Z Z
(gh)(λ) d|λihλ| = g(λ) d|λihλ| h(λ) d|λihλ| ,
σ(A) σ(A) σ(A)
Z ∗ Z
g(λ) d|λihλ| = g(λ) d|λihλ| ,
σ(A) σ(A)
Z Z Z
χσ(A) (λ) d|λihλ| ≡ 1 d|λihλ| ≡ d|λihλ| = 1 ,
σ(A) σ(A) σ(A)
we regard the spectral theorem as sufficient for any argument where a nonrigorous approach might rely
on the Dirac notation; thus, we only recommend the abstract rigged space approach to readers with a
strong emotional attachment to the Dirac formalism”.
A medida µψ, A é uma medida positiva em σ(A) e se kφk = 1 sabemos também que
Z Z
dµψ, A = dhψ, Pλ ψi = 1 .
σ(A) σ(A)
Esses dois fatos estão dizendo-nos que µψ, A é uma medida de probabilidade em σ(A). Esse simples fato
matemático tem uma conseqüência significativa no contexto da Fı́sica Quântica, o qual está na raiz da
axiomatização e formalização da mesma em termos de espaços de Hilbert e de operadores agindo em
espaços de Hilbert. Para melhor compreendermos esse fato, façamos algumas considerações gerais.
A Fı́sica compõe-se de várias teorias, relacionadas entre si de diversas formas e que em maior ou
menor grau de aproximação descrevem o mundo observável. Podemos listar a Mecânica Clássica, a
Termodinâmica, a Mecânica Quântica, a Teoria Quântica de Campos Relativista, a Teoria da Relativi-
dade Geral e a Mecânica Estatı́stica. Essas diversas teorias possuem, porém, uma série de ingredientes
em comum. Qualquer teoria fı́sica deve saber especificar:
As grandezas fı́sicas observáveis e sua descrição matemática, a relações entre esses observáveis,
tais como relações de compatibilidade, relações algébricas etc.
Cada teoria fı́sica possui seu próprio conjunto de grandezas observáveis e um de seus objetivos prin-
cipais é descrever o resultado de medidas desses observáveis em sistemas fı́sicos. Seja A uma grandeza
fı́sica observável e C(A) o conjunto de valores possı́veis resultantes de medições de A (em qualquer
estado). É um fato experimental que medidas repetidas de um observável A, mantidas as mesmas
condições, ou seja, no mesmo estado fı́sico E do sistema estudado, não fornecem necessariamente o
mesmo valor em C(A), tendo um caráter aleatório.
É um fato observacional que uma sucessão idealmente infinita de medidas experimentais de A, todas
sob as mesmas condições fı́sicas do sistema em questão, deverá produzir uma distribuição estatı́stica
em C(A) definida por uma medida de probabilidade. Denominemos genericamente essas condições
fı́sicas por E (que pode concretamente representar um conjunto de parâmetros fı́sicos do sistema) e
por µE, A a medida de probabilidade em questão. Essa medida de probabilidade µE, A é uma função
tanto do conjunto de condições E que especifica o sistema quanto do observável A considerado. Essa
medida de probabilidade µE, A é denominada estado (ou estado fı́sico) do sistema em questão em relação
ao observável A. Como toda informação sobre as propriedades do sistema fı́sico, no que concerne ao
observável A, deve ser resultante da análise estatı́stica das medições experimentais de A no sistema,
concluı́mos que a medida de probabilidade µE, A , ou seja, o estado fı́sico do sistema, contém em si toda
informação disponı́vel sobre essas propriedades.
Aqui encontra-se embutido um princı́pio fı́sico (filosófico, se quiserem) que apenas a realidade ob-
jetiva proveniente da experimentação permite inferências sobre um sistema fı́sico, e essa realidade
manifesta-se na forma distribuições estatı́sticas nos conjuntos C(A) para os vários observáveis A com
os quais estudamos o sistema. Em outras palavras, a realidade de um sistema fı́sico só é alcançada com
base em experimentação e as inferências sobre o mesmo devem ser inferências estatı́sticas com base nos
dados experimentais. É somente com base nessas inferências que se pode determinar padrões gerais (se
houver) que conduzam à elaboração de leis fı́sicas e teorias para explicá-las com base em princı́pios mais
simples (postulados fı́sicos) e inferência matemática. Permitam-nos um comentário histórico-filosófico.
É uma crença geral dos fı́sicos, expressa pela primeira vez por Galilei5152 no séculos XVI-XVII, mas
com raı́zes mais profundas, que a formulação de teorias fı́sicas com base em idéias matemáticas, uma
construção da mente humana, seja possı́vel. Que tal tenha seja verdade, o que é corroborado pela
história da Fı́sica até agora, é talvez o maior enigma de toda a Ciência.
Há três possı́veis origens para a aleatoriedade, que mencionamos acima, observada na medição de
um observável em um sistema fı́sico, origens essas que podem ocorrer concomitantemente: ela pode ser
51
Galileo Galilei (1564-1642). “O livro da natureza não pode ser lido até aprendermos sua linguagem e nos tornarmos
familiares com os sı́mbolos no qual está escrito. E ele está escrito em linguagem matemática, e suas letras são triângulos,
cı́rculos e outras figuras geométricas, sem as quais é humanamente impossı́vel compreender uma única palavra e há
apenas um vagar perdido em um labirinto escuro”’. Il Saggiatore, 1623. Aos “triângulos e cı́rculos” acrescentarı́amos
modernamente equações diferenciais, medidas de probabilidade, operadores em espaços de Hilbert e álgebras C∗ .
52
O original de Galilei é “La filosofia è scritta in questo grandissimo libro che continuamente ci sta aperto innanzi a
gli occhi (io dico l’universo), ma non si può intendere se prima non s’impara a intender la lingua, e conoscer i caratteri,
ne’ quali è scritto. Egli è scritto in lingua matematica, e i caratteri sono triangoli, cerchi, ed altre figure geometriche,
senza i quali mezi è impossibile a intenderne umanamente parola; senza questi è un aggirarsi vanamente per un’oscuro
laberinto”.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 26 1383/1461
respectivamente.
Apesar de não ser a única grandeza estocástica que fornece esse tipo de informação qualitativa, a
variância é uma grandeza útil. Na Mecânica Quântica, por exemplo, o célebre princı́pio de incerteza
de Heisenberg54 é uma afirmação sobre a variância de dois observáveis (momento e posição em uma
mesma direção Cartesiana): Var(px ) Var(x) ≥ ~2 /4.
Na teoria de probabilidades, uma medida de probabilidades em um espaço amostral µ é dita ser pura
se não puder ser escrita como combinação linear convexa de duas outras medidas de probabilidades
do mesmo espaço amostral, ou seja, se não puder ser escrita na forma µ = αµ1 + (1 − α)µ2 onde µ1
53
Daı́ a importância de considerarmos observáveis A que sejam limitados, ou seja, para os quais C(A) seja compacto.
Como discutiremos, na Fı́sica Quântica C(A) é identificado com σ(A), o espectro de um operador auto-adjunto A. σ(A)
é compacto (fechado e limitado) se A for um operador auto-adjunto e limitado. Na chamada formulação algébrica das
Teorias Quânticas de Campos, todo o tratamento é feito considerando-se observáveis que sejam operadores auto-adjuntos
e limitados, em espaços de Hilbert ou de álgebras C∗ . Vide [54] ou [4].
54
Werner Karl Heisenberg (1901-1976).
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 26 1384/1461
e µ1 e µ2 são também medidas de probabilidade e 0 < α < 1. É um exercı́cio fácil mostrar que se
µ = αµ1 + (1 − α)µ2 , então
hAiµ = αhAiµ1 + (1 − α)hAiµ2
e h i2
Varµ (A) = αVarµ1 (A) + (1 − α)Varµ2 (A) + α(1 − α) hAiµ1 − hAiµ2 .
Disso concluı́mos que
Varµ (A) ≥ αVarµ1 (A) + (1 − α)Varµ2 (A) ≥ min{Varµ1 (A) , Varµ2 (A)}.
Assim, a variância Varµ (A) na medida não-pura µ é sempre maior ou igual à menor das duas variâncias
Varµ1 (A) ou Varµ2 (A). Entendemos, dessa forma, que se restringirmos as medidas µ a um certo conjunto
de medidas M sobre o espaço amostral, então os menores valores possı́veis das variâncias Varµ (A) de
uma função A fixa são alcançadas quando µ encontra-se no sub-conjunto das medidas de probabilidades
puras de M. Nesse sentido, as medidas de probabilidade puras representam aquelas com o menor desvio
possı́vel da grandeza representada por A do seu valor médio.
Dizemos que um sistema fı́sico está em um estado puro para um determinado observável A se µE, A for
pura. Os estados puros de um sistema fı́sico representam, assim, aqueles com menores “flutuações” da
grandeza observável A. Compreendemos, assim, que determinar quais os estados puros de um sistema
fı́sico e quais as variâncias de observáveis nesses estados puros fornece uma importante informação
sobre as menores flutuações possı́veis que podem ser observadas nesse sistema. Essa é uma importante
informação sobre o grau de aleatoriedade intrı́nseca (ou seja, não proveniente de erros experimentais
ou de conhecimento incompleto) da teoria fı́sica subjacente que descreve o sistema em questão.
Como discutiremos à página 1389, uma outra razão da importância dos estados puros reside no fato
que tanto na Mecânica Clássica quanto na Mecânica Quântica vale a afirmação que o conhecimento dos
valores esperados de um observável em todos os estados puros de um sistema determina univocamente
esse observável.
observáveis. Uma conseqüência da compatibilidade dos observáveis clássicos, a qual acabou implicita-
mente embutida nas observações acima, é que os mesmos formam uma álgebra comutativa.
Dado um observável assim abstratamente definido como sendo uma função f (q, p) podemos nos
perguntar que valores obteremos ao fazer uma medida desse observável em um certo instante de tempo?
A resposta é um tanto decepcionantemente óbvia: se as coordenadas do sistema considerado forem
naquele instante de tempo q0 e seus momenta p0 , então o valor medido de f será f (q0 , p0 ). A coleção
C(f ) de todos os possı́veis de resultados de medidas de f é, portanto, a imagem de f como função de
F em R.
Na Mecânica Clássica os estados fı́sicos são descritos por distribuições de probabilidade no espaço
de fase, de modo que valores médios de um observável f são dados por
Z
hf i = f (q, p) ρ(q, p) dqdp , (26.143)
F
R
com ρ(q, p) ≥ 0 e F ρ(q, p) dqdp = 1. Nesse sentido podemos identificar a função (ou medida) ρ com
o próprio estado do sistema, pois dela obtem-se univocamente as distribuições de probabilidade nos
conjuntos C(f ), que identificamos com a imagem das funções f : F → R.
Distribuições tipo medida delta de Dirac ρq0 , p0 (q, p) = δ(q − q0 )δ(p − p0 ) com
Z
hf iq0 , p0 = f (q, p)ρq0 , p0 (q, p) dqdp = f (q0 , p0 )
F
representam estados puros do sistema tratado e podem ser interpretadas como estados com informação
maximal. Para estados como ρq0 , p0 (q, p) = δ(q − q0 )δ(p − p0 ) tem-se certeza quanto a posições e
momenta dos constituintes do sistema e a variância da distribuição de f é nula, assim como as demais
flutuações, pois
Varq0 , p0 (f ) = hf 2 iq0 , p0 − hf i2q0 , p0 = f (q0 , p0 )2 − f (q0 , p0 )2 = 0 .
Em tais estados, medidas do observável f fornecem um e somente um valor, a saber, f (q0 , p0 ). Nenhuma
aleatoriedade ocorre, portanto, na medição de quaisquer observáveis quando o sistema encontra-se em
um estado puro clássico. A crença de que é sempre possı́vel fixar todos os parâmetros de um sistema
de modo a fixar completamente seu estado e de modo a eliminar toda aleatoriedade em medições
de observáveis é por vezes denominada “realismo”. A Mecânica Clássica, assim como toda a Fı́sica
Clássica, é nesse sentido realista. Essa caracterı́stica não é encontrada na Fı́sica Quântica, onde os
estados puros podem produzir variâncias não-nulas.
Na Mecânica Clássica não apenas estados puros têm interesse. Na Mecânica Estatı́stica Clássica,
por exemplo, considera-se também estados com distribuições do tipo
1
ρ(q, p) = δ(H(q, p) − E) (26.144)
V (E)
no chamado ensemble micro-canônico com R energia E, onde H(q, p) é o Hamiltoniano do sistema e V (E)
é a constante de normalização V (E) = F δ(H(q, p) − E) dqdp (suposta finita). No chamado ensemble
canônico adota-se o chamado estado de Gibbs56
1
ρ(q, p) = e−βH(q, p) , (26.145)
Z(β)
56
Josiah Willard Gibbs (1839-1903).
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 26 1386/1461
R −βH(q, p)
com a constante de normalização Z(β) = Fe dqdp suposta finita, β sendo o inverso da tempe-
ratura.
A dinâmica dos observáveis de um sistema mecânico clássico é definida pelo fluxo Hamiltoniano no
espaço de fase, o qual é caracterizado pelas equações de Hamilton57 ,
q̇ = −∂p H(q, p) , ṗ = ∂q H(q, p) ,
onde o Hamiltoniano H é uma função diferenciável definida no espaço de fase e satisfazendo condições
adequadas para garantir unicidade e existência de soluções (de preferência globais) para as equações
acima a partir de condições iniciais q(0) e p(0). Se qt e pt são soluções das equações de Hamilton, a
evolução de um observável f é expressa por ft (q, p) := f (qt , pt ). Assim, por (26.143),
Z Z
hf it := hft i = f (qt , pt ) ρ(q, p) dqdp = f (q, p) ρ(q−t , p−t ) dq−t dp−t .
F F
Como a medida de Liouville R dqdp é invariante por um fluxo Hamiltoniano (Teorema de Liouville),
concluı́mos que hf it = F f (q, p) ρt (q, p) dqdp, onde ρt (q, p) := ρ(q−t , p−t ) representa a evolução
temporal do estado descrito por ρ. Essa relação ensina-nos como a evolução dos observáveis na Mecânica
Clássica reflete-se na evolução dos estados.
Por (26.144) e (26.145), é evidente que as medidas dos ensemble micro-canônico e canônico são
invariantes pela evolução temporal (um requisito para que as mesmas descrevam estados de equilı́brio),
pois H(qt , pt ) = H(q, p) para todo t.
Na Fı́sica Quântica não mais é verdade que os processos experimentais de medida envolvem medidas
de posição e velocidade, pois estas não podem ser feitas de modo independente e simultâneo. Perde-se,
portanto, a propriedade de compatibilidade de alguns observáveis. Como é bem sabido o desenvolvi-
mento histórico da Mecânica Quântica levou à proposição que os observáveis devem ser representados
por operadores auto-adjuntos agindo em um espaço de Hilbert. Um dos postulados adotados afirma
que medidas individuais de um observável representado por um operador A devem ser elementos do
espectro desse operador.
Segundo os postulados da Mecânica Quântica, os estados fı́sicos do sistema quântico com um número
finito de graus de liberdade (ou seja, descrevendo um número finito de partı́culas) são descritos por
“matrizes densidade”58 atuando em um espaço de Hilbert H, ou seja, operadores auto-adjuntos positivos
ρ com Tr (ρ) = 1 de modo que o valor médio de um conjunto idealmente infinito de medidas do
observável A no estado descrito por ρ são dadas por hAi = Tr (ρA).
A escolha de operadores auto-adjuntos para o papel de observáveis é motivada por duas proprieda-
des: 1o o espectro de um operador auto-adjunto é um sub-conjunto da reta real, fato condizente com
o postulado que afirma que medidas individuais de um observável devem ser elementos do espectro do
operador associado; 2o o teorema espectral
Pafirma que operadores auto-adjuntos podem ser representa-
dos por somas (ou integrais) do tipo A = λ∈σ(A) λ Pλ . Aqui, Pλ designa formalmente o projetor sobre
57
Sir William Rowan Hamilton (1805-1865).
58
Cabe mencionar que boa parte da interpretação matemática da Fı́sica Quântica que apresentaremos de modo re-
sumido no que segue origina-se das contribuições de von Neumann. János von Neumann (1903-1957). Von Neumann
também adotou os nomes de Johann von Neumann e John von Neumann.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 26 1387/1461
Esses dois fatos conjuntamente com (26.146) conduzem à interpretação que pλ representa a medida de
probabilidade em σ(A) que descreve distribuições de medidas dos valores do observável A no estado
descrito por ρ. Nesse sentido podemos identificar ρ com o próprio estado do sistema, pois dele obtem-se
univocamente as distribuições de probabilidade nos conjuntos C(A), que identificamos com os espectros
σ(A) dos operadores auto-adjuntos A.
As observações acima mostram que a interpretação de observáveis da Fı́sica Quântica usual em
termos de operadores auto-adjuntos agindo em espaços de Hilbert é coerente com o propósito básico de
descrever medidas experimentais de observáveis e suas distribuições de probabilidade. Comentamos de
passagem que o esquema acima pode ser ainda generalizado e abstraı́do no seguinte sentido. As álgebras
de observáveis de sistemas quânticos podem ser tomadas como álgebras C∗ abstratas e os estados fı́sicos
correspondem a estados sobre essas álgebras, ou seja, funcionais lineares positivos e normalizados. Nesse
contexto é igualmente possı́vel recuperar a descrição probabilista que esquematizamos acima. A grande
vantagem dessa descrição manifesta-se no tratamento de sistemas quânticos com um número infinito de
graus de liberdade, como na Mecânica Estatı́stica Quântica e na Teoria Quântica de Campos. Por ser
uma descrição independente de espaços de Hilbert, a descrição de observáveis em termos de álgebras C∗
permite descrever fenômenos tı́picos de sistemas número infinito de graus de liberdade, como regras de
super-seleção e transições de fase. Para aplicações em Fı́sica das álgebras C∗ remetemos às referências
[54], [4] e [18].
A evolução temporal de observáveis em um sistema com um número finito de graus de liberdade é
caracterizada por uma representação unitária fortemente contı́nua do grupo aditivo R (representando a
simetria de evolução temporal, para sistemas independentes do tempo): R ∋ t 7→ U(t), onde U(0) = 1,
U(t)U(t′ ) = U(t + t′ ) e U(t)−1 = U(t)∗ para todos t, t′ ∈ R. Se A é um observável, sua evolução será
dada por At := U(t)AU(t)∗ . Assim, hAit := hAt i = Tr (ρAt ) = Tr (ρU(t)AU(t)∗ ) e pela propriedade
cı́clica do traço, obtemos hAit = Tr (ρt A) onde ρt := U(t)∗ ρU(t). Essa expressão mostra como a
evolução dos observáveis reflete-se na evolução dos estados. O fato de a evolução U(t) ser fortemente
contı́nua garante, pelo Teorema de Stone59 (vide [116]) que existe um operador auto-adjunto (não
necessariamente limitado) H tal que U(t) = e−iHt/~ para todo t ∈ R. Com isso podemos (a menos
59
Marshall Harvey Stone (1903-1989).
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 26 1388/1461
determinação precisa de como se dá essa evolução em sistemas fı́sicos concretos (na prática, de qual
é o operador Hamiltoniano que gera a evolução temporal) é uma das tarefas centrais da Fı́sica. No
caso da Fı́sica das Partı́culas Elementares, por exemplo, grandes progressos foram feitos nessa direção,
especialmente após os anos 70 do século XX, com o surgimento do chamado modelo padrão, mas a
tarefa ainda está longe de ser considerada concluı́da.
Façamos aqui um comentário sobre o papel especial desempenhado pelos estados puros tanto na
Mecânica Clássica quanto na Mecânica Quântica.
Como mencionamos, estados puros na Mecânica Clássica são caracterizados
R por medidas de Dirac no
espaço de fase ρq0 , p0 (q, p) = δ(q −q0 )δ(p−p0 ). Como hf iq0 , p0 = F f (q, p)ρq0 , p0 (q, p) dqdp = f (q0 , p0 ),
vemos que o conhecimento de todos os valores esperados de uma grandeza observável f em todos os
estados puros permite recuperar a função f (q, p) em todos os pontos do espaço de fase.
Teorias quânticas formuladas em espaços de Hilbert H têm a mesma caracterı́stica, a despeito do
fato de haver estados puros com variância não-nula. O conhecimento de todos os valores esperados em
estados puros hAiψ = hψ, Aψi com kψk = 1 permite, por meio da identidade de polarização (expressão
(2.31), página 133), identificar univocamente o operador auto-adjunto limitado A. De fato, dados dois
vetores u, v ∈ H, temos a identidade
3
X 3
X
−n
hu, Avi = i n 2
ku + i vk hψn , Aψn i = i−n kψn k2 hAiψn , (26.147)
n=0 n=0
u + in v
onde ψn := . Assim, se para cada par de vetores u, v ∈ H calcularmos ku + in vk2 e
ku + in vk
prepararmos o estado puro determinado pelos quatro vetores ψn (normalizados a 1) e medirmos os
quatro valores esperados de A nesses estados, hAiψn , teremos os produtos escalares hu, Avi por (26.147).
Em princı́pio tais operações são possı́veis, pois em princı́pio pode-se preparar um sistema em quaisquer
dos seus estados puros. Notemos que a determinação de todos os produtos escalares hu, Avi para todos
u, v ∈ H fixa o operador A, pois se um outro operador B é tal que hu, Avi = hu, Bvi para todos
u, v ∈ H, então A = B (assumindo ambos limitados).
Comentemos também que uma vez fixado o operador auto-adjunto A, o Teorema Espectral, Teorema
26.38, página 1379, garante a existência e unicidade
R dos projetores espectrais PB , B Boreliano em
σ(A), e da sua representação espectral A = σ(A) λdPλ. O conhecimento dos PB ’s permite recuperar
R
as medidas espectrais µψ, A (B) = hψ, PB ψi e com elas determinar as integrais σ(A) λn dhψ, Pλ ψi,
para todo n ∈ N, que identificamos, também pelo Teorema Espectral, com os momenta da grandeza
observável A: hAn iψ . Assim, o conhecimento de todos os primeiros momenta hAiψ para todo ψ ∈ H
com kψk = 1 permite determinar as medidas espectrais µψ, A e todos os demais momenta hAn iψ , n ∈ N.
Do ponto de vista da Teoria de Probabilidades essa é uma situação especial, pois nem sempre é possı́vel
recuperar os momenta de uma variável aleatória em uma famı́lia de medidas de probabilidade a partir
apenas do conhecimento dos primeiros momenta dessa variável aleatória nessa famı́lia.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 26 1390/1461
Apêndice
onde
1 (2n − 3)!!
c0 = 1, c1 = − , e cn = − , n≥1.
2 (2n)!!
É bastante claro que |cn | ≤ 1 para todo n (mostre isso).
Em verdade, a série de Taylor de f (z) converge absolutamente no disco unitário fechado D1 = {z ∈
C| |z| ≤ 1}. Para ver isso notemos que os coeficientes cn são todos negativos, exceto quando n = 0.
Assim, tem-se para todo N ≥ 0,
XN
(|cn | + cn ) = 2c0 = 2,
n=0
ou seja,
N
X N
X
|cn | = 2 − cn .
n=0 n=0
Logo,
N
X N
X N
X √
|cn | = 2 − cn = 2 − lim cn tn ≤ 2 − lim 1−t = 2 . (26.A.1)
t→1− t→1−
n=0 n=0 n=0
Acima, limt→1− é o limite quando t aproxima-se de 1 pelos reais com valores menores que 1 (lembre-se
que a série de Taylor de f (z) não converge se |z|
PN> 1). nA desigualdade√ da terceira linha deve-se ao
fato de que, para t ∈ [0, 1), a série de Taylor n=0 cn t converge a 1 − t e é decrescente, pois os
P √
coeficientes cn são todos negativos para n ≥ 1, o que implica N n
n=0 cn t ≥ 1 − t. O sinal “−” inverte
o sentido da desigualdade para “≤”.
Com isso, para |z| ≤ 1,
N
X N
X
|cn | |z|n ≤ |cn | ≤ 2 (26.A.2)
n=0 n=0
62
para todo N, provando que a série de Taylor de f (z) converge absolutamente para |z| ≤ 1.
62
Os argumentos acima foram extraı́dos de [116].
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 26 1391/1461
∞
X ∞
X X X
= (c0 )2 + 2c0 c1 z + zp cn cm = 1 − z + zp cn cm , (26.A.3)
p=2 m+n=p p=2 m+n=p
m, n≥0 m, n≥0
E. 26.24 Exercı́cio. Justifique todas as passagens acima a partir do fato que a série de Taylor de f
converge absolutamente para |z| ≤ 1. 6
com a convenção que w 0 = 1. Vamos mostrar dois fatos sobre sN : primeiro que os sN formam uma
seqüência da Cauchy e segundo que essa seqüência converge a um elemento y tal que y 2 = 1 − w.
Mostremos que {sN , N ∈ N} é uma seqüência de Cauchy na álgebra B. Seja N < M. Temos
XM
sM − sN = cn w n . Logo,
n=N +1
M
X M
X M
X
n n
ksM − sN k ≤ |cn | kw k ≤ |cn | kwk ≤ |cn |
n=N +1 n=N +1 n=N +1
PN
Por (26.A.2), as somas parciais kN = n=0 |cn | são limitadas superiormente e, por formarem uma
seqüência
PM crescente, convergem, sendo portanto uma seqüência de Cauchy. Assim |kM − kN | =
n=N +1 n | pode ser feito arbitrariamente pequeno para M e N grandes o suficiente. Isso prova
|c
que sN , N ∈ N, é também uma seqüência de Cauchy na álgebra B. Como B é uma espaço de Banach,
a completeza assegura que sN converge a um elemento y da álgebra.
Mostremos agora que y 2 = 1 − w. Isso é equivalente a mostrar que lim (sN )2 = 1 − w (por que?).
N →∞
Agora
N
! 2 N X N 2N
X X X X
(sN )2 = cn w n = cn cm w n+m = wp
c n c m
.
n=0 n=0 m=0 p=0 n+m=p
0≤n≤N
0≤m≤N
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 26 1392/1461
Resta-nos provar que essas duas somas convergem a zero quando N → ∞. Na verdade, a primeira
soma é igual a zero, pois
N
X X N
X X
wp
c n c m
=
wp cn cm
p=2 n+m=p p=2 n+m=p
0≤n≤N m, n≥0
0≤m≤N
X
e, para p ≥ 2 vimos em (26.A.4) que cn cm = 0.
n+m=p
m, n≥0
Agora, para p ≥ 2,
N N p−N −1 p−N −1
X X X X X
cn cm = cn cp−n = cn cp−n − cn cp−n = − cn cp−n ,
n+m=p n=p−N n=0 n=0 n=0
0≤n≤N
0≤m≤N
N
X X
já que cn cp−n = cn cp = 0. Portanto,
n=0 m+n=p
2N 2N p−N −1 2N p−N −1
X X X X X X
k(sN )2 − (1 − w)k ≤ kwkp cn cm ≤ cn cp−n ≤ |cn | |cp−n|.
n+m=p
p=N +1 p=N +1 n=0 p=N +1 n=0
0≤n≤N
0≤m≤N
(26.A.5)
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 26 1393/1461
Agora,
2N p−N −1 N q
−1 X N −1 N −1
X X q=p−N −1
X X X
|cn | |cp−n| = |cn | |cq−n+N +1| = |cn | |cq−n+N +1|
p=N +1 n=0 q=0 n=0 n=0 q=n
N −1 N −1
!
X X
= |cn | |cq−n+N +1 |
n=0 q=n
N −1 2N −n
!
r=q−n+N +1
X X
= |cn | |cr |
n=0 r=N +1
N −1 2N
! N −1
! 2N
!
X X X X
≤ |cn | |cr | = |cn | |cr |
n=0 r=N +1 n=0 r=N +1
2N
X
(26.A.2)
≤ 2 |cr |. (26.A.6)
r=N +1
Assim,
2N
X
k(sN )2 − (1 − w)k ≤ 2 |cr |. (26.A.7)
r=N +1
2N
X N
X
Já vimos, porém, que |cr | → 0 quando N → ∞, pois as somas parciais kN = |cr | formam
r=N +1 r=0
um seqüência de Cauchy. Portanto, o lado direito de (26.A.7) converge a zero quando N → ∞,
provando que y 2 = 1 − w.
Capı́tulo 27
Alguns Métodos de Aproximação de Funções
Conteúdo
27.1 Aproximação de Funções Contı́nuas por Polinômios . . . . . . . . . . . . . 1394
27.2 Aproximação por Polinômios Trigonométricos . . . . . . . . . . . . . . . . 1400
27.2.1 Preliminares . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1401
27.2.2 Polinômios Trigonométricos e Funções Contı́nuas e Periódicas . . . . . . . . . 1407
27.2.3 Convergência de Séries de Fourier . . . . . . . . . . . . . . . . . . . . . . . . 1410
27.2.4 Revisitando a Aproximação Uniforme de Funções Contı́nuas por Polinômios
Trigonométricos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1416
N a Fı́sica e também em diversas áreas da Matemática Aplicada, estamos muitas vezes in-
teressados em resolver problemas cuja solução não pode ser obtida exatamente. No caso
de equações diferenciais, por exemplo, são muito raras as situações nas quais uma solução
pode ser expressa em termos de funções “elementares”, tais como polinômios, exponenci-
ais, logaritmos, senos, co-senos ou combinações finitas das mesmas. Na grande maioria dos casos
apresentam-se métodos de solução em termos de aproximações que, sob hipóteses adequadas, podem
estar tão próximas quanto se queira da solução correta. É, portanto, uma questão importante desenvol-
ver métodos de aproximar funções com certas propriedades e é disso, basicamente, que trataremos neste
capı́tulo. Não pretendemos aqui esgotar o assunto, o que ademais seria impossı́vel, dada a sua extensão,
mas tratar de dois tipos fundamentais de aproximações de funções: as aproximações por polinômios e
as aproximações por polinômios trigonométricos. Este último tópico é o domı́nio das chamadas séries
de Fourier e suporemos que o leitor já possua alguma familiaridade com seus aspectos mais elementares
e suas aplicações. Como veremos, aproximações por polinômios e por polinômios trigonométricos são
dois assuntos relacionados. Ambos os métodos de aproximação estão também na raiz de muitos outros
desenvolvimentos, como na teoria dos espaços de Hilbert e mesmo em temas mais abstratos, como na
álgebra de operadores. Sua aplicação prática é enorme e ambos os assuntos têm dominado boa parte
das aplicações da Matemática a problemas de Fı́sica e de Engenharia desde o século XVIII.
• O Teorema de Weierstrass
Um dos teoremas fundamentais da Análise é o chamado Teorema de Weierstrass1 que afirma que
toda função contı́nua definida em um intervalo fechado finito [a, b] da reta real pode ser uniformemente
1
Karl Theodor Wilhelm Weierstrass (1815-1897). O Teorema de Weierstrass data de 1885. A referência original pode
ser encontrada em [30].
1394
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 27 1395/1461
aproximada nesse intervalo por polinômios, ou seja, para todo ǫ > 0 podemos encontrar um polinômio
pǫ tal que |pǫ (x) − f (x)| ≤ ǫ para todo x ∈ [a, b]. Nestas Notas, fazemos uso desse importante teorema
em diversas ocasiões. Para futura referência enunciamos o teorema da seguinte forma:
Teorema 27.1 (Teorema de Weierstrass) Seja f uma função real ou complexa, contı́nua em um
intervalo fechado finito [a, b] ⊂ R. Então, f pode ser aproximada uniformemente por polinômios nesse
intervalo, ou seja, para todo ǫ > 0 existe um polinômio pǫ tal que kpǫ − f k∞ = sup |pǫ (x) − f (x)| ≤ ǫ.
x∈[a, b]
2
Há inúmeras demonstrações do Teorema 27.1 na literatura. Vide, por exemplo, [155] para uma
prova usando os chamados polinômios de Bernstein2 , dados, para uma função contı́nua f , definida no
intervalo [0, 1], por
Xn
n p
pn (x) := f (p/n) x (1 − x)n−p .
p=0
p
O texto [84] apresenta diversas demonstrações do Teorema 27.1, inclusive a interessantı́ssima demons-
tração original de Weierstrass, a qual faz uso de propriedades do chamado núcleo de calor (a saber, a
propriedade que o núcleo de calor forma uma seqüência delta de Dirac). Também muito interessante é
a demonstração encontrada em [47], talvez a mais elementar, e que aparentemente é devida a Lebesgue.
No que segue iremos provar uma forma mais forte do Teorema de Weierstrass, a saber:
Teorema 27.2 (Teorema de Weierstrass) Seja f uma função real ou complexa, contı́nua em um
intervalo fechado [a, b] ⊂ R e tal que suas k primeiras derivadas existam e sejam contı́nuas nesse inter-
valo. Então, f pode ser aproximada uniformemente por polinômios nesse intervalo e suas k primeiras
derivadas podem ser aproximadas uniformemente
pelas derivadas desses polinômios, ou seja, para todo
ǫ > 0 existe um polinômio pǫ tal que
pǫ(l) − f (l)
∞ = sup |pǫ(l) (x) − f (l) (x)| ≤ ǫ para todo 0 ≤ l ≤ k.
x∈[a, b]
2
Como o leitor pode perceber essa generalização afirma que não apenas é possı́vel aproximar uni-
formemente funções contı́nuas em intervalos compactos por polinômios mas, no caso de a função ser k
vezes diferenciável, é possı́vel encontrar aproximantes polinomiais cujas k primeiras derivadas também
aproximam uniformemente as respectivas derivadas da função a ser aproximada.
Adiante, apresentaremos uma prova do teorema mais geral, Teorema 27.2. Seguiremos muito pro-
ximamente a demonstração apresentada em [30], demonstração essa aparentemente devida a Landau3
mas, para a facilidade do estudante, acrescentaremos alguns detalhes4 . Antes de iniciarmos a prova do
Teorema 27.2 precisamos fazer um comentário sobre um fato que usaremos.
Seja f uma função contı́nua definida em um intervalo fechado limitado [a, b] assumindo valores
reais ou complexos e que tenha suas k primeiras derivadas igualmente contı́nuas nesse intervalo. Seja
um intervalo fechado limitado [α, β] que contém [a, b] no seu interior, ou seja, com −∞ < α < a <
b < β < ∞. Então, existe pelo menos uma função f˜ definida em [α, β] com as seguintes propriedades:
A função f˜ é, assim, uma extensão de contı́nua de f ao intervalo [α, β] cujas k primeiras derivadas
são extensões contı́nuas das respectivas k primeiras derivadas de f ao intervalo [α, β]. Além disso, f˜
e suas k primeiras derivadas anulam-se nos extremos do intervalo [α, β] em que estão definidas.
Há infinitas funções f˜ com tais propriedades. Uma maneira de construir uma tal função é escolhê-la
de modo que seja idêntica a f no intervalo [a, b], seja infinitamente diferenciável nos intervalos [α, a)
e (b, β] mas de modo que limx→a f˜(l) (x) = f (l) (a) no intervalo [α, a) e limx→b f˜(l) (x) = f (l) (b) no
intervalo (b, β], para todo 0 ≤ l ≤ k.
Exemplo 27.1 Uma possı́vel escolha de uma função f˜ com as propriedades acima é a seguinte:
f (x) , a≤x≤b
!
k
X f (k) (a) l
˜
f(x) = (x − a) Fα, a (x) , α≤x<a ,
l!
l=0
!
Xk (k)
f (b)
(x − b)l (1 − Fb, β (x)) , b < x ≤ β
l=0
l!
Essa função Fu, v é contı́nua, estritamente crescente, infinitamente diferenciável no intervalo u < x < v
e satisfaz
lim Fu, v (x) = 0, lim Fu, v (x) = 1, e lim Fu,(l)v (x) = lim Fu,(l)v (x) = 0, ∀l≥1.
x→u x→v x→u x→v
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 27 1397/1461
Com isso, é fácil ver que f˜ satisfaz as propriedades requeridas: é contı́nua e k-vezes diferenciável em
[α, β] e satisfaz
f˜(α) = 0 = f(β)
˜ , f˜(l) (α) = 0 = f˜(l) (β) , ∀ l ≥ 1 ,
(27.1)
Para o que segue, a forma especı́fica de f˜, como aquela do exemplo acima, não será relevante, apenas
suas propriedades.
Daqui por diante, consideraremos sem perda de generalidade que [a, b] ⊂ (0, 1), ou seja, tomamos
0 < a ≤ b < 1, e consideraremos f˜ uma extensão de f a todo o intervalo [0, 1] com as propriedades
acima (adotando α = 0 e β = 1). Com uma tal função podemos definir os polinômios
Z 1
1 n
pn (x) := ˜
f(u) 1 − (u − x)2 du (27.2)
2Dn (0) 0
com x ∈ [0, 1], onde, para γ ∈ [0, 1], definimos
Z 1 n
Dn (γ) := 1 − v2 dv .
γ
Os pn são claramente polinômios de grau menor ou igual a 2n. Como veremos, esses polinômios são
aqueles que aproximam f com as propriedades requeridas. Para mostrar isso, fixemos x ∈ [a, b] e
comecemos observando que
Z 1 Z 1−x
1 n 1
pn (x) = f˜(u) 1 − (u − x)2 du
v=u−x
= ˜ + x) 1 − v 2 n dv
f(v
2Dn (0) 0 2Dn (0) −x
= A1 + A2 + A3 ,
com
Z −δ Z δ
1
2 n 1 n
A1 := ˜ + x) 1 − v
f(v dv, A2 := f˜(v + x) 1 − v 2 dv ,
2Dn (0) −x 2Dn (0) −δ
(27.3)
Z 1−x
1
A3 := ˜ + x) 1 − v 2 n dv ,
f(v
2Dn (0) δ
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 27 1398/1461
onde δ satisfaz 0 < δ < min{a, 1 − b} e será convenientemente fixado mais adiante5 . Vamos tratar de
estimar cada uma das três expressões Aj acima. Como f˜ é contı́nua no intervalo [0, 1], seu módulo
assume um valor máximo, que denotaremos por F , ou seja, em sı́mbolos, F := sup f˜(x). Com isso
x∈[0, 1]
podemos escrever que
Z 1−x Z 1−x
1 F n
|A3 | ≤ ˜ + x)| 1 − v 2 n dv ≤
|f(v 1 − v 2 dv
2Dn (0) δ 2Dn (0) δ
Z 1
F n Dn (δ)
≤ 1 − v 2 dv = F , (27.4)
2Dn (0) δ 2Dn (0)
onde, na última desigualdade, usamos que 1 − x ≤ 1. De forma totalmente análoga, prova-se que vale
também
Dn (δ)
|A1 | ≤ F . (27.5)
2Dn (0)
O termo A2 pode ser manipulado da seguinte forma. Usando a identidade
Rδ n
Rδ n
Dn (0) 0
[1 − v 2 ] dv + Dn (δ) −δ
[1 − v 2 ] dv + 2Dn (δ)
1 = = = ,
Dn (0) Dn (0) 2Dn (0)
escrevemos
Z δ
1 n
A2 ˜ − f(x)
:= f(x) ˜ ×1+ f˜(v + x) 1 − v 2 dv
2Dn (0) −δ
Z δ n
˜ Dn (δ) +
˜ − f(x)
= f(x)
1
f˜(v + x) − f˜(x) 1 − v 2 dv .
Dn (0) 2Dn (0) −δ
Observemos neste ponto que uma função que seja contı́nua em um intervalo compacto, como f˜, é
uniformemente contı́nua nesse intervalo (Teorema 24.7, página 1213). Assim, para cada ǫ > 0 dado
5
Como 0 < δ < min{a, 1 − b} e x ∈ [a, b], segue que −δ > −x e δ < 1 − x. Assim, os três intervalos de integração em
(27.3) são crescentes.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 27 1399/1461
˜
podemos encontrar um δ > 0, pequeno o suficiente e independente de x de forma que f(v+x)− f˜(x) <
ǫ desde que |v| < δ. Temos, portanto,
Z δ
Dn (δ) ǫ n
|pn (x) − f (x)| ≤ 2F + 1 − v 2 dv
Dn (0) 2Dn (0) −δ
Z δ
Dn (δ) ǫ n
= 2F + 1 − v2 dv
Dn (0) Dn (0) 0
Dn (δ) ǫ
= 2F + (Dn (0) − Dn (δ))
Dn (0) Dn (0)
Dn (δ)
= (2F − ǫ) +ǫ
Dn (0)
Dn (δ)
≤ 2F +ǫ.
Dn (0)
Para fechar a demonstração dessa parte, precisamos agora mostrar que para qualquer δ fixo com
0 < δ ≤ 1 a razão Dn (δ)/Dn (0) pode ser feita tão pequena quanto se queira, fazendo-se n crescer.
Como em [30], notamos que para v ∈ [0, 1] vale v 2 < v. Assim,
Z 1 Z 1
2 n 1
Dn (0) = (1 − v ) dv ≥ (1 − v)n dv = ,
0 0 n+1
calculando explicitamente a última integral. Paralelamente,
Z 1 Z 1
2 n 2 n
Dn (0) = (1 − v ) dv ≤ (1 − δ ) dv = (1 − δ 2 )n (1 − δ) ≤ (1 − δ 2 )n
δ δ
e, portanto,
Dn (δ)
≤ (n + 1)(1 − δ 2 )n .
Dn (0)
Como 0 < 1 − δ 2 < 1, o limite para n → ∞ do lado direito, acima, é zero. Assim, concluı́mos que para
n grande o suficiente, independente de x, tem-se |pn (x) − f (x)| ≤ 2ǫ. Isso estabelece que a seqüência
de polinômios pn converge uniformemente a f no intervalo [a, b]. Com isso provou-se o Teorema 27.1.
(l)
Vamos provar agora que para cada l com 1 ≤ l ≤ k as derivadas pn também convergem uniforme-
mente às derivadas f (l) quando n → ∞. Notemos que, pela definição de pn ,
Z 1
1 ∂l n
(l)
pn (x) = f˜(u) l 1 − (u − x)2 du .
2Dn (0) 0 ∂x
n
Agora, devido ao fato de a função [1 − (u − x)2 ] ser simétrica pela troca u ↔ x, vale
∂l
2 n l ∂
l
2 n
1 − (u − x) = (−1) 1 − (u − x) .
∂xl ∂ul
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 27 1400/1461
Assim,
Z 1
(−1)l ˜ ∂l
2 n
pn(l) (x) = f(u) 1 − (u − x) du
2Dn (0) 0 ∂ul
Z
∂ l−1 u=1 (−1)l−1 1 (1)
2 n ∂ l−1 n
int. por partes
= l˜
(−1) f (u) l−1 1 − (u − x) + f˜ (u) l−1 1 − (u − x)2 du .
∂u u=0 2Dn (0) 0 ∂u
| {z }
= 0 , pois f˜(0)=f˜(1)=0
Repetindo-se l vezes o processo de integração por partes e usando o fato que f˜ e suas derivadas anulam-
se em 0 e em 1, por construção, obtemos,
Z 1
1 n
(l)
pn (x) = f˜(l) (u) 1 − (u − x)2 du .
2Dn (0) 0
Já vimos, porém, que essa igualdade implica que pn converge uniformemente a f˜(l) no intervalo [a, b]
(l)
a qual foi motivada pela necessidade de controle mais preciso do decaimento dos coeficientes de séries
de Fourier. Vide comentários da Seção 23.1, página 1120.
Fourier chegou às expansões que levam seu nome procurando soluções de certas equações diferenci-
ais ligadas ao problema de propagação de calor em sólidos11 . Essa associação entre séries de Fourier e
equações diferenciais é de interesse em diversas outras áreas da Fı́sica e o leitor poderá encontrar exem-
plos de seu uso nos problemas do Capı́tulo 10, página 583. Nesta seção apresentaremos os resultados
básicos da teoria da aproximação de funções por séries trigonométricas.
Para o leitor interessado em um texto mais aprofundado, a referência clássica sobre séries trigo-
nométricas é [159]. Recomendamos também [79], [123], [117], [30] e [155]. Uma leitura muito estimu-
lante é [84]. Para um excelente texto em português, vide [36].
27.2.1 Preliminares
• Funções T -periódicas
Se T > 0, uma função f : R → C é dita ser T -periódica, ou periódica de perı́odo T se f (x+T ) = f (x)
para todo x ∈ R.
Se uma função f : [−T /2, T /2] → C é definida apenas em um intervalo [−T /2, T /2], podemos
sempre definir uma sua extensão12 T -periódica à toda reta real f˜ : R → C por f(x)
˜ = f (x mod T ). Por
essa razão sempre consideraremos aqui funções definidas em todo R. Note que se f : [−T /2, T /2] → C
é contı́nua, sua extensão f˜ : R → C só o será se f (−T /2) = f (T /2), de outra forma será apenas
contı́nua por partes, com descontinuidades nos pontos x tais que x mod T = T /2.
T0
É também útil recordar que se f0 : R → C é T0 -periódica, então f1 (x) = f0 T1 x é T1 -periódica.
Por essa razão, convencionamos só considerar aqui funções 2π-periódicas. Os resultados que seguirão
podem ser estendidos a funções T -periódicas por um simples re-escalonamento dos argumentos das
funções.
O seguinte resultado elementar será usado algumas vezes no que segue:
Lema 27.1 Sejam P e f duas funções contı́nuas e 2π-periódicas. Então,
Z π Z π
P (x − y)f (y) dy = P (y)f (x − y) dy (27.6)
−π −π
para todo x ∈ R. 2
11
Fourier atuou também na polı́tica e na administração pública e dedicou-se a problemas de propagação de calor em
função de seus interesses em Metalurgia, em parte com o propósito de melhorar o processo de produção de canhões
(Fourier foi um partidário oportunista de Napoleão) e em parte movido por um legı́timo interesse cientı́fico. Quando
jovem participou da aventura napoleônica no Egito, tendo trabalhado na edição da célebre “Description de l’Egypte”, o
livro-mãe da Egiptologia, completada em 1810.
12
Para a definição da noção de extensão de uma função, vide página 28.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 27 1402/1461
Prova.
Z π Z x+π
P (x − y)f (y) dy = P (y)f (x − y) dy
−π x−π
Z π Z x−π
= P (y)f (x − y) dy − P (y)f (x − y) dy
−π −π
Z x+π
+ P (y)f (x − y) dy
π
Z π Z x+π
= P (y)f (x − y) dy − P (y − 2π)f (x − y + 2π) dy
−π π
Z x+π
+ P (y)f (x − y) dy
π
Z π Z x+π
periodicidade
= P (y)f (x − y) dy − P (y)f (x − y) dy
−π π
Z x+π
+ P (y)f (x − y) dy
π
Z π
= P (y)f (x − y) dy .
−π
• Polinômios trigonométricos
Para que o estudante possa melhor compreender as afirmações dos diversos teoremas sobre con-
vergência de séries trigonométricas e entender as sutilezas que as distinguem, recordemos brevemente
a distinção entre as noções de convergência mais empregadas.
Diz-se que uma seqüência de funções fn definidas em um intervalo [a, b] converge pontualmente a
uma função f se para cada x ∈ [a, b] valer lim fn (x) = f (x).
n→∞
Diz-se que uma seqüência de funções fn definidas em um intervalo [a, b] converge uniformemente a
uma função f se lim sup |fn (x) − f (x)| = 0.
n→∞ x∈[a, b]
Uma série como (27.10)-(27.11), caso o limite exista, é denominada série de Fourier.
Os coeficientes fk são denominados coeficientes de Fourier da função f . De (27.11) vê-se que para
que todos os coeficientes de Fourier fk de uma função f existam basta que f seja integrável em [−π, π].
Para f integrável e m ∈ N as somas parciais
Xn Xn Z π −iky ikx
eikx e e
Sn (f, x) := fk √ = √ f (y) dy √ (27.12)
k=−n
2π k=−n −π 2π 2π
são denominadas somas parciais de Fourier da função f . A série de Fourier da função f se escreve
então como o limite n ∞
X eikx X eikx
lim Sn (f, x) := lim fk √ =: fk √
n→∞ n→∞
k=−n
2π k=−∞
2π
caso esse exista em algum sentido.
Como já mencionamos, foi Fourier o primeiro a propor expressões como (27.10)-(27.11). Coube a
seus sucessores estudar sobre quais hipóteses e em que sentido (27.10)-(27.11) são válidas.
Uma questão que então se coloca é identificar condições sobre f sob as quais a seqüência de
polinômios trigonométricos Sn (f, x) convirja pontualmente à função f , ou seja, para que o limite
limn→∞ Sn (f, x) de (27.10) exista e seja igual a f para todo x ∈ [−π, π] ou quase em toda parte.
Devido ao largo emprego de séries de Fourier na resolução de equações diferenciais essa não é apenas
uma questão acadêmica. No que segue, empenharemo-nos em apresentar respostas, ainda que parciais,
a essa questão e a outras congêneres.
13
Pierre Alphonse Laurent (1813-1854).
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 27 1405/1461
que é uma expansão de f em termos de uma série trigonométrica. Tomando a curva C como sendo
também o cı́rculo unitário (ou seja, tomando w = eiϕ com −π < ϕ ≤ π), a expressão para os coeficientes
gn fica Z π
1
gn = f (ϕ)e−inϕ dϕ .
2π −π
Assim, obtemos para f a representação
∞ Z
X π
e−inϕ einθ
f (θ) = √ f (ϕ) dϕ √ . (27.13)
n=−∞ −π 2π 2π
Concluı́mos assim que se f (θ) é a restrição ao cı́rculo unitário de uma função analı́tica em Aab com
0 ≤ a < 1 < b (no caso, da função g), então f possui a representação em série de Fourier (27.13), a
qual, sob as hipóteses, converge absoluta e uniformemente para todo −π < ϕ ≤ π. Note que, sob essas
hipóteses, f é não apenas contı́nua, mas infinitamente diferenciável em relação a θ.
No que segue veremos que condições mais fracas sobre f podem ser impostas com idênticos resul-
tados.
Uma seqüência Kn , n ∈ N, de funções definidas em R é dita ser uma seqüência delta de Dirac14
periódica de perı́odo 2π se satisfizer
3. Para todo n ∈ N, Z π
Kn (x)dx = 1 . (27.14)
−π
Ou seja, para todo δ com 0 < δ < π a seqüência de funções Kn converge uniformemente à função
nula na região [−π, −δ] ∪ [δ, π].
As condições 3 e 4 exigem que as funções Kn fiquem mais e mais concentradas em torno do ponto
0 à medida em que n cresce, eventualmente com limn→∞ Kn (0) = ∞.
O seguinte fato sobre seqüências delta de Dirac é de fundamental importância para o que segue:
14
Paul Adrien Maurice Dirac (1902-1984). A idéia original das seqüência delta de Dirac não é de Dirac, pois já se
encontrava na demonstração original de Weierstrass do teorema que leva seu nome (Teorema 27.1, página 1395) e no já
mencionado trabalho de Fejér de 1900. Essas idéias originam-se provavelmente do trabalho de Dirichlet de 1828 sobre as
séries de Fourier.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 27 1406/1461
Teorema 27.3 Seja f : R → C uma função contı́nua e 2π-periódica. Seja Kn uma seqüência delta de
Dirac no intervalo [−π, π]. Defina-se
Z π Z π
(27.6)
Fn (x) := Kn (x − y)f (y) dy = Kn (y)f (x − y) dy
−π −π
Prova. Que cada Fn é 2π-periódica e contı́nua é evidente (se não for → Exercı́cio!). Vamos agora
escrever Z π
f (x) − Fn (x) = f (x) − f (x − y) Kn (y) dy .
−π
Para cada δ com 0 < δ < π, podemos quebrar a última integral em três intervalos:
Z −δ Z δ Z π
f (x) −f (x−y) Kn (y) dy + f (x) −f (x−y) Kn (y) dy + f (x) −f (x−y) Kn (y) dy (27.16)
−π −δ δ
Z x+δ Z π
≤ ǫ Kn (y)dy ≤ ǫ Kn (y)dy = ǫ .
x−δ −π
Z −δ
≤ 2F Kn (y)dy
−π
≤ 2F (π − δ) sup Kn (y), δ ≤ |y| ≤ π .
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 27 1407/1461
escolhendo n grande o suficiente, digamos n > N(ǫ), independente de x. Procedendo de forma análoga,
chega-se à mesma conclusão para a integral III. Dessa forma, concluı́mos que |f (x) − Fn (x)| ≤ 3ǫ para
n > N(ǫ), independente de x. Logo, kf − Fn k∞ ≤ 3ǫ para n > N(ǫ). Como isso vale para ǫ > 0
arbitrário a demonstração está completa.
RProva. É evidente que Km (x) ≥ 0 para todo m ∈ N e que cada Km é contı́nua e 2π-periódica. Que
π
−π
Km (x)dx = 1 é também evidente pela definição do fator de normalização Nm . Precisamos apenas
provar a propriedade 4 da definição de seqüência delta de Dirac de perı́odo 2π.
A primeira coisa a fazerRé obter uma estimativa para o fator de normalização Nm . Como Km (x) é
π
uma função par, vale 1 = 2 0 Km (x)dx. Assim, usando o fato que 1 ≥ sen(x), vale
Z π m Z π m
1 1 + cos(y) 1 1 + cos(y)
1 = dx ≥ sen(x) dx
Nm 0 2 Nm 0 2
Z 2
u=1+cos(x) 1 2
= m
um du = ,
2 Nm 0 (m + 1)Nm
1 m+1
o que implica Nm
≤ 2
. A segunda observação é que
1
Kn′ (x) = − (1 + cos(x))m−1 sen(x) ,
2m Nm
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 27 1408/1461
que nos informa que Kn é decrescente no intervalo [0, π]. Portanto, se 0 < δ ≤ π vale para todo
x ∈ [δ, π] m m
1 1 + cos(δ) (m + 1) 1 + cos(δ)
Km (x) ≤ Km (δ) = ≤ .
Nm 2 2 2
m
(m+1) 1+cos(δ)
Logo, sup{Km (x), x ∈ [δ, π]} ≤ 2 2
e, como 1 + cos(δ) < 2 para 0 < δ ≤ π, segue que
lim sup{Km (x), x ∈ [δ, π]} = 0. Isso completa a demonstração que Km forma uma seqüência delta
m→∞
de Dirac 2π-periódica.
Para provar (27.17), notamos que pelo binômio de Newton
2m 2m
t 1 it/2 −it/2
2m 1 X 2m i(p−m)t
cos = 2m e + e = 2m e . (27.18)
2 2 2 p=0 p
Esse teorema foi primeiramente demonstrado por Fejér15 em 1900 em uma forma ligeiramente
diferente, da qual falaremos mais adiante. Conforme exposto na Seção 9.3.3, página 574, o Teo-
rema 27.4, acima, tem por implicação a convergência da série de Fourier de (27.10) para funções
f ∈ L2 ([−π, π], dx), com a convergência se dando no sentido da norma de L2 ([−π, π], dx). Isso não
necessariamente implica a validade de (27.10) para todo ponto x ∈ [−π, π] (convergência pontual).
Prova do Teorema 27.4. Unindo o Teorema 27.3 à Proposição 27.1, concluı́mos que a seqüência de
funções contı́nuas e 2π-periódicas definida por
Z π 2m
1 x−y
Em (f, x) := cos f (y) dy
Nm −π 2
m ∈ N, aproxima uniformemente f em R. Por (27.18), segue que
2m √
X 2π 2m
Em (f, x) = 2m
fp−m ei(p−m)x , (27.19)
p=0
2 Nm p
onde Z π
1
fk := √ e−iky f (y) dy , k∈Z, (27.20)
2π −π
são os coeficientes de Fourier de f . Com (27.17), obtemos
m
X (m!)2 eipx
Em (f, x) = fp √ . (27.21)
p=−m
(m − p)!(m + p)! 2π
15
Lipót Fejér (1880–1959).
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 27 1409/1461
Prova. Por (27.21) vemos que f pode ser recuperada a partir do conhecimento dos coeficientes fk .
Também pela mesma expressão, vemos que se f e g são contı́nuas, 2π-periódicas e têm os mesmos
coeficientes de Fourier, então Em (f, x) = Em (g, x) para todo x ∈ R e todo m ∈ N. Assim, pelo
Teorema 27.4, vale para todo x ∈ R que f (x) = lim Em (f, x) = lim Em (g, x) = g(x).
m→∞ m→∞
O Teorema 27.4 afirma que f pode ser aproximada uniformemente por polinômios trigonométricos
Pnperı́odoikx2π. Surpreendentemente, porém, isso não implica que a série de Fourier Sn (f, x) =
de
k=−n fk e de uma função contı́nua f seja convergente em todo ponto x.
O estudante deve atentar para o fato que, por (27.12) e (27.21), Sm (f, x) e Em (f, x) são polinômios
trigonométricos distintos. Assim, a aproximação de f (x) contı́nua e 2π-periódica pela seqüência
Em (f, x), implicada pelo Teorema 27.4, não necessariamente implica a aproximação de f (x) por
sua série de Fourier Sm (f, x).
De fato, em 1873 Du Bois-Reymond16 exibiu um exemplo de uma função contı́nua e 2π-periódica
(e, portanto, para a qual o Teorema 27.4 se aplica) cuja série de Fourier diverge em x = 0. Apesar de
contı́nua, a função de Du Bois-Reymond não é diferenciável em x = 0 (ou mesmo Hölder-contı́nua).
Esse comentário é importante pois, como veremos na Proposição 27.5, página 1415, continuidade e
diferenciabilidade são suficientes para garantir a convergência pontual da série de Fourier.
Os passos da construção de Du Bois-Reymond podem ser acompanhados na referência [84] ou
em [79]. O leitor interessado que tenha algum conhecimento de Teoria Quântica de Campos poderá
deleitar-se em reconhecer que a construção de Du Bois-Reymond prenuncia certas idéias associadas a
transformações de escala e de grupo de renormalização.
O exemplo de Du Bois-Reymond pode ser aguçado ainda mais. Em 1966 Kahane17 e Katznelson18
provaram que: dado um conjunto de medida nula E em [−π, π], existe uma função f contı́nua e 2π-
periódica tal que supn∈N |Sn (f, x)| = ∞ para todo x ∈ E. Uma demonstração dessa afirmação pode
ser encontrada em [79]19 .
O resultado mais importante sobre a questão da convergência pontual da série de Fourier de funções
de quadrado integrável é devido a Carleson20 : se f é uma função de quadrado integrável em [−π, π],
16
Paul David Gustav Du Bois-Reymond (1831–1889).
17
Jean-Pierre Kahane.
18
Yitzhak Katznelson (1934–).
19
A referência original é: J-P Kahane and Y. Katznelson, “Sur les ensembles de divergence des séries trignométriques”,
Studia Mathematica, 26 305-306, (1966).
20
Lennart Axel Edvard Carleson (1923–). A referência original é: L. Carleson, “On convergence and growth of partial
sums of Fourier series”. Acta Math., 116, 135-157 (1966).
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 27 1410/1461
sua série de Fourier converge quase em toda parte, ou seja, pode divergir apenas em um conjunto de
medida nula.
Como mencionamos, para que possamos garantir convergência da série de Fourier de uma função f
em todo ponto x ∈ [−π, π] não basta requerer continuidade, sendo a adição da condição de diferencia-
bilidade suficiente para tal. A afirmação precisa será apresentada nas páginas que seguem (Proposição
27.5, página 1415).
• Os núcleos de Dirichlet
Essas funções Dn são denominadas núcleos de Dirichlet. Perceba-se que expressões como (27.10),
(27.12) ou (27.13) podem ser re-escritas na forma
Z π Z π
Sm (f, x) = Dm (x − y)f (y) dy , f (x) = lim Dm (x − y)f (y) dy .
−π m→∞ −π
As questões que colocamos acima a respeito das séries de Fourier podem ser respondidas com um
melhor conhecimento dos núcleos de Dirichlet. Suas propriedades básicas encontram-se enunciadas na
proposição que segue.
Proposição 27.2 Definindo
n
1 X ikx
Dn (x) := e , (27.23)
2π k=−n
n ∈ N, valem as seguintes afirmações: cada Dn é uma função contı́nua, par e 2π-periódica. Vale
Z π
Dn (x) dx = 1 (27.24)
−π
Prova. Que cada Dn é contı́nua e 2π-periódica é evidente. Que cada Dn é uma função par é evidente
por (27.25), que provaremos abaixo. A relação (27.24) segue facilmente das relações de ortogonalidade
(27.8), pois
Z π n Z n
1 X π ikx X
Dn (x) dx = e dx = δk, 0 = 1 .
−π 2π k=−n −π k=−n
Apesar de os núcleos de Dirichlet não serem uma seqüência delta de Dirac 2π-periódica, tal como
definido à página 1405 (faltam-lhe as propriedades 2 e 4 da definição daquelas), é possı́vel provar que,
sob hipóteses convenientes sobre a função f , seus efeitos são semelhantes àqueles descritos no Teorema
27.3, página 1406. As próximas páginas tratam disso.
• O Lema de Riemann-Lebesgue
Prova. Se f é contı́nua e 2π-periódica e ǫ > 0, existe, pelo Teorema 27.4, um polinômio trigonométrico
2π-periódico pǫ tal que |f (x) − pǫ (x)| ≤ ǫ para todo R π x ∈ [−π, π]. Como pǫ é um polinômio trigo-
nométrico, seus coeficientes de Fourier (pǫ )k = √12π −π pǫ (x)e−ikx dx anulam-se para todo |k| maior que
um dado K(ǫ) ∈ N. Assim, para |k| > K(ǫ) tem-se
Z π Z π Z π
1 1 1
|fk | = √ f (x)e−ikx
dx = √ (f (x) − pǫ (x))e−ikx
dx ≤ √ |f (x)−pǫ (x)|dx ≤ ǫ .
2π −π 2π −π 2π −π
Logo, provamos que para todo ǫ > 0 existe K(ǫ) > 0 tal que |fk | ≤ ǫ para todo |k| > K(ǫ). Por
definição, isso significa que lim fk = 0.
k→±∞
Teorema 27.5 (Lema de Riemann-Lebesgue) Seja f : [−π, π] → C uma função integrável (no
sentido de Lebesgue). Então, lim fk = 0. 2
k→±∞
Prova. Toda função integrável pode ser aproximada por uma função contı́nua eR2π-periódica na norma
π
L1 , ou seja, para cada ǫ > 0 existe uma função contı́nua e 2π-periódica fǫ tal que −π |f (x)−fǫ (x)|dx ≤ ǫ.
Rπ R π R π
Assim, de −π f (y) e−iky dy = −π (f (y) − fǫ (y)) e−iky dy + −π fǫ (y) e−iky dy, obtemos
Z π Z π Z π
√ √
2π|fk | = f (y) e−iky
dy ≤ |f (y) − fǫ (y)| dy + fǫ (y) e−iky
dy ≤ ǫ + 2π |(fǫ )k | .
−π −π −π
Pela Proposição
27.3, podemos obter |(fǫ )k | ≤ ǫ tomando |k| grande o suficiente e, assim, para tais k’s
vale |fk | ≤ 1 + √12π ǫ, completando a prova.
Nota. O Lema de Riemann-Lebesgue tem uma história interessante. Sua primeira demonstração
foi obtida por Riemann em uma tese, apresentada à Universidade de Göttingen em 1854 e publicada
em 1867, intitulada “Sobre a representabilidade de uma função por uma série trigonométrica”21 , para
a obtenção do tı́tulo de Privatdozent que lhe permitiria dar aulas na universidade (e cobrar por elas
dos alunos. Somente professores titulares eram contratados das universidades e recebiam salários das
mesmas). As regras exigiam que o candidato redigisse uma tese e apresentasse um seminário sobre um
tema diferente diante de uma banca. O candidato propunha quatro temas para o seminário dos quais
um era escolhido pelo decano da instituição. Riemann propôs três temas sobre Eletromagnetismo e
um sobre Geometria. No caso de Riemann o decano era ninguém menos que Gauss, que escolheu o
tema de Geometria, pois soubera que Riemann tinha idéias bastante originais a respeito. A escolha
não poderia ter sido melhor, pois o seminário de Riemann fez história22 e lançou as bases do que
hoje se denomina Geometria Riemanniana, cuja importância à Teoria da Relatividade Geral é bem-
conhecida. Mas a tese versava sobre séries de Fourier e para a obtenção dos seus resultados, em
particular, do que hoje é conhecido como Lema de Riemann-Lebesgue, Riemann percebeu a necessidade
de apresentar uma definição mais precisa da noção de integral do que era empregado até então. Nascia
ai a chamada integral de Riemann. O estudante poderá acompanhar em [36] uma demonstração do
Lema de Riemann-Lebesgue próxima à linha original de Riemann e aperceber-se da necessidade de
precisão da noção de integral naquele contexto. Nossa demonstração de acima seguiu outras linhas.
Posteriormente, Lebesgue estendeu a noção de integral de Riemann e reobteve uma prova do Teorema
27.5 para a classe das funções integráveis de Lebesgue.
• A condição de Dini
Teorema 27.6 (Condição de Dini) Seja f : R → C integrável e 2π-periódica e seja x ∈ R tal que
1. Existem os dois limites laterais lim f (x + t) e lim f (x + t), que denotamos por f (x+ ) e f (x− ),
t→0+ t→0−
respectivamente.
Então,
f (x+ ) + f (x− )
lim Sn (f, x) = .
n→∞ 2
2
Rπ
Prova. Usando (27.6) podemos escrever Sn (f, x) = −π Dn (y)f (x − y)dy. Como Dn é uma função par,
Rπ Rπ
a última integral pode também ser escrita como −π Dn (−y)f (x − y)dy = −π Dn (y)f (x + y)dy. Assim,
podemos escrever, Z
1 π
Sn (f, x) = Dn (y) f (x + y) + f (x − y) dy
2 −π
Usando também (27.24), obtemos
Z π Z π
f (x+ ) + f (x− ) 1
Sn (f, x) − = Dn (y)Df (x, y) dy = Dn (y)Df (x, y) dy , (27.28)
2 2 −π 0
A última igualdade provém do fato que Df (x, y) = Df (x, −y). Para 0 < δ < π podemos escrever
Z δ Z π
Sn (f, x) − f (x) = Dn (y)Df (x, y) dy + Dn (y)Df (x, y) dy . (27.29)
0 δ
Com esse δ assim fixado, passemos agora à segunda integral em (27.29). Usando (27.25), a mesma
fica
Z π Z π
iny eiy/2 Df (x, y) −iny e−iy/2 Df (x, y)
e χ[δ, π] (y) dy − e χ[δ, π] (y) dy (27.30)
0 2i sen(y) 0 2i sen(y)
onde χ[δ, π] é a função caracterı́stica do intervalo [δ, π]:
1, y ∈ [δ, π] ,
χ[δ, π] (y) =
0, y 6∈ [δ, π] .
iy/2
e Df (x, y) 1
Agora, as funções χ[δ, π] (y) 2i sen(y)
são integráveis (note que a singularidade de sen(y) em y = 0
é eliminada pelo fator χ[δ, π] (y)). Assim, aplica-se o Lema de Riemann-Lebesgue, Teorema 27.5, e as
integrais em (27.30) podem ser feitas menores que qualquer ǫ > 0 prescrito tomando |n| grande o
suficiente. Isso completa a demonstração.
Após o Teorema 27.6 a questão que naturalmente se coloca é saber para quais tipos de funções
f a condição de Dini é satisfeita. Há duas classes de funções de maior interesse (especialmente no
contexto de aplicações a equações diferenciais): as contı́nuas e as contı́nuas por partes. As proposições
que seguem reúnem esses casos.
Proposição 27.4 I. Suponha que f : R → C seja Hölder24 -contı́nua em um ponto x ∈ [−π, π], ou
seja, satisfaça
|f (x) − f (y)| ≤ α|x − y|β (27.31)
para todo y em um intervalo [x − κ, x + κ], para algum κ > 0, algum α ≥ 0 e algum β > 0. Então f
satisfaz a condição de Dini (27.27) em x.
II. Se f : R → C não for contı́nua em x mas existirem os limites laterais lim f (x + t) =: f (x+ ) e
t→0+
lim f (x + t) =: f (x− ) e de sorte que existam constantes κ > 0, M+ ≥ 0 e M− ≥ 0 tais que
t→0−
f (x + y) − f (x+ ) f (x − y) − f (x− )
≤ M+ e ≤ M+ (27.32)
y y
Logo, Z Z
κ κ
|Df (x, y)| 2ακβ
dy ≤ 2α y β−1 dy = < ∞.
0 y 0 β
|Df (x, y)| f (x + y) − f (x+ ) + f (x − y) − f (x− )
=
y y
f (x + y) − f (x+ ) f (x − y) − f (x− )
≤ + = M+ + M− ,
y y
f (x + s) − f (x) f (x + s) − f (x)
f ′ (x+ ) := lim e f ′ (x− ) := lim
s→0+ s s→0− s
existirem para todo x ∈ R, então
f (x+ ) + f (x− )
lim Sn (f, x) =
n→∞ 2
para todo x ∈ R. 2
Que a série de Fourier de uma função contı́nua por partes converge ao valor médio (f (x+ )+f (x− ))/2
foi sugerido pelo próprio Fourier, com base em diversos exemplos, em seu trabalho de 1822 “Théorie
Analytique de la Chaleur” . A primeira demonstração correta foi obtida por Dirichlet em 1828. Antes
de Dirichlet, Poisson26 e Cauchy27 apresentaram demonstrações falhas. A natureza não-trivial dos erros
desses autores é discutida em [84].
25
Ou seja, f é Lipschitz-contı́nua.
26
Siméon Denis Poisson (1781-1840).
27
Augustin Louis Cauchy (1789-1857).
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 27 1416/1461
• Somas de Cesàro
caso o limite exista. Como se vê, a série de Cesàro de uma seqüência am é formada pelo limite da
média das somas parciais da seqüência am .
É fácil demonstrar, mas não o faremos aqui, que se uma série converge a um valor a, então o limite
de sua série de Cesàro também existe e também vale a. O interessante sobre as séries de Cesàro é que
existem seqüências cujas séries não possuem limite, mas cujas séries de Cesàro convergem. Um exemplo
básico é a seqüência am = (−1)m . Suas somas parciais valem An = ((−1)n + 1)/2, ou seja, An = 1 se
n é par e An = 0 se n é ı́mpar. Claramente limn→∞ An não existe. Porém, sua série de Cesàro existe,
com n
1 X 1
lim Am = ,
n→∞ n + 1 2
m=0
• O núcleo de Fejér
Vamos agora redemonstrar o Teorema 27.4, lançando outra luz sobre seu significado.
Seja Fn (x) definida para todo x ∈ R por
n
1 X
Fn (x) := Dm (x) . (27.33)
n + 1 m=0
28
Ernesto Cesàro (1859–1906).
29
Godfrey Harold Hardy (1877–1947).
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 27 1417/1461
Como se vê, trata-se da média da soma parcial das seqüência dos núcleos de Dirichlet, ao estilo das
supracitadas médias de Cesàro. Cada função Fn é denominada núcleo de Fejér30.
Para o que segue é importante estabelecer algumas propriedades dos núcleos de Fejér, o que é feito
na próxima proposição, a qual estabelece que as funções Fn formam uma seqüência delta de Dirac
2π-periódica.
Proposição 27.6 Para todo n ∈ N os núcleos de Fejér Fn definidos em (27.33) satisfazem:
3. Z π
Fn (y) dy = 1 .
−π
Ou seja, para todo δ com 0 < δ < π a seqüência de funções Fn converge uniformemente à função
nula na região [−π, −δ] ∪ [δ, π]. 2
Prova. O item 1 é evidente pelas propriedades correspondentes do núcleo de Dirichlet (Proposição 27.2,
página 1410). O item 3 é evidente por (27.24).
30
Lipót Fejér (1880–1959).
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 27 1418/1461
Xn
1 n+1
Por (27.25), vale Fn (0) = (2m + 1) = (prove isso!) e para x 6= 0,
2π(n + 1) m=0 2π
n
1 X sen (n + 21 )x
Fn (x) :=
2π(n + 1) m=0 sen x2
n h
X i
1 ix/2 inx −ix/2 −inx
= x
e e − e e
4πi(n + 1) sen 2 m=0
" n n
#
1 X X
= x
eix/2 einx − e−ix/2 e−inx
4πi(n + 1) sen 2 m=0 m=0
(27.26) 1 ix/2 1 − ei(n+1)x −ix/2 1 − e−i(n+1)x
= x
e −e
4πi(n + 1) sen 2
1 − eix 1 − e−ix
−1 h i
i(n+1)x −i(n+1)x
= 2 e − 2 + e
x
8π(n + 1) sen 2
−1 h i2
i(n+1)x/2 −i(n+1)x/2
= 2 e − e
x
8π(n + 1) sen 2
2
(n+1)
1 sen 2
x
= .
x
2π(n + 1) sen 2
Isso estabeleceu o item 4 e, por conseguinte, o item 2. Para demonstrar o item 5, consideremos x ∈ [δ, π]
para algum 0 < δ < π. Por (27.34),
!2
1 1
|Fn (x)| ≤ . (27.36)
2π(n + 1) sen x2
2
d 1 cos( x2 )
Agora, no intervalo [δ, π] tem-se dx sen x = − 3 < 0 o que significa dizer que a função
(2) ( sen( x2 ))
do lado direito de (27.36) é decrescente e, portanto, assume seu valor máximo em x = δ, o inı́cio do
intervalo [δ, π]. Logo,
!2
1 1
|Fn (x)| ≤ . (27.37)
2π(n + 1) sen 2δ
Essa desigualdade vale também no intervalo [−π, −δ], pois Fn é par. A desigualdade (27.37) implica
que lim |Fn (x)| = 0 uniformemente em [−π, −δ] ∪ [δ, π].
n→∞
Estabelecemos que Fn é uma seqüência delta de Dirac 2π-periódica e, se f é uma função contı́nua
e 2π-periódica sabemos pelo Teorema 27.3, página 1406, que
Z π
Fn (f, x) := Fn (x − y) f (y) dy
−π
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 27 1419/1461
mostrando que Fn (f, x) é a média de Cesàro das somas parciais de Fourier. A afirmação que toda
função contı́nua e 2π-periódica pode ser aproximada uniformemente pela média de Cesàro de sua suas
somas de Fourier parciais é conhecida como Teorema de Fejér, resultado provado por aquele autor no
ano de 1900. Naturalmente, isso diz que toda função contı́nua e 2π-periódica pode ser aproximada
uniformemente por um polinômio trigonométrico, fato que já estudamos sob a forma do Teorema 27.4,
página 1408. A distinção entre o Teorema de Fejér e aquele teorema é o tipo de núcleo de Dirac usado
em ambos os casos e o fato de o Teorema de Fejér trazer uma relação com as médias de Cesàro.
Capı́tulo 28
Noções de Estruturas Algébricas
Conteúdo
28.1 Álgebras Universais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1421
28.2 Ação de Uma Álgebra Universal sobre uma Outra Álgebra Universal (*) 1428
• Operações e Relações
• Funções Finitárias
1420
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 28 1421/1461
C.
Funções 2-árias serão chamadas aqui de funções binárias e funções 1-árias são chamadas de funções
unárias.
Por vezes iremos falar também de funções 0-árias sobre C, que consistem em funções f : {∅} → C.
Uma tal função tem por imagem simplesmente um√elemento fixo de C. Exemplos de funções 0-árias
sobre R seriam f (∅) = 1 ou f (∅) = 0 ou f (∅) = 2. Freqüentemente denotamos tais funções pelo
elemento
√ de C por ela associado. Nos três exemplos acima, poderı́amos denotar as funções por 1, 0 ou
2, respectivamente.
• Relações Finitárias
Há uma nomenclatura análoga para o caso de relações. Sejam C e I dois conjuntos e consideremos
relações R ⊂ C I . Se I é um conjunto finito R é dita ser uma relação finitária sobre C. Sem perda
de generalidade consideraremos aqui relações finitárias do tipo R ⊂ C n para algum n ∈ N. Se R é
uma relação finitária para um dado n, R é dita ser uma relação n-ária sobre C. Para o caso n = 1 as
relações são também chamadas de unárias e para o caso n = 2 são ditas binárias. Relações binárias
foram estudadas à página 24.
• Estruturas
Seja C um conjunto, F uma coleção de operações (não necessariamente finitárias) sobre C e seja
R uma coleção de relações (não necessariamente finitárias) em C. A tripla hC, F, Ri é dita ser uma
estrutura sobre C. Note-se que tanto F quanto R podem ser vazias.
Dado que operações sobre um conjunto C também são relações sobre C, a definição de estru-
tura acima poderia ser simplificada. É porém conveniente mantê-la como está, pois opções são de
importância especial.
Uma estrutura hC, Fi é dita ser uma estrutura algébrica e uma estrutura hC, Ri é dita ser uma
estrutura relacional. Deste segundo tipo de estrutura não trataremos aqui. Aqui estudaremos apenas
um tipo especial de estrutura algébrica, as chamadas álgebras universais, das quais veremos vários
exemplos importantes à toda a Matemática e à Fı́sica.
1. Seja C = R e F = {s, m}, onde s e m são duas funções binárias dadas por s : R2 → R,
s(x, y) = x + y e m : R2 → R, s(x, y) = x · y.
1
Alfred North Withehead (1861-1947).
2
George David Birkhoff (1884-1944).
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 28 1422/1461
2. Seja C = Mat(n) (o conjunto das matrizes complexas n × n para um certo n ∈ N) e F = {s, m},
onde s e m são duas funções binárias dadas por s : C 2 → C, s(A, B) = A + B e m : C 2 → C,
s(A, B) = A · B.
3. Seja C o conjunto de todas as matrizes complexas n × m (para n e m ∈ N) e seja F = {c, s, t}
onde c : C → C é a função unária dada por c(A) = A (a matriz complexo-conjugada de A),
s : C 2 → C é a função binária dada por s(A, B) = A + B e t : C 3 → C é a função 3-ária dada
por t(A, B, C) = AB T C, onde B T é a transposta da matriz B.
Vários outros exemplos serão vistos abaixo. Algumas álgebras universais com propriedades especiais
recebem denominações próprias e são chamadas de grupos, semi-grupos, anéis, corpos, álgebras etc.
Vamos introduzı́-las adiante.
Antes de prosseguirmos, façamos uma observação sobre a notação que é costumeiramente adotada,
especialmente quando se trata de funções binárias.
Dado um conjunto C e uma função binária denotada por um sı́mbolo φ, a imagem de um par
(a, b) ∈ C 2 é comummente denotada por φ(a, b). É muito prático, por vezes, usar uma outra notação
e denotar φ(a, b) por a φ b. Essa notação é denominada mesofixa. Um exemplo claro desse uso está
na função soma, denotada pelo sı́mbolo + : C2 → C de dois números complexos. Denotamos +(z, w)
por z + w. Outro exemplo está na função produto · : C2 → C de dois números complexos. Denotamos
·(z, w) por z · w.
Essa notação será usada adiante para outras funções binárias além das funções soma e produto de
números ou matrizes.
Funções unárias também têm por vezes uma notação especial, freqüentemente do tipo exponencial.
Tal é o caso da operação que associa a cada elemento de um grupo à sua inversa, g 7→ g −1, ou o
caso da operação que associa a cada conjunto o seu complementar A 7→ Ac . Ou ainda o caso da
transposição de matrizes M 7→ M T , da conjugação de números complexos z 7→ z ∗ para o que usa-se
também sabidamente a notação z 7→ z.
• Comutatividade e Associatividade
• Reticulados
Um reticulado4 sobre um conjunto C é uma álgebra universal hC, Fi onde F é um conjunto de duas
funções binárias denotadas por ∧ e ∨ (lê-se “e” e “ou”, respectivamente), F = {∧, ∨}, as quais são
supostas satisfazer as seguintes relações, validas para todos a, b e c ∈ C (usaremos a nova notação):
1. Idempotência:
a ∧ a = a, a ∨ a = a.
2. Comutatividade:
a ∧ b = b ∧ a, a ∨ b = b ∨ a.
3. Associatividade:
a ∧ (b ∧ c) = (a ∧ b) ∧ c,
a ∨ (b ∨ c) = (a ∨ b) ∨ c.
4. Absorvência5 :
a ∧ (a ∨ b) = a,
a ∨ (a ∧ b) = a.
Vamos a exemplos.
1. Seja C = P(B), para algum conjunto B e sejam as funções ∧ e ∨ definidas para todos a, b ⊂ B,
por a ∧ b = a ∪ b, a ∨ b = a ∩ b.
3. Uma generalização do caso acima. Seja C um conjunto linearmente ordenado (a definição está à
página 32) e sejam as funções ∧ e ∨ definidas para todos a, b ∈ C, por
a, se a ≥ b
a ∧ b := ,
b, de outra forma
a, se a ≤ b
a ∨ b := .
b, de outra forma
• Reticulados Distributivos
1.
a ∧ (b ∨ c) = (a ∧ b) ∨ (a ∧ c).
2.
a ∨ (b ∧ c) = (a ∨ b) ∧ (a ∨ c).
• Álgebras Booleanas
Uma álgebra Booleana6 é uma álgebra universal formada por um conjunto B e por uma famı́lia
F de cinco funções finitárias: duas binárias, denotadas por ∧ e ∨, uma função unária, denotada por
C e denominada “negação” ou “complemento” e duas funções 0-árias, denotadas genericamente por 0
e 1 (denominadas, obviamente, “zero” e “um”), as quais representam elementos fixos distintos de B.
As funções acima são supostas satisfazer aos seguintes requisitos: 1) B, ∧ e ∨ formam um reticulado
distributivo. 2) Para todo a ∈ B vale que 0 ∨ a = a e que 1 ∧ a = a. 3) Para todo a ∈ B vale que
a ∨ C(a) = 1 e que a ∧ C(a) = 0.
Exemplo Básico. Seja A um conjunto e tomemos B = P(A). Para a, b ∈ P(A) definamos a∧b = a∪b,
a ∨ b = a ∩ b, C(a) = A \ a, 0 = ∅, 1 = A. Como exercı́cio mostre que o sistema assim definido é uma
álgebra Booleana.
• Semi-grupos
6
George Boole (1815-1864).
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 28 1425/1461
Um semi-grupo é uma álgebra universal formada simplesmente por um conjunto S e por uma
operação binária associativa denotada por “·” e denominada “produto” ou “multiplicação”.
Exemplos. R dotado da operação de multiplicação usual é um semi-grupo (mas não um grupo. Vide
abaixo.). O mesmo pode ser dito de Mat(n), o conjunto das matrizes complexas n × n com o produto
usual de matrizes.
Outro exemplo importante é o seguinte. Seja C um conjunto e tomemos S = C C , o conjunto de
todas as funções de C em C. Então S é um semi-grupo com o produto formado pela composição de
funções: “◦”.
• Monóides
a·e=a e e · a = a, (28.1)
para todo a ∈ C.
Note-se que um monóide pode ser também entendido como sendo uma álgebra universal hC, Fi,
onde C é um conjunto e F = {·, e} é formado por uma função binária associativa “·” (produto) e uma
função 0-ária e (com e ∈ C) com a propriedade de elemento neutro (28.1) em relação ao produto “·”.
Exemplo. R dotado da operação de multiplicação usual é um monóide onde o elemento neutro é o
número 1.
Exemplo. C dotado da operação de soma usual é um monóide onde o elemento neutro é o número
0.
Exemplo. Seja C um conjunto e tomemos S = C C , o conjunto de todas as funções de C em C.
Então S é um semi-grupo com o produto formado pela composição de funções: ◦. S é também um
monóide, onde o elemento neutro é a função identidade id(s) = s, ∀s ∈ C.
Contra-exemplo. O conjunto R+ = {x ∈ R, x > 0} é um semi-grupo (Abeliano) em relação à
operação de soma, mas não é um monóide.
• Grupos
Esta é uma das estruturas matemáticas mais importantes e o alcance de suas aplicações dispensa
comentários.
Um grupo é uma álgebra universal hC, Fi, onde C é um conjunto e F = {·, I, e} é formada por
uma função binária associativa “·” denominada produto, por uma função 0-ária e (com e ∈ C) com a
propriedade de elemento neutro (28.1) em relação ao produto “·” e por uma função unária I (chamada
de inversão), com a propriedade que
a · I(a) = I(a) · a = e
para todo a ∈ C. Freqüentemente denotamos I(a) = a−1 , que é chamado de “inversa” ou “elemento
inverso” de a. O elemento e é freqüentemente denominado identidade do grupo.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 28 1426/1461
• Anéis
Um anel é uma álgebra universal constituı́da por um conjunto R (“Ring” em inglês e alemão) e
uma coleção F = {+, ·, 0} formada por duas funções binárias comutativas e associativas, + e · e por
uma função 0-ária 0 ∈ R com as seguintes propriedades:
a · (b + c) = (a · b) + (a · c) e (b + c) · a = (b · a) + (c · a).
E. 28.5 Exercı́cio importante. Mostre que em um anel sempre vale que a · 0 = 0 para todo a ∈ R. 6
Exemplos. R, C, Q, Z e Mat(n, C) são exemplos de anéis com relação às operações usuais de soma
e multiplicação.
Apresentaremos em seqüência uma série de definições após as quais discutiremos exemplos relevan-
tes.
Um anel com unidade é um anel hR, {+, ·, 0}i com a propriedade de existir em R um elemento 1,
chamado de unidade, com 1 6= 0, tal que a · 1 = 1 · a = a para todo a ∈ R.
Outro modo de dizer isso é dizer que um anel com unidade é uma álgebra universal hR, {+, ·, 0, 1}i
onde hR, {+, ·, 0}i é um anel e 1 é uma operação 0-ária tal que a · 1 = 1 · a = a para todo a ∈ R.
Dado um anel hR, {+, ·, 0}i um elemento não-nulo a ∈ R é dito ser um divisor de zero se existir
pelo menos um b ∈ R com b 6= 0 tal que a · b = 0 ou b · a = 0.
Se em um anel tivermos que a · b = 0 implica que ou a = 0 ou b = 0 ou ambos, então esse anel é
dito ser um anel sem divisores de zero.
Exemplos. C e R são anéis sem divisores de zero (com os produtos e somas usuais), mas os anéis
Mat(n, C), n > 1, têm divisores de zero (com o produto e soma usual), pois tem-se, por exemplo,
1 0 0 0 0 0
= .
0 0 0 1 0 0
• Anel de Integridade
Um anel comutativo, com unidade e sem divisores de zero é dito ser um anel de integridade ou
também um domı́nio de integridade.
Para a relação entre anéis de integridade e corpos, vide adiante.
• Anéis de Divisão
E. 28.6 Exercı́cio importante. Mostre que um anel de divisão não pode possuir divisores de zero.
Portanto, todo anel de divisão comutativo é também um anel de integridade. 6
Exemplos. Com as definições usuais R, C e Q são anéis de divisão mas Z não o é (falta a inversa).
Mat(n, C) com n > 1 também não é um anel de divisão com as definições usuais pois nem toda a
matriz é invertı́vel.
• Corpos
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 28 1428/1461
Um anel de divisão hR, {+, ·, I, 0, 1}i cujo produto “·” é comutativo é denominado um corpo7 .
Exemplos.
• Corpos Não-comutativos
Como a única distinção entre as definições de corpos e de anéis de divisão é que para os primeiros a
comutatividade do produto é requerida, diz-se também por vezes que anéis de divisão não-comutativos
são corpos não-comutativos.
É bem claro pelas definições que todo corpo é também um anel de integridade. A reciproca é
parcialmente válida:
Teorema 28.1 Todo anel de integridade finito é um corpo. 2
Prova. Se A é um anel de integridade, tudo que precisamos é mostrar que todo elemento não-nulo
de A é invertı́vel. Seja a um elemento de A \ {0}. Definamos a aplicação α : A \ {0} → A dada por
α(y) = ay.
Note que, como A é um anel de integridade o lado direito é não nulo pois nem a nem y o são. Assim,
α é em verdade uma aplicação de A \ {0} em A \ {0} e, como tal, é injetora, pois se ay = az, segue
que a(y − z) = 0, o que só é possı́vel se y = z, pois A é um anel de integridade e a 6= 0. Agora,
uma aplicação injetora de um conjunto finito em si mesmo tem necessariamente que ser sobrejetora
(por que?). Assim, α é uma bijeção de A \ {0} sobre si mesmo. Como 1 ∈ A \ {0}, segue que existe
y ∈ A \ {0} tal que ay = 1, ou seja, a tem uma inversa. Como a é um elemento arbitrário de A \ {0},
segue que todo elemento de A \ {0} tem inversa e, portanto, A é um corpo.
Anéis de integridade infinitos não são necessariamente corpos:
Anti-exemplo. Um exemplo de um anel de integridade que não é um corpo é o conjunto de todos
os polinômios de C em C com o produto e soma usuais. Em verdade, os únicos polinômios que tem
inverso multiplicativo são os polinômios constantes não nulos.
• Espaços Vetoriais
Assim como o conceito de grupo, o conceito de espaço vetorial é também um dos mais importantes
da Matemática e suas aplicações também dispensam comentários. O conceito de espaços vetorial não
se enquadra plenamente no de álgebra universal e envolve como ingredientes, um grupo Abeliano A e
um corpo K, conectados por um ação de K em A (definida abaixo).
Um espaço vetorial é formado por um grupo Abeliano A e por um corpo K e por uma aplicação
K × A → A, que denotamos simbolicamente por “·”,
K × A → A ∋ (α, v) 7→ α · v ∈ A,
com as seguintes propriedades:
1. Associatividade
α · (β · v) = (αβ) · v,
para todos α, β ∈ K, v ∈ A.
2. 1 · v = v para todo v ∈ A.
3. Distributividade em relação à soma no corpo: (α + β) · v = (α · v) + (β · v), para todos α, β ∈ K,
v ∈ A.
4. Distributividade em relação à soma no grupo Abeliano: α · (v + w) = (α · v) + (α · w), para todos
α ∈ K, v, w ∈ A.
E. 28.7 Exercı́cio. Mostre que das definições acima segue que, num espaço vetorial hA, K, ·i, sempre
vale que 0 · v = 0 para todo v ∈ A. 6
Dado um espaço vetorial A formado por um anel A sobre o qual age um corpo K como definido
acima (usaremos também a notação hA, Ki), denotaremos aqui o produto α · v, α ∈ K, v ∈ A
simplesmente por α v.
• Álgebras
1. Considerando apenas a estrutura de A como grupo Abeliano, o par hK, Ai é um espaço vetorial.
α · (a · b) = (α · a) · b = a · (α · b). (28.2)
O leitor pode convencer-se que uma álgebra pode ser também caracterizada como um espaço vetorial
V = hA, Ki (K corpo, A grupo Abeliano) dotado de um produto · : A × A → A de forma que
Se numa álgebra o produto “·” definido entre os vetores do espaço vetorial for associativo a álgebra
é dita ser uma álgebra associativa, de outra forma ela é dita ser uma álgebra não-associativa.
O estudante não deve pensar que álgebras não-associativas são raras e desinteressantes. Em ver-
dade uma das primeiras álgebras com a qual estudantes de Fı́sica ou Matemática se deparam é não-
associativa, a saber, a álgebra do produto vetorial em R3 (denotado por ~a × ~b ou por ~a ∧ ~b).
E. 28.8 Exercı́cio. Mostre que para os vetores de base canônicos ~i, ~j e ~k tem-se (~i ×~i) × ~j = ~0 × ~j = ~0
mas ~i × (~i × ~j) = ~i × ~k = −~j 6= ~0. 6
• Álgebras de Lie
Aqui novamente estamos diante de um assunto vastı́ssimo e vamos limitar-nos às definições.
Uma álgebra de Lie é uma álgebras A cujo produto é não-comutativo e não-associativo mas para o
qual, porém, as seguintes propriedades são válidas:
a · b = −b · a (28.3)
para todos a e b ∈ A e
a · (b · c) + b · (c · a) + c · (a · b) = 0, (28.4)
para todos a, b e c ∈ A.
A propriedade (28.3) é denominada anti-comutatividade e a propriedade (28.4) é denominada iden-
tidade de Jacobi.
Para se compreender a importância da identidade de Jacobi na estrutura das álgebras de Lie,
notemos que, para um produto anti-comutativo (i.e. a · b = −b · a) a condição de associatividade
a · (b · c) = (a · b) · c fica
a · (b · c) + c · (a · b) = 0.
Compare-se esta relação com (28.4).
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 28 1431/1461
Por razões históricas o produto de dois elementos de um álgebra de Lie é mais freqüentemente
denotado pelo sı́mbolo [a, b] ao invés de a · b.
Sejam hA, Ai e hB, Bi duas álgebras universais. Uma função ∆ : A → B é dita preservar o tipo
das operações de A se para todo α ∈ A a operação ∆(α) ∈ B tiver o mesmo tipo que a operação α.
Assim, uma aplicação que preserva o tipo leva aplicações unárias em unárias, aplicações binárias
em binárias etc.
Um morfismo da álgebra universal hA, Ai na álgebra universal hB, Bi é um par de aplicações
hD, ∆i com D : A → B e ∆ : A → B, onde ∆ é uma aplicação que preserva o tipo e de tal forma que
para todo α ∈ A tenhamos
D ◦ α = ∆(α) ◦ D
como aplicações An → B, onde n é o tipo de α.
Isso significa que para todo α ∈ A temos
D(α(a1 , . . . , an )) = ∆(α)(D(a1 ), . . . , D(an ))
para toda (a1 , . . . , an ) ∈ An , n sendo o tipo de α.
Exemplo. Sejam as álgebras universais hR+ , {·, 1}i e hR, {+, 0}i com as definições usuais e seja
o par h ln, Li, onde ln : R+ → R é o logaritmo neperiano e L : {·, 1} → {+, 0} dado por L(·) = +,
L(1) = 0. Então h ln, Li é um morfismo de hR+ , {·, 1}i em hR, {+, 0}i, dado que para todo
a, b ∈ R+ vale
ln(a · b) = ln(a) + ln(b).
Por razões de completeza apresentaremos aqui a noção geral de ação de uma álgebra universal sobre
uma outra. A leitura desta seção pode ser omitida pois não afetará o que segue.
Vamos começar com algumas definições. Sejam A e B dois conjuntos e seja uma função G : A×B →
B.
Para todo n, m ∈ N definamos
G(n, 1) : An × B → B n tal que (a1 , . . . , an , b) 7→ (G(a1 , b), . . . , G(an , b))
com ai ∈ A, b ∈ B.
Para todo m, m ∈ N definamos
G(1, m) : A × B m → B m tal que (a, b1 , . . . , bm ) 7→ (G(a, b1 ), . . . , G(a, bm ))
com a ∈ A, bi ∈ B.
Para um conjunto C qualquer idC : C → C denota a identidade em C: idC (c) = c, ∀c ∈ C.
Fora isso, se γ : C → C é uma aplicação, denotaremos por γ (n) : An → An a aplicação tal que
γ (n) (c1 , . . . , cn ) = (γ(c1 ), . . . , γ(cn )).
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 28 1432/1461
Com isso podemos formular a definição desejada de ação de uma álgebra universal sobre uma outra.
Sejam hA, Ai e hB, Bi duas álgebras universais. Uma ação de hA, Ai sobre hB, Bi é um par
hG, Γi onde
G :A×B → B e Γ:A→B
são aplicações tais que Γ preserva tipos e as seguintes condições são válidas: Para quaisquer α ∈ A e
β ∈ B (cujos tipos serão n e m, respectivamente) tem-se que
como aplicações An × B m → B.
De (28.5) segue que
G ◦ (α, idB ) = Γ(α) ◦ G(n, 1) ◦ (idAn , idB ) (28.6)
e
G ◦ (idA , β) = β ◦ G(1, m) ◦ (idA , idBm ). (28.7)
e (m)
G(1, m) ◦ (α, idBm ) = Γ(α) ◦ G(n, 1) ◦ k, (28.9)
onde j : An × B m → (A × B m )n é dada por
j(a1 , . . . , an , b1 , . . . , bm ) := (a1 , b1 , . . . , bm , a2 , b1 , . . . , bm , . . . , an , b1 , . . . , bm )
k(a1 , . . . , an , b1 , . . . , bm ) := (a1 , . . . , an , b1 , a1 , . . . , an , b2 , . . . , a1 , . . . , an , bm ).
Das relações (28.8) e (28.9) segue que a condição (28.5) pode ser escrita como
(n) (m)
G ◦ (α, β) = Γ(α) ◦ β ◦ G(1, m) ◦ j = β ◦ Γ(α) ◦ G(n, 1) ◦ k. (28.10)
V amos neste capı́tulo apresentar uma construção do chamado limite indutivo de certas famı́lias
de álgebras, em particular de álgebras de Banach. Tal construção é freqüentemente empre-
gada, por exemplo na teoria das álgebras C∗ onde é usada na construção de uma classe
importante de álgebras C∗ , as chamadas álgebras AF.
No caminho que seguiremos indicaremos primeiro como construir o chamado limite indutivo algébrico,
construção essa que pode ser efetuada não só em famı́lias de álgebras, mas também em famı́lias de gru-
pos, de anéis, de semi-grupos, de espaços vetoriais etc. A seguir trataremos do caso de espaços de
famı́lias de espaços de Banach e construiremos o chamado limite indutivo de Banach de (A, φ).
Um conjunto I é dito ser um conjunto dirigido (“directed set”) se for dotado de uma relação de
ordem parcial, que denotaremos por “”, e se for dotado da seguinte propriedade: para quaisquer dois
elementos a e b de I existe pelo menos um terceiro elemento c ∈ I tal que a c e b c.
Seja I um conjunto dirigido que trataremos aqui como um conjunto de ı́ndices. Vamos estar aqui
supondo que associada a cada i ∈ I haja uma álgebra Ai e que, para cada par i, j ∈ I com i j haja
um morfismo de álgebra φij : Ai → Aj satisfazendo os seguintes requisitos:
1433
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 29 1434/1461
(k i) ∧ (k j) tal que
φik (x) = φjk (y).
Vamos mostrar em primeiro lugar que tal realmente define uma relação de equivalência.
e
φjk′′ (y) = φkk′′ (z).
Seja então k ′′′ ∈ I com (k ′′′ k ′ ) ∧ (k ′′′ k ′′ ). Teremos
φik′′′ (x) = φk′ k′′′ ◦φik′ (x) = φk′k′′′ ◦φjk′ (y) = φjk′′′ (y) = φk′′ k′′′ ◦φjk′′ (y) = φk′′k′′′ ◦φkk′′ (z) = φkk′′′ (z).
Assim, φik′′′ (x) = φkk′′′ (z) com (k ′′′ i) ∧ (k ′′′ k), provando que x ∼ z.
Isto posto, denotaremos por Aφ a coleção das classes de equivalência de A pela relação ∼: Aφ :=
A/ ∼. Notemos que Aφ depende da coleção {Ai , i ∈ I} e dos morfismos φij usados.
Antes de prosseguirmos provemos o seguinte pequeno resultado, do qual faremos uso:
Lema 29.1 Para todo i ∈ I, todo a ∈ Ai e todos k, k ′ ∈ I com k i, k ′ i, tem-se que φik (a) ∼
φik′ (a). 2
Prova. Seja x ≡ φik (a) ∈ Ak , y ≡ φik′ (a) ∈ Ak′ e seja k ′′ ∈ I com (k ′′ k) ∧ (k ′′ k ′ ). Temos que
e
φk′k′′ (y) = φk′k′′ ◦ φik′ (a) = φik′′ (a).
Logo, φkk′′ (x) = φk′ k′′ (y), provando que x ∼ y.
Este lema diz que, para todo i ∈ I, todo a ∈ Ai e todos k, k ′ ∈ I com k i, k ′ i, tem-se que
Podemos atribuir a Aφ uma estrutura de álgebra. Em primeiro lugar, se [x] é a classe de equivalência
associada a um elemento x, definimos α[x] := [αx]. Aqui α é um elemento qualquer do corpo de escalares
das álgebras.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 29 1435/1461
É preciso demonstrar a independência dessa definição dos representantes tomados na classe, mas
isso é fácil de se verificar, pois se x′ ∼ x com x′ ∈ Aj e x ∈ Ai , existe k ∈ I com (k i) ∧ (k j) com
φik (x) = φjk (x′ ). Logo, φik (αx) = φjk (αx′ ), provando que (αx′ ) ∼ (αx), ou seja, que [αx′ ] = [αx].
Sejam x ∈ Ai , y ∈ Aj e (k i) ∧ (k j). Definimos
É preciso demonstrar a independência dessa definição dos representantes tomados, assim como do k
adotado.
A independência de k é imediata, pois se (k ′ i) ∧ (k ′ j) então tomemos k ′′ ∈ I tal que
(k ′′ k) ∧ (k ′′ k ′ ). Denotando z1 = φik (x) + φjk (y) e z2 = φik′ (x) + φjk′ (y) teremos
φkk′′ (z1 ) = φik′′ (x) + φjk′′ (y) = φk′ k′′ (φik′ (x) + φjk′ (y)) = φk′ k′′ (z2 ),
mostrando que z1 ∼ z2 e que [φik (x) + φjk (y)] = [φik′ (x) + φjk′ (y)].
Vamos agora provar a independência da definição de [x] + [y] do representante tomado em [x]. A
independência em relação ao representante em [y] é análoga. Seja x′ ∈ Ai′ com x′ ∼ x e seja k ′ ∈ I
com (k ′ i) ∧ (k ′ i′ ) ∧ (k ′ j) e tal que φik′ (x) = φi′ k′ (x′ ). Temos que
Logo
[φi′ k′ (x′ ) + φjk′ (y)] = [φik′ (x) + φjk′ (y)] = [φik (x) + φjk (y)],
pela independência em k, provando o que se desejava.
Notemos também que para todo y,
[x] + (−1)[x] = [x] + [−x] = [φik (x) + φik (−x)] = [φik (x) − φik (x)] = [0].
As operações de multiplicação por escalar e de soma em que foram definidas acima dão a Aφ uma
estrutura de espaço vetorial. Vamos agora definir um produto em Aφ . Definimos
φkk′′ (z1 ) = φik′′ (x)φjk′′ (y) = φk′ k′′ (φik′ (x)φjk′ (y)) = φk′ k′′ (z2 ),
Logo
[φi′ k′ (x′ )φjk′ (y)] = [φik′ (x)φjk′ (y)] = [φik (x)φjk (y)],
pela independência em k.
Notemos também, por fim, que para todo y,
O conjunto Aφ , dotado da estrutura algébrica definida acima, é chamado de limite indutivo algébrico
do sistema indutivo (A, φ).
• Alguns Exemplos
Vamos ilustrar a construção acima com exemplos. Seja I = N com a ordem usual e An = Mat(n, C),
a álgebra das matrizes complexas n × n.
Há três possı́veis morfismos de álgebra de Mat(2) em Mat(3), como indicado abaixo:
0 0 0
1
a b
φ2, 3 :=
0 a b .
c d
0 c d
a 0 b
a b
2
φ2, 3 := 0 0 0
,
c d
c 0 d
a b 0
a b
φ32, 3
:= c d
0
,
c d
0 0 0
E. 29.1 Exercı́cio. Mostre que os três φ’s definidos acima são homomorfismos de A2 em A3 e que são
os únicos homomorfismos desse tipo. 6
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 29 1437/1461
Há entre An e An+1 exatamente n + 1 homomorfismos. O exemplo acima ilustra como os mesmos
são obtidos: para uma matriz n × n a, φin, n+1 (a) é uma matriz (n + 1) × (n + 1) obtida inserindo-se
em a uma coluna na i-ésima posição e uma linha na i-ésima posição, ambas apenas com zeros:
a1, 1 ... a1, i−1 0 a1, i ... a1, n
.. .. .. .. .. .. ..
. . . . . . .
a ai−1, n
a1, 1 . . . a1, n i−1, 1 . . . ai−1, i−1 0 ai−1, i . . .
. ..
φn, n+1 .. := 0 0
i
.. . . ... 0 0 0 ... .
an, 1 . . . an, n a ... ai, i−1 0 ai, i ... ai, n
i, 1
.. .. .. .. ..
.. ..
. . . . . . .
an, 1 ... an, i−1 0 an, i ... an, n
Uma possı́vel coleção de morfismos coerentes é dada da seguinte forma. Seja a coleção {ia , a ∈ N}
onde, para a, o ı́ndice ia assume valores em {1, . . . , a + 1}. Sejam An e Am , com n < m, e
i
in ,...,im−1
φn, m := φin,n n+1 ◦ . . . ◦ φm−1,
m−1
m.
Note-se porém que morfismos com ı́ndices {in , . . . , im } distintos podem ainda assim ser idênticos. O
que distingue os morfismos entre si é a localização das linhas e colunas nulas.
Cada coleção I = {ia , a ∈ N} caracteriza (não univocamente) um limite indutivo algébrico AI.
E. 29.2 Exercı́cio. Suponha que adotemos um sistema indutivo onde I = N com a ordem usual,
n+1,...,m
An = Mat(n, C) e onde os morfismos são dados por φn, m , ou seja, com cada ia assumindo o valor
máximo possı́vel (última linha e coluna de zeros introduzida em cada etapa). Mostre que matrizes como
a b 0
a b
e c d 0
c d
0 0 0
Vamos considerar outro exemplo. Seja s ∈ N fixo, s 6= 0, e I = {2n s, n ∈ N} com a ordem usual.
Seja An = Mat(2n s, C) e seja φn m definida da seguinte forma: para todo a ∈ Mat(2n s, C),
|⊕a⊕
φn m (a) := a {z. . . ⊕ a},
2m−n vezes
| ⊕a⊕
φn m (a) := a {z. . . ⊕ a} .
q m−n vezes
O limite indutivo algébrico assim obtido será caracterizado por q e s: A(q, s).
Vamos agora a mais um exemplo que, num caso especial, engloba o anterior. Seja {qi ∈ N, qi ≥
2, i ∈ N} uma seqüência de números naturais positivos maiores ou iguais a 2 e s ∈ N, s 6= 0. Seja
Q0 = s e Qn := sq1 · · · qn , n ≥ 1. Tomemos I = {Qn , n ∈ N} com a ordem usual, e An = Mat(Qn , C)
e φn m definida da seguinte forma. Sejam Tn ∈ Mat(qn , C), n ∈ N, n ≥ 1, matrizes idempotentes (ou
seja, que satisfazem Tn2 = Tn ) não nulas e definamos para todo a ∈ Mat(Qn , C)
E. 29.3 Exercı́cio. Verifique que isso define um morfismo de álgebra entre Mat(Qn , C) e Mat(Qn+1 , C).
Por que razão a condição de idempotência Tn2 = Tn é importante? 6
Pela definição é claro que os φ’s assim definidos formam uma coleção coerente de morfismos. O limite
indutivo algébrico assim obtido será aqui denotado por A({q}, s, {T }).
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 29 1439/1461
E. 29.4 Exercı́cio. Verifique que o exemplo anterior, A(q, s), corresponde a tomar-se qn = 2 e Tn = 1q ,
n ∈ N. 6
Os exemplos acima serão discutidos com mais detalhe quando tratarmos das álgebras AF. Passemos
agora à seguinte discussão. Se as álgebras Ai , i ∈ I forem todas álgebras de Banach estamos muitas
vezes interessados em construir um limite indutivo que seja também uma álgebra de Banach. É preciso
para tal introduzir uma norma conveniente em A a partir das normas das álgebras Ai e construir seu
completamento. Há para tal uma série de problemas dos quais passaremos a tratar.
Vamos considerar agora a situação na qual as álgebras Ai são álgebras de Banach com norma k · ki .
O sistema (A, φ) é dito ser um sistema indutivo normado se todos os φi j forem contı́nuos (ou seja,
limitados) e se tivermos
lim sup kφi j kj < ∞.
j
Definindo para n ∈ I
In := {m ∈ I| m n},
tem-se que
k|[x]k| = lim sup kφij (x)kj
j∈Ii
e
k|[x′ ]k| = lim sup kφi′ j (x)kj .
j∈Ii′
Nota: é um exercı́cio simples mostrar que In são também conjuntos dirigidos. A definição de lim sup
pode ser encontrada na Seção 22.4, à página 1106.
Dado o conjunto Ii escrevamos Ii = I0 ∪ J onde J := Ik e I0 := Ii \ J. Vamos mostrar que os
conjuntos I0 e J satisfazem as condições requeridas para a propriedade que denominamos “invariância
por redução inicial do domı́nio” à página 1107:
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 29 1440/1461
k|[x′ ]k| = lim sup kφi′ j (x′ )kj = lim sup kφi′ j (x′ )kj .
j∈Ii′ j∈Ik
Porém, para j ∈ Ik
φij (x) = φkj ◦ φik (x) = φkj ◦ φi′ k (x′ ) = φi′ k (x′ ),
provando finalmente que
k|[x]k| = k|[x′ ]k|.
Uma vez estabelecido que k|[x]k| independe do representante tomado na classe [x] vamos agora
provar que |||[x]||| é de fato uma semi-norma.
Proposição 29.1 Para todas as classes [x] e [y] valem:
= |||[x]||| + |||[y]|||.
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 29 1441/1461
≤ lim sup kφi j ′′ (x)k lim sup kφj j ′′ (y)k
j ′′ i j ′′ j
= |||[x]||| · |||[y]|||.
O limite indutivo normado de (A, φ) é então definido tomando-se o cociente de A com os vetores
em A com semi-norma ||| · ||| igual a zero. Nesse novo espaço ||| · k|| induz uma norma que também
denotaremos por ||| · |||.
O limite indutivo de Banach, ou simplesmente limite indutivo é definido tomando-se o completa-
mento do limite indutivo normado de (A, φ) na métrica definida pela norma ||| · |||. É evidente pela
construção que a álgebra assim obtida, que denotaremos por A∞ , é uma álgebra de Banach.
Seja Ai , i ∈ I, uma famı́lia de álgebras C∗ . Uma álgebra C∗ A é dita ser um limite indutivo das
álgebras Ai se existirem morfismos de álgebra C∗ fi : Ai → A para todo i ∈ I tais que ∪i∈I Ai seja
denso em norma em A.
Vamos no próximo item mostrar uma situação geral na qual o limite indutivo de uma famı́lia de
álgebras pode ser construı́do.
Vamos considerar agora o caso em que as álgebras Ai sejam todas álgebras C∗ e que os morfismos φij
sejam *-morfismos, ou seja, tais que para todo i, j ∈ Λ, i j, e todo a ∈ Ai tenhamos φij (a∗ ) = φij (a)∗ .
Naturalmente que
kφij (a∗ a)kj = kφij (a∗ )φij (a)kj = kφij (a)∗ φij (a)kj = kφij (a)k2j
Isso mostrou que a semi-norma ||| · ||| também satisfaz a propriedade C∗ e que o limite indutivo de
Banach de um sistema indutivo C∗ é também uma álgebra C∗ , que denotaremos por A∞ .
Vamos agora construir o sistema de morfismos fi de álgebra C∗ mencionado. Seja, para cada i ∈ Λ,
fi : Ai → A∞ , dado por Ai ∋ x 7→ [x] ∈ A∞ . Vamos verificar que, para cada i ∈ Λ, fi é de fato um
morfismo de álgebra C∗ . De fato, para todo x, y ∈ Ai temos fi (x+y) = [x+y] = [x]+[y] = fi (x)+fi (y)
(por que? Justifique a segunda igualdade) e fi (xy) = [xy] = [x][y] = fi (x)fi (y) (por que? Justifique
a segunda igualdade). Fora isso, como já vimos, fi (x∗ ) = [x∗ ] = [x]∗ = fi (x)∗ . Notemos também que,
por construção, ∪i∈Λ (Ai ) é denso em A∞ e assim A∞ é um limite indutivo C∗ da famı́lia Ai , i ∈ Λ.
Referências Bibliográficas
A lista bibliográfica abaixo contém livros-texto onde parte do material contido nestas notas também
pode ser encontrado e outros textos cuja leitura é igualmente recomendada.
[1] R. P. Agarwal e V. Lakshmikantham. Uniqueness and Nonuniqueness Criteria for Ordinary Diffe-
rential Equations. World Scientific (1993).
[2] Martin Aigner and Günter M. Ziegler. Proofs from THE BOOK. Springer Verlag (2001). Edição
brasileira: As Provas estão n’O LIVRO. Editora Edgard Blücher Ltda. (2002).
[3] L. H. Alves Monteiro. Sistemas Dinâmicos, (2002). Ed. Livraria da Fı́sica.
[4] Huzihiro Araki. Mathematical Theory of Quantum Fields. Oxford Science Publications. (1999).
[5] G. Arfken. Mathematical Methods for Physicists. Academic Press Inc. (1970).
[6] V. I. Arnold. Equações Diferenciais Ordinárias. Editora Mir. (1985).
[7] V. I. Arnold. Mathematical Methods of Classical Mechanics. Second Edition. Springer Verlag. (1989).
Versão em português: Métodos Matemáticos da Mecânica Clássica. Ed. Mir, Moscou (1987).
[8] E. Artin. The Gamma Function. Ed. Holt, Rinehart and Winston, New York (1964).
[9] W. B. Arveson. An Invitation to C ∗ -Algebras.
[10] Heinz Bauer. Maß- und Integrationstheorie. Ed. Walter de Gruyter. Berlin, New York. (1992).
[11] G. Birkhoff and G. C. Rota. Differential Equations.
[12] G. W. Bluman and S. Kumei. Symmetries and Differential Equations. Springer Verlag (1989).
[13] R. P. Boas Jr. Entire Functions. Academis Press. New Yourk. (1954).
[14] H. Bohr. Collected Mathematical Works. In Three Volumes. Dansk Matematisk Forening. Cope-
nhagen. (1952).
[15] W. E. Boyce and R. C. DiPrima. Elementary Differential Equations and Boundary Value Problems.
John Wiley and Sons. New York. (1986).
[16] Carmen Lys Ribeiro Braga. Notas de Fı́sica-Matemática: Equações Diferenciais, Funções de Green
e Distribuições. Editores: Walter F. Wreszinski, José F. Perez, Domingos H. U. Marchetti e João
Carlos Alves Barata. Ed. Livraria da Fı́sica, São Paulo. 1a edição, (2006).
1443
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 29 1444/1461
[17] O. Bratteli and D. W. Robinson. Operator Algebras and Quantum Statistical Mechanics I. Springer
Verlag. (1979).
[18] O. Bratteli and D. W. Robinson. Operator Algebras and Quantum Statistical Mechanics II. Springer
Verlag. (1979).
[19] F. Brauer and C. Castillo-Chávez. Mathematical Models in Population Biology and Epidemiology.
[21] Mauro S. D. Cattani. Elementos de Mecânica de Fluidos. Edgard Blücher LTDA, (1989).
[27] C. Corduneanu. Almost Periodic Functions. Interscience Publishers - John Wiley & Sons (1968).
[28] R. Courant and F. John. Introduction to Calculus and Analysis. Vol. I Springer Verlag, Berlin,
(2000).
[29] R. Courant and F. John. Introduction to Calculus and Analysis. Vol. II Springer Verlag, Berlin,
(2000).
[30] R. Courant and D. Hilbert. Methods of Mathematical Physics. Vol. I John Wiley & Sons (1989).
[31] R. Courant and D. Hilbert. Methods of Mathematical Physics. Vol. II John Wiley & Sons (1989).
[32] Richard Courant e Herbert Robbins. O que é Matemática. Editora Ciência Moderna.
[34] Philip J. Davis. Interpolation & Approximation. Dover Publications Inc. (1975).
[36] D. G. de Figueiredo. Análise de Fourier e equações diferenciais parciais. Coleção Euclides. IMPA.
[40] K. J. Falconer The Geometry of Fractal Sets. Cambridge Univ. Press. (1985).
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 29 1445/1461
[44] J. P. Fernandez. Medida e Integração. Projeto Euclides. IMPA, CNPq. (1976). Livros Técnicos e
Cientı́ficos, Editora.
[47] L. Garding. Encontros com a Matemática. Ed. Universidade de Brası́lia. 2a. Edição (1997).
[49] I. M. Gelfand, R. A. Minlos and Z. Ya. Shapiro. Representations of the rotation and Lorentz groups
and their applications.
[51] J. Glimm and A. Jaffe. Quantum Physics. A Functional Integral Point of View. Second Edition.
Springer-Verlag. (1987).
[53] Ronald L. Graham, Donald E. Knuth and Oren Patashnik. Concrete Mathematics - A Foundation
for Computer Science. Addison-Wesley Publishing Company. (1994).
[54] R. Haag. Local Quantum Physics. Second edition. Berlin Heidelberg: Springer Verlag (1996).
[58] G. H. Hardy and E. M. Wright. An Introduction to the Theory of Numbers. Oxford Univ. Press.
[59] G. H. Hardy. Divergent Series.. Second Edition (textually unaltered) (1991). AMS Chelsea Pu-
blishing. American Mathematical Society, Providence, Rhode Island.
[60] S. W. Hawking and G. F. R. Ellis. The Large Scale Structure of Space-Time. Cambridge Univ.
Press. (1973).
[61] S. Helgason. Geometric Analysis on Symmetric Spaces. Mathematical Surveys and Monographs,
vol. 39. American Mathematical Society. (1991).
[67] J. Hilgert und K.-H. Neeb. Lie Gruppen und Lie Algebren.
[68] E. Hille. Ordinary Differential Equations in the Complex Domain. Dover Publications Inc. (1997).
[69] Morris W. Hirsch, Stephen Smale and Robert L. Devaney. Differential Equations, Dynamical
Systems & An Introduction to Chaos. Elsevier, Academic Press. (2004)
[70] Harry Hochstadt. The Functions of Mathematical Physics. Dover Publications Inc. (1971).
[71] Harry Hochstadt. Differential Equations. A Modern Approach. Dover Publications Inc. (1975).
[72] J. Hofbauer and K. Sigmung. The Theory of Evolution and Dynamical Systems. Cambridge Uni-
versity Press, 1988.
[73] Chain Samuel Hönig Análise Funcional e o Problema de Sturm-Liouville. Editora Edgard Blücher
e Editora da Universidade de São Paulo. (1978). (Várias edições).
[74] Lars Hörmander The Analysis of Partial Diferential Operators. Vols. 1-4 Springer Verlag (1983-
1985).
[75] E. L. Ince. Ordinary Differential Equations. Longmans Green and Co. London. (1927).
[76] Rafael Iório Júnior e Valéria de Magalhães Iório, Equações Diferenciais Parciais: Uma Introdução.
Projeto Euclides, IMPA (1988).
[78] T. Kato Perturbation Theory of Linear Operators. Springer Verlag, Berlin-Heidelberg-New York
(1976).
[80] Louis H. Kauffman. Knots and Physics. World Scientific Pub. Co. 3rd edition (2001).
[82] Konrad Knopp. Theory of Functions. Parts I and II. Dover Publications Inc. (1996).
[83] A. N. Kolmogorov and S. V. Fomin. Introductory Real Analysis. Dover Publications Inc.
[85] S. G. Krantz e H. R. Parks The Implicit Function Theorem: History, Theory and Applications.
Birkhäuser (2002).
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 29 1447/1461
[86] Erwin Kreyszig. Introductory Functional Analysis with Applications. John Wiley and Sons Inc,
(1989).
[88] L. D. Landau e E. Lifchitz. Curso de Fı́sica. Mecânica Quântica. Editora Mir, Moscou.
[89] L. D. Landau e E. Lifchitz. Mécanique des Fluides. Editora Mir, Moscou (1971).
[91] S. Lang. Complex Analysis. Graduate Texts in Mathematics. Springer-Verlag, New York (1999).
[92] N. N. Lebedev. Special Functions & their Applications. Dover Publications Inc. (1972).
[95] Elon L. Lima. Espaços Métricos. Projeto Euclides. IMPA, CNPq. (1977). Livros Técnicos e Ci-
entı́ficos, Editora.
[96] Elon L. Lima. Curso de Análise. Vol. 1. Projeto Euclides. IMPA, CNPq. (1976). Livros Técnicos
e Cientı́ficos, Editora.
[97] Elon L. Lima. Curso de Análise. Vol. 2. Projeto Euclides. IMPA, CNPq. (1981). Livros Técnicos
e Cientı́ficos, Editora.
[98] R. S. MacKay and J. D. Meiss, editors. Hamiltonian Dynamical Systems. A reprint selection.
Adam Hilger, Bristol and Philadelphia. (1987).
[99] Scott McCartney Eniac. The Triumphs and Tragedies of the World’s First Computer. Berkley
Books, New York. (1999).
[100] W. Magnus und F. Oberhettinger. Formel und Sätze für die speziellen Funktionen der mathema-
tischen Physik. Springer Verlag, (1948).
[101] G. Meinardus. Approximation von Funktionen und ihre numerische Behandlung. Springer-Verlag.
Berlin, Göttingen, Heidelberg, New York. (1964).
[102] Richard K. Miller. Non-linear Volterra Integral Equations. W. A. Benjamin, Inc. (1971).
[104] D. S. Mitrinovic, J. E. Pecaric and A M Fink. Inequalities for functions and their integrals and
derivatives Kluver (1994)
[106] Gerard J. Murphy. C∗ -Algebras and Operator Theory. Academis Press. (1990).
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 29 1448/1461
[107] Leopoldo Nachbin. Topology and Order. Van Nostrand, Princeton, (1965).
[108] M. Naimark et A. Stern. Théorie des Représentations des Groups. Editions Mir. URSS. (1979).
[110] John von Neumann. Mathematical Foundations of Quantum Mechanics. Princeton University
Press, 12a. edição (1996).
[111] H. M. Nussenzveig. Curso apresentado na 1a Escola de Verão Jorge André Swieca – Partı́culas
e Campos. (1981). Editado pela Sociedade Brasileira de Fı́sica. Edts. G. da C. Marques e R. C.
Shellard.
[112] Peter J. Olver Applications of Lie Groups to Differential Equations. Second Edition. Springer
Verlag (1993).
[113] I. G. Petrovsky. Lectures on Partial Differential Equations. Dover Publications Inc. (1991).
[116] M. Reed and B. Simon. Methods of Modern Mathematical Physics. Vol. 1: Functional Analysis.
Academic Press. New York. (1972-1979).
[117] M. Reed and B. Simon. Methods of Modern Mathematical Physics. Vol. 2: Fourier Analysis,
Self-Adjointness. Academic Press. New York. (1972-1979).
[118] M. Reed and B. Simon. Methods of Modern Mathematical Physics. Vol. 3: Scattering Theory
Academic Press. New York. (1972-1979).
[119] M. Reed and B. Simon. Methods of Modern Mathematical Physics. Vol. 4. Academic Press. New
York. (1972-1979).
[120] Reinhild Remmert Classical Topics in Complex Function Theory. Graduate Texts in Mathema-
tics. Springer-Verlag, New York (1998).
[123] W. Rudin. Real and Complex Analysis. McGraw-Hill Internatinal Editions. (1987).
[129] Günter Sharf. Quantum Gauge Theories. A True Ghost Story. John Wiley and Sons, Inc. (2001).
[130] A. Schönhage. Approximationstheorie. Walter de Gruyter & Co. Berlin. New York. (1971).
[132] B. Simon. Representations of Finite and Compact Groups. Graduate Studies in Mathematics, vol.
10. Americam Mathematical Society. (1996).
[135] Joel Smoller. Shock Waves and Reaction-Difusion Equations. Springer Verlag (1983).
[137] J. Sotomayor. Lições de equações diferenciais ordinárias. Projeto Euclides, IMPA. (1979).
[140] D’Arcy Wentworth Thompson. On Growth and Form. Dover Publications Inc. (Complete Revised
edition 1992) .
[141] A. F. Timan. Theory of Approximation of Functions of a Real Variable. Dover Publications Inc.
(1994).
[142] E. C. Titchmarsh. Theory of Functions. Oxford University Press, London and New York. (1939).
[145] N. Ya. Vilenkin. Representations of Lie Groups and Special Functions. Kluwer (1993).
[146] F. W. Warmer. Foundations of Differentiable Manifolds and Lie Groups. Springer Verlag. (1983).
[147] G. N. Watson. A Treatise on the Theory of Bessel Functions. Second Edition. Cambridge Uni-
versity Press. (1966).
[149] B. Van der Waerden. Die gruppentheoretische Methode in der Quantenmechanik. Springer Verlag,
Berlin, (1932).
[150] S. Weinberg. The Quantum Theory of Fields. Vol. I. Foundations. Cambridge Univ. Press. (1995).
[151] S. Weinberg. The Quantum Theory of Fields. Vol. II. Modern Applications. Cambridge Univ.
Press. (1996).
JCABarata. Curso de Fı́sica-Matemática Versão de 23 de maio de 2006. Capı́tulo 29 1450/1461
[152] G. B. Whitham Linear and Nonlinear Waves. John Wiley and Sons, Inc. (1974).
[156] N. You