QM PDF

Fundamentos Filosóficos da Física
Quântica
Preliminares Matemáticos
Texto em elaboração
(para uso exclusivo em sala de aula)
Departamento de Filosofia
Universidade Federal de Santa Catarina
September 16, 2009

i
c Grupo de Lógica e Fundamentos da Ciência – UFSC/CNPq

ii
Conteúdo
1 A base lógica e matemática 5

1.1 Os postulados da lógica elementar clássica . . . . . . . . . . . . . . . . . 6
1.2 Os postulados de ZFC . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.3 Dedução em ZFC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2 Noções de álgebra 15
2.1 Leis de composição e elementos notáveis . . . . . . . . . . . . . . . . . 15
2.2 Relações . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.3 Estruturas matemáticas . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.3.1 Ordem de uma estrutura . . . . . . . . . . . . . . . . . . . . . . 20
2.3.2 Digressão: a ciência da estrutura . . . . . . . . . . . . . . . . . . 21
2.4 Grupos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.4.1 Grupos de permutação . . . . . . . . . . . . . . . . . . . . . . . 24
2.5 Corpos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
3 Espaços Vetoriais 27
3.1 Combinações lineares, superposições . . . . . . . . . . . . . . . . . . . . 30
3.2 Sub-espaços vetoriais . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
3.3 Espaço gerado, base . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
3.4 Espaços vetoriais isomorfos . . . . . . . . . . . . . . . . . . . . . . . . 37
4 Produtos Internos 39
4.0.1 A condição de normalização na teoria quântica . . . . . . . . . . 43
4.1 Ortogonalidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
4.1.1 Coeficientes de Fourier . . . . . . . . . . . . . . . . . . . . . . . 46
5 Operadores Lineares 49
5.1 Representação matricial . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
5.2 Matriz de mudança de base . . . . . . . . . . . . . . . . . . . . . . . . . 53
5.3 Produto de operadores . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
iii
CONTEÚDO 1
5.3.1 O comutador . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
5.3.2 O espaço dos operadores . . . . . . . . . . . . . . . . . . . . . . 55
5.4 Funcionais Lineares . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
6 Autovetores e autovalores, diagonalização 57

6.0.1 O papel dos autovetores e dos autovalores na mecânica quântica . 59
6.1 Diagonalização . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
7 Matrizes e operadores ortogonais e unitários 61

7.0.1 Operadores de evolução e hamiltoniano . . . . . . . . . . . . . . 62
8 Somas, somas diretas e projeções 65

8.1 Resolução da identidade . . . . . . . . . . . . . . . . . . . . . . . . . . 67
8.2 A função traço . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
8.3 O valor esperado da medida de um observável . . . . . . . . . . . . . . . 69
9 Produto tensorial 71
10 Apêndice A
Matrizes e operações com matrizes 73
11 Apêndice B
Noções de cálculo diferencial 79
11.1 Um pouco de história . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
11.2 Funções . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
11.3 Limites de funções e de sequências . . . . . . . . . . . . . . . . . . . . . 83
11.3.1 Derivadas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
12 Apêndice C
Noções sobre cálculo integral 85
13 Apêndice D
Noções sobre equações diferenciais 87
2 CONTEÚDO
Prefácio
Este texto destina-se a estudantes de filosofia, matemática ou física que tenham

interesse por questões filosóficas relacionadas à física quântica. Como essas dis-
cussões têm sentido preciso unicamente à luz do formalismo matemático dessa
teoria (na verdade, de um conglomerado de teorias), nesta primeira parte daremos
atenção ao formalismo matemático unicamente, deixando a discussão filosófica
para um segundo volume, ainda que várias indicações sobre os vínculos do for-
malismo com a física sejam apontados no decorrer do texto.
Por ‘formalismo’ entenderemos aqui o que usualmente é assim denominado
nos livros de física, a saber, a formulação da teoria quântica em uma parte da
Análise Matemática denominada de teoria dos espaços de Hilbert. Teremos de-
pois que justificar porque, na verdade, pode-se erigir diferentes ‘teorias quânticas’
com base nessa estrutura. A despeito disso, falaremos de ‘teoria quântica’ ou de
‘mecânica quântica’ simplesmente, como é habitual. Questões atinentes à lógica
e à base matemática dessa teoria (uma teoria de conjuntos) serão comentadas sem
muita delonga no Capítulo 1. Como a estrutura matemática que nos interessa é a
de espaço de Hilbert, procuraremos ir o mais rapidamente possível para esse con-
ceito, o que se inicia a fazer no Capítulo 2. Resumidamente, um espaço de Hilbert
é um espaço vetorial com produto interno que é completo relativamente à norma
induzida por esse produto interno. Para entendermos bem o que isso significa, vá-
rias definições são necessárias, e procuraremos deixar o texto mais autosuficiente
possível. O leitor que tiver a paciência de seguir todas as definições e teoremas,
chegará àquele conceito sem dificuldade—pelo menos é isso o que se espera.
A bem do rigor, salientamos que estaremos operando em uma teoria de con-
juntos, que pode ser o sistema ZFC (Zermelo-Fraenkel com o Axioma da Esco-
lha). Isso significa que todos os conceitos que supusermos podem (exceto em caso
explicitado) ser descritos em tal teoria.
Aqueles alunos que não têm familiaridade com matrizes devem recorrer ao
Apêndice A sempre que necessário.
3
4 CONTEÚDO
Capítulo 1
A base lógica e matemática
A teoria matemática na qual trabalharemos, e na qual todos os conceitos neces-

sários podem ser desenvolvidos, é denominada de teoria de conjuntos Zermelo-
Fraenkel de primeira ordem, ou simplesmente ZFC. O ‘C’ refere-se ao Axioma
da Escolha, que assumiremos aqui sem comentários detalhados.
A linguagem de ZFC, denotada LZFC , é constituída pelos seguintes símbolos
primitivos:
1. Uma coleção enumerável de variáveis individuais, que denotaremos por

x, y, z, . . . possivelmente com índices. Mais à frente, usaremos outros sím-
bolos para denotar elementos específicos (números, vetores, etc.).
2. Os símbolos lógicos usuais, a saber: conectivos proposicionais ∧, ∨, →, ¬,

↔ (podemos escolher qualquer conjunto adequado de conectivos, como ¬
e → por exemplo),1 quantificadores ∀, ∃ (um deles podendo ser definido a
partir do outro), o símbolo de igualdade, ‘=’.
3. Símbolos de pontuação: parênteses e vírgula.
4. O símbolo de pertinência, ∈, entendido como um símbolo de predicado bi-

nário.
As fórmulas de LZFC são definidas por recursão, da seguinte forma: as fór-

mulas atômicas são expressões da forma x = y e x ∈ y, para x e y variáveis
individuais. Se A e B são fórmulas e se x é uma variável individual, então as ex-
pressões da forma ¬A e A → B são fórmulas; a partir dessas, podemos definir,
1
Sobre conjuntos adequados de conectivos, consultar [Mendelson 1997].
5
6 CAPÍTULO 1. A BASE LÓGICA E MATEMÁTICA
como usual, A ∧ B, A ∨ B e A ↔ B como abaixo. Finalmente, ∀xA é uma fórmula,

e as únicas fórmulas são as obtidas por uma dessas cláusulas.
Admitindo que o leitor tem alguma familiaridade com o uso de parênteses,
temos:
1. A ∧ B =def ¬(A → ¬B)
2. A ∨ B =def ¬A → B
3. A ↔ B =def (A → B) ∧ (B → A)
4. ∃xA =def ¬∀x¬A
5. x < y =def ¬(x ∈ y)
6. x , y =def ¬(x = y)
7. ∃P xA =def ∃x(P(x) ∧ A) (quantificador existencial restrito)
8. ∀P xA =def ∀x(P(x) → A) (quantificador universal restrito)
Os postulados de ZFC podem ser divididos em dois grupos, os da lógica clás-

sica de primeira ordem, ou lógica elementar clássica, e os de ZFC propriamente
ditos, que balizam o predicado ∈. ZFC pode também ser formalizada usando-se
uma lógica de ordem superior em vez da de primeira ordem, mas aqui seguiremos
o procedimento que se tornou mais comum e que é o mais usado pelos filósofos,
quando eles se referem a isso.
1.1 Os postulados da lógica elementar clássica

Tendo em vista as convenções linguísiticas e definições vistas acima, são os se-
guintes os postulados (axiomas, esquemas de axiomas e regras de inferência) da
lógica elementar clássica, sendo A, B e C fórmulas quaisquer e x uma variável
individual:
1. A → (B → A)
2. (A → (B → C)) → ((A → B) → (A → C))
3. (¬A → ¬B) → ((¬A → B) → A) (Redução ao Absurdo)

1.2. OS POSTULADOS DE ZFC 7
4. A, A → B/B (Modus Ponens)
5. ∀xA(x) → A(y),
6. ∀x(A → B(x)) → (A → ∀xB(x))
7. A/∀xA (Generalização)
8. ∀x(x = x) (Reflexividade da Identidade, ou Princípio da Identidade)
9. ∀x∀y(x = y → (A(x) → A(y)) (Substitutividade da Identidade)
Os detalhes sobre esse (e outros equivalentes) sistema podem ser vistos em

[Mendelson 1997].
1.2 Os postulados de ZFC

Os postulados específicos de ZFC serão vistos nesta seção. Daremos uma expli-
cação intuitiva de cada um deles e depois a sua descrição simbólica.
(ZFC.1) [Extensionalidade] Quaisquer que sejam os conjuntos x e y, se todos os
elementos do conjunto x são elementos do conjunto y e reciprocamente, ou seja,
se x e y têm exatamente os mesmos elementos, então x e y são o mesmo conjunto:
∀x∀y(∀z(z ∈ x ↔ z ∈ y) → x = y) (1.1)
Ou seja, um conjunto é ‘determinado’ pelos seus elementos. Observe que a re-

cíproca do teorema, qual seja, que conjuntos idênticos têm os mesmos elementos,
é conseqüência da substitutividade da igualdade vista na seção anterior.2
(ZFC.2) [Conjunto Vazio] Existe um conjunto que não tem elementos, dito con-
junto vazio:
∃x∀y(¬y ∈ x) (1.2)
Chamemos por um momento de A o conjunto postulado por este axioma. Vê-
se então que, se A0 for também conjunto que satisfaça o axioma em apreço, resulta
2
Basta tomar α(x) como sendo ∀z(z ∈ x ↔ z ∈ x); sabendo que as restrições mencionadas são
satisfeitas, resulta, pondo y no lugar do segundo x para obter α(y), que esta se torna ∀z(z ∈ x ↔
z ∈ y). Daí, lembrando que α → (> → β) equivale a α → β se > é uma tautologia, e de que de
α → β e α → γ segue α → β ∧ γ, vem o resultado, aqui citado por curiosidade.
de ZFC.1 que A = A0 . Ou seja, há um único conjunto vazio; introduz-se então,

como é usual, o símbolo ∅ para denotar este conjunto; logo, tem-se que ∀x(x < ∅).
Observa-se ainda que ZFC.1 impossibilita a existência de entidades que sejam
destituídas de elementos (átomos) que sejam distintos do conjunto vazio. Com
efeito, suponha que x é um átomo, isto é, um objeto (distinto do conjunto vazio)
que não tem elementos; então z ∈ x e z ∈ ∅ são ambos falsos, e conseqüentemente
o bicondicional z ∈ x ↔ z ∈ ∅ é verdadeiro; portanto, à luz de ZFC.1, deve-se ter
x = ∅, o que contraria a hipótese de que x é distinto do conjunto vazio.
O axioma da extensionalidade, juntamente com os axiomas da igualdade da
lógica elementar, fornecem a caracterização do conceito de igualdade na teoria de
conjuntos (e, conseqüentemente, na matemática).
(ZFC.3) [Axioma do Par] Dados x e y quaisquer, existe um conjunto que contém

x e y como elementos e somente eles:
∀x∀y∃z∀t(t ∈ z ↔ t = x ∨ t = y) (1.3)
Este conjunto é denotado {x, y}, dito par (não ordenado) de x e y. É fácil provar
(decorre do axioma da extensionalidade) que, para quaisquer x e y, {x, y} = {y, x}.
No axioma acima, nada indica que x e y não possam ser o mesmo conjunto, vindo
daí que o conjunto unitário de x é por definição o conjunto {x} =def {x, x}. Por
outro lado, pomos hx, yi =def {{x}, {x, y}} para denotar o par ordenado de x e y
(nesta ordem); esta definição é devida ao matemático russo C. Kuratowski. Há
outras maneiras de se definir o par ordenado de dois conjuntos; por exemplo,
poderíamos ter usado hx, yi =def {{∅, x}, {{∅}, y}}; qualquer que seja a definição que
se adote (a que usamos é a mais simples), o que se objetiva é que ela permita que
se possa provar o seguinte resultado, que expressa a propriedade fundamental dos
pares ordenados: para quaisquer x, y, z, w, tem-se que
hx, yi = hz, wi see x = z ∧ y = w. (1.4)
Usando-se a definição acima de par ordenado, pode-se introduzir os con-

ceitos de tripla, quádrupla, quíntupla, . . . n-upla ordenada, do seguinte modo:
hx1 , . . . , xn i =def hhx1 , . . . , xn−1 i, xn i. Ademais, usando-se o conceito de par orde-
nado, introduz-se facilmente os conceitos de relação (binária) e de função, assim
como definem-se os conceitos de função injetiva, bijetiva, sobrejetiva, de as rela-
ções de ordem, boas ordens, etc. (algumas dessas definições serão mencionadas à
frente).
Dizemos que x é subconjunto de y, e escrevemos x ⊆ y, se todo elemento de x

é também elemento de y. Em símbolos, x ⊆ y =def ∀z(z ∈ x → z ∈ y). Diz-se que
x é subconjunto próprio de y, e escreve-se x ⊂ y, se x ⊆ y ∧ x , y.
O axioma seguinte assevera que podemos formar um conjunto tomando todos
os subconjuntos de um conjunto dado, dito conjunto das partes, conjunto potência
ou conjunto dos subconjuntos do referido conjunto.
(ZFC.4) [Conjunto Potência]
∀x∃y∀z(z ∈ y ↔ z ⊆ x)
Este conjunto, que se pode provar ser único para cada x, é denotado P(x).
Importante observar uma distinção fundamental entre ∈ e ⊆, já que x ∈ P(y) ↔
x ⊆ y.
O postulado seguinte é o Esquema da Separação, também denominado de Axi-
oma dos Subconjuntos. Esse postulado foi introduzido por Zermelo, como dito
no capítulo anterior; no entanto, como visto, Zermelo não havia caracterizado de
modo preciso o significado de ‘proprietat definit’, o que foi feito por Skolem (e
por Fraenkel) alguns anos depois. Tal definição resulta essencialmente naquela de
fórmula da linguagem de ZFC.
Uma fórmula de ZFC que não contém variáveis livres é dita ser uma sen-
tença de ZFC. Uma sentença é uma asserção acerca de determinados conjuntos
(na verdade, acerca dos objetos do domínio, que podem não ser ‘conjuntos’), a
qual podemos (pelo menos em princípio) saber se é verdadeira ou falsa. De uma
fórmula que contenha variáveis livres, pelo contrário, não podemos asseverar nada
acerca de sua verdade ou falsidade, uma vez que não sabemos a quais conjuntos
as variáveis livres estão se referindo. Por exemplo, falando intuitivamente, dei-
xemos x percorrer o conjunto dos números naturais; então, não podemos saber se
x ∈ {1, 2, 3} é verdadeira ou falsa, pois tal asserção depende do que seja x; mas
podemos seguramente afirmar que ∀x(x ∈ {1, 2, 3}) é falsa. No entanto, se atri-
buímos uma interpretação para as variáveis livres de uma fórmula, ela ganha um
significado, e podemos indagar acerca de sua veracidade para aquela atribuição.
Uma fórmula α que contenha uma só variável livre x é dita ser uma propriedade
dos objetos que constituem o domínio de x. Em geral, uma propriedade nesse
sentido é representada pela notação P(x), F(x), ou outra letra conveniente.
Vem então o postulado seguinte (a palavra ‘esquema’ reflete o fato de que na
realidade a expressão abaixo encerra uma infinidade de axiomas, um para cada
fórmula F(x) que se considere):
(ZFC.5) [Esquema da Separação] Seja F(x) uma fórmula de ZF (uma ‘pro-

priedade’) na qual a variável y não figure livre. Então, são axiomas cada uma das
expressões obtidas do esquema seguinte, mediante F(x)’s distintas:
∀z∃y∀x(x ∈ y ↔ x ∈ z ∧ F(x)) (1.5)

O conjunto y é em geral escrito {x ∈ z : F(x)}, que obviamente é um subcon-
junto de z (daí a denominação de Axioma dos Subconjuntos dada ao postulado).
Intuitivamente, o esquema acima diz que, dado um conjunto z, podemos obter
um subconjunto de z tomando aqueles dentre os seus elementos que têm uma
determinada propriedade, expressa por uma fórmula F(x) de ZF. Por exemplo,
uma vez obtido o conjunto dos números naturais, podemos obter o subconjunto
dos números primos, ‘separando’ aqueles naturais x primos por intermédio da
propriedade (que pode ser escrita adequadamente por uma fórmula de ZFC) ‘x é
um número primo’.
Observa-se que em ZFC não se pode considerar como lícitas quaisquer cole-
ções, como na teoria intuitiva, que sejam caracterizadas por uma fórmula F(x), e
que representávamos por {x : F(x)}, devido aos já conhecidos paradoxos. Cole-
ções da forma {x : F(x)} são chamadas de classes. O postulado acima limita as
classes que podem ser consideradas como conjuntos de ZFC. Este é o ‘princípio da
limitação de tamanho’ de Zermelo, que impõe que podemos admitir unicamente
conjuntos de objetos que tenham uma certa propriedade, desde que tais objetos
façam parte de algum conjunto já especificado pela teoria, como já discutimos no
capítulo anterior.
Insistindo um pouco: de maneira geral, vamos chamar de classes às coleções
de objetos que satisfazem uma condição F(x) dada. Como vimos, se tomarmos
como lícita a existência arbitrária de tais classes, podemos incorrer em contra-
dições, como aquela originada quando se toma F(x) para ser x < x (o que dá o
Paradoxo de Russell), uma vez que não se formou ‘antes’ (no sentido do pará-
grafo anterior) o conjunto de onde tais x deveriam ser ‘separados’ pelo axioma
acima. Há portanto o problema de se saber quais classes realmente representam
conjuntos; a resposta, como vimos insistindo, depende dos axiomas que se adota.
Observa-se então que o Esquema da Separação não atribui a toda e qualquer
classe o status de conjunto. Alguns ‘conjuntos’ são obtidos, pelo Esquema da
Separação, a partir de um conjunto já dado, ‘separando-se’ dele um subconjunto
de objetos que tenham alguma propriedade especificada. As demais maneiras de
se obter os conjuntos de ZFC vêm dos demais axiomas. O Esquema da Separação
evita que classes ‘muito grandes’, formadas por objetos tais que não se possa
especificar de qual conjunto tenham vindo, não são lícitas em ZFC. Deste modo,
coleções como a ‘coleção de todos os grupos’, ou ‘de todos os conjuntos unitários’
não são conjuntos de ZFC.
Seja α(x, y) uma fórmula de ZFC na qual x e y são variáveis livres. Dizemos
então que α(x, y) é uma condição x-funcional se, para cada x, existe um único y tal
que α(x, y) seja verdadeira. Isto se escreve assim: ∀x∃!yα(x, y).3 Nesta situação,
um novo axioma, denominado de Esquema da Susbstituição, vai dizer que dado
um conjunto qualquer z, existe um conjunto w cujos elementos são precisamente
aqueles t’s para os quais existe s ∈ z tal que α(s, t) é verdadeira. Em outras
palavras, a coleção das imagens dos s’s do conjunto z pela ‘função’ α é também
um conjunto. Postulamos então que:
(ZFC.6) [Esquema da Substituição]
∀x∃!yα(x, y) → ∀z∃w∀t(t ∈ w ↔ ∃s(s ∈ z ∧ α(s, t)) (1.6)

sendo z, w, t, s variáveis distintas entre si e distintas de todas as demais variáveis
livres de α, e sendo que w não ocorre em α.
Pode-se provar facilmente que os axiomas do conjunto potência e da substi-
tuição implicam o axioma do par. Com efeito, dados a e b, considere a fórmula
α(s, t, a, b) definida por (s = ∅ ∧ t = a) ∨ (s , ∅ ∧ t = b), que é s-funcional, como
é fácil verificar. Apliquemos o esquema da substituição ao conjunto z = PP(∅),
que é obtido por intermédio do axioma do conjunto potência.4 Vem então, para
tal z:
∃w∀t(t ∈ w ↔ ∃s(s ∈ z ∧ ((s = ∅ ∧ t = a) ∨ (s , ∅ ∧ t = b))),
ou seja, w é o conjunto que tem unicamente a e b como elementos.
Ademais, tem-se que o Esquema da Substituição implica o Esquema da Se-
paração. A prova também é simples: façamos α(x, y) ser x = y ∧ β(x), sendo β(x)
uma fórmula na qual z não ocorre livre. O antecedente do esquema da substituição
é então verdadeiro, de sorte que o seu conseqüente torna-se
∀z∃w∀t(t ∈ w ↔ ∃s(s ∈ z ∧ s = t ∧ β(s))),

3
O leitor deve lembrar que ∃!xα(x) (existe um único x tal que α) abrevia ∃xα(x) ∧ ∀x∀y(α(x) ∧
α(y) → y = x), sendo y variável que não ocorre em α(x).
4
Note que o conjunto vazio pode ser derivado usando-se o esquema da separação, e este por
sua vez é implicado pelo esquema sa substituição, como veremos na seqüência, de sorte que não
há outros axiomas específicos envolvidos na prova deste teorema além dos dois referidos no seu
enunciado.
e portanto o conjunto w é o conjunto cujos elementos são os elementos de t que

são precisamente os s’s de z que satisfazem a propriedade β.
Informalmente, podemos descrever o ‘efeito’ do esquema da substituição di-
zendo que a imagem de um conjunto por uma função (caracterizada pela condição
x-funcional do enunciado do postulado) é também um conjunto. Esse fato parece
óbvio do ponto de vista intuitivo, mas não pode ser derivado dos demais axiomas
de ZFC. A importância do esquema da substituição, no entanto, reside na sua uti-
lidade para partes ‘mais avançadas’ da teoria dos conjuntos, como na teoria dos
ordinais. Para os propósitos mais elementares, o esquema da separação se afigura
satisfatório.
(ZFC.7) [Conjunto União] Este axioma afirma que, dado um conjunto x, existe
S
o conjunto união de x, denotado x, isto é, o conjunto cujos elementos são todos
os conjuntos que pertencem a pelo menos um dos elementos de x. Em símbolos,
∀x∃y∀z(z ∈ y ↔ ∃t(z ∈ t ∧ t ∈ x)) (1.7)

S
O conjunto união de x é denotado x. Resulta que
[
z∈ x ↔ ∃t(t ∈ x ∧ z ∈ t).
S
Apesar do símbolo estar sendo usado para denotar um certo conjunto, o
conjunto união de um certo conjunto de conjuntos, é conveniente usar-se uma
notação particular para denotar o caso especial desse conjunto de conjuntos ter
S
apenas dois elementos. Assim, se t e u são os únicos elementos de x, então x é
denotado por t ∪ u, que se denomina de união de t e u. Em outros termos, a união
de dois conjuntos pode ser então definida (a existência e unicidade desse conjunto
é garantida pelos axiomas precedentes): u ∪ v =def {u, v}.
S
Munidos dos axiomas acima, estamos agora em condições de provar a exis-
tência de conjuntos com três, quatro, etc. elementos. Com efeito, {x, y, z} =def
{x, y} ∪ {z}, ao passo que {x, y, z, t} =def {x, y, z} ∪ {t}, e assim por diante.
Usando o Esquema da Separação, podemos agora obter a interseção de dois
conjuntos x e y como sendo o conjunto x∩y =def {z ∈ x∪y : z ∈ x∧z ∈ y}. Note que
‘separamos’, de um conjunto previamente obtido (a saber, x ∪ y), a coleção cujos
elementos são aqueles conjuntos que pertencem simultaneamente a x e a y com
a ‘propriedade’ P(z) definida por z ∈ x ∧ z ∈ y. Pelo Esquema da Separação, tal
coleção é um conjunto. A sua unicidade decorre do Axioma da Extensionalidade.
Na definição acima, fizemos uso da notação que emprega ‘{ : }’ (dito abs-
trator), que por sinal já havia sido empregada antes. Usando-a, podemos ca-
1.3. DEDUÇÃO EM ZFC 13
T
racterizar a união de x (assim como sua interseção x) dos seguinte modo:
x =def {z : ∃t(t ∈ x ∧ z ∈ t)}, e também x =def {z : ∀t(t ∈ x → z ∈ t)},
S T
o que nos permite provar todas as propriedades conhecidas envolvendo esses con-
ceitos, as quais podem ser vistas nos livros usuais.
ZFC.8 [O Axioma da Regularidade] Dado um conjunto x, existe um elemento de
x que não tem elementos em comum com x.
∀x(x , ∅ → ∃y(y ∈ x ∧ x ∩ y = ∅)).
ZFC.9 [O Axioma do Infinito] Este axioma assegura a existência de um conjunto

com infinitos elementos.
∃x(∅ ∈ x ∧ ∀y(y ∈ x → y ∪ {y} ∈ x)).

O último axioma é o mais polêmico deles, mas foi constatado ser independente
dos demais em 1963. Isso signifa que o Axioma da Escolha não pode nem ser
demonstrado a partir dos demais (supostos consistentes) e nem a sua negação
pode ser demonstrada.
ZFC.10 [Axioma da Escolha] Dado um conjunto x cujos elementos são tembém
conjuntos não vazios e dois a dois disjuntos, existe um conjunto que contém como
elementos exatemente um elemento de cada um desses conjuntos de x, ou seja,
∀x(∀y∀z((y ∈ x ∧ z ∈ x ∧ y , z) → (y , ∅
∧ y ∩ z = ∅)) → ∃y∀z(z ∈ x → ∃w(y ∩ z = {w}))).
1.3 Dedução em ZFC

A noção de dedução em ZFC é a seguinte. Dizemos que uma fórmula A é dedu-
tível de um conjunto Γ de fórmulas, ou das fórmulas em Γ, e representamos este
fato por
Γ ` A,
se existe uma sequência finita de fórmulas de LZFC , B1 , B2 , . . . , Bn , tal que: (1) Bn
é A, e (2) cada Bi , 1 ≤ i ≤ n−1 é um axioma ou pertence a Γ, ou é consequência de
fórmulas precedentes da sequência por Modus Ponens ou Generalização. Neste
caso, dizemos que demonstramos A a partir das premissas ou hipóteses em Γ, e
enunciamos isso usando, como é comum em matemática, a palavra ‘Teorema’

para estabelecer o resultado.
Se Γ = ∅, dizemos que A é um teorema formal de ZFC, derivado de seus
postulados sem nenhuma hipótese adicional. Na linguagem matemática usual,
não apresentamos as demonstrações seguindo essa definição, mas meramente um
argumento na linguagem natural, suplementada por símbologia da linguagem de
ZFC, que permite conduzir o leitor a ‘aceitar’ a demonstração como lícita. Uma
tal demonstração, no entanto, pode ser reduzida ao esquema da definição prece-
dente, ainda que isso custasse muito e fosse impraticável (o que não nos exime de
conhecer o que vem a ser uma demonstração do ponto de vista formal).
Em ZFC, a noção de verdade é intuitiva, e identificada com demonstração.
Assim, as ‘verdades’ de ZFC são os seus teoremas.
Capítulo 2
Noções de álgebra
Em tudo o que se segue, supomos que trabalhamos na teoria ZFC apresentada

no capítulo precedente. Iniciaremos com algumas noções básicas de álgebra, que
podem ser introduzidas em ZFC, no sentido de que todos os conjuntos supostos
nas definições a seguir ‘existem’ por força dos axiomas dessa teoria.
2.1 Leis de composição e elementos notáveis

Definição 2.1.1 (Operação Binária) Seja A um conjunto não vazio. Uma opera-
ção binária sobre A é uma função (ou aplicação) ∗ : A × A 7→ A.
Isso é simplesmente um modo ‘matemático’ de dizer que estamos tomando

dois elementos de A não necessariamente distintos, e ‘operando com eles’, ob-
tendo assim um (eventualmente) terceiro elemento ainda em A. A imagem do par
(a, b) pela função ∗ é denotado a ∗ b. Assim, ∗ é na verdade um conjunto de triplas
ordenadas da forma (a, b, c), com a, b ∈ A e c = a ∗ b. Uma operação binária so-
bre um conjunto A é por vezes denominada de lei de composição interna sobre A
(‘interna’ porque o resultado da operação entre elementos de A permanece sendo
um elemento de A).
Por exemplo, a adição de números reais é uma operação binária sobre o con-
junto R dos números reais, e a operação de composição de funções é uma operação
binária sobre o conjunto F (R) das funções reais de variável real, a adição de ma-
trizes de ordem m × n é uma operação binária sobre o conjunto das matrizes dessa
ordem, e assim por diante.
15
16 CAPÍTULO 2. NOÇÕES DE ÁLGEBRA
Exercício 2.1.1 Procure caracterizar cada uma das operações indicadas no pa-
rágrafo anterior como funções, de acordo com a definição. Por exemplo, a adição
de números reais é uma função de R × R em R que associa, a cada par ha, bi de
números reais, um número real a + b, dito soma de a e b.
Definição 2.1.2 (Operações associativa, comutativa, distributiva) Sejam ∗ e

operações binárias sobre A. Então:
1. ∗ é associativa se, para todos a, b, c ∈ A, temos que a ∗ (b ∗ c) = (a ∗ b) ∗ c.
2. ∗ é comutativa se, para todos a, b ∈ A, temos que a ∗ b = b ∗ a.
3. ∗ é distributiva relativamente a se, para todos a, b, c ∈ A, temos que
(a) a ∗ (b c) = (a ∗ b) (a ∗ c) (distributividade à direita)

(b) (b c) ∗ a = (b ∗ a) (c ∗ a) (distributividade à esquerda).
Evidentemente, se ∗ é comutativa, sendo distributiva à esquerda (direita) rela-

tivamente a , ela será distributiva relativamente a . Por exemplo a multiplicação
de números reais é distributiva em relação à adição de reais.
Exercício 2.1.2 (a) Mostre que a adição e a multiplicação de números reais são
associativas e comutativas, e que a multiplicação é distributiva relativamente à
adição. (b) Mostre que a composição de funções é associativa, mas não comu-
tativa, o mesmo se dando com a adição e a multiplicação de matrizes de mesma
ordem.
Definição 2.1.3 (Elemento Neutro) Um elemento e ∈ A é um elemento neutro

para ∗ se e ∗ a = a ∗ e = a para todo a ∈ A.
Teorema 2.1.1 Se ∗ admite elemento neutro, ele é único.

Demonstração: Suponha que e0 e e00 sejam elementos neutros para ∗. Então e0 =
e0 ∗ e00 = e00 .
Por exemplo, 0 é elemento neutro para a adição de reais, e a função identi-

dade o elemento neutro para a composição de funções. Qual é o elemento neutro
relativamente à adição de matrizes?
Exercício 2.1.3 A multiplicação de reais admite elemento neutro? E a operação

de multiplicação de matrizes de ordem n?
2.1. LEIS DE COMPOSIÇÃO E ELEMENTOS NOTÁVEIS 17
Observação 1 Ainda que não insistamos neste ponto aqui, é conveniente ter-se
em mente que uma operação binária pode ter unicamente elemento neutro em um
dos lados, e neste caso via de regra não será único. Você pode dar exemplos?
Qual a codição necessária e suficiente para que um elemento neutro lateral seja
elemento neutro propriamente dito?
Exercício 2.1.4 Seja ∗ a operação binária sobre R definida por x∗y = x+y 2
(média
aritmética entre x e y). Verifique se ∗ é associativa, comutativa, a admite elemento
neutro.
Exercício 2.1.5 Operações binárias importantes são as seguintes, que você deve
procurar detalhar, definindo-as, verificando quais são associativsa, comutativas,
admitem elemento neutro: (1) adição de vetores; (2) produto vetorial de vetores;
(3) união de conjuntos; (4) interseção de conjuntos; (5) composição de funções;
(6) adição de matrizes.
Definição 2.1.4 (Elemento Inverso) Seja ∗ operação binária sobre A e a ∈ A

que admita elemento neutro e. Um elemento a0 ∈ A é dito ser elemento inverso à
esquerda de a relativamente a ∗ se a0 ∗ a = e. Um elemento a00 ∈ A é dito elemento
inverso à direita de a relativamente a ∗, se a ∗ a00 = e. Um elemento e a ∈ Aé
elemento inverso de a se ea ∗ a = a ∗ea = e. Neste caso, diz-se que a é inversível.
Independentemente da natureza da operação ∗, costuma-se representar o inverso
de a, quando existe, por a−1
Dito de forma bem coloquial, contrariamente ao que ocorre com o elemento

neutro, que é um determinado elemento que, composto com qualquer outro dá
como resultado esse outro, o elemento inverso é particular a cada elemento consi-
derado: cada um tem o seu inverso (no caso de existirem).
Teorema 2.1.2 Se ∗ é uma operação associativa, então cada elemento admite

não mais do que um inverso.
Demonstração: Suponha que a0 e a00 sejam inversos de a. (Repare que se são
inversos, o são tanto à direita quanto à esquerda.) Então temos: a0 = a0 ∗ e =
a0 ∗ (a ∗ a00 ) = (a0 ∗ a) ∗ a00 = e ∗ a00 = a00 .
Observação 2 Fato semelhante ao indicado na Observação (1) aplica-se no caso

do elemento inverso. Você pode dar os detalhes?
Definição 2.1.5 (Operação n-ária) Uma operação n-ária (ou de peso n) sobre
um conjunto A é uma aplicação de An (o produto cartesiano de A por si mesmo n
vezes) em A.
Assim, uma operação n-ária sobre A associa um elemento de A a cada n-upla
hx1 , . . . , xn i de elementos de A.
Definição 2.1.6 (Lei de composição externa) Sejam A e B dois conjuntos. Uma
lei de composição externa à esquerda sobre B é uma aplicação δ : A × B ,→ B.
Uma lei de composição externa à direita sobre B é uma aplicação η : B × A ,→ B.
Exemplo 2.1.1 Seja B o conjunto dos vetores do plano e A = R. Então a opera-
ção de multiplicação de um vetor (à esquerda) por um número real é uma lei de
composição externa (à esquerda) sobre B. Analogamente podemos considerar a
operação à direita.
Exemplo 2.1.2 Seja Rn×n o conjunto das matrizes reais de ordem n. A operação
definida por k.A = [k.ai j ], para cada matriz A e cada número real k, é uma lei de
composição externa sobre o referido conjunto de matrizes. (sobre essa notação,
ver mais abaixo).
Nos exemplos que estaremos interessados, via de regra, quando houver um
elemento neutro, ele será neutro tanto à direita quanto à esquerda, o mesmo se
dando com sa leis externas, motivo pelo qual não mais insistiremos nessas dis-
tinções, falando simplesmente de elemento neutro e de inverso sem quaisquer
qualificações. Por exemplo, será útil escrever às vezes αk em vez de kα, sendo α
um vetor e k um número real ou complexo.
2.2 Relações
Definição 2.2.1 (Relações n-árias) Seja A um conjunto. Uma relação n-ária so-
bre A é um subconjunto de An .
Se n = 2, falamos de relações binárias. Assim, uma relação n-ária sobre A é
um conjunto de n-uplas ordenadas de elementos de A.
Exemplo 2.2.1 A relação ‘menor ou igual’ sobre números reais é uma relação
binária sobre R, representada por ≤. Sempre que um par ha, bi pertence a essa
relação, escrevemos
a ≤ b.
2.3. ESTRUTURAS MATEMÁTICAS 19
Perceba a diferença entre uma relação binária e uma operação binária. Essas
‘operam’ com os elementos de A, originando novos elementos, enquanto que as
relações simplesmente relacionam os elementos entre si. Um exemplo de uma
relação ternária entre números reais é a relação ‘x está entre y e z’.
Fato importante é que toda operação n-ária pode ser vista como uma relação
de ordem n + 1, como evidenciaremos mais abaixo.
2.3 Estruturas matemáticas

Mais à frente, veremos estruturas matemáticas mais gerais do que as apresentadas
neste seção e que são de importância para o desenvolvimento das teorias físicas.
Por enquanto, aceitaremos que, informalmente, uma estrutura de primeira ordem
é constituída por um ou mais conjuntos e por operações e relações sobre os ele-
mentos desses conjuntos, bem como por eventuais elementos distinguidos que são
selecionados desses conjuntos para cumprirem papeis especiais. Por exemplo, te-
remos uma estrutura se considerarmos o conjunto dos números reais, munido das
operações de adição e de multiplicação entre seus elementos e dos elementos dis-
tinguidos 0 e 1, que podemos representar assim:
< = hR, +, ·, 0, 1i. (2.1)

Mais abaixo faremos uma distinção entre espécies de estruturas e estuturas
propriamente ditas. Vejamos por enquanto algumas das principais estruturas de
interesse.
De maneira geral, podemos representar uma estrutura da seguinte forma
A = hD, {ci }i∈I , {R j } j∈J , { fk }k∈K i,
onde os ci são elementos distinguidos do domínio D, as R j são relações sobre D

(subconjuntos de Dn ) e as fk são funções (ou operações) em D (aplicações de Dn
em D). É possível considerar tanto os elementos distinguidos quanto as operações
como relações particulares (os elementos distinguidos seriam relações de peso 0,
e as funções n-árias seriam relações de peso n + 1). Dessa forma, uma estrutura
reduz-se a algo da forma
A = hD, {R j } j∈J i.
Abaixo veremos alguns exemplos, como grupos, corpos, espaços vetoriais,
etc.
Definição 2.3.1 (Isomorfismo de estruturas) Duas estruturas A = hD, {R j } j∈J i

e B = hD0 , {R0j } j∈J i são isomorfas se existe uma bijeção h : D 7→ D0 tal que
R j (x1 , . . . , xn ) ↔ R0j (h(x1 ), . . . , h(xn )) para toda relação R j . Esta definição pode
ser estendida para estruturas de ordem superior.
O conceito de isomorfismo entre estruturas pode ser estendido para estruturas

de ordem superior, no sentido da seção seguinte.
2.3.1 Ordem de uma estrutura

Conceito importante é o de ordem de uma estrutura, que aqui veremos de modo
não muito rigoroso. Vimos acima que uma estrutura possui um domínio, que é um
conjunto não vazio D. Se as relações da estrutura tiverem como ‘relacionados’
unicamente elementos de D, a estrutura diz-se de primeira ordem. Por exemplo,
grupos são estruturas de primeira ordem, como se pode constatar com uma simples
inspeção na seção seguinte.
No entanto, há estruturas de ordem superior. A propósito, todas as estruturas
relevantes em ciência são estruturas de ordem superior. Um exemplo típico é a
estrutura de espaço topológico. Um espaço topológico é um par T = hD, τi onde
D é um conjunto não vazio (o domínio) e τ é uma coleçc̃ao de subconjuntos de
D, ditos abertos de D. Apenas para seu conhecimento, a definição se completa
exigindo-se que sejam satisfeitos os seguintes axiomas:
1. ∅ e D pertencem a τ
2. Se A, B ∈ τ, então A ∩ B ∈ τ
3. Se A1 , A2 , . . . é uma coleção enumerável1 de elementos de τ, então A1 ∪ A2 ∪

. . . pertence a τ.
Diz-se que o conjunto τ é uma topologia em D (ou sobre D). Podemos entender τ
como uma relação entre subconjuntos de D; xτy se e somente se x e y pertencem
à topologia τ. Neste sentido, a relação da estrutura não relaciona elementos do
domínio; os relata são subconjuntos do domínio. Uma tal estrutura é de segunda
ordem.
1
Um conjunto é enumerável se existe uma bijeção entre ele e o conjunto dos números naturais.
Alguns autores chamam tais conjuntos de denumeráveis. Um conjunto é contável se for finito ou
enumerável.
2.3. ESTRUTURAS MATEMÁTICAS 21
De forma análoga, pode-se ter relações que envolvam coleções de coleções

de elementos de D, e assim por diante, de forma a termos estruturas de ‘ordens’
cada vez mais altas. As estruturas relevantes em ciência, por exemplo em física,
vão envolver coisas como variedades diferenciáveis, certas álgebras, etc., que têm
como ‘relata’ entidades de ordem superior aos elementos do domínio (ou dos
domínios) considerado.
Os filósofos em geral falam de estruturas em ciência como se elas fossem estu-
turas de primeira ordem, e se reportam à Teoria dos Modelos da lógica elementar
(como em [Shoenfield 1967, cap.5], [Chang & Keisler 1980]) para a sua funda-
mentação teórica. Isso evidentemente constitui erro, pois como vimos as estrutu-
ras importantes em ciência não são elementares, e o problema é que não dispomos
de uma teoria adequada de tais estruturas. Neste particular, o que se necessita
é uma teoria generalizada das estruturas matemáticas, o que Newton da Costa
chama de Teoria de Galois Generalizada [da Costa 2005], [da Costa & Rodrigues 2007].
2.3.2 Digressão: a ciência da estrutura

A noção de estrutura é central em matemática e na sistematização das discipli-
nas científicas. Há quem defenda a idéia de que a matemática é a disciplina que
se ocupa do estudo de estruturas, estas concebidas de um certo modo (como as
acima). Em particular, vale lembrar a posição de um célebre grupo de matemáticos
(principalmente franceses) que teve (e tem ainda) muita influência na comunidade
matemática a partir dos nos 1930, que adota um psudônimo: Nicolas Bourbaki.
Sua obra é vasta e relevante. No que concerne as estruturas, Bourbaki caracteri-
zou como fundamentais as estruturas de três tipos básicos (que ele denominava de
estruturas mães): as algébricas, as de ordem e as topológicas. Qualquer estrutura
matemática é desse tipo ou uma adequada combinação de estruturas desse tipo,
ainda que ele tenha deixado em aberta a questão de se desenvolvimentos ulterio-
res da matemática exigiriam a ampliação do quadro dessas estruturas básicas. Por
exemplo, o corpo dos reais é um corpo (estrutura algébrica) ordenado (estrutura
de ordem) completo (no sentido topológico, cf. definição dada na página 42).
O que é relevante é que, de fato, o matemático lida com estruturas, como
grupo, corpo, espaço vetorial, variedade diferenciável, geometria euclidiana, etc..
Da mesma forma, o físico trabalha com estruturas como a mecânica clássica de
partículas, a eletrodinâmica de Maxwell, a mecânica quântica não relativista, a
teoria quântica de campos, etc. Poucas delas se enquadram na Teoria dos Modelos
usual. Abaixo, veremos algumas dessas estruturas.
2.4 Grupos
O conceito de grupo, surgido de questões teóricas em matemática, adentrou a
física, tendo se tornado fundamental para a fícisa presente. Mais à frente, veremos
alguns exemplos de seu uso nessa disciplina.
Definição 2.4.1 (Grupo) Um grupo é uma estrutura G = hG, ∗i onde G é um
conjunto não vazio, ∗ é uma operação binária sobre G satisfazendo as condições
seguintes:
1. ∗ é associativa)
2. ∗ admite elemento neutro e ∈ G
3. Todo elemento a ∈ G admite um inverso a0 ∈ G.
Se a operação ∗ for ainda comutativa, o grupo é comutativo ou abeliano (em
homenagem ao matemático norueguês Niels Henrik Abel, 1802-1829).
Em geral, quando nos referimos ao grupo G, mencionamos unicamente o con-
junto G (dito domínio do grupo), dizendo (por abuso de linguagem) que G é um
grupo com a operação ∗. Isso será feito para as demais estruturas introduzidas
abaixo, em conformidade com a prática matemática usual.
Por exemplo, e usando a notação mencionada, R é um grupo quando munido
da operação de adição de reais, o conjunto F (R) é um grupo quando munido da
operação de composição de funções, e o conjunto dos vetores geométricos do
plano é mum grupo quando munido da operação de adição de vetores (regra do
paralelogramo).
Exercício 2.4.1 (a) Detalhe cada um dos exemplos precedentes. (b) Diga por
que o conjunto R dos números reais não é um grupo quando considerado com a
operação de multiplicação de reais.
Um grupo de notável interesse é o chamado grupo de Klein, em honra ao ma-
temático alemão Felix Klein (1849-1925). O dominio é o conunto G = {a, b, c, d}
e a operação ∗ é definida pela tabela abaixo:
* a b c d
a a b c d
b b a d c
c c d a b
d d c b a
2.4. GRUPOS 23
Exercício 2.4.2 Identifique o elemento neutro do grupo acima e o inverso de cada

elemento.
Definição 2.4.2 (Isomorfismo entre grupos) Dois grupos G1 = hG1 , ∗1 i e G2 =

hG2 , ∗2 i são isomorfos se existe uma função bijetiva H : G1 ,→ G2 tal que: (1)
h(e1 ) = e2 , sendo e1 e e2 os elementos neutros dos grupos respectivos, e (2) h(a ∗1
b) = h(a) ∗2 h(b), para todos a, b ∈ G1 .
Exercício 2.4.3 Mostre que o grupo de Klein acima é isomorfo ao grupo G0 =

hG0 , ◦i, cujo domínio é o conjunto G0 = {1, i, j, k} e a operação ◦ é dada pela
tabela abaixo:
◦ 1 i j k
1 1 i j k
i i 1 k j
j j k 1 i
k k j i 1
Um modo alternativo de caracterizar grupos é a seguinte. Um grupo é uma

estrutura da forma G = hG, ∗, e, 0 i, onde G é não vazio, ∗ uma operação binária
sobre G, e ∈ G é um elemento distinguido e 0 é uma função de G em G, tudo isso
cumprindo os seguintes postulados:
1. ∗ é associativa
2. Para todo a ∈ G, tem-se que a ∗ e = e ∗ a = a
3. Para todo a ∈ G, tem-se que a ∗ a0 = a0 ∗ a = e, sendo a0 a imagem do

elemento a pela função 0 .
As estruturas desta espécie coincidem com as da espécie anterior, de forma que as

formulações são equivalentes. Porém, neste caso, estamos explicitanto elementos
distinguidos e outros termos.
Um grupo de fundamental importância para nossas finalidades é o seguinte.
Considere (informalmente) o plano euclidiano R2 com suas propriedades usuais,
que não necessitam ser aqui explicitadas. Se fixarmos um sistema de coordenadas
ortogonais (por simplicidade) OXY, então cada ponto P do plano fica determinado
de modo único por um par ordenado de números reais (x, y), que são as coorde-
nadas cartesianas ortogonais. Seja OP o segmento orientado com origem O e
extermidade P. Para nossos propósitos, vamos por abuso de linguagem identifi-

car este segmento com um vetor α (na verdade, geometricamente um vetor é uma
classe de segmentos equipolentes). As coordenadas do ponto são portanto as do
vetor. Definimos então uma aplicação T do R2 no R2 do seguinte modo:
T (x, y) = (x cos θ − y sin θ, x sin θ + y cos θ).
Em linguagem matricial, essa transformação pode ser escrita da forma seguinte:
cos θ − sin θ
! ! !
x x
T =
y sin θ cos θ y
Esta função (transformação linear) é uma transformação ortogonal, conforme
veremos à frente, e sua matriz
cos θ − sin θ
!
Rθ =
sin θ cos θ
é uma matriz ortogonal. Intuitivamente, realiza uma rotação de ângulo θ do vetor
(x, y) no sentido anti-horário. O conjunto de tais transformações, munido da ope-
ração binária de composição de funções é conhecido como grupo das rotações do
plano.
Exercício 2.4.4 Mostrar que a estrutura mencionada acima é de fato um grupo.
Identifique o elemento neutro e o inverso de dado elemento do grupo.
2.4.1 Grupos de permutação

Seja G = hG, ∗i um grupo tal que G contém n elementos x1 , . . . , xn . Uma função
bijetiva f de G em G é uma permutação de G. Por exemplo, seja G = {a, b, c}. As
possíveis permutações de G são indicadas abaixo, onde na primeira linha escreve-
mos o domínio das funções e na segunda linha suas imagens:
! ! !
a b c a b c a b c
f1 = , f2 = , f2 = ,
a b c a c b b a c
! ! !
a b c a b c a b c
f4 = , f5 = , f6 = .
b c a c a b c b a
O produto (composição) de duas dessas funções é ainda uma permutação de
G, como é fácil perceber. f1 é a função identidade. Munido deste produto, o
conjunto das permutações de G é um grupo comutativo, dito grupo simétrico de
G, denotado S ym(G).
2.5. CORPOS 25
Exemplo 2.4.1
1. Ache os produtos f1 · f4 , f2 · f5 e f3 · f3 .
2. Identifique o elemento neutro do grupo acima.
3. Ache o inverso de cada um dos elementos do grupo.
Para os interesses da física, importa o seguinte caso de permutações. Suponha

que temos um conjunto D = {x1 , . . . , xn }. Definimos a seguinte permutação sobre
D, que permuta unicamente os elementos xi e x j , denotada Pi j :
Pi j (x1 , . . . , xi , . . . , x j , . . . , xn ) = (x1 , . . . , x j , . . . , xi , . . . , xn ).
Mais tarde, D representará uma coleção de objetos quânticos e Pi j aparecerá

como um conceito importante de ‘permuta’ entre dois desses objetos.
2.5 Corpos
A outra estrutura que nos interessa é a de corpo.
Definição 2.5.1 (Corpo) Um corpo é uma estrutura K = hK, +, ·, 0, 1i onde K é

um conjunto não vazio (na verdade, deve ter pelo menos dois elementos), + e · são
operações binárias sobre K, e 0, 1 ∈ K são elementos distinguidos. Os seguintes
postulados devem ser satisfeitos:
1. hK, +i é um grupo comutativo cujo elemento neutro é 0 e o inverso de cada

elemento a ∈ K é denotado −a, dito oposto de a.
2. hK − {0}, ·i é um grupo comutativo cujo elemento neutro é 1, e o inverso de

cada elemento de K − {0} é denotado a−1 , e dito simétrico de a.
3. · é distributiva em relação a +.
Os corpos que nos interessam são alguns corpos numéricos, em especial os

chamados corpo dos (números) reais e corpo dos (números) complexos com as
operações usuais em cada caso. Indistintamente do caso, os elementos de K são
chamados de escalares. Como é usual na terminologia matemática, fala-se que
K é um corpo, fazendo-se referência ao domínio da estrutura. É tipicamente o
caso dos reais e dos complexos mencionados. O leitor deve entender que isso é
um abuso de linguagem. Às vezes, define-se um corpo como sendo uma estrutura

como a acima somente que a operação · não é comutativa; neste caso, quando ·
for comutativa, esses matemáticos falam então em corpo comutativo, ou campo.
No entanto, seguiremos com a definição dada. Portanto, quando falarmos que
R (ou que C) é um corpo, estaremos supondo a estrutura R = hR, +, ·, 0, 1i ou
C = hC, +, ·, 0, 1i respectivamente. Obviamente, em cada caso, 0 e 1 representam
números reais ou complexos.
Exercício 2.5.1 Verifique que o conjuno dos números racionais munido das ope-
rações usuais é um corpo, que podemos representar por Q = hQ, +, ·, 0, 1i.
Exercício 2.5.2 Justifique porque a estrutura Z = hZ, +, ·, 0, 1i, sendo Z o con-

junto dos números inteiros, + e · as operações de adição e de multiplicação de
inteiros, 0 e 1 os inteiros zero e um, não é um corpo. Essa estrutura tem outro
nome: anel.
Exercício 2.5.3 Verifique que o conjunto A = {0, 1} munido das operações dadas
pelas tabelas abaixo é um corpo.
+ 0 1 · 0 1
0 0 1 0 0 0
1 1 0 1 0 1
Capítulo 3
Espaços Vetoriais
Uma estrutura fundamental para o estudo que realizaremos é a denominada de

pré-espaço de Hilbert, ou seja, um espaço vetorial com produto interno. Essa
estrutura é central em física; os estados dos sistemas físicos serão descritos por
vetores unitários (de ‘comprimento’ unitário) de um adequado espaço de Hilbert,
e os observáveis físicos (que nos darão a idéia do que pode ser medido relati-
vamente a um sistema físico) serão representados por certas funções (operadores
hermitianos) sobre esses espaços. Trata-se ma verdade de um formalismo de uma
beleza matemática sem par, e de uma complicada natureza quanto à sua inter-
pretação, o que nos brinda com uma riqueza filosófica sem precedentes. Vamos
adentrar a esse campo com cautela, inciando com o conceito de espaço vetorial.
Definição 3.0.2 (Espaço vetorial) Um espaço vetorial é uma estrutura
E = hV, K, +, ·i,
onde:
1. V é um conjunto não vazio cujos elementos são chamados de vetores. Tais

elementos serão designados por letras gregas minusculas α, β, ψ, . . ., mas
mais tarde usaremos a notação de Dirac, escrevendo |αi, |βi, |ψi, ldots.
2. K é um corpo K = hK, +, ·, 0, 1i. Como já dito antes, via de regra falaremos

do domínio K em vez da estrutura K, mas o leitor deve estar atento para
este fato. Os corpos dos quais faremos uso no que segue serão o corpo dos
reais e o dos complexos.
27
28 CAPÍTULO 3. ESPAÇOS VETORIAIS
3. + é uma operação binária sobre V, dita adição de vetores, de sorte que

hV, +i é um grupo comutativo. O elemento neutro deste grupo é chamado
de vetor nulo, e designado por O.
4. · é uma lei de composição externa (veja definição 2.1.6) sobre V, mais

precisamente, uma aplicação de K × V em V, dita multiplicação de vetor
por escalar. Esta operação satisfaz os seguintes postulados, para todos α e
β em V e todos a, b ∈ K:
(a) a · (α + β) = a · α + a · β
(b) (a + b) · α = a · α + b · α
(c) (a · b) · α = a · (b · α)
(d) 1 · α = α
Observação terminológica Algumas observações de notação são importantes.

Doravante, excreveremos simplesmente aα para denotar a · α, bem como ab para
a · b. Observe que apesar de usarmos a mesma notação "·"tanto para a multipli-
cação de vetor por escalar quanto para a multiplicação de escalares, elas não são
a mesma operação. Usar símbolos distintos tornaria o texto muito carregado, de
forma que prosseguiremos com a práica matemática usual de, como dizia Poin-
caré, usar o mesmo nome para coisas diferentes. O contexto, no entanto, deixará
claro quando de trata de uma ou de outra operação. O mesmo se aplica para a
adição de vetores e para a adição de escalares, ambas denotadas por "+".
Quando temos um caso de um espaço vetorial E = hV, K, +, ·i, dizemos, mais
uma vez por abuso de linguagem, que V é um espaço vetorial sobre K, ou que é
um K-espaço vetorial. Nos casos particulares de K = R ou de K = C, falamos de
espaços vetoriais reais ou complexos respctivamente.
A notação de Dirac, I O físico inglês Paul Adrian Maurice Dirac introduziu

uma notação que se tornou universal em se tratando do uso de espaços vetoriais
em física quântica. Veremos mais detalhes dessa notação à frente, mas por ora, é
conveniente saber que Dirac representava os vetores assim: |αi, |βi, etc., chamados
kets.
O último postulado pode parecer o mais estranho e menos evidente de to-
dos. Mas ele é fundamental. Se escrevemos −α para denotar o oposto de α,
então parece sensato pedir que −α = (−1)α. No entanto, para provar este fato
necessitamos do referido axioma. Antes, provamos que 0α = 0. Com efeito,
29
0α = (0 + 0)α = 0α + 0α, donde 0α = O. Agora, podemos estabelecer o preten-

dido: α + (−1)α = 1α + (−1)α = (1 − 1)α = 0α = O. Portanto, dada a unicidade
do oposto de α, −α = (−1)α.
Exemplos importantes de espaços vetoriais são os seguintes.
Exemplo 3.0.1 Seja Rn = {(x1 , . . . , xn ) : xi ∈ R} o conjunto das n-uplas de nú-

meros reais. Municiemos este conjunto com as operações seguintes, onde k ∈ R,
para obter um espaço vetorial real:
1. (x1 , . . . , xn ) + (y1 , . . . , yn ) = (x1 + y1 , . . . , xn + yn ) (o leitor deve perceber
que, à esquerda da igualdade, "+"denota a adição de vetores, mas à direita
denota a adição de escalares.
2. k(x1 , . . . , xn ) = (kx1 , . . . , kxn ) (idem observação acima com respeito à mul-

tiplicação de vetor por escalar–à esquerda da igualdade–e a multiplicação
de escalares, à direita).
O espaço vetorial do exemplo precedente será denominado de Rn . De ma-

neira semelhante, definimos o espaço complexo Cn tomando operações análogas
às acima, somente que consideradas agora sobre C.
Exemplo 3.0.2 Considere o conjunto F das funções reais de variável real com
mesmo domínio, digamos o intervalo [a, b] ⊆ R. Para f, g ∈ F , definimos as
operações seguintes:
1. ( f + g)(x) = f (x) + g(x)
2. (k f )(x) = k f (x)
É facil ver que resulta um espaço vetorial real, cujo vetor nulo é a função nula
n(x) = 0.
Exemplo 3.0.3 Seja Rn×m o conjunto das matrizes reais de ordem n × m, munido
das operações usuais de adição de matrizes e de multiplicação de matriz por
escalar real. Neste caso, tem-se um espaço vetorial real, cujo vetor nulo é a
matriz nula n × m.
Exercício 3.0.4 Mostre que temos um espaço vetorial real se tomarmos o con-
junto R+ dos reais não negativos munido das operações x + y = xy e kx = xk ,
para x, y ∈ R+ e k ∈ R. Veja o paralelo que há entre as operações definidas e as
propriedades do logaritmo.
Exercício 3.0.5 Todo corpo K = hK, +, ·, 0, 1i pode ser visto como um espaço
vetorial sobre K. Dizemos que todo corpo é um espaço vetorial sobre si mesmo.
Explique este fato.
Exercício 3.0.6 Mostre que se tomarmos C como conjunto de vetores e R como

conjunto de escalares, e considerando a adição de números complexos como adi-
ção de vetores e a multiplicação de número complexo por número real como a
multiplicação de vetor por escalar, resulta um espaço vetorial real.
Exercício 3.0.7 Mostre que se tomarmos C como conjunto de vetores e o próprio

C como conjunto de escalares, e considerando a adição de números complexos
como adição de vetores e a multiplicação de números complexos como a multipli-
cação de vetor por escalar, resulta um espaço vetorial complexo.
Exercício 3.0.8 Mostre que se tomarmos R como conjunto de vetores e R como

conjunto de escalares, e considerando a adição de números reais como adição
de vetores e a multiplicação de número reais como a multiplicação de vetor por
escalar, resulta um espaço vetorial real.
Exercício 3.0.9 Justifique porque não resulta espaço vetorial se tomarmos R como
conjunto de vetores e C como conjunto de escalares, e considerando a adição de
números rais como adição de vetores e a multiplicação de número real por nú-
mero complexo como a multiplicação de vetor por escalar.
3.1 Combinações lineares, superposições

Uma combinação linear de vetores é a soma desses vetores, eventualmente mul-
tiplicados por escalares, como β = x1 α1 + x2 α2 + · · · + xn αn . Uma tal expressão é
por vezes denominada de superposição desses vetores. Isso terá importância mais
tarde. Em especial, estaremos interessados em superposições nas quais se tenha
n
X
|xi |2 = 1,
i=1
que chamaremos de condição de normalização. O motivo é que os escalares xi

representarão probabilidades, e sua soma deverá ser igual à unidade.
3.2. SUB-ESPAÇOS VETORIAIS 31
Definição 3.1.1 (Dependência e Independência linear) Um conjunto A = {α1 , . . . , αn }

de vetores de um espaço vetorial E é linearmente independente (ou os vetores de
A são linearmente independentes) se uma combinação linear da forma
x1 α1 + . . . + xn αn = O
implica x1 = . . . = xn = 0. Caso contrário, o conjunto A (ou os seus vetores) são

linearmente dependentes.
Equivalentemente, A (ou os seus vetores) é linearmente dependente de po-

demos encontrar uma combinação linear nula (como a acima) com pelo menos
um dos escalares x j diferente de 0. Por exemplo, o conjunto (os vetores) A =
{(1, 2), (−1, 1)} do R2 é linearmente independente, já que
x1 (1, 2) + x2 (−1, 1) = (0, 0)
acarreta x1 = x2 = 0. Por outro lado os vetores (1, 3) e (−1, −3) são linearmente
dependentes, como é fácil verificar.
Convenção Convenciona-se que o conjunto vazio de vetores é linearmente in-

dependente.
3.2 Sub-espaços vetoriais

Informalmente, definiremos o que significa restringir uma operação a um con-
junto. Primeiramente, vejamos o caso de operações binárias. Seja A um conjunto
sobre o qual está definida a operação binária ∗, e seja B ⊆ A. Como vimos, ∗ pode
ser identificada com o conjunto das triplas ordenadas da forma (a, b, a ∗ b), com
a, b ∈ A. Restrinjamos agora o conjunto dessas triplas, considerando uicamente
aquelas tais que a, b ∈ B. É imediato que tal coleção é uma função de B × B em
B, dita restrição da operação ∗ (definida sobre A), ao subconjunto B. Da mesma
forma, se é uma lei de composição externa sobre A, se restringirmos os ele-
mentos considerados a apenas aqueles que pertencem a B, obteremos uma lei de
composição externa sobre B, também dita restrição (a B) da lei .
Por exemplo, considere a adição de números reais e agora considere esta ope-
ração aplicada unicamente ao subconjunto dos reais que é isomorfo ao conjunto
dos números inteiros. Temos então (novamente por abuso de linguagem) uma
restrição da operação de adição aos inteiros.
Definição 3.2.1 (Sub-espaço vetorial) Seja E = hV, K, +, ·i e W ⊆ V, W ,

∅. Dizemos que W é subespaço vetorial de V se hW, K, +W , ·W i é um espaço
vetorial sobre K, sendo +W e ·W restrições das operações de + e · a W.
Teorema 3.2.1 Uma condição necessária e suficiente para que W seja subes-
paço vetorial de V é que, para todos α, β ∈ V e para todo k ∈ K, se tenha:
1. Se α, β ∈ W, então α + β ∈ W.
2. Se α ∈ W, então kα ∈ W.
Demonstração: Quanto à necessidade dessas condições, ela segue do fato de que
um espaço vetorial deve ser fechado ralativamente às operações de adição de ve-
tores e de multiplicação de vetor por escalar. Quanto à suficiência dessas con-
dições, basta verificar que delas resultam as condições da definição de espaço
vetorial para hW, K, +W , ·W i. Por exemplo, como W , ∅, existe α ∈ W, logo
−α = (−1)α ∈ W (pela segunda condição). Analogamente, pela primeira condi-
ção, 0 = α − α ∈ W. Quanto às demais propriedades, em virtude de elas valerem
para todos os vetores de V, valerão em particular para os vetores de W, ou seja,
são "herdadas"por W.
Exemplo 3.2.1 Sendo W = {O}, sendo O o vetor nulo de V, então W é subes-

paço vetorial de V. Este subespaço é chamado de subespaço trivial de V.
Exemplo 3.2.2 O conjunto das matrizes simétricas de ordem n é um subespaço

do espaço das matrizes reais de ordem n.
Exemplo 3.2.3 O conjunto das funções reais contínuas no intervalo [a, b] é um

subespaço do espaço vetorial dado no exemplo 3.0.2.
Exemplo 3.2.4 Consideremos o espaço real R3 das triplas ordenadas de números

reais (um caso particular do espaço Rn do exemplo 3.0.1). Os seguintes subcon-
juntos são subespaços do R3 , e serão importantes abaixo para exemplos. Os
nomes dados a esses espaços tem em mente (intuitivamente) um sistema de coor-
denadas cartesianas para o espaço tridimensional.
1. X = {(x, 0, 0) : x ∈ R} ("eixo X").
2. Y = {(0, y, 0) : y ∈ R} ("eixo Y").
3. Z = {(0, 0, z) : z ∈ R} ("eixo Z").

3.2. SUB-ESPAÇOS VETORIAIS 33
4. XY = {(x, y, 0) : x, y ∈ R} ("plano XY").
5. XX = {(x, 0, z) : x, z ∈ R} ("plano XZ").
6. YZ = {(0, y, z) : y, z ∈ R} ("plano YZ").
7. P = {(x, y, z) : ax + by + cz = 0, a, b, c , 0} (plano passando pela origem).
8. R = {(x, y, z) : x
a
= y
b
= cz , a, b, c , 0} (reta passando pela origem).
Exercício 3.2.1 Prove que cada um dos casos do exemplo anterior de fato define
um subespaço do R3 .
Transformações de fase Em física, estaremos interessados prioritariamente em

espaços vetoriais sobre o corpo C dos números complexos. Suponha então que
{α1 , . . . , αn } é uma coleção de vetores de um espaço vetorial V, e consideremos
a coleção de todas as combinações lineares (superposições) de vetores desse con-
junto. Seja ψ um tal vetor. Uma função (transformação)
ψ −→ eiθ ψ,
para θ um ângulo dado, é denominada de transformação de fase. Veremos depois

que a classe de todos os vetores que estão relacionados por uma transformação
desse tipo são as entidades matemáticas que representam os sistemas físicos. Es-
sas classes são denominadas de raios (rays) em física.
Para os fundamentos da física quântica, é importante observarmos o seguinte.
Teorema 3.2.2 A interseção de sub-espaços de um espaço vetorial é ainda um

sub-espaço desse espaço.
Demonstração: Sejam W1 e W2 sub-espaços de um K-espaço vetorial V, e seja
W = W1 ∩ W2 . Então, se α e β pertencem a W, pertencem a W1 e a W2 . Como
por hipótese ambos são subespaços de V, tanto α + β pertencem a ambos (um
subespaço é fechado para a adição de vetores). Logo, ambos pertencem a W.
Agora, suponha que α ∈ W e que k ∈ K. Logo α ∈ W1 e α ∈ W2 . Como
são ambos subespaços, segue-se que kα pertence a ambos os subsespaços (pelo
fechamento relativamente à multiplicação de vetor por escalar). Logo, kα ∈ W.
A união de subespaços, no entanto, não é em geral um subespaço (podendo ser

eventuamente). Por exemplo, seja V = R3 , e W1 = {(x, 0, 0) : x ∈ R} ("eixo X"),
enquanto que W2 = {(0, y, 0) : y ∈ R} ("eixo Y"), como no exemplo 3.2.4 acima.

Ora, W1 ∪ W2 = {α ∈ R3 : α ∈ W1 ∨ α ∈ W2 }, o que significa que esses vetores
estão no eixo X ou no eixo Y (somente o vetor nulo está em ambos). Porém, a
soma de dois vetores não nulos quaisquer α1 ∈ W1 e α2 ∈ W2 não pertence a
nenhum dos subespaços, logo a união não é fechada para a adição de vetores.
Há porém um ‘menor’ subespaço de V que contém a união de subespaços, a
saber, o espaço gerado pela união.
3.3 Espaço gerado, base

Seja E = hV, K, +, ·i um espaço vetorial e A = {α1 , . . . , αn } um conjunto de
vetores de V. Temos então:
Definição 3.3.1 Chama-se espaço gerado por A ao conjunto

n
X
[A] = {β ∈ V : β = xi αi , xi ∈ K}.
i=1
Teorema 3.3.1 O conjunto [A] é um subespaço vetorial de E.

Demonstração: Basta notar que a soma de vetores de [A] é ainda um vetor de
[A], bem como a multiplicação de qualquer de seus vetores por um escalar (assim
cumprindo as condições do teorema (3.2.1).
Convenção Convenciona-se que [∅] = {O}.

O espaço gerado por um conjunto de vetores é, portanto, o conjunto de todas as
combinações linerares desses vetores. Perceba que se o conjunto for linearmente
dependente, alguns de seus vetores podem ser escritos como combinações lineares
dos demais, de forma que, para obter o espaço gerado, esses vetores podem ser
suprimidos, resultando o seguinte
Teorema 3.3.2 Dado um conjunto de vetores A, existe sempre um subconjunto de

A linearmente independente que gera o mesmo espaço que A.
Demonstração: Seja A = {α1 , . . . , αn } o conjunto em questão, que supomos ser
linearmente dependente. Portanto, há um vetor α j que pode ser escrito simplifica-
damente como X
αj = ki αi ,
i, j
3.3. ESPAÇO GERADO, BASE 35
ou seja, ele é combinação linear dos demais vetores de A. Se β ∈ [A], então

X
β = x1 α1 + . . . + x j α j + . . . + xn αn = xi αi + x j α j ,
i, j
ou seja, X X X
β= xi αi + x j k i αi = (xi + ki )αi ,
i, j i, j i, j
o que mostra ser β combinação linear dos vetores de A, exceto α j . Se A − {α j }

for linearmente independente, é o conjunto procurado. Se ainda for linearmente
dependente, há um vetor nesse conjunto que é combinação linear dos demais,
e o processo pode ser repetido até que restem unicamente vetores linearmente
independentes, que continuarão gerando o mesmo espaço.
Definição 3.3.2 (Base de um espaço vetorial) Uma base para um espaço veto-
rial E é um conjunto A de vetores de V que satisfaz as condições seguintes:
1. A é linearmente independente
2. A gera E, ou seja, todo vetor de V é combinação linear dos vetores de A.
O conjunto A tem um cardinal, que no caso finito pode ser entendido intuitiva-
mente como designando a quantidade de elementos de A. Pode-se demonstrar que
todas as bases de um espaço vetorial têm a mesma cardinalidade. Este cardinal
chama-se dimensão do espaço vetorial.
Definição 3.3.3 (Dimensão) Chama-se dimensão de um espaço vetorial ao car-

dinal de uma base desse espaço.
Por exemplo, o espaço Rn tem dimensão n, pois tem o conjunto (com n ele-
mentos)
Ξ = {1 , . . . , n }, (3.1)
onde i = (0, . . . , 1, . . . , n) (com o 1 na i-ésima posição) como uma base. Esta
base é dita base canônica do Rn .
Da mesma forma, se olharmos agora os vertores 1 como formados por nú-
meros complexos, então Ξ também representa uma base (canônica) para o espaço
complexo Cn . Essas bases desempenharão papel relevante à frente.
Um conceito importante é o de matriz das coordenadas de um vetor em uma
base ordenada. Seja A = {α1 , . . . , αn } uma base ordenada para o espaço vetorial
E = hV, K, +, ·i. Se β ∈ V, podemos escrever β = x1 α1 + . . . + xn αn . Denomina-se

de matriz das coordenadas do vetor beta na base ordenada A à matriz linha (com
uma linha e n colunas)
[β]A = [x1 x2 . . . xn ]. (3.2)
Por exemplo, A = {(1, 1), (−1, 2)} é uma base ordenada para o R2 , como é
fácil provar (é linearmente independente e todo vetor (x, y) ∈ R2 pode ser escrito
como combinação linear desses vetores). Seja β = (2, 3). Então, (2, 3) = x1 (1, 1)+
x2 (−1, 2), ou (2, 3) = (x1 − x2 , x1 +2x2 ), o que fornece x1 = 7/3 e x2 = 1/3. Assim,
[(2, 3)]A = [7/3, 1/3].
Importante é o seguinte resultado.
Teorema 3.3.3 (Unicidade das coordenadas) A matriz das coordenadas de um

vetor em uma base ordenada é única.
Demonstração: Suponha por absurdo que [β]A = [x1 x2 . . . xn ] e que [β]A =

[y1 y2 . . . yn ], para dada base e dado vetor. Então, pela igualdade de matrizes,
segue que xi = yi , para todo i.
Cabe finalmente observar que, para espaços de dimensão infinita, como o es-
paço das funções reais contínuas no intervalo [a, b], não se pode exibir uma base.
Mas assume-se que elas existem, e isso na verdade pode ser demonstrado para um
espaço vetorial arbitrário, a saber,
Teorema 3.3.4 Todo espaço vetorial possui uma base.
A palavra ‘uma’ deve ser entendida literalmente, como artigo indefinido, e

não como indicando ‘uma única’. Um espaço vetorial, com exeção do subespaço
trivial constituído unicamente pelo vetor nulo (cuja base, como vimos, é o con-
junto vazio), admite uma infinidade de bases, todas elas de mesma cardinalidade.
A demonstração do teorema anterior faz uso do Axioma da Escolha (mais preci-
samente, do Lema de Zorn, que lhe é equivalente), e pode ser vista no Apêndice
de [Halmos 1993] (encontra-se a demonstração também em vários sites na web).
Para as finalidades da física, estaremos interessados em bases ortonormais, mas
para tanto necessitamos introduzir noções métricas nos espaços vetoriais, o que
fazemos por meio de um produto interno, como veremos no próximo capítulo.
3.4. ESPAÇOS VETORIAIS ISOMORFOS 37
3.4 Espaços vetoriais isomorfos

Escreveremos E iso F para indicar que os espaços vetoriais E = hV, K, +, ·i e
F = hW, K, +, ·i, ambos sobre o mesmo corpo K = hK, +, ·, 0, 1i, são isomorfos,
ou seja, existe uma aplicação bijetiva f : V 7→ W tal que
f (α + β) = f (α) + f (β) e f (k.α) = k. f (α) (3.3)
para todos α, β ∈ V e k ∈ K. Pode-se demonstrar (exercício) que a relação iso é

uma relação de equivalência, o quem implica em particular ser transitiva. Assim,
se E é isomorfo a F e se F é isomorfo a G, então F é isomorfo a G. Disso tudo
resulta trivial provar o seguinte resultado (a argumentação precisa, no entanto, dá
um bom exercício), extremamente útil nas demonstrações:
K n iso K 1×n iso K n×1 .
Note que os conjuntos acima, munidos das respectivas operações de espaço

vetorial, constituem espaços vetoriais sobre K. Assim, face o isomorfismo, é
indiferente (matematicamente falando) se operamos com n-uplas de elementos de
K ou com matrizes linha formadas por elementos de K ou com matrizes coluna
com tais elementos. Isso traz uma enorme vantagem, pois simplifica em muito as
demonstrações, já que podemos ir de um espaço a outro sem maiores detalhes, ora
operando com n-uplas, ora transformando-as em matrizez linha, como se fossem
a mesma coisa. Os teoremas abaixo usam este fato livremente, e o leitor atendo
deveria notar a importância dessa liberdade.
Teorema 3.4.1 Todo espaço vetorial de dimensão n sobre o corpo K = hK, +, ·, 0, 1i

é isomorfo ao K n .
Demonstração: Como K n , o conjunto das n-uplas de elementos de K munido das
operações usuais, como as definidas para o Rn (veja o exemplo (3.0.1), é isomorfo
a K 1×n , o espaço das matrizes 1 × n com elementos em K (munido das operações
correspondentes entre matrizes), basta provar que o isomorfismo se dá com esse
último espaço. Seja A = {α1 , . . . , αn } uma base ordenada para o espaço vetorial
E = hV, K, +, ·i de dimensão n. Então, para β ∈ V, podemos escrever
β = x1 α1 + . . . + xn αn .
Definimos a aplicação f : V 7→ K 1×n por f (β) = [β]A = [x1 · · · xn ]. Devemos

agora provar que f é um isomorfismo, ou seja, que é bijetiva e que ‘preserva’
as operações. Quanto à primeira parte, inicialmente mostramos que f é injetiva.

Com efeito, pela unicidade das coordenadas (teorema (3.3.3)), se γ , β, sua matriz
das coordenadas em A é distinta da de β.1 Quanto a f ser sobrejetiva, dada uma
matriz [x1 x2 . . . xn ] de escalares de K, haverá um único vetor β (de novo, pela
unicidade das coordenadas) tal que β = x1 α1 + . . . + xn αn .2 Assim, f é bijetiva.
Agora, com relação a ela ‘manter’ as relações das estruturas, a saber, as operações
de espaço vetorial. Sejam α e β vetores de V. Assim, existem únicas [α]A =
[x1 x2 . . . xn ] e [β]A = [y1 y2 . . . yn ]. Ora, é claro que f (α + β) = [α + β]A =
[x1 + y1 . . . xn + yn ] = [x1 . . . xn ] + [y1 . . . yn ] = [α]A + [β]A = f (α) + f (β), e que
f (k.α) = [k.x1 . . . k.xn ] = k.[x1 . . . xn ] = k. f (α). Assim, f é um isomorfismo.
Esses resultados têm importância prática, por exemplo em situações como a
seguinte. Muitas vezes escrevemos n-uplas de elementos de um conjunto A como
linhas de um matriz, e operamos com essas matrizes, para depois reinterpretar-
mos os resultados novamente em termos dos elementos do conjunto A. Um caso
típico é o de vetores, digamos do R3 , que identificamos (via isomorfismos) com
triplas de números reais, suas coordenadas em uma base, digamos a canônica, e
depois formamos matrizes colocando essas coordenadas como linhas (ou como
colunas). Assim, se (1, −1, 1), (0, 1, 2) e (0, −1, 3) são coordenadas de três vetores
relativamente à base canônica do R3 , a matriz
 
 1 −1 1 
M =  0 1 2 
 
0 −1 3
 
tem determinante diferente de zero (como se constata) facilmente, o que indica

serem os vetores linearmente independentes. Interpretar vetores por meio de suas
coordenadas e colocá-las como linhas ou colunas de matrizes será um procedi-
mento que usaremos muito doravante.
1
Recorde que uma função f : A 7→ B é injetiva se x 6 y implica f (x) , f (y).
2
Uma função f : A 7→ B é sobrejetiva se para todo y ∈ B, existe x ∈ A tal que y = f (x).
Capítulo 4
Produtos Internos
Na estrutura de espaço vetorial, o máximo que podemos expressar são combina-

ções lineares (superposições) de vetores. Não há como considerar questões mé-
tricas, como ângulo entre vetores, ‘comprimento’ de um vetor e outro de mesma
natureza. Para tanto, vamos estender a estrutura E adicionando um produto in-
terno. O espaço assim obtido é denominado de pré-espaço de Hibert. Mas, o que
é um produto interno?
Definição 4.0.1 (Produto interno) Um produto interno sobre um espaço vetorial

E = hV, K, +, ·i é uma aplicação h | i : V×V 7→ K tal que, para todos α, β, γ ∈ V
e a ∈ K, se tenha:1
1. hα|β + γi = hα|βi + hα|γi
2. hα|a.βi = a.hα|βi
3. hα|βi = hβ|αi (Em física, é comum denotar o conjungado de um número

complexo z = a + bi não por z̄ = a − bi, mas por z∗ . Mais à frente, usaremos
essa notação).
4. hα|αi ≥ 0 e hα|αi = 0 se e somente se α = O
Teorema 4.0.2 Dada a definição, temos:
1. ha.α|βi = ā.hα|βi
1
Há autores que preferem postular as condições 1 e 2 abaixo de forma alternatica, a saber, (1’)
hα + β|γi = hα|βi + hα|γi e (2’) ha.α|βi = a.hα|βi. Isso é meramente uma questão de conveniência.
Aqui, seguimos o procedimento usual dos textos de física.
39
40 CAPÍTULO 4. PRODUTOS INTERNOS
2. hα + β|γi = hα|βi + hα|γi
Demonstração: Com efeito,2 ha.α|βi = hβ|a.αi = a.hβ|αi = a.hα|βi = ā.hα|βi.

Quanto ao segundo item, sugerimos que o leitor o faça como um exercício.
Daremos agora alguns exemplos de produtos internos que interessarão ao nosso
estudo.
Exemplo 4.0.1 Sobre o espaço real Rn , sendo α = (x1 , . . . , xn ) e β = (y1 , . . . , yn ),

a aplicação seguinte é um produto interno:
n
X
hα|βi = xi yi (4.1)
i=1
Este produto interno é denominado de produto interno canônico sobre o Rn .
Exemplo 4.0.2 Sobre o espaço real Cn , sendo α = (x1 , . . . , xn ) e β = (y1 , . . . , yn )

n-uplas de números complexos, a aplicação seguinte é um produto interno:
n
X
hα|βi = xi? yi (4.2)
i=1
onde xi? é o conjugado de xi , ou se(x)ja, se xi = a + bi, etnão xi? = a − bi. Este

produto interno é denominado de produto interno canônico sobre o Cn .
Exemplo 4.0.3 Sobre o espaço das funções reais (de variável real) contínuas no
intervalo [a, b] (e isto vale para a = −∞, b = +∞), a aplicação seguinte é um
produto interno:
Z b
h f |gi = f ∗ (x)g(x)dx (4.3)
a
Exemplo 4.0.4 Seja Cn×n o espaço vetorial das matrizes complexas de ordem n.
Se A? denota a conjugada de A, então a aplicação
hA|Bi = Tr(A∗ B) (4.4)
é um produto interno. No caso real (ou seja, se Rn ), então hA|Bi = Tr(AT B).
2
Observamos que, para números complexos z e z0 , tem-se que z.z0 = z̄.z¯0 .
41
Definição 4.0.2 Chama-se norma (ou ‘comprimento’) em um espaço vetorial V

a uma aplicação que, a cada vetor α associa um escalar, denotado ||α||, tal que:
1. ||α|| ≥ 0 e ||α|| = 0 se e somente se α = 0.
2. ||kα|| = |k|.||α||, para k escalar.
3. ||α + β|| ≤ ||α|| + ||β|| (desigualdade triangular)
Importa aqui, dentre todas as possíveis normas, aquela que é definida a partir
do produto interno, dita norma advinda do produto interno, a saber, a aplicação
tal que
p
||α|| = hα|αi (4.5)
Exemplo 4.0.5 Mostre que a aplicação recém definida é de fato uma norma.
A importância da observação acima, de que a norma definida por (4.5) é ad-

vinda do produto interno é que existem normas (funções que cumprem as con-
dições da definição) sem que tenham sido originadas a partir do produto interno.
Alguns exemplos sobre R2 são os seguintes (para distinguí-las da norma acima,
vamos usar subíndices): para α = (x1 , x2 ), temos
||α||1 = |x1 | + |x2 |
||α||2 = max{|x1 |, |x2 |}.

Assim, ||(2, 3)||1 = 5, enquanto que ||(2, 3)||2 = 3. O que nos interessará,
no entanto, será a norma induzida pelo produto interno, pois será com ela que a
noção de espaço de Hilbert é introduzida. Os teoremas que se reportam a normas,
no entando, valem para qualquer que seja ela, por exemplo, o seguinte.
Teorema 4.0.3 (Desigualdade de Cauchy-Schwarz) Para todos α e β, tem-se:
|hα|βi| ≤ ||α||.||β|| (4.6)

Demonstração:
Definição 4.0.3 (Distância) Chama-se distância em um espaço vetorial V com

produto interno a toda aplicação d : V × V 7→ K tal que:
1. d(α, β) = d(β, α)
2. d(α, β) ≥ 0 e d(α, β) = 0 se e somente se α = β.
3. d(α, β) ≤ d(α, γ) + d(γ, β)
Teorema 4.0.4 A aplicação d(α, β) = ||α − β|| é uma distância.
Demonstração: Imediata.
No caso do espaço vetorial ser R ou C, costuma-se escrever |α| em vez de ||α||,
deste modo confundindo-se a norma de um vetor com o módulo de um escalar.
Do mesmo modo, escrevemos nesses casos |α − β| em vez de ||α − β||.
Importante notar que, sendo z = a + bi um número complexo (ou ‘vetor’ no
espaço vetorial dos complexos sobre si mesmo), resulta que
|z|2 = hz|zi = z? z = (a − bi)(a + bi) = a2 + b2 ∈ R.
Dizemos que uma sequência de vetores α1 , α2 , . . . de um espaço vetorial V

converge para um vetor β se os vetores da sequência vão ficando cada vez mais
próximos de β à medida em que avançamos na sequência. Mais precisamente,
Definição 4.0.4 (Sequência convergente) A sequência de vetores α1 , α2 , . . . de

um espaço vetorial V converge para um vetor β se, para todo > 0 real, existe
um número natural n tal que, se i > n, resulta que ||β − αi || < .
Definição 4.0.5 (Sequência de Cauchy) Uma sequência de vetores α1 , α2 , . . . de

um espaço vetorial V é uma sequência de Cauchy se, para todo > 0 real, existe
un número natural n tal que, para i, j > n, tem-se que ||αi − α j || < .
Intuitivamente, em uma sequência de Cauchy, os elementos da sequência vão

ficando cada vez mais próximos uns dos outros à medida em que avançamos na
sequência.
Toda sequência de Cauchy é convergente, como se pode mostrar. O problema
é que uma sequência pode convergir para um vetor que não pertença ao espaço
considerado. Quando toda sequência de Cauchy converge para um vetor ainda no
espaço, dizemos que o espaço é (topologicamente) completo. Note que a noção
de convergência depende da norma. Caso particularmente importante é quando a
norma é a advinda do produto interno, resultando na seguinte
43
Definição 4.0.6 (Espaço de Hilbert) Um espaço vetorial com produto interno V

é um espaço de Hilbert se for completo em relação à norma induzida pelo produto
interno.
Ou seja, a norma√a ser considerada é aquela que se define por meio do produto
interno, vis, ||α|| = hα|αi.
Definição 4.0.7 Um conjunto A de vetores de um espaço E é fechado relativa-

mente a um subespaço W se para todo > 0 real e para qualquer β ∈ W, existe
α ∈ A tal que d(α, β) < . Pode-se em especial falar de um subespaço W ser
fechado (nele mesmo).
Em um espaço fechado, toda sequência de vetores do

Dois exemplos notáveis de espaços de Hilbert são os seguintes.
Exemplo 4.0.6 Um espaço particularmente importante (que era estudado por

Hilbert), e sendo uma das razões pelas quais von Neumann batizou essa estrutura
de espaço ‘de Hilbert’, é formado tomando-se como vetores as matrizes coluna
complexas (e suas operações correspondentes e com o produto interno canônico,
z1
 
 
α =  z2
 
..

.
 
tais que ∞k=1 |zi | < ∞. Este espaço é denominado de ` e é isomorfo a todos os
P 2 2
espaços de Hilbert separáveis.
4.0.1 A condição de normalização na teoria quântica

Um outro espaço vetorial real de dimensão infinita que é importante é o espaço
L2 de todas as funções complexas f (x) tomando valores em R, tais que
Z ∞
| f (x)|2 dx < ∞,
−∞
ditas funções ‘quadrado-integráveis’, munido das operações usuais de adição de

funções e de multiplicação de função por escalar real, e com o produto interno
Z ∞
h f |gi = f ∗ (x)g(x)dx.
−∞
Na mecânica quântica de ondas, um sistema de partículas em uma dimensão

tem seus estados descritos por uma função de onda ψ(x, t), que satisfaz
Z ∞
|ψ(x, t)|2 dx = 1. (4.7)
−∞
Podemos entender ψ(x, t) como pertencente a L2 , para t (a coordenada tempo-

ral) fixado, e (4.7) é então dita condição de normalização, ou seja, ||ψ(x, t)||2 = 1.
Esta condição está associada ao papel desempenhado pelo conceito de probabi-
lidade na teoria quântica. Com efeito, segundo a interpretação probabilista da
função de onda devida a Max Born, dado um intervalo [a, b] da reta real, a pro-
babilidade de encontrarmos o valor da medida de um observável físico Â medido
sobre um sistema no estado descrito por ψ(x, t) neste intervalo é precisamente
Z
ψ(x,t)
prob[a,b] (Â) = |ψ(x, t)|2 dx.
[a,b]
Um fato interessante é o seguinte, comentado por [Brown 1979]. Os espaços

` e L2 são isomorfos.
2
Digamos que o observável a ser medido para um sistema composto por uma
partícula em um espaço de dimensão unitária. Assim, a expressão simplificada
Z b
p= |ψ(x, t)|2 dx (4.8)
a
designa a probabilidade de encontrar a partícula, representada pela função de onda
ψ(x, t) no intervalo [a, b] da reta real.
O valor |ψ(x, t)|2 é denotado
ρ(x, t) (4.9)
e denominado densidade de probabilidade.
Exemplo 4.0.7 Suponha (para t fixo), que ρ(x) = 1/x2 . A probabilidade de en-
contrarmos a partícula em [1, 2], é dada por
Z 2
x−3 2
p= 1/x2 dx = [ ] = −1/3(1/8 − 1) = 7/24 = 0, 29.
1 −3 1
Voltaremos a essa e outras questões ‘quânticas’ mais tarde.
Definição 4.0.8 Um espaço de Hilbert é separável se admite uma base ortonor-
mal contável (finita ou enumeável).
Grande parte dos espaços usados em física são separáveis nesse sentido, e são
todos isomorfos a `2 .
4.1. ORTOGONALIDADE 45
4.1 Ortogonalidade
Daqui para frente, assumiremos sempre que H é um espaço de Hilbert.
Definição 4.1.1 (Vetores Ortogonais e Ortonormais) Dois vetores α e β de H

são ortogonais se hα|βi = 0. Eles são ortonormais se, além de ortogonais, são
unitários.
Exemplo 4.1.1 O espaço Rn munido do produto interno cann̂onico é um espaço

de Hilbert (exercício). Os vetores da base canônica Ξ (veja à página 35) são
ortonormais relativamente a esse produto interno. Situação análoga ocorre com
o Cn .
Uma base para H formada por vetores ortonormais é uma base ortonormal de
H.
Exemplo 4.1.2 (Séries de Fourier) Considere o espaço de Hilbert das funções

seccionalmente contínuas no intervalo [−π, π] da reta real munido do produto
interno
1 π
Z
h f |gi = f (x)g(x)dx.
π −π
Uma função seccionalmente contínua nesse intervalo é uma função que é contí-
nua nesse intervalo ou que tem no máximo um número finito de descontinuidades
de primeira espécie (se ela é descontínua em um ponto a do intervalo, isso se deve
ao fato de que seus limites laterais são distintos no ponto, mas existem, contrari-
amente a funções que são descontínuas de segunda espécie, como f (x) − tan(x),
que não tem limite no ponto a = π2 ).
Verifica-se que as funções 1, sin x, cos 2x, sin 2x, cos 2x, etc. são vetores
ortonormais relativamente ao produto interno acima. Se f é uma função seccio-
nalmente contínua no intervalo dado, ela é integrável no intervalo e é limite da
série seguinte, que pode ser vista como sua expressão como combinção linear das
funções ortonormais dadas, a saber,
f (x) = a0 .1 + a1 sin x + b1 . cos x + a2 . sin 2x + b2 . cos 2x + . . . . (4.10)
O que necessitamos é aprender a calcular os coeficientes, os ‘coeficientes de Fou-

rier’), o que faremos abaixo no caso geral de um H qualquer. A expressão (4.10)
é dita ser o desenvolvimento de f (x) em série de Fourier.
Denomina-se de Processo de Ortogonalização de Gram-Schmidt o seguinte

procedimento para, dada uma base ordenada A = {α1 , . . . , αn } para um espaço H,
encontrarmos uma base ordenada ortogonal B = {β1 , . . . , βn } para H, do seguinte
modo:
(1) β1 = α1
m−1
X hα1 |βm i
(2) βm+1 = βm − αi .
1=1
||αi ||2
Constata-se sem dificuladade que os β j são ortogonais entre si. Para exempli-
ficar, mostraremos que β2 é ortogonal a β1 . Com efeito, lembrando que β1 = α1 ,
temos que
hα1 |β2 i hα1 |β2 i
hβ1 |β2 i = hβ1 |β2 − 2
α1 i = hβ1 |β2 i − hβ1 |α1 i = 0.
||α1 || ||α1 ||2
Uma vez obtida a base ortogonal B, uma base ortonormal é obtida simples-
mente dividindo-se cada vetor de B pela sua norma, ou seja, obtendo
β1 βn
N ={ ,..., }.
||β1 || ||βn ||
Espaços de Hilbert são fundamentais na formulação usual da física quântica.
Vetores unitários de um espaço de Hilbert H representarão os estados dos siste-
mas físicos, e certos opradores (que veremos na seção seguinte) representarão os
observáveis físicos.
4.1.1 Coeficientes de Fourier

O ‘caso geral’ ao qual nos referimos acima no caso do exemplo das séries de Fou-
rier, trata de encontrarmos as coordenadas de um vetor em uma base ortonormal.
Tais coeficentes são denominados de coefiencientes de Fourier.
Seja A = {α1 , . . . , αn } uma base ortonormal ordenada para um espaço de Hil-
bert H (na verdade, o que faremos pode ser desenvolvido para um espaço vetorial
com produto interno quaquer, não necessariamente de Hilbert). Se β é um vetor
qualquer desse espaço, existem escalares xi (i = 1, . . . , n), tais que
β = x1 α1 + . . . + xn αn . (4.11)
Ora, sabemos que
hαi |α j i = δi j , (4.12)
4.1. ORTOGONALIDADE 47
logo
hαi |βi = hαi |x1 α1 + . . . + xn αn i = x1 hαi |α1 i + . . . + xi hαi |αi i + . . . + xn αi |αn i.
Tendo em vista (4.12), resulta que
hαi |βi = xi . (4.13)
Portanto, em (4.11), temos

n
X
β = hα1 |βi.α1 + . . . + hαn |βi.αn = hαi |βi.αi . (4.14)
i=i
Os coeficientes da combinação linear acima são denominados de coeficientes

de Fourier. Se os vetores da base A não fossem ortonormais, mas ortogonais
simplesmente, deveríamos dividir cada vetor da base por sua norma, de modo a
torná-los unitários; assim,
n
X hαi |βi
β= .αi . (4.15)
i=i
||α i ||
De maneira geral, os coeficientes de Fourier são portanto
hαi |βi
xi = , (4.16)
||αi ||
e são exatamente esses que devem ser buscados na expressão (4.10), levando em
conta o produto interno e as funções envolvidas.
Exercício 4.1.1 Calcule os coeficientes da expressão (4.10).

Capítulo 5
Operadores Lineares
Definição 5.0.2 (Transformação linear) Uma transformação linear, ou homo-

morfismo de um espaço vetorial V em um espaço vetorial W, ambos sobre um
mesmo corpo K, é uma aplicação T : V 7→ W tal que, para todos α, β ∈ V e
a ∈ K, se tenha que
1. T (α + β) = T (α) + T (β)
2. T (aα) = a.T (α).
As condições 1 e 2 são chamadas de condições de linearidade. Podemos subs-

tituir 1 e 2 por uma só condição, a seguinte, para b ∈ K:
T (aα + bβ) = aT (α) + bT (β).
Definição 5.0.3 (Operador linear) Um operador linear sobre um espcço veto-

rial V é uma transformação linerar de V em V.
Exemplo 5.0.3 A aplicaçc̃ao T : R2 7→ R2 definida por T (x, y) = (x + y, −x + 2y)

é um operador linear sobre o R2 , como facilmente se verifica.
Exemplo 5.0.4 Considere o espaço vetorial das funções diferenciáveis em um

intervalo [a, b] ⊆ R. A aplicação D definida por
d f (x)
D( f (x)) =
dx
é um operador linear sobre o espaço referido.
49
50 CAPÍTULO 5. OPERADORES LINEARES
Notação Em física quântica, certos operadores lineares sobre espaços relevantes

(espaços de Hilbert) representarão os observáveis físicos, como momento, posi-
ção, etc. Os físicos distinguem entre os observáveis e os operadores que os re-
presentam mudando um pouco a notação: se T é um observável físico, como a
posição de uma partícula, então T̂ é o operador que o representa. No momento,
não faremos essa distinção.
5.1 Representação matricial

Nesta seção, utlizaremos a notação de Dirac, para que o leitor vá se acostumando
a ela. Seja V espaço de dimensão finita n sobre K, e seja A = {|αi i} uma base
ordenada para V. Se T é um operador linear sobre V e β ∈ V, podemos escrever
β como combinação linear dos vetores da base, ou seja, há escalares x1 , . . . , xn tais
que
|βi = x1 |α1 i + · · · + xn |αn i. (5.1)
A transformada de |βi pelo operador T , sendo vetor de V, pode também ser
escrito como combinação linear dos vetores da base, ou seja,
n
X
T (|βi) = y1 |α1 i + · · · + yn |αn i = y j |α j i. (5.2)
j=1
Conheceremos T se soubermos como encontrar, dados os xi (as coordenadas

de |βi na base), os escalares yi (as coordenadas de T (|βi).
A partir a combinação linear (5.1), obtemos
T (|βi) = T (x1 |α1 i + · · · + xn |αn i),
ou seja, pela linearidade de T ,
T (|βi) = x1 T (|α1 i) + · · · + xn T (|αn i).
em notação mais cômoda,

n
X
T (|βi) = xi .T (|αi i). (5.3)
i=1
Por sua vez, as transformadas T (|αi i) dos vetores da base podem ser escritos
como combinações lineares dos vetores da própria base, ou seja,
5.1. REPRESENTAÇÃO MATRICIAL 51
T (|α1 i) = a11 |α1 i + a12 |α2 i + . . . + a1n |αn i = nj=1 a1 j |α j i

P
T (|α2 i) = a21 |α1 i + a22 |α2 i + . . . + a2n |αn i = nj=1 a2 j |α j i
P
..
.
T (|αn i) = an1 |α1 i + an2 |α2 i + . . . + ann |αn i = nj=1 an j |α j i
P
Ou simplesmente,
n
X
T (|αi i) = ai j |α j i, i = 1, . . . , n (5.4)
j=1
Substituindo (5.4) em (5.3), obtemos

n
X n
X
T (|βi) = xi . ai j |α j i. (5.5)
i=1 j=1
ou seja, rearranjando os somatórios,

n X
X n
T (|βi) = ai j .xi )|α j i. (5.6)
j=1 i=1
Igualando os coeficientes de (5.2) e (5.6), obtemos

n
X
yj = ai j xi , j = 1, . . . , n (5.7)
i=1
Em notação matricial, temos

     
 y1   a11 a21 · · · an1   x1 
 y2   a12 a22 · · · an2 x2
     
 ..  =  ..  .  ..
  
 .   . .

  
yn a1n a2n · · · ann xn
     
A matrix A = [ai j ] dos coeficientes das combinações lineares acima age como
se fosse o operador, permitindo que, dadas as coordenadas x1 , . . . , xn de um vetor
numa base ordenada, encontremos as coordenadas y1 , . . . , yn se sua transformada
na mesma base.
A matrix A = [ai j ] chama-se matriz representativa do operador T na base A,
denotada
[T ]A .
Regra prática Para achar a matriz representativa de um operador T em uma

base finita {|αi i}, proceda como segue:
1. Transforme os vetores da base usando T
2. Escreva as transformadas como combinações lineares dos vetores da mesma

base.
3. Ache os coeficientes (o que pode fazer resolvendo sistemas de equações

linerares)
4. A matriz é formada por esses coeficientes colocados como colunas.
Exemplo 5.1.1 Consideremos o operador T (x, y) = (x + y, −x + 2y) sobre o R2 e

a base ordenada A = {(1, 2), (−1, 1)}. Seguiremos os passos indicados acima.
T (1, 2) = (3, 3) = a11 (1, 2) + a12 (−1, 1)
T (−1, 1) = (0, 3) = a21 (1, 2) + a22 (−1, 1)
Os sistemas lineares indicam que a11 = 2, a12 = −1, a21 = 1 e a22 = 1. Assim,
!
2 1
[T ]A =
−1 1
Exercício 5.1.1 Perceba agora a ação da matriz. Dados o operador acima e

o vetor |αi = (2, −1), ache suas coordenadas na base A indicada no exemplo,
[α]A e verifique que as coordendadas se sua transformada pelo operador, [T (α)]A
obedece a relação
[T (α)]A = [T ]A [α]A
É indiferente se trabalhamos com o operador T ou com uma matriz represen-

tativa de T . Isso traz vantagens em muitas situações.
A seguinte notação é útil, quando {|αi i} for uma base ortonormal de V. Neste
caso, tomemos novamente as expressões (5.4). Observamos que
T (|αi i) = ai1 |α1 i + ai2 |α2 i + . . . + ain |αn i
Façamos agora o produto interno hαi |T |αi i, que devido ao fato de que hαi |α j i =
δi j , obtemos
hαi |T |αi i = aii .
5.2. MATRIZ DE MUDANÇA DE BASE 53
Isso mostra que a matriz representativa de T na base ortonormal {|αi i} pode

ser escrita  
 hα1 |T |α1 i hα1 |T |α2 i ··· hα1 |T |αn i 
 hα2 |T |α1 i hα2 |T |α2 i ··· hα2 |T |αn i
 
[T ]A =  ..

.

 
hαn |T |α1 i hαn |T |α2 i ··· hαn |T |αn i
 
A partir dessa matriz, definimos o traço do operador T como a soma dos

elementos da diagonal principal da matrix acima, ou seja,
n
X
T r(T ) = hαi |T |αi i. (5.8)
i=1
5.2 Matriz de mudança de base

Podemos encontrar matrizes de um mesmo operador linear T relativamente a ba-
ses diferentes, obtendo matrizes diferentes. Cada uma delas age como T relativa-
mente à base considerada. O interessante é que existe uma matriz de passagem
de uma base para outra (que não detalharemos aqui), que tem a seguinte função:
dadas as coordenadas [β]A = [x1 . . . xn ] de um vetor β em uma base A, essa ma-
triz permite que obtenhamos as coordenadas do mesmo vetor em outra base, B,
[β]B = [z1 . . . zn ]. Essas matrizes são sempre inversíveis, e suas inversas mudam
coordenadas em B para coordenadas em A.
Mais especificamente, dadas as bases A e A, existe uma matriz inversível M
tal que, para todo vetor β, se tem
[β]TB = M.[β]TA .
5.3 Produto de operadores

Consideremos a coleção de todos os operadores lineares sobre um espaço veto-
rial V munido de uma operação binária, o produto (ou composição, já que são
funções) de operadores. Denotamos o produto dos operadores T e U por T U.
Definição 5.3.1 Um operador linear T sobre V é inversível se existe um operador

T −1 sobre V tal que T −1 T = T T −1 = I, sendo I o operador identidade.
Neste caso, G−1 é chamado de inverso de T . Como T é em particular uma fun-

ção, uma condição necessária e suficiente para T ser inversível é que seja bijetivo.
Depois veremos outra condição.
É agora fácil constatar que o conjunto de todos os operadores lineares inver-
síveis sobre V munido do produto de operadores é um grupo não comutativo
(exercício).
Definição 5.3.2 (Operadores que comutam) Dois operadores T e U sobre V

comutam se T U = UT .
5.3.1 O comutador
Escrevemos [T, U] (dito comutador de T e U) para denotar a diferença T U − UT ,
ou seja,
[T, U] =def T U − UT (5.9)
Claro que quando T e U comutam, seu comutador é nulo. Propriedades im-
portantes são as seguintes, aqui só enunciadas:
Teorema 5.3.1 O comutador obedece as seguintes propriedades, para quaisquer

operadores A, B, C:
1. [A, B] = −[B, A]
2. [A + B, C] = [A, C] + [B, C]
3. [A, BC] = [A, B].C + B.[A, C]
Fato relevante em física é o seguinte. Como veremos, os observáveis físicos

serão representados no formalismo quântico por certos operadores, a saber, aque-
les que são denominados de auto-adjuntos, ou hermitianos. Intuitivamente, um
observável físico é algo que pode ser medido. Na física clássica, assume-se que
quaisquer dois observáveis podem ‘ser medidos ao mesmo tempo’, ou seja, terem
seus valores avaliados numa mesma situação física. Já na física quântica, isso não
ocorre, o que representa um fato distintivo dessa disciplina. Porém, quando dois
operadores que representam observáveis comutam, isso indica que os observáveis
correspondentes podem ser medidos simultaneamente. O resultado abaixo, que
pode ser estabelecido no contexto da física quântica, mostra que isso não acon-
tece com dois observáveis básicos (dentre outros), a posição e o momento. Ou
seja,
5.4. FUNCIONAIS LINEARES 55
Se X é um operador que representa a posição de um sistema físico (como uma

partícula elementar) e P representa o seu momento, então temos:
1. [X, X] = 0
2. [P, P] = 0
3. [X, P] = i.~, onde i é a unidade complexa e ~ = 2π

h
, sendo h a constante de
Planck. Isso vai desempenhar um paperl importante na física quântica.
Notação Na física quântica, costuma-se distinguir entre um observável físico,

como a posição de uma partícula, do observável que a representa. Os físicos
costumam representar um observável por uma letra latina maiúscula, como A,
e o operador correspondente por Â. Assim, se quiséssemos, acima poderíamos
escrever coisas como [X̂, P̂] = i.~.
5.3.2 O espaço dos operadores

Seja E = hV, K, +, ·i um espaço vetorial e consideremos a coleção de todos os
operadores lineares sobre E. Dados dois de tais operadores, U e T , definamos as
operações seguintes:
(UT )(α) = U[T (α)],
(kT )(α) = k.T (α),
para k escalar.
É claro que, munido dessas operações, temos um espaço vetorial sobre K, que
chamemos de L(E). Deste modo, às vezes escreveremos T ∈ L(E) para indicar
que T é um operador linear sobre E.
5.4 Funcionais Lineares

Um caso especialmente importante de transformações linerares é o seguinte. Seja
V um espaço vetorial sobre um corpo K = hK, +, ·, 0, 1i. Como já vimos, pode-
mos considerar K como um espaço vetorial sobre si mesmo (ou seja, considerar
o espaço vetorial que identifica os vetores com os escalares, a adição de vetores
com a adição de vetores e a multiplicação de vetor por escalar com o produto de
escalares). Temos então a
Definição 5.4.1 (Funcional linear) Um funcional linear sobre V é uma transfor-

mação linear de V em K (visto como espaço vetorial sobre si mesmo).
Ou seja, trata-se de uma função linear que associa um escalar a cada vetor do
espaço.
Um caso de particular interesse é o seguinte funcional linear. Para cada vetor
α de V, associamos o escalar hα|βi, para β um vetor fixo de V. Ou seja, temos
T β (α) = hα|βi.
Exemplo 5.4.1 Mostre que a aplicação recém definida é de fato linear.
A notação de Dirac, II Note o que foi feito acima: o vetor β de certo modo
caracteriza o funcional linear T ; para cada α, a imagem de α por T é determinada
a partir de β efetuando-se o produto interno hα|βi. Pode-se demonstrar, por um
resultado conhecido como Teorema de Riez, que isso sempre ocorre para cada
funcional T , e que tal β é único para cada T . Por isso, Dirac usou a notação
seguinte para expressar esse funcional: hβ|, chamado de bra. De maneira geral,
hβ|, hγ| etc. denotam funcionais linerares T β , T γ , etc. Os nomes já vistos (página
28) de "kets"para os vetores, e agora de "bras"para os funcionais, tem a ver com a
terminologia inglesa, que chama os delimitadores h, i de brakets. Veja como fica
fácil: a notação hα|βi pode significar duas coisas: o produto interno dos vetores α
e β ou a imagem do vetor α pelo funcional caracterizado por β. Genial, não?
(continua) Base dual, espaço dual,
Capítulo 6
Autovetores e autovalores,
diagonalização
Definição 6.0.2 (Autovetores e autovalores) Seja T um operador linear sobre o

espaço vetorial V (sobre o corpo K). Um autovetor de T é um vetor não nulo
ξ ∈ V tal que T (ξ) = λξ, para λ ∈ K. O escalar λ é dito autovalor associado ao
autovetor ξ.
Definição 6.0.3 (Autovetores e autovalores) Seja A matrix de ordem n sobre K.
Um autovetor de A é uma matriz 1 × n X tal que AX T = λX T , para λ ∈ K. O
escalar λ é dito autovalor associado ao autovetor X.
Exemplo 6.0.2 Seja D operador liner sobre o espaço vetorial das funções reais
de variável real deriváveis no intervalo [a, b] da reta, definido por
d f (x)
D( f (x)) = .
dx
Então f (x) = e3x é autovetor de D, cujo autovalor associado é λ = 3.
Exemplo 6.0.3 Seja T operador linear sobre o R2 definido por T (x, y) = (2x −
y, y). Impondo T (x, y) = λ(x, y), obtemos o sistema de equações
(2 − λ)x − y = 0
(
(1 − λ)y = 0
A matriz dos coeficientes do sistema é
2 − λ −1
!
A=
0 1−λ
57
58 CAPÍTULO 6. AUTOVETORES E AUTOVALORES, DIAGONALIZAÇÃO
que deve ter determinante não nulo para que haja solução não trivial. Portanto,
os autovalores são as raízes do polinômio caraterístico λ2 − 3λ + 2 = 0, que são
λ1 = 1 e λ2 = 2. Os autovetores associados são obtidos resolvendo-se o sistema
acima para cada valor de λ, o que fornece dois conjuntos de vetores, a saber:
Eλ1 = {γ ∈ V : T (γ) = λ1 γ} = {(x, y) ∈ R2 : x = y} e Eλ2 = {γ ∈ V : T (γ) =
λ2 γ} = {(x, y) ∈ R2 : y = 0}.
É facil ver que o conjunto Eλ ∪ {0} é um subspaço vetorial de V, dito espaço
característico associado ao autovalor λ, onde 0 é o vetor nulo de V.
Seja A matriz quadrada de ordem n sobre o corpo K. Impondo AX T = λX T ,
para X = [x, y], obtemos AX T − λX T = 0, ou (A − λI)X T = 0, sendo I a matrix
identidade de ordem n. A matriz A − λI deve ser singular (não inversível) para
que o sistema admita solução não trivial, portando, det(A − λI) = 0, que é o po-
linômio característico de A. Suas raízes são os autovalores de A, e os autovetores
associados são obtidos resolvendo-se os sistemas (A − λI)X T = 0 para cada λ
encontrado.
Exemplo 6.0.4 Seja !
1 1
A=
0 1
matrix real. Então det(A − λI) = 0 formece

1 − λ 1
det(A − λI) = = (1 − λ)2 = 0,
0 1 − λ
o que fornece λ1 = λ2 = 1. Resolvendo-se o sistema AX T = 1.X T , encontramos
y = 0, portanto E1 = {(x, y) ∈ R2 : y = 0}.
Pode-se demonstrar que se T é operador linear sobre V e A = [T ]A é a matriz
representativa de T na base ordenada A, então ξ é autovetor de T se e somente
se X = [ξ]A , a matriz das coordenadas de ξ na base A, é autovetor de A. Os
autovalores são os mesmos.
Definição 6.0.4 Duas matrizes A e B são semelhantes e existe uma matriz invesí-
vel M tal que B = M −1 AM.
Teorema 6.0.1 Matrizes semelhantes têm o mesmo polinômio característico, logo
os mesmos autovalores.
Demonstração: det(B − λI) = det(M −1 AM − λI) = det(M −1 (A − λI)M) = det(A −
λI).
Exercício 6.0.1 Mostre que o conjunto Eλ ∪ {0} é um subspaço vetorial de V.

6.1. DIAGONALIZAÇÃO 59
6.0.1 O papel dos autovetores e dos autovalores na mecânica

quântica
No formalismo da mecânica quântica, desempenham papel importante as equa-
ções da forma
T (ξ) = λξ,
que têm a seguinte interpretação. Se T representa um observável físico, medido
em relação a um sistema que esteja em um estado representado por ξ, o valor λ é
interpretado como um valor possível para a medida do observável (para o sistema
no dado estado).
Isso s conforma com o que Michael Redhead chama de algoritmo da quanti-
zação, a saber, a questão de responder à pergunta: “Quais são os valores possíveis
da medida de um obserável relativamente a um sistema físico?”, que ele responde
da seguinte forma: “São os autovalores do operador associado ao observável a ser
medido.” [Redhead 1987, pp.5-7].
6.1 Diagonalização
Definição 6.1.1 (Operador diagonalizável) Um operador linear T sobre V é di-
agonalizável se existe uma base de V na qual a matriz representativa de T seja
uma matriz diagonal.
Definição 6.1.2 (Matriz diagonalizável) Uma matriz A é diagonalizável se é se-

melhante a uma matriz diagonal.
É fácil ver que se A = {α1 , . . . , αn } é uma base ordenada de V formada por

autovetores de T , então teremos T (αi ) = λi αi , e portanto a matriz de T nessa base
será a matriz diagonal
 λ1 0 . . . 0 
 
 0 λ . . . 0 
A =  2 
 . . . . . . . . . . . . 
0 0 . . . λn

Teorema 6.1.1 Uma matriz A de ordem n sobre o corpo K é diagonalizável se e

somente se seus autovetores gerarem o K n .
60 CAPÍTULO 6. AUTOVETORES E AUTOVALORES, DIAGONALIZAÇÃO
Demonstração: Primeiramente, recorde que K n = {(x1 , . . . , xn ) : x j ∈ K} pode

ser visto como um espaço vetorial sobre K. Quanto à demonstração, suponha
inicialmente que A é diagonalizável, logo semelhante a muma matriz diagonal D
que podemos supor tem em sua diagonal principal os escalares d1 , . . . , dn . Então
os vetores i = (0, . . . , 1, . . . , 0) são autovetors de D, pois DiT = di iT . Isso ainda
mostra que os d1 são autovalores de D, logo de A. Ademais, se houvesse outros
autovalores λ de D então haveria vetores X = (x1 , . . . , xn ) , 0 tais que DX T =
λX T , o que daria (d1 x1 , . . . , dn xn ) = (λx1 , . . . , λxn ), ou seja, di xi = λi xi . Mas como
os autovetores são não nulos, devemos ter pelo menos um xi , 0, o que dará
λ = di , e assim não há outros autovalores além dos indicados. Reciprocamente, se
os vetores característicos de A gerarem K n , pode-se extrair uma base X1 , . . . , Xn
para K n , ou seja, tais que AXiT = λi XiT , sendo os λi os autovalores. Seja M matriz
cujas colunas são os vetores XIT , que é inversível pela hipótese de que esses vetores
formam uma base. Pondo
 λ1 0 . . . 0 
 
 0 λ . . . 0 
D =  2  ,
 . . . . . . . . . . . . 
0 0 . . . λn

temos AM = A(X1T . . . XnT ) = (λ1 X1T . . . λn XnT ) = MD, ou seja, M −1 AM = D.

A demonstracão deste teorema nos dá o modo de achar a matriz M que efetua
a diagonalização de A, desde que A seja diagonalizável: as colunas de M são
formadas por autovetores linearmente independentes de A.
Exercício 6.1.1 Verifique que os autovalores de A abaixo são 1 e 2 (duplo). Ache

os autovalores correspondentes. Verifique se a matriz é diagonalizável e, em caso
afirmativo, ache a matriz diagonal D semelhante a A:
 
 3 −1 1 
A =  2 0 2 
 
2 −1 2
 
Exercício 6.1.2 Idem para a matriz

 
 5 −1 3 
A =  −6 4 −6 
 
−6 2 4
 
Capítulo 7
Matrizes e operadores ortogonais e

unitários
Nesta seção, suporemos que V é um espaço com produto interno.
Definição 7.0.3 (Isometria) Uma isometria sobre V é um operador linear T so-

bre V tal que ||T (α)|| = ||α|| para todo α ∈ V.
Teorema 7.0.2 Se T é uma isometria sobre V, então, para todos ξ, η ∈ V:
1. T preserva distâncias, ou seja, ||ξ − η|| = ||T (ξ) − T (η)||.
2. T preserva produtos internos, ou seja, hξ|ηi = hT (ξ)|T (η)i.
3. T preserva conjuntos ortonormais.
4. T preserva medidas angulares.

Demonstração: (Exercício)
Definição 7.0.4 (Operador unitário) Uma isometria sobre um espaço vetorial

complexo é chamado de operador unitário. Uma isometria sobre um espaço ve-
torial real é chamado de operador ortogonal.
Exercício 7.0.3 (a) Prove o teorema anterior; (b) Mostre que T (x, y, z) = (xcosθ−
ysenθ, xsenθ + ycosθ) é uma isometria sobre o R2 (operador ortogonal); (c) Idem
para T (x, y) = (x, −y).
61
62CAPÍTULO 7. MATRIZES E OPERADORES ORTOGONAIS E UNITÁRIOS
Definição 7.0.5 (Matriz ortogonal, matriz unitária) Uma matriz real (complexa)
de orden n A = [a1 j ] é ortogonal (unitária) se AT A = I (A∗ A = I).
A definição implica que, no primeiro caso, nk=1 aki ak j = δi j , e no segundo

P
caso, nk=1 aki ak j = δi j , onde a é o conjugado de a. Ou seja, as colunas de A são
P
vetores ortonormais relativamente ao produto interno canônico (de cada espaço).
Pode-se ainda demonstrar que uma matriz n × n A real (complexa) representa um
operador ortogonal (unitário) T relativamente a uma base ortonormal se e somente
se for ortogonal (unitária).
Outros fatos importantes são os seguintes, aqui somente enunciados: (1) se A
for ortogonal ou unitária, det(A) = ±1; (2) A−1 = AT (respect., A−1 = A∗ , onde A∗
é a transposta conjugada de A); (2) as linhas de A também são vetores ortonormais
relativamente ao produto interno canônico.
Exercício 7.0.4 Mostre que A é unitária e que B é ortogonal:

!
cosθ isenθ
A=
isenθ cosθ
 
 1/3 2/3 2/3 
B =  2/3 −2/3 1/3
 

−2/3 −1/3 2/3

(continua) Operadores e matrizes auto-adjuntos, hermitianos. Observáveis em

física.
Operadores de evolução e hamiltoniano Fato importante em física, e que mos-

tra a relevância desses operadores, resulta de que se {U(t)} é uma família de ope-
radores unitários sobre um espaço de Hilbert H, dados em função de um parâ-
metro real t relativamente ao qual são contínuos (que entenderemos como repre-
sentando o tempo), então se esses operadores satisfazem a condição U(t1 + t2 ) =
U(t1 )U(t2 )para todos t1 , t2 ∈ R, pode-se mostrar que existe um único operador H
satisfazendo
U(t) = e−iHt ,
para todo t ∈ R, sendo eiHt = cos(tH) − i sin(tH). O operador U é unitário e
limitado, e é conhecido como operador de evolução unitária no formalismo da
mecânica quântica, enquanto que H é o operador hamiltoniano, e representa a
energia do sistema. Uma das formulações da equação de Schrödinger pode ser
dada em função do operador U, como veremos.
63
Teorema 7.0.3 (Teorema dos Eixos Principais) Toda matriz hermitiana (real si-
métrica) A é unitariamente (ortogonalmente) semelhante a uma matriz diagonal
real D, cujos elementos diagonais são os autovalores de A, ou seja, existe M
unitária (ortogonal) tal que D = M −1 AM = M ∗ AM (respect., D = M T AM).
Como se viu acima, a matriz M tem por colunas autovetores linermente in-
dependentes de A, que sempre existem (o que decorre do teorema). Em outras
palavras, mesmo que haja autovalores com multiplicidade k > 1, pode-se associar
a ele um conjunto de k autovetores linearmente independentes.
64CAPÍTULO 7. MATRIZES E OPERADORES ORTOGONAIS E UNITÁRIOS
Capítulo 8
Somas, somas diretas e projeções
Definição 8.0.6 (Soma de subespaços) Sejam W1 , . . . , Wk subespaços vetoriais

de V. Dizemos que W é soma dos Wi , e escrevemos
W = W1 + · · · + Wk ,
se W é o subespaço gerado pela união dos Wi .
É imediato que um vetor α pertence a W se e somente se pode ser escrito na

forma α = α1 + · · · + αk , com αi ∈ Wi ainda que esta decomposição possa não ser
única. O caso da unicidade é distintivo, e será comentado abaixo.
Exemplo 8.0.1 Seja V o espaço R3 , e sejam W1 = {(x, 0, 0) : x ∈ R} (o que

usualmente chamamos de "eixo OX"), W2 = {(x, y, 0) : x, y ∈ R} ("plano XY"), e
W3 = {(0, y, 0) : y ∈ R} ("eixo OY"), e W4 = {(0, 0, z) : z ∈ R} ("eixo OZ"). Então
R3 = W1 + W2 + W4 = W1 + W3 + W4 , W2 = W1 + W3 .
Definição 8.0.7 (Soma direta) Seja W = W1 +· · ·+Wk nas condições da definição

precedente. Dizemos que a soma é direta, e escrevemos
W = W1 ⊕ · · · ⊕ Wk
se, para todo 2 ≤ j ≤ k, tivermos W j ∩ (W1 + · · · + W j−1 ) = {0}.
Pode-se agora demonstrar que se a soma é direta, um vetor α ∈ W pode ser

escrito de modo único como α = α1 + · · · + αk , com αi ∈ Wi .
Exercício 8.0.5 A partir do exemplo anterior, mostre que W2 = W1 ⊕ W3 , R3 =

W1 ⊕ W3 ⊕ W4 , mas que a soma R3 = W1 + W2 + W4 não é direta.
65
66 CAPÍTULO 8. SOMAS, SOMAS DIRETAS E PROJEÇÕES
Definição 8.0.8 (Subespaço invariante) Seja T operador linear sobre V e W su-

bespaço de V. Então W é invariante sob T se para cada ξ ∈ W, tem-se que
T (ξ) ∈ W.
Definição 8.0.9 (Projeção) Uma projeção sobre um espaço vetorial V é um ope-

rador E sobre V tal que E 2 = E.
Recorde que E 2 = E.E, sendo a operação indicada a composição (produto) de

operadores. Suponhamos que W = W1 ⊕ · · · ⊕ Wk , e α = α1 + · · · + αk conforme
acima. Para cada i = 1, . . . , k definimos um operador projeção do seguinte modo:
E1 (α) = αi . Assim, podemos escrever α = E1 (α) + · · · + Ek (α), e tendo em vista
que I(α) = α (operador identidade), vem que
I = E1 + · · · + Ek .
Teorema 8.0.4 Seja T operador linear sobre V, W1 , · · · , Wk subespaços de V,

tais que V = W1 ⊕ · · · ⊕ Wk , e sejam Ei projeções associadas aos subespaços Wi .
Então, uma condição necessária e suficiente para cada Wi seja invariante sob T
é que T comute com cada Ei .
Demonstração: (Hofman & Kunze 1979, pp. 274-5).
Resultado importante é o seguinte, conhecido como Teorema Espectral, que

vale em particular para operadores hermitianos (ou ortogonais, no caso real):
Teorema 8.0.5 (Teorema Espectral) Se λ1 , . . . , λk são autovalores distintos de T

diagonalizável e Ei os operadores projeção sobre os espaços característicos dos
λi (i = 1, . . . , n), então
T = λ1 E1 + λ2 E2 + · · · + λk Ek .
Demonstração: Suponha T diagomalizável e λ1 , . . . , λk são autovalores distintos
de T . Sejam Wi (i = 1, . . . , n) os subespaços característicos associados aos autova-
lores correspondentes. Então sabemos que podemos escrever V = W1 ⊕ · · · ⊕ Wk .
Sejam Ei as projeções associadas a cada um dos espaços desta decomposição,
respeitando-se os índices. Então, para α ∈ V, podemos escrever α = E1 (α) + · · · +
Ek (α), logo T (α) = T (E1 (α) + · · · + Ek (α)) = T E1 (α) + · · · + T Ek (α), ou seja, tendo
em vista que os Wi são invariantes pela ação de T , então as projeções Ei comu-
tam com T , resultando T (α) = E1 T (α) + · · · + Ek T (α) = E1 c1 α + · · · + Ek ck α =
c1 Ei (α) + · · · + ck Ek (α), logo T = c1 E1 + · · · + ck Ek .
8.1. RESOLUÇÃO DA IDENTIDADE 67
Exercício 8.0.6 (i) Mostre que os operadores Ei definidos acima são de fato pro-
jeções. (ii) Mostre que para projeções, vale a expressão E I E j = 0 se i , j. (iii)
Mostre que a cada operador de projeção E está associado um subespaço vetorial
de V, e reciprocamente.
Notação: projeções Uma notação útil no caso da mecânica quântica é a se-

guinte. Seja W subespaço de V e {α1 , . . . .αk } base ortonormal para W. Então,
para α ∈ V, o operador X
EW (α) = hαi |αiαi
i
ou, na notação de Dirac,

X
EW (|αi) = hαi |αi|αi i
i
é um operador de projeção sobre W (exercício). Se a dimensão de W for 1, o vetor

projetado (suposto não nulo) é uma base para W, de sorte que podemos normalizá-
lo e chamá-lo de |ψi para simplificar, de sorte podemos escrever |ψi = hψ|αi|ψi =
|ψihψ|αi e então resulta a notação conveniente
EW = |ψihψ|.
Assim, para acharmos a projeção de |αi sobre W, basta obter
EW (|αi) = |ψihψ|αi,
que é um modo de reescrever EW (|αi) = hψ|αi|ψi da forma como estamos acostu-

mados, ou seja, com o escalar precedento o vetor.
8.1 Resolução da identidade

Iniciemos com um exemplo. Usando convenientemente a notação de Dirac, su-
ponha que temos um espaço de Hilbert H de dimensão 3 e que {|αi, |βi, |γi} seja
uma base para tal espaço. Seja U um subepaço de V gerado por |αi e |βi. Então
o operador
PU =def |αihα| + |βihβ|
é uma projeção sobre U (exercício). Ou seja,
PU (x|αi + y|βi + z|γi) = x|αi + y|βi.

Denotaremos por 1 o operador identidade sobre um espaçõ de Hilbert H. A

situação mais geral sugerida pelo que se viu acima é o operador identidade pode
ser escrito como soma de projeções
X
1= |αi ihαi |, (8.1)
i
onde {|αi i} é uma base de H. Uma tal expressão para 1 é denominada de resolu-
ção da identidade.
Claro que, para qualquer vetor |αi, tem-se que 1(|αi) = |αi, o que sugere que
podemos utilizar a resolução da identidade sempre que desejarmos. Disso vem
que, para qualquer |αi,
8.2 A função traço

A função traço associa cada matriz quadrada a um escalar que é a soma dos ele-
mentos de sua diagonal principal. Ou seja, se A = [ai j ] é de ordem n, então
n
X
T r(A) = aii .
i=i
No formalismo da física quântica, há um modo de representar a função traço

que é importante, o qual ainda mostra o significado da expressão "traço de um
operador", e resulta do seguinte
Teorema 8.2.1 Seja T operador linear sobre V com produto interno. Se a série
P
i hψi |T (ψi )i converge e tem o mesmo limite independentemente da base {|ψi i},
então X X
T r(T ) = hψi |T (ψi )i = hψi |T |ψi i. (8.2)
i i
Certamente, você já deve ter percebido que é indiferente falarmos do traço

de um operador ou de sua matriz representativa em uma base ortonormal (VER
VER). Com efeito, aceitando-se o teorema precedente, seja A matriz de T na base
canônica (como o teorema se refere a algo invariante pela troca de bases, basta
que consideremos a canônica). Suponha por simplicidade que o espaço seja o R2
e que !
a11 a12
A=
a21 a22
8.3. O VALOR ESPERADO DA MEDIDA DE UM OBSERVÁVEL 69
Como os vetores da base são ψ1 = (1, 0) e ψ2 = (0, 1), que na forma de matriz
(ou de suas coordenadas em relação à base canônica) vem que
2 ! ! ! !
X a a 1 a a 0
hψi |A|ψi i = (1 0) 11 12 + (0 1) 11 12 = a11 + a22 ,
a21 a22 0 a21 a22 1
i=1
que coincide com a definição dada acima.
8.3 O valor esperado da medida de um observável

O teorema anterior tem importância em física. Suponha que temos um sistema
físico e um observável que seja representado por um operador hermitiano Â, e
que esse sistema possa ‘ser preparado’ (terminologia dos físicos) nos n estados
possíveis |ψ1 i, . . . , |ψn i. Se p j denota a probabilidade de que o sistema tenha sido
preparado no estado |ψ j i (o conceito de probabilidade não foi ainda mencionado,
e deve ser aqui entendido de modo intuitivo), podemos indagar sobre o valor es-
perado da medida de Â para o sistema no estado |ψi = ni=1 |ψi i, é
P
n
X
hÂi|ψi = p j hψ j |Â|ψ j i. (8.3)
j=1
É um princípio básico da mecânica quântica que se conhecermos o valor es-

perado de todas as medidas, conheceremos tudo o que se pode conhecer sobre o
sistema.
Se {|αi i} é uma base ortonormal para H, como
Capítulo 9
Produto tensorial
(em preparo)
Consideraremos a situação de e espaços vetoriais, mas tendo em vista as apli-
cações que temos em mente, serão dois espaços de Hilbert) H 1 e H 2 . A gene-
ralização para um número finito qualquer de espaços é fácil de se fazer, e o caso
para infinitos espaços será visto mais à frente. Denotaremos por H1 × H2 o pro-
duto desses espaços, dito produto topológico, cujos elementos são pares da forma
ξ = (ψ1 , ψ2 ), com ψ1 ∈ H1 e ψ2 ∈ H2 .
Definição 9.0.1 (Funcional bilinear) Denomina-se funcional bilinear entre os es-

paços H1 e H2 (ambos sobre o corpo complexo C) a uma função f : H1 ×H2 ,→ C
que satisfaz as condições seguintes, para todos ψ1 , ψ2 ∈ H1 e φ1 , φ2 ∈ H2 :
1. f (a1 ψ1 + a2 ψ2 , φ1 ) = a1 f (ψ1 , φ1 ) + a2 f (ψ2 , φ1 )
2. f (ψ1 , b1 φ1 + b2 φ2 ) = b1 f (ψ1 , φ1 ) + b2 f (ψ1 , φ2 )
(CONTINUA)
71
72 CAPÍTULO 9. PRODUTO TENSORIAL
Capítulo 10
Apêndice A
Matrizes e operações com matrizes
Informalmente, uma matriz de ordem m × n, onde m e n são números naturais

não nulos, é uma tabela retangular com m linhas e n colunas, cujos elementos são
objetos de alguma natureza, como números, funções, outras matrizes, vetores, etc.
Se denotarmos os elementos de uma matriz A por ai j , onde 1 ≤ i ≤ m e 1 ≤ j ≤ n,
escrevemos A = (ai j ) e, ‘por extenso’, assim:
 a11 a12 . . . a1n 

 
 a a22 . . . a2n 
A =  21
 . . .


am1 am2 . . . amn
Uma definição precisa é a seguinte.
Definição 10.0.2 (Matriz m × n) Uma matriz A de ordem m × n sobre um con-

junto X é uma função cujo domínio é o conjunto I = {hi, ji : 1 ≤ i ≤ m, 1 ≤ j ≤ n}
e cujo contra domínio é X.
Como acima, as imagens dos pares hi, ji são denotadas por ai j ∈ X, e a notação
é acima.
Se m = n, a matriz se diz quadrada de ordem n (ou m). Uma matriz de ordem
m × n é dita matriz nula se ai j = 0 para todos i, j. Duas matrizes A = (ai j )
e B = (bi j ) são iguais se e somente se ai j = bi j para todos i e j. Importam
as seguintes definições. Se A é quadrada, os seus elementos aii formam a sua
diagonal principal.
73
74CAPÍTULO 10. APÊNDICE AMATRIZES E OPERAÇÕES COM MATRIZES
Definição 10.0.3 (Adição de matrizes) Sejam A = (ai j ) e B = (bi j ) matrizes de

ordens m × n sobre os conjuntos X e Y respectivamente. Denomina-se de soma
das matrizes A e B à matriz A + B = (ci j ) de mesma ordem, onde ci j = ai j + bi j ,
desde que esta operação de adição de elementos de X e de Y faça sentido.
A operação que às matrizes A a B associa a sua soma A + B denomia-se adi-

ção de matrizes. Quanto falarmos da adição de duas matrizes, suporemos que a
adição de seus elementos é sempre possível. Ademais, suporemos quase sempre,
exceto se dissermos explicitamente o contrário (como no exemplo abaixo), que o
conjunto X é um corpo, como R ou C. Por exemplo, podemos escrever, para A e
B matrizes de ordem 2 sobre o conjunto N dos números naturais:
2+0 3+1
! ! ! !
2 3 0 1 2 4
+ = =
4 5 7 8 4+7 5+8 11 13
Conceitos importantes são os seguintes. Em uma matriz quadrada Uma matriz
de ordem n A = (ai j ), os elementos ai j para os quais i = j são os elementos da
diagonal principal de A. A matriz quadrada de ordem n I = (δi j ), onde δi j = 0 se
i , j e δi j = 1 se i = j é dita matriz identidade de ordem n; δi j assim definido é
denominado de delta de Kronecker.
Definição 10.0.4 Seja A = (ai j ) matriz de ordem m × n sobre X e k um elemento

para o qual a multiplicação de k pelos elementos de X faça sentido. Definimos
então a matriz kA, dita produto da matriz por k como sendo a matriz de ordem
m × n cujos elementos s ao kai j .
Obviamente, a matrix kA obtém-se multipliando cada elemento de A por k. Se

k = −1, denota-se a matriz kA por −A (dita oposta de A).
As seguintes propriedades podem ser facilmente demonstradas (exercício):
Teorema 10.0.1 Sejam A, B e C matrizes de mesma ordem e de sorte que suas

somas possam ser encontradas, e 0 matriz nula de ordem compatível com as ope-
rações indicadas. Então, tem-se:
1. A + (B + C) = (A + B) + C (associatividade da adição)
2. A + B = B + A (comutatividade da adição)
3. A + 0 = A (a matriz nula é o elemento neutro relativamente à adição de

matrizes)
75
4. A + (−A) = 0 (toda matriz adimite uma ‘inversa’ relativamente à adição de

matrizes)
Este teorema mostra queo conjunto das matrizes de ordem m × n sobre um

conjunto X (sobre o qual as operações usuais estejam definidas) forma um grupo
comutativo.
Suponha agora que consideremos as matrizes de ordem m × n sobre um corpo
numérico K. Demonstra-se facilmente que (exercício):
Teorema 10.0.2 Sejam A e B matrizes como acima, e k, l ∈ K. Tem-se:

1. k(A + B) = kA + kB
2. (k + l)A = kA + lA
3. k(lA) = (kl)A
4. 1A = A (onde 1 é o elemento identidade de K)
Com os dois teoremas acima, vê-se que o conjunto das matrizes de ordem m×n
sobre um corpo K é um espaçõ vetorial sobre K. Interessa-nos particularmente o
caso das matrizes quadradas, que consideraremos doravante, exceto quanto men-
cinado o contrário. Podemos dotar o espaço vetorial das matrizes quadradas de
ordem n sobre um corpo K com um produto interno, como faremos abaixo. Antes,
uma definição importante, a de produto de matrizes, que definiremos de maneira
geral.
Definição 10.0.5 (Produto de matrizes) Sejam A = (ai j ) e B = (b jk ) matrizes de

ordens m × n e n × p respectivamente, ambas sobre o mesmo corpo K. Chama-se
produto das matrizes A e B (nesta ordem) à matriz AB = (cik ), de ordem m × p,
tal que
Xn
cik = ai j b jk .
k=1
Note as condições da definição. O esquema abaixo ilustra os seus elementos

principais: se A tem m linhas e n colunas, para que produto possa ser definido, a
matriz B tem que ter n linhas. Se ela tem p colunas, a matriz produto terá m linhas
e p colunas; informalmente,
m×n · n× p = m × p.
Exemplifiquemos com o produto de duas matrizes de ordem 2:
a11 b11 + a12 b21 a11 b12 + a12 b22

! ! !
a11 a12 b11 b12
· =
a21 a22 b21 b22 a21 b11 + a22 b21 a21 b12 + a22 b22
Com um pouco de dedicação, é fácil ver que vale o seguinte
Teorema 10.0.3 Sejam A, B e C matrizes de ordens tais que todos os produtos e

somas indicados abaixo sejam definidos. Então,
1. A(BC) = (AB)C (associatividade da multiplicação de matrizes)
2. k(AB) = (kA)B = A(kB) para todo k
3. A0 = 0 (para A e 0 de ordem n)
4. AI = IA = A (para A e I de ordem n)
O produto de matrizes, no entanto, não é comutativo, ainda que haja matri-

zes parriculares que comutem (como ilustra o caso (4) do teorema acima). Uma
notação relevante em física é a seguinte:
[A, B] = AB − BA. (10.1)
Se A e B comutam, obviamente [A, B] = 0.
Definição 10.0.6
1. (Matriz Simétrica) A quadrada é simétrica se ai j = a ji para todos i, j.
2. (Matriz Diagonal) A quadrada é diagonal se ai j = 0 para i , j.
3. (Matriz Transposta) Chama-se de transposta de A de ordem m × n à matriz

AT = (bi j )de ordem n × m tal que bi j = a ji .
4. (Matriz Conjugada) Chama-se conjugada de A de ordem m × n sobre um

corpo numérico K à matriz A? = (bi j ) tal que bi j = a ji
5. (Matriz Transposta Conjugada) Chama-se transposta conjugada de A de

ordem m×n sobre um corpo numérico K à matriz A? = (bi j ) tal que bi j = ā ji ,
onde ā ji é o conjugado de a ji .
77
Assim, a matriz transposta de A é obtida trocando-se as linhas e as colunas

de A de forma ordenada. A sua transposta conjugada é obtida transpondo-se A
e conjugando seus elementos (ou o contrário, o que dá na mesma). Se A é uma
matriz real (seus elementos são números reais), então a conjugada de A é a própria
A.
Exercício 10.0.1 Ilustre a definição acima com exemplos, considererando matri-

zes complexas no caso da transposta conjugada. Considere os casos particulares
das matrizes unitária e nula (de ordem n).
Definição 10.0.7 (Traço de uma matriz) Chama-se traço de uma matriz qua-
drada A = (ai j ) de ordem n sobre um corpo K ao escalar
n
X
T r(A) = aii . (10.2)
i=1
Ou seja, o traço de A é a soma dos elementos de sua diagonal principal. A

funa̧o traço tem um importante papel em física.
Podemos dotar o espaço vetorial das matrizes quadradas de ordem n sobre um
corpo K (R ou C) de um produto interno assim definido:
Definição 10.0.8 (Produto Interno definido pelo traço)
hA, Bi = T r(AB? ). (10.3)
Obtemos um outro produto interno pondo hA, Bi = T r(A? B). Em física, um

ou outro é utilizado dependendo da preferência do autor. Se K = R, a definição
(10.3) torna-se hA, Bi = T r(ABT ) (respectivamente, hA, Bi = T r(AT B) no caso da
definição alternativa).
Exercício 10.0.2 Mostre que (10.3) define de fato um produto interno sobre o
espaço das matrizes acima referido.
Capítulo 11
Apêndice B
Noções de cálculo diferencial
Revisaremos nesta seção alguns dos principais conceitos do cálculo diferencial,

em especial os de limite e derivada de uma função. Suporemos sempre que es-
tamos operando no corpo dos números reais ou dos complexos, exceto se dito o
contrário. Iniciamos com um pouco de história.
11.1 Um pouco de história
11.2 Funções
Se f : A 7→ B é uma função em uma só variável independente x, chamando y o
valor f (x), dizemos que y é a variável dependente. A notação
y = f (x)
é sugestiva, com x percorrendo A e y assumindo valores em B.

Exemplos relevantes são funções de R em R, ditas funções reais (pois assu-
mem valores reais) de (uma) variável real (sua variável independente percorre R,
ou um seu sub-conjunto. Alternativamente, x poderia assumir valores complexos,
naturais, racionais, percorrer um conjunto de polinômios, de matrizes, de vetores,
etc. Um exemplo típico é o da função determinante: para cada matriz quadrada A
(digamos, real), associamos um número real, dito determinante de A que obedece
certas condições (que definem a função). Se Rn×n representa o conjunto das ma-
79
80 CAPÍTULO 11. APÊNDICE B NOÇÕES DE CÁLCULO DIFERENCIAL
trizes reais quadradas de ordem n, esta função é uma função de Rn×n em R. Isso
mostra que os conjuntos A e B não necessitam ‘ter a mesma natureza’.
Uma função pode, no entanto, ter muitas variáveis independentes, digamos n,
a saber, x1 , . . . , xn . Neste caso, escrevemos
y = f (x1 , . . . , xn )
para denotá-la. Exemplos importantes em nosso estudo são certas funções que
associam a cada par de vetores α e β de um K-espaço vetorial V um escalar
hα|βi ∈ K chamado de produto interno entre α e β. Neste caso, n = 2.
Casos relevantes de funções são as que têm domínio em algun subconjunto do
R (ou do Cn ) e contra-domínio Rm (ou Cm ). Se escrevermos x̄ = hx1 , . . . , xn i e
n
ȳ = hy1 , . . . , ym i, podemos usar a mesma notação acima e escrever
ȳ = f ( x̄)
para representar uma tal função.

Exemplos particularmente importantes são certas funções de um espaço veto-
rial em outro (eventualmente, no mesmo) que obedecem as chamadas ‘condições
de lineraridade’. Tais funções são denominadas de transformações linerares, e de
operadores linerares no caso de serem funções lineares de um espaço nele mesmo.
Isso é estudado mais detidamente na seção 5.
O conjunto dos valores de x para os quais f está definida chama-se domínio
de f . A notação f : A 7→ B sugere que A é o domínio de f , mas pode ser que nem
todo elemento de B seja ‘imagem’ (por f ) de algum elemento de f . O conjunto B
é chamado de contra-domínio de f , e o sub-conjunto dos elementos de B que são
imagens de algun x ∈ A chama-se imagem de f , denotado Img( f ). Assim,
Img( f ) = {y ∈ B : (∃x ∈ A)(y = f (x))}.
'$ f '$

x y Img( f )

&% &%
A = dom( f ) B = codom( f )
Figura 11.1: Uma função de A em B e seus elementos principais.

11.2. FUNÇÕES 81
Muitas vezes o domínio de uma função não é especificado, ficando implícito

pelo contexto. Por exemplo, podemos olhar a igualdade y = 1/x como definindo
uma função real de variável real, e devemos então notar que dom( f ) = R − {0}.
Definição 11.2.1 (Funções injetivas, sobrejetivas, bijetivas) Seja f : A 7→ B

uma função de A em B. Vêm então os seguintes conceitos:
1. (Função injetiva) f é injetiva se para todos x, y ∈ A, f (x) = f (y) implica

x = y. Alternativamente (tomando a contrapositiva da implicação ante-
rior), x , y implica f (x) , f (y). Informalmente, nunca dois elementos
distintos de A podem ter a mesma imagem em B (veja a figura 11.2 abaixo).
Nomes alternativos são função injetora e função unívoca (ainda que este
último seja pouco comum atualmente).
2. (Função sobrejetiva) f é sobrejetiva (ou sobrejetora)se para todo y ∈ B

existe x ∈ A tal que y = f (x). Intuitivamente, f é sobre B, ou seja, não há
elemento de B que não seja imagem de pelo menos um elemento de A.
3. (Função bijetiva) f é bijetiva (ou bijetora) se for injetiva e sobrejetiva.

O que informalmente significa haver uma correspondência 1 × 1 entre os
elementos de A e de B. Algumas vezes (raramente na atualidade) essas
funções são denominadas de biunívocas.
'$'$
x f z
y
A &% &%
B
Figura 11.2: Se f for injetiva, o que representa a figura acima não pode ocorrer,
ou seja, elementos distintos de A terem a mesma imagem.
Exemplo 11.2.1
Definição 11.2.2 (Composição de funções) Sejam f : A 7→ B e g : B 7→ C.

Chama-se de composta de f e g (nesta ordem) à função g ◦ f : A 7→ C definida
por
(g ◦ f )(x) = g[ f (x)].
Img( f ) Img(g)
f '$
'$ g '$

Img(g ◦ f)

&% &% B &% C
A
g ◦ f : A 7→ C
Figura 11.3: Composição das funções f : A 7→ B e g : B 7→ C. Os elementos
x ∈ A são levados por f em Img( f ). Os elementos y ∈ B são levados em Img(g),
mas somente os elementos de Img( f ) são levados em Img(g ◦ f ).
A notação não deve enganá-lo: informalmente, f ‘vem antes’ do que g na

composta g ◦ f , ou seja, primeiro aplicamos f , e depois aplicamos g.
Exemplo 11.2.2
Observação A composição de funções é associativa, mas em geral não é co-

mutativa. No entanto, é uma operação binária sobre o conjunto das funções de
A em B. Se A = B, esta operação admite um elemento neutro, a saber, a função
identidade i : A 7→ B, definida por i(x) = x para todo x ∈ A.
Definição 11.2.3 (Função inversa) Seja f : A 7→ B. Chamamos de inversa à esquerda
de f a uma função g : B 7→ A tal que g ◦ f = iA , onde iA é a função identidade so-
bre A. Chama-se inversa à direita de f a uma função h : B 7→ A tal que f ◦ h = iB ,
sendo iB a função identidade sobre B. Denomina-se inversa (simplesmente) de f
a uma função f −1 : B 7→ A tal que f ◦ f −1 = iA e f −1 ◦ f = iB ( f −1 é inversa de f
tanto à direita quanto à esquerda).
Importante é sabermos quanto essas inversas existem. O teorema abaixo for-
nece as condições necessárias e suficientes.
Teorema 11.2.1 (Existência das inversas)
1. Uma função admite inversa à esquerda se e somente se for injetiva.
2. Uma função admite inversa à direita se e somente se for sobrejetiva.
3. Uma função admite inversa se e somente se for bijetiva.
Demonstração:
Exercício 11.2.1 Mostre que o conjunto das funções bijetivas de A em A munido

da operação de composição de funções é um grupo (não comutativo).
11.3. LIMITES DE FUNÇÕES E DE SEQUÊNCIAS 83
Observação Um fato digno de nota é o seguinte, resultante da prova do item 2

do teorema anterior. Suponha que f não é injetiva. Assim, pelo item 1, ela não
admite inversa à esquerda, mas nada impede que tenha inversa à direita (veja a
figura seguinte).
'$'$
x f z
y
A &%&%
B
Figura 11.4: Para se definir a inversa à direita de f : A 7→ B que não é injetiva,

necessitamos postular que, para cada z ∈ B, podemos escolher um elemento x ∈ A
tal que g(z) = x. Isso pode parecer óbvio do ponto de vista intuitivo, mas trata-se
de uma das questões mais problemáticas da matemática moderna.
No entanto, para definir h : B 7→ A como a inversa à direita de f : A 7→ B,

necessitamos saber qual a imagem inversa de z ∈ B, e há duas opções pelo menos
no caso de f não ser injetiva (a figura acima mostra duas opções, x e y). No caso
geral, não há como contornar esse problema; necessitamos postular que podemos
selecionar (escolher) uma imagem (por g) para cada elemento z pertencente a
B (como f por hipótese é sobrejetiva, Img( f ) = B). Este postulado é um dos
essenciais da matemática usual, e chama-se de Axioma da Escolha. Sem ele, não
podemos provar que uma função sobrejetiva admite inversa à direita. (Outros fatos
importantes sobre este axioma aparecem em outras partes deste texto, como a sua
necessidade para provar–no geral–que todo espaço vetorial possui uma base).
11.3 Limites de funções e de sequências

Seja f : A 7→ B uma função. A idéia intuitiva de que f tem um limite b ∈
B em um ponto a ∈ A é a de que à medida em que os valores assumidos pela
variável independente x se aproximam de a, os valores da variável dependente y
se aproximam de b. O problema é dar um sentido preciso a essa idéia.
Na sua origem, o cálculo foi chamado de cálculo infinitesimal ....
O conceito de infinitésimo foi banido do cálculo pela introdução dos chamados
‘epsilons e deltas’, devidos principalmente ao matemático francês A. L. Cauchy
(datas). Em terminologia atual, dizemos que a função real de uma variável real f
tem limite b quando sua variável independente x tende a a, em símbolos,
lim f (x) = b, (11.1)

x→a
para simplificar a seguinte sentença:
(∀ > 0)(∃δ > 0)(0 < |x − a| < δ → | f (x) − b| < ).
(MAIS)
11.3.1 Derivadas
Capítulo 12
Apêndice C
Noções sobre cálculo integral
85
86 CAPÍTULO 12. APÊNDICE C NOÇÕES SOBRE CÁLCULO INTEGRAL
Capítulo 13
Apêndice D
Noções sobre equações diferenciais
87
88CAPÍTULO 13. APÊNDICE DNOÇÕES SOBRE EQUAÇÕES DIFERENCIAIS
Bibliografia
[Barsotti 1973] Barsotti, L., Álgebra Linear, A. M. Cavalvante & Cia., Curitiba, 1973.
[Brown 1979] Brown, H. B. 1979, Filosofia da Macânica Quântica, Notas de Aula, Uni-
versidade Estadual de Campinas.
[da Costa 2005] da Costa, N. C. A. 2005,
[da Costa & Rodrigues 2007]
[Chang & Keisler 1980]
[Halmos 1993] Halmos, P. R. 1993, Finite Dimensional Vector Spaces, Springer.
[Hoffman & Kunze 1979] Hoffman, K. e Kunze, R., Álgebra Linear, LTC, Rio de Ja-
neiro, 2a. ed., 1979.
[Krause 2002] Krause, D. 2002, Introdução aos Fundamentos Axiomáticos da Ciência,

S. Paulo, EPU.
[Lichnerowicz 1987] Lichnerowicz, A. 1987, Éléments de Calcul Tensoriel, Paris, Jac-

ques Gabay (reimpressão da edição de Armand Colin, 1946).
[McMahon 2005] McMahon, D. 2005, Quantum Mechanics Demystified: A Self-

Teaching Guide, New York, McGraw-Hill.
[Mendelson 1997] Mendelson, E. 1997
[Redhead 1987] Redhead, M., Incompleteness, Nonlocality and Realism: A Prolegome-

non to the Philosophy of Quantum Mechanics, Oxford, Clarendon Press, 1987.
[Shoenfield 1967] Shoenfield, H. B. 1967,
[Wallace 2006] Wallace, D. 2006,
89

QM PDF

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

QM PDF

Enviado por

Direitos autorais:

Formatos disponíveis

Fundamentos Filosóficos da Física

(para uso exclusivo em sala de aula)

Universidade Federal de Santa Catarina

September 16, 2009

c Grupo de Lógica e Fundamentos da Ciência – UFSC/CNPq

1 A base lógica e matemática 5

6 Autovetores e autovalores, diagonalização 57

7 Matrizes e operadores ortogonais e unitários 61

8 Somas, somas diretas e projeções 65

Este texto destina-se a estudantes de filosofia, matemática ou física que tenham

A base lógica e matemática

A teoria matemática na qual trabalharemos, e na qual todos os conceitos neces-

1. Uma coleção enumerável de variáveis individuais, que denotaremos por

2. Os símbolos lógicos usuais, a saber: conectivos proposicionais ∧, ∨, →, ¬,

3. Símbolos de pontuação: parênteses e vírgula.

4. O símbolo de pertinência, ∈, entendido como um símbolo de predicado bi-

As fórmulas de LZFC são definidas por recursão, da seguinte forma: as fór-

como usual, A ∧ B, A ∨ B e A ↔ B como abaixo. Finalmente, ∀xA é uma fórmula,

1. A ∧ B =def ¬(A → ¬B)

4. ∃xA =def ¬∀x¬A

5. x < y =def ¬(x ∈ y)

7. ∃P xA =def ∃x(P(x) ∧ A) (quantificador existencial restrito)

8. ∀P xA =def ∀x(P(x) → A) (quantificador universal restrito)

Os postulados de ZFC podem ser divididos em dois grupos, os da lógica clás-

1.1 Os postulados da lógica elementar clássica

2. (A → (B → C)) → ((A → B) → (A → C))

3. (¬A → ¬B) → ((¬A → B) → A) (Redução ao Absurdo)

4. A, A → B/B (Modus Ponens)

6. ∀x(A → B(x)) → (A → ∀xB(x))

8. ∀x(x = x) (Reflexividade da Identidade, ou Princípio da Identidade)

9. ∀x∀y(x = y → (A(x) → A(y)) (Substitutividade da Identidade)

Os detalhes sobre esse (e outros equivalentes) sistema podem ser vistos em

1.2 Os postulados de ZFC

Ou seja, um conjunto é ‘determinado’ pelos seus elementos. Observe que a re-

de ZFC.1 que A = A0 . Ou seja, há um único conjunto vazio; introduz-se então,

(ZFC.3) [Axioma do Par] Dados x e y quaisquer, existe um conjunto que contém

hx, yi = hz, wi see x = z ∧ y = w. (1.4)

Usando-se a definição acima de par ordenado, pode-se introduzir os con-

Dizemos que x é subconjunto de y, e escrevemos x ⊆ y, se todo elemento de x

(ZFC.5) [Esquema da Separação] Seja F(x) uma fórmula de ZF (uma ‘pro-

∀z∃y∀x(x ∈ y ↔ x ∈ z ∧ F(x)) (1.5)

∀x∃!yα(x, y) → ∀z∃w∀t(t ∈ w ↔ ∃s(s ∈ z ∧ α(s, t)) (1.6)

∀z∃w∀t(t ∈ w ↔ ∃s(s ∈ z ∧ s = t ∧ β(s))),

e portanto o conjunto w é o conjunto cujos elementos são os elementos de t que

∀x∃y∀z(z ∈ y ↔ ∃t(z ∈ t ∧ t ∈ x)) (1.7)

∀x(x , ∅ → ∃y(y ∈ x ∧ x ∩ y = ∅)).

ZFC.9 [O Axioma do Infinito] Este axioma assegura a existência de um conjunto

∃x(∅ ∈ x ∧ ∀y(y ∈ x → y ∪ {y} ∈ x)).

∧ y ∩ z = ∅)) → ∃y∀z(z ∈ x → ∃w(y ∩ z = {w}))).

1.3 Dedução em ZFC

enunciamos isso usando, como é comum em matemática, a palavra ‘Teorema’

Em tudo o que se segue, supomos que trabalhamos na teoria ZFC apresentada

2.1 Leis de composição e elementos notáveis

Isso é simplesmente um modo ‘matemático’ de dizer que estamos tomando

Definição 2.1.2 (Operações associativa, comutativa, distributiva) Sejam ∗ e 

2. ∗ é comutativa se, para todos a, b ∈ A, temos que a ∗ b = b ∗ a.

3. ∗ é distributiva relativamente a  se, para todos a, b, c ∈ A, temos que

(a) a ∗ (b  c) = (a ∗ b)  (a ∗ c) (distributividade à direita)

Evidentemente, se ∗ é comutativa, sendo distributiva à esquerda (direita) rela-

Definição 2.1.3 (Elemento Neutro) Um elemento e ∈ A é um elemento neutro

Teorema 2.1.1 Se ∗ admite elemento neutro, ele é único.

Por exemplo, 0 é elemento neutro para a adição de reais, e a função identi-

Exercício 2.1.3 A multiplicação de reais admite elemento neutro? E a operação

Definição 2.1.2 (Operações associativa, comutativa, distributiva) Sejam ∗ e

3. ∗ é distributiva relativamente a se, para todos a, b, c ∈ A, temos que

(a) a ∗ (b c) = (a ∗ b) (a ∗ c) (distributividade à direita)